DeepSeek 昨天开源发布了 V4 版本,为什么这是值得花时间聊一聊呢?它是目前最大的免费开源 AI,国产芯片就能跑,而且在很多能力上第一次追平了 GPT、Cloud 这类闭源大厂。大家好,我是小木头,我自己是AI爱好者,谈不上学术专家,所以这期视频不会陷进论文里那些底层数学和技术的细节,重点放在V4都有哪些变化,这些变化对咱们普通用户来说意味着什么。
V四的发布时间是四月二十四日。DeepSeek同时开源了两个版本,还配了五十二页的技术报告。咱们先把四个关键数字摆出来。V4分两个版本,高配版叫V4 Pro,一点六万亿参数。如果你知道ChatGPT的大致规模,V4 Pro已经是同级别的。关键是完全免费下载,想自部署都行。轻量版叫V4 Flash,二百八十四亿参数,压缩之后普通Mac本地都能跑,一次能读一百万token。
大概七十五万字,三本《三体》同时读进去不忘记的长度。V4免费开源,MIT协议,商用改动都可以。它比上一代省了百分之七十的算力,这条直接决定了API调用价格能便宜多少。对你的影响是什么呢?以后AI服务能做的事情会更多,更便宜。V四到底改了什么?DeepSeek说,这次主要改了四个地方,具体名字不用记,每个都是在解决不同的问题。
第一个是注意力机制的升级,让AI读长文档时更省算力。第二个叫做残差连接升级,这个比较技术,简单说就是让非常深的神经网络训练起来不会崩。第三个呢是优化切换,训练过程中用的数学工具升了级,收敛更快更稳。第四个后训练流程大改,以前靠强化学习让AI变聪明,这次改成了叫蒸馏的新方法。这四个加在一起,就是V四为什么能又大又高效。
先说那个残差连接的改动,MHC让一点六T的神经网络能稳稳搭起来不坍塌。训练一个超大的深度神经网络,就像往上搭一座很高的塔,塔越高越容易在搭的过程里晃动坍掉,这是学术界的老问题。以前有个方案叫HC,相当于给塔外加了框架,但这个外框架本身也不稳。层数堆深了后还是会崩,而 V4
的做法是给这个外框架加了一个数学约束,每一层的框架都不能把上层信号放大,只能原样传下去或者缩小,这样塔就可以搭得非常高也不会崩。
对用户来说,只需要记住一件事就好,这是让 1.6T 这么大的模型能训练出来的基础之一。没有这个设计,塔搭到某一层可能就崩了。我们今天可能就看不到V四。然后讲注意力机制的改动,这个跟你以后用AI的体验直接相关。AI读文本时,每读一个新字都要回头看前面所有字来理解上下文,这叫注意力机制。传统做法是每个字跟之前所有字都比一遍,读一百个字还行,读一百万字的话,这个计算量会爆炸。
V4用了两种新注意力混合。一种专门抓重点,像你读小说时只记关键情节;一种是精简版,但还是看全部。两种配合使用,结果就是一百万字长度下,算力只要上一代的百分之二十七,缓存占用只要百分之十。对你的影响是什么呢?以后想让AI做这些事的成本会降一大档。读完一整本书再回答问题,或者把一个项目全部代码扔进去让它重构。
或者继续你一百小时之前那个对话,这些以前太贵做不了的事情,V四之后会从试试看变成可以常态用。然后是训练稳定性。训练一个1.6T的模型,就像煮一锅超大份的汤,火大了糊底,火小了煮不熟,搅得不匀就分层。三十二万亿个字的原料一次煮下去,过程里任何一个地方出问题,整锅都报废。论文里讲的训练稳定性三件套,具体名字分别叫
Nuan 优化器、Anticipatory Rewinding 以及 Switch L U Clamping,这三个就是这锅大汤的温控机制。
细节不重要,对普通用户的意义只有一句话:没有这三件小心翼翼的工程细节,训练中途会崩,很有可能就不会有今天的 V4。关于后训练的变革,这是V4方法学上改的最狠的地方。以前的做法是什么呢?给一个通用模型做几轮强化学习,让它在各个领域都变强。问题是强化学习不稳定,容易顾此失彼。数学变好的时候,编程可能下滑。
V4的新做法是分两步。第一步,训多个小专家,先训一个专门精通数学的,一个专门精通编程的,一个专门精通调用工具的,等等。每个专家在自己领域做到最强。第二步,合并成一个大模型。通过一种叫蒸馏的技术,把这十多个专家的本事全部合并到一个统一的模型里。合并方式就是让这个统一模型向每个专家学习他们各自擅长的东西。
创新点在于模型自己当裁判,不再用传统的人工打分的模型,让模型同时担任答题和批改的两个角色,减少人工标注。对用户来说的意义很直接。V4不是在某个领域特别强,在别的领域一般。它把每个领域专家的本事都继承过来了,所以你会看到编程、数学、中文、Agent这些领域,它都蛮能打的。产品层面,V四给了你一个特别实用的能力——三档思考深度,像汽车的经济、普通、运动三档。
一档不思考,日常聊天直接出答案,反应最快,八K的上下文就够了。第二档中等思考,遇到需要推理的问题会先想一会儿再答,准确率高但稍稍的慢一些,一百二十八k上下文。第三档极限思考,探索模型的上限,会用非常长的思考时间换回最准的答案,三百八十四k以上的上下文,你需要特意用特殊指令来激活。那平时怎么选呢?在日常聊天和简单查询中,我们往往使用第一档;写代码、分析问题,使用第二档;复杂的推理,比如数学难题等等,考虑使用第三档。
在API调用里,通过一个参数就能切换,非常方便。另外,V4在工具调用,也就是AI调用外部工具,比如搜网页、跑代码的说话格式上做了改进,降低了出错率,做Agent应用的开发者会直接受益。V4编程能力达到真人选手前二十五名。在跑分方面,V4这次最爆炸的数字就是在编程竞赛Codeforces上拿到了三千二百零六分,这代表什么呢?
Codeforces 是真人程序员打比赛的地方,三千二百零六分,在真人选手里排到全球前二十五。这是第一次有开源模型能打到这个档位,之前能拿到这个分数的只有 GPT 和 Claude。其他几个跑分也一并说一下吧。Libco Bench 九十三点五分,代码写对率开源中的第一名。数学竞赛 HMMT 九十五点二分,博士水平科学题 GPQA 九十点一分。
V4在代码、数学、推理这一路,开源第一次真的追平了闭源。当然,知识类和长上下文类还差一些。论文自己说落后前沿闭源大概三到六个月,但对普通用户来说,这个差距已经完全可以接受了。跑分还是跑分,真实场景用起来怎么样呢?论文专门测了几个真实任务,第一个中文写作,V四Pro对Gemini三点一Pro胜率百分之六十二点七。
原因很有意思,Gemini 在中文场景会把自己风格覆盖用户要求,V4 则更加尊重你原来的意图。第二个,中文白领任务,金融、教育、法律、科技十三个行业的三十个实际工作任务,V4 对 Claude Opus 4.6 胜率百分之五十三。R&D工程任务,DeepSeek自己团队挖了两百个真实工程任务,比如修bug、加feature、重构代码。
Visor Pro过关率百分之六十七,超过了Sonar四点五的百分之四十七。接近于 OPPO 4.5 的百分之七十。最后是内部开发者调研,八十五个工程师里,百分之五十二说愿意把 V4 作为默认主力,百分之三十九倾向是,不到百分之九说不。意思就是说,DeepSeek 员工自己用了都觉得足够替代外国闭源的模型。
回到最开始讲的那个效率,具体意义就在这里。在处理一百万字级别的长内容时,V4 Pro算力上只要上一代的百分之二十七,三点七倍便宜。V4 Flash只要百分之十,快了十倍。来翻译成你能感受到的场景:以前想让AI读完一份两百页合同再回答问题,太贵不想用;现在便宜了三点七倍,可以常态用。以前想把小说或一个项目全部代码扔进去,或许超出预算;现在负担得起。
以前想让 AI 记住几周前跟你的对话,要重新送上下文很贵。现在呢,都能稳住了。这些是从试试看变成了日常可用,就是 V4 这套效率改进的真正价值。接下来是这次发布最值得单独聊的一个信号:V4 是第一个深度适配国产 AI
芯片的前沿开源模型。第一件事,升腾九五零P二芯片,这是华为最新的AI旗舰芯片。DeepSeek把V四的底层代码从NVIDIA的CUDA专门重写成了华为的CANN框架,相当于换了套驱动,让模型跑在国产芯片上。
第三方测试显示,升腾九五零P二跑V四的单卡性能是NVIDIA H20的二点八七倍。第二件事,升腾A三超节点。华为同日宣布,整个升腾A3超节点系列全面支持V4训练和推理都能跑。那么对咱们普通用户的意义是什么呢?第一,国内 AI 服务更稳;第二,国产算力终于有前沿模型可以跑。过去国产芯片只能跑小一号的模型,V 四之后这个局面变了。
国内媒体把这一次叫做“中国 AI 的安卓时刻”,意思是软硬件在本土凑齐了一套完整的站,不再只是在别人的基础上搭。这个长期信号可能比模型本身还重要。论文最后一章 Limitations,DeepSeek 写得非常诚实,三件他自己承认的局限。第一个是跟最前沿的闭源模型落后三到六个月,虽然 V4 已经追上了大部分,但 GPT 5.4 和 Gemini 3.1 Pro 还有一段明显的差距。
第二点是架构还是太复杂,他们自己说为降低风险保留了很多已经验证过的组件,下一代会更加精简,意思是现在这个版本还有很大的优化空间。第三件是有些设计,他们自己也没完全搞懂为什么会工作,这是一种挺学术的诚实,实验上有效,但理论上还没有实现闭环。这种诚实的 limitations 章节,在现在的 AI 发布里越来越少见了,因此我觉得值得单独的提一下。
好了,最后咱们三句话总结一下吧,这版核心是更省,不是更大。长文档、大项目、深度 agent 这些场景的成本加了一大档,让以前因为贵不敢用的场景变得日常可用。第二呢,作为开源。第一次真正追上B元,这是非常有意义的。编程、数学、中文Agent多项任务上,V四跟Claude、GPT已经能够平起平坐。第三点,硬件绑定了国产,跑在昇腾九五零PR上,国产算力站第一次有前沿模型可以承载,这层意义超越了模型本身。
论文中还有很多有趣的技术细节,感兴趣的朋友可以去 Hugging Face 看论文,我会将论文的链接放在视频描述中。好了,今天就聊到这里,感谢大家收看,我们下期见。