DeepSeek V4开源 - 开源AI的新天花板 + 华为昇腾原生适配文字稿

DeepSeek 昨天开源发布了 V4 版本，为什么这是值得花时间聊一聊呢？它是目前最大的免费开源 AI，国产芯片就能跑，而且在很多能力上第一次追平了 GPT、Cloud 这类闭源大厂。大家好，我是小木头，我自己是AI爱好者，谈不上学术专家，所以这期视频不会陷进论文里那些底层数学和技术的细节，重点放在V4都有哪些变化，这些变化对咱们普通用户来说意味着什么。

V四的发布时间是四月二十四日。DeepSeek同时开源了两个版本，还配了五十二页的技术报告。咱们先把四个关键数字摆出来。V4分两个版本，高配版叫V4 Pro，一点六万亿参数。如果你知道ChatGPT的大致规模，V4 Pro已经是同级别的。关键是完全免费下载，想自部署都行。轻量版叫V4 Flash，二百八十四亿参数，压缩之后普通Mac本地都能跑，一次能读一百万token。

大概七十五万字，三本《三体》同时读进去不忘记的长度。V4免费开源，MIT协议，商用改动都可以。它比上一代省了百分之七十的算力，这条直接决定了API调用价格能便宜多少。对你的影响是什么呢？以后AI服务能做的事情会更多，更便宜。V四到底改了什么？DeepSeek说，这次主要改了四个地方，具体名字不用记，每个都是在解决不同的问题。

第一个是注意力机制的升级，让AI读长文档时更省算力。第二个叫做残差连接升级，这个比较技术，简单说就是让非常深的神经网络训练起来不会崩。第三个呢是优化切换，训练过程中用的数学工具升了级，收敛更快更稳。第四个后训练流程大改，以前靠强化学习让AI变聪明，这次改成了叫蒸馏的新方法。这四个加在一起，就是V四为什么能又大又高效。

先说那个残差连接的改动，MHC让一点六T的神经网络能稳稳搭起来不坍塌。训练一个超大的深度神经网络，就像往上搭一座很高的塔，塔越高越容易在搭的过程里晃动坍掉，这是学术界的老问题。以前有个方案叫HC，相当于给塔外加了框架，但这个外框架本身也不稳。层数堆深了后还是会崩，而 V4

的做法是给这个外框架加了一个数学约束，每一层的框架都不能把上层信号放大，只能原样传下去或者缩小，这样塔就可以搭得非常高也不会崩。

对用户来说，只需要记住一件事就好，这是让 1.6T 这么大的模型能训练出来的基础之一。没有这个设计，塔搭到某一层可能就崩了。我们今天可能就看不到V四。然后讲注意力机制的改动，这个跟你以后用AI的体验直接相关。AI读文本时，每读一个新字都要回头看前面所有字来理解上下文，这叫注意力机制。传统做法是每个字跟之前所有字都比一遍，读一百个字还行，读一百万字的话，这个计算量会爆炸。

V4用了两种新注意力混合。一种专门抓重点，像你读小说时只记关键情节；一种是精简版，但还是看全部。两种配合使用，结果就是一百万字长度下，算力只要上一代的百分之二十七，缓存占用只要百分之十。对你的影响是什么呢？以后想让AI做这些事的成本会降一大档。读完一整本书再回答问题，或者把一个项目全部代码扔进去让它重构。

或者继续你一百小时之前那个对话，这些以前太贵做不了的事情，V四之后会从试试看变成可以常态用。然后是训练稳定性。训练一个1.6T的模型，就像煮一锅超大份的汤，火大了糊底，火小了煮不熟，搅得不匀就分层。三十二万亿个字的原料一次煮下去，过程里任何一个地方出问题，整锅都报废。论文里讲的训练稳定性三件套，具体名字分别叫

Nuan 优化器、Anticipatory Rewinding 以及 Switch L U Clamping，这三个就是这锅大汤的温控机制。

细节不重要，对普通用户的意义只有一句话：没有这三件小心翼翼的工程细节，训练中途会崩，很有可能就不会有今天的 V4。关于后训练的变革，这是V4方法学上改的最狠的地方。以前的做法是什么呢？给一个通用模型做几轮强化学习，让它在各个领域都变强。问题是强化学习不稳定，容易顾此失彼。数学变好的时候，编程可能下滑。

V4的新做法是分两步。第一步，训多个小专家，先训一个专门精通数学的，一个专门精通编程的，一个专门精通调用工具的，等等。每个专家在自己领域做到最强。第二步，合并成一个大模型。通过一种叫蒸馏的技术，把这十多个专家的本事全部合并到一个统一的模型里。合并方式就是让这个统一模型向每个专家学习他们各自擅长的东西。

创新点在于模型自己当裁判，不再用传统的人工打分的模型，让模型同时担任答题和批改的两个角色，减少人工标注。对用户来说的意义很直接。V4不是在某个领域特别强，在别的领域一般。它把每个领域专家的本事都继承过来了，所以你会看到编程、数学、中文、Agent这些领域，它都蛮能打的。产品层面，V四给了你一个特别实用的能力——三档思考深度，像汽车的经济、普通、运动三档。

一档不思考，日常聊天直接出答案，反应最快，八K的上下文就够了。第二档中等思考，遇到需要推理的问题会先想一会儿再答，准确率高但稍稍的慢一些，一百二十八k上下文。第三档极限思考，探索模型的上限，会用非常长的思考时间换回最准的答案，三百八十四k以上的上下文，你需要特意用特殊指令来激活。那平时怎么选呢？在日常聊天和简单查询中，我们往往使用第一档；写代码、分析问题，使用第二档；复杂的推理，比如数学难题等等，考虑使用第三档。

在API调用里，通过一个参数就能切换，非常方便。另外，V4在工具调用，也就是AI调用外部工具，比如搜网页、跑代码的说话格式上做了改进，降低了出错率，做Agent应用的开发者会直接受益。V4编程能力达到真人选手前二十五名。在跑分方面，V4这次最爆炸的数字就是在编程竞赛Codeforces上拿到了三千二百零六分，这代表什么呢？

Codeforces 是真人程序员打比赛的地方，三千二百零六分，在真人选手里排到全球前二十五。这是第一次有开源模型能打到这个档位，之前能拿到这个分数的只有 GPT 和 Claude。其他几个跑分也一并说一下吧。Libco Bench 九十三点五分，代码写对率开源中的第一名。数学竞赛 HMMT 九十五点二分，博士水平科学题 GPQA 九十点一分。

V4在代码、数学、推理这一路，开源第一次真的追平了闭源。当然，知识类和长上下文类还差一些。论文自己说落后前沿闭源大概三到六个月，但对普通用户来说，这个差距已经完全可以接受了。跑分还是跑分，真实场景用起来怎么样呢？论文专门测了几个真实任务，第一个中文写作，V四Pro对Gemini三点一Pro胜率百分之六十二点七。

原因很有意思，Gemini 在中文场景会把自己风格覆盖用户要求，V4 则更加尊重你原来的意图。第二个，中文白领任务，金融、教育、法律、科技十三个行业的三十个实际工作任务，V4 对 Claude Opus 4.6 胜率百分之五十三。R&D工程任务，DeepSeek自己团队挖了两百个真实工程任务，比如修bug、加feature、重构代码。

Visor Pro过关率百分之六十七，超过了Sonar四点五的百分之四十七。接近于 OPPO 4.5 的百分之七十。最后是内部开发者调研，八十五个工程师里，百分之五十二说愿意把 V4 作为默认主力，百分之三十九倾向是，不到百分之九说不。意思就是说，DeepSeek 员工自己用了都觉得足够替代外国闭源的模型。

回到最开始讲的那个效率，具体意义就在这里。在处理一百万字级别的长内容时，V4 Pro算力上只要上一代的百分之二十七，三点七倍便宜。V4 Flash只要百分之十，快了十倍。来翻译成你能感受到的场景：以前想让AI读完一份两百页合同再回答问题，太贵不想用；现在便宜了三点七倍，可以常态用。以前想把小说或一个项目全部代码扔进去，或许超出预算；现在负担得起。

以前想让 AI 记住几周前跟你的对话，要重新送上下文很贵。现在呢，都能稳住了。这些是从试试看变成了日常可用，就是 V4 这套效率改进的真正价值。接下来是这次发布最值得单独聊的一个信号：V4 是第一个深度适配国产 AI

芯片的前沿开源模型。第一件事，升腾九五零P二芯片，这是华为最新的AI旗舰芯片。DeepSeek把V四的底层代码从NVIDIA的CUDA专门重写成了华为的CANN框架，相当于换了套驱动，让模型跑在国产芯片上。

第三方测试显示，升腾九五零P二跑V四的单卡性能是NVIDIA H20的二点八七倍。第二件事，升腾A三超节点。华为同日宣布，整个升腾A3超节点系列全面支持V4训练和推理都能跑。那么对咱们普通用户的意义是什么呢？第一，国内 AI 服务更稳；第二，国产算力终于有前沿模型可以跑。过去国产芯片只能跑小一号的模型，V 四之后这个局面变了。

国内媒体把这一次叫做“中国 AI 的安卓时刻”，意思是软硬件在本土凑齐了一套完整的站，不再只是在别人的基础上搭。这个长期信号可能比模型本身还重要。论文最后一章 Limitations，DeepSeek 写得非常诚实，三件他自己承认的局限。第一个是跟最前沿的闭源模型落后三到六个月，虽然 V4 已经追上了大部分，但 GPT 5.4 和 Gemini 3.1 Pro 还有一段明显的差距。

第二点是架构还是太复杂，他们自己说为降低风险保留了很多已经验证过的组件，下一代会更加精简，意思是现在这个版本还有很大的优化空间。第三件是有些设计，他们自己也没完全搞懂为什么会工作，这是一种挺学术的诚实，实验上有效，但理论上还没有实现闭环。这种诚实的 limitations 章节，在现在的 AI 发布里越来越少见了，因此我觉得值得单独的提一下。

好了，最后咱们三句话总结一下吧，这版核心是更省，不是更大。长文档、大项目、深度 agent 这些场景的成本加了一大档，让以前因为贵不敢用的场景变得日常可用。第二呢，作为开源。第一次真正追上B元，这是非常有意义的。编程、数学、中文Agent多项任务上，V四跟Claude、GPT已经能够平起平坐。第三点，硬件绑定了国产，跑在昇腾九五零PR上，国产算力站第一次有前沿模型可以承载，这层意义超越了模型本身。

论文中还有很多有趣的技术细节，感兴趣的朋友可以去 Hugging Face 看论文，我会将论文的链接放在视频描述中。好了，今天就聊到这里，感谢大家收看，我们下期见。

DeepSeek V4开源 - 开源AI的新天花板 + 华为昇腾原生适配 · 全文文字稿