DeepSeek V4开源 - 开源AI的新天花板 + 华为昇腾原生适配

开源背景与核心规格

DeepSeek 于四月二十四日开源发布了 V4 版本，这是目前最大的免费开源 AI，且具备国产芯片原生适配能力。在多项关键能力上，V4 首次追平了 GPT、Claude 等闭源大厂的水平。此次发布包含两个版本及一份五十二页的技术报告。高配版 V4 Pro 拥有一点六万亿参数，规模与 ChatGPT 同级，支持完全免费下载及自部署。轻量版 V4 Flash 仅二百八十四亿参数，经压缩后可在普通 Mac 本地运行，单次处理一百万 token（约七十五万字，相当于三本《三体》）。V4 采用 MIT 协议，允许商用和改动，且比上一代节省百分之七十的算力，直接决定了 API 调用价格的下降空间。

"V4 免费开源，MIT 协议，商用改动都可以。它比上一代省了百分之七十的算力，这条直接决定了 API 调用价格能便宜多少。"

四大核心架构升级

V4 的效能提升源于四项关键改进，分别解决不同维度的问题。首先是注意力机制升级，使长文档处理更省算力；其次是残差连接升级，防止深层神经网络训练崩溃；第三是优化切换，升级训练数学工具以实现更快更稳的收敛；最后是后训练流程大改，从强化学习转向蒸馏技术。这四项改进共同构成了 V4 "又大又高效"的基础。其中，残差连接的改动解决了超深神经网络搭建中的稳定性难题，类似于给高塔加装数学约束，确保信号不被放大，从而支撑起 1.6T 参数的模型规模。

"V4 的做法是给这个外框架加了一个数学约束，每一层的框架都不能把上层信号放大，只能原样传下去或者缩小，这样塔就可以搭得非常高也不会崩。"

注意力机制与长文本优势

注意力机制的改动直接关联用户的使用体验。传统机制在处理长文本时，每读新字需回顾所有前文，导致计算量随长度爆炸。V4 采用两种新注意力混合：一种专门抓取重点（类似阅读时只记关键情节），另一种为精简版但覆盖全文。这种混合机制使得在处理一百万字长度时，算力消耗仅为上一代的百分之二十七，缓存占用仅为百分之十。这意味着以前因成本过高而无法实现的场景（如读完整本书后问答、重构整个项目代码、延续长周期对话）现在变得常态可用，大幅降低了长上下文应用的门槛。

"两种配合使用，结果就是一百万字长度下，算力只要上一代的百分之二十七，缓存占用只要百分之十。对你的影响是什么呢？以后想让 AI 做这些事的成本会降一大档。"

训练稳定性与后训练变革

训练 1.6T 模型如同煮超大份汤，需严格控制火候与搅拌。V4 引入了训练稳定性三件套：Nuan 优化器、Anticipatory Rewinding 以及 Switch LU Clamping，确保训练过程不崩溃。在后训练阶段，V4 摒弃了不稳定的强化学习，转而采用蒸馏技术。第一步训练多个垂直领域专家（如数学、编程、工具调用），第二步通过蒸馏将专家能力合并至统一模型。创新点在于模型自裁判，即模型同时担任答题和批改角色，减少人工标注。这使得 V4 在编程、数学、中文、Agent 等领域均表现强劲，而非偏科。

"创新点在于模型自己当裁判，不再用传统的人工打分的模型，让模型同时担任答题和批改的两个角色，减少人工标注。"

三档思考深度与工具调用

V4 提供了类似汽车档位的三档思考深度，通过 API 参数切换。第一档不思考，适用于日常聊天，反应最快，支持 8K 上下文；第二档中等思考，适用于代码编写与分析，准确率高，支持 128K 上下文；第三档极限思考，用于复杂推理（如数学难题），以长时间换高精度，支持 384K 以上上下文。此外，V4 改进了工具调用格式，降低了 AI 调用外部工具（如搜索、代码执行）时的出错率，直接利好 Agent 应用开发者。这种灵活的设计让用户能根据任务复杂度平衡速度与精度。

"一档不思考，日常聊天直接出答案，反应最快，八 K 的上下文就够了。第二档中等思考，遇到需要推理的问题会先想一会儿再答，准确率高但稍稍的慢一些，一百二十八 k 上下文。"

基准测试与性能数据对比

V4 在编程、数学、推理领域首次追平闭源大厂。在 Codeforces 编程竞赛中，V4 获得3206 分，排名全球前 25，此前仅 GPT 和 Claude 达到此水平。其他跑分显示其在代码正确率、博士级科学题及推理能力上均居前列。尽管在知识类和长上下文类任务上仍落后前沿闭源模型约 3-6 个月，但差距已可接受。以下表格汇总了关键基准测试数据：

测试项目	V4 得分/表现	排名/对比情况	备注
Codeforces	3206 分	全球前 25 名	首次有开源模型达到此档位
LibCodeBench	93.5 分	开源第一名	代码写对率
HMMT (数学竞赛)	95.2 分	博士水平	科学题表现
GPQA	90.1 分	-	推理能力测试

真实场景胜率与内部调研

在真实任务测试中，V4 Pro 在中文写作上对 Gemini 3.1 Pro 胜率为62.7%，优势在于 V4 更尊重用户意图，避免风格覆盖。在涵盖金融、法律等 13 个行业的 30 个中文白领任务中，V4 对 Claude Opus 4.6 胜率为53%。在 R&D 工程任务（修 bug、重构代码等）中，V4 Pro 过关率为67%，超过 Sonar 4.5 的 47%，接近 Opus 4.5 的 70%。内部开发者调研显示，85 名工程师中，52% 愿意将 V4 设为默认主力，39% 倾向使用，仅不到 9% 表示不。这表明 DeepSeek 内部对 V4 替代国外闭源模型具有高度信心。

"V4 Pro 对 Gemini 三点一 Pro 胜率百分之六十二点七。原因很有意思，Gemini 在中文场景会把自己风格覆盖用户要求，V4 则更加尊重你原来的意图。"

效率提升带来的场景变革

V4 的核心价值在于效率提升而非单纯规模扩大。在处理百万字级长内容时，V4 Pro 算力成本为上一代的27%（便宜 3.7 倍），V4 Flash 仅为10%（快 10 倍）。这一效率飞跃将 AI 应用从"试试看"转变为"日常可用"。以前因昂贵而不敢用的场景（如阅读 200 页合同、分析完整项目代码、记忆数周前的对话）现在变得经济可行。成本的降低使得长上下文和高复杂度任务成为常态，真正释放了 AI 的生产力潜力。

"以前想让 AI 读完一份两百页合同再回答问题，太贵不想用；现在便宜了三点七倍，可以常态用。以前想把小说或一个项目全部代码扔进去，或许超出预算；现在负担得起。"

国产芯片适配与硬件生态

V4 是首个深度适配国产 AI 芯片的前沿开源模型。DeepSeek 将底层代码从 NVIDIA CUDA 重写为华为 CANN 框架，实现了对昇腾 910P 芯片的原生支持。第三方测试显示，昇腾 910P 单卡性能是 NVIDIA H20 的2.87 倍。同时，华为宣布昇腾 A3 超节点系列全面支持 V4 的训练与推理。这一适配标志着国产算力首次拥有前沿模型承载，国内 AI 服务稳定性提升，软硬件本土生态初步形成，被媒体称为"中国 AI 的安卓时刻"。

芯片平台	性能对比/支持情况	备注
昇腾 910P	单卡性能为 NVIDIA H20 的 2.87 倍	原生适配，重写 CANN 框架
昇腾 A3 超节点	全面支持 V4 训练和推理	同日宣布支持

局限性总结

论文诚实列出了 V4 的三大局限。首先，相比最前沿闭源模型（如 GPT-5.4、Gemini 3.1 Pro）仍落后3-6 个月，存在明显差距。其次，架构过于复杂，为降低风险保留了大量已验证组件，下一代将更加精简，暗示当前版本仍有优化空间。最后，部分设计虽实验有效，但理论尚未完全闭环，作者承认"没完全搞懂为什么会工作"。这种学术诚实在 AI 发布中较为罕见，也提示了未来迭代的方向。

"第一件是跟最前沿的闭源模型落后三到六个月... 第二点是架构还是太复杂... 第三件是有些设计，他们自己也没完全搞懂为什么会工作。"

核心结论

V4 的核心意义在于更省而非更大，通过极致效率让长文档、大项目、深度 Agent 场景成本大幅降低，实现日常可用。作为开源模型，它首次在编程、数学、中文、Agent 等多领域追平闭源大厂，具备平起平坐的能力。在硬件层面，V4 绑定国产昇腾芯片，标志着国产算力站首次承载前沿模型，其生态意义超越模型本身。V4 的发布不仅是技术突破，更是开源生态与本土算力结合的重要里程碑。

"这版核心是更省，不是更大。长文档、大项目、深度 agent 这些场景的成本加了一大档，让以前因为贵不敢用的场景变得日常可用。"