架构范式的实质性转向
DeepSeek V4 的发布标志着模型架构层面的一次实质性转向:它放弃了 V3 中采用的 MLA(Multi-head Latent Attention)架构,转而回归到更传统的 MQA(Multi-Query Attention) 范式。此前,包括 Kimi 的 K2 系列、J2M5 系列在内的主流开源模型仍持续沿用 MLA,而 MLA 本身是对原始多头注意力的改进——通过对 KV 缓存进行低秩压缩,显著降低推理时的显存占用。V4 的这一选择,打破了此前业界普遍认为“开源模型架构已收敛至 MLA”的共识,表明模型架构仍有巨大优化空间。
从工程角度看,MLA 的压缩机制若直接嵌入 V4 所引入的新特性(如双压缩策略、SWA 注意力机制),实现复杂度极高。因此,放弃 MLA 可能是为保障系统稳定性与可工程化落地所作的务实取舍。值得注意的是,V4 在注意力机制上引入了token-wise 的大尺度压缩策略,配合 SWA(Sliding Window Attention)与双压缩设计,进一步提升了长上下文处理效率。这一系列变化虽未构成“范式革命”,但确是在现有推理扩展范式下的一次系统级跃迁。
DeepSeek 它放弃了 V3 的 MA 架构……说明那个模型架构本身,它其实还是有非常大的改进空间的。
MLA 就跟之前的价格完全不一样,它是将那个 KV 进行低秩压缩……这样的话就相当于是能够节省 KV cache。
Infra 巨鲸的工程复杂性与国产适配突破
DeepSeek V4 被业内称为“Infra 巨鲸”,其工程复杂度远超前代。V4 一次性集成了四大高耦合新特性:MHC-Miwan 优化器、FP4 训练、大规模 MoE 结构下的推理稳定性优化、以及原生国产芯片支持。任何一项单独上线都需大规模调试,而四者协同则构成典型的“组合爆炸问题”。尤其在 FP4 的前向与反向传播中实现生产级稳定,属于当前开源推理引擎中极为前沿的尝试。
在国产芯片适配方面,V4 技术报告中虽仅在并行方案部分提及在华为升腾上完成技术验证,但这一细节已释放明确信号:DeepSeek 首次将国产芯片纳入原生支持体系。相比英伟达生态的成熟算子库,国产芯片常需从零编写底层接口,极大增加研发周期。这也解释了为何 V4 发布时间较原计划(春节前)推迟约两个月——团队需在复杂结构基础上,额外完成跨平台工程适配。
DeepSeek 每年的发布都会为开源社区的研究和 infra 基本上是续命一年,会注入一个非常非常强大的活力。
一次性引入了四个互相耦合的新 feature……四个一起上,这就是一个组合爆炸问题。
成本叙事退场与能力本位崛起
V4 的技术报告中,训练成本这一关键指标未被明确披露,与 V3 公开的 557 万美元形成鲜明对比。这并非数据缺失,而是一种成熟团队的战略选择:DeepSeek 已从“靠成本叙事定义自身”的成长期,转向以模型能力为核心表达载体的成熟期。正如从业者所言,最后一次训练成本仅是冰山一角,前沿探索、对比实验、人力与数据成本才是研发支出的主体,其总和可能是公开数字的数十倍。
与此同时,V4 的发布也映射出团队的极强执行力与低人员流动率(离职比例仅约 5%),印证其内部文化——“不忧于欲,不诱于誉,不恐于谤”。技术报告结尾引用荀子“非是二子”,并强调“率道而行,端然正己”,恰是这一精神内核的外化:不为外界喧嚣所扰,专注技术本源。这种克制与定力,使其在长上下文、低幻觉、强推理等能力维度持续突破,推动百万 token 上下文从理论走向实用。
最终模型的最后那一次训练成本只是所有成本的冰山一角……研发成本肯定是最后一次训练成本的几十倍。
不诱于誉,不恐于谤……这可能是他们一直以来非常值得学习的团队精神。
范式演进:从能力定义到工程落地
当前大语言模型的发展已从单纯追求“能不能做到”转向“该解决什么问题”——即能力边界的主动定义。与其说技术突破是方法论的演进,不如说是新能力领域的提出本身构成了范式变革的核心。例如Kimi的长文能力、Agent能力、幻觉抑制等,都是在开辟新的能力赛道。而DeepSeek V4的出现,并未带来如R1或Kimi初期那种震撼性的范式跃迁,但其价值在于:将百万上下文(one million token)从技术指标转化为工程实践的基础设施。这背后是一场高度工程化的系统整合:将百万token拆解为细粒度优化模块,再通过底层Infra协同实现整体推理效率的跃升。商业价值巨大,且已进入可落地阶段。
我们现在不是说是我们能不能做到,而是说我们不知道我们还有哪些需要做的。
你只要提出了一个能力的领域,我觉得就是说,也就半年到一年的时间,基本上这个能力就会被现在的那个模型给刷爆。
效率革命:FLOPs与KV Cache的断崖式压缩
V4在效率优化上的突破尤为惊人:单token推理FLOPs仅为V3.2的27%,KV Cache占用仅10%。这一数字背后是结构创新(如token-wise注意力压缩)与Infra深度协同的成果。但需注意:该效率优势仅在长上下文场景下才显著显现——若测试仅用几千token,提升微乎其微。而现实中,编程、文档处理等日常任务token长度早已远超系统提示(system prompt)所需,因此V4在真实场景中能带来可观提速。不过,有用户反馈:V4解决同一问题的token消耗反而增加,这可能源于训练目标偏重“任务完成奖励”而非“token经济性”,以及压缩机制导致信息损失需更多token补足。这种“高压水枪式token浪费”现象,暴露了当前模型训练与推理目标的错位。
我觉得现在的这个token浪费,有种拿着高压水枪浇花的美感,这本身是一件非常奇怪的事情……
Arena与真实采用:排名之外的模型生态
V4的性能评估呈现“榜单滞后于实践”的特征:在Arena双盲测试中,V4 Pro全球排名约23位,落后于Qwen 3.5 Max、Mimo V2.5、Gemini 5.1等模型;Artificial Analysis的Intelligence Index中,V4排名第52。但更关键的指标是真实工程采用意愿——DeepSeek内部调研显示,9%的工程师不会将V4 Pro作为首选,这一坦诚披露远比榜单更具参考价值。这引出一个深层问题:数据飞轮的构建路径差异。中国以开源模型为主,但 trillion级部署成本使个人难以自建,实际使用仍高度依赖第三方云平台API,trace数据仍可被收集;而现实中,国内大量用户仍在使用美国闭源模型。此外,模型竞争已进入“产品-模型强绑定”阶段:如Claude Code若想维持编程领先性,必须持续迭代底层模型能力。未来To B市场或将快速切换模型供应商,模型能力与产品体验的耦合度,正成为新竞争门槛。
我那天从Claude换成Codex,我的结论是:离开了Claude,这个世界完全没有下雨。
激活比例的极限压缩与MoE工程哲学
DeepSeek V4 在 MoE 架构上将激活参数比例进一步压缩至 约3%(V4 Pro 总参数1.6T,激活参数约49B),显著低于此前的 DeepSeek V3(5.5%)、Kimi K2.6(3.2%)、MiniMax M2.7(4.3%)和 GLM 5.1(5.3%)。这一变化并非偶然,而是体现了业界对 MoE 核心价值的持续深化:解耦总参数规模与推理成本。总参数越大,模型知识容量越高;激活参数越小,推理开销越低。V4 将这一理念推向更极端的位置,也对工程能力提出更高要求——激活比例并非越低越好,过低可能导致专家负载不均、训练不充分、路由抖动等问题。DeepSeek 能在如此低的激活比例下实现稳定训练,印证了其在 MoE 路由机制、专家均衡与系统调度上的极致工程能力。
激活比例的下降其实反映出来大家一个很明确的工程信念:这个总参数越大,模型的知识容量会越高;然后激活参数越小,我们的推理成本会下降。
我倒是想用它倒呃倒数来进行比较……现在V4已经提高了三十几,将近四十比一这样一个系数比。
注意力机制的混合演进与Infra挑战
V4 在注意力层面采用 混合稀疏注意力策略,每层结合滑动窗口注意力(Sliding Window Attention, SWA)与长程注意力(CSA/HCA)。其中,CSA 以 4:1 压缩率做稀疏 top-k 选取,HCA 则以 128:1 压缩率实现稠密长程建模。这种设计使模型在不同层中分别承担“关键 token 锁定”与“语义概览”功能,兼顾效率与表达力。值得注意的是,混合注意力在工程实现上带来全新挑战,尤其是前缀缓存(prefix cache)的一致性问题。为应对该问题,DeepSeek 开发了名为 Shadow Redis 的缓存架构,通过三个异构 KV Cache 池,确保 SWA、CSA、HCA 在 prefill、decode、speculative decoding 三阶段中状态同步。
一个非常直观的例子……如果是线性注意力,它需要压缩一千零二十三次;但如果是一百二十八窗口的 sliding window attention,它只需要跳八次,这两个头坑就能够几乎无损的进行信息交流。
对于更大的模型,像 DeepSeek V4、Gemini 5.1 这些模型当中,目前来说,还是采用的稀疏注意力,或者说 scaling window attention 这样一个结构。
技术取舍与基础设施协同演进
V4 并未采用此前被热议的 Ingram 技术——该方案通过将连续多个 token 合并编码为新 token 来增强局部语义建模,但实测发现其对性能提升有限,且显著增加 Infra 复杂度。相比之下,MHC(Multi-head Context) 已被成功集成,成为 V4 的关键创新之一。此外,V4 首次在如此大规模模型上采用 Miwong 优化器,由 Keller Jordan 开发,其核心优势在于对二维参数(如线性层矩阵)进行联合更新,弥补了 AdamW 仅逐元素更新的局限,提升训练效率与稳定性。
在长上下文落地层面,团队同步推进 HighSparse 工作,针对滑动窗口注意力设计专属 KV Cache 卸载策略,使吞吐量提升超 5 倍。这表明:前沿模型的性能跃迁,已从单纯算法改进转向 算法-系统协同演进 的系统工程。未来,Scaling Window Attention 或将成为长上下文大模型的主流选择,而稀疏注意力与滑动窗口的混合范式,将在推理效率与建模能力之间取得更优平衡。
对于算法和底层系统开发,这提出了相当高的要求……需要各个专家都能够几乎差不多的训练;另一方面来说,infra也要保证,这些路由能够非常顺畅的抵达各个专家,然后再合并起来。
优化器演进:从 AdamW 到 Muon 与 Moonlight
训练阶段的优化器选择对模型收敛效率与显存占用有决定性影响。早期主流采用 AdamW,其本质是融合了动量(momentum)与自适应学习率归一化(如 RMSProp)的优化方法,能提升训练稳定性与平滑性。但 AdamW 是逐元素更新(elementwise),无法捕捉参数矩阵内部的结构信息——例如线性层中权重矩阵的各元素可能收敛步调不一致,导致训练效率受限。
为解决这一问题,Muon 被提出:它将优化粒度从单个参数提升至二维矩阵层面,通过矩阵级动量与正交约束(如牛顿-舒尔茨迭代 + 正交化)实现更高效的参数协同更新。然而,Muon 无法直接用于一维参数(如 embedding 层、bias),因此需与 AdamW 组合使用。早期方案中,两者学习率比例需手动调节,缺乏工程友好性。
Moonlight(Kimi 提出)的关键贡献在于:将 Muon 与 AdamW 的学习率比例固定为 0.2,大幅简化调参流程;而 DeepSeek V4 进一步优化该比例至 0.18,使全局仅需调节一个学习率即可适配整个模型。这一改进使得 Muon 从理论创新真正走向大规模工程落地。
“相当于我全局只需要调一个参数就够了。”
“V4 没有使用 Moonlight 提出的 0.2,它用了更精确的 0.18。”
值得注意的是,Muon 的引入带来显著的 Infra 复杂度跃升:因其依赖完整二维权重进行矩阵运算,必须在分布式训练中频繁进行参数的聚合与切分(如 TP/DP 协同),远比 AdamW 的逐元素并行复杂。此外,预训练与后训练阶段必须使用一致的优化器配置,否则会因结构差异导致后训练难以部署 Muon——这也成为衡量团队工程能力的重要试金石。
当前行业处于过渡期:多数新模型已转向 Muon,但仍有部分(如千问)暂未切换,主因是后训练阶段的 Infra 改造成本极高。尤其在 embedding 层、bias 等一维参数上,仍需回退使用 AdamW,导致优化器配置呈现“混杂状态”。
MHC:信息流宽度扩展与训练稳定性突破
MHC(Modified Hyper Connection)是 DeepSeek 在架构层面的重要创新,其前身是 Hyper Connection 技术:通过在 Transformer 层间引入额外的 channel 维度,将信息流宽度从 d 维扩展至 d × c 维(c 为 channel 数),显著增强层间信息交互能力,从而提升模型推理能力。
但原始 Hyper Connection 存在梯度不稳定、训练易发散的问题,导致社区反响有限。MHC 的突破在于引入 Singhorn Crop 算法,对正向与反向传播中的信息流 scale 进行约束(使其恒为 1),有效防止梯度爆炸或消失,使训练变得稳定可行。
“MHC 它是从增加信息流宽度去进行增加层与层之间信息的互动……异曲同工的想到了我需要去在 layer wise 去进行那个信息流的这样一个改进。”
MHC 与 Kimi 提出的 Attention Residuals(类 DenseNet 的跨层连接)虽路径不同,但目标一致:打破逐层传递的瓶颈,加速信息流动。二者对比:MHC 实现成本较低、Infra 改造相对简单,适合资源受限团队;而 Attention Residuals 理论上限更高,但对推理框架与 kernel 实现提出更高要求。
在推理侧,MHC 要求对残差结构进行归一化与 mixing 操作,原有算子效率不足,因此团队需为其定制专属 Kernel(如基于 Taillan 的 Split-K 实现),尤其在小 batch 解码场景下显著提升 GPU 利用率。这也反映出一个趋势:新算法驱动新 kernel 开发,已成为大模型时代 Infra 工程的常态。
Infra层的演进:从CUDA到Triton再到Tailang
在DeepSeek V4的基础设施建设中,Tailang和FP4是两个关键关键词。Tailang(原文中多次误写为“Taylang”“Tyler”,实为同一项目)是一种面向AI计算的领域特定语言(DSL),其设计目标是在保持高性能的同时显著降低kernel开发门槛。与英伟达的CUDA相比,CUDA虽性能极致,但开发维护成本极高;而Triton虽大幅降低了开发门槛,却在表达能力和极端性能上有所妥协;Tailang则试图在二者之间取得更好平衡——它将kernel启动开销压缩至微秒级,并显著提升了位级可重现性(即相同输入多次推理结果高度一致),这对推理工程师调试至关重要。
Tailang的长期价值在于极大降低了为新算法(如DeepSeek提出的MHC)编写高性能kernel的工程成本。事实上,DeepSeek已为MHC实现了一版Tailang的混合精度kernel;而其团队S量也针对小batch size推理场景开发了split-K版本的Tailang实现。如今,Tailang已被全球前沿AI实验室广泛采纳为算法开发的默认工具之一。这一趋势背后,是编译器与底层系统层从“苦差事”走向“战略高地”的转变——五年前,国内企业甚至难以招到会汇编语言的工程师;如今,像Tailang这样的DSL正成为国产芯片生态与英伟达生态协同竞争的关键支点。
Tailang的长期价值是为了在新算法快速开发高性能kernel这件事的工程成本大大降低了。
它和CUDA的关系,未来长期会是帮助生态更丰富,还是能与国产芯片结合形成竞争?Hard to say,但这是一个复杂而值得期待的动态。
FP4:极限压缩下的训练与推理一致性突破
如果说V3实现了大规模FP8训练的落地,那么V4则首次在超大规模训练中实现了FP4精度——将浮点数存储位宽从16位(BF16)、8位(FP8)进一步压缩至4位。这带来的直接收益是:显存容量与数据读取带宽需求近似减半,极大缓解了大模型训练中“算力—显存—带宽”三大瓶颈。
然而,FP4的数值范围极窄,极易导致训练中梯度溢出或归零。为解决这一难题,DeepSeek引入了量化感知训练(QAT) 的创新方案:在训练阶段采用伪量化(模拟量化),即在FP32主权重上先压缩至FP4再无损反量化回FP8进行计算,使模型提前适应量化误差;同时通过blockwise scale机制兜住离群点。而在采样(rollout)阶段,则使用真实FP4权重进行推理,真正打通访存瓶颈,实现物理提速。
这一训练—采样一致性设计尤为关键:训练时伪量化、采样时真实量化的流程,使得最终发布的checkpoint(FP4权重)与训练中用于采样的权重完全一致,避免了“训练FP8→量化为FP4”带来的精度损失。该方案显著提升了强化学习阶段的效率——尤其在长token budget下,采样阶段耗时常超70%,而FP4压缩可大幅提速该环节。
我们团队去年十月份左右的重点就是这套伪量化+真实量化的强化学习流程。
DeepSeek做到了更极限的W4A4(权重4位、激活值4位),而我们当时还在W4A16阶段,这是我们要继续攻坚的方向。
开源与闭源的推理与训练现实
DeepSeek V4 的核心价值之一在于它推动了本地部署推理引擎的实用化,这对企业级用户具有直接意义。开源推理引擎的性能提升,正在反过来倒逼闭源引擎优化;而在推理层面,开源与闭源之间的差距已显著缩小,推理性能差距不大;但训练层面仍存在明显鸿沟——闭源训练引擎仍显著领先。值得欣喜的是,本次 DeepSeek V4 实现了发布当日即支持 RL(强化学习)训练的全链路闭环,这在以往是难以想象的:过去一个模型二月上线,可能要等到五六月才有开源框架能跑通 RLO(Reinforcement Learning from Offline feedback)。
我们做强化学习就care采样,采样完了再做参数回传。我还是觉得非常高兴,能够在如此巨大的MoE模型上面同时做好推理,同时做好RL。
FP4 已经算是正式走出了这个硬件厂商的PPT,成为了这个开源语言模型世界里面真正跑上超级模型的工业标准。
FP4 量化技术的落地,标志着4-bit 精度已从概念走向工业现实。除 DeepSeek 外,GPT-OSs 也已支持 FP4,而英伟达 Blackwell 架构亦明确支持该格式,显示出其正成为行业共识方向。尽管闭源模型的细节不透明,但 FP4 的普及趋势已不可逆。
多专家训练:分裂-蒸馏范式突破
DeepSeek V4 在训练策略上引入了创新的“先分裂再蒸馏”范式:先训练多个小型专家模型,再将它们的技能蒸馏至统一学生模型。这一做法解决了 MoE 模型训练中显存与参数量压力大的痛点——专家越多,模型容量虽大,但训练开销也急剧上升。通过分阶段优化,模型能更稳定地逼近多目标优化的帕累托最优解。
可以想见,这个有句话说,这个同时优化的目标的个数是智力上限的体现。
该策略本质上是对多目标优化难题的工程化解法:因不同能力(如 coding、math、instruction-following)的梯度方向常冲突,直接联合训练易陷入局部次优。而分裂训练后蒸馏,相当于在已收敛的离散点之间做“插值”,更稳定可控。这一思路并非全新:Qwen、早期某开源模型均采用过“专家聚合”阶段;学术界亦长期研究模型聚合与 span 技术。但 DeepSeek V4 将其在超大规模 MoE 上成功落地,是工程能力的重要体现。
评估体系:从 Benchmark 到 Evaluation 的范式升级
模型能力的提升必须建立在可量化、可持续的评估体系之上。作者强调应使用 Evaluation(评估) 而非 Benchmark(基准测试),因后者易过时——一个 benchmark 发布一两年后常被刷满,沦为“已完成问题”;而 Evaluation 是持续演进的过程,尤其在复杂场景(如多轮工具调用、长程对话、人格一致性、工具调用鲁棒性)中愈发关键。
We cannot optimize what we do not, what we cannot evaluate.
当前行业正面临“benchmark 可信危机”:模型在公开榜单上普遍 90+,但实际体验差异巨大,催生了“vibe checking”等主观判断方式。DeepSeek V4 的评估覆盖了多步任务稳定性、长程对话、人格一致性、工具调用鲁棒性等真实场景,是其能否跻身第一梯队的关键。未来需更多面向实际应用的评估体系,如“Cloud Bench”这类针对云原生助手场景的定制化评估。正如易峰所言:提出新的能力需求(如 agentic 能力)比刷高 benchmark 更重要——因为后者半年内即可被追平,而前者定义了下一代模型的竞争力边界。
商业模式的分野:订阅制 vs token计费
当前无论是开源还是闭源模型,行业正普遍关注如何实现真正的商业化盈利,而不再仅依赖传统的订阅服务。核心争议在于:是采用订阅制,还是转向按 token 计费?作者倾向订阅制,认为其更具盈利潜力——用户先购买订阅额度,超出后再按 token 付费,而实际上多数用户并不会用满订阅配额,因此整体反而更赚钱。但现实中,不少公司因订阅定价过高导致用户流失、定价过低则亏损,陷入两难,尚未形成共识。即便像 Claude 这样已取得显著商业成功的模型,其真实盈利状况仍待观察,尤其待其年底若完成 IPO,财务数据将提供关键参考。
“订阅制它高了,没有用户买;订阅制低了的话,其实公司公司是亏的。”
“视频生成类的产品的客单价还真的挺高的,就比我想象中高很多。”
垂直模型的商业化潜力与开源鸿沟
相比通用语言模型,视频生成与语音生成等垂直模型展现出更强的用户粘性与付费意愿,尤其在影视从业者等刚需场景中,用户对“用完额度后额外购买积分”的模式接受度高,推动其客单价显著上升。然而,这些模型的开源生态严重滞后:目前尚无真正先进的开源视频生成模型,仅有阿里通义万相等少数尝试;语音模型与 Gemini、GPT-4 时代模型相比仍有明显差距。作者推断,技术壁垒与高盈利能力可能是模型方不愿开源的核心原因。同时,视频模型更倾向订阅制,因其用户粘性强、使用频次高,利于长期留存与复购。
“视频模型可能更倾向于那个就是订阅制。”
“视频生成模型的开源和闭源的差距确实很大……好像就目前为止,已经开源的、大家认为比较先进的一个,应该也是千万,呃,是阿里那边开源的,就通义万相。”
中美模型发展路径差异与 DeepSeek V4 的遗产
中美大模型发展呈现明显路径分化:美国模型更追求极致性能与创新突破,如长 horizon agent、多模态融合、Agent 能力跃升等,依托强大算力与高质量人类反馈数据闭环,构建高壁垒;而中国模型则聚焦性价比与工程落地效率,在相同能力下收费低一个数量级,背后依托的是中国丰富的人才储备与极高的工程完成度。例如 DeepSeek V4 一次性集成混合稀疏注意力(MSC)、FP4 量化、长上下文推理(Tile Long)等复杂技术,展现出罕见的系统级整合能力。
V4 最可能被历史记住的遗产,是其在工业级模型中首次实现 token-wise 的极致压缩,突破此前仅限于单 token 内部降维的局限;此外,极致低激活比例、低单 token 成本的组合,无论在架构还是基础设施层面,都将成为后续开源模型的默认起点。DeepSeek 由此确立为开源大模型的参考基准。
“DeepSeek V4 它率先验证了这种工程配方,还是会成为后续许多开源大模型的默认起点。”
“V4 最可能被记住的是 token-wise 的极致压缩……长上下文、极致低激活比例,然后还有一个低单 token 成本这个组合……可能都是 V4 留下的持久遗产。”