163: 详解DeepSeekV4：Infra巨鲸、百万上下文走进现实、极致效率优化

架构范式的实质性转向

DeepSeek V4 的发布标志着模型架构层面的一次实质性转向：它放弃了 V3 中采用的 MLA（Multi-head Latent Attention）架构，转而回归到更传统的 MQA（Multi-Query Attention） 范式。此前，包括 Kimi 的 K2 系列、J2M5 系列在内的主流开源模型仍持续沿用 MLA，而 MLA 本身是对原始多头注意力的改进——通过对 KV 缓存进行低秩压缩，显著降低推理时的显存占用。V4 的这一选择，打破了此前业界普遍认为“开源模型架构已收敛至 MLA”的共识，表明模型架构仍有巨大优化空间。

从工程角度看，MLA 的压缩机制若直接嵌入 V4 所引入的新特性（如双压缩策略、SWA 注意力机制），实现复杂度极高。因此，放弃 MLA 可能是为保障系统稳定性与可工程化落地所作的务实取舍。值得注意的是，V4 在注意力机制上引入了token-wise 的大尺度压缩策略，配合 SWA（Sliding Window Attention）与双压缩设计，进一步提升了长上下文处理效率。这一系列变化虽未构成“范式革命”，但确是在现有推理扩展范式下的一次系统级跃迁。

DeepSeek 它放弃了 V3 的 MA 架构……说明那个模型架构本身，它其实还是有非常大的改进空间的。

MLA 就跟之前的价格完全不一样，它是将那个 KV 进行低秩压缩……这样的话就相当于是能够节省 KV cache。

Infra 巨鲸的工程复杂性与国产适配突破

DeepSeek V4 被业内称为“Infra 巨鲸”，其工程复杂度远超前代。V4 一次性集成了四大高耦合新特性：MHC-Miwan 优化器、FP4 训练、大规模 MoE 结构下的推理稳定性优化、以及原生国产芯片支持。任何一项单独上线都需大规模调试，而四者协同则构成典型的“组合爆炸问题”。尤其在 FP4 的前向与反向传播中实现生产级稳定，属于当前开源推理引擎中极为前沿的尝试。

在国产芯片适配方面，V4 技术报告中虽仅在并行方案部分提及在华为升腾上完成技术验证，但这一细节已释放明确信号：DeepSeek 首次将国产芯片纳入原生支持体系。相比英伟达生态的成熟算子库，国产芯片常需从零编写底层接口，极大增加研发周期。这也解释了为何 V4 发布时间较原计划（春节前）推迟约两个月——团队需在复杂结构基础上，额外完成跨平台工程适配。

DeepSeek 每年的发布都会为开源社区的研究和 infra 基本上是续命一年，会注入一个非常非常强大的活力。

一次性引入了四个互相耦合的新 feature……四个一起上，这就是一个组合爆炸问题。

成本叙事退场与能力本位崛起

V4 的技术报告中，训练成本这一关键指标未被明确披露，与 V3 公开的 557 万美元形成鲜明对比。这并非数据缺失，而是一种成熟团队的战略选择：DeepSeek 已从“靠成本叙事定义自身”的成长期，转向以模型能力为核心表达载体的成熟期。正如从业者所言，最后一次训练成本仅是冰山一角，前沿探索、对比实验、人力与数据成本才是研发支出的主体，其总和可能是公开数字的数十倍。

与此同时，V4 的发布也映射出团队的极强执行力与低人员流动率（离职比例仅约 5%），印证其内部文化——“不忧于欲，不诱于誉，不恐于谤”。技术报告结尾引用荀子“非是二子”，并强调“率道而行，端然正己”，恰是这一精神内核的外化：不为外界喧嚣所扰，专注技术本源。这种克制与定力，使其在长上下文、低幻觉、强推理等能力维度持续突破，推动百万 token 上下文从理论走向实用。

最终模型的最后那一次训练成本只是所有成本的冰山一角……研发成本肯定是最后一次训练成本的几十倍。

不诱于誉，不恐于谤……这可能是他们一直以来非常值得学习的团队精神。

范式演进：从能力定义到工程落地

当前大语言模型的发展已从单纯追求“能不能做到”转向“该解决什么问题”——即能力边界的主动定义。与其说技术突破是方法论的演进，不如说是新能力领域的提出本身构成了范式变革的核心。例如Kimi的长文能力、Agent能力、幻觉抑制等，都是在开辟新的能力赛道。而DeepSeek V4的出现，并未带来如R1或Kimi初期那种震撼性的范式跃迁，但其价值在于：将百万上下文（one million token）从技术指标转化为工程实践的基础设施。这背后是一场高度工程化的系统整合：将百万token拆解为细粒度优化模块，再通过底层Infra协同实现整体推理效率的跃升。商业价值巨大，且已进入可落地阶段。

我们现在不是说是我们能不能做到，而是说我们不知道我们还有哪些需要做的。

你只要提出了一个能力的领域，我觉得就是说，也就半年到一年的时间，基本上这个能力就会被现在的那个模型给刷爆。

效率革命：FLOPs与KV Cache的断崖式压缩

V4在效率优化上的突破尤为惊人：单token推理FLOPs仅为V3.2的27%，KV Cache占用仅10%。这一数字背后是结构创新（如token-wise注意力压缩）与Infra深度协同的成果。但需注意：该效率优势仅在长上下文场景下才显著显现——若测试仅用几千token，提升微乎其微。而现实中，编程、文档处理等日常任务token长度早已远超系统提示（system prompt）所需，因此V4在真实场景中能带来可观提速。不过，有用户反馈：V4解决同一问题的token消耗反而增加，这可能源于训练目标偏重“任务完成奖励”而非“token经济性”，以及压缩机制导致信息损失需更多token补足。这种“高压水枪式token浪费”现象，暴露了当前模型训练与推理目标的错位。

我觉得现在的这个token浪费，有种拿着高压水枪浇花的美感，这本身是一件非常奇怪的事情……

Arena与真实采用：排名之外的模型生态

V4的性能评估呈现“榜单滞后于实践”的特征：在Arena双盲测试中，V4 Pro全球排名约23位，落后于Qwen 3.5 Max、Mimo V2.5、Gemini 5.1等模型；Artificial Analysis的Intelligence Index中，V4排名第52。但更关键的指标是真实工程采用意愿——DeepSeek内部调研显示，9%的工程师不会将V4 Pro作为首选，这一坦诚披露远比榜单更具参考价值。这引出一个深层问题：数据飞轮的构建路径差异。中国以开源模型为主，但 trillion级部署成本使个人难以自建，实际使用仍高度依赖第三方云平台API，trace数据仍可被收集；而现实中，国内大量用户仍在使用美国闭源模型。此外，模型竞争已进入“产品-模型强绑定”阶段：如Claude Code若想维持编程领先性，必须持续迭代底层模型能力。未来To B市场或将快速切换模型供应商，模型能力与产品体验的耦合度，正成为新竞争门槛。

我那天从Claude换成Codex，我的结论是：离开了Claude，这个世界完全没有下雨。

激活比例的极限压缩与MoE工程哲学

DeepSeek V4 在 MoE 架构上将激活参数比例进一步压缩至 约3%（V4 Pro 总参数1.6T，激活参数约49B），显著低于此前的 DeepSeek V3（5.5%）、Kimi K2.6（3.2%）、MiniMax M2.7（4.3%）和 GLM 5.1（5.3%）。这一变化并非偶然，而是体现了业界对 MoE 核心价值的持续深化：解耦总参数规模与推理成本。总参数越大，模型知识容量越高；激活参数越小，推理开销越低。V4 将这一理念推向更极端的位置，也对工程能力提出更高要求——激活比例并非越低越好，过低可能导致专家负载不均、训练不充分、路由抖动等问题。DeepSeek 能在如此低的激活比例下实现稳定训练，印证了其在 MoE 路由机制、专家均衡与系统调度上的极致工程能力。

激活比例的下降其实反映出来大家一个很明确的工程信念：这个总参数越大，模型的知识容量会越高；然后激活参数越小，我们的推理成本会下降。

我倒是想用它倒呃倒数来进行比较……现在V4已经提高了三十几，将近四十比一这样一个系数比。

注意力机制的混合演进与Infra挑战

V4 在注意力层面采用 混合稀疏注意力策略，每层结合滑动窗口注意力（Sliding Window Attention, SWA）与长程注意力（CSA/HCA）。其中，CSA 以 4:1 压缩率做稀疏 top-k 选取，HCA 则以 128:1 压缩率实现稠密长程建模。这种设计使模型在不同层中分别承担“关键 token 锁定”与“语义概览”功能，兼顾效率与表达力。值得注意的是，混合注意力在工程实现上带来全新挑战，尤其是前缀缓存（prefix cache）的一致性问题。为应对该问题，DeepSeek 开发了名为 Shadow Redis 的缓存架构，通过三个异构 KV Cache 池，确保 SWA、CSA、HCA 在 prefill、decode、speculative decoding 三阶段中状态同步。

一个非常直观的例子……如果是线性注意力，它需要压缩一千零二十三次；但如果是一百二十八窗口的 sliding window attention，它只需要跳八次，这两个头坑就能够几乎无损的进行信息交流。

对于更大的模型，像 DeepSeek V4、Gemini 5.1 这些模型当中，目前来说，还是采用的稀疏注意力，或者说 scaling window attention 这样一个结构。

技术取舍与基础设施协同演进

V4 并未采用此前被热议的 Ingram 技术——该方案通过将连续多个 token 合并编码为新 token 来增强局部语义建模，但实测发现其对性能提升有限，且显著增加 Infra 复杂度。相比之下，MHC（Multi-head Context） 已被成功集成，成为 V4 的关键创新之一。此外，V4 首次在如此大规模模型上采用 Miwong 优化器，由 Keller Jordan 开发，其核心优势在于对二维参数（如线性层矩阵）进行联合更新，弥补了 AdamW 仅逐元素更新的局限，提升训练效率与稳定性。

在长上下文落地层面，团队同步推进 HighSparse 工作，针对滑动窗口注意力设计专属 KV Cache 卸载策略，使吞吐量提升超 5 倍。这表明：前沿模型的性能跃迁，已从单纯算法改进转向 算法-系统协同演进 的系统工程。未来，Scaling Window Attention 或将成为长上下文大模型的主流选择，而稀疏注意力与滑动窗口的混合范式，将在推理效率与建模能力之间取得更优平衡。

对于算法和底层系统开发，这提出了相当高的要求……需要各个专家都能够几乎差不多的训练；另一方面来说，infra也要保证，这些路由能够非常顺畅的抵达各个专家，然后再合并起来。

优化器演进：从 AdamW 到 Muon 与 Moonlight

训练阶段的优化器选择对模型收敛效率与显存占用有决定性影响。早期主流采用 AdamW，其本质是融合了动量（momentum）与自适应学习率归一化（如 RMSProp）的优化方法，能提升训练稳定性与平滑性。但 AdamW 是逐元素更新（elementwise），无法捕捉参数矩阵内部的结构信息——例如线性层中权重矩阵的各元素可能收敛步调不一致，导致训练效率受限。

为解决这一问题，Muon 被提出：它将优化粒度从单个参数提升至二维矩阵层面，通过矩阵级动量与正交约束（如牛顿-舒尔茨迭代 + 正交化）实现更高效的参数协同更新。然而，Muon 无法直接用于一维参数（如 embedding 层、bias），因此需与 AdamW 组合使用。早期方案中，两者学习率比例需手动调节，缺乏工程友好性。

Moonlight（Kimi 提出）的关键贡献在于：将 Muon 与 AdamW 的学习率比例固定为 0.2，大幅简化调参流程；而 DeepSeek V4 进一步优化该比例至 0.18，使全局仅需调节一个学习率即可适配整个模型。这一改进使得 Muon 从理论创新真正走向大规模工程落地。

“相当于我全局只需要调一个参数就够了。”

“V4 没有使用 Moonlight 提出的 0.2，它用了更精确的 0.18。”

值得注意的是，Muon 的引入带来显著的 Infra 复杂度跃升：因其依赖完整二维权重进行矩阵运算，必须在分布式训练中频繁进行参数的聚合与切分（如 TP/DP 协同），远比 AdamW 的逐元素并行复杂。此外，预训练与后训练阶段必须使用一致的优化器配置，否则会因结构差异导致后训练难以部署 Muon——这也成为衡量团队工程能力的重要试金石。

当前行业处于过渡期：多数新模型已转向 Muon，但仍有部分（如千问）暂未切换，主因是后训练阶段的 Infra 改造成本极高。尤其在 embedding 层、bias 等一维参数上，仍需回退使用 AdamW，导致优化器配置呈现“混杂状态”。

MHC：信息流宽度扩展与训练稳定性突破

MHC（Modified Hyper Connection）是 DeepSeek 在架构层面的重要创新，其前身是 Hyper Connection 技术：通过在 Transformer 层间引入额外的 channel 维度，将信息流宽度从 d 维扩展至 d × c 维（c 为 channel 数），显著增强层间信息交互能力，从而提升模型推理能力。

但原始 Hyper Connection 存在梯度不稳定、训练易发散的问题，导致社区反响有限。MHC 的突破在于引入 Singhorn Crop 算法，对正向与反向传播中的信息流 scale 进行约束（使其恒为 1），有效防止梯度爆炸或消失，使训练变得稳定可行。

“MHC 它是从增加信息流宽度去进行增加层与层之间信息的互动……异曲同工的想到了我需要去在 layer wise 去进行那个信息流的这样一个改进。”

MHC 与 Kimi 提出的 Attention Residuals（类 DenseNet 的跨层连接）虽路径不同，但目标一致：打破逐层传递的瓶颈，加速信息流动。二者对比：MHC 实现成本较低、Infra 改造相对简单，适合资源受限团队；而 Attention Residuals 理论上限更高，但对推理框架与 kernel 实现提出更高要求。

在推理侧，MHC 要求对残差结构进行归一化与 mixing 操作，原有算子效率不足，因此团队需为其定制专属 Kernel（如基于 Taillan 的 Split-K 实现），尤其在小 batch 解码场景下显著提升 GPU 利用率。这也反映出一个趋势：新算法驱动新 kernel 开发，已成为大模型时代 Infra 工程的常态。

Infra层的演进：从CUDA到Triton再到Tailang

在DeepSeek V4的基础设施建设中，Tailang和FP4是两个关键关键词。Tailang（原文中多次误写为“Taylang”“Tyler”，实为同一项目）是一种面向AI计算的领域特定语言（DSL），其设计目标是在保持高性能的同时显著降低kernel开发门槛。与英伟达的CUDA相比，CUDA虽性能极致，但开发维护成本极高；而Triton虽大幅降低了开发门槛，却在表达能力和极端性能上有所妥协；Tailang则试图在二者之间取得更好平衡——它将kernel启动开销压缩至微秒级，并显著提升了位级可重现性（即相同输入多次推理结果高度一致），这对推理工程师调试至关重要。

Tailang的长期价值在于极大降低了为新算法（如DeepSeek提出的MHC）编写高性能kernel的工程成本。事实上，DeepSeek已为MHC实现了一版Tailang的混合精度kernel；而其团队S量也针对小batch size推理场景开发了split-K版本的Tailang实现。如今，Tailang已被全球前沿AI实验室广泛采纳为算法开发的默认工具之一。这一趋势背后，是编译器与底层系统层从“苦差事”走向“战略高地”的转变——五年前，国内企业甚至难以招到会汇编语言的工程师；如今，像Tailang这样的DSL正成为国产芯片生态与英伟达生态协同竞争的关键支点。

Tailang的长期价值是为了在新算法快速开发高性能kernel这件事的工程成本大大降低了。

它和CUDA的关系，未来长期会是帮助生态更丰富，还是能与国产芯片结合形成竞争？Hard to say，但这是一个复杂而值得期待的动态。

FP4：极限压缩下的训练与推理一致性突破

如果说V3实现了大规模FP8训练的落地，那么V4则首次在超大规模训练中实现了FP4精度——将浮点数存储位宽从16位（BF16）、8位（FP8）进一步压缩至4位。这带来的直接收益是：显存容量与数据读取带宽需求近似减半，极大缓解了大模型训练中“算力—显存—带宽”三大瓶颈。

然而，FP4的数值范围极窄，极易导致训练中梯度溢出或归零。为解决这一难题，DeepSeek引入了量化感知训练（QAT） 的创新方案：在训练阶段采用伪量化（模拟量化），即在FP32主权重上先压缩至FP4再无损反量化回FP8进行计算，使模型提前适应量化误差；同时通过blockwise scale机制兜住离群点。而在采样（rollout）阶段，则使用真实FP4权重进行推理，真正打通访存瓶颈，实现物理提速。

这一训练—采样一致性设计尤为关键：训练时伪量化、采样时真实量化的流程，使得最终发布的checkpoint（FP4权重）与训练中用于采样的权重完全一致，避免了“训练FP8→量化为FP4”带来的精度损失。该方案显著提升了强化学习阶段的效率——尤其在长token budget下，采样阶段耗时常超70%，而FP4压缩可大幅提速该环节。

我们团队去年十月份左右的重点就是这套伪量化+真实量化的强化学习流程。

DeepSeek做到了更极限的W4A4（权重4位、激活值4位），而我们当时还在W4A16阶段，这是我们要继续攻坚的方向。

开源与闭源的推理与训练现实

DeepSeek V4 的核心价值之一在于它推动了本地部署推理引擎的实用化，这对企业级用户具有直接意义。开源推理引擎的性能提升，正在反过来倒逼闭源引擎优化；而在推理层面，开源与闭源之间的差距已显著缩小，推理性能差距不大；但训练层面仍存在明显鸿沟——闭源训练引擎仍显著领先。值得欣喜的是，本次 DeepSeek V4 实现了发布当日即支持 RL（强化学习）训练的全链路闭环，这在以往是难以想象的：过去一个模型二月上线，可能要等到五六月才有开源框架能跑通 RLO（Reinforcement Learning from Offline feedback）。

我们做强化学习就care采样，采样完了再做参数回传。我还是觉得非常高兴，能够在如此巨大的MoE模型上面同时做好推理，同时做好RL。

FP4 已经算是正式走出了这个硬件厂商的PPT，成为了这个开源语言模型世界里面真正跑上超级模型的工业标准。

FP4 量化技术的落地，标志着4-bit 精度已从概念走向工业现实。除 DeepSeek 外，GPT-OSs 也已支持 FP4，而英伟达 Blackwell 架构亦明确支持该格式，显示出其正成为行业共识方向。尽管闭源模型的细节不透明，但 FP4 的普及趋势已不可逆。

多专家训练：分裂-蒸馏范式突破

DeepSeek V4 在训练策略上引入了创新的“先分裂再蒸馏”范式：先训练多个小型专家模型，再将它们的技能蒸馏至统一学生模型。这一做法解决了 MoE 模型训练中显存与参数量压力大的痛点——专家越多，模型容量虽大，但训练开销也急剧上升。通过分阶段优化，模型能更稳定地逼近多目标优化的帕累托最优解。

可以想见，这个有句话说，这个同时优化的目标的个数是智力上限的体现。

该策略本质上是对多目标优化难题的工程化解法：因不同能力（如 coding、math、instruction-following）的梯度方向常冲突，直接联合训练易陷入局部次优。而分裂训练后蒸馏，相当于在已收敛的离散点之间做“插值”，更稳定可控。这一思路并非全新：Qwen、早期某开源模型均采用过“专家聚合”阶段；学术界亦长期研究模型聚合与 span 技术。但 DeepSeek V4 将其在超大规模 MoE 上成功落地，是工程能力的重要体现。

评估体系：从 Benchmark 到 Evaluation 的范式升级

模型能力的提升必须建立在可量化、可持续的评估体系之上。作者强调应使用 Evaluation（评估） 而非 Benchmark（基准测试），因后者易过时——一个 benchmark 发布一两年后常被刷满，沦为“已完成问题”；而 Evaluation 是持续演进的过程，尤其在复杂场景（如多轮工具调用、长程对话、人格一致性、工具调用鲁棒性）中愈发关键。

We cannot optimize what we do not, what we cannot evaluate.

当前行业正面临“benchmark 可信危机”：模型在公开榜单上普遍 90+，但实际体验差异巨大，催生了“vibe checking”等主观判断方式。DeepSeek V4 的评估覆盖了多步任务稳定性、长程对话、人格一致性、工具调用鲁棒性等真实场景，是其能否跻身第一梯队的关键。未来需更多面向实际应用的评估体系，如“Cloud Bench”这类针对云原生助手场景的定制化评估。正如易峰所言：提出新的能力需求（如 agentic 能力）比刷高 benchmark 更重要——因为后者半年内即可被追平，而前者定义了下一代模型的竞争力边界。

商业模式的分野：订阅制 vs token计费

当前无论是开源还是闭源模型，行业正普遍关注如何实现真正的商业化盈利，而不再仅依赖传统的订阅服务。核心争议在于：是采用订阅制，还是转向按 token 计费？作者倾向订阅制，认为其更具盈利潜力——用户先购买订阅额度，超出后再按 token 付费，而实际上多数用户并不会用满订阅配额，因此整体反而更赚钱。但现实中，不少公司因订阅定价过高导致用户流失、定价过低则亏损，陷入两难，尚未形成共识。即便像 Claude 这样已取得显著商业成功的模型，其真实盈利状况仍待观察，尤其待其年底若完成 IPO，财务数据将提供关键参考。

“订阅制它高了，没有用户买；订阅制低了的话，其实公司公司是亏的。”

“视频生成类的产品的客单价还真的挺高的，就比我想象中高很多。”

垂直模型的商业化潜力与开源鸿沟

相比通用语言模型，视频生成与语音生成等垂直模型展现出更强的用户粘性与付费意愿，尤其在影视从业者等刚需场景中，用户对“用完额度后额外购买积分”的模式接受度高，推动其客单价显著上升。然而，这些模型的开源生态严重滞后：目前尚无真正先进的开源视频生成模型，仅有阿里通义万相等少数尝试；语音模型与 Gemini、GPT-4 时代模型相比仍有明显差距。作者推断，技术壁垒与高盈利能力可能是模型方不愿开源的核心原因。同时，视频模型更倾向订阅制，因其用户粘性强、使用频次高，利于长期留存与复购。

“视频模型可能更倾向于那个就是订阅制。”

“视频生成模型的开源和闭源的差距确实很大……好像就目前为止，已经开源的、大家认为比较先进的一个，应该也是千万，呃，是阿里那边开源的，就通义万相。”

中美模型发展路径差异与 DeepSeek V4 的遗产

中美大模型发展呈现明显路径分化：美国模型更追求极致性能与创新突破，如长 horizon agent、多模态融合、Agent 能力跃升等，依托强大算力与高质量人类反馈数据闭环，构建高壁垒；而中国模型则聚焦性价比与工程落地效率，在相同能力下收费低一个数量级，背后依托的是中国丰富的人才储备与极高的工程完成度。例如 DeepSeek V4 一次性集成混合稀疏注意力（MSC）、FP4 量化、长上下文推理（Tile Long）等复杂技术，展现出罕见的系统级整合能力。

V4 最可能被历史记住的遗产，是其在工业级模型中首次实现 token-wise 的极致压缩，突破此前仅限于单 token 内部降维的局限；此外，极致低激活比例、低单 token 成本的组合，无论在架构还是基础设施层面，都将成为后续开源模型的默认起点。DeepSeek 由此确立为开源大模型的参考基准。

“DeepSeek V4 它率先验证了这种工程配方，还是会成为后续许多开源大模型的默认起点。”

“V4 最可能被记住的是 token-wise 的极致压缩……长上下文、极致低激活比例，然后还有一个低单 token 成本这个组合……可能都是 V4 留下的持久遗产。”