昇腾950的FP4优化:以软件架构弥补硬件短板

昇腾950芯片面临的核心硬件约束是显存带宽仅为H200的1/4,且受限于先进制程缺失与HBM集群互联限制,单卡性能短期内无法追赶英伟达。为弥补这一差距,昇腾团队在FP4(四位浮点)精度上进行了深度优化,而英伟达因拥有充足算力,并未专门针对FP4进行底层优化。DeepSeek V4模型推迟发布,正是为了完成这一复杂的FP4量化适配,旨在通过降低精度、减少显存占用和带宽压力,实现推理吞吐的提升。

“Deepseek V4之所以拖了这么久才发布,就是专门去对FP4精度做优化。”

这种优化策略的意义不在于让昇腾950全面超越H200,而是缩小两者间的性能差距。以下是H200与昇腾950在关键指标上的对比及优化代价分析:

对比维度 英伟达 H200 昇腾 950 (配合DeepSeek V4 FP4优化) 备注/影响
显存带宽 基准 (100%) 约 25% (1/4) 昇腾主要短板,需靠FP4低带宽需求弥补
推理吞吐 基准 显著提升 通过FP4优化实现,工程难度极大
价格 (美元) ~50,000 ~10,000 昇腾成本低,可通过堆量弥补性能差
性能差距 基准 缩小至 3-5 倍 原差距可能达几十倍,现通过架构优化大幅拉近
优化代价 量化复杂、精度损失、算子适配难 迁移回CUDA生态困难,工程维护成本高

通过这种“以价换量”和“架构优化”的组合拳,国产模型在昇腾950上的运行效率得以提升,使得差个三四倍的算力差距变得可接受,因为购买多块昇腾950的成本远低于单块H200。然而,这也意味着一旦采用FP4优化,模型将深度绑定昇腾生态,迁移回CUDA环境的难度将急剧增加,这正是黄仁勋最不愿看到的局面。

H200采购名单背后的利益博弈与地缘政治

此次H200解禁涉及10家采购方,其中6家已公开,包括阿里、腾讯、字节跳动、京东、联想、富士康。前四家为互联网巨头,兼具大模型研发与云计算业务,采购目的多为内部算力应用或出租;后两家为服务器制造商,其生产基地多位于台湾、墨西哥或越南等地,协助英伟达生产Blackwell等高端服务器。剩余4家未披露的企业被视为交易的关键,推测可能涉及合资公司或特殊壳公司,甚至可能涉及政治人物与既得利益者的幕后推动。

“没有公开的几家公司才有可能是关键……大概率是什么,合资公司,新的皮包公司,新的壳公司。”

中美双方内部均存在复杂的利益纠葛。美国方面,国家安全派希望限制中国获取先进算力,但商务派华尔街希望英伟达获利,而政治人物(如特朗普)则倾向于将交易包装为“美国胜利”。中国方面,大模型公司渴望高性能算力,云计算厂商希望降低部署成本,而国产芯片厂商(如华为昇腾)则面临被边缘化的压力。地方政府希望建设数据中心,监管部门则需在安全与外交间平衡。各方均使用冠冕堂皇的理由掩盖真实诉求,类似于历史上“郑和下西洋”因既得利益集团阻挠而停摆的隐喻,真正的推动力往往来自少数掌握资源的既得利益者

多方博弈下的赢家与输家:英伟达的战略胜利

从短期结果来看,中国、美国和华为昇腾均面临不同的得失。中国短期内“赢了”,因为H200的合规进入为国内大模型公司提供了急需的算力“补血”,并可能使走私算力合法化,降低推理成本,稳定云计算供给。美国也“赢了”,特朗普政府可宣称守住了国家安全底线(限制买家、数量上限、禁止转卖),同时让英伟达获利,并将中国AI继续锁定在美国技术生态中。然而,华为昇腾承受巨大压力,若开发者不愿迁移至CANN协议或进行FP4优化,其生态吸引力将下降;而缺乏生态兼容性的小型国产算力卡则面临“灭顶之灾”,因H200的进入将直接挤压其生存空间。

“黄仁勋最厉害的地方是把商业问题讲成了国家利益问题,他真正卖的不是H200,他真正卖的是美国继续定义全球AI标准的一个能力。”

真正的最大赢家是英伟达。黄仁勋通过此举赢回了中国核心客户(阿里、腾讯等),重新巩固了CUDA标准在模型训练与推理(TensorRT)中的主导地位,并利用了NVLink等自有技术锁定工程师优化路径。更重要的是,英伟达赢回了国产替代的时间窗口:只要英伟达产品依然稳定且合规可用,客户便缺乏动力去迁移至尚未完全成熟的国产芯片。H200的落地并非算力战争的结束,而是新一轮竞争的开端,其最终能否真实交付以及DeepSeek V4的FP4优化能否成为国内样板,将是决定未来格局的关键变量。