Arm 发布 AGI CPU:重塑 AI 基础设施的算力格局
商业模式进化与 Agentic AI 带来的需求激增
在 AI 算力讨论中,GPU 虽是主角,但 CPU 在数据中心中扮演着核心的“协调者”角色,负责 token 传输、调度、容器管理、内存分配及 I/O 调度。随着 Agentic AI 的爆发,AI Agent 开始自主执行任务,token 消耗速度激增,导致对 CPU 的需求将从目前的每 1GW 算力需 3000 万个核心,上升至约 1.2 亿个核心,需求量增长了 4 倍。由于数据中心无法提供额外的电力和空间,市场迫切需要极致高效的 CPU。为此,Arm 正式宣布推出首款直接向客户销售的成品芯片——Arm AGI CPU,标志着 Arm 从单纯售卖 IP 和计算子系统(CSS)向直接售卖成品芯片的商业模式进化。
Arm AGI CPU:极致性能与高部署密度的技术底座
Arm AGI CPU 基于 Neoverse V3 计算子系统(CSS) 设计,围绕性能、规模、效率三大原则展开。其核心规格包括: - 核心性能:搭载 136 个 V 系列高性能核心,每个核心配备 2MB L2 缓存,主频最高支持 3.7GHz。 - I/O 与内存:提供 96 条 PCIe Gen6 通道,支持 CXL 3.0 协议;支持 DDR5-8800 内存,每个核心可获得最高 6GB/s 的内存带宽。 - 低延迟设计:采用双 chiplet 设计并直接挂载内存与 I/O 接口,目标将内存访问延迟控制在 低于 100ns。 - 功耗与工艺:基于 台积电 3nm 工艺,热设计功耗(TDP)仅为 300W,显著低于主流高端 CPU 的 400W+。
在部署密度方面,基于 Arm AGI CPU 的 OCP 风冷机架(36kW)可实现每机架安装 30 台服务器,容纳 8160 个高性能核心;而 OCP 液冷机架(200kW)则可实现每机架部署超过 45696 个高性能核心 及超过 1PB 的低延迟内存。
软件生态:从“能跑”到“一等公民”
硬件性能的落地依赖于软件生态。Arm 在数据中心领域的投入已超过 15 年,随着 Neoverse 架构的发布,Arm 已进入快速发展的飞轮效应阶段。目前,在大多数现代软件包中,Arm 架构已成为“一等公民”,在 AI 软件生态中更是表现卓越。截至目前,全球已有 12.5 亿个 Neoverse 核心 被部署在各类云数据中心中。
Meta 的实践证明了这一趋势。Meta 工程师通过小规模团队在 90 天内完成了 Arm 架构的迁移。通过利用大语言模型(LLM)进一步优化代码,Meta 能够在保持与 x86 系统相当性能的同时,实现每瓦性能的巨大提升。Meta 的经验表明,随着 LLM 降低了代码优化门槛,“没有任何理由不将软件迁到 Arm 架构”。
架构之争:Arm 对抗 x86 的核心逻辑
Arm AGI CPU 与 x86 架构在设计哲学上存在根本差异。x86 架构因历史兼容性背负了沉重的执行开销,而 Arm 则专注于 Agentic AI 的核心需求。Arm 的竞争优势体现在两个维度: 1. 性能指标:Arm 专注于优化 IPC(每时钟周期指令数),提供可持续、稳定的全天候性能,而非依赖功耗呈指数级上升的 Boost Mode(高主频模式)。 2. 规模扩展:Arm 实现了真正的线性扩展,其内存与 I/O 子系统与核心数量精准匹配。相比之下,x86 常通过同步多线程(SMT)技术提升线程数,但这往往会导致内存与 I/O 成为瓶颈,迫使运营方不得不额外配置 30% 以上的硬件资源 来弥补效率损失。
未来愿景:迈向万亿美元规模
Arm AGI CPU 的推出将开启全新的市场空间。在同等机架功耗下,Arm AGI CPU 可实现 2 倍的每瓦性能比。Arm 预计,自研芯片业务将为公司打开约 1000 亿美元 的全新市场。展望未来,Arm 认为到 2030 年左右,其在 AI 基础设施等相关领域有机会触达超过 1 万亿美元 的市场规模。