Cerebras的诞生:一个非科班出身的构想与百度美研的土壤

Cerebras Systems 是一家为 AI 训练与推理重新设计计算架构的公司,其核心创新在于 Wafer Scale Architecture(晶圆级架构)——将整片晶圆集成成一个超大规模的计算引擎,包含 84 个无缝互联的芯片,远超传统 GPU 的单芯片堆叠模式。这家公司并非传统芯片公司,而是构建了一套软硬结合的完整系统,涵盖芯片、服务器、散热、电源以及开放的编译器与软件栈。

其创始人 Darrell 的背景颇具启发性:他并非计算机科学或 AI 科班出身,而是拥有数学、物理与生物学背景,却对 AI 构想极深。他是由 Greg Demers 引荐加入百度美国研究院的,而 Greg 正是在那时识别出 Darrell 的潜力。这一段经历也折射出 Cerebras 的诞生背景:2016 年,当 Android 生态如日中天、AI 尚处早期时,百度美研已为 AI 研究者提供充足预算,支持他们采购 GPU 进行模型训练。彼时,Darrell 正处于其职业生涯的关键节点,而 Cerebras 的种子也悄然埋下。

“Darrell 是 Greg 招进去的……他对 AI 的一些构想非常的深,即使他没有 AI 的这个背景。”

“它不只是一个芯片公司,它也是做完整的系统,包括芯片、服务器啊、散热、电源了,还有敞开的编译器、软件栈等等。”

投资起点:警惕英伟达垄断,寻找深度学习的最优解

作为 Cerebras 的早期投资人,周楠在加入百度美研后不久便主导了这笔投资——这也是他投资生涯的首个项目。当时,他与百度 Chief Science Officer 吴恩达(Wu Wendong)及团队共同观察到一个趋势:AI 模型规模将持续扩大,而训练效率高度依赖算力基础设施。研究人员普遍指出,未来模型将越来越大,若只依赖英伟达,恐将形成垄断风险。

值得注意的是,2016 年的英伟达尚未成为 AI 时代的霸主,其芯片约 96% 的 die area 并非为深度学习优化,而是源于图形显卡的原始设计。因此,当时投资 Cerebras 的核心动机并非“对抗英伟达”,而是寻找一个更适配深度学习训练的替代性算力方案,以避免未来生态被单一供应商锁定。

“不能就只依赖于英伟达这一颗芯片,因为未来会出现非常非常大的一个模型……如果这个时候不去找这颗芯片的话,那么在十年以后、五年以后,就会形成英伟达独大的一个局面。”

“所以当时的起始点就是为了找一个所谓的比英伟达可能更好用,或者是未来为了让英伟达不垄断的一个这么一个替代品,或者是一个第二解决方案吧。”

从边缘到焦点:推理需求爆发重塑 Cerebras 的战略价值

Cerebras 在 2024 年 5 月上市,市值一度逼近 1000 亿美元,较两三年前的数十亿美元估值实现跃升。这一变化并非单纯源于市场情绪,而是由 AI 训练向推理重心迁移 所驱动。两年前,市场焦点仍在模型训练;而如今,推理已占 GPU 需求的一半以上,尤其在 AI Agent、实时交互等场景下,低延迟(low latency)与高吞吐(high throughput) 成为关键指标。

Cerebras 的晶圆级架构恰好在推理环节展现出显著优势:计算单元与内存同处硅片,大幅降低通信延迟与数据搬运成本。这一特性使其在特定 workload(尤其是推理)中成为英伟达的有效补充,甚至挑战者。更关键的是,OpenAI 在 2026 年初与其签署至少 200 亿美元的大额订单,进一步验证了其技术价值。Sam Altman 早在 2016 年便成为 Cerebras 投资人,早于百度,反映出其对算力多元化的前瞻性判断——任何 frontier lab 都必须构建供应链多样性,避免单一路线依赖

“OpenAI 它并不是说啊,我需要一个便宜点的GPU,而是说目前这个 AI compute,它就是模型继续 scale 的一个瓶颈。”

“你不能就依赖这一个芯片提供商,对不对?就是你需要有一些供应链的考虑,需要有一些战略自主性的考虑。”

英伟达的替代方案与推理经济

在当前大模型竞赛中,Frontier Lab(前沿大模型实验室)普遍在寻找算力替代方案,而推理环节正日益成为决定用户体验与商业毛利的核心变量——它要求低延迟、高吞吐、优化的 cost per token。Cerebras 正是在这些维度上提供了显著优势,因此对模型公司极具吸引力。值得注意的是,Cerebras 并非 OpenAI 官方投资,而是由 Sam Altman 个人出资;这在法律上不构成关联交易,尽管 Altman 作为多领域投资者(包括曾投资被 OpenAI 收购的硬件公司)常引发市场讨论。此外,Cerebras 近期已与 AWS 等云厂商深化合作,同时也在构建自有云平台,展现出从硬件供应商向全栈解决方案提供商的战略跃迁。

Cerebras 它确实呢在这些方面都提供了非常明显的优势。那对于这个 Frontier Lab 就是有非常明显的这个吸引力。

Sam Altman 他其实投了很多公司,他投了一些硬件了,包括他投的一个硬件公司也被 OpenAI 最后买了。

云平台:降低 adoption friction 的关键一步

硬件公司长期面临的核心挑战是 adoption friction(采用摩擦):客户采购新硬件后,还需重构软件栈、适配基础设施,周期漫长。Cerebras 通过推出自有云平台,将底层复杂系统封装为 API 接口,使客户可即插即用、快速集成其硬件能力,极大加速部署进程。这一布局不仅提升了客户采纳速度,也增强了业务护城河——尤其在 GPU 严重短缺的当下,云服务成为硬件能力的自然延伸。创始人 Andrew Fieldman 更在 Bloomberg Tech 峰会上明确表态:“我们会和所有人合作,除了英伟达”,彰显其生态独立性与技术自信。

对于硬件公司来讲,就纵观这个生态,就因为我在高通做这么多年,就是我发现硬件公司一个很大的挑战,就是所谓的叫做 adoption friction。

Cerebras Cloud 呢?它通过去做自己的 Cloud,就可以把这个整个非常复杂的底层系统给它封装起来……可以立刻用起来。

Wafer Scale 架构:优势、风险与规模化挑战

Cerebras 的 Wafer Scale Engine(晶圆级引擎)颠覆了传统芯片制造逻辑:它不切割晶圆,而是在整片晶圆上构建单一超大规模 AI 计算引擎,实现芯片内无缝互联,避免了多 GPU 间频繁的数据搬运与通信瓶颈。其优势在于:计算单元、内存与通信网络同硅片集成,大幅提升推理效率——可类比为“一个巨型大脑”而非“多个强脑通过高速网络协作”。然而,该架构也带来严峻挑战:良率、散热、封装与量产交付均面临极高技术门槛。尽管当前其 wafer scale 方案已非技术瓶颈,但能否在稳定环境中持续规模化交付、服务更多元客户,仍是关键考验。招股书显示,其客户集中度仍较高,亟需拓展客户广度以支撑长期增长。

GPU 有点像是很多很多很强大的人类的这种脑袋瓜,但是它需要靠一个高速的网络去协作。而 Cerebras 它是一个非常非常巨大的一个大脑,尽量让计算和记忆都发生在同一个硅片上。

它的挑战在哪儿呢?就是说,这个挑战就是涉及到当时的一个风险性问题了……封装啊、散热呀、良率啊等等。

百度美研与Cerebras的早期技术验证

在2017年,Cerebras尚处于极早期阶段,其芯片尚未流片,所有架构构想仅存在于Simulator(仿真平台)中。当时,全球唯一能运行其仿真模型的公司是百度——原因在于百度拥有当时世界上最大的语言模型,且该模型基于自研的PaddlePaddle(飞桨)架构构建,而当时Transformer尚未诞生,仍处于Pre-Transformer时代。百度美研团队(包括Greg等研究员)深度参与了对Cerebras架构的验证工作:他们不仅协助进行竞标测试,还与Cerebras团队保持紧密合作,部分研究员甚至后续加入该公司。这一过程对Cerebras至关重要,因为它首次在实战层面验证了其单芯片大规模计算架构的可行性与潜力

“当时那个是个simulator,所以就是说只能通过一些数据去推测一些结果性的东西……假设你这个芯片的良率也可以顺利通过,假设你的compiler也都没有问题,假设你的散热封装也都没有问题的情况下,那确实它的结果是非常好的。”

“我可以透露的就是说,那段时间一些研究员吧,包括像Greg也是,不只是说帮助我对投做投资做这个精调,也是跟Cerebras有相当一个紧密的合作。”

硬件与系统风险的系统性尽调

尽调过程中,百度美研团队对Cerebras的硬件风险(良率、散热、封装、电源短路等)进行了系统性拆解。团队不仅咨询了斯坦福等高校的芯片专家,还与当时已在硬件创业一线的前百度美研硬件人才深入沟通,模拟了最坏情况下的应对路径:例如若流片失败,可能需额外6个月+5–10亿美元成本重来,但该风险在当时被评估为可控。物理层面,Cerebras已提出液冷系统原型(一个远大于芯片本体的冷却盒子),并设计了软件级冗余机制——可在检测到某芯片短路后自动迁移任务至备用芯片。在系统层面上,百度美研重点评估了Compiler(编译器)与生态对接问题,包括如何将模型映射至新架构、如何兼容TensorFlow/PyTorch等主流框架。尽管美研团队以软件与模型背景为主,但通过跨领域协作,基本确认了系统级风险亦可解决。

“从这个物理和硬件风险上来讲,它已经做到了它能够可控的一个最好的这么一个解决方案。”

投决过程与早期估值误判

2017年8–9月,百度完成对Cerebras的投资,投前估值约7亿美元,在当时已属高价(接近独角兽水平)。投决会由CFO Jennifer李、陆奇与李彦宏共同参与,决策极为高效——投资备忘录提交后不到两天即通过,被作者称为“无痛秒过”。这一效率源于百度高层对非共识、高颠覆性算力系统的共识性支持。值得注意的是,吴文达此时已离开百度,未参与决策。事后回看,团队对AI发展速度明显低估:2017年预估Cerebras在2025年可占据20%训练芯片市场(对应训练时长约22 PF-days),但实际AI算力需求远超预期,导致市占率虽绝对值增长显著,却因市场总量膨胀而显得比例偏低。Cerebras在2017–2019年间经历流片延迟(与尽调最坏情形基本吻合),但团队韧性使其最终成功落地;如今其重心已转向推理市场,并为OpenAI等大客户定制基础设施——其早期构建的全栈人才结构(含大量基础设施专家)为其规模化交付提供了保障。

Cerebras的早期挑战与董事会支持

Cerebras 成立初期,为承接 OpenAI 这样的大客户订单,必须提供高度定制化的基础设施支持,这在当时是完全必要的战略选择。公司能否快速交付解决方案,取决于其内部团队的工程能力——而事实是,其80 多名早期员工中包含大量博士,且人才结构覆盖基础设施全栈,具备独立完成复杂系统开发的能力。

尽管公司后期也与第三方 infra 公司(如 SGLAM 生态中的新创企业)展开合作,例如与 Agenta AI 等推理基础设施厂商探索协同机会,但核心能力始终扎根于自身。2017 至 2019 年间,Cerebras 遭遇严重低谷:芯片流片未果、compiler 难以攻克、甚至出现“WiFi 油片重量问题”等细节性技术障碍。然而,董事会(由 Benchmark、Foundation Capital 和 Eclipse Capital 构成)对 Andrew Felman 的坚定支持,成为公司穿越寒冬的关键。

“你想让一个计算芯片取得成功,真的是没有十年的时间,它是很难实现的。”

“当时在那个庆祝会上,他的几个早期投资人都纷纷发言,让我非常感动的,他们每个人都讲说,在一七年到一九年的时候,公司遇到了很大的挑战……但是这个 board 就是对于 Andrew 的支持,我觉得是非常大。”

市场窗口错位与硬件行业的周期现实

Cerebras 的发展节奏与大模型训练市场爆发存在显著错位:其芯片虽已流片,但恰逢英伟达 GPU 已成训练事实标准,迁移成本极高。主流一线 VC 在 2020 年前普遍回避 Wafer Scale 架构项目,因其缺乏对硬件创新周期的深度理解;即便在 2022 年 ChatGPT 爆发后,许多机构才转向押注 AI,但为时已晚。

有人假设:若 Cerebras 能更早交付,是否可能改变算力格局?例如,OpenAI 若能获得其 Serverless 架构支持,或可形成与英伟达并行的生态。但现实是,半导体行业从未出现过“快速颠覆式迭代”的先例——从物理制造、良率爬坡到 compiler 与软件栈完善,每个环节都需漫长验证。Cerebras 成立时间短、方案新颖,注定难以在 Transformer 模型爆发初期迅速匹配前沿实验室需求。

“如果他当时流片成功了……OpenAI 当时在训练模型的时候,是老黄拿着这个 GPU 送过去的。如果那个时候已经有 Serverless,那就是 Andrew Felman 拿着 GPU 送过去了,是不是?”

“确实比较难这么快能够达到一个理想状态。如果你不到理想状态,那么这些 frontier lab 就不会用你。”

百度美研的未竟之志与时代遗憾

百度美研时期,投资主线聚焦 AI 与自动驾驶两大方向:除 Cerebras 外,还布局了激光雷达、算力芯片及自动驾驶初创公司(如余凯博士相关项目),并计划设立独立的 Growth Fund,以系统性投资前沿 AI 全栈技术。当时已将 Databricks、OpenAI、Scale AI 等纳入重点备投名单,尤其视 Databricks 为 Data Engine Thesis 的核心标的。

然而,地缘政治风险导致 LP 集体退缩,该基金最终未能成立。尽管作者携完整 thesis 走访 Insight Partners、Sequoia、Benchmark 等多家顶级 VC,却无人认同其对高风险 AI 硬件的长期判断——他们普遍转向更“安全”的 SaaS 投资。这一错失,使得百度本可能成为 OpenAI 等公司的早期重要股东。

“如果这个基金做起来了,可能现在百度应该是全世界最牛的这个 shareholder 吧,会实现所有的那些放天量的这些 shareholder。”

“后来我也离开了。就是我觉得不是百度错过,是当时地缘政治的一些原因,让我们没有办法去把那个基金去给它做起来。”

Anthropic 的诞生:一场未竟的电话与命运的岔路

Cerebras 的早期投资人周楠回忆,Anthropic 创立于 2020 年,OpenAI 则更早——2015 年成立,但彼时两家 frontier lab 的融资都异常艰难,美国主流 VC 在 ChatGPT 横空出世前几乎无人相信大模型能成事。Anthropic 最初的投资人并非机构 VC,而是 Google 前 CEO Eric Schmidt 与 DeepMind 创始人 Demis Hassabis——这两人都是以个人身份出手的早期天使

周楠亲历了那个关键节点:2020 年夏天,几位曾与他共事于百度美国研究院的前同事(“David 的好基友们”)打来电话,激动地告知:GPT-3 已进入 post-training 阶段,他们当年在百度测算的 Scaling Law 雏形,正在 OpenAI 实现。他当场追问:“模型聪明到什么程度?”对方坦言:“还在胡说八道”,离真正可用尚远——毕竟当时百度内部曾估算,训练一个维基百科级模型需近十年、上亿美元算力。

更关键的是,这群人透露想另起炉灶,因不信任 OpenAI 对安全的态度。他们向周楠咨询建议,并坦承融资困难:“主流 VC 不会投这种烧钱项目,哪怕在高通也很难推动。”周楠直言:“你要找到愿意为算力买单的人,否则就是大挑战。”由于疫情封控,他未能赴美面谈;而后来 a16z 投资人反复登门、协助融资策略——Anthropic 终得以成立

“当时他们想出来创业的时候,我我确实知道。” “HOC 是他的早期天使,但 H16C 没投,是个人投的——可能他也没说服成。”

百度美研的黄金时代:神仙打架的人才密度与未竟的理想

周楠补充道,百度美国研究院(美研)鼎盛时约 250 人,全是全球顶尖 AI 研究员,包括自动驾驶与大模型团队。他加入时已在 Sunnyvale 总部,每日午餐时研究员们热烈讨论前沿课题——他形容那是“一堆神仙打架的年代”,人才密度远超同期 Google 与 DeepMind

百度美研的独特在于:Robin(李彦宏)亲自推动成立(2011 年),并给予充足 GPU 预算——周楠称“当时全球可能找不到第二家研究院如此慷慨”。Andrew Ng 离开 Google 加盟百度,带动大批 DeepMind 人才随其赴美;而 Dario Salvi(达里奥)虽非 CS 科班出身(背景为数学、物理、生物),却因 Greg Dimens 的慧眼被破格招入,其模型训练能力与 AI 构想深得团队认可

周楠澄清网络传言:“Dario 在百度受委屈”实为玩笑。他能加入百度,实为职业关键跃升。当时研究员可自由发表论文、开展分析研究,氛围高度自由且鼓励探索——这与他后来投资 H16C 合伙人(生物背景)的缘分或有关联:共同语言与价值观促成早期信任

“我觉得那个阶段还是非常难得的……大家都是冲着安卓来的,更是冲着实现 AI 理想来的。”

地缘政治下的错失:为何百度未能赢在大模型起跑线?

尽管百度美研起步极早(2011 年),且 2015 年《Deep Speech》论文已揭示“数据+算力→模型智能”的 Scaling Law 逻辑,最终却未能主导大模型浪潮。周楠归因于地缘政治压力:2018 年后,大量研究员因中美 AI 竞争压力选择离开,导致人才链断裂。

他观察到全球 AI 创新路径差异:“美国擅长颠覆性架构创新,中国强于工程落地与场景应用。”NLP 与语言模型的突破始于硅谷;而中国在计算机视觉、城市级 AI 应用(如摄像头网络)上迅速追赶。百度美研的先发优势,终被地缘变量抵消

值得称道的是两个遗留成果:自动驾驶(坚持投入多年)与 昆仑芯(星)——后者负责人当时已向周楠透露创业构想,Cerebras 投资期间亦有深度交流,最终成功落地。

周楠坦言,若当年能更果断成立独立 AI 基金,投资所有百度美研出身的创业者(如 Anthropic、小马智行、Poly、Dario 等),或可改写格局。但基金因地缘阻力与自身经验不足(当时仅第二年做投资)未能成行:“如果再成熟五年,可能一切不同。”

“我觉得大家心里还是比较唏嘘……作为一个中国公司在美国做大模型研发,本身就会遇到很多阻碍。” “如果当年我已经做投资做了五六年,可能很多事情就会不一样了。”

投资主线的演进:从算力、数据引擎到端侧与大模型基础设施

回顾在百度和高通长达十余年的科技投资实践,我的投资主线始终围绕算力基础设施展开。在百度期间,我聚焦于算力投资,随后自然延伸至data engine方向,即投资与data warehouse、data engine相关的公司——这背后是对以cloud-based training为核心的大模型(无论是视觉还是语言模型)趋势的预判。与此同时,自动驾驶的硬件层软硬结合方案也是早期布局的重点。

进入高通后,因公司战略强调端侧AI,我花了约三年时间深入观察IoT与端侧设备的投资机会。但很快我得出一个关键结论:端侧AI在美国本土的硬件IoT生态中并不容易腾飞,其土壤远不如中国成熟——应用场景更丰富、落地更顺畅。例如早期对智能家居设备机器人等端侧产品的投资反馈显示,中国市场的接受度与落地效率显著高于美国。这一全球视角的对比,让我更坚定地将部分资源倾斜至中国IoT赛道。

原话:"真正的IOT可能在中国更能够跑通,相比美国的话,基于这样的一个全球性的视角,因为高通它也是一个全球性的公司,我们就发现说。IOT的这些投资在中国明显要比在美国成功了很多的多得多,因为它的应用场景在中国也更多。"

原话:"这个场景其实在中国,它更多的有落地的场景,相比在美国的情况下,然后就到了 GPT moment 出现的这个时间段,二零二二年的时候,我那个时候有一个觉醒期吧,就是发现说,哇,这个大模型的到来比我们当时在百度测算的时间要早了好几年。"

GPT时刻后的战略转向:重押AI基础设施与推理优化

2022年GPT现象级爆发让我进入一个“觉醒期”——意识到大模型落地节奏远超预期,亟需将投资重心重新拉回cloud-based AI infra。从2023年起,我判断AI正进入从2.0到3.0的加速过渡期:模型能力、企业采纳率同步跃升。在高通内部的一次分享中,我明确提出:Enterprise AI的到来会比我预想的快,并首次提出Coding AI概念(早于Cursor热潮),认为其将成为爆发性场景。

这一判断直接导向对AI基础设施层的密集布局。在大语言模型时代,infra几乎是一片空白——包括RAGinference优化模型部署策略等环节,都蕴藏大量早期机会。其中,推理成本优化成为核心战场:推理成本直接决定应用端的token cost与最终profit margin,而降低推理开销=提升gross profit量级,这标志着AI商业模式进入“下半场”优化阶段。

原话:"如果你能够把你的推理成本降下来,你的 token cost 降下来,那么你的这个 gross profit 一定会有一个很大的量级的提升。所以这点上,我觉得是到了 AI 的一个 business model 优化的一个下半场。"

我于2023年8月投资了一家专注推理优化的初创公司(后于2024年3月被Nervous收购),其创始人是韩松教授的学生——而韩松本人正是芯片公司“神剑”的联创。该公司属于系统层软硬协同的第三方infrastructure优化服务商,可无缝对接云侧部署场景。这也呼应了英伟达“五层蛋糕”模型中,云与inference同属第三层(能源→芯片集群→云/inference→应用)的逻辑——inference优化是连接模型与商业价值的关键枢纽

共识与窗口:非共识投资的困境与‘砸Winner’的新范式

当前早期投资的最大挑战是:AI已成广泛共识,非共识窗口急剧收窄。以Cerebras为例,从投资到上市历时十年;而2023年投资Anthropic或OpenAI尚存短暂窗口期,如今则几乎“非共识到共识的转化时间短到你还没反应过来,它就已成共识”。我在2025年2月曾列出重点方向(如general purpose AI agent、video model、multi-modal infra、physical AI等),但每个机会窗口仅持续1–2个月——要求投资人具备极强的嗅觉敏锐度快速决策能力

因此,VC策略正发生结构性转变:头部机构正转向中后期,砸已跑出的Winner。例如Benchmark在24小时内完成20亿美元基金募集,专注押注已验证的category winner(如coding agent、frontier lab、infra龙头)。这虽被质疑“是否还是VC”,但现实逻辑清晰:在AI adoption早期阶段,winner一旦确立,将形成飞轮效应——Anthropic当前估值虽处训练量级,但未来成长为“五个独角兽”级别并非不可能。

原话:"如果你把这个A I的时间拉长的话,我们可能还处在这个A I这这轮,Let's say可能现在是第四次、第五次这个呃技术变革的一个早期。因为现在虽然我们已经有很明显的 winner 了……但是它还在处于 adoption 的早期。"

原话:"那如果现在你作为一个明智的一级市场投资人,你要投什么?那那投,我觉得投TLP是no brainer。"

展望未来,我最期待的突破点是Physical AI(机器人)。尽管其技术难度高于自动驾驶,但对正确性的容错率更高(自动驾驶需99.9%+可靠性,而多数物理场景可接受渐进式进步),且应用场景更丰富。参考语言模型的经验,Physical AI的aha moment可能比预期来得更早——现在正是下注硬件层的关键窗口期。

Physical AI 的 Aha Moment 或将提前到来

尽管 Physical AI 当前仍面临数据瓶颈与软硬件协同等挑战,但其关键突破点(aha moment)可能比自动驾驶更早到来。这看似反直觉——毕竟 Physical AI 的应用场景远比自动驾驶更多样化,但其对任务完成度与准确性的容忍度更高。相比之下,自动驾驶要求99.9%以上的正确率,否则将危及生命;而 Physical AI 在多数任务中,即使出现少量错误,系统仍可容错运行或通过重试修正。这一判断源于大语言模型(LLM)发展的历史经验:十年前,百度美研曾估算,像 VKT-D 这类通用模型的出现需十年时间;但实际进展远超预期,模型规模扩大后,其泛化能力与进步速度呈现出非线性陡峭增长,这可能是一种尚未被充分建模的物理规律。

原话:"它其实这个模型它是有一个generalization,那个应该怎么讲泛化的能力,就是这个模型泛化的能力的速度会比你想象的要快。当你的模型越来越大的时候,它的这个进步的程度,它是会呈现一个,我觉得这可能是个物理的一个规律吧。它的进步速度后面会呈现一个陡峭性的一个曲线"

原话:"所以Physical AI也是你接下来可能会花点精力去看的方向。对,这个我可能会会花一些精力去看这个方向,因为。他还没有形成共识,所以我觉得投资人就是一定要在没有形成共识的事情上去形成一个自己的投资的理念和逻辑。

算力格局:从训练转向推理催生新机会

当前 AI 算力趋势正从训练主导转向推理主导,这一转变在 2025 年下半年后因 coding 与 agent 应用的爆发而成为现实。Agent 所需的复杂调度、低延迟响应与异构任务处理,暴露出 GPU 在推理场景中的局限——尤其是功耗与延迟问题。这为低延迟、高能效的专用推理芯片创造了空间。Cerebras 凭借其 Wafer Scale Engine 架构在上市后强势上涨,正因其在推理阶段具备高吞吐、低延迟与高稳定性优势;英伟达亦迅速响应,于去年 12 月以 200 亿美元收购 Grok,并在 2026 年 GTC 上将其整合进推理平台。

更值得关注的是CPU 架构的复兴趋势:在 agent 工作流中,大量调度、控制类任务并不适合 GPU 的并行范式,亟需新型 CPU 解决方案。周楠指出,已有创业团队正着手开发此类推理芯片,虽处早期,但方向明确。这一变化也反映在二级市场——英特尔与 AMD 近年显著上涨。回望九年前,周楠在百度美研时便担忧大模型算力对英伟达的过度依赖;如今,除 Google TPU 等自用芯片外,公共云与公开市场仍由英伟达形成事实垄断。如何打破这一格局,将成为未来 AI 基础设施演进的核心命题。