AI革命进入第二幕:Coding作为AGI加速器

全球大模型季报第九集呈现出一种复杂而激动人心的情绪张力:一方面,AI正以惊人速度从“能聊”的Chatbot阶段跃迁至“能干”的Agent阶段,Coding已成为推动AGI落地的核心加速器;另一方面,社会层面正滑入白领通缩与结构性失业的窗口期,而整体准备显然尚不充分。过去一个季度,模型能力的跃升幅度甚至可能超过2025年全年——Anthropic的Opus 4.5到4.6的跨越,被视作类似从GPT-3到GPT-4的代际突破,模型从“问答”真正迈入“执行高价值任务”的Agent模式。更值得注意的是,领先模型公司若忽视Coding能力,极大概率会被挤出第一梯队;Coding已不仅是应用场景,更成为与GPU同等关键的底层基础设施。

“你相不相信,code可以表达数字世界的绝大多数任务?因为自然语言是对世界的描述,code是对solution的描述,就是语言及世界,代码及方案。”

“如果领先的模型公司不重视Coding,它大概率会掉出第一梯队的。”

硅谷一线实况:研究员不再写代码,AI反哺AI研发

在硅谷前沿实验室,一个显著的现实是:顶尖AI研究员与工程师日常已基本不亲自写代码——去年系统中尚有70%~80%代码由人编写,今年已降至1%以下。典型工作流变为“AI编写、人审核”,甚至人审能力也常跟不上生成速度。Claude与CodeX在许多任务上已达Meta L8/L9级别架构师水平,开发一个新功能仅需2~3次迭代即可跑通。研发周期从数周压缩至1~3天,生产力被放大数十倍。

更深层的变化在于:AI不仅加速人类研发,更开始反向驱动AI自身突破。多位研究者反馈,近期AI领域的关键进展(如数学题求解、debug、多模态pipeline优化)多由Codex、Claude等模型主导完成——多模态模型的数据迭代周期从1~2个月缩短至数天。Anthropic在50多个工作日内发布70余款产品与功能,这种速度在互联网时代几乎不可想象。Coding正从工具升级为“智能放大器”,成为AGI实现路径中最清晰、反馈闭环最短的主线任务

“最近很多AI研究上的突破不是人类工程师带来的,而是Codex、Claude带来的。”

商业与战略重构:Coding驱动ARR跃升与御三家博弈

Coding的爆发性增长已直接转化为商业价值的陡峭上升:Anthropic的ARR(年度经常性收入)已公开超越OpenAI,且其头部百万级用户贡献的收入可能超过OpenAI的五六千万订阅用户总和。这标志着商业重心正从C端DAU转向高价值token usage,尤其是超级开发者与企业级用户的深度使用。若当前趋势延续,OpenAI与Anthropic今年底ARR有望达800亿~1000亿美元,明年或奔向2000亿量级——两家公司已迅速跻身“新Magic Seven”阵营

与此同时,硅谷“御三家”(OpenAI、Anthropic、Google)的战略分野日益清晰:OpenAI因ChatGPT在C端的巨大成功,一度过度聚焦To C而相对忽视Coding布局;Anthropic则凭借Claude系列在Agent与Coding场景的领先,实现弯道超车;Google虽拥有Gemini技术储备,但组织与文化惯性使其反应相对迟滞。历史经验表明,今日的胜利策略可能成为明日的致命短板——Coding的不可外包性(如OpenAI、X、Google曾遭Anthropic断供风险)使其成为必须自研的核心能力,“没有最领先的Coding model,就像没有最领先的GPU”。从AGI路线图看,当前阶段处于“第二幕”:Coding Agent让AI真正开始“干活”,而“第三幕”将是自动化AI研究员,直接推动基础科学突破。

“Coding就像亚马逊当年卖书——借助卖书把仓储、物流、用户、供应链全拉通,再横向扩展SKU。”

Coding:AGI的第二幕,而非垂直场景

当前对 Coding 的认知仍存在严重偏差——许多人将其视为一个垂直应用场景,却忽视了其极强的泛化能力。正如精辟总结所言:“语言级世界,代码级方案”,唯有语言与代码这两个层级的泛化性已被充分验证,其他领域(如数学)虽可辅助提升智能,但表达能力有限,尚无法支撑通用智能的构建。从技术演进角度看,我们正从“第一幕”(大模型基础能力构建)迈入“第二幕”(Coding Agent时代),而这一转变的核心在于:代码是当前唯一被大规模实证可驱动智能体行为与世界交互的语言

“从拆爆进入了 Coding Agent 时代。” “只有这两个它的泛化性是充分被证明了的,其他领域的泛化性还没有被充充分证明。”

尽管重要性日益凸显,但真正All In Coding的公司仍属少数,且多集中于过去一到三个月。这背后折射出的并非认知不足,而是战略优先级的艰难取舍:在资源有限的前提下,是押注C端流量(如ChatGPT、Gemini),还是聚焦高价值任务(如Anthropic的Coding路径)?过去半年,Google与OpenAI因忙于争夺C端窗口,严重低估了Coding的战略价值;而Anthropic虽因错过C端窗口被迫转向,却意外抓住了关键路径。值得注意的是,C端与高价值任务的融合趋势正在加速——ChatGPT已将Chat、Agent、Code整合为统一平台,但未来可能分化为“大众DAU”与“塔尖用户高token贡献”双轨并行:极少数高价值用户(如百万级开发者)贡献大部分算力消耗与训练数据,形成新的飞轮效应。这种趋势或将加剧“强者恒强”的马太效应,重塑社会分工逻辑。

Anthropic的成功:战略聚焦、数据基因与组织定力

Anthropic在Coding领域的领先,绝非偶然,而是源于其系统性战略定力与组织文化优势。其核心特征可归结为三点:极致聚焦、数据驱动、文化稳定

首先,战略上高度聚焦。2024年夏天Soul Net 3.5发布后,Anthropic迅速确认Coding为唯一主线,果断放弃多模态、To C及Reasoning Model等热门方向——这些并非技术误判,而是基于对“科技树主线”的清醒认知:模型级应用必须以数据级模型为根基。其创始人Dario与Jared Kaplan(物理学家背景)更倾向于以工程化思维优化scale而非追逐范式革命,强调data efficiency、architecture efficiency与engineering efficiency的协同提升。

其次,数据能力构成护城河。与OpenAI等团队“人人想做零到一突破”的文化不同,Anthropic能组织数百名顶尖人才长期投入数据工程这一“脏活苦活”。传闻Jared Kaplan亲自带队清洗数据,印证了其数据文化已刻入基因。当前Coding与Agentic系统高度耦合,数据复杂度远超传统Chatbot文本,需构建包含任务、环境、评估的完整闭环,而Anthropic在数据工程上的投入已形成显著壁垒。

最后,组织与文化提供稳定支撑。团队高度稳定,人才流失率低;招聘严选“underdog”,通过AGI使命筛选文化契合者;内部透明但对外极度保密,形成独特防御机制。产品团队多由工程师与研究员主导(如Coding创始人Boris),确保模型能力高效转化为用户体验——其Cloud Code终端形态的设计,正是对“模型指数增长红利”的精准承接。

“不做什么,对吧?你看Anthropic就完全放弃了多模态……就是在coding比较专注。”

尽管Anthropic已占据一到两年窗口期,但护城河高度取决于Coding落地难度系数:若低于4分则易被追赶,若高于8分则可能长期领先。当前最大瓶颈或为算力——其1000亿美金ARR目标可能受限于GPU供给,而OpenAI与Google凭借资源储备终将追上。Anthropic的危机感真实存在,但其“坚定执行、不摇摆”的文化,仍是当前最接近AGI工程化落地的范本。

Anthropic:塔尖市场的战略胜利

Anthropic 的成功并非偶然,而更像是一场战略聚焦与文化定力的胜利。它选择了一条与 OpenAI 完全不同的路径:不追求大众市场,而是锚定高价格带、高付费意愿的用户群体。其产品定价始终维持高位,从未降价,这种策略使其得以在模型规模上大胆投入——既然用户愿意为极致效果买单,那模型越大、效果越好,反而能形成更强的护城河与利润率。

这种定位本质上是一种“金字塔尖市场”策略:以顶级性能支撑高溢价,以高溢价覆盖高算力成本。从商业角度看,这比在 C 端红海中拼 DAU 更可持续。但挑战在于,一旦 OpenAI 或 Google 在高端市场发力(例如通过 Coding 能力切入开发者生态),Anthropic 的护城河是否还能守住,尚存变数。

“Anthropic 更像是战略的一个胜利,或者产品专注的胜利,或者文化……这几个隐形要素是比较重要的。” “它定位的是高价格带的那个用户群……我就最高的定价,也有好的 margin。”

OpenAI 的战略转向:Coding 是 AGI 的第二幕

OpenAI 过去一年最大的战略误判,是严重低估了 Coding 的商业价值与技术纵深。它曾将重心放在 C 端 DAU 竞争(如与 Google Gemini 的流量争夺)上,却忽视了一个关键事实:Coding 的市场规模可能是 C 端 Chatbot 的十倍至百倍。直到近期,它才真正将 Coding 提升至最高优先级——GPT-4.4(或称 5.4)的 Coding 能力已获社区高度认可,Agent 能力的跟进也指日可待。

这一转向背后,是现实的倒逼:算力瓶颈正成为其 100 亿美元 ARR 目标的最大制约,而 Coding 场景的高价值、高付费意愿,恰好能缓解这一压力。同时,这也标志着 AI 商业化的范式转移:DAU 不再是核心指标,塔尖用户的 token usage 与产出价值才真正驱动增长

“OpenAI 现在也开始重注 Coding,它现在没有办法掉头了呀,因为它已经成为一个大 DU 的产品。” “其实不应该再用互联网思维、用 DAU 这些思维再去看这些东西了。”

AGI 赛道的终极竞争:谁掌握自动化科研?

从长期看,全球头部模型公司(OpenAI、Anthropic、Google)的终极目标已趋一致:构建能自主进行基础科研的 AI Researcher。这意味着 AGI 的下一幕,不是更聪明的对话机器人,而是能替代人类完成科学探索的自动化研究系统

这一趋势带来双重影响:一方面,AI 正在以远超人类的速度推进自身进化——过去一个季度的智商进步,可能超过人类两百年的积累;另一方面,大量中产职业(程序员、律师、医生等)面临被自动化替代的风险,社会结构将面临剧烈震荡。研究员群体已开始焦虑:未来一两年可能是他们作为“人类研究员”最后的窗口期

OpenAI 的优势在于其自下而上的探索文化——这种文化虽曾导致资源分散(如 Sora 过度投入),但也使其在关键节点上具备爆发式突破的潜力。未来胜负可能不取决于现有规模,而在于能否在“一两个人”层面催生颠覆性创新

“最终的目的就是用 Agent 用 AI 去 automate 整个 Global GDP,对吧?” “今天你看着有的优势都不见得是优势了……未来决定胜局的,可能就是一两个人。”

Coding能力成为AGI第二幕的关键分水岭

当前AI竞争的核心已从通用对话能力转向工程化落地能力,尤其是Coding与Agentic能力——这被视为AGI的第二幕。OpenAI曾长期轻视Coding,试图直接跃迁至“爱因斯坦级”模型,但实践证明这条路既难又不实用;而Anthropic以务实路线快速切入软件工程场景,凭借在Coding上的深度优化实现收入爆发式增长,进而获取更多资源加速AGI进程。值得观察的是,OpenAI近期已战略转向,全力补强Coding能力,判断其大概率不会掉队,未来与Anthropic将长期齐头并进、交替领先。Google则因Gemini 3.0的C端热度而严重误判Coding重要性,延迟三四个月才将其提至最高优先级,错失关键窗口期。这种滞后可能被指数级放大:Coding落后三个月,后续可能整体落后一年。最终,模型能力的持续迭代将高度依赖算力储备、组织执行力与战略定力

‘我觉得阶段性被低估了吧,因为最本质的还是模型的进步,OpenAI这个文化这个组织,我觉得还是能继续推出来。’

‘当所有人觉得RL强化学习好的时候,他们也没有把强化学习当成神,也没有去做所谓的reasoning model,而是选择bet了coding,这成就了Anthropic今天的地位啊。’

硅谷御三家:路径分化与组织基因差异

OpenAI、Anthropic与Google在AGI竞赛中呈现出清晰的路径分化:OpenAI文化上追求“成为爱因斯坦”,强调基础突破;Anthropic聚焦“自动化白领工作”,产品极度务实;Google则受限于工程文化主导、PM文化薄弱,虽拥有最强算力(TPU)、最广生态(Workspace、Android)和最稳组织(第三代职业经理人体系),却在产品体验与战略聚焦上屡屡失焦——Gemini 3.0虽刷高Benchmark、推高股价,但C端增长乏力,桌面版至今未上线,过度优化Benchmark而忽视真实体验。更关键的是,Google在多模态与C端投入过重,反而让出Coding黄金窗口。长期看,Google作为“最稳的追随者”仍具强大后发优势;但短期若无法快速补课,可能持续被Anthropic拉开差距。

‘其实Gemini三当时热度很高,感觉像Google王者归来,除了让Google的股价翻倍了,证明不是AI的loser了,其他好像也没捞到太多好处吧。’

‘你掌握了C端的分发,可能还是很重要……但你跳出去是不是就偏离主线了?’

持续交付能力:AI时代的终极护城河

单次模型突破已不足以建立壁垒,持续交付高质量模型的能力才是未来三年的核心考验。这需要三重支撑:每年数百亿美元的持续投入、管理层坚定的战略押注与认知深度,以及顶尖人才的长期凝聚力。Meta作为“最有机会的挑战者”,已快速整合TBD团队,在9–10个月内推出具备Tier 1潜力的模型,其策略是“70%学Google(对标Gemini)、30%学OpenAI(强化Post-train与RL)”,并押注Manus等Agent产品,试图以低门槛个人助理切入C端。但其产品创新力仍弱于中国团队,且“重金挖人”文化可能抑制风险承担精神。反观XAI,虽拥有顶级 founding team(如Ilya、Dawn、Tony),却因战略摇摆(盲目追求大模型参数、忽视数据效率)与核心成员流失而短期掉队。马斯克在FSD上的成功难以复刻于大模型领域,本质在于:自动驾驶是工程优化问题,而大模型是系统科学问题——后者更依赖数据、架构与组织协同,而非单纯算力堆砌。

‘所有人去做coding,你也不能全部都只follow,那你肯定也站不到前面,肯定要有自己的bet。’

‘AI的beta更重要。整个大水漫灌,每个人都往往上涨……我们今天不需要想中局问题。’

XAI的困局:战略摇摆与组织断层

XAI当前面临的最大挑战并非技术能力不足,而是战略持续摇摆。Elon Musk最初寄望于“大力出奇迹”,通过超大规模集群训练巨型模型,但现实表明,模型参数规模本身并非问题的核心;真正关键的是数据质量data efficiency(数据效率)。如今,一些规模小十几倍的模型——甚至中国团队的蒸馏模型——已在性能上反超XAI,这凸显出其在数据工程上的滞后。

更深层的问题在于组织层面:频繁的战略转向(从多模态、AI搜索到All in Coding)导致团队节奏混乱,缺乏长期聚焦;同时核心团队人员流失严重,反映出高层对创始团队的信任动摇。事实上,XAI的创始团队本是世界级水平,这种“不耐心”可能源于Elon对短反馈周期的执念——他倾向于两周内看到结果,而非投入长期、系统性的research工程。这种文化导致团队在数据质量、基础设施框架等long-term基础问题上准备不足

“你开着F1的速度跑一个马拉松,而且在城市里跑……你需要百分之两百、百分之三百的聚焦。”

“伊朗是不不够聚焦的,而且AIGC的投入还是一个马拉松,得持续投入。”

Agents Engineering:AI生态的范式跃迁

“Honeys Engineering”(应为Agents Engineering之误)代表了一种更深层的范式转变:应将AI Agent视为“一等公民”,而非工具。这意味着为Agent构建完整的工作环境——如同人类需要电脑、账号、权限体系一样,Agent也需专属的运行时环境(harness)与组织管理框架

Harness的意义在于:它让普通模型也能执行高价值任务。就像优秀的企业文化能提升个体员工下限,一个良好的Agent harness可通过约束、调度、协作机制放大模型能力。这使得大量非SOTA模型(包括开源模型)得以被高效复用,极大释放了算力潜力。

这一范式也倒逼产品思维的重构:未来产品设计将从“To C / To B”转向“To Agent”。衡量标准不再是DAU,而是Token Usage与Token Value Margin——因为决策权正从人类手中转移至Agent。当Agent自主调用工具、组合服务时,生态的构建逻辑将彻底改变。

“Agent想做好,一方面是模型,还有一方面是harness……有了Harness以后呢,其实普通的模型也可以做高价值的任务了。”

模型即OS:AGI的基础设施化与社会冲击

一个核心判断正在形成:模型正成为新一代操作系统。未来最领先的模型将不仅是AI助手,更是全球GDP级的基础设施——支撑科研、工作、生活决策的底层平台,其战略地位可能超越今日的Google或云服务商。

这一趋势带来双重社会冲击:

其一,人类知识与智力的价值被系统性压缩。过去靠知识获取建立的职业路径正在崩塌:AI已能替代2–3年经验的专业工作,程序员、咨询顾问、IT外包等岗位加速自动化。美国本科毕业生就业率创历史新低、Meta与微软持续裁员,预示着大规模结构性失业可能已开启

其二,创造力与审美(taste)将成为新的人类核心竞争力。当基础设施极度繁荣(从想法到代码运行的周期极短),个体创造力被空前释放;而具备独特审美与判断力的创作者,仍能构建高影响力内容——自媒体即是一个缩影:一人团队即可触达百万受众。

“模型可能就是新一代的操作系统……未来最领先的几个模型,可能就是世界最重要的基础设施。”

“人类的知识和智力变得廉价了……我们不是最聪明的一个物种了。”

模型竞赛的门槛与窗口期

当前大模型竞赛已进入高度资本与资源密集阶段:要参与其中,至少需招募上百名世界级AI科学家,这解释了为何Meta(小扎)不惜重金投入——其本质是在“买时间”。然而仅有资金、算力与人才仍不足够;企业还需在战略押注(strategic bets)、产品定位及Go-to-Market路径上做出精准决策。值得注意的是,GPU资源已极度稀缺,即便有钱也未必能买到,这进一步抬高了新入局者的门槛。作者将当前建模竞赛比作“再造一个台积电”,强调其不仅面临窗口期极短的问题,更受制于全球资源分配的结构性瓶颈

“我感觉再出来新的模型公司不是没机会,但这个难度比我们想象的大非常非常多。”

“硅谷最近也出现了很多 new labs 新型实验室……但GPU太有限了,资本也比较有限。”

AI R爆发与新基础设施崛起

一季度最显著的信号是AI R(AI Revenue)的指数级增长:Anthropic 和 OpenAI 公开披露的AI R分别达300亿250亿美元(口径或有差异),预计2024年底将达800–1000亿,2025年或突破1500–2000亿。这意味着二者已实质成为新一代“MacSeven”——即AI时代的基础设施级平台。紧随其后的是Cursor(25亿)、Proplastic(超5亿)、ElevenLabs与Suno(均超3亿)、Manus与Lovigo(均超4亿)等应用层公司,技术红利显著,增长迅猛。与此同时,AI for Science(如OpenEvidence、Arbridge)在医疗等垂直领域也加速落地。

“其实他们已经是新的 MacSeven 了嘛……再往下就是 Cursor 可能二十五亿美金,技术红利都很强,涨得都很快。”

AGI组合的未来:机器人、科学与个体开发者

展望AGI投资组合,理想配置为:三大领先模型各占20%,剩余20%中,10%投向机器人10%投向AI for Science与Agent/Infra。作者特别看好机器人——认为其可能在未来6–18个月内迎来质变:随着data scaling真正启动(如第一视角ego-centric数据、遥操作、五米手套等)、架构突破数据技能提升,机器人将进入加速期;而中国团队在硬件+制造协同上具备独特优势。与此同时,AI应用层正迎来“一人公司(One PC)”的复兴:当模型成为新一代操作系统级基础设施,个体从创意→编码→商业化可高度自动化,关键指标是“每消耗100美元token能否赚到110美元”(即正ROI闭环)。作者坦言自己尚未达塔尖开发者水平(Claude百美元token常未用满),但已明显感受到生产力跃升。

“模型就变成变成一个新的平台,足够的powerful,每个人都可以做很多的事情,从一个idea到代码跑通到最后revenue实现,可能是非常非常高效的。”