136. 全球大模型季报第9集：和广密聊，Coding是AGI第二幕、硅谷御三家真相、模型正成为新一代OS

AI革命进入第二幕：Coding作为AGI加速器

全球大模型季报第九集呈现出一种复杂而激动人心的情绪张力：一方面，AI正以惊人速度从“能聊”的Chatbot阶段跃迁至“能干”的Agent阶段，Coding已成为推动AGI落地的核心加速器；另一方面，社会层面正滑入白领通缩与结构性失业的窗口期，而整体准备显然尚不充分。过去一个季度，模型能力的跃升幅度甚至可能超过2025年全年——Anthropic的Opus 4.5到4.6的跨越，被视作类似从GPT-3到GPT-4的代际突破，模型从“问答”真正迈入“执行高价值任务”的Agent模式。更值得注意的是，领先模型公司若忽视Coding能力，极大概率会被挤出第一梯队；Coding已不仅是应用场景，更成为与GPU同等关键的底层基础设施。

“你相不相信，code可以表达数字世界的绝大多数任务？因为自然语言是对世界的描述，code是对solution的描述，就是语言及世界，代码及方案。”

“如果领先的模型公司不重视Coding，它大概率会掉出第一梯队的。”

硅谷一线实况：研究员不再写代码，AI反哺AI研发

在硅谷前沿实验室，一个显著的现实是：顶尖AI研究员与工程师日常已基本不亲自写代码——去年系统中尚有70%~80%代码由人编写，今年已降至1%以下。典型工作流变为“AI编写、人审核”，甚至人审能力也常跟不上生成速度。Claude与CodeX在许多任务上已达Meta L8/L9级别架构师水平，开发一个新功能仅需2~3次迭代即可跑通。研发周期从数周压缩至1~3天，生产力被放大数十倍。

更深层的变化在于：AI不仅加速人类研发，更开始反向驱动AI自身突破。多位研究者反馈，近期AI领域的关键进展（如数学题求解、debug、多模态pipeline优化）多由Codex、Claude等模型主导完成——多模态模型的数据迭代周期从1~2个月缩短至数天。Anthropic在50多个工作日内发布70余款产品与功能，这种速度在互联网时代几乎不可想象。Coding正从工具升级为“智能放大器”，成为AGI实现路径中最清晰、反馈闭环最短的主线任务。

“最近很多AI研究上的突破不是人类工程师带来的，而是Codex、Claude带来的。”

商业与战略重构：Coding驱动ARR跃升与御三家博弈

Coding的爆发性增长已直接转化为商业价值的陡峭上升：Anthropic的ARR（年度经常性收入）已公开超越OpenAI，且其头部百万级用户贡献的收入可能超过OpenAI的五六千万订阅用户总和。这标志着商业重心正从C端DAU转向高价值token usage，尤其是超级开发者与企业级用户的深度使用。若当前趋势延续，OpenAI与Anthropic今年底ARR有望达800亿~1000亿美元，明年或奔向2000亿量级——两家公司已迅速跻身“新Magic Seven”阵营。

与此同时，硅谷“御三家”（OpenAI、Anthropic、Google）的战略分野日益清晰：OpenAI因ChatGPT在C端的巨大成功，一度过度聚焦To C而相对忽视Coding布局；Anthropic则凭借Claude系列在Agent与Coding场景的领先，实现弯道超车；Google虽拥有Gemini技术储备，但组织与文化惯性使其反应相对迟滞。历史经验表明，今日的胜利策略可能成为明日的致命短板——Coding的不可外包性（如OpenAI、X、Google曾遭Anthropic断供风险）使其成为必须自研的核心能力，“没有最领先的Coding model，就像没有最领先的GPU”。从AGI路线图看，当前阶段处于“第二幕”：Coding Agent让AI真正开始“干活”，而“第三幕”将是自动化AI研究员，直接推动基础科学突破。

“Coding就像亚马逊当年卖书——借助卖书把仓储、物流、用户、供应链全拉通，再横向扩展SKU。”

Coding：AGI的第二幕，而非垂直场景

当前对 Coding 的认知仍存在严重偏差——许多人将其视为一个垂直应用场景，却忽视了其极强的泛化能力。正如精辟总结所言：“语言级世界，代码级方案”，唯有语言与代码这两个层级的泛化性已被充分验证，其他领域（如数学）虽可辅助提升智能，但表达能力有限，尚无法支撑通用智能的构建。从技术演进角度看，我们正从“第一幕”（大模型基础能力构建）迈入“第二幕”（Coding Agent时代），而这一转变的核心在于：代码是当前唯一被大规模实证可驱动智能体行为与世界交互的语言。

“从拆爆进入了 Coding Agent 时代。” “只有这两个它的泛化性是充分被证明了的，其他领域的泛化性还没有被充充分证明。”

尽管重要性日益凸显，但真正All In Coding的公司仍属少数，且多集中于过去一到三个月。这背后折射出的并非认知不足，而是战略优先级的艰难取舍：在资源有限的前提下，是押注C端流量（如ChatGPT、Gemini），还是聚焦高价值任务（如Anthropic的Coding路径）？过去半年，Google与OpenAI因忙于争夺C端窗口，严重低估了Coding的战略价值；而Anthropic虽因错过C端窗口被迫转向，却意外抓住了关键路径。值得注意的是，C端与高价值任务的融合趋势正在加速——ChatGPT已将Chat、Agent、Code整合为统一平台，但未来可能分化为“大众DAU”与“塔尖用户高token贡献”双轨并行：极少数高价值用户（如百万级开发者）贡献大部分算力消耗与训练数据，形成新的飞轮效应。这种趋势或将加剧“强者恒强”的马太效应，重塑社会分工逻辑。

Anthropic的成功：战略聚焦、数据基因与组织定力

Anthropic在Coding领域的领先，绝非偶然，而是源于其系统性战略定力与组织文化优势。其核心特征可归结为三点：极致聚焦、数据驱动、文化稳定。

首先，战略上高度聚焦。2024年夏天Soul Net 3.5发布后，Anthropic迅速确认Coding为唯一主线，果断放弃多模态、To C及Reasoning Model等热门方向——这些并非技术误判，而是基于对“科技树主线”的清醒认知：模型级应用必须以数据级模型为根基。其创始人Dario与Jared Kaplan（物理学家背景）更倾向于以工程化思维优化scale而非追逐范式革命，强调data efficiency、architecture efficiency与engineering efficiency的协同提升。

其次，数据能力构成护城河。与OpenAI等团队“人人想做零到一突破”的文化不同，Anthropic能组织数百名顶尖人才长期投入数据工程这一“脏活苦活”。传闻Jared Kaplan亲自带队清洗数据，印证了其数据文化已刻入基因。当前Coding与Agentic系统高度耦合，数据复杂度远超传统Chatbot文本，需构建包含任务、环境、评估的完整闭环，而Anthropic在数据工程上的投入已形成显著壁垒。

最后，组织与文化提供稳定支撑。团队高度稳定，人才流失率低；招聘严选“underdog”，通过AGI使命筛选文化契合者；内部透明但对外极度保密，形成独特防御机制。产品团队多由工程师与研究员主导（如Coding创始人Boris），确保模型能力高效转化为用户体验——其Cloud Code终端形态的设计，正是对“模型指数增长红利”的精准承接。

“不做什么，对吧？你看Anthropic就完全放弃了多模态……就是在coding比较专注。”

尽管Anthropic已占据一到两年窗口期，但护城河高度取决于Coding落地难度系数：若低于4分则易被追赶，若高于8分则可能长期领先。当前最大瓶颈或为算力——其1000亿美金ARR目标可能受限于GPU供给，而OpenAI与Google凭借资源储备终将追上。Anthropic的危机感真实存在，但其“坚定执行、不摇摆”的文化，仍是当前最接近AGI工程化落地的范本。

Anthropic：塔尖市场的战略胜利

Anthropic 的成功并非偶然，而更像是一场战略聚焦与文化定力的胜利。它选择了一条与 OpenAI 完全不同的路径：不追求大众市场，而是锚定高价格带、高付费意愿的用户群体。其产品定价始终维持高位，从未降价，这种策略使其得以在模型规模上大胆投入——既然用户愿意为极致效果买单，那模型越大、效果越好，反而能形成更强的护城河与利润率。

这种定位本质上是一种“金字塔尖市场”策略：以顶级性能支撑高溢价，以高溢价覆盖高算力成本。从商业角度看，这比在 C 端红海中拼 DAU 更可持续。但挑战在于，一旦 OpenAI 或 Google 在高端市场发力（例如通过 Coding 能力切入开发者生态），Anthropic 的护城河是否还能守住，尚存变数。

“Anthropic 更像是战略的一个胜利，或者产品专注的胜利，或者文化……这几个隐形要素是比较重要的。” “它定位的是高价格带的那个用户群……我就最高的定价，也有好的 margin。”

OpenAI 的战略转向：Coding 是 AGI 的第二幕

OpenAI 过去一年最大的战略误判，是严重低估了 Coding 的商业价值与技术纵深。它曾将重心放在 C 端 DAU 竞争（如与 Google Gemini 的流量争夺）上，却忽视了一个关键事实：Coding 的市场规模可能是 C 端 Chatbot 的十倍至百倍。直到近期，它才真正将 Coding 提升至最高优先级——GPT-4.4（或称 5.4）的 Coding 能力已获社区高度认可，Agent 能力的跟进也指日可待。

这一转向背后，是现实的倒逼：算力瓶颈正成为其 100 亿美元 ARR 目标的最大制约，而 Coding 场景的高价值、高付费意愿，恰好能缓解这一压力。同时，这也标志着 AI 商业化的范式转移：DAU 不再是核心指标，塔尖用户的 token usage 与产出价值才真正驱动增长。

“OpenAI 现在也开始重注 Coding，它现在没有办法掉头了呀，因为它已经成为一个大 DU 的产品。” “其实不应该再用互联网思维、用 DAU 这些思维再去看这些东西了。”

AGI 赛道的终极竞争：谁掌握自动化科研？

从长期看，全球头部模型公司（OpenAI、Anthropic、Google）的终极目标已趋一致：构建能自主进行基础科研的 AI Researcher。这意味着 AGI 的下一幕，不是更聪明的对话机器人，而是能替代人类完成科学探索的自动化研究系统。

这一趋势带来双重影响：一方面，AI 正在以远超人类的速度推进自身进化——过去一个季度的智商进步，可能超过人类两百年的积累；另一方面，大量中产职业（程序员、律师、医生等）面临被自动化替代的风险，社会结构将面临剧烈震荡。研究员群体已开始焦虑：未来一两年可能是他们作为“人类研究员”最后的窗口期。

OpenAI 的优势在于其自下而上的探索文化——这种文化虽曾导致资源分散（如 Sora 过度投入），但也使其在关键节点上具备爆发式突破的潜力。未来胜负可能不取决于现有规模，而在于能否在“一两个人”层面催生颠覆性创新。

“最终的目的就是用 Agent 用 AI 去 automate 整个 Global GDP，对吧？” “今天你看着有的优势都不见得是优势了……未来决定胜局的，可能就是一两个人。”

Coding能力成为AGI第二幕的关键分水岭

当前AI竞争的核心已从通用对话能力转向工程化落地能力，尤其是Coding与Agentic能力——这被视为AGI的第二幕。OpenAI曾长期轻视Coding，试图直接跃迁至“爱因斯坦级”模型，但实践证明这条路既难又不实用；而Anthropic以务实路线快速切入软件工程场景，凭借在Coding上的深度优化实现收入爆发式增长，进而获取更多资源加速AGI进程。值得观察的是，OpenAI近期已战略转向，全力补强Coding能力，判断其大概率不会掉队，未来与Anthropic将长期齐头并进、交替领先。Google则因Gemini 3.0的C端热度而严重误判Coding重要性，延迟三四个月才将其提至最高优先级，错失关键窗口期。这种滞后可能被指数级放大：Coding落后三个月，后续可能整体落后一年。最终，模型能力的持续迭代将高度依赖算力储备、组织执行力与战略定力。

‘我觉得阶段性被低估了吧，因为最本质的还是模型的进步，OpenAI这个文化这个组织，我觉得还是能继续推出来。’

‘当所有人觉得RL强化学习好的时候，他们也没有把强化学习当成神，也没有去做所谓的reasoning model，而是选择bet了coding，这成就了Anthropic今天的地位啊。’

硅谷御三家：路径分化与组织基因差异

OpenAI、Anthropic与Google在AGI竞赛中呈现出清晰的路径分化：OpenAI文化上追求“成为爱因斯坦”，强调基础突破；Anthropic聚焦“自动化白领工作”，产品极度务实；Google则受限于工程文化主导、PM文化薄弱，虽拥有最强算力（TPU）、最广生态（Workspace、Android）和最稳组织（第三代职业经理人体系），却在产品体验与战略聚焦上屡屡失焦——Gemini 3.0虽刷高Benchmark、推高股价，但C端增长乏力，桌面版至今未上线，过度优化Benchmark而忽视真实体验。更关键的是，Google在多模态与C端投入过重，反而让出Coding黄金窗口。长期看，Google作为“最稳的追随者”仍具强大后发优势；但短期若无法快速补课，可能持续被Anthropic拉开差距。

‘其实Gemini三当时热度很高，感觉像Google王者归来，除了让Google的股价翻倍了，证明不是AI的loser了，其他好像也没捞到太多好处吧。’

‘你掌握了C端的分发，可能还是很重要……但你跳出去是不是就偏离主线了？’

持续交付能力：AI时代的终极护城河

单次模型突破已不足以建立壁垒，持续交付高质量模型的能力才是未来三年的核心考验。这需要三重支撑：每年数百亿美元的持续投入、管理层坚定的战略押注与认知深度，以及顶尖人才的长期凝聚力。Meta作为“最有机会的挑战者”，已快速整合TBD团队，在9–10个月内推出具备Tier 1潜力的模型，其策略是“70%学Google（对标Gemini）、30%学OpenAI（强化Post-train与RL）”，并押注Manus等Agent产品，试图以低门槛个人助理切入C端。但其产品创新力仍弱于中国团队，且“重金挖人”文化可能抑制风险承担精神。反观XAI，虽拥有顶级 founding team（如Ilya、Dawn、Tony），却因战略摇摆（盲目追求大模型参数、忽视数据效率）与核心成员流失而短期掉队。马斯克在FSD上的成功难以复刻于大模型领域，本质在于：自动驾驶是工程优化问题，而大模型是系统科学问题——后者更依赖数据、架构与组织协同，而非单纯算力堆砌。

‘所有人去做coding，你也不能全部都只follow，那你肯定也站不到前面，肯定要有自己的bet。’

‘AI的beta更重要。整个大水漫灌，每个人都往往上涨……我们今天不需要想中局问题。’

XAI的困局：战略摇摆与组织断层

XAI当前面临的最大挑战并非技术能力不足，而是战略持续摇摆。Elon Musk最初寄望于“大力出奇迹”，通过超大规模集群训练巨型模型，但现实表明，模型参数规模本身并非问题的核心；真正关键的是数据质量与data efficiency（数据效率）。如今，一些规模小十几倍的模型——甚至中国团队的蒸馏模型——已在性能上反超XAI，这凸显出其在数据工程上的滞后。

更深层的问题在于组织层面：频繁的战略转向（从多模态、AI搜索到All in Coding）导致团队节奏混乱，缺乏长期聚焦；同时核心团队人员流失严重，反映出高层对创始团队的信任动摇。事实上，XAI的创始团队本是世界级水平，这种“不耐心”可能源于Elon对短反馈周期的执念——他倾向于两周内看到结果，而非投入长期、系统性的research工程。这种文化导致团队在数据质量、基础设施框架等long-term基础问题上准备不足。

“你开着F1的速度跑一个马拉松，而且在城市里跑……你需要百分之两百、百分之三百的聚焦。”

“伊朗是不不够聚焦的，而且AIGC的投入还是一个马拉松，得持续投入。”

Agents Engineering：AI生态的范式跃迁

“Honeys Engineering”（应为Agents Engineering之误）代表了一种更深层的范式转变：应将AI Agent视为“一等公民”，而非工具。这意味着为Agent构建完整的工作环境——如同人类需要电脑、账号、权限体系一样，Agent也需专属的运行时环境（harness）与组织管理框架。

Harness的意义在于：它让普通模型也能执行高价值任务。就像优秀的企业文化能提升个体员工下限，一个良好的Agent harness可通过约束、调度、协作机制放大模型能力。这使得大量非SOTA模型（包括开源模型）得以被高效复用，极大释放了算力潜力。

这一范式也倒逼产品思维的重构：未来产品设计将从“To C / To B”转向“To Agent”。衡量标准不再是DAU，而是Token Usage与Token Value Margin——因为决策权正从人类手中转移至Agent。当Agent自主调用工具、组合服务时，生态的构建逻辑将彻底改变。

“Agent想做好，一方面是模型，还有一方面是harness……有了Harness以后呢，其实普通的模型也可以做高价值的任务了。”

模型即OS：AGI的基础设施化与社会冲击

一个核心判断正在形成：模型正成为新一代操作系统。未来最领先的模型将不仅是AI助手，更是全球GDP级的基础设施——支撑科研、工作、生活决策的底层平台，其战略地位可能超越今日的Google或云服务商。

这一趋势带来双重社会冲击：

其一，人类知识与智力的价值被系统性压缩。过去靠知识获取建立的职业路径正在崩塌：AI已能替代2–3年经验的专业工作，程序员、咨询顾问、IT外包等岗位加速自动化。美国本科毕业生就业率创历史新低、Meta与微软持续裁员，预示着大规模结构性失业可能已开启。

其二，创造力与审美（taste）将成为新的人类核心竞争力。当基础设施极度繁荣（从想法到代码运行的周期极短），个体创造力被空前释放；而具备独特审美与判断力的创作者，仍能构建高影响力内容——自媒体即是一个缩影：一人团队即可触达百万受众。

“模型可能就是新一代的操作系统……未来最领先的几个模型，可能就是世界最重要的基础设施。”

“人类的知识和智力变得廉价了……我们不是最聪明的一个物种了。”

模型竞赛的门槛与窗口期

当前大模型竞赛已进入高度资本与资源密集阶段：要参与其中，至少需招募上百名世界级AI科学家，这解释了为何Meta（小扎）不惜重金投入——其本质是在“买时间”。然而仅有资金、算力与人才仍不足够；企业还需在战略押注（strategic bets）、产品定位及Go-to-Market路径上做出精准决策。值得注意的是，GPU资源已极度稀缺，即便有钱也未必能买到，这进一步抬高了新入局者的门槛。作者将当前建模竞赛比作“再造一个台积电”，强调其不仅面临窗口期极短的问题，更受制于全球资源分配的结构性瓶颈。

“我感觉再出来新的模型公司不是没机会，但这个难度比我们想象的大非常非常多。”

“硅谷最近也出现了很多 new labs 新型实验室……但GPU太有限了，资本也比较有限。”

AI R爆发与新基础设施崛起

一季度最显著的信号是AI R（AI Revenue）的指数级增长：Anthropic 和 OpenAI 公开披露的AI R分别达300亿与250亿美元（口径或有差异），预计2024年底将达800–1000亿，2025年或突破1500–2000亿。这意味着二者已实质成为新一代“MacSeven”——即AI时代的基础设施级平台。紧随其后的是Cursor（25亿）、Proplastic（超5亿）、ElevenLabs与Suno（均超3亿）、Manus与Lovigo（均超4亿）等应用层公司，技术红利显著，增长迅猛。与此同时，AI for Science（如OpenEvidence、Arbridge）在医疗等垂直领域也加速落地。

“其实他们已经是新的 MacSeven 了嘛……再往下就是 Cursor 可能二十五亿美金，技术红利都很强，涨得都很快。”

AGI组合的未来：机器人、科学与个体开发者

展望AGI投资组合，理想配置为：三大领先模型各占20%，剩余20%中，10%投向机器人，10%投向AI for Science与Agent/Infra。作者特别看好机器人——认为其可能在未来6–18个月内迎来质变：随着data scaling真正启动（如第一视角ego-centric数据、遥操作、五米手套等）、架构突破与数据技能提升，机器人将进入加速期；而中国团队在硬件+制造协同上具备独特优势。与此同时，AI应用层正迎来“一人公司（One PC）”的复兴：当模型成为新一代操作系统级基础设施，个体从创意→编码→商业化可高度自动化，关键指标是“每消耗100美元token能否赚到110美元”（即正ROI闭环）。作者坦言自己尚未达塔尖开发者水平（Claude百美元token常未用满），但已明显感受到生产力跃升。

“模型就变成变成一个新的平台，足够的powerful，每个人都可以做很多的事情，从一个idea到代码跑通到最后revenue实现，可能是非常非常高效的。”