语言、coding、多模态，到底谁坐AI的主桌？---狂喜98页PPT-solo

PPT制作背后的时代加速度

这场播客的PPT制作始于四月初，而演讲当天已是四月底——内容在制作过程中持续迭代，甚至在作者从美国飞抵浦东机场的当天仍在修改；更早前，在拉斯维加斯机场候机时，他仍在更新版本。这种高频迭代本身，正是AI行业加速演进的缩影。作者坦言，自己惯常每三个月整理一次行业观察，但近半年内却被迫三次更新总结：去年十一月的狂喜博客节、今年一月底的2025年中总结（仅隔两个月），以及三月九日的再更新；如今尚未满两月，又需推出新版。这种‘三个月一迭代’的节奏已被彻底打破，行业进入‘三十天一变’的狂飙期。

‘你龙虾还活着吗？’——这个标题的临时更替，恰恰折射出技术迭代之快：上个版本的热点已成‘上个时代’。

为呼应这一现实，作者引用范伟‘学无止境’的表情包，并将行业核心叙事归纳为三张‘桌’：语言（ChatGPT开启的强AI序章）、coding（代码生成的颠覆性拐点）、多模态（世界模型孕育AGI的虚拟子宫）。有趣的是，当前最被资本看好的三家AI公司，恰好分别对应这三桌——但谁坐主桌，正以远超以往的速度轮换。

从Chatbot到Agent：L3阶段的技术跃迁

作者沿用其熟悉的‘L1–L5’演进框架，梳理了AI从基础模型到自主行动体的路径：L1为Chatbot（基础生成），L2为推理（强化学习与后训练），L3即Agent阶段，已成为2026年行业最大共识。阿里千问APP以‘From Question to Action’为slogan，腾讯汤道生亦提出‘AI从Chatbot to Agent’，印证了这一趋势的广泛认同。

关键转折在于：模型能力本身不再是唯一焦点，如何让模型‘自主行动’成为新战场。阿里前负责人林俊阳离职后在Twitter中提出‘agentic thinking’——包括：何时停止思考并行动、调用工具的逻辑与顺序、整合环境噪声、失败后修订计划、多轮工具调用中的连贯性。这些能力指向同一个目标：让模型具备自主学习与任务执行能力。

为实现这一点，行业正转向‘Harness’（驾驭工程）生态：它超越提示词与上下文工程，构建Agent所需的完整运行框架——包括权限围栏、技能封装、工具调用、记忆系统、反馈评估与任务编排。正如魏航所比喻：基座模型是发动机，加Harness才等于Agent；没有Harness，模型只是‘能转的F1引擎’，而有了Harness，它才成为可执行任务的‘整车’。

Harness：新基础设施的崛起

‘Harness’已成为2026年Q1最热技术关键词，其内涵远超传统‘AI基础设施’（infra）范畴——它不再仅指底层算力或数据，而是围绕Agent构建的动态运行生态。这一概念包含两层：修辞层的‘驾驭’（动词） 与技术层的模块集合（如上下文管理、工具调用、记忆系统等）。

随着Harness生态成熟，AI创业浪潮也发生转向：早期聚焦‘为Agent做X’的宽泛定义，如今则明确聚焦于 Harness 本身。与此同时，‘世界模型’（World Model）作为另一热门方向浮出水面——尽管其概念可追溯至2019年，但直到2024–2025年才进入爆发期（如李飞飞的World Lab）。值得注意的是，世界模型虽被归入热门创业图谱，但作者认为它更应属于多模态叙事，而非Agent的直接技术支柱。

‘基座模型提供原始能力……两者结合的瞬间，AI从一个被询问的对象变成了一个去行动的主体。’

世界模型：从边缘概念到行业共识

世界模型本不应出现在当前这张技术演进图谱中——它被纳入更多是出于对热门创业方向的覆盖需求，而非技术逻辑的必然归属。但不可否认的是，过去半年间，世界模型已成为业界最热门的方向之一。其核心诉求在于：构建一个超越语言模态、能‘触达’现实世界的虚拟载体，无论是视频流、3D环境还是类虚拟世界结构。事实上，世界模型的概念早在2019年就已出现，但真正进入爆发期是在2024至2025年：李飞飞教授的World Lab、腾讯混元、字节C Dance 2.0后续版本、阿里‘快乐小马’之后的新模型……各大厂纷纷入局，形成明确趋势。这并非偶然，而是AI向具身智能、环境理解与交互能力跃迁的必然路径。

我们需要一个非语言之外的能够touch到的一个，无论是视频流还是3D什么样的一个类似虚拟世界那样的东西，所以出现了世界模型。

所有人都往这儿走，我觉得这是个意外的出现。

OpenCloud与Cloud Code：Harness架构的具象化

若回归主线，OpenCloud（应为OpenCloud，原文OpenCL为笔误） 是一个典型例证——它本身不做模型，仅提供一层‘壳子’，即一个统一的Agent执行框架：上接各类AI软件接入网关，下联模型层、多Agent协同、记忆系统、工具调用与交互层。其设计完全契合哈内斯（Harness）式架构逻辑。尽管OpenCloud热度仅维持数月，但其架构思想已被验证为有效。

更有力的佐证来自Anthropic的Cloud Code——即便其代码‘意外’泄露（动机存疑），社区仍迅速拆解出其分层设计：交互层、网关层、智能体层、执行层，构成一台高度优化的‘车’。凭借Claude模型的超弹能力与精良架构，Cloud Code展现出惊人实力，甚至被戏称‘Anthropic成了真正的Open AI’（AI取自其Logo）。而当前OpenAI已不再‘Open’，Anthropic反而在开放性与工程实现上占据先机。

它通过Cloud本身模型的超弹的能力，再加上这台设车设计的特别的好，展示出了超强的能力。

所以大家开玩笑说，Anthropic变成了真的Open AI，对吧？真的Open AI那个AI是Anthropic的logo。

Coding：当下AI生态的主桌担当

开源生态进一步印证了这一趋势。蚂蚁开源整理的数据显示，2020年Q1以来GitHub最热新兴项目中，Agent相关生态占据绝对主导：前排项目如OpenCloud、Cloud Code、Skills等，实为同一关键词组合的变体；若扩大至TOP 1000项目，81%与Agent相关。核心关键词始终围绕agent、cloud、llm、code、skill。

从项目分布看，2026年AI开源生态中，AI Assistant（Cloud Code主导）、Chatbot、Coding、Agent Free Work、Harness已成为最热板块。更深层变化在于：软件开发正从‘为人类写’转向‘为Agent写’；而编排能力也从‘加分项’升级为‘起点’——新项目从第一天就以自我演化为设计前提。有趣的是，Agent编排框架的命名也走向‘万物皆可命名’：龙虾、猫、蜜蜂、熊、穿山甲、小马……命名泛化背后，是Coding Agent与通用Agent的边界彻底模糊：用户只关心任务是否完成，不关心实现方式；而自然语言交互进一步消解了技术门槛。

coding可以做所有事情。可以做PPT，可以做信息整理，可以做任何的事情。

我是一个完全不懂代码的纯文科生。但你发现今天我在做很多事情呢，我是在用上面那几个软件……只要解决了就可以了，对吗？

Coding的产业爆发：数据与趋势双重验证

Coding已从‘代码补全’（如GitHub Copilot）进化为全链路智能开发：生成、评审、Debug、需求管理……市场边界持续外扩。数据层面，Coding是当前AI商业化最领先的赛道：其收入规模远超第二至第五名（法律、客服、医疗、搜索、写作）总和；GitHub上AI提交代码激增，金融时报统计显示，2025年下半年起，新上线网站、iOS App及GitHub项目中AI占比快速攀升——App领域尤为明显，沉寂多年后迎来爆发式增长。

头部公司中，Anthropic的Cloud Code自4.5版本起持续陡峭增长，曲线印证‘挡不住了’；OpenAI的Codex亦不落后，周活已达400万。更关键的是收入对比：2026年Q1，Anthropic收入达30亿美元，反超OpenAI的25亿美元（注：统计口径或有差异，但趋势明确）。OpenAI虽仍以9亿周活、71%月留存率、绝对时长优势领跑C端，但收入层面已被Anthropic反超——AI时代，DAU与留存仍是重要指标，但收入才是终极裁判。

Coding这个战场挺大，这个结论在去年就有，但是今天这个结论是，Coding这个战场比很多人想的大的多得多得多。

是的，没有任何意义，收入代表一切，就像前面讲的，很多人会想到二六年的Antsaweb收入会超过我朋友，只是没有人想到会这么快。

古典指标失灵，B端战场异军突起

在当前AI发展节奏下，用户量、留存率、使用时长这三大曾被视作衡量移动互联网产品的核心指标，正迅速失去其解释力——尤其在to B企业服务战场。正如Antsaweb所言，收入才是唯一真实指标：OpenAI的企业收入从2024年底到2025年底增长了十倍，仅2025年3月单月就暴涨十六倍，体量从几十亿跃升至三百亿美金。这一增速远超传统SaaS公司，也标志着AI企业正以指数级速度替代老牌软件厂商——Datadog、Workday、ServiceNow、Adobe、Salesforce等，均被这两家头部公司逐个超越。

“在to B这个战场，to B这个企业的服务的战场啊，它会异军突起。” “你发现那个曲线了？我说今天我们会见到无数次这样挡不住的曲线。”

All in One战略与疯狂产品迭代

OpenAI与Anthropic正同步推进All in One战略，但路径不同：OpenAI将ChatGPT、CodeX、浏览器三大核心产品整合进单一App；而Anthropic则推出其HARNESS系统——即在提供顶级模型的同时，也提供配套的“车”（基础设施与工具链），并对此收费。这种“模型+平台”一体化策略，本质上是将AI能力封装为完整解决方案，提升客户粘性与变现效率。

更惊人的是产品发布节奏：过去50多个工作日，Cloud（即OpenAI）发布70+功能/产品，平均每天1.5个；而自2022年底ChatGPT发布至今，头部公司从未停止迭代。进入2026年后，节奏进一步加快——中国厂商在2025年1–2月密集更新大版本后，2026年4月起已进入“每周多更”阶段：千问3.6 Plus、GROQ 5.1、Meta新模型、OpenAI 4.7、DeepSeek 4.4……版本更迭周期从半年级压缩至月级甚至周级。

“睡醒了，一睁开眼，哦，Cloud又发新版本了。” “干掉Cloud上一个版本，下一个Cloud版本，然后干掉下一个版本就是明天Cloud要发的版本。”

开源主导权转移与DeepSeek的战略卡位

模型竞争已进入“帕累托最优”阶段：不仅比性能，更比成本。DeepSeek V4的突破性意义正在于此——其小规模版本以极低成本实现顶尖性能，在开源模型中遥遥领先。发布后其token价格直接打至2.5折（四分之一），引发行业震动。这标志着DeepSeek不再追求“捅破天花板”的极限性能，而是聚焦性价比与普惠落地，承担起“开源压舱石”角色。

与此同时，开源已成为中美AI博弈的核心战场：美欧国会听证会明确指出，美国在开源投入上严重滞后，已将主导权拱手让予中国厂商。从下载量、模型占比到社区活跃度，阿里千问、DeepSeek等中国模型厂商在开源生态中占据绝对优势。而模型能力的飞跃也倒逼安全机制升级——OpenAI与美欧研究机构均以“过于危险”为由延迟发布某些能力，凸显AI系统性风险已进入政策议程。

“DeepSeek今天已经不去承担那个把天花板捅漏的那个事情了……但是他在承担另外一个角色。” “或许可能 maybe 也是需要的，也是需要在发布之前做更多的安全的测试，是有可能需要的。”

Sora关闭背后的架构与资源权衡

从板块占比来看，图片生成、编辑与视频生成、编辑仍是当前AI应用中最大的赛道。但2024年3月底（实际为3月28日），OpenAI突然关闭其视频生成App Sora，引发广泛讨论。当时舆论几乎一边倒地嘲讽其“留存差”“不如抖音”，甚至有人宣称“打败抖音的绝不会是另一个抖音”。这些观点虽正确却属“正确的废话”——尤其在技术剧烈变革期，所有走过的弯路，最终都可能算数。

真正值得深挖的是：AI模型公司的架构选择（产品+组织）、资源的优先级分配（尤其是token/算力的内部效率），以及不同发展阶段、估值水平与竞争地位的公司如何做动态战略取舍。OpenAI主动关闭Sora，实则是发现“摊子铺太大”已难以追上Sora Two（即后续的Gemini Video等竞品）。而就在Sora关闭后不久，GPT团队推出Image Two——一个仅凭一句提示词就能精准还原抖音直播间细节（如评论区、点赞、关注列表、小黄车卡等）的模型。这不仅延续了Gemini提出的“语言与图像在一桌”的多模态逻辑，更展现出对现实世界规则与商业逻辑的深刻理解。

GPT啊，不是不是，抱歉，Gemini就是谷歌Gemini在去年强势推出它的图片模型之后，在讲呢就是，在一桌的概念，什么叫在一桌？就是图片生成不单纯只是生成图片，图片理解今天世界所有的知识。就是语言跟图在一起，在一桌。

左边这张图是看到，就一句生成词叫‘生成一个抖音直播的截图’……你发现他对什么叫抖音直播间了如指掌，评论区点赞、关注列表、什么红包、用户数量、排名，甚至连那个小黄车的卡都知道。

多模态能力跃升与垂直行业渗透加速

Image Two的另一项惊人表现，是能根据提示词生成《原神》《明朝》《洛克王国》《黑神话：悟空》四款游戏联动推广图，并自动附上准确的版权说明——不仅列出四家厂商（米哈游、库洛、游戏科学、腾讯），甚至大小写都完全正确。这说明模型已具备跨产品、跨公司、跨版权的常识性推理能力，远超传统图像生成范畴。

与此同时，AI商业化速度正在刷新纪录：从1美元AR做到1亿美金AR所需时间被持续压缩。其中法律科技公司Ligora与Harvey表现尤为突出。以Harvey为例：2024年4–5月时其刚完成5000万美元A轮融资；到PPT制作时（2026年2月），估值已达110亿美元——不到两年增长220倍。这印证了AI创业的“指数跃迁”趋势。

这张图叫什么呢？叫一家AI公司从一做到一亿美金AR所需要的时间，这个记录在过去几年疯狂的不断的被打破。

如果大家听我博客时间比较长的话……哈韦在那个时候刚刚融A轮。五千万美金，然后在我做这个PPT的那一天，哈维已经一百一十亿美金了。

SaaS泡沫破裂与商业模式重构

软件股正经历历史性暴跌：截至2026年2月，标普500中软件板块跌幅达20%，为全市场最差表现。许多头部SaaS公司股价暴跌75%以上，ServiceNow市盈率从峰值132倍腰斩至23倍（财报发布后进一步跳水），而其收入仍保持稳定增长。更关键的是，市场关注点已从“利润”转向“AI进展”——2025年Q2起，财报会议中“AI”提及频率反超“盈利”。

这背后是SaaS商业模式的根本性重构：过去“Software as a Service”正转向“Service as a Software”——AI让企业可绕过传统SaaS厂商，用极低成本（如6小时50美元）完成开发。AI正系统性压降各环节成本（营销、专业服务、研发、IT），导致SaaS公司整体毛利率结构被重构。

SaaS这个这个这个词的缩写叫Software as a Service。原来的SaaS是说我给你提供软件，但这个软件是作为服务的。但是今天你发现反了，Service as a Software。

麦格七在OpenAI发布ChatGPT的第一年，二三年引领了整个行业的发的增长，二四年依然引领，但差距在变小。二五年就不引领，二五年是AI的软件跟AI的，比如说能源公司来引领，到二六年他们开始领跌了。

巨头财报亮眼却集体跳水：自由现金流成隐忧

2026年Q1，尽管微软、谷歌、Meta、亚马逊、苹果、英伟达等科技巨头营收与利润表现稳健，甚至超预期，但股价却集体大幅回调——微软当季跌幅达三分之一，为1998年以来最差季度表现。核心原因并非基本面恶化，而是自由现金流（Free Cash Flow）承压：这些公司正以前所未有的规模投入“知识基础架构”（Knowledge-Based Systems, KBS），尤其是大模型训练与推理所需的算力基础设施。例如，微软、谷歌、亚马逊三大云厂商加上Meta，四家公司在资本开支（CapEx）上一年合计投入约3000亿美元，远超其短期收入增长所能覆盖的范围。这种“高增长—高投入—低自由现金流”的错配，导致市场对这些公司的估值逻辑发生转变：市场不再仅看收入与利润，而是重新定价其现金流可持续性与投资回报周期。

“微软、Meta、特斯拉……这张图是过去五十二周的……趋势一模一样的，都在跌，而且跌的不少。”

“最核心的担心，所以出现了一个变化，就是市场对于麦克奇重新定价。”

估值悖论：AI龙头PE腰斩，沃尔玛却获更高溢价

一个极具反差的现象浮现：英伟达虽收入持续暴涨（2026年预计收入超2000亿，2027年预期破万亿，即一年翻五倍），但其Forward PE已降至17倍；而微软、亚马逊、谷歌、Meta这四家KBS投入最激进的公司，PE仅20–30倍——远低于沃尔玛（40–50倍）与Costco（40–50倍），而后两者2027年收入增速预期仅为4%–9%。这揭示出市场定价逻辑的深层转变：投资者不再为“当前增长”买单，而是在押注“未来算力基础设施的垄断权”与“Agent时代CPU复兴”的确定性。与此同时，AI相关公司的整体PE已回归至标普500平均水平，过去三年科技股的估值溢价基本消失。市场资金也高度集中：Q1表现最佳的板块集中于存储（美光、西部数据、SK海力士）与光模块（中际旭创、新易盛等），二者成为仅有的结构性主线。

“沃尔玛和Costco明年的收入增长预期只有四到九个点，英伟达有百分之七十的收入增长，不合理，不是吗？”

“我为什么给一个只有百分之四增长的公司超过四十倍的PE，而且又是一家传统到不能再传统的沃尔玛？市场到底在买什么，或者在怕什么？”

算力军备竞赛：GPU租赁价飙升、CPU重获重视与一级市场爆发

算力需求正从“训练导向”转向“推理与Agent导向”，带来硬件架构的再平衡：过去一个数据中心常见配比是1 CPU : 7–8 GPU（训练阶段），到推理阶段变为1 CPU : 4 GPU，而如今Agent架构下已趋近1:1——CPU重新成为价值高地。这一趋势在2026年Q1财报后得到验证：英特尔单周暴涨20%，AMD涨14%，股价全年翻倍；AMD与Arm也分别上涨50%与68%。与此同时，H100显卡租赁价格仍在上涨（尽管其发布于ChatGPT之前），反映全球算力供不应求；头部五家云厂商（微软、谷歌、亚马逊、Meta、Oracle）已掌控全球约60%–70%算力（含中国整体）。更惊人的是，2026年Q1一级市场融资额达3000亿美元，创历史单季纪录——仅四个月便超2021年全年峰值，且前五大项目与前五大基金分别吸走资金的75%。OpenAI、SpaceX、xAI、DataBricks、Anthropic、Stripe等AI相关公司主导融资，其中OpenAI收入预期已达8000亿美元（当前实际收入仅250亿），尚未上市即跻身全球市值前十五。

“英特尔今天的市盈率已经超过一百倍了……这个概念刚刚开始炒。”

“矫枉必须过正，这个市场的规律就是这样的。”

一级与二级市场的割裂：泡沫的温度计

当前二级市场对后期科技公司的估值已明显降温，PE 和 PS 倍数处于低位；与之形成鲜明对比的是，一级市场仍保持高度慷慨，甚至允许头部公司“选择不上”——即不急于上市。以 OpenAI 为例，其当前估值已达8000 亿美元，体量相当于麦当劳、迪士尼、波音、Uber、福特等多家巨头之和，但其实际收入仅约250 亿美元。更惊人的是，Anthropic 的投资人（如 Coatue）已给出2030 年估值两万亿美元的预期；而就在该预期提出后极短时间内，其一级半市场估值已迅速冲至1 万亿美元。这印证了一个市场现象：一旦数字被喊出，就会被迅速兑现。与此同时，Google 加码 Azure 投入400 亿美元，微软、亚马逊等巨头也纷纷押注 GPU/TPU 阵营，OpenAI 的独立性正面临结构性挑战。

OpenAI 大到什么程度？OpenAI 八千多亿美金，相当于麦当劳加迪士尼，加波音加 Uber 加福特加这些公司，八千多亿美金的公司，其实收入只有两百五十亿美金。

GPTO说，二三三零年，阿萨沃克就值两万亿。这个市场最有意思是说，当一个数字被喊出来，它就会被迅速打到。

叙事与现实的张力：从短剧到数据中心的落地困局

AI 的叙事热度已深刻渗透至产业实践，却也暴露出落地节奏的严重错位。以红果短剧为例，其负责人在中国网络视听大会（由监管部门主办）上宣布拿出5 亿元扶持真人短剧；而同一天，其 App 内的 AI 剧与真人剧榜单已合并，前十名中六至七部为 AI 剧——这不仅是商业选择，更是向监管层释放“支持真人内容”的明确姿态。与此同时，AI 短剧的广告投放数据触目惊心：单日投流消耗已超 1 亿元，远超其“5 亿扶持”的象征性承诺。另一端，特朗普上任后推动的“星际之门”计划中，五座数据中心建设严重延期，实际运行算力仅约 0.3 GW（原计划 5 GW），进度滞后近 2 年。更极端的是，缅因州成为美国首个通过数据中心禁令的州，至 2027 年 11 月前暂停新建；全美已有 11–12 个州正在讨论类似政策——背后是公众对 AI 基础设施带来的电价飙升（缅因州涨幅达 17.6%）、环境影响与社会成本的集体觉醒。

这些热门书代表大家买的多。为什么？焦虑，对，巨大的焦虑。因为真的，我我相信大家在各种各样的地方已经肉身的感受到这种扑面而来的焦虑感，跟那个水位淹到脖子的状态，焦虑。

历史的错觉与人的主体性：我们不是历史的一页

面对 AI 带来的 GDP 增长预期，有人援引恩格斯的“恩格斯暂停”理论，指出技术革命初期工人薪资常停滞数十年；类比之下，当前 AI 爆发似乎也未同步提升普通人的收入与福利。这种宏观历史视角虽具警示意义，却容易陷入上帝视角的傲慢——将个体生命压缩为“历史的一页”，忽视每段人生的真实重量。正如播客现场观众对 AI 讨论热度从上半年的 12% 下降至年底的 6%，再到本次更低——这并非情绪波动，而是集体感知的转向：当 AI 越来越擅长“正确而不会出错的事”，人类的价值反而更需锚定于容错、创造与意义的主动选择。狂喜闭幕式的感染力，正在于它超越了技术演讲本身，回归到在场感、情绪宣泄与真实联结。我们不必等待历史翻页，而应成为执笔人。

人生下来不是成为一张纸，跟成为历史的一页的，所以我会觉得这种观点特别的。