Vol.117 人间一日，AI千年，从视频模型内卷到AI产业的极限跨越与世界的“参差”逻辑

中美视频模型竞赛：战略差异与资本逻辑

当前全球视频大模型的竞争格局呈现出鲜明的中美分野：在中国，以字节跳动（CogVideoX 2.0）、快手、可灵（Kling）、MiniMax（HunYuan Video）等为代表的多家厂商正密集发力，形成“多强并进”的局面；而美国方面，仅谷歌仍坚定投入视频模型研发，OpenAI 已明确退出该赛道，Anthropic（Claude）则从未涉足该领域。Runway 等早期美国视频模型初创公司已转向“卖铲子”模式——提供模型接入平台而非自研模型，实质是战略退守。

这一差异的根本原因在于战略优先级与资本耐性的不同。在中国，视频是字节的核心主战场，快手虽非视频起家，但其体量与资金储备足以支撑长期投入且不急于盈利；相比之下，美国头部企业面临更严格的 ROI 考量：OpenAI 因同时推进浏览器、社区、电商、新闻推送等多个方向，导致资源分散，在模型主战场已被 Anthropic 超越的背景下，被迫收缩视频业务以聚焦核心。正如庄明浩所言：

“无论是中美现在最领先这几家厂商，短期内都不太可能去考虑要盈利的问题，就谷歌不会考虑，字节也不会考虑，甚至是快手都不会考虑。”

“今天这个时间确实这个竞争过于激烈了……视频本身就很耗钱，无论什么角度看，量它比纯文本肯定耗的钱更多，训练也好，实施也好，部署也好，用起来也好，都是。”

视频模型的高算力、高成本、高门槛特性，正推动行业进入“非盈利阶段的军备竞赛”，只有具备战略定力与资本弹性的玩家才能坚持到最后。

从 L2 推理到 L3 Agent：AI 系统的“整车化”跃迁

AI 技术演进正沿着清晰的层级路径推进：L1 是基础对话（如早期聊天机器人），L2 是推理能力（如 DeepSeek R1 的思维链输出），而 L3 的核心是 Agent——具备任务执行能力的智能体。这一跃迁意味着 AI 不再满足于“回答问题”，而是要“完成任务”：需理解上下文、调用用户权限、访问数据库、操作文件与系统界面，甚至参与反馈闭环。

这一转变催生了对“车架系统”（非仅模型引擎）的迫切需求。庄明浩用生动比喻指出：基础模型是普通发动机，推理模型是 F1 引擎，但仅有引擎无法驾驶；真正的 Agent 是一辆完整的车——需要方向盘、刹车、仪表盘、传动系统乃至外壳。当前产业热点正从“龙虾”（LLM）转向“蒸馏”“Harness（驾驭）”“词元（token）”等词，正是这一系统化升级的外显信号。

“它走出了这个阶段的时候，其实它就需要单纯聊天是不够的，它需要知道你的上下文，知道你在做什么事情，知道你任务的交付的结果是什么……它甚至要用你的数据库、用你的权限、用你的文件，甚至用你的电脑。”

“原来做的第一代模型、基础模型像一个普通的发动机引擎，推理模型像一个F1的引擎。但是你光有引擎是不够的，你要有台车……它才会变成一台车让你来开。”

这一阶段的落地挑战远超模型本身，涉及安全、权限、系统集成、人机协同等复杂工程问题。因此，2026 年主线或将聚焦于“如何把车造好、开稳”，而非单纯比拼模型参数。

估值逻辑重构：对标驱动下的非理性繁荣？

当前中国 AI 初创公司估值已显著脱离传统财务指标逻辑。庄明浩提出“百分之一到百分之二法则”：中美科技赛道头部企业估值基本维持在 1:100 至 1:200 的比例（如 NVIDIA 市值 4.5 万亿美元 → 对应中国 GPU 公司估值约 3000–6000 亿人民币；OpenAI 8400 亿美元 → 对应 MiniMax/智谱招股书估值约 60–120 亿美金）。这一粗暴对标法完全忽略收入、亏损、商业模式，仅基于“未来可能性”的预期差。

正因如此，智谱与 MiniMax 当前估值已达对标值的 5–6%（约 3000–4000 亿港币），高出基准部分主要源于情绪溢价与稀缺性挤压：市场认定中国新一代纯模型公司仅有这两家标的，而传统互联网巨头（百度、快手、商汤）因业务多元、模型占比低，未被纳入“纯模型溢价”体系。当中国互联网市值约为美国的 10%（理性对标），而 AI 公司已达 5–6%，市场便认为仍有空间——直到情绪退潮或财务指标落地。

“这个百分之一到百分之二是不考虑任何的业务状态，我也不考虑你收入多少，我也不考虑你是在亏损亏了多少钱，只对只是对标。”

“那为什么这些公司没有涨，甚至在跌呢？就是因为大家会认为新一代的纯模型公司只有这两家。”

短期内，OpenCloud（龙虾）带动的视频应用爆发（如 Kimi、MiniMax 财报显示收入激增）进一步强化乐观预期；但若 2026 年前无法建立可持续变现路径，估值逻辑或将面临重估。

估值与情绪的双轮驱动：未上市公司的融资红利

当前市场对头部大模型公司的估值逻辑，高度依赖短期事件驱动与情绪渲染，而非传统财务指标。以 Kimi 和 Memax 为例，它们虽已上市，但其最新财报反映的是2025财年数据，而春节后 Open Cloud 带来的视频模型爆发属于2026年Q1，因此当前股价上涨尚未转化为实际融资能力——已上市公司无法立即增发，但未上市的 Kimi、捷越等却能借势提升估值、加速融资。正如一位从业者所言：“那边在享受虚假的股价上涨，这边是真金白银在融钱。”

具体来看，Kimi 在发布 Kimi 2.5 当晚，估值便从60亿美元跃升至100亿美元；更关键的是，其同期宣称“20天收入超去年全年”，若按此趋势线性外推，全年收入可达去年的18倍，而考虑到春节后仍在持续增长，实际倍数可能达数十倍甚至更高。这种“肉眼可见”的收入跃迁，叠加开源榜单登顶、OpenAI 主浪带动等多重正向反馈，构成了典型的正向循环叙事。但需警惕的是，这种增长逻辑尚未经过财务验证，更多是市场情绪与预期的叠加产物。

“当晚就直接从六十亿美金估值，当晚跳到一百亿美金估值，直接跟这轮再谈投资的人说，六十亿那一轮的额度扣一半。你留的一半钱按一百一斤，就这么谈。”

“Kimi在发二点五之后，又赶上OpenCLow这一波是前二十天的收入超过去年全年……如果只按这二十天不增长的情况下，那他这一年收入预期就是去年的十八倍。”

解禁压力与结构性分化：巨头的“宽容悖论”

尽管市场情绪高涨，但结构性风险正在临近：Kimi 与 Memax 均于元旦左右上市，其基石投资者解禁窗口分别在6个月（2026年中）与12个月（2026年底至2027年初）。历史经验表明，此类时点极易引发股价剧烈波动——如商汤科技上市后解禁当日曾暴跌超50%。即便当前情绪仍能支撑股价，但解禁潮仍是无法回避的硬约束。

与此同时，市场对新兴AI公司（如Kimi、捷越）表现出显著“宽容”，却对阿里、腾讯等巨头近乎“苛责”。这种分化源于认知错位：AI对阿里、腾讯当前营收贡献尚不足1%，将其视为“新时代AI公司”本就不合理；而腾讯、阿里凭借庞大生态（微信、支付宝、企业微信等）在AI落地中具备天然协同优势，其产品迭代节奏虽慢，却更重稳定性与用户渗透——这与微软、Meta当前面临的困境类似：即便技术投入未落后，市场仍以短期股价表现倒逼战略激进。

值得注意的是，恒生科技指数的疲软与SaaS板块的下跌，反映的是AI对传统产业的“间接赋能”叙事失效：当主情绪转负，微观层面的效率提升难以扭转系统性悲观。从估值角度看，标普500中信息科技公司PE已从峰值40倍回落至20倍，与大盘均值趋同，仿佛AI浪潮从未发生——但现实是，技术、产品、产业链已发生深刻变革。这种“估值回撤但现实跃迁”的背离，正是当前市场最微妙的张力所在。

引擎与车架的协同进化：Q2的隐性主线

展望2026年Q2，市场焦点或将从“模型性能竞赛”转向安全可控的系统集成能力。头部厂商（如OpenAI、Anthropic）因担忧模型能力“超越人类控制阈值”，已推迟最新版本发布——这既是技术审慎，也是战略留白。模型越强，对承载它的“车架”（即应用层、生态层、安全层）要求越高：需支持自主循环、实时纠偏、复杂生态互联，甚至反向影响模型训练迭代。

这一趋势下，中美厂商将呈现差异化路径：Kimi 与智谱或聚焦 Agent 与推理优化；Memax 强化多模态生态融合；捷越则持续深耕硬件合作（手机、车机），推动AI向物理世界延伸。“车架”不再是被动适配，而成为与“引擎”同步演进的主动变量。但挑战在于：目标虽明确（构建安全、可扩展、自适应的AI系统），路径却高度不确定——没有标准答案，只有多方案并行试错。Q2的真正信号，或许不在于某家厂商发布新模型，而在于其是否率先实现“引擎-车架”的闭环验证。

“它是一起的，所以厂商自己也会做相关的事情……它既能对引擎未来的能力的提升起到帮助，这些能力会反向影响到下一代的模型的训练上，而不单纯只是拿来让大家用这件事情上。”

模型竞赛进入‘月更’节奏，头部厂商进入‘拼刺刀’阶段

当前AI模型层面的竞争已进入白热化阶段，Q2的主线仍是模型能力的持续迭代与拓展，但节奏显著加快：从过去以半年为周期，迅速演进为三个月一波发布潮，甚至可能进一步压缩至一两个月一次。春节前（一月底至二月中）是一波高峰，而四月中旬以来，Mix、智谱、Kimi、月之暗面等厂商密集发布新品，技术演进速度已远超传统产品迭代逻辑。

中美头部厂商在战略上趋同但路径分化：美国厂商如OpenAI与Anthropic虽同处“大模型”赛道，实则处于激烈对抗而非合作状态；Anthropic凭借从OpenAI带出的“coding加一切”核心理念，以极快节奏推出大量功能（仅Cloud相关产品近三个月就上线70余项），形成“每一天都有新东西”的爆发式创新态势。这种节奏已无法用传统组织架构支撑，其产品迭代已进入“涌现式”阶段——模型能力突破临界点后，能力外溢至编程、办公、B端场景等多方向，形成正向飞轮。

它相当于每一天都有新东西。而且新东西就是频繁爆各个方向，什么to B的场景的，爆什么office的，编程的，然后这个事情又没有影响到它模型的进展。

人类面对新事物的第一反应是傲慢、鄙视、看不起，从怀疑迅速进入争抢——而阿乔伟（Anthropic）已跨过怀疑阶段，直接进入全民抢滩。

To B战场重构：SaaS收入被‘编程式AI’系统性替代

Anthropic等厂商的爆发式增长，本质是将AI能力嵌入企业级工作流，重构了To B市场的价值分配逻辑。其核心叙事是：用编程方式解决一切问题（coding加一切），而这一策略已被验证可行。尤其关键的是，AI coding的战场比预期大得多——过去仅面向程序员的工具（如Cloud Code、Codex、Tree）正与通用Agent融合，用户无需懂代码，只需下达自然语言指令即可获得结果，技术门槛被彻底打破。

这直接冲击传统SaaS市场：企业CIO开始意识到，原以订阅制、年费形式存在的软件预算，可能被AI方案一次性砍至原值的40%甚至归零。结果是：Anthropic月度收入持续翻番，迅速替代Planter、ServiceNow等成熟软件公司；其新功能发布甚至能直接导致网络安全类ETF单日下跌7%——市场已用脚投票，不再区分具体业务细节，只看AI是否能替代原有软件栈。

你从一个很现实角度来讲，因为它主要做to B，那这些这些场景原来的收入是被那些所谓的软件公司跟SaaS公司以订阅制、企业信用卡的方式，每年CIO采购的方式……今天这CIO突然意识到，我似乎可以砍掉很多这样原来的预算。

这一波软件股的暴跌，Anthropic的收入暴涨，全部都是这样……这一波，你像前两天他说这波模型太强……当天晚上网络安全的ETF跌七个点。

中国厂商的‘性价比突围’与生态绑定新逻辑

中国厂商正以成本优势撬动全球AI竞争格局：头部模型训练成本约为美国厂商的百分之一（估值与实际消耗均处同量级），却能产出80–85分水平的模型。这种“七分之一成本、八十分能力”的组合，使市场愿意接受稍慢的响应速度——“我也可以多等两分钟”，从而形成差异化竞争力。

与此同时，生态绑定正成为用户留存的关键：AI能力不再孤立存在，而是深度嵌入办公、社交、云服务等综合生态。例如，WPS通过AI功能实现付费转化，QQ文档依托腾讯生态吸引用户迁移，而网易有道因生态整合度不足陷入被动。企业级采购（如钉钉/飞书）与个人使用习惯（记忆、分享、操作）共同构成稳定态，技术单点优势已不足以决定最终选择。

C 代四二点零的价格已经提了三次了……哪种商品在很短的时间可以连续提三次价还供不应求？C 代四二点零告诉你我可以。

你发现它加了 AI，其实你就是付一百多，然后你有一些 AI 的功能，你觉得也还 OK，你就付了……以前你付的一百多，只是为云存储付钱。你现在这一百多，其实既是云存储，又是AI和串联的这个所有的能力在里面。

AI能力的系统性与‘all in one’的演进逻辑

AI能力的发展早已超越单点突破的范畴，它正逐渐成为贯穿整个技术生态与产品体系的贯通性力量。这意味着，评估AI的价值不能仅看某一个应用带来的收入或用户增长，而必须置于整体生态加成的框架下审视——生态的协同效应远比单点功能重要。以OpenAI为例，其战略正从早期多产品线并行（如ChatGPT、CodeX、浏览器等）转向高度整合的“all in one”路径：将模型、应用、硬件乃至Agent能力统一于一个入口。这种整合不仅体现在软件层面，更延伸至硬件领域——例如其最新推出的“Manager”Agent，已作为实体产品上线并按使用时长收费，标志着AI公司从“卖API”向“卖产品+服务”的全栈商业模式跃迁。

‘以后应该是慢的，是all in one的账户。’ ‘它原来做模型对吧？现在不是车重要了吗？我也做了一台车。’

硬件周期与AI迭代的‘时间错配’困境

硬件世界的现实是：研发周期以年为单位，而AI技术迭代以月为节奏。一个在售产品的立项时间，往往早于当前最先进模型的发布节点——例如当前市场热卖的AI玩具，其底层智能逻辑可能基于2024年立项时的技术认知，而DeepSeek 2.1直到2025年1月底才发布。这种时间差导致硬件产品上市即落后，即便支持OTA更新，其底层算力、模型能力与交互逻辑也难以追赶前沿。结果是：体验感迅速衰减，许多AI硬件在新鲜感消退后，仅表现为“升级版的预制程序设备”，对物理世界的理解与记忆能力依然薄弱。

这一问题在眼镜等所谓‘下一代入口’品类中尤为突出。厂商虽持续宣称技术突破，但中国用户的第一性需求仍是清晰视物与佩戴舒适，而非花哨功能。更关键的是，行业整体仍处于‘早期尝鲜者’阶段：头部厂商累计销量仅达数十万量级，远未跨越‘鸿沟’进入早期大众市场；即便在展会、奖项与行业报告中频频亮相，其实际商业可持续性仍存疑——现金流长期承压，上市或成唯一续命手段。

‘你拿到手的那个东西，底层的软的那层面东西是二三年、二五年的状态。’ ‘你写完的时候已经过时了。’

入口之争与硬件的‘增强现实’宿命

当前硬件产品的核心矛盾在于：它们普遍未能取代手机，反而成为手机能力的延伸与增强。无论是录音卡、AI眼镜，还是车企推出的定制眼镜，其价值往往依赖与手机的联动——用户购入后第一时间仍需将数据导入手机处理。即便如理想汽车的眼镜，虽能实现‘车眼联动’等专属功能，打动特定用户群体（如理想车主），但对普通消费者而言，购买理由依然薄弱。这揭示了一个现实：多数硬件只能在小众场景中建立局部优势，难以形成跨圈层的广泛吸引力。

更深层的困境在于市场结构：头部厂商销量仅万级，与Meta的百万级相比差两个数量级，导致规模效应难以显现，成本居高不下。叠加全球供应链波动、芯片与存储成本未显著下降等因素，硬件创业门槛正急剧抬升。退货率飙升至与女装相当的50%以上，进一步压缩盈利空间，迫使厂商依赖高成本的直播渠道与营销投入。

‘现在手机是最强入口，短期内看不到手机被替换掉的可能性。’ ‘它可能只满足一个用户的需求，没准就够了。’

物理极限与技术瓶颈的现实围城

当前全球AI基础设施正面临一系列肉眼可见的物理极限：从台积电已实现2纳米封装工艺，到存储硬件（内存与硬盘）被抢购至2027–2028年供不应求；从美国数据中心因土地审批滞后导致超半数项目延期，到光通信传输速率已逼近现有材料与物理法则的天花板——这些并非预测，而是当下正在发生的“封死的线”，短期内难有结构性突破。

然而，与硬件侧的“天花板”形成鲜明对比的，是AI应用端的巨大未开发空间：全球仍有超80%人口从未与AI进行过任何交互；中国用户对AI的普遍认知仍停留在“豆包”层面，远未普及。这中间的鸿沟，既非线性延展，也非技术倒退，而是一种结构性的参差——一边是工程极限的硬约束，一边是认知与渗透率的指数级潜力。

“快看到了，可是另一边告诉你，刚开始对吗？” “那中国现在不过才多少人用过龙虾呀？……那至少是今天的十倍、一百倍起吧。”

全球技术采纳的‘参差’图谱

技术落地路径的差异，折射出不同文化与制度背景下的采纳逻辑分野：欧洲更倾向以规则先行——先立法、再落地；中国则擅长体验驱动、快速迭代——如豆包在博物馆导览场景中结合LBS与视觉识别，已悄然替代传统语音导览设备，甚至挤压了浏览器类工具的生存空间；而美国则习惯以“改变世界”为叙事起点，再倒逼社会适应。

更值得玩味的是，精英层与大众层对AI的认知断层：一线开发者视Azure、Gemini、通义千问为日常工具，但某全球百强企业中国区总裁却反问“这三个是什么？”——他并非拒绝AI，而是其工作流早已被多层AI Agent（助理）深度嵌套，形成“无感自动化”闭环：一个眼神、一句指令，即完成信息筛选与事务执行。这类决策者虽掌控资源，却对AI的底层价值缺乏感知，恰如站在海啸百米外的人，误判浪潮尚未抵达。

“你下周要去美国啊……去铁岭见见世面。” ‘铁岭’是调侃，但‘肉身体感’才是关键——看一线打工人在聊什么、信什么、困在什么。’

历史镜像：从AlphaGo到AI焦虑的循环

AlphaGo战胜李世石十周年之际，我们正重演当年的集体认知困境：彼时，围棋被视作“人类直觉与经验的最后堡垒”，其状态空间远超宇宙原子总数，机器不可能赢；如今，AI在《英雄联盟》等复杂实时策略游戏中挑战Faker与T1战队——规则上要求其以人类方式操作鼠标键盘，而非后台指令控制，试图验证：复杂系统中的“人类经验”是否真不可替代？

这种循环背后，是技术焦虑的全球蔓延：从美国反AI游行、白领被“蒸馏”（即被AI替代）的恐惧，到黄仁勋当年强调“我不是卖显卡”，却被市场当作“显卡贩子”——人类永远只相信自己能看见的世界，超出认知的前沿常被斥为“智商税”。

而AI内容创作的时效性压力，更凸显行业节奏的剧变：播客剪辑从“下月再发”变为“今日不发，明日重录”，技术迭代速度已超越内容生产节奏本身。当世界加速为“实时同步”，信息的平等性仅对“关注者”成立；不关注者，仿佛活在平行宇宙——哈比斯（Hassabis）无人问津，而AlphaGo的故事却在十年后重新成为解药。

‘初十不知曲中意，再听已是曲中人。’ ‘你那时候，你买英伟达，一个被定性为卖电脑配件的公司……你都赚多少倍？’