中美视频模型竞赛:战略差异与资本逻辑

当前全球视频大模型的竞争格局呈现出鲜明的中美分野:在中国,以字节跳动(CogVideoX 2.0)、快手、可灵(Kling)、MiniMax(HunYuan Video)等为代表的多家厂商正密集发力,形成“多强并进”的局面;而美国方面,仅谷歌仍坚定投入视频模型研发,OpenAI 已明确退出该赛道,Anthropic(Claude)则从未涉足该领域。Runway 等早期美国视频模型初创公司已转向“卖铲子”模式——提供模型接入平台而非自研模型,实质是战略退守。

这一差异的根本原因在于战略优先级与资本耐性的不同。在中国,视频是字节的核心主战场,快手虽非视频起家,但其体量与资金储备足以支撑长期投入且不急于盈利;相比之下,美国头部企业面临更严格的 ROI 考量:OpenAI 因同时推进浏览器、社区、电商、新闻推送等多个方向,导致资源分散,在模型主战场已被 Anthropic 超越的背景下,被迫收缩视频业务以聚焦核心。正如庄明浩所言:

“无论是中美现在最领先这几家厂商,短期内都不太可能去考虑要盈利的问题,就谷歌不会考虑,字节也不会考虑,甚至是快手都不会考虑。”

“今天这个时间确实这个竞争过于激烈了……视频本身就很耗钱,无论什么角度看,量它比纯文本肯定耗的钱更多,训练也好,实施也好,部署也好,用起来也好,都是。”

视频模型的高算力、高成本、高门槛特性,正推动行业进入“非盈利阶段的军备竞赛”,只有具备战略定力与资本弹性的玩家才能坚持到最后。

从 L2 推理到 L3 Agent:AI 系统的“整车化”跃迁

AI 技术演进正沿着清晰的层级路径推进:L1 是基础对话(如早期聊天机器人),L2 是推理能力(如 DeepSeek R1 的思维链输出),而 L3 的核心是 Agent——具备任务执行能力的智能体。这一跃迁意味着 AI 不再满足于“回答问题”,而是要“完成任务”:需理解上下文、调用用户权限、访问数据库、操作文件与系统界面,甚至参与反馈闭环。

这一转变催生了对“车架系统”(非仅模型引擎)的迫切需求。庄明浩用生动比喻指出:基础模型是普通发动机,推理模型是 F1 引擎,但仅有引擎无法驾驶;真正的 Agent 是一辆完整的车——需要方向盘、刹车、仪表盘、传动系统乃至外壳。当前产业热点正从“龙虾”(LLM)转向“蒸馏”“Harness(驾驭)”“词元(token)”等词,正是这一系统化升级的外显信号。

“它走出了这个阶段的时候,其实它就需要单纯聊天是不够的,它需要知道你的上下文,知道你在做什么事情,知道你任务的交付的结果是什么……它甚至要用你的数据库、用你的权限、用你的文件,甚至用你的电脑。”

“原来做的第一代模型、基础模型像一个普通的发动机引擎,推理模型像一个F1的引擎。但是你光有引擎是不够的,你要有台车……它才会变成一台车让你来开。”

这一阶段的落地挑战远超模型本身,涉及安全、权限、系统集成、人机协同等复杂工程问题。因此,2026 年主线或将聚焦于“如何把车造好、开稳”,而非单纯比拼模型参数。

估值逻辑重构:对标驱动下的非理性繁荣?

当前中国 AI 初创公司估值已显著脱离传统财务指标逻辑。庄明浩提出“百分之一到百分之二法则”:中美科技赛道头部企业估值基本维持在 1:100 至 1:200 的比例(如 NVIDIA 市值 4.5 万亿美元 → 对应中国 GPU 公司估值约 3000–6000 亿人民币;OpenAI 8400 亿美元 → 对应 MiniMax/智谱招股书估值约 60–120 亿美金)。这一粗暴对标法完全忽略收入、亏损、商业模式,仅基于“未来可能性”的预期差。

正因如此,智谱与 MiniMax 当前估值已达对标值的 5–6%(约 3000–4000 亿港币),高出基准部分主要源于情绪溢价与稀缺性挤压:市场认定中国新一代纯模型公司仅有这两家标的,而传统互联网巨头(百度、快手、商汤)因业务多元、模型占比低,未被纳入“纯模型溢价”体系。当中国互联网市值约为美国的 10%(理性对标),而 AI 公司已达 5–6%,市场便认为仍有空间——直到情绪退潮或财务指标落地。

“这个百分之一到百分之二是不考虑任何的业务状态,我也不考虑你收入多少,我也不考虑你是在亏损亏了多少钱,只对只是对标。”

“那为什么这些公司没有涨,甚至在跌呢?就是因为大家会认为新一代的纯模型公司只有这两家。”

短期内,OpenCloud(龙虾)带动的视频应用爆发(如 Kimi、MiniMax 财报显示收入激增)进一步强化乐观预期;但若 2026 年前无法建立可持续变现路径,估值逻辑或将面临重估。

估值与情绪的双轮驱动:未上市公司的融资红利

当前市场对头部大模型公司的估值逻辑,高度依赖短期事件驱动与情绪渲染,而非传统财务指标。以 Kimi 和 Memax 为例,它们虽已上市,但其最新财报反映的是2025财年数据,而春节后 Open Cloud 带来的视频模型爆发属于2026年Q1,因此当前股价上涨尚未转化为实际融资能力——已上市公司无法立即增发,但未上市的 Kimi、捷越等却能借势提升估值、加速融资。正如一位从业者所言:“那边在享受虚假的股价上涨,这边是真金白银在融钱。”

具体来看,Kimi 在发布 Kimi 2.5 当晚,估值便从60亿美元跃升至100亿美元;更关键的是,其同期宣称“20天收入超去年全年”,若按此趋势线性外推,全年收入可达去年的18倍,而考虑到春节后仍在持续增长,实际倍数可能达数十倍甚至更高。这种“肉眼可见”的收入跃迁,叠加开源榜单登顶、OpenAI 主浪带动等多重正向反馈,构成了典型的正向循环叙事。但需警惕的是,这种增长逻辑尚未经过财务验证,更多是市场情绪与预期的叠加产物。

“当晚就直接从六十亿美金估值,当晚跳到一百亿美金估值,直接跟这轮再谈投资的人说,六十亿那一轮的额度扣一半。你留的一半钱按一百一斤,就这么谈。”

“Kimi在发二点五之后,又赶上OpenCLow这一波是前二十天的收入超过去年全年……如果只按这二十天不增长的情况下,那他这一年收入预期就是去年的十八倍。”

解禁压力与结构性分化:巨头的“宽容悖论”

尽管市场情绪高涨,但结构性风险正在临近:Kimi 与 Memax 均于元旦左右上市,其基石投资者解禁窗口分别在6个月(2026年中)与12个月(2026年底至2027年初)。历史经验表明,此类时点极易引发股价剧烈波动——如商汤科技上市后解禁当日曾暴跌超50%。即便当前情绪仍能支撑股价,但解禁潮仍是无法回避的硬约束

与此同时,市场对新兴AI公司(如Kimi、捷越)表现出显著“宽容”,却对阿里、腾讯等巨头近乎“苛责”。这种分化源于认知错位:AI对阿里、腾讯当前营收贡献尚不足1%,将其视为“新时代AI公司”本就不合理;而腾讯、阿里凭借庞大生态(微信、支付宝、企业微信等)在AI落地中具备天然协同优势,其产品迭代节奏虽慢,却更重稳定性与用户渗透——这与微软、Meta当前面临的困境类似:即便技术投入未落后,市场仍以短期股价表现倒逼战略激进

值得注意的是,恒生科技指数的疲软与SaaS板块的下跌,反映的是AI对传统产业的“间接赋能”叙事失效:当主情绪转负,微观层面的效率提升难以扭转系统性悲观。从估值角度看,标普500中信息科技公司PE已从峰值40倍回落至20倍,与大盘均值趋同,仿佛AI浪潮从未发生——但现实是,技术、产品、产业链已发生深刻变革。这种“估值回撤但现实跃迁”的背离,正是当前市场最微妙的张力所在。

引擎与车架的协同进化:Q2的隐性主线

展望2026年Q2,市场焦点或将从“模型性能竞赛”转向安全可控的系统集成能力。头部厂商(如OpenAI、Anthropic)因担忧模型能力“超越人类控制阈值”,已推迟最新版本发布——这既是技术审慎,也是战略留白。模型越强,对承载它的“车架”(即应用层、生态层、安全层)要求越高:需支持自主循环、实时纠偏、复杂生态互联,甚至反向影响模型训练迭代。

这一趋势下,中美厂商将呈现差异化路径:Kimi 与智谱或聚焦 Agent 与推理优化;Memax 强化多模态生态融合;捷越则持续深耕硬件合作(手机、车机),推动AI向物理世界延伸。“车架”不再是被动适配,而成为与“引擎”同步演进的主动变量。但挑战在于:目标虽明确(构建安全、可扩展、自适应的AI系统),路径却高度不确定——没有标准答案,只有多方案并行试错。Q2的真正信号,或许不在于某家厂商发布新模型,而在于其是否率先实现“引擎-车架”的闭环验证。

“它是一起的,所以厂商自己也会做相关的事情……它既能对引擎未来的能力的提升起到帮助,这些能力会反向影响到下一代的模型的训练上,而不单纯只是拿来让大家用这件事情上。”

模型竞赛进入‘月更’节奏,头部厂商进入‘拼刺刀’阶段

当前AI模型层面的竞争已进入白热化阶段,Q2的主线仍是模型能力的持续迭代与拓展,但节奏显著加快:从过去以半年为周期,迅速演进为三个月一波发布潮,甚至可能进一步压缩至一两个月一次。春节前(一月底至二月中)是一波高峰,而四月中旬以来,Mix、智谱、Kimi、月之暗面等厂商密集发布新品,技术演进速度已远超传统产品迭代逻辑

中美头部厂商在战略上趋同但路径分化:美国厂商如OpenAI与Anthropic虽同处“大模型”赛道,实则处于激烈对抗而非合作状态;Anthropic凭借从OpenAI带出的“coding加一切”核心理念,以极快节奏推出大量功能(仅Cloud相关产品近三个月就上线70余项),形成“每一天都有新东西”的爆发式创新态势。这种节奏已无法用传统组织架构支撑,其产品迭代已进入“涌现式”阶段——模型能力突破临界点后,能力外溢至编程、办公、B端场景等多方向,形成正向飞轮。

它相当于每一天都有新东西。而且新东西就是频繁爆各个方向,什么to B的场景的,爆什么office的,编程的,然后这个事情又没有影响到它模型的进展。

人类面对新事物的第一反应是傲慢、鄙视、看不起,从怀疑迅速进入争抢——而阿乔伟(Anthropic)已跨过怀疑阶段,直接进入全民抢滩。

To B战场重构:SaaS收入被‘编程式AI’系统性替代

Anthropic等厂商的爆发式增长,本质是将AI能力嵌入企业级工作流,重构了To B市场的价值分配逻辑。其核心叙事是:用编程方式解决一切问题(coding加一切),而这一策略已被验证可行。尤其关键的是,AI coding的战场比预期大得多——过去仅面向程序员的工具(如Cloud Code、Codex、Tree)正与通用Agent融合,用户无需懂代码,只需下达自然语言指令即可获得结果,技术门槛被彻底打破。

这直接冲击传统SaaS市场:企业CIO开始意识到,原以订阅制、年费形式存在的软件预算,可能被AI方案一次性砍至原值的40%甚至归零。结果是:Anthropic月度收入持续翻番,迅速替代Planter、ServiceNow等成熟软件公司;其新功能发布甚至能直接导致网络安全类ETF单日下跌7%——市场已用脚投票,不再区分具体业务细节,只看AI是否能替代原有软件栈

你从一个很现实角度来讲,因为它主要做to B,那这些这些场景原来的收入是被那些所谓的软件公司跟SaaS公司以订阅制、企业信用卡的方式,每年CIO采购的方式……今天这CIO突然意识到,我似乎可以砍掉很多这样原来的预算。

这一波软件股的暴跌,Anthropic的收入暴涨,全部都是这样……这一波,你像前两天他说这波模型太强……当天晚上网络安全的ETF跌七个点。

中国厂商的‘性价比突围’与生态绑定新逻辑

中国厂商正以成本优势撬动全球AI竞争格局:头部模型训练成本约为美国厂商的百分之一(估值与实际消耗均处同量级),却能产出80–85分水平的模型。这种“七分之一成本、八十分能力”的组合,使市场愿意接受稍慢的响应速度——“我也可以多等两分钟”,从而形成差异化竞争力。

与此同时,生态绑定正成为用户留存的关键:AI能力不再孤立存在,而是深度嵌入办公、社交、云服务等综合生态。例如,WPS通过AI功能实现付费转化,QQ文档依托腾讯生态吸引用户迁移,而网易有道因生态整合度不足陷入被动。企业级采购(如钉钉/飞书)与个人使用习惯(记忆、分享、操作)共同构成稳定态,技术单点优势已不足以决定最终选择。

C 代四二点零的价格已经提了三次了……哪种商品在很短的时间可以连续提三次价还供不应求?C 代四二点零告诉你我可以。

你发现它加了 AI,其实你就是付一百多,然后你有一些 AI 的功能,你觉得也还 OK,你就付了……以前你付的一百多,只是为云存储付钱。你现在这一百多,其实既是云存储,又是AI和串联的这个所有的能力在里面。

AI能力的系统性与‘all in one’的演进逻辑

AI能力的发展早已超越单点突破的范畴,它正逐渐成为贯穿整个技术生态与产品体系的贯通性力量。这意味着,评估AI的价值不能仅看某一个应用带来的收入或用户增长,而必须置于整体生态加成的框架下审视——生态的协同效应远比单点功能重要。以OpenAI为例,其战略正从早期多产品线并行(如ChatGPT、CodeX、浏览器等)转向高度整合的“all in one”路径:将模型、应用、硬件乃至Agent能力统一于一个入口。这种整合不仅体现在软件层面,更延伸至硬件领域——例如其最新推出的“Manager”Agent,已作为实体产品上线并按使用时长收费,标志着AI公司从“卖API”向“卖产品+服务”的全栈商业模式跃迁。

‘以后应该是慢的,是all in one的账户。’ ‘它原来做模型对吧?现在不是车重要了吗?我也做了一台车。’

硬件周期与AI迭代的‘时间错配’困境

硬件世界的现实是:研发周期以年为单位,而AI技术迭代以月为节奏。一个在售产品的立项时间,往往早于当前最先进模型的发布节点——例如当前市场热卖的AI玩具,其底层智能逻辑可能基于2024年立项时的技术认知,而DeepSeek 2.1直到2025年1月底才发布。这种时间差导致硬件产品上市即落后,即便支持OTA更新,其底层算力、模型能力与交互逻辑也难以追赶前沿。结果是:体验感迅速衰减,许多AI硬件在新鲜感消退后,仅表现为“升级版的预制程序设备”,对物理世界的理解与记忆能力依然薄弱。

这一问题在眼镜等所谓‘下一代入口’品类中尤为突出。厂商虽持续宣称技术突破,但中国用户的第一性需求仍是清晰视物与佩戴舒适,而非花哨功能。更关键的是,行业整体仍处于‘早期尝鲜者’阶段:头部厂商累计销量仅达数十万量级,远未跨越‘鸿沟’进入早期大众市场;即便在展会、奖项与行业报告中频频亮相,其实际商业可持续性仍存疑——现金流长期承压,上市或成唯一续命手段。

‘你拿到手的那个东西,底层的软的那层面东西是二三年、二五年的状态。’ ‘你写完的时候已经过时了。’

入口之争与硬件的‘增强现实’宿命

当前硬件产品的核心矛盾在于:它们普遍未能取代手机,反而成为手机能力的延伸与增强。无论是录音卡、AI眼镜,还是车企推出的定制眼镜,其价值往往依赖与手机的联动——用户购入后第一时间仍需将数据导入手机处理。即便如理想汽车的眼镜,虽能实现‘车眼联动’等专属功能,打动特定用户群体(如理想车主),但对普通消费者而言,购买理由依然薄弱。这揭示了一个现实:多数硬件只能在小众场景中建立局部优势,难以形成跨圈层的广泛吸引力

更深层的困境在于市场结构:头部厂商销量仅万级,与Meta的百万级相比差两个数量级,导致规模效应难以显现,成本居高不下。叠加全球供应链波动、芯片与存储成本未显著下降等因素,硬件创业门槛正急剧抬升。退货率飙升至与女装相当的50%以上,进一步压缩盈利空间,迫使厂商依赖高成本的直播渠道与营销投入。

‘现在手机是最强入口,短期内看不到手机被替换掉的可能性。’ ‘它可能只满足一个用户的需求,没准就够了。’

物理极限与技术瓶颈的现实围城

当前全球AI基础设施正面临一系列肉眼可见的物理极限:从台积电已实现2纳米封装工艺,到存储硬件(内存与硬盘)被抢购至2027–2028年供不应求;从美国数据中心因土地审批滞后导致超半数项目延期,到光通信传输速率已逼近现有材料与物理法则的天花板——这些并非预测,而是当下正在发生的“封死的线”,短期内难有结构性突破。

然而,与硬件侧的“天花板”形成鲜明对比的,是AI应用端的巨大未开发空间:全球仍有超80%人口从未与AI进行过任何交互;中国用户对AI的普遍认知仍停留在“豆包”层面,远未普及。这中间的鸿沟,既非线性延展,也非技术倒退,而是一种结构性的参差——一边是工程极限的硬约束,一边是认知与渗透率的指数级潜力。

“快看到了,可是另一边告诉你,刚开始对吗?” “那中国现在不过才多少人用过龙虾呀?……那至少是今天的十倍、一百倍起吧。”

全球技术采纳的‘参差’图谱

技术落地路径的差异,折射出不同文化与制度背景下的采纳逻辑分野:欧洲更倾向以规则先行——先立法、再落地;中国则擅长体验驱动、快速迭代——如豆包在博物馆导览场景中结合LBS与视觉识别,已悄然替代传统语音导览设备,甚至挤压了浏览器类工具的生存空间;而美国则习惯以“改变世界”为叙事起点,再倒逼社会适应。

更值得玩味的是,精英层与大众层对AI的认知断层:一线开发者视Azure、Gemini、通义千问为日常工具,但某全球百强企业中国区总裁却反问“这三个是什么?”——他并非拒绝AI,而是其工作流早已被多层AI Agent(助理)深度嵌套,形成“无感自动化”闭环:一个眼神、一句指令,即完成信息筛选与事务执行。这类决策者虽掌控资源,却对AI的底层价值缺乏感知,恰如站在海啸百米外的人,误判浪潮尚未抵达

“你下周要去美国啊……去铁岭见见世面。” ‘铁岭’是调侃,但‘肉身体感’才是关键——看一线打工人在聊什么、信什么、困在什么。’

历史镜像:从AlphaGo到AI焦虑的循环

AlphaGo战胜李世石十周年之际,我们正重演当年的集体认知困境:彼时,围棋被视作“人类直觉与经验的最后堡垒”,其状态空间远超宇宙原子总数,机器不可能赢;如今,AI在《英雄联盟》等复杂实时策略游戏中挑战Faker与T1战队——规则上要求其以人类方式操作鼠标键盘,而非后台指令控制,试图验证:复杂系统中的“人类经验”是否真不可替代

这种循环背后,是技术焦虑的全球蔓延:从美国反AI游行、白领被“蒸馏”(即被AI替代)的恐惧,到黄仁勋当年强调“我不是卖显卡”,却被市场当作“显卡贩子”——人类永远只相信自己能看见的世界,超出认知的前沿常被斥为“智商税”。

而AI内容创作的时效性压力,更凸显行业节奏的剧变:播客剪辑从“下月再发”变为“今日不发,明日重录”,技术迭代速度已超越内容生产节奏本身。当世界加速为“实时同步”,信息的平等性仅对“关注者”成立;不关注者,仿佛活在平行宇宙——哈比斯(Hassabis)无人问津,而AlphaGo的故事却在十年后重新成为解药。

‘初十不知曲中意,再听已是曲中人。’ ‘你那时候,你买英伟达,一个被定性为卖电脑配件的公司……你都赚多少倍?’