中美视频模型:一场不对称的军备竞赛
春节后,中国AI视频模型领域迎来爆发式进展:字节的CogVideoX 2.0(C舞2.0)被广泛视为中国厂商首次真正站上全球视频模型前沿;紧随其后,可灵AI发布三版模型,MiniMax的“海螺”也持续发力;与此同时,一批初创公司如PixVerse、Video等在尚未推出成熟产品阶段即获得10–20亿人民币的融资,部分模型公司估值已达10亿美元。这背后反映的是中国资本对视频模型赛道的高度共识与战略押注。
反观美国,竞争格局则明显收缩:OpenAI已彻底关闭Sora相关业务,Anthropic从未涉足该领域,仅剩Google仍在坚持多模态与视频模型研发。曾引领行业的Runway、Pika等初创公司正加速转型——Runway已转向提供“模型接入平台”,从“卖模型”退为“卖铲子”。这种差异源于多重现实约束:视频模型训练、部署与推理成本远高于文本模型;而中国头部玩家如字节、快手,凭借其海量数据、强大算力储备与战略定力,展现出极强的持续投入意愿。快手作为体量可观的平台尚不犹豫,字节更将视频视为战略主战场,其领先位置进一步抬高了行业门槛。
“你像字节视频是字节的主战场,然后他又在这个事情上,在这个节点拿到了领先的位置。那你可想而知,他在这个上的投入、战略的稳定性就不需要质疑了。”
“所以中美两国在这件事情上出现了比较大的区隔。所以肉眼可见,在二六年整个视频领域的竞争,主要可能就是看中国这些厂商之间的卷了。”
从L2到L3:Agent爆发背后的系统性跃迁
2024年以来,AI讨论的语义层级明显下沉:从早期泛泛而谈的“AI是什么”,转向DeepSeek、Agent、蒸馏、Token、Harness等更细分、更具操作性的概念。这一变化标志着行业认知正从“对话时代”(L1/L2)迈入“执行时代”(L3 Agent)。Agent的核心特征在于:它不再仅是回答问题的聊天机器人,而是需要理解上下文、调用权限、访问数据库、操作文件与系统、执行任务闭环的复杂执行体。
这一跃迁带来关键认知转变:模型本身只是“发动机”,而Agent需要整套“整车系统”——包括脚手架、仪表盘、传动轴、刹车系统等配套架构。这些非模型组件的复杂度与算力需求呈几何级增长,催生了对推理(Reasoning)、工具调用(Tool Use)、工作流编排(Orchestration) 的集中投入。厂商已意识到:单靠更强的模型无法支撑Agent落地,必须同步构建“车体”与“燃料系统”。因此,尽管OpenCLoud热度下降,但“Harness”(驾驭)等新词兴起,正反映行业重心从模型性能转向系统集成能力。
“你同事不是干活儿的吗?他干完活儿是要有一个任务交付的。那大家去衡量这个东西的过程中,当然就需要所有这些复杂与相匹配的东西。”
估值迷局:对标逻辑下的情绪溢价与现实张力
当前大模型公司的估值呈现显著的“非财务驱动”特征。业内通行一种粗暴但有效的对标法则:中国头部AI公司估值约为美国对标企业的1%–2%。例如,OpenAI估值8400亿美元,其1%对应约600亿港币——恰好落在MiniMax与智谱招股书的估值区间;2%则达1200亿港币,与当前市场炒作的高位接近。而寒武纪等GPU公司也基本落在Nvidia市值(4.5万亿美元)的1%–2%(即3000–6000亿人民币)范围内。
但现实是,智谱、MiniMax当前估值已升至3000–4000亿港币(即对标比例达5%–6%),多出部分主要来自情绪溢价与标的稀缺性挤压:市场认定中国纯模型公司仅有这两家可选,而互联网公司的合理估值差应为10倍(如中美头部互联网公司市值比),因此10%以内被视为“合理区间”。叠加春节后Agent热潮带动的实际收入跃升(如MiniMax、智谱2026Q1收入或呈双位数增长),进一步强化了估值上行动能。
值得注意的是,股价上涨并未转化为实际融资能力——因未到增发窗口,企业现金流未直接受益。这导致“估值虚高”与“经营焦虑”并存:厂商既享受估值红利,又面临盈利时间表与技术落地的双重压力。
“所以到底怎么估值,以及说现在对于没上市的那些公司,突然我聊下来说,因为那两家估值太高了,以至于我们现在融资很好融。”
模型收入爆发与估值跃迁
当前市场对大模型公司的预期已从“未来可期”转向“当下兑现”。以Kimi为例,其在春节前发布Kimi 2.5后,当晚估值便从60亿美元跃升至100亿美元——这一跃迁并非基于实际收入,而是由榜单排名、开源热度与融资窗口期叠加驱动的典型情绪共振。更关键的是,据传其在Open Cloud上线后前20天收入已超2025全年,若按此趋势线性外推,全年收入预期可达去年的18倍;而考虑到产品曲线仍在陡峭上升阶段,实际数字甚至可能达几十倍甚至更高。这种爆发式增长并非孤例,TMI、MIMAS等头部玩家亦处于相似轨道。
“我一朋友说那边在享受虚假的股价上涨,这边是真金白银在融钱。” “当天晚上就直接从六十亿美金估值跳到一百亿美金估值,当晚再谈投资人说:六十亿那一轮的额度扣一半,你留了一半钱,按一百一斤。”
值得注意的是,尽管Kimi等未上市企业正借势快速融资,但已上市的两家大模型公司(虽未具名,但语境指向TMI与MIMAS)虽股价飙升,却因解禁窗口未至无法增发,股价上涨对其现金流无实质改善。这导致市场出现一种结构性错配:情绪推高股价,但真金白银的融资红利正流向未上市方。
解禁暗礁与市场情绪的双刃剑
当前市场情绪虽处于高度亢奋状态,但历史经验提示我们需警惕潜在的解禁冲击波。两家头部模型公司均在元旦左右上市,这意味着:第一批基石投资人解禁窗口将在6个月后(即今年年中)开启,12个月后全员解禁。参考商汤科技2023年上市后解禁日暴跌超50%的先例,即便当前情绪尚能压制抛压,但时间点本身构成硬性风险因子。若届时无新版本、新合作或收入超预期等“buff”加持,股价可能面临显著回调压力。
与此同时,市场对腾讯、阿里等传统巨头的AI进展表现出明显“苛责”,而对新兴模型公司则相对宽容。这种差异源于财报披露压力与生态协同价值的错位认知:阿里与腾讯当前AI收入贡献尚不足整体营收的1%,但投资者却以“AI公司”标准审视其季度表现;反观未上市企业,因无需季度财报压力,可专注长期技术迭代。此外,微软本季股价下跌33%、SaaS板块持续承压,亦反映市场对AI对传统企业“间接赋能”的有效性缺乏信心——当主情绪转负时,微观层面的优化难以扭转趋势。
巨头困局与市场估值再平衡
腾讯与阿里当前的困境,实为生态优势与市场预期错配的产物。腾讯坐拥微信生态的天然调用场景,尤其对中小开发者而言,其协同模式与微软Azure并无本质差异;阿里则依托电商与云服务的深度耦合,形成独特护城河。然而,市场正以“AI军备竞赛”的激进标准要求二者加速变现,却忽略了其厚重的既有业务负担:阿里需持续投入外卖、电商等“烧钱战场”,家底实则被稀释;腾讯虽坐拥Open Cloud带来的新机遇,但模型能力(如混元)仍需时间验证,组织调整与人才引进亦非短期可成。
更深层看,当前市场正经历一场估值再平衡:标普500中信息科技公司PE中位数已从AI热潮期的40倍回落至20倍,与大盘均值趋同。但这一“回归正常”背后,是英伟达PE仅17倍、沃尔玛40倍、微软单季跌33%等结构性变化——技术先进性与市场估值出现背离。苹果反成例外:尽管被持续吐槽,却在存储成本上升背景下凭借供应链稳定性实现“相对性价比提升”,财报再创新高。这揭示出一个悖论:当技术演进超越市场消化速度时,投资者既渴望创新,又恐惧失控。
模型竞赛进入“车架+引擎”协同阶段
2026年Q2的主线已从单纯模型性能比拼,转向“引擎”与“车架”的深度协同。头部厂商(如TMI、智谱)虽未发布最新版本,但明显在安全边界内谨慎推进——模型能力已强至需担忧“人类无法控制”的程度,这倒逼外部架构(如Agent框架、多模态接口、硬件集成)必须同步升级以保障可控性与生态兼容性。
“发动机可能强到了超过了某些线……就变得很复杂。” “它是一起的,它是一个循环的过程,它不是这个事情:厂商做引擎,然后让外面做车架,不是的,它是一起的。”
各厂商策略分化初显:TMI与智谱聚焦Agent能力深化;MIMAS强调多模态生态融合;Kimi持续强化硬件厂商合作(手机、车机),向物理世界延伸;捷越则探索世界模型与实体交互的结合点。模型迭代周期亦从半年缩短至3个月甚至1-2个月,竞争进入“卷到无以复加”的新阶段。
模型迭代加速与Anthropic的爆发式崛起
当前大模型领域的竞争主线已从半年一周期急剧压缩至三个月甚至一个月一波的节奏,Q2仍以模型能力演进为核心。OpenAI与Anthropic之间已无合作可言,唯有激烈对抗——后者对前者股价形成实质性冲击。Anthropic的快速崛起并非偶然:其模型能力在达到技术临界点后进入“涌现阶段”,产品功能密集发布,仅过去三个月就上线了70余项Cloud模型相关功能,远超传统组织迭代节奏。这种高频创新覆盖To B办公、编程、安全等多个场景,且未影响模型本身进展。
其核心战略被概括为“Coding加一切”,即以编程能力为杠杆,撬动各类企业级任务自动化。现实印证了这一路径的有效性:AI coding的战场远比预想中广阔得多。如今的coding agent(如Cloud Code、CodeX)与通用agent在交互层面已无明显界限——用户只需下达自然语言指令,无需理解底层代码逻辑即可获取结果。这种“用代码解锁一切”的可行性一旦被验证,便迅速向外扩散,形成跨行业渗透。
“人类面对新事物的第一反应是傲慢、鄙视、看不起,从怀疑迅速进入争抢。”
“这一波软件股的暴跌、造贝收入的暴涨,本质上是CIO发现:原来100%的预算,可能瞬间砍到40%,最后归零。”
To B市场的结构性颠覆与生态闭环的争夺
Anthropic等厂商的强势入局,正在重构企业级软件市场格局。传统SaaS公司依赖订阅制、CIO年度采购的模式遭遇颠覆性冲击——企业开始直接用AI替代原有人工流程与软件系统,预算削减并非渐进式(如从100%→90%),而是断崖式(100%→40%→0)。这种趋势直接反映在二级市场:造贝(Cohere)月度收入翻番增长,持续蚕食ServiceNow、Plantronics等传统厂商份额;网络安全ETF单日暴跌7%,只因其模型被曝发现数十年未被察觉的安全漏洞。
OpenAI因此调整战略重心:从To C的用户留存与转化逻辑,转向To B的高ARPU值路径。个人用户付费天花板明显低于企业市场,当双方收入曲线发生逆转,战略调整势在必行。与此同时,中美厂商的竞速格局初显:中国厂商(如智谱、月之暗面)以约美国头部模型1%的成本实现80分左右效果,验证了“低成本+够用即赢”的可行性路径——用户愿为7折价格多等两分钟。
“以前你付的一百多只是为云存储付费;现在这一百多,其实是云存储+AI+生态联动的综合价值。”
“AI正在把入口与生态深度绑定:钉钉、飞书、腾讯文档、Google Workspace……谁的生态闭环更完整,谁就能锁定用户稳定态。”
生态整合与All-in-One战略的必然性
随着AI能力成熟,用户行为正从“尝鲜式多工具对比”转向“稳定态单一入口”。这一收敛过程由三重力量驱动:企业强制统一(如强制使用钉钉)、用户操作/记忆/分享习惯沉淀、以及厂商生态深度绑定。因此,单纯技术能力已不足以决定胜负,生态协同性、账户一体化、应用层联动成为关键壁垒。
OpenAI与Google均在推进All-in-One战略:前者将ChatGPT、CodeX、浏览器等整合为统一入口;后者依托Google Drive、Docs等成熟生态构建闭环。中国厂商亦不甘落后——WPS通过AI功能实现付费转化,QQ文档借腾讯生态反超有道云。值得注意的是,硬件层尚未兑现预期:尽管故事宏大,但当前体验整体仍显粗糙。
“模型能力仍在加速提升,但追赶者已找到低成本破局点:用百分之一的成本,做出八十到八十五分的效果。”
硬件周期与智能落差:当技术狂奔,产品滞后
当前硬件产品的智能化水平,与其营销宣传之间存在显著落差。一个核心原因在于硬件研发与上市的物理周期远长于软件迭代节奏。例如,一款在2026年4月热卖的产品,其立项大概率发生在2024年,而核心算法(如DeepSeek R1)直到2025年1月底才发布——这意味着硬件团队在立项时根本无法预见到最新模型能力。即使支持OTA更新,底层架构与感知-决策逻辑仍受限于立项时的技术认知。这导致许多AI硬件(尤其是玩具、眼镜等品类)在初期令人惊艳,但很快暴露出“预制程序升级版”的本质:对物理世界的理解、记忆能力、上下文泛化能力普遍不足,仍依赖固定触发机制。
“你刚买来的时候,你觉得我操很先进,但是两天后你会发现,它其实跟预制程序当年的,就是预制程序比,只是先进了一点点,总体还是比较呆的。”
“等你写完的时候已经过时了。”
这种滞后性带来一系列连锁反应:退货率奇高(可达50%以上),渠道与直播营销成本高企;同时全球供应链压力推高硬件成本(芯片、内存、存储等虽降价,但集成与认证成本上升),进一步压缩利润空间。更严峻的是,多数硬件尚未跨越“早期大众”鸿沟——以智能眼镜为例,头部厂商十年累计出货量仅数十万量级,远低于Meta百万级水平,甚至未达可规模化验证的阶段。即便如理想汽车推出的AR眼镜,虽在车主群体中具备一定吸引力(如车机联动),但对普通用户而言,购买理由仍不充分。多数产品只能在特定小众圈层中维持生存,而非真正打开大众市场。
入口之争与硬件困局:手机仍是不可替代的中枢
尽管各类硬件(眼镜、AI玩具、录音卡等)不断宣称自己是“下一个入口”,但现实是:它们大多并未取代手机,而是强化其作为信息枢纽的地位。例如录音卡虽提升专业场景效率,但最终仍需将数据同步至手机;眼镜即便在佩戴舒适性、光学表现、语音交互等方面持续优化,仍需依赖手机端大模型完成复杂推理——它更像一个“增强型路由”或“轻量级Hub”。这种定位使其难以形成独立生态闭环,也削弱了用户换代动力。
更深层的矛盾在于:市场对“下一代入口”的期待与硬件落地能力之间存在结构性错配。暴风眼镜十年前已出现,VR/AR每年都有新故事,苹果、Meta、大厂轮番入场,但真正进入主流消费阶段的案例寥寥。Meta凭借百万级出货量勉强跨过鸿沟,而中国厂商多停留在万级量级,仅能服务特定场景(如理想车主)。这并非技术不行,而是商业逻辑尚未跑通:产品无法在非品牌绑定用户中建立足够强的替代价值。与此同时,硬件企业自身也面临巨大压力——现金流紧张、研发周期长、迭代风险高,许多公司靠融资续命,上市成为唯一出路(如某眼镜厂商招股书背后是长达九年的生存拉锯)。
叙事与现实的撕裂:当资本热捧,物理定律卡住脖子
当前AI热潮下,技术叙事与产业现实之间正经历剧烈撕裂。一方面,大模型、Agent、光通信、先进封装等前沿话题持续引爆舆论,仿佛人类正站在智能奇点边缘;另一方面,物理世界的硬性约束正逐步显现:台积电封装已达2纳米极限,内存与硬盘产能已排至2027–2028年,美国超半数数据中心因土地审批延迟而延期交付,铜线传输瓶颈催生光通信需求——这些“封死的线”短期内无解。更讽刺的是,全球AI渗透率仍极低:据称全球80%以上人口从未与AI对话过,中国用户规模更远未达临界点。当底层基础设施与用户基数尚未匹配叙事高度时,资本却已将所有赌注押在“指数级增长”上。
“你总会担心我们是不是也陷入到了类似的困境里……它似乎担不起这样的一个责任或者一个title。”
“我们连去年咱们聊的时候还在聊存储,那这个季度开始聊光,那聊光就相当于卡连在一起,发现用铜的线连不动了,传输率不够,要要用光纤,用光通信。”
这种撕裂在资本市场表现尤为明显:部分企业财报强劲却股价横盘(如某公司连续两季业绩炸裂但股价八个月未动),反映市场对“新故事”的饥渴远超对“旧价值”的认可。人们更愿为Web3、元宇宙等未来想象买单,而非现实中的企业韧性——联想却在“无故事”中创下历史新高,靠的是刚需叠加技术升级的扎实积累。这提示我们:当所有目光投向远方时,别忘了脚下踩着的,仍是那个最古老、最坚固的入口:手机。
技术跃迁的物理边界与认知断层
当前AI模型的发展已逼近物理极限——我们无法简单地通过“加一个零”来实现数量级跃升,但与此同时,行业又普遍认为当前阶段远远未到天花板。这种“现实约束”与“未来预期”之间的巨大鸿沟,构成了决策者最核心的焦虑来源:你到底信哪边? 这种认知撕裂在企业层面尤为明显:一些传统企业虽手握资金,却深陷“外部三”式的困境——既渴望蹭上AI浪潮的热度,又不愿放弃原有叙事框架;而当昔日讲的故事逐渐落地为现实时,公众对其的期待却已悄然退潮。人类已经不期待他们做什么事情了,这种疏离感加剧了组织内部的迷茫与迟疑。更值得警惕的是,即便在精英层中,对AI的理解也远未普及:一位全球百强企业的中国区总裁,竟不熟悉Azure、Gemini等主流工具,因其早已被层层代理(agents)所包围——他只需一个眼神,助理便知其意;他无需主动提效,系统已自动填充其工作流。他其实早就实现了,就是我要看什么,你给我准备好打出来。这种“被自动化包裹”的状态,反而消解了其对AI的感知与需求。正如海啸比喻:沙滩上的人被巨浪拍倒,百米外的人拍照记录,公里外的人则笃信“淹不到这儿”。焦虑的传播并非线性,它高度依赖个体所处的信息场域与决策权重。
人类已经不期待他们做什么事情了。
他其实早就实现了,就是我要看什么,你给我准备好打出来。
中美路径分野与大众化AI实践
中美在AI落地路径上正加速分化:中国更强调To C端的用户体验与普惠渗透,尤其在非技术人群中的渗透力远超预期。例如,豆包在博物馆、展览等场景的LBS+视觉识别能力,已实质性替代传统语音导览设备,甚至直接成为展会官方合作工具——这背后是对大众日常行为的深度理解与快速响应能力。普通用户不再需要学习复杂指令,只需像“点奶茶”一样自然交互,AI便完成信息获取、内容生成等任务。抖音中父辈群体用AI生成功能制作短视频并乐此不疲,正是这一路径的生动体现:AI不是替代人,而是放大人的表达欲与创造力。反观欧洲,其技术采纳逻辑截然不同:信用卡基建的全民覆盖,使“碰一下支付”成为理所当然的体验标准;而面对新事物,欧洲更倾向先以法规与伦理设限——“你改变世界的这个不环保”。美国人说“我要改变世界”,中国人说“看到没,我们要跟上”,欧洲人却说“先别动,规则得跟上”。这种文化惯性导致资源掌控者(如高管)与AI前沿存在显著脱节:他们并非拒绝技术,而是被既有流程与代理系统充分满足,没有空间,也没有动力去提效。
你这个让我我每次在欧洲啊,我这个感受就很强烈……管你几个点的费率了,对不对?这个就是很方便,对吧?
历史镜像与未来叩问:AlphaGo十年再出发
回望2016年AlphaGo战胜李世石,彼时公众视其为“科技奇观”,而今重审,却如“初时不知曲中意,再听已是曲中人”——我们今天经历的焦虑与颠覆,与当年如出一辙。当前全球蔓延的AI焦虑,正对应着当年“机器能否在围棋领域击败人类”的集体怀疑:围棋曾因状态空间庞大(10^170种可能)被视为人类智慧最后堡垒;如今,英雄联盟等复杂游戏正成为新的“人类专属领域”测试场——Grok正训练AI以人类方式操控鼠标键盘,与Faker这样的六冠王对战。这不仅是技术挑战,更是对“复杂系统中人类经验不可替代性”的终极叩问。十年间,我们错过的不仅是买房机遇,更是对黄铮“我不是卖显卡的”这类远见的轻信:当年财报会上,人们只当其在“放屁”,却不知显卡背后是AI算力的基石。如今,AI内容生产节奏已进入“剪晚了就过期”的高压周期——节目组需在庄老师赴美前完成发布,只因“后天可能就不用再发了”。世界信息虽趋平,但关注即存在,不关注即未发生;当哈萨比斯(DeepMind创始人)的名字被误认为巧克力品牌时,我们才惊觉:真正的前沿,早已在大众认知之外悄然演进。
初时不知曲中意,再听已是曲中人。
人其实只能相信他能看到的世界,超越这个的都叫智商税。