世界模型:VLA范式的扩展与数据scaling的新路径
从技术演进角度看,当前所谓“世界模型”本质上是对传统VLA(Vision-Language-Action)范式的自然延伸。它并未带来颠覆性突破,而是将VLA中的backbone从视觉语言模型(VLM)替换为视频生成模型或相关时序建模技术,从而支持利用带有时序信息的视频数据进行机器人操作建模。相比单帧静态视觉输入,这种时序数据更能有效捕捉物理世界的动态规律,因此被寄予厚望——它不仅提升了模型对物理世界运行逻辑的理解潜力,更关键的是,视频数据远比真实机器人交互数据更易采集与扩展。
正因如此,大量公司正积极采集第一人称(egocentric)操作视频,并尝试复用互联网历史视频资源。逐际动力早在2024年中(即约两年前)便启动相关探索,并于2025年初发布VGM(Video Generated Motion),一个典型的World X Model;其团队在Coro会议发表的论文《GVF Tape》则展示了低数据量需求下的可行路径。值得注意的是,当时“World X Model”一词尚未被广泛使用,凸显了技术术语滞后于实践探索的现实。
“本质上,大家还是看到传统意义上VLA在数据scaling方面还是有局限性的。那世界模型给大家看到了新的这个数据scaling的一个希望。”
“技术层面呢,它就是一个传统意义VLA范式的拓展……World X model就是把这个backbone换成视频生成模型或相关的技术。”
物理公式入模:增量信息与对齐挑战并存
另一条重要分支是将物理规律的数学表达(如重力、流体力学、摩擦、电磁等)显式引入模型。从第一性原理看,这些公式本质上是对历史观测数据的高度压缩——牛顿定律即是对大量运动数据的简洁表征。因此,引入物理公式可视为引入新的模态信息增量,尤其整合了人类长期积累的非视觉测量数据(力、磁、电等),理论上能增强模型对物理世界的理解深度。
但核心难点在于表征对齐:这些物理量的数学表达与当前主流世界模型所依赖的视觉/动作数据之间,往往存在显著异构性。实践中,多数方案退而求其次,将物理公式用于仿真生成数据,再以仿真数据训练世界模型,本质上仍是绕开直接对齐难题。整个“sim-to-real”迁移过程,正是这一对齐挑战的集中体现。
“加这些物理规律的数学公式,本质上是把运动数据以最简约的方式加了起来。”
“它原则上是有增量……但最难的是你很难用它——这些表征很难跟我们世界模型的这些数据进行对齐。”
具身智能落地:技能导向的飞轮模型优于通用大模型幻想
面对数据采集与加工的热潮(硬件采集+多模态加工),逐际动力主张将数据视为原材料工业:采集是原料,训练是产线,模型是最终产品。然而,关键洞察在于——具身智能无法套用大模型“先通用再专用”的路径。不同技能(如自动驾驶、包鸡蛋)所需数据高度异构,强行混合训练可能相互干扰。因此,更可行的路径是构建“通用模型与场景数据飞轮”:在具备初步通用能力的基础上,通过垂直场景落地反哺数据闭环,逐步增强通用能力。
关于未来是否会出现一个远超语言模型规模的“机器人通用大脑”,张巍持明确否定态度。他指出,实时性与能效约束决定了大而全模型在机器人端难以落地——包一个鸡蛋不能等两秒决策。更现实的方向是将机器人能力拆解为可独立训练的技能模块(如开车、剥蛋),每个技能对应专属数据与模型,而非追求单一超级模型。
“具身的落地不能跟大模型那种先通用再专用再应用再落地,是不适合的。”
“它不需要一个通用的什么都干的一个模型,它需要各种对你场景落地有帮助的技能。”
从功能感知到语义理解:机器人对世界的建模路径
在自动驾驶等场景中,系统往往并不需要识别物体的具体语义(如“这是一瓶水”),而只需识别其为一个不移动、有固定体积与占地面积的物理实体即可。这种“功能导向”的感知方式,本质上是降低建模复杂度、提升系统鲁棒性的策略。然而,随着技术演进,尤其是机器人领域对更高阶智能的期待,业界正逐步重拾“世界模型”这一概念——它不再满足于仅识别物体是否移动,而是希望在语义层面理解世界:比如区分生鸡蛋与熟鸡蛋,甚至识别出“铁做的鸡蛋”而主动规避无意义操作。
它并不需要去理解这个到底是什么。
我本来想回避这个话题,我说一下我的理解吧,就是对整个你所关注的世界的一个建模。建模的本质是能表示我对这世界未来怎么发生,尤其是跟我现在对它产生的 action 相关的能演绎的发生,能很好的建模……它本质上就是个马尔可夫啊,就完事儿了。
从更本质的视角看,世界模型的核心在于:通过观测(如视觉、触觉、力觉)还原物理规律,并预测自身动作带来的未来状态变化。所有模型本质上都是对微观世界的降维抽象——牛顿力学与相对论并存,正因不同尺度下我们关注的可观测量不同。只要模型能与观测对齐、支持有效预测,它就可被视为“合格”的世界模型。值得注意的是,AI 的“语义”未必与人类一致:其 embedding 空间可能独立演化出一套非语言、但功能等效的表征体系。因此,机器人未必需要经过人类意义上的 semantic 层,只要能准确预测未来行为结果,就可视为“理解”。
它不需要,我觉得它就是 whatever,它能 predict future 就可以了。
“机器人大脑”不是大模型:它是操作系统级的智能体架构
当前,“机器人大脑”一词被广泛使用,但定义高度混乱。逐际动力提出一种清晰且具操作性的三层架构,重新定义其内涵:
- 底层:小脑基础模型——负责执行运动控制,类似“僵尸处理器”,只响应指令不进行决策;
- 中层:Humanoid VLA(Vision-Language-Action)系统——实现任务与环境感知耦合的高阶技能,如抓取、导航等;
- 顶层:GNTOS(Generative Neural Task Operating System)——即真正意义上的“大脑”,是一个以大模型为引擎的 agentic OS,负责规划、决策、调用技能模块,并支持多工具协同。
龙虾可以认为是一个大脑……大模型不是大脑,龙虾是大脑。
类比人类:瘫痪但思维清晰的病人拥有“脑”(OS),但缺乏“VLA 技能”;而会开车的人未必具备“自动驾驶模型”这一技能——模型是工具,大脑是调用工具的操作系统。该架构强调:智能体能力 ≠ 模型规模,而取决于 OS 对模型与技能的组织与调度能力。
我们不觉得通过堆数据……是可以训练一个技能,它出不来一个大脑。大脑本质上是一个在这个模型能力之上的一个操作系统。
这一观点也回应了对“理解”的哲学性质疑:大语言模型本质是概率预测系统,其“理解”依赖海量数据;而人类理解常以极少量样本完成抽象推理。若将“理解”定义为对新情境做出与人类一致的预测性响应,则 AI 或可达成;但若要求其复现人类的符号抽象与极小样本泛化能力,则当前范式仍有巨大鸿沟。
我们定义的理解其实是用特别少的感官或者叫复合数据就达到了对事情的抽象,明白。但是今天的语言模型……要用超级无敌多的数据来完成这个 prediction。
理解的定义:预测一致性 vs. 符号一致性
关于“理解”的本质,存在两种路径分歧:
- 人类理解:依赖极少量经验数据,通过抽象与类比完成跨情境推理;
- 当前 AI 理解:依赖海量数据训练的概率模型,通过统计规律逼近行为一致性。
若以“对同一 prompt 产生可预测、一致的行为响应”为标准,则 AI 可谓已具备理解;但若要求其内部表征与人类语义结构对齐(如共享概念、符号系统),则几乎不可能——正如不同人对同一句话的理解本就存在差异。AI 的 embedding 空间天然异构,其“思考”过程是高维概率流的动态演化,而非人类式的语言内化推理。
我们都不一定非得要求他对这事理解沉淀出那个符号上是一致的。呃,我就只要接受这个,我觉得他就理解了。
因此,更务实的路径是:不强求语义同构,而追求行为对齐。在机器人场景中,只要系统能在新任务中稳定输出人类可接受、可验证的决策链,即可视为具备“可操作的理解”。这也解释了为何当前技术路线聚焦于技能模块化 + OS 协调:与其追求统一语义世界模型,不如构建一个能灵活组合已有模型、适应开放任务的智能体框架。
人想要的理解……更多的是用极其少的数据就完成了对一个不知道事物的理解过程。从概率模型上来看,它需要超级无敌多……数据要多,非常非常多。
人类智能 vs 大模型:数据效率与预训练本质
在讨论人类与大语言模型(LLM)对“理解”的差异时,核心在于数据效率:人类能用极其少量的数据完成对新事物的理解,而大模型则依赖于海量、多维度、尽可能覆盖各种分布的数据,才能从概率角度逼近有效预测。这种差异源于进化——人类大脑经过数千万年物理世界数据的沉淀,出生时已是一个高度预训练的模型(pretrained model),而大模型虽能接入互联网几十年积累的公开数据,本质上仍是“union of human knowledge”,却仍需海量数据来抽象高维关系。
“从概率模型上来看,它需要超级无敌多,尽可能各种虽然不能叫穷尽,但是尽可能多的变化和数据的各种不同维度的分布,才能更好的从概率上预测下一个。”
“你生下来脑是个 pretrained 的。一个模型传给他了吗?啊,所以你要都这么沉淀下来……”
逐际动力的产品架构:软硬一体的双线布局
逐际动力的产品体系按人形与非人形两条产品线展开,但本质是软硬一体的服务型交付模式,而非单纯硬件或软件销售。硬件上,分为通用双臂平台(创兔)与人形整机;软件上则聚焦两大核心:COSA操作系统(作为“机器人大脑”,统一调度技能与模型)与技能训练体系(含VLA等基础模型的训练与强化学习流程)。
尤其值得注意的是,公司近期开源了Flux VLA Engine——并非开源模型本身,而是训练VLA的完整架构与“模型生产线”,强调“授人以渔”:硬件平台+开源架构+垂直场景数据支持,让客户能自主完成落地。这种策略直指机器人落地的最大瓶颈:早期POC与PMF验证周期过长,因此公司定位为“服务创新与POC落地的Maker Market”,支持客户快速验证、再自建产线。
“我们授之以鱼,不如授之以渔啊!我们把训练 VLA 基座模型和 Fun2 的这个整个的架构开源了……最终落地的数据和模型是属于落地 vertical 场景那个人。”
“落成了,你愿意用我们就用,不用你们自己造也行。”
人形机器人的商业路径:从表演到‘动口不动手’的智能顾问
人形机器人商业化的关键在于APP化演进逻辑:当前的表演、科研、导览、导购等,都是一个个可叠加的功能模块(APP),而非单一技能。其终极形态是统一本体、持续扩展功能的平台——当APP足够丰富时,即可实现商业闭环。
投资人关注的“真实商业价值兑现点”,并非工厂作业(人形不进工厂),而是高情绪价值、强语言能力、低物理交互强度的场景:如商业导览、客户服务、家庭陪伴等——本质是装着语言能力的可移动顾问,替代的是“动口不动手”的脑力劳动。这与AI变革的核心逻辑一致:剃掉mediocre的脑力劳动者,而非替代体力或高阶认知。
“它是一个装着语言能力的可移动的顾问,对,有一定情绪价值、有新的一些体验价值的,在前期是挺重要的啊的一个极其聪明的人。”
“AI 的变革本质上是剃掉了脑力劳动者…… mediocre 的脑力劳动。”
基础运控模型:人形机器人的‘小脑’与感统训练
在具身智能的发展中,当前多数人形机器人展示的如跳舞、翻跟头等能力,本质是预录动作的回放(replay),虽需训练,但缺乏实时生成动作的能力。真正实现“脑能指挥到身体”,即实时响应指令生成动作,依赖于一个全身运控的基础模型(foundation model)——它不是为单一任务定制的策略(policy),而是具备通用执行能力的底层系统。
这一模型的核心类比是人类儿童在2–5岁期间经历的感知统合训练(感统训练):抓取、爬行、大小动作协调等,本质上是在构建运动控制的“基础模型”。正如大模型需从预设对话(如“你好—我在”)进阶到任意 prompt 下生成合理回复,运动模型也需从参考轨迹(prompt)出发,实时生成并执行对应动作。这种能力对上层视觉-语言-动作(VLA)系统至关重要,是实现人形机器人“能干活”的关键基础。
它不能,就是我看到这个杯子,我想这么抓,那我要回去训练一个礼拜才会这么抓,那是不行的。
你给我一个参考的轨迹,可以认为它是个 prompt,那我能够完成这个动作。
资本浪潮与行业韧性:上限与下限双高的具身智能
从投资人视角看,当前智能机器人公司密集筹备上市(A股/港股),可能标志着本轮热潮的顶点。若以Facebook、阿里巴巴等历史案例为参照,上市往往成为泡沫峰值的信号。然而具身智能行业具备独特韧性:其上限(通用人形机器人潜力)不亚于大模型公司;下限亦高——即使通用目标未达,仍可在垂直领域持续落地,不像大模型一旦迭代失败即陷入困局。
因此,真正能跑出来的,是那些做好本分、遵循商业逻辑、并具备技术突破能力的公司。当前阶段,张巍持相对乐观态度,认为行业整体投入尚未过热,技术与商业化尚处早期,为长期发展留有空间。
它也不像模型公司那样,你一旦一代模型没跟上,你就彻底废了。
它总能找到垂直领域里去用,所以我觉得这里面做好本分、遵循真正的商业,带有一些技术突破的公司是都能跑出来的。
教授创业的五重蜕变:从学术到商业的认知升维
张巍总结教授创业需经历五重蜕变:学术 → 技术 → 工程 → 产品 → 商业化。早期以“发paper为荣”,中期以“技术实现为荣”,再进阶为“稳定可靠为荣”,继而追求“用户价值”,最终必须锚定商业目标——技术只是达成商业的手段。
这一过程本质是认知升维与自我否定:学术与技术本身并非终点,商业成功才是核心KPI。在VLA场景选择中,需同步具备商业洞察力与技术轨迹预判力,在二者交集处找到落点。这恰如“为钉子打造最合适的锤子”,当前最大锤子是AI范式,它能激活大量新可能。
组织层面,创业对“人”的理解远超科研范畴:组织即人与事的映射(mapping)。早期选人重潜力与适配性,后期重稳定性与量产经验;人员更替不可耻,关键在匹配阶段性战略与时间窗口。张巍坦言早期高管更替曾带来巨大痛苦,但后期趋于坦然——合适≠终身,而是阶段匹配。
学术是不重要的,技术也没有那么重要哦。我觉得最终的商业是重要的。
你得有 grounding,你得有 data,你得自己有手感啊,他得有个真机数据。
从科研思维到商业实践:一步到位的幻觉
许多高校教师出身的创业者,在创业初期容易延续科研思维——将组织搭建与岗位配置视作解题过程:希望每个关键角色都能一步到位、从此高枕无忧。例如,缺一个具备A能力的人,就理想化地期待找到一个“完美A”,之后便无需再操心。这种“wishful thinking”(一厢情愿式思维)在技术背景强的创始人中尤为普遍。但现实是,在未完成从零到一探索的高速成长赛道中,人岗匹配往往是一个动态遴选、逐步适配的过程,而非初始即定。即便创始人对所需能力有清晰认知,也难以完全规避“未经历过之事”的不确定性——创业中总有至少30%~40%的内容属于预测之外的探索领域,必须通过试错来验证与修正。
“人总会在自己不懂的领域里头被魅惑,是最容易魅惑的……你懂了就不会被魅惑的。”
“人老是在最既不擅长又不想暴露不擅长的地方,找一个完美答案,但最后证明说,即使不擅长,也需要先了解、做了判断才会有及格答案。”
CEO定位困境:大股东是否该亲自上阵?
教师创业者常面临一个特殊挑战:过早引入职业经理人担任CEO,尤其当创始人作为第一大股东、且业务尚处摸索阶段时,风险极高。此时若强行降职CEO,往往意味着信任崩塌与权力真空;而CEO职位之上已无缓冲空间,一旦人选稍有不适配,便陷入“无调整余地”的死局。因此,更务实的路径可能是:先设COO,构建可观察、可调整、可协同的管理闭环,为后续CEO人选的自然浮现预留弹性。尤其在非成熟业务中,“找个CEO”若仅是名义安排(如创始人自任实权者却称他人CEO),实为自欺欺人。
“输不起就赢不了,就是必须得能接受一件事情它是可以失败的。”
创业即修行:接受失败的升维认知
五年CEO生涯与十五年学术背景的交织,让张巍深刻体会到:创业是持续升维的过程——每增加一个认知维度,都伴随剧烈痛苦与短暂享受,随即迎来新一轮挑战。这种迭代本质是自我认知的快速校准:在商业实践中暴露盲区、弥补短板、逼近真实。他特别强调,对创业者而言,最大的认知跃迁之一,是意识到“公司是可以死的”——这并非消极,而是放下“赢必须赢”的执念,以更轻盈、更理性的姿态应对不确定性。 ego 过重者难以接受失败,而接受失败恰恰是扩大战略空间的前提。这种认知转变,远比技术或融资能力更具根本性意义。
“把 ego 放小一点就可以接受,就是一定要赢一个那个劲儿上来讲,我觉得很多情况下是适得其反,然后你也很难从容的去做一些很多决定,你也看不到很多世界。”