世界模型的核心定义与决策导向
世界模型最关键的两点在于对物理的模拟能力与action控制能力,二者共同决定了模型能否准确预测未来状态。当前,OpenAI已强势进入机器人实验室领域,使得该方向的竞争日趋激烈。从结构上看,一个完整的世界模型循环通常包含三个核心模块:通用的agent policy、世界模型本身,以及二者构成的闭环系统。随着泛化性持续提升,一旦误差累计降至可接受阈值,整个系统将进入自进化循环阶段——这是当前研究者普遍期待的临界点。
值得注意的是,“世界模型”一词在不同领域存在多重解读。从决策视角出发,它特指一种条件化未来状态预测模型:输入为历史观测与即将执行的action(如机器人动作、车辆轨迹等),输出为预测的后续世界状态。而视频生成模型(如Sora)虽常被称作“世界模拟器”,其本质更接近一种文本驱动的干预式模拟——用户以自然语言作为“动作”对视频内容进行编辑,生成符合物理规律的未来帧。然而,这类模型的action主体是外部用户(类比“上帝视角”),而非模型内部的具身智能体。
“一个对决策有用的世界模型来说的话,它应该是接收这种action轨迹的输入的。”
“对于具身智能来说的话,一个最有那种世界模型,它应该是只接受自己的这种action出发的。”
表征方式的三大技术路径
从技术实现角度看,世界模型的分类可依据其状态表征方式展开。第一类是几何抽象表征,例如用点、图或矩阵描述物体结构。其优势在于计算高效、所需训练数据少,但泛化性受限——面对柔性物体或新类别时,往往需人工定制表征方案。
第二类是显式三维表征,典型代表如李飞飞团队的WorldLabs,通过点云、高斯泼溅(Gaussian Splatting)或占据网格(Occupancy)重建世界。这类方法能精确操控物体空间位置,一致性高、误差累积低,但存在明显瓶颈:需依赖3D标注数据,且因包含“重建→渲染”两阶段流程,难以端到端训练,限制了数据利用效率。
第三类则是隐空间表征,以Yann Le Cun支持的Jukebox Policy Architecture(JPA)为代表。其核心思想是构建一个比原始视频更紧凑的潜在表征空间,从而降低预测所需的计算开销。该路径不依赖显式3D结构,也避开视频直接建模的冗余性,理论上更利于长期预测与泛化。
“它学一个表征空间,然后这个表征空间它会比video更加紧致,然后会就是更容易预测吧,就是你预测它需要更少的这个计算量。”
多智能体与通用性的张力
在扩展性层面,世界模型面临一个根本性权衡:通用性与协同能力的取舍。当前主流具身智能研究聚焦于单体智能体——即机器人仅依赖自身感知与动作适应环境,这更贴近人类在现实世界中的认知局限(我们无法直接控制他人行为)。然而,若未来出现大规模联网机器人(如马斯克预言的百亿台规模),多智能体世界模型将成为必然选择:通过车与车(V2V)、车与基础设施(V2I)的实时通信,系统可超越个体感知边界,显著提升决策质量与安全性。
国内曾兴起的车联网(V2X)浪潮即体现了这一思路,但受限于基建部署成本与标准化难度,最终行业仍以单车智能为主流路径。这也印证了技术演进的现实逻辑:通用性优先于协同性——先确保单体在任意环境中的自主适应能力,再逐步引入群体协作机制。长远来看,世界模型的发展将沿着“个体强健→群体智能”的路径持续深化。
世界模型的表征路径之争
当前世界模型的构建存在多种表征路径,核心分歧在于如何表示世界状态。一种路径依赖显式3D标注数据,但受限于数据获取瓶颈,且通常非端到端优化;另一路径以Yann LeCun推崇的隐空间表征为代表,如JPA(Joint Predictive Architecture),其目标是构建一个比原始视频更紧致、高效、语义化的表征空间,仅保留与决策高度相关的高层信息。该思路强调:人在做决策时并不需要精确重建每个行人面部或房间内所有物体位置,而只需模糊感知“有人”“布局大致如此”即可——决策不需要高保真感知,只需要足够支撑行动的压缩表征。然而,隐空间也面临挑战:需额外构建空间并使其与决策模型对接,其评测标准、可部署性与泛化能力尚不明确。
“比如说你在街上走的时候,你是没法精准的预测,比如说每个行人的这个脸……你只需要知道那边大概模糊有一个人就行了。”
“他就是想把所有跟决策相关的压缩到一个隐空间上,然后在这个隐空间上去做这个世界模型的这个预测。”
视频驱动:当前最可行的端到端路径
相比之下,以视频为输入输出的纯预测式世界模型(video-in, video-out)展现出更强的工程可行性与数据适配性:它天然支持端到端训练,可直接利用海量互联网视频数据,且无需人工设计表征空间。尽管有人担忧“人类决策不依赖像素级预测”,但当前视频模型(如Sora)已具备高保真、非确定性采样式细节生成能力——这种“重建即预测”的方式,并不损害决策效率,反而可通过更丰富的上下文建模提升泛化能力。从数据驱动视角看,视频与语言是通往AGI最富数据的两个模态,而机器人等稀缺动作数据可作为后续对齐目标。因此,从视频出发接入动作控制,比另建隐空间更具协同优势:后者虽可能提升效率,却难以复用现有语言/视频基座模型的强大泛化能力与生态支持。
“现在从视频出发的话,你本身对这个世界已经有很好的理解了……从视频开始去接入这个 action,然后去做机器人的这个世界模型是比较合理的。”
“假如说他们构造一个新的隐空间之后的话,想利用其他基座模型的能力……目前来看的话,就是现在的这些语言和视频这两个表征去,比如说通往AGI已经是比较足够了。”
WAM与DreamDojo:范式澄清与落地逻辑
英伟达GEAR Lab提出的WAM(World Action Model)常被误认为纯世界模型,实则为兼具策略与世界建模能力的混合体:它以文本任务描述为输入,同步输出未来视频帧与动作序列,因此在功能上更接近VLA(Vision-Language-Action model),但额外提供了世界状态预测能力。这体现了世界模型与策略模型的边界正在模糊——当策略输出足够稳定时(如BLT等成熟policy),其动作分布变窄,世界模型的模拟难度显著下降,从而可为策略提供可靠反馈以支持泛化优化。GEAR Lab的研究方向多元,但视频路径因数据丰富性、可扩展性及计算效率提升而成为主流共识;同时,世界模型部署灵活(端侧或云端皆可),相较VLA更宽泛的规模适应性,使其在具身智能系统中兼具弹性与潜力。
“WAM其实严谨来说,它不是一个world simulator,就它其实是个policy……它也可以起到一个这种世界模型的作用。”
“世界模型你可以就是部署到机器人上,然后你也可以部署在云端……所以世界模型其实,在大小上的限制比policy要更宽泛。”
WAM:作为策略的世界模型
WAM(World Action Model)本质上不是一个简单的文本模拟器,而是一个具备策略功能的模型,其定位与 VLA(Vision-Language-Action)模型类似,但功能更全面。与 VLA 不同,WAM 不仅输出动作(action),还同步预测未来的多模态世界状态(world state),因此兼具世界模型与动作预测器的双重能力。其输入动作空间可为文本形式的高阶指令(如“先拿起杯子,再举到嘴边”),输出则包括机器人轨迹、动作序列,以及以视频或文本形式表达的未来状态。
这种设计使 WAM 能在文本空间中完成高阶规划决策,本质上模拟了人类做决策时的思维过程——先构思步骤,再细化动作。当把文本视为一种 action 时,WAM 就成为了一个典型的世界模型:它接收文本 action,预测其引发的未来世界状态。因此,WAM 可直接作为策略(policy)部署使用,融合了 VLA 的动作执行能力与世界模型的预测能力。
“它接收的是 text,就文本的这种 action,然后它模拟的也是这个文本 action 它对应的这个未来的这个世界的状态,所以从这个意义上来说的话,WAM 它也是世界模型。”
“它又输出了这个机器人的轨迹和动作,同时还输出了状态,输出了世界的状态。”
世界模型的三大核心价值
世界模型的核心价值在于在真实交互前预演后果,从而实现安全、高效、可泛化的决策。传统策略必须通过试错学习,而有了世界模型,智能体可在模拟中对不同 action 进行搜索与评估,选择最优路径。这一过程类似人类“脑内预演”,但可系统化、可复现。
具体而言,世界模型带来三方面突破:
- 评测效率与公平性提升:真实世界评测受限于物理部署、环境不可复现、人为误差等因素,而世界模型支持零成本重置场景,实现完全公平的横向对比;
- 数据生成与干预优化:可在虚拟环境中通过遥操生成训练数据,无需真实机器人;也可对运行中的 policy 进行实时干预,收集纠正数据,提升策略鲁棒性;
- 强化学习与自进化加速:世界模型构成一个虚拟实验场,支持在其中安全试错、自我进化。例如,机器人可在模拟中“ overnight”训练数月,突破物理时间限制,大幅提升学习效率。
“你可以在你真正做这个 action 之前,就得到它的后果。”
“你可以在世界模型里去做这个评测……相当于就是拿算力,然后去换这些高效性和公平性等。”
自进化循环:从级联误差到正向飞轮
构建一个完整的自进化循环,需三者协同:通用智能体(如 VLM/Sima)。其中,VLM 负责任务定义与结果评估;WAM 承担动作模拟与状态预测;Policy 负责生成动作提案。三者形成闭环:智能体设定目标 → Policy 提出动作 → World Model 预测结果 → VLM 评估反馈 → Policy 优化迭代。
当前瓶颈在于泛化能力不足导致的级联误差:VLM 评估不准、Policy 提案不可靠、World Model 预测失真,都会拖累整体循环效率。但已有迹象表明,各模块正快速向高泛化性演进。一旦误差累积控制在可接受范围,循环将进入正向飞轮:Policy 越强 → 能探索更多新场景 → 自动采集更多高质量数据 → 进一步提升泛化能力。
DeepMind 的哈萨比斯曾指出,世界模型在科学发现(如可控核聚变模拟)中潜力巨大——它不仅是具身智能的基石,更是加速人类知识边界的虚拟实验室。尽管完全拟真的世界模型尚远,但循环本身已具备自我强化的雏形。
“它是一个循环上升的过程……一旦达到那个点的话,你的 policy 就会开始提升,整个循环就会变得越来越简单。”
“你这个 policy 一旦它变好之后的话,相当于是它对各种各样的场景,它有更好的这个决策能力、泛化能力。然后,这也就意味着它可以自动的去新的这些场景里去采集一些 data 的。”
自进化循环的启动条件与正向飞轮效应
当前世界模型与策略(policy)之间尚未形成稳定闭环,核心瓶颈在于泛化能力不足,导致误差在多轮交互中快速累积,因此目前仅能在简单任务上运行。但已有明确迹象表明,这一循环有望在2026年内实现突破性连接——一旦策略达到足够水平,其动作分布将显著收窄,输出动作趋于合理(如“拿杯子就是拿杯子”),不再产生抖动或荒谬行为。此时,策略可被部署于新环境中自主采集数据:即使初始数据质量不高,只要动作处于可接受范围(如不打翻设备、不损伤机械臂),即可为世界模型提供真实、多样、自动化的训练样本。
这些数据将反哺世界模型的两大核心能力:物理模拟精度与动作控制建模能力。随着世界模型对物理规律和动作响应的理解加深,其预测未来状态与提供反馈的准确性同步提升;更精准的反馈又进一步优化策略,使其动作更稳定、泛化更强——形成一个误差递减、效率递增的正向飞轮。值得注意的是,策略越强,世界模型所需模拟的动作空间越窄,训练压力越小,反馈越聚焦,从而进一步加速循环效率。
一旦这个循环连接起来之后的话,整个循环其实会变得越来越简单,越来越自动,然后它会成一个飞速的一个上升。
你这个 policy 越来越强之后的话,它也可以去更多的任务上去自动的去收集这个数据。
泛化性:世界模型落地的两大核心瓶颈
当前世界模型探索的首要挑战是泛化能力,它直接决定模型能否脱离预设任务、走向通用场景。泛化性包含两个关键维度:物理理解泛化与动作控制泛化。
物理理解泛化指模型对未见物体、场景的模拟能力。例如,若机器人数据集中仅含特定玩具,当面对新物体(如抹布、水瓶)时,模型若无法准确建模其物理属性(如柔软度、流动性),则预测失真,反馈失效——策略无法从错误中学习,泛化能力被锁死在训练分布内。
动作控制泛化则关乎世界模型对非专家动作的公正建模能力。现有训练数据多为专家演示(成功动作),导致模型隐式偏好“正确”动作:即使输入一个明显失败动作(如抓偏),模型仍可能生成成功结果,丧失区分度。这使得策略无法获得真实反馈,难以修正错误。
DreamDojo 的设计正试图突破此瓶颈:它引入人类操作数据,其中包含大量失败、抖动、低效动作,从而扩大动作分布覆盖,使世界模型能更真实地模拟各类动作响应,提升反馈精度。
现在你只要只要你这三个组件,你都基于一些 Data Rich、最数据丰富的一些表征出发的话,它就很容易接起来。
英伟达 GEAR 与行业路径:从游戏到物理世界的映射
在英伟达 GEAR 架构中,三大要素清晰对应:DreamZero(策略)、DreamDojo(世界模型)、机器人本体(通用智能体)。该智能体作为闭环枢纽,接收高层指令(如文本规划),输出动作至物理世界,并将视频反馈输入世界模型,形成“语言→动作→视频”的多模态协同链路。
对比 Google DeepMind 的 Genie/Sima 路径,二者均以游戏为训练起点:游戏数据无限、迭代成本低、验证便捷,适合快速验证世界模型与策略协同机制。而物理世界机器人受限于真实数据采集的物理时间与成本,需依赖策略先验能力实现自主数据生成,方能突破瓶颈。
值得注意的是,英伟达 Cosmos 团队聚焦于构建视觉基础模型(VLM、视频 backbone),为策略与世界模型提供统一表征空间。当三者均基于数据丰富的模态(文本、动作、视频)构建时,其兼容性与泛化潜力显著提升,为端到端闭环铺平道路。
你会发现,就是首先智能 Agent 跟这个 Policy 它的这个交互是语言,Policy 跟世界模型的交互是 Action。然后世界模型跟智能 agent 的交互是 video,然后这三个其实都是一个比较相对来说比较富足的一个模态。
世界模型的泛化能力与控制精度
当前世界模型(World Model)的训练高度依赖人类动作数据,这使其不仅能学习常见动作,还能覆盖更广泛的 action 分布,包括失败动作。这种对动作分布的覆盖能力,是提升模型预测精度与控制力泛化的关键。当模型能更准确地模拟不同动作带来的状态变化时,其反馈信号也会更可靠,从而显著提升策略(policy)的优化效果。值得注意的是,控制力的泛化与物理模拟的泛化是两个核心维度:前者关乎模型对不同动作的响应一致性,后者关乎其对物理规律的建模准确性。二者共同决定了模型输出与输入动作之间的对应关系是否精准。正如文中所言:
‘控制力的泛化和这个物理模拟的这个泛化,这两个点的泛化都能让这个模型的这个预测以及它预测跟你输入这个 action 的这个对应性更加精准’
‘它给的反馈也更加精准,然后相当于是也能更更好的去提升 pose’
长程任务与记忆瓶颈:从短时决策到管家级能力
当前世界模型(如 DreamDojo)多聚焦于短程任务(如1.5秒内的瞬时决策),而通用机器人必须应对长程任务——这类任务对稳定性与长时记忆提出了更高要求。例如,将物品放入柜中并稍后取出,若模型缺乏跨时间的记忆能力,就无法可靠推断物品位置,导致策略决策失效。缺乏长时记忆意味着反馈信号退化为随机噪声,严重制约策略训练的可靠性。尽管家庭服务机器人场景(如识别并定位特定碗、区分剪刀用途等)对记忆能力需求极高,但学界普遍认为,这类抽象空间信息未必需依赖视频建模:文本或大语言模型(LLM)凭借其长上下文能力,可能更高效地编码此类知识。正如文中指出:
‘你不用视频去做,因为视频的话它冗余度特别高……用一个文本,或者说你构造这种大语言模型,它 context 都很长嘛’
‘它得到得不到一个可靠的一个世界的预测,也就意味着说它得不到一个可靠的一个反馈,然后相当于是它得到的这个反馈都是一些 random 的一些信号’
测评困境与行业格局:Benchmark 缺失下的竞争图景
世界模型领域面临严峻的测评难题:缺乏统一 benchmark 的核心原因在于 action space 与观测模态的高度异构性。不同机器人(如宇树、星海图)的自由度、传感器布局差异巨大,导致模型无法零样本迁移。相比之下,大语言模型与视频生成模型因输入输出空间天然统一、支持 zero-shot,可快速横向比较。因此,当前评测多依赖团队自建 benchmark,或复现他人模型以适配自身机器人——成本高昂、结果不可比。业界评估往往只能靠“实机试用”,而非量化指标。在此背景下,主要参与者呈现清晰分野:
- NVIDIA 与 LeCun 的 AMI 聚焦隐空间世界模型,服务于具身决策;
- 李飞飞团队(World Labs) 倾向显式 3D 表征,适配游戏与自动驾驶;
- 英国 Wave 公司(GEAR 系列) 利用游戏数据突破物理采集瓶颈,探索决策知识迁移;
- Google DeepMind 则采取“基模对齐”路线:将世界模型、策略(VLA)、Agent 全部对齐至 Gemini/View 等大模型,构建自我进化循环(如 DreamDojo 所体现的思路)。
‘你永远都是把 Action 数据,然后决策数据,去往这些大的就是 Data Rich 的这些两个模态上去对齐,然后从继继承这些模态它很好的这个泛化能力,然后去形成一个这种自我进化的个 Loop’
两条通往物理AGI的路线
在实现物理层面的通用智能体(physical AGI)过程中,目前存在两条主流技术路线:第一种是直接从机器人数据出发,构建机器人专属的世界模型与策略网络;第二种则是先构建一个强大的基础大模型(foundation model),再将其适配到机器人任务中。前者是当前多数初创公司采取的路径——直接采集真实机器人数据,训练具身智能体;后者则以字节、AMI、Anthropic 等机构为代表,主张先让模型在多模态虚拟任务中充分训练(涵盖图像、文本、视频等数据 richest 的模态),形成强表征能力与丰富的世界知识,再将文本或隐式动作作为控制信号,实现具身决策。这两种路径都具有合理性:前者强调“从做中学”,后者则依赖“先学后做”。值得注意的是,视频基世界模型(video-based world model)是实现物理AGI的关键基础设施,而其性能高度依赖于高质量视频数据与强大算力支撑。> “做具身解决 physical AI 有两种路线,一种就是现在就开始 pen robot data,另一种就是我先把这个基模解决了,然后基模解决之后,我有很强的表征,然后解决 robot 它就是最后一步的事情。”
“最终你得有个很强的一个基座模型。”
从YouTube数据出发的世界模型探索
研究者在2023年下半年启动了世界模型相关工作,初期聚焦自动驾驶领域,曾利用扩散模型生成多智能体场景数据以缓解真实数据稀缺问题。在特斯拉发布其世界模型后,团队意识到:通用单智能体世界模型比多智能体感知更具泛化潜力与研究价值。当时学界普遍受限于小规模公开数据集(如仅5小时的新加坡采集数据),难以泛化至新城市或复杂场景。团队因此大胆尝试——成为开源社区中首个使用YouTube自动驾驶视频训练世界模型的研究组,并推出了GAD模型。后续的Vista工作进一步提升了生成质量、物理一致性与动作控制精度,强调世界模型的两大核心指标:生成质量与控制精准度。尽管工业界(尤其是车企)拥有更易获取的高质量数据,但学术界仍需依赖YouTube等公开资源,面临数据获取、标注与处理等挑战。> “我们还是比较大胆的,就是第一个从YouTube上搞这个视频,搞这个数据去train这个世界模型。”
“世界模型,尤其是video world model,它的精髓在于,它可以吃下所有的这些视频,同时呢,它可以就是完完全靠数据驱动的方式去提升它的这个泛化能力。”
DreamDojo与自进化循环的演进路径
进入GEAR Lab后,研究者将重心转向具身智能的前沿方向。GEAR Lab的“Good Dreams”项目由Joe发起,早期通过Video Model构建Backbone,训练具备泛化能力的策略网络(如DreamGen)。在此基础上,DreamDojo代表更进一步的探索:构建动作条件的世界模型(action-conditioned world model),作为虚拟环境供策略自我进化;而DreamZero则聚焦改进VLA范式,引入世界状态表示与隐式动作(latent action)机制,实现策略与世界模型的协同优化。团队认为,策略网络的成熟(如Polaris)已为世界模型接入创造了时间窗口。尽管自进化循环在理论层面已显现出潜力,但其真正落地仍需等待两个关键条件:视频基座模型的成熟与大规模、高质量动作-观测数据的积累。短期内,该系统可能先在单一任务上跑通闭环,再逐步扩展至多任务、多场景。> “这个成熟可能会更远,就可能需要可能五年的这种周期吧,对,可能会真正的去成为一个大的一个爆点。”
“你单个任务上,然后可能能够比较好……单个任务上先跑通,然后相当于是把这个理论上的这个路线走通,然后后面可以连起来,去去让它更多任务的更多场景。”
DreamDojo:面向泛化与实时性的世界模型
DreamDojo 是一个旨在构建通用预训练世界模型的项目,其核心目标是让该模型能被开源社区广泛使用:当新机器人接入时,只需微调即可快速部署。相比此前仅在单一数据集、有限物体或场景中训练的世界模型,DreamDojo 的关键突破在于——从人类第一视角(egocentric)视频中迁移泛化能力。具体而言,它试图将人类视频中丰富的场景多样性、物体交互模式及物理规律知识,迁移到机器人世界模型中,并在面对未见场景与物体时仍保持良好性能。
实验表明,该模型在新场景和新物体上的泛化能力显著优于仅依赖机器人数据的基线。更进一步,DreamDojo 实现了实时推理能力:既支持遥操设备的近实时交互,又可在策略部署阶段通过世界模型进行前向预测与搜索,从而提升决策性能。这一进展弥合了此前世界模型在“泛化能力”与“实时性”之间的权衡困境。
我们主要想突破的点就是它能……从人类的视频中去迁移一些这种呃泛化能力呃过来,给给我们的世界模型。
你有个实时的世界模型之后的话,你在 policy 部署的时候,你可以去呃更快的去得到这个,相当于是你通过预测去得到每个 action 的后果……可以去提升这个模型的这个性能。
数据驱动:4.5 万小时人类视频的构建与挑战
DreamDojo 的成功高度依赖于其构建的近 4.5 万小时人类第一视角视频数据集。该数据量级远超此前尝试,使得模型能充分捕捉物体多样性、物理交互规律与场景广度,从而支撑泛化能力的显现。团队指出,此前难点主要不在方法,而在数据不足——早期缺乏足够规模与多样性的 ego 视频,也无人系统性地探索该方向。
数据来源包括团队自行采集的大量第一人称视频(如志愿者佩戴摄像头完成各类任务),并强调:World Model 对数据标注要求极低,仅需动作信号(action)即可训练,这使其天然适配海量无标注视频。相比之下,策略模型(如 policy)需高质量专家数据,而世界模型可“吃下任何数据”,包括后续用于 Eagle Scale 等工作的子集。
值得注意的是,该数据量是经内部验证后“方法通了”所达到的实用上限;团队也坦承,若进一步优化数据分布(如聚焦高频物理规律或任务类型),迁移效果或可进一步提升。
四点四万个小时的这个数据越多肯定是越好……我们就尽可能引入更多的数据进来。就是你引入数据越多的话,它覆盖的这个场景就越广。
多阶段预训练:第三人称与视角迁移的权衡
DreamDojo 采用三阶段训练范式:首先基于 Cosmos(含大量第三人称视频)进行基础预训练,再在人类 ego 视频上做第二阶段预训练,最后在机器人数据上微调。消融实验表明,跳过 Cosmos 预训练将显著降低性能,说明第三人称数据在早期阶段对建立通用物理知识至关重要。
团队探讨了将第三人称视频直接纳入第二阶段(ego 预训练)的可能性,认为这虽未尝试,但理论上可行——尤其当目标是最大化物理知识迁移时。他们类比 VLA 等多任务学习范式,指出将多视角、多任务(如视觉问答)融合进单一预训练阶段,有助于增强模型的通用知识保持能力;但受限于计算资源与论文聚焦性,DreamDojo 选择分阶段验证核心假设。
关于动作表示,DreamDojo 使用 latent action(隐式动作),无需人工标注动作标签,从而可无缝利用海量无标注视频。该方法源自其前期工作 AdaWorld(在千余款游戏中验证),其优势在于极强的数据扩展性与跨本体兼容性——尤其适用于本体差异大的迁移场景。但团队也指出,若未来机器人与人类本体高度拟人化,且所有数据均有高精度标注,latent action 的必要性或将减弱。
其实 latent action 它是这样的,它是一个有噪声的 action 表示,就它不能很好的去描述。
Latent Action:跨本体迁移的通用接口
Latent action 是一种带有噪声的动作表示形式,它本身无法精确对应某一特定本体(如人、狼、机器人),但作为跨本体映射的中间媒介,它在不同本体间具有良好的可迁移性。例如,当人类因失去双臂而用脚完成精细操作时,其行为虽与原构型不同,却仍能高效执行任务——这说明生物体本身具备适应新构型的潜力。从 latent action 出发,映射到任意新本体的动作空间,通常是最自然、最接近的路径。因此,即便某人某天“突然变成狼”,只要存在一个 latent action 中心表示,适应过程也将比直接建模高维动作空间更高效。当然,若目标本体已有高质量标注数据且与训练数据无显著 gap,则绕道 latent action 反而低效;但若缺乏标签或数据稀缺,latent action 提供了一种无需本体特化标签、复用通用人类视频数据的高效路径。
“它是一个有噪声的 action 表示,就它不能很好的去描述每个具体的本体,但是它相比所有的本体来说的话,它都是一个比较好的一个媒介。”
“假如说我们有一个 latent action 作为一个这种鲜艳的话,从 latent action 出发,它可能是到各种各样不同 action 这个 space 一个比较自然的一个出发点,或者说比较居中的一个出发点。”
数据采集范式变革:从‘为采数据而采’到‘边工作边采’
当前数据采集仍多为实验室场景下的刻意采样:布置环境→执行动作→重置→重复,效率低下(如日均百条)。而未来趋势是在真实工作中自然采集数据:人类佩戴便携外设(如摄像头、IMU)进行日常操作,系统同步记录高精度动作与状态标签——工作本身即为数据采集过程。这种模式不仅不影响原任务,还能实现海量、连续、带标签的数据积累。此外,合成数据也天然自带标签,进一步加速数据生成。以 DreamDojo 为例,其 44,000 小时人类视频数据正是依托此类范式构建,覆盖大量物体与场景,为世界模型提供强泛化基础。
“之前的素材的过程,就是相当于是它本身不是在工作,它采集数据就是工作。但后面的采集就是在工作中采数据。”
“只要你带一些便携的这种外设的话,首先它不影响本来的工作,然后它也是自带标签。”
DreamDojo 的评估逻辑与世界模型的终极使命
DreamDojo 的评估围绕两大核心展开:物理预测的真实性与动作控制的有效性。团队先在内部 G1 数据上验证初步能力,再借助开源 Ego-Dex 数据集测试跨物体迁移性能,最后引入大规模人类视频数据提升泛化能力。值得注意的是,尽管以 G1 为测试本体,其目标是训练通用预训练世界模型权重,支持跨本体迁移(如人类视频→机器人控制)。评估方式并非孤立衡量模型指标,而是将其嵌入 policy 反馈环:世界模型的优劣最终由 policy 在其反馈下的成功率提升来验证。若模型精准,则能从候选动作中选出最优解;若模型粗糙,则退化为随机选择。长远来看,DreamDojo 的终极方向是构建自进化闭环:policy 提出动作→世界模型预测未来→智能体根据预测打分→反馈优化 policy,从而突破物理时间限制,实现虚拟环境中的自主迭代——这正是通向 AGI 的关键一步。
“你有个 policy,然后你有个 agent 去提出一些任务和给这个 world state 进行打分,然后有个世界模型把这个 policy 到打分的这个循环给接上。”
“突破了这个物理时间的这个限制……你可以像其他的 Agent 一样,虚拟的 Agent 一样,也去迭代,也去进化。”
策略与世界模型的协同演进
在 GEAR Lab 的研究路径中,策略模型(policy)与世界模型(world model)并非独立开发,而是高度协同、循环迭代的关系。DreamDojo 所代表的思路,正是将视频生成模型(如 Cosmos)作为世界模型的 backbone,为策略模型提供环境预测能力。值得注意的是,世界模型并不需要完美才能发挥作用——即使存在噪声或泛化性不足,它仍可在特定场景下显著提升策略性能;而随着策略与世界模型同步优化,整个系统的误差累积与反馈准确性将持续改善。这种“循环上升”机制,使得世界模型的引入更具可行性。此外,该框架的接口设计足够通用,支持多种模态输入(action、text、video),理论上允许 Google 的 VLA、C-Max 等策略模型接入,体现了其开放性与可扩展性。
你世界模型要真正能够开始帮助 policy 的话,它并不需要完美。就它是一个循环上升的一个过程……
……即使很 noise,然后它泛化性还不够好,在某些 case 下它已经能够足够去提升这个 policy 了。
创业公司的机会与挑战
尽管世界模型训练依赖大量视频数据与高算力,但当前趋势正逐步降低参与门槛:数据供应商增多、GPU 效率持续提升、scaling law 普适性增强,使得中小团队也能在特定领域(如家居、工业)构建可验证的闭环系统。例如,可在小规模实验中验证世界模型与策略的协同效果,再依 scaling law 推广至更大规模。然而,若完全依赖外部视频生成模型(如 Cosmos),可能面临预训练分布偏差与训练支持不足的问题——Cosmos 天然偏向物理 AI(机器人/自驾),其生成视频更贴合真实物理规律;而外部模型若未针对机器人任务微调,可能削弱策略性能。因此,掌握视频生成模型的底层能力仍是提升竞争力的关键,但并非唯一路径。
……你对它的这个训练的,比如说它预训练的分布……它天生是有一个倾向的,就是它会推这个 physical AI……
迈向自我进化循环的终极目标
长远来看,研究者追求的不仅是单任务性能提升,而是构建一个自我进化循环系统:由策略模型(policy)→ 世界模型(world model)→ 评估与规划 Agent 构成闭环。其中,Agent 充当“大脑”角色,既向策略下达任务指令,又评估世界模型的预测准确性,并反馈优化信号。当前瓶颈在于各组件的泛化能力不足——现有模型多聚焦单任务,而基座模型(如语言/视频模型)的真正价值在于其跨任务迁移能力。未来一年,研究重点将集中于提升世界模型(尤其是 action-conditioned world model)的泛化性,使其能支持多任务、跨场景的策略迁移与自适应。正如高深远所言,当前阶段更需规模化验证成熟路线,而非原创性探索;工业界在数据、算力与工程落地上的优势,使其成为推动 Physical AGI 的理想阵地。
……最终世界模型包括 Word Action Model,它其实应该推向这个更多的这个 task。对,就是泛化能力要持续解决。