世界模型最关键的两点就是它对这个物理的模拟和它这个 action 控制能力。这两点直接决定了它能不能预测出一个很好的未来。OpenAI 的话,他们 suddenly 冲入到 Robotics Lab 下了,所以我感觉今年也是比较竞争激烈。就是现在这个循环里有三个部分吧,通用的 agent

policy,然后世界模型,大家都在往这个泛化性方面去推,所以说到未来某个点,我觉得可能就发生在今年,一旦它的误差累计到一个可接受的程度,整个循环就会变得越来越简单,就相当于是可以实现自进化。

欢迎收听晚点聊,我是曼奇。今天的嘉宾是刚刚从港科大博士毕业的一位年轻研究者高深远。他从去年开始在英伟达实习,接下来马上会正式加入英伟达的具身智能实验室 Gear Lab。这次我们聊了深远二零二四年以来一直专注的方向——世界模型。前一个多小时,我们展开了整个世界模型的途径、它的分类、它是为了解决什么问题、它的现状瓶颈和未来方向,以及各主要公司的思路。

修漏子里有一些图示可以帮助理解。后一部分我们聊了 Gear Life 在世界模型上的一些实践,尤其是去年到今年,他们陆续发布的世界模型 DreamDojo,深远也是这个工作的联合一作,以及被认为有可能会取代 VLA 的 DreamZero。我们聊了这些模型的研发历程和具体的创新点,也延展聊了世界模型可能的竞争情况。

这期又有非常多的干货,我们一起深度学习吧。今天非常高兴邀请到了一位很年轻的AI研究者高升远,正好是我们前段时间聚生气爆里讨论到的一个成果,就是因为大家去年发的DreamDojo的联合一作。升远,你可以和我们的听友简单的打一个招呼,简单的自我介绍一下。感谢麦奇的邀请,然后大家好,我是。像科技大学范东烨的 Ph.D.,然后我叫高深远,然后同时现在也是 NVIDIA GEAR Lab 的成员。

我自己的话,主要研究兴趣就是构造各种各样的世界模型,然后。呃,之前有从呃自动驾驶的世界模型开始做起,然后也做过这种游戏的世界模型,然后从去年开始的话,更关注机器人世界模型的构建以及它的应用。对,这次请深远来聊,也是想聊我很久以来就想自己学习弄清楚的一个话题,就是世界模型。因为这个词儿也比较大,我觉得它算是

A I 领域一个典型的 buzzword,就是你刚刚自己也说了好多领域嘛,比如做游戏的、做支架的、然后做具身的,可能都会提到这个。

我觉得我们可以在第一部分先给大家一些世界模型的一个整体的图景啊,就比如说你自己作为研究这个方向的人,你会怎么来给世界模型分类啊?现在好像很多不同的东西都装在这个大的概念。对对对,这是一个很好的问题,对,就是。呃,我自己从两年前开始做世界模型,然后今年我感觉这个词尤其的就是受大家关注吧。现在有很多不同的这种domain都在说自己在做世界模型,然后我从上往下拆解吧。

然后最high level的话,可能就是一部分人,比如说他是这种决策背景的,他做的世界模型可能就是。呃,它有个 model 去模拟这个 world,或者说模拟这个环境,然后所以说它叫世界模型。然后,但另一部分人就比如说,它有个 model,它有 world knowledge,它就是说它叫呃,它这是是一个世界模型,对。

然后第二个代表的可能就是现在做这些呃基模的,就是多模态大模型的,他们会说自己做世界模型。对我感觉也合理,就是说呃,相当于是,然后他们有个模型,然后它有多模态的输入输出,然后你可以呃让它回答各种各样的问题,然后相当于是比如说你用各种维基百科上的问题问他,他基本上都知道,然后相当于是他有个 word word knowledge,然后它就是世界模型。

对,但做决策的话,就是可能大家更关注的世界模型,它是这样一个 formulation,就是,呃,它是一个预测未来状态的一个模型,然后同时这个预测未来状态的过程是受一个呃条件控制的。然后这个条件控制一般都是这个 action,对,就是简单来说就是它会呃根据过去的这个历史,然后预测未来,同时这个预测的未来是根据你要做的这个 action 所决定的。

呃,在这个方面的话,可能又要分个几个派别,对,可能世界模型这个词,呃,为什么热门起来?我感觉主要是因为呃,就是这种视频生成技术的发展,最具有代表性的就是 Sora,它。呃,release 的时候,它有个 blog 说什么 video generation as world

simulator,然后相当于是呃,你可以这么理解,就是它有个 model,然后你可以用不同的 text 去 control 它,然后这个 text 也可以理解为一种

action,就是对这个世界的一个编辑,对这个世界的一个干预,然后相当于是你根据你不同的这个文本的干预,它会得到一个未来的一个画面,未来的一个视频。

假如说你给它的是一些 real world 场景的话,它生成的这个画面也比较真,符合物理规律,所以说它是个世界的模拟器,我感觉这是没有问题的。所以说,很多做 video gen 的,他就是说自己在做世界模型。对我感觉,这就是也 make

sense,就是他能够自圆其说。但是真正对决策有用的话,呃,你光在 text这种层面去 control 这个未来是不够的,因为你文本只是一些就是呃用于编辑啊,可能用于用户交互的。

但你真正去做决策的时候,你输出的是,比如说机器人输出的是 action,呃,游戏里的这种角色的话,它输出的是也是一些动作吧,对。然后,比如说技能什么的。然后像这个自驾的话,它就输出的是自车的这种轨迹,对。所以说,一个对决策有用的世界模型来说的话,它应该是接收这种 action

轨迹的输入的。我想先补充问一下啊,就是你刚刚说的这个 action 的话,就你讲的几种不同的,大家都可能把它算成 action。

比如说你给它一个文本的指令,这也是;然后它是车的轨迹,也是;然后机器人的一个动作,也是。那这个 action 它如果呃解释的更详细来说的话,就是它,比如说从 AI 或者计算机科学的角度来说,你会怎么怎么去描述它?就 action 就是对世界的一个干预吧,就是比如说你看到一个。世界的状态,它可以是个画面,或者说其他的一个表示。

然后你这个 action 给进去之后,它对这个世界会产生一些影响。然后我感觉这些都可以是 action,就比如说你文本告诉他,我要天上有个鸟飞过来这种。那这个动作的主体是什么?比如说我感觉在你刚说这几种情形里,这个主体就不一样。如果是车和机器人的话,我理解这个东西它就在那个世界里,它是这个世界里的一个主体,对吧?

但是,比如说像视频生成模型,你如果把文本也算成一个动作的话,那个动作并不是那个视频里的一个主体价值的动作,那是比如说我是个用户,就我有点像上帝的感觉,然后我希望这个视频接下来怎么样,我给了他一个动作。对,这两种是要区分吗?还是这都是?对我感觉这个问题其实已经非常深度了。就是一般比如说构建呃决策这种智能体的话,一般都是只关心自身,比如说哦,比如说我们讨论具身智能的话,一般都只关心自己的。

因为你一个 policy 就是一个具身本体,它其实很难去凭自己的意志去改变别人的。对,但是对于一个世界模型来说的话,它其实是可以接受,比如说对其他 agent 的一些编辑,就控制他们的

action。就比如说视频生成里的话,它比如说它编辑的是这个环境,因为我觉得就是做一个通用智能体的话,就是首先呃最通用的智能体肯定是就是它应该是对外界无法操控的,就可以操控外界基本上是就是比如说你去做一些游戏啊,你才可以操控。

但是比如说像我们人活在这个世界中的话,我们能控制的其实只是自己的 action。所以说,一个比如说,对于具身智能来说的话,呃,一个最有那种世界模型,它应该是只接受自己的这种 action 出发的。呃,但是假如说你能控制第三方的一整层的话,它其实也有一些好处。就比如说你自动驾驶的 world

model,或者说其他什么 world model 游戏的 world model,假如说你能控制其他的东西的话,相当于是你可以构造一些奇怪的这种 case。

就最终的话,像这种 multi agent 的或者说控制环境的这种呃 world model,它也是会有用的,对。但是对于通用的这种具身智能体来说的话,目前呃直接的意义还没有那么大,对。这个虽然有点扯远了,但是你说的这个让我想到了一个更未来的情况。因为现在我们可能讨论具身智能,更多还是讨论你一个单独的机器人,你到了比如说一个新的环境,你能不能适应这个环境,能不能干一些比较复杂的任务?

对。但如果说未来真的像比如马斯克说的,世界上有一百亿台机器人,因为机器人之间它其实跟人不一样,它可以直接联网嘛,对吧?它可以直接通信的。对。对对,它怎么交互又会是一个更复杂的一个世界的系统啊?但这这个可能跟我们刚才说的问题已经有点远了。对,但我感觉你说的这个点很好,就是包括现在不是有车联网吗?就是我之前也研究过一段时间这种。

呃,multi agent这种呃这种感知,对,就是呃机器人车这种游戏智能体跟人不一样的是,它其实是可以通信的。然后未来就是,假如说从安全或者说从这个呃决策呃这个质量的角角度考虑的话,肯定是能通信,肯定是更好的。这是能超越人的一点。对,所以说确实,就从长远来看的话,multi-agent 这种 world model 确实更有必要的。

但从通用性角度来说,就是你不能假设,就是你把你这个机器人部署在任何环境里,它都可以直接跟其他 agent 的通信。所以说,从通用性的角度来说,一个呃自身的一个世界模型,它还是最通用的,就跟人一样,对。对,其实当年自动驾驶的时候,因为大家最关注的路线之争,后来最明显的肯定是威谋和特斯拉之间这个路线之争。

但是更早的时候啊,其实在中国当时也有一个车联网的风口。那会儿也有很多创业的项目,比如说在什么路上,电灯的灯柱上装很多激光雷达之类的东西,就是你可以通过环境去给这个车一些信号,让它不是就完全靠我自己适应环境,我环境也能给我助力啊。就类似这种,但确实后来我觉得最主流的还是大家去发展这个车本身单独一个车的智能。

对对对对,国内我感觉有基建的这个优势,然后当时呃车联网 V2X 这个确实是很火,包括现在可能也还在推吧。对,所以我觉得它可能有个先后关系吧。嗯,对。然后从通用性角度来说,还是呃先开发自身那种比较好。那我们至于可以说回这个世界模型的分类啊,呃,就是你刚才讲到,就是它还可以按派别分啊,你可以继续说这个。

呃,对,然后按派别的话,其实我感觉用表征的去来进行分类会比较明显。对,就是哦,就是世界模型,就是一个是 action,还有一个这个 condition 和它要预测的东西,就是世界的状态。然后这个世界的状态,它又可以呃,就是有多种表征。首先最抽象的,就可能比如说你是用一些几何表示去表示这些物体的状态,或者说什么。

呃,点啊图去表示这个物体的结构,对。然后它的好处就是说,它把这个世界表示的非常简单,你可以非常高效进行模拟,因为你只需要模拟一些可能矩阵乘法就好了,对。然后另外你可能也不需要很多的 data 去学习这个表征,对。但它的问题就是说,它的泛化性会没有那么好,就是相当于是你对不同的物体,呃,比如说它不同的柔性物体啊,还是什么物体,你可能需要专门去定义一个这种呃粒子的表征,对。

这个之外的话,就是可能是显示的三D表征,就是它可能比较代表性,就是像李飞飞老师的他那个 WorldLabs,对它就是相当于是把世界就是重建成这种。三D的这种表示,就无论是点云啊,还是高斯 splatting 啊,然后呃,或者说 occupancy 这种可能,呃,他们不再用,但是可能自家里用的用的会比较。

多就是相当于是你把世界重建出来,然后每个物体它的这个位置啊、呃坐标啊,你都是知道的。对,然后有了这个三D表示之后呢,相当于是你可以很好的去操控这个物体,比如说你对它做一些移动,做一些这种空间位置上的编辑,你都会非常容易。然后它的一致性也会非常好,就是因为你已经把它重建出来。所以就是相当于是你在这个世界里绕来绕去,绝对坐标还是那个坐标,所以说不会因为不会导有一些这种遗忘啊,或者说长程这种呃误差累积的一些问题啊。

但它坏处就是说,因为它有一个呃显示重建的这一步,就是其实我们最终用的还是一个观测嘛,就是我们基于观测去做决策。所以说,呃,这种 3D 表示,它最终用于观测的时候呢,它还会有这种渲染的这一步。所以说,就是为了得到最终观测,它其实是先重建、重新成显示 3D 表征,然后再把 3D 表征渲染成我们能看的,比如说是 2D 的 video 或者说画面。

所以说,这个多阶段的这个呃步骤的话,就导致它可能就没法很好的去做这种 data 追本。就首先,它做这些 3D 表征,它需要有一些 3D 的标注才能去学这些表征。然后,另外就是它不是 end-to-end 优化的。所以说它受限的还是这个数据的瓶颈,对。然后另外就是像呃,Yann Le Cun

他比较推的就是隐空间的这种表征,呃,比较有代表性的就是 JPA,它主打的就是我不需要有显示的三D 表征,然后可能也不是用粒子这种去进行表征。

然后,同时也不是用 video 去作为表征,它就是它学一个表征空间,然后这个表征空间它会比 video 呃视频更加紧致,然后会就是更容易预测吧,就是你预测它需要更少的这个计算量。同时呢,它是一些呃 high level 的一些语义信息的。就是它跟决策是更加直接相关的,对我感觉也合理。就是说有一个他很喜欢举的例子,然后反正我也借借鉴一下。

就是比如说你去做决策的时候,其实比如说你在街上走的时候,你是没法精准的预测,比如说每个行人的这个脸,对,然后而且预测出每个行人的脸,因为你都不认识嘛。然后而且预测出每个行人的脸,对你的决策来说其实也没有什么用,你只需要知道那边大概模糊有一个人就行了。然后,包括你到一个新的房间的时候,你也不可能一下子把这个房间所有的这个信息都预测出来,包括所有东西的这个位置都预测出来。

对,你只是知道大概的一个布局,然后其实已经足够你去做决策了。对,所以他就是想把所有跟决策相关的压缩到一个隐空间上,然后在这个隐空间上去做这个世界模型的这个预测。我感觉也有好处,对,但是可能呃有一些不太方便的,就是相当于是你首先要构建这么一个空间隐空间,然后这个隐空间同时呢,它需要跟其他的一些决策模型接起来才能用。

对,所以说这个怎么去衡量,怎么去评测,以及怎么去用它。其实会带来更多的这种呃阻碍的。然后我自己比较相信的就是纯预测video,就是用呃video去做这个世界模型的这个表征空间。对,就是你video进video出,然后最终看到的也是video。然后它是端到端的,然后也是直接可以用这种互联网视频去作为 data 去训练的。

其实本质上来说的话,就是预测 video,其实它也不一定要求你呃把每个精准的像素都预测出来,它只是作为一个监督。而且其实我们已经看到,就是现在像这种 coding 层的,包括这些。LLM 就是它的预测能力肯定是比人要强的,就所以说,呃,比如说淹了困,他的担忧可能是就是,比如说我们人做决策的时候,可能没法把每个像素都预测出来。

然后,但是可能现在的 model,尤其是这种 video model 的话,它就有这个能力去把这些细节预测出来,而且这些细细节预测它也是一个,就是也是一个采样,就它不是一个确定性的,所以说它也没有就是会损害这个模型决策的能力,其实也不冲突,就是你以重建的目标去预做一个世界模型,其实跟决策有用性啊,包括效率啊,其实也不是很冲突,对。

对,所以就是简单来说,就是最抽象的,就是比如说用粒子去表示,然后或者说用显示三D去表示。或者是用一个隐空间去表示,然后现在最 data driven,我个人认为最 promise 呢,就是用这种视觉,就是呃 video 画面去表示 word state。然后我感觉这样可以分成四个主要的 word model 的派别。

大家共同目的都是用 action control 这个预测,然后去做 decision。你自己最相信的这个方向上面,是不是包括你们自己做的 DreamDojo 是的,然后 Google 的那个 Gemini 系列应该也是。对,因为你基于 Video 的 Model,你可以很好的这种数据驱动的方式把它这个呃 scale up 嘛。

对,就是相当于是现在从视频出发的话,你本身对这个世界已经有很好的理解了。我觉得就是通往 AGI,包括这种具身智能,呃,它的思路肯定就是说你从一些呃,数据非常多的一些domain开始,然后往呃数据比较稀缺的一些这种domain去做对齐,然后唯一两个目前最有代表性的数据丰富的这种空间,一个是语言空间,然后一个就是视频空间,然后像比如说像如机器人数据的话,就比如说它有这个action data。

它可能就是相对相对来相对视频来说,它是一个比较稀缺的一个 domain,对,所以说从视频开始去接入这个 action,然后去做机器人的这个世界模型是比较合理的。对,假如说你要构造一个新的一个呃呃表征空间,然后去做 world 世界模型的话,它可能呃就没有那么 make

sense。对,它可能会有一些效率上的优势,但是它其实跟现在的这些语言和视频的这种基模型,它其实就很难去直接的应用,直接的去接起来,直接去利用它们很强的这个。

呃,泛化能力对。前面提到说,就是李飞飞世界模型那个公司,他们做的 Marble,你觉得那个方式它有一个劣势,是它不是端到端的?对。我想补充问一下乐坤他们做的,就AMI乐坤提的Japa这个方式,它是端到端的吗?就我是构建一个隐空间,是不是也可以做端到端的训练?对,呃,它可能是端到端的,就具体技术细节肯定呃大家都不知道。

对,但是我我觉得就是从他们之前的研究的脉络来看的话,它是一个端到端的。但他们有个问题就是说,他们要切换到一个新的隐空间,然后这个隐空间它不是现在的所有的这种,比如说GPT啊、Gemini这些模型能够直接读懂的,也不是现在这种比如说Sora。或者说其他这种视频模型能够直接读懂的,呃,就反正这是我个人观点,就是假如说他们构造一个新的隐空间之后的话,想利用其他基座模型的能力,他们希望把其他基座模型再往他们构造这个新的隐空间上去做对齐。

但我觉得就是目前来看的话,就是现在的这些语言和视视频这两个表征去,比如说通往 A G I

已经是比较足够了,对。就你觉得它那个路线至少有一个呃局限或者说有一个限制能看见,就是它不能很好的受益于现在整个行业的技术的进展和努力,也是有希望的,就是他们呃相当于有个更高效的,然后更适合决策的一个空间。但是呃问题就在于就是说他们这个空间构造出来,比如说它预测出一个隐空间,然后这个隐空间你直接给呃语言模型看,语言模型接不上;你给视频模型看,视频模型也接不上。

对,就是基本上是这么一个情况。哎,那像在英伟达的 Gear Lab 的话,因为你说你是比较看好就是视频生成这个方法去实现世界模型吗?在 Gear Lab 你们是大家都比较看好这个方向,还是你们也是好多不同的方向?就看研究员自己的兴趣。对,首先就是应该是看大家的兴趣,然后其实各种有希望的路线我们都会尝试的。

呃,从我的角度来看的话,就是呃视频就首先嗯它是一个数据非常富足的一个模态。对它跟呃文本一样,它有很强的这种 scalability。对,然后另外就是,其实从比如说现在的技术,包括现在的呃计算,呃比如说芯片的优化来看的话,呃视觉预测它并不是一个就可能之前大家认为是很会很慢的一个问题。对,就是它的效率也会被得到解决。

对。呃,但是隐空间可能也有它的优势,相当于是你会更加高效。然后对于机器人来说,尤其是比如说你这种要部署在真机上的话,呃,你可能这个效率也是个很大的一个呃关心点。对,但不管怎么样,就是呃,你学习隐空间,还是说你就在视频空间,它这个数据的来源肯定还是数据,呃,还还是视频。对,就是你构造隐空间,肯定也是从视频数据中学得一个隐空间,就它一切的来源都是那个呃视频。

你提到就是在两三年前,你开始研究世界模型这个方向,明显感到从去年到今年,这个领域变得更火热了。你觉得这个是为什么呀?就大家看到世界模型的价值是什么?用它来可能有多方面因素吧。最大的因素可能就是这种生成模型的发展。对,就是比如说啊,尤其是 Sora 吧,就是相当于是现在的这种视频生成模型,它有很强的这个。

呃,生成能力,然后有了这个生成能力之后的话,就是大家发现,从一开始啥都呃模拟不了,到现在就是模拟这种非常高质量、非常逼真的这种物理规律都呃都有可能。对,然后这是大家开始关注世界模型的一个方面,然后另一方面就是数据,对,就是尤其是巨深智能这几年火热起来之后的话,有很多这种数据供应商,包括开源数据集。呃,就之前相当于是,比如说你要做巨深智能的话,大家可能更关注是你是串一个这种决策呃模型,然后决策模型的话,它可能只是去模仿一些呃这种专家轨迹,你就可以去得到一个决策模型。

但世界模型,它它的目的是做一个。世界的模拟器,所以说它更加吃数据。它不仅要有专家轨迹的数据去训练世界模型,还有有这种差的轨迹数据,它也要去世界模型也需要去训练,它才能得到一个就是没有这种 bias、没有这种偏好的这种 action 的模拟。所以说,这是之前大家就是。呃呃,数据不够的情况下,就是可能得到一个 policy 是比较合理的,但是构造一个世界模型,你是得不到一个有效的一个反馈的。

然后这是第二点,就是数据。然后第三点就是这几年这个这个 policy 它逐步发展之后的话,它已经达到一定的水平了。啊,之前就比如说大家是训一些非常简单的 policy,然后是在这个比如说实验室里去做一些简单一些任务,对。然后这个时候你其实也用不着世界模型,就是。世界模型它其实是,其实为了就是帮助 policy 做泛化,无论是场景的泛化还是这种 task action 的泛化。

但你这个 policy 呃水平还比较低的时候,其实世界模型其实很难用起来,就是因为首先你世界模型没有很多 data 去得到一个非常公正的一个 action 的模拟。这里的 policy 是指什么呀?就比如说 B L E,它就是一种 policy。世界模型和 policy 的这个关系是这样的:就世界模型它是就是 action 输入,然后你给它过去的这个呃 state。

然后它预测未来的这个世界状态,然后 policy 可以跟世界模型互相交互,世界模型可以把它预测的这个状态给到 policy,然后 policy 可以再做 action,然后这个 action 你可以给世界模型,然后世界模型把下一个时刻的这个观测呃模拟出来,然后下一个时刻的观测模拟出来之后又可以给

policy,然后 policy 再输出下一个时刻的这个 action,就 policy 的输出是世界模型的输入,然后世界模型的输出是 policy 下一个时刻的输入。

就 policy 是一个模型是吗?可以这么理解?对对对,policy 可以是各种各样的模型。那世界模型要部署到具身机器人上啊?世界模型你可以就是部署到机器人上,然后你也可以部署在云端。不知道云端,然后把状态传给它,对对对对对。所以世界模型其实,在大小上的限制比 policy 要更宽泛,对吧?就你说,比如 VLA 就要尽量做得少一点,因为你是要跑在端侧的。

而世界模型可以在端侧,也可以在云端。哦,其实呃 VLA 你也可以部署到云端,就是其实就是看你部署环境的这个问题。对,就是假如说你有一个,比如说你网网络很好,你就可以全部在云端。对,相当于policy到一定水平之后的话,就是它输出的这个 action 就不会那么乱了。对,然后假如说输出的这个

action 没有那么乱之后的话,呃,你这个 world model 它需要模拟的 action 也会在一个比较窄的一个。

分布里面,对,所以说对 world model 来说,它模需要模拟的这个分布更窄,然后它就更容易模拟,就更容易提供更可靠的反馈,它就能够具备对 policy 进行优化的一些条件。总的来说呢,就是我感觉就是,尤其是视频生成技术。然后就是呃视频呃数据包括这个不同分布的 action

数据,然后第三点就是说,现在 policy 达到一定水平之后的话,一方面它输出的 action 的分布比较可控了,而然后另一方面就是要提升它的泛化能力的话,呃这个时候世界模型介入是一个比较好的点。

那说到这个,我正好补充问一个我可能自己之前没搞清楚的事儿,就是因为这次就是 Gear Lab 发了 DreamDojo、 DreamZero 这一系列的进展之后,其实国内有很多就一些文章会写,你们提了一个新的范式,就是世界动作模型 WAM,大家会去把这个和 VLA 做对比,他们俩是对等的吗?就 W A M 它是一个策略还是一个世界模型?

哦,这个也可以做一个分类,就是我们做了 DreamDojo、DreamZero 两个工作,然后你可以就是简单称这两个都是世界模型,然后但他们在功能上其实是有点不一样的。呃,W A A M 的话,相当于是它输入是一个 text。就是你把当前是什么任务告诉他,然后他会预测未来的视频以及未来的这个 action。

这边叫 WAM,其实是想就是说 W 是 word,然后 action 是它的那个决策出来的 action。WAM 其实严谨来说,它不是一个 word simulator,就它其实是个 policy,它跟 VLA 是同样的一个功能的定位,对。但它跟 V I 不同是,它不仅把 action 输出来,它还会把未来的 world state 输出来。

所以说,它也可以起到一个这种世界模型的作用。为什么呢?就是因为最开始说,就是世界模型的这个 action,它表征也可以是多模态的。你可以是机器人轨迹,然后或者说,比如说自动驾驶汽车的轨迹。然后你也可以是,比如说是,呃,这个一个文本,就这个文本它就是一个

instruction。人做决策的时候其实是有很多的这种嗯 action space 的,就比如说你一开始去做规划的时候,你肯定不是想你最终这个手怎么动了,你肯定是想一些步骤。

啊,比如说先拿这个,举起这个,放下这个,对,然后这个其实是相当于是 high level planning,然后它是在文本空间可以完成的一个决策,然后所以说,假如说你把文本也当做一种 action 的话,那 WAM 它就是一个 world model,它接收的是 text,就文本的这种

action,然后它模拟的也是这个文本 action 它对应的这个未来的这个世界的状态,所以从这个意义上来说的话,WAM 它也是世界模型。

呃,所以它输出的那个世界的状态是一个文本的方式来表达的,所以它是又输出了这个机器人的轨迹和动作,同时还输出了状态,输出了世界的状态。就是这个这个其实是个组合词,就是 WAM,就是它又是 World Model,然后它又有个 Action,它输出未来的状态也是视频。然后它同时会输出这个

action,就是相比 word model 的话,它多了 action 预测的这个功能,以及它输入的这个 action 是一个文本的空间。

然后相比 VLA 的话,它多了一个视频预测的功能。有点像它既具备在 high level action planning 下这个 world model 的功能,也具备就是 VLA 的功能。然后,但平时我们会把它用作一个

policy。那所以它相当于有点是合二为一的那个意思,对吧?这这个也是我想问的,就是你说你平时把它用作一个 policy,所以它如果要放在一个机器人上去用的时候,它除了自己本身就输出了一个多模态的世界状态之外,我还要用另外一个世界模型再去给它那个状态吗?

如果你把它作为一个策略来用的话,对对对,我感觉你完全理解了。就是 word action model 相当于是它可以做一个 policy 来用,然后你可以把它这个 action 去接给 DreamDojo 或者其他的各种这种大家常识意义上的这个 word model。word model 相当于是你。

给他 action,他可以把未来的状态给你。所以说,有了这个功能之后呢,会有什么好处呢?就是相当于是你执行你这个 action 之前,你不需要跟世世界进行交互,你就能得到呃你不同 action 的这个它的后果。就本来的话,没有一个世界模型的话,就是必须得在现实生活中做了这个动作,我们才能知道它的后果。

然后有了世界模型的话,相当于是它能替代世界,然后我们用它去模拟各种 action 带来的后果。然后相当于是我们在真正做这个 action 之前,就得到它的后果。然后所以说这个好处就是说,你可以在你真正做之前,你先做一个搜索。啊,就可能人脑中也在发生这个事情,但是可能人脑会发生的很快,所以说几乎没感觉到。

但实际上就是说,比如说你在做步骤规划的时候,你先用这个 DreamDojo World Action Model,你可以去呃做一个步骤上的搜索。然后,相当于是每个文本每个文本的步骤,它都会把这个未来的这个状态告诉你了。然后你从这边做一个选择,就是哪个可能是让你完成这个任务最佳的。然后你确定这个子任务之后呢?

呃,同时你也得到了这个 action 的轨迹,但这个 action 轨迹它可能还有一些优化的空间,比如说你怎么去接近这个东西的速度,包括你怎么去抓这个东西,它的角度和力度。然后这个 low level 的这种 action,你又可以去给到这个 DreamDojo

或者说其他这种。呃,更偏决策意义上的这种呃世界模型,就是它输入就真的是机器人的轨迹,然后它输出的是这个 world state,然后相当于是你又可以用这个去做一个优化,做一个搜索,然后去做出最终的决策,对。

对这个本来也是我刚刚想追问的,因为你前面讲的三个点啊,一个视频生成的模型的发展,一个数据,还有一个就是策略变得更复杂。我觉得它是带来了说为什么就是最近这两年世界模型的进展比较快,所以做的人更多,它更火了。然后还有一个其实我想问的问题就是,它长远长期来说,肯定这个方向是有一个,比如老大家老早就觉得我们应该这么做,这么做有价值才研究世界模型。

就你刚刚其实说了,就是因为。它好像还是一个仿生的大的思路啊,就还是模仿这个人的这种或者说动物吧,在环境中的一个反应的方式。觉得我提前给一个预测会更高效,然后会让它真的能自主的去泛化,对吧?对,就是更更泛化,然后更安全,对。就是你人其实就是,比如说你闭着眼睛想想我要做什么,然后你其实能想出你要就是做了这个之后会变成什么样的。

没有世界模型的话,所有的决策都是先不管后果,就反正我做了就做了。对,但是有了一个世界模型的话,相当于是你可以在做之前你就知道它的这个后果。对,然后可以让你的决策更加安全。对啊,这这其实只是一个最基本的功能。然后其实还有其他很多功能,就比如说你可以有个世界模型之后的话,你可以拿它做来用来做评测。比如说你有个世界模型,它能够替代真实世界。

然后现在这个巨深其实最大的一个问题就是评测很难,而且很不公平。对,很难是因为就是你每次都要真机部署,然后就是你有个人看着它,呃,就那个人下班了,他就。呃,你没法去测你这个模型了,就是相当于是它是受物理限制的。然后另外就是,假如说你这个模型很烂的话,你测出来,比如说它它把这个盘子打碎了,它就打碎在那里了。

还有一个就是不公平的问题,就是因为大家都只能在自己的这个房间里去测,然后比如说别人发你一个模型过来,首先现实世界里你永远没法把一个场景摆到一模一样的一个位置,就比如说你上午测这个模型,下午测这个模型,光照不一样,然后你摆的这个位置肯定也不一样。然后包括这个机器人动一下,对它这个传感器可能有些不准了,校准不准了。

所以说,所有的比较永远都是不公平的,对。所以就是没有世界模型之前的话,评测就是一个是不高效。然后另一个就是不公平,但有一个世界模型的话,好处就是说,首先,呃,你可以在世界模型去做这个评测,因为世界模型它代表的就是这个世界,就是你 policy 跟世界模型交互,然后你就能知道这个 policy 它是怎怎样一个表现。

另一个就是说,就是世界模型你是非常容易把这个场景,呃,重置到一个一模一样的状态的,就是你只要把那个状态告诉他,你比如说你这个状态你存在电脑上一模一样就就能够重置好,然后这个比较就是完全公平的了。对,相当于就是拿算力,然后去换这些高效性和公平性等。另外就是说,你还用世界模型去做这个数据生成,就是比如说你有个世界模型,然后像军兜这里,它有一个比较有意思的例子,就是我们把世界模型做到实时之后的话。

你可以直接去遥操这个世界模型里的机器人。之前数据采集就比如说是我要去遥控一个真的机器人,然后把这个机器人它的这个 action 录下来,然后我才有这样一个训练轨迹去训我的这个 policy。但是假如说呃我有个世界模型,然后世界模型里有个机器人,然后当然这个机器人是假的,它是跑在一个虚拟环境里的。你只需要去遥操这个世界模型的这个机器人,你就能得到这些数据。

那这个遥操过程中间,我是要带个传感器。对对对,就是呃,设备可能还是需要的。你本来怎么去遥操一个机器人,你就怎么去,那就是用同样的设备。但好处就是说,你不需要真的有那个机器人了,这是节节省成本的一个地方啊。如果你说跟遥操设备一样的话,呃,当然我我感觉这设备肯定可能简化啊,因为那种最完整的遥操设备,你可能你的那个就手臂的构型都是和那个机器人是要同步的。

对对对。有很多现在已经简化到手套了。对对对,就这个随着硬件的发展,遥操设备也会越来越简单吧。就是当这个硬件跟这个人越来越像之后,然后另一个就是现在 policy 进一步提升的话,它可能需要一些这种干预的数据。然后,假如说你有个 policy,你有个世界模型,然后你有遥操设备的话,你可以对跑在这个世界模型的 policy 去做一个干预,得到这些纠正回来的轨迹,去提升这个 policy。

对,就是世界模型非常 promising,就是除了 policy 评测,然后呃数据生成,然后包括我说的,就是你部署的时候,你做一个想象式的这种搜索。然后你还可以做这个呃强化学习,就是世界模型相当于是一个虚呃虚拟的世界嘛。你在这个虚拟世界里失败,嗯,它其实是就是呃非常安全,相当于是你可以做这种自我进化啊。

就比如说像QQ农场这种,就是相当于是它在一个世界模型里跑,然后就是你晚上睡觉,它晚上。也过了一天,这个东西都长出来了。像有个世界模型的话,它也是这样。就是现在这个机器人,比如说它没法像大语言模型这样进化,或者说像阿尔法Go这样进化,它的最大的问题就是它是被这个物理时间限制住了,就一天二十四个小时。对,然后包括人还要上班下班,对。

但是假如说你有个世界模型的话,你在这个里面去跑仿真,呃,跑跑强化学习的话,它是可以突破物理时间限制的。就是首先你算力越快的话,你每天这这个迭代的轮数越多。然后假如说你卡更多的话,它可以构造的这个环境也会更多。对,然后假如说世界模型它真的跟现实世界没有任何 gap 的话,你就可以把这个东西在比如说集群上你去跑一个月,呃,可能会涌现一些东西出来。

对,当然现在还远远没有到那个阶段,但是我感觉这是未来一个比较 promise 的点。哈萨比斯就是他之前上那个 Google 的官方的博客的时候,他有讲过,他觉得世界模型就 Gini 那个系列,以及他们有一个配合的东西叫斯玛。都是 DeepMind 的搞的。他觉得这个东西一个非常有前景的应用,就是我在这个模拟的世界里面去做实验,去搞科学发现。

他觉得可以大大加速什么可控核聚变啊之类这种大家认为很难的一些科研的成果。这是他讲到的其中一个价值。不过这里也有一个问题啊,这个我之前也跟也跟人讨论过,就是一个鸡生蛋,蛋生鸡的问题。就如果说世界模型能达到你刚刚说的那种程度的时候,我就感觉 A G I 可能都已经实现了吧?你可能才能模拟一个真的很像世界的世界。

就如果能达到这个水平的话,那是不是按你说具身智能应该在那之前就实现?对我感觉你问的这两个问题都非常好。对。啊,首先那个哈萨比斯是吧?就是反正我是很相信他那一套的,他的这个想法跟我现在的想法是非常像的,就是他有一个世界模型,然后是在 video space。然后它有个通用的智能体叫

Sima,然后它也其实是类似于一个 VLM 的架构,相当于是他们两个可以合成一个这种自我进化的一个 loop 啊,然后包括你说的第二个问题,对,就是。

我刚刚说,就是现在还远远没有达到那个阶段,但是并不意味着就是我们得达到那个阶段,我们才可以去构造这个循环。就是它是一个循环上升的过程。就是现在的状况就是说,我们的世界模型可能跟这种通用的 agent

还没法完美的连起来,因为他们各各自的这个泛化能力还没到。就是现在这个循环里有三个呃部分吧,一个是就是你有一个连接这个循环的一个很强的一个呃,比如说 VLM,它的作用就是说,嗯,它去定义我现在这个 agent 要做什么 task,哦,以及这个 world model

预测出来之后的话,它要去评判各种的这个 world state 是不是好,然后这个现在像 Gemini 这种基座模型,它其实已经能达到一定的这个水平了。

呃,然后你把这个做什么任务去告诉这个 agent 之后的话,这个 agent 它可以做一些这种呃 action,然后这个 action 去给这个 world model,然后 world model 去想象未来,然后再去给这个呃通用的这个 agent 去做这个呃评测,对,然后这个 loop 转起来之后的话,就相当于是可以实现自进化。

然后现在的问题就是说,这三个模型之间它的泛化能力会导致一定的这个级联误差。就是我的这个通用的这个 agent,它没有足够好的泛化性去提供呃很好的这个 reward 这个反馈,然后呢这个。Policy 它没有足够的泛化能力去在各种场景下去做一个比较可靠的一个 action 的呃预测,或者说 proposal。

然后世界模型它没法很好的在各种环境下,呃,预测出都非常逼真的这个未来。但是已经看到一些迹象,就是说大家都在往这个泛化性方面去推。所以说到未来某个点,我觉得可能就发生在今年吧。就是一旦这个东西连接起来之后的话,这个循环一旦,比如说它的误差累计到一个可接受的程度,一旦达到那个点的话。你的 policy 就会开始提升,整个循环就会变得越来越简单。

其实,你这个 policy 一旦它变好之后的话,相当于是它对各种各样的场景,它有更好的这个决策能力、泛化能力。然后,这也就意味着它可以自动的去新的这些场景里去采集一些 data 的。之前,比如说我很难去采集更多的 data,是因为就是说我这个 policy,比如说我把它放到一个新的房间里,它就乱动,它就把东西都打坏了,甚至把自己的机械臂都打坏。

但是,假如说你这个 policy 一旦到一定水平之后之后的话,它就可以在这个新的环境里,它去呃自己的去采一些 data,这个 data 可能是很差的,但没有关系,就是它已经在一个比较可接受的一个范围内去动了。这些 data 又可以去给 world model,然后另外因为这些 data 是

policy 自己产生的,所以说它是一个自动化的、自动化的 data 去给世界模型之后的话,世界模型它有更多的 data 去学习这个物理规律以及它的这个呃 action 的这个。

控制能力,世界模型最关键的两点就是它对这个物理的模拟和它这个 action 控制能力,这两点直接决定了它能不能预测出一个很好的未来,以及这个未来是不是能够提供一个精准的反馈。就总之来说,就是 policy 自动的去采集更多的 data 之后的话,世界模型有更多 data 去提升这两个点。这两个点又可以通过强化学习的方式去提升 policy。

然后我前面也说了,就是 policy 更加提升之后的话,policy 越强,它输出的这个 action 分布其实就会越窄。之后的话,它输出的这个就越来越合理嘛。拿杯子就是拿杯子,然后比如说干什么就是干什么。对,就它它不会输出一些完全很抖动啊、很不合理这些动作。然后这个对 world model

来说,其实是个比较好的一个趋势,就是呃,它一旦就是输出的这个 action distribution 越来越窄的话,呃,你这个 world model 它实际上需要去模拟的这个 distribution 其实也是越来越窄了。

就本来你 world model 所有各种各样不合理的 action 它都要模拟才能得到一个好的 feedback,现在是它只要聚焦在这些 policy 可能输出的这个动作空间里,它就够了。所以说对 world model

来说,它的压力是会越来越小,它压力越来越小,然后它的这个呃模拟能力也会更好学,然后更好学之后,它的提供的 feedback 又会更准,然后对 policy 优化又更有利,然后你的 policy 又会更强,输出的这个 action 又会更加合理,又几乎不会做一些错的 action 了。

然后,所以说你 world model 最终只需要纠正 policy,或者说只需要模拟 policy 很少的一些错误,它就能提供一个比较好的一个 feedback。呃,总之来说就是现在没法连起来,就是大家的这个误差累积泛化能力不够,导致误差累积可能还存在一些问题,导致只能在一些简单的 task 上去做。

但是,一旦这个循环连接起来之后的话,整个循环其实会变得越来越简单,越来越自动,然后它会成一个飞速的一个呃上升。对。就你刚刚描述的是一个策略世界模型,还有通用 agent,就是这反正三个要素,它们泛化到一定程度,循环跑通之后,就会进入一个更快的自进化的过程。然后你刚才还说,你觉得今年某个时间,二六年某个时间就会发生?

因为现在已经四月份了嘛,你们是看到什么迹象了吗?觉得它今年就会发生?就是我感觉很多 paper,就很多文章也在说这个事情。那发生了之后会怎么样了?就我怎么感觉这 A I 这发展速度就越来越无法控制了。对,现在我感觉其实,在一些简单的任务上,至少我觉得已经是有信心把这个连起来了。首先,简单任务上它会直接解决,然后你这个 policy 越来越强之后的话,它也可以去更多的任务上去自动的去收集这个数据。

呃,这也是我可能对构造一个新的表征空间没有那么觉得没有那么必要的一个问题吧。因为现在就是智能 agent,比如说你基于 VLM。然后 World Model 基于 Video,然后 Policy,比如说像 DreamZero,它基于这种 Video Backbone 有很好的泛化能力。你现在只只要你这三个组件,你都基于一些 Data Rich、最数据丰富的一些表征出发的话,它就很容易接起来。

你会会发现,就是首先智能 Agent 跟这个 Policy 它的这个交互是语言,Policy 跟世界模型的交互是 Action。然后世界模型跟智能 agent 的交互是 video,然后这三个其实都是一个比较相对来说比较富足的一个模态,对。然后所以就是这这三个你去提升它的泛化能力的话,可以很好利用现在 G 模的一些功能,对。

然后我感觉是比较 promising。呃,Google 现在就你刚刚说的那个循环啊,我能看到,比如它的世界模型是 Gini,然后它的 agent 是 C 嘛,在英伟达如果去对应一下的话,这个 loop 里的三个要素,你可以讲一个公开发的成果,都是英伟达的话,我感觉就是呃,主要 Cosmos 那边在负责做 G 模吧。

呃,相当于是他们那边会做 VLM 和这种视频的 foundation model。呃,他们这些可能没有那么角色,主要是说就是他们可能不是直接,比如说有个 action 的一个控制,我们还需要通过 post training,呃,去得到这些 action 的输入输出的。那 Cosmos 是相当于

Jamule 在做,对对,就是 Google DeepMind 他们研究风格,其实你可以发现,就是说他们很喜欢从游戏出发。

像 Genius Three 的话,它其实也是这个键盘控制。呃,理论上来说,它这套拍盘可以同样都能用到机器人上。但是我感觉 DeepMind 它风格就是想从游戏开始验证,我感觉这也合理。就是游戏的 data 你是无限造嘛,就是呃,机器人的 data 你从造 data 就产生这个 data 的阶段来说的话,它就是受物理时间限制的。

但游戏 data 就是你从造 data 这个阶段,它就是不受这个物理时间限制的,包括它验证起来也更方便。其实我刚想问的是,就 DreamDojo 它是相当于是 Sima 吗?还是?它像 GEAR 高深远:世界模型、自进化循环、DreamDojo。然后 Sima 的话,相当于是一个任何一个 policy 吧。

那个机器人是 Sima,或者说机器人上的这个 policy 是 Sima。然后它控制的是游戏里的 agent。我们的 policy 是物理世界的 policy,比如说 VLA,然后它或者说 DreamZero,然后它控制的是机器人。嗯,然后你们的那个巨深这个语境里的那个世界模型就是

DreamDojo,然后你们巨深领域的那个策略是 DreamZero,然后机器人你可以你可以说它就是那个 Agent。

这个 Agent 相当于是起到一个就是呃连接这个路循环的一个作用,就是它是一个,我觉得就是它是一个 Gemini 那种 V R M。嗯,它输出的是给文本,对给文本,对或者说去给这个 word state 去打分,对。然后假如说我这 word state 是 video 的话,相当于是你可以直接用现有的基模去用。

那我觉得他这样对应应该是更清楚,他相当于那个人脑子里那个想法,对吧?就你要干一个什么事儿,这些对对对,你肯定是有一个比较高级的规划。对对对,你觉得现在整个就是世界模型的这个探索中间啊,比较大的瓶颈是什么呀?就大家都想去突破的一些问题是什么?其实很多吧,就是首先就是我我感觉这个还是一个非常早期的一个阶段,对,就是其实我觉得可以这样总结,就是我感觉现在我感觉最值得做的是三个方向。

然后第一个是它的泛化能力,然后第二个是它的这个长程的这个稳定性,就是你交互多轮之后,呃,这是三D世界模型的优势,就是你怎么交互,它这个场景永远是坐标永远是不变的。但是生成式世界模型就会有这个问题,就是它交互多轮之后就会有误差累积。第三点是它这个效率,然后呃,其实呃后面两点我感觉还好,然后第一点泛化性我感觉是呃最重要,然后是决定这个世界模型能够应用的这个呃上限的,然后泛化性又包含两个。

一个是就是刚刚也说了,就是物理理解的这个泛化性;另一个是这个动作控制呃精准性的这个泛化性。啊,具体指的什么意思呢?就是呃物理理解的这个泛化性就比较呃好解释,就是相当于说你见到一个新的场景,然后一个新的任务,呃新的物体,然后你怎么去依旧能够模拟它?啊,这其实也是军斗者主要在解决的问题。现在我们的这个

robot data,它基本上都是比如说在我们实验室里采的,然后可能只见过一些就是我们买的这些玩具,比如说给它一个新的这些抹布啊,或者说你要让它倒个水瓶啊。

假如说我们我们机器人数据里没有这个 data 的话,这个世界模型就不知道这个水或者说这个纸质的这个东西它是怎样一个东西,它的物理就很差。然后假如说这个物理很差的话,你把这个世界预测出来,其实也没有什么意思。它抓个抹布像抓个实体一样,它模拟的越差的话,相当于是你很难得到很好的一个反馈。对,所以这这是物理模拟。

我们希望就是说,我们的世界模型能够呃模拟更加甚至它没见过,就是在机器人 data 里没有覆盖住的这些场景以及这些物体。假如说一旦它能模拟这些场景和物体的话,相当于是。它也能在这些场景和物体下去给 policy 反馈了,policy 也能在这些场景和物体下去得到进步。否则,你这个 policy

只能你见过的这些物体和场景下去接收 world model 反馈,相当于是还是没有提升 policy 的泛化能力。

然后另一个就是 action 的这个泛化能力,这个是什么意思呢?就是说你世界模型它要尽可能去公平的模拟所有的 action,导致这个的问题原因是就是前两年大家都在研究这个 policy,然后所以说大家积累的 data 都是这种专家数据。给 V L A 用的 data,对吧?对对对,给 V L A

用的 data,虽然它就有个问题,就是说所有的 data 都是对的,就是你抓个东西就是抓那个东西,然后它都干干成功了。

然后这对世界模型来说是个什么问题呢?就是这对 policy 来说是合理的,就是你 policy 应该给它专家数据,然后让它去做对的事情。但世界模型它是一个世界模拟器,然后世界模拟器它对这个动作不应该有一个这种偏好。对,就你前面说的,他也得有失败的那些情况,他也得学,对吧?他也得训练。对,就你给他一个抖的,他他就是得抖;呃,你给他一个丝滑的,他就是得丝滑。

对,假如说,因为现在所有都是专家数据,所以说现在世世界模型主要见过的 training data 它也是这种呃专家数据,所以说它就会有个情况,就是说它没法泛化到这些差的这种 action。他给他一个差的 action,比如说他本来抓抓这个东西抓偏了,但是因为他没见过抓偏的这种 data,所以说他怎么控制它,它都是抓上去了。

这样的话,你就是其实没有得到一个反馈,就相当于是你无论是抓偏还是抓对,你把这个 action 给世界模型,它都给你生成一个抓对的对,所以说这样就没有得到一个区分度的反馈。不过这个也好比较好解决,就是首先来说,这个不是最终的一个瓶颈,因为现在 Posec 已经达到一定水平了,就我刚刚一直在说的,它一定具备了一些自动采集的能力,就是你可以比如说你用 Posec 自动的让它去做一些东西。

然后它采集这些呃采集这些数据,然后这个数据就是 policy 可能会输出的一些呃动作。世界模型要有用的话,它并不是需需要模拟整个动作空间,它只需要模拟 policy 可能输出的这个动作空间就好了。对,然后 policy 越好的话,这个空间就越窄。所以说,比如说最终你这个 policy 很强的话,其实世界模型它可能接收到的输入也都是这种几几乎是专家数据了。

对,所以说就是模拟这个其实也会越来越简单,对。但是现阶段要跟 policy 接上的话,因为 policy 还比较差嘛,所以说你这个世界模型应该比较无偏的去模拟一些,就是公正的去模拟一些不同的这种 action。对,然后 DreamDojo 的话,相当于是用用人类 data,然后人类 data 因为有很多这种随便的动作嘛,所以说它就包含了一个更大的这种 action 的分布。

所以说你通过这个人类 data,你也可以去呃让 World Model 见过更多的这种 action。然后让它去模拟一些失败的这种嗯 action 的时候,也能够更加的控制力更加精准,对。然后总之就是控制力的泛化和这个物理模拟的这个泛化,这两个点的泛化都能人让这个模型的这个预测以及它预测跟你输入这个

action 的这个对应性更加精准,更加精准之后的话,它给的反馈也更加精准,然后相当于是也能更更好的去提升 pose。

那你说的这三个方向,就是要研究的方向,泛化我理解其实就是你前面说的靠那个循环,它如果接在一起之后,这里面的几个要素就是 policy 和世界模型都能提升,对吧?然然后你后面还提了两个方向,一个是长城的就比较复杂的那种任务,还有一个是效率啊,这两个事儿是它在就比如优先级上,它是在泛化的后面嘛?就比如它可能是后面慢慢自然就能解决的,还是一个什么情况?

以及大家业界有什么努力?对我感觉这两点就是好处,就是说。它跟现在这种视频生成的呃需求可能是呃对齐的。视频生成现在不是大家要去生成电影了吗?开始,所以说大家会解决这个误差累积,包括这个效率的这个问题。这两个我感觉就是呃不是限制呃 policy 提升的一个主要的一个瓶颈啊,不过长程也是很重要的,就相当于是现在可能大家关注的都是一些短程任务,就比如说对应可能一点五秒。

呃,瞬时的决策,然后让 world model 去模拟一下,然后就给个反馈了。呃,但最终,机器人通用机器人要做的,它都是那些很长程的任务。假如说你有个世界模型,它能够有长程的这个模拟,包括它有一个呃记忆功能的话,它对这种长程 policy 的训练也是有帮助的。呃,但现在可能没有到那个阶段。你可以举个长城任务的典型的例子吗?

嗯,可以举个比较难的。就有很多需要长城的,一个是长城的稳定性,一个是长城的这个记忆。对,呃,就比如说你把一个东西放到一个柜子里,然后你关上了,然后待会儿你又拿出来。就假如说你没有一个记忆的话,就是你关上之后完全忘了这个东西在这个房间里的哪里。哦,或者说你在打开那个门的时候,那个东西就不在了。现在的这些世界模型,包括 DreamDojo。

它就是它没有这种长程的记忆,就比如方说,你把一个东西放到一个柜子里,让这个世界模型去生成,然后你把这个东西合上了,打开的时候,那个东西在不在,完全是一个随机猜的了。这这对 policy 决策来说是个很灾难的东西,就是因为它得到得不到一个可靠的一个世界的预测,也就意味着说它得不到一个可靠的一个反馈,然后相当于是它得到的这个反馈都是一些 random 的一些信号。

因为很多人认为未来家庭服务肯定是呃,机器人最大的一个场景嘛。那如果说机器人要真的像一个人类的管家,或者说呃,一个真人那样,比如说我知道家里的某个碗,比如给小孩用的这个碗,它是放在柜子里的什么地方的,而且我我一直都知道啊。就离这种能力会会有多远啊?包括比如说我拆快递,我要用某个剪刀,然后我剪那个吃的东西,我可能用是另一个剪刀,然后它放在不同的地方。

因为对我们自己来说,肯定我都知道放在哪嘛。我偶尔会忘,但我大概也能找到啊。这种机器人什么时候能掌握了?它可能是跨越好长时间的这种记忆啊,还是说这不要靠机器人自己的记忆来解决,而是我把家里的很多信息这个可能,巨人的 research 可能没有那么关注,是因为。这个其实跟这种大模型的,比如说像 Gemini 或者说 Cloud,它这种技术是是共通的。

呃,首先这个东西可能在文本空间做会更合理,就是你不用视频去做,因为视频的话它冗余度特别高,所以说你要记这些东西会很复杂。然后像这些抽象的这种位置,或者说大概的位置。你用一个文本,或者说你构造这种大语言模型,它 context

都很长嘛,所以说我感觉就不是呃很大的一个问题。然后巨深它更关注什么呢?巨深更关注就是具体在做一个任务的时候,你已经确定你接下来这个任务是什么了,然后你怎么去把它变成一个呃成功率很高的这个 action,这个是呃这种像做 robotics 的人可能会现现在会更加关注的。

嗯,然后在你说的这三个方向之外,我自己有个比较好奇的问题啊,就是世界模型现在怎么来做测评,以及这个领域有不有一些比较公认的 benchmark?因为你前面说到,就世界模型有一个价值,就是去测评具身智能的模型,对吧?那另一方面,怎么来测试这模型?这个其实是世界模型是最大的一个痛点嘛,就是你去读论文的话,你会发现,就是说所有的论文他自己都搞一个。

呃,bench mark 去测,然后就是他可能比较的也是只有个别几个模型。为为什么会有这个问题呢?我感觉就是最主要的问题就是,就视觉模型没法 zero shot 啊,或者说视觉模型它输入不是有个 action,然后受这个 action 控制去预测未来的 state 嘛,然后这个 action 它肯定是跟你用的这个机器人绑定的。

就比如说你用语语数的机器人,它是多少个自由度?然后你比如说你用呃星海图的机器人,它是多少多少个自由度?呃,它都是不一样的。对,所以说你一个视觉模型,它就对应一个这个机器人本体。为什么像大语言模型或者说视频生成模型,其他这种模型它都能够有个公开的这种 benchmark,很好去比较?是因为就是呃,首先这些模型都是 zero shot,然后另外就是它的这个输出输入输出空间天然就是统一的。

就语言模型的话,它输入输出都是语言,然后就是这个没有任何的 gap,然后相当于是你把任何一个语言模型,你强行问他问题。它输出的都是语言这个空间,然后像视频生成的话,相当于是你就是用文本给它,然后你让它输出这个视频,也是天然就是统一的,就是没有任何的

gap。对,但是放到机器人里头的话,问题就是说,大家都爱用不同的机器人,不同的这个 action space,然后所以说什么时候能有个公平的 benchmark 呢?

就要么就是说我有个世界模型,它所有的机器人,呃,或者说呃很多机器人它都能 zero shot,就是它各种机器人的 action space 它接进来。它都能够就直接控制这个世界模型,大家都能直接去用来测,要么就是说所有的 research 团队,或者说所有的大家都收敛到一个机器人。这样的话,也就不存在这个呃,每个人都在用不同 action space 的一个问题了。

所以就是,要么就是你有个很强的世界模型,它所有的 action space 它都掌握了;要么就是所有的人都开始用同一个机器人了。然后不过那个我感觉到那个阶段的话,已经是世界模型很强的一个阶段了。对,所以现在大家就还是就是为了比较的话,就是自己会把不同的世界模型啊训练成自己机器人本体的那个 action space。

然后去呃去做一个评测,所以就是跟大语言模型的问题,就是说大家要评测视觉模型,必须把其他比如说其他团队的视觉模型拿过来,自己再去 train 一遍。这个代价就是比较高,所以说大家只能比有限的世界模型在有限的这个呃 benchmark 上,然后大语言模型相当于是你直接拿过来就调 API,你就直接能测了,所以说你可以测一个超级大的表。

那大家业界怎么评估?如果都在做就是这种机器人世界决策模型的话,谁做的好?就没有一个直接的一个评估了,就指标上其实没法看。大家基本上都是拿过来自己试一下哦。一个一个是这个 action space 不同,然后另一个就是它观测的这个也不同。就是比如说你大家都用宇树的机器人,然后 action space 是是一样的,但你训出来的世界模型可能也是不一样。

就是因为比如说有的人把 camera 装在这,有的人比如说把这个宇树的头拔掉,然后装个脖子上装个呃这种相机。对,就是它这个相机不一样,其实也是很影响这个世界模型的这个就是 zero shot 的能力。就你说到这个,我想到一个问题啊,就是我觉得世界模型领域的创业,那可能对投资人来说就更难判断了。哪怕你是搞这个研究的,你也比较难判断别人做怎么样,对吧?

那何况你还不是专门搞这个,所以就是现在我感觉还是一个比较早期吧,就是相当于是你只能试有限的一个一些模型,你大概有个感觉,就是哪些组可能做出来的是比较好的。哎,那你可以讲讲,就是业界认为做的还比较好的吗?你自己的感觉吧。首先,学界有很多组在做,因为就是我感觉这个还是一个比较早期的阶段,所以说有很多种 research 的问题可以让学界的高校去做。

然后,其实大厂的话比较旗帜鲜明的做世界模型,首先就是 Nvidia,另外比如说 LeCun 的这个 AMI,叫阿米,对,就他们是做隐空间的这个世界模型,对。然后他其实也是为了决策吧,但他们其实现阶段主要是为了做一个新的表征。然后像李飞飞老师他们做那个 World Labs,他们可能更多的是为了去做游戏,就是他们用显示的三 D 表征去做游戏是有优势的,包括做自驾可能也是有优势的。

对,但是对这种机器人来说的话,可能还是 video 会更好。然后另一个,我其实就之前也关注很多的,就是呃,英国有个自动驾驶公司叫 Wave,做了一系列叫 GEAR 的世界模型。然后呃,有个大佬叫那个 Anthony Hu,好像对。然后反正他加入了一个 startup 叫 General Intuition,他们也是做游戏的世界模型。

就是他们的 story 是就是呃,疫情期间大家都在家玩游戏,然后攒了很多游戏数据。就游戏它是可以突破这个时间限制的嘛,然后呃就物理时间限制,所以说游戏数据它攒得很快。然后同时呢,呃我们人就是在创作这些游戏的时候,其实也加入了很多这种三D的这种知识。然后它对训练一个决策智能体来说的话,其实也是有用的。

我们团队之前也做过一个工作叫。Natural Gen 就是相当于是我们把我们这个机器人的 VLA 我们去训了一个游戏的一个 VLA 游戏的一个 Policy

也非常的有用,对,然后所所以说反过来也是一样,就是说你在游戏里学到的这些决策知识。其实跟你在现实生活当中去做决策可能也是很像的,对,所以说你在游戏里,首先它 data 它是突破这个物理限制的,就是它造 data 会比机器人攒这个 data 更容易,然后你在这个游戏里去做世界模型,然后去做

policy 的这个。

呃,验证的话,可能也是个比较不错的路线。对,不过他们目前没有什么公开的模型放出来,但是我感觉他们那个公司的这个脉络和布局,我感觉是我个人也是比较喜欢的。对,然后最牛逼的,而且我自己最相呃也很愿意follow的就是呃Google DeepMind,对,就是他们Genie 3,然后包括Sima,就是他们就很典型,就是所有的东西都往基模上去align。

呃,就是比如说你呃Agent就往他们的Gemini上去对齐。你 VLA 也可以往 Gemini 上去对齐,然后包括你世界模型就从他们的 View 就 View 相当于是呃 Demand 的 Score 吧,就是他们最好的这个视频模型。你永远都是把 Action

数据,然后决策数据,呃,去往这些大的就是 Data Rich 的这些两个模态上去对齐,然后从继继承这些模态它很好的这个泛化能力,然后去形成一个这种自我进化的个 Loop,然后在游戏里先验证。

我感觉是这是他们的思路,对。OpenAI 和 Anthropic 在去探索这个世界模型和 agent 和 policy 的自进化上是做了些什么工作吗?Anthropic 可能比较少,不知道 OpenAI。Anthropic 比较少,然后 OpenAI 的话,他们 Solr Team

不是解散了嘛?然后啊,也不叫解散,他们 Solr Team 重组到 Robotics Lab 下了,所以我感觉今年也是比较竞争激烈。

你可以看到,就是他们 Solr 团队就是业务停了吗?但是呃,合并到那个 Robotics 组了。OpenAI 的 robotics 现在有多少人啊?它算是一个大力投入的方向,还是只是试一试?比如说,可能有人想做就去做。就他们很早期有,就 robotics 有很多 demo 出来。从我知道的一些信息来看的话,GPT 成为他们主线之后,可能就没有那么推。

但感觉最近好像又在 seriously 搞这个事情了。对,就是尤其是把 Soul 重组过去之后的话,我觉得他们可能是要在世界模型上去做出一些东西出来。你觉得 Anthropic 不做这个方向会是一个 miss 吗?还是无所谓了?他反正把自己聚焦的那块搞得足够强就就可以了。现在 OpenAI 压力也大,对,首先不会 miss 吧?

就是我感觉,呃,你能统治整个,比如说虚拟世界的这种 agent,已经是很。很强了。首先做这种 robotics,或或者说往大了说叫 physical AGI,就是你去做一个通用的智能体。我感觉有两种路线,一种就是你现在就可以去碰机器人、碰 robot data,然后相当于是我做 robot 的世界模型,我做 robot 的 policy。

对,然后这可能是现在大多数浮出来的 startup,包括比如说像我们大家都在做的。然后另一种路线就是说,我觉得像国内的字节、阿米,然后包括 Anthropic,我不知道会不会,假如说他们投入呃 robotics 的话,可能也是这种思路,就是我首先得有个很强的这种

agent。他看各种图,然后就是他解决各种虚拟的 task,啊,这个虚拟 task,这个其实也包含多模态了,已经包含了,就是像图啊,然后像文本啊、视频啊这种,就是刚刚说的两个最 data rich 的模态,其实也也已经包含了。

所以说他们的路线可能就是相当于是我先搞一个很强的基模,他们其实也可以叫自己一个世界模型,因为它有很多 world knowledge。然后假如说你把这种文本作为 action 的话,它其实也能做出我刚刚说的像。这种 text action condition 下中 world model

这种效果,就是做具身解决 physical AI 有两种路线,一种就是现在就开始 pen robot data,另一种就是我先把这个基模解决了,然后基模解决之后,我有很强的表征,然后解决 robot 它就是最后一步的事情。

我我感觉这两个两条路线都 make sense,就是我们为什么要用 DreamDojo。去做这种 policy,去改变之前 VLA 的这个格局。其实我们发现,就是说这种视觉模态跟 action 其实有很强的这个对齐功能的。所以说,假如说你这些机模,呃,像 SRI 或者说 AMI,或者说像呃字节他们去推进这种机模的进展,最终再去 solve 这个 robotics 的话,我感觉也是有可能的。

呃,在你最看好的这种做 physical AI 里的世界模型的这个路线,其实就是 video base 的这个路线里面,你觉得谁是最有可能做成的呀?这个问题有一个背景啊,就之前就是聚生纪报那一期跟 Arfis Peter

陈哲聊,就是他觉得如果在这个路线上,那谁能把这个视频生成模型做好?就很关键。然后他说这个东西可能会非常吃数据和算力,至少目前来看,真的把这个事儿做的暂时领先的Google,然后字节,还有快手,其实都是有很多视频数据的公司。

虽然我不知道他们是不是直接能用,可能有一些合规的。对,首先就是做好世界模型,尤其是视频的这种世界模型,你的计算模型肯定得足够强。呃,另外就是现在其实呃,我感觉做视频生成的基模其实也有点分叉了,就是现在开始做电影级别的生成了嘛,然后电影级别相当于是你可以把这些分镜也做进去,然后比如说可能像快手这些,我具体细节不知道,就是我大概的感觉就是,嗯,可能他们做的这个视频基模可能就。

呃,当然,他们也可以学到非常通用的物理规律,但是他们这个接下来他们调整的这个 distribution 是不是对这个 robotics

决策非常具体的这个方向有用?我觉得其实也不一定。对,就是假如说你去做这个呃电影级别的生成的话,但总之来说就是呃,我感觉赢家还是就是最终你得有个很强的一个基座模型。然后像 N N V 的话,它可能就是推这个开源路线,所以说就是呃,像 Start Up 就可以用这些开源的模型直接去做。

OK,前面是聊了就是世界模型的一些大的脉络,呃,中间有一些地方我们也进入了细节。那接下来可以展开聊聊,就是你们最近的成果,就是前面其实也反复提到的 DreamDojo、 DreamZero 等等。我也看了下,就你之前发的一些论文,从二四年到二六年,其实你一直都。陆续有一些世界模型的成果在释放。更早的时候是在上海 AI Lab 做那个 Gen AD,那时候自动驾驶领域有关的。

然后到最近这一两年都是和具身相关的。你可以自己讲讲就是你自己的大概研究的变化吧。然后到了 DreamDojo,呃,DreamZero 这块儿是主要在关注和解决一些什么问题?我可能是大概二三年下半年开始做这个。呃,世界模型,然后一开始在自动驾驶世界模型做,说来话长,就是一一开始是做这个 multi

agent 感知,也是当时比如说呃车联网,然后 V T X 比较热门,然后那会儿就是 diffusion 就是这种图片生成发展很快,对,然后 multi agent 它最大的问题就是说大部分 data 都是 single agent 的,然后所以说你 multi agent 的 data 很稀缺。

然后我当时就开始用这种呃图片生成的技术去做这种就 multi agent 的数据生成。然后后来特斯拉它出了一个世界模型。然后当时就是想,就是既然都是用生成的技术去做这种自动驾驶的数据生成,那为什么我不去做这个?世界模型的,从通用性角度来说,一开始也说了,就是还是你单个 agent 的它决策模型,包括它的这个世界模型更加的通用。

对,所以说当时就是觉得,呃,做这个。通用的单 agent 的这种呃自家的世界模型,它会更加的有意思。当时学界的问题就是说,大家都是在用一个公开的一个数据集,然后它可能就是五个小时吧,然后只是在新加坡采集的那种。你基于这个数据集的话,它其实就没法去很好的去模拟,比如说其他城市、其他场景的这个世界模型。

但世界模型,尤其是 video world model,它的精髓就在于,呃,它可以吃下所有的这些视频。然后同时呢,它可以就是完完全靠数据驱动的方式去提升它的这个泛化能力。所以说,就是当时我们就比较大胆,就是从 YouTube

上去搞了一批数据,整个开源社区里应该是第一个去做这个事情,就是用一个互联网的自动驾驶的视频数据去训训练一个世界模型,然后做了一个 G A D,主要搞的这个视频数据训出了一个比较。

和泛化的一个世界模型。后面第二个工作是那个 Vista,Vista 就是基于那个视频呃数据集,然后想怎么把它这个呃物理的这个质量以及它这个 action control 的这个模态做得更加丰满啊。总之就是世界模型,它的我最关注的点就是一个是它生成的这个质量,另一个就是它这个 control 的精准度以及它的这个各种各样的模态。

然后这是 Vista 在推的。然后后来我发现,呃,在学界继续做这个自动驾驶世界模型没有特别大的意思。工业界的话,他们有很多这种高质量的视频。然后,假如说我在学界继续做的话,就是我得从 YouTube 上去搞这些数据,它其实就是。呃,一个天然的劣势。我尤其是像 J D Vista,有很多要解决这个怎么处理这个 YouTube 视频的这个问题。

比如说怎么这个视频下下来,我怎么去处理,怎么去给他,比如说标上一个 action label。但对车企来说,这些都不是问题。但首先就是我们这个还是比较大胆的,就是呃,第一个从 YouTube 上去搞这个视频,呃,搞这个数据去 train 这个呃世界模型。然后当时可能业界都还没有开始做。假如说业界他知道世界模型很有用、很 promising 的话,他做这个事情是更加简单的。

啊,我这里是指车企啊。但特斯拉那个世界模型是在你们之前发的,对吧?那它算是业界做的比较。对特斯拉是非常有前瞻性的,包括那个端到端什么的,就自动驾驶吧。我感觉整个学术界其实都是走在特斯拉后面的。你加入 Gear Lab 是二五年,对对对,我其实二四年跟他们聊过,然后二五年决定去。对,你加入的那个一个背景就是整个呃 Gear Lab 当时也比较看重世界模型。

对对对,而且就是包括之前很多研究方向比较契合吧,就是呃我之前有个工作叫 Ada World,然后是用 latent action,然后他们呃周江孙杨叶就是他们也搞了一个这种。啊,latent action 去串一个呃这种 policy,然后我当时想的是,就是比如说一个 latent action

的一个 policy,是不是能跟一个 latent action 的一个 word model 接起来?

嗯,那可以稍微解释一下 latent action,就是潜在动作,或者叫隐隐式动作。对对对,隐式动作。总之就是 Jim Fan 还有 Joe 的呃 research,呃这种 taste 或者说 style,我感觉跟我比较 match。对,然后当时也很想跟他们合作。那他们是看到论文,就是他们就来找你了,还是你们之前就有过什么接触了?

啊,是这样的,就是我我二四年的时候开会就找过金范,对,然后但当时我是博二,博二的话还是想自己多发一些这种一作的这种paper,对,然后不太想直接参加这种大的project。大的项目对,然后就是,所以说就没去。后来又是开会,然后又碰到了郁可啊,因为我今年也毕业了嘛,所以说就是对这种工业级的机会也会更加的向往。

对,然后就是从去年开始又又又去intern了。第一次面试过了,所以说第二次申请就没有面试。对,你说的开会就是开学术会议的意思。对,就第一次是在西西雅图,然后第二次是在新加坡。对,我当时开会本来是去玩的,然后反正也没想就是要去找 intern。然后在那边逛那这种论文海报的时候,呃,看到了玉可,就回去给他发 email 说能不能呃第二天聊一下。

然后他对我的 background 行业比较感兴趣,然后就聊了一下。然后我说我去年去已经过了面试,对,然后那就比较好,然后就直接继续合作了。那注意到你们这次发的这些成果啊,DreamDojo、DreamZero,比如说是谁发起的,然后我们这个 Gear Lab 的人一起来做做这个,然后后来就具体做的时候,你是想解决什么问题,以及提出了一些什么新的东西,可以整个描述一下吗?

Gear 的话是有一个,一个是做 policy 一条主线,就是 Group N One、N Two 这种。然后另一个就是 Good Dreams,其实是一开始相当是 Joe 发起的,对。然后之前做了一个 DreamGen 一个 paper,就是相当于是也是用 Video Model 去做 Backbone,然后去做一个 Policy。

我感觉这个顺序是这样的,就是你先用 video model 去做一个 word action model,然后它会有比较好的泛化性。然后这个我觉得可能两到三年内能达到一个比较成熟的一个架构和呃训练方式。然后这个好了之后的话,相当于是你有一个

policy,有个很好的一个起点了,它泛化性也比较好的。然后这个后面的话还有一种 word model,就是这种 DreamDojo 这种 action condition 的 word model,就是它可以提供一个。

虚拟的环境,然后给 policy 提供一个这种自我进化的一个这种循环一个环境,对,然后这个成熟可能会更远,就可能需要可能五年的这种周期吧,对,可能会真正的去成为一个大的一个爆点。然后,然后我自己因为之前做自驾和做游戏的这种,呃, world model 都属于第二类,然后其实我也比较想看到就是第二类能够这种赋能什么,就是我对我对这个会更加感兴趣。

哎,那结合你前面说的,就是你说的这个环境,就是世界模型作为环境,或者说作为那个世界模拟器的这一部分,然后和呃 agent 和策略这三个,你觉得今年他们就能碰到一起,开始加速自进化?为什么这个爆点是五五年后啊?我感觉今年不就爆了吗?自进化不会带来很多变化吗?我感觉这个故事已经大家可以感觉比较

promising 了,但是现在这个我感觉这个 action condition 的 world model,包括这个 reward model 吧,你怎么让它能够在任何的场景下都能够去很好的去模拟,然后。

去泛化,嗯,我感觉这个其实是需要,呃,首先是等待这个数据,然后另外就是等待这个呃视频基座模型的这个进步。所以你前面描述的那个循环,就是你觉得今年它是能初步的跑通,你们作为业内人能看到这迹象,但是可能要真的变得特别有用,然后更多的人感受到,你觉得需需要更长时间。这可能就是你单个任务上,然后可能能够比较好,对,就单个任务上先跑通,然后呃,相当于是把这个呃理论上的这个路线走通,然后后面可以连起来,呃,去去让它更多任务的更多场景。

那你可以具体说,你就说你你做的这个是动作控制的这个世界模型。你说你做你是做这个方向的,那你是进去之前 Gear 就在做这个,还是你去了之后相当于哦就有一个新的方向?因为我觉得这个会很有用,就是嗯,现在就比如说我大家都在做一个 Policy,当然这个还有很多可以提升的。对,但 Policy 之后是什么呢?

就是你得有一个世界模拟器。那相当于就是他们想做这个方向,然后看到你也在做这个,他们也在想这个,就把你招进去了,然后你就和他们的同事对对,我感觉这也是个比较好的时间点开始做这个事情,也相当于是你 Polaris 已经达到一定水平了,然后,呃,你可以用 World Model 去跟它接起来去做一些事情。

嗯,因为就经过前面的讨论,我大概已经理解,就是说 DreamDojo 是一个世界模型,就更靠模拟器的那个世界模型。然后 DreamZero 是一个类似于把 VLA 改进了的一个策略,但是它里面也有世界状态,对吧?然后你们把那个东西叫世界动作模型,对对对,是这么一个关系啊。嗯,那你可以呃,就是再补充讲讲,就比如说 DreamDojo,呃,是什么?

比如它输输入的是什么?它输出的是什么?然后它现在能达到什么效果?对,DreamDojo 现在就是我们想做一个比较通用的这种呃世界模型的这种 pretrain,对,就是相当于说,我我有一个预训练好的一个世界模型,然后我开源出去给大家,然后大家有一个新的一个机器人,然后。都能够很快的去接上我们这个世界模型,然后微调一下之后就能用起来。

我们主要想突破的点就是它能,我相比之前只在单个 data set 上,或者说有限物体、有限场景下去训练出来的世界模型,我们能不能从人类的视频中去迁移一些这种呃泛化能力呃过来,给给我们的世界模型?对,然后就是所以说主要的这个工作内容就是怎么去让人类这种 egocentric 的这种

video,它这种广泛的场景和动作的这个物体的交互这些知识能够迁移到我们这个呃世界模型上,然后同时当它变成一个具体积选的一个呃世界模型的时候,它这些泛化能力还能够得到保持。

对,然后反正我们实验分析也就也证明了,就是说我们这个模型它在这些呃新的场景和这种没有见过的物体下,因为是人类视频中有这些数据,但是机器人数据中很少有这种数据。所以说,我们把人类视频中的这些新场景和新物体迁移过来之后的话,呃,它有一个比较好的一个呃泛化能力,相当于是给后面世界模型的研发提供了一个更好的一个出发点。

然后另外就是还有一个进步,就是我们把这个模型做到了实时。就之前的这个世界模型,要么就是它能实时,但是它泛化能力几乎一点都没有;要么就是它可能有一点泛化能力,但是它的这个实时性很差。然后这个其实就是很有用,就是首首先就是你可以玩它,就是你可以连上遥操设备,然后你可以几乎实时的去控制它。对,然后另外就是呃,你有个实时的世界模型之后的话,你在

policy 部署的时候,你可以去呃更快的去得到这个,相当于是你通过预测去得到每个 action 的后果,然后你可以呃在呃就是在部署的时候,你去通过世界模型去做一个搜索,对,然后可以去提升这个模型的这个性能。

就你说的这这两个进展,第一个你说就是可以把 egocentric,我理解就是第一视角的视频,可以把把那些视频可以把它迁移到机器人上。这个事儿它之前的难点在于,就是 human egocentric data 可能之前就是量没有那么多吧。然后,相当于说我们自己去呃攒了一很大一个数数据集。然后,因为这个泛化能力,其实你要到一定量你才能展示出来。

比如说我有十小时的这个机器人数据,然后比如说我指望它从十小时的人类数据中去得到一些迁移,那可能这个迁移效果是很微弱的,对,因为首先有个这个本体这个构型的一个 gap

在,因另外就是这个十小时人类数据里包含的这个物体的这个多样性可能也比较局限吧。但当你这个比如说你这个人类数据很多了之后。呃,首先它物体包括包含的这个物理规律也很多,然后它可能会需要去模拟这个很好的去预测这个人类视频的话,你应该这个模型需要去理解一些呃更更通用的一些

knowledge,呃,所以说它可能能更更好的迁移到这个机器人上。

所以这个事儿的难点主要就是之前数据不够,是吗?并不是方法。对,数据不够,然后也没有人做这个事情。那你们这次因为是用了大概接近四点五万小时的数据啊,这个四点五万小时定到这个量级,比如说是怎么知道这样可能就能看到效果,还是说就试到这时候就看到效果了?以及你们说你们是攒了一些吗?那你们是怎么获得的?你们是找人带着摄像头自己去拍自己的这种第一人称的呃视频吗?

四点四万个小时的这个数据越多肯定是越好。呃,我们为什么停在这个点?就是啊,首先我们方法上发现,就是说从我们内部验证发现这个方法是通的。然后知道这个方法通了之后的话呢,我们首先假设我们不知道用户或者说开源社区会用。在怎样的场景下测试?所以说,我们就尽可能引入更多的数据进来。就是你引入数据越多的话,它覆盖的这个场景就越广。

然后,所以说这个数量级就是我们当时我们 train 训练我们最后一版模型的时候有的这个数据,所有的数据都用上了,就是这么多。然后,但是其实也没有很好的去调它的分布。所以说我感觉,假如说调它的分布的话,可能这个迁移能力会更好。对,反正这都是一些局限没有做的。呃,在做就是这个量级的数据的过程中间啊,处理数据难吗?

World model 有个好处啊,就刚刚说 policy 它就要用专家数据训练,然后但是 world model 它可以吃下任何数据。你即使对数据不做任何分布上的处理的话,你去用它去训练世世界模型都是合理的。对,就我们这个数据很很 diverse 吧,就是他这个人去做一些各种各样的任务,我们这个数据其实也可以用来去 train policy。

就是我们还有另外一个很好的工作叫这个 Eagle Scale,就是它其实也是基于这批数据去做的,但是你会发现它用的数据可能就是,呃,没有那么多个小时,也做了一些 filtering,呃,一方面是有质量上的问题,另一方面就是你做一个 policy 的话,你希望你这个呃 model

可能还是尽可能是不能把所有的数据都喂给这个 policy,因为 policy 它需要学的是最优的一个决策过程,然后但世界模型的话,它学的是一个。

你各种各样动作下,你对这个世界的一个模拟、一个仿真,所以说你任何在这个现实世界里能够发生的这个数据喂给他都是对的,对。所以说,就 World Model 它对这个数据的质量,包括标注,呃,其实没有什么高的要求,就是它只需要有 Action 就好了。哎,那什么时候可以用就是第三人称的视频数据来训世界模型了?

因为那个量就很大了嘛,而且那会非常有多样性。他现在不能这么做的,卡在对,这是个很好的问题。首先就是,我觉得不是不能做,就是是可以做的。就是你第三人称视频,它其实也在学习这个物理规律。然后,只不过就是它可能跟最终的这个呃要用的那个视角可能差的比较大。我们这个模型其实是这样的,就是首先我们是从呃 N V

的这个视频的基座模型开始,就 Cosmos 出发,然后去做人类视频的预训练,再去做机器人的这个微调啊。

但是因为我们是从 Cosmos 出发的,所以说其实,在我们的人类视频预训练之前,你可以理解为还有一个预训练阶段。然后在这个预训练阶段,它其实是有这种第三人称视频的,就是 Cosmos 预训练好了之后,我们再拿 ego-centric video 去预训练,然后再去 robot data 上去微调。然后 Cosmos 那个预训练阶段,它其实是包含了这个第三人称视角很多种是数据的。

我们发现就是说,假如说把 Cosmos

那个预训练阶段拿掉,就简单来说就是,呃,我们不用他们的这个预训练权重,直接开始我们的预训练的话,效果会差。对,所以说其实也说明,就是说第三人称的这个数据啊,放在第一个预训练阶段是有用的。那你觉得第三人称的数据视频放在第二个阶段会呃有必要这么干吗?我感觉可以试啊,就是首先我们我们没有尝试过,我感觉就是看怎样能让它呃迁移的这个物理知识最多,然后以及它不要遗忘一些更通用的一些知识。

因为在你们第二个那个就你们说的那个预训练阶段,就在 Cosmos

上又预训练的那个阶段,我理解它中间有一个需要解决的核心的问题,就是那个视频里的动作要迁移到机器人的那个结构上,对吧?对,其实就不太合理,对,就你很难抽那个动作。对那个第三人称的视频,它能不能做这个迁移?如果你找到一个方法能做的话,我觉得它有一个好处是比较显然的,就是你的数据量肯定就能扩得非常大,就至少你可以先把互联网上已经有的数据可以先先训练。

只不过它有没有必要,还是说我在前面那个阶段就 Cosmos 那个阶段我训了,我首先从从我直觉上来说的话,把这三轮车那个呃并成一个阶段,是甚至就我说的 Cosmos 那个阶段和我们这个预训练阶段并在一起,应该是会有一种办法让它会变得更好。像 V L A

训练其实也是这样,就是之前比如说大家只用机器人数据去呃预训练 V L A,然后现在也有些很多工作就是会用一些视觉问答数据去一起去预训练,也就是说就是它不仅让这个 V L A 去预测这种 action。

他同时也让他回答一些这种视觉问题,就比如说这个图片的这个标题是什么。然后他们是放在一个阶段里的,对,当然可能需要一些调,但是他们是放在一些一个阶段里的。所以说就是说,嗯,你把这些通用的这些任务、通用的这些,比如说视角,你放在一个阶段里去做一起训练的话,嗯,它是对这个整模型整体的这个 general knowledge 的保持能力是有帮助的。

然后我们没把它放在一个阶段里,首先就是主要是计算量的问题吧。假如说我们有足够的资源,我们完全可以这么去试。那我感觉应该也会有人试啊。然后另外就是作为一个 research 的 paper 的话,其实主要就是我们定一个合理的一个研究问题,然后一个实验的设计,用一个令令人有说服力的方式把这个呃问题给解决。

对,所以说就是没有去继续去用更多的资源去搞这个事情。我还有个想问的,就是因为你们用的是 latent action 嘛,就是在这个 DreamDojo 里面,所以它就不用打动作标签。呃,这个事儿是,就是它在实现上,呃,有难度吗?就是在现在,它是一个很主流的方法,还是一个比较新的方法?这个我感觉,我应该是也是推这个方向的。

一个人之一,对,呃,我觉得是这样,呃,就是军斗九之前,我之前还有个工作叫 Ada World,然后其实军斗九,呃,其实直白上上来说的话,就是把 Ada World 的呃验证好的一些比较简单的想法。到机器人和这个人的 data 上去 scale up,就 AdaWorld

其实做的也是类似的一个事情,就是我怎么比如说有很多没有标签的这个数据,然后我用 latent action 去表示他们的 action,然后我去 pretrain 一个 world model,然后当时 AdaWorld 那个工作是,我是在很多的游戏视频上去做这个事情。

当时没法去买数据,然后也没有很多这种资源嘛,然后我就自己搞了一千多个游戏在那边乱跑,然后就不停的给我源源不断的生成数据,然后去用 latent action 去抽。呃,说到这个 latent action,它有什么性质呢?就是说,相当于是你可以用一种非常简单的方式。对所有这种没有标签的数据打上一个

action 标签,然后而且你不用考虑它是什么本体什么视角,它非常呃简单粗暴,然后它也非常符合,就是你有多少 video,你就能用 this action 去给多少 video 打上这个标签。

所以说它不会损失任何 video data 的这个 scalability,对。但以后这个是不是值得继续研究?我感觉这包括作为这个方向的推动者之一吧,就是我感觉也打上个问号,就是因为现在有很多 data,大家都在提供。很高精度的这种 label,包括呃整个巨声最终是不是一个跨本体的问题?其实,嗯,其实也不一定。

就是比如说,大家最终做的越来越像人的话,无论是外观还是动力学上做的越来越像人的话,那你其实最终只需要得到一个人的一个 policy 就好了。所以说,你是不是需要用 listen action 表示,还是说你需要用人的这个,比如说手的这个表示去表示它的这个 action?对,其实我感觉都是值得探索的。

listen action 就是他用最不用动脑子的方式,他可以用上所有没有标注的 video,自然的不用考虑这个跨本体的一个问题。但假如说你有所有的数据,它都有 label,然后同时呢,可能你这个跨本体不是一个非常大的一个痛点的话,我感觉 Relation 可能就没有必要。对,就是这么一个东西。就是不说这个跨本体是不是一个痛点啊?

我想到跨本体,它是一个对动物和人来说,我感觉是一个比较自然的、比较符合反正我们的这种行动直觉的感觉。就是你看过《冰与火之歌》吗?就里面那个布兰,他不是就是异形者吗?就是他可以进到狼的身体里,然后他也可以进到那个乌鸦的身体里。其实我觉得乔治·马丁写的这个 Skin Changer,他就很符合人想象中人能做到的事儿。

其实他就是跨本体的,而且就真实世界中,虽然我觉得。没有人真的,比如说进到狼的身体或者熊的身体,但有一个现象是可以观察到的,就有些人他因为某种原因,比如失去双臂之后,其实他用脚也可以做很精细的操作,就正常人做不到,但是有些人他因为用不了手,他就能做到。就我感觉人是本身就有这种去适应一个新的构型的能力的,或者说动物吧,动物可能也对对对,就

latent action 它是这样的,它是一个有噪声的 action 表示,就它不能很好的去描述。

呃,每个具体的本体,但是它相比呃所有的本体来说的话,它都是一个比较好的一个媒介,就是你从它开始映射跟一个新的本体来说,一般来说是最近的。呃,所以说就刚刚你说的那个例子,就比如说人失去双手,或者说人我不知道每天哪天起来突然变成一个狼,对,就是我们可能也需要适应一下。但是假如说我们有一个 latent

action 作为一个这种鲜艳的话,从 latent action 出发,它可能是到各种各样不同 action,呃,这个 space 一个比较自然的一个出发点,或者说比较居中的一个出发点。

但假如说你最终训练 data 到它都有 high quality 的这种 data 标注,以及这个 high quality 的 data 标注跟你最终要用的这个机器人本体,它本身就没有特别大的 gap 的话,你就没有必要到 latent action 去绕一圈。对,就是差不多是这样一种感觉。但我感觉肯定是没有好呀,没有它更有效率、更更省事儿,以及你能用的数据就更多。

你说没有 label 吗?没有那个标签好,就不需要那个标签。我不是能用的数据就更多。是这样,但是现在有标签的数据的增长规模也达到了一个令人惊叹的一个速度,我觉得。哎,是因为打标签很便宜吗?对,就是呃,你现在其实之前大家采集这些数据,比如说都是刻意去采嘛,就是比如说我我是一个实验室,然后我我我这个房间我搞个桌子,然后我去摆一些东西,然后我采完,然后重置,采完重置,一天采个一百条这样。

现在素材的模式是这样的,但以后这个素材的形式肯定会变,就是。呃,之前我不知道哪里也看到,就是比如说家居,就是你做这些事情的时候,你就可以采 data,包括我们这些人类视频,就是相当于是它自己就在干活,然后它同时就把这个 data 给采了。而且只要它带一些外设的话,你就能记录一些比较高精度的 label。

对,就是之前素材的过程,就是相当于是它本身不是在工作,它采集数据就是工作。然后,但后面的采集就是在工作中采数据,在工作中采数据的话,只要你带一些便携的这种外设的话,首先它不不影响本来的工作,然后它也是自带标签,对,就是另外就是这个数据积累会非常快,嗯,而且合成数据也可以自带标签,对。呃,为什么那个呃,就是 DreamDojo 对应的这个数据集啊, DreamDojo HV 还没有开放到开源社区啊?

你们接下来会有这个计划吗?哦,这个会开的吧,就是但是因为就是呃,我们可能还想基于这个做一些其他的 research,就你们先做的其他的 research 之后再开源。对,应该会随着呃后面的 project 再开。对,哦,还有一个我自己比较好奇的问题,就你们这次 DreamDojo 这个本体用的是。傅立叶的 G1,就本体选择上,大家现在是怎么考虑的?

因为我之前了解,可能 G1 就是语数的 G1,呃,还是最主流、被用的最多的啊。你们这次是怎么想的啊?这个其实没有什么特别的考量吧,就是呃,因为就是首先我们自己之前内部有一些傅立叶 G1 的 data,对,然后在这个基础上去构造这个。测试集是更加方便的,因为我问这个问题,好奇的一点是说,就是其实就你刚刚也说到了嘛,有一种可能,就以后本体可能会变得比较统一啊。

我觉得这也是一个很好的技术或者说商业上的机会啊。那可能第一步就是你,比如说大家在研究机构里面,很多人会去用某一个本体。我就想知道研究机构去选的时候都是因为一些什么因素?首先就是呃,考虑比如说各种本体的故障率。然后另外就是它易用性以及大家的这个就是有多少人在用,就是是不是它是一个呃就是很受欢迎的一个本体啊。

然后第三点就是跟比如说跟我们一些 cross embodiment 的 data,呃它的这个接近程度可能也是一个比较关注的点。就比如说我们人类数据,那可能最好它就是一个灵巧手的一个本体,对。哦,所以你们这次选这个 GEAR ONE,是因为 GEAR ONE 有零超手吗?还是因为你刚刚说那几个因素,你觉得它都还都还可以,都比较好啊?

选 GEAR ONE 主要原因就是我们本身就有一些内部的 data set,然后在 GEAR ONE 上构建这个评测集会比较容易。对,就是并不是因为它多好。关于就 DreamDojo 评估的方式,你们这个就如前面所说,也没有什么公开的 benchmark,所以你们是自己做了六个 benchmark。

对对,就你可以讲讲,就是你们在评你们自己的这个进展的时候,就这个 DreamDojo 这个世界模型,你们主要是考察它的哪些能力,所以构建了这几个 benchmark。首先,世界模型目的是为了得到一个更加精准的反馈,然后更得到更加精准的反馈的话,主要是体现在两方面,一个是这个。预测未来的这个真实度、物理的合理性,然后第二个就是它对各种 action 的这个控制能力,对。

然后我们评测主要也是从这两个维度开始的,对。相当于是把数据加上去之前,我们先内部用呃 G R One 去搞了一些这种内部的数据集,初步看到一些牵引能力之后的话,我们又用了一个开源的这种呃 Ego-centric Data Set。叫叫 Ego Dex

对,然后呃就是它主要是有很多种这种物体对,然后我们也对应这个映射去做了一个这种对应的测试集,然后也看到了一些这种呃迁移能力,然后有了这两个信心之后的话,我们就嗯加这个人类数据了,在更多的环境里,更多的不同的物体,让让人类去采这些数据。

就简单来说,就是我们自己先。内部数据验证,然后用开源数据集去验证它这个更多物体下它这个迁移能力依旧是呃成立的。然后在这之后就是直接加数据。虽然我们是用这个 G1 去作为主要的这个测试本体,但是我们最终目的是为了做一个通用的一个预训练权重给整个社区对。嗯,所以它是跨本体的,对吧?就别的本体上,它应该也有效果。

对,我们也提供了其他本体的这个实验结果,就是其他本体也能用。这就是 latent action 的好处吧,就是即使是比如说你是人类视频中学习,但是你比如说你这种迁移到一个假装上,可能也是有迁移能力的。我看就你们这个测试里面有很多都是关于泛化的测试嘛,就是这个 out of distribution 就分布外的数据,它能否去完成一些任务?

我想问一下,这个分布外是它的范围指的是什么?因为你最开始有一个,比如 Cosmos 的视频模型的积模,对吧?那个里面,按理说它应该是见过很多东西的。就它如果遇到一个情景,连 Cosmos 都数据分布里都没有的话,它能?呃,问题是这样的:,就是假如说你把一个积模你变成一个呃 Action 控制的世界模型之后的话,它可能会损失很多这种能力,很多损失很多泛化能力。

所以说,就是我们有那个 human pretrain,然后加上 latent action 的话,它相当于是它更适合一个 action control 的一个世界模型,在新环境下去做泛化。这个新环境对它是新到什么程度啊?就比如它是在哪个阶段没见过的,对它就叫新。新环境其实指的就是,呃,我机器人 data 里没有见过的环境叫新环境。

啊,假如说把 cosmos 也算上了,这个三阶段,就是 cosmos 训练,然后我们人类 data 训练,然后机器人 data 训练,我们机器人 data 里没见过新物体和新环境,我们就叫它是分布外。那你们测过它人类数据你没见过的新环境,它能做吗?比如它成功率或者它表现是怎?首先,我们这个人类数据非常多,就是我们那个四四十四千小时的这个人类数据,它覆盖了很。

很多的物体,基本上我我觉得就是我们测试集里的物体,应该至少在这个数据里都会出现过,或者说类似的物体。就其实事情是这样的,你像大语言模型,包括这种视频生成模型,发展到最后,其实已经不存在什么分布内、分布外了。就是一开始机器学习或者人工智能,可能大家比如说去解决什么分布内、分布外的问题,但是当你发现,就是你把整个互联网视频都呃训练进来之后的话,其实所有的问题它都是比如说在分布内做插值。

它不是一个做分布外的一个事情了,就是一开始,比如说大家会设计很多人工的一些方式,比如说去,呃,解决一些分布外的一些问题,对。但是通过 scaling law 之后,可能就是所有的问题都变成了分布内的问题,就是呃,最终 AGI

可能也就是这样,所有的问题都变成见过的问题,对,就是这样就解决了。对,所以对机器人来说它是分布外,但是对人类互联网视频来说的话,嗯,可能最终所有的物物体和所有的场景它都是分布内。

然后总体来说,就是我们发现,就是呃,通过人类视频数据训练,呃,对于机器人数据分布外的这些场景来说的话,它是有很好的这个。泛化性的提升的,那你们最后这个东西是用成功率它来做一个,比如考察的什么成功率稳定性这种之类的。我们也会在下游上,就是你有个世界模型之后,你可以给 policy 提供反馈嘛。然后给

policy 能够提供反馈的话,相当于是你可以用 policy 的这个成功率去表示你这个世界模型的这个可靠性。

对,然后反正我们也是有实验的,就是相当于是你有你有 policy,然后你可以用世界模型去选出更好的一个 action。然后让 policy 去执行。我如果直接看世界模型的反馈好不好?就是还是得跟一个 policy 一起来看。就是单独有个世界模型,你其实做不了什么东西。就是世界模型,它就是对世界的一个模拟嘛。

然后你真正要做这个机器人呃决策的话,它还是得有一个东西呃去出这个 action。对,现在大家做法一般就是你有一个比较好的一个 policy,然后你用这个 policy 它出一些 action,然后你让世界模型给它去选一个最好的 action,这是一个最简单的用法吧。假如说这个世界模型它好足够好的话,它应该每次都能选到最好的那个 action。

对,假如说这个世界模型很差的话,那相当于说它每次都在做一个随机选择。那这个 policy 其实加上一个世界模型和不加一个世界模型都差不多的成功率。就相当于是控制变量,就是你加了这个它的世界模型的反馈之后,它的那个策略的成功率啊,各方面的指标应该提升。对对对,就世界模型最终的目的还是去为了提升 policy。

对,所以说,呃,看世界模型它的这个反馈是不是好的话,呃,最终还是得跟一个 policy 结合在一起看。但你也可以有些中间的指标,就比如说,啊,你看它这个。呃,是不是跟随了你这个输入的这个 action,包括你看它这个输出的这个未来是不是足够的真实?这些其实是跟它这个反馈准不准直接相关的。对,所以说我们平时迭代世界模型也可以直接看这两个指标。

呃,你们接下来,呃,准备继续怎么去?发展 DreamDojo 啊,呃,可以先讲讲就现在有什么问题,然后接下来怎么去优化。特别细节的我就不讲了。然后从长远来看的话,就是我刚刚说的,把那个循环建起来。就我感觉这是很 promising 的,就就我感觉有呃有两波人吧,一波人就觉得世界模型完全没有必要,就是我只要做 policy 就一直做 policy 做到底,然后我有个很好的 policy 就够了。

对,但是我自己觉得就是说,有个世界模型的话,你可以做很多事情。从长远来看,我感觉最激动人心的就是你把一个自我进化的一个循环给做起来,就是你有个 policy,然后你有个 agent 去提出一些任务和。给这个 world state 进行打分,然后有个世界模型把这个 policy

到打分的这个循环给接上,就是 policy 把 action 给世界模型,然后世界模型预测出未来,然后给这个 agent 去打分,对,然后这个自自进化接上的话,相当于是你就突破了这个物理时间的这个限制吧。

对,现在大家这个 physical AI 解决起来很麻烦,因为就是不像这种 A language agent 一样,或者说像 AlphaGo 一样,你它是有个虚拟世界的,就是现在的巨深智能还没有一个可以供这种巨深的 policy。像 L M Agent

那样去迭代的一个虚拟世界,但是后面假如说能有这样一个虚拟世界的话,就突破了这个七天二十四小时的这个限制,就是你可以其他的 Agent 一样,虚拟的 Agent 一样,也去迭代,也去进化。

那你们这个优化大思路的话,就是会需要呃,你们这个方向和 Gear Lab 里面做策略的那个团队非常紧密的合作,对吧?对,就和 DreamDojo 那边。对对。你们实际上人是不是也是交叉?对,本来也就比较小的一个 team,对。然后,呃,不过最终什么 policy 放到我这个 loop 里来都是可以的。

理论上来说的话。就理论上来说,C 麦也可以放进来。就比如 Google 自己搞的一些什么什么,或者甚至什么 VLA,其实也可以放进来。对,就他们的接口是足够通用的模态,就 action、文本和 video 嘛。对,这只要这三个对齐的话,就是其实都是能接的。你刚说比较相信,就是我纯做策略就可以做得很好。

这一派的代表的公司或者说人,他们的思思想可能也在改变吧。之前我看那个,呃,那个,反正在采访也是这么说的。我感觉他们想的主要原因是,就是他们觉得就是。你做一个 policy 做一个世界模型比做一个 policy 要难得多。你 policy 刚刚说了,就是它需要的 data 是这个专家数据嘛?然后像世界模型的话,你不仅要模拟专家数据的这个未来,你还要去模拟其他这种 action 的未来。

对,但我觉得就是有个有个问题,就是说你世界模型要真正能够开始帮助 policy 的话,它并不需要完美。就它是一个循环上升的一个过程,对,所以说就是我觉得就这不是一个很大的 concern,就是世界模型它即使很 noise,然后它泛化性还不够好,在某些 case 下它已经能够足够去提升这个 policy 了,然后随着两个模型都在提升的话,最终这个误差累计,包括它的这个呃反馈的准确性都会越来越好。

如果你相信的这条路变得更主流的话,你觉得聚深智能的创业公司,或者也有些公司是专门做世界模型啊的这种创业公司,它有多大的几率能参与?推动和贡献这个事情了,因为听起来我觉得世界模型挺耗资源的。首先,你处理就视频类的数据本身就比较吃算力啊,那是不是只有大公司才更有机会去做这个事情?嗯,首先我感觉也没有那么让人绝望。

呃,首首先,现在数据的供应商很多。然后价格也都会通过竞争打下来,然后所以可以想象,就是未来大家所有人都会有很多 data,然后另外就是 GPU 和模型的这个效率也都会持续发展嘛,所以说最终这个也会变成一个大家都能做的事情。当然,最终肯定还是会有几家单独胜出,然后像现在这种 L M 的这种局面一样,就是呃,可能就几家了,对。

但是我觉得就是大家都是可以参与的,对。然后包括这个 loop 里,就是呃,其实有很多个 component,很多个组件。然后怎么去设计一个很好的一个提供 reward 的 agent,或者说怎么去设计一个这种就比较泛化的这种。呃,policy 和世界模型就是这个,你都可以在一个合理的一个实验 set up 下去验证。

就是你可以有自己的专长的 domain,就比如说家居或者说其他什么的,对。然后在这个里面把这个 loop 构建起来,因为其实都是有 scaling law 的嘛,就是无论是 data 和 model size,就是比如说先用基于这个 steady scaling law,你去在一些小规模上去验证通。

假如说你验证这个通是最快的话,我感觉,嗯,你后面假如说有足够的信心把这个推到底的话,也是可以有很大的胜算。因为就是 Cosmos 英伟达自己有一个视频生成模型啊,然后你们用基于那个来做训练。如果说这个环节是分开的,就是你基于一个别人做的视频生成模型,就先做人类数据,然后再做机器人数据这个流程的话,就你自己不掌握那个视频生成模型,你觉得对你们的效果影响会大吗?

对我感觉这个会有影响。对,就是相当于是你,假如说你这个模型是自己掌握的话。呃,你对它的这个训练的,比如说它预训练的分布,像 N N V 的 Cosmos,它可能对机器人和自驾,它是天生是有一个倾向的,就是它会推这个 physical

AI,所以说它对机器人和自驾视频。模拟的都会更好一点,嗯,对。然后另外的话就是,嗯,假如说你有一些内部的支持的话,可能啊,你继续去训练它,就 infra 上可能会有更多的支持吧。

对我刚刚这个问题,其实是想到说,就按照你们这个流程啊,理论上来说,创业公司也可以不做,就 cosmos 内部,他就做你们后面做的那些事儿。哦,那个成本就肯定比你整个流链条都做会。我我觉得可能会大幅降低啊,因为前面 Cosmos 那个那个部分是成本会非常高的,但这样可能会影响它的竞争力。如果说 OpenAI、 Google 都往这个方向投的比较多资源的话,对,就是他们会有一个延迟吧。

就假如说不能直接去 access 到一些最强的一些预训练模型的话。呃,你觉得呃,现在呃 DreamDojo 的这个速度会是个问题吗?我不确定啊,应该是 DreamZero 才有这个问题。我感觉都不是问题,对,就是呃,首先就是你还有很多工程优化可以做,对,然后另外就是 Video Model

的速度优化跟呃 Video Model 的主线是一样的,呃,就是不仅是 Robotics 的这些人在推动这个事情,还有就是像做视频生成的这些这个领域本身大家都在推动这个事情。

有有有有点像这种,比如说你之前做 LLM 大语言模型,然后就相当于整个领域都是在提升它的,比如说呃这个 context 长度和它的这个速度。对,所以说就是这是整整个领域的痛点,所以说就是呃你这个跟整个领域的前进方向是一致的。对,所以说就是不不不是特别令人担心的一点吧,我觉得。接下来你自己就是想重点去探索和研究的方向,或者什么呀?

你博士毕业之后,你的计划是去呃英伟达是吗?嗯,对对对。OK,你可以讲讲你你觉得不涉及到你们比较机密的信息的,但是对业界比较有价值的这种。我可以讲讲我为什么想这么选嘛?就是我感觉工业界他喜欢做一些就是比较呃已经看到这种。成功迹象的一些路线,然后去把它用更大的规模去做出来。对,然后学校的话,可能是做一些这种原创性的探索。

但现在给我的感觉就是,已经进入了这种有很多很很成熟的技术路线可以选择,然后已经进入了这种规模化的阶段。然后,其实我感觉就是,包括整个人工智能,包括深度学习。它其实就是通往 A G I,其实是有很多路线的,就是呃最关键的可能就是数据,然后算力,你有一个正确的这种呃训练的目标,然后以及你有一个目标一致的团队,对。

但是具体怎么去做这个事情,需不需要 World Model,甚至这个问题,它反正都可能达到这个 Physical A G I,所以就是可能不需要很多原创性的探索了,在现在这个阶段。所以说,我感觉就是现在去工业界是个比较好的 Timing,然后这是我做这个选择的一个原因。你接下来自己想去探索的具体方向是什么呀?

你可以说,比如说未来一年吧,比如从现在到二七年年中的话,今年世界模型很火嘛。然后对,然后世界模型目前的话分两个,一个是这个 word action model,一个是这种 DreamDojo 这种 action condition 的 word model。然后然后我自己一直在做这种 action condition 的 word model。

然后我其实更希望就是能看到,就是这个东西最终能够去。enable 什么东西,就是它能够去做出怎样的应用,对。然后从最终目标来看的话,我感觉就是要实现一个自我进化的一个循环,对。这个是我最终想做到的。其实主要的 bottleneck 就是各个组件的这个泛化性,就是只要他们的泛化性足够达到某个临界点了,它能够才能在新的任务下。

去提升,就是大家现在他都还做单个任务嘛,就是因为单个任务不用考虑泛化性的问题,但这个其实是不是大家用这些基模的初衷?就大家用基模的初衷肯定是想借鉴这个语言模型以及视频模型它的泛化能力,在单个任务上,其实你。自己去从头去训练一个模型,也可以把这个 pipeline 做通。但是你既然用了这个语言模型、视频模型,从这些模态出发的话,你最终他们最强的点应该就是他们的泛化能力。

对,所以说最终世界模型包括 Word Action Model,它其实应该推向这个更多的这个 task。对,就是泛化能力要持续解决。对。对,然后我感觉这也是一个现在所有的主要就是推这些 upper bound 吧,就是所有的 efficiency 这些计算效率,我感觉现在都不是

concern,要这种都会被解决,这是整个整个领域的这个大家都在关心的问题,包括 video generation 都领域都在关心的问题。

对,然后像我们的话,可能就是更关注这个视角模型和这个 world action model 它的这个泛化能力的推进。OK,那今天非常谢谢深远做客晚点聊,分享了他在世界模型,尤其是动作控制的世界模型,就 DreamDojo 这种成果的路线上的,一路的研究的经历,然后加入 Gear 的过程,包括他们在这儿做的一些进展啊。

我觉得今天就给我自己比较大的一个收获,就是其实因为我之前也看呃 Gili 三还有 Sima 二的这些成果,然后包括哈萨比。意思觉得这个东西未来怎么去加速科学发现什么的,但可能会比较模糊。我觉得你今天说的这个,就这三个要素策略,然后加世界模型,加一个中间做连接和评判的 agent。这三者这个 loop 形成之后,会带来一个比较大的变化,是描述的非常清楚又很令人期待的一个未来的进展。

虽然我现在比较难想象这个东西真的实现之后,AI 到底要发展成什么程度了,就感觉要捉妖才有叫原地飞升了。我我觉得今年可以好好期待一下,也许今年是一个苗头,然后之后我们可以看到它更多的变化。那今天非常谢谢申远,好,各位拜拜,谢谢麦琪,拜拜。本期连点呈现推荐第一百五十七期,我和 Peter 陈哲聊的二六年 Q 一的巨声季报。

在这期季报里,陈哲列出了一季度的 Top 五重要进展,其中一项就是英伟达的一系列成果,包括 DreamDojo、 DreamZero,还有 Ego,还有 Ego Skill 等。同时,也推荐一百五十七我自己录制的二零二五年年末 AI 回顾。在巨深的那一部分讨论模型进展时,我当时简单的介绍了 DeepMind 的 GLE 和 Sima 的进展。

这些成果和想法,我们在这期节目里都有涉及。这次录制也解决了我自己之前的一些疑惑,让我对英伟达 Gear Lab 以及 Google DeepMind 的思路都有了更清楚的了解。简单来总结的话,DreamZero、Ego Scale,还有 Google 的 Sima 都是策略,是 Policy 模型。

它是直接让一个主体去产生动作 action 的那个模型。这个主体可以是虚拟世界的一个角色,也可以是物理世界的一个机器人。以前更主流的策略模型的架构是 VLA 模型。DreamDojo 这个工作之所以很受关注,就是因为它引入和初步验证了以视频为 backbone 的思路,就是以视频生成作为基础来做机器人的策略。

而 DreamDojo 和 Gini 这类模型则是一个更靠近世界模拟器的世界模型。它提供的是一个环境,它的主要目标是预测这个世界下一刻的状态,来为更好的 policy 服务。深远描绘了一个很有意思的洞察。就是在现在,就是现在有一个由世界模型和 policy 以及连接二者的 agent

组成的循环。如果以人类来类比的话,大脑的任务规划和思考就是 agent,大脑去人脑去控制身体的部分是 policy。

而我们生活的环境就是世界模型,这三者的关系,如果更直接来表达,policy策略模型它输出的动作。是世界模型的一部分的输入,而世界模型的输出又是 policy 模型下一刻的输入。Agent 在一方面给虚拟角色或机器人规划任务,它是以文本的方式把这些任务输入给了策略模型,同时它也会评估世界模型对未来状态的策略是否准确。

这个评估可能是一个分数值,也可以是一个文本的信息,它会进一步用来优化策略模型。具体的关系,大家可以去看 show notes 里的那张图示。由于目前这三种模型的泛化性都不是很好,这个循环并没有转起来。但深远认为,这是接下来一些团队,包括他自己,会去努力推动的方向。我们可以一起看一看这个循环是否会跑起来,以及多久能跑起来。

如果这种自进化真的实现,那我们可以突破物理时空的限制,做很多实验和训练。它可能会是一个非常大的变化。今天我们先 mark 一下,未来再见。本期节目就到这里,感谢收听。如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法,这也会成为我们节目的一部分,让整个讨论更完整。你也可以把我们的节目分享给对这个话题感兴趣的朋友,推荐更多你想听的主题和嘉宾。

你可以从小宇宙、苹果 Podcast 等渠道关注晚点聊 Late Talk,也欢迎关注我们的公众号晚点 Late Post。下期再见。英伟达 GEAR 高深远:世界模型、自进化循环、DreamDojo。