其实,在自动驾驶时代,我的观感是,我一点都不觉得特斯拉是遥遥领先的。我会认为说,在具身智能时代,美国的创业者不会是中国创业者的竞争对手,完全不会。我在上项目时压了很多个人职业风险在上面了,因为我们需要采集大量的人类驾驶数据,在那个时候其实是没有人这么做了。就重剑无锋,大巧不工。越复杂的系统,越多的数据,往往它的算法结构就会越简单,它会返璞归真,它才能经得住这么大数据的冲刷。

我反而觉得 GPT 最伟大的事情是,他们想出了 next token prediction 这个训练任务。欢迎收听晚点聊,我是曼奇。今天的嘉宾是踏实智行创始人陈亦伦,他曾担任大疆的机器视觉总工程师,华为自动驾驶部门的首席科学家。二零二一年,智能辅助驾驶即将爆发的前夕,陈亦伦在华为担着职业风险,开始采集大量真实的驾驶数据,用深度学习代替过去自动驾驶的规则方法,这是华为探索端到端智能驾驶的起点。

欢迎收听晚点聊,我是曼奇。今天的嘉宾是踏实智行创始人陈亦伦,他曾担任大疆的机器视觉总工程师,华为自动驾驶部门的首席科学家。二零二一年,智能辅助驾驶即将爆发的前夕,当时在华为开发自动驾驶的陈亦伦开始带团队采集大量真实的驾驶数据。用深度学习代替过去自动驾驶规则方法,陈亦伦说:“那一刻,他觉得自己找到了自动驾驶的钥匙,而他还想用这把钥匙去探索一个年少时就种下的更大的梦想。

”通用智能机器人,也就是具身智能。二零二五年,陈亦伦和百度原资深副总裁、百度智能驾驶事业群负责人李振宇一起创立了踏实智行。在最初两轮融资中筹集了超过二点四亿美元,创下中国具身智能领域的首轮融资纪录。这期节目,陈亦伦向我讲述了他从自动驾驶到具身智能的多年技术探索和研发实践,他看到的具身智能的三道曙光与三道关卡。

以及怎么先越过其中的第一道关卡——数据。一些人认为,即使在中国有供应链优势的具身智能领域,大部分创新仍然来自海外。而陈亦伦说,这种观点马上会被扭转。他看到了什么?我们正式进入本期节目吧,陈博你好,你可以和我们的听友简单打个招呼,介绍一下自己。大家好,我叫陈亦伦,然后我是踏实智行的创始人。从去年开始啊,我跟我们的创始团队一起,然后成立一家公司。

我们公司今年二月五号正式成立,然后我们希望用具身智能,在具身智能时代,能够用AI真的做出有用的机器人,能够比较大的改变我们工作生活的方式。你自己关注到具身智能或者说通用机器人这个领域是什么时候?从我上学的时候。啊,那可以讲一讲啊。上学的时候,对,嗯,在清华,对吧?嗯,对对,因为我从小我是物理竞赛的保送生,所以说我对物理极其喜欢。

当然的话,我在清华我学到了电子系。然后后来我去美国读博士,那个时候其实读的是机器学习。那个时候呢,其实我在美国的时候,其实我非常非常羡慕我的室友们做的事情,因为他们做的东西很多是机械这些东西,它能动啊。对于我来说,我那个时候我研究的其实全是算法,那我会做电路板,我喜欢能动的东西。所以我那个时候就非常非常喜欢机器人这个东西,然后机器人包括电动车。

那个时候,我当时在美国的时候,我零七年的时候看到波士顿动力,它有一个液压机结构,可以在冰面上然后保持比较稳定,那个就是就惊呆了。我觉得太有意思了。后来看到特斯拉电动车做的非常好,我觉得也是非常非常了不起的一件事情。所以说,当时我博士毕业以后呢,我其实没有选择一个非常主流的对于学人工智能的他的一条路,就是我反而进入到的机电领域。

啊,我可能在第一家公司里,我为什么去这家公司?它是一个做机电系统的非常有名一家公司。我在里面学会了怎么做电机啊,学会怎么做伺服控制。啊,我甚至学会怎么做液压,因为当时我认为机器人应该是液压来做的。对,波士顿很早的时候是液压的。对,那个时候。液压,它的精密磁浮法,这都是我在第一家公司我自己亲自带过的产品。

其实我一直想法就是说我要做机器人啊,但是因为我自己是学算法的,我知道那个时候它不 ready,啊,你只能写出一些比较简单的机器人,但不是我想要的那种机器人啊。在上面,所以说我觉得我自己的整个的工作经历一直在穿插着,我觉得我有某一天我要做机器人,做成我想要的那种机器人。然后,所以说我当时觉得说最接近于我看到我想要进去的那一刻,是在2021年。

那个时候,我们已经整个团队已经研发了两三年了。那个时候,我第一次尝试的一次端到端系统,啊,那是一个非常疯狂的一个操作,就是我们当时整个的代码至少有两百万行代码。两百万行代码,两百万行代码,嗯,非常非常复杂的一套系统,然后两百万行代码它也能工作的很好,它可以做一些非常复杂的城市的它的动作啊,嗯,我跟丁文超博士还有几个同事,我们想在二零年的时候想试一下,说我们能不能训练一个神经网络。

让我不要用两百行代码,我可能用二十行甚至三万行代码。最终我们当时用了三万行代码,我们训练一个网络,然后让网络直接去给无人车去规划轨迹。那个时候就是最早的短到端自动驾驶,只不过那个时候是我们做的是两端式的。二一年做这个事儿,是因为你自己想到了,还是受到了什么行业趋势的启发?那个时候没有行业趋势,你知道吧?

那个时候其实端到端的概念并没有深入人心,而且我们实际上是在二零年开始做。你们二零年开始做这件事情的时候,当时特三。二零年那个 AI Day 有召开吗?没,特斯拉在二零年的时候没有讲端到端。对他讲的是视觉,那个时候他讲的怎么是视觉恢复三 D 环境。但对于我们来说,就是怎么视觉恢复三 D 环境,那个时候是我们已经知道怎么做的一个事情。

啊,当然我们没有选择像特斯拉这样发布 AI Day。嗯,其实当时摆在我最头疼的问题是,都不是感知。那个时候我们可能会简单把自动驾驶分成感知跟规控。摆在我面前最疼、最头疼的问题是规控。就是在规控层面上怎么做AI来做感知,其实很明确,就是你有很多的数据,你有很多真值,好,你把两个对接起来,它是一个开放问题。

但规控最复杂的问题是说,你的AI你产生的每个动作,会影响到你下一时刻的环境跟观察。比如说你去加塞别人了,对方可能让你了,那你可能对方抢你了,这都是完全不一样的行为。你说改变这个环境,所以它是个闭环的AI。这个闭环AI我们心里怎么做,我是没有把握的。当时也没有人有把握。说实在话,但是当时我们的想法是说,我们一定要用AI来做这个事情,因为当时我们的代码已经堆到两百万行了,我们实在堆不下去了。

然后我们发现的问题,的速度远远超出了我们解决问题的速度,所以说没有办法继续下去。所以当时来说的话,我我跟丁云超,我们相当于做了一个。我们自己启动一个项目。你说在二一年的,就是试一个神经网络这个项目上,嗯,因为我们需要采集大量的人类驾驶数据,啊,比较大规模采集人类驾驶数据,在那个时候其实是没有人这么做了,所以我们当时把我们整个车队批了一半车队啊,一半车队用来干这件事情,然后我们我们认真的采集数据,丁博士在里面。

每天教司机怎么开车,你应该这样开,你应该那样开,这样才是一个好司机。一半车队当时是多少车呀?当时大概是一百辆车左右的规模,就有一百辆车在做这件事情。一百辆车左右在做这个事情啊。接下来我们就积累数据,其实刚开始积累数据出来以后,没有什么特别显著的发现。后来他这个数据慢慢慢慢积累到大概几千个小时啊的时候,不太一样了。

啊,你会发现这个网络真的学到了一些东西,然后再往上积累,你会发现哦,它变得越来越厉害了。所以我们当时选了一个特别难的一个测试场景,这个测试场景是一个。非常人车复杂的一个城中村的一个完全非结构化,然后人车混行,然后有非常复杂的车来回抢来抢去,就是这种你通过规则几乎永远没办法斜过经过去的这么一个场景。然后我们非常胆大的尝试了一下,用神经网络干这件事,而且当时的原则是说尽量不要用后处理,后处理越少越好。

然后它非常流畅的穿行过去了。所以从那一刻开始,其实那个时候还没有拆 GPT,可能大家可能不会讲 GPT moment 在上面,但那时候对我来说,让我感觉他说哇哦。A.I.可以做planning了,嗯,当时就是非常非常强烈的这种感觉,所以我知道自动驾驶之后一定会往这个方向去走,一定要往这个方向去走。啊,而且我知道这件事情不光是自动驾驶,啊,所以那一刻是对我非常非常强烈的一个信号。

这是二一年发生的,这个是二一年。为什么这件事儿发生第二年你就离开华为了呀?因为那个时候从外界看,其实是高级辅助驾驶进入一个有比较大的质变,然后竞争或者说它上量都变得越来越快的一个时候。对,觉得好像正是行业应该发展的时候。对,但你是回到了清华。那个时候,我觉得我已经搞明白了。自动驾驶或者解锁 L2 自动驾驶高级辅助自动驾驶,它的钥匙是在什么地方?

就这个题,我觉得我已经解完了。接下来是一个不断的工程化的过程,就是或者这个阶段我解完了,怎么用AI解决L四这个我不知道怎么做,在那个时候啊,我现在可能会有些思路,但那个时候我不知道怎么做。但怎么用AI解决L二的问题,我觉得我已经想明白了。所以接下来我觉得整个当时的那个组织有足够的能力把它持续推到一流的一个产品化水准。

那当时那段端到端自动驾驶它work的这个事情对我的。震撼还是非常大的,让我看见的这个机器人,它可以从AI做planning,它的端到端的一个非常大的可能性。所以说,我我当时我走的时候,我跟我所有的领导跟同事说,接下来我要去做机器人啊。然后他们当时都觉得很意外,因为那个时候正是自动驾驶干的最好的时候。

是的,行业里会觉得有点急流勇退的意思。对对,但实际上我一直是在想机器人这件事情。我当时非常认真地跟我离职的时候,跟我每一个领导说我要做机器人,他们觉得非常不可思议。他们问你真的是要做机器人吗?我说要做机器人,然后。那机器人来说的话,我知道这这把钥匙一定会在之后的某一个实际时间点,它会开慢慢开启。所以说,我会选择回到学校里头,啊,我会仔细来看它究竟是在哪个时间点开启。

但是你觉得二二年那个时候直接创业实际并不是 ready 的,对,是因为什么了?我觉得机器人来说,就是创业跟做科研它其实不太一样。我自己认为创业就是说,我们是打造一个企业,这个企业用来提供很好的产品,解决客户问题,这是我对创业的定义。所以说,我需要明白说,我是服务于什么样的市场跟用户,他为什么需要这样的技术来解决它。

所以那个时候,我认为我看到整个市场是没有 ready 的在上面。那同样来说的话,我认为当时我在自驾看到的那个 moment

可能是预示着机器人也会往下走的这么一个。阶段,但它还没有走到那个阶段,它只是一种可能性。我觉得还有很多问题还没有被研究明白,应该怎么解决?所以我想给自己一段时间来搞明白。所以后来我去的清华,对,因为其实清华的AIR它本身也是一个和产业界和工业界结合比较紧密的机构,是的,嗯,是的。

所以你在。就是从二二年到二四年开始筹备,踏实的这个过程中间,这两年你看到了一些什么变化,让你觉得到二四年下半年你们开始筹备的,这是一个好的时间点,对,真的来做这个创业了。我在二二年当时其实,嗯,我的感觉是有几件事情,我觉得是非常非常正向的感觉。第一件事情就是说,其实是在二零二一年的时候,整个技术行业大家就已经解锁了啊,四足狗应该怎么样通过AI来控制。

就是大家现在看到 local motion,所以那个时候就是狗它的整个的控制,以前是 WBC 是非常复杂的一套。你会发现那些狗其实只能很矮板的跑过来给你挥挥手,然后转一下身子就没有了,但是。Etha是他们那个组来说的话,我是一直在关注他们在做的事情,所以他们走通的一种模式是说,你可以用RL这种方式强化学习方式,你至少可以把自己的local motion这个问题能解决掉。

所以当时我觉得几乎是没有悬念的,说首先狗会跑得越来越出神入化。其次,人也会走得越来越好,而且以至于说走得越来越越舒适化,以至于大家没有人会再会担心落空陌生是一个问题的。正好可以回顾一下,就是狗它达到这种状态是哪些重要的技术进展带来的?你刚刚提到ETH就是苏黎世联邦理工学院,对他们有一些贡献。然后在更早的是一九年的时候,MIT开源的那个Mini Chita什么?

Chita啊,嗯,对我我觉得Chita当时其实最主要贡献是给大家打开了这一整套软硬件系统应该怎么做。然后我觉得ETH是找到的真的一把金钥匙,是说你确实可以用神经网络方式,然后直接控。所有的整体中的全身运动,使得说它达到你想要的任意的自由活动的这么一个效果。所以当时我看到这个事情,我觉得非常好。我觉得这个很靠谱,没有发生什么意外,它一定是适用于各种各样的机器人都可以做到这一点啊!

而且它的技术说白话也不太复杂。就是你如果现在来看local motion来说的话,它有两个中间的一个模块,一个是说你要找到一个非常可并高度并发度非常高的simulator,你可能刚当时是有CPU版本,后来因为大家起了很大的作用,它发展了G GPU版本,你可以把它并发度刷的非常高,也就是你可以在里头获得很多很多数据。

然后第二个来说的话是说,如果说你是做一个硬件公司来说的话,因因为我们讲有一个 D J 物理和 Gap,就是我们在软件里面总喜欢把把电机模拟成个理想电机,在硬件上它不是。但是你如果是个硬件公司来说的话,你可以通过设计各种各样的方式把这个 Gap 最小化。这样来说的话,你的顺出来的 AI 部署到底头来说的话,几乎就可以直接流畅的运行。

嗯,就是这个 Sim to Real 的 Gap 给它最小化。对对,后来大家把它叫 Sim to Real Gap。所以就是这一条线上的进展,就是我们现在看到的一些人形机器人,它可以很流畅的跳舞、打武术。对,然后你会发现什么样的公司能够最流畅呢?它都是硬件公司。硬件公司,硬件见长的公司,对,因为它核心就是把sim跟real两边越来越靠近。

嗯,啊,你可以在sim上靠近,但sim大家其实已经努力到一定阶段了,所以就是再把从real到sim上靠近,这是硬件公司做的。所以这是其中一条,就 locomotion,对 locomotion。所以当然我看到 locomotion,它在技术上已经是完全磨清楚门道了啊,它其实只是需要一个时间把它发酵发酵,它就会越来越好。

包括我觉得像明年 locomotion 也会继续进入到一个继续出神入化的地步啊,所以 locomotion 我觉得这第一件事情是 OK 的,它需要时间来发酵。然后第二件事情是 GPT,GPT 是二二年,就是 GPT 它解决的是具身智能的另外一个命题。按照我们以前机器人的说法叫 task

planning,就我还是以自动驾驶为例,你想自动驾驶来说的话,你说我我给自动驾驶下一个指令说我要去东方明珠,你想这是一个非常 crazy 的事情啊。

就他怎么知道我应该怎么走去东方明珠呢?所以他要把它拆下来,他走到第一个路口说:“哎,向右转。”下路口向左转啊,一段段拆下来以后,他就能走过去了。但是从那儿是一个被祝福的点,因为这件事情并不需要大模型去做,这件事情需要导航,Google Map、百度 Map。这个共享数据库大家已经在上一个时代解决好了,你就直接继承好了。

那么机器人呢,没有这个祝福。你像机器人来说,我说我想造另外一家公司去,或者我想做这个事情,这是多简单的句话。那么它应该怎么知道一步一步完成呢?其实它如果没有自动驾驶那套共享地理信息系统,它是很难做到的。但是大模型出来以后,它不太一样,所以它非常擅长干这件事情,它非常擅长干 task planning,任务规划。

嗯,所以这个相当于是第二道曙光就已经起来了。然后第三道曙光就是我自己亲自解锁出来的断到断,就是说我们所有做机器人来说的话,机器人最终来说他做的事情都是一样的,就是从传感器从输入的信息指令一直到最后它,啊,这个都是一模一样的事情。但是因为传感器它是一个极其高维的东西,指令又是个极其低维的东西,你要把它堆叠在一起。

其实我们在之前前自动驾驶时代,我们就画了很多小方格,每个方格都有各种各样的技巧,专业领域的人再把这些方格串在一起,是吧?这就是所谓大家现在说的规则。但是规则这件事情,自动驾驶已经很难了,要接触到机器人几乎是不可能。但是端到端这件事情是OK的,所以端到端是非常重要的第三个技术。所以说,我当时拿到自己跑通自驾端的端,我当时是非常非常非常非常具有很大的触动的。

我觉得我同时看到了三件事情。其实,自驾的端到端是让你看到它解决L二的这个钥匙,对你们找到了,对。那这个时刻,现在在具身智能领域是已经到了吗?还是正在大家往这个方向做了?强老师在一九年的时候,我就已经决定在支架往这个方向去做了,但那个时候呢,就是我做各种各样的推测,我觉得是合理的,但是我没有看到效果。

我当时也是很忐忑,我不知道能不能看到效果。但事实上,我在二一年看到的效果,我觉得很棒。然后现在具身来说的话,相当于又回到了二零一九年的状态,就是我觉得这一切都是合理的,都是没有问题的。但是我现在信心更强了。因为我毕竟在它的一个子问题上,我看到了效果。嗯,你说自动驾驶是整个通用机器人的一个子问题。对,而且我这一年,我跟我们团队干了一年下来,我们信心指数越来越高,因为各种各样的效果,我们都已经开始逐渐展展露出来了。

我没有看到跟我预期以外的东西。我们可以展开来说,就是你看到的这个领域的第三道曙光端到端这件事情,对,你觉得它现在算是一个行业比较主流的方法吗?就如果整体来说,行业就是要实现具身大脑啊,有哪几种方法啊?对。其实我觉得端到端现在是大家每个人都会说的事情,是的,就现在这个时间点,就是大家已经这个跟当年自驾不一样,当年自驾是说。

端到端很多人是大家是半信半疑的啊,直到你把效果做出来以后,大家开始呼呼一拥而上。具身其实现在是反过来的,端到端是大家每人都在做的事情,但是你看效果呢,其实大家都觉得不好。我喜欢的方式就是说,就是说我为什么要用端到端?是我想做出让我惊叹的效果,是我用上一代技术做不到的这个效果,而我用用新一代技术,它是我的一个解锁这种效果的姿势。

那么这一刻,我我会认为是它的aha moment。或者他GPT问问他,我相信最后的GPT拆GPT出来以后,他哪怕是用倍儿的出来话,大家还是会觉得啊哈,对吧?是对,嗯,所以说这个啊哈效果的这个moment,我觉得是非常重要。嗯,对,所以你同意,就说大家现在至少在表达上都是在说端到端的,对,嗯,对,就它看起来是一个很主流的方法,对,嗯,对。

那这个端到端它和 V L A 和比如说和世界模型,因为这个领域有非常多的这种 buzz word,对,这都是什么关系啊?对,其实端到端是个更大的概念,端到端其实反而是一个非常泛的一个概念。端到端意意思是说尽量用神经网络解决所有的问题,就是端到端。那当然是这样子,嗯,对吧?然后具体说,你用神经网络解决来说的话,你有不一样的方式,你可以用模仿学去做,你也可以用强化学去做。

所以说它大家里头围绕里头可能会定义很多的概念,比如说你像 VLA,我觉得他们之间其实都是互相彼此错位方向,像苹果跟香蕉。然后 VLA 说什么问题呢?VLA 是说,反正是我最终呢有这么一个网络,我输入 action,我输入的是 video 跟 language,然后中间咋做的,怎么训练的,其实我也不是特别管,反正这是一张网络。

那当然这是没问题的,当然说是这样子。然后呢,世界模型是什么意思呢?世界模型定义的就更加多。然后,有的人认为世界模型是说,我可以有一个模型,然后我告诉他,我想在任意视角去观察它,它可以预测出这个视角的照片应该长什么样,或者说这个世界模型这里脱秀一个世界,它在动态发展,我可以让它去预测未来可能是什么什么样。

但这个很多人他会在。计算机视觉的角度上去看,把它当做一个空间感的一个视频生成器,它是个视频生成器,这这是一种定义。那有人定义来说的话,是说他希望这个模型能够学会这个世界交互的规律,比如说你捏这个东西,它就会被捏捏扁,等等等等啊,它可能也是一种识别模型。所以这个世界模型从它的控制来说,从它的这个信息论来说,它不复杂。

它其实就是你输入这个时候的状态,输入这个时候它的 action,它来预测下一时候的状态。这个就是典型的一个典型世界模型。但这个状态是什么?装的是什么东西啊?这大家定的定的不一样,对。然后呢,以及说你有这个世界模型以后呢,或者你有这个世界演化器以后,你到底怎么用它?大家也是千奇百怪。有的人就说,我不管它,我可能是给元宇宙定义的,或者给游戏定义的,我就是为了生成不同量的视频,那那也没错。

那有的人说说我想在积雪里头用它,那你怎么用?那也是另外一个问题。所以说这件事情就是我觉得大家把这个任务还有方法这件事情目前没有形成一个统一的定义。所以说大家每次提啊 WLA,然后 Word Model,最后发现说其实讲的好像也不太一样。嗯嗯。那你们自己现在的方法或者说你们对端到端的理解是什么?我自己认为就是首先非常明确的是端到端它一定要通过。

神经网络大家串在一起,它要通过数据来解决问题,它要获得下一代难以匹配的性能,大家在在在上面。所以说我会坚持用端到端来解决它。然后呢,我认为所有的端到端来就用完全AI方式来解决这个问题。然后我自己的观点是说,AI要解决一个大型复杂问题啊,我们大家需要迈过三道墙。第一道墙是数据墙,就是说你如果有足够多的数据,你才能让它长成足够复杂的网络。

所以在众价时代,我们会非常努力的去获得数据啊!我们甚至设计商业模式怎么获得数据。GPT,我觉得它是一个被祝福的领域,它的数据在那。就互联网数据本来就很多,语料本来就很多。第二道呢,其实就是算法算力。互联网其实是算力,为什么呢?因为按照我们之前的经验,其实是越复杂的系统,这个就是重剑无锋,大巧不工。越复杂的系统,越多的数据,往往它的算法结果就会越简单,它会返璞归真,它才能经得住这么大数据的冲刷。

所以那个时候,大家就会进入到一个算力比拼的时代。然后接下来呢,其实它的任何的scaling都会有停止的一天。所以当你在算力急剧膨胀的时候呢,你会发现说,这算力其实也不够用。所以你仔细发现的问题来说的话,其实它也不是完全靠预训练能够解决的事情啊,它需要用到后训练。过去的意思就是说,你真的找这个问题好好的解决,要把问题好好打穿。

这件事情来说的话呢,它会进入到一个非常有创造力的一个时代,所以说,它会经过这三件事情。你说第三个会进入一个有创造力的时代,就是说这个时候是比较考验你的一些方法上的巧思,或者说一些创新能力的,是吗?对的,而且你需要针对你的问题能够想明白,说你究竟是应该用什么样方法去解决它。比如说,我举个例子,自动驾驶现在我认为已经过了第二阶段,已经过了第二阶段,要进入到第三阶段。

第三阶段它它遇到的非常头部的问题是什么了?他最头部的问题是说,我应该怎么样跟其他的车跟人去交互?因为大家是在共享路权的。我换道的时候,我究竟应该是在这个时间点激进一点还是保守一点?在这个时候,我究竟是应该刹车还是在让行等等,他需要处理。因为什么?因为他每一个决策都影响了整个周围的环境,人怎么开车,也就是说,你其实影响了世界。

那么世界的行为就会进一步在影响到你。所以,自动驾驶来说的话,就是说,为什么有的公司在提 V L A,有的公司在提世界模型?它解决的是不一样的问题。在提世界模型的公司,它解决的是怎么我跟其他车辆去交互的问题。所以说我需要知道一个驾驶行为的世界模型。我如果往前这样走,我可能推演出来周边的人应该怎么开车。

所以它解决的是跟这个世界交互的问题。如果说你的自动驾驶是要解决跟其他社会车辆、人怎么交互的问题,你需要用世界模型,你需要用强化学习。这个是如果说你认为你的头部问题是要解决交互问题的话,那 definitely

你的自动驾驶的下阶段那就是世界模型。嗯,如果说你认为说你解决问题是一个开放世界的问题,开放世界问题是说,我发现其实我也没有很多导航信息,我可能都是看周围的环境、看牌子、看礁石,然后我可能发现我有很多未知的障碍物,很多地面上会有一道大水坑,我也不知道能不能走,然后我会遇到很多我以前不知道的东西,你已经没办法用一些抽象的一些变量来描绘你的世界了,你必须用一个更复杂的语言体系来描绘你的世界的时候,那你应该够WLA。

所以你看,它解决是两个不一样的问题。所以从自动驾驶来说的话,从目前的出问题的统计数字来说,那接下来我自己看到的现象是说,大部分的问题来自于跟其他的车辆的图像的交互。所以你应该用世界模型解决它,而且这个世界模型不一定需要是开集的,你可以是一个封闭体系的世界模型,因为你只需要建模的是说你跟其他车、跟其他人怎么去交互,所以它是个封闭体系的,是没问题的。

但是它需要有很好的记录平行世界演化的能力。那好,如果说你把这个问题解决了,我觉得大概率L三L四能力就达到了。那接下来来说的话,你会发现不够,我需要一个更开放的体系,我需要借助语言的力量。那这个是我认为是 L 四到 L 五的阶段,所以说每个技术是为了解决它的问题而生。那回到具身的话,是不是还在第一道卡着?

就是在数据,毫无疑问是在第一道卡着。其实基本上,我觉得它几个很大的关口,就是说你有数据以后,你会享受到第一重数据的 scaling law,数据 scaling law 是最容易享受到的红利。然后接下来呢,有了数据以后啊,你会充分的享受到算力的 scaling law。因为你有很多数据,你有更好的算力去吸收它、digest它,然后它就像一个超级的一个函数压缩器。

然后这个时候你会发现说它好智能,因为很简单,每一个智能的动作背后都能找到溯源到它的相应的一个原子动作的一个数据。这个时候你觉得它非常智能,但这个时候非常智能呢,它还不够,因为你会发现它的智能只是体现在说,你通过观察,然后让网络联想到了我某一条训练数据,哦,它是这样做的,于是我也要这样做。但是网络在这个过程中,它不会认真的去思考说为什么我这样做会成功,然后如果解决,接下来就要解决下一重,下一重就是要跟世界去交付的问题。

怎么?我认为说我做这个动作改变世界,他会成功。然后呢,他的成功率会直线往上提,然后再往下叠两小一层。所以你觉得现在在具身这个领域,其实实际上最核心的还是我们怎么更低成本、更高效率、更大规模的获得数据。而我们讨论的很多,比如说不同的技术路线,这个可能是后面阶段才会更重要的事情。对,其实你看,word model language,它都是为了解决它想解决的问题。

但是在第一阶段没有的时候呢,其实你是无能为力的。所以说,第一但第一阶段解决以后,往往就会你会收到最好的一波红利在上面,而且你会发现性能急剧突飞猛上。所以,这个是我对这个行业一直会有非常乐观的这个态度啊。你现在就是觉得,其实不用那么担心,说未来最后这个算法实际上是怎么样,是吗?你觉得这个是来自于你过去的经验?

你觉得它肯定会有一个简单的算法,能去把这个数据里的东西给学出来?我觉得算法其实它本质上是一个认知问题,因为你要知道,在神经网络里,它跟传统的算法不太一样。传统算法是说,你每一步的一些战术级操作都需要仔细去推敲,它应该怎么怎么做怎么做。在神经网络来说的话,因为神经网络本质上它是一个函数,你说你定一个函数最重要的事情是什么呢?

你要定义函数的入口是什么,出口是什么,你就把这个函数的功能就框住了。所以说,它在神经网络里的算法设计往往是更多的像一套架构设计,就是它是考你的认知问题,我怎么样把这套东西把它搭出来。而且它往往是一个系统级的架构问题。对我为什么有这个问题是可能类比大语言模型的发展。对,就是你会观察到,其实在此前互联网的语料数据就已经非常丰富了,然后同时 GPU 的算力也是比较丰富的。

对。但大家会觉得,就是它有一个拐点,是来自于二零一七年那个论文,它提出了 transformer 这种架构,包括后面 GPT 又在 bert 就是它有编码器有解码器的基础上,它又给它简化成了只有解码器。对,就大家觉得看起来这个架构的出现是一个转折点啊。对,其实我是从另外一个视角比较理解这个问题的,就是我反而觉得。

GPT最伟大的事情,或者OpenAI当时最伟大的事情是,他们想出了Next Token Prediction这个训练任务,因为确实互联网数据都在那边,你有很多很多文本,你也可以设计各种各样网络,但这个网络是用来干什么呢?你怎么去设计一个任务,使得说它能够引导它,让你走向你想达到它的终点?就是OpenAI这些人,包括伊利亚这些人,其实本质上他想打造出个AGI。

那对他来说,他需要思考:说我到底怎么样能够有一个合适的路径,让他打造AGI?你让一个网络不停地去做完形填空,或者不停地预测下一个词,它居然能够走向目前。GPT这样的一个能力,这是个非常不可思议的事情。我记得当时还挺有意思,因为美国有一个非常好的、非常有名的人叫 Andrew Ng。之前他其实也在 OpenAI,是的,对吧?

之前他自己写了一个 blog,他不是论文,他只是一个 blog。他他做就是说非常令人惊讶的这个 RNN 的能力。其实他做事情很简单,他做事情就是用了一个不是特别大的一个循环神经网络去不停地预测下一个词儿。然后他的那个博洛里头,他展示出来说,哦,他原来可以写诗啊,他还可以去写代码。如果说我不停地给他灌代码啊,他可以干这个。

就是你知道那个时候,大家没有人在讨论GPT什么之类的。按照卡拜斯也没有去特斯拉去做FSD,他是OpenAI的一个研究员。然后他发现RNN可以一直预测下一个词儿,他觉得极其惊讶。嗯,当然,我看到它,我也觉得极其惊讶。因为我当时第一个反应是能不能用它来做自动驾驶。所以说,你看这件事情是一个非常了不起的事情。

它是说,哦,原来你只是训练了一个任务,它可能不断的预测你下一段,然后它就可以展现出让你惊讶的能力。嗯,我觉得这个是非常了不起一件事情。嗯,对,而且它当时用的不是 transformer,是 RNN。是 RNN。对,所以这件事情我觉得是非常了不起的一件事情。那 transformer 呢?我认为是什么呢?

transformer 其实我非常喜欢这个东西。它就是我自己的整个从业经验来说,或者训练大型 AI 网络来说的话,我自己的教训就是说,越复杂的任务,越大型的数据,它的网络结构就会越简单,越返璞归真。你会发现越简单的东西,它能够冲杀,经得住大型网络的冲杀。那么,之前来说的话,有很多人他试图设一些非常复杂的网络结构,非常精巧的结构。

但是你发现,其实你在大型数据冲杀下来说的话,计算效率最高的、最优的、时间最简单、最不容易出错的,往往是最好的方法。所以我会认为,传送门它是负责在这种情况下它而生的,在上面。Transformer吧,其实很多时候在小数据集上它并不是很占优势,但是它在大数据上,因为它非常的简单,它非常的好实现,因为简单它不会容易出错,所以说它往往能够经得起大数据的承受,所以说在大数据基础上,大家都不约而同的走向Transformer。

嗯,所以总结一下,就是如果类比当时大语言模型的发展,一个是我们把预测下一个token作为目标这个事儿是很重要的,嗯,然后另外就是这个。比较简单的结构,它更能经受大的数据去训练,对吧?对。那如果回到就是你们现在在做的这个事情啊,你觉得在具身领域的一个合适的目标是什么呀?一个训练的任务是什么?包括行业里大家是怎么理解的?

因为我估计可能也没有那么收敛,可能大家也有不同的想法啊。对对对,我觉得这是一个特别好的一个问题,所以我经常会回过头来思考,在以前大家遇到这样问题的时候,大家会怎么想,以及哪些地方它是非常关键、creative的东西在上面。比如说,我会认为在 GPT 来说,或者是大语言模型 next token

prediction awesome,然后 transformer awesome,然后我我同样讲自动驾驶也有两个 awesome 的东西,一个叫 BEV bird eye view,对,这个是二零年的特斯拉 Day 上讲的,对对对,这个是 BEV。

呃,为什么 BEV 非常 awesome 呢?就是我们现在在讲端到端的时候,其实很多时候大家不会去分,说这个端到端到底是从一段视频。比方机器人,一段视频直接到了动作映射,还是一段视频映射到了空间,再到了动作映射。但在自动驾驶,你会发现,不管大家怎么做到哪端,这个问题是极其明确的。你必须先有一道空间映射,然后再到最后的动作。

所以 B E V Bird Eye View 其实它指的是一种空间映射。你第一步首先要重建你的空间,你重建完空间以后呢,再从这个空间里头呢,把自己的整个的规划再把它长出来。所以不管怎么做,B E V 这一步逃不掉。就现在有直接做这种端到端的,也有通过 V R A 做端到端的,但是你会发现它再怎么 language 什么之类,毕竟它逃不掉。

为什么呢?它效果太好了。你一旦有空间重建来说的话,你会发现你在后面训练 planning、训练各种各样政策,做出一些非常高技巧的动作非常容易。然后,但是你如果没有空间重建的这个概念,没有 BEV 这一层来说的话,你会发现这个网络似乎只是在单调记住的你的动作。嗯,发现你有这段视频,我就应该怎么做?它不理解这件事情,所以说。

这件事情是一个非常好的一个东西。那这件事情其实是自动驾驶它独有的,跟大语言模型没有关系。你把大语言模型它接受的是 text,没有这个东西。那机器人来来说的话,我们一开始也是这样的信念,包括我们现在非常明确的是这么一个观察,也是空间这件事情对它来说极其概念、极其重要。其实某种意义上,你从一个更本质的角度去理解它,就是什么样的任务或者什么样的表达是最好的。

其实物理定律告诉你,最精简的表达是最好的。你看,物理公式都极其简单,就是我们这个世界来说的话,你可以用图像方式去理解它。那么你每个像素都是一个色彩值,你会发现你有无数种图像。但是呢,你在各个视角的图像摄像头去看它,你会发现它看到是同一个东西。这个东西它是什么呢?第一,它有时空的概念,它在这个时刻,在这个空间上,它被占据了。

这个就是自动驾驶要解决的问题,防撞吧啊。第二个来说的话,它之间有关系的概念。然后第三个关键是第三是说,你如果去动它的话,它有力学的概念,嗯啊,力学概念会引导它下意识会变成什么样子。那么你如果在物理空间上去展示它,你会发现你有一个特别经典的表达,它的经典表达程度远远比 R G B 要来的经典的多,因为它更本质。

所以我觉得自动驾驶跟之前来说,它都是物理空间 AI。为什么我们特别喜欢把它叫物理世界 AI

呢?因为本质上它的变量全是物理东西。你要用物理的东西去刻画它,让神经元学到这些物理的东西,那么这件事情就会让你很多任务都变得非常非常容易。所以说,我觉得这个是一个非常重要的一个认知,啊,对。然后第二类来说的话呢,其实这个也是自动驾驶、具身智能跟大模型在这个阶段,其实大家都逃不开的一个问题,就是你怎么跟这个世界交互?

如果你跟语言模型你不跟人交互的话,它就相当于是一个啊无头脑,不停的哔哔哔哔哔说下一段东西,其实你也不知道它所说所云。但是呢,它真正是给你展现智能是说,你不停的问他,他在回答你,再问他,再回答你啊,这个是他跟你就有交互了。那么其实是他内在会对你有一个模型刻画,他知道怎么交互会获得更好的反馈。那么机器人更难,核心难点也是这个东西,就是现在其实我们拿到一个跟我们不可互相交互的东西,其实容易的。

比方说,我去拿一个方块,跟它不可交互。我找到一个地点捏它,要拿起来。我走到哪走到哪,没有任何可交互性。你说的不可交互指的是它是一个硬的东西,还是这种?你无法改变它,但事实上抓起来说你也改变它,因为你改变它的位置。但位置是这个维度非常低,而且事实上你只要抓得牢的话,你也不用改变它,你走到哪跟哪,所以你并没有在改变它。

但是呢,你如果是打个比方,你在操纵一个布料,你或者说去拿一针刺去刺绣它,或者你在柔软一个线缆。啊,或者是你在操作任何一个东西,你在改变一个指令,都在改变它。你怎么想象说你你想把它操作到你要的那个效果,你就要跟它去交互。所以这件事情是非常难的,所以这件事情是整个 AI

设计是非常需要关注的一件事情。所以你刚说的两个比较关键的,你可以叫任务也好,也可以叫认知也好,一个就是这个空间,对,空间感是很重要的。

另一个就是你和世界和你要去处理的那些物体之间的交互啊。对对对,其实对于自动驾驶来说,空间非常重要,因为自动驾驶它本身是一个不碰撞系统,那只是在空间中怎么摆的问题。嗯,碰撞的一刻已经出事了。对于机器人来说,它是个接触系统。嗯,所以说,除了空间之上,还有一层东西,就除了 x y z 直线上,还有力跟力矩在上面。

嗯,所以说,这个为什么是接触力、空间这些东西,都是基本上物理量,它会变得非常的关键啊。嗯,因为像大语言模型,它把任务设置成我们预测下一个 token,然后之后。它居然非常惊奇地出现了一些更加通用的能力,就是当时大家说的智能涌现,对吧?对对。那在具身这个领域,就比如说我们去重视空间,我们去去重视这个它和世界的交互,它是为了更深的什么?

就更远的什么效果去做的?其实也是为了让它展现出让你惊讶的能力。其实大语言模型,你要知道,就是说你很多时候你你 prompt 它各种各样问题,你会发现它其实回答的很得当。而且说出来一套一套的,你觉得很惊讶。但其实这惊讶的背后原因是什么呢?因为你问他的,你给他说的任何一句话,你其他的回答,他都能在他历史的训练数据中找到某一个片段。

这个片段跟这件事情是有关系的。然后他把这个片段给你调出来以后,然后你会觉得很令人惊讶。你会发现他通过这种组合,他产生了你看似比较新的数据片段。但是,时常对于神经网络来说,它只是一个内插。嗯,你看似比较新,它只是一个内插,所以说这个时候就会给大家一种感觉,说哇哦,它涌现了啊!但实际上,它通过各种各样方式,它回溯到一些数据片段,这就是它的第一阶段。

对,所以我想就是说,你可以描述一下,如果把刚才这些任务设定的比较好,在巨身上能看到什么效果,就具体的。对,就是你会发现他的整个的这些行为,首先来说的话,他会越来越让你觉得是一个人在操作他。我打个比方,我觉得人最简单的一个评价效率,就说你比方说你给一个机器人,让他穿件衣服,戴个帽子,你可能也分不清楚他是人还是机器人。

然后只有你看他的动作,你不太容易去跟他说他是人还是机器人。啊,这件事情就是所谓的图灵测试,对吧?其实衡量所有AI来说,它都是图灵测试。你想测试一个聊天机器人,它背后是人还是好?就是你的测试者已经分不清楚它究竟是人呢,聊天还是机器人来给你打字儿。好,这个图形测试就过了。嗯,具身智能也是要做到这一点。嗯,那它具体在比如说完成的任务的类型上,以及学习新任务上,能做到什么程度?

这是下一阶段才解决的问题吗?对,首先这个场景也不能太简单,但我我觉得能在一定的场景上能够展现出这样的能力,并且这个方法论是可以泛化的,这件事情就很好。其实我自己认为说,越大的模型,它真正分化的其实背后的方法论。我打个比方啊,比如说我们现在大家用大语言模型,对吧?大语言模型可能现在被证实一个非常落地的应用是做 AI coding 啊,用它来写程序。

那么你做一个大语言 AI coding 的这么一个模型,理论上说你也不用让它去读莎士比亚。让他读各种各样的诸子百家,你反而非常关注的是他应该读各种各样代码。那么这个时候,你可以认为它是一个垂域模型,它是一个代码级别的垂域模型,但是它整个背后的方法论,它跟大家想通过语言模型打造的AGI,它完全是一套方法论。

也就是说,你可以用这个方法论来说的话,一类似的方法论让它去解决数学问题,解决物理问题,解决跟其他的这个问题,它背后是一套方法论。自动驾驶也是一样,你在中国训练好的一个开的特别溜的一个AI,自动驾驶FSD,你到美国来说不一定开得溜,到日本来说也不一定开得溜啊,到印度可能就更恐怖了。但是它背后的方法论是一套方法论,也就是说,我如果想用它来扩展到解决这件事情上,我就用同样方法论给它扩充出去,然后优化效果,它就可以把它延展下去。

所以机器人它也是一样的,就是说你可能最后一个机器人,你可能在这个任务上做的非常棒,那个任务上可能你真的都没有接触的数据,但是也没关系,你的方法论是可以支撑你泛化的,就可以。嗯,方法论支撑泛化,数据能够无限扩充,然后当你模型越来越大,你其实就是可以适应 multitask。但是你在部署的那一刻来说的话,你其实也不要真的需要把它做那么大。

嗯,这是你从小心中想的真正的机器人的样子吗?对。但是我理解,在你说的这个逻辑里面,它其实是肯定是可以应用的,对吧?对,它甚至可以,比如说比较高效率的大规模的商业化应用,因为我可以通过补充数据的方式让它去适应不同的任务。但是很多人心里想的机器人,可能是它真的像人一样会直接学新任务,就用现在的范式是不是还做不到?

你说的对,前一阵伊利亚他有一个talk。嗯,我有我看都是cash和他的对对对伊伊利亚是非常非常牛,他每个talk都值得非常认真的去看。我认为其实到最后,不管是做具身智能还是做大语言模型还是做自问题自动驾驶,大家都会收敛到这么一件事情上,因为现在的整个这套方式来说的话,还是 too

heavy。本质上其实我们是在做两阶段,一个做一个疯狂的数据生成器,然后一个在做一个疯狂的数据模拟器啊,数数据逼近器吧。

然后但人不是这样子,人会在主动的过程中依靠自己的一些先验的判断。非常高效的找到你所需要的数据,并且吸收跟学习到它。所以,比如说像伊利亚来说的话,他觉得人的 value function

是非常厉害的东西。嗯,价值很熟。对,也许也许这些东西是人类多少年的进化祖先又给我们的宝贵财富。他没有直接给我们数据,也没有给我们直接一个现成的神经网络,但是他给我们很好的 value function,指导我们在自己的生活中高效的去学习。

但这个问题解决来说,我认为它是一个具有非常非常重大影响力的,它会让整个AI的学习效率都会往上翻很多很多。但在目前的这个阶段,其实大家已经找到的真正能够展现强大效果的东西,还是我刚才说的那种比较暴力的方式,找到一个非常厉害的数据生成的方法,找到一个非常厉害的数据拟合的方法。嗯,OK,那我们就回到现在这个方法,因为你们这次发的一个很关键的东西,也是你们一开始就讲的,就是

human-centric 具身数据引擎,对。

然后我看到它的最后的形态,其实就是一个可穿戴的设备,一个很轻量化的手套,然后加上第一视角的摄像机,然后人们带着这个东西就可以去做各种工作,对,来采集数据,对。嗯,你可以讲讲,就是这个东西它是怎么运转的,包括我们看到全世界范围内也有一些类似的操作,比如说,三六 Robotics 有一个 Skill Capture Glove 技能捕获手套,应该可以这么翻译。

就比如说,大家在获得这种高效率的数据上有些什么实践啊?对,我觉得我们应该是从所谓的第一性原理啊,就是认认真真正向想想到这件事情了,而且我们是把这件事情想明白以后,我们才向上。想创业了,所以你是二四年就已经想明白这个事儿。对对对,嗯对对,我的第一份商业融资计划书里头就非常清晰的写了这个东西,当时饱受质疑。

哦,饱受质疑,那当那主要质疑的原因点是什么了?因为当时比一些比较有名的公司,比如说像 Facebook、 Intel、 Tesla 这些,他们一直都在用遥操作,然后人遥控一个机械臂,然后去做一件事情。然后他包括把这个 ZEB

的全量信息,包括它的传感信息全部都拿下来,然后用来做这个训练。那可能再往前追溯,因为我认为可能大家都看到了特斯拉某年的 Tech Day,有的人戴 VR 眼镜去做,大家可能觉得要操作这件事情,它可能是收集数据的很好的方式。

然后呢,我们认为这件事情就是 number one 需要解决的事情,因为还是我跟您说的,我当时的那个 moment,我当时回想出来 moment 是说我当时冒了那么大的压力,顶那么大风险,凑够了一万个小时。嗯,然后我看到了不一样的东西。那么自动驾驶现在大家拿到一个产品可用的一个好东西,一个好系统,它背后需要多少小时支撑呢?

一般都是十万到一百万。好的公司都会有一百万小时以上的数据,那么它才能做出一个自动驾驶这么复杂的一个AI。那么具身智能需要多少数据呢?那肯定比这个东西要高一个数量级吧?是一千万小时的意思吗?我觉得至少是,因为其实很多其他我们当时在做这件事情的第一天,我们就自己想数据的获得方式,因为在现在的AI的范式下。

它就是你要想清楚数据,想清楚跟体制匹配的任务跟算法。那么我们就在讲这个AI,具身智能AI。我们新入的AI肯定比我们当年打造自动驾驶AI可要厉害多了。它是个升维版。那么,既然它的能力比这个要强,可能十倍,那它可能背后要支撑的数据就要比它强十倍。而且在自动驾驶过程中呢,我们当时做出了很多道选择题,这选择题很多时候是否定题在上面,你要把很多的数据方式把它查、把它关掉。

比如说,当代自动驾驶的我们试过的很多东西,一互联网数据,我们当时扒了很多行车记录仪的视频,YouTube啊,会有很多国内的人会喜欢在外面去旅游,他会把自己的行车记录在平台放上去,也有很多数据在上面。但这些数据其实你仔细发现呢,它有几个问题。第一呢,它其实真的量没那么大。你如果真的 try hard 去踩它,可能很快就超过它。

然后第二个就是,这些数据它是孤立的,它并不能解决你遇到的问题。比如说现在我遇到一问题是说,我这个十渡口我就过不去。但是我可以给他灌很多数据,是别人到西藏旅游的数据。他这些数据灌的问题,他无法建立映射关系。所以说,这些互联网数据是,所以它就是一个静态的数据,而且它量也没有那么大。所以说,这些数据来说话,刚开始很多公司,包括很多学者,甚至现在很多做具身智能创业的学者,他们在上学的时候,他们甚至还做过这样的互联网自动驾驶数据的视频,后来他们都纷纷都弃坑了,就觉得这件事情确实很难做下去。

当时我记得Berkeley有一个叫B.D.D.Work with Drive Data Set,他其实就在干这个。你会看到当时的那个Awesome那些学生们,其实现在也都开始做机器人了。那BDD就是一个。你做的数据集以后,你会发现其实也没有什么用卡,因为它很难展现很好的效果。不过现在倒是有不少公司也会说他们找到了一种方式,可以从视频数据里来学习。

对,但这这这件事情我们是画叉的,因为我们在它的一个子问题上,自动驾驶上已经收获到足够的教训。然后核心问题就是我刚跟你说的两点,第一呢,它其实也没有想大家想象那么多。这样也没大家想象那么好。第二呢,真正的好价值数据是要跟你的问题能够匹配起来的,所以这个是互联网数据。那第二类数据呢,可能就是仿真数据。仿真数据,我在做自动驾驶,当时我记得我们专门有一个团队,那个团队三十多个人,非常优秀的工程师,擅长做各种各样的graphics仿真。

然后我们可以把上海很大一个区域的仿真都重建出来,然后会有很好的展示效果。同样一段街道,下雨了、下雪了,它都有不一样。路面积水,哇,就那个效果做出来太棒了。但是事实上,它对于自动驾驶的这个任务来说用处不大,因为我的核心任务不是在干这件事情。因为很多时候仿真它有几重仿真在上面,第一重仿真是说想把图像给你渲染的非常的逼真,那么你的核心任务其实是在解决感知问题,对吧?

但感知问题其实往往不是大家非常头疼的问题,那感知你努力的都能解决好的,大家解决的,你像做驾驶我们解决最难的问题,还是说我到底应该怎么做?我应该怎么跟这个世界去交互?是这方面问题。那这方面来说的话,又没有这样的仿真器。然后第二类可能就是用一些,就是以前的一些像有限元呀,一些就是试图把物理规律建立出来,physical的一些simulator。

它比如说你要仿一个线怎么窝,它会把线劈成很多小段,每段是个小弹簧,也有个汤匙、羊齿模垫啊,把它们全部串起来。这些是科研里头经常用。但是你会发现,你在做这件事情时候花到的精力。和方法论的先进程度还不如你的下游,你的用户,他已经在AI解决问题了,你还在用R,再用Team Parameter。在解决这个问题,所以仿真的这条路也被我们关掉了。

仿真里头唯一一个我觉得确实有用,就是它有一套足够简单的系统,但是它很有用。比如说就 local motion 的仿真,因为 local motion 仿真,比如说机器人或者机器狗它怎么走路,它不用关心环境。目前来说,他们现在主要做法不用关心环境,它只需要把自己的运动学、多关节体它的力学仿真好就可以了。

这个是一个非常简单的问题。但你看,就这么简单的问题,行业也花了两年时间才把它做得比较好。所以仿真这这件事情,我们从务实的角度来说,我们也先把它关掉。所以你觉得仿真去解决操作的问题是比较难的?不太可能。现在所谓的仿真解决操作问题,更多是一些非常简单的操简单简单的操作,比如说我要去抓放,就是我要抓一个东西,我可能想知道它的抓点在哪里,然后我怎么去捏它。

就这个本质上其实还是一个感知问题,它是个比较简单的问题。所以说这里头你要找到源源不断的海量的数据,能怎么找呢?所以说我就从以前的这个AI里去想办法。我觉得比较大型的、广泛被人所用的AI,我认为有两个AI,一个是大语言模型,一个是自动驾驶。那么自动驾驶我非常熟,自动驾驶它最终的数据的本质是什么?它的本质是你开车,我记录你,对吧?

它是个行车记录仪。不管是在前面放一个摄像头,放八个摄像头,它的本质是个行车记录仪。自动驾驶来说,其实它是在记录你的行为,它也是在不同的时间阶段,它的采数据有不一样的阶段。就是说,第一个来说的话呢,就是。当时最难的问题是,没有人相信只用视觉的数据就可以足以把整个的自动驾驶行为记录下来。其实应该是这么解:你看马斯克讲的第一性原理是他认为摄像头这件事情是够的,只靠摄像头开车就够了。

其实他另外一个解读是说,你信不信只靠摄像头就可以获得到你的全量信息,就可以把你的所有的驾驶行为全部都重现出来?他是另外一个解读是这样子的。那其实你仔细想想呢,当然是对的,对吧?你仅靠摄像头就可以获得整个的全量信息。但是当时为什么只有特斯拉一个人坚持用全摄像头呢?因为这个过程很难。如果你用一个激光雷达来说的话,它重建、恢复你的视野环境,或者你激光雷达跟摄像头混用来说的话,这件事情就会让工程上变得非常可行。

所以说,当时我们选择方式就是激光跟摄像头混用,这样它很快的就能把整个视野重建出来。但是呢,它采数据的方式来说的话,它只是在记录你的开车行为。其实,技术如果发展到今天,我可能激光雷达我也就不装了,我可能八个摄像头都不装了,我可能会选择在每一个滴滴打车的车队上,看他能不能把他的前面那个行车记录仪给我一个小小的行车记录仪,就能够搜集海量的数据,就可以足够你做很多很多事情了。

所以说,自动驾驶它真正获得的数据的方式,其实它是在用最好最小的代价在记录人的驾驶行为。那么大语言模型呢?它其实它为什么是被祝福呢?它反正它数据已经在那儿了,但是你看数据怎么产生的?那其实都是人一个个敲上去的嘛,对吧?它其实是在人通过数字的键盘或者是这种其他方式在记录自己的生活,记录自己的思考想法。它也都是人产生的数据。

那么机器人从day one来说的话,其实被design来说就是它能够帮助我们干我们想干的事儿,它能够服务好我们。本质上来说的话,你希望它的行为越来越像一个人。那么我们就在想,你需要用最小代价能够记录你整个人的行为信息。所以这些信息还都是从人出来的。我觉得整个数据来说的话,其实基本上它只有两个源头,一个从人身上出来啊,一个从世界出来。

但是往往大家说意识,不管从是不是从世界出来,还是先从人出来,再从人转到这个世界。所以从人出来以后,是一个非常笔直的、能够快速增长的一个数据方式。那这里边需要真正自己去思考的是说,这些数据其实都是传感器数据。那么你应该怎么样去设计自己的传感器,让人能够非常自然的把这些数据拿到?这些数据来说,还有一些东西,就是说我们讲究是这样的:就第一个呢,非常重要的一件事情是,数据要从真实场景中出。

真实场景,真实场景。你觉得遥操是不符合这个?遥操在很多地方是没办法做真实场景。我打个比方,比如说,我现在想做一个机器人到工厂去打工,对吧?比方说,你用一个可穿戴的头东西来说的话,那人家打工的人穿上以后,他就把你的行为记录下来就OK了。那你遥操来说,你得把这个人请走,推上一个机器人过来,用一个tied up的方式,遥操方式让他一遍遍做。

然后,因为遥操它现在确实遥操有延时啊,有各种各样问题啊,它操的就很慢,嗯,所以你其实是在干扰别人干活,嗯,就是真实场景的,比如说客户方或者拥有方不允许这样干,嗯,对对,比较打扰别人。比方说,我想知道大家是怎么做咖啡的,嗯,那我推个机器人过去,然后遥操它,你会给所有人都添乱。那你怎么看?其实也有很多人在做很大型的蔬菜工厂。

对蔬菜工厂来说,一定要为什么真实场景?我打个比方啊,你像我们当时在做自动驾驶的时候,有很多人在做一个专门的自动驾驶测试场。做的很大,里面各种各样的路,什么环形路都修了,然后里面还有什么之类的,感觉像一个小世界一样。但你觉得在里面疯狂开车训练出来神经网络,它敢上路吗?它肯定不敢上路啊!所以自动驾驶,你看,当我记得在二二年、二三年的时候,大家都在强调一个叫开城,说哪个公司开城快。

什么叫开城?本质上就在采集这个城市的数据。你想他在北京采完数据以后,你放到云南是不是能够开?你在中国采完数以后放到日本是不是能够开?你一个机器人如果只是在一个大家给你设计好的环境里头去做,除非你的任务就是在这干这个事情,我怕你到其他地方肯定是有问题的。所以场景是真实场景,这件事情是非常非常重要的。第二个来说的话,就是说真实动作,真实动作是什么呢?

你做机器人,或者是做任何的人完成一个任务,人为的任务能够被顺利的完成,对吧?而且它应该按照正确的方式去完成。所以说你在人做所有的事情的时候,你都是在在完成这个任务,它这件事上没有意义在上面。但是你用机器人来人为的去给他摇操来说的话。你得让操作员瞬间化身为这个技能的工人,那个技能的服务员,那个技能这样子,然后你会做的做发现,做他做的很多事情是虚假动作。

所以它不够真实,它不能不代表这个任务是未完成的啊。所以这两件事情是非常重要的。嗯,所以你想清楚这件事儿之后,你就觉得只能通过可穿戴设备这种方式来。我觉得首先我想的是,它这个数据必须得从人身上获得。当然,最极端的方式,如果说我有 Neuralink,嗯,我也许可以有另外一种非常 smart 的数据方式,但是现在不具备。

我们还是就思考说,很多时候我们人大家都在解决什么问题?就是人其实基本上在解决这么几件事情嘛,就是大家说的移动操作啊,感知在上面。移动这件事情我们觉得还好,移动这件事情我们有成熟的方法能知道怎么去做它。然后操作这件事情本身上,人所有的操作都是通过他的双手来操作的。那所有双手就是把他每个手当作一个小型的机械臂,他有五个小型机械臂放在手掌上,哒哒哒哒这样把它把它做出来。

也就是说,你知道人怎么操作这些信息拿出来以后,我们做一个假想实验:我人戴了手套,戴了摄像头,去看人之所看,感知人所感,然后把这个手套跟摄像头放到机器人身上。那机器人其实理论上说,它也是一样的,看人之所看,感人之所感。那这样来说的话,它就可以有能力或者有潜力复刻人的能力。那大量这种复刻方式不是通过遥操作方式,它是一种更好的方式,是人采大量数据,把它变成一个AI,然后机器人从AI里头去捞人的整个的经验跟能力,这样相当于把技能就通过AI转移到了机器人身上。

遥操作其实是把人的动作通过信号的方式转移到了机器人身上啊。你们从这些数据里获得的关键的维度是什么?视觉肯定是一部分,对吧?对对,还还有一些什么东西?对,我觉得就是能够全信息的刻画一个手的动作。这些是非常关键的维度。什么叫全信息的?就比如说它的,首先手本身来说的话,它是一个终端机构。所以手本身的位置它应该在哪?

姿态在哪里?第二个来说的话,就是你手要做动作,你手的所有的手指,手指它的这个姿态在哪里?第三来说的话,你可能不光需要知道它的位置,你还需要它是压多大的力。那么这些力来说的话,就通过触觉这种东西再把它再拿到。那么这些东西来说的话,其实你就掌握了一个人在做任何操作的时候,他的一个全量信息了。这个你们是靠一个手套就实现的,是吗?

就它不用戴到你的手臂上,对,不用戴到手臂上。我们靠手套。其实我们做的很多方式,为了非常容易的获得让人不难受的情况,我们叫被动采集,它可以非常稳定的拿到指尖的位置,拿到我想要的这些信号等等啊。这个位置是靠就是配合你们的第一视角的摄像机看到手和人的相对位置来确定它的位置的,是吗?嗯,它其实不是这么简单,因为你如果用人看到来说的话,打个比方,你想叠被子,你手掏在被窝里的,你是你是不知道你手在哪儿,看不见它。

对对对,就是我们会通过一系列的这种设计的方式,保证我能够拿到一个非常可靠的、准确的有输入。所以这个是为什么我们自己要做硬件,就是一个原因啊。这也是在创业前二四年就想到大概怎么解决的,是吗?对我的 B P D S

就画了手套,手套。哎,这个方案之前可以借鉴或者参考什么进展了?什么领域里的一些成果?呃,其实之前在做这些方面做的比较多的有这么几个领域啊,一个是虚拟现实 V R,然后 V R 来说的话,就你伸手玩游戏的时候也会有个假手。

但那个时候他的问题就是,他绝大多数都是靠那个VR眼镜上的一个摄像头,通过摄像头来定位的。摄像头定位来说的话,我们发现,首先呢,它还原的这个数据的质量还是不够高。另外来说,会有很多被遮挡的,比方说黑天麻地的,你也不知道它长什么样,对吧?伸手不见五指,啊,所以说这个它可以当做一种。然后,另外一种是,就是在一些电影拍摄行业,它有它的动捕服,有它的动捕手套。

这个我们也其实也研究过,我觉得它里头也有很多很有意思的技术,但是它也不是完备的。在拍电影的时候呢,它很多时候是你展现大致趋势即可,你并不会真的是要求它能够精确到毫米,精确到你想怎么操纵它,所以它是不完备,都是不完备的技术。那么我们就需要通过一些创新。因为无论是 VR 还是动捕,它都是一个便携式的东西,所以说它对算力是厌恶的,因为算力代表了功耗,算力代表了成本。

那么我们就会在对外就想,我应该怎么用神经网络去解决这个问题?这个东西是跟我们是一脉相承的。这个算力要做到手套里面吗?其实,对于我们目前这个场景来说,我目前的感兴趣的东西是采集数据。所以说,也就是说,这个算力实际上是类似于我自动驾驶 auto level 的一部分。对对对,啊,它可以让我调用非常大的算力去做它,所以效果能做得非常之好。

但是我们也有一个端上的版本,因为这样可以最大的程度上能够 offset 我很多算力到端上。所以说,我们也会有一个缩水的版本,然后放在手套里面。我们里面也有很小的一个芯片来做这个事儿。所以,反而在机器人这个领域里面去直接做手套的,之前没有那么多,是吗?没有,没有,他们不是为这件事情而设计的这个问题。所以它达不到这个要求的。

你看似他在做一个类似的事儿,但其实他不是。我是说,机器人领域里面啊,机领领域里面就是领域的玩家在做手套的是吧?嗯,没有,或者说以前的一些学术机构的一些研究啊,也没有。理论上如果有的话,就跟自动驾驶当年激光雷达一样,我直接买就好了。但是我确实没有找到,而且关键这件事情就是说,它不是为了打造具身智能而定义的这么一套传感器。

所以这套传感器需要重新 re 定义在上面。嗯,你后来看到那个 Sand Robotics 发 Skill Capture Glove 是什么感受啊?我觉得就这里 Glove 其实做的最好的是 Manus,Manus 其实就是我说的以前做镀膜行业出身的。它就跟那个 agent 产品 malus 的名字是一样的,是吗?

M A A U S 对对,它真的是跟那个名字是一样,所以很多时候大家会误解它是一个好像是一个丹麦的一个小公司吧,在动物行业里头是一个 vertical 的一个 winner。对,因为这个词其实就是拉丁文手的意思。对,因为就是手操这件事情,它它也代表我们大家对机器人未来的操作执行终端的观点,以及说你对你的企业未来想走到一个什么样状态。

就是我们是灵巧手的坚定的拥护者。我非常坚定的用户零销手,所以说我在一开始我认为达到中泰来说的话,就是中泰的操作终端就一定是零销手,那么我需要给他找到一个与之匹配的一个传感器,就是手套,而且手套来说的话,它会变得非常容易,非常容易去泛化采集各种各样东西,那么。如果说你设计手套非常非常有难度,当然这个这个问题我觉得我们解决好了。

如果说这个设计师个手套一个工学设计手套非常有难度的话,他会转向一个降维版本。这个降维版本就是说啊,那我们采集说也不要用手,我们强迫人用夹爪,它是个降维版本,或者说强迫人用一个三指,就像Sunday一样,是吧?他他觉得夹爪用来夹瓶子这种东西实在是太难了,有三个指头好用一点,所以它是一个人手的降维转版本。

它相当于什么?它当你把一个有二十多个自由度的手,通过一个工具把它塞进去,让你降维,你只能按照它既定的自由度去操作,然后再把这个信息。记录下来,那么对应来说,它在部署的时候呢,它因为它采集是降维信息,它也要部署一个降维的一个东西上,所以说它就graper到graper,或者是三指到三指。嗯,我刚刚提到三d发这个东西,你怎么想?

是因为我最近和一些人交流,就比如说有一些投资人或者市场观察者的观点是认为,中国的团队虽然有这么多,但是在一些引领性的成果上其实没有什么贡献。然后他们就会举一些例子,对吧?比如说 Google 最开始做了 RT Two,可能是开启大家去探索 VLA。你会在意这种事儿吗?你作为一个中国的从业者?我觉得大家还是要对中国的技术有信心。

我一直是非常有信心的,因为我自己就是从业者,而且我一直努力在最前沿去探索这件事情。我打个比方,比如说。像 Sony 这样的采集,其实我们做的比它可高级多了。我们二十多个自由度的,嗯,你们是五指手的手套,对吧?我们其实是市面上又做了一个两指的,啊,这个动物来说对我来说太简单了,所以我们也有两指的。你如果真的想认真做的话,能把它做得非常之好。

但是对于我们来说,我们想做的非常之好,我何必做一个三指的?对,所以同样道理来说,我为什么觉得大家一定要对中国的技术有信心?就是我可能今天跟你讲,你也许是第一次听到说,原来中国的第一个端到端自动驾驶是在二一年,是不是?大家是觉得二二年是特斯拉,其实不是。然后呢,在具身里很多中国的技术,甚至大家的认知程度是远远超过美国的。

其实某种意义上,很多时候是在中国的中国人跟在美国美国的中国人不就这这两个东西?我为什么对中国有非常强烈的信心呢?尤其是在具身智能层面上,就是你看到我们在做的所有事情,或者你看到在行业做所有的事业事情,你会发现,在具身智能的这个AI里面,它充满了硬件、场景、本体、数据、算法的之间的来回的交替组合。它其实不是一个把它简单的劈开,它是你中有我,我中有你。

比方说,我想打造一个非常好的AI,我需要想明白这个AI应该怎么做。那AI怎么做?它需要哪些模态?它需要哪些数据?那模态来说,我就需要想传感器的事情。数据我就需要想怎么样能够采集的事情。你一说你如果想把它量放到非常大,你就要把成本降得非常低,这里头也有很多创新点。然后我想获得一个完美的一个执行,我的执行器应该是怎么样子?

你会发现美国很多人大家在做零销手,除了特斯拉,其实没有人真正有能力认真在做零销手。因为特斯拉有一个强大的汽车工业来支持啊,所以特别是在具身这个时代,它完是完全是交织在一起了。其实,在自动驾驶时代,我觉得美国自动驾驶跟中国自动驾驶基本上打了一个大致的平手。然后我会认为说,在具身智能时代,美国的创业者不会是中国创业者的竞争对手。

完全不会。嗯,那回到你们现在就是采集数据这种方式啊,你之前也说到这一年你们其实是越来越有信心,因为数据到了一定体量之后,你能看到一些效果越来越好。对,你们实际上比如说它采集的量在一个什么量级?或者说它的增速是怎么样呢?对,嗯,增速非常快。然后目前我们采集量,我觉得差不多是在十万小时这个数量级,十万小时。

但是它的增速非常快。你们是从什么时候开始正式做这种比较大规模的采集的?我们是从今年的下半年,嗯嗯,因为我其实在去年的时候,我对整个的数据采集是非常乐,就数据这种方式非常乐观的。但是同时,我们整个团队我们也是比较谨慎的,就是我们先一点点试,先找一些东西把数据浓度打上去,看看这种方式有没有效果。然后发现哎,确实有效果。

确实有效果以后呢,我们就觉得这个东西需要把它量把它打开。那量打开来说的话,它其实需要一个硬件来支撑的。所以你会发现,其实你设计你真正想要的这个东西来说,硬件它也是需要很多创新跟开发。我们做了很多方式,把这个硬件的成本压到我们认为可以 scale 到我们满意数据量的水平啊,然后我们开始去 scale。

所以,我对明年我们的数据量会暴涨很多倍。在现在这种方式下,你们的主要成本一个就是这一套硬件的成本,对吧?然后还有一个就是你们要付一些费用给带上这个设备的去真实做任务的这些人吗?背后主要的成本其实是算力成因为我想问这个是想对比一下,比如说摇操它的成本是怎么构成的?就你们这个方式,它成本大幅降低的部分在哪儿啊?

其实一个最简单的理解是,摇操它需要一个机器人呐,需要一个机器人直接放到哪儿?嗯嗯,而且现在摇操的效率其实非常低,你成功率也低,第二它动作也很慢,所以摇操一般来说可能对比我们这种方式,我们可能踩十条,十条都能用的话,摇操可能最多只有一条能用。嗯,所以说它的要达到同等规模的数据,它对于数据的投入是巨大的。

你们有算过,就是单条数据这个成本大概差多少吗?比如说遥操在中国目前市场里行情大概是多少?我们其实比它要省两个摄像机。就是少一一百倍啊,一百分之一,至少,至少,可以说这种方式现在是不是变成一个趋势呀?因为我知道接下来应该还会有公司也会有这方面的进展。我我自己我自己认为,就是二六年就这种方式就会让数据大爆发,爆发到一个大家非常惊讶的地步。

据你所知,有谁在这么做呀?除了你们之外啊?当然,我我们来做的话,其实我们认为我们做的是更全量的信息,就是大家很多时候现在都会用假抓做事情。而且夹爪这件事情的门槛设计下来,它其实并不高。用夹爪这样的数据来说哈,就会产生很多很多的量。只不过大家后来发现,你再往上走的时候,你发现说,其实,如果说你刷 demo 来说的话,你用夹爪是可以的。

但是你如果想真正在打穿场,你用它来完成任务,你还是需要全量信息。所以说,你需要的环节一个都不会少。所以说,现在就是说,我觉得这种夹爪式的采集,很多人都会去用。然后手套式来说的话,他们发现他们其实就会遇到我去年的问题一样,就是你找到的各种各样手套都不如人意。所以说,这里头该迈过的坎,你还都得一个个都迈过去。

你就说,大家可能都还是得自己去开发一套这样的硬件。我知道现在其实也有很多公司啊,它希望能够让这个数据采集能够平等的赋能给所有的生态伙伴。我觉得这样也很好。你就说专门做这种采集设备的,对专门做采集设备以及做采集数据服务的,我觉得会。就跟自动驾驶一样,它会有这样的公司,也会有这样的产业。但是,就是像我跟你说的,其实跟自动驾驶行业一样,就是说,最懂数据的公司,往往是最懂AI的公司,它一一定是互相映射映射到的。

对你们现在怎么去解决?就是你要说第一道关卡就是数据的这个问题。对,嗯,然后在模型上面,你们有一个自己的提法,你们是叫做 A W E,就是世界引擎。对对,其实 A W E 它的缩写是 A I World Engine。对 A I 世界引擎,这就是你们用在具身上的目前用的技术模型吗?对对,这个就是我目前用的技术模型,就是还是我刚刚给您讲的,就是说为什么我们特别喜欢 World 这件事情呢?

对啊,尽管 World Model

其实到处都是,我们的。第一个选择就是说,我们最多的神经元,或者是我们最多的计算,是用来做什么东西的表达?我们认为应该是记录这个世界的时间、空间、力这些基本的物理量的表达。嗯啊,所以这个是我们如果是全天晚上把神经元的资源投入到最多的地方,而不是把它当做一个视网模式的表达,因为很多时候它的典型的VLM它是一种视网模式的表达啊,在上面它是记录一个它的local的pattern、它的texture、它的颜色等等这些不是我们的,是最多神经点,一定是记录的这个世界的信息。

然后这些世界信息来说的话,它其实不光是空间的占用信息,它还记载了说我跟他怎么去交互。比如说,我会挤压它,它会变成什么样子,它会怎么反馈我。所以这个是我们最多的神经点表达,这个是第一个。第二个呢,就是为什么把它叫engine呢?其实,agent它某种意义上,它也可以叫model,也可以叫其他的东西。就agent意思是说,这个东西它是动态演化的,它会被我机器人或者人它的action所改变。

那么你在人action去改变它的时候啊,它这个世界接下来又会变成什么样的样子?在这个过程中,他会推荐你应该怎么样去做。嗯,所以说这些事情,其实我们认为是这个网络里能够真正高效训练的这么事情。我认为所有高效认训练的网络,它都有一个特点,就是它真正的能够非常匹配你的一个任务本身,嗯,它就能够高效训练。所以我认为机器人它的任务本身来说的话,就应该被这么定义。

所以我刚才在讲这个事情。所以你们现在用的这个方法,具体来说,它并不是。大家讲的比较多的,我在 VLM 的基础上,我在这 action 到 VLA,你们用的不是这个?对我们不是这个,就是这个也也是我可以多讲一下,就是说来创业之前,我也自己想过这个问题。它的另外一个角度是说,你要从事这一个行业,这个行业值不值得拥有一个自己的一个基础模型?

你会发现,其实大家的基础模型都是跟着行业走了,对吧?那么。机器人行业它只不得拥有一个自己的技术模型,这个是一个很大的问题。如果说大家认为机器人的一个技术模型,这个行业的模型是一个VLM模型,它长出来一个头,它来解决,那么你就认为这个行业它不应该拥有的模型,你认为这个行业你解决的任务只是另外一个行业它的一个下游任务,是它的一个分支。

所以说这个我觉得是一个非常本质的一个论断。你会看到不一样的背景从业者对自己这件事情是有不一样观点的。啊,有的人可能认为说这个世界本质它可能是一个多模态的大模型,那么我的 action 只是这么一个多模态大模型掌握的一个分支。呃,我自己的认为说,机器人这个行业本身它值得拥有一个自己的模型。这个是一个观点。

其实,在二零一七年的时候,我进入到自动驾驶这个行业的时候,也是一模一样的事情。你只要知道二零一七年是个什么状态,是各种各样的CV模型发展层出不穷。然后你会发现,计算机视觉从识别到了检测,到了分割,然后你能想象到所有的任务,用 Name it,然后它都会有,然后它的数据集层出不穷,你会发现它网络越来越大,它好像非常有能力。

那个时候,很多我们做自动驾驶的想法是说啊,它这么厉害了。那我们自动驾驶能不能在它身上长一个出来?你都能够识别世间万物了,你先把自动驾驶的车啊、认啊路啊给我识别出来,然后让来做。但是当时我是非常反对的这件事情。我当时逻辑很简单,当时大家是怎么看自动驾驶?那个时候把大家叫AI皇冠上的明珠,是这么叫的。意思是说,你这个问题太难了。

你如果解决好以后,你可能就是个AGI的路。那我觉得,我跟他说,你都觉得它是皇冠上的明珠,你还认为它是一个三维模型长出来一个头子吗?它肯定不是这样子呀。那现在回到机器人来说,也是一样的东西,就是VRM来说的话,我们再把它打开一下。其实你把模型打开的很多方式是,你要看什么样的数据支撑的这个模型。现在数据支撑这个VRM模型,很多时候是问答数据,简单来说就是看图说话数据。

那么你说,你就教一个小孩,让他不停的看图说话,他能够知道他的这个世界中怎么做事情吗?我觉得他显然是不能的。所以机器人这个领域一定要拥有一套自己领域的,而且我认为具身智能能够展现出它智能的。规模它应该是远大于大家现在想象的一个多模态大模型的,这个是指什么?它能展现的智能规模超过多模态大模型?就是你看一个神经网络,你怎么评价它是不是更聪明、更有智慧,对吧?

然后你评价的事情来说的话,就是它在做一件事情的复杂程度,它的这个做事情事情越复杂,就代表它的智慧就越高。那么我觉得看图说话的一个模型,它的智慧复杂度没有复杂到那么样的程度上。所以你们现在的模型的部分用的并不是可能大家讲的比较多的VLA,那你可以大概分享一下它是一个什么思路或者方法呢?对我们设计模型的思路其实是很简单的,就是我一般喜欢设计AI思路来说的话是说,首先机器人领域它不是一个新领域,它是个很老的行业。

对,在古老领域啊,大家会看课本,这个课本就记录了说大家怎么样通过机器人学,然后把这套理论框架把它构建的一个过程。那么我认为这套理论框架其实是科学的。那么我们在做AI的时候呢,其实是在这套理论框架中用AI去重新迭代它,重新实现它。所以,是我们是基于这套思路把它弄上来的。就拿语言这个事情来说,语言它真真正正它起的作用是什么?

语言跟动作之间为什么要连结在一起?跟视觉之间为什么要连结在一起?它其实,在传统机器学习里头都能找到一些答案。传统机器学习里头还有个东西叫叫行为,他们会用一些行为树一些东西来来做它。其实语言就是描述行为的一个非常好的一个升维版,而且。以前大家非常难的是说,怎么把我的行为跟我的传感器的把它绑在一起?怎么把行为跟我的动作绑绑在一起?

在AI时代来说,话你发现这种绑的方式其实很简单。当然,与之对应来说,你要想到通过什么样的数据把它粘在一起?行为和动作的区别是什么?其实行为是一个更 high level 的一个经典的表达,它是一个类似于像战略跟战术一样这样的表达。你如果把很多动作能够集中在一个大步大颗粒的力度,它的好处是说你就可以再往前推延很远。

这个就是大家为什么常说的长城任务。如果你只是在动作或者在非常低跳的环境轨迹,甚至是电机的角度这个层面上,你想把一件事情推得很远是很难的。嗯,对,所以行为是由动作构成的,所以说它是一连串的动作。对,然后它是一个更加抽象的东西,比如说现在我跟你说话,对吧?我跟你说话,其实你听到的什么?你要不听到是我给你传递的波形。

空间震动的一个个波形了,那这个波形呢,就比较像是动作本身,但事实上你咱们真正传递的是上面的信息,对,是语义,是语义,对吧?是语义,所以相当于行为在机器人的动作来说的话,它更像语义这个层面,它具体的传感器,它整个动作轨迹,它更像波形。就你看到波形来说,你看到杂乱无序,但你看到语义来说,你觉得井然有序。

嗯,现在 V L A 里的 action 谁是动作?这 action 其实也是个挺有意思的东西,就是似乎现在这个时间点,大家对 action 定义不太一样。有的人把它直接定义成底层执行器的这个关节去要给多少电流,有的人会觉得说啊,你其实定义成一个轨迹,一维的一个轨迹也 OK,但没关系,就是它只是驱动一个执行器的一个信号了。

从我们的角度来说,我觉得 action 就 action,action 就是你能够驱动你整个物理系统最底层的那个东西。嗯,所以其实你们在这个上面也是有一些创新的,只是你们接下来一段时间还是先会闭源,对吧?是的,就是我们先高效的去把它叠到了一个比较好的状态。我觉得开源的使命是说,你能让很多用户能够以非常低门槛的方式能够获得价值。

所以说,我们先需要做到这一步,然后开源它。我觉得开源并不是简单说把一个模型啪拷贝到网上去了,但是没有人用它。我觉得开源它应该还是从它的价值出发,就是说,你开源的目的是为了让更多的用户非常低的门槛能够享受到你这个东西带来的价值啊。大家很多时候会说,具身领域还没有。找到自己的 scaling law,嗯,或者没有进入一个 scaling 的状态啊。

首先是你怎么看这种评价,以及你觉得如果现在没有到的话,那可能接下来会怎么到达这个状态?我觉得具身领域的 scaling law 是非常明确的,它是一定可以到达的。大家判断随行道一般来说可能会有两种判,一个是看结果,是你的性能是不是引刷到这个状态了;另外一个看增长的趋势。如果是看增长趋势,我觉得毫无疑问,我们是现在非常明确的判断,它就是在scaling的状态。

可能对于行业来说的话,可能在整个的明年这一年来说,也能看到一个明显的明显的进步啊,在上面取决于你怎么定义它能够到达的高度。然后呢,其实我觉得scaling很多时候,它对于一个新行业,巨声这个行业,它的冷启动时间为什么会长呢?就是因为它一定要三个阶段按照顺序来。就是数据算力,然后还有这种交互的环境跟技巧。

那么大模型为什么好呢?是因为数据这个墙就没有了,直接跳到第二阶段,所以迅速的就起来了。自动驾驶其实在一九年之前就没有这件事情。从一九年到二零年以后,好的公司慢慢憋数据,然后接下来大家看到了,对吧?然后具身智能也是一样,就你先迈过数据墙,再迈过算力墙,再迈过第三堵墙,它都是一样的啊。回到最开始的问题的话,就是以你们现在的进度,或者说以整个行业的进度,你觉得什么时候会出现二零二一年?

大家在智驾的任务上用端到端看到很惊艳的效果的这个时刻,对于巨声来说,我认为巨声会更快一点。但是我保守估计的话,我认为至少是同频的。比如说,从一九年认认真真开始去搞端到端,伪数据到二一年能看出效果。我认为从二五年认认真真开始搞这件事情,到二七年就一定会有效果。但是从我们目前的进度来说的话,我发现它是变快的。

那整个行业你觉得会有人比你们更快吗?或者说整个行业最快会在什么时候了?我觉得整个行业速度,就它的平均速度来说的话,它是越来越快的。就是我觉得二五年你你会发现会有很多人决定做这件事情,然后二六年就是我给你预测的,它的数据会大爆发。嗯,不管它是什么样的数据吧,数据大爆发必然会伴随着AI能力的提升,所以这是个行业平均速度。

但是里面玩家他肯定会有快有慢,所以这个东西其实也很难预测。然后对于我们来说,就是努力做好自己嘛。所以说,我们希望能够在这条路上能一直非常快的去迭代下去。嗯,当那个时刻来临的时候,会出现一些什么信号啊?一些什么可观察到的信号啊?我可以这样预测一下啊,就是我觉得二六年的时候,大家能够看到的demo视频变得越来越多了。

但是视频这个是跟早年自动驾驶情况是一样的。你发现早年自动驾驶大家都在放视频啊,是因为啪啪啪,你有套方法,你刷出一套视频,然后呢,会有越来越多人有信心进入到vertical领域。会有进入到垂直领域,因为数据多了,如果你的领域足够小的话,你的浓度变高了,所以看起来这个场景容易被解决掉了啊。所以会有越来越多人,就不管他是怎么表达自己,但他会诚实的进入到一些非常 vertical 的领域。

然后呢,同时来说的话,对于这种通用的。具身的能力,从平均意义上来说的话,整个行业会看到它的能力越来越强了。所以说,行业对具身这个领域的信心指数会不断往上升,大概是这么一个状态。信心指数升会体现在什么了?比如大客户的一些采纳,是吗?我觉得会的。它是这样的,就是说,我认为,首先第一波信心指数升的还是应该是早鸟用户。

因为很多时候它是这么分的,就是其实越大的客户越注重它的使用价值,越早鸟的客户越能看到它更远未来的潜在价值。对于我们来说,我们并不打算去 demo 去做这些事情,而是我们觉得这就是正确的做事情的方法。所以二六年我们会非常非常聚焦的把实际的价值做出来啊!我认为这个才是我们真正感兴趣的事情。对,我觉得具身领域的噪音可能会更多一点,或者说更难去辨别。

比如说大客户采纳这件事情,其实如果一些大的产业方投资了某些公司之后,你现在就可以看到很多这样的合作。对,但是你作为一个局外人,比如说你不是这个产业方的人,你也不是机器人公司的人,对,其实你很难判断这个合作到底是一个什么样的程度,是不是真的在产线上可以去产生价值的那样用起来。我觉得其实合作,其实它往往还是要回归到合作的本质。

就是商业上的合作,它都是互惠互利的,本质上就是商业合作都是通过技术跟产品创新,它创造了一个价值池子,让大家在这个价值池子里头怎么共享这个技术创新带来的收益。所以核心是要把这个价值池子把它做出来,所以这件事情是比较重要的。这个价值池子做出来以后呢,自然而然就会有合作伙伴进来。如果没有价值池子,这个合作它可能只是一些表面上的合作,并不会有实质上的合作。

你们接下来会重点去落的场景是什么呀?我们自己的判断是认为,其实所有人做机器人,他的想法可能都差不多,就希望我家里有机器人啊,或者我身边有机器人。但是,我我认为进入到消费者市场来说的话,这个时间点还是严肃的。所以说,我们会在第一个场景来说的话,我们会进入到现在已经出现机器人的场景,比如说工业制造啊,类似于这样的场景,就是我们刚开始还是想解决机器人在生产力上的诉求,看它能不能成为新式生产力的一种啊。

而在这些场景里头,它其实涌现非常大量的真实的需求。而且这些需求来说,很多时候反网颗粒度比较大,但是这些需求它被遗留下来,就是因为之前的机器人技术实在是解决不好它们。那么这些就是我们非常感兴趣的啊,我们也事实上正在做的事情。你这个可以讲一些具体的吗?对,我觉得比如说像这种精密柔性的,类似于像线束的它的制造等等。

线束的制造,比如线束它本身来说是一个非常大的行业。就你可以讲讲,比如它对应到大家日常生活中可以接触到的一些什么工业生产品的品类。哦,其实只要你有电器的地方就会有线,比如说汽车、电冰箱。洗衣机、空调,然后比如说家电、白电、服务器,你只要有电的地方就会有电线,有电线的地方,其实你就发现这件事情,它的制造对于机器人来说是一个非常难的问题,因为电线,你其实我自己理电线我都不想理,我理的也乱糟糟的。

理线啊,对,然后你就把一根根电线能够按照相应的方式能够把它。组装成一个非常整齐的它的这套东西,就是就是涉及到线束的装配,还有呃插排插拔这些工序,是吧?对对。手机里这么精密的可以做到现在?手机其实反而是一个自动化非常充沛的行业,因为手机来说的话,它很多时候它会采取PCB或者是软排线,然后来直接。通过平手机是一个典型的平面加工工艺,它所有都是一排排把它平面把它垒上去的。

所以对于机器来说,比较难的反而是立体柔软的这种加工工艺。不过苹果的产线下面还是有很多人呢,还是有很多人在做组装。对对,非常非常多的人。其实你说的也对,就是说苹果产线很多,它难以就难在这些点,就是比如说它有插接,它尽管它可能都会是一个平面组装工艺,但是还是有一些socket它需要去抓。然后第二来说的话,平面组装工艺呢,它需要一层层堆叠,所以它需要把做螺丝的固定啊,做其他固定,还有一些柔软的东西,其实全部都拿来这些地方。

嗯,你们现在有什么可以透露的具体在合作的客户吗?或者说你们实际上在你们想去用的这些场景里面已经用到什么状态了?我们现在因为我们解决的问题非常的真实,而且用户也非常痛。其实现在愿意跟我们一起来合作的用户其实是非常多,所以说我们现在更关注的问题,其实也是用户最关注的问题,就是说我们要聚焦,把这个问题能够非常干净漂亮的把它解决掉。

这个是我们包括我们跟一些合作方。在一直往前推进的。其实不管是我们还是我们的用户方来说的话,我们合作方式都是说大家非常想解决好这个问题,然后我们一起快速的往前去迭代。嗯,我还有最后一个问题啊,就是具身这个领域,其实理论上来说它的门槛应该是比较高的,因为它是个很复杂的,综合了很多技术的一个系统,然后或者说一种产品。

对。但是另一方面,中国又有非常多的具身团。对,而且直到现在也有很多新的公司在涌现。对,你觉得我们怎么去判断,在这么多的公司里面,什么公司是真的相对靠谱?在比较扎实的做事情呢?我觉得可能每个公司都是靠谱的。就是我觉得好的公司的最重要的事情,就是说,首先他要想清楚自己要成为一个什么样的自己,就定义好自己未来想成为的自己,这件事情很重要。

我认为,如果公司没有想清楚自己要成为一个什么样的自己的时候,他就在他的一个不靠谱期,对吧?我们在这些方面,我们是明确,我们对外,我们大概就知道我们想成为什么样的自己,我会努力成为这件事情。所以说,我会认为,至少说在这个阶段,我觉得也可以不用特别关注别人都在。想成为什么样?就除非你想成为别人,但是我觉得想成为别人这件事情不是一个好选择。

好,谢谢啊!今天感谢陈亦伦、陈博做客晚点聊,分享了你创业的起点和契机,你看到的具身智能领域的曙光还有关卡,以及在第一道我们现在正在面临的关卡,也就是数据上,踏实是怎么去思考、怎么去解题的。我们也推演了行业接下来的节点和可能的落地进度。再次感谢各位,拜拜。本期雷点呈现分享万定聊的几个往期采访。一是二四年底,我和楼天成聊了 RoboTaxi,这被认为是机器人的一种特殊情形。

教主讲了小马过去几年的探索,核心发现是模仿学习(learning by watching)遇到了瓶颈,再往下要达到 L4,需要 learning by practicing,具体用到的方法也是强化学习。而小马定义中的世界模型,就是训练车来做强化学习的一个环境,是制造车端模型的 factory 工厂。

这和本期中车英伦聊到端到端之后,自动驾驶还有具身等物理世界的 AI 接下来的演进有相似的观察。车英伦认为,关键是要构造一个世界模型,让车辆等机器人。学会如何与其他车和其他行人交互,这是他理解的世界模型解决的问题。而 VLA 则是解决在开放世界里机器人本身怎么运动、怎么去完成任务和适应环境。二是关于具身智能的数据获取。

这是陈亦伦看到的具身的第一道关卡。往期在八十六期与清华插院的徐华哲,还有一百一十二期与千寻联创和首席科学家高阳的节目中,我们都讨论过数据。有人做真机采集,就包括真机摇操和本期聊到过的手套这种方式,也可以照 UMI(Universal Manipulation Interface)的采集方法。这

universal manipulation interface 的采集方法,用更便携、简单的可穿戴设备,直接获得人手去工作时的数据,然后再把它们用到机器人上。

也有人压住仿真,或者从海量的视频里去找到可供机器人学习的数据。现阶段,归类不同具身公司的一个核心方法,就是看他们怎么获取数据。本期节目就到这里,感谢收听。如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法,这也会成为我们节目的一部分,让整个讨论更完整。你也可以把我们的节目分享给对这个话题感兴趣的朋友,推荐更多你想听的主题和嘉宾。

你可以从小宇宙、苹果Podcast等渠道关注“晚点聊Late Talk”,也欢迎关注我们的公众号“晚点Late Post”。下期再见。