但是呢,我们测了很多这个模型,这成功率就就非常非常低,低到多少?比如说像那个测派零的时候,我们只测出来了百分之,我记得二十多啊,那就是说基本上你看四次,它只能成功一次,就就三十个任务的平均数。哦,那时候我们自己心里其实是很慌的,就是如如果把这个成绩对吧,最后又公之于众了,那大家是不是说对整个行业都没信心了呢?

对,然后直到派零五的权重公公开了。然后我们第一时间去测,然后测完之后,哇,非常的震撼。就,嗯,其实这个问题它的本质的原因是因为具身智能的模型在执行的时候,它需要一个物理的环境跟这个模型进行交互啊。因为这个物理的环境,比如说我家的杯子和你家的杯子就不一样。那么,比如我的模型它成功率低,它到底是因为把手不一样,还是因为我的模型真的差?

对。嗯,因为现在真的就是 scaling data 可能是二六年最重要的一个主题。我们自己的尝试是仿真的数据的这个 diversity,就它的多样性比较难以提升的比较高啊。那你说现在机器人除了叠衣服之外干什么呢?就是机器人时代里的那个 coding 它是什么呢?我觉得这个可能是一个很核心的这个问题。

欢迎收听晚点聊,我是曼奇。虚拟空间的大模型有大量 benchmark 测试,非常直观。而在如火如荼的具身领域,怎么衡量模型能力本身还是个需要探索的课题。这期我们邀请了两位具身智能的从业者,元力灵机联创范浩强和千寻智能联创与首席科学家高阳,一起来聊具身模型哪家强。也就是具身模型的测评,两位都是清华校友。

范浩强从高三就开始在旷视工作,有丰富的计算机视觉开发与落地经验。高阳回国前在伯克利贝尔攻读博士,和派的联创 Sergey Levine 有诸多学术合作。去年十月,元力灵机和 Hugging Face 一起发起和上线了 RoboChallenge 开源测试平台。在前不久释放的最新测评结果中。千寻的 Spirit V 一点五模型登顶榜单,表现超过了 Pi 零点五。

在 RoboChallenge 的测评中,机器人不再只活在精挑细选的 demo 视频里,而是要在多样化的 Table 三十任务中接受真实世界的毒打,包括碎纸。插花、扫二维码等等,我们与小强和高阳一起聊了具身模型测评的难点,RoboChallenge、Robo Arena等目前的大规模测评尝试是怎样的思路?

行业里心照不宣的 demo 工程,以及 2026 年我们可能从哪些路径逼近具身智能的 GPT 三时刻?小强和高阳说:“组织与参与测评的过程本身增强了他们对具身的信心。从派零在 Table 三十任务上只有百分之二十的成功率,到派零点五的翻倍成功率和一些国产模型的超越,具身仍然非常早期,但进步速度也非常惊人。

下面我们正式进入节目吧。”这一次的节目,我们请到了具身智能领域的两位一线的从业者,Dexmo 原力灵机的联合创始人范浩强,千寻的联合创始人高阳。嗯,两位可以和我们的听友和观众简单的打个招呼,然后简单自我介绍一下你们之前在 robotics 和具身领域的一些经历。大家好,那个我是范浩强,一般都叫我小强。

原力灵机的话是二五年三月份刚刚成立的那个一家具身智能的创业公司。喊上了很多之前旷视时候的这个老同事们啊,以及一些新的这个加入的伙伴,我们一起做的这么一家这个企业。啊,我们原已经计划主要还是专注于具身呃智能机器人这个产品及相关的应用,另外的话我们还会做里面的AI的相关的这些技术。嗯,大家好,我是高阳,我现在是呃千寻智能的联合创始人,然后现在也是清华大学交叉信息研究院的助理教授。

我自己做这个具身,就是已经有好好多年头了。最开始是在我在 UC Berkeley 读博的时候,最开始做计算机视觉,然后但做到大概博二的时候,就开始跟比如说 Sergey Levine 啊,开始对于机器人这些比较感兴趣。所以那个时间点,可能大概是一六年左右吧。博士后半段呢,我就做了很多这个具身机器人视觉的一些融合的研究。

我们当时都讲什么模仿学习、强化学习,但今天其实把这些技术聚合到一起,就是所谓的具身智能。我大概是二零二零年开始在清华开始任教,对,然后这中间其实经历了像 ChatGPT 这个浪潮,然后让我觉得,哎。这个其实我们已经掌握了通往AGI的一个道路啊,于是啊,我们在二三年左右的时候就开始去,就包括我和韩孟涛啊,包括郑林,我们一起联合创始了这个千寻智能。

然后我们的这个目标呢,其实就是做具身领域的这个最强的这个模型啊,然后以及想把这个模型能够一个机器人硬件的产品形式能够。啊,让他走进大家的生活哦。因为两位都是清华的校友,你们是同一级的吗?还是我是林挺多,我是林子班的。对,我是一三年上的本科。对,因为我的这个过去的人生,其实大部分时间其实花在了旷世身上,就是我差不多从一二年开始。

那个加入旷视,旷视二那个一一年成立的嘛,对,所以我的本科生涯其实一直是在做这个计算机视觉创业的这个过程中度过的。我上次跟那个元力的创始人唐文斌聊,他说你高三就去旷视上班了,是的,是的,那一二年刚好,因为因为他那会儿保送了嘛。就是那个信息奥赛,你是得了金牌保送之后,所以高三其实就有挺多时间是在旷世工作的啊。

对对,那时候他那个文斌他刚开始弄嘛,然后那时候那个计算机视觉还很新,那时候甚至还没有 deep learning 这个东西。啊,完了之后最最早是拿什么SIFT那些特征SVM分类器去搞啊,但是搞的时候我就觉得特别有意思,就是说跟这些真实的这些图片啊数据去打交道,我觉得这事儿特别好玩。后面这个Deep Learning神经网络这个技术来了之后。

我们就非常笃定,就觉得哎,这个技术不只是说发 paper,一定能能实用化啊。那个我觉得是说是可能过去一段时间对我影响最大的这么一个一个过程,就是最早的时候,比如说做旷视时候,那个人脸识别可能最早成准确率只有百分之八十几,你就识别个五个人,可能就肯定会错一次了。那后面一路做一路做,差不多最后做到了十二个九,就是九十九点九九九九九九九九九,一共十二个九的准确率。

对,所以在这个过程中,我发现就是说,只要这个算法原理是对的,然后投入大量的这个聪明才智和付出这些勤劳汗水,那个技术一定会给回报。就是这个点给我冲击特别大。嗯,对,我觉得正好两位的背景也是,就是有相似的地方,然后也有就不一样有互补的地方,你。然后这次想请两位来聊的话,是我觉得大家非常关心的主题,就是具身模型哪家强。

然后翻译一下,就是我们现在到底怎么去测评一个具身的模型?背景也是,呃,元灵灵机这边和 Hugging Face 你们一起发起了一个新的测评的平台 Robo Challenge。然后其实千寻,包括中国还有很多别的公司,还有海外的一些公司模型,其实都有参与进来。那你们可以讲讲,就是这个 Robo Challenge 的背景是什么?

什么?比如在这之前,大家是怎么来测具身的模型的?然后你们现在新做的这个评测的标准,它不一样的地方是什么?这个呢,我大概讲讲,就当时搞 RoboChallenge 的背景,就说 Robotic 其实看这个 research,它很多时候很像做图形学。就可能比如说每个文章一定要有几个就叫 demo

video,那可能他做那几个任务看着很酷啊,并且呢大家一般都是我们叫 cherry pick 出来的,就可能你录了很久,最后有一条好的,那就拿出来去告诉大家,至少这事是可做的啊。

然后另外的话,比如说做这个 benchmark,那可能大家绝大多数还是依赖于就是仿真测试。啊,因为那个东西它测起来相对容易一些,避免 noise,啊,相对可控。那比如一般来说真机的话,甚至可能说最好的 paper 也就放三四个任务,大概试一下。啊,并且的话,就是不同 paper 放那三四个任务还不一样,啊,那可能可能比如都叫 table basing,但是说那他测的和另外一个人测的就完全不一样。

对,就是说我们干 RoboChallenge 这事儿,其实最大的问题在于,就是我们自己也研发被困扰了,啊,因为大家是当年那个就是一点点去 input 一个模型走过来的这个人,现在发现没这么一个榜可做,这个突然感觉这个迭代呀、实验什么的感觉就非常的这个费劲,所以我们当时就问了一个问题,我能不能做 large scale 的 robot 的这个 evaluation?

嗯,就是说,最终你要想把它这个方差控制住,最终还是得测很多很多次,对吧?那不只是说大家测三四五次就去评价这个模型,而是说我能不能至少测个几百次的这个执行,然后把这个成功率平均下来,也许这个指标是能有一些意义的。啊,那一旦想到了这点之后,很多东西就顺就来了,对吧?那一旦要想做 large

scale,那这些任务本身的格式和描述都必须得是标准化的,得是 standardized,啊,然后这个测试这个 protocol 必须得足够这个通用,能够兼容这个单臂啊、双臂啊不同的这些机型之间的这个区别。

啊,那把所有的这些东西放在一起之后,那我们就大概有了做这个 RoboChallenge 的这么一个这个雏形,对。然后 RoboChallenge 做过程中,其实有段时间一直很困惑,就是我们选了三十个很我们觉得对人来讲很 trivial 的任务。就是你肉眼是否是琐碎和简单的意思吗?呃,就是简单,就是简单的,就是你人一不可能失误的问题啊。

比如都是说把一个东西从这儿拿起来放到另一个地儿啊,或者说稍微复杂点儿的,可能比如说拿张餐巾纸擦擦桌子,你让一个一个人干,他绝对能够百分之百一定干好。啊!但是呢,我们测了很多这个模型,包括那个开源的派啊什么的,就当时就这成功率就就非常非常低。低到多少?比如说像那个测派零的时候,我们只测出来了百分之,我记得二十多。

啊,那就是说,基本上你看四次,它只能成功一次。你说的是哪个任务?百分之二十?就就三十个任务的平均数。哦,那时候我们自己心里其实很慌的,就是如如果把这个成绩对吧,最后又公之于众了,那大家是不是说对整个行业都没信心了呢?你们当时这是测派零是呃几月份啊?呃,我们差不多从七八月份开始想干这事儿的啊,那那时候派零五的权重还没公布,所以那时候我们自己其实心里很紧张的,就是如果你一个

benchmark 把大家分数都测得很低,它就不是个好 benchmark。

对,然后直到派零五的权重公公开了,然后我们第一时间去测,然后测完之后,哇,非常的震撼。就它那种震撼,就不光是说你看那个成功率,你就站在旁边看那个机器运行,你就觉得它比之前的模型都更灵光一点儿。哦,这这种这种感官体验,我们就对我们冲击非常大,我也给我们很大信心啊。这个这个行业的确是在很 concrete 在往前进展的,所以我们就想,那那我们看见这件事情,我们也想把它分享给大家,对吧?

甚至说,我们也很想见证,凭什么第一的模型都得是人家国外发呢,对吧?那那那那就说国内这些模型,大家之前都是在 P R 上说自己是第一,对吧?那有没有种方法能让,甚至比如说

maybe。其他人也信服的方式,那么我们能够去卖、去见证,就是说好的这个国产模型诞生啊。那在在这些想法的叠叠加之下,我们最后就说要搞 RoboChallenge 啊,并且啊要把它做成一个 community based 的这么一个 program。

就那就是说不光是说说灵机干了多少事,其实是要把。对,公司这么都拉在一起,啊,大家一起去把它做到尽可能的客观公正,在技术上严谨,啊,最后是本质上是希望是说能让,就是可能具身圈子的外界也能去承认是说咱们的这个具身,那不光大家发了很多新闻,而且它真的是有非常非常 concrete 的技术上的进展的。所以从派零到派零五,就你们自己测试的这个变化,至少证明在全世界范围里是有人。

在比较短的时间里,把具身的模型的性能提升的很快。其实也不短了,在原来模型,人家派之间也隔了挺长时间了,隔一年吧。但是我们觉得,就是这种对比和冲击,你会觉得哇,这这一定是下一代的东西。那实际上把这个成功平均成功率,就你们的那三十个任务,从之前派零的百分之二十提升到了多少?派零我记得是四十几是吧?四十二,四十二左右。

派零五十,四十二左右。对,而且翻倍了,对,而且它很多任务就是简单 fine tuning,它都能做到百分之百。比如最简单那个什么叠板那几个任务,他他就很放心,就就是你会觉得他哎学了可能多少条之后,他真的就不会错了。这个其实就是说,我觉得是非常强的一个信号,就说这个具身模型,它 is improving,它正在逼近那个临界点。

嗯,啊,虽然可能现在还没有达到。对,所以总结一下,其实你们最开始做这件事情,它有一个思路是想把以前你们在计算机视觉,包括比如说像 NLP,就是那些更纯虚拟空间里的模型的那种测评的方法,也迁移到就是具身里面,对吧?那正好,我想就是请高阳补充一下,因为你从一六年开始,你读博士,其实你一直就是在做这个 robotics 相关的。

那在此之前,大家行业里。是有什么公认的方式来大范围的去评估不同模型的能力吗?其实大家意识到这个问题很久了,但是呢,就是因为我刚才讲那个原因,就是不同的,嗯,就以现在以前现在有很多公司嘛,然后大家有更多的资源来做这件事情,比如说元力这边做的

RoboChallenge,我觉得是一个非常好的尝试。但是以前因为没有这些做机器人的公司,所以相当于都是一个一个独立的高校的实验室在尝试去,啊,有这些 efforts。

但高校的实验室,啊,其实大家也提出过类似的方案啊,也是和呃云内支援比较像,就是哎,我有一个机器人,然后我有一个场景,我这个场景就在我的实验室里,保证可以复现,然后你可以远程连到我的这个机器人上。其实这一个想法在学术界很早就已经出现了,就是我知道的最早的是,呃,卡内基梅隆大学的这个 Abhinav Gupta,他在我忘了多哪年,反正至少我读博之前他就已经。

啊,有过这样的一些尝试,对,然后后来又有很多就是类似的尝试,包括黑呀,然后包括我记得上交陆策武老师也有一些类似的一些尝试,但这些尝试因为啊是比较小规模,在一个实验室里面,然后高校的实验室往往随着一个学生的毕业,这个 set up 就没有人管了,然后嗯嗯,并且他测的场景也比较有限,可能他只能测那么一两个、两三个任务,因为。

一个实验室的这个空间也有限,它的机器人也有限,然后也没有那么多人去看着这个机器人去测,然后去,比如说帮助这个机器人复位啊等等,这里面有很多人力的一些事情需要去做。对,所以学术界就这样,就是说有这个

idea,但是没有足够的资源能让它。成为一个能够连续运行,然后并且被广泛接受的一个事情。那以前机器人的模型另一个痛点就是说,大多数模型你让它做一件事,它根本做不了啊,因为以前的机器人模型其实并没有VLA模型。

现在的是说我能做,但是可能我的成功率没有百分之百,但至少我现在的模型是什么事情,对吧?理论上来讲我都可以做,但以前的模型或者以前的机器人算法,它只能对吧?我只能缝一个手绢儿,或者我只能剪一个东西,你让我去做一个其他任务,它根本做不了,就它只能做一个单一的任务或者少数几个任务,对它对于任务的这个限制是比较强的。

那么所以我觉得是因为这两个点,所以。我们今天会一个是对于这个 benchmark 的需求也更加强烈,另一个是技术也到达了一个拐点,使得我们真的可以开始做任何任务。对一般普通人来说,可能会觉得你最直接的方式就是把这些机器人都弄到一个地方,然后我们来测,让他们做一些任务。为什么直接测试的这种这种最直观的方式其实是不太行的?

同的,在这个领域,其实这个问题它的本质的原因,是因为具身智能的模型在执行的时候,它需要一个物理的环境跟这个模型进行交互啊。这个听起来它其实并不是很难,但是实际上你在执行的时候,因为这个物理的环境,比如说我家的杯子和你家的杯子就不一样,可能我这个把手是,对吧?就我们现场这几个杯子的把手的。都不太一样。

那么,比如我的模型它成功率低,它到底是因为把把手不一样,还是因为我的模型真的差?就是因为有很多这种物理的因素导致啊,以及我们比较难以在就是不同的地理的条件下有一模一样的场景。那这个一模一样也包括了,比如说这个物体一模一样,然后它的摆放位置,然后光照啊。这个等等,所有的东西都一模一样,所以这个是一个就是困扰机器人非常非常多年的一个评测的一个问题。

那这个岂不是正说明了,就你这模型的泛化很差吗?难道要一模一样才能测吗?对,就是,呃,我觉得这个是这样的,就以前的模型泛化性很差,所以你得一模一样才能去比。但现在的模型它已经变得越来越好了,它可能不太需要一模一样才能让它成功。但如果比如说我们做实验的时候,我们还是希望这个评测是一模一样的,因为很多时候,比如说一个创新它可能带来的提升也就是百分之零点几,甚至就如果一个创新很大的话,它可能提升也就百分之五。

但如果能评测不够准确的话,可能你就看不出来这东西是一个创新,可能你就不能正确的衡量这个东西到底是进步了还是退步了。对对,嗯。然后计算机视觉的这个时代,因为大家就只需要一个数据集嘛,所以你可以把那个评测做得非常精准。但因为机器人它需要真的去执行一个轨迹,你就很难有这样高的一个准确率啊。这个说到计算机视觉,我感受很深,就是刚才说,比如说从八十级到弱角,其实它每一步的小的那个

improvement,你拆开来看,都是只是一点儿点儿,就刚好比上一次曲线盖住一点点儿。

啊!但是其实就是靠无数这种小的这个改进和创新,一点点堆上去,它这个才是整体的往上走的。对对,我觉得这可能是说,就之前比如做视觉的时候,它的一个privilege就是说,它的测试是非常可重现的,并且那个样本足够多的时候,信噪比可以。对对,但机器人的话。他没法这么搞,这这真是是,就是我记得有句话叫做叫 robotics about noise,就是你很难去永远控制住一个物理世界里所有的这个东西。

嗯,就是还是有很多噪音。对,所以现在就是我们反而就说跳出来想,就是说那我可能追求不是说我百分之百能去测出来这个,比如说 measure 出来这数字,就是说说是百分几,那百分几都不差,而是说它要能够去反映这些模型发展的趋势。对吧?就当比如说几个模型之间有比较明显的代差的时候,那的确测试的这个结果也是能够明显看出差异的。

嗯,啊,那如果说比如说它其实都大差不差,那最终的分数也能集中在一起,对吧?那我觉得就是能把这种大块的这个就是这个区别给做出来,我觉得可能是现在去做这个 evaluation 的使命。嗯,毕竟咱们现在都很早期,他还不是个说比你是九十九,我是九十九点五的这个阶段。现在比的是说,哎,这个他是零,我不是零。

所以从这个角度讲的话,我们觉得就是说,那那包括现在来看,比如说现在这个榜单上他那个很多成绩,你看最高那也甚至也从。就说那六十分都都没到呢,那我觉得这反而可以为之了。就我们就是把它卡在一个现在叫敏感区,啊,就不同模型这的这个区别可以被放大,啊,那这样的话其实它是去能够更好的 measure 这些模型之间的区别,也就是说大家这些模型代际之间的这个。

进步的这么一个一个样子。那刚才其实你们也稍微提了一下,就说之前还有一种跑 benchmark 的方式,就是在仿真的环境里去看一个模型,它在仿真环境里表现如何。但是那个东西是不是对应用的意义没有那么大,或者说它仿真环境里的表现到实际我部署到一个真实机器上,其实 gap

会比较大。对,是的,就是其实对,在学术界另一条路线就大家就是想用一些仿真器,那么这些仿真器你就只要把代码开源出去,每个人去下载仿真器,只要这个代码是一样,它跑出来的结果肯定一样。

但是这里面也有很多难点,就是仿真器它往往不够真实啊。然后,并且仿真器里面,呃,这些轨迹呢,它的采集,呃,很多轨迹不是人类的摇操作去采集的,而是他写了一个啊程序,写了一个,你可以理解为。啊,说我先要挪到这个上面,再往下走,再抓。那么这种程序性的轨迹,它呃,就和比如说我们真实世界,比如说遥操作采集的轨迹就非常不一样,因为它的这个相当于呃,它的这个状态的数目很少。

在这种数据上学习也不是能够充分反映这个机器人在现实世界的表现,所以学术界有很多在这种这个仿真器上的一些工作啊,然后他们呢就是能够反映一些算法的。进步,但是大家尤其是机器人的会议,往往不接受一个论文。说如果这个论文里只有仿真器的结果,我就这个论文很难被接受,因为审稿人也知道这个东西不见得是能够在真实世界具有同样效果的,所以。

呃,当然,现在仍然有很多啊学者,包括李飞飞啊,然后包括呃MIT的Russ Tedric啊,他们仍然在有一些仿真器这方面的一些努力啊。然后也不是说这个事情完全不行,但是它是一个很难的一个事情。因为你刚才讲到,就是有两个变化,一个是技术本身的变化,就机器人可以做很多任务了;还有一个就是有更多的公司出现,然后更多的创业者出现,大家也需要这样一个更大范围的评测。

那除了就是你们在做的这个 RoboChallenge 之外,全球范围还有什么类似的事情吗?RoboArena 其实也也渐渐渐做起来了。Robo Arena 这个发起方式是 Physical Intelligence

啊,就是就是派对,就是派他们的做法。其实和原来的那个实验室的做法比较像,但是它多了一层分布式的这种机制啊,就是说它不再依赖于某一个实验室,而是啊,相当于号召全球很多实验室都每个人参与一点点进来啊,然后在每一个参与的实验室的这个机器上,每次跑两个这个算法,然后去比较谁好谁坏。

那么,假如说你有足够多这种。sample这种观测的话,你就能够去对所有算法有个排序。但是这个方法的有一个难点,就是说不同实验室的环境是否特别一致,是吧?嗯,其实这个方法就没有这个问题了,就因为他每次是在同一个实验室的同一个机器上跑两个算法,测的是一个零样本泛化的一个模型,它不是测的这种微调的模型。嗯,可以解释一下 zero shots zero shots 的模型啊。

其实这个就是是这样的,就是现在的具身模型还是一个比较初级的一个阶段嘛,所以。那大模型,比如 GPT 四,你就直接上那个这个,比如说 OpenAI 的网站,你跟他说什么话,他就能直接给你回话啊。但是在大模型发展到比如 GPT

三的时候,这个模型它能跟你说的话还是没有那么有道理的。啊,那在那个时间点啊,大家就会拿一些啊专家的一些数据啊,比如说你问他啊这个什么今天这个股市怎么投资,然后有一个专家给你写一通回话,用这些专家数据去微调这个模型。

如果你用了专家数据微调,我们就叫做这个模型是 few shot 少量的样本对少量的数据去微调。那如果你的模型已经非常非常强,你不用任何数据,这个模型就直接能给你一个合理的解答,我们就叫它 zero shot。然后现在就是派的那个 Robo Arena 是一个 zero shot 的一个设定,就是它假设你模型足够强,你可以做任何的事情。

元零零七这边的 Robo Challenge 是一个 few shot 一个 setting。这个 Robo Challenge 和 Robo Arena 的区别是什么?现在 Robo Challenge 的一个测试,它整个的流程是怎?对,首先我们测的还叫 function 的

model,也就是说有三十个任务,然后每个任务都有个清晰描述,并且的话,我们会给这个任务提供基本上一千条左右的示例数据,也就是说我一个人去采集这个任务怎么做啊,并且会。

可能差不多最最多会每个任务会有一千条,那就是说测的人的话,他可以他有个基础模型,我们叫基模,完了之后拿这一千条数据去fine tune,也就是再进行训练,那得到一个就是。这精调后的模型,之后他再来去在这个任务上指挥机器人去做啊。那么其实就是说这一千条任务,你可以认为的这一千条数据,它其实就定义了这个测试这个分布啊。

那这个你说一千条数据,我们我们其实可以管它叫 few shot learning。更古典的模型,它可能都是几万条的那个去去做训练的。对,所以这个是。然后像比如说像 RoboArena,它就是说。嗯,那你要测什么任务呢?其实是那个测试那个 lab 现场指定的。那你什么任务你都得能根据那个文本理解自己去去做。

哦,那其实就是说他们测试的对象其实就是不一样的。嗯,而且他那个是分布在不同的实验室,你们是集中在一个场地,就或者说集中在同一个环境里的硬件来测的。就是就像这种,他就一般要做对比性测试。就是说,比如说我给这个任务,因为我每次测那个 lab

和测任务道具可能全都不一样嘛。所以说,就单次的结果本身它是无法被拿去平均的,那只能说我一次测两个或多个模型之后相互比谁比谁好,那这样有个平均,呃,就相对关系之后再把这个一对儿一对儿的这个关系拿去最后统一出一个总的这个值出来。

像比如现在那个 L M Arena 其实是大语言模型界最有影响力的那么一个榜单嘛,它其实就做的是这么一种就是说 zero shot 或者叫开放性的这么一个这个就是问题,然后再加上这种对比性的这个测试。嗯,我们觉得是说,可能也许巨神哪天也能走到了自由 shot 那个时代了之后,也许这么测试就是很有道理的。

但在现在我们看到的说,就是这任务要想做成,还是得做 fine tune。啊,那所以的话,那就是说 RoboChallenge 的这个第一个 benchmark,那就专注在这个 fine tune 的这么一个赛艇下去做这个测试。那 Robo Arena 直接做 zero shot,岂不是很多模型在它那儿其实都根本完成不了任何任务?

在在就你去看它的那些测试视频,它的确是大部分任务其实是成功率那个比那个比较低的。所以这也有一定问题,就像大家的就如果都接近于零的话,你反倒也比不出来。嗯,就它它就对比性测试,它就只能说虽然他们都没抓住,但这个看上去好像走的更更 promising 一点儿,它最终就只能得出这种结论来。所以他的那个方法其实对现在的模型来说太难了哇!

那听完这个之后,就我不知道你们跟投资人或者说跟就其他人有没有掌握这个事情啊?那一般人的感觉是会觉得这个行业还确实很早期啊,这领域啊,就和我们想象中的机器人可以就是很早期,就想象中机器人可以,比如说到一些呃场景,一些家庭或者说商业服务场景干活,似乎还有很很远的距离。我觉得是这样的,就是就智能的发展是一个非线性的一个东西,它是一个指数的一个东西。

三年之前,大语言模型刚刚出来,就是它什么也干不了,就是它就给你说一些话。哎,你觉得这个东西好像技术极客可能会觉得,哎,有点意思,它这个竟然会说人话了。但到今天这个时间点,已经有很多个模型能把IMO的题都刷爆了啊,就是。就中国对吧?美国每年派出五个人参加的比赛,现在这些大模型已经可以完全都解掉了。对,所以我觉得具身模型其实也是一样的,就是它也是一个,就刚开始你觉得这个东西就是很菜很菜,但它是一个指数级别的变化的一个趋势。

对对对,这方面其实我更乐观,就是之前我们搞微任务时候弄那堆模型加起来可能打不过现在一个 Grounding Dino,但是不耽误我们真的已经把它卖到了祖国大江南北。就其实就是说,最终你去做场景做产品,其实它还有它自己的那套逻辑在。嗯,所以我觉得说,那那那就是你,期末已经 zero shot 百分之百了,那肯定最好啊。

但那之前的话,我我觉得它并不阻碍,大家可以先去做一些落地的尝试。嗯,那回到就是你们就是具体看到的一些进展啊。因为你们这次肯定是陆陆续续就测了很多模型嘛。其实前面你稍微说了一下,就是派零五相比派零,它是有一个翻倍的成功率上的一个进展的。那其他你们测过的模型可以透露一下吗?包括千寻,你们应该也是有去参加这个测试对吧?

呃,我们千寻测试的模型,啊,我们最新测试结果大概是比派零五会高一些,呃,现在暂时是位列榜单第一名。对其他模型较强可以。对其他的话,那个我们九月份发布的时候,我们把一些开源的,比如什么Cog

ACT啊这些经典的,我们自己做了边复现,呃,做了个baseline。对后面的话,我们也是邀请到了那个。呃,一家公司,他那个叫做 Wow OSS Flow,他们那个模型,他们公司也出了些这个志愿者去在我们这上面做泛听,完了之后也也拿到了一个就是成绩吧,差不多应该是能比派零好一些,我印象中。

现在有哪些公司参加?可以透露一下吗?国内的公司里面,目前就是就能够绑定到公司名字上的,目前主要就是这两家,然后其他的还有好多公司,其实也已经在测试了。啊,不过一般来说,都是这个可能测完之后才会去讲,是说这个 who's who 啊,就就到底这是谁的这个这个结果。那在你们现在测的这个过程中间,大家有呃谁甩开其他人一个身位嘛?

就有明显好的这种模型吗?呃,那现在看肯定那个 Spirit 一点五,它是一个比较亮眼的。我可以可能再给点那个 background,就是说,首先 RoboChallenge 本身它参与的单位其实并不是说 organization 啊,就其实大家能看到的公开信息都是说啊一条条的测试记录。啊,那测试记录里,比如他的模型名字,其实是啊,就是也是用户自己上传的。

然后,那我们唯一要求就是说,就是说,你用户你你是谁,你得把自己的那个自己这个自己自然人的这名字写上去。啊,来去做这个标识,所以实际上就是做一个平台本身的话,它它是没有这种随着商业属性说这个公司跟那公司比的哦。所以在这个平台里,其实对组织来说,它可以是匿名的。Exactly, exactly,嗯,对,所以往往是说就是。

先是说有成绩之后,然后才出来有人认领说这个其实是我的,其实对这这个我觉得,因为我们做RoboChallenge初心的时候,我们也不想让这事儿太夹杂了太多这种商业化这些东西在里面,我还是就是想把它做成一个干干净净的一个benchmark,对吧?就像当年的像ImagNet,像当年的那些什么CIFAR,对吧?

那那大家都可以有成绩,并且你去上面取个成绩也不需要付出太多的这种代价。啊,那万一测好了也也不会驳谁面子,啊,就这是我们去做这个事儿的这个这个这个这个初衷。所以目前就是有公司认领的比较最好的就是千寻的这个 Spirit 一点五,对吧?是我们差不多,如果不是疫情至今,差不多我今天听人家说已经有一万多次不同的这个测试的这个 run 了。

一万多次是来自多少不同的模型啊?你们统计过吗?哎呦,这很难统计,因为他们经常他比如说他自己给自己起模型名字,他有时候他也不是特别的规律,嗯,所以说但但嗯很震撼。比如说现在不光是国内在测,我们最远也收到,比如说来自那个英国伦敦的那个IP。啊,然后那个就真的是这个信号传了整个地球,然后来到了我们 lab

去指挥这个机器人,然后它它那任务竟然还能动起来,就说实话,这这个这个过程我们觉得还还是挺挺还是个挺 rewarding 的这么一个过程的。

你们获得一万条记录是多长时间啊?我们是呃,我记得十月十月的时候,我们 announced 这个 Robo Challenge 嘛,对,后面其实也就这一两个月的这个运营吧。这个是超出你的预期的,还是在你们预期?远超出了预期的。那个就现在我们其实就是 Robo Challenge 最大的压力是我们现在测不过来了啊!

就现在我们因为机器一共就那么几台嘛,完了之后现在大家经常得是说,你提交了之后,我可能得等一天两天,我才能给你反馈。啊,就这个的确现在有挺多的这个团队,然后除了公司之外,可能还有很多,比如说他想发 paper,他也想去拿一个成绩,然后其实现在提交的人挺多的,这个其实这个 popularity 其实已经远超出我们。

就早知如此,我们肯定再多准备点机器了,肯定不能只用那么点儿了。嗯,你们现在一共多少多少台机器啊?我记得应该是差不多九台,是差大概大概大概这个规模吧。然后这个九台是包括了不同类型的就是有有四四种不同的类型。就是有双臂的,有协作的,各种对吧?双臂、单臂,对,有双臂的一种,然后剩下的主要是单臂的。我们准备了三种,那说明整个就是具身的研发社区确实非常需要这个东西。

对我,我觉得,并且我觉得好处就是说,有更多人敢来测试了,说明的确大家的这个模型水平就是就提上来了。那展开说一下,就是你们这三十个任务是怎么挑选的呀?你们这个任务集是叫 table

赛事,嗯,所以比较直观来理解肯定是跟就是桌面操作相关的一些。那如果再进一步的分类是怎样的了?以及为什么是挑选这些任务?对这个,那因为就就是说这个其实是内部孵化出来的嘛,就是说那个就我们想去做测试的时候,大家说哎那先找点任务测测吧啊,然后当时我们就有一个我们的这个研究员,他画了三十个勾。

然后大家测过程中发现,哎,这三十任务真的挺有道理的。就是他测的那些,比如有些要考验你操作柔性物体,有些考验你那个定位精度,还有一些考验你,比如说有没有一些这种啊,就是上下文的记忆啊等等。就就就,所以我们是事后去分析了一下,就是说这些任务它的这个考点呀,它对应的这些场景对应的机型的分布,就拉下看,哎,觉得其实还蛮合理的。

哦,那你可以讲讲事后分析的逻辑吧?就比如你们来总结它可能是哪几类?对,我觉得应该是主要就是考点丰富,就是说这三十个任务,几乎每个任务都有它一点点的这个难点,并且都很不一样啊。比如说像那个,比如说有个很难任务叫碎纸。它就是考验你那个纸能不能插进那个碎纸机的缝儿里,并且插的过程中那个纸它会遮到你那个手上眼,所以说就是你模型要想把那个任务做出来,你必须得有办法去克服这一点。

我说像比如说像那个插花儿,插花儿的话,它不光是考验你对你自己手的这个定位,它得看你拿起那个花柄是不是踏实到另外一个物体,就是说它的这个考点不光是执行器和物体之间的 interaction,并且已经扩展到了物体和物体之间 interaction。对,然后我觉得就是现在Tableau三零最有意思的地方就是每个task几乎你都能找出它的那个与众不同的难点是什么。

所以它最终它形成的是一个很很 diverse 的这么一个分布,啊,这个我觉得是说可能现在这个东西它能把这个模型的区分度测出来的,我觉得是一个可能比较重要的 factor。就说虽然这三十任务其实是挺 idhok 的选择的,但是就它很丰富,呃,不像是说比如说第一个任务测拿杯子,第二个任务测拿皮球,啊,那那那样的话,它可能考点就会很单一。

然后这些任务它的那个 source 怎么来呢?当时我们是就是说公司里我们就是组织一帮人,就是说大家都去想,每个人拿拿嘴说,你觉得将将来机器人一定能做成什么?啊,弄了个特别长的,可能几千条一个列表,就是有点像一个月望清单的东西。对对,然后后面那个就是说,那就数据采集团队就就一个个去看看嘛,哪个能采哪个能采。

啊,其实所以它的那个基底是从这里采样出来的。啊对,所以,我我们就事后总结,就是说,就是人民群众的真实需求,其实就是最有代表,现在最 high quality 的这个的这个 Benchmark。那那那这个是我觉得是事后去看它的这个就是这个成因吧。千寻在测的过程中间,觉得什么任务比较难啊?有什么你印象比较深的?

其实我我们测的时候。呃,其实就是我们一个一个基模,然后统一去做的微调,啊,然后呃,我们其实并没有特别去关注任务本身的一些特性,因为我们在做一个基础模型,然后基础模型,呃,它的意义就在于说我无论想做什么样的东西,我希望有一个标准化的一个流程。然后通过这个标准化流程,它就能做这些事情。那实际上在这些不同的三十个任务里面,比如说它哪些成功率是相对高一点,哪些成功率是相对低一点?

呃,有一些比较精细的一些任务,成功率的确还是比较低一些。比如说有一些,呃,把那个什么杯子放到某一个洞里面啊,就那种它的那个容差可能只有。几毫米这种东西的确就是比较难。还有比如像那个餐巾纸擦擦桌子啊,对,擦那下都能擦好。就最后你要把一个就已经皱了餐巾纸放回纸篓里,他那个要的这个功夫还是比比比就比较深的,就就就就就就这些任务的确现在可能译文最好的模型都还是很有挑战性的。

因为你们这边有很多记录嘛,就从你稳的大面的这个数据去看,什么任务它的成功率会高,什么任务成功率低啊?我觉得是说,就就说击中了现在模型的可能就是它的一些盲区,比如比如就像刚才讲的,比如说呢。就比如说像这种柔性物体,那你很很难去建模,并且它采,就是 demonstration data 的时候,它也很难去把所有 case 都给涵盖住。

然后另外有个任务,比如说那个,呃,叫做那个扫二维码,就是左边拿起个东西,右边拿起个扫码枪,扫一下再放下去。这种看动作看着挺简单的,它难在哪儿呢?就是你扫之前和扫之后的状态是图像上一样的。所以这模型分不清,说他刚才扫没扫?所以好多模型他测的时候,他一伸手他就不动了,他就他不知道说我该再去扫一下,还是说我其实已经扫完了?

哦,就我应该把它拿开还是?是的,是的,因为因为他那个扫完之后,那两个东西本身并没有变嘛,所以你图像上区分不出来的。哇,你们这个任务很刁钻哎!啊,是的,哎,我还之前从来没想过这个场景。就是我们自己也挺意意外的,就是哎,就。拍脑袋想出来任务,最终你做了之后,你才发现哦,它的难点在这儿啊。那如果要让机器人知道它是不是扫完了一个二维码,这个需要什么能力啊?

需要你的模型有一个记忆的能力,就相当于模型不仅能看到当前场景,知道你要干什么,它还得能记住自己之前干了啥。那怎么让他理解扫二维码这个任务了?这个是其实扫这个动作它其实不难,难点是在于,呃,比如同样我看到这个场景,我可能以为我已经扫完了。扫完我就要静止了啊!我可能也以为我还没扫,我就开始去扫。其实扫这个动作本身,它其实并不难学。

对,就就就是现在的模型,它都是叫做单帧输入,就就都是给三张图片,它就开始动了。它其实它并没有一个机制能去把这个我是不是已经扫过的这个上下文放进去。就是就就你就你可以想象,比如说你生活的时候,每过一百毫秒你就失忆一次。你想一想,它就是金鱼,金鱼就是说什么每七秒它就忘了嘛,它就忘了。这个模型现在每。每零点几秒就忘一次,每零点几秒他就忘了。

所有的 V L A 现在都是这样的。就是当然这个会有一些就是 fix,比如说把记忆的有一些工作会把记忆放进去,它会修复这个问题。但是啊,现在大多数的开源的 V L A 或者这种基础模型都是基于单帧的。这种去就它没有没有记忆啊,然后记忆放进去也不是放在模型里面的对吧?它并不是训在模型里,它并不是放到模型里面,它是通过一些工程化的方式让它记住更多帧,知道之前发生了什么。

对,就有一些用比如 agents 的方式去记住之前发生过什么事情,对。这个任务还挺巧妙的,嗯,所以就就就我们说有意思地方,就每个任务它都有它的那个就独特那一面。我觉得这个是,我觉得整个过程中最好玩的这个点吧。那在就是测的过程中间,因为呃有两个多月的时间嘛,你们有看到就整个行业的一个怎样的进步的趋势或者速度吗?

我觉得还是挺快的,因为很多比如你刚发这个 Stable 三零的时候,其实我们最担心的是没人来玩,因为那时候就有很多人,比如看那个派零都觉得是个。天外来物一样的东西,觉得它好厉害呀!这个就不知道怎么做。但是我现在,我们接触下来,感觉很多公司,我觉得至少,比如说派零这档怎么做的,其实技术都已经掌握,能能够掌握掉了。

啊,毕竟那大家现在,比如说在挑战派零五,甚至将来派零六,就是趋势还是很明显的。那就是从动作上看,就是说有越来越多的这个这个机构或者个人愿意来去这个榜单上提交。啊,那就是说大家交的人都是为了能交出个好成绩嘛。那说明就是说大家至少自己的这个自信心,其实这个增长,我觉得是非常明显的。除了大家主动来提交之外,你们会去特意邀请一些你们呃还比较好奇或者说比觉得比较强的公司来测吗?

比如说,我就很好奇派零六如果来测是什么表现啊?这个,这个我们不一定请得来。那你的一万条记录里,应该也有IP是美国的,因为它好多,因为它如果是这种,比如说,比如说个人啊,或者是纯学术的那个还好嘛。但是一旦这种公司对公司的,尤其这种比较敏感的行业,我觉得可能这个顾虑就会多一些。对,但但但现在,比如说,呃,说实话,我们最早放这个榜单的时候,因为我们都没跟别人说这事儿,所以说,就说他原来一个别人贡献的结果都没有嘛,所以那时候我们为了能启动它,我们其实就去找

volunteer,因为反正现在那个模型大家都是开源的嘛,那我总能去找个人来,然后那他去下载这个 code base 跑一跑,然后测出个分数来,那其实就是说最早一批的那六那我记得六个吧,那结果其实都是这么来的。

后面的话才有那个很多这种公司啊,说哎那你们测我不放心啊,那那那那由我来去做这个翻听,然后来去那个就是去 evaluate 成绩,其实其实这个是后面才发生的事。哎,所以现在如果大家来测的话,这个微调的部分不是这个测试的社区或者平台来统一做的是每个人自己做的啊。当然,当然,当然,就这是这个设计的

purpose,就是我们当时也选是说这个测试界面到底什么是你提交一个模型文件,还是你提交个 Docker,还是什么的。

最后我们选择了是说,就是说我们都把这些东西 leave out,就是说。我平台我只提供一个机器人控制的API,然后你理论上可以用任何的计算的架构,用你的控制的逻辑去跑你的程序,那就我们做一个最通用的这么一个设计。啊,那这种情况之下的话,那比如说假设,比如说是我们来做微调,但微调它其实,有很多这种手艺问题嘛,对吧?

那大家用的参数不一样,甚至哪怕这个显卡换一块,也许结果都不一样。那这里太多事情说不清楚了嘛?啊,所以说呢,就是说这个 Robo Challenge 设计的初衷的时候呢,就是说平台只保留最核心的那个功能。那大部分的事情其实是留给这个测试的参与者,他能够完全自己去掌控整个的这个过程。但另一方面,如果大家自己来微调的话,那你你你们怎么知道他到底喂了多少 episodes?

呃,对,所以我们现在在号召,就是说大家上榜人都去做 open source。现在这个设计的话,哪怕你是比如说遥操作出来的,理论上你也可以提交这么一个就是测试结果上去。啊,那除了是说,就是说这种,就是说这个道德约束之外,那我们觉得最好的方法就是说自证清白。那就是说,如果你有个成绩,那你就把你当时取得这个成绩的这个模型 code 放出来给大家看。

那理论上其他人可以再去提交一遍,对他可以再去交一遍这个东西嘛,对吧?那也许因为有些误差的问题,这个结果不是百分之百重合的,但至少那个大的趋势它也是对的。对吧?那用这种方式,我们觉得是说至少能够去解决这个学校可信度的这个问题。所以现在这个更多是靠大家的自律,是吗?是的,我我们还是相信,就是就是相信绝大多数的这个参加人员,他是一个就是说就是为了学术目的的,就是是这么技术严谨的这么一个事情嘛。

啊,那你说是如果真的有人作弊的话,那那他也教不出来这个将来就是说可供去开源的这些东西啊,并且的话,我觉得随着时间的这个演进的,那那那那最终还是会。大家会理清楚,就是说哪些结果是真正可靠的。你们这个测评平台接下来有什么新的计划吗?因为我看你之前在推特上发,有人给你们捐了灵巧手,就你们接下来可能也会上跟灵巧手这个硬件相关的一些测评。

当然当然,就是现在 RoboChallenge 它其实已经远远不是说说 Dexmo 在做,它其实是一个。我们叫做 partnership 和 community 差不多,现在可能有十多家公司都加入进来了。那主主要是中国公司是吗?呃,对,像比如 Hanson Face 就是国际的,比如有些做本体的厂商,他就是说那想捐一个这个机器进来。

那比如说,有些他,比如说也有自己的数据采集厂,有自己的实验室。那他就是说我我也去捐一套benchmark啊,那就是你们也可以提交到我这儿来去测我那些任务啊。那那其实那对RoboChallenge来讲嘛,其实是希望是说,就是所有的人都能把自己的这个control biotion放进来。那这样的话呢,这这个整个的这个program它就可以内容越来越丰富,越来越丰富。

那不只是说现在有个Table三零,那也许将来还有一个别的。什么 kitchen 多少啊, restaurant 多少啊?那这样的话,我觉得才能对这个整个的这些模型有个更好的一个 evaluation。哦,厨房里的任务,餐厅里的任务。对,所以当时有一家,我记得 Tesla 吧,他他们说他们那个手也是开源的,所以说他们说,哎,一想这个进来可能设计一些这个就是相关的这些任务是将来打个板是吗?

我们说,哎,那这个 idea 我们也非常欢迎。啊,那那我觉得这些可能都是将来可以选的方向吧。当然了,因为这事儿毕竟还是是严谨任务重,所以只能说这些 feature 这个这个排队逐个上线。对,我觉得其实往未来看的话,其实可做的事情还真的是蛮多蛮多。然后接下来是想从就是测评延展聊一下现在模型的一个状态,以及你们看到就接下来具身,比如在二零二六年怎么往前去推进,嗯。

因为其实刚才你们讲的目前的测试现状啊,比如说把一个杯子放到一个洞里,或者说把餐巾纸放到一个纸篓里,确实对人,甚至是比如说很小的小孩来说,都是很简单的任务,嗯。那我们如果这个具身模型要往下走的话,目前它面临的呃瓶颈可能是什么,以及大家是怎么解决的?嗯,我觉得现在具身模型面临的瓶颈主要还是数据层面吧。其实如果数据层面我们有啊像大语言模型这样无穷多的数据,具身模型啊它的解决,我觉得并不是一个很难的一个问题,因为其实大语言模型已经给我们摸出来一条很清晰的一个道路。

那么,其实我们沿着这条道路去做,呃,我觉得大概率可以做出来一个非常非常好的模型,对,所以我觉得在二零二六年,呃的这一年或未来一年,我觉得我们会看到具身模型有一个非常非常大的一个。进步啊!那更具体描述一下,你说的大语言模型指出这条路它是什么呀?大语言模型这条路线其实,呃,就是有一个三部曲啊。第一步就是说,我们用互联网上的所有的这种文本的数据。

给模型做一个预训练,那么第二步呢,就是用一些高质量的这种数据给模型做一个监督微调,最后用这个 RL 强化学习给模型做一个 RLHF,让它在最后这些任务上成功率上。提升比较多,所以就是这个是,呃,基本上现在所有大语言模型都是,啊,沿着这套三部曲去在做。我觉得对于机器人来讲也是一样的。那在你描述的这个方法里面,其实它模型的架构倒不一定是现在大家说的最多的WLA什么。

有可能是别的模型,但是是这样一个预训练的流程,预训练到后训练的一个方法。V L A 它只是在描述一个模型的输入和输出啊,就是它可能是 V L T A T 是比如说 tactile 就代表触觉,它也可能是别的,但是反正它是一个模型能够去做事情嘛,嗯。所以 VLA 其实也并不代表说,就是我的方法是,我先有一个大语言模型,然后得到 VLM,再得到 VLA。

现现在大家比如说觉得,比如说那种视频生成模型,也许是更好的基座。其实这个问题至今仍仍然还是开放。对,就具体的做法是开放的,嗯,那你们你们两家公司的时间是怎么样的?我们还是通过一个 VLM 去开始去做,就是先以一个 VLM

为一个底座,然后底座,呃,但在后面会加一些这个一些视频的一些数据。啊,但是并不是一个 word model 的形式去加入,然后会加入一些,比如说遥操啊,或者可穿戴式设备的一些数据。

来做微调,对,然后最后啊可选的会做一下强化学习。这个学习原理其实蛮收敛的,对吧?对,就是你让 M 去吸收尽可能多的这种互联网知识以及这种叫不变性。啊,完了之后的话呢,就是说加大量的 Robo data,让它去建立起从动作到感知之间的这个映射。对,啊,然后最后发版之前再搞一些有的没的的这个最后的这个工艺。

我觉得就就这个框子,我觉得蛮明就蛮固定的。那只不过说这过程中到底拿啥基模,到底加啥数据,什么比例啊,这个其实就是仁者见仁,智者见智的这么一个过程了吧。对,所以,我我你,所以就高老师讲的,就是说,这个大的范式或者叫原理,你看到它收敛之后,你会对这事儿特别就有信心了,呃,因为现在真的就是 scaling data 可能是二六年最重要的一个主题。

啊,那就是说,它它数据多了之后,它那些泛化性、鲁棒性,它才能一点点的这个体现出来。那你们都是怎么去获得数据,或者说你们看到的业界去把数据规模化这件事儿,都有一些主要的什么样的做法啊?然后你们觉得什么做法可能是比较合适的?对,就有四种数据:仿真数据,啊,人类的视频数据。然后可穿戴式设备的数据和遥操作数据啊,我们自己是

BAT 是除了仿真之外的所有的数据源啊,就包括人类的视频、可穿戴和遥操啊,就是是因为其实这些每一种数据源它有不同的一些自己的特性啊,那有的量很大,但它质量比较低。

它比较适合来做预训练,有的量非常少,但它质量很高。它比较适合来做后训练,所以我们自己就是在相当于。把所有的这种真实的世界的数据都拿过来,然后以合适的算法去喂到我们模型里面。为什么要把仿真的数据?因为仿真的数据,呃,但是我们自己的经验啊,就这个东西也不见得是正确的。因为啊,行业里面还有很多公司也在尝试用仿真的数据来去做。

我们自己的尝试是。呃,仿真的数据的这个 diversity 就它的多样性,比较难以提升的比较高,因为每一个仿真的场景其实都是需要。有啊,这种啊,我们叫艺术家 artist 来在这个仿真器里面把这个场景去搭出来,这个搭的过程其实是比较缓慢的一个过程,并且仿真器就没有那么好用啊。然后这个搭建过程还是一个很专业化的一个过程,不太可能让一个比如说这个只做过体力劳动的人来去把仿真器给你搭起来。

但是你可以让啊这些人,比如说帮你去采集一些啊遥操作的数据、可穿戴式设备的数据、视频的数据,他们都可以帮你去做。所以有一个成本的考量是。对对,那随着仿真器如果变得更好的话,其实这呃仿真数据可能也是你们未来会考虑的。对,就如果它变得更好,如果说随手一做就能出个黑神话,对,那仿真数据真香。是是,你们你们有关注李飞飞 World World Lab 对世界实验室他们发的 Marble 这个新的模型吗?

嗯,这个模型就这个 specific 模型,我不知道,呃,我有没有看,但我的确看过他们一些 demo,呃,他们的 demo 是一个,就现在的 demo 都是一个静态场景的一个,呃,三 D 这种巡游的这种感觉,嗯,然后因为他们背后的技术是用,呃,一个叫四 D 高斯高斯的一个东西来做的,或者三 D 高斯啊,呃,但这种技术暂时还没有办法去处理动态的一些场景。

对,所以,对,所以这些技术暂时还不能用在直接用在具身里面,对他可能会更早用在比如说游戏啊或者一些就跟视觉、三D视觉更相关的一些场景。对对,你们你们的时间是怎样的?就数据这块怎么去规模化的获得数据?对,我我其实我我个人的观点啊,我其实觉得路线可能没那么重要,就它最终条条大路通罗马。是吧?你搞仿真的,那你就天天想怎么做三D asset,对吧?

做大规模的这种资产扫扫描嘛,对吧?然后呢,想办法去做各种的方方法去做,让它就是 sim to real gap 去做弥补,对吧?你想搞信真机的啊,就不停的研究,就怎么大规模的用一大堆的操作员把这个东西工业化的降本。我相信,也许最终都能走到终点,啊,并且就是可能最后那个卡点难点会是一样的。比如像三 D

资产那那仿真,说是说这些东西无穷无尽,但是说里面的那些知识,但还是来自于你对这个物理世界本身获取来的这个东西,对吧?

所以就比如说你做仿真和做采集,可能最后都变成是说我怎么才能有一个一个集合?就比如说去枚举了大家日常生活中能接触到的所有商品。对吧?就就我相信,最其实最终这些本质难点,是一样的。嗯,对。所以在这块的话,那就是说,对从我们公司角度讲,我们就是选了个自己最擅长的。那么当年搞什么人脸数据采集,我们建了一个非常完善的线下大规模采集的这么一套体系嘛。

那所以现在我们就数据还是以真机为主。啊,那现在其他的,比如我们关注,比如像现在那个 Generalist,他做这种离体式的采集,号称采了二十七万小时数据,啊,可能也挺 Promising

的。啊,那我们觉得就是说,如果这些东西能成熟的话,嗯,那其实对我用户来讲,其实它并不改变我本身数据采集逻辑。最终我还是得回答我那些场景从哪来,我那些人从哪来,啊,那其实这是我觉得说数据收集里面最核心的这些这这些难点。

你刚说 generalist 离体式的采集是什么意思啊?generalist AI 是个美国的公司。啊,然后他们就是主打的就是说,人拿这个夹子去做这个采集,而不是说机器人拿着夹子去做采集。啊,这样它的采集效率很高,并且它可以把这东西寄出去去做采集。他当时说了很恐怖的数字,说他们已经采了二十七万小时,并且每周能采一万小时。

那也就是说,如果他说的是对的,那差不多二六年过完,他可能也得有不到一百万小时数据积累了吧?然后那像比如说现在做那种可穿戴采集,就头上绑着个相机去采,我听到有公司甚至说今年要采一千万小时,啊,这这这个是我觉得就是说,我就说所以叫条条大路通罗马,可能最终是说就是说你把那个智能孕育出来的这个东西,最终还是那个就是总的知识量到了,啊,其实你无论这个

data 的 representation 是啥样,可能都可以最终走通。

啊,这个这个是我觉得是,可能就是说,但反而是说,就是你花了多大精力去收集这个世界里的 knowledge,啊,是实际上的这个。就是就它的这个真正的决定性要素。不过具身领域和之前做大语言模型做视觉有一个不一样的地方,我觉得是大语言模型和视觉模型,其实它大量的数据是每个人都可以 touch

到的,就是每一个参与其中的创业公司,比如说你去网上至少有很多很多公开的信息,然后后面大家才去做那些比较特别的信息,对吧?

特别的数据,就现在在具身领域,是不是每个公司的数据肯定都是采了还是自己用的?有什么机制能让就是这个数据呃更好的就普惠到整个行业吗?像比如像 OpenX Embodiment 的,其实就是一个业内的数据共享的那么一个联盟。其实现在这种已经挺多的了。嗯,OpenX 是一个就是学术的一个数据集,这些数据集本来就是公开的,然后它是一个相当于一个 effort 把它整理起来。

然后公司层面的话,就是数据集,我觉得暂时还没有实现比较大规模的共享。嗯,因为以前就是互联网的数据,其实对每个创业公司来说是免费的。当然后面也有些版权纠纷啊之类的问题。但是因为现在大家的具身的数据确实是每个公司要要花钱去采的。它那个其实是 a fairy

tale,就是。那互联网数据每家公司得自己洗,它也不是直接喂进模型的,实际上它是大量大量的那种优秀的工程师去清洗出来的数据,然后最终才训练出那么好的模型。

就就这些地方都是真正的人类劳动在里面的,并且我觉得就是说,恰恰就是这些人类劳动,它造就了现在这模型的伟大。就是其实那些数据也不不是说直接用的,只是说它它有了,嗯,就是可能采集这一步它设你说这真是说那具身对吧?那现在 YouTube 上那那有可能非常非常大的这些 video data,那大家有本身也能用起来也行啊,对吧?

那所以实际上我觉得就就可能具身可能要还是先解决就是说 scaling data 之前的一些前置性问题,完了之后才能去踏上这个快车往后走。那那个 scaling data 的全智性问题有哪些了?开个玩笑,至少 table 三零得做到百分之九十吧,这才知道我们的算法不缺 major parts 了吗?对吧?

对我我觉得就是 table 三零做到百分之九十,它我我觉得就是沿着现在这条我们在 scale 数据这条路,可能我觉得可能很快。可能很快就会做到,然后,呃,我自己是不觉得有什么特别大的瓶颈啊。对,可能只是说我们需要去,比如说去 develop 算法,让这个算法能够去处理这么多的数据。啊,到底这个学习的算法需要进行一些怎么样的一些调教、一些改变啊?

然后包括真实世界的数据采集,我们应该以一个什么样的社会性分工去实施?我觉得这些是需要去解的这些问题。但我觉得这些问题它并不是说不可解啊,我觉得它是可解的,并且呃,即使我们最开始解的没有那么好,也是可以产生很大的效果的。对,是是是。接下来就是行业比较共识性的命题,除了刚才提到的,就是怎么大规模的获取数据之外,还有什么呀?

落地应用方向吧。对,这可能是个应用方向。嗯,这两件事儿是怎么说呢?就是基础模型能力是决定了你能做啥啊,然后然后你能做这些东西是有一些商业逻辑背后在那儿去决策你要不要做这些事情,然后。对,但但我觉得现在的可能主要的瓶颈还是说基础模型的能力还是没有特别特别强啊,所以啊,我觉得落地应用当然可以去做,但是可能基础模型的进步是更加紧要的一个事情。

对,我觉得我们可以想想 L M 都落地什么场景了。据说有好事者统计说,是一半流量是去 AI 编程用的,然后剩下的话,比如说就是类似替代搜索引擎啊,做做那种问答,对,可能占了余下的这个,对。但实际上,哪怕它已经是个 AGI 的这么一个表现方式了,实际上它能真正普惠的这个人群和就是替代了生活中的这个环节。

没有大家想中的那么。那我我这个我有一个不同观点,我觉得它是一个正在孕育变化的一个过程之中。嗯,maybe maybe,对,就是。其实他已经很厉害了,但是大家需要一些时间把这个能力真的能转化成,比如说我手机的这个助手,对吧?我就不用什么打开一个外卖软件点了,我就跟他说啊,我想吃巴拉巴拉。对对对,所以刚刚才我说下应用,比如说,Code 其实把整个 L M 社区往前推了一大截。

对对吧?像 Ijentic,对,其实就又推了一大截。对,最终最终你会发现,就是说能推这个技术走的,其实是一种对一个很具象化的应用方式的这么一种想象和思考。嗯,是对吧?那你说现在机器人除了叠衣服之外干什么呢?就是机器,就是机器人时代里的那个 coding,它是什么呢?我觉得这个可能是一个很核心的这个问题。

哦,这是个很好的问题。有什么备选的答案吗?啊,其实这个问题对于 L M 来讲很简单,是因为 L M 它已经真的无所不能了。coding呢,又是一个很消耗人类智力,然后并且单位价值很高的一个事情。但机器人就我觉得就是,如果你说机器人已经无所不能,对吧?那我把这个房间收拾一下,对吧?我很开心。然后什么下楼拿个快递拿个外卖什么,你有很多很多事情可以去做,对。

但是他现在还没有那么厉害,嗯。似乎它的规模又非常大,然后这个东西又很高价值的场景,好像还比较难想到。那种场景一旦出现了,原来那些工业六轴加上一个定制化算法,它其实已经在做了,对吧?它的 base line 其实很高的。对,就可能以前的那种传统的机械臂,它已经占据了一些这样的场景,比如说在汽车装配厂里的一些组装的这种工作。

对,其实另一个原因是我们在中国,然后因为中国人力比较充沛嘛,所以可能我们比较难以想想象到一个,比如说,哎,真的这个很贵,对吧?我们需要这个机器人,一定要机器人帮我们做。但是其实在就更多的海外的一些市场,然后呃,人力相对没有那么充裕,其实很多东西都需要。就是大家付很多钱去做欧美的服务业是很贵的,比如说理发,对,或者你找一个人来收拾房间,应该也都很贵啊。

是的,但是它确实比 coding 我觉得更难的一点在于什么?在于就它每一个细分的这种服务,就它就它比较分散啊。对,但是编程其实它就是几大类嘛,比如说前端可能就已经是能覆盖很广的人群和场景了啊。嗯,比如说我能做一个网页啊,所以我我觉得机器人就是它是一个怎么说,相对于大模型可能更加分散的一个一个行业的一个形态。

就我觉得最后行业里可能会出现很多公司,就是垂类的。公司可能这个对吧?机器人就是做家政的,然后那个机器人就是给你去修房顶的,啊,可能会有很多不同的这种就是 sub category,嗯,就说什么时候就是感觉能看到那个应用。当时刚创业时候,我自己在不停说服我自己,说是一个什么时刻来了,我就觉得哎,具身这事儿肯定能成了。

当时我想的那个事情说,就是能把我家那个被子叠了,嗯,说为什么呢?因为我想了半天,就是扫地机器人的厂家啊和那种电器厂肯定不觉得这事儿该他干,对吧?同时这任务呢有点用,并且也也没那么 trivial 啊,所以当时我就想,哎呀,如果说那个算法和这个机器人本身的本体它的这个负载啊智能能够是说每天我早上起床之后我不用管那被子,它自己就能给我叠好。

啊,晚上一回来的时候,那就是个叠好,哎,那我这非常心情非常舒畅,对吧?哎,并且我坚信这个东西肯定原来那些检测分割这套科技做不出来,对吧?那个,我觉哎,如果哪哪天诞生,我觉得那就非常的说服我自己啊。但当然了,此时此刻现在肯定还没见着啊,所以我觉得类似这种像,比如像这种。加征或者这种,比如说所谓叫做通用的这种简单操作,我觉得可能也许是一个,maybe是一个第一个大的这么一个方向。

那现在很多公司也都在瞄瞄准着这些问题,这这是在做了。呃,虽然现在它可能还没有到能在你家叠被子这个状态,但是有什么业绩的进展是让你看到这个东西的信号了吗?至少派零六能能在工厂叠那个纸纸盒,还就叠得挺好的。派零六可以叠纸盒,对吧?对对。因为我看一下美国有些公司,比如说那个三D Robotics,它的展示里是可以把袜子团起来的。

然后Delta,他他主攻的方向就是叠毛巾、叠一些软、叠衣服、叠软东西,把那袜子团起来简单。你能再给它抠开吗?以及把那个面翻过来?其实这些东西,它可能考验都不是说你的算法,而是说你的硬件,你本身那个精细度和那个就是说负载能力到不到?所以为什么说被子?那被子很沉的,对那个机器人本体能给它拎起来自己不倒。

说实话,这可能对硬件都是个很大的挑战。嗯,你的你的这个呃私藏的任务挺有意思的啊。看什么时候你们的 RoboChallenge

里面也能把这个叠被子加进去啊?我觉得这这这个,我觉得可能是个比较具象化的这么一个想象的这个这个方向嘛。当然了,你说就是不是说大家最终都去做那种所谓叫做家务类的这个?那现在家务类的说实话,的确在学界算是最火的,这东西任务也很好布置,并且它的精度要求也没那么高,并且也很考验智能,对吧?

所以大家讲的时候都喜欢讲这个啊。但我相信最终落地商业化的时候,肯定还是很很细分的。啊,但也许就是说,那个大家共识是说,哎呀,这个整体的这个从不可做变可做那 moment 出现,我觉得也许会有那么个时刻,可能就是说真的出现了几个,就是说像当年 Chat GPT 一样,就是说震撼心灵的

demo,啊,它做出来之后呢,虽然它没做那个任务,但你相信很多别的任务就都能做了,对,啊,并且更重要的是,我觉得是客户们信了。

啊,然后这些需求啊,这些东西它就能够正向的流转起来了,啊,这个我觉得是可能是说,我觉得叫具身智能的破圈之日,啊,就就他这个破圈,不光要破圈到公众投资人,我觉得更重要的是客户哪天信了,其实呢,真的就是应用它的爆发之之时。你们觉得这个破圈之日有可能在什么时候出现?高老师怎么去?这个是已经比较好预估了,还是有还是挺不确定的,还有一定不确定性。

但我自己比较乐观,我觉得就是破圈,它是一个非常非常就是重大的一个事情。就是它是到了,其实其实三点五 G P T 三点五还不算破圈,G P T 四是真的破圈,对吧?大概是至少三点五到四这个阶段。我自己的判断是可能会在三到四年左右,嗯,哦,三到四年左右,哦,哦,那那你说的这个时间比我想的还稍微长一点点了。

如果二七二七年,就说能有奇迹,那最好。那那但没有那那我相信机器人肯定还是个值得长期去做的。我觉得就是三到四年是让普通人看到这个事情。就是,但我觉得让从业者看到这个事情是要比这个快很多,因为就是就是有一些 early sign,他对普通人来讲没有那么

impressive,但是从业者,比如说你从业者一看到一个模型,呃,他可能对吧后对齐没有对齐得很好,可能他不是特别遵守你的指令,但他做什么都很溜,只是有时候你告诉他做一个事儿,他不听你的或者怎么地的,你就知道这个东西已经马上要来了。

你只需要做一些后训练的一些步骤啊,你就可以做到这个事情了。它现在类比大语言模型的发展的话,可能在一个什么时间点?我觉得是 G P R 左右,我不知道小强你觉得呢?我感觉差不多。就我最喜欢的类比是,我觉得现在是视觉的 C 法时期,E Image

还没出现,但但是说实话,你从年份上看也不远。对,就是。是这样的,就是它历史是一波一波 Echo,然后它的 Echo 的频率越来越快,感觉是在进入加速进化的前夜。

对,Cifar 和 ImageNet 的区别是什么?Cifar 我记得就经典就就十个类对吧,并且那图很小,三十二乘三十二的,就你很明显知道这是个 toy example。就 ImageNet

的时候,它的类非常多,一千类,并且那图都是全分辨率的。就你觉得这模型这个能做对,它真能干活了。所以就是说,在识别这个任务上,ImageNet 相比于 CIFAR 的话,它是一个更接近真实大家识别的这样一个数据集。

对吧?所以我我感觉现现在很像这个说,类比自动驾驶,我觉得算不算是类似,比如说那个阿波罗那个时期,就好多公司都在那搞开源呢啊。后面它逐渐收敛成了说大家都去服务客户去了,对吧?那那那个现在就进入成熟阶段。我觉得现在具身可能刚刚可能是就相当于是它已经走出实验室了啊,但是距离走进客户,它它还有个距离。对。对,我觉得具身这个行业比较特别的一点是,从业者和不是从业者有时候认知可能差别会非常大。

就相比于大语言模型,因为它其实对很多人来说,你没有直接接触它的途径。嗯,但同时大家又传播很多视频,大家又又在很多展会上有很多现场的演示。公公众认知的确,他会就是领先或落后这个非常久。我我没有开玩笑说法,说就搭上 L M 快车最好的方法是 G P T 二文章发出来之后重仓英伟达这个,所以你就是说,其实从业者很多他是能看到那个最早期的那些 Segno 出现的嘛,那的确那个时候就会存在一个时期叫做说。

从业者们需要向公众证明自己,对吧?就我们已经看到了,觉得像高老师说的,其实具身这条路已经很清晰了啊。但是观众们,除非看到那机器人真的在那儿倒茶倒水叠被子,否则他是不信的。那其实这里面它就是有个必然存在的这么一个时时间差的。我觉得现在是他有的人是认为这个事儿已经很强了。就是因为我刚才说的,大家拍了很多视频,反向的,反向大家都都叫什么叫叫短期内高估,长期内低估这个东西是。

那这个确实也和就是有有很多这种 demo 的展示有关系。对,因为就是普通公众很难理解一个 demo 它的边界在哪里。比如说,一个机器人在叠衣服,你肯定会觉得,哎,这个叠衣服都能叠了,你给我团个袜子吧,把衣服给我放到柜里,这个看起来比叠要简单,对。但是它并不是这样的,对。所以公众,因为公众理解的方式是一个对自然人的一个方式。

你们最近这一两年就是遇到的比较常见的对你们所做的这个事情的误解是什么?我只是普通人对你们的误解啊。嗯,感觉就是完全的两极分化。就一些人是觉得你们这些都是搞视频剪辑的公司,另一些人觉得机器人不早都实现了吗?当年那个日本搞那些什么仿生机器人不也能蹦能蹦能跳吗?对吧?我感觉它是一个完全的两极分化,而且可能对于一个特定的一个展示的一个 demo,大家会觉得,哎,你你做叠衣服是不是你要这个已经要进家庭了?

等等等等,就是大家会对一个。嗯,demo有一些,呃,就他看到的不仅仅是技术了,呃,我们可能最初始做这个东西的目的是。我们想看看这个技术到底怎么样,然后,对吧?想 advance 这个技术,然后它只是一个像我们阶段性的一个东西,对。但是公众往往会就是把这个东西联想到说啊,这个马上可以进我家叠衣服吧,就是会把一个技术展示直接联想到一个应用落地上,对吧?

对对。但这中间还有一定距离,对,就是很二级化的,就是看你这demo,觉得哎呀美好马上实现,我听说了一点点你的负面新闻,就觉得啊这都是假的不能信,对,这可能我觉得也就是从业者才能看到那个零到一的那个中间态的那个点。是。就是你们觉得这个行业里有什么?其实大家是心照不宣,但是不太会去公开讨论的事情。demo demo 工程,这肯定是一个叫公开的秘密嘛。

demo 工程是指什么?比如说在什么微信公众号里或者什么的,就是说你放出一段机器人很厉害做的。就就那背后到底都对应了多少多少多少实际上的这个实现方式,这个事情我觉得算是个公开的秘密吧。对,就有很多视频,比如说一个机器人,这个比如他很厉害,然后什么又爬到这儿上,又搞了一下这个东西,但实际上。就如果你真的去看的话,那个东西每一个东西的位置都不能变。

你最早看 Figure 那些视频,你觉得机器人已经实现了。对对,Figure 是怎么实现的了?嗯,其实我不是百分之百清楚它的泛化性到底怎么样。不特指 Figure,就很多,就像刚刚才那个高阳讲,就是说你不停的去找那个甜区,就刚好这个杯子摆到这儿的时候,那算法是成功的。那你录视频、录 demo 时候,你就把这段给他录下来,对对吧?

对。然后比比如一个事儿,你把录一百遍,把那一遍成功的拿出来给大家看。那有什么比较简单的方法可以去分辨什么样的视频或者什么样的 demo 是相对真实一些的?什么样的可能是做了比较多这种 demo 工程呢?嗯,这个我还真思考过呀。我觉得现在主要分四个,第一个叫 cherry pick,第二个叫视频剪辑。

第三个叫叫操作,第四个叫 A I G C,然后 A I G C 我觉得应该是能分出来。然后最好的方法就是带着大家站在东西面前现场看,这是个唯一的光秃子。是的,是的,是的。这个所以在 RoboChallenge 社区内,其实大家也在讨论这个问题,就有没有种线上的方法能够去,就说尽可能接近现场带着看的这么一种体验。

当然了,这个问题学术就做一个学术问题本身说法的确挺难的,现在可能还没有一个特别好的这么一个想法。其实作为一个测评的社区的话,你们可以比如说在那个场地里放摄像头是可以的吗?就比如说通过远程的监控来看,就会比较接近在现场的状态吗?就如果你能跟这个 demo 交互的话,会更好是吧?对对对,比如说像比如说比如像那种可能,比如说那你怎么防止它是个剪辑的呢?

对,或者说,所以这里面我觉得其实有挺多,就是以白罗伊胜本身说话,就有很多 open question 需要需要被解决。嗯,像现在大家很多 demo 里,比如说为了防止说后期剪辑加速,一般放个 iPad 的时钟,然后还有一些,比如最近有些学术界他们 program 说,你 demo

的时候每次你要把一个 random 的哈希值放在这儿,然后来证明是说你这个视频是唯一的,就是你不是 cherry pick 的啊。

就比如说你每个人,比如说你只能申请一次这个哈希值,然后拍完之后你必须得把还有这个哈希值的视频再传上去做你的 demo 展示。啊,然后并且是,比如这些东西还可以跟什么区块链呀这些东西结合,就就就这个东西展开。我觉得说实话,本身都是个挺好玩的学术课题的。哦,嗯,对,但但是在肯定现在这是个没有被解决的问题,就是技至少技术方。

我觉得它还挺有意思的,就是它有很多东西是是直接就是你在物理上怎么去给它做一个标记,这个跟那种大语言模型的测评还还挺不一样的。嗯。是的,那大语言模型它最好就是它是它能接受 open set 问题,所以你让真实用户去问这个,就几乎就是很难作弊的这么一个设计。因为大语言模型领域其实有一些 hack

这个数据集或者 benchmark 的方式嘛,那你们可以稍微透露一下,比如具身领域,据你们所知有什么去 hack 的方式吗?

比如说你们这个 table setting 出来之后,我我可以怎么针对性的去优化吗?以及你们怎么反制这种事情?最简单的攻击方法就是。你同一个模型同一个任务交个一百次取最好成绩,啊,所以这这这个首先我们规则上我们是取最后一次嘛,所以这个先是数学上砍到,其次的话我们也没那么多产能供你来反复提交,所以这这个就靠一些这种行业自律来去来去约束了。

嗯嗯,那除了这个之外还有什么 hack 的方式?说实话,现在仿的挺多,因为大部分那种所作弊手法都是你自己得能 control 这个 environment。哦,但因为像 RoboChallenge 在线测评嘛,就是说你是踏实不到那个环境的,对吧?那那你顶多是说你背后你不是个模型,是个人遥操什么的。嗯,哦,那这可能是我们目前可能最就是一就潜在的最大的这个攻击方法吧。

对,我觉得一涉及到真实世界就挺有意思的,可能你要 hack 只能社会工程学了啊。对,是的,来我们这儿应聘这个这个测试员是吧?哦,其实你说到这个,我想起来以前就是,比如说你要是去一些工厂里面,或者说去一些那种制造业企业的大客户,因为他有那个就是 POC

验证的环节。嘛,就比如说以前就有创始人跟我说,你就一定要打点好这个测试体系里的从上到下的所有人,就是你不要让他来害你啊,因为你 P U C 可能同时不是测测很多家嘛,对不对?

现在可能打点打点那条机械臂比较重要,别测别测一边卡了,别测一边挂了。因为你们是一个商业公司,就是你们做这个事儿,他肯定也会有投入人,也会有一些这个包括你比如说买设备坏设备也有经费的一些东西啊。你你们长期是怎么怎么怎么去考虑这个事情了?对外提供测评服务,相对于我们对内提供测评服务来讲,这是一个 fraction 嘛,就是因为我们自己内部就非常大量的去评估模型的这些这些需求,所以实际上。

它不是一个很大的额外的成本,嗯,对,我觉得就目前至少还在可负担的这个范围内吧。当然了,就是有更多的公司一起来做,一起来分担,这肯定更好的。最后想请两位分享一下,就是你们接下来一年,二零二六年,你们想验证的一个悬念是什么?我先说吧,我特别想知道那个具身的 DeepSeek moment 能不能到。你说中国超越美国?

对,就是这个,就是就是以前,比如看很多国外工作,都是心里只能剩个羡慕。嗯,我想看看是不是说这个,就是说国内国外的这个追上的这个时间点。能在二六年最终能够见证到,我觉得就当时,比如到做视觉的时候,曾经看 Google 那些工作,也真的就是那种天外来物的感觉,但是。其实做了几年之后,慢慢发现其实也能追上。

你们从看 Google 的东西、听完来悟到追上,大概中间是当时是花了多久?其实也没多久。比如像那个,比如人脸最早那个 Google,他做那种什么几千个服务器生成一张那个猫脸的那个工作,其实到比如说我们人脸,我们就说 Human Performance,其实是国内国外一起做到的。其实我感觉也就三年。嗯,其实其实时间是挺快的,而且现在的这个节奏可能更快了。

Exactly,因为现在大家的做实验代码都是 Codex,都是 Cursor,比当年的这个生产力高多了。嗯,是,这是你想去验证看会不会发生的?二六年是否会有具身领域的 DPC 时刻?嗯,对,其实我关于中美之间的叙事的这个东西可能会更少一些,但呃,我二六年最期待的还是说。就是具身的这个基础模型,我们到底能让他,对吧?

到底能让他,能不能让他到 GPT 三?对吧?能不能让它升级到 GPT 三点五?对我对这个东西非常非常期待,并且,但是我先今天啊,今天的我非常有自信啊,可能这个有有可能干了几个月,可能会更有自信,也可能就没有自信了。对,呃,从你就是开始做机器人,包括你创业到现在,你这个自信是一直比较高,还是中间有什么波动啊?

如果有波动,是当时发生了什么?我觉得是越来越高了。越来越高了,对,因为很多东西看得越来越清楚了,对,就是很多可能最开始困扰的一些疑惑,它变得越来越少,变得越来越确定,所以我觉得是越来越自信了,对。那今天非常感谢两位做客晚点聊,分享了从 RoboChallenge 开始聊的这个行业里之前是怎么测评的,然后为什么现在可能大家。

在 VLA 之后,是非常希望一个更大规模的,然后来比更多模型的能力的这样一个测评的社区和平台。然后我们也从这个话题延展到了,就是现在具身模型是一个什么样的状态?其实和很多人想象的不一样,就是它一方面没有视频里展现的那么厉害,但是绝对也不是就一些人说的可能什么都做不出来的,全部都是泡沫的一个东西。其实你们作为从业者是能每天每天感受到这个东西的进步和进展的。

那今天的节目就到这里,感谢大家的观看,各位拜拜,拜拜。本期连点呈现,讲一讲做了多期具身智能访谈后的一些总结和观察。大家也可以去听几期晚点聊直接相关的节目,一是上一期访谈踏实创始人陈逸伦,还有一百一十二期我们对高阳的专访,以及八十六期对清华插院许华哲的专访。高阳和许华哲都曾在伯克利贝尔攻读博士。第一个总结是关于具身的大的框架,或者说可以从几个维度去观察。

简单来说是数据、模型还有硬件,其中数据和模型是和智能能力直接相关的部分。行业的共识是,数据是当前的最大议题。更准确的说,是如何规模化且相对低成本的获取大量有效的数据,也就是小强在这期里说的,scaling data 是二零二六年的一个行业主题。以及陈应伦在上期提到的三道观察中的第一道就是数据,而怎么获取数据,则是现在行业分歧所在。

有些是从视频里来学,也有人侧重真机。真机数据又可以分为比较重的去做遥操采集,它的质量是最高的,但是很贵,因为你需要造一个机器人,或者至少是一个同构的结构才好做遥操。而现在很火的一个方向是 U M I,简单来说就是让工作中的人带着可穿戴设备来采集真实场景里的真实工作数据。Generalist 还有 3D Robotics。

和踏实都有这样的尝试。二六年,我们肯定会看到更多团队有类似的工作。在模型架构上,VLA或者说端到端是当前最主流的方向。但是怎么做VLA,包括怎么理解VLA,每个团队也都有不同的想法。比如高阳在这期提到,也可以是VLTAT,这里是。指触觉,小张也提到,VLA 不一定是要像现在最主流做法那样以 LLM 就是大语言模型为基座,它也可以是以视频为基座。

硬件则是一个更跨学科的问题。它要实现的目标很多,包括寿命、耐久性、可靠性、精度、负载等等,还有续航,背后需要能源材料的突破。理论上,智能也就是大脑和小脑的部分和硬件的部分是可以解耦分开的。所以在海外也有一些只做大脑和小脑而不做本体的创业公司。但是从研发迭代的速度和落地应用的角度来说,软硬垂直整合可能会有一些优势。

我们看到大量中国公司都是大脑和本体一起做,这样也可以利用国内的供应链的优势。另一个观察视角就是具身团队的来源。我们访谈过的对象刚好涵盖了几种主要的来源。第一是来自自动驾驶领域,比如陈亿伦,他是华为前自动驾驶的首席科学家。类似的还有新海图的创始人高阳,曾在威谋和蒙蒙塔工作。智简动力的两位创始人贾鹏和王凯都曾在理想工作。

二是一直做 robotics 学术研究的人,比如高阳、徐华哲。三是来自其他的 AI 领域,如 CV 计算机视觉,范浩强就有很强的 CV 背景。同一个公司里几个主要联创的背景也会有互补,比如在星海图,高阳有更多的工业界经验;在清华任教的赵航则有更多研究背景;在千寻,高阳的创业合作伙伴千寻的创始人韩风涛来自珞石,这是一家国产协作机器人公司。

韩风涛有很强的工业界经验,这两个视角其实指向了具身智能一个共通的特点,就是这是一个非常跨学科、跨领域的创业方向。这是具身智能目前让人感觉比较混乱、难以看清和头大的地方,也是它很有意思的地方。可以想象,这不是一个巨头靠砸资源就能快速取得成效的领域。未来它还会有很多变数,我们可以一起观察,一起见证。本期节目就到这里,欢迎收听。

如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法,这也会成为我们节目的一部分,让整个讨论更完整。你也可以把我们的节目分享给对这个话题感兴趣的朋友,欢迎推荐更多你想听的主题和嘉宾。你可以从小宇宙、苹果 Podcast 等渠道关注晚点聊 Late Talk,也欢迎关注我们的公众号晚点 Late Post。

下期再见。具身模型哪家强?与范浩强、高阳聊具身模型的测评、RoboChallenge,26 年具身展望。