Hello,大家好,我是小俊。二零二六年,除了嘉宾访谈,我们也很希望推出一些由内部人士带来的产业单集。那今天就是这样的一次尝试。我们知道,数据、算力、算法是驱动人工智能的三驾马车。今天这期节目,我们邀请我们的返场嘉宾光轮智能的创始人兼CEO谢晨,试图通过一集节目来完整的聊聊这其中的一驾马车——数据问题。
我们尝试来做一个数据的产业综述。大语言模型的数据遇到的是撞墙的难题,机器人的数据则处在一片荒漠之中。数据产业究竟是如何运转的?一些人正在探索的仿真数据、数据金字塔,又将如何改变产业的格局呢?那接下来就是我对谢晨的访谈。如果大家对更多的产业话题感兴趣,欢迎在评论区里留言。期待我们在二零二六年和AI共同进步。
从你的视角告诉我们,谁变得更激进了?啊,我觉得自己肯定是更激进了。嗯,我觉得啊,阿里,啊,我觉得 OpenAI,啊,我觉得地麦呢也绝对更激进了。对,我觉得呃,英伟达我觉得也更激进了,这就是五家角逐机器人大脑的团队。对,其实某种层面上,我认为派也应该属于这一类。其实最有效的数据是先失败再成功的数据。我觉得就是说,到了终局,可能整体上来讲,就跟马斯克说的,咱们人可能就在一个仿真里头。
Hello,Steve,先给观众朋友们打个招呼。谢谢小俊的邀请啊,我叫Steve,中文名叫谢晨啊,我是光轮智能的创始人CEO。Steve其实之前来过我们的播客节目啊,但是因为我们今天是第一次录视频播客,所以还是请Steve先给我们做个自我介绍,并且讲讲过往的经历。我最早是在这个北大物理读的本科,然后去这个哥伦比亚大学的商学院读了一个量化金融的博士。
然后呢,与这个很多我觉得在科技圈,尤其是在巨深圈创业的leader不一样啊,我其实刚毕业了以后的经历有一些复杂。啊,那我其实在这电商做过这个动态定价的这个AI算法的这个负责人,电商哪家公司啊?其实当时叫摘到com。那它是一个希望去颠覆亚马逊的一家这个新兴的创业的公司,然后很迅速的去融了很多钱啊,最后其实被沃尔玛收购了。
那当然,在这个之后,其实啊,我还做过这个产品经理,就也负责过产品,所以其实我一直是在啊算法以及落地啊就之间啊就再去思考我的下一步。那直到二零一八年的时候啊,我特别幸运去了硅谷。啊,加入了Cruise,那是当时可能啊最领先的啊或者最领先的V二的两家,一家是Waymo,一家是Cruise的L四的自动驾驶公司啊,去Cruise啊去负责自动驾驶的仿真。
那这也是我第一次在整个行业啊,真正的去验证了仿真以及合成数据啊,它们并不是一个玩具,它们真正可以有效的啊,去支持到算法的演进。啊,在这个之后呢,我去了这个英伟达,啊,在英伟达负责自动驾驶仿真,啊,其实也就是在啊英伟达的时间,也就是二零二一年,我刚加入,我就发现了一个可能很颠覆我的一个认知,嗯,啊,我发现在英伟达,他们就是在车端的这个芯片Orin最大的客户不是Waymo和Cruise,而是魏小李。
那这个给我的一个很大的一个震撼啊,让我意识到,可能自动驾驶的下一代不会在美国,不会在硅谷,而会在中国。那我必须要回国啊,所以其实刚刚加入英伟达六个月的时间啊,我就携家带口啊回国啊,加入了未来,到未来去负责他的自动驾驶仿真啊,在这儿呢,我也特别感谢我的太太啊,她当时给我很大的一个支持啊,就抛弃了可能在美国的很多的工作朋友经历啊,然后和我一块儿回国。
那当然就是说啊,回国了以后,我在未来真正的去啊。从一个主机厂的角度去实践这个仿真,把它搭建成了一套的这个数据闭环,啊,可以支持到,比方说自动驾驶算法的合成数据训练以及大规模的评测。和落地,那当然这个时候我也产生了很多的一个思考,就是说,仿真它到底只是一个加速器的一个作用,是一个锦上添花的一个作用,啊,还是说它是一个更加偏第一性的,它是以一个更加偏一个前提条件,嗯,啊,我那个时候呢就越来越感觉到自动驾驶可能仿真更多的是一个加速器,而对于机器人具身智能,它可能更会是一个先决条件。
嗯,啊,有了这个思考了以后呢,特别是赶上了大模型的这个演进,那么在二零二三年呢,我和我的联创严海波啊一起决定成立光轮智能。那其实出发点就是希望用这个仿真,用合成数据来加速机器人这个产业。为什么你刚毕业的工作经历会相对其他人也更杂一些?你当时在寻找什么呀?嗯,很好的问题。我觉得其实我个人也在寻找,就是说,哦,我能够对哪一个行业、对哪一件事儿能够产生最大的一个贡献。
这贡献可能不是一个锦上添花,而是说我真正可以啊成为一个啊前提条件,来真正改变一个行业。啊,那我呢?其实本科是学物理的,物理其实很难。我刚加入北大物理的时候是年级一百一十名,啊,我可能花了三年的时间。啊,每天晚上可能两点钟睡觉啊,包括这个寒暑假都没有回过家啊,都在学校。那最后可能是进了年级前五。那这个经历给我的感受就是说,第一啊,确实是这个通过努力啊,你确实是可以去做的更好。
嗯。但是第二的话呢,其实天赋还是最关键的。啊,那我觉得我可能还是缺少了对于物理的天赋。后来去金融呢,也是看到了当时可能从物理、从数学走的最好的这些同学,可能都去了金融这个行业。但是真正去读了博士了以后,才发现这个行业其实开始欠缺了一些创新,且对这个社会可能没有太大的一个。从我角度来讲,真正的一个贡献,那我希望更加投身到一个科技行业。
那么去了科技行业了以后呢,其实我也是在寻找我最有啊价值的地方。我认为从产品端来讲的话呢,我特别希望去做一件事儿,真正能让它有效的去落地,就是给用户来提升价值。啊,但是呢,其实做了一段时间,又发现这件事可能缺少了一些技术的难度,啊,一些实质的挑战,啊,不够颠覆性,嗯,啊,所以确实是抱着这些的这个想法,啊,我在不断的去寻找,啊,那当然,我觉得我最幸运的就是可能从一八年开始,啊,我真正的找到了我觉得最有意义的事情,啊,且我认为它可能能够成为一个产品,能够成为一个商业模式,啊,那这个就是仿真。
我记得我好像见过你的某一个师兄弟,应该也是北大物理系的。然后他说你是很少见的,在北大物理系读了本科,然后很快就去哥伦比亚读商学院的。你觉得你的特质跟你的同龄人有什么不一样?我觉得我的特质的话,就是说,啊,我可能希望做一件事儿,要不然就不做,要做就能够做到最好。啊,这个最好啊,是一个可能在啊国际上能够做到第一名、第二名,或者说啊,除了我之外就没有人能够做得更好这样一个级别。
啊,另外呢,就是说,我觉得还有一个特质,就是我比较希望去找一个区分度。去哥伦比亚大学商学院,其实一方面是因为我的学习各方面可能啊确实是比较好,嗯,但是其实最主要的原因是我想清了,我不适合做物理。那我其实觉得,在那个时间点和我的同龄人比的话,我觉得可能我的思考会更多一些,因为我不断的再去找,就是说我在哪一个方面可能能够有真正的一个优势啊,能够与别人不一样。
你找到了吗?我认为其实当时是没有找到。啊,那我认为现在我找到了。其实我呃没有讲的是,我在本科的时候也创过业,啊啊,我在博士的时候也创过业,我在本科其实啊经历更加复杂一些。在大三的时候,到了年级前五了以后,我就开始放飞了。啊,因为我觉得就是这个到了年级前五,对这个成绩足够我来去出国申请一个名校。啊,那后面的成绩就没有那么关键了。
那这个时候我就在想啊,那我缺失的是什么?我缺失的可能是啊,真正的这种社团的体验、国际的经历啊。因为啊,我可能寒窗苦读了这个三年的时间,而我的同学们可能啊,就都有各种各样的这个不一样的经历啊。那所以呢,我就啊,当时就申请去哥伦比亚大学去交换了一年。那在那一年其实是给我感受很深,啊,当时是金融危机,啊,那我确实也啊零八年的时候,那确实也是这个啊感受到了很多不一样的这个世界,学到了很有意思的课程,交了很多的朋友,同时呢也让我看到像我这样的啊人很希望去有这种在本科出国的经历。
那很有可能,北大、清华很多这种高校的啊同学们,他们也都希望有这样一个经历啊,能够在本科的时候更好的就感受一个这个世界啊,找到他们下一步的方向。所以我当时就组织了这样一个啊呃学习团交流团啊,那么等于是在北大的时候,当时就办了几次啊,那带了很多的这个同学们,当时这个出国到美国。啊,包括其实,在博士的时候,啊,我当时也有点闲不住,啊,也创了个业,啊,那在博士的时候呢,当时啊,就是我养了一只狗,啊,它的名字叫土豆。
啊,它是一个啊特别可爱的一只八哥,啊,在它三个月的时候啊被查出来有这个心脏病,啊让我就很伤心,啊由由于对它的这个爱,然后也由于就是说,啊跟很多的狗友去交流,我发现可能一方面为了土豆,一方面为了狗友这个社区,可能需要一个应用。移动应用来帮助大家更好的去维系大家之间的关系,嗯,也让大家更好的去维系他们跟狗这样的一个关连接。
所以我当时就下载了很多的APP,可能下载了有五百多个APP。啊,在我的手机上,然后一个一个的去尝试自学设计,自学啊写代码儿,然后把这个APP给开发出来。第一次科技创业啊,第一次科技创业,对,然后做了一个狗友的应用。当时这个狗友应用其实还在北美是排名可能是啊前三的狗友的社交应用。啊,基本上都是五分的这个 review,其实还是比较火的。
但是呢,我觉得一个问题就是,我当时其实没有去思考商业模式,嗯啊,所以做完了以后,其实也很难去商业化。其实当时有几个硅谷的VC啊,给我这个term sheet,希望给我这个投资,但是呢,啊,当时我也接近这个啊博士的毕业,我想了想,觉得还是算了,因为可能这个确实也不是我啊一生希望去追求的一个方向啊。同时呢,我觉得没有一个商业模式,我也不希望去拿投资人的钱啊,去浪费他们的钱,也浪费自己的时间啊。
所以我后来就把这个公司给关掉了。做了多长时间啊?这个公司啊,这个公司大概做了三年的时间,三年到博士毕业啊,到博士毕业哦。你前面工作经历非常的杂,是不是因为你一直在pass很多事情?你发现很多事情其实不适合自己。啊,没错,其实我觉得不同的人不一样。我举一个例子,我觉得可能巴菲特和朗朗他们很幸运,啊,一方面我觉得他们很棒,他们能力很强;一方面他们很幸运,他们可能在十岁的时候。
就找到了他们擅长什么,对吧?可能巴菲特在十岁的时候发现他特别喜欢股票,他也擅长投资啊。郎朗可能在十岁的时候发现他擅长弹钢琴啊。我觉得我其实花了很多的时间,发现自己不擅长什么。啊,我必须得去通过试错才能知道自己不擅长什么,但是我可能就没有那么幸运,我可能花了很长的时间才真正发现自己擅长什么。擅长的是,啊,我认为我擅长的是,啊,基于一个更加颠覆性的技术科技打造一个产品,啊,并且用这个产品去真正的支撑一个产业,我觉得这个是我擅长的。
为什么你最后选择在仿真这个领域算是生根吧?而且很快从去了英伟达只有六个月,然后就加入了未来。其实你后面换的其实也挺快的,就是在每个公司工作时间都不久。是的,我觉得首先呢,是我相信仿真的魔力。这个其实是我当时去Cruise的时候发现的。在我啊去领导Cruise的仿真之前,实话实说,仿真是一个玩具,或者说呢,它更多的是Cruise。
给投资人展示的一个demo图,那么它其实是用这个游戏引擎,啊,用这个比较传统的这套的这个技术美术去打造了这个看起来很真的一个世界车,然后用它呢去生成了很大量的数据,但是这个数据呢,其实算法的团队,比方说当时啊感知的团队,并没有办法有效的去用到它。啊,或者说,其实用了以后,其实效果训练出来的模型的效果是降低的,而不是升高的。
其实啊,西欧也比较卷的一个人,他叫Kell,他比较卷的一个人,他拉我过来就是希望让我去解决这个问题。啊,当时给我的时间可能是三个月的时间。啊,那当时其实压力也比较大。第一步,其实我可能跟别人不一样,就说我的背景比较复杂一些,我既有物理的背景,我有量化,我还有AI的背景,所以我第一步做的事儿其实不是去提升仿真,而是去评价仿真。
呃,得到了一套评价的准则了以后,第二步才真正的用生成式AI以及仿真的一个结合,真正的去提升它。那同时与算法有效的去迭代,真正的去把这个数据喂到了算法了以后,真正看到了一个提升。这个点是我真正的看到的一个很特殊的一个一个一个时间点,它让我真正的相信了这件事儿。那当然啊,我当时为什么去英伟达?是因为啊,当然一方面就是说,英伟达老黄他们确实看到了我在自动驾驶仿真做的不错,嗯,那他们确实在找这样一个负责人。
但是第二呢,就是说从我的角度,其实我也在我也在不断的给自己啊抛反例,也在challenge自己。就是凭什么我就认为我是仿真做的最好的?因为其实当时那个阶段,WeMo有WeMo自己的做法,Cruise有Cruise自己的做法,整个行业还没有完全收敛,所以也很难说谁对谁错。嗯,那我觉得英伟达它的优势就是它作为一个供应商,那我认为我应该从一个我认为我已经具备了L四的这个角度了,我再去WeMo可能意义不大。
啊!但是呢,我如果去一个供应商,我能够从供应商的角度去看应该怎么去做仿真,所以这个我去。那时候美达多大?二一年的时候,那个时候。可能一万人,啊,但是他的这个自动驾驶团队已经发展了几年的时间了,啊,其实英伟达在自动驾驶上投入还是比较高的。那时候从Cruise跳槽到英伟达是一个主流选择吗?其实当时我觉得很多人还没有看懂英伟达,实话实说。
我当时也没有那么看懂,直到我进入了英伟达,我才看懂它。现在后悔离职吗?啊,没有后悔离职。对,但是就是说我确实当时在英伟达内部的时候,当时真正让我感觉到英伟达是一家极其硬科技的公司。我当时记得我跟我太太说,我说其实不要小看英伟达,它不是一个游戏卡的公司,它不只是一个GPU的公司,它是一个啊加速计算的平台的公司,它是一个全栈的一个公司。
这个是我当时真正在内部的时候看到的。那当然就是说,我觉得在英伟达其实让我看到了,呃,从供应商角度应该如何去做仿真。但是我为什么去未来?一方面我觉得是回国,另外一方面呢,我觉得我希望从一个客户角度。从一个,因为如果说我认为将来最大的仿真的需求会是来自于主机厂,因为他们都会自研自己的自动驾驶。嗯,那么我应该从一个主机厂角度真正看应该如何去利用仿真。
同时,我觉得我也很难去回答我自己另外一个问题,就是为什么这件事儿一定要出来做?是不是在里头做就够了?嗯,所以我觉得我需要从多方的视角,真正让我自己,啊,真正的理解透,啊,这件事儿真正在外部做有这么一个机会。你说仿真不是玩具,那仿真是什么呢?这是一个很好的问题。实话是说,我最早的时候,我一直管仿真叫时间机器。
假如说没有仿真,可能自动驾驶要花十五年的时间;有了仿真,没准五年的时间可以达到。我认为它是一个加速器。为什么这么说?因为自动驾驶最主要的数据来源还是来自于真实世界,来自于车开回来的数据。它的数据好采集?它的数据很好采集。它其实本质上来讲是一个被动的,因为都是。啊,买了车的司机,对吧?然后开回来的数据,他其实更加希望通过仿真做的是两件事儿,一件事儿呢是补充一些边角的场景。
啊,就是俗称的 corner case,那么可能是路上的一些比较偶发的事件,还有一个呢是用仿真啊去做一些评测,因为在仿真里头啊可以有更好的一个重复性啊,那么可以重复的去验证他们算法的有效性,做回归的测试。但是呢,我当时的想法是,仿真难道只可以作为一个时间机器吗?有没有可能它对于AI,对于后面AI的发展?
会类似于英伟达的卡一样,没有英伟达,AI就不会发展,而不是说啊,有了它,它只会发展的更快。那在这个时间点上呢,我就开始去。看机器人这个产业,当时其实我觉得在英伟达给我的触动很大的一件事儿,就是我当时有机会跟啊詹森,当时有机会跟啊英伟达的可能
Omniverse啊的几个leader有比较深入的交流。那我当时感受到,其实英伟达在下一盘大棋,啊,它其实真正侧重的是机器人的仿真,啊,那这件事儿它把它做成了一套平台。
因为他特别相信通过合成数据、通过仿真,这个是唯一的路径,来真正的让机器人啊,将来可以部署到世界各地。我当时其实也越来越认为,这个确实是后面的一个大趋势啊。在这样一个阶段呢,我认为就是说啊,我真正应该出来去创业做的,不是一个自动驾驶的仿真。啊,合成数据,而是去真正作为啊整个机器人产业的数据的这个基建,啊整个机器人产业的这个数据的这个引擎。
为什么要在外面做?为什么不是在某一家公司做?为什么这些机器人公司不是自己来做这件事情?嗯,怎么说呢?其实我也是花了很长的时间去理解。我觉得在这儿呢,其实更多的还是要去想这件事儿的难度、它的市场的机会啊,以及呢,我觉得可以与比方说这个行业的一些公司去类比,比如说像Scale AI啊这样的公司去类比啊。
我认为啊,当这个市场的机会足够大。啊,它的难度啊相对的大,在这样的一个情况的呃时候,我认为在外部做其实有更大的一个优势。为什么?因为其实你可以招到更好的、更优秀的人才。举一个例子,就是在Cruise,可能最好的算法的人才很难给到仿真团队,他一定会给到感知的团队或者当时的预测的团队。对吧?那么在WeMo可能最好的数据的人才,并不见得会给到数据的基建团队,可能会给到算法团队。
而在Scale AI,对吧?他会吸引到全世界最优秀的算法的人才和数据的人才来为他去打造一套数据的飞轮。嗯,我觉得一样的道理,就是我认为其实只要这件事儿足够的难啊,这件事儿它的商业的机会足够的大。我认为他就应该在外面做,除非就是说这件事儿可能,比方说,如果它只是一个自动驾驶的仿真,对吧?那我觉得确实有可能这件事儿并不值得完完全全在外面去做这件事儿。
其实我们今天这个节目是想聊一个就是很专业、相对 niche,但是也很本质的一个话题,就是数据。因为现在不管是大语言模型,还是嗯,具身智能,还是 robotics,都非常关切数据问题。不过两边的阶段可能是不一样的。大语言模型遇到的是,嗯,数据撞墙了,呃,没有更多的数据了。互联网数据都已经吃完了。那对于 robotics 来说,数据仍然是一片荒漠。
那在你看来,你觉得数据问题有多重要啊?它是本质问题吗?呃,数据的问题其实啊,我认为它对于 AI
是一个本质的问题。啊,我觉得如果从第一性原理上去思考的话,我其实。认为数据可能应该跟人的教育的行业去类比,就是数据对于模型,或者数据对于智能,我觉得有点类似于教育的行业对于人的学习。数据约等于教育,我认为数据对于这个智能是啊极其关键的,因为我认为就是啊数据对于智能就要类似于咱们人啊去获取知识,啊来不断的去自我提升。
那我认为知识对于人的智能是啊极其关键的第一性的这个需求。那所以同理,我认为数据对于这个智能是啊至关重要的一件事儿。你会怎么定义数据啊?我觉得我可能更多的是从AI数据发展的不同阶段,来帮助咱们去想一下怎么去定义AI数据这件事儿。啊,我认为最早的这个数据啊,更多的类似于是在最早的机器视觉的这个阶段。那当时李飞飞教授啊去定义了ImageNet。
那这个时候的数据呢,更多的是一个数据集,对吧?它是以一个静态的啊,包括图片啊,包括相对的真值标注的一个数据集。嗯。啊,这个是最早的一个阶段,它是一个静态数据集的一个阶段。那么,我觉得与人的这个。呃,教育类比的话呢,它其实可能更多的是一个偏一次性的填鸭式的一个教育,比方说一次性的买了一些教材。啊,提供给了啊一些同学们去学习。
在后面的时候呢,其实我觉得就到了scale AI啊,真正的去工业化数据的生产这件事儿。那这个时候,我觉得数据呢,可能更多的是一个基于大规模的工厂式的流程啊,包括后面的工艺,对吧?把它啊相对啊高时效性的啊大规模的。保证质量的去生产出来,嗯啊,所以它更多的是一个工厂的生产大规模数据的一个流程,啊,在这个时候呢,我觉得有点类似于是一个偏量贩式的教育。
那再往后呢,其实就到了我觉得大语言模型的时代。那大语言模型的时代,我认为数据呢,啊,由于可能预训练已经把整个互联网的数据都给用够了,那么数据的啊重点呢开始转移到后训练以及评价这个阶段,那么更多的是基于越来越多的高阶的这些人啊,比如说啊能力很强的工程师啊、物理学家、数学的金牌啊、律师、医生。那么,基于他们呢,一方面来说去出题,然后提供评价标准;二,基于这些题,就以及考核这个大模型的这些反馈,发现相应的问题,又针对这些问题,啊,去给他们更多的信息,给他们更多的经验,传授,帮助他们去提升。
在这个时候,我觉得数据就更加类似于是,比方说教育的这个。更加高阶的一个阶段,就是这个师者,啊,所以传道授业解惑也,那是啊一个老师根据你的这个因材施教,根据你的能力,根据你的这个阶段,基于一些对你的评价,发现了一些问题,并且基于这些问题,给你足够的有经验的传授反馈,来帮助你去提升。所以我认为这个其实是数据的一个演变,那当然我认为从巨深来讲的话呢,它的数据又更加的复杂。
比如说在大语言模型的时候,数据可能是更多的是在数字的世界,啊,那么基于啊从评价的角度出发,给到这个模型更多的反馈,而巨深呢,其实我认为讲可能更多的会在啊,物理的世界,那无论是在真实的物理的世界,还是在仿真的物理世界,啊,基于评价,啊,基于信号,啊,提供更有效的经验的传授,嗯,啊,以及反馈,对,那么这个我认为可能是数据发展的不同的阶段。
那么从这个角度来讲呢,我觉得数据啊,可能更多的应该被定义为它是一个能够帮助你去学习的信号。以及相应的这些经验的传授,所以它从一个静态的数据,可能慢慢的变成一个教育的系统。对,那我觉得这个其实也很有意思。比如说,啊,我还记得最早的时候在自动驾驶。啊,当时其实,啊,数据的团队他们提供的数据集其实是没有什么反馈的,没有什么反馈的啊。
比如说,可能更多是算法团队提出了一些需求,对吧?然后数据的团队去交付,然后算法团队后面再提出更多的需求。对吧?那么咱们去看现在的很多的数据标注业,自动驾驶的数据标注业,我觉得还是在这样一个阶段,对吧?其实这些数据的厂商公司或者说内部的团队,他们其实对算法的状态是没有了解的,他们更多的是被动性的去接受算法提出的需求,嗯,并且提供相应的数据的交付。
但是,咱们再去看,比如说大元模型这个产业啊,那当然一个是scale,但是后面的,比方说像McQuar,像Search,那他们呢更多的是啊找了更多高阶的人去给他的模型的客户的算法提出了更多的评价,通过这些评价呢去啊给这些他们的客户提供反馈。啊,并且呢,基于这些反馈呢,针对性的提出了更多刺激了更多的数据的需求,又帮助这些客户提供了更多的这些数据的需求,来帮助他们的算法去提升这样的一个闭环。
嗯,啊,那在这个阶段呢,其实数据商是对这个客户的算法是我觉得是很了如指掌的啊,因为其实真正的评价方变成了数据商。对,所以我觉得这个其实就很像学生和老师的关系,对吧?比方说,如果是一个量贩式的教育,那么可能老师对学生可能并没有太多的了解,他只不过是一个填鸭式的一个教育,而对于一个更加高级的,比方说大学的教授。
啊,或者是比方说物理奥赛班的这个这个老师与学生的关系,那他们可能是啊更加有针对性的指导啊。我认为数据其实在朝有针对性的指导这个方向去演进。我们经常会在行业里听到几句话,一个叫数据标注,一个是有多少人工就有多少数据。能不能给大家形象化的解释一下这两句话背后所蕴含的?工作量啊,就是他的工作具体包含哪些事情?
它是一个怎么样的工作流程?我想说,就是说,呃,数据其实也在演变,它可能从最早的数据标注,到现在的可能是更多的啊,数据的采集。那我我在这儿我可能举一些例子,嗯,比如说从数据标注业来讲的话呢,比如说最早的啊这个Scale AI去提供这个自动驾驶的这个数据,那它可能是拿到了客户的,比方说啊它的各种传感器的信息。
啊,那他可能做了更多的清洗的工作,啊,更做了更多的切片的工作,在这个基础上,他可能有自己的一套啊工具链,啊,那当然可能还更多的是一个人为主的一个流程。啊,去基于这些工具链,基于它的一些规范流程啊,比如说这里画个框,这个是啊自行车,那个是啊这个行人啊,包括可能啊更加这个时序性的这些啊这就就这些数据,把它们啊标注出来。
啊,然后可能经过层层的标注,再往后发展,可能是首先先是自动化的标注啊,其次是人在环的这个质检啊,这样最终把数据生产出来。这个可能是一个比较传统的自动驾驶的算法标注,嗯啊,这样一个产业,它需要多少人力啊?啊,它需要很大的一个人力,包括现在,其实我觉得自动驾驶的标注行业,啊,其实还是,当然,我觉得它啊,从客户端已经有很多的自动化的算法了。
但是其实咱们比方说去看整个产业,可能有很多的基地,可能啊很多的这个省市都有很多的标注基地。那每个基地可能就有这个成千上万人啊在做这个标注行业。所以整个市场上,我估计可能会有我不知道,我估计可能会有十万人、几十万人啊在做人工标注这件事情。这么多人哦,对,是很多的人。当然,就是说这个,我实话说,我认为还是在上一代的这个数据,它呢更多的是基于一套规范准则,让人去基于这套准则去提供标注信息,啊,但是呢,我认为下一代的数据提,其实人在这里头提供的是经验的传授。
我举一个例子,比方说,啊,大语言模型的这个数据,呃,那无论是MoCo还是Search,这个可能是啊弯曲的两个现在比较新兴的数据商,那么他们是为大语言模型提供后训练以及评测的数据。那包括比方说RLHF,就是包括不断的去与这个模型去交互啊,给他们去提供反馈啊,以及他他们去出很多的题,又给一些答案来让这个客户的这个算法一方面去评价他们,一方面让他们去用更好的RL的finetune啊去提升自己。
那在这个时候,其实。啊,这些人都是啊很有经验的人,或者说很贵的人。你可以看他们的时薪都是在一百美金以上的时薪。那他们提供的更多的是一个原始的数据,他们提供的不是一个标注,并不是说在已有的数据上他们在提供一层标注,而是说他们直接的去给这个数据去提供反馈,或者说直接去生成新的数据。你们举个例子啊?举一个例子,比如说啊,就是一个问题啊,你对AI的数据的看法?
是怎么样的,对吧?那么可能算法先生成了自己的看法,比如说可能GPT先生成了自己的看法,那么如果这里头有一个数据的专家。那么他可能就会根据这个GPT的这个看法,给他提供相应的反馈,对吧?同时他可能还会去出更多的题,更多的难题。老师的角色,哎,没错,他是一个老师的角色,他会出更多的题,同时他可能还会提供更多答案。
包括比如说啊,举一个例子,像编程啊,你可能有十种方式啊,能够把这段程序给它编出来。那哪一个是好的,哪一个是坏的,哪一个是模棱两可的,这些都要相应的给它提炼出来,给到算法。所以这个时候就跟之前的数据就很不一样。之前的数据,比如说自动驾驶,或者说这个最传统的机器视觉的数据,可能你需要提供的都是正确的信息,对吧?
就完美的、正确的信息,这是最好的。但是其实。在现在的这个数据,比方说大语言模型或者巨深,其实没有严格的正确,也没有严格的完美,啊,每个人可能他的回答都是不一样的,对吧?但是呢,啊,可能这些不同人的这些的分布、这些多样性,以及它的里头的这些逻辑的关系,以及甚至是的一些错误的数据,都会是极其有价值的。我举一个例子啊,就是我们服务啊巨深客户的这个数据,最早的时候,可能包括我们的客户也是全球最顶尖的巨深的大脑的公司,他们可能给我们的需求就是你要提供完全正确的、完美的基于仿真啊,这个机器人去执行一个长程的任务,比方说做一个披萨。
啊,从冰箱里头把这个饼拿出来,然后往上面去放各种各样的这个调料,以及各样各种各样的水果呀、这个蔬菜呀、啊肉、cheese等等的,最好把它放到烤箱里头去摁键。你要把它完美的啊做出来,这一个长城的任务是一个有效的数据。但是后来,我们的客户包括我们一块儿通过迭代发现,其实最有效的数据是先失败再成功的数据。
比如说,啊,我在里头我可能要放一片蘑菇,但是我拿出来蘑菇,我切片了以后,我没有抓牢,这个蘑菇掉到桌子上了,我再把它捡起来,再放回到这个披萨上。这个数据啊,我们管它可能叫负样本或者叫纠正的数据。这个数据往往是更有效的。所以,其实当模型的泛化能力提升了以后,它更可以从错误中去学习这些认知回来。它更接近于人的学习过程,哎,没错,它更基于人的学习过程。
前段时间我们有一个播客聊过一个观点啊,就是广密说他们认真花时间研究了给Frontier Lab、硅谷那些Frontier Lab做数据标注的公司,最大的体感是。如果模型数据分布里面没有这类数据,这类嗯这类任务就是不成功的。只有压缩过这类数据,可能才会成功。所以今天的模型还是一个巨大的压缩器。所以他提出说,数据级模型、模型级应用,你认可这个观点吗?
就是说,所有的数据都应该是训练到模型里压缩过的。嗯,我认为就是说,嗯,在这儿其实广密提到了一个,呃,很好的一个,我觉得现在现阶段的一个问题,就是模型的泛化能力还是不够的。嗯,怎么去定义泛化能力啊?我觉得就是英文叫zero shot。啊,中文其实就是零样本的能力,零样本的学习的这个能力,就是我没有给你看过这个样本,没有见过,对,没有见过,但是你能够把它做出来。
对吧?比如说啊,假如说你的这个机器人的训练里头并没有见过做披萨的视频,但你可能见过,比方说切菜的,你可能见过做汉堡的,但是啊,给你做披萨的这个任务,你能不能给它做出来?这个是零样本的能力。现在我认为,从巨深的角度来讲的话,零样本的能力还是比较欠缺的。那在这样一个情况下,确实啊,你需要什么样的任务的执行率,你就需要去补充啊什么样任务的数据,在现阶段是。
啊,就我认为这个是合理的,但是呢,我认为就是说,啊,数据及模型,啊,这个观点呢,我认为在长期,我认为可能它不是一个啊本质的一个观点啊,因为我认为本质上来讲,模型的架构还是需要去提升的。啊,我认为一个模型如果不具备架构上如果不具备零样本泛化的能力,那我认为这个模型它不是一个真正通往通用智能的一个模型。
嗯,啊,那我再举一个例子,其实人的。算法也是不一样的。举一个例子,可能普通人的学习的算法和马斯克的学习的算法也是不一样的。马斯克的学习的方式可能是更多的是从第一性原理出发。基于他可能比较广博的知识,啊,以及基于他的这个实践,对吧?去迅速的去迁移新的知识出来。啊,来帮助他去更好的理解这个事物,啊,那我认为他的这个模型可能会比普通人的模型要更加的有效很多啊。
对,那么在我看来呢,就是说智能其实现在一方面呢,我认为肯定是需要更多的有效的高质量的数据,但是另外一方面呢,我觉得还是在模型上需要更多的提升。所以这里讲的是架构和算法的问题,没错,本质上还是它不够聪明。本质还是它不够聪明。我认为,呃,就是泛化性还是需要,啊,算法的架构来带来的。当然,就是说存在一个
scaling law 的 moment,就是时间点,就是说可能你的数据量必须得堆到一定很大的一个数据量,才能够看到它的泛化性的出现,就是足够聪明了,哎,就足够聪明了。
对,其实呢,我们现在也服务了可能,呃,全世界。啊,最大的几个大模型股呃的团队,那么通过我们跟他们的合作,我们其实是发现啊,在巨深这儿,我认为就是说zero shot能力,就是零样本的这个能力,我认为已经逐步的开始出来了。嗯,对,所以我认为啊,在这儿的话,其实我还是比较乐观的。在哪些场景会出现这种领样本的趋势呀?
对,我觉得可能倒不是场景,倒是团队。我大概说一下我的看到的一个不同点,可能比方说在六个月以前,嗯啊,我们的大模型的客户和我们的机器人的客户,他们可能对于啊数据的需求,无论是从量啊,从他们的啊具体的定义角度来讲,都是比较相近的。但是呢,可能最近这六个月,可能发生了质的变化。那么我发现大模型的客户,啊,他们可能最关注的现在就是零样本的能力。
嗯,那他们怎么去?他们相信的是什么?他们相信的是scaling
up,他们相信的是用一个足够有效的算法。啊,用足够多的高质量的数据,嗯,啊,可能这个数据呢,更多的是一个本体无关的仿真以及人类数据,啊,基于仿真的评测,啊,大规模的评测来帮助他们去实现一个相对简单的本体,比如说机械臂。都不是啊,这个都都不是轮式底盘的机器人,或者是这个啊,比方说这个足式的机器人,就是机械臂夹爪,是否可以实现啊足够有效的零样本的迁移的能力?
这个大模型团队关系,大模型团队,大模型团队为什么要去做这个硬件相关的事情?呃呃,他们其实恰恰是因为不想做硬件相关的事情,所以他们选择的是最简单的机械臂。OK,对,比如说你要是去做人形或者要去做这个轮式,其实会复杂很多,对吧?因为你要去有很大的维护的工作啊,且这个就是就是每一个本体其实都有很大的一个调试。
对,但是呢,大模型团队用机械臂用来做什么呀?啊,其实现在最主要的这几个大模型团队都在做巨深的标A。大模型团队也在做VLA,大模型团队也在做VLA,不是只有呃,巨声智能或者是自动驾驶团队在做VLA。对,这个其实是我觉得最关键的一个点,就是咱们去看,比如说。啊,地脉呢,就是盘结,对吧?比如说这个英伟达,啊,比如说这个 Open AI,他们做 VLA 想通往哪里?
呃,我认为他们肯定是最高优的关注在通用的智能这一块儿,他们的底层逻辑就是要做巨深的大脑。那这个首先一定要有泛化性,对吧?不见得这个大脑的能力那么强。比如说,我一定要是一个灵巧手,可以去上一个螺螺丝钉,但是我应该是能够做出来一个大脑,它比方说在。十种呃一百种不同的任务上训练了以后去,啊有另外有五个任务没有见过,它可以去做那另外五个任务。
嗯,这个我认为是大模型团队啊,他们对这块的一个关注点,他们关注的是零样本的泛化的能力。嗯,对。而另外一方面呢,从机器人客户来讲的话呢,他们其实越来越多的去落地到具体的场景。对吧?那在这个,在这个上面呢,他们很关注到自己的本体,对吧?本体的复杂性可能是有轮式,可能是有足式,可能有手,手上可能还有传感器,对吧?
那么他们可能很关注在是否可以把这一些。具体的任务给他执行好,嗯,给他落地好。所以这两类客户,他们其实从最早的时候关注点可能比较类似,但是现在其实关注的点啊,其实很很分化,嗯,很分化。包括再举一个例子,比如说。大模型团队,他们可能首先关注的是这些,呃,最容易获取到的数据,比如说家居的,啊,比方说这个啊,其他的一些这个商超等等之类的场景,啊,可能一些工厂啊,来帮助他们去提升这些泛化性的认知。
对吧?啊,而这个呃,这个机器人的客户呢,可能他们有具体的就落地的路径,啊,他们可能有的是去酒店,有的去不同的这个工厂的这些车间,比方车辆的工厂的车间,嗯,啊,那他们啊有有的可能比方说是啊去这个沙漠去给这个就太阳能啊去换太阳能板,那他们更多关注的是在具体的这个业务场景的这些数据。我稍微有一个认知缺口啊,就是嗯,大模型团队这些做 V L A 的团队和大模型团队做 L L M 的团队应该是两个团队对吧?
他们之间是什么样的协作关系啊?呃,其实不同的公司不一样,那往往是两个不同的团队,但是呢,其实他们是一个我认为呃合作极其紧密的团队。其实在这儿,我觉得可能会包括大模型的大语言模型的团队。啊,大模型的世界模型的团队,还有大模型的VLA的团队啊,那么。那么,他们其实是一个我觉得极其共生协作的一个关系。比如说,V L A其实往往会用到一个基础的模型。
那如果说你的这个公司已经是全世界前五的大模型的这个能力,那么就完全可以用自己的基础模型去做,对吧?如果没有呢?啊,如果没有,我觉得就比较困难一些啊。所以我其实呃,从我们角度来讲的话,我们可能合作的啊这些公司啊。呃,数据量最大的往往都是同时具备大语言模型的团队、世界模型的团队,还有VLA团队啊这样的这个团队来来做的这件事儿啊。
那如果没有的话,他肯定就会用其他的,比方说可能会用千问啊,或者可能会用其他的这些开源的模型。对,那当然这是其一。第二的话呢,就是说他们对于数据的理解,我认为是极其到位的。比如说啊,不只是纯粹正确的数据,也包括纠错的这个数据,就是错误了以后再改正的数据。这个认知其实很多都是从大元模型来的。对,其实因为它更更加像人。
另外呢,就是说对于数据量是否可以接受啊,对于数据的饥渴程度也是远远不一样的。因为呃,如果说你已经见过了很大量的一个需求,你对于这件事儿的预期数据量的预期会很高。而如果说,呃,这个团队呃之前他的啊所使用的数据量比较小,那他也很难一一下子去开一个很高的一个数据量的口子啊。他的budget是完全不一样的。
第三个点呢,我其实认为是一个infrastructure,就是它的这些啊训练的基础设施。那我觉得卡是很相关的一个点。以及就是RL就是强化学习的这套的基础设施是很相关的一个点。我举一个例子,可能机器人公司几千张卡已经很多了,但是大模型团队可能都是大几万张卡,所以这个是一个至少一个数量级的一个提升。另外呢,就是强化学习的基础设施这件事儿其实很难自研。
很难自研,很难为了巨深的模型去做一道这个强化学习的大规模的并行的基础设施。而这些大模型团队往往自己都已经有最好的这套基础设施可以拿来即用啊,它只不过是从大元模型的这个场景迁移到了去微调V L A而已。嗯。所以,L L M 大语言模型的团队是在做我们所谓的那个通用的大脑,没错。V L A 的团队是在做这个机器人大脑,但是它大概率不是从头开始训的,它是基于了那个大语言模型的大脑,没错。
那世界模型团队呢?为这是新出现的吗?呃,其实呃,我们也看到我们的一些客户,他们可能。再用他们的世界模型啊,或者说他们希望将来用这个世界模型来作为啊这个啊一个基座模型来做后面的BIA,啊,因为我觉得世界模型其实有了更多的对于物理世界的预测理解能力,而基于这个再加上相应的action head。对吧?那么就可以做出来更优质的这个VLA。
其实我认为世界模型和VLA是一个很有意思的一个相互共生的一个关系。那世界模型可以作为基座给到VLA啊,那VLA呢,其实又作为一个落地。给到世界模型相应的反馈,嗯啊,这个是相很关键的一件事儿。那我举一个例子,如果我认为一件事儿它的评判标准会越来越接近,可能这两件事儿将来就会是一件事儿。嗯,那比如说,我认为在巨深,啊,可能现在最棒的这个评测集叫behavior,behavior是李飞飞教授啊做的这套基于仿真。
啊,为巨深打造的一套这个评测集,它都是比较难的、长程的这些任务。啊,以及这些很难去采集的这些数据,啊,去做到的。那么,我我个人也很有幸,就是啊,在这个十二月份的这个这个N NIPS的一个峰会,啊,来帮助这个behavior今年就是第一次behavior challenge来颁奖,啊,那么我发现一个很有意思的一个情况就是。
啊,其实去打这个behavior榜的这个团队也有世界模型的团队,那他们其实就是基于他们底座的世界模型啊,基于这个action head对吧?然后去也就也去啊上了这个榜,也做的也很好。这个是一个,另外一个呢,就是另外一个我觉得很有意思的一个工具叫Enact,它其实也是基于Behavior这套的评价体系,本质上来讲是评价VOA的评评价体系,做了一套去评价世界模型的评价体系。
这个也是李飞飞团队做的,所以你可以看,就是同样的一个benchmark,它又可以去作为评价VLA的标准,又可以去作为评价世界模型的标准。那如果评价系统,越来越一致,很有可能将来,啊,这两件事儿会越来越,啊,我觉得会越来越相关。那世界模型替代的不是 VLA,世界模型替代的其实是大语言模型吗?啊,我认为世界模型可能更多的会是在云端的一个大脑,而 VLA 我觉得它会是在端侧的一个大脑。
嗯,我觉得这个是可能是一个在长线啊,他们也会是一个共生的一个关系。那大语言模型呢?啊,我认为大语言模型啊,本质上来讲,大语言模型在数字世界已经具备了一定的世界模型的能力,啊,但是呢,它其实缺乏对物理世界的理解。我认为世界模型是有物理世界的理解能力以及预测能力的。而啊,我认为巨深的VLA呢,可能更多的是需要在物理世界有更加精确的、有效的以及高效的一个行动力。
嗯,所以我认为这三者可能还是不太一样。但是呢,这三者可能后面的训练的基础设施。啊,它的底层的这个基座会越来越趋同,底层的基座会越来越趋同,它可能会成为一个统一的非常大的大脑。对,所以可能未来世界模型是那个云端的大脑,VLA是那个端侧的大脑,然后数字世界可能有个大脑就是大语言模型的大脑。对,听起来现在是有两股势力,一个是做大脑的公司,一个是做本体的公司。
对,一类是做大脑公司,一类是做本体的公司。你觉得这两类公司哪一个会成为一个就是在这个游戏版图上更重要的一股势力?呃,我认为可能长线都会比较重要,但是我大概说一下我的一个观察。这个观察就是数据闭环这件事儿,或者说数据引擎这件事儿,就是特斯拉其实发明了数据引擎 data engine
这个概念。它更多的是因为啊,它要去落地它的 F S D 自动驾驶的这套系统,那它可能当时已经具备了有上百万辆车啊在路上可以全天候的基于司机对吧,基于这些用户去开回来的数据去训练他们的云端的大脑。
啊,又基于它的云端的大脑的不断的提升啊,去部署到端侧更好的自动驾驶的能力,进而形成了一个数据飞轮。呃,这套数据引擎就特斯拉的数据引擎,它的底层逻辑其实本质上来讲是一个本体相关的底层逻辑,就是自动驾驶商或者说这个OEM,它因为在全世界部署了最多的自己的车。他就可以从自己的车上收回来最多的数据,又又基于这些数据可以训练最好的大脑,所以这些OEM他们自己就是最大的大脑商。
对吧?但是呢,我认为对于巨深来讲,这个逻辑可能会被颠覆啊?为什么呢?因为从巨深来讲呢,这个世界上并不具备,比方说上百万台的机器人。啊,部署在这个端侧,然后在执自动化的执行各种各样的任务,或者说呢,在端侧呢有人去摇操他们去执行各种各样的任务。嗯,啊,如果有人去摇操的话呢,带来的成本又过高,这个也不是一个可规模化的一个路径。
那在这样一个情况下呢,我认为它一定整个数据的架构会去啊符合数据金字塔,那就是。最小的数据量会是啊,基于在端侧真实部署的机器人去采集回来的数据,真机数据,真机数据没错。那么中间的这部分的数据量呢,会是基于仿真啊去生成的数据,而下面的这个数据呢,会是比方说互联网或者是人的第一视呃第一类视角的数据。那下面这两类数据,仿真和人的第一人称视角的数据,它们的特点是什么?
它们都不需要基于本体,嗯,不需要基于一个硬件的本体就可以回来数据,且它们的规模化能力要远远高于啊这个真实的机器人的部署。那这样就会发生一件什么事儿呢?啊,我觉得这样就会发生,就是说,最多的巨深的数据一定不是本体上提供的。对吧?那在这样一个前提下,我认为特斯拉的数据闭环在巨深就不成立了,相当于就是说不会存在一个本体上,它自己是最广泛应用的本体,同时它又可以做全世界最好的大脑。
我觉得这件事儿底层就不太会成立。那我再举一个例子来佐证这件事儿:特斯拉,他们是在做机器人,对吧?就是
Optimus,他在做机器人,但是。Optimus的大脑其实是安排给xAI去提供的,对吧?而并不是让特斯拉自己去提供,一样的一个道理,一定会是一个大模型上去做这件大脑。那在这样一个情况下呢,我觉得大模型商他们会是利用更多的本体无关的数据啊去训练这个大脑,而本体商呢,可能更会是利用大模型商提供的大脑去做微调。
啊,部署以及落地。那在这样一个情况下呢,我觉得可能还会有两类啊不同的公司会介入进来。一类就是数据商,啊,那我认为数据商呢,啊,其实它也经历了不同的演变。从最早的可能在静态数据集的时候,它和客户可能纯粹的是一个。啊,就是就是甲方乙方的关系,嗯,到 Scale AI Search Mercure 和客户可能更多是类似于一个 partnership 的一个关系。
到后面,我觉得需要基于数据商去提供评测,又基于评测呢,啊,去提供更多的反馈,又基于这些反馈呢,去啊,去刺激客户的需求,拿到更多的数据,又基于这些数据呢,训练更好的模型,然后这样再基于数据商去跑更多的评测。因此呢,我认为就是数据商和这个大模型的厂商。会越来越多的形成一个共生的一个关系啊,因为就是大模型商需要数据商给他们啊更加有效的评测、更加有效的数据,而数据商又需要基于大模型商给他们提供基于模型更好的数据验证、反馈,来帮助他们去迭代自己的数据的生产链路。
所以这两边呢,我觉得会是一个共生的一个关系。所以我觉得数据商在里头会很关键。还有一个呢,我认为就是场景商。这个往往是被大家忽视的场景商啊,呃呃,或者就是就场景公司,场景公司,比如说OEM,它就是一个场景公司,它自己,啊,就具备很多的机器人需要去落地的场景,啊,在它的车间啊,在它的工厂啊,包括比方说医疗的集团。
啊,它有很多的自己的场景需要去部署到机器人,啊,包括农业的公司,嗯,啊等等,就算是工业,这就是巨大的一个机会。所以,我认为这些不同的场景级的公司,他们都有大规模部署落地机器人的这个需求。我们其实现在服务的客户,可能有很大的一个比例已经开始是这些场景级的客户。那在这样一个情况下呢,我觉得会是四者的一个相互的协作。
第一个是大模型商,对吧?那他们呢,更多的是会基于本体无关的,就是数据商提供的数据,不断的去冲刺 scaling up,对,放话,然后提供大脑,把大脑提供给本体公司,本体公司可能再基于更多的场景和数据去落地到场景上。而场景公司呢,他们也有更大的一个啊自主权,啊,因为其实他们可以选择A硬件公司的硬件,也可以选择B硬件公司的硬件,甚至他们自己有很强的一个自研能力,他们也可以自己开发硬件。
比如说,我认为可能很多的OEM。都会开发自己的机器人,因为他们对量产,啊,对质量的管控,啊,对这个硬件的稳定性,对成本的控制,可能有更好的一个理解,啊,他们呢也可以基于大模型的这个啊这个这个大脑的能力啊,去给自己的场景直接去落地。所以我认为后面可能是这四者的一个联系。说回来,我们刚才讲的那个李广明那个观点,你觉得不能说数据集模型?
那从长远来看,你觉得什么级模型?我认为还是要回到第一性原理啊,看看人是如何去学习的。那我觉得可能系统性的学习的能力,我觉得这个底层应该是一个模型。本质上来讲,我觉得大模型不能说是知识级模型,对,相当于说,嗯,我觉得不能说是知识级模型,我觉得应该是一个不断提升的系统级能力,啊,因为其实每一次系统级能力的提升,可能也会带来对于数据的新的需求。
我举一个例子,啊,小孩的学习可能看一些画本就够了,啊,但是马斯克或者是比方说巴菲特的学习,可能就有更加针对性的高阶的这些知识,以及这些信号,相当有一私教可能。对,当然就是说,我认为这个私教呢,它不应该是以人为中心的,它应该是以系统为中心的,只有这样才可以提供。足够规模化的私教,就足够规模化的言传身教。
我们播客其实一方面聊过很多大语言模型的嘉宾,一方面也聊过很多 robotics 领域的嘉宾。你觉得这两个领域面对今天面对的数据问题不同是什么呀?他们的阶段,嗯,分别到了什么阶段?我认为,呃,这个两者还是挺不一样的。那我觉得从大语言模型角度来讲的话呢?啊,他们的预训练的数据是足够的,因为本质上来讲是整个互联网的数据,对,所以这块是很多的。
那他们面临的呢,其实更多的是一个后训练以及评测的一个问题。那么后训练和评测呢?本质上来讲,就有点类似于是言传身教。那需要找越来越高阶的老师,给他们提供这些言传身教。那其实啊,这些老师往往在不同的行业里,对吧?比如说,可能是最好的工程师,可能是啊,就可能是数学的金牌,可能是最好的律师,可能是最好的医生。
而且呢,越来越多的言传身教会变为就是说出题,比方说,可能普通的老师是在。通过啊自己的示范来教育学生,而越来越好的老师呢,可能是去问越来越难的问题,来激励这个学生自己去寻找答案。所以,我认为本质上来讲,这个是大语言模型他们在面临的数据的问题。是找越来越好的人,又基于他们的可能去出越来越难的题啊!基于这些题呢,以及基于这些啊信号啊,这些更多的啊经验的传授啊,来去不断的去提升模型的能力。
而对于这个呃巨深来讲的话呢,我觉得它现在的问题可能在两端,第一端就是在预训练,其实现在缺乏了足够的。啊,预训练的数据,那这个预训练数据,我觉得需要有啊,物理的这个世界,啊,无论是真实的物理的世界,还是仿真的物理世界,以及它所需要去交互的这些的资产,比如说电脑啊,比如说啊,咱们在这儿的这个咖啡杯啊,等等之类。
啊,同时呢,它需要有这些经验的传授,比如说人或者是一个机器人,在这儿该如何去操作不同的物体与这个物理的世界如何去交互,以及在这儿相应的语言的定义,还有呢,就是相应的评价标准啊,这个知识在哪里是好的,在哪里是不好的。对吧?然后给到相应的这些学习的信号,这个我认为是很关键的一个预训练的一个需求。在这儿呢,其实我觉得现在,啊,整个行业还是缺乏最规模化的预训练的数据,来帮助整个啊巨深啊来达到一个啊经过预训练了以后一个基座模型的一个基础能力。
嗯,这个我觉得是极其关键的一个缺失。啊,第二个的话呢,我觉得就是评价能力这个点,其实我觉得很多人可能没有想到,比如说自动驾驶或者大语言模型,为什么他们的模型提升会那么快?自动驾驶本质上来讲,是因为它的评价是免费的。怎么说这件事儿呢?因为自动驾驶的评价是通过它在端侧部署的叫Shadow Mode,呃,就是中文叫影子模式。
那其实就是把它的算法部署在车端,啊,在它的仿真世界里头去跑线的算法,嗯啊,它并不去做相应的真正的执行,但是呢,会把它所输出的信号和开车的司机所操作的信号去做对比,当遇到了一些不同的地方的时候呢,把这个作为一个反馈拿回来。啊,因为比方说,如果说这个人是一个老师的话,那当学生和老师有一定差异的时候,很有可能这个时候是学生做错的时候。
所以这个是一个,呃极其,呃便宜廉价或者免费的一个信号拿回来,来帮助自动驾驶来评价他们,啊相应的这个情况,以及呢这个信号呢也包括相应的示范,对吧?也包括相应的经验,告诉他们,当你这儿错了以后,老师是怎么做的,人是怎么做的,来让你去基于更多的模仿的学习,啊去提升自己。我认为大语言模型其实也有这样一个。影子模式,这个影子模式就是当这些大语言模型已经上线了以后,与用户的交互,对吧?
其实,比方说咱们在用GPT用不同的大语言模型的时候,咱们也给他不同的反馈,这些反馈其实也是一个免费的影子模式。来帮助他们去告诉他们哪里好哪里不好,嗯,给他们一些示范,帮助他们去提升,这也是一个免费的一个评价。而对于巨深来讲的话,现在并不具备这样一个大规模的评价的能力。那我认为这个呢,一定要基于仿真去提供,在具身在机器人啊,它不具备一个就是在真实世界啊去提供影子模式的一个基础,嗯啊,那它唯一可以的这件事儿,就是基于仿真去规模化。
评价并拿到更多的信号,又把这些信号给到啊巨深的大脑,让他们不断的去提升。所以我认为评价这儿其实也是啊,就是巨深就模型他们对于数据的一个核心的缺失。所以机器人的数据收集问题比大语言模型可能是结构性的难。啊,对,我觉得要难很多,可能是几个数量级的难。哎,如果满足足够多的数据是一百分,你觉得大语言模型今天的数据能达到多少分?
你觉得机器人的数据能到多少分?我我其实觉得可能很难去定义这个一百分。我举一个例子,其实人的学习是无止境的,所以从人的角度来讲,你其实可以看越有能力的人,他可能。学习能力更强,他其实每天涉猎的数据会更多,而不是更少。对,当然就是说,我觉得如果从从一个概念上来看的话呢。我觉得可能大语言模型在预训练可能已经到顶了,我觉得他们可能更多的是在后训练和评测。
我其实觉得在后训练和评测,我认为大语言模型可能还有很长的一个路要走。我估计可能大语言模型现在可能到了六十分,但是真正的要往上去提升,我觉得还有很大的一个空间,就是在后训练和评测的阶段。那我认为,对于巨深来讲的话,啊,假设啊一百万个机器人所回来的数据是一个起点,这个起点可能都不是一百分,是一个六十分。
我觉得现在都没有一万台机器人啊,无论是在真实或者仿真,或者是人类的数据,能够去提供这类的这个数据,对吧?所以我认为,其实如果从这个角度来讲,可能零点六分都不到,零点六分都不到,嗯,这个其实给大家一个直观的感受是的,但我觉得今天大语言模型的数据问题,随着它从 chatbot 走到了 agent
的阶段,其实 agent 的方面也会更加的缺乏数据,因为嗯,因为呃 AI 是没有见过真实人类工作的,对,所以嗯,它也需要找大量的人类专家,在真实的基于真实的工作环境去呃收集数据。
嗯,你觉得 agent 今天遇到的数据问题是不是跟 robotics 还有点像?对,我觉得这个这个点特别好。我觉得其实机器人就是在物理世界的 agent,而这个大语言模型的 agent 其实是在数字世界的 agent。那其实我觉得他们遇到的问题其实很像。首先呢,他们需要一个环境。啊,其次呢,就是说他们需要相应的经验传授,另外呢,他们也需要相应的评价或者评价的这些信号来帮助他们去提升。
那咱们去可以去看到,就是说对于呃大元模型的agent,其实现在有一个呃很关键的一个针对他们的数据产品叫LL
Inf,就是服务强化学习的环境。这个环境本质上是一个虚拟的环境,但它不是一个比方说物理仿真的环境,它更多的是一个数字世界的环境。比如说,可能是一个虚拟的滴滴网站,虚拟的京东的网站啊,虚拟的一个购物网站,虚拟的一个编程网站啊,虚拟的一个编程的环境,来帮助他们啊,能够在这个里头去啊,不断的基于一些定好的这些的成功的目标。
啊,这些定义以及这些考题,啊,不断的基于强化学习啊,去fighting自己啊,不断的去试错,也不断的去提升自己。这个其实是我觉得,呃,agents啊,在这个啊数字世界,他们现在所需要的最主要的这个数据的产品,嗯,那对于这个。巨深来讲的话呢,其实刚才如我所说,其实现在呢还没有到真正的A阵阶段,对吧?现在其实还是在一个预训练以及在一个评测阶段,就这两头的问题是最大的。
一就是没有足够的预训练,能够让这个啊模型达到一个相对基础的一个能力;一个是没有足够好的规模化的评价。可以帮助这些大模型商不断的去衡量他们的基础能力,不断的提升啊。那在这儿我再说一个细节,就是为什么behavior challenge就李飞飞的behavior
challenge这件事这么重要?因为其他的这些学术级的benchmark,其实这些我们的这些客户最棒的这些大模型商,他们都已经把他们的benchmark给打爆了。
嗯,就是巨深的这个 benchmark 其实比较容易,都被打爆了。那其实足够难的是 behavior,那 behavior 啊,一百道题,可能现在最高的分数成功率是百分之二十六。啊,所以还有一段路要走。当然,就是说这个更多的是一个学术级,而对于比方说 industry,啊,那么他们需要的是更加大规模的、高质量的 behavior 来帮他们去挑战他们就模型的基础能力。
那当然,在这个两个点的基础上,其实后训练就会变得很关键。就是当预训练的基础能力达到一个相对的标准了以后,后训练通过强化学习做后训练就会变得足够的重要。那么我们也看到,我们的一些客户在跟我们在基于仿真去做后训练的强化学习的fine tuning这件事儿。那本质上来讲,这件事儿就和啊数字世界的大语言模型的agent很像。
那数字世界的大语言模型在一个虚拟的网页端,对吧?虚拟的编程端啊,去不断的试错来做fine tuning,而啊,这个物理世界的agent本质上来讲,在仿真的环境里头去,基于定义好的这些的成功的指标标准,他们啊以及大规模的场景,他们在不断的去试错,在fighting自己。那只不过就是说这件事儿呢,我觉得相对于预训练和评测来说,现在可能还是一个次优的一个问题。
其实刚才我们对于整个数据行业做了一个
mapping,那这是横向的,我也想聊聊纵向,就是数据这个产业它在人工智能的这个领域里面,它是一个分支吗?它在这个生态里面大概占据一个什么样的位置啊?我们来聊聊这个数据产业的前世今生。就我觉得数据的产业的发展,其实和每一次模型的学习的范式的发展。其实有很相关的这个关系,嗯啊,比如说啊,我可以把它定义为最早的时候,数据产业可能起始点是啊,李飞飞的这个ImageNet啊,那它是既是一个训练集,它也是一个评测集,那它服务的更多的是机器视觉,那它提供的是这些。
啊,照片以及相应的这些真值的标注,那它更多的是一个静态的一个数据集,它给到的都是正确的答案,所以在这个时候,我觉得数据产业更多的类似于一个填鸭式的教育产业。啊,那再往后呢,就是到了这个呃自动驾驶,那 scale 呢?我觉得可能真正的开创了一个工业级的数据。产业就是从最早的静态的,啊,这个可能很难去控制时间。
比方说,呃,因为现在确实是有几年的时间去开发出来的,而scale呢,可能真正的可以去工业化的工厂级的,对吧?大规模的人力运营啊,去管控质量、管控效率、管控交付时间线,来去交付这些数据。啊,那这个呢,我觉得可能更多是偏一个量贩式的一个教教育行业,啊,再往后呢,我觉得到了这个就是大元模型的这个数据产业,这个时候我觉得。
呃,就是说它的核心的逻辑发生了变化,从最早的时候可能是用户提出需求,你来交付,对吧?然后一个偏工厂型的,但还是相对粗放型的一个交付。变成了一个可能更加的是一个评测驱动型,嗯,就是帮助客户发现问题,啊,然后去刺激新的需求,然后针对性的交付。所以这个时候,其实比如说从 Scale 给自己的定义来讲的话,可能从这个时候管他自己就开始叫成了 Data Pyramid,那有点类似于是学习。
啊,台积电的晶晶圆厂这样一个模式,本质上还是一个工厂,但是呢,它有更多的流程、更多的规范、更多的know how、更多的process,嗯,这些是它的secret sauce。对吧?但是呢,我认为就是说,再往后,啊,我认为的发展呢,其实就会更加的不一样。为什么?因为我觉得。在这个时候,就是说,在大元模型 L I H F 评价的时候,它还是一个以人为中心。
比方说,Mocor Search 也是一样,都是以越来越优秀的人为中心去提供反馈,啊,去提供更多的经验的传授。啊,我认为对于巨深来讲的话,它所需要的数据量要远远大于大元模型所需要的数据量。那在这个时候,我很难去想象,比方说一千倍的这个 scale,或 core search,他们可能已经在全球有大几十万人,可能一百万人这样一个规模,一千倍这个规模去提供数据。
我认为这个是一件很难去规模化。也很难高效的一件事情,嗯,所以我认为在这个时候呢,一定会发生一个转变,就是以人为中心变成以系统为中心。这个系统是一个引擎啊,它基于可能在端侧的不同的人啊,它基于它的。仿真啊,它的这个呃工程的能力啊,去放大这些人的信号,这些人的经验,让他们来有效的去支持到巨深模型,呃,就巨深模型的这个演进。
而且呢,我觉得这件事儿也一定是一个以评测驱动,而不是以这个。啊,就是比方说,就是就是训练驱动的一件事情,所以我觉得这个可能是一个数据产业,我认为可能一步一步的一个演变。刚才我们讲到,就是标数据的人,或者说收集数据的人,他的时薪大幅的提升,人数有减少吗?呃,人数其实没有减少,哦,对,呃,这个其实很有意思的一件事儿。
其实啊,我最早的时候也想了很多这块的问题,就是说是否有一天啊,要不然就是算法的学习的效率大大的提升。对吧?要不然就是这个人啊,呃,就是模型的能力啊越来越高,就会越来越不需要顶尖的人的认知。但是到目前为止,其实还没有。我觉得这个点上很像最早的时候DeepSeek出来,对吧?然后大家说这个TestTime。
啊,scaling这件事儿一旦出来了以后,很有可能预训练啊,或者整体上对呃英伟达的卡的需求量就会大大的降低。但是其实大家发现,当test time scaling出来了以后,倒刺激了更多的AI应用的需求,AI agents的需求,到反向的增加了这个英伟达卡的这个需求。我觉得很有可能是这样。我觉得一个比较直觉的一件事儿就是。
可能越有能力的人,他越爱学习,他其实每天读的书的量不是减少,而是增加。嗯,啊,我觉得很有可能后面会是这样一个情况。当然,他会增加到一个阶段,就是说,举一个例子,可能AI的模型能力太强了,到最后的时候,可能这个世界上,啊,他已经达到了一个诺诺贝尔奖的水平,那已经没有几个人可以教他了。那在这个时候,我认为他需要做的就是。
自我的不断的提升,就跟人一样训练AI。哎,没错,我认为它其实会很像人,就是说人可能在小的时候可能更多的是啊看很多的画本儿啊,有老师的言传身教,到后面的时候可能更多的是自我的不断的提升,或者说我觉得有很多的这个人啊,他并不是去与别人去对比。他是为与自己去对比,我每天今天能够比昨天进步多少?我觉得一样道理,我觉得AI也会到这个阶段。
那在这个阶段,它真正需要的什么?我觉得它可能需要的是一个环境。啊,一个成功的一个标准,不断更新的成功的标准,对吧?然后基于自己的经验,然后基于RL帮助自己不断的去提升,我觉得他会达到这个阶段。而这个阶段呢,其实也是我认为对于仿真、对于合成数据很关键的一个阶段,因为这个时候它永远需要物理的环境。他永永远需要评价的指标,这个我我觉得会变成他可能到那个时候最最需要的事情。
他需要的是学校老师,呃,考试,对,这是这个阶段。他下一个阶段可能就是自我学习。没错,对。那他永远需要一个环境,一个背景,一个环境以及相应的这些啊成功的定义。这个数据的产业它催生了哪些关键的人和公司啊?首先,我觉得李飞飞是真正的定义了AI数据这件事儿,我觉得他的这个这个贡献是极高的。那在这个之后,我觉得真正工业化啊,我觉得这个Scale
AI,我觉得是真正的去引领了工业化的这个AI数据的浪潮,而且我觉得它其实引领了两次。
第一次是自动驾驶,他创业的阶段,其实当时,真正整个行业规模化的AI数据的需求就是在自动驾驶。那他把它作为了一套流程化的产线工厂,来真正可以可靠的交付自动驾驶的标注的数据。以及后面可能在二一年、二二年的时候,进入到了GPT二啊,进入到了LLHF啊,那么来最早的去服务到了这个大模型的这个数据。尤其是后训练和这个评测的这个数据,基于评测驱动的这个数据,这个产业,我觉得这个是极其关键的。
当然,可能还有一些就是在评测驱动的这个数据后来去演变的,比如说像Search啊,像某块儿,我觉得这个都是相同的一类的公司。你刚才也提到,对于Robotics来说,仿真非常的重要。你觉得仿真到底在这个行业里扮演一个什么样的角色?你觉得它是一个加加速器、加速的工具,还是一个更底层的东西?对,我觉得这个问题很好。
其实这个也是,哦,我觉得我从业以来,就是啊,做仿真以来,我就一直在思考的一件事儿。对,那我可以很肯定的说,我认为啊,仿真对于机器人啊,它是一个必备条件。没有仿真这件事儿肯定做不成啊。那我的出发点呢,我觉得更多是在几块儿。第一呢,就是说,啊,刚才咱们提到了数据闭环这个概念,啊,我认为就是说,机器人的数据闭环和自动驾驶会完全不一样。
啊,因为机器人没有这么多啊,这个真正的这个这个机器啊,在这个端侧在部署,又基于人的这个示范啊,去拿回来大规模的这些的数据。啊,那它必须要基于仿真,嗯,啊才能够采回来足够规模化的数据,它是一个必须项,所以它是一个必须项。第二呢,我觉得另外一个我觉得极其的一个必须项就是,就比方说在在数据这儿,我觉得一个是仿真,还有一个是人类的数据,我觉得这两个会是啊这个本体无关数据的这个主要的这个来源。
而对于这个评测来说的话,我其实想不到除了仿真之外任何一种来源。我认为啊,大规模就我提的不是一个小规模的评测,比方说小规模的评测,我可以在实验室级别或者在一个场景,我去建立一些的样机,十台二十台去做一些的,就是啊算法的推理评测,我觉得这是可以的。但是我不可能,比方说,在如果我要去落落地家居场景,我同时在一千个家庭,嗯啊,甚至可能更多的家庭,比方说去评价,比方说成千上万个不同的这个任务,随时拿回来信号,同时我可以重复性的去测量。
比如说,我可能啊,就是每天我的算法都有演进,那我能不能每天都测测量多变,来去真正的让我可以更精确的知呃知道每一版算法的这个演进?这个我认为唯一的方案,只有通过仿真。对,那当然,另外一个我觉得很有意思的一个观察,就是我们服务的客户。其实我们最早的时候服务的客户都是这种强的仿真的believer啊,那他就是相信合成数据,就是相信仿真。
那他用我们的合成数据去训练他们的大脑啊。当时会有一些可能最顶级的这个这个frontier lab最顶级的大模型团队,他们就是真实流派的,他们绝对不愿意去尝试任何的仿真。但是,其实咱们再看我们过去的可能三个月的时间,啊,过去的三个月时间,基本上他们都成为我们的客户,来规模化评测这件事儿。是你们找他们,还是他们找你们?
呃,他们来找我们。对,所以这个是一个有谁呀?呃,就这就不方便说了。对,但是这个我觉得是一个很很有意思的一个信号。就是实话说,当时啊,最早的时候,我是主动的给他们发了很多的邮件,那他们说。我知道你们是仿真最棒的。如果我要做仿真,我一定会来找你。但是我现在可能还没有到这个时间点。但是可能过去的三个月都来找了我们,他们共同遇到的问题是什么?
他们没有办法去规模化他们的评测了,这个是他们的核心的问题,就是他们认为他们的算法已经做得足够好了。就是他们之前都是通过真机数据,之前都是通过真机数据或者通过一些仿真的,就是评测集,就是这些学术级的benchmark去打,但是在呃真正industry其实没有太大的一个意义,嗯,因为他们太简单了啊,他们不够规模化。
比如说,可能我们有一些去落地家庭场景的这些的大脑的团队。他们可能叠衣服,他们可能做家务,已经做得很好了。那他们希望就是说能够有一千个不同的家居的场景,啊,可以随时的去评价他们,包括这些。最关键不是场景。而是这些任务,以及这些评价标准,可以帮助他们去随时的去评价他们自己。嗯,这个是他们不可能通过真机去获得的。
听上去,想要做大脑的那一波人可能是最早拥抱仿真的,对吗?没错。然后那些就是一开始是从一个场景里走出来的公司,可能是比如说是叠衣服,或者是在商场里让他们有一个做什么事情的机器人的公司是比较慢拥抱仿真的。当他们需要放话的时候,它需要仿真是这个意思吗?呃,我认为就是说仿真的有两种,比方说呃比较传统的就是这种支持的RL。
对吧?啊,这种这种仿真,那比方说,可能全身的,呃,就是叫 full body control,或者 local
motion,就是说,呃,如何让一个啊人形机器人更有效地去行走,嗯,啊,让它能够站得比较稳,让它可以去做一些全身控制的任务。这个时候可能啊,这些机器人公司会去很拥抱仿真,他们其实是最早用仿真的一批,只不过这块的仿真的需求量比较小,它可能在一台本地的机器上去跑RL就可以实现,就跑强化学习就可以实现,而不是一个大规模的一个需求。
而我认为,对于大规模的需求,就会如你所说,更多的是这类大模型商、大脑公司,他们需要去泛化,他们需要去规模化他们的数据,嗯,或者规模化他们的评测。那在这两个点上,他一定会被一个点,至少一个点卡住,那他一定会用仿真。所以他们是最早拥抱那一批人啊,没错。那你刚才说近三个月开始出现变化的,应该是在垂直场景做机器人的公司是吧?
呃,也不是,就是说大模型呃团队其实也会分为就是。啊!一上来就是坚定的仿真派的团队,也会有一些就是最早的时候就是真机派,我就相信真机的数据。但是可能到了一定阶段,他会发现我压根儿走不通这件事儿。那我一定要仿真,所以我认为就是说,过去三个月我们呃最多的呃增长,我觉得第一是基本上可能所有大模型团队以及他们的世界模型团队,在这儿可能就是一个公司可能不只是一个团队在跟我们合作,可能有VL
A的团队,有世界模型团队,都在跟我们合作。
啊,因为其实某种层面上可能有很多VLA团队,他们可能在基于世界模型的基座,对吧?那到这个时候,没准世界模型团队用我们,可能能够用得更好。对,那可能VLA用我们的评测,世界模型用我们的数据。这个是一个我们可能看到的很多的一个现象。这三个团队对数据的需求不一样吗?呃,不太一样。比如说,可能世界模型团队并不见得一定要需要去呃去有那么强行动的数据,对,那它一定有更好的物理的这种限制,对吧?
这种这种光定啊,然后啊,它需要有这种呃可以帮助他们可以更好的去预测在物理世界。啊,这个下一下一件事情的发生,但是它并不见得一定要有第一人视角或者第一个这个机器人的这个视角在里头去与物体去交互的数据。而VLA呢,可能更多的是一个行动派,他必须得有这种行动的数据。那可能是他自己的本体,可能是其他的本体、跨本体,甚至是人的行动的数据啊。
所以这个呢,我觉得还会有一些的区别。但是整体上呢,就是说从评价角度来讲呢,他们可能也都很需要啊仿真,因为他们需要在这些足够物理真实的环境中啊,能够要不然去。确认他们的预测能力足够准确,要不然他们的行动能力可以实现这些不同的任务。你知道中国也有很多就是要做呃机器人大脑的,不管是大公司也好,还是创业公司也好,我跟他们交流下来,我直观上感觉好像。
仿真派要小于真机派,因为他们普遍给出的理由是因为真机数据好泛化,嗯,仿真数据不好泛化。你觉得为什么会出现这个现象?为什么在中国的机器人团队仿真派似乎不多?呃,我认为其实,嗯,几个点啊,第一就是说,我认为这个呃,就这类公司本质上来讲,他们还是机器人公司。啊,机器人公司呢?我觉得咱们去看他们的商业模式,它的底层还是要去卖本体。
所以,如果它要是一个仿真派,我觉得它就很难去。啊,来啊,肯定是他的客户去买他们的本体。为什么?他们的客户其实很多的,就是我觉得国内很多的这个真机派的这个商业模式,还是去卖一个素材中心。对吧?就是他,我买过来用你的机器人来采集数据,来采集数据,然后来不断的去提升。所以他需要,嗯,相信真机数据才能卖卖本体。
对,就是就否则,我认为就是说,他其实我觉得本质上来讲还是一个啊屁股决定脑脑袋的事情。我觉得他需要去真正的提倡一个真机派,才能够更有效的去把这些基于真机数采这样的一个商业模式去跑通。啊,那当然,其实提到真机素材,我认为真机素材一定是需要的。嗯,我并不否认真机素材,而且我认为现在的量也是需要的。我认为它再增长十倍,可能这个量也是必须的。
但是关键就看它会增长到什么一个阶段。我觉得,根据数据金字塔,其实最小的量应该是真机的实操的机器人的本体的数据,真机数据没错,它的成本最贵,它的成本最贵,但是最关键的是它最难规模化,它都不是成本的事儿。比如说,你怎么去进入到不同的场景?很快速的去规模化这件事儿,这个是很难的一件事儿。你如何去换新的场景?
很多我觉得大部分的真机的素材,现在如果你去他们的素材中心,你会看到他们,他们也在用仿真啊。怎么去理解?他在用现实世界的仿真,他拿的是一个假的香蕉。他拿的是一个假的苹果,嗯啊,他并不是拿的是一个真的香蕉,一个真的苹果,啊,他的场景可能变换很小,啊,可能都是在这个桌面级,啊,可能或者说一些移家的这种的方式的搭建,它很难像仿真一样去规模化到可能更加广阔的、多变的,啊,足够物理真实的这些场景的应用。
对,所以我觉得这个是一个我觉得就核心的一个不同点啊。另外呢,其实啊,从我们的角度呢,我认为就是说,甄姬派真正在做预训练级的大模型。其实我也听了就是谭杰的那一期,我比较同意谭就谭杰的看法,就是说,我觉得可能。不太合理,就是说,纯粹的做一个巨身的大模型,它一定是基于一个基座的啊,对吧?那在这个时候,我认为就是说,更应该是一个大模型公司。
啊,来去基于他们基座的能力,再基于更多的数据,啊,先是预训练,再是后训练,来做出更好的B L A来,啊,所以我觉得,呃,从这个点上,我觉得可能机器人公司可能也没有多少机器人公司真正在做这件事,就真正在做一个预训练级的一个大模型。所以他需要的数据可能就没有那么多,他需要的数据没有那么多。谭杰说的一个观点我印象很深,因为我也是跟他说,就是国内真机派会说,呃,真机数据有更好的泛化性。
他说,呃,仿真数据带来的是 seem to real 的问题,不是泛化的问题。泛化的问题应该通过生成极大量的仿真数据来解决。对你同意他这个观点吗?我是同意的。哎,说到这里,我们定义一下仿真吧,因为仿真的定义现在也是模糊的。以前可能是说的是,呃,物理仿真,现在也把一部分的视频生成认为是仿真。你怎么定义仿真?
我其实还是希望更加严格的去定义一下啊。那么我认为仿真的话呢,我认为它更多的是需要在一个啊足够物理准确的一个环境中,可以可复现的,就已经可以可修正的去产生相应的行动。啊,并且观测到其结果,嗯,我认为这个才需要是一个仿真。那我当然解释一下,就是说物理准确,就是说它的环境以及你所交互的这些物体,我认为它们需要足够的。
啊,与真实世界的物理去对标,那这个对标不只是一个看起来像,不只是一个在几何上像,它的可能摩擦力,它的可能更多的这些物理参数也要足够的去对齐,这是第一。第二,可复现,就是说,啊,假如说我去跑一百遍仿真,我有一个足够高的一个系数,不见得一定是一百,可能是九十五、九十九。我的这个结果是相同的,我觉得这个是很关键的一件事儿。
另外一个呢,就是说,当我去在我相同的环境、相同的起始点改变我的行动,我可以啊看到啊可能这个所改变的这个结果。我觉得这几个点都是足够需要的。那咱们再看一下视频模型。那视频模型,我认为就是说,它可能更多的是以一个对下一帧的一个预测,它可以看到一些,我觉得啊世界的变换,对吧?但是,一它可能很难去复现,它很能可能很难去复现。
那如果很难去复现,我就很难去做大规模的可靠的评测,嗯啊。第二呢,就是说它没有行动。它很难有足够准确的行动,那这个点呢,我也很难去,要不然就做评测,要不然就是产生数据。对,第三呢,就是当我改变了一些啊,在初始状态的条件的时候,它是否可以产生其他的这些啊行动,这个也是很难的一件事儿。所以我觉得普遍的视频模型现在还不能称之为仿真。
当然,就是我认为世界模型是有机会真正的成为仿真的一类的。世界模型成为仿真的一类,对啊,那么怎么怎么去理解这件事儿?就是说,我认为世界模型它的底层其实是一个生成模型啊,所以它的优势是可以更加广泛的。啊,生成相对真实,没有我觉得啊,没有仿真的物理真实真实,但是相对真实啊,这样的对于世界的预测,甚至是我认为后面啊,接入的机器人啊,对于这个啊下一步的这个本体的行动,我觉得这个是可行的。
就这件事儿,在未来的可能一段时间是可行的,对。但是呢,就是说,我认为。啊,仿真和世界模型,我认为他们并不是一个谁会取代谁啊的一个关系。我认为他们两者更多的会是一个共生的一个关系。嗯。怎么去理解这件事儿啊?比如说,我们其实服务的客户里头,可能有一个很大比例都是世界模型的客户。那其实,世界模型的客户,他们的他们为了他们的预测能力,逐逐步的去提升,啊,就物理的
grounding 能力逐步的去提升,它需要有更好的物理的数据来帮助他们去提升,嗯,对吧?
它需要有更加真实的物理,它需要有更加贴近人的行为的行动来帮助他们去提升。所以在这儿的话呢,其实仿真会去帮助他们。另外一方面呢,其实呢,由于世界模型呢,它可能具备更好的一个生成能力,所以呢,它又可以帮助仿真的数据,帮助的仿真的结果去做更好的一个泛化,或者说呢,用仿真基于世界模型去做更好的一个光定,两者结合有更加准确的生成式的一个输出。
那从我们的角度呢,我们可能。啊,过去几个月,我们和我们的世界模型的客户,可能越来越多的形成了一个共生的一个关系。共生的一个关系就是说,他们在用我们的数据,我们在用他们的模型。两者一块儿能够把这件事儿做得更大,嗯,我觉得这个可能是一个后面就是说仿真世界模型,他们两者相互相互的一个关系。我听起来,仿真是世界模型一种手段。
嗯,我觉得其实很难说谁是谁的一个手段。我觉得仿真,啊,并不是世界模型的一个子集,或者世界模型也不是仿真的一个子集。我觉得他们俩可能应该是共同去达到更大的一件事情。这件事儿就是啊,为了智能去提供更好的学习的能力。现在这三个团队哪个团队跟你们合作最多?世界模型、VLA和LLM?呃,我觉得世界模型和VLA合作更多。
呃,是因为你们做的是 robotics 相关的数据啊?没错,因为我们更多的还是关注在一个啊物理的环境。啊,里头一个行动的经验以及相应的这些的评价的准则,啊,在这儿。那我觉得我们做的啊,相对比较少的是,比方说一个数字化的一个环境,就是L M就这一些。世界模型和V L A会相互吞并吗?我觉得他们其实在短期是一个很共生,我觉得就是相互依赖的一个关系。
嗯,我觉得将来啊,我觉得。有可能在有一天,两者可能会合二为一啊!但是其实本质上来讲,我觉得可能在很长的一段时间,我觉得他们两两者都是相互依赖的一个关系。我们能不能把 robotics 这个行业对标以前的智能驾驶来想?因为以前在自动驾驶,Waymo和特斯拉之争也延续了很长时间。对今天的这些 robotics 大脑公司似乎都在走 Waymo 那条路,但是今天来看,好像特斯拉成为了一个更主流的路线吧?
当然,Waymo 也做得很好。你是怎么看待这个问题的?以及你觉得机器人领域的 Waymo 和特斯拉是谁啊?你为什么觉得这个现在可能大脑公司更像 Waymo 这条路?因为他们不嗯轻本体。收集很多的数据,嗯,感觉机器人公司更像特斯拉。哦,理解你的意思。我可能观察到的情况就是说,我先说一下,就是我觉得可能这件事儿会跟自动驾驶很不一样,嗯,就是我认为可能就不见得会follow。
特斯拉或者follow威猛,啊,我觉得这个原因就是说,刚才我提到的它的底层的数据逻辑,啊,如果底层的数据逻辑是基于一个基于本体的。数据闭环,作为百分之九十九啊百分之九十以上的数据量,那么我认为它一定会follow,要不然就是特斯拉,要不然就是微摩的逻辑。那么我觉得他们是在一个相对更垂直的场景里在做这个事情。
哎,没错,相对更垂直的场景,且他们的智能相对有限。就是我觉得自动驾驶的智能还是相对有限的,它更多是一个端测的模型,对吗?啊,端测的模型,然后它的任务其实比较单一,嗯,对吧?就是把车开好了。对,比如说它遇到这样的一个杯子,它的呃反应就是我要避开它。但是在机器人领域,它需要根据这个杯子是什么材质,它是一个多大的杯子,然后来决定它的手的力度,所以它的复杂系数更高。
没错,就是它的呃,就场景更加单一,它的唯一的物理就是。啊,这个车和地面的物理,它不希望去撞到任何的东西。对,所以,所以就是说,我认为它的智能水平低一些。对,就它的智能水平会低一些。当然,我认为有两种方式去解决自动驾驶问题。一种方式就是不是 V L A 就是直接 V A 啊, V A 是 V L A 的下一代吗?
呃,就我觉得不是,就就 V A 我觉得就更多是就是就行动输出,对吧?那它其实,对我觉得它其实更多是因为哦,我在端侧上可能算力没有那么大,对吧?且有可能就是说这件事儿所需要的智能是相对有限的,且呢就是说我有足够的数据了以后,我可以基于模仿学习。啊,把啊,就是把这个模型压到,就是更加贴近于这个司机的行为上就够了,对吧?
那很有可能V A有可能就是这件事儿的终局,这是有可能的一件事儿。嗯,但是呢,还有一种方式就是说我做一个更加通用的V O A,我再让他去开车这件事儿一定也是可行的。将来哦,对吧?所以我的意思就是说,自动驾驶这件事儿,我觉得他的一个。我其实没有太想清楚的一个点就是会不会有两条路线都能通?嗯,一条路线就是,呃,由于它的智能上限没有那么高,因此我V A就通了啊,对吧?
还有一条路径就是我做了一个V A,它也能做,但是这个V A有可能它还能做其他的事儿。我觉得这两条路径有可能都是成的。对,没有了语言,在VLA里面没有语言,你觉得它的智能水平肯定是会降低,它的智能水平会大大的降低。那当然,这个我觉得是从智能的角度,从学习范式的角度啊去讨论。那另外一方面,我觉得从数据的角度,一样就是说可能。
啊,自动驾驶本质上来讲还是去用模仿学习,最大的模仿学习及少量的强化学习去把它的智能拱出来。那它所需要的数据更多的还是本体相关的车直接开回来的数据,而对于巨深来讲的话,一定是走的是本体无关的数据的路线。啊,本这本体相关的这些数据的量,啊,真正的这个机器人在端侧落地的量会相对来说很少。那在这样一个情况下的话,我觉得,呃,可能就是最后出来的,就是说,呃,就不不太会存在特斯拉,因为如果真是特斯拉的话,如果真是特斯拉模式的话,它的大脑其实可能不是特斯拉做的,可能是xAI做的。
对吧?所以我的意思就是说,我觉得在这儿可能也是一个大公司两个团队啊。它其实是两个不同的公司,对吧?就所以,我我觉得可能就是说,最后可能会有三种模式:微摩模式、现在的特斯拉在就特斯拉这个公司内部的这个模式,还有一种模式是就是马马斯克体系内的模式,就是它一个一个是这个做本体的公司。一个是做这个呃大脑的公司,对吧?
那么这个如果说咱们放到这个其他公司里头去,那可能就是地脉做的一个大脑,对吧?然后可能就就本体上用这个大脑去落地,嗯,我觉得很有可能是这条路线。嗯,除了呃,马斯克和Google,你觉得还有谁能支持这件事情?都做?呃,你的意思就是自动驾驶和这个呃,巨神智能,对吧?不是大脑和机器人哦,大脑和机器人,我觉得美国可能比较少一些。
我觉得国内的话,我觉得啊,小米,我觉得。就就有有可能,嗯啊对,但是整体上来讲,我觉得这件事儿还是比较难的一件事儿。小鹏和理想呢,就是他们从他们的现在的站位是一个,呃,智能驾驶车企。啊,我认为这件事儿它的底层还是卡的数量,因为本质上来讲,如果要做这件事儿,就有点类似于就是说你的前提就是你需要有世界模型的团队和能力,你可能已经有一个全世界可能最好的世界模型了。
然后又基于这个,同时再去做 V L A 这件事儿,啊,那我觉得它的卡的这个数量可能会比较高,需要多少啊?我们可能在服务的客户的卡可能都是大几万张,现在这个级别啊,在做这件事儿。但我觉得就就国内的这些呃这些欧研们还是有很大机会的啊。创业公司呢?创业公司我觉得很难去做大脑。嗯,我觉得不太,我呃,从我的角度,我觉得不太合理去做大脑这件事儿。
嗯嗯,你看智能驾驶的呃智能水平,你觉得不够高,相对于那个统一的大脑来说,那有没有可能机器人是这样一个一个垂类场景去解决?我就基于某一个垂类场景收集很多的真机数据,然后把这个场景训好,就像今天的智能驾驶一样,这个可能会不会是一个更快的路径?统一的大脑会不会太远了?对,我觉得一定会存在这个路径。其实这个路径在我看来更加像Waymo,这个路径像Waymo?
对,因为我觉得它其实更多的是在一个偏限定的。就是非泛化的一个区域,对吧?然后把一件事给它做好。我还记得,就是我当时刚加入 Cruise 的时候,嗯,那我们的我我们的重心就是在旧金山去落地自动驾驶,落完了以后再去想第二个城市。所以其实我认为这种方式就很像当年的 Waymo Cruise,它要花很长的时间在第一个场景完全落地,落完了以后,它去泛化这件事儿,扩大这个就是就场景的适配性可能会比较难。
啊,对,其实你看现在,我觉得,呃,Waymo确实是做得很好,但是我觉得特斯拉可能在这儿啊,scalability就是在规模性上可能会做得更好很多。对对,所以在我看来,就是说,我觉得如果从这样一个方式,从一个相对垂域的场景去做,首先这个场景可能会分为就是。一两个特定的场景,先把它做好,然后再把这个场场景的其他的特定场景给做做通,这个就要花很长的一个时间。
嗯,在这个之后,再去平行得到其他场景这件事儿,我觉得可能就要伤筋动骨,因为它的整个的模型的架构、数据各方面可能都是不一样的。对,那这样的话,我觉得有点类似于是当年的自动,就是我认为这块儿也会有成功的案例,比如说自动驾驶,其实你看现在在国内,我觉得做的很好的,比方说有矿山的自动驾驶,他就关注在一个区域,他把这个区域完全的做厚,在这个区域他有比较好的一个商业模式以及相应的一个壁垒,那我认为这个是一个很成功的一个案例。
对,那当然这个案例,我觉得就是说他可能很难去迁移到其他的场景去。所以你不认可我说的?现在大脑公司像维某,呃,然后机器人公司像特斯拉的这个。判断对吧?啊,对我我呃,就是我认为,大脑公司的话应该更像 Open AI 后面。嗯,对,就是我觉得呃,自动驾驶本质上来讲,它还是一个啊没有那么高智能的事儿。我认为就是说,咱们要去看巨深的话,要同时去对标大语言模型和自动驾驶。
就是我觉得巨深可能是两者的一个结合。这还有特斯拉吗?有巨声领域的特斯拉吗?我觉得可能Figure是希望成为巨声领域的特斯拉,对吧?它有它自己的这个这个这个硬件啊,它在规模化地去量产啊,那它在落地,同时它也在做自己的大脑,但是还很远。对他这个,因为他这个场景实在是太模糊了。对我,我就就我觉得难度还是很高的。
我觉得很有呃,现在我越来越多的观察就是,啊,我觉得我可能会更早的看到啊,大模型的。啊,这个泛化能力的产生,啊,而我认为就是说,可能很多人低估了在一个垂域场景落地。的难度,以及一旦落地了以后,再去迁移到其他垂域难就就泛化性就更泛化性就会更难。对,因为我是实实在在的经历过啊,Cruise啊,威墨当时这个自动驾驶的这一波啊,那么我觉得就是说,首先在一个垂域场景里,在旧金山去落地,其实已经很难了这个问题。
啊,那当然就是一旦好了以后,你再到其他的这些城市,其实每一个城市你可能都要。有更多的数据去采集、去训练,啊,以及去大规模的去评测,嗯,来真正保证你在这个城市能够足够安全的去落地。啊,啊,这件事儿它不是一个很泛化性强的事儿,啊,倒是比方说特斯拉,啊,它可能它一开始就开始收集数据,没错,对,它是一个就更加广就广泛的一个数据的采集,啊,啊,真正能够把这事给做通。
但机器人可能这么广泛数据采集的场景。更难一些,所以一定要依赖仿真。你的逻辑是这样,仿真和人类数据依赖本体无关的数据啊!对我,我认,我认为这件事儿会。啊,极其关键就是我认为如果没有这件事儿,如果没有巨深的金字塔的下面的仿真和人类数据,我认为就是巨深这件事儿的通用智能就出不来。说到这个数据金字塔,我们来聊聊,嗯,这个金字塔的构成以及它对于每一类数据,嗯的收集上有什么能耗?
对,呃,数据金字塔其实是这个菲菲的学生就是朱毅可教授,啊,他提出的一个概念。啊,那它本质上来讲呢,就是去分析巨深智能的数据,跟自动驾驶不一样,它最多的肯定不是基于自己的本体产生的数据,嗯,因为没有足够规模化的本体的数据,那更多的要依赖于。仿真和互联网以及人类数据,那么呃,金字塔呢包括三块儿,最上面呢是这个真实的本体采集的数据,也就是咱们现在可能啊最多的看到的真实机器人的遥操作的数据,这个数据一定是最准确的。
最好用的,但是这个数据的问题是它很难去规模化,嗯,它很难去规模化,机器人很难去规模化场景,啊,中间层呢是仿真产生的数据,对,那仿真产生的数据它的优势就是说,啊,它的规模化啊能够做得很好,当然它也会遇到sim to real的问题,那当然其实现在由于啊客户。都是大模型,那他们在预训练阶段会用很大量的仿真的数据以及真实的数据,啊,其实这个模型的通用的能力会变得很强。
那其实sim to real就是啊,仿真和真实gap的这个问题变得越来越小。对,这个是中间的这个仿真的这个数据。再往下呢,就是互联网的数据,还有人类的视频的数据。人类的视频的数据呢,其实更多的是人的第一人视角的数据,可能是人戴着眼镜儿,啊,然后去采集的数据。那咱们其实去看过去的几个月的时间,我觉得在本体无关的数据仿真和人类的数据,我觉得产生了一个质的突破。
我其实认为现在啊,已经达到了一个 scaling law,就是巨深的一个数据的一个 scaling law。啊,为什么这么着去说呢?咱们去看,一个是我觉得李飞飞的这个 behavior challenge,啊,包括这个英伟达的 Groot
这个模型用到了大量的仿真的数据,证明了它的有效性。另外呢,就是说 Generalist,他用了二十七万小时的乌米夹爪的这个数据,乌米夹爪其实本质上来讲也是人,啊。
啊,两个手就拿着这个夹爪,啊,去采集的数据,它其实也是人类数据的一种。嗯,那它更多的是一个比较简单的一个夹爪形态。那再往后,其实就是手指形态的数据。零焦手,没错。那他们已经证明,就是说这二十七万小时数据在模型上看到了scaling law。对,那么我觉得,由于这几个点,其实从我们的实在的观察上,从我们的客户给我们带来的需求上,过去几个月可能是一个质的一个飞跃。
就是对于这个数据量的这个需求,是一个可能,呃,极大的一个增加,让我们可能原来的时候是一个我们,啊,就就是我们需要去刺激需求,到现在我们可能是要去规模化我们的团队,来真正的交付客户的需求这样一个阶段。对,那当然就是说,在这儿我可能再分享一些更多的想法。我觉得金字塔其实并不是一个很单纯的,就是三层,就是真实数据、仿真数据,然后这个这个人类数据啊,它其实每一个阶段就是每一层都要去细分。
我举一个例子,从仿真数据层,可能最往上这一层,可能是一个人去驱动的仿真数据,因为它。啊,从R I角度很贴近于真实数据层,对吧?它是它的优势是它不需要去基于机器人的本体,对吧?那它呢啊,另外呢就是说它还是用人,这样能够采集到最高质量的数据,但是它的问题呢就是它的规模化能力相对来说欠缺,对吧?那往下呢,其实就更多是一个算法驱动的。
模型驱动的自动化采集层,那这个呢,可能人的介入就相对来说很少。那它呢,能够保证的是它的规模化,但是呢,它的质量呢,就不会比上层更高。对吧?那咱们再往下去看,就是说,人类数据层也一样,可能也会包括,比方说被动采集的。人类数据层就是说,人可能戴着一些眼镜儿,对吧?然后没有很好的一个质量管控措施,拿到了很多的人的第一人视角的数据,也会包括可能主动采集的这个这个这个这个数据层,可能有更加高质量的硬件,更加高质量的这个流程的管控,但是它的规模性会差一些。
我觉得这个可能是一个数据精彩的一个构成。对,那当然还有另外一个点呢,就是说,我其实某种层面上觉得数据金字塔给人的一种印象是,它是一个很独立的。状态就是呃真实仿真啊,互联网人类嗯是一个相对比较独立的一个概念啊。从我们的实践中呢,我越来越认为数据它可能会是一个啊,就是以仿真为中心的一个闭环。以仿真的人是中间那一层。
对,就怎么去理解这件事儿?就是说,如果真要把仿真的评测做好。因为评测这件事儿必须要基于仿真去规模化,那它必须要拿来最大量的足够真实的场景,啊,物理的世界,啊,人的这些的轨迹、经验,同时还有我觉得很关键的评价的标准,嗯,就是不同任务的评价的标准。这件事儿在仿真中闭门造车是很难出来的,那其实需要去拿到更多的真实的数据。
对,所以这个其实也是为什么我们现在开始去做人类数据的原因。人类数据,嗯,就人类的视频的数据。你刚才说的是以人类为第一视角的数据,没错。为什么要第一视角?呃,因为其实咱们可以把人就是呃机器人,我觉得大模型很关注的一个能力就是跨本体的能力。如果从这个角度来讲的话,人是不是也是一个机器人?嗯,对。所以本质上来讲,这种训练范式它其实就是把人当成一个机器人。
啊,把他的数据拿回来,堆进去一块去训练哦。啊,另外还有一个点呢,就是说,相当于把人当车了啊。对,把把人当车了啊,没错,完完全就完全是这个意思。另外呢,如果是这样,没准将来机器人越来越越来越像人,因为它越像人,它就它的这个本体和人的这个差距就会越小,嗯,对吧?所以我觉得这个是人的第一人视角的数据的一个核心的一个点。
啊,那当然就是说,这个数据回来了以后,其实可以基于 real to sim,啊的很多的这个啊算法仿真的能力。把这个世界拿回来,把它所交互的这些物理拿回来,以及把他们的很多的任务以及评价标准拿回来,又把这些真正的加入到仿真里头去,来扩充仿真的规模化,嗯,对吧?另外一个呢,就这个是一个从真实到仿真的一个环,从仿真到真实,就是说。
仿真做完了以后,一定需要在真实世界去落地。那么,Syntho如何去解决?一方面来讲是在预训练加入更多的仿真;一方面其实是把它和真实世界做更好的对标,对吧?那其实所以就是说,真实的遥操作的数据、真实遥操作的评测和仿真的对标就会变得尤为重要,对吧?不只是在啊,训练端的对标,同时还有在这个评测端的对标,来真正的可以让Sim呃SimtoReal不止可以服务训练,也可以服务评测。
所以从这个角度来讲的话呢,我认为可能数据金字塔一方面它是一个金字塔,它是一个分层的金字塔;另外一方面呢,我认为它可能是一个以仿真为中心的、以评测驱动为中心的数据的一个闭环。所以你觉得哪些数据是被高估了?哪些数据被低估了?对,首先我认为真实的,啊,机器人的数据肯定是被高估了。啊,我认为其实咱们从过去几个月真正行业的发展来看,我觉得其实大多数人都已经看到了这个点。
嗯,啊,就是可能原来就是真机派的这些的公司或者大模型团队,其实现在我认为大规模的去采购。仿真的数据、仿真的评测,或者是人类的数据,所以我觉得第一,它肯定是被高估了;第二呢,我觉得仿真还是在被低估。为什么呢?因为我觉得大家已经看到了一些仿真数据。的这样的一个能力,但是我认为就是说,仿真的评测,我认为其实真正看到它的没有那么多人。
我觉得大模型团队是完全看到了,为什么?因为他们在关注的是大规模的评测,没有仿真,他就没有办法做大规模评测。而我认为很多的机器人公司可能现在还是在开始去看到这个阶段,为什么?因为它的规模还没有那么大。那当它的规模越来越大,它需要去处理的任务数量、任务种类、开放场景越来越多,它就会越来越感觉到这个这个痛点啊,没有绕它是绕不开仿真这件事儿的。
另外呢,我觉得人类的数据呢,其实相对来说也是被低估的。我认为,呃,其实人类的数据也是极其关键的一件事儿。当然,我认为它是要去从我们角度,我认为它可以帮助我们真正的去完善和补充、增强我们以仿真为中心的这条环。智能眼镜听起来非常有用啊!智能眼镜就相当于是。呃,车对,就所有人都出去给机器人收集数据去了。对,哎,是的,我很同意这个点。
啊,我认为其实人类数据它的一个问题就是它其实没有什么壁垒。啊,那么很我看到很多人在做人类数据的硬件,但是其实本质上来讲,人类数据它的底层就是要让人带上消费级的硬件。去采集数据,一定是要眼睛看吗?啊,第一视角一定要眼睛看。比如说有我看有硬件公司做一个,呃,像Proud他做录音笔,像比如说还有公司做了一个胸前的这种啊,明白?
嗯呃,这种是人类第一视角数据吗?呃,从第一性原理上来讲,你越贴近人的视角是越好的。对,就是说,啊,其实你的一个硬件,如果比方说顶在头上,顶在头顶上,或者放在胸口,你其实你的视角跟人的眼睛的视角都有一定的差距的,所以本质上来讲,这个都会产生一定的问题。为什么一定要是眼睛?呃,我觉得,可能更多的是从一个第一性原理,就是说,啊,就人是这么工作的,就就人就是这么着工作的,啊,对。
那么这个这个其实也是我觉得看到的很多的真正的需求,我觉得都是朝这个方向去走的。对,那你从这个角度去看的话呢,其实到最后的时候,一定需要的是一个最佳规模化的。我觉得消费级别的啊,足够舒适的可穿戴,来真正的服务人类数据的,我觉得端测的硬件,怎么让人愿意大规模的戴上眼镜啊?如果我不是近视,或者我像我这样,我我是近视,但是我就想戴隐隐形。
我我觉得啊,理想状态下,人就喜欢戴这个眼镜,而不是人为了数据去戴这个眼镜。我觉得这个可能才是真正人类数据啊需要去达到的这个点。我举一个例子,比如说啊。就Meta的这个Rayban的这个眼镜,对吧?他们其实就改变他们的思路。他们最早的时候可能是啊,希望做这个游游戏眼镜,对吧?然后做的很炫啊,但是看起来不够好看。
那我觉得Meta的Rayban的眼镜,我觉得它特别特别聪明的一个点就是,它首先这是一个很酷的眼镜,看上去很好的眼镜。其次,它有一个AI的助手啊,可以跟你去对话。对吧?它有一个摄像头儿啊,我认为这种的可穿戴可能在长线是最有用的,就是这个可穿戴是一个大家都已经有的东西,而不是一个你需要去买给大家东西。所以这些公司首先需要设计一个足够有吸引力的眼镜,让我们都心甘情愿的戴上,然后它再利用我们去给它的机器人收集数据,是这个道理。
但是你如果顺这个角度去想的话呢,嗯,我觉得就是说前提啊。就是一定要基于一个消费级的,就相当于就是说,啊,我认为,人类数据的公司不应该做自己的硬件。如果因为它的这个硬件很难达到一个消费级,消费级我指的可能是一个百万,甚至更大的一个出货量,大家都喜爱这个眼镜,所以我认为它应该是一个基于已有的消费级的硬件,或者说这个硬件如果没出来,呃,有一个消费级的硬件的公司做了一个爆款出来,大家都戴上了,这个是一个真正的一个爆点。
那他为什么要把数据给这个?机器人训练大脑的公司,我认为在这儿的话,它会有一个就是不同的这个硬件,其实都有相应的SDK、API啊、APP,对吧?所以其实你是可以去设计这样的一个采集流程的。我们都知道算力很贵,因为我们说驱动人工智能三驾马车是算力、算法和呃数据。算力非常贵,数据贵吗?想要买,比如说仿真数据或者人类历史的数据,大概是一个什么样的金额?
数据其实我认为在越来越贵,啊,这个这个是很有意思的一个点,就是说可能很多的人认为数据应该越来越便宜,我其实觉得这个就是本质上来讲就是,呃,就数据不同的。就刚才我提到的,就数据不同的阶段,可能从一个啊静态的数据集,或者是一个量贩级的一个数据,到一个提供反馈的数据,它的这个给算法带来的价值是完全不一样的。
因此,他所可以去啊拿到的这个价格也是完全不同的,对。那当然就是说,我认为就是说,咱们去从预训练、后训练还有评测角度去看的话,我认为可能预训练的数数据应该是最便宜的,且它应该是一个相对的标品,对吧?因为我觉得不太可能有一家公司自己去支付了所有预训练级的费用。它应该是一个平摊,对吧?比如说,可能全世界有五家大模型公司去平摊了这份预训练的这部分的这个数据的成本,而且大家也都愿意去平摊,因为这个应该是一个相对帮助大家提提升一个相对通用的一个能力,基础的能力。
嗯,最关键的这些反馈驱动的这些的提升,还是在后训练和评测。而后训练和评测呢,可能是一个啊更加针对性的这个数据,那它更多是一个评测驱动啊,来这个给到足够的信号以及相关的这些的经验的传授,那它的这个数据的这个这个价值和价格会更高很多,大概多少钱?呃,其实这个不太好说,就是说现在可能,比方说从一个数据角度来讲,可能一小时啊从几十人民币到上千人民币可能都会有,但是他呢是指就是标数据的专家是吗?
采集数据的专家?呃,就是呃,不止,就是它包括了,比方说这个呃,就数据,我觉得它巨深的数据啊,我觉得它包括了三要素。第一是它包括了一个物理的场景啊,无论是真实的还是仿真的,它一定有一个场景啊。第二呢,就是说它包括了这些经验的轨迹,以及这些经验的传授。经验传授就包括了这些语言的标注。啊,第三呢,就是说它包括了这些啊评价的指标,比如说这个是成功,这个失败,它可能会标的更加精细,比如说behavior的这个数据集,可能我做一个披萨啊,可能是一个很长程的任务,我里头可能有的这个。
啊,比较小的这个任务,我可能先失败了。比如说,我可能先放一个蘑菇,我先失败了,我第二次又成功了,这个都会标出来。嗯,啊,对,那这些在一起结构化,它是一个数据。那一小时这样的一个,比方说就是做披萨的数据,可能会卖到可能,比方说从几十人民币。到几千人民币不等。现在这个是一个,我觉得现在整个行业还是一个比较发散的一个阶段。
那当然了,就是说我们很关注的是高质量的数据,因为在这儿其实低质量的数据没有任何意义。高质量的数据,我觉得其实是在一个几百人民币到上千人民币这样的一个阶段。什么是高质量的数据?高质量的数据,我认为就是啊几个点:一就是说这个物理的这个场景,它足够的多样化。啊,它的交互足够的真实,且它足够的符合真实的物理的场景。
第二的话呢,就是说这个轨迹的这个记录足够的专业。嗯,对,然后比方说做一个披萨,对吧?它是足够流畅,它可能有失误,但是失误了以后它有一个修正。其实这类的数据会更贵,就是其实跟就很反直觉,就是大家可能认为一个完美的。做披萨的一个视频可能会最贵,但其实不是。其实你如果中间比方说掉了几粒这个这个这个菜,然后给它捡回来,再重新把这给做好,它会更贵。
其实我觉得有点类似于人的学习,人的经验,对吧?失败了以后再成功的经验,往往是最宝贵的。然后第三就是说,我觉得它的这些评价指标以及它的这些标注啊,足够的这些准确,尤其是这些长程的任务,其实在这块是很难的一件事儿,它需要很大规模的。自动化的模型驱动的算法啊,来真正的帮他去精细化的做好,包括可能啊,如果说是人类数据的话,手啊,这个这个全身的这些的tracking,这些的真实度,这些的准确性是极其关键的一件事情。
比如说呢,什么样的数据是好数据?比如说电影的数据会是好数据吗?游戏的数据会是很好的问题。就是我们这些日常见到的哪些视频可能会是一个好数据?呃,我觉得其实游戏的数据,我觉得电影的数据都会有用的。但是直播就是说,呃,咱们从数据金字塔角度来讲的话,数据金字塔其实我觉得一个点告诉大家就是,任何的数据都会是有用的,但更多的考虑的是一个R I,就是成本收益比。
嗯,对。那么我举一个例子就是说。电影的数据、视频的数据很有可能是能够帮助模型提升的,但是它的问题就是,我可能我的处理成本也会比较高,且我模型提升的点数会相对比较低一些,所以可能就是说我去消耗了大量的算力去处理的这些数据,然后去压缩的这些数据,但是在智能上我的体现相对来说会差一些。那我认为,其实从一个AI角度来讲的话,我觉得最高的还是一个。
呃,基于仿真啊,可能有人在还,但是是算法驱动去采集的数据,或者是一个人类的一个数据。我觉得这两个可能是目前我看到的啊,在预训练阶段,我觉得 ROI 最高的数据。为什么电影的数据、游戏的数据处理难度很高啊?嗯,我觉得它一方面它会有一些,比方说你可能会有增加更多的标注。哦,另外呢,它的问题就是说它还不是一个三D的信息,它本质上是一个二D的信息。
那是呃,游戏有可能是三D啊,但是游戏它可能就是说它有点太cross
domain,就是它可能是一个。啊,跟这个真实世界太不一样的一个场景,它的物理其实是不真实的,嗯,对吧?所以这个呢,别的世界观,哎,没错。但是这类数据其实对于世界模型是有用的,比如说,其实很多的世界模型的团队就用了大量的游戏。就是玩游戏的数据,他们有相应的这些的团队在买相应的这些游戏的版权,嗯啊,然后用他们的
agents 在那去打,然后把数据给拿过来,来训练他们的世界模型。
但是这件事儿呢,啊,怎么说呢?它是有用的,但它的效用性到底多高?没有那么高。从一个我觉得提供数据的角度来讲,应该追求的是一个高ROI价值的,嗯,客户的需求啊,就是说数据金字塔我觉得很大,其实在里头并不需要每一个都去服务,但是可能服务的应该是最高价值链的东西。那你们内部会有很多的数据给它不同的定价吗?
啊,会有。对,当然是这样。这个好难定啊。呃,整体上来讲,其实没有那么的复杂。我们可能整体上来讲,更多的是两类,一类是预训练。对吧?一类是评测的数据,嗯,这两个其实是现在大家最缺乏的数据,因为很多人叫你们叫 data factory 嘛,就是数字的工厂。对,你能不能带我们走进这个数字的工厂内部?你们的工作流程是什么样?
大概人员是什么样构成的?对,就比如说刚才我们说数据标注的人,这是一个职业吗?对,我觉得问题很好。我觉得首就首先可能我呃,就是我们可能更像是一个 data engine,或者说我更希望把它定位成一个 data engine,就是它是一个 data factory 是一个旧定义。对 data factory 我觉得它是一个有点偏工厂,就是它是一个。
啊,流水线流水线缺乏相应的技术,缺乏相应的系统,且它不是一个反馈驱动的,它不是一个评测反馈驱动的。嗯,我们认为data engine是一个反馈驱动的,啊,一个学习的一个引擎,啊,那么啊,他们呢更多是基于一个系统,啊,以工程以系统能力,啊,利用到端测的这个人去帮助他们去生成的数据。那在这样一个情况下,就是说,我举一个例子,其实可能大家看到的是我们生产的数据,但是其实我们的内核是一个全站。
啊,我们首先为了去打造这个物理足够真实的世界,我们需要用到仿真。这个仿真,我们需要去构建足够真实的物理的世界,以及这些可交互的这些足够真实的物理的资产。嗯,这个其实底层是很难的一件事儿啊,打造。比方说钢铁的这些资产是比较简单的,但打造非钢铁,比方说打造啊这个线缆,其实我们服务的很多工业化的场景需要线缆插拔的场景,啊,这个是很难的一件事。
那它需要底层的自研的物理的计算器,是一个非钢铁的计算器。啊,以及这个啊仿真的这个资产啊的这个抠地钻就是联调,来真正帮助他们去产生。同时的话呢,这里头的物理该怎么办?这里头的物理需要从真实的世界物理来,所以我们其实有一个物理的测量工厂。嗯,这个测量的工厂基于。啊,足够自动化的机械臂等等之类的工具链,来自动化的去这个世界上的不同的真实的物理的资产去做交互,把它们的力学信息拿回来,又把它相对自动化的去放到这个仿真的资产和这个世界里去。
所以这些都是我们为了去生产一个。啊,一个一个一个一个仿真的足够真实的物理的世界和可交互的物理的世界,啊,所做出的这个啊,就是就就所做出的这个系统。在这个基础上,那我刚才提到,就是说有两类这个仿真的这个数据,一类是一个以人为驱动的,那它的优势就是说它的这个数据的质量是最高的,它提供的是最好的示范。那它的问题就是它规模化能力相对欠缺一些。
那在这个路径上呢,我们有。很呃很优质的这些的这个,比方说遥操作的工具链,有点类似于你看到人在去遥操作一个真实世界的机器人,我们有人在遥操作这个仿真世界的机器人,不同形态的机器人,甚至我们自己定义的机器人,它可能跟每个机器人都不一样,但是它是以一个足够标准化的一个形体来去采集各种各样的机器人的本体的数据。
啊,示范的数据,啊,来拿回来。同时呢,我们也有,我们也基于这条的路径去训练出来了足够好的自动化的这个算法,可以去基于这套算法去自动化的去在这个房上去做采集,啊,偶尔需要人为的介入,对吧?所以这个是一更加规模化的一个这个数据产生的这个管线。在这两个基础上,啊,再往后就是这个标注。啊,那可能就是说它有更多的语义级的标注,那在这儿用到了很多大模型的能力,啊,以及最后可能有一个人在环的一个质检,来真正保证这个数据,它是在它的质量上是足够高的。
对,所以这个可能是一个我们真正产生数据的一个基础。那当然就是说,刚才我也提到了啊,评测也是需要被规模化的,所以你可以理解,评测其实也是也是一条数据管线啊。那它呢,呃,起始点就是说,它会起始基于我们基于人去啊,就是基于。啊,人去采集的这套的这个链路啊,这套的这个啊端测的这些硬件以及云上的这些自动化的这些算法拿回来这些数据,然后呢再去做real to sim,那可能包括这个把视频里头的这些物理给重建。
啊,把视频里头这些任务相对自动化的去提取出来,以及这些评价标准提取出来,把这些放入到我们仿真的这个啊资产。场景、世界,以及这个任务的定义头去,呃,让它呢更加规模化的去产生一套就评测的这套的数据链,嗯,来让它去服务我们的数呃客户。你刚刚一直在说评测数据非常的重要,那你们怎么做的呀?对啊,我认为呃,评测的数据它的最大的难点就是啊,一它需要很有挑战。
啊,二它需要很可规模化,啊,又要难又要可规模化,哎,没错,这个是这个是很难的。我举一个例子,可能比方说,呃,很多的呃呃那个机器人公司他们在做demo,啊,那他们可能比方说呃叠衣服,对吧?等等,那他们可能更多是在一个相对固定的一个场景啊去做相对单一的任务,但是对于大模型的泛化能力,可能他们需要就是说,真正的在呃很大规模的场景里头去可能。
千级别至少这样的场景里头去,可能有很大规模的任务,这个任务可能是一个千甚至是万规模这样的一个任务啊。然后呢,有相对的这些的成功的定义啊,来帮助他们真正的去评价。那这个时候,我觉得第一就是说,呃,如何去打造这些呃平行的世界。这些平行的世界的相应的这些物理,啊,这些其实刚才我已经呃简单讲过,就是对于仿真,对于这个真实到仿仿真这样的一个一个一个一个一个产线,嗯,那比较难的是他聊的这些任务,啊,以及这些评价标准,这些我们是从真实世界来的。
我认为这个是极其关键的一件事儿,就是说,如果如果仿真的评价与真实世界的评价去脱离,那这件事儿就算可以规模化,它也没有办法真正的产生啊实质的价值。另外一个点呢,就是说,啊,可能大家认为我们是一个以仿真为中心的公司,所我们只做仿真,其实不是这样,我们还有一套真实评测的基建,比方说我们有真实的机器人。啊,然后我们有,就就真实的这些就评价的算法,这些场景,他们的目的不是为了去服务我们的客户去评价他们的机器人在真实场景,而他们的目的是为了去与我们的仿真的更大规模的这套的工具链、这套产线以及这些评测的难题去对标。
比如说,我们用相同的算法在仿真里头和在真实里头,我们是否可以看到一个相关性的对应?嗯啊,这个是很关键的一件事儿。我觉得只有把这些也做好啊,才真正的能够把。以仿真为中心的规模化的仿真的评测还可以做好,你们有多少人?呃,整个团队吗?嗯,啊,我们现在可能全职的更多的是工程技术方向的,就有可能一百来个同学啊,大概是这样。
就我不太认为AI会自己为自己完全就生成数据,然后就服务自己。这这件事底层逻辑是不通的,因为它就更像是一个永动机。嗯,所以本质上来讲,我觉得一个核心是:一,你是否拿到了足够准确的世界?对吧?以及足够准确的任务。二,你需要有人在这里头的一个经验的示范,这个是一个核心的,能够帮助模型去提升的一个认知。那当然就是说,我觉得很关键的一个点就是你如何去放大这个示范,对吧?
如果你是一个以人为中心的啊数据公司,那你可能需要的是,我认为啊,可能需要是呃千万到亿这个量级的人,最终才能把这件事儿给做成。啊,因为这块儿需要的量太大了。但是呢,如果你是以一个以仿真为中心、以系统为中心的,那你其实在这儿有一个放大效应,因为你是通过技术去放大人产生的这套的这个经验。那我认为这块儿可能需要的这个量会小一百倍左右。
上次我我记得谭杰说,就是 data factory 遇到一个问题,就是你们采集了很多数据,但是比如说给他提供数据了以后。嗯,就是像给这种大脑公司提供的数据后,他也不能告诉你们这个数据好不好,然后最后就会出现扯皮,就是数据公司说哦是你们模型没训好,然后模型公司说哎是你们数据采的不行,就是一个扯皮的过程。
你怎么看这个问题?怎么办?对我认为这是一个客观存在的问题,但是呢,其实我想举一个例子,就是咱们去看 Scale AI 和 Open AI 在 GPT 二。其实是一样的一个阶段,这个阶段呢,其实就是说大家其实在共同的找寻这个数据的这个配方,啊,它其实大方向已经相对比较明确了,比如说仿真,比如说人类数据,比如说仿真的评测,但是它在细节上可能会有一些区别。
我举一个例子,比如说我们就实实在在遇到,最早的时候可能客户给我们的需求是要完美的数据,后面可能更加希望是负样本或者就是纠错的数据。另外呢,就是说可能需要更加分布广的数据,比如说你去拿一个瓶子,可能希望的是拿瓶子的方式是不一样的,而不是每次都拿同样啊类似的一个方向一个位置,对吧?这些都是一个我觉得逐步迭代的一个认知。
我认为在这儿其实最关键的就是跟可能整个业内最领先的客户。啊,去协作起来,去共生起来,我觉得这个是最关键的一件事儿。另外呢,其实就是说,我我们其实也遇到了一些。就之前可能也会有人去问,就是说,啊,如果啊,如果一个数据公司它不是做大脑的,它不是做本体的,那么。他可能认知对于数据的认知赶不上一个本体公司,啊啊一个一个大脑公司对于数据的认知,啊我觉得其实从我们实践下来,我认为倒不是这样,就为什么呢?
就是说,其实啊真正这个世界上能够对数据,尤其是大规模的预训练的级的数据产生认知的团队极少无比,可能也就五个左右,嗯啊我们可能基本上跟他们都是一个。合作关系,啊,我认为就是说,在这儿最关键的是和最核心的客户产生一个相对共生的一个协作的一个关系。哪五个?啊,就这块可能就就这块就可能就啊就就不太细说了,但是就可能你可以想象,就是最大的大模型公司,最关键大模型公司,那么他们往往都会有自己的巨深的团队。
那在这儿呢,我觉得就是说很核心的一个点就是两边是否可以同步的去迭代。啊,就迭代相互的认知,这是一个很关键的事儿。其实,某种层面上,我们得到了很多不同客户给我们的认知,同时我们也给我们的客户提供了更多的一个认知。我觉得这是极其需要的。我再举一个例子。就是其实,数据金字塔这件事儿,它是需要被验证的。就是数数字金字塔是一个是一个概念,但是它到底哪一层的数据是最有效的,配比是如何的,这个是需要被验证的。
我们其实可能和其中的大概两个公司左右,都在不断的去演进对于数据金字塔的迭代。嗯,这个是很关键的一件事儿。那当然就是说,你要去验证数据金字塔,你需要多少卡?可能得几万张卡,才真正能够有效的去验证数据塔。所以我认为,其实在这儿一些核心的认知是极其关键的。应该怎么配,怎么配比?呃,我我认为就是说,嗯,可能就不能说太细,但是就是说,我认为其实就是越来越偏本体五官层,这个是就首先是一定的一件事儿。
另外就是说,我们可能得到更多的一个认知,就是不只是一个在预训练阶段。包括就是预训练之后的后训练,从L阶段该怎么去做这件事儿,该怎么去微调,啊,多少利用仿真,多少利用真实,以及后面的评测该如何去构建?我觉得它是一个整体的一个体系化的一个认知。准备数据非常的关键啊!能不能给大家一些你们的关键的一些 secrets 分享一下?
对,我觉得可能就是说说一些就是比较偏反直觉的认知。我觉得还是回到就是说这个什么样的数据是好的数据这个点上。其实我觉得它越来越像人的学习啊,就是它越来越不像最早的自动驾驶、最早的呃这个机器视觉、最早机自动驾驶机器视觉就是。完美的数据是最好的,它有一个标准答案的。我觉得现在的数据可能越来越没有一个标准答案。
那这个时候,能够我觉得呃,从第一性原理上能够帮助人去学习的数据。我觉得它可能是最好的数据,就是它是一个比方说让你看到了一些错误,能让你从错误中去学习的数据。嗯,啊,我觉得这个是一个很关键。另外就是说,可能人从小的时候长大,他可能就是说你就是看一个老师就给你讲题,你可能不见得是最好的效果。可能你把每一个同学都给当成自己的老师,啊,一道题可能有不同的做法。
啊,然后呃,从这个足够的分布中去得到自己的这个结论,可能是更好的。我觉得这些是可能是我我就我觉得它的secret sauce就是它是和人的。这个学习是越来越共通,嗯,所以其实我越来越觉得我们可能做的是一个教育公司,就是的教育公司。对我,我认为中局的数据公司可能跟教育公司是长得很像的。那你觉得教育,呃,AI和教育人的不同是什么?
嗯,目前来看,我觉得现在巨神可能还是没有那么智能,对吧?所以就是说,现在其实还是有不少的是一个示范,啊,就还是有一些让他去死记硬背或者让他去模仿学习。对吧?啊,但是我认为就是说,越往后可能你越需要去挑战它,啊,另外呢就是说,嗯,就我觉得在这儿其实本质来讲,巨深这件事儿它还是一个要与物理世界去啊交互的一件事儿。
所以这个教育可能和咱们的平常的这种书本的教育还是不太一样的。嗯,它需要有更多的物理的示范和物理的交互。因为你跟国内外的各个,不管是大脑的公司,还是机器人本体的公司,还是大模型的公司,应该都很熟。对,能不能给大家做一个就是关于呃中美机器人团队是怎么做数据的 mapping?没问题。他们都是他们都是什么的信仰派?
就是因为我跟他们很熟,所以我可能不能太细说。我觉得我可以去相应的去归类。就是说,我觉得有一个就是大模型派,嗯,大模型派,我觉得可能越来越多的就是大厂的大模型团队,啊,我觉得他们可能,呃。出发点可能最早的时候可能不太一样,但是可能越来越,越来越趋同,越来越趋同,就是说,他们需要的是,啊,这个零样本的泛化的能力。
你说的是大语言模型团队还是哪个团队?呃,大厂的VLA团队,大厂的世界模型团队,啊,我觉得大概是这两个团队吧。我觉得他们需要的是这个零样本的泛化能力。我觉得这个是一个极其极其对,基本上能力。我觉得这个是他们最看重的,他们倒没有那么看重本体的复杂度。啊,那他们最关键希望的是能够用相对简单的标准化的本体,但是能够去验证他们规模化的技术上层能力。
嗯啊,我觉得这个是他们特别相信数据啊,他们也特别相信本体无关的数据,相信仿真啊,相信仿真的评测,相信人类数据啊。那么,因为这个走的是大语言模型的逻辑,没错,嗯,哎,没错。同时呢,就是说他们其实在infra上他们会呃更早的去尝试做ll啊做大规模的ll这件事儿,但是啊,重点可能是在仿真啊,这个是我们可能看到的。
一个一个核心的一个大模型啊,团队的一个趋势。这里我插一嘴啊,因为正是因为这些大厂,它嗯,当然它资金很雄厚啊,它的嗯,infra能力也非常的强,但是它同时有大语言模型,也有这个vla和世界模型,就是做机器人的这个方向,那它。在当下肯定会把资源倾向倾斜给大语言模型的团队,对吧?它不会倾斜给机器人团队吧?
所以会不会反而出现在大厂这个资源,其实在机器人团队能留到机器人团队的资源没有想象中那么多?你说这一点很好,但是呢,就是说,我觉得这个其实是一个可能三到六个月前的现真实的现象,啊,或者说,其实在今年以前,我觉得看到的情况,其实大厂是基本上没有下场的。比如说OpenAI可能没有下场,对吧?可能自己也没有下场,就没有下场。
Seriously去大规模去做这件事儿,嗯啊,对。但是在今年开始了以后,我认为可能核心啊就是说啊大模型这里相对来说可能趋势相对确定了一些啊,有一定的手可以腾出来了,然后这些就开始去做到了机器人啊,VLA。啊,对,所以从你的视角告诉我们谁变得更激进了啊?我觉得自己肯定是更激进了。嗯,我觉得呃阿里,啊,我觉得OpenAI,啊,我觉得地脉呢也绝对更激进了。
对,我觉得呃英伟达,我觉得也更激进了。这个是五家。角逐机器人大脑的团队啊,我觉得还会有其他,嗯嗯,对,其实某种层面上,我认为派也应该属于这一类啊,对,但它是创业公司,对,它是创业公司,但是我我认为它可能咱们去定义它,可能更多偏一个 frontier lab,而不是一个机器人公司,嗯,对吧?那么我觉得它也算是这一类,就是它在它在真正的大规模的去训练自己的模型,就这个是一个我觉得大模型,对吧?
那咱们再去看啊,机器人,我觉得机器人的话呢,可能最早的时候全都是真实派的。现在呢,我觉得有一些是开始去 follow 仿真、仿真评测,我觉得这是掉头了。还有一些呢,同时呢也在 follow 这个人类的数据。那比如说这个用以generalist呃就就generalist为为首对吧?同时表表上三day,那他的他用他的那个类物物物秘的夹爪,其实也是人类数据的一种。
那国内的一些可能也是啊,有follow人类数据的,对,所以我觉得呢,就是说啊,机器人公司其实也在分化,可能呢,我觉得我我觉得底层啊是这个机器人公司是否是一个很大的一个商业模式,是一个素材。还是说它的商业模式就是去做大脑智能?我觉得它在这儿会有一定的分化,就它的这个数据的这个品类上会有一定的这个分化。
做大脑智能好像不能成为商业模式吧?现阶段,我觉得就是说,呃,就是大脑智能就是说它去把这个呃机器人部署到这个真正的场景里去啊,去执行这个场景的任务,而不是去做一个数采的一个数采厂。哦啊,我觉得现在可能很多的机器人公司其实底层做的是一个数采厂。哦,其实我个人比较看好语数。语数其实我觉得它还是一个更加偏本体的一个模式。
如果说咱们去认为,可能这个啊,就是本体无关的数据导致可能大厂的大模型真正成为最后大脑。那我觉得语语数的区分度是最鲜明的,它就是坚定的把它的本体做好,嗯。对,所以我倒认为,就说语数可能后面,啊,它的定位很清晰,它也不和它的,比方说啊,就是它也不和大脑公司去竞争。我觉得他们是一个很务实,而且知道自己哪里有优势,知道自己哪哪里不希望去发展的一个公司。
就我觉得,知道自己的这个boundary就边界,我觉得很关键。那它在这个生态里面会扮演一个什么角色?这样的本体公司?嗯,我觉得它会是一个核心的本体硬件商,啊,可能比如说后面如果说这些。啊,大厂的大脑公司,大厂的大脑团队,他们希望去在场景去落地他们大脑,他们很有可能会高优的去看语数。和语数合作啊,对吧?
因为我觉得语数已经被证明它是一个足够稳定的、可量产的,对吧?可量产的。除了语数以外,你还看好哪些?呃,机器人公司。我认为智源其实我觉得商业化走的是很好的,因为我我觉得他们可能从 day one 就想得很清楚啊,这件事儿如果说啊,他要去体系化做的话,他就要把上下游完全打通。啊,同时呢,我认为其实,啊,巨深可能某种层面上现在还应该是一个供给驱动的市场。
就是你先把这个量给做出来,嗯,真正的去驱动整个行业的提升,整个驱动整个供应链的提升。我觉得这儿他的他是想得很清楚的。我觉得他的量产各方面是做得很好的。你觉得这个行业,当然今天特别早啊。如果一定要说终局的话,你觉得它会形成一个什么样的形态?机器人大脑会是霸权的吗?会是一家垄断的吗?我觉得可能会像现在大模型行业,对吧?
咱们大家以前以为 OpenAI 能够一级垄断,嗯,没错。原来以为好像不行,没错。对,因为我认为就说还底层还是数据闭环,对吧?如果说这个数据闭环是掌握在一个本体上,它有规模化自己最大的本体,去做最大的场景,拿回来最多的数据。他有训练自己最大的大脑,那这件事儿可能确实会形成一个霸权。我举一个例子,特斯拉就是这样一个霸权,对吧?
他们在自动驾驶,我觉得是做的是很好的。那当然,国内的我觉得,欧艳,比方说像理想、小鹏啊、蔚来等等,我觉得做做的都很好。对,那当然,如果说在这儿,他如果是一个。本体无关的一个数据模式,那它必须要和数据商去进行共生的一个演化。那这个时候,我觉得可能啊,大模型厂商很难单独的形成一个霸权。所以,我认为在最后,可能更多的是一个生态系统,这块有最好的大脑公司,有最好的数据公司。
有最好的这个机器人的这个本体公司,三者的一个强合作,来真正的让这个场景公司真正的把这些机器人给落地进去。当然可能会有一些场景公司自己就是最好的硬件公司。嗯,我我觉得这是完全可能的。现在看好像美国那边大脑发展的更快,中国这边本体发展这更快,这会产生什么后续的影响?呃,你中国团队对于大机器人大脑会追回来吗?
呃,从我的判断,因为我们其实啊服务的客户足够多,啊,我认为很有可能会去追回来。我举个例子啊,千问其实是现在可能最好的开源的大模型。对吧?所以我认为就是说,国内的大模型的能力,我认为是极高的,且他们在这儿,我觉得做的决心是足够高的。嗯,他们的基建,我觉得是足够好的。同时呢,我觉得这块的人才密度密度也是足够高的。
我觉得更多的是因为,啊,由于可能国内的大厂之前的时候,可能重心还是在大模型、大语言模型,它一定要把这件事儿给争下来。我觉得现在这件事儿呢,他们已经开始把他们的资源开始去放到巨深这块了。所以我认为可能,咱们可以看到不少这块的一个提升。为什么过去三到六个月他们开始往巨身上转资源?他们看到什么迹象?其实我觉得还不是过去三到六个月。
嗯,我嗯可能是过去的,我觉得就小一年的时间。嗯嗯,对我认为可能更多的是一就是说大模型这边儿,我觉得可能相对趋势比较明确了。啊,所以他们有精力往这边投了。二的话呢,我认为可能确实也是看到了,就是说啊,咱们现在就是我我我这儿有一个核心逻辑,就是你到底是本体相关的数据还是本体无关的数据。如果这件数据一定是本体来的,我觉得大模型商是很难完全介入的。
对吧?那它最好的方式就是跟一个本体上去合作,对吧?那如果这个数据的核心是本体无关的数据,那我觉得这就是妥妥的大模型公司的聚会。嗯,对,所以我觉得这个是一个可能整个行业,呃,我觉得逐步开始想清楚的一件事儿。谁会是 robotics 领域的 OpenAI?我觉得首先啊,OpenAI 可能。也还会是 robotics open ai,因为他们其实,啊 robotics 团队其实还是很强的一个团队。
哦,啊,我觉得一定不能小觑。我觉得地脉的,我觉得绝对可能还是大模型的地脉的。嗯,啊,对,我觉得他们是一个极其的稳啊,我觉得极其极其优秀的团队。嗯,对。我觉得英伟达,我觉得是很有希望的啊,我觉得是很有希望的啊,因为我觉得呃,英伟达对物理AI是极其极其重视的啊,我觉得呃,Jim的团队,我觉得明宇的团队,我觉得都是足够强的团队啊,而且资源我觉得都是给够的团队啊,我觉得在国内的话,我觉得可能字节,我觉得可能阿里的千问啊,从我角度,我觉得可能都是极其优秀的。
你不看好马斯克啊?我觉得 X A I 是有机会的,但是马斯克呢?其实他现在的 focus 是他的本体的硬件。他其实呃,我觉得一个是 X A I 可能现在还是在一个大模型,对吧?他还是要把重心在把大模型给做好。那场仗没有打赢呢?对,没错,没错。所以这个是他可能 X A I 最关键的事儿。而他的他既然有一个本体优势,我觉得这个优势是别人没有的优势,就是他本体的硬件优势,他一定要把它发挥到极致。
对吧?所以我觉得这个是特斯拉现在这个机器人的重心。所以我觉得这两个其实现在两边还没有完完全全的汇到一起去。你觉得机器人大脑现在的路线有分歧吗?它收敛了没有?我并不认为完全收敛,啊,我认为就是说。嗯,其实就是刚才咱们提到的这个模型记数据这件事儿,嗯,我认为可能就是说机器人大脑的架构。可能这件事儿还并没有完完全全的收敛。
那当然,我觉得在已有的架构上已经有一些 scaling 的端倪,是基于非本体的,就是本体无关的数据仿真和人类数据去产生的。那当然就是说,这个大脑架构是否可以进一步的去演化,它该如何更有效的去利用到世界模型等等?我觉得这个还是一个研究问题。就在这儿,我觉得还有一定的研究问题需要被解决。我们现在有很多的嗯新词,包括世界模型,包括空间智能,然后包括物理世界的AI,这些都在讲一个事情嘛,还是相似的事情?
那么给大家解释一下这些新的概念。对,我觉得他们其实还不太一样。呃,我觉得物理世界的AI可能更多的指的是能够在物理世界去行动的这些的模型。那么我认为可能主要包括就是自动驾驶和巨神智能。啊,这个我觉得是一个对物理AI的一个定义。那当然,就是说,我觉得空间智能的话呢,我觉得它其实更多的还是啊,关注在这个就是三D的这个空间啊,视觉啊,然后是否可以去啊,有效的不只是重建,更多是生成。
这个三D的这个空间,以及基于它去进行相应的一些预测啊,那我觉得世界模型可能更多的是你,就你对物理世界有足够好的一个理解能力以及一个预测能力,但是可能你欠缺对它的一个行动能力。啊,我觉得大概是这样的一个区别。我们今天因为主要的话题是数据,那你觉得如果在数据里面只解决一个最关键的问题,它就能实现大幅的跃升?
你觉得会是什么问题啊?呃,我觉得如果是跃升的话啊,我觉得可能现在最关键的问题是评测,就是评测的规模化。嗯,我觉得这个是最核心的问题。啊,为什么这么说呢?因为,其实我觉得现在,啊,就是本体无关的数据的预训练的通路和scaling law,我最近出现了,啊,那我认为在评测上,其实现在是一个卡口,就这块是一个真正的卡口,就是如果这个解决不了,我认为大家很难去衡量自己智能的提升,嗯,这个是一个核心。
对,那在这儿,我觉得就是刚才如我所说,我觉得可能一定要去把真正的仿真的规模化的评测给它打打造好。我觉得这块会是一个所有人都需要的一个能力。那如果是大元模型呢?它数据问题应该解决最关键的一个问题是什么?大元模型,我其实。认为啊,可能也是在评测和这个后训练端,那它其实很多现在A阵可能需要的是一个是更好的一个评价能力啊。
那么其实现在遇到的一个问题是什么呢?就是说啊,魔高一尺,道高一丈,就是当你模型能力提升了以后,你需要更加牛的人。去提供更加好的反馈,或者去制定啊更加难的考题啊,就更加有效的评测指标。所以我觉得这个其实是现在可能大语言模型遇到的最大的问题。它其实是它本质来讲是卷越来越高阶的。评价指标,你觉得到哪一天数据问题会彻底不重要了?
我其实最早啊,就是我认为会有一天数据问题不重要,可能是比方说十五年,可能二十年,可能会有一天数据不是一个问题。但是我现在越来越思考,就是说,我就从第一性原理去思考人。你说人什么时候不愿意去读书了,或者人什么时候不愿意去学习了?我其实觉得人可能越优秀,越希望去提升自己,他只不会变成就是说。从向别人学习变成与自己去对标,与自己的昨天去对标,与自己今天去今天早上去对标,对吧?
他会更加饥渴的去摄取到更多的知识,但这些知识呢,可能有的时候可能书本已经不够了,那他可能需要去在真实的世界,啊,去实践。啊,去遇到了一些挫折,然后拿到一些反馈,来不断的去激激励自己,更好的去提升。所以我其实认为,可能智能越强,我现在的观点啊,跟之前我觉得其实有些变化呢。我现在观点是我认为智能越强,其实它对于知识的饥渴程度会越高,嗯,对于数据的饥渴程度会越高。
但他可能就不想向外学习,他可能是自我学习了。是的,我极统一。我觉得就是说,到了中局,可能整体上来讲,就跟马斯克说的,咱们人可能就在一个仿真里头,就是他可能就是在自己的。这个啊,咱们给他设定的一些仿真的环境里头去,基于他自己去设定的一些成功指标,嗯,他不断的去修炼他自己的内功。我觉得可能会有那么一天,当AI开始向AI学习,那Data Factory是不是就消失了?
我我同意这个点,就说我认为Data Data Factory它不是一个第一性的一个一个一个需求。对吧?我认为啊,知识或者说啊,人类对于学习的渴求,它是一个第一性的一个需求。对,那么我认为 data factory 它还是一个偏量范式的,嗯,啊,大规模的一个产生量范式的相对标准化知识的一个路径。我认为这个路径可能很快就会不需要。
那你们不就消失了?啊,我们不是 data factory,我们我认为还是一个以系统驱动的、以系统为中心的、以评测为中心的,啊,通过帮助啊客户的模型发现问题。并且呃,基于这些啊有效的反馈和经验,帮助他们去提升的一套的能力,对吧?这套能力包括示范,也包括啊仿真的这些环境。啊,到终局的时候,很有可能所有的人都不用我的数据,但都用的仿真的环境,在里头去用RL,不断的去修炼内功。
我觉得可能会有那么一天,AI会不会不需要这个?你觉得AI需要吗?如果它足够强大,呃,它需要一个教育系统吗?呃,我觉得到最后可能不是一个教育系统,可能是一个环境。嗯,对吧?这个环境就说有点类似于,就是说人在这个社会上,他去学习,他总需要一个环境,无论是一个比方说偏数字的一个环境,或者偏物理的一个环境,嗯,他都要在这样一个场景下去自我的去提升,对吧?
这个场景、这个环境,其实本质上来讲,可能是我们中局啊去提供给我们客户的。那就有点类似于咱们去看大语言模型的学习,其实现在有很多的,就比如 scale 等等,给他们提供的是一个叫 RL Inf。刚才我提到就是一个服务强化学习的一个环境,对吧?那么让这个模型在里头自己的去修炼内功啊,我认为这个是一个可能最终极的一个一个需求。
你说像爱因斯坦这样的人的环境是什么呀?爱因斯坦,我觉得他是可能有很多的是在他的。大脑里头去构建了这个很多的这个思考前提,对吧?他首先他可能有一些啊,他对于物理的这个基础的这个认知,嗯,对吧?然后基于这些基础的认知,基于这些基础的这些定理,他去构建了很多的思考实验。思考实验某种层面上咱们可以他理解为仿真,对吧?
他其实很多的这个广义相对论狭义相对论,他可能都是他的自己的大脑里头的思考实验。啊,去啊,去试错,去想出来的。那么本质上来讲,啊,我认为如何去构造这样一个思考实验,你可能需要一些物理,你需要一些grounding,就是一些限制条件,对吧?你需要足够多的这些环境来帮助它在里头去进行足够多的。啊,就是我觉得可能大规模的实验,你觉得仿真是你就是我们开始聊到那个你一直想寻找,但是,呃,以前没有找到,现在找到的那个方向吗?
啊,我觉得方向,对我我我觉我觉得仿真是这个,因为我认为仿真是真正能够去解决巨深。啊,数据问题的基石,或者说,我认为仿真是这个整个这个巨深智能,它对于这个呃学习所需要的这个前提条件。那当然就是说,我觉得仿真。就alone就是就是单独是仿真,就呃当然我觉得单独仿真可能并没有办法完全解决这个问题,我认为它需要是一个刚才我提到的一个金字塔,啊那它是一个以以仿真为中心,但并不是以一个仿真为一的一套的一个系统的能力。
Train doors slide, our mirrors shake, laughing loud at every mistake. Cheap headphones, impossible dreams, crash together in the same beam. We don't have a好了,今天的节目就是这样。
这里是商业访谈录,是一档由语言及世界工作室出品的深度访谈节目。你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是语言及世界 Language is World。我们希望和你一起从这里探索新的世界。xyz:zxj 134. 【数据的综述】和谢晨聊,新时代的石油、历史、版图、数据金字塔、定价与Recipe。