大家好,我是丰睿资本的李峰,欢迎来到这一期的产业观察。我们这一期的产业观察,请回来了,在两年多以前的一个我们的老朋友。那个时候跟我们的这个张巍老师录机器人的时候,机器人只是在二零二四年初的时候刚开始热,谁也没想到机器人,尤其是这个具身智能机器人行业,在过去这两年,在中美,尤其是在国内,经历了天翻地覆的变化。
当然也持续了两年的热度。所以在今天,我们有机会把张巍老师作为逐际动力的创始人和CEO。又重新请回来,当然他有很多不同的头衔和背景,除了是美国归国的。学者之外,他现在也是南方科大的教授,也是在国内外机器人这个领域在研究方面著名的学者,身兼这么多身份。当然这一次来跟我们一起回过头看具身智能机器人在今天过去两年和明天的这些状况,我们先简单回顾一下哈,张老师,就是从作为一个公司的创始人和CEO的角度,过去这两年你有啥感受?
这显然是极其。特殊的机器人的两年,对整个行业来讲,我觉得是天翻覆地的变化。然后,作为初创企业,你为了应对这些变化,肯定有更多的变化。哦,我整个的感受就是不断的迭代和变化。对,确实,反正过去这两年,机器人叫没有最热,只有更热。每一次大家都觉得已经很热了,结果还有更热的事儿出现,还有更多的新的变化出现。
虽然在热里边肯定有很多热的好处带来的融资啊,带来的关注度啊,带来的不管是政府还是行业还是民间对这件事的热情啊等等。除了这些好处之外,在这么热的两年里边,这个焦虑和困惑主要是什么?先说这个行业的变化,我这里边赛道的人,大家认为很卷,那我觉得不卷,我真觉得还不够多人。你说不卷的意思,是因为大家还没有同质化,还是因为大家在同一个问题上还没有收敛到相似的解决方案来拼效率等等?
呃,因为大家总是带着一点互联网垂直某一个赛道领域,然后要什么规模,然后只有做 number one 才能活下来,带着这个问题去看这个赛道的啊,所以会总说谁会留在牌桌上,谁会赢。具身整个这个赛道,我个人觉得哈,它不能泛泛的类比一类垂直的公司,它应该整个类比于互联网。所以,互联网它可以有美团,可以有阿里,还有字节,还有腾讯,还有很多在垂直领域可以有五八,可以有非常多。
所以说这里的人这个机会是非常大的,所以每个人只要好好干,我觉得都能活下来。所以不存在一个卷。那你要这么说,我觉得它更像是新能源车,因为从二零一四年以来的新能源车,大家开始的时候质疑的是新能源车本身行不行,后来又质疑造车新势力行不行。当然我们时间过得快一点,到十年后的今天,在这种不能叫制造也叫硬件相关的载体里边,当然它也加上自动驾驶这个技术。
在硬件相关的这个载体里,最后会最少在阶段性上,大家都有一个生存之地。不管它是造车新势力,它是传统企业重新开始的新能源之路,还是原来做不同类型的车转型到新能源上的事情,比如说赛利斯就是这么转过来,加上华为。比如说上汽,大家一路认为不看好,但是上汽在去年开始看起来已经转过来了,就是把合资车转成了自由品牌,把这个叫燃油车转成了新能源车,这个都是占比显著提高,甚至超过一半了。
就是大家都各自开出了各自的春天。你觉得这个对于机器人来讲,最终会更像这样?当然,它也带来了残酷的现实。就是每年流行的新能源车的牌子和产品都不太一样。我觉得具身是比新能源车这个赛道大特别多的,我不好说个具体数字,但是非常大的。因为新能源车本质上也是一个就从A到B完成这件事儿就基本就行了啊,满足出行,而且面向to C端的,这里都会有很多家存在。
然后还有一些传统的车企。然后你要看车这个形态的话,它可以发展的还有商务车。商用车,还有卡车、运输车,还有你要看移动底盘的话,你还有物流,它的广义上都是车。所以从这一个形态来讲,它可以衍生服务很多东西。呃,具身比这个的广度还要广。所以,我们聚焦在新人满足出行这个to C这个领域里边,我觉得是一个相对垂直的赛道。
呃,这里边可能会有一些玩家相互的迭代。那具身是比这一个单一的使用者目标要多非常多的目标,它是一个血液,它可以渗透到各行各业。所以具身智能这个东西,反正放在车里边无人驾驶,他们也观测到第一个落地的具身智能。然后你放在一边对,所以这里边大家可以发挥的空间,我觉得是巨大的。我觉得现在远远没有说大家收敛到一个具体的目标,然后这个目标下用户也是一样,用户的使用者目标也是一样,然后大家去卷这个性价比啊,卷价格还没到,因为现在功能都还没有完全的实现。
所以我整体来讲,这个空间我觉得是非常大的。那我们换两个具体的,可能会会不会有困扰的问题来问问看哈。第一个问题是说,今天大家有个融资竞赛,就是要融到多少多少估值以上,要融到多少多少钱以上。呃,因为您是比较早进这个行业进行创业的,虽然可以讲语数更早,但因为它是十年前了,但你也是在这个事儿热起来之前进这个行业的。
然后今天在大家开展这个融资竞赛的。你拥我嚷的过程当中,这个会造成焦虑和困扰吗?会被干扰,但不太会是焦虑和困扰,因为我们在这件事情上,我们还是有自己的原则和本质。融资上。PR的这种,我们这块相对保守,我们坚信还是说你的价值和你的估值应该是成一定的比例,才是一个健康的发展趋势的。那为什么现在我们也要去做很多融资?
的本质是,我觉得未来在这个行业发展,资金资本化是一个重要的能力。啊,当然啊,它不是一个说可有可无的,它是要持续投入的这么一个赛道。企业以后规模化量产和交付的过程中是需要大量的资金的,所以资金的融资是从这个意义上来讲是必要的。但是也不是说,就是说你想不清干啥,先拿一大堆钱先把它融进来再说,这个我也不是我们的目的啊。
那我们再换一个另外的角度,因为我印象中,在比如说大概一年以前的时候,其实,在机器人的到底为什么是人形和为什么是机器人将来干什么这些问题上,大家也是众说纷纭的。那个时候您还提到,从逐际动力所要努力实现的机器人的技术方向和当时所卷的场景里边,还是说让它不要下工厂打工?我不知道要不要下工厂打工这件事儿,从今天的技术和公司变化来看,角度会发生一些变化吗?
跟一年以前分两个方面哈,有的是我们个人的选择问题,有的是我们对行业的判断。我觉得这个并不是一致的。我们先说个人选择问题,我是抛出个口号,应该是在上咱们聊之后,我是说人形不进工厂,不是所有机器人不进,我觉得一定要有人服务于工业,这个是没有问题的。而且具身一定会在工业里发达,但我觉得两条腿的人形。我们公司是不把它定位成在工厂里的效率工具,我们不把它这么认为。
我们有个slogan叫“Serve people, not process”。所以,我们的人形机器人是服务于人,而不是服务于生产流程的啊!因为它本质上不会是性价比最高、效率极致优化的一个产物,它不适合在工厂。工厂是给机器设计的,我们的人是在给人设计的环境里为人提供服务,这是我们的一个定位的差别。这个并不是个对错的选择。
啊,但是很多形态的机器人,包括机械臂,包括一些在触觉的一些新型的一些操作的方式,是适合在工厂去落地的。我觉得工厂还是有很多比较枯燥、复杂、危险、有害的,呃,这些物种是需要被具身这个行业这个技术所改进的。那我们也不排斥。对,但人形两条腿的,我们觉得没必要进工厂,也是我们这样去选择的。好,明白了。那我们在这个问题上多拆开来问一个问题:我们一直讲具身,具身就是长得跟人像嘛?
它最后的功能性毕竟分成了,变成一体性的就是胳膊夹腿儿的。和更偏腿儿的和更偏胳膊的,就是更偏操作的和更偏运动或者叫走来走去或者跑来跑去的,因为这运动会刚刚举行完,这肯定主要是偏跑来跑去的。那我不知道,就是从今天的角度来看,对机器人的关注热度和技术应用演进再往下。不同的上下肢能力,更有可能会在一段时间来分开迭代和应用,还是他们更有可能混在一起来迭代和应用?
当然,这是我们讲的是在应用上,还先不讲技术问题。首先,具身智能它本质上落款在智能啊,然后形态是能承载这些智能的一个终端的载体。那到底需要什么样的形态?刚才你提到的有人形,还有把人形切一半儿,我管叫轮椅型机器人哈,就是上次坐在轮子上的对啊。那你还有只有下半身的狗也好,我们的双轮足、双足都好,各种形态。
我们是做两类,我们第一类就是通用的人形,两条腿儿,两个胳膊,我们只有把它叫做人形,其他我们都叫专机,某种程度上专机。那为什么需要这个人形?我是现在有个公式,方叔啊,来公式,公式是我可以说这个是一个 maximize number of task。Over form factor,就是你能服务的最多种类的人类需要的任务的数目,它是为最优的解。
就你想要服务多种任务的话,一个最优的单一的形态就是它。对,就或者回到我们更容易理解的角度,就是说,它能在人的环境里做最多人原来可以做、想做或能做的事情。对,啊啊,就是单一形态能服务最多任务的,能做最多任务的就是它。不用太多,其实我算了,大概三四个类型的任务,我觉得就必须是这个样子。它都没有别的解儿哦,就比如说今天在楼下,他让我上来,就这件事情,我看着下边的地形哈,还有门这个窄的,但是现在已经形成职业病了哈。
呃,我就看呢,我就是好像必须是人形。如果您下去取个快递,你取不到了,还得放在那个货架上。你整个发现这个构型必须是这样,对,是它没有任何其他的解儿啊,所以它是个最优解。但是这个最优解的它的一个 objective function,我们叫 reward 或者 cost function,它是什么呢?是任务的种类。
OK,这是最大泛化型的单型的。好,还有其他的种类的机器人,双臂也好,单臂也好,我管这个事儿是。就 maximize over 呃这个 R I 或者是效率,在一种任务范定下去 maximize 一种效率,它有各种不同适合它的一个形态,比如四足在某种情况可能是最好的,或者是单臂是最好的,或者双臂最好都有可能。
所以这些形态我们也有一类产品线叫创,它本质上我管它叫不是单一型的,但它叫基座。它是通过一个SKU,通过组合的方式可以达到甚至任意的形态,就cover一个最大的一个单一形态,和用创来cover所有其他的这种形态,专用形态,专用形态可以这么认为。那我们先在展开技术之前,我再问一个融资热点问题,因为这个很有意思。
我们作为一个投资人来观察的话,最先开始大家投机器人的时候,最受争议和大家最先开始讲的是具身。然后是具身智能机器人,然后再往下,最近大家都讲,我是智能机器人当中要。做或者要完成,或者要突破,或者要实现智能的过程中,我要做成这个叫世界模型。好,这是最近半年以来最热的这个机器人的新故事。好,就是所有今天的。
机器人们在最少跟投资人讲的时候,都必须带上这个词。甚至很多跟机器人不是很相关行业的,在讲的时候,也要把这个词放在自己的商业计划书的一部分里边。就是我是将来的世界模型一部分,比如说我是将来世界模型当中情绪的部分,我是将来情感的部分,我是将来记忆的部分。那大概大家都在泛用这个词,我不知道在今天我们拿这个时髦词汇来好奇一下,比如说这个机器人这个行业,从具身、具身智能加上本体,然后大家分成什么操作、呃运动,然后全身控制啊,大概反正这沿路这些词儿都是曾经热过的词汇,然后今天来到了这个世界模型。
我不知道从机器人从业者的角度和这个创业公司 CEO 角度的怎么看这个词?怎么看?总体来说,我觉得世界模型是一个大家值得期待的具身。数据scaling up突破的一个新的方向吧,但目前我觉得它还处于一个相对比较初期的状态啊,很多定义都还相对比较模糊哈。我先说一下我对它的理解哈,然后再说一下我为啥觉得它热。
那首先呢,我们谈到世界模型这四个字的时候,第一个要做的事儿就是对这四个字去魅。那世界模型的本质呢,它就是一个模型。世界呢这个词就是一个修饰这个模型的修饰词,所以从这个本质意义上来讲,那我们从小到大接触过的所有的物理的、非物理的模型,它都是某种意义上的世界模型,只是这个世界的大小和它的开放程度和我们潜在能够可能观测到的物理变量不同而已哈等等。
那既然它是个模型呢,那它基本上就是根据当前这个世界或这个系统。的状态,也就叫 state,和我们潜在能够影响这个世界的行动 action,它来预测未来一段时间这个世界的状态,啊,以及状态所对应的输出叫观测吧,叫 observation。具身里边的世界模型呢,由于我感觉大家的数据的原因吧, observation 呢,目前我觉得还是以视觉为主,力的信息还相对很少哈。
一般呢,都是预测你要完成某项任务,这个机器人的自己观测到的视频信息啊,所以它天然跟视频生成模型的技术呢是相关的。但大家发现呢,只预测未来的视频啊,未来这个世界发生改变过程的视频是不够的,那也完成不了任务。所以呢,现在大家逐渐关注呢,也有个新的词哈,叫 world action model,也就是这个模型要同时预测未来完成日任务的视频和这个视频所对应的这个行动啊 action。
呃,这样呢,它就能作为原来这个 V I policy 的一个升级吧。虽然我花了很多时间,因为我们也投了一些这样的项目,就是所谓世界模型相关的。作为一个技术外行来看。因为这个世界模型的定义,大家在各自的脑海中是差别其实非常巨大的。是的,现在就是这个技术层面,我觉得倒不是什么重大突破哈。本质上,我觉得大家还是看到传统意义上 VLA 在数据 scaling 方面还是有局限性的。
那世界模型给大家看到了新的这个数据 scaling 的一个希望。技术层面呢,它就是一个传统意义 V L A 范式的拓展。当然,我个人觉得 V L A 它的定义可以更广一点啊。传统意义上的这个 V L A 它就是用这个 V L M 啊来去做这个 backbone 啊。那现在呢,World X model 就是把这个 backbone 换成视频生成模型或相关的技术。
那这样呢,我们在训练机器人操作的过程中,就可以利用带有时序信息的视频数据。这个相比于单帧的这种静态的这个视觉信息呢?这种时序信息呢,更能很好的表达我们存在这个世界的物理规律吧。所以,大家对它能够理解这个背后世界运行规律方面,还是有一定期待的。同时呢,它作为一个潜在 scaling 或泛化的一个啊来源呢,视频数据呢,肯定比真机数据更容易 scale,更容易采集。
所以大家现在会看到非常多的公司哈,这个在采人类操作视频的数据,尤其是 egocentric 的视频数据。那不光是它容易采集哈,那同时呢,我们也知道互联网上有很多历史的这种视频数据,啊,那大家也希望都能把它们用起来啊,等等原因吧,应该不算是什么重大突破,不然也不会有这么多人,呃,都会做。我们逐机大概是二四年中期,也就是大概两年前。
我们开始探索吧,用视频数据做操作模型的这个预训练。我们大概是二五年初发了个叫VGM啊,就是一个就是video generated motion。那它就是一个典型的 world X model。去年我们还有一个很有趣的、也不错的会议论文哈,Coro的一篇论文叫 GVF Tape。呃,是一个非常有趣的,数据量要求不高的 world x model。
只是当时我没用这个词哈,因为当时 NVIDIA 还没造出这个 world x model 这个词来。我自己也花了不少时间来把这个事情以我的能力稍微搞清楚一些。我只问一个跟世界模型有关的问题,因为它里边有,就像刚才讲到的非常多不同的分支。嗯嗯。那在这个分支过程当中,当然有的是从不同类型的数据来所谓达到世界模型的这个模型变化或者叫进化的过程。
这里边还有另外一类呢,他们是做更多的在模型当中加入或引入了不同的对物理世界进行预测和表达的数学公式。或者我们叫物理公式也可以,就是它用来通过人类过去对物理世界当中非常多物理量,当然我们最容易知道的,从小大家都被折磨的物理量就是所谓重力,对吧?不同的这种表征过去的人类已经知道的物理量,不管它是。呃,流体的、柔体的、摩擦的、温度的,当然可能也包括电的、质量的、磁的等等等等各种各样,有非常多。
那大家把这些中的一部分用在或者加入了这个模型里面,不管它是作为一部分还是一个分力的部分。来作为这个模型演进的方向之一,就是刚才我们讲的世界模型中的一个小分支,就这个加表达物理量的数学公式这件事儿,从您的角度怎么看?加这些物理量的数学公式有没有用?我觉得这个问题目前是无法证伪的,也是容易引起争论的。我只谈我个人的角度,哈。
我觉得首先我们要有统一的一个原则去看这件事儿,就加这些所有的东西,本质上都是在加数据。那物理公式和我们训的 neural network 一样,它都是一些数据的压缩。我们认为牛顿定律也是所有运动数据的一个压缩和表征。那你加牛顿定律进来,呃,或者加牛顿定律对应的数学公式进来,本质上是把运动数据以最简约的方式加了起来。
以这种统一的数据观来看这件事儿的话,相对比较清晰,那就是两件事儿。那我加这些物理规律的数学公式,第一点是不是带来新的数据的增量,或者是更本质点儿信息的增量?就是我们对这个世界的理解的信息量有没有增加?你加进来以后。第二件事儿就是说,它可能增加了啊,那不增加我们就不干这事儿了。那可能增加,但我是不是会很好的能够运用到这个增加?
这个本质上是一个 alignment,呃,对齐的问题,就是之前这些其他的数据的表征和我现在 train
世界模型的这个表征,它能不能很好的对齐?如果对不齐的话,那可能会起反作用哈。总体来讲,我觉得从第一性原理来看,就是加入这些物理规律的数学公式,肯定是带来新的信息的,尤其是新的模态的信息。那因为我们人类在这么多年这个抽象物理规律的过程中,用了大量的这个非视觉的电的测量、磁的测量、啊力的测量的这样的一些模态的信息。
所以加它们呢,本质上是把这些所有的这些信息的这个表征给加进来了,所以是有帮助的,是一个增量。但是呢,我觉得最关键的问题就是说,它原则上是有增量,大家也所以为什么愿意试它,但本质上就是你很难用它啊,就这些表征很难跟我们世界模型的这些数据进行对齐,这个是最难的。所以大部分你会看大家用这些物理公式,本质上还是把它做这一个仿真,去生成更多的容易跟视觉啊,我们观测到这些数据对齐的这样的数据啊,就是本质上做仿真生成数据,再用这些数据来
train 这个世界模型。
但是我想说,这种对齐还是挺难的。整个 sim to real 整个这件事儿就是在做这样的一个对齐。总体来说就是有用啊,但是想很好的用起来,它能够把这些物理规律跟世界模型进行对齐这件事儿是非常有挑战的,没有想象那么容易。今天有一个非常热门的创业方向,当然跟这个现象在背后是同源的。就是因为今天数据,尤其带有刚才这些物理量的数据,历史上几乎没有过。
那所以导致的结果是做数据不同方式和成本下的采集和加工,就是在里边含两个部分:采集是硬件,或者含硬件的部分;加工的概念是我在把它加工成大家想要的。含不同状态和物理量的这些数据,就是不管创业公司在其中的哪一个部分还是两个部分,这类公司也变得无敌的火热吧?最少叫这个叫数据采集相关的创业公司,我不知道就这件事儿作为一个需要数据。
和迭代模型的具身智能机器人公司来看,是怎么看这个重要重要生产具身模型?我认为跟制造业没啥区别。那数据本质上是个原材料工业,然后训练是一个产线,然后生产出来的就是模型。模型本质上是数据经过采集、处理、训练,最后沉淀出来这么一个表达方式。啊,我不管,那叫产线哈。你产线源头就是一些数据,那它需要经过预处理,经过各种先来料的一些处理和检测,然后最终卡训训完了以后,给你个模型。
所以从这个角度来看,这些各种模态的信息、原材料的提供的丰富程度非常重要。但我不知道,就这种数据,就回到一个我们偏。方向和技术的讨论的大的视角上来看,这些不同类型的数据最终会更使得机器人在之后的一到两年去更垂直和受限。我们叫受限的概念,就是有一些边界条件,就是在特定场景会使得机器人在更垂直的里边去更应用落地。
还是想要使得机器人在更不受限的,或者我们叫泛化的场景下,更快的进行。模型的升级和迭代,当然这两件事可能同时存在,但我的意思就是说,这些今天看起来的样子是要使得在之后的一年到一年半里边更偏一还是更偏二?我觉得两个是同时进展的,而且就取决您刚才说那数据都包括哪些啊?这个大家做什么的都有,就是数据今天怎么做?
明白明白明白。对,呃,所以我有一个不一样的观察,就我们提到的,就是说在具身模型落地的过程中,无论是 V A 还是 V A 还世界模型,大家去训这个 model 的时候,我觉得具身的落地不能跟大模型那种先通用再。专用再应用再落地,不能是先通用再落地的模式,是周我觉得是不适合的啊,至少这是我之前的判断。
现在我们也是践行,所以它由于什么呢?由于各个技能和各个任务之间的数据的相关度。数据的这个需求是非常不一样的。对听众可能会稍微在这儿不好具象想象一下,比如说我们举个具体的例子,为什么A和B的数据是非常不好相关和通用的?就语言数据,它是个通用的模态,说你写律师信还是写个文稿,它这个对于它整个通用性的模型都有帮助。
这些数据,但我要开车自动驾驶这个数据。和我包鸡蛋这俩放在一起训,现在都不知道它反而是有问题的。所以在跨技能之间的数据拍破烂,你不了解数据之间的关系的前提下,期待堆数据来产生涌现,是一个刻舟求剑的方式。在我看来啊,所以不会这样。所以我们觉得是需要通用模型的能力,这个能力是慢慢长出来的。我管的叫通用模型与场景数据的飞轮。
所以说,它是在一个有一定通用模型基础,然后你在垂直领域去尽量的去收集数据,甚至去落地,落地过程说到更多数据,就反哺这个通用模型。就通用模型能力是这么长上来的。而不是先要特别通用,然后再去落地。我们个人 so far 看的是,我们叫通用与场景数据的飞轮。我们现在的基本也是践行这个战略。好,那我们拿这个问题再多问一个,从普通人角度能提的简单或者重要逻辑问题,就是如果。
最终从一个通用模型,先假定按照这个飞轮来迭代,最后它变成了一个更通用的机器人通用模型。在实现这个的时候,那听起来,因为它要能够具有的能力,远超过。听起来最少远超过运用或者叫预测下一个字词,就是远超过语言模型所需要的能力,因为语言模型能力就是从概率上预测下一个字词。好,那如果说机器人有了这个通用模型,我的问题是,我们普通人是不是可以理解为这个模型会比今天的语言模型还要大无穷多倍,还要大非常多倍,而不是今天这个几千亿所谓参数的概率模型?
好问题,如果是那么通用的一个会大的,那就会非常大。对,那那我不认同会有个这么通用的东西,我觉得是一个一个技能。对,因为它如果这么通用,还要就变成了这么大这个结果。将来在机器人身上用的时候,它虽然可能也会时过境迁,但是最大的麻烦是,按照今天大家对大模型的使用来看,它身上堆的那个芯片的数量和功耗,就是为了干一件事消耗的能源。
和为了干一件事儿所需要的放在他身体里的计算资源,运行这么大的一个模型,还要实时性,因为你不能包个鸡蛋,包第一个片儿的时候就想两秒钟,第二片儿又想两秒钟,等包完我就应该已经就不太饿了。那所以它还要求快,还要求实时。那就这样的话,它这个可能就很难妥协了。但是也许那个时候芯片也能进步,也许那个时候什么可控核聚变也能有,随身可以带一个无穷小的可控核聚变。
当然,这都是我们科幻小说了。但是听起来会有这样的问题和障碍。所以呢,如果不是这样的话,就像刚才回到刚才那个问题,它会是别的什么解决方案和可能的发展方向?我始终觉得是个技能。技能技能被定义,开车是个技能,我可以不会开车,但我是有脑子的。剥鸡蛋也可以是个技能,对这个技能是要单独的训练数据。我也不会的时候,我也要学的。
它不需要一个通用的什么都干的一个模型,它需要各种对你场景落地有帮助的技能。那我还真不知道自动驾驶现在的模型大概是多大规模哈?我没有准确的数字。我觉得是一个一个一个技能。我觉得这个在当下落地的是各种类型的技能。它的预训练和后训练和落地的过程,我觉得现在是看到一些希望的。现在大家看不到的是这个技能创造的商业价值。
和创造这个技能所需要的数据成本还有点打不平,或者大家没找到这个打平的某一个垂直领域的案例啊,就大家都在找,我是始终是这么看的。对,那你要这么看,反正自动驾驶大概也是这样的。那它就是一个具身的技能啊,它不是一个大脑,它就是一个人脑的一部分一个技能。你会开车不代表会爆鸡蛋。对,是的,当然,但是具身智能发展到今天,最近的行业里也有很多口水战。
口水战就来自于第一,要不要 L3?因为有一派说不要 L3,直接 L2 到
L4。但是这里面有很多问题,包括监管问题、责任和权利确认问题等等等等。而且它是对成功率要求超级高的一个技能。除此之外,这个话题隐含的另外一件事跟刚才我们讨论的是一样的,就是今天他们也碰见了一些小的瓶颈吧,所以也回到了今天,连自动驾驶也要开始重新把刚才我们讨论的世界模型的这个热点词汇变成了自动驾驶技术进步中一个非常重要的词汇,就是自动驾驶嘛。
今天也开始讲。世界模型了,当然原因是因为也碰见了一些在技术进步上的不同挑战,当然也有可能是跟数据有关的。从我们看到的现象。就自动驾驶也终于作为技能之一也走到了这一步,也走到了需要应用世界模型热词的这一步。哎,你看,就是自动驾驶里所需要他们提到的世界模型,至少他们所需要的世界模型和操作包机蛋所需要的世界模型,这两个世界模型它不一定是至少大家对他满意的程度,满意达到他要求的世界模型应该是不一样的啊。
当然,你可以说大而全的全有我的。外行看待今天“世界模型”的这个词热起来,隐含的一个今天大家想要解决、还不能完全解决的问题,是我们怎么能够在看到的情况下,当然也包括其他感官。能够对世界有一个意义上的理解,虽然不一定是语义,我们并不是像机器看一样。当然,这个是人类从人类视角出发的,比如拿自动驾驶。它完全不需要识别这是一瓶水放在桌上,它只需要识别这一大堆东西是个固定物体不会移动就可以了。
它也不需要管它是什么,也不要管它是刚性还是多么柔性和或者弹性,它都不管。它只需要管这一大堆东西,什么桌上的这些瓶儿啊、水啊、摆设、凳子、什么桌子这些桌子角,没关系都不重要。重要的问题是它们是一个不移动的放在那儿有一个这样的占地面积和体积的物体就可以了。它并不需要去理解这个到底是什么。那当然,今天可能也许自动驾驶也开始重拾这个热词“世界模型”,是因为它也到了想要或者需要去理解。
那当然,我们对机器人的预期更高一些,所以把质检模型放在机器人这儿就变成了:一方面是因为数据不够了,所以我们怎么才能够解决这个问题,或者怎么才能够更好的利用更少的数据来解决问题?另外一个问题是我猜测,从普通人的角度,现在我们也想让机器人像我们一样。去在语义层面能够理解这个世界,就是这个东西到底是什么?
因为我们理解这个东西是什么,就比如说,就像您刚才讲的包鸡蛋,我先理解它是个熟鸡蛋还是个生鸡蛋,但是有时候我们也会混淆,我才再往下去知道这个包的技能怎么才能够学会和实现。但我如果知道它是个。铁做的鸡蛋,哪怕它长得像鸡蛋,我大概应该也不会去尝试拼命包它。就理解是什么,或者叫从语义层面理解这个物理世界。我本来想回避这个话题,我说一下我的理解吧,就是对整个你所关注的世界的一个建模。
建模的本质是能表示我对这世界未来怎么发生,尤其是跟我现在对它产生的 action。相关的能演绎的发生,能很好的建模,在数学里边,在我看来,它就是个马尔可夫啊,就完事儿了。然后呢,你可能是 partially observable,你只能 observe 这个 pixel,你可能有些新的模态,你可以 observe 这个我的触觉,我大概力是多少。
但是我通过我的 observation,我希望能够不断的建模整个这个还原这个世界的物理规律,我能预测我这么去做,这个世界会这么演绎。所以这非常取决你的 observe 什么和你的世界里,包括这一个,我现在这眼前这一个杯子还俩杯子,这些都是它们之间的作用,这些都是整个这个 process 需要 capture 的。
那它 capture 多少呢?它不一定要 capture 分子 level。其实我们世界就你这个物,如果把所有的分子弄出来,我才知道真正的温度分布哈。所以所有的模型本质都是对这些微观东西的一个抽象,它本质就是看能不能去很好的 predict 未来的 future。这两个东西,它本质上就是我通过 observation 能够还原它之间的物理规律,我就认为是个合格的叫世界模型。
我是有比较严格的定义的。那现在它这是五花八门的,大家定义比较多,所以我们不讲白色的事儿。好,它如果到了微观层面,每个粒子都能被知道和预测的话,它不就变成拉普拉斯妖的事情?对,就是这个世界,它本质上,呃,我们所有的物理规律都是错的嘛。都是有局限的,都是有局限。就是你能观测到,只要是它跟你的 align
with your observation 就可以了,它能跟你的观测是 align 的,你就觉得眼见为实嘛。
其实也不一定。我想它呃物理规律主要是个降维表达了,对,就是一个降维表达,对,大规模描述语言的降维表达了,对,它就是个模型,就取真的取决它就是模型,你这个世界有多大?你说我要个世界模型把咱这桌子都描述很清楚,它需要的东西还蛮多。要不然就不会有牛顿和这个爱因斯坦不同观层面的体系了。但我们回过头来讲,就是这块有一个小问题,所以在刚才。
解释里边,当然这个我猜很多人也持这个观点。从人的角度,我们尽量希望机器它像我们一样。所以从你你刚才描述的角度,是你觉得机器在今天模型进化和迭代的时候。它不需要过语义这一层,它的语义跟人的语义不一定是一样。它的 embedding 跟我语言是我们自己抽象出来的,我们也听不懂猫咋叫的,对吧?就它们有自己的语义,就是咱们要允许 AI 有自己的语义的表达。
所以从某种程度上,对,它是一个可能是它理解的,它某种的 embedding 来表示这个所有的客观规律,但可能跟咱那个语义不一定是完全一样的啊。就是这样。那我把它还是变成结论,就是它不一定需要过我们意义上的 semantic 这一层。呃,不需要,我觉得它就是 whatever,它能 predict future 就可以了。
那就回到了刚才那个问题,就今天更时髦和更混乱的一个词是机器人大脑,因为最少有一部分,尤其是高估值的企业,像你们这样等等,大家都得必须说。自己要做的事情是机器人大脑,但是这里边定义太多样化了,所以我不知道从你的角度怎么看这个词。首先,我现在有比较明确的对他的一些理解,当然这理解在不断迭代。呃,第一个跟大部分人不一样的是,我不觉得模型是大脑啊,模型不是大脑。
第二个,大脑也不是模型,大脑是个操作系统,这是我的定义。就为什么我们会有 COSA Agentic OS,就大脑是一个操作系统,它不光是要管理记忆、存储、思考,它是个 agent。我认为它是个 generative 的 OS 哈,然后它要调用各种模型,包括 VLM、LLM,还有一些 VLA 的一些各种模型,才能去完成一个任务啊。
它要调用很多工具,所以。我们不觉得通过堆数据,比如说我们操作这种数据是可以训练一个技能,它出不来一个大脑。大脑本质上是一个在这个模型能力之上的一个操作系统,我们是这么看的。我觉得普通听众听起来大家会有点觉得混淆了,或者有点迷惑了。那大脑是一个大模型层上的,呃,不不不,呃,我们这么说,龙虾可以认为是一个大脑。
哦啊!但是龙虾是基于大约模型,它的能力也取决于你用了哪个模型,对吧?以前我们讲这个是非常混淆,大家是甚至引来非议啊。现在龙虾出来,我们好说一下。不,前日富盛也说了吗?大模型不是大脑,龙虾是大脑。我们也是这么认为的。呃,Gentle OS 是一个脑,脑是一个操作系统,各种模型哈是脑思考去完成任务的各种工具和技能。
当然,很多人对技能这个词的理解是相对比较狭义的哈,就是像机器人呃拿放拧瓶盖啊等等这些原子动作技能。呃,我这里所提的技能,它其实可以非常广。举个例子,就是其实整个自动驾驶啊,虽然我们现在还没实现,那如果实现以后,那个模型所对应的就是一个技能。那的这个模型呢?它跟人的脑又不是完全等价的。呃,我一个人可以很聪明,非常优秀,但我就是没掌握这个自动驾驶这个模型这个技能,呃,这也是没问题的。
所以,脑的本质还是在模型之上的一个操作系统。这个对大部分人来讲可能有点反直觉。大部分人认为模型是大脑,这个龙虾是操作能力或者叫操作能力的延伸。从你刚才解释正好反过来,因为今天我觉得这里边有一个我们对所谓大脑这件事儿,除了大家在各自描述商业模式的时候这些不同的使用场景之外。可能今天最大的一个麻烦是,人对大脑的理解还比较初级。
我们自己的大脑,就是人从人的角度,因为这不是人认为自己最厉害、最发达和最与众不同的地方,在动物里边。那呃,今天我们对这个脑是怎么 work?当然,大家今天都能讲出一些各自的理解,但是我们真正意义上对脑的比较好的认知识别和也包括记忆,也包括技能的完善,也包括模型的修改,或者叫对认知层面的不停加深。就是我们讲叫什么万里路,别都不敢说。
我们对机器人的大脑有个非常清晰的架构的理解,现在比较清晰。那也是今天。最近一年左右逐渐收敛和成熟吧。我们大概三层架构,然后跟别人也不太一样。老师,底层是小脑基础模型,小脑啊,小脑运动就是更偏运动对。那对它,它就是动,嗯,它只管动。你可以认为它是个僵尸,它没脑啊,你让它咋动,它就咋动。那它得能完成你要的动这件事儿。
对传统机器人也是比较。简单的机械臂来讲,这个比较简,传统方法就做。但人形的话,你需要一些 AI 的能力啊,这需要基础模型。在上一层,我们叫 humanoid VLA,这是 System 一,它是一个高阶技能,它必须的运动要跟环境和任务,就任务 dependent,跟环境相感知相关的。我能把眼睛看到的和我能指挥我的运动,把这事儿完成。
这是个我们叫中间的 VLA 技能层。然后再上一层,我们 System 二就是 GNTOS。就刚才我说的,它是以大模型为引擎的这么一个整个的 agentic 系统,你可以把它想成为什么?我们叫 cosa 哈,我们自自己的这个脑,这我们认为它是脑啊。这样的OS脑为什么?你可以想象一个场景,就是一个人躺在病床上瘫痪了,非常smart啊。
他有脑,那那就是霍金了。呃,不,对不对?躺在病床啊,他坐都坐不了,然后他什么也动不了,他就能想。这有人有没有脑?他有脑,但他会不会动?他一动也不会动,他就有脑的,对吧?但是那我要给赋予一个技能的话,我就要打通那个经络了。哎,他就可以去拿一个水杯了。这是赋予他一个 V R A 的能力, O K 或者是技能。
那模型是是给了我这个脑,我的脑就在那儿,我就想在一个病人躺在病床上,那个脑它应该是什么?我觉得就是个OS,对。或者说,我们再举一个例子,就是说,我现在要去到楼下,呃,去买杯咖啡上来。那这一件事情的话,我要思考,我要决策,呃,我要看你现在有没有时间,我要决做这个决策,我要出去,那我就会起身,我调用我开门的技能,我会调用这个定位导航,我出门了以后,我还要用一下GPS,我不能再训个模型把GPS也训进去,所以这些整个的组合思考,我觉得就是上层我们的智能体OS需要做的工作,它的smartness,它的成熟度取决于大模型的进展。
就我们认为,脑它最核心的还是语言模型那个东西,因为语言是思考的最本质的东西。对我们人类的思考是通过语言来完成的嘛?可能这么说,就稍微反问一下,就是说,假定是一个智人,但是他没有进人类社会学语言,在这种情况下。或者他天生聋哑,他不够 smart,对,但他有技能,他有肌肉记忆,他可以完成一些技能。我们先定义他是个智人,他是不是个能超过一般哺乳动物做的直觉反应以上事情的人?
我们现在 AI 进化的方式和技术格局里边,大语言模型是起到了这个。推理思考这个东西的,你说没有语言,是不是有一种其他的隐binding来去做这些事儿?肯定也有,只不过我们没有这些数据啊,因为这些数据通过人类通过语言互联网把这个思考的逻辑,通过这种语言的表达把它沉淀成数据了,所以训练这么个东西。当然,当然,所以它既是语言又不是语言,因为它是人思考的过程的一个表征啊。
OK,所以你说智人也好,其他他肯定也有他自己的那些符号。啊,它也有一个我们认为的 system 二,呃,可能那个二不够强,是这个逻辑。但现在当下的一个技术范式下,我们觉得它是以我们的大语言模型为基础的思考的框架。当下哈。那这里边有另外一个问题,就是因为今天我们的大语言模型它本质上也是个概率模型,这句话是对的吧?
当然,你是可以说人在思考的时候,他可能也是个概率模型,当然没问题。但是概率模型本质上又回到刚才我们那问题,它其实对,比如说我们拿大语言模型对词的预测来看。或者说,对写一段话,或者写一篇作文,或者对理解来看,因为它是个概率预测过程,所以我们并不能讲它是个语义理解过程。这句话应该是正确的。它是个概率预测的模型,这句话道理上必然包括了它其实是真的理解了这些内容吗?
什么是理解呢?好好问题,理解就回到我们的那个语义层面的问题了,就是他是真的理解语义的意思吗?就他的理解跟咱们所谓的理解不一定是一个理解。对,但他又是从我们的理解里投射或者叫完成学习。对,所以你要把理解作为一个抽象定义的话,他只要能 predict 跟你的下一个所做的事情是类似的或者是一致的啊,那就叫理解。
我们可以把它做一个抽象的定义的话,那他就已经理解了。说理解是很难定义清楚,就咱俩的对这件事儿的理解,取决于我们对这事情所衍生的东西的判断和那个决策的数据。我觉得这里边最大的差别可能是人想要的理解,当然这个认知是可以无穷复用的。我们定义的理解其实是用。特别少的感官或者叫复合数据就达到了对事情的嗯抽象,明白。
然后,但是今天的语言模型,因为它是个概率模型,所以它要用超级无敌多的数据来完成这个 prediction。呃,没问题。我们做一个假设哈,做一些这种形而上的假设。我们有个黑箱子,呃,在两个脑放在这儿,怎么叫这两个东西对一件事情的理解是一致的?那就是关于这件事情所有的 prompt,我们俩的数据,我们对他的判断什么是可能是一致的就行了。
我们都不一定非得要求他对这事理解沉淀出那个符号上是一致的。呃,我就只要接受这个,我觉得他就理解了。如果不接受这个,那他就没理解,因为他一定跟我们的方式存储和他的 embedding 跟我们的 embedding 它肯定不一样。这个没问题。就像大家跟不同的人说同一句话,大家各自在。对这件事情的对这句话的理解上也是不完全一样,没问题。
就是说,所以我们今天讲的是大家对一个东西能做同一个上下文应答或者描述,这个我们和机器,我们和大语言模型。但我刚才的问题只是讲说,人想要讲的理解或者叫智能,更多的是用极其少的数据就完成了对一个不知道事物的理解过程。从概率模型上来看,它需要超级无敌多,尽可能各种虽然不能叫穷尽,但是尽可能多的变化和数据的各种不同维度的分布,才能更好的从概率上预测下一个。
就是它需要的数据比我们的需要去理解一个事情的数据要多,非常非常多。我不知道他需要的数据比我们多不多,因为我们其实进化了好多万七千万,差不多啊,没那么多,对,没没关系啊,就包包括猿人,包括猴这些东西。你的脑子进化这个物理世界的这些数据是沉淀了这么久的,然后我们一代代的传下去嘛?我们传给我们的小孩,就通过一个
pretrained model,他生下来他在再去学习,对他本质生出生时候脑是个 pretrained 的。
一个模型传给他了吗?啊,所以你要都这么沉淀下来,这个神经网络它历史上的数据多少,我不太知道。跟大模型比是怎么个比法?因为我们每天咱俩现在这么聊,这数据量也很大。对,但我猜从所需要的语言数据来看,加上你所说的沉淀,它需要的语言数据应该我不确定。嗯,对,因为这是穷尽了。就互联网上大几十年能穷尽的公开数据,对对对,这应该是一个个体能接受到的。
就他的信息比我们还多,对,他是整个人类的 union。虽然他仍然会有一些挑战,但没关系,反正概率模型的特点就是你得把尽可能多的概率事件都给过他,他才能抽象那个高维的关系,或者叫能抽象出那个模型来。从刚才听起来,那逐际现在的产品大概就分成了软硬两层。我的理解是,硬的那层呢,就是那个可以多用并专用的,就是这个既可以当胳膊又可以当腿儿的同一套部件,然后同时有个。
搭载了整体功能的人形,就是或者我们叫既有胳膊又有腿儿,还有个人样的,这是两个硬件。那然后软的部分分成两个,一个是刚才讲到的更像大脑这个 agentic OS,就是这个调度使用模型和技能的这一层,呃,是个叫 COSA 的这个
system。然后另外一个就更多的是是所谓下面的那一层,不管是你们做的、别人做的和大家都在做的,比如说用新的和原来的数据来训练的一些技能,以及在这个技能基础上的一个,不管是不是 V L A 或者是 V L A 为主的一个技能的强化学习过程,或者叫技能的迅速获得加迅速收敛过程。
大概这我们提供的产品软的大概就是技能和 O S 那两个,然后中间那个。用 VLA 来训练的那个过程,反正你们也有,这个市场上也有,开源的也有,大家也都有,大家还做不同的研究,然后硬的就是那个。专用的和人形的这两个,当然他们可以用不同组合把软硬合在一块儿。大概听起来公司的产品的样子,或者叫技术产品类别,大概是这样的一个组合吗?
嗯,对,我们就分人形和非人形啊,就这两个产品线啊。但我觉得产品本质是软硬一体的哈,它取决你服务的用户来讲,它是软硬一体的人形的话,我们觉得它不是光卖个硬件,它还是有软件的一些服务的,它是软一体的东西去服务你的用户,取决你用户选择是谁,它的软硬的系统的搭配会不太一样。创呢,本质上是服务创新的,服务POC落地的,就像做个Maker Market。
对,因为它既是两条腿儿,它能做探索所有的巡检、物流啊、mobility的这些,尤其是跨台阶儿的,这个是不存在的一个平台。所以这个我们觉得可以enable新的一些应用在上面长出来。那还有呢,它我们现在创兔的话是有双臂,我们自己要做成最好用的双臂。我们觉得现在世界市面上还没有特别好用的双臂,坦白讲。所以它的负载能力啊,各方面的易用性也比较好。
它特别适合在不光是做什么创新科研,那我觉得所有企业想去场景落地,你不需要重新再传一个机器。啊,你就可以用它去,我们还开源我们训练模型的方式哈,然后你就去场景里搜数据,去去做一些垂直vertical领域的落地,我们还帮他们啊。那落成了,你愿意用我们就用,不用你们自己造也行。其实落地最关键的是早期的POC啊、PMF啊,这个原理验证的时间是最长时间的。
如果这个时间花了很长时间,你可能错失落地的最核心的当然关键时期,当然,所以是最好是用已有的硬件平台和已有的技术栈去做一些这种 POC 这个验证,然后验证通过了,你可以自己再去生产。我们我们不管,所以我们服务的本质是创新和 POC,你可以这么认为。嗯,好,那你觉得软的那部分,就从 O S 开始的那三层也好,或者那不同的。
一些应用也好,或者不同的一些技术栈也好,作为公司能提供的产品,就是除了公司自己用之外,别人也能用的。你觉得是哪几个?就就分用户哈,我们一般不用那个软硬啊去定义产品,我们还是用用户的种类来去定义产品。刚才说的创呢,是服务创新、服具身场景落地的基座,你基本所有的落地都可以用创去尝。尝试。那这里边我们提供的硬件平台的创,还有一些开源的接口。
那同时呢,我们最近开源了一个东西,没跟峰叔说过哈,叫 Flux V A Engine。我们没有把什么 VLA 模型开源,因为我觉得模型当前是用不起来的,所以你开源对融资有帮助,但开源模型本质上嘛,模型参数可能也有限。但我们授之以鱼,不如授之以渔啊!我们把训练 VLA 基座模型和 Fun2
的这个整个的架构开源了,所以我不说咱们叫模型的生产线嘛,我们把产线开源,因为我觉得最终落地的数据和模型是属于落地 vertical 场景那个人。
那他们是需要有这个呃数据,他们需要的就是我们的硬件平台和的开源架构,他们自己要收这个数据的。所以说这块儿我们是提供这样的服务,这是创这一系列。那从人形的角度来讲,我们是奔着人形终局,我们是 serve people not process,我们不进工厂了,所以我们是奔着商业、家庭服务这个角度去演绎的。
那它的落地呢,就相对的有争议哈。对,当然啊。那我们的始终坚持的就是说,它是一个刚才我不说了吗?它是一个最优解嘛。那就是说,它是一个统一的本体,它不改变硬件构型,能够不断的叠加APP的方式来去增加它的功能属性。当它功能足够多的时候,大家就不会怀疑它的价值了。只不过现在大家看到只能比划,只能跳翻跟头,觉得嗯价值有限。
但这个这是它基本的一个能力,这是当前的一个APP。你可以认为,呃,科研是一个APP,表演是一个APP,那它下一个可以主持了,它就是个APP,它能导览了又是个APP。那它接下来能过去拿水、拿快递了,它就是新的APP。当这个APP多到一定程度的时候,我觉得基本上就不一定啥都能干哈,它就可以产生商业的闭环了。
所以我们是沿着这个方式去去演进的。哎,这个作为投资人,我稍微好奇一下,这个行业当然仍然在非常热的阶段,因为它还是有不同的,就就刚才我们讲的,其实主要是数据和模型碰到了一些原来的天花板,所以大家这个时候又有一些新的开创性的想法,不管它叫世界模型,还叫其他跟数据有关的事儿了。但是我的理解是一个行业不管怎么样。
也不管它是多热,也不管它热多久,最后它总得有一个比较长的时间段,它要落实到应用本身,就是回到产生商业价值这件事儿上。当然,今天已经有一些商业价值,就像表演啊,这些都是了。但我我其实想问的是,就是从可见的范围之内,你觉得它的商业和商用价值,当然刨去表演这些,就会在什么地方开始呈现和开始兑现?这就是我们觉得这块儿它是一个新的。
形式的产品,人形哈,然后它商业价值的展开也是有点非共识的,要不然我觉得也没初创企业啥事儿了。坦白讲,我就觉得它是逐渐有APP的,嗯,当前的表演我觉得是一个应用,对是啊,是一个应用。现在我们客户是拿它可以赚钱的,它是被用起来了,而不是只有 sell in,它是有 sell out。对,是当然这个事儿是重要的。
那下一个我管叫动口不动手的。你看啊,表演替代它也替代人了,它替代了演员。当然,当然,演员是很值钱的。当然,当然啊,那下下来的的,你不要总想让他去干活替那些工人。其实他替代动口不动手,替代聪明人的价值是更大的,就是商业服务、导览、导购,所有的这些领域,他是可以的。所以它是一个装着语言能力的可移动的顾问,对,有一定情绪价值、有新的一些体验价值的,在前期是挺重要的啊的一个极其聪明的人。
对,但它不互动,对不对?它不改变物理世界,对,不改变物理世界,对,你去看什么能被剃掉,就是说站在那儿一天基本不用干啥活,但是就是动口天天不动手的这种形态的,是找那那那基本就是我们这工作。反正 AI 的变革本质上是剃掉了脑力劳动者。对,当然当然啊,就是 mediocre 的脑力劳动。对的,当然当然当然。
像您这种是剃不掉的,也不一定。对,我们也属于动口不动手,所以迟早要被弱交互干掉哈。那强交互就是最后要强交互就是看我就说那个技能的数据的演进方式,它是不是有一类的技能是可以数据这个预训练和后训练整个的数据成本和它创造商业价值能打平,就找这个方向就行了。我们也是抱着开放态度去找这种,你预训练也得会,后训练也得会,但你要找摸索这个商业方向,呃,单一技能下它能打平就可以。
那你现在开车都还没有完全打平,没有对吧?对,但是这个领域非常多。我顺便插一句,因为我们之前讨论过这个问题,就是其实有很多相对新的事情,其实它的落地方式确实不完全跟大家预测的一样。就比如我刚才拿表演举例子,我原来最大的经验和教训,就是投资行业的人更熟。在二零一五到二零一七年的时候,投资行业非常积极或叫激进的投了一堆。
叫无人机企业,因为那时候大疆刚开始第一次很火,所以大家都觉得说无人机会很火,因为那时候它就大概就估值无穷高,非常高了。后来大家觉得无人机很火之后投了一批,后来发现无人机没法用,结果后来无人机第一个能批量应用的就是无人机做表演。当然,中国那时候正好后来也开始进那个烟花爆竹什么之类的。在大疆那个拍摄之前吗?
在大疆的拍摄之后哦,对,那拍摄还是最更早的一个单一技能。对,在拍摄那个时候,大家认为他是派图专业B,就是那时候还没有到普通C。十年前,十一年前,所以当时我们还有这样一个无人机企业,他跑来讲的时候,他就说让他们去做无人机表演,那时候都是小机队了。然后我还觉得这不是个事儿,然后结果后来这公司就靠这个还活下来了,然后还活大了一点。
今天大家反正习以为常了,这无人机最后表演就是个事儿了。我觉得这个时代只是算怎么替人,R O I这个是,我觉得增加一个体验的维度是非常有价值的一件事儿。哦,对,我的意思就是这个,这个体验很关键。而但你要只表演,我觉得确实上限是有限的。但如果像我说的,它是一个众多A P P的前一步,我觉得它是make sense的。
但它是这样的,就是说你如果今天拿无人机来看,它是个很有意思的事情。我们只拿无人机来打比方了。就是他在开始不好找到大规模商用,那时候什么电力巡检什么之类的,因为续航各种各样的问题,没有被广泛接受。第一个确实真的被广泛接受的,就除了刚才我们讲专业用途的拍摄之外,就是表演。然后表演变得很大了之后,带了几个能力。
当然,第一个由这个飞控的问题,第二个它有个协同问题,因为你后来就从几十个变成几千级甚至上万个。然后第三个问题是通过这个批量的商业模式把成本又打下来,各种各样成本都打下来。然后各种各样成本打下来之后,加上这个新能源车又把传感器的成本再打下来一遍。然后随着模型的演进,把控制系统再迭代了一步,所以再往下的时候,它就可以去到小臂和偏消费者化的东西了。
那你用同样逻辑再往下演绎无人机的话,它最后比如说今天随着越来越多跟机器人有关的这些所谓叫世界模型的事情,或者含对物理世界的这些预测的事情发展,将来以及包括自动驾驶的技术发展和成本再进一步下降。那个最后无人机确实能 To C 了,就 To C 的概念就是今天大家操控无人机,像我们公司出去玩就有一两个同事会带大家,如果是出国的话,因为国内现在不让飞的多嘛。
那还是需要有一点点专业操作能力,那但是将来肯定就不太需要了。就你直接在想象一下,或者你拿个三D模型,你直接在里边自己拿手画个圈,拿电脑画个圈,它就按照那飞一遍给你取下来。或者它就直接智能的跟着你,并且完全避障,这些肯定都可以实现,那就完全 To C
了。但是跟刚才那个讲的那个过程,本来在十二年前大家就是这么想象了,只不过这个事儿可能比大家当年想象的要多花个也许十几年的时间,等到软件硬件都迭代到这儿了。
对,机器人大概多多少少也会差不多按照这个逻辑来进化。对。反正人形我们是不进工厂,我们是最终往家庭走。我觉得也是最大的,最 exciting,也是它最适合。因为家里的任务,你要知道,你一周洗不了几次衣服的。它本质是个多样性任务,当然是个多样性任务,所以这样是比较好。然后商场啊、酒店啊、各种公司啊这些商业上的领域也是它最前站。
然后根据这个商业的目标,我们构建 ZTOS。我们构建,我们去认为 human-like VLA 应该怎么做,然后我们去构建我们底层的,我们叫全身运控的基础模型 foundation model。啊,这要强调一下啊!你说基础运控的 foundation model
这件事,对,现在大家看到人形机器人可以跳个舞、翻跟头,这种是一个 purpose,就是一个技能,它是一个事先录好的动作的一个 replay。
对,当然啊,但也要训练哈,这是
replay。但你要去要让人形机器人真正能干活,就是说脑能指挥到身体这件事情,是需要基础模型的啊,当然。它不能,就是我看到这个杯子,我想这么抓,那我要回去训练一个礼拜才会这么抓,那是不行的。所以我要实时让它生成这个动作,这个是需要一个不是预先编好动作,而是要什么动作就能完成什么动这个基础foundation
model这件事情,我们还是投入了很多时间、精力和数据去做啊,这个我觉得还是重要对人形机器人来讲。
但大家现在看到的可能大部分都是一个policy一个policy的去play啊,所以这个foundation model更多的是跟运动控制有关的,就是小脑的。基础的能力,就是它是说执行你要我做的所有动作,你要什么动作,我就能给你执行出来什么动作。这个对于普通人更容易理解的,就相当于大家在小朋友。成长过程当中,这个应该是在两到五岁之间学的那一些东西。
那个专门的词就是做这个,他们叫大小动作、抓取、爬行,这种叫协调和统一,啊叫感统训练,叫感知统一训练,这是个教育的部分,或者你叫认为感觉,或者叫感知统一训练,拆分下来叫什么大小动作协调啊,等等等等这些。那个时候就大概相当于训练人,按你的说法就是训练小朋友在那个时候的基础的foundation model,对它跟语言的foundation model也是差不多的。
你需要早期的话,基本对话,比如说。预先安排好对话,你问我你好,我回答我在,这种是一个预先安排的,这不是一个仿这些大模型出来以后,然后呢,你要能对话了以后,它本质上你给它一个任何的一个,它都能产生你想要的一个回复啊,这就可以。运动的仿真也是一样,你给我一个参考的轨迹,可以认为它是个 prompt,那我能够完成这个。
动作这个还是对上层VIO构建和最终完成那些任务,这个底层的能力我觉得是比较重要的。同意,嗯,要不然人也不会有这个过程和步骤。那我们回过头来把技术的问题先跳开,我们讲点别的事儿了。第一个是从投资人视角来看比较挑战的问题了。因为我还是挑战谁?挑战公司的第一件事是说,现在估值高的这些机器人公司都在准备去以不同形式筹划上进入资本市场,不管是A股还是港股,当然你们也在其中之列了。
呃,但是从投资人视角,我说他比较挑战的事情是,通常如果是一个很大的热潮的话,它都是以这个热潮里的标志性公司上市或将上市或者刚一上市作为泡沫的。这一轮热度的终点,一轮的终点,就不管是你拿 Facebook 或者阿里巴巴,在零七年也行。就是从这个意义上来看,这些智能机器人公司,假定在今年底、明年,这些包括你们在内,开始陆续登陆这些资本市场,是这一轮热潮的顶点的话,会怎么办?
啊,这个行业可能不太一样,跟其他行业,它可能也不完全跟新能源汽车类比,但可能刚才跟你举那例子来讲,它更像新能源汽车。上市的那个,比如贝小李上市的时候,它并不是一个这个行业成熟的时候,它反而最终跌下来,然后等技术稍微好一点,大家能接受这个时候,那个资本市场的存在,让再上市的公司去是有一个资金聚集的效应,啊,它能踩到这个浪。
或者我们这么问:好,今天大家都在除了角逐融资规模和估值之外,大家也在角逐上市的过程。假定我们认为某一个时间点,这个行业今天的这个热度不像今天这样降了百分之五十甚至更多,那作为一个该行业的公司会怎么办?旭升智能机器人这个行业,假定热度突然一下掉下去了。嗯,那个各个行业都一样的答案。我觉得具身有个好处,我管那叫比大模型的上限更高,比大模型的下限也更高。
它是这么一个行业,它的上限想象力也大。你说做一个真正能通用的人形机器人,那这个上限我觉得不比一个模型公司小。第二点就是说。它也不像模型公司那样,你一旦一代模型没跟上,你就彻底废了。它总能找到垂直领域里去用,所以我觉得这里面做好本分、遵循真正的商业,带有一些技术突破的公司是都能跑出来的。就当前这个阶段,我个人是相对乐观的。
那下限高,上限高。因为现在我觉得大家投入还没有到那么高,明白?好,没关系。等到这个行业冷下去的时候,我们再来做一次,可以再来回顾一下。嗯,那就像上一次做的时候,其实只是刚开始变热一小点儿、一部分的时候。那接下来的问题就是,作为一个既是在国外科研比较长时间,在国内从事。科研一段时间,我们叫全称叫老师吧,就是作为一个从国外回来做科研,在国内也做科研的老师,进入创业这个行业。
在整个角色的转换和包括对一个公司从小变大过程当中所经历的所有这些过程有什么感受和经验和教训?啊,特别多,全是坑。我有一个总结,之前跟别人说过,我觉得教授创业需要经过五个蜕变:从学术到技术,从技术到。工程从工程到产品,从产品到商业化,它一定要经历这几个变化。最早期的教授,他本质上是以学术为荣的。学术的问题是什么?
他本质是什么?他本质是以一个 idea、一个想法为骄傲啊!就我有个新的 idea,这就很高兴,发个 paper,我就以发 paper 为荣啊!这是学术阶段。然后再一个技术阶段,就把 idea 能呈现的一个技术的展示啊,以这个为荣,这是第二个阶段。从技术到工程,就是说把一个技术稳定可靠的实现,这是以这个稳定可靠为荣。
这个最后就可能跟 demo 就没关系了,就是稳定性了啊,可靠性。然后从工程到产品,就是说,呃,从可靠的实现一个技术到一个能够满足用户价值的产品。出现,但也有可能是产品卖的越多,你赔的越多。就是产品还不一定是整个商业格局的关键,还最关键还是要商业化。所以你一定要经历这几个阶段的变化,至少我个人来讲是经历几次蜕变吧。
要否定自己,否定自己,否定自己,再否定自己。否定的概念是。从转换的过程是我原来这么想,要完全改,还是我原来想法里要加非常重要的一个新的权重,是加新的维度,升维啊?就原来那个维度太小了。就在创业这件事上,学术是不重要的,技术也没有那么重要哦。我觉得最终的商业是重要的。那就是为了你的商业目标,你需要什么样的技术?
你得有这个能力哈。当下这个阶段,就像我刚才说,VIA找场景这块,你既要懂商业设计,也要懂技术的,或技术未来的预判要相对准,你才能在未来的一个焦点上找到个交集,因为它不是成熟落地的商业化,所以它要对技术的轨迹曲线有个预测,然后在某些想象上,在这个阶段有个交集,这个是需要一些技术实力的。对,那这不就是我们在投资上常说的?
一种是拿着锤子找钉子,一种是大概为一个,当然你这个是将要为一个合适的钉子来。把锤子变成最适合砸它的样子。对,就当下最大的锤子是 AI。嗯啊,它这个 AI 的范式下会激活很多可能性。对,所以你要本质上找到一些可能性,用这个技术的趋势和技术的这个 power 去解决这个可能的商业价值。回到刚才,我说经过几个蜕变,蜕变的过程中,我最大的坑,我觉得是对组织的理解吧?
那就从一个。科研范式转向一个市场范式的变化,我再补充一下,每个变化不是自我的否定,而是对你选人用人和。整个组织它都要跟着迭代。你只关注技术的时候,你选的人和用的人和组织的方式,和你关心工程和关心量产都不一样。所以它这个变化还不是我自己变了就行,你还得有能力驾驭整个组织进行这个变化。你早期选那些人和后期它都不太一样。
它难道不应该是个一直永远持续在变化的事吗?我觉得当你的维度足够全面了以后,它就。不太会特别大的变化了。为什么有的成功创业像雷总如果创业,那他成功概率很大,因为他的维度已经比较,他已经训练过了,对他已经丰富了。我觉得,比较极致的学术或技术创业的人是缺很多维度的。这些维度也不是说看书或跟您聊,你也给我很多建议,他也不是立刻就有的。
你得有 grounding,你得有 data,你得自己有手感啊,他得有个真机数据。对对,只靠仿真数据的预训练,基本上没办法完全。成型这个模型,嗯,对,就跟人看书是一样的,但不能说完全没帮助,还是有一定帮助。那还是要有真机数据了。那回过头来讲呢,其实就提到了第二个问题,就是比如说在公司管理上,其实公司管理主要是个人的管理和制度的形成,以及到底用什么样的方式来。
激励和管理一个团队了,在公司里和在大学里肯定是不一样。大学管一个研究团队,或者管一些博士生、博士后、硕士生等等,这里面是管一些这个具体在不同方向、职能上有不同技能和能力的人。我不知道这两个最后。从刚才那个维度来看,就也是五个坑吗?也是五个变化吗?组织我觉得是最核心的能力,那组织能力就反映了你对这个事儿的认知和对这个事儿相关的人的认知。
如果你是只是搞科研,那你只要了解什么人适合干科研,怎么激发他做科研,然后给他好的问题就结束了这事儿。但你如果做个好的商业化,你需要对所有的商业环节,我觉得要相对清晰的理解,这是前提。你要对这事儿有理解,那然后同时你要对人性有了解,对人有理解,然后组织的本质在我看来就是人和事儿的一个。Mapping,它就像我们选网络的架构一样,它有各种范式的架构来去做这个 mapping。
所以你对事儿理解不对的话,对人理解不对的话,这个 mapping 也大概率就超边的 mapping 也不见得完全对。这个中间的变化就是你对事儿的认知就会影响你对整个组织的看法,我觉得。你选人的方式都会变啊,这些还是挺有意思的,我自己觉得。所以在这个过程当中,对有意思是我们完成了之后比较容易回头说有意思,过程中都是一般有点折腾和痛苦的。
就像比如说,在我们可见的这个成长的差不多四年里边,大概也经历了一些不同的组织结构和人员的变动,肯定是既有经验又有教训了。我们只能是坐在边上看了。这些亲身经历者在这些变化有背后,或者在这些变化的过程当中有什么不断自己在变化成长,或者自己得到的这些经验和教训?其实我们早期是还是换了挺多高管的,在很早就有换过三四个啊。
然后后来你会发现,成长就是说,不要把自己看得太高啊!我觉得人员的选择是个双向选择。就是说,大家觉得不合适,要及时的说出来啊,把这事情做好,觉得就是会比较好。所以这事儿现在我是比较坦然的。最近他们还说什么张力离职,这是去年的事了。我们就去年中的时候就谈好了,然后他可能重心放在北京,逐渐的淡化管理,但我们相互还是比较认可,也就非常 peaceful,然后交接或者是过渡都很好。
他也当了一段的顾问,所以现在这事儿都早就发生了,也对我没有什么。大的影响,因为在早期我有更早的一些人是有这些问题,当时是非常痛苦,非常痛苦。对,因为第一次经历,第二次经历就比较痛苦,不好意思说出来,对,不好意思,尤其是知识分子,不好意思谈这个事儿,尤其是老师面子过不去啊。对,后来就比较坦然,反而说人才没有说好坏什么这些,我觉得都是合适,而且适合当时的公司的战略和匹配啊,这些比较关键。
因为合适,既有一个互相的需求和能力问题,其实还有个时间跨度问题,因为合适。通常不一定是一辈子,也有可能是这一年,或者说这两年。尤其是 AI 变化这么多,你聊到这儿,我可以多聊啊,我聊很久可以。我觉得非常多的思考,我觉得还挺有意思的。我们希望组织变得有活力,多招一些年轻人,多招AI原生的一些呃人。然后我们对什么是定义年轻,我打引号了哈,啊是有自己的一套理解的,不一定非得是年龄。
大家拼命的说得是零零后、九零后做AI的,我们觉得是有百分之八九十是有道理,但是还是存在一个像我们这种年龄虽然大。但是有少年心,叫少年气是吧?都可以,呃,没有灯味儿。再一个对未来有热情,保持开放,我觉得几个点可以定义这个年轻。听起来就更多的是心态和思维这两件事。我觉得一个不会错的就是,确实是人年轻的时候,确实很多东西是自然而然的,就他的开放度,因为他没有那么多经验固守他,然后他这个想象力很大。
我后来发现最关键一个点哈,开放心态的人其实蛮多的,有激情的人蛮多。连经验和资历对一个相对年纪大一点的人最大的限制,其实在于成就感。哦,有可能就是他以前管过几百亿的生意,让他做个一百万,他找不到那个成就感。但年轻人呢,他没干过这事,他就很有动力。这件事情。反而是年轻人特别独有的一件事,是很难找到的,因为尤其经历过很多事儿的,他就觉得我也不care这玩意儿了,所以你很难让他有那种正向的激励的成就感。
所以我们可以把年龄放开,我们所谓的年轻引号,它是包括开放,包括精力上,且它的成就感的来源是可以因小事儿而高兴的。哦,对,这倒是啊,我觉得这个是我们绝对年轻最大的一个体会。我岔开这个话题问一个别的事儿,因为我们也投了非常多的老师相关的创业嘛。我觉得,如果是从老师这个角度出来的公司创始人,在最开始的一个阶段,当然这个或长或短了,有可能是半年、一年,有可能是两三年,甚至更长。
就老师出来的创业者,他又容易出现的一个现象是,他跟解一个科研问题一样,我们观察到的一个普遍共性是,他容易。相对理想化的希望,所有的事情,我讲的事情是指人和人的功能都能像解题一样,尽量一步到位。就是我因为缺了一个 A 这个技能和职位的人,最好就能找一个完全 A 放进去,从此以后这件事儿就 care free 了,就这件事儿就从此高枕无忧了。
我也经历过,我现在偶尔在某些不懂的方面,还是会希望这种叫做 wispful thinking,对你希望找到一个人就你就不用管了。那其实你是要兜底的,对。在这个里边,你有一个还好一点,我觉得有另外一个小挑战,是有老师创业的时候,他更希望一上来找一个CEO。这个是更不容易的一件事情。我觉得这个跟这个老师自己的定位是相关的。
他如果就想做一个技术输出者、早期的贡献者,找一个职业经理人,这可能也我不知道是不是work哈,但是没准也行。但如果是大股东,就过早的找个职业经理人,在你的business没有完成从零到一的整个商业都在摸索的时候,这是比较有挑战的。或者说,其实从某种意义上,大家即便是要找个CEO,也应该先找一个COO。
就拿你那个正循环来讲,最少有个可以观察、调整、配合和上升的。或者向下降的空间,它要顶到头了,就变成这件事儿没有变化余地了。因为只要但凡你把一个 CEO 降职了,那这 CEO 可能也待不下去。那 CEO 再往上也没有别的职位了,就是他就只剩合适这一个选项。但万一不管什么象限上有一点不合适,这就没有任何调整空间。
就且不说什么信任如何建立等等这些问题,就是在一个高速发展、未完成从零到一探索的一个领域赛道,第一大股东他就是CEO,你管他自己不叫。他也是,他在下边叫叫其他人CEO,他本质上是个自欺欺人的一件事儿。在我看来,那如果是个成熟业务,我就开一个奶茶店,那无所谓啊啊,找个店长,那成熟店长。那我其实刚才想解释的是,其实解题时间长,优秀的这些科研工作者,他更希望在每一个。
重要问题和这个,或者我们叫岗位上,都是个一步到位,从此高枕无忧的选择。可是我不知道你是不是能同意,或者说是不是经历了这个事儿。事实上,大部分情况下,能相对既称职又起作用的。这个人选是一个过程当中慢慢展现,或者叫变化,或者叫遴选出来的,就是他是慢慢变成那样的,不是第一天一步到位就成为那样的。当然也有也可以。
我觉得从现象来讲是的,它是慢慢发生的,大部分情况下。但这个的本质,我认为是这个创始人或者一号位。对这个事情的认知的问题,就如果他非常清楚做成这件事儿需要 A B C D
E,然后每一件事儿上的人需要具备哪些能力?然后他都能非常清楚的搞出来,那我觉得他选对人能把这事干成的概率也是有的。因为一般我们讲创业的事儿,不管是从哪一个角度,哪怕是成熟创业者出来再创业,他基本上应该除去少数人之外,大部分人不会重做一遍自己已经完全做成过的事儿,就是他总是要试一些不同的,他想做他没有做过,他觉得他能做成的事儿。
那这里边总有最少,我们讲叫创业相关的事儿是,不管你再思维缜密和周全和成熟,它总有最少百分之三四十的事情是你的想象或者叫预测出来的事情,而不是你做过的事情。所以那反百分之三四十总是有探索的,就总是需要去尝试和付出这个代价。OK,我听上去好受一点,可以。对,不,他事实上就是这样。即便他是个一路商业过来,就我们讲,我们也有CEO做的不错的CEO,是从小开始,比如说不是像我们一样在好的大学里受教育,甚至受国外教育这样,他可能也许就是更多的从社会上。
能够成长起来的,那我们应该讲他的社会阅历、社会经历肯定远丰富于我们这样的人,那并且肯定因为小时候混社会,肯定难免出现的问题是。所有可能被人骗的方式都被人骗过一遍以上了,因为你小嘛,然后经历的人多,事情杂,人也杂。理论上应该讲,他在刚才我们讲那概率模型,就是他在能尝试的试错的范围里,应该都试过一遍错了。
但是即便是这样,他。做熟悉的事情,总有不熟悉的过程,因为你最起码,即便再做一遍一模一样的,比如说你做成了机器人企业,对,你的环境也不一样,竞争也不一样,也仍然会有这样的问题。我觉得几乎是一个不可避免的问题,只不过我觉得从老师的角度来讲,因为它是个更偏解题思路的,就是更偏。一个你提出一个问题,我就要找一个正确必然答案,并且不能被同行质疑的这个思路的训练出来,所以他老师更容易想一步到位,或者更容易希望。
是,就按你说的叫 wishful thinking,就是他更容易希望找一个一步到位、就此能高枕无忧的答案出来。而我总结是,人总会在自己不懂的领域里头被魅惑,是最容易魅惑的。魅惑就是被一些其他的因素特别希望这个事儿,哎,别人能解决,其实就是因为你不懂,你懂了就不会被魅惑的。就是老师之所以容易被魅惑,所谓招一个不到位,被一些东西所。
蛊惑去做一些选择的本质是,他对整个商业里边缺的维度比较多,怎么看?确实,是有可能。对,那也有一些成熟企业家,他特别容易在技术和学术上被魅惑,特别被魅惑,他就是有技术崇拜的感觉。其实懂得人家办事人不 work,所以说就是人会在自己最不擅长的领域里头最容易被骗。或者叫人老是在最既不擅长又不想暴露不擅长的地方,找一个完美答案,但最后证明说,最少即使不擅长,也需要先了解,做了判断才会有及格答案。
先不讲完美答案,对,所以这个挺有意思的。好,那最后作为结尾部分,我不知道作为一个经历了五年创业CEO和十五年以上的研究学者,和在五年里经历了行业特别。不热和融资寒冬,这是不是跟你行业有关?这是跟中国一级市场有关的一个阶段。又经历了行业最热的最少是两年的时间。回过头去看这五年,有什么特别印象深刻,或者说今天最想描述的感受和再回顾起来的这些经历?
就是自己需要学的东西还是蛮多的。这五年我觉得还是有挺大变化的。每升一维或者每增加一个维度,我不觉得完全升上去了。增加一个维度都是一个。急速的痛苦的过程,痛苦完了会一个享受,但还没等你享受完了,新的挑战又来了。呃,你发现你自己还是差,还是有些没考虑清楚或者认知欠缺地方,是一个最快速度,我觉得是自我的一个修行吧。
最快速度了解自己的缺陷,然后在商业上迅速的补充学习的这么迭代的一个过程。整体来讲,你要每分每秒都感觉挺有挑战、有压力,但同时整个回过头看是有成就感的这么一个状态,大概是这样。确实是。最后作为结论,就像大家讲的,就是创业就是个修行的过程,因为它需要学很多不同的。接触很多不同的打怪技能,原来在我们岁月静好的,不管是研究还是其他专业生涯里,都不需要那么多打怪技能。
然后我最大的一个体会是,这个有时候跟投资人说不太好哈。当中国本性来讲,我觉得最大的一个得到的一个感受的升级,就是当时去年还是前年我忘了,我就是意识到一个创业公司是可以死的。哦,对的,OK,我也不知道跟你说没说过哈。我觉得这是我最大的一个升维。我觉得输不起就赢不了,就是必须得能接受一件事情它是可以失败的。
然后就认识到这一点是很。对我来讲是突然间的一个东西,我很多人是听不明白的,或者说不理解,但我是自我感受是最大的,就是说。这个可能跟你刚才讲的,把自我可以变小一点,或者说我们讲叫 ego 大了之后才会不能接受失败, ego 小一点之后是可以接受这件事儿能失败的。就是说白了,叫把自己看得过于重要了之后是不能接受自己失败,或者别人认眼中自己失败。
把 ego 放小一点就可以接受,就是一定要赢一个那个劲儿上来讲,我觉得很多情况下是适得其反,然后你也很难从容的去做一些很多决定,你也看不到很多世界。接受一件事情是可以失败的,接受一个公司甚至可以死这件事儿,我觉得是我个人来讲最大的一个成长,没有之一。而且我觉得这个是我对创业路程你要给我打一个
mark 的话,我觉得这个 mark 是我不知道是第几年,第三年、第四年,我在挣扎中我发现这么一件事儿,我就觉得我就很开心。
或者我们说把底线 push 一下,就能把上线 push 一下。我就是输不起,就没法赢,没法赢。好,行,我觉得就是这样。那感谢大家的这个耐心,听完这些又技术又。有意思的讨论,也欢迎大家对不管是张巍老师逐际动力还是机器人行业有什么自己的想法或见解,或者感兴趣跟逐际有不同层面的接触、了解、合作的,也都欢迎大家来留言。
谢谢张巍老师。好,谢谢峰叔。