我觉得从去年开始,基本上所有我接触到的研究人员,他们的公司都会围绕这个超声世界模型,不是吗?世界模型也是,但是世界模型很有可能是一个大厂主导的研究方向。英伟达定义的这个世界动作模型,底层是脱离了以文本为核心和动作克隆。为核心的VOA的这种控制的范式,语数机网已经发布了二十个月,为什么到今天也没有另外一家公司真正的去challenge它现在的位置?
很多人认为双足其实没有那么大的价值,不是个优先级特别高的东西。我很长时间也是这样的想法。我认为宇树的成功跟大疆的成功类似的地方。都是,这是一个创始人真正非常热爱和笃定的方向。他不是因为这有巨大的商业机会和前景去做的事情。他在经营方面这种谨慎是深入他的基因的。就是他如果不是这样的人,不是这样创始人,他也活不到这一天。
活不到具身智能热潮的到来,具身智能的到来,对。欢迎收听慢点聊,我是曼琪。这期节目是我们第一期具身智能季报,邀请了我很喜欢的一位投资人,AlphaFist Partners的创始合伙人陈哲Peter。过去七年,Peter在五元专注投资机器人和硬件科技,投资过海柔、松林、本墨、地瓜等公司。在去年创立AlphaFist之后,他想放开手去寻找更多Alpha Founders。
我对这类创始人的理解是,哪怕不被认同,他们也极其笃定自己的判断,是可以定义规则或打破规则的人。在跨学科、高复杂度、需要开拓精神的具身智能领域,就有不少这样的创始人,也需要更多这样的创始人。这期节目我们从本季度的进展着手,Peter 分享了三月中旬去 GTC 与全球从业者的交流,同时也带到了过去两年具身智能的发展。
在讨论人形机器人的部分,我们盘点了中美几家头部公司,如宇树、银河、特斯拉 Optimus、Figure 的近期进展,以及那些在智能能力或数据上给行业带来启发的公司,如派 Sunday 和 Generalist。接着,我们重点讨论了当前具身智能的两个前沿研究方向:灵巧手和世界模型。在灵巧手部分,我们重点聊了 Sharper 的进展和 Optimus 神驱方案的争议。
在世界模型上,英伟达近期连续发布 Dream Zero、 Dream Dojo 和 Ego Scale 数据框架,提出 WAM 世界动作模型,这被不少人视为比 VLA 天花板更高的方向。AlphaFace 也有自己的博客,就叫 The AlphaFace。这期节目也会在 the Alpha Fest 串台播出。
之后的季报里,我和 Peter 还会邀请更多从业者一起分享。下面我们正式进入本期节目吧。Hi Peter,你可以和我们的听友简单打个招呼,自我介绍一下。嗯,大家好,我是 Alpha Fest 的陈哲 Peter。呃,我自己是工程师背景出身,嗯,早年在谷歌和黑莓做过产品跟这个技术。然后回国之后呢,一直在五源资本做早期的科技投资,主要就是关注呃机器人、自动驾驶和AI的方向。
呃,之前也投过蛮多的机器人公司。呃,在二四年底的时候呢,成立了一支新的美元基金,叫Office Partner,是专门关注早期的AI跟机器人领域的机会。这次串台之后,我我也想之后每一个季度都能邀请陈哲来和我们一起分享一下关于具身领域的一些季度观察。之后的节目里面,我们可能也会邀请一些其他的嘉宾,比如说一些公司的创始人或者是一些研究员、一些从业者。
然后我非常想邀请陈哲来聊这个节目,就我们俩第一次见面的时候,基本上我想了解的就是跟硬件科技相关的、跟机器人相关的公司,我觉得你都非常熟悉,你对这些创始人、对这些公司的历史也都非常了解,而且你自己因为以前做工程师嘛,所以呃技术和产品的一些洞察呃也非常犀利,所以就想请你多多分享一下啊。啊,谢谢曼奇,我是对这个领域一直非常关注,所以也是把自己的兴趣做成一个职业。
这个过程中间,我觉得可以大胆的讲一些观点和判断,因为很多东西肯定最后也不一定都是对的,有的可能会被证实,有的可能会被证伪。哦,因为这一次是我们第一次录这个。季报,然后所以除了讲Q1的进展之外,有需要的地方我们也可以带到过去两年的一些情况。然后Peter这边和美国和中国的从业者都有很多交流,所以我们的讨论范围会覆盖全球的进展。
正好呃,你也是刚从美国参加GTC回国,也刚刚更新了一圈美国的最新情况。那结合你了解的一些最新的信息和观察,如果要给2026年一季度的具身领域列出一个Top五的进展或者说事件,你会是选哪几个?首先,整个机器人和具身领域在过去几个月时间的变化可以说是突飞猛进、飞速发展。如果让我自己来排前五的这个研究,可能这是我很强的一个主观选择,并不代表纯学术上的。
研究突破或者是成就,而是站在一个呃长期关注机器人技术的投资人,从市场跟商业的角度综合的一个分析。我觉得第一个应该是宇树春晚的这个表演啊,二十多台宇树的这个机网机器人。在春晚的这个嗯功夫表演,我觉得这个是代表了今天在这个本体跟运控上面中国的这个最高水平。第二件事情,我觉得要说的是,shapar的灵巧手在CES这个demo有一个长城的自主组装风车的这样一个一个展示,让大家看到了嗯目前灵巧手全球范围内的这个soft的水平。
我可以介绍一下这个背景啊,就是shapar的创始人其实就是何赛的三个创始人,嗯,就是李一帆、呃孙凯还有向少星,对。就他们三个一起弄了一个新的公司,然后这个是做具身的一个公司。对,第三个我觉得是世界模型在Q1的进展。那这里面的代表作品就是英伟达发布的这个DreamZeo和DreamDojo的的两个工作。
世界模型用在机器人领域的。尝试,我就最最早工作是源自于字节在二四年底发布的G2,是第一次将这个互联网级别的视频内容运用到一个语言模型的这个预训练这个过程中,然后嗯直接生成了动作和操作的效果,实际上是当时来看是在VUA之外的呃一个很创新的一个尝试。到了今年应该算是嗯有更多的公司呃包括英伟达在这个世界模型上面嗯。
在视频生成模型的路径上面做了更多的迭代跟优化,产生出了更好的效果。嗯,就你说的这个从 G R two 到 Dream Zero 的这个进展,它就是从视频里面学,然后去生成动作、生成机器人的轨迹。对,核心来理解就是用视频生成的方式,而不是用文本生成的方式。我们理解 VOA 它的 backbone
还是一个语言模型,我们是在一个多模态的语言模型的基础上增加了这个动作的这个输出,所以它是从 VOM 演进到了 VOA。
嗯,但是世界模型的底层是一个视频生成模型,实际上它也对应了我们理解世界的另外一个方式,就是用视频的方式。所以这个会是我我认为,呃,Q1另外一个比较重要的工作。第四个工作呢,呃,是我自己的一个一个偏好。我认为是今年,呃,春节过后,呃,银河通用发布的机器人打网球的这样一个demo,我觉得是第一次让大家看到了人形机器人可以在一个我们认为比较高速和需要及时反馈的系统上,能够取得这样好的一个表现。
对,可能今天离商业化还比较远,但是它让大家看到了我们是有可能在今天的硬件和算力基础上实现这样实时的一个任务,所以打开了我们对人形机器人落地的很多想象力。然后最后一点呢,也是今年 CES 波士顿动力呃宣布的这个全新的量产的这个电动的 Atlas。波士顿动力作为人形机器人研究的鼻祖,其实对于人形机器人的困难场景和落地价值是有非常长期深入的研究的。
而这次电动 Atlas 的出现,反映了他们对于人形机器人应该怎么进入工业场景。怎么进入落地中一些非常创新的思考,我觉得也给行业开了一个新的思路。同时呢,我认为他们作为代表,可能美国或者整个西方阵营在人形机器人里面最快量产和最快落地的一个代表,也能够反映出就是他们未来在研究和落地方面的一些思路跟思考。
哎,在它量产这个电动版之前,它是液压的,是吗?但我记得它老早之前宣布过,它要变成电动。波士顿动力在液压这个方案上面是走了非常长的时间,呃,我们最早看到的 Atlas 的一些很惊艳的动作都是用液压版做的,但是大概在两年前,他们已经发布跟量产了啊电动版的 Atlas。哦,所以这个是一个新的版本,这个是全新版本。
嗯,这个等会我们可以展开说,就这个版本的特点还是非常鲜明的,它用了非常模块化的电机方案,它的主要的 actuator
应该只有两种,全身是可以三百六十度快速的这个旋转。而且可以非常快速地切换呃左右腿的这种结构,所以我觉得这些都是它非常嗯非常有创新的地方。嗯,OK,因为你刚刚讲的这几个进展刚好是涵盖现在我们会去观察具身的几个关键的要素或者说模块,这个包括本体硬件、灵巧手这种关键的零部件,然后还有大脑、小脑,以及最后它是一个软硬件整体系统的整合。
我们可以一个一个展开来聊。你刚刚说这几个事儿里面,包括宇树的春晚表演,然后银河通用和清华一起做的这个打网球的demo,还有波士顿阿特拉斯,都是和人形机器人相关的。我们可以先从宇树开始吧,我觉得这也是大家可能最熟悉以及说最关注的一个公司,而且它最近有新闻嘛,就是它。上市招股书已经披露了,可以看到一些财务的情况。
嗯,其实宇树去年也上了春晚,而且这两次从大众层面都是很火的。我自己有一个比较有意思的观察,就是去年他上了春晚之后,我跟一个一些从业者聊,我觉得很多做机器的人对当时那个表演是不以为然的,就是觉得也没有很厉害。包括他那个转手绢什么的,其实也不是真的手在转,他是有一个机械装置是连着这个手绢,然后抛出去就肯定会回收回来。
然后这一次表演之后。因为我最近也跟一些创始人聊嘛,我觉得大家就业内的认可度会高了很多。就你可以讲讲,就是它真正的这个门道是什么?它的进展在哪儿啊?嗯,首先机器人的运控在二五年经历了非常快的发展。宇树这次春晚的用到的所有的这些呃技术跟控制的这种技巧,其实背后的论文基本上都是在二五年,可能年终甚至下半年才发布的。
工作,那正好宇树把所有的工作在春晚这样一个舞台上面得到了集中的展现,所以给了大家一个非常惊艳的一个效果。核心就是有了更好的呃动捕和模仿学习的这种能力,呃,我们可以很快的把一个真人的动作翻译到一个人形机器人上,并且有了更好的呃强化学习训练的工具,让它在虚拟的环境里面可以把这些呃粗糙的。啊,动捕获得的数据转换成更加稳定的 policy,执行在机身上,所以它的动作会更像人。
对,都是人通过呃动捕或者是这种遥操作的方式先录制下来,然后再在仿真器里面不断的这种呃强化学习的迭代,让它变得更加稳定、更加的鲁棒,然后最终能够很好的迁移到宇树期望的这个本体上。对,因为它传统武术动作,它有一些招式嘛,包括那种垫步什么的,我觉得还挺细致的。对,其其实本质上就反映了宇树希望作为一款产品。
嗯,它的积淀能力、绝对的性能和一致性上很强的这个优势,其实我看春今年春晚,我就最关键的是一致性。嗯,台上应该是有二十几个呃人形机器人,二十几个人形机器人同时做一个复杂的动作,包括这种弹射啊、大回环、连续的翻滚,最终实现非常高的一致性。这不仅是精心的打磨、调参一辆机器,而是需要确保在。需要确保在二十多辆这种量产机的机器上面都能够实现一致性的反应,而他们每台机器在环境中受到的干扰都是不一样的,所以这个对于硬件的这种质量的控制,呃,包括这个运控算法的稳定性,我觉得都有很高的要求。
嗯,我觉得这件事情可能是宇树 so far 相比所有公司来说最大的一个优势。其实好多年前波士顿动力展示的一些视频里面,他们的机器人也可以做一些看起来非常像真人做的动作。那现在的宇树展示的这种成果和以前像波士顿动力当时做的什么跑酷啊、什么空翻啊有什么区别?那个年代波士顿动力的嗯跑酷的效果基本上都是用传统的控制算法,像 M C P 这些方法做出来的。
所以他们有一群非常有经验的老专家来调这种经典的这种运控算法,但是现在这些,嗯,这些底层的这种控制的policy都是用强化学习、用仿真、用端到端的方法训练出来的,所以从原理上面就非常不一样。我们对于环境的扰动性的适应度是比当年的波轮动力是要强非常多的。嗯,同时另外一点。波尊动力当时拍的这些跑酷的视频,其实也是精心剪辑,会有大量失败的。
嗯,而且你刚刚说到这个,我就突然想到,确实他没有展示过,比如说几十个波尊动力机器人一起在完成一个动作的这种视频。实际上,当年的技术在液压时代的波尊动力,哪怕是单台机器要完成一个长续的跑酷动作,我认为它的成功成功率也不是很高。嗯,机器是经常摔的。嗯,所以。宇树这次的表现,二十几台机器在台上实时的和高度一致动作,我觉得它的难度或者说对可靠性的要求是高出许多量级的。
嗯,这是一点。第二点呢,最近这一年的,呃,大量的跑酷和舞蹈动作已经开始增加了这个呃视觉的这种反馈,或者说定位的能力。嗯,包括这次上台的这些呃激光,嗯,其实是每台头顶上都顶着一个激光雷达,嗯,它应该是有初步的这个呃建图定位的这个能力。你前面说的是它有进展的部分,另一方面,现在有哪些对人形机器人的表现的夸大的想象,就是有这种大众表演带来的,可能大家认为它已经能做到什么程度,实际上还达不到。
我我觉得也是挺挺明显的,因为因为今天我们所有的这些舞蹈或者说这种呃表演的动作,本质上还是一个事先编排好的固定的一个舞蹈动作,那这些机器人。如果受到了特别大的这种呃干扰或者说影响,它是很难有自主决策的能力。同时,因为这些表演都是呃呃全身或者下肢的这种运动,我们没有涉任何涉及到这个上肢或者说操作方面的能力。
那今天巨神大量的研究工作其实是围绕着操作,或者说围绕着呃对于复杂任务的这种。接触或者说理解来来进行的,那这点宇树目前还没有做太多这方面的工作。我觉得正好可以把宇树的情况展开聊聊,因为他们最近披露了招股书,可以看到一些财务的信息,包括它不同产品的收入构成。你自己看他们的招股书的话,你觉得有哪些值得注意的点?
呃,我觉得他们的人形的业务在快速的增长,可能从二三年他们发布第一款人形机器人H one,二四年发布G one,可能那一年二四年还是G one销售的早期。那去年基本上人形机器人都是以G one为主,然后人形机器人的占比也在快速的增加,也显示出这个公司未来会会以人形机器人为核心,然后四足机器人可能长期来看可能就是一个更小的一个份额。
对它人形确实长得很快,因为二三年的时候人形占它自己的收入的比例只有不到百分之二,然后到二四年的话是到百分之二十七了,到二五年的前三季度就已经超过百分之五十,到百分之五十一了。我一直觉得很多机器人公司都是都是供给驱动的,就整个市场无论是专家还是还是爱好者,对机器人的期待和想象都是很多的。很多时候真的受限于供给,你没有这个产品出海的时候,这个产产品不够稳定,不能量产的时候,你是没有收入的。
只要你有了这样的好的供给、好的产品,那你的你的销量呃自然会来。那无论是在科研,还是在这种表演,还是在工业的市场,语数其实反映了这样一个特点。嗯,我觉得在早期是这样,至少他现在科研的这个场景的需求就是很旺盛的。今天的确,人形机器人就是在早期,就不管大家对吧,怎么在吹,怎么在在畅想,但今天本身就在一个非常早期的一个阶段。
然后另外就是,我觉得就我自己看它招股书,我觉得让我印象比较深的是它毛利特别高,它人形的毛利有超过百分之六十,百分之六十三左右吧,就是二五年最新的数据啊。这个在软硬一体的产品里面,应该算是非常高的毛利。什么?我觉得主要还是因为今天人形本身就不是一个真正的商业场景,就像我们说的人形绝大部分场景还是卖给科研市场。
那在科研市场,百分之六十的毛利可能是很低的,因为科研市场的规模和量是比较小的,而且很多客户的订单也是比较比较分散的。那传统很多科研教具市场拥有七八十的毛利,我觉得是非常正常的一个事情。可能对于宇树来说,今天的定价可能一部分是市场缺乏竞争的原因,一部分也是因为。科研市场对于价格的敏感度没有这么高,本身这也是一个今天可能也就是十亿人民币左右的市场。
你说到这个话,我想到像当年激光雷达早期的时候,那确实毛利非常高,就是在它还主要是给L四的公司作为一种研发设备的时候,因为你卖便宜了,嗯,就像沙法灵巧手一样,它卖五万美元一支,你卖便宜了,你的销量也不会因为。价格便宜会有两三倍的增长。它今天并不是一个充分弹性的定价市场,嗯,它的客户的数量是明确的,需求也是明确的,所以在这样的呃背景下面,它的定价其实是由它的相对竞争力决定的。
那可能更大的问题是。宇树期望已经发布了二十个月,为什么到今天也没有另外一家公司真正去 challenge 它现在的位置?那你觉得是为什么了?对,期望就是它的那个当时号称九点九万起售的那个小的人形机器人,大概一米二、一米三左右的。呃,我觉得几个原因吧。我觉得首先,期望是一个定义非常成功的产品。嗯,其实基望从定义来讲就是一个面向科教市场的产品。
宇树的第一款人形机器人是H1。呃,如果你看它的构型,你可以把它想象成把一个大的四足狗站起来的效果。对,王兴兴自己也是这么说的。我们应该是二三年的时候去踩过它,然后当时问它人形是怎么研发的嘛,就H1怎么研发的?他说一共只用了三个万人,有三个工程师,然后加他自己半个。他们说就是让一个狗站起来。他觉得没有很难哦,因为当时他并不相信人形机器人,或者说当时他并不想做人形机器人。
其实很长时间,如果你去看,可能二一一年或者二二年的时候。他其实公开表达过,他并不想做人形机器人,但也是因为随着市场,随着科研市场的成熟,市场有了对人形机器人的需求。那么,在当时那个背景下面,他把一个成熟的四足机器人站起来。其实是在当时是一个非常快速,也是一个简单的解决方案。然后到 G One 的变化是什么?
G One 是宇树第一台真正为科研市场正向设计的机器人。最典型的一个特点就是它的身高从 H One 的一米八左右降到了一米三左右。嗯,就大家不要小看这个高度上的可能缩小。更关键的是,就随着它高度的缩小,它的质量也大幅下降。缩小的质量对于电机的功率密度、对整个运动性的表现,包括电池的表现,都有非常大的帮助。
而为什么可以缩小,是因为如果它的目的是面向科教市场,从做人形研究的角度,一个一米三左右的小人形机身可以做的研究,跟一个一米八的全尺寸的人形可以做研究,基本上没有什么区别。本身这个产品是为了这个场景去专项设计的,这也是为什么在这个场景里面。语数的切入跟定位,呃,如此的好,呃,让更多的公司其实很难去
follow 它在这个场景里面的一个定义,就是因为他一上来就把这个场景满足的太好了,别的公司可能会觉得我跑去跟他竞争没有差异化了,是吗?
回到一个更宏观的问题,我觉得投资人自始至终都不喜欢语数做科教这个市场。朱啸虎就公开表达过这个想法啊,他觉得这不是一个持续的市场。我觉得看大家怎么理解王兴兴和。宇树这家公司,我是一九年见到王欣欣的。我在他们杭州的办公室见的王欣欣的时候,他当时正在调他当时非常早的一个机器狗,应该是莱卡狗还是 Alien Dog,非常早期。
那那个时候,整个公司可能一年能够卖十几二十只机器狗,嗯,一年可能有一千万人民币的收入,而且是盈利的。公司可能不到十个人或者十来个人,宇树为什么是一家盈利的公司?是因为他不得不盈利。如果他不盈利的话,我在一九年已经见不到他了。因为他从来就不是受投资人喜欢的公司。是的,这也是很多硬件公司经历过的发展历程。
呃,你必须卖一个大家愿意花钱去买的东西。那王兴兴当时很喜欢做四足机器人,不断迭代他的产品,然后卖给当时想要买他的人。在那个时候就是研究院跟高校啊,但这个市场。自始至终不是很大的市场,就是全球就这么多大学研究院,每个学校可能买几台机器人。你的总的存量就这么大,所以,如果你告诉投资人你你的主要市场只有十亿左右的规模,且你不知道人形机器人或者足式机器人什么时候可以快速的走向工业跟或者商业的应用,那投资人是很难下手去投这个项目的。
这就是为什么哪怕宇树定义了一个非常好的面向科研市场的期望。如果我是另外一家人形机器人的投资人,我听到我的公司要进入科教市场跟宇树竞争,我也觉得它是一个很糟糕的。战略方向,或者很糟糕的市场选择,所以这也部分解释了为什么基万推出二十个月还是没有。竞争对手当然是有些公司也在做小人形,但我认为从产品的一致性、稳定性来讲,还是有巨大差别的。
就有一件事情我们肯定要要理解,就是对于硬件公司来说,它的硬件的设计,嗯,供应链的打磨,核心零部件的稳定性是是需要长期的验证跟测试的。就是今天你很容易做出一个跟期望一样,甚至超越期望的。呃,一两台样机,但是你要实现像季望这种上千甚至上万台的呃可靠的生产,你是需要经历宇树之前所经历的这样一个过程的。其实宇树在生产季望之前,它的呃四足机器人。
已经是销售了几万台了,每台机身上面有至少十二个电机,那余数是真正完成过百万台电电机的设计、生产和量产的过程的。那这个在硬件和供应链方面的门槛,对所有新进入人形机身的公司来说,都是需要跨越的一个坎儿。而且涉及到硬件的话,它这个坎儿可能就是你需要付出的时间成本是很难被压缩的,是吧?是的,这是这就是为什么你会看到很多大模型公司可能。
他们的领先优势只有三到六个月,但是硬件的公司优势可能是十二甚至二十四个月。我认为宇树的成功跟大疆的成功类似的地方,都是这是一个创始人真正非常热爱和笃定的方向,它不是因为这有巨大的商业机会和前景去做的事情。事实上,我那天其实聊了一个。前辈,他在一七年见过王星星,也来融资,当时他就问王星星,你这个事情到底能做什么?
王星星说不上来,他也应该说不上来。对,因为宇树确实成立的比较久,他一六年就开始创业了嘛,他自己做这件事情,他研究生的时候开始做,那就更早了。嗯,那你觉得宇树下一个阶段,他要靠什么去发展呢?因为就像你说的。我觉得,不管是宇树自己还是外界对它的期待,肯定未来是要进入更广大的市场。包括他们可能也不会止步于说我把硬件、把本体、把运控做的很好,因为现在大家明显看到更大的机会是在于机器人的智能,是大脑和小脑结合的部分。
我觉得宇树做的好,或者王兴兴做的好的好的一个地方是,他是一个非常极致和专注的创始人,在公司发展的这么多年的历史上。其实他对于怎么做好一个硬件本体的专注和极致的追求,我觉得是没有变的。这也是为什么,嗯,很长时间。包括到今天我们看宇树的财报,在过去几年时间,呃,宇树并没有花太多的精力跟资金去做跟AI或者是跟模型相关的工作。
对,我可以说一个数字,就是它二五年的研发费用是九千多万,前三季度的。那这个可能比。我们知道的非常多的机器人公司的研发投入都要小非常多,他在经营方面这种谨慎,我觉得是是深入他的基因的。就是他如果不是这样的人,不是这样的创始人,他也活不到这一天,活不到具身智能热潮的到来,具身智能的到来,对,嗯嗯。但是你看,你看这次招股书,他们要募资四十个亿,呃,里面计划就二十个亿会投入这个大脑的这个研究,而且他们的工作也在积极的做开源,应该是最近发布的一个是VOA的工作,一个是世界模型的工作,我觉得从。
从研究的前沿性来讲的话,只能说是跟随了目前市场主流发展的水平。但是我对他们在这方面长期能够取得很多成就跟突破,还是还是很有期待的。那你觉得他如果?取得不了这方面的成就和突破,可能是哪出了一些问题了?比如说我自己的一个观察啊,在很多新成立的这一批具身智能公司里面,就是做AI的人还是比较有话语权的。比如说,至少联创里可能有一个是AI背景的,对。
但是宇树现在的核心管理层里好像没有特别靠这种AI和深度学习背景的人。对宇树还是一个王欣欣为绝对核心的公司,嗯,他也没有一个在AI或者在算法领域可以独当一面的这个合伙人。我觉得跟公司的基因和他的思考方式也非常相关。其实我心里想的一个问题是,嗯,是不是一定要有这样一个人才能做好大脑的部分?还是说也不一定,我我自己的判断,我觉得宇树在大脑或者在智能这个角度上,会长期采取跟随策略。
你觉得这样对它的竞争力是够的吗?我觉得是够的。嗯,为为什么呢?具身智能模型价值的体现是离不开本体的。我觉得对于宇树来说,嗯,可能更关键的是。真正占据人人形机器人全球范围内,呃,科研市场的事实标准,所以所有的我们看到的最新的人形机器人研究都是基于它的硬件进行的这种,呃,不管是开源还是闭源的研究,只要这个事情能够长期持续,呃,我认为它的这种生态位是很难被替代的,就哪怕有更好的公司,哪怕更好公司推出了,嗯。
推出了非常优秀的闭源的具身模型,我觉得宇树也会也会连带受益。但是同时,宇树自己和行业的更多玩家会持续的在宇树的这个硬件基础上推出嗯高性能的开源模型。那这些模型跟宇树硬件的这种耦合和绑定。我呢会成为宇树,就是未来很多年非常持续的一个优势。宇树之前自己发过新闻说,他们二五年实际人形机器人的出货是五千五百多台,然后后来他们又说二六年他们希望人形机器人出货预计能到一到两万台,那相当于是翻了之前的两到三倍。
嗯,你你觉得这个能做到吗?我觉得应该能做到。我觉得这个这种增长看起来都是非常线性的预测。嗯,就有可能比这更多。你的意思是?对,看市场的爆发情况啊。对,最近有一家专注于人形机器人租赁的公司啊,擎天租。哦,擎天租,对我看到那个新闻了啊。对,那它意味着什么呢?它给你,它给我的信号就是,随着春晚的爆火,随着这个。
期望的这种表现力或者表演力的这种成熟,至少在未来一两年会有非常广泛和持续的,嗯,表演和租赁的需求。如果你用这个市场去看的话,我觉得一两一两万一年的销量。是远远没有问题的,可能会更大受限于宇树愿意在这个产品上面投入的产能。那接下来可以聊到你前面提到另一个进展,就是你说的银河通用打网球的这个进展。其实你列进来我是有点意外的,因为印象中我感觉机器人老早就能干这些事儿,什么打乒乓球、打网球,而且有一些创业公司就是专门做那种打网球的机器人的,就是和真人陪练的这种。
当然,他们并不是用人形来做的,就是你从银河他用人形机器人来打网球这个事情上,你看到的。这种技术趋势是什么?就是因为我们之前看过很多打网球的机器人,我们其实非常能够理解一个实时的网球机神的技术复杂度。你就说你们看过这种超人项目?对,之前看过很多这样的项目,嗯,就是一个轮式机神专门做呃做网球的。网球的球速是很快的,网球的球速可以甚至高达一百公里每小时,所以你在这么小的一个球场上,你只有非常短的时间进行这个嗯轨迹的这种预判和实时的响应。
实时的球类运动其实对于任何形态的机器人来说都是一个非常大的一个问题,哪怕对于轮式机器人来说都是非常难。实时处理的那,对于一个更加复杂的,人形机器人,要实现这个球路的识别、判断,以及在完成整个挥拍、挥击球的这样一个动作。我觉得这个难度,以二零二六年初的整个技术站来说,还是非常复杂的一个工程。对,它是一个双足的机器人,就完全人形的这种机器人去做的,嗯,对,而且它真的是实现了一个实时的感知决策,包括这种全身控制的这种闭环。
他这个确实和你跳舞和打武术不一样,因为你这个球过来,你肯定每一次都是不同的判断啊,你不可能说是你编排好的在那打球。对,所以这件事情,我觉得可能学术上的成就还好,因为。我知道他们大概是怎么做的。他们他们在春节期间租了一个蛮大的这个网球场,然后有非常多的这种动捕的设备,呃,采集了很多数据,也对模型进行了呃反复这种强化学习的训练。
我觉得从技术上讲的突破点还好,嗯,是一个比较复杂的系统工程,也体现出了公司在这件事情的执行力。对我来说,更大的一个启发是,我们之前其实很难想象。人形机器人已经可以完成这样的任务啊!当这个事情出来的时候,我记得应该是 Andrew Compassion 在 X 上面还在回复说,这个不可能是真机做出来的效果,肯定是肯定是 AI 生成的,肯定是 CG 的。
说对,嗯,他是这么回复的,嗯。我觉得我第一次看到的时候,我会有也也有这样的感觉,所以对我来说,我认为他们这个精心打造的demo其实拓宽了我们对人形机器人能力的想象。嗯,就是说在现在已经有的这些技术上,我通过组合和一些工程的优化,我能做到什么程度?其实这个如果要类比的话,我也在想,银河的打网球是一个很好的demo。
其实,在一月份跟三月份。呃,Figure也发也也发布了非常好的这种呃全身运控的这种demo,你也看得出来整个动作的丝滑性,呃,自然度是非常高的,啊,但是背后你也很明显的看到各种整个视频是被公司精心的编排。和和录制的和剪辑过的,嗯呃,它不是 C G 生成的,它的确是真机自主执行的。但是你看得出来,它为了实现这样一个效果,实际上是做了非常多的专门进行的训练。
但是至少对于大众市场来讲,它是在打开我们对人形机身的理解和想象。我我认为这些工作在 Q1 都是蛮有意义的一个 milestone,因为这些都是很具体的一些场景啊。那它能迁移到别的任务上吗?就它接下来会有什么应用上的价值吗?网球那个具体场景有点 tricky,因为因为它大概率不是用的板载的算力和视觉来进行的这个球路的处理,它在网球场上实际上是有这种外部的这种摄像头,才能实现比较高的帧率。
而且也不是 on-device 的算力,嗯,不是在端侧的算力,嗯,对。但是计算机科学反复的经验就是,只要这件事情可以做,人类一定可以想到优化的方法,让它在更小的算力、更少的资源上面可以实现。所以对我们来说,能不能做是最关键的,怎么去优化其实是第二步的。那如果总结一下,就是包括像宇树、像银河、中国这些做全人形机器人的公司,就是我指它有双足形态的人形机器人的公司。
像还有智元了、魔法原子了这些,你觉得他们在Q1的表现和进展怎么样?我觉得整体都是超过预期的。我觉得整个行业的速度在加快,嗯,有更多的公司应该是应该是智元在。去年底还是今年初的时候,呃,也发布了,嗯,全身运控的这个新的这个工作,嗯,包括英伟达也发布了,呃,Sonic这个全身运控的这个新的框架。我觉得整体来看。
嗯,可能在二四年和二五年,嗯,local motion和 manipulation或者说上肢的这个操作和下肢的运动还是两个很独立的体系。但是到了今年开始,随着人形机器人硬件的成熟,随着数据的进一步增加,我们现在开始有了。用一个统一的模型进行全身运控和操作的这种可能性,我觉得这个事情现在是刚刚出现了个端倪。
那对未来十二个月,我觉得它的加速度。啊,它的复利可能会不断的扛胖,嗯,所以我很难想象,我很难想象到二七年春晚的时候,我们能看到什么样的人形机器人表演,可以期待一下啊。呃,这个总结也挺好的,就是说之前操作和运控是独立的、分开的,然后现在是会用一个模型去控制这个身体的运动,然后把它结合起来。嗯,对,几家公司都在做同样的工作,包括这个Figure,包括说智元,包括说英伟达。
呃,我们都看到大家都在朝这个方向去努力。我就对行业说,只要这个范式被建立了,会有更多人去迭代和去这种改进。那这有个老生常谈的问题啊,就是很多人认为双足其实没有那么大的价值,不是个优先级特别高的东西,就是对把机器人弄起来。我很长时间也是这样的想法。哦,那你什么时候开始改变想法的?我觉得我最近这个季度,我的我觉得我受的冲击还是挺大的。
那你可以想想为为什么,就是你具体是怎么变的啊?我觉得整个机器人行业都是一个供给高度受限的行业。当一个机器人真正实现某一种能力,当一个机器人真正稳定的交付某一种能力的时候,它可以做的事情或者它可以创造的价值会得到一个快速的释放。那很长时间,我也觉得可能人形机器人它带来的复杂带来的困难度,相比它带来的好处是很有限的。
本质上,我是在放大人形机器人的困难。比如说,我们我们会说,在仓库场景,在工厂场景,我们要的就是两只手,我们不需要两条腿儿,我们用轮子就能解决在工厂环境里面的移动搬运。我最近看了几部嗯波斯东利的访谈,里面有几段对话,其实对我启发还是挺大的。很多很多老生常谈的观点是认为,整个世界是为是为人类去设计的,嗯,所以呃,人形机器人一定是一个最通用、最高效的呃这个形态,因为它意味着一个形态可以适配非常多的环境。
但是可能对于一些地面本身已经比较平整,嗯,比较结构化的环境里面,呃,似乎轮式机器人。也可以完全实现类似的通过性,就我们没有必要真正要两两条腿。但是我告诉你一个很有意思的现象:今天一个人形机器人,如果在一个结构化的环境里面移动,假设我们运动的问题得到了充分的解决,它在一个结构环境里面稳定的移动,它大概只需要四十乘以六十厘米的空间,而且因为。
它的腿,或者说身体有非常多的自由度,其实它可以下探和上触非常高的这个。空间范围,嗯,我们要实现同样的事情。假设我们希望像人形机器人一样,可以搬运一个十公斤或者二十公斤的箱子。今天的很多全尺寸的人形机器人基本上已经可以实现这个功能,而且它可以从从地面的高度一直搬到,比如说像波斯顿动力,大概是两米左右的高度。
它实际上最高,今天新的形态最高可以触达两米三的高度。OK,这是今天人形的现状。如果我们要做同样的事情,轮式机器人,你要知道,其实它的复杂度完全不比人形低。轮式底盘一般要多大呀?要占多少面积啊?肯定比这个大,肯定比四十到六十厘米大。因为你刚刚说的四十到六十,差不多就是两个苹果电脑,也就是摆在一起的这个,就是就是我们就是我们人站立的面积,就是我们需要的最小面积。
如果是一个比较窄的空间或者是一个过道,它其实只需要很少的面积就可以过。但是你知道轮式机器人最大问题什么吗?轮式机器人最大问题是重心问题。嗯,我举一个例子就是。波尊动力除了做这个 Atlas,他们还有一个项目叫 Stretch,啊,是一个复合机器人,巨大的一个 AGV 的底盘上面加了一只巨大的单臂手臂。
然后这样的一个结构呢,它可以从一个集装箱或者从一个货架里面拿下来,大概二十公斤左右,可能二十五公斤五的一个箱子。那为了拿一个箱子,整个 stretch 这样一个符合机器人的重量大概在一吨左右,因为它升的很高的时候,它得让下面很重,对吧?对,要不它可能就翻了。嗯,对。但是你想想人的这种结构,我们是可以非常动态的调节我们的。
呃,重心和我们的姿态来实现同样取放二十公斤箱子的目的,而今天可能一个全尺寸的人形机器人,哪怕比较重的一个人形机器人,可能也就是七八十公斤。那相比一个可能一吨的 stretch 或者八百公斤的
stretch,是十倍这种重量重量差别。哎,这个挺有意思,越说越觉得就是生物界是非常神奇的。我再讲一个我最新的一个认知,嗯,就是如果我们想做一个我们想做一个在空间里面移动性非常好的轮式机器人,其实最理想的方案是做成四轮四转。
四轮四转,对,可能都不是两个差速轮,可能是四轮四转,就非常的自由。那四轮四转,如果你都是主动电机,肯定就需要八个电机。如果你你你要像人形机上再适配不同的高度,你可能还需要好几个电机,有一些升降的这种结构。所以你刚刚讲的几个点啊,一个就是说。在同样的表现性能上,其实轮式不一定比做人形简单,就复杂度上,成本也不一定比人形低。
如果我需要更多或者相同数量的电机,且更高的质量,因为我的底座如果更重了。我所有成本都会增加,我需要更大功率的电机,我需要更大功率的电池,它都会快速的增加你的成本。所以复杂度和成本不一定比人形低。而另一方面,如果就是人形的这种形态,它能在技术上实现的比较好的话,它可能能打开很多我们可能之前没有想过的,因为有了这个供给而可以去做的事儿。
就就它的场景是可能是可以打开的。而且,我觉得 Atlas 这个新版本的 Atlas 其实给了我们很多信号,就是人形机器人也不一定真的非要一定像人,它可以做一个超人,它可以超越人的某些结构,因为人体这种结构之所以进化成这个样子,也是大自然非常偶然的。嗯,那正好可以展开讲一讲,因为前面你提到的第五个进展也是 Atlas 这个新的电动版,它什么地方是像人,同时还超越人了?
新版的 Atlas 我觉得有。有几点嗯值得关注的地方,嗯,第一个呢,呃,它用了非常模块化的设计。就有点像协作臂跟工业机械臂的区别。以前工业机械臂每个关节都有专门定制的这个电机和减速机,是一个非常复杂的一种串联结构。但是到了协作臂,我们可能就把协作协作手臂上的电机简化成非常少的这种标准化的电机。那么在 Antralis 这件事情上面,其实他们利用了相似的这种逻辑,就是他们没有那么多。
非常复杂的电机的结构和选型,整个机器人都用很简单的旋转电机,嗯,通过电机的性能的冗余实现了的多功能化,在手臂上,在大腿上,在小腿上。嗯,那它的好处是,从生产和组装的角度,它的难度会非常低。而且,它还有一点是,它没有受限于人体本身的一些物理限制,比如说它的头部跟躯干都是可以做三百六十度的完整的这个旋转。
那这件事情在。真人身上是做不到的,这么接住?对,头可以转,可以转到后面去。对,但它的它带来的好处是非常显著的。就我们如果一个人从面向北面要转到面向南面,我们这个动作可能需要三四步的转身,我们的腿和身体。都需要联合进行好多步的动作,但对他来说,其实就是腰部的电机三百六十度旋转就完了。哦,所以它。就它下面其实左腿右腿都是无所谓的,对吧?
它转过来之后,它就它甚至不分,它甚至不分左腿右腿,嗯,它的左右腿是可以互换的,嗯,哦,左右手应该也是一样,所以它有一套高度模块化的结构,不光在场景里面的适应度更高,在生产组装的时候难度会降低,同时在现场如果遇到了故障进行替换的时候成本也降低,而这件事情。为什么我会专门提到波司登动力?我认为这个跟美国今天的这个整个制造业和整个这个产业发展的现状是非常相关的。
美国是非常缺熟练的这种技术工人。嗯,所以要把它设计得更尽量简单,简单容简单易装配。对,通过性能的冗余、结构的简化来解决安装和维修的问题。那正好可以进入我们下一个话题,因为我们前面讲的都是中国的一些公司,然后你也正好讲到了一些关于就是人形这个形态必要性的新的认知。你刚刚也去美国和很多美国的从业者去聊过,可以讲讲美国的这些比较热点的人形机器人公司的一些进展。
我觉得首先你可以说一下,就是在业界大家比较关注的美国这块的公司是哪些?呃,我觉得可能最多关注的肯定是特斯拉的Optimus,然后以及融了嗯最多资金也是估值目前最高的这个Figure AI。当然,传统一点的公司,包括像波神动力,还有一些可能更长尾的公司,像这个挪威的这个One X,嗯,德克萨斯州的这个Apptronic,啊,Apollo机器人。
嗯,都算是目前在美国市场上还在活跃的人形机身的公司。嗯,但可能最关注的、最被市场关注的还是 Optimus 和 Figure。那像大家也经常提及的派 Sunday Generalist,他们不算是做全人形的公司,对吧?他们还算是以模型为核心的公司,就以智能的部分为核心的公司。对,我觉得 Sunday 是一个以模型跟数据为主、轻硬件的一个公司。
好,那我们可以从 Optimus 开始讲,这个我觉得也是。做这件事情,在美国可以说是新硬文风潮的这个掀起者,嗯,其实也激激发了中国的一批公司的创业嘛。然后就是前阵子马斯克自己是在采访里说过,说Optimus的第三代就是Gen三,它是已经设计定型了。但是我们这边从中国供应链了解的情况是,它本来要在四月发布亮相,然后这事儿可能又延期了,应该至少得延到六月下旬吧。
量产的时间可能也会延,之前的计划应该是在今年的十月份,现在有可能会延到明年啊。对,之前我听说的是,嗯,可能最早的计划是要今年三月份或者Q一要发布。对吧?感觉这个就已经拖了又拖了。对,感觉这个计划一直在delay的。嗯,呃,我觉得是符合预期吧。就是就是,伊朗的很多工作可能从,呃,我们这个行业就有一句话说,伊朗is always right,但是它的timing is always wrong。
你可能增加很长的时间。我觉得对James三来说,我获得的信息也是,不管是在硬件还是在软件方面遇到的挑战还是蛮大的。嗯,呃,硬件方面。具体来说,在手方面遇到的挑战比较大,因为他们在做一个非常非常有野心的这个高自由度的身躯方案。我觉得这个方案在量产跟可靠性上遇到了巨大的挑战。但是另外一点呢,就是,嗯,伊朗对于今年 Optimus V3 的。
量产或者出货量也给了非常高的预期,嗯,至少也是万台左右这样的一个预期,一万台的意思,至少一万台,就感觉怎么好像又比他之前说的缩水了?可能是在缩水吧。如果我记得,可能在二五年的时候,当时就说要实现一万台,对吧?可能二六年已经是十万台或者百万台了。但考虑到现在已经进入了四月份,甚至一万台的量也是非常有调整的。
你刚说他的手是一个高自由度的神驱的方案,这个其实之前我们也和一些供应链的人聊,就是特斯拉这边其实他们也在,他们也在考虑就是电机的方案,或者说他们给某些这种供应商,他是提了类似的需求的。呃,你说的电机应该是指的呃直驱为主的方案,因为神驱神驱里面也会有电机,只是把电机放在了前面这个位置。电机啊,现在的神驱方案是是把大量的电机放到了这个前臂这个地方。
嗯,不是在掌心里面,嗯,但是像虾爬这样的像虾爬这样的直驱方案是把电机直接放到了呃每个指节关节这个地方,啊,我觉得这是这是两个呃完全不同的设计的这个理念跟逻辑。伊朗选择神驱方案是认为。它是一个更仿生、更低新的方案,是因为它人是这样的是吗?对,就是神是就是人手上的筋之类的这种东西。对,这个肌肉肌腱人是这样子的,所以为了实现呃非常仿人的这个灵巧性,嗯,伊朗认为神驱方案是是必须的一个方案,但是神驱方案带来的问题是非常多的,这也是为什么在过去可能一年左右的时间。
呃,陆陆续续我听到了蛮多的反馈,就是在这条路线上还是遇到了巨大的挑战。组装一只高自由度的灵巧手,意味着你需要在手腕和手掌这样的空间里面,可能需要嗯插入四十多根嗯不同的这种键绳。然后你要解决他们在一致性、他们在鲁变、他们在可靠性方面各种问题。然后,当任何一只剑神出现了这种松动,或者说你需要替换或者损坏的时候,你的再组装和维修也是非常大的一个挑战。
嗯,这听着有点像就是你手受伤了,要给你搞个外科手术的那种,对感觉。所以,我挺复杂的。所以我跟一些朋友交流,他给我反问了一个很有意思的问题:我们都说伊朗选择神曲灵巧手。是因为他认为这是一个更低一性的选择,更加仿真的选择。但是我的朋友其实反问我一个问题。说你既然已经用了电机,你就不是肌肉,你从何而来?第一性的,第一性的类比,因为人的肌肉。
人的组织是可以再生的,嗯,如果我们有肌肉的损伤有拉伤,通过一段时间的恢复跟训练,它是可以自己康复的。但是对于健身或者电机或者齿轮而言,它的磨损就是不可逆的。同时,肌肉具有非常高的能量密度、力矩密度,但是对电机来说,嗯,不论是体积还是能量密度来讲,跟肌肉都有巨大的差别。所以,你用一个不是肌肉的东西去模仿肌肉的表现,然后你预期它们有同样的性能。
这个本身就并不符合第一性。那如果工程师有这些想法的话,他们在 Optimus 内部,它可以怎么反馈到马斯克那儿吗?我觉得在这件事情上面,就跟伊浪当时做自动驾驶选择纯视觉方案和端到端,伊浪都是非常强势和固执的。所以,这是对于我来说,也是一个作为一个行业的观察者来说,也是一个非常纠结和困惑的地方。伊朗历史上在很多。
长期的技术路线的选择和判断上面都被证明是对的,而且是 against 了基本上市场的所有人的声音。在奥托派伦内部,在一六一七年他们刚开始做的时候,其实所有人也不相信。伊朗对于纯视觉或者端到端的一些前沿性的vision,实际上是通过过去几年逐渐的工程和技术的努力,才把这样的愿景给实现。所以灵巧手会不会遇到同样的事情,我今天也是说不准。
但是我的确看到了神曲灵巧手至少在二六年量产一万台。可能会遇到的巨大的挑战跟问题,对,我我觉得这是一个之后可以去观察的点,就是 Optimus 的灵巧手的技术的构成会不会有变化,它会不会在现在这个方案上去选另一条路,嗯,嗯,然后另一个你刚才提到的公司,就说融资最多、估值最高的是 Figure,然后我之前和很多中国具身的创业者交流,我觉得大家对 Figure 的态度是比较复杂的。
一方面觉得他好像时不时的释放一些挺不错的成果,然后一方面又觉得这公司的风格非常浮夸啊。这公司的确是非常浮夸,我觉得他们他们应该值得奖励一个奖励一个奥斯卡最佳影视特效奖。我觉得可能跟Bright作为一个创业者的经历有关系。嗯,创始人,嗯,就他是一个很善于跟投资人传达这种愿景和故事的一个呃创始人。他创立飞格之前是干嘛的?
呃,在 Figer 之前,他做了另外一家公司叫 Archer,是一家呃飞行汽车公司,或者说 Evotor 公司,垂直起降飞行器啊。那个公司我没有记错的话,应该是二一年上市的,然后没有多久他就离开了这家公司,然后成立了 Figer,啊,然后在之前他也卖过他的第一家创业公司,所以。Brett的特点是,能够不断的找到下一个创业的这种热点,然后也能够吸引一群对他的愿景和能力,呃呃有说认可的投资人,而且。
至少历史来看,他要么快速的把公司卖掉,或者把公司带上市,所以这是,呃,这是他一贯给给市场留下的这种印象。嗯,所以他是一个有愿景,然后又连续成功退出过的创业者。对,但你也可以说。他做的很多事情是为了快速的把公司卖掉,或者说,呃,快速让公司上市。因为事实上,他就从 Archer 这家公司退出了,而 Ebotto 今天还在行业的非常早期。
嗯嗯,我其实听说他们今年还是去年他又成立了一家新的公司,而且也投入了蛮多资金去做,是一个智能硬件公司。我认为这一系列的背景都是大家对于 Brett 这个人作为一个创始人的许多的诟病,那就是他是否真的。有足够的专注度和韧性,为什么以前大家对马斯克没有这样的诟病?因为马斯克把很多事情做成了呀。或者或者在马斯克把特斯拉做成或者把 Space X 做成之前,大家可能也区分不了他跟一个骗子的区别啊。
对,那应该这样说,其实早期可能马斯克也受到很多质疑,对,只不过随着他把一些事儿一一步一步给做成之后,这些声音变淡了。嗯,对,所以 Brett 到底是不是这样创始人?我觉得市场今天是有很多争议的。但是从结果来看呢,我觉得二三年 Brett 成立 Fig 的时候是在一个高度质疑的声音中。呃,诞生的,他自己并不真正的了解机器人行业。
早年的很多成员,包括从波斯顿动力和从嗯其他地方吸引的这种机器人或者硬件的这种人才,很多也在公司成立的一两年过后陆续离开了公司。但是不可否认,整个行业发展速度是非常快的。所以我的感受是在过去一两年的时间,Fir是吸引了非常多优秀的,无论是硬件。还是软件的人才,嗯,加入公司,然后也的确给出了很 solid 的结果。
我们看到他过去发布的这几款新的这个人形机器人,包括他展示出来的这种全身运控的这种总展示,我觉得体现了他们在这个领域里面是非常有干货的。因为他们其实是一个硬件和模型都做的公司啊,对,就模型这块,他们的业内评价如何的?他们是比较早的在业界宣布了他们。那个Helix,嗯,AI一个双层以及三层构架的嗯公司,嗯,实现了嗯一个统一的从一个低频到中频再到一个高频的整个全身运控的这样一套算法的框架,嗯,我觉得从展示出来的效果和我从内部同学听到的这种表现来讲的话,嗯,他们的能力在市场上还是非常领先的。
当然,可能也是因为除了Optimus之外,美国并没有太多。真正从事这个全尺寸人形或者复杂人形硬件和模型的公司,嗯,所以在这一点上,我觉得他们是代表了可能美国目前市场的最高水平。因为其实你看,他在这个领域也融了很多次,对吧?美国看起来也有资金愿意支持这个方向。对,为什么美国这样的公司很少啊?而对比国内,其实国内有好多好多具身智能公司,二五年下半年还不断的在涌现新的公司。
这跟美国整个制造业的衰退,整个机器人。供应链或者整个硬件供应链的衰退是密切相关的,就是它支持不了那么多创业公司出现。对,这也是为什么中国大家开玩笑几百万的成本可能就可以传出一台人形机器人,但这件事情很难想象在美国能够做到。实际上,Figma之所以要融这么多钱,呃,我觉得另外一面可能也是体现了这个美国制造的这种国家战略或者国家意志,是希望通过。
重点的扶持一些头部的企业,啊,能够带动呃所谓的这美国制造业的回流,或者这种美国制造业的复兴,因为大量的大量的供应商和零部件厂商或者零部件的这个产业在美国已经不复存在了,啊,所以对于飞哥来说,如果他们想完全本土生产这个人形机器人,其实是需要多大量的前期投入的。这个事情呢,也是我们看到的目前美国社会的主流的一个叙事,或者说战略上的一个选择。
哦,那另一个我觉得美国政府可能会扶持的就波士顿动力,而且说实话也已经扶持很久了。这公司成立老早了,九二年就成立了,对,都三十多年了。其实它一直也没有大规模商业化,也没有赚很多钱,但是也一直存在着吧。当然中间就它被好好几个公司就是收购,然后买卖过,嗯。呃,前面其实是讲的就波士顿动力在自己的新的电动阿特拉斯的硬件上的一些进展。
它其实Q1还有一个进展,就是他们也在模型在智能这一块儿去找了一些合作方,就是Google啊。嗯,这个可以呃讲一讲,讲一讲就是。他们最近有什么新的变化吗?对这个东西,其实呃很不奇怪,因为其实我们知道,在一两年前,呃,DeepMind,呃,一开始是跟呃德克萨斯州的这个Aptronik这家呃人形机器人公司合作,当时他们的产品是一个叫Apollo的嗯全尺寸人形机器人。
那事实上,呃,我听到这段合作是非常失败的,本质上就是呃Apollo。呃,这个产品的硬件的可靠性,嗯,包括精度,包括呃一致性,都有巨大的挑战。谷歌的研究员在花很多时间让这个机器能够用上,而不是在做嗯真正有效的研究。我觉得 Google 选择波尊动力进行这样的合作,呃,我觉得是非常明智的一个选择。Google 为什么不自己来做全人形的机器人啊?
你之前在 Google 其实也是做硬件相关,对吧?你做过 Google Glass 这些啊?我觉得 Google 包括 Meta 这些公司,互联网公司完全没有做硬件的基因跟能力,因为做硬件是一个非常复杂的、非常复杂的系统工程,而且它需要整个产业链的配合。那这是不是也分不同类型的硬件了?比如说,Meta的眼镜好像做的还不错,是不是跟这个硬件的复杂度也是有关系?
我不觉得Meta的眼镜做的很不错。Meta眼镜是在巨大的亏损和补贴下,所以它只是卖的不错。事实情况就是Reality Lab Reality Lab累计应该是亏损是几百亿美金。过去的十年,就是从从 Oculus 被收购到 Reality Labs 被降级,嗯,这十年期间,Meta 应该是亏损了上百数百亿美金。
嗯,Meta Ray-Ban 确实卖得很好,三九九美元、二九九美元,但是实际上一个正常的 Ray-Ban 的墨镜就应该卖这个价格,Ray-Ban 是有百分之九十几的毛利的。那对于对 Meta Raven 那个智能眼镜来说,它基本上是按照它的成本价,甚至是补贴都在卖。那你可以想象,每副眼镜它到底要给 Raven 转移多少的这个费用?
我觉得这个,我觉得眼镜 business 对于 Meta 来说是一个挺失败的生意。其实这可能是有点扯远了。呃,这一次 Google
和波士顿动力的这个合作,他们要怎么去解决生产制造的问题啊?因为我觉得他应该也不会想让中国公司来特别深度参与这个事情,对吧?博世动力现在主要的股东是现代汽车,嗯嗯,所以在在生产制造在供应链上面其实是有蛮多这个现代作为一个汽车汽车公司的这种呃帮助跟这种资源,实际上他们的很多生产组装,包括这个前期的测试都是在现代的工厂里面做的。
哦,就是所谓美国的盟友。你说到这个,我觉得美国有一个方法,他现在不是让日本和韩国这些就是有制造能力的盟友都要去美国本土投资吗?对,他其实可以用这种方式,他可以去。补足,比如说在机器人,在这种比较复杂的硬件本体上的制造能力,你觉得这有希望?这是条路吗?我觉得这是条路,但就意味着其实这跟电动汽车的封锁一样,就意味着可能同样的东西在美国做,你就是要付出两到三倍的成本。
那这个这个成本可能长期要被美国社会所承担。那这个是不是?客户是不是消费者愿意接纳的?刚才讲的这些公司是跟制造环节比较相关的,就是他们会涉足本体的一些公司,包括Optimus
Figure、波士顿动力等等。在美国还有一些具身的公司啊,它就是我们前面提到像派这种,它是比较专注在模型方面的。嗯,这个其实也被很多中国的从业者认为是标杆,比如说派零点六它最新的模型,还有三奈和generalist的数据采集的方案,这些公司有什么新进展?
你觉得是值得在Q一去关注到的吗?我我觉得派。派除了去年发布这个零点六的工作,其实 Q1 在持续的发布一些很有影响力或者很有很有创意的工作。比如说,他们在他们 Q1 有发布过,呃,怎么解决这个呃长续记忆问题的。这种这种思路其实有点像 OpenCLoud 的方式,就通过一个,嗯,通过通过一个文本的方式,能够长期记录他现在的状态,以及对他今今天的状态进行不断的反思,来增强他在长时操作这种一致性跟稳定性。
他们也有也有一些对于真机强化和一些,嗯,复杂场景。嗯,在最终这个执行端,在在在这个这个动作端,进行这种在线强化学习的这种新的思路跟框架。嗯,我看整个Q1派发布的工作,还是很能够代表整个市场在cross embodiment和dynamic的这种环境的这种适应性的工作。我觉得这点派还是全球范围来看还是最领先的。
嗯,你刚说第一点就是它类似于像OpenCL这样,给它加一些。长时间的记忆,它是在系统层的,对吧?还是外挂在模型外面的?对,我觉得这个其实中国很多从业者也注意到了,就所以现在行业里也有一种表达,我他们会把这个事情表达成就是,呃,具身的模型其实本质上是物理世界的一个 agent,一个 physical
agent,虚拟世界的 agent,其实它现在已已经不只是模型了嘛,它有编排层,然后有 skills,然后有工具。
有记忆啊,就具身现在行业现在也会讨论这个事情,就说除了具身基础模型之外,你的这个系统整个要怎么去组织,然后让它能在一个复杂的环境里去完成任务。对,其实回答到你模型架构的这个问题,沙巴这次在CES呃有一个分享,其实提出了一个三层架构的一个逻辑。嗯,我认为今天提出多层架构。逻辑的公司有好多个,包括像刚才提到的这个Helix,他们有一个三层架构,Figure的那个网络,就Shap的这个三层构架分为System二、System一、System零。
那 System 二是一个很低频的,但是很高维的语言层的一个规划。嗯,低频就是慢的意思,对不对?我理解低频,对,就慢系统、快系统的那个有点是接近那个意思啊,就是就是快慢系统,因为之前。System二、System一是一个快慢系统,就是一个双系统。其实 Shap 是引入了第三个系统,叫 System 零。
嗯,那可以先把那个最上面的一层说完,就它是比较宏观的一些规划的东西。对,就是 System 二是一个比较宏观的 System。System 二的 Input 是以文本为主,所以那对于下面一层这个 System 一,它 Take 的是他看到的视频或者图像的信息。以及机器人现在的状态和我文本描述的这个任务,比如说我要去哪个地方做一件什么事情,那它输出什么呢?
System一输出的,就是我手臂或者说关节的具体的这种这种动作,但是它这个动作是一个很粗糙的动作,可能比如说今天的VOA,可能输出的就是手臂关节大概的这种这种。呃,力矩的信息和夹爪的开合的这样的信息,那在 Shapa 的一个架构里面,它有一个新的 system,它的 input
是触觉信息,以及。从system一传达下来的一个粗略的运动轨迹,那当你有一个粗略的运动轨迹和一个触觉的这个音谱的时候,你就可以实现很多具体动作的闭环控制。
他没有摸到一个东西之前,他的触觉信息是来自于什么?是来自于对这个东西的预判的吗?没有,就当你摸到它过后哦,才有这个触觉。你该做什么?这是这个模型要解决问题。所以他其实,在那个就系统一的时候,他可能就已经接触到这个东西了。对,但是可能位置不太准。嗯嗯,位置是错的,或者说这样子接触,嗯,并不能准确把它拿起来。
嗯,然后这个时候,呃。四四零就开始介入,嗯,然后四四零的目的就是根据我现在已有的呃触达的接触的这个信息和我的意图、我的任务的意图,我应该具体的每个手指、每个关节应该做什么,这是这个最最低层的,也是最高频的模型需要解决的。因为其实对人来说,他看到一个杯子。比如说,这有一个瓷杯,这有一个易拉罐,对吧?我其实大概能判断它的材质、摩擦和重量。
对,但是你你没有触觉,你不知道干什么。其实,其实我们用人的,我们用人的生理结构来类比,就是大脑、小脑和末端嗯神经对反应,因为你有很多应激反应,当你被。被碰到的时候,你会遇到一个很烫的东西,你会会躲开。嗯,你遇到一个粗糙的东西或者是一个软的东西,你会不同的末梢神经的反应。实际上,它这个架构是在呃模拟人的这样分层的一个体系。
嗯,其实我刚刚想说的是,说就是它有了这个架构之后,它是不是以后通过比比如说它真真实使用起来,或者它强化学习用 Rote 的数据来学习。其实也能做到像一个比较成熟的人,大概可以预判我怎么去精细操作。因为人,如果你有比较多生活经验之后,你看到一个东西,其实你不用实际摸到它,你已经。对他大概要怎么精细操作是有一个预判的,这就是可能就会涉及到这个世世界模型的这种脑补跟预测的能力。
这的确就是大脑大脑本身在产生的这个运动轨迹或者说这个控制轨迹应该产生的方向。但是你之所以可以把它准确的拿起来,还是因为你的手上是有是有触觉的。对,之前有一些这种实验,就把人的这个手指的这个神经末梢的一些感觉给屏蔽之后,一些。看起来很简单的工作,你做不了了。嗯,是的。换句话说,如果把你眼睛遮住,你也可以完成很多任务。
所以触觉对于我们最终这个任务的实现是非常重要的。而今天的 V O A 也好,世界模型也好,今天的整个训练方式基本上可以说是完全没有触觉信号的。嗯,所以Sharp,你觉得这是一个很好的进展?他展示了就是当触觉引入到一个就是高自由度的呃一个末端执行器,呃灵巧手这样的产品的时候,我们是怎么样可以去完成一些之前其实你很难想象可以完成的任务?
这次你去美国的话,据你所知有哪些公司和机构和学校在用Sharp的手做一些研发,以及他们比如说看到了一些什么?因为有了这个,就是新的触觉的信息之后,新的成果。呃,首先,呃,这个感受可能从去年年中。包括去年下半年开始,这个感触就非常强烈。嗯,如果我们看具身智能或者机器人前沿领域的研究,如果我们退回四五年,我们大概在做四足呃运控的一些研究。
那么在一两年前,我们在广泛研究VOA以及两指的夹爪,或者像Yumi这种结构的一些灵巧操作。那包括在可能过去一年,嗯,整个人形的 locomotion 的问题也初步得到解决了。所以,如果你是一个研究具身智能领域的世界前沿的研究研究人员,你今天应该研究什么?就下一个什么是下一个你值得研究的方向?我觉得从去年开始,基本上,所以我接触到的研究人员,他们的公司都会围绕着灵巧手、灵巧手、世界模型,不是吗?
世界模型也是,世界模型也是,但是世界模型。很有可能是一个大厂主导的研究方向,嗯,因为英伟达最近有很多发布,世界模型的 backbone 是视频生成模型。实际上,今天有能力还在排桌上做视频生成模型的,都已经是绝对大厂了。视频生成模型本身的挑战就是它对于算力的消耗、对资源的消耗是指数级增加的,它的计算量是远远大于这个文字模型的。
嗯,这也是你为什么看到 Sora OpenAI 几天前刚刚宣布他们要停止这个 Sora 的这个这个产品的工作。以谷歌为例,其实,在在视频生成模型每每天的投入、研发的投入、算法的投入是巨巨大的。这个对于任何创业公司来说,是一个很难想象的一个量级。对 OpenAI 难道也是吗?OpenAI 这么多钱?是因为他想聚焦一些主业去和 Anthropic 去竞争,是吧?
我觉得今天今天 Agent 跟 Coding 是一个非常明确的这种需求。呃,我觉得这一点 OpenAI
是落后的。但是可能更大的问题是,的确视频生成是一个非常消耗资源,且如果你没有明确的下游的消费和变现的场景,对公司来说就是一个巨大的持续投入。就为什么你从全世界范围来看?今天可能真正做最好的视频生成模型,是字节的 C Dance,是谷歌的 View,呃,是 Grok 的 Imagine,快手的克林。
其实这些都是全世界可能最大的互联网公司。嗯,那可以把就是你说的研究员在做的这个灵巧手的这个事儿说说完啊。那他们现在主要用哪些公司的手了?这听起来也是一个创业机会,对吧?嗯,其实。xiapa的手,呃,正式的发布应该是在二五年的五月份,亚特兰大的这个E夸二零二五的这个会议上面,呃,我正好也参加了那场会议,呃,也是现场第一次体验了这个手的这个效果,啊,的确是非常惊艳,啊,啊,但实际上可能在过去一年。
过去一年,海外研究人员用的最多的手应该是心动纪元的那只中自由度的十二自由度的手。只是在过去的三四个月,随着这个沙帕的这个手提供给了海外这些研究员,可能大家开始也也用上了沙帕。心动纪元那个是十二个自由度,沙帕这个是二十二个自由度,那就是跟人手一样,人手是二十二个,人手不算手腕的话是二十二个自由度啊。对。
其实你要做一些复杂的复杂的操作,自由度少了是是完成不了的。包括像今年初这个英伟达发布的这个一个
scale,嗯,其实可以很好的映射到这个下趴的这个高自由度这个手上面。他五万美元一支,美国学校这么有钱买得起吗?很多是补贴的,是因为也是想让自己成为这种研究的一个基础环节。对我觉得,我觉得可能未来十二个月吧,或者未来十八个月,嗯,我觉得市场的玩家可能会在谁是灵巧操作和灵巧手研究里面的这种行业标准,就是默认的这个选择会有很激烈的一个竞争。
就类似于 G One 的这种位置。对,今天你做人形研究,如果你不用 G One 机器人,你发一篇 paper,别人都很难去复现你的工作。如果灵巧手出现一个类似的产品,它也会成为全球研究人员就是默认的选择。啊,那它意味着什么呢?意味着这个手一定是足够的可靠,有足够高的自由度,能够完成我们期望的各种复杂的这种呃操作跟研究。
有比较低的成本,以及有比较完善的传感器和开发的这种环境和能力。我觉得Sharper的目标肯定是要大于这个。其实今天我跟李帆稍微聊了一下,我说最近有很多从业者都说你们的手很厉害。我说我们可能会录到一个节目,会讲讲到这个事情。他说他觉得最重要的还是AI能力。我非常理解,因为因为他们的目标还是要做一家通用机器人公司,他们的目标不是一个灵巧手公司。
但是我认为这里面肯定有一个巨大的被低估的机会。我觉得灵巧手,灵巧手可能是一个巨大的机会。这里面的一个 lesson 是什么呢?就是语数成功的路径,在二零年的时候。二零年的时候,因为一九年 MIT Mini 七塔的论文的开源,让整个市场瞬间出现了非常多的做四足机器人的公司。嗯,你可以稍微解释一下 Mini 七塔那个东西开源了什么?
嗯,呃,实际上在 Mini 七塔开源之前,市场上有很多家做四足机器人的公司和技术方案,呃,有液压的。有更复杂的、更高成本的电机的方案,而米奇塔当时比较典型的一个工作,他引入了一个准直区的QDD电机,一个很很经典的结构,以及完整的开源的这个控制的算法,让国内很多非常业余的团队。就可以快快速的搭建一个呃四足机器人,所以就催生了整个生态的快速繁荣。
市场上迅速的出现了非常多的创业公司,小米开始做铁蛋,小鹏收购了,一家。四足机器人公司成立了鹏行机器人,还有别的一些互联网的创业者纷纷进入这个市场,开始做四足机器人。我记得当时小鹏的机器人公司二一年第一笔融资就是一亿美金,五亿美金的估值。同时期的宇树还是一个不被人注意的公司,但是为什么宇树走得最远,走到今天?
因为王欣欣是一个非常本分、非常专注的人,他就想做四足机器人,他就想把四足机器人做好。这群科学家需要一个便宜的好用的硬件,也是因为王欣欣的本分和坚持,他没有投任何钱去搞什么AI,去搞什么C端的量产。那今天可能对于零敲手来说,我认为市场是存在一个期望的位置的,但是你需要。非常的克制和专注,把这样一个产品做好,你才能够变成全世界所有想要研究和解决灵巧手。
问题的研究员的首选的方案,对,因为灵巧手背后其实是灵巧操作嘛,其实是具身智能里非常关键的一环,非常重点的研究的一个方向。如果作为一家灵巧手公司,你过早的去谈。零操手的这种商业的闭环,而不足够的开放,嗯,跟整个科研市场去合作去共振,那你可能会错失这样一个机会。对我来说,就非常像小鹏机器人在二一年想去实现它这个。
机器马量产的这样一个尝试,机器马死去的记忆开始攻击我,我都快忘了这个事儿了。对,但但是他们当时推过啊,但是这个 story 是非常的像。其实本质上什么呢?机器马机器马的失败本质上是因为在那个时间点。四足机器人并没有到一个商业化的台面,还在一个非常需要研发和投入的一个阶段。哦,其实你说到小鹏,我们刚才在聊中国的人形机器人公司的时候,没有说到小鹏。
小鹏也是一个做就是双足的全人形的机器人公司。客观的说,我觉得中国的车厂做人形实力都是不弱的,但是呢,从绝对的这个创新性和突破性来讲的话,我觉得。可能对于车厂来说,它的战略还是一个快速的follow,嗯,以及他们在路线上,其实很多还是很想借鉴这个特斯拉的这个路线。那过完中美两边的公司,你有一个什么整体的感受?
就美国和中国现在巨深的发展情况,你有什么感受?我的感受就是,首先,这个行业一直会有一个说法,就是说美国和中国的具身是在同一起跑线上,而不像大模型,其实中国在最开始的时候显然是落后美国至少半代吧。一个是这个事儿它是否是成立的,然后另一个我觉得比较明显的感受,其实刚才我们也反复讨论过的,这个呃,机器人或者说通用机器人是一个非常跨领域的一个很综合的东西。
就它有软件,有硬件,有系统,有工程,有供应链,等等等等。我我觉得美国发展这个事儿,它确实先天上在硬件供应链上是有短板的,对他们来说也是个很大的挑战啊。我觉得我我个人感受是,不像大模型,我们可能是一个追赶的一个阶段。我觉得在具身,我们真的有可能是一个领先的一个状态。因为首先,在在具身相关的这种复杂的硬件产品上,无论是机器人本体还是灵巧手,我们认为中国的公司都是都是领先世界的。
再到了大脑这一层,我觉得今天。美国这些公司以派为代表的公司,在顶尖的人才、在算力和数据方面还是有明显优势的,但是随着。随着具身大脑跟硬件的进一步的耦合,无论是在手的维度,还是在本体的维度,如果未来具身智能的研究大量的跟人机身的形态,或者说一个非常复杂的这个硬件载体进行耦合的话,那我认为中国的优势只会放大。
哦,我觉得这里面有一个变量,正好是我们等会儿接下来要讨论的一个话题,就是世界模型的进展。因为你刚才也提到,就是说现在的,比如说像英伟达做的这个世界模型的路线,它其实是以视频生成模型为一个基础的,它对算力的消耗是非常大的。然后中国的公司普遍来说,算力资源同级别的公司是比美国差一个数量级。比如说大厂可能相比美国大厂差一个数量级,然后创业公司也是更少啊。
我我我觉得这可能对中国来说是一个挑战,因为它现在很早期嘛,你不知道未来还要做什么啊。在这些未来还要做的事情上,中国的探索程度会怎么样啊?首先,我觉得世界模型。跟 V O A 可能是代表了嗯具身大脑研究的两个主旋律,因为 V O A 以文字为 backbone,其实代表了人类用语言去沟通和描述的和推理的能力,而世界模型它以视频为 backbone,其实是代表了人类的视觉智能。
你觉得这两个是互斥的吗?他们俩是互补的,或者说。人类的智能是既离不开语言,也离不开视觉。嗯,人类如果损失了文字或者视觉中任何一个模态,人类的智能。它也会有,但会大大的局限。对机器人来说,我觉得世界模型这个路径本来就是人类智能中非常重要的视觉理解和泛化能力,用一种更巧妙的方法运用在机器人的大脑上。那我觉得正好就可以展开讲一讲最近世界模型的进展啊。
其实一个比较受一些关注的就是英伟达从去年底到它在GTC上。又反复去说的 WAM,那么这个叫世界动作模型,可以先稍微聊一下怎么理解世界模型,因为这在目前是一个比较宽泛的概念。其实世界模型不是一个新的概念。让我来定义世界模型。我们有一个基于现在的观测,可以预测未来会发生什么事情的这样一个模型,叫做世界模型。
世界模型这个概念其实已经应用到了非常多不同的场景,比如说在自动驾驶,在特斯拉的,呃,这个呃分享里面,他们也提到他们有一套世界模型,用于自动驾驶的仿真和模拟。在 OpenAI 推出 Soar 的时候,没有说自己是一个视频生成模型。Soar 的定义从来就是一个世界模型。对,当时它刚推出的时候,大家就在讨论这件事情。
嗯,因为 Soar 让大家感觉到模型似乎有了对物理规律的理解的能力,像乐困。他搞的这套体系也是一套世界模型,但是他认为在他的那个架构里面,其实物理世界有更多可以显性表达的规则去描述。嗯,有一些物理的这种 intrinsic 的信息,所以大家在面对世界模型这个概念的时候,基于自己的出发方向。有不同的这个解读跟理解。
那么,在机器人这个场景里面,最直接的就是通过视频生成的方式,或者说通过脑补的方式,我们可以预测。物理环境会因为我们的动作产生什么样的变化?所以它可以用来进行动作的仿真,可以用作呃策略的生成。所以这是我们认为世界模型相比于VLA是一个新的技术范式,或者说是一种新的模态的补充。那具体到英伟达做的这两个工作,Dream Zero还有Dream Dodo,它是在这个方法下做了具体的什么贡献?
DreamDojo可以想象成一个基于视频的世界模型的一个仿真器,我可以基于我现在的图像预测和渲染未来这个世界的样子,所以它是一个像一个仿真器这样一个存在。而 DreamZero 呢,呃,它是可以基于视频的生成的方式,可以把我现在的任务和现有的这种环境,呃,输出成作为机器人它需要去执行的这个策略和动作。
英伟达定义的这个世界动作模型,它不再是一个基于描述和观测直接输出一个对应的动作序列的一个方式,而是通过脑补建立一个因果的推理。然后在这个过程中生成我们对于机器人应该采取什么样的动作来符合这个世界的规律的一套方法,这其实都是脱离了以文本为核心和动作克隆为核心的这个 V O A
的这种控制的范式。如果我们类比人类的智能,文字代表的这种推理和思考的过程,实际上是一个更低频的、更复杂的一种推理思考的过程,而视频代表的智能是更加应激的、更加、更加实时的、更加与环境互动的一种能力。
嗯,我觉得这两个能力。在未来的通用集成里面都是不可或缺的。我有个比较模糊的理解啊,那它是不是相比于之前 VLA,它就有了一个时间感?因为 VLA 如果我直接从就是一个视频或者说一个图像,我到一个动作,它一帧一帧之间,它是理解不了这个前因后果的。呃,我觉得这个描述挺对的。为什么 VLA 是一个做一个运动生成模型是一个非常受限的模型?
因为本质上,它的底层作为 token 的描述,它实际上是描描描述了一个静态的状态,就是它的音谱的是静态的图片和我文字对于语义的描述。那它为什么可以生成一串的动作序列呢?是因为我们在训练 VLA 的时候,我们往往是先拿一个 VOM 的
backbone,我们已经训练了它对文字和图片的理解能力。同时,在这个场景里面,我们粘贴上一段关节的这个动作信息,所以它是强行的在一个文字和图片的描述映射了一段动作序列。
简单的说,它是一种。带有描述的行为克隆,这也是为什么我们在 VU A 的方式里面,在一个摇操作场景里面,我们在桌面去反复去叠一件衣服,因为这个衣服的不同的。折痕会通过图片的方式记录下来,以及它跟我对应的关节动作之间建立某一种映射。因为你刚才讲那个区别的时候,我就想到之前我们做的另一期节目是在讲具身智能的测评,然后那期的嘉宾是高阳和范浩强。
高阳是千寻的联创,范浩强是元灵灵机的联创。当时元灵灵机出了一个测评的平台叫 Robo Challenge,然后里面有一个 Table 三零的任务,其中有一个任务非常刁钻,是扫二维码。然后他就跟我说,所有的模型都做不了,因为扫二维码不是说这个动作是你这么对着它就能完成整个任务的,对你得就是这个画面变了,你知道你扫上了。
他说,就如果你不给他加点外挂的话,他都是做不了的。我觉得第一,VOA是可以增加外挂的,就像我们Agent今天也是可以增加外挂的,但可能更关键的问题是,VOA本身并没有在预测未来会发生什么,它是在建立某一种映射。就是当你看到这样一个图片和这样一个文字描述的时候,我就应该产生这样一个关节序列。这是为什么?
它的Generalization非常差,有的时候你把蓝色的杯子换成了红色,或你把左边的杯子换到了右边,它可能就会失效,因为在它想要克隆的行为里面,这些这些样本分布并不存在,所以它就会失效。但是世界模型的一大优势是,它是基于广泛的视频数据来进行训练的,而我们在视频数数据中可能可以见到的,但也不是保证的数据分布是更广的。
那如果我们能学到这么多广泛的数据分布中动作的规律,那我们用它来做,无论是运动的仿真验证,还是运动policy的生成,理论上它都有更更高的上限。就 Google 这一季度在做什么呀?因为 Google 当年其实 RT Two 它是 VLA 的提出者嘛。那如果说现在大家的重点重心变成了英伟达提的这个新的 WAM 动作世界模型,它可能能弥补很多以前 VLA 的缺陷。
Google 有什么新的进展吗?就是谷歌在拼命的搞视频生成模型,这是这是我们知道的。或者我想说另外一个事情,就是,至少我知道的 Gemini Robotics 的研究方向其实跟派的重合度是非常高的。他们拿出来的结果,在去年十月份还是夏天的时候拿出来的 Gemini 一点五的结果也是非常好的,在当时其实相比同时期的派是有明显优势的。
但如果你仔细去看,它为什么会获得很好的优势?一个非常重要的,是它有一个更好的基座模型。它用了Gemini来做基座模型,呃,它也用的是开源的帕利伽马,是一个明显小得多、要弱得多的一个开源模型。我们在国内的非常多的。具身智能公司看到的一个现象是,如果你换一个更好的预训练的语言模型,你什么别的事情都不用做,你最终模型的效果就会变得更好。
所以,对于一个比较清晰的研究范式、比较清晰的研究方向,比如说像V O A,那对于姑姑来说,它是有非常明显的后发优势的。嗯,因为它可以训练出更好的基座模型,可以直接受益于它的V O A模型。如果它也可以训练出一个更好的视频模型,Of course,它也可以非常受益于它的World Action Model。
嗯,就如果他认为这是一个值得投入的方向了,是的,所以我不会觉得很奇怪,他们会是一个后来居上的玩家。英伟达的这个世界模型的新方法,它现在有什么不成熟的地方?比如说,我看到它的速度是很慢的。就 Dream Zero,它跑在机器人上是七赫兹。我觉得速度问题都是可以解的。我觉得计算机科学的核心本质就是我们先找到路,只要有路,我们总可以总可以做优化。
就像就像 Kimi。对吧?DeepSeek 可以做这个推理的这种优化,极致的算力优化是好做的,但是路径的探索是难的。其实,如果你看 GPT 三、GPT 三点五刚出来的时候,它的 token 生成速度也很慢,但是今天我们可能生成速度已经相比当时可能有一一百倍、一千倍的增加。嗯,我觉得视频模型,因为今天还在非常早期,嗯,推理速度比较慢,我觉得是符合预期的。
我觉得更关键的是,具身智能过去几年其实一直有一个特点,就是我们实际上是高度受益于今天。大语言模型,或者说这个 V O M 相关研究这种进展的,就是因为我们有了更好的 V O M,所以我们可以训练出更好的 V O A;,因为我们有了更好的视频生成模型,所以我们可以训练出一个更好的世界模型。也就是意味着这些新兴领域在基座模型上面的性能的提升,是一个外部力量来决定的。
嗯,具身行业的外部力量决定。对,所以。今天 World Model 在今天的基础模型的水平遇到的挑战,可能没法靠自己这样去解决。那视频生成模型有没有可能达到一个绝对完美,或者说真正完全遵守物理的定律、空间的一致性、长时序的稳定?我觉得随着时间的进展,我还是很有信心的。我们也看到了,在图片、在视频领域,过去这一段时间,过去几年非常快速的这个变化。
但是,即便世界模型到了一个完美的状态,就是我们闭着眼睛可以脑补出未来三十秒钟所有可以发生的事情,那触觉的信息依然是缺失的。因为视频这个模态里面,自然就没有触觉这样一个一一个信号,所以未来在这个世界模型之后,我们怎么把触觉的信号融合进去,或者说增强进去?我觉得会是未来研究的很重要的一点。我觉得这正好补充了,就是你前面说的,你觉得,呃,触觉灵巧手和视眼模型是两个很重要的方向的另一个原因。
而且这件事儿,我觉得它就得靠具身行业自己来解决了,对吧?对,它不能靠那些基模厂商去解决了,因为大家可能之前也没有积累,或者说起跑线是一样。或者这恰恰是我看到很多创业公司在做的事情。就他们知道自己可能是很难去训练一个超大的VLA的,他也很难自己预训练一个超大的世界模型。但是,我可能可以解决灵巧手操作问题,G模型没办法帮我解决这个问题,我可能会解决触觉。
跟一个末端执行器结合的问题,因为触觉不只是在灵巧手上,触觉也可以用在夹爪上,可以用在 Sunday 这种 gripper 上面。嗯,那这些信息之前都是没有的。我觉得这个观察挺好的,虽然现在可能。这个在业界不算一个很容易被观察到的现象,因为因为大公司做这个的可能会相对少一点。大公司喜欢有 scale 的事情,大家过于笃信 scaling law,所以大家都想找一个能够 scale 的方法。
which 我我认为这个原则也是对的,就是为什么。为什么世界模型大家这么期待?王欣欣在今年的 GTC 的分享上面,他也专门提到了,从语数的立场来看,他们可能是更看好世界模型这样一个路线,就是因为它的理论天花板是更高的。就我们知道,如果你没有视觉,你读再多的文字,你也不能理解和描述自然界的很多现象。但是,哪怕你是个文盲,你不懂任何的文字,你不会说话,你也可以很好的在世界上生存。
英伟达他提的这个 Dream Dojo、 Dream Zero 的同时,他也讲了一个新的数据框架,就是这个 Ego Skill。说是用超过两万小时的自我中心的人类数据,去打破了之前灵巧操作迁移的一个规模的瓶颈。其实那个东西它有点像RT One一样,它训练了一个小模型,但是那套方法是可以用到VOA,也可以用到世界模型上。
就都可以用,都可以用,因为它都是整个数据金字塔的一个构成环节。嗯,如果我们思考这个数据金字塔,就是最精准的、最高效的数据,肯定是机器人直接的遥操数据,因为它准确的反映了一个任务机器人的每个关节、每个这个电机应该反映的状态,然后在这个基础上才是一些。类机器人架构,比如说像Yumi这种,在末端的执行器,它模拟了这个这个夹爪的这个特质,或者说像Dex
Yumi,它是在末端模仿了一个灵巧手的一个机械结构,但是它在手臂、在视角、在别的自由度上面,它是开放的,它并不约束于机器人这个硬件条件。
而 egocentric 则是更低一层的、更广泛的、第一视角的操纵数据,然后再下面才是广泛的互联网的 YouTube 的数据,那些可能都不是人在操作,它可能是各种物理的现象。所以英伟达提的这个 ego skill 的数据,它甚至都没有配合手套,它就是一个是配合手套 ego skill 那个论文用的是
manus 的手套那个素材的手套,嗯嗯,然后它采集了那个数据过后呢,它可以把这个 policy 应用到一个零敲手上面去,因为它本质上是五指的这个操作,但是它。
作为一个嗯预训练的数据,它是用在VUA上面还是用在World Model上面?我觉得都是可以的。嗯啊,它并不受限于它具体用什么方法去做预训练。所以可以说,它其实是同时提了两个东西。它这个数据是一个可以解耦的,可以用在不同模型方法上的。然后,同时他还提了一个模型的新的进展,新的想法。嗯,可以这么说,或者或者 ego skill data 的重视度。
在过去半年是急剧升温的,啊,因为大家找到了更高效的,呃,把第一视角数据训练进,无论是 VOA 还是 World Model 这样的一些方法。实际上,大家发现,为了实现运动的足够的泛化性,我们是需要在各个维度上面都有更多的这种多样化的数据进来。那以前无论是摇操。嗯,还是Umi这种方法,其他的数据的多样性是不够的。
我们要引入这个ego ego scale的方法,主要还是为了增加数据的多样性。其实,直接用互联网视频数据不是最多样的吗?这就是为什么数据金字塔,数据金字塔里面有这个数据质量这个概念,很大的问题就是。因为你是第一视角的视频,人的关节和手掌的自由度,甚至上半身的自由度和我们视野的自由度是非常开放的,而今天机器人是没有这么大的自由度,所以你通过第一视角的视频。
学到的动作并不一定能够真正的transfer到一个机器人上面,嗯,这中间的domain gap非常大,有很多动作、手腕动作、手指动作,你是根本学不过去的。当然,硬件越来越flexible,硬件越来越。强大是能够降低这个 gap 的,这是为什么我们要开发高自由度灵巧手,而不是低自由度灵巧手。但是,无论你再好的灵巧手、机器人的上肢,你跟人的这种自由度来讲,还是有巨大的差距的。
所以, ego-centric 的 video 会比第三视角的 YouTube 视频,甚至是没有人出现的视频来讲是更好的,但是它离一个 Umi 的数据。或者说一个遥操作的数据来讲,它的精度、它的这个呃数据质量还是有很大差距。嗯,所以这个金字塔如果遥操在最上面,然后互联网的视频数据在最下面的话,就是越靠近金字塔顶尖,就是越贵、数量越少,但是质量越高。
然后越往下就是反过来。对,所以 ego scale 的数据可能是比 YouTube 的数据要难获得一点,但是它的数量还是非常庞大的。你只需要带一个第一视角的这个摄像头。可能有,可能有,可能也没有数据手套。你如果有数据手套,你有手指的具体的动作,你没有,你也可以去学。这个金字塔里全部都是真实数据,也可以包含仿真数据。
仿真数据,仿真数据有两种仿真数据。第一种是完全虚拟环境里面建模,你有各种准确的参数,或者说你是用纯生成的方法生成的这种数据,它可能介于 ego scale、 ego-centric 和 Umi 数据中间的一种一种质量。它也可以是。真实数据的 augmentation,嗯,就把它扩增了,嗯,比如说你把 Yumi 的数据进行了扩增,它也是一种仿真数据。
所以仿真是一个,是是一种手段。你觉得像英伟达,包括还有很多其他公司啊,像扎诺尔里斯去年十月也发了这个数据上的一些新的解决方案。这些新的方案是不是意味着现在数据这个瓶颈其实基本上已经解决了?对具身智能来说,我不这么认为。我我觉得不是数据问题解决了,而是大家看到了可能可以怎么去解决数据问题。哦,所以现在是看到可能性的那个阶段。
说到商队,我觉得商队对行业是有巨大的促进作用的。我认识托尼跟池晨也有相当一段时间。呃,我很佩服这样的创业者,是因为他们真的能够,他们真的能够推出这个世界上并没有的非常巧妙,但是事后你又觉得非常合理的一些创新和这种设计。驰骋当年在斯坦福的时候就在做这个 Umi 这个方案,Umi
本质上是他当时参与的工作,然后被 Generalist 进行的改良,然后广泛的进行了数据的采集,而 Sandy 在这个基础上进一步的把两指的 Umi 扩增到了三指。
嗯,其实 Umi 就是人去手持一个夹具去做一些动作,同构的夹具,因为你一旦是异构,你必然就有 domain transfer 的损失,所以它是一个同构的。夹具,而且它是三指的,也带这个触觉和反馈。通过增加这么一指的自由度,其实大量的动作,可能夹具很难去做的动作,通过Sunday那个规三指就可以做了。
对他这个同构就是和他自己的机器人本体同构,对,嗯,就是它的采数的那个东西是一个三指的,然后他自己的机器人上也是一个三指的末端,对,那个那个东西他们是迭代了非常多版本才收敛到今天这个形态,以及在这个形态上,他们是可以开始去比较低成本的。去采集大量的数据,这个也是很多现在中国公司在做的事情。我觉得中国公司的好处就是,只要有人把路线指明了,我们的follow的速度是非常快的。
但是,即便在过去六个月,优米的方案包括类似Sunday的方案开始快速出现,但是他们数据的scale和数据的清洗和准确的标注还需要很长的时间。我不觉得这个呃会很快的达到数据饱和。其实今年国内的很多具身智能的公司的目标都是实现百万小时的真实数据的采集,通过类似优米的方法。但我认为这个。还是需要一段时间去真正获得这么大量级的数据。
你觉得百万小时数据可能是有挑战的,是吗?因为百万得是有效的,对吧?对,百万有效的数据,因为你还需要清洗,你还需要标注。但是这个东西就,哪怕你有了百万小时的数据,是不是它就是足够了?我觉得我今天还没有这样的一个结论。除了英伟达。最近的这些成果之外,世界模型在整个业界还有什么新的进展?比如说像 Google 的 Gemini 三、Simar 二这些,你想讲一讲吗?
不太是跟机器人相关。我觉得 Google 的 Gemini 三。包括字节的 C dance,这些生成模型或者说仿真器,我觉得都是都是间接的会受益这个机器人这个这个领域。啊,这里面具体的一个细节什么呢?就是比如说 Giga 三,它是一个高度基于 diffusion
的一种生成的一个网络,它是追求这种视觉上的 high fidelity 视觉上的 appealing,但是它对于物理界物理环境的遵从就会很弱。
那这个东西对于我们训练物理的这种交互来讲,就是就是很不好的。包括 C dance 也是,就 C dance
为了更好的视觉效果,它会突出各种艺术的风格或者视觉上的表现力,它也不是为物理的动作去优化的。然后回答你刚才那个问题,你说如果世界模型未来需要很多的算力,是不是中国公司有可能在这个维度上落后?那我给你分享个特别有意思的信息,今天基本上世界上绝大部分,如果不是所有的世界模型、机器人视觉模型,它的基座模型都是基于阿里开源的
One 二点一或者二点二的基座。
所以英伟达都没有自己训一个。是的,他们用的是 One 二点一。所以像英伟达这种其实挺有钱的公司,他也没自己训,主要是觉得这很麻烦,是吗?没必要。我觉得今天还是没必要。我觉得今天还是在一个,研究阶段,研究阶段。对,你说未来他会不会自己训?我觉得是有可能的。但是对他们来说,万二点一或者二点二是他们可以访问到的、被广泛调试过的一个开源的视频视频生成模型。
但是这里面的诟病是非常多的。如果你问我世界模型今天遇到的挑战,我问了很多研究员,他们给我的反馈都是万二点一还是二点二是根本不适合机器人视频生成的。嗯,他可能最开始的目的也不是为了这个,不是为这个,只是说你能找到的开源的就是这个最好的,然后之后就没有开源了。所以这可能是另外一个很有意思的问题,就是整个市场视频生成模型的算力资源消耗太大了。
以至于今天头部的公司都不愿意继续开源的工作,至少现象是这个样子。因为他觉得,就是我花了很多资源,好不容易做的事情,我不想直接就贡献出去了,是吗?我我可能也是因为这个商业化在一个比较早期,我觉得从竞争逻辑来讲,只要我不是第一名。我我的开源策略是可以降低头部公司领先的这个溢价和优势的,就像 DeepSeek、包括 Kimi 这些公司选择开源策略一样。
就开源对于 follower 来讲是一个很好的策略。反正你的闭源模型是很难收到钱的,因为你不是最领先的,所以我觉得未来。随着视频生成技术的成熟,我相信还会有厂商选择继续开源。嗯,对。那那回到刚才那个问题啊,就是你说,如果大家现在的基座用的都是阿里的开源的视频生成模型,那这和就我刚刚说的这个问题,会不会说在世界模型的竞争阶段,中国公司因为算力会相对少?
会处于一些弱势,那我觉得还是有可能,因为你说的是现在的状态啊,有可能。但是如果如果是世界模型高度依赖于 SOTA 的视频生成模型,至少我没有觉得字节的资源会比 Google 少太多。这还涉及到另一个问题啊,分工的问题。其实你看你刚才描述了这个状态,像阿里它的模型被很多巨声公司来用,对吧?但巨声公司自己会觉得没有必要,或者说他们没有资源去训一个基座的视频生成模型。
那最后这些创业公司它的发展就其实还挺受限于,就是那些做视频生成模型的公司的。有一种可能就是字节可以自己把这个事儿干了,而且字节确实也在干啊。一直是所有模型公司都会面临的一个问题,不管你做什么模态的模型,你都可以说,可能长期来看,一个独立的模型公司所有的。大模型也好,视频模型也好,语音模型好,的公司都竞争不过最有资源的大厂,因为大厂的
unified model 可以把所有事情给做了,或者说它有足够的资源把这个研究给做下去。
我觉得这个问题是一直存在的。当然,如果你们 Google 的人,可能他们真的是非常相信这一点的。你说非常相信大厂最后会把这些都做了?对,没有人会做得过他们,就有可能最终就是大模型时代的一个终局。但即便这个事情发生,我认为。对于真正想要落地的具身智能公司和通用机器人公司来说,也也有足够多的事情要做。嗯,就是他在那个之上还是有很多空间,很多工作需要他们自己去做的。
对,当然这个边界可能会越来越越模糊,它不像并不像iOS跟Android,对吧?这个边界非常清晰,就什么事情是你做,什么事情我做。操作系统,但是它还是有边际的,因为,因为你在可能长期来看,你在具体场景里面的know how和数据。还是最有价值的资资产,这些东西并不是每个大厂都会拥有。像英伟达提的这个新的方向,有什么新的创业机会吗?
我看美国最近也有新的公司出来,也有融钱很多的啊。对,我正好在GTC的时候看到了那个,呃,宣布那个四点五亿融资的Road
AI的这个团队,他们就是一个以世界模型为创业方向的一个创业团队。那他们作为创业公司,他们要自己去做世界模型的视频生成的那一部分吗?还是他也用一个开源的模型来做那部分?这个具体的细节他没有跟我讲,但我听起来,哪怕他们用了开源的生成模型,他们也自己采集了非常多的,可能是 ego-centric 的
data,嗯,就视频 data,嗯,有自己的数据,嗯,他他是做 continual training,他做再训练,就有些基座可能已经训练好了,其实。
就像 V O A 一样,已经有一些预训好了、预预训练好的模型,比如说像 Clip 的模型,你是没有必要自己重新训的。你可以在这个基础上,再把很多你自己的数据加进去进行再训练。中国像有这样的新公司吗?就是它可能不是以 V L A 为主的,它是以世界模型这个方式去探索具身智能模型的。呃,是有一些的,像那个呃机加科技,他们宣称自己在做这个世界模型这个仿 approach。
皇冠创立的。嗯,他以前是地平线,后来在后来在建智啊。对,但我真的不是很熟,他们到底做的怎么样?因为这个现在世世界模型的 matrix benchmark 应该是非常 rigor 的,也是个很新的方向。就从作为创业方向来说,对创业方向是个新方向。但是这次呢,我觉得这次我明显能够感受到,大家看到的视频生成模型竞争的挑战,这个是显著是比 V O A 这个路线的。
这个陡峭度是更高的,所以很多团队也在思考,就怎么怎么去面对这样一个新的技术范式。就是大家认为它理论上空间肯定更高,但同时肯定更难,嗯,肯定更难,而且看起来至少今天看起来特别大厂友好。它这个难,除了就是你刚说它需要的算力资源特别多之外,还有什么别的地方难吗?其实其实就是在这个地方,数据跟算力消耗都很大。
因为你想训练,你想训练一个好的视频生成模型,你就需要有足够多的、足够多的非常丰富的这个 diverse 的视频数据。就哪怕我是基于一个已经开源的模型去做再训练,也是你采集数据也是巨量的。你采集数据是这样的。我其实之前跟一个国内的大模型创业公司做多模态模型的负责人其实聊过。他们之前也也在做,也在做视频生成模型。
这个工作继续下去,压力非常大。他说:“我把几个 petabyte 的数据,呃,就是拷贝一次,可能就是几十万人民币的账单。我什么都没有做,就这个的消耗量跟你处理几个 TB 的 token,嗯,不是同样的这个代价。那另一方面,大厂它虽然看起来有很多互联网内容,但是从合规的角度,是不是也不能直接用了?比如说之前我跟 Google 的人聊。
”他们说,Google其实内部想用Google的数据,甚至有的时候感觉比一个外面的创业公司还麻烦。它有很多合规的流程,很多法务的问题。但是我发现了一个coincident。就是今天最好的三个视频生成模型,就是拥有 YouTube 的 Google,拥有快手的可灵,和拥有 TikTok 的 C Dance。
其实更关键的是,所有这些好的算法架构训练的这些 recipe 是靠海量的实验和算力堆砌出来的。我觉得这是今天所有具身研究的创业公司遇到的一个很大挑战。我没有那么多的算力怎么办?哪怕我有几万小时、几十万小时的数据,我也清洗好、标注好了。但是我为了训练出那个模型,为了训练出派零点六,我是要做很多尝试的。
我的 recipe 是怎么出来的?这是需要算力去去去去。去去测试的很多公司实际上是缺这个资源,对,其实是缺实验,对吧?缺实验数量和实验规模都是反复的实验,嗯,这个都是要靠GPU来支持的。对,前面其实我们就聊的这些内容啊,包括对中国公司的盘点、美国公司的盘点,已经涵盖了你提到的这五个你最关注的进展。然后后面可我觉得是想就是来总结一下,其实具身领域很重要的一些。
基础设施和商业进展的话题,一个就是算力。呃,其实一般业界我觉得讨论算力是比较少的,就相对于大模型的人对算力的讨论,尤其是端侧的算力。就刚才我们说的是训练模型的算力,提到了一些。端侧算力现在在巨身是一个什么情况?就比如说机器人上的主芯片,大家会用哪家公司了?目前看来,如果是实时推理,如在人形机器上面做实时推理的话,大概率他们最默认的选择是英伟达的英伟达的车载芯片。
是英伟达的车载芯片,都不是 Jetson 这个系列吗?因为英伟达有一个机器人系列,不是不是 Jetson, Jetson 算力不够,Orange 系列甚至更高的这个 Thor 系列,因为核心的原因是,呃,今天需要的算力还是很高的。大家,我觉得 Jetson 的定位是比较尴尬的,就 Jetson 算力没有那么大,而且而且你就这么想,你这个逻辑其实特别好好好想。
今天,那些做端到端自动驾驶的公司,想把一个模型实时的压到一个 Orange 上面去,已经要费九牛二虎之力了。那具身,VOA也好,世界模型也好,它的模型的复杂度不会比一个自动驾驶模型低,所以今天完全没有到要节省算力的一个阶段。我在一个一两百瓦的功耗内,我能够拿到最好的算力就是一个自动驾驶的芯片。所以英伟达依然是这个领域的基础设施方。
是的,没有什么其他公司嘛,像高通这些不做这个。呃,目前看来,其实除了我看到的,可能除了那个英伟达之外,国内很多公司其实是在跟地平线合作。地平线啊,对,因为哦,对,国内也有一些之前做自动驾驶芯片创业的公司。对,因为呃,自动驾驶你从量产的自动驾驶来看,可能百分之四十是英伟达,百分之四十地平线,可能其他厂商还有百分之二十的市占率。
那很自然的,很多人会把车载的这个芯片也用到人形机身上面,所以这个机会也可以属于华为,也可以。华为在自动驾驶、高阶自动驾驶里面还是有相当的市场份额的,但它的挑战。可能也是大厂的优先级的问题,因为它有制裁的限制嘛,它大量的芯片产能还是优先供给给这个云上的芯片以及手机端的芯片。那对于车载的芯片,我我的理解优先级是不够的。
嗯,那机器人优先级可能就更低了。这也是英伟达遇到的问题。英伟达在云端 GPU 是完全统治、压倒性的地位,但是到了车载,它就已经不是一个完全统治的地位。对,因为其实高通在车载也做的挺激进的。就高通一直讲这个仓价议题,然后更低成本、更高性价比的方案,嗯,是的。然后再到了机器人,我觉得英伟达的优势可能就会进一步的被削弱,嗯,因为真正量产的机器人是很考验成本、功耗等一系列抉择的。
那今天可能巨神机器人还没有到。规模化量产的阶段,但是如果我们看其他的商用的机器人、家用的机器人、扫地机器人、无人机,没有人再用Jetson的方案做做量产的产品,意味着这个市场是开放给中国的其他的其他的公司的。那像这个市场现在主要是哪些玩家啊?就已经大规模量产的家用机器人,最大的就是地平线地瓜。地平线和地瓜,嗯,或者说最大的就是地瓜。
地瓜是地平线拆分的公司嘛?对,因为地瓜算是它孵化的一个公司,嗯,就是就是做这个市场的,就是可量产的商用机器人、消费机器人的算力,然后可能还有一些更低端的,像全志、瑞芯微传统的 ARM 的芯片。MCU芯片,英伟达在这里面基本上是完全没有没有市场份额,所以从云端到车载再到机器人,英伟达的统治力是越来越弱。
我对这个问题的总结,这是一个典型的创新者窘境,就是他在云端太赚钱了。这个问题就跟当年Intel一样,Intel在PC端在服务器端太赚钱了,他是不愿意做一个便宜很多的手机芯片的。当年零五年的时候,乔布斯去找Intel,希望给他们做iPhone的芯片,Intel是拒绝了的。然后最后才诞生了ARM这样的公司的机会。
那我认为今天可能地平线或者地瓜其实面临是土壤的问题,因为达因为在云端太赚钱了,其实车载或者机器人的这种方向在公司内部完全不是重点。哦,还有一个玩家特斯拉,特斯拉,特斯拉其实就验证了一件事情:伊朗非常明确地表达了未来。自动驾驶的汽车、量产的汽车和 Optimus 的机器人会用同一款芯片,嗯,从架构、从算力、从能耗等一系列的考虑,它会为一同一款这个芯片进行优化。
所以,呃,它的这个选择其实也印证了说,就是从车载到机器人是有一个很好的技术栈和场景的延续性。所以,这也意味着国产的自动驾驶芯片的领先的公司大概率在居身时代。也是一个强有力的竞争对手。智能车时代能够自己量产芯片的公司,包括小鹏、华为、理想、小米等一系列公司,在具身智能时代也会是很有利的算力的。呃,解决方案。
那我感觉这之后应该会是一个很激烈的竞争了。你刚才已经说了好多公司了。一般来说,芯片市场我觉得它到一个比较成熟的阶段啊,应该不会有这么多供应商吧?呃,历史来看,或者你可以说的更直接一点,历史来看,一个复杂芯片基本上只有两个供应商,嗯,而且是二八分的。对,第一名百分之八十左右,第二名百分之二十左右。对,所以大概率。
未来的具身机器人或者人形机器人会经历一个非常激烈的淘汰赛。嗯,这个事情虽然没有发生,我觉得未来几年可以可以一直去观察啊。对,或者这么说,就是我觉得这可能对于任何创业者跟投资投资来说,它既是巨大的机会,也是一个巨大的挑战。就是人形机器人很有可能是一个高度收敛的赛道,它是一个通用的单一架构的一个一个机器人。
如果这个东西足够好的话,你的你的产量、你的规模应该是巨大的。那就意味着赢家会高度收敛。其实智智能手机之所以这么收敛,就是因为人的手就长这个样子。在 iPhone 发明之前,功能机是非常多样的。因为为了不同的需求,你可以创造出不同的功能机,就跟现在的 feature robot 一样。我们把今天的很多 robot 叫做 fe feature robot,扫地的、搬运的、工业的。
但是,一旦通用机器人形成过后,大概率它是一个高度集中的市场。但是汽车就没有这么集中了,汽车还是很集中的,因为它有地方产业。有地方产业保护,有有政府补贴,有就业等一系列的考虑。实际上,如果你看全世界的汽车工业已经高度集中了,美国就只有三个汽车公司,日本只有三家,是韩国只有一家两家,欧洲也是三家。对,所以你从这个角度讲,从商业公司的边界来讲,已经非常集中了,但是。
汽车明显会更加集中,你就说比现在未来会更加集中,因为随着 AI 和自动驾驶的普及,作为软硬一体的一个载体,它的门槛和优势会进一步放大。它的复杂度越高,它的门槛越高,它的这种软硬件的复利越高,它一定集中度高。所以我认为智能汽车或者自动驾驶汽车未来一定是高度集中的状态。那同理,人形机器人作为未来人类技术的集大成者,它的集中度一定会非常高,不应该出现那么多的人形机器人。
当然,可能在不同场景,我们有一米八的,有一米二的,对吧?有男的,有女的,可能会有,但是它的集中度应该也是非常高的。那对创业公司来说,更稳健的路是不是去做 feature robot?有一些这种特别场景的机器人,也许也不会被通用的机器人取代,对吧?今天我们来说很有意思一个事情,今天一些成功的年轻创业者就是在做feature robot,汪涛就是做了无人机,是是,对吧?
无人机也是一个robot,是的。石头就是做了扫地机,呃,可能还有一些公司做了割草机,做了。仓储机器人、泳池机器人、泳池机器人,其实今天的很多年轻创业者就是以这样的行动来来实现他的创业。那还有一个相关的问题,你觉得做非车 robot 的公司,它有没有可能进化成一个做通用机器人公司了?我觉得是有的,但是这个对人对对组织会有巨大的挑战跟冲击。
就像就像你相不相信一个家电公司或者一个传统制造业的公司,能不能把一个机器人产品或者是一个复杂产品做好?你对整个公司的组织文化、嗯基因是有巨大的冲击跟挑战。我其实想到一个例子,其实就是苹果嘛。那苹果最开始是个电脑公司,不是所有的电脑公司都完成了。苹果后面做的那些事情,对吧?但首先,电脑就是一个多任务的产品,且电脑就有非常重的软件跟算法的成分。
但是无人机和割草机其实,我觉得它也也是一个比较复杂的软硬结合。但是它是个单任务产品,我觉得单任务跟多任务产品很不一样。或者更好的一个问题是什么呢?最早做计算器的公司是惠普和德州仪器。但是他们没有进化成一个家用PC公司,虽然计算器已经卖到了千家万户。惠普没有吗?惠普不算吗?不算。它它是一个 IBM 兼容 PC 的一个组装组装厂商,它并没有真正的引领这个个人电脑的这个革命。
个人电脑是由是由是由苹果和和 IBM PC 带起来的。对,因为我在想,就是未来真的摘得通用机器人桂冠的公司,它到底是一开始就做通用机器人的,还是它有可能是类似于比如说像大疆,像一个扫地机器公司,就像 Jamaplu 里面那个机器人最开始是个泳池机器人,后来它变成了一个人。我认为。最终能够摘得这个桂冠的公司,应该是积累和建设了相关能力的公司。
如果虾爬有一天做成了一个通用机器人公司,我不会觉得奇怪。机器人公司很大的一部分是它的光机电结构、精密工程、量产这些东西,都是虾爬这个团队在过去十年被验证和打磨出来的能力。所以,对于通用机器人的成功来说,可能他们已经拥有了百分之五十的 recipe,他们需要补另外的百分之五十。那可能大疆也会成功,因为大疆也跟沙巴这个团队一样,是拥有这一系列的生产、设计和开发的能力。
但是,他们缺的百分之五十能不能补上?那就非常看团队的学习能力和迭代能力。那另一方面,就是强于智能的,他也要去补其他的东西,也有可能补上,有可能更难。哦,那我大概知道你的偏好是什么哦,嗯嗯,那最后我觉得是聊聊。这个一季度的资本市场的一些变化,今年一季度肯定有一个已经发端,而且明确的会贯穿一年的现象,就是中国具身智能公司的上市潮。
宇树已经提交了招股书,然后我也知道很多公司也已经交了啊。首先就关于这个上市潮,你觉得它整体上会带来一些什么影响?我觉得非常清晰的是,机器人是未来。中国可能未来十年,呃,一个国家级的战略级的发展主线,无论是底层的硬件技术,还是这个软件或者算法的这个大脑的一些技术,我认为宇树的上市应该会开启有全球竞争力的中国公司的这种发展的一个新的阶段。
所以从市场来讲,我觉得是很利好这些创业公司和投资人的。你觉得是利好创业公司?我觉得它有一方面可能会利好啊,就是比如说整个二级的行情非常好,就会利好。但另一方面,资源感觉会向头部集中,也有这个可能性。但头部集中不是坏事情啊。就像电动车一样,对吧?你投对,我觉得对整个行业不是坏事情。我说对其他创业公司啊,或者这么说,如果对创业公司来说,呃,创业成功的财富效应本来是驱动很多人进入这个市场进行创业和投资的,呃,原生的动力。
所以有成功的这种标杆企业,我觉得会会吸引更多的人才跟资本进入这个领域。我最近我跟很多,比如说清华、北大、呃,交大、复旦的这些最聪明的这些年轻人和学生的交流,我感觉可能有一大半的人都在搞具身智能。这个可能跟过去两三年一半的聪明的脑袋都在搞AI是相似的。我觉得至少这个比。一二年的时候,中国最好的脑袋都在想怎么提高广告转化率啊?
好吧,对,这是一种想法。嗯嗯,我觉得。从整个国家的发展阶段,或者说科技发展的节奏来看,今天第一到了中国企业和中国学者可以引领世界发展前沿的这个时间了。我们从一个追赶者,要进入创新原创的这样一个节奏,我觉得是第一个。第二个,从具身本身发展的时间点上,相应的很多要素也成立了。呃,大模型技术的成熟,对吧?
这个生成技术的成熟,甚至AI的算力,甚至数据中心这些基础设施的成熟,都是让具身技术的发展到了这样一个临界点上。所以,更多的资源和脑力朝这些可能会有突破、有产出的方向聚集,我觉得不是坏事情。就我自己作为一个投资人,做一个非常相信阿尔法投资理论的风险投资,我肯定是非常。提防泡沫和这种市场这种 hype 的,这可能是我作为投资人这么多年的本能。
但是你如果站在一个国家宏观的发展和战略的角度来讲,这就是中国引领世界的一个绝好的机遇。我们已经有了电动车的基础。我们已经有了AI的基础,我们也有了半导体和算力的突破。为什么我们我们不能在具身或者说通用机器人这些事情上面真正领先全世界呢?那这个的奖励如此诱人,所以无论资本市场也好,还是我去清华北大也好,我觉得大家都是你能看到一个巨大的能量在在积累。
所以你觉得宇树上市会把这个热潮再往前推一推?对,而且从我个人角度,我觉得宇树是一个呃商业质量非常好的公司,嗯,它不是一个泡沫公司。啊,它不是一个概念公司,它是一个有真实的用户价值、有真实的收入,也是一个经营很高效的公司。我觉得它的上市至少比。非常多其他的具身公司的上市是更有代表性的,对,因为现在其实有很多公司去就是启动这个流程啊,我觉得也有一种可能是有可能发生的,就是监管可能不会让这么多具身智能的公司或者机器人的公司都上市,它会有一些同质化,但如果有一些公司就是。
有的上成了,有的没上成。我觉得接下来可能对一级市场的投资、对创业热情也是会有影响的。肯定的呀,就是我觉得很多投资人的目的还是希望公司能够顺利推出上市啊。如果你知道它没有上市的预期,那很多人的确就不会投资了,对,所以我觉得接下来还是有挺多不确定性的,就这一年的这个资本市场会怎么变化啊?我觉得可能更关键的还是发展的速度。
其实我们类比AI经历的这么多个寒冬和周期,市场是容易对技术的短期变化有过高的预期的。虽然我们做做机身的研究和投资这么多年,我们其实是见过科技周期的这种冷热的。但是今天巨升的这波浪潮的确是非常的狂热,那肯定在未来一段时间,这个市场预期会有调整。我觉得这个可能比短期能不能上市,可能对市场的冲击和调整可能会更大。
你觉得现在如此多的钱涌向这个创业公司,涌向一级市场,这种现象什么时候可能会相对的平息下去,或者说结束?我很难判断市场的情绪,尤其是同行们的情绪。那现在这种情形超出你的预料吗?肯定是超出我预料的。我做一个统计,我觉得中国。中国到今天,估值超过一百亿人民币或者十五亿美金的人形或者具身智能的公司,应该已经超过二十家了。
同样,我们做内比,在大模型最狂热的时候,二三年、二四年的时候,其实估值超过一百亿人民币的大模型公司,也就是四五家。我们Clue里看到,今天大模型是有非常明确的商业化和行业应用的这种机会的。我们从Anthropic、从OpenAI的收入,我们可以看到,大家在快速的拥抱。和利用这样的新的技术,那具身可以真正落地,还需要很长时间。
我们最头部的宇树,也就是两亿美金多的收入,但实际上这个市场现在充斥了二十家估值超过百亿的公司,我觉得这肯定是需要。需要一些时间去吸收和淘汰的。嗯,那最后做下总结和展望,就是接下来一个季度到半年,或者说你确定你比较确定会发生的事情是什么?我觉得几点吧,呃,因为世界模型在快速的变成。行业研究的一个热点。
那么,无论是中国的公司还是美国的公司,有谁能够在世界模型这个基础上拿出显著超越派现在VUA技术路线的这种demo或者是结果?我觉得这个可能是值得期待的。第二个,也是刚才提到灵巧手的这一点,随着更多的研究人员拿着。带有触觉信号的高自由度的灵巧手,那在未来的一两个季度,会不会有更多灵巧操作的这种成果会出现,也是很值得期待的。
还有一个很有意思的事情,我觉得可能会在。会在未来一个月发生的,嗯,就是北京异状的人形机器人比赛。为什么这个很有意思呢?因为去年这个比赛举办的时候,很多人还觉得这是一个很搞笑的噱头,可能只有几家公司参赛,但是。今天我得到的信息,可能全中国所有的有头有脸的人形机器人公司都在不遗余力的,嗯,备战这样的一个比赛。
嗯,我认为这样一个高密度、高竞争性的活动,就像汽车工业里面的F1大赛一样。会催生很多前沿技术和方案的这种这种迸发和突破。对,然后它可能后面又下放到,比如说更量产的版本。是F一是有这个逻辑的啊。是的,我我认为我认为可能未来,人形机器人的运动会就是机身领域里面的F一,更快更好更远。哦,我之前没有从这个角度想,可能之前在比较早期的时候,大家更多是一个看笑话的。
你看,大家觉得是一个政绩工程。但是我我认为很多人性公司其实,在春晚过后是憋着一个劲儿的,大家都想证明自己,并不属于宇树,或者在某些领域有超越宇树的能力。那么像这样一个开放的、公平的。运动比赛实际上是体现大家对于技术的这种极致追求的一个很好的土壤,而且它做一个民众可以理解、可以欣赏的一个活动,我觉得它的表演意义跟它的宣传意义两者都是非常重要的。
那最后一个问题啊,我想请你分享一个此时此刻你觉得很重要,但是你还不知道答案的问题:人形是不是未来通用机器人的最优解?还是未来的通用机器人会扩散出非常多的形态和工作方式。你现在倾向于人形是最有解?我觉得我对这个题还是没有答案。我之前有很多质疑,但我觉得我今天没有答案。哦,所以你之前是更倾向于认同于第二种,就是未来会有很多不同形态的机器人的方案。
对,就像我们有汽车、有飞机,就会比较分散。人形只是其中的一部分。对。但是现在你是觉得这个答案更模糊了?我觉得更模糊了。对我自己来说,可能更模糊了。见证过机器人这几十年的发展历史,我不是一个简单的或者盲目的技术乐观主义者,因为我们知道这个事情很难做,但是我们也非常理解,技术的突破是非线性的。嗯,当它过一个临界点的时候,它可能真的进入一种正向加速的这种环境。
所以,我们能不能突破那个临界点,还是那个临界点?因为物理的限制,对吧?因为因为机械结构,因为电机结构,因为这个能能量结构的一系列的限制,我们永远达不到那一点。我觉得这个到今天我还是没有特别清晰的答案。我能够看到的是。整个世界、整个国家的资源、脑力、算力在涌向这样一个市场,在试图解决这个市场最难的问题,所以我很难,我很难打包票说这个问题可能五年、十年以后都不能得到解决。
所以我觉得我今天,可能感觉更加模糊了。我们可以把这个问题记下来,嗯,我我们之后一个是下一个季度可以看有什么新的问题,另外就是可以回顾一下之前的一些问题的答案有没有变化,想法有没有变化。这个可能也跟大模型的发展有关系,就是。我觉得,从 ChatGPT 开始到今天,可能大模型已经经历了三四年的发展。那大家对于 AGI 什么时候到来,AGI 还有多远这件事情本身,也是一个一个起伏震荡的一个过程。
但是,大家最终可能变得越来越理性,或者越来越乐观。我觉得可能对通用机身、对人形机来说,也会经历同样的一个过程。那今天非常感谢陈哲做客晚点聊,分享了一季度他认为的最重要的五个具身智能行业的进展或者说事件,我们也一一拆开去聊了这些进展。这里面包括人形机器人的一些进展,比如说宇树的表演,然后银河通用用全人形的机器人做的网球的这个demo,包括中国的公司也包括美国的公司,比如说我们也讲到了。
像 Optimus 遇到的一些挑战,呃,Figure 在美国的进展,然后我觉得很重要的一点也是我们讲了世界模型,这个可能是现在大家讨论很热的对 VLA 的替代或者说进化,这里面也出现了一些新的创业公司,比如说,呃,在水下一年之后一亮相就融了 4.5 亿美元的 Roda AI,中国也出现了一些这样的创业公司,然后对我自己来说,我觉得。
有很多额外输入的是关于灵巧手的这一部分,它可能未来有一个存在于像本体G1的这样的一个机会,而且灵巧手、灵巧操作、触觉的输入也对模型、对硬件的进展都有很多新的。变化,嗯,然后最后我们也稍微聊了一下,可能马上就会看到的具身智能的上市潮。那今天节目就到这里,各位拜拜。本期节目就到这里,欢迎收听。如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法,这也会成为我们节目的一部分,让整个讨论更完整。
你也可以把我们的节目分享给对这个话题感兴趣的朋友,欢迎推荐更多你想听的主题和嘉宾。你可以从小宇宙、苹果 Podcast 等渠道关注晚点聊 Late Talk,也欢迎关注我们的公众号晚点 Late Post。下期再见。具身季报26Q1:宇树招股书、人形再思考、英伟达世界模型、高自由度灵巧手。