157: 具身季报26Q1：宇树招股书、人形再思考、英伟达世界模型、高自由度灵巧手

宇树：量产一致性与控制范式的跃迁

宇树在2026年春晚的表演之所以引发行业高度关注，核心在于其二十多台人形机器人同步完成高复杂度、高动态动作（如弹射、大回环、连续翻滚）所体现的极致一致性。这不仅是单台机器调优的结果，更依赖于硬件质量控制、运控算法稳定性与系统级工程能力的深度融合。与波士顿动力早期液压版 Atlas 的跑酷视频相比，宇树的技术路径已发生根本性转变：从专家主导的经典控制（如MPC）转向基于动捕+仿真+强化学习的端到端策略训练。其动作生成流程为：真人动捕或遥操作录制 → 仿真环境中的强化学习迭代优化 → 高鲁棒性策略部署至实体机器人。值得注意的是，2025年发布的多项底层论文（如动捕迁移、虚拟训练工具链）恰好支撑了此次春晚的集中展示，标志着中国在本体与运控工程化层面已达到全球领先水平。

它不是因为这有巨大的商业机会和前景去做的事情。他在经营方面这种谨慎是深入他的基因的。就是他如果不是这样的人，不是这样创始人，他也活不到这一天。

每台机器在环境中受到的干扰都是不一样的，所以这个对于硬件的质量控制，包括这个运控算法的稳定性，我觉得都有很高的要求。

世界模型：从文本到视频生成的范式转移

英伟达在2026年Q1连续发布 Dream Zero、DreamDojo 和 Ego Scale 数据框架，并提出 WAM（World Action Model）世界动作模型，被视为对当前主流VLA（Vision-Language-Action）范式的重大突破。VLA本质仍是以文本为核心的多模态语言模型扩展（VOA为其演进形态），而WAM的底层是视频生成模型，实现了从“文本描述→动作生成”到“视频输入→动作轨迹预测”的范式跃迁。这一方向的雏形可追溯至字节2024年底发布的G2模型——首次将互联网级视频用于语言模型预训练并直接生成机器人动作。2025年以来，英伟达等大厂在视频生成路径上持续优化，显著提升了动作生成的时空连贯性与物理合理性。世界模型的核心优势在于：它不依赖人工标注的文本-动作对，而是直接从海量无标注视频中学习世界动态规律，理论上具备更高的天花板。当前尚无其他公司能实质性挑战英伟达在该方向的领先位置，侧面印证了其技术壁垒与工程投入的深度。

世界模型用在机器人领域的尝试，最早工作是源自于字节在24年底发布的G2，是第一次将这个互联网级别的视频内容运用到一个语言模型的预训练过程中，然后直接生成了动作和操作的效果，实际上是当时来看是在VLA之外的一个很创新的一个尝试。

核心来理解就是用视频生成的方式，而不是用文本生成的方式。我们理解VOA它的backbone还是一个语言模型……但是世界模型的底层是一个视频生成模型，实际上它也对应了我们理解世界的另外一个方式，就是用视频的方式。

人形机器人落地：从演示到真实场景的跨越

2026年Q1的多个里程碑事件共同勾勒出人形机器人从“炫技演示”向“真实场景”过渡的轨迹。银河通用与清华合作的机器人打网球Demo首次证明：在高速、需实时反馈的复杂任务中，现有硬件与算力已具备实现稳定交互的潜力，极大拓展了人形机器人在动态环境中的应用想象空间。波士顿动力则通过全新电动Atlas的量产发布，展现出对工业落地路径的深刻思考：其采用高度模块化的电机方案（全身仅两种主执行器）、支持360°快速旋转与双腿结构灵活切换，凸显了从“液压原型机”向“工程化产品”的转型决心。值得注意的是，电动Atlas并非全新概念——早在两年前已发布电动版本，此次为全新迭代。这些进展揭示了一个关键趋势：行业正从追求单机极限性能（如空翻、跑酷），转向关注多机协同、环境鲁棒性与任务泛化能力。然而大众易被表演效果误导，误以为机器人已具备自主决策与上肢精细操作能力；事实上，当前所有舞蹈/表演动作仍为预编程固定序列，缺乏抗干扰能力，且几乎不涉及复杂操作任务（如宇树尚未重点投入灵巧手方向）。

我觉得第二个要说的是，shapar的灵巧手在CES这个demo有一个长城的自主组装风车的这样一个展示，让大家看到了目前灵巧手全球范围内的这个soft的水平。

宇树人形机器人：从科研切入的快速成长路径

宇树人形机器人业务的增长速度远超市场预期：2023年其人形机器人收入占比不足2%，2024年跃升至27%，而2025年前三季度已突破51%，标志着公司战略重心全面转向人形机器人。这一增长并非偶然，而是源于其精准的市场切入策略——将人形机器人首先定义为面向科教市场的科研工具，而非直接面向工业或消费场景。H1作为首款人形产品，本质上是将成熟四足机器人“站起来”的快速方案；而G1则是宇树第一台为科研场景正向设计的机器人，身高从1.8米降至1.3米，大幅降低整机质量，从而显著优化电机功率密度、运动性能与电池续航。这种“小而精”的定位使其在科研市场迅速建立事实标准：目前全球大量开源与闭源人形研究均基于宇树硬件平台开展，形成极强的生态粘性。

基望从定义来讲就是一个面向科教市场的产品……他觉得没有很难，因为当时他并不相信人形机器人。

他一上来就把这个场景满足得太好了，别的公司可能会觉得我跑去跟他竞争没有差异化了。

高毛利背后的科研市场逻辑与供应链壁垒

宇树人形机器人2025年毛利率达63%，在软硬一体产品中极为罕见。这一高毛利并非源于成本控制优势，而是由科研市场的结构性特征决定：市场规模小（当前约十亿人民币）、订单分散、客户对价格敏感度低，类似早期激光雷达或灵巧手市场。例如，灵巧手售价五万美元一支，价格弹性极低——降价未必带来销量成倍增长。宇树的定价权本质上来自其先发优势与供应链成熟度：在推出G1前，公司已实现数万台四足机器人量产，累计交付超百万台电机，积累了深厚的硬件设计、生产与品控经验。而对新进入者而言，从样机到千台级稳定量产的跨越，涉及难以压缩的供应链验证周期——这构成了真正的硬件护城河。

对于硬件公司来说，硬件的设计、供应链的打磨、核心零部件的稳定性是需要长期验证跟测试的。

你很容易做出一个跟期望一样，甚至超越期望的一两台样机，但是你要实现像期望这种上千甚至上万台的可靠的生产，你是需要经历宇树之前所经历的这样一个过程的。

智能进化：从硬件霸主到‘大脑’追赶者

尽管宇树在硬件端已建立稳固地位，但行业下一阶段的竞争焦点正转向具身智能的‘大脑’能力——即感知、决策与模型泛化能力。招股书显示，宇树计划募资40亿元，其中20亿元将投入AI与模型研发，并已发布VOA与世界模型相关研究，表明其正加速补课。然而，当前核心管理层仍以王兴兴为核心的硬件背景团队为主，缺乏深度学习或AI领域的独当一面型合伙人，这可能影响其在模型创新上的速度与深度。不过，其生态位优势在于：只要宇树硬件仍是科研事实标准，无论开源还是闭源模型，都需与其平台深度耦合，这使其即便采取跟随策略，也能持续受益于行业生态发展。2025年人形出货5500台，2026年目标1–2万台，该目标在租赁市场（如擎天租）与表演需求爆发背景下具备可行性，真正瓶颈或在于产能而非需求。

宇树做的好，或者王兴兴做得好的一个地方是，他是一个非常极致和专注的创始人……对于怎么做好一个硬件本体的专注和极致的追求，我觉得是没有变的。

只要这个事情能够长期持续，我认为它的这种生态位是很难被替代的。

人形机器人实时球类运动的工程突破

银河机器人用双足人形机器人完成实时网球对打，代表了当前人形机器人在实时感知-决策-全身控制闭环能力上的重大进展。网球运动本身具有极高的动态挑战性：球速可达100公里/小时，在狭小场地内要求毫秒级的轨迹预判与响应，这对任何形态的机器人而言都是极高难度任务。尤其对于双足人形机器人，还需同步完成高自由度的全身协调动作（如挥拍、步态调整、重心补偿），远超跳舞或武术这类预设动作序列的任务。

技术实现上，该项目并非完全依赖端侧算力，而是在网球场部署了大量动捕设备与外部摄像头，通过强化学习反复训练模型，构建出高度定制化的感知与控制策略。这本质上是一个复杂系统工程，考验的是工程执行力与系统集成能力。正如某位从业者所言：

“它真的是实现了一个实时的感知决策，包括这种全身控制的这种闭环。”

“我觉得他们这个精心打造的demo其实拓宽了我们对人形机器人能力的想象。”

这一成果与Figure同期发布的全身运控Demo异曲同工——二者虽经精心编排与训练，但均为真机自主执行，非CG生成。它们共同标志着：人形机器人正从“结构可动”迈向“行为可控”，为后续通用化能力打下基础。

运控与操作的范式融合与形态再思考

2024至2025年，人形机器人领域正经历关键范式转变：此前下肢运动（local motion）与上肢操作（manipulation）长期分属独立系统；而2026年Q1起，随着硬件成熟与数据积累，统一全身控制模型的可行性已初现端倪。智元、Figure、英伟达（Sonic框架）等均在推进该方向，预示未来一年将加速迭代。

与此同时，关于“双足是否必要”的争议也迎来新认知。传统观点认为：在结构化环境（如仓库、工厂）中，轮式机器人更高效。但现实是——同等性能下，轮式方案未必更简单。以Boston Dynamics的Stretch为例：其AGV底盘+单臂结构重达近一吨，仅能搬运20–25公斤物体；而现代人形机器人（约70–80公斤）已可完成相同任务，且最小移动 footprint 仅40×60厘米（≈站立人体面积），可灵活穿行狭窄过道。

更关键的是重心控制的差异：人类通过动态姿态调节实现高负载搬运，而轮式系统需靠加重底座防倾覆，导致重量与成本非线性上升。若采用四轮四转方案，还需额外电机与升降结构，复杂度与成本未必低于人形。正如观察者所指出：

“今天一个人形机器人……它大概只需要四十乘以六十厘米的空间……而轮式机器人最大问题是重心问题。”

“在同样的表现性能上，其实轮式不一定比做人形简单，就复杂度上，成本也不一定比人形低。”

模块化设计与超人形态的进化路径

Boston Dynamics新版电动Atlas的突破，进一步印证了人形机器人的进化逻辑：模块化设计 + 性能冗余 + 结构去生物约束。其核心思路是——用标准化旋转电机替代定制化关节模组，通过电机性能冗余实现多功能，大幅降低生产、装配与维修门槛。尤其在美国技术工人短缺背景下，简化结构、提升可制造性成为关键设计原则。

更值得玩味的是，新版Atlas已不再严格遵循人体解剖限制：其头部与躯干可实现360°旋转，左右腿/臂甚至可互换。这意味着动作逻辑从“仿人”转向“超人”：一个转身动作，人类需三四步配合，而Atlas仅靠腰部电机旋转即可完成。这种设计不仅提升场景适应性，更释放了非对称、高自由度操作潜力。

美国市场方面，当前最受关注的是Optimus（特斯拉）与Figure AI。前者Gen-3已定型但量产时间一再推迟（或延至2026年下半年）；后者融资与估值领先，持续输出高质量演示。此外，Boston Dynamics（Atlas/Stretch）、One X（挪威）、Apptronic（德州）、Apollo等亦在活跃推进。值得注意的是，像Surgical AI这类公司虽被提及，但其核心聚焦于模型与数据层，属“轻硬件”路径，与全人形硬件厂商定位不同。

Optimus Gen-3 延期与高自由度灵巧手的技术困局

宇树科技的招股书发布，进一步印证了美国‘新硬科技’浪潮的兴起，并激发了中国一批创业公司的跟进。而作为该浪潮的标志性人物，马斯克曾在采访中表示 Optimus Gen-3（即第三代）已设计定型；但据中国供应链消息，原定四月亮相的 Gen-3 已推迟至六月下旬或更晚，量产时间也从原计划的2024年10月延至2025年。此前甚至有计划在2024年Q1发布，如今看来已严重滞后。

行业内部流传一句调侃：“Iran is always right, but its timing is always wrong”——即方向判断正确，但节奏总出问题。对 James（应为马斯克）而言，Gen-3 在软硬件层面均面临巨大挑战，尤其是高自由度灵巧手。该方案采用神驱（tendon-driven）设计，将大量电机置于前臂，通过键绳驱动手指，以模仿人手肌腱结构，追求更高仿生性与灵巧性。但这也带来严峻工程难题：组装一只灵巧手需在有限手腕/手掌空间内布设40余根键绳，其一致性、鲁棒性与可靠性极难保障；一旦某根键绳松动或损坏，维修如同外科手术般复杂。

“我们都说伊朗选择神驱灵巧手是因为它是一个更低熵、更仿真的选择……但如果你已经用了电机，你就不是肌肉，你从何而来？第一性的类比——人的肌肉组织可再生，而电机齿轮的磨损是不可逆的。”

“肌肉具有极高的能量密度与力矩密度，而电机在体积、能量密度上与之差距巨大。用非肌肉的东西去模仿肌肉，还期待同等性能，本身就不符合第一性原理。”

这种路线争议也折射出马斯克一贯的技术强执倾向：类似其在自动驾驶中坚持纯视觉+端到端方案，Optimus 的神驱路线虽被质疑，但若能突破，或成关键壁垒。未来能否量产1万台（2026年目标），将成为观察其技术成熟度的重要节点——灵巧手方案是否会在量产前转向，是关键变量。

Figure：愿景大师与制造现实的拉锯

Figure 是当前美国融资最多、估值最高的具身智能公司。其创始人 Brett Adcock 的背景颇具争议：此前成功创办飞行汽车公司 Archer（2021年SPAC上市后退出），再创立 Figure。他擅长讲述宏大故事、吸引资本，并具备连续成功退出的记录——这既被视作商业能力，也被批评为“重融资轻落地”的浮夸风格。

Figure 的技术进展不可忽视：过去一两年吸引了大量来自波士顿动力等机构的硬件与软件人才，发布了多款全尺寸人形机器人，并展示了全身运控能力。其自研的 Helix AI 控制框架采用双层/三层架构，实现从低频到高频的统一运动控制，在业内评价领先。尤其在硬件+模型双自研的路径下，Figure 成为除 Optimus 外，美国为数不多具备全栈能力的团队。

“我觉得他们应该值得奖励一个奥斯卡最佳影视特效奖。”

Figure 的高估值与持续融资，也折射出美国制造业的结构性困境：本土供应链严重萎缩，导致完全本土化生产成本极高。其大量零部件依赖盟友（如现代汽车提供组装与测试支持），而美国政府正推动“盟友代工+本土集成”模式——类似电动汽车战略，通过日韩企业赴美建厂补足制造能力。但代价是：在美国本土制造的成本可能是中国的2–3倍，长期能否被市场接纳仍是疑问。

Google × 波士顿动力：合作背后的制造困局

Google 与波士顿动力的合作，是其在具身智能领域“借力打力”的典型策略。此前 DeepMind 曾与 Apollo 机器人合作，但因硬件可靠性差、精度不足，合作效果不佳；而选择波士顿动力，则被视为更明智之举——其电动 Atlas 平台在硬件成熟度上远超竞品。

Google 本身并无全尺寸人形机器人研发基因，正如 Meta 在智能眼镜（Ray-Ban）上的失败所揭示的：互联网公司做复杂硬件需付出极高代价。Meta Reality Lab 十年累计亏损数百亿美元，Ray-Ban 智能版近乎成本价倾销；相比之下，波士顿动力虽成立早（1992年）、商业化缓慢，但依托现代汽车的制造资源，在组装与测试环节已形成稳定产线。

“Google 为什么不自己做全人形机器人？做硬件是极其复杂的系统工程，需要完整产业链配合。”

未来 Google 或将沿用“盟友制造+本土集成”路径：借助日韩企业在美建厂的政策红利，补足机器人硬件制造能力。但这意味着成本抬升与效率折损，也预示美国具身智能产业将长期处于“高投入、慢迭代”阶段——与国内“百万成本即可造出人形机器人原型”的快速迭代生态形成鲜明对比。

制造成本与系统架构演进

在讨论具身智能的硬件制造时，一个核心现实是：在美国本土进行机器人本体制造的成本可能达到亚洲地区的两到三倍，这种结构性成本差异将长期由美国社会承担。这不仅影响终端产品的定价，也直接关系到消费者是否愿意为“国产制造”支付溢价。当前活跃于本体制造环节的公司包括 Optimus、Figure、波士顿动力等，而另一类则更聚焦于模型层，如派（OpenAI）——后者常被中国从业者视为技术标杆。

“派零点六它最新的模型，还有三奈和 generalist 的数据采集的方案……我觉得派还是全球范围来看还是最领先的。”

派在 Q1 的工作延续了其前沿性：提出了一种类 OpenCL 的长时记忆机制，即通过文本方式记录并反思当前状态，以增强长时操作的一致性与稳定性；同时引入了真机强化学习与复杂场景下的在线策略优化框架，尤其在跨 embodiment（跨实体）与动态环境适应方面展现出领先水平。值得注意的是，这种记忆机制并非外挂模块，而是系统级整合的一部分——行业正逐渐形成共识：具身智能已不仅是基础模型问题，更是系统架构问题。

沙巴（Shap）在 CES 上提出的三层系统架构进一步印证了这一趋势： - System 二（慢系统）：以文本为输入，负责宏观任务规划； - System 一（快系统）：融合视觉、本体状态与任务描述，输出粗粒度关节动作（如力矩、夹爪开合）； - System 零（超快系统）：以触觉信号与 System 一输出的轨迹为输入，实现末端执行的闭环精细控制。

“实际上，它这个架构是在模拟人的这样分层的一个体系……大脑、小脑和末端神经的反应机制。”

该架构本质上是对人类运动控制体系的工程化映射：触觉反馈成为实现高精度操作不可或缺的一环。当前主流 VOA 或世界模型训练几乎完全缺失触觉信号，而 Shap 的引入，为解决“未接触即预判、接触后微调”的闭环问题提供了新路径——正如实验所示：屏蔽触觉后，人类连简单抓取都无法完成，凸显其在具身智能中的基础地位。

灵巧手：下一个下一个研究基础设施？

从四足机器人→VOA/两指夹爪→人形 locomotion，当前前沿研究正快速向灵巧手与高自由度操作迁移。Shap 的 22 自由度灵巧手（与人手相当）于 2025 年 5 月正式发布，此前海外研究者多依赖心动纪元的 12 自由度中自由度手。Shap 手的出现，结合英伟达 Scale 映射技术，显著提升了操作复杂度上限——尽管单价高达 5 万美元，但高校普遍通过补贴采购，以将其纳入研究基础设施。

“如果你是一个研究具身智能领域的世界前沿的研究人员，你今天应该研究什么？……基本上会围绕着灵巧手、世界模型……”

世界模型虽热，但其训练高度依赖视频生成模型，算力门槛极高：Sora 已暂停开发，而谷歌、字节、快手等大厂仍在持续重金投入。相比之下，灵巧手更适合作为创业公司切入点——它需要高自由度、高可靠性、低成本、完善传感器与开发生态。行业可能在未来 12–18 个月内形成类似 G1 机器人的“默认标准”：谁率先实现科研友好型量产，谁就掌握生态话语权。

历史经验表明，开源与硬件开放是生态爆发的关键催化剂。Mini 7 的准直驱动与控制算法开源，直接催生了国内四足机器人创业潮（如小鹏鹏行、宇树等）。宇树最终胜出，靠的不是追逐 AI 热点，而是专注本体、克制商业化冲动、长期打磨硬件。灵巧手领域同样如此：过早追求商业闭环而忽视科研合作，可能错失成为基础设施级产品的窗口期——这恰是小鹏机器马失败的镜鉴：在技术未成熟期强行量产，终被市场反噬。

机器马的教训与中美具身智能的起跑线

回溯小鹏机器人2021年推出的机器马项目，其本质是一次超前于商业化阶段的技术探索——彼时四足机器人仍处于高度研发密集期，尚未形成可落地的商业模式。这一失败并非技术路线错误，而是时机错配：在硬件尚未成熟、市场尚未准备就绪时强行推进量产，导致项目最终搁浅。类似地，当前中国多家车厂背景的人形机器人公司（如小鹏、比亚迪等）虽具备扎实的工程化与供应链能力，但整体仍偏重“快速跟进”策略，路线高度趋近特斯拉范式，创新性与差异化尚显不足。

从中美对比来看，行业常称“中美在具身智能领域处于同一起跑线”，这与大模型领域中国明显落后半代形成鲜明对比。原因在于，具身智能是软硬一体、高度跨学科的系统工程，涵盖硬件（本体/灵巧手）、系统架构、控制算法、供应链协同等多个维度。美国虽在顶尖AI人才、算力与数据资源上占优，但其硬件供应链短板（尤其是精密执行器、传感器）构成显著瓶颈；而中国在机器人本体与灵巧手等复杂硬件领域已实现全球领先，并在快速向“具身大脑”层延伸。随着研究进一步与具体硬件形态深度耦合（如手部自由度、本体动力学），中国在工程落地、迭代速度与系统集成上的优势有望持续放大。

机器人或者说通用机器人是一个非常跨领域的一个很综合的东西。

我觉得在具身，我们真的有可能是一个领先的一个状态。

世界模型：从视频脑补到因果推理的新范式

世界模型（World Model）并非新概念，其核心是基于当前观测预测未来状态的能力，早已应用于自动驾驶仿真（如特斯拉）、视频生成（如Soar、DreamBooth）等领域。在具身智能中，它特指以视频为 backbone 的视觉预测模型，用于模拟环境对机器人动作的响应，进而支持策略生成与动作规划。

英伟达近期提出的 World Action Model（WAM） 体系，以 DreamDojo（视频仿真器）与 DreamZero（任务→动作生成器）为代表，标志着从“描述→动作”的VLA范式向“脑补→推理→动作”的新路径跃迁：它不再依赖文本指令与动作序列的静态映射，而是通过生成未来场景，建立动作与物理后果之间的因果链。这使机器人具备更强的时间连续性理解与环境泛化能力——例如扫二维码任务中，VLA仅能复现训练时的固定视角与动作，一旦杯子颜色/位置变化即失效；而世界模型可基于视频预测“扫到二维码”这一状态变化，从而动态调整动作。

人类的智能是既离不开语言，也离不开视觉。

视频代表的智能是更加应激的、更加实时的、更加与环境互动的一种能力。

值得注意的是，当前世界模型仍面临推理速度慢（如DreamZero仅7Hz）、长时序稳定性、物理一致性等挑战。但正如早期LLM的推理延迟问题可通过工程优化解决，路径探索的价值远大于参数调优。更关键的是，世界模型的性能高度依赖底层视频生成模型的进步，属于典型的“外部驱动型技术演进”——其上限由大模型社区决定。即便未来视频模型达到“完美脑补”，触觉模态的缺失仍是硬伤：视频无法捕捉接触力、滑动、材质反馈等关键信息，而触觉恰恰是灵巧操作的核心。因此，触觉-视觉融合将成为下一阶段的关键命题，也正成为众多创业公司的差异化突破口——他们不追求训练超大基座模型，而是聚焦“基座模型无法解决的具身感知闭环”，如灵巧手触觉反馈、夹爪-物体交互建模等，走出一条“小而深”的技术路径。

触觉与数据采集的范式转移

触觉感知不应被狭义地限定于灵巧手本身，它同样可以集成到夹爪、Sunday这类三指 gripper 上，从而扩展其感知能力与操作灵活性。这一观察虽尚未成为业界主流关注点——因大公司更倾向追求可 scale 的通用方案，且过度笃信 scaling law——但其潜力不容忽视。英伟达在 GTC 上提出的 Ego Skill 数据框架，正是对这一趋势的有力回应：它基于超过两万小时的第一视角（egocentric）人类操作视频，并无需依赖数据手套即可实现高泛化性的策略迁移。该数据集虽精度低于遥操作或 Umi 类同构采集方案，却显著优于 YouTube 等第三视角或无主体视频，成为连接高质量仿真与真实世界操作的关键一环。

英伟达他提的这个 Dream Dojo、Dream Zero 的同时，他也讲了一个新的数据框架，就是这个 Ego Skill。说是用超过两万小时的自我中心的人类数据，去打破了之前灵巧操作迁移的一个规模的瓶颈。

它本质上是五指的操作，但是作为一个预训练的数据，它是用在 VUA 上面还是用在 World Model 上面？我觉得都是可以的。

数据金字塔：质量、成本与泛化性的权衡

构建具身智能系统需理解一个清晰的数据层级结构：遥操作数据位于金字塔顶端，精度最高但成本极高；Umi/Sunday 类同构采集方案次之，通过结构一致性降低 domain gap；Ego-centric 视频虽自由度高、采集门槛低，却受限于人机自由度差异，难以直接迁移手腕与手指动作；而YouTube 等互联网视频虽数量庞大，却因视角、动作、物理逻辑失真严重，质量最低。值得注意的是，Ego Skill 并未强制使用手套，说明仅靠第一视角视频即可支撑策略预训练，为后续 fine-tuning 提供良好起点。

当前行业正加速构建“百万小时级”真实数据集，但有效数据的清洗、标注与场景覆盖仍是瓶颈。即便拥有海量数据，其多样性与任务覆盖广度仍需系统性优化——单纯依赖互联网视频无法弥补动作自由度与物理一致性鸿沟。因此，高自由度灵巧手开发不仅是硬件升级，更是为弥合人机映射 gap 所必需的协同演进。

所以 ego-centric 的 video 会比第三视角的 YouTube 视频，甚至是没有人出现的视频来讲是更好的，但是它离一个 Umi 的数据或者说一个遥操作的数据来讲，它的精度、它的这个呃数据质量还是有很大差距。

基座模型依赖与创业机会重构

当前世界模型与机器人视觉模型的基座，高度依赖阿里开源的 Video-LLaMA One 2.1/2.2，连英伟达也未另起炉灶。这反映出一个现实矛盾：高质量视频生成模型训练成本极高，而现有开源方案（如 Gemini 3、C Dance）虽视觉表现力强，却严重违背物理规律，难以支撑真实世界交互训练。这催生了新的创业窗口：如 Road AI 获 4.5 亿美元融资，其核心并非从零训练基座，而是聚焦ego-centric 数据采集 + 持续再训练（continual training），以轻量级架构实现任务特异性优化。

更深层的挑战在于：若世界模型高度绑定 SOTA 视频生成模型，则中国公司可能受限于算力与生态话语权。然而，独立模型公司与大厂的边界正趋于模糊——大厂虽具资源垄断优势，但具身智能的真正壁垒仍在于场景Know-How与闭环数据积累。未来竞争将不仅是模型规模之争，更是数据-模型-硬件-场景四维协同能力的较量。

他可能是做 continual training，他做再训练，就有些基座可能已经训练好了，其实。

上市潮开启行业新阶段

2026年第一季度，中国具身智能领域迎来明确的上市潮信号：宇树已正式提交招股书，多家企业亦已递交材料。这一现象标志着行业从早期探索迈入规模化、规范化发展的新阶段。宇树作为一家具备真实用户价值、稳定收入与高效经营能力的公司，其上市具有强代表性——它并非概念型泡沫企业，而是商业质量扎实的标杆。这不仅利好创业者与早期投资人，更可能通过财富效应吸引大量顶尖人才与资本重新涌入该领域。当前，清华、北大、交大、复旦等高校中，约半数最优秀的学生正投身具身智能研究，其热度堪比过去两三年AI热潮，远超早期以广告转化率优化为核心的互联网创业浪潮。

机器人是未来。中国可能未来十年，是一个国家级的战略级的发展主线。

我们已经有了电动车的基础。我们已经有了AI的基础，我们也有了半导体和算力的突破。为什么我们不能在具身或者说通用机器人这些事情上面真正领先全世界呢？

泡沫与理性并存的资本现实

尽管上市潮带来广泛乐观情绪，但市场仍面临结构性挑战。目前中国已有超20家估值超百亿元人民币的人形/具身智能公司，远超2023–2024年大模型热潮峰值（仅四五家同估值区间企业）。相比之下，头部如宇树年收入仅约2亿美元，多数公司尚未实现可持续商业化。这种估值与落地能力的严重错配，预示着未来将经历一轮深度的洗牌与整合。监管层面也可能对同质化严重的上市申请收紧节奏，导致“有的上、有的没上”，进而影响一级市场投资偏好与创业热情。

从投资人视角看，短期泡沫风险不容忽视——技术周期的冷热波动早已被行业亲历者反复验证。然而，若跳出微观市场波动，站在国家科技战略高度，当前资源高度聚集于具身智能领域，恰是中国从技术追赶者转向创新引领者的关键窗口期。基础设施（大模型、生成式AI、数据中心、算力）的全面成熟，正推动该领域逼近临界点。

我很难打包票说这个问题可能五年、十年以后都不能得到解决。

技术突破的多维窗口

未来1–2个季度，多个技术方向有望迎来实质性进展。其一，世界模型正迅速成为研究热点，中美企业均在探索超越当前VLA范式的替代路径，如Roda AI在水下蛰伏一年后首秀即融资4.5亿美元，凸显资本对底层认知模型突破的期待。其二，高自由度灵巧手+触觉反馈的普及，将极大推动复杂操作任务的进展——随着更多研究者获得带触觉信号的灵巧手设备，灵巧操作的成果或将在近期密集涌现。其三，即将举行的北京人形机器人比赛正从“政绩工程”转向行业技术竞技场：全中国主流人形机器人团队均全力备战，其激烈程度堪比F1赛车。此类高密度、高可见度的公开比拼，不仅能催生前沿方案，更可能通过技术下放推动量产落地。

我认为可能未来，人形机器人的运动会就是机身领域里面的F1，更快更好更远。