从物理到机器人:一场寻找‘第一性’的旅程

谢晨,光轮智能创始人兼CEO,早年就读于北京大学物理系,后赴哥伦比亚大学商学院攻读量化金融博士。他坦言,自己并非天赋型选手——在北大物理年级百余人中,他花了三年时间, nightly苦读至凌晨两点,才挤进前五。这段经历让他深刻体会到:努力可以提升上限,但天赋决定天花板。此后,他尝试过电商动态定价AI算法负责人(就职于曾意图挑战亚马逊、后被沃尔玛收购的“摘到com”)、产品经理等多元角色,始终在寻找一个能产生“前提性贡献”的领域,而非仅做锦上添花的优化。

真正转折点出现在2018年,他加入当时L4自动驾驶的前沿公司Cruise,负责仿真系统。起初,仿真在业内被视为“给投资人看的Demo”,生成的数据质量低、与真实算法训练脱节,甚至会拉低模型性能。谢晨凭借物理建模+量化分析+AI落地的复合背景,率先建立了一套仿真质量的客观评价准则,再引入生成式AI与仿真技术融合,最终实现了数据驱动的算法性能显著提升——这一刻,他真正相信了仿真的“魔力”。

最有效的数据是先失败再成功的数据

到了终局,可能整体上来讲,就跟马斯克说的,咱们人可能就在一个仿真里头。

仿真从‘加速器’到‘先决条件’的认知跃迁

在Cruise验证仿真有效性后,谢晨于2021年加入英伟达,负责自动驾驶仿真。一个关键发现颠覆了他的认知:Orin芯片的最大客户并非Waymo或Cruise,而是小米。这让他意识到,自动驾驶的下一代主战场正在从硅谷转向中国。仅入职六个月,他便携家带口回国,加入未来汽车,从主机厂视角构建了一套完整的数据闭环——涵盖合成数据生成、算法训练、大规模仿真评测与落地验证。

这段经历促使他完成关键认知跃迁:对自动驾驶而言,仿真仍是“加速器”;但对具身智能与通用机器人,仿真已升维为先决条件——没有高保真、可迭代、可验证的仿真环境,真实世界的试错成本将高到产业无法承受。尤其在大模型演进背景下,数据饥渴与真实世界采集瓶颈(如“撞墙式困境”)倒逼行业转向合成数据路径。

其实最有效的数据是先失败再成功的数据。

到了终局,可能整体上来讲,就跟马斯克说的,咱们人可能就在一个仿真里头。

创业初心:用仿真撬动机器人产业的杠杆支点

谢晨早年并非没有创业尝试:本科时组织北大交换团赴美交流;博士期间开发了一款狗友社交APP,在北美同类应用中排名前三,却因缺乏商业模式而主动关闭——他拒绝为VC资金而牺牲长期价值。这种“要么不做,要做就做到国际顶尖”的执念,使他反复试错近十年,才最终锚定仿真领域。

2023年,他联合严海波创立光轮智能,核心使命是:以仿真与合成数据为杠杆,系统性解决机器人产业的数据荒漠问题。他强调,当前大模型面临数据撞墙,而机器人更处于“数据荒漠”——真实世界交互成本极高、风险不可控。唯有构建可编程、可注入失败样本、可闭环验证的仿真世界,才能支撑具身智能的持续进化。

他坦言,自己与巴菲特、郎朗这类“十岁就找到天赋”的人不同,他更擅长通过‘证伪’识别方向:先排除不适合的领域(如纯物理研究、金融量化、消费级APP),再在硬科技与产业结合处寻找“不可替代性”。仿真,正是他眼中那个“除了我之外,别人很难做得更好”的支点。

从供应商到客户:理解仿真的双重视角

在英伟达工作期间,作者深刻体会到:英伟达并非一家简单的GPU或游戏显卡公司,而是一家以加速计算为核心的全栈平台型硬科技企业。这一认知转变发生在作者真正深入其内部之后——当时英伟达正将大量资源投入Omniverse与机器人仿真领域,其战略重心已从自动驾驶扩展至更广义的具身智能生态。作者回忆道,当时从Cruise跳槽至英伟达尚属主流选择,但外界对英伟达的理解仍显浅薄;他自己也坦言:“实话实说。我当时也没有那么看懂,直到我进入了英伟达,我才看懂它。

离开英伟达后,作者选择加入未来机器人(WeMo),动机在于希望切换至主机厂视角,从客户角度重新审视仿真系统的真实需求。他认为,未来最大的仿真需求将来自自研自动驾驶系统的主机厂,而仅在供应商内部难以获得全局洞察。因此,他希望通过外部创业的方式,构建一个更底层、更具通用性的机器人数据基础设施。正如他所言:“仿真难道只可以作为一个时间机器吗?有没有可能它对于AI,对于后面AI的发展,会类似于英伟达的卡一样,没有英伟达,AI就不会发展,而不是说啊,有了它,它只会发展的更快。

实话实说。我当时也没有那么看懂,直到我进入了英伟达,我才看懂它。

仿真难道只可以作为一个时间机器吗?有没有可能它对于AI,对于后面AI的发展,会类似于英伟达的卡一样,没有英伟达,AI就不会发展,而不是说啊,有了它,它只会发展的更快。

数据:AI时代的教育系统

作者将数据与教育系统进行类比,提出一个核心观点:数据之于AI智能,正如教育之于人类智能——是第一性原理层面的关键要素。他将AI数据的发展划分为三个阶段:

  1. 静态数据集阶段(如ImageNet):类似一次性填鸭式教育,强调规模与标注规范;
  2. 工业化数据生产阶段(如Scale AI):通过工厂化流程实现高质量、高时效的数据产出,类比量贩式教育;
  3. 反馈驱动的智能演进阶段(如大语言模型后训练):由高经验人群(工程师、科学家等)提供针对性反馈与题目生成,形成“师者传道授业解惑”的闭环,此时数据已演变为动态的、个性化的教育系统

在具身智能与机器人领域,数据的生成更依赖物理世界的真实信号或高保真仿真环境。作者指出,当前自动驾驶的数据标注仍停留在“有多少人工就有多少数据”的初级阶段,全球可能有十万至数十万人工标注从业者;而下一代数据体系则要求经验传授者直接参与模型训练与评估,其时薪可达百美元以上。这种转变意味着:数据不再只是被动交付的标注结果,而是主动引导模型成长的信号与经验流

数据约等于教育,我认为数据对于这个智能是啊极其关键的,因为我认为就是啊数据对于智能就要类似于咱们人啊去获取知识,啊来不断的去自我提升。

数据工作的演进:从标注到教学

传统数据标注工作流程通常包括:传感器数据采集 → 清洗与切片 → 工具链辅助人工标注(框选、分类、时序对齐)→ 多轮质检 → 自动化补充标注。尽管已有部分自动化流程介入,但整个行业仍高度依赖人力,尤其在复杂场景(如corner case)中。

相比之下,面向大语言模型与具身智能的新一代数据工作,已转向经验驱动的交互式教学模式。例如,在RLHF(基于人类反馈的强化学习)中,数据专家不再仅做“标注员”,而是扮演出题人、裁判员与导师三重角色:他们根据模型输出生成反馈、设计难题、提供多解路径(如编程题的多种实现方式),并据此反向驱动新数据的生成。这种模式下,数据厂商与客户之间形成了双向反馈闭环——数据商深度理解算法瓶颈,并据此提供定制化训练信号。

作者强调,这一演进标志着数据产业从“交付导向”迈向“价值共创”:当数据商成为算法能力的评价方与提升伙伴时,它就真正从‘工具’升级为‘教育系统’。未来,数据的价值将越来越取决于其能否提供高质量、高相关性、高时效性的经验传授,而非单纯的数据量堆积。

数据角色的演进:从正确样本到认知多样性

在传统机器学习中,数据的价值高度依赖于准确性与完备性——例如自动驾驶或机器视觉任务中,标注数据必须是“完美无误”的。然而,在大语言模型(LLM)与具身智能(如巨深)时代,数据的定义已发生根本性转变:真正的价值不再仅来自正确答案,而更多来自多样性、逻辑结构,甚至错误样本本身。以编程任务为例,同一问题可能有十种解法,其中哪些是优解、哪些是模棱两可、哪些是典型错误,这些认知分布构成了模型学习的关键信号。

一个典型案例来自巨深客户的数据迭代:初期需求是“完美仿真做披萨”(从冰箱取饼→加料→烘烤),但后续发现最有效的数据是“先失败再纠正”的负样本——比如切好蘑菇后失手掉落,再捡起放回。这类数据虽非“正确流程”,却极大提升了模型的鲁棒性与泛化能力,使其更贴近人类在试错中学习的认知路径。

“其实最有效的数据是先失败再成功的数据……这个数据往往是更有效的。”

“它更接近于人的学习过程,它更基于人的学习过程。”

零样本能力:模型是否‘足够聪明’?

当前模型的核心瓶颈在于零样本泛化能力(zero-shot generalization)——即面对从未见过的新任务(如从未训练过做披萨的机器人,能否迁移切菜、做汉堡的经验完成新任务),仍能有效执行。广密指出:模型本质仍是‘巨大压缩器’,其性能高度依赖训练数据中是否包含对应任务的分布;若数据未覆盖某类任务,模型即无法成功。

对此,谢晨认为:短期看,数据级模型(即针对特定任务补充高质量数据)是现实路径;但长期而言,模型架构的进化才是关键——若模型本身缺乏零样本泛化的底层设计(如第一性原理推理、知识迁移能力),则仅靠数据堆叠无法通向通用智能。他以马斯克式学习方式类比:智能差异不仅源于数据量,更源于‘学习算法’本身——即架构与认知机制的先进性。

“如果模型数据分布里面没有这类数据,这类任务就是不成功的。只有压缩过这类数据,可能才会成功。”

“本质还是它不够聪明……泛化性还是需要算法的架构来带来的。”

大模型团队与机器人团队的数据分野

过去六个月,大模型团队与机器人团队在数据策略上已出现显著分化:前者聚焦零样本迁移能力,后者聚焦本体适配性。大模型团队(如OpenAI、NVIDIA、阿里达摩院)正积极布局VLA(Vision-Language-Action)模型,但其目标并非硬件本身——选择最简机械臂正是为剥离本体复杂性,专注测试大脑的泛化迁移能力。他们依赖大规模本体无关数据(仿真+人类行为),通过scaling law推动认知跃迁。

而机器人团队则深耕具体场景:酒店服务、光伏板更换、汽车工厂产线……其数据需求高度场景化,强调本体-任务耦合性(如轮式底盘的稳定性、灵巧手的力控精度)。值得注意的是,VLA团队常与LLM团队深度协同:前者多复用后者的基础模型(如自研或开源大模型),并复用其万卡级训练基础设施与RL强化学习体系。更前沿的趋势是世界模型与VLA的共生演进——世界模型提供物理世界预测能力,VLA提供动作执行反馈,二者共享同一评测体系(如李飞飞团队的Behavior Benchmark),预示未来二者边界将进一步模糊。

“大模型团队用机械臂……其实现在最主要的这几个大模型团队都在做巨深的标A。”

“世界模型和VLA是一个很有意思的一个相互共生的一个关系。”

世界模型、VLA与大语言模型:三类‘大脑’的分工与协同

当前具身智能领域的模型架构正呈现出清晰的分层趋势。世界模型(World Model)更侧重于对物理世界的理解与预测能力,李飞飞团队开发的Enact评价体系正是基于行为评估框架(Behavior-based evaluation),既可用于评估VLA(Vision-Language-Action models),也可用于评估世界模型本身——这说明评价标准正趋于统一,预示着未来模型间的边界将更加模糊。值得注意的是,世界模型并非替代VLA,而是与VLA形成互补共生关系:世界模型更可能部署于云端,作为中央推理大脑;而VLA则更适合端侧部署,承担实时感知与行动控制任务。大语言模型(LLM)则主要在数字世界中运行,虽已具备一定程度的世界建模能力,但缺乏对物理世界的直接理解与交互能力,因此三者在功能定位上各有侧重。

‘世界模型可能更多的会是在云端的一个大脑,而 VLA 我觉得它会是在端侧的一个大脑。我觉得这个是可能是一个在长线啊,他们也会是一个共生的一个关系。’

‘大语言模型在数字世界已经具备了一定的世界模型的能力,但是呢,它其实缺乏对物理世界的理解。我认为世界模型是有物理世界的理解能力以及预测能力的。’

数据闭环逻辑的颠覆:从‘本体驱动’到‘数据商+场景商’协同

特斯拉开创的“数据引擎”(Data Engine)模式依赖其海量自有车辆作为本体,通过真实道路数据形成闭环飞轮:车采集数据 → 云端训练大脑 → 部署优化后的自动驾驶能力 → 再采集更优数据。这一逻辑成立的前提是:本体(车辆)具备极高的部署规模与覆盖率。然而在具身智能领域,这一前提正被颠覆:目前尚无百万级机器人本体可像汽车一样规模化部署于真实环境;若依赖人工遥控操作机器人,则成本过高、难以规模化。

因此,巨深(General Humanoid Intelligence)的数据架构必须重构为数据金字塔:最底层是少量真实机器人采集的真机数据;中层是仿真生成数据;最底层是互联网或第一人称视角的人类数据——后两类数据不依赖本体硬件,具备更强的规模化潜力。这意味着:未来巨深的大部分数据将不来自本体厂商自身,传统OEM“既是最大本体商,又是最大大脑商”的路径将不再成立。例如,特斯拉Optimus的“大脑”已交由xAI(即大模型团队)负责,印证了“大模型商提供通用大脑,本体商负责落地微调”的新范式。

在此背景下,两类新角色日益关键:一是数据商(如Scale AI),其角色正从“甲方乙方交付”演进为“与大模型厂商共生”——通过评测反馈驱动数据生产迭代,形成“数据→模型→评测→新数据”的正循环;二是场景商(如OEM、医疗集团、农业企业),他们掌握大量机器人落地场景,具备强烈部署需求与自研硬件能力,未来可能自主选择硬件平台,甚至直接基于大模型大脑定制解决方案。

‘在这样一个情况下呢,我觉得特斯拉的数据闭环在巨深就不成立了,相当于就是说不会存在一个本体上,它自己是最广泛应用的本体,同时它又可以做全世界最好的大脑。’

‘我认为后面可能是这四者的一个联系:大模型商提供大脑,本体商负责部署,场景商提供落地空间,数据商驱动数据闭环。’

数据鸿沟:大模型与具身智能的阶段差异与核心瓶颈

大语言模型与具身智能(巨深)在数据层面处于不同发展阶段。LLM的预训练数据已高度饱和(覆盖全互联网文本),当前瓶颈在于后训练与评测阶段——即如何获得更高阶的“言传身教”:由顶尖工程师、医生、律师等专家出题、示范、反馈,推动模型向系统性推理与专业能力跃升。而巨深面临的是结构性双重缺失

  1. 预训练数据严重不足:亟需物理世界(真实+仿真)的交互数据,包括物体属性、操作动作、语言标注及成功/失败反馈信号;
  2. 评价能力缺失:LLM与自动驾驶可通过“影子模式”免费获取用户交互或人类驾驶对比信号,而机器人在真实世界难以部署影子模式,必须依赖高保真仿真系统规模化生成评价信号

‘对于巨深来讲,现在并不具备这样一个大规模的评价的能力……它唯一可以的这件事儿,就是基于仿真去规模化。评价并拿到更多的信号。’

‘机器人的数据收集问题比大语言模型可能是结构性的难。啊,对,我觉得要难很多,可能是几个数量级的难。’

大模型能力瓶颈:预训练见顶,后训练与评测成关键

当前大语言模型的预训练阶段可能已接近天花板,进一步提升能力的关键已转向后训练(post-training)与评测(evaluation)环节。作者认为,当前主流大模型的整体能力约在60分水平,距离真正可用的高阶智能仍有显著差距。以“巨深”(即具身智能模型)为例,若假设百万台机器人返回的数据为起点(约60分),而现实中无论是真实部署、仿真还是人类示范数据,尚未有万台级规模的数据供给,实际能力甚至可能不足0.6分。更深层的问题在于:AI尚未见过真实人类工作场景,亟需大量专家在真实环境中提供高质量数据。这一困境与机器人领域高度相似——正如机器人是物理世界的agent,大模型的agent则是数字世界的agent,二者都依赖环境、经验传授与反馈信号三要素协同演进。

“我觉得其实机器人就是在物理世界的 agent,而这个大语言模型的 agent 其实是在数字世界的 agent。那其实我觉得他们遇到的问题其实很像。”

为支撑数字世界agent的训练,业界已发展出一种新型数据产品:LLM-as-a-Judge / RLHF环境(如LL Inf)。这类系统构建虚拟环境(如虚拟滴滴、京东、编程平台),让agent在其中基于预设目标进行强化学习式试错与迭代。与此同时,物理世界的机器人也在仿真环境中,通过大规模场景+明确成功指标完成类似训练。但作者指出,当前行业仍处于“预训练不足”与“评测能力薄弱”的双重瓶颈中——许多学术级基准(如巨深的benchmark)已被打爆,而更具挑战性的行为挑战(Behavior Challenge)(如李飞飞发起的项目)成功率仍仅26%,凸显真实世界复杂任务的解决难度。

“其他的这些学术级的benchmark,其实这些我们的这些客户最棒的这些大模型商,他们都已经把他们的benchmark给打爆了……足够难的是 behavior,一百道题,可能现在最高的分数成功率是百分之二十六。”

数据产业的纵向演进:从填鸭式到系统驱动

数据产业并非AI生态的附属分支,而是与模型范式演进深度耦合的主干系统。作者将其发展划分为三个阶段:

  1. 填鸭式教育阶段:以李飞飞的ImageNet为起点,数据即静态标注集(图片+真值),服务于监督学习,本质是“给答案”;
  2. 量贩式教育阶段:以Scale AI为标志,依托工业化流程(人力运营、质量管控、交付周期),支撑自动驾驶等大规模数据需求,实现从静态到动态、从实验室到产线的跃迁;
  3. 评测驱动型智能工厂阶段:进入大模型时代后,数据逻辑转向“评测发现问题→刺激新需求→精准交付”,Scale等公司由此升级为“Data Pyramid”——类似台积电晶圆厂,强调流程化、标准化、know-how沉淀,其核心竞争力在于可复现、可扩展的评测与反馈闭环

未来,随着模型能力逼近人类专家水平,数据供给将面临人力规模不可持续的挑战(如巨深所需数据量可能是Core Search的千倍级)。此时,产业必然从以人为中心转向以系统为中心:即构建智能引擎,通过端侧数据、仿真能力与工程放大机制,将有限人类专家信号高效转化为模型演进动力。这一阶段,合成数据与仿真环境将从辅助工具升级为基础设施级刚需——模型需要的不再是“老师”,而是可重复、可量化、持续演进的环境与评价标准,即“学校+考试”的系统化支撑体系。

“我认为这件事儿也一定是一个以评测驱动,而不是以这个……训练驱动的一件事情。”

仿真:机器人与大模型的共同底层基础设施

仿真在机器人领域绝非“加速器”,而是必备条件。原因有二:其一,机器人缺乏端侧大规模真实部署与人类示范数据(不同于自动驾驶),仿真是唯一可规模化采集训练数据的路径;其二,评测环节几乎完全依赖仿真——若要评估模型在千级家庭、万级任务场景下的真实表现,并实现每日算法迭代的量化反馈,仅靠少量样机无法满足。作者观察到,过去三年间,曾坚持“真实流派”的顶级大模型团队(如部分 frontier lab)已主动转向仿真与合成数据,用于规模化评测,印证了仿真的战略必要性。

“我不可能……在一千个家庭……同时去评价成千上万个不同的任务……这个我认为唯一的方案,只有通过仿真。”

仿真接受度的转变:从边缘到主流

过去,仿真数据的支持者(即“仿真派”)多为专注于机器人“大脑”开发的团队——他们更关注算法泛化与规模化评测能力;而真实数据支持者(“真机派”)则集中在早期大模型团队中,尤其是顶级前沿实验室,他们曾坚决拒绝使用任何仿真数据。但最近三个月,这一格局发生了显著变化:几乎所有头部大模型团队及世界模型团队主动联系我们,寻求规模化评测支持。他们面临的共同瓶颈是:无法通过真实数据或传统学术基准实现有效、可扩展的评测。例如,家庭服务机器人团队虽在叠衣服等任务上表现良好,却亟需上千个差异化的家居场景、任务组合与评价标准,以持续迭代模型能力——这在真实世界中几乎无法低成本实现。

“他们共同遇到的问题是什么?他们没有办法去规模化他们的评测了,这个是他们的核心的问题。”

“他们认为他们的算法已经做得足够好了……但是在真正industry其实没有太大的一个意义,因为他们太简单了,他们不够规模化。”

仿真需求的分层:RL控制 vs 大模型泛化

仿真在机器人领域的应用存在明显分层。早期采用者是从事全身控制(full body control)或局部运动规划(local motion) 的机器人公司,他们用本地仿真做强化学习(RL),但这类需求量小、部署集中,不构成规模化挑战。而当前增长主力是大模型与世界模型团队——他们需要的是大规模、高物理保真度、可复现的仿真环境,以支持泛化训练与系统级评测。VLA(Vision-Language-Action)模型更侧重行动数据(如本体/跨本体/人类动作),世界模型则更关注物理世界预测能力(如物体交互、事件演化),对第一人称交互数据依赖较低。三类团队虽需求有别,但都高度依赖仿真来突破真实数据的规模化瓶颈

“对于大规模的需求……更多的是这类大模型商、大脑公司,他们需要去泛化,他们需要去规模化他们的数据,或者规模化他们的评测。”

“他们一定会被一个点,至少一个点卡住,那他一定会用仿真。”

中国市场的现实张力:真机派主导下的认知错位

在中国市场,真机派仍占主流,其核心逻辑常被归结为“真机数据泛化性更好”。但这一认知背后是商业模式的深层驱动:多数机器人公司本质是硬件销售导向,其商业模式依赖“卖本体+数据采集服务”,因此必须强调真机数据的不可替代性。即便如此,许多“真机采集”实为半仿真——使用假香蕉、假苹果,在固定桌面场景中重复操作,物理多样性与场景广度远逊于数字仿真。更关键的是,真机数据的成本与规模化难度并非价格问题,而是物理可达性问题:如何快速进入千差万别的真实环境?如何频繁切换场景?这在现实中几乎不可能。

“他需要去真正的提倡一个真机派,才能够更有效的去把这些基于真机数采这样的一个商业模式去跑通。”

“很多我觉得大部分的真机的素材,现在如果你去他们的素材中心,你会看到他们,他们也在用仿真啊……他很难像仿真一样去规模化到可能更加广阔的、多变的,啊,足够物理真实的这些场景的应用。”

自动驾驶与机器人智能路径的分野

在比较自动驾驶与通用机器人智能的发展路径时,一个核心差异在于智能水平的上限任务复杂度。自动驾驶本质上是一个端侧、低智能、高重复性的任务:模型只需完成“把车开好”这一单一目标,遇到障碍物(如一个杯子)时,反应路径相对简单——避开即可。而机器人则需处理更复杂的物理交互:它必须判断杯子的材质、尺寸、重心,并据此决定抓取力度、角度与动作序列,复杂系数显著更高。因此,自动驾驶的智能水平相对有限,其成功路径更可能依赖模仿学习+少量强化学习,而非通用大模型驱动。

值得注意的是,自动驾驶存在两条潜在终局路线:其一是VA(Vision-to-Action)范式——在端侧算力受限、任务单一的前提下,通过模仿学习将司机行为压缩为轻量模型,足以满足安全驾驶需求;其二是VLA(Vision-Language-Action)范式——构建更通用的统一大脑,虽可泛化至其他任务,但对自动驾驶而言未必必要。作者认为,VA极有可能成为自动驾驶的终局形态,因其更契合“低智能、高可靠”的工程现实。

原话:"它其实更多是因为我在端侧上可能算力没有那么大,且有可能就是说这件事儿所需要的智能是相对有限的,且呢就是说我有足够的数据了以后,我可以基于模仿学习,把啊,就是把这个模型压到,就是更加贴近于这个司机的行为上就够了。"

原话:"自动驾驶这件事儿,我觉得他的一个……会不会有两条路线都能通?一条路线就是,呃,由于它的智能上限没有那么高,因此我VA就通了;还有一条路径就是我做了一个VA,它也能做,但是这个VA有可能它还能做其他的事儿。我觉得这两条路径有可能都是成的。"

数据逻辑决定技术路线:本体相关 vs 本体无关

技术路线的根本分歧,源于底层数据逻辑的差异。若一家公司依赖本体相关数据(即真实机器人/车辆自身采集的驾驶或操作数据),则其路径必然趋近于Waymo或特斯拉——前者强调限定场景的深度验证,后者依赖海量真实道路数据的广度覆盖。但若其底层逻辑是本体无关数据(仿真、互联网视频、人类第一人视角等),则其发展路径将显著不同,更接近OpenAI式的通用智能探索。

在机器人领域,本体相关数据的规模化极其困难:真实机器人部署成本高、场景覆盖慢、数据采集效率低。因此,真正可行的路径必须高度依赖仿真数据人类行为数据(如第一人视角视频、夹爪操作数据等)。作者指出,仿真与人类数据的质变已催生“通用机器人数据的scaling law”:Figure、U-Mi、Zeroth Hand等团队已用数十万小时的非本体数据验证了模型可扩展性。这标志着行业正从“刺激需求”转向“规模化交付”阶段。

原话:"我认为这件事儿会极其关键就是我认为如果没有这件事儿,如果没有巨深的金字塔的下面的仿真和人类数据,我认为就是巨深这件事儿的通用智能就出不来。"

数据金字塔:三层结构与闭环演化

作者引入数据金字塔(由朱毅可教授提出)作为理解通用机器人数据生态的框架:

  • 顶层:真实本体数据——最准确、最可靠(如遥操作机器人数据),但极难规模化
  • 中层:仿真数据——可大规模生成,虽存在sim-to-real gap,但随大模型预训练普及,该差距正快速缩小;
  • 底层:人类数据——包括被动采集(如GoPro视角)与主动采集(高精度设备+流程管控),是泛化能力的关键来源。

更关键的是,作者强调金字塔并非静态分层,而应视为以仿真为中心的闭环系统:仿真既可作为数据生成器,也可作为评测平台;人类数据用于校准仿真与真实,而真实本体数据则用于最终验证。这种闭环结构使各层数据相互增强,而非孤立存在。

原话:"我越来越认为数据它可能会是一个啊,就是以仿真为中心的一个闭环。以仿真的人是中间那一层。"

数据金字塔:以仿真为中心的闭环结构

数据并非静态堆叠的层级,而是一个以仿真为中心、以评测为驱动的数据闭环。传统理解中,数据金字塔常被视作独立分层的结构(如真实数据、仿真数据、人类数据等),但实践中更准确的图景是:仿真处于闭环的核心,连接真实世界与模型训练。要真正做好仿真的评测,必须依赖大规模、高保真的真实场景数据——包括物理世界轨迹、人类行为经验,以及针对不同任务的精细化评价标准。这些要素若仅靠仿真“闭门造车”难以生成,因此必须回流真实数据,形成“real to sim → sim to real”的双向闭环。

“从我们的实践中呢,我越来越认为数据它可能会是一个啊,就是以仿真为中心的一个闭环。以仿真的人是中间那一层。”

“真实的遥操作的数据、真实遥操作的评测和仿真的对标就会变得尤为重要……来真正的可以让Sim呃SimtoReal不止可以服务训练,也可以服务评测。”

人类第一视角数据:把人当作机器人训练

人类数据,尤其是第一视角视频数据,正成为闭环中关键一环。其核心逻辑在于:将人视为一个通用本体(agent),其行为数据可直接用于训练机器人或大模型。从第一性原理看,人类视觉系统是信息获取的最优接口——顶在头顶或胸前的采集设备,视角与人眼存在偏差;而智能眼镜作为消费级第一视角终端,则更贴近真实感知。Meta的Ray-Ban智能眼镜已验证这一路径:先以时尚产品切入,再叠加AI功能与数据采集能力,实现“用户愿戴、顺带采数”的自然闭环。

“咱们可以把人就是呃机器人,我觉得大模型很关注的一个能力就是跨本体的能力。如果从这个角度来讲的话,人是不是也是一个机器人?……所以本质上来讲,这种训练范式它其实就是把人当成一个机器人。”

“理想状态下,人就喜欢戴这个眼镜,而不是人为了数据去戴这个眼镜。”

数据价值重估:被高估与被低估的三类数据

当前行业对三类数据的认知存在显著偏差:真实机器人数据被高估,因多数团队已转向仿真与人类数据以提升评测效率;仿真数据仍被低估,尤其其评测价值尚未被机器人公司普遍认知,但大模型团队已深度依赖其进行大规模、自动化测试;人类数据同样被低估,其核心价值在于提供高保真、长程任务中的“失败-修正”经验轨迹。

数据定价高度依赖质量维度: - 预训练数据:趋于标品化,成本较低(如平摊至头部大模型公司); - 后训练与评测数据:价值显著提升,取决于三要素——物理场景真实性、轨迹专业性(含修正行为)、评价指标精细度。例如一段“做披萨”数据,若包含失误与修正(如蘑菇掉落后重拾),其单价可达数百至数千元/小时,远高于完美流程视频。

“其实你如果中间比方说掉了几粒这个这个这个菜,然后给它捡回来,再重新把这给做好,它会更贵。其实我觉得有点类似于人的学习,人的经验,对吧?失败了以后再成功的经验,往往是最宝贵的。”

数据价值链:从工厂到引擎

在数据生产领域,传统“data factory”(数据工厂)的定位已显滞后——它往往意味着缺乏技术深度、系统性弱、非反馈驱动的流水线式作业。相比之下,更先进的模式应是“data engine”(数据引擎),即以系统能力为核心、以工程化为支撑、以反馈驱动学习的动态生产体系。这种引擎不仅产出数据,更在过程中持续优化自身逻辑与数据质量。当前最稀缺的数据类型集中在两大类:预训练数据评测数据,它们构成了数据金字塔的高价值顶层。值得注意的是,数据并非越多越好,而应追求高ROI(投入产出比):聚焦于价值链顶端、真正能驱动模型能力跃迁的数据类型,远比覆盖全金字塔更有效率。

“我认为中局的数据公司可能跟教育公司是长得很像的。”

“数据越来越不像最早的自动驾驶、机器视觉那种‘有标准答案的完美数据’,而是越来越像人的学习——能从错误中学习的数据才是好数据。”

仿真与真实:构建可验证的评测闭环

高质量评测数据的生成面临双重挑战:既要足够难以检验泛化能力,又要可规模化以覆盖千级场景与万级任务。为此,团队构建了“仿真+真实”双轨评测体系:一方面,通过自研物理引擎高保真资产建模(如非刚体线缆插拔仿真),复现真实世界复杂物理交互;另一方面,设立真实机器人评测基建,用真实世界数据反向校准仿真结果——例如,在仿真与真实中部署相同算法,验证其性能相关性,确保规模化仿真的评测结果具备现实意义。这种“真实锚定仿真”的闭环,是避免评测脱离实际、沦为纸上谈兵的关键。

“如果仿真的评价与真实世界的评价脱离,那这件事儿就算可以规模化,它也没有办法真正产生实质的价值。”

认知共生:数据配方的协同演进

数据生产中长期存在的“扯皮困境”——数据方称模型未训好,模型方指数据质量不佳——根源在于双方对数据价值的认知未同步迭代。对此,核心解法是与最前沿的客户建立共生协作关系:在共同探索中,逐步明确“好数据”的定义——从早期追求“完美样本”,到后期重视负样本、纠错样本、分布多样性(如不同抓取角度与方式)。实践中,真正具备大规模预训练级数据认知的团队全球仅约五家,而数据公司若想持续贡献价值,必须与这些头部客户同步进化,形成双向认知反馈。数据金字塔的配比与有效性,需通过数万卡算力的反复验证才能确定,其本质是一场系统性实验与理论共建。

“我认为核心是两边是否可以同步去迭代——迭代相互的认知,这是一个很关键的事儿。”

大模型派 vs 机器人本体派:数据逻辑的根本分野

当前机器人领域的数据策略正呈现明显分化。以大厂VLA(Vision-Language-Action)团队与世界模型团队为代表的“大模型派”,其核心信仰是零样本泛化能力——他们更关注模型在未见过场景中的表现,而非本体硬件的复杂度。为此,他们高度依赖本体无关的数据:包括大规模仿真数据、人类示范数据,以及标准化的交互接口。这类团队倾向于构建轻量化、标准化的机器人本体,用以验证其上层模型的可迁移性与扩展性。在基础设施层面,他们更早布局大规模LLM式训练管线,尤其侧重仿真评测体系的构建。

值得注意的是,大厂资源分配存在阶段性倾斜:过去三年,机器人团队并未获得与大模型同等的投入;但自2024年起,随着大模型技术路径趋于明确,大量资源正加速向机器人方向回流。阿里、OpenAI、地平线、英伟达等五家已成为“机器人大脑”竞赛的前沿玩家。其中,地平线虽为创业公司,但其定位更接近前沿实验室(frontier lab),正大规模训练专用模型;而字节、阿里(通义千问) 等则依托其大模型积累,快速切入机器人智能层。

“他们需要的是这个零样本的泛化能力。我觉得这个是一个极其极其对,基本上能力。”

“如果说这个数据闭环是掌握在一个本体上,它有规模化自己最大的本体,去做最大的场景,拿回来最多的数据。他有训练自己最大的大脑,那这件事儿可能确实会形成一个霸权。”

本体公司的战略定位:做生态中的‘稳定支点’

与大模型派不同,传统机器人公司正经历数据策略的分化。部分企业仍坚持“真实派”路径,坚持采集真实场景数据;另一些则开始接纳仿真评测与人类示范数据,如Generalist团队通过类人夹爪实现人类动作迁移,即是对人类数据的创新应用。

这种分化背后,是商业模式的根本差异:若企业定位为“大脑智能提供商”,其目标是将机器人部署于真实场景执行任务;而多数当前公司实则扮演“数采厂”角色——仅负责数据采集,智能能力外包。在此背景下,语数(Yushu)展现出清晰的战略定力:它坚定聚焦本体研发,不参与大脑模型竞争,以可量产、高稳定性硬件为核心竞争力。这种定位使其成为未来生态中理想的“核心本体硬件商”——当大厂大脑团队寻求落地时,语数将成为高优先级合作对象。

类似地,智源(Zhipu AI)虽属AI机构,但其商业化路径从早期即强调“上下游全链路打通”;而巨深(Jushi)则以“供给驱动”逻辑推进量产,快速提升行业供应链成熟度。二者均展现出对机器人产业终局形态的深刻理解。

“语数其实我觉得它还是一个更加偏本体的一个模式……它的定位很清晰,它也不和它的,比方说啊,就是它也不和大脑公司去竞争。”

终局形态:从霸权走向共生的生态系统

关于“机器人大脑是否会形成垄断”的问题,答案取决于数据来源的性质:若数据高度依赖特定本体(如特斯拉的Dojo训练闭环),则可能催生单一霸权;但若主流采用本体无关的数据范式(仿真+人类示范),则必然走向生态协同——即大脑公司、数据公司、本体公司三方强耦合,共同推动场景落地。

当前中美发展路径差异显著:美国在大脑智能(尤其是大模型+仿真)上领先;中国则在本体制造(量产能力、供应链响应)上更具优势。但这一差距正在收窄:国内大模型能力已属世界前列(如通义千问为当前最佳开源模型之一),且基建、人才密度持续提升。资源正从大语言模型向机器人方向转移,核心动因有二:一是大模型技术路线趋于收敛;二是行业开始厘清本体相关 vs 本体无关数据的根本分野。

至于技术演进,尽管“世界模型”“空间智能”“物理AI”等新词频出,其内涵仍有区分:物理AI强调在真实世界中行动(含自动驾驶与具身智能);空间智能聚焦3D空间的生成与预测;世界模型则侧重对物理世界的理解与预测能力,尚未整合行动模块。

“我认为在最后,可能更多的是一个生态系统,这块有最好的大脑公司,有最好的数据公司,有最好的这个机器人的这个本体公司,三者的一个强合作。”

智能演进与数据饥渴的悖论

当前大语言模型面临的核心挑战之一,是其对数据依赖的持续深化。过去我们曾乐观预测,数据问题终将不再重要——或许十五到二十年后,数据将不再是瓶颈。但随着从第一性原理重新审视人类学习行为,这一判断正在被修正:人越优秀,越渴望提升自我,其学习动机不仅不会减弱,反而会愈发强烈。这种饥渴感并非仅指向外部知识源(如书本),更会转向真实世界的实践、挫折反馈与自我迭代。因此,智能越强,对数据的饥渴程度反而越高,只是其学习路径将从“向外学”转向“向内练”。这引出一个关键转变:未来的学习主体可能不再依赖外部数据集,而是通过自我学习机制在高度拟真的环境中持续精进。

我觉得可能会有那么一天,当AI开始向AI学习,那Data Factory是不是就消失了?

人总需要一个环境,无论是一个偏数字的环境,或者偏物理的环境,他都要在这样一个场景下去自我的去提升。

仿真作为智能进化的基础设施

Data Factory(数据工厂)并非第一性需求,它只是当前大规模、标准化知识生产的一种量范式路径,未来很可能被更高效、更自主的机制取代。真正的第一性需求,是人类(及智能体)对学习的渴求本身。在此基础上,我们所构建的并非数据工厂,而是一套以系统为中心、以评测为驱动、以问题发现与反馈优化为核心的能力体系——它包含示范、仿真环境、强化学习(RL)基础设施等模块。

终局图景中,客户可能不再使用我们的原始数据,但会广泛依赖我们提供的仿真环境,让模型在其中通过RL持续“修炼内功”。这类似于人类社会为个体提供的学习生态:无论是物理世界还是数字空间,环境本身构成了学习发生的前提条件。正如爱因斯坦在大脑中构建“思考实验”,其本质是在内部构建一个受物理定律约束的仿真系统,通过逻辑推演与试错完成理论突破。因此,仿真不是万能解,却是解决“深度智能”所需数据瓶颈的基石——它必须嵌入一个更宏大的“数据金字塔”结构中,与真实世界、人类反馈、知识蒸馏等环节协同运作。

我觉得仿真是这个,因为我认为仿真是真正能够去解决巨深数据问题的基石,或者说,我认为仿真是这个整个巨深智能,它对于这个学习所需要的这个前提条件。