134. 【数据的综述】和谢晨聊，新时代的石油、历史、版图、数据金字塔、定价与Recipe

从物理到机器人：一场寻找‘第一性’的旅程

谢晨，光轮智能创始人兼CEO，早年就读于北京大学物理系，后赴哥伦比亚大学商学院攻读量化金融博士。他坦言，自己并非天赋型选手——在北大物理年级百余人中，他花了三年时间， nightly苦读至凌晨两点，才挤进前五。这段经历让他深刻体会到：努力可以提升上限，但天赋决定天花板。此后，他尝试过电商动态定价AI算法负责人（就职于曾意图挑战亚马逊、后被沃尔玛收购的“摘到com”）、产品经理等多元角色，始终在寻找一个能产生“前提性贡献”的领域，而非仅做锦上添花的优化。

真正转折点出现在2018年，他加入当时L4自动驾驶的前沿公司Cruise，负责仿真系统。起初，仿真在业内被视为“给投资人看的Demo”，生成的数据质量低、与真实算法训练脱节，甚至会拉低模型性能。谢晨凭借物理建模+量化分析+AI落地的复合背景，率先建立了一套仿真质量的客观评价准则，再引入生成式AI与仿真技术融合，最终实现了数据驱动的算法性能显著提升——这一刻，他真正相信了仿真的“魔力”。

最有效的数据是先失败再成功的数据。

到了终局，可能整体上来讲，就跟马斯克说的，咱们人可能就在一个仿真里头。

仿真从‘加速器’到‘先决条件’的认知跃迁

在Cruise验证仿真有效性后，谢晨于2021年加入英伟达，负责自动驾驶仿真。一个关键发现颠覆了他的认知：Orin芯片的最大客户并非Waymo或Cruise，而是小米。这让他意识到，自动驾驶的下一代主战场正在从硅谷转向中国。仅入职六个月，他便携家带口回国，加入未来汽车，从主机厂视角构建了一套完整的数据闭环——涵盖合成数据生成、算法训练、大规模仿真评测与落地验证。

这段经历促使他完成关键认知跃迁：对自动驾驶而言，仿真仍是“加速器”；但对具身智能与通用机器人，仿真已升维为先决条件——没有高保真、可迭代、可验证的仿真环境，真实世界的试错成本将高到产业无法承受。尤其在大模型演进背景下，数据饥渴与真实世界采集瓶颈（如“撞墙式困境”）倒逼行业转向合成数据路径。

其实最有效的数据是先失败再成功的数据。

到了终局，可能整体上来讲，就跟马斯克说的，咱们人可能就在一个仿真里头。

创业初心：用仿真撬动机器人产业的杠杆支点

谢晨早年并非没有创业尝试：本科时组织北大交换团赴美交流；博士期间开发了一款狗友社交APP，在北美同类应用中排名前三，却因缺乏商业模式而主动关闭——他拒绝为VC资金而牺牲长期价值。这种“要么不做，要做就做到国际顶尖”的执念，使他反复试错近十年，才最终锚定仿真领域。

2023年，他联合严海波创立光轮智能，核心使命是：以仿真与合成数据为杠杆，系统性解决机器人产业的数据荒漠问题。他强调，当前大模型面临数据撞墙，而机器人更处于“数据荒漠”——真实世界交互成本极高、风险不可控。唯有构建可编程、可注入失败样本、可闭环验证的仿真世界，才能支撑具身智能的持续进化。

他坦言，自己与巴菲特、郎朗这类“十岁就找到天赋”的人不同，他更擅长通过‘证伪’识别方向：先排除不适合的领域（如纯物理研究、金融量化、消费级APP），再在硬科技与产业结合处寻找“不可替代性”。仿真，正是他眼中那个“除了我之外，别人很难做得更好”的支点。

从供应商到客户：理解仿真的双重视角

在英伟达工作期间，作者深刻体会到：英伟达并非一家简单的GPU或游戏显卡公司，而是一家以加速计算为核心的全栈平台型硬科技企业。这一认知转变发生在作者真正深入其内部之后——当时英伟达正将大量资源投入Omniverse与机器人仿真领域，其战略重心已从自动驾驶扩展至更广义的具身智能生态。作者回忆道，当时从Cruise跳槽至英伟达尚属主流选择，但外界对英伟达的理解仍显浅薄；他自己也坦言：“实话实说。我当时也没有那么看懂，直到我进入了英伟达，我才看懂它。”

离开英伟达后，作者选择加入未来机器人（WeMo），动机在于希望切换至主机厂视角，从客户角度重新审视仿真系统的真实需求。他认为，未来最大的仿真需求将来自自研自动驾驶系统的主机厂，而仅在供应商内部难以获得全局洞察。因此，他希望通过外部创业的方式，构建一个更底层、更具通用性的机器人数据基础设施。正如他所言：“仿真难道只可以作为一个时间机器吗？有没有可能它对于AI，对于后面AI的发展，会类似于英伟达的卡一样，没有英伟达，AI就不会发展，而不是说啊，有了它，它只会发展的更快。”

实话实说。我当时也没有那么看懂，直到我进入了英伟达，我才看懂它。

仿真难道只可以作为一个时间机器吗？有没有可能它对于AI，对于后面AI的发展，会类似于英伟达的卡一样，没有英伟达，AI就不会发展，而不是说啊，有了它，它只会发展的更快。

数据：AI时代的教育系统

作者将数据与教育系统进行类比，提出一个核心观点：数据之于AI智能，正如教育之于人类智能——是第一性原理层面的关键要素。他将AI数据的发展划分为三个阶段：

静态数据集阶段（如ImageNet）：类似一次性填鸭式教育，强调规模与标注规范；
工业化数据生产阶段（如Scale AI）：通过工厂化流程实现高质量、高时效的数据产出，类比量贩式教育；
反馈驱动的智能演进阶段（如大语言模型后训练）：由高经验人群（工程师、科学家等）提供针对性反馈与题目生成，形成“师者传道授业解惑”的闭环，此时数据已演变为动态的、个性化的教育系统。

在具身智能与机器人领域，数据的生成更依赖物理世界的真实信号或高保真仿真环境。作者指出，当前自动驾驶的数据标注仍停留在“有多少人工就有多少数据”的初级阶段，全球可能有十万至数十万人工标注从业者；而下一代数据体系则要求经验传授者直接参与模型训练与评估，其时薪可达百美元以上。这种转变意味着：数据不再只是被动交付的标注结果，而是主动引导模型成长的信号与经验流。

数据约等于教育，我认为数据对于这个智能是啊极其关键的，因为我认为就是啊数据对于智能就要类似于咱们人啊去获取知识，啊来不断的去自我提升。

数据工作的演进：从标注到教学

传统数据标注工作流程通常包括：传感器数据采集 → 清洗与切片 → 工具链辅助人工标注（框选、分类、时序对齐）→ 多轮质检 → 自动化补充标注。尽管已有部分自动化流程介入，但整个行业仍高度依赖人力，尤其在复杂场景（如corner case）中。

相比之下，面向大语言模型与具身智能的新一代数据工作，已转向经验驱动的交互式教学模式。例如，在RLHF（基于人类反馈的强化学习）中，数据专家不再仅做“标注员”，而是扮演出题人、裁判员与导师三重角色：他们根据模型输出生成反馈、设计难题、提供多解路径（如编程题的多种实现方式），并据此反向驱动新数据的生成。这种模式下，数据厂商与客户之间形成了双向反馈闭环——数据商深度理解算法瓶颈，并据此提供定制化训练信号。

作者强调，这一演进标志着数据产业从“交付导向”迈向“价值共创”：当数据商成为算法能力的评价方与提升伙伴时，它就真正从‘工具’升级为‘教育系统’。未来，数据的价值将越来越取决于其能否提供高质量、高相关性、高时效性的经验传授，而非单纯的数据量堆积。

数据角色的演进：从正确样本到认知多样性

在传统机器学习中，数据的价值高度依赖于准确性与完备性——例如自动驾驶或机器视觉任务中，标注数据必须是“完美无误”的。然而，在大语言模型（LLM）与具身智能（如巨深）时代，数据的定义已发生根本性转变：真正的价值不再仅来自正确答案，而更多来自多样性、逻辑结构，甚至错误样本本身。以编程任务为例，同一问题可能有十种解法，其中哪些是优解、哪些是模棱两可、哪些是典型错误，这些认知分布构成了模型学习的关键信号。

一个典型案例来自巨深客户的数据迭代：初期需求是“完美仿真做披萨”（从冰箱取饼→加料→烘烤），但后续发现最有效的数据是“先失败再纠正”的负样本——比如切好蘑菇后失手掉落，再捡起放回。这类数据虽非“正确流程”，却极大提升了模型的鲁棒性与泛化能力，使其更贴近人类在试错中学习的认知路径。

“其实最有效的数据是先失败再成功的数据……这个数据往往是更有效的。”

“它更接近于人的学习过程，它更基于人的学习过程。”

零样本能力：模型是否‘足够聪明’？

当前模型的核心瓶颈在于零样本泛化能力（zero-shot generalization）——即面对从未见过的新任务（如从未训练过做披萨的机器人，能否迁移切菜、做汉堡的经验完成新任务），仍能有效执行。广密指出：模型本质仍是‘巨大压缩器’，其性能高度依赖训练数据中是否包含对应任务的分布；若数据未覆盖某类任务，模型即无法成功。

对此，谢晨认为：短期看，数据级模型（即针对特定任务补充高质量数据）是现实路径；但长期而言，模型架构的进化才是关键——若模型本身缺乏零样本泛化的底层设计（如第一性原理推理、知识迁移能力），则仅靠数据堆叠无法通向通用智能。他以马斯克式学习方式类比：智能差异不仅源于数据量，更源于‘学习算法’本身——即架构与认知机制的先进性。

“如果模型数据分布里面没有这类数据，这类任务就是不成功的。只有压缩过这类数据，可能才会成功。”

“本质还是它不够聪明……泛化性还是需要算法的架构来带来的。”

大模型团队与机器人团队的数据分野

过去六个月，大模型团队与机器人团队在数据策略上已出现显著分化：前者聚焦零样本迁移能力，后者聚焦本体适配性。大模型团队（如OpenAI、NVIDIA、阿里达摩院）正积极布局VLA（Vision-Language-Action）模型，但其目标并非硬件本身——选择最简机械臂正是为剥离本体复杂性，专注测试大脑的泛化迁移能力。他们依赖大规模本体无关数据（仿真+人类行为），通过scaling law推动认知跃迁。

而机器人团队则深耕具体场景：酒店服务、光伏板更换、汽车工厂产线……其数据需求高度场景化，强调本体-任务耦合性（如轮式底盘的稳定性、灵巧手的力控精度）。值得注意的是，VLA团队常与LLM团队深度协同：前者多复用后者的基础模型（如自研或开源大模型），并复用其万卡级训练基础设施与RL强化学习体系。更前沿的趋势是世界模型与VLA的共生演进——世界模型提供物理世界预测能力，VLA提供动作执行反馈，二者共享同一评测体系（如李飞飞团队的Behavior Benchmark），预示未来二者边界将进一步模糊。

“大模型团队用机械臂……其实现在最主要的这几个大模型团队都在做巨深的标A。”

“世界模型和VLA是一个很有意思的一个相互共生的一个关系。”

世界模型、VLA与大语言模型：三类‘大脑’的分工与协同

当前具身智能领域的模型架构正呈现出清晰的分层趋势。世界模型（World Model）更侧重于对物理世界的理解与预测能力，李飞飞团队开发的Enact评价体系正是基于行为评估框架（Behavior-based evaluation），既可用于评估VLA（Vision-Language-Action models），也可用于评估世界模型本身——这说明评价标准正趋于统一，预示着未来模型间的边界将更加模糊。值得注意的是，世界模型并非替代VLA，而是与VLA形成互补共生关系：世界模型更可能部署于云端，作为中央推理大脑；而VLA则更适合端侧部署，承担实时感知与行动控制任务。大语言模型（LLM）则主要在数字世界中运行，虽已具备一定程度的世界建模能力，但缺乏对物理世界的直接理解与交互能力，因此三者在功能定位上各有侧重。

‘世界模型可能更多的会是在云端的一个大脑，而 VLA 我觉得它会是在端侧的一个大脑。我觉得这个是可能是一个在长线啊，他们也会是一个共生的一个关系。’

‘大语言模型在数字世界已经具备了一定的世界模型的能力，但是呢，它其实缺乏对物理世界的理解。我认为世界模型是有物理世界的理解能力以及预测能力的。’

数据闭环逻辑的颠覆：从‘本体驱动’到‘数据商+场景商’协同

特斯拉开创的“数据引擎”（Data Engine）模式依赖其海量自有车辆作为本体，通过真实道路数据形成闭环飞轮：车采集数据 → 云端训练大脑 → 部署优化后的自动驾驶能力 → 再采集更优数据。这一逻辑成立的前提是：本体（车辆）具备极高的部署规模与覆盖率。然而在具身智能领域，这一前提正被颠覆：目前尚无百万级机器人本体可像汽车一样规模化部署于真实环境；若依赖人工遥控操作机器人，则成本过高、难以规模化。

因此，巨深（General Humanoid Intelligence）的数据架构必须重构为数据金字塔：最底层是少量真实机器人采集的真机数据；中层是仿真生成数据；最底层是互联网或第一人称视角的人类数据——后两类数据不依赖本体硬件，具备更强的规模化潜力。这意味着：未来巨深的大部分数据将不来自本体厂商自身，传统OEM“既是最大本体商，又是最大大脑商”的路径将不再成立。例如，特斯拉Optimus的“大脑”已交由xAI（即大模型团队）负责，印证了“大模型商提供通用大脑，本体商负责落地微调”的新范式。

在此背景下，两类新角色日益关键：一是数据商（如Scale AI），其角色正从“甲方乙方交付”演进为“与大模型厂商共生”——通过评测反馈驱动数据生产迭代，形成“数据→模型→评测→新数据”的正循环；二是场景商（如OEM、医疗集团、农业企业），他们掌握大量机器人落地场景，具备强烈部署需求与自研硬件能力，未来可能自主选择硬件平台，甚至直接基于大模型大脑定制解决方案。

‘在这样一个情况下呢，我觉得特斯拉的数据闭环在巨深就不成立了，相当于就是说不会存在一个本体上，它自己是最广泛应用的本体，同时它又可以做全世界最好的大脑。’

‘我认为后面可能是这四者的一个联系：大模型商提供大脑，本体商负责部署，场景商提供落地空间，数据商驱动数据闭环。’

数据鸿沟：大模型与具身智能的阶段差异与核心瓶颈

大语言模型与具身智能（巨深）在数据层面处于不同发展阶段。LLM的预训练数据已高度饱和（覆盖全互联网文本），当前瓶颈在于后训练与评测阶段——即如何获得更高阶的“言传身教”：由顶尖工程师、医生、律师等专家出题、示范、反馈，推动模型向系统性推理与专业能力跃升。而巨深面临的是结构性双重缺失：

预训练数据严重不足：亟需物理世界（真实+仿真）的交互数据，包括物体属性、操作动作、语言标注及成功/失败反馈信号；
评价能力缺失：LLM与自动驾驶可通过“影子模式”免费获取用户交互或人类驾驶对比信号，而机器人在真实世界难以部署影子模式，必须依赖高保真仿真系统规模化生成评价信号。

‘对于巨深来讲，现在并不具备这样一个大规模的评价的能力……它唯一可以的这件事儿，就是基于仿真去规模化。评价并拿到更多的信号。’

‘机器人的数据收集问题比大语言模型可能是结构性的难。啊，对，我觉得要难很多，可能是几个数量级的难。’

大模型能力瓶颈：预训练见顶，后训练与评测成关键

当前大语言模型的预训练阶段可能已接近天花板，进一步提升能力的关键已转向后训练（post-training）与评测（evaluation）环节。作者认为，当前主流大模型的整体能力约在60分水平，距离真正可用的高阶智能仍有显著差距。以“巨深”（即具身智能模型）为例，若假设百万台机器人返回的数据为起点（约60分），而现实中无论是真实部署、仿真还是人类示范数据，尚未有万台级规模的数据供给，实际能力甚至可能不足0.6分。更深层的问题在于：AI尚未见过真实人类工作场景，亟需大量专家在真实环境中提供高质量数据。这一困境与机器人领域高度相似——正如机器人是物理世界的agent，大模型的agent则是数字世界的agent，二者都依赖环境、经验传授与反馈信号三要素协同演进。

“我觉得其实机器人就是在物理世界的 agent，而这个大语言模型的 agent 其实是在数字世界的 agent。那其实我觉得他们遇到的问题其实很像。”

为支撑数字世界agent的训练，业界已发展出一种新型数据产品：LLM-as-a-Judge / RLHF环境（如LL Inf）。这类系统构建虚拟环境（如虚拟滴滴、京东、编程平台），让agent在其中基于预设目标进行强化学习式试错与迭代。与此同时，物理世界的机器人也在仿真环境中，通过大规模场景+明确成功指标完成类似训练。但作者指出，当前行业仍处于“预训练不足”与“评测能力薄弱”的双重瓶颈中——许多学术级基准（如巨深的benchmark）已被打爆，而更具挑战性的行为挑战（Behavior Challenge）（如李飞飞发起的项目）成功率仍仅26%，凸显真实世界复杂任务的解决难度。

“其他的这些学术级的benchmark，其实这些我们的这些客户最棒的这些大模型商，他们都已经把他们的benchmark给打爆了……足够难的是 behavior，一百道题，可能现在最高的分数成功率是百分之二十六。”

数据产业的纵向演进：从填鸭式到系统驱动

数据产业并非AI生态的附属分支，而是与模型范式演进深度耦合的主干系统。作者将其发展划分为三个阶段：

填鸭式教育阶段：以李飞飞的ImageNet为起点，数据即静态标注集（图片+真值），服务于监督学习，本质是“给答案”；
量贩式教育阶段：以Scale AI为标志，依托工业化流程（人力运营、质量管控、交付周期），支撑自动驾驶等大规模数据需求，实现从静态到动态、从实验室到产线的跃迁；
评测驱动型智能工厂阶段：进入大模型时代后，数据逻辑转向“评测发现问题→刺激新需求→精准交付”，Scale等公司由此升级为“Data Pyramid”——类似台积电晶圆厂，强调流程化、标准化、know-how沉淀，其核心竞争力在于可复现、可扩展的评测与反馈闭环。

未来，随着模型能力逼近人类专家水平，数据供给将面临人力规模不可持续的挑战（如巨深所需数据量可能是Core Search的千倍级）。此时，产业必然从以人为中心转向以系统为中心：即构建智能引擎，通过端侧数据、仿真能力与工程放大机制，将有限人类专家信号高效转化为模型演进动力。这一阶段，合成数据与仿真环境将从辅助工具升级为基础设施级刚需——模型需要的不再是“老师”，而是可重复、可量化、持续演进的环境与评价标准，即“学校+考试”的系统化支撑体系。

“我认为这件事儿也一定是一个以评测驱动，而不是以这个……训练驱动的一件事情。”

仿真：机器人与大模型的共同底层基础设施

仿真在机器人领域绝非“加速器”，而是必备条件。原因有二：其一，机器人缺乏端侧大规模真实部署与人类示范数据（不同于自动驾驶），仿真是唯一可规模化采集训练数据的路径；其二，评测环节几乎完全依赖仿真——若要评估模型在千级家庭、万级任务场景下的真实表现，并实现每日算法迭代的量化反馈，仅靠少量样机无法满足。作者观察到，过去三年间，曾坚持“真实流派”的顶级大模型团队（如部分 frontier lab）已主动转向仿真与合成数据，用于规模化评测，印证了仿真的战略必要性。

“我不可能……在一千个家庭……同时去评价成千上万个不同的任务……这个我认为唯一的方案，只有通过仿真。”

仿真接受度的转变：从边缘到主流

过去，仿真数据的支持者（即“仿真派”）多为专注于机器人“大脑”开发的团队——他们更关注算法泛化与规模化评测能力；而真实数据支持者（“真机派”）则集中在早期大模型团队中，尤其是顶级前沿实验室，他们曾坚决拒绝使用任何仿真数据。但最近三个月，这一格局发生了显著变化：几乎所有头部大模型团队及世界模型团队主动联系我们，寻求规模化评测支持。他们面临的共同瓶颈是：无法通过真实数据或传统学术基准实现有效、可扩展的评测。例如，家庭服务机器人团队虽在叠衣服等任务上表现良好，却亟需上千个差异化的家居场景、任务组合与评价标准，以持续迭代模型能力——这在真实世界中几乎无法低成本实现。

“他们共同遇到的问题是什么？他们没有办法去规模化他们的评测了，这个是他们的核心的问题。”

“他们认为他们的算法已经做得足够好了……但是在真正industry其实没有太大的一个意义，因为他们太简单了，他们不够规模化。”

仿真需求的分层：RL控制 vs 大模型泛化

仿真在机器人领域的应用存在明显分层。早期采用者是从事全身控制（full body control）或局部运动规划（local motion） 的机器人公司，他们用本地仿真做强化学习（RL），但这类需求量小、部署集中，不构成规模化挑战。而当前增长主力是大模型与世界模型团队——他们需要的是大规模、高物理保真度、可复现的仿真环境，以支持泛化训练与系统级评测。VLA（Vision-Language-Action）模型更侧重行动数据（如本体/跨本体/人类动作），世界模型则更关注物理世界预测能力（如物体交互、事件演化），对第一人称交互数据依赖较低。三类团队虽需求有别，但都高度依赖仿真来突破真实数据的规模化瓶颈。

“对于大规模的需求……更多的是这类大模型商、大脑公司，他们需要去泛化，他们需要去规模化他们的数据，或者规模化他们的评测。”

“他们一定会被一个点，至少一个点卡住，那他一定会用仿真。”

中国市场的现实张力：真机派主导下的认知错位

在中国市场，真机派仍占主流，其核心逻辑常被归结为“真机数据泛化性更好”。但这一认知背后是商业模式的深层驱动：多数机器人公司本质是硬件销售导向，其商业模式依赖“卖本体+数据采集服务”，因此必须强调真机数据的不可替代性。即便如此，许多“真机采集”实为半仿真——使用假香蕉、假苹果，在固定桌面场景中重复操作，物理多样性与场景广度远逊于数字仿真。更关键的是，真机数据的成本与规模化难度并非价格问题，而是物理可达性问题：如何快速进入千差万别的真实环境？如何频繁切换场景？这在现实中几乎不可能。

“他需要去真正的提倡一个真机派，才能够更有效的去把这些基于真机数采这样的一个商业模式去跑通。”

“很多我觉得大部分的真机的素材，现在如果你去他们的素材中心，你会看到他们，他们也在用仿真啊……他很难像仿真一样去规模化到可能更加广阔的、多变的，啊，足够物理真实的这些场景的应用。”

自动驾驶与机器人智能路径的分野

在比较自动驾驶与通用机器人智能的发展路径时，一个核心差异在于智能水平的上限与任务复杂度。自动驾驶本质上是一个端侧、低智能、高重复性的任务：模型只需完成“把车开好”这一单一目标，遇到障碍物（如一个杯子）时，反应路径相对简单——避开即可。而机器人则需处理更复杂的物理交互：它必须判断杯子的材质、尺寸、重心，并据此决定抓取力度、角度与动作序列，复杂系数显著更高。因此，自动驾驶的智能水平相对有限，其成功路径更可能依赖模仿学习+少量强化学习，而非通用大模型驱动。

值得注意的是，自动驾驶存在两条潜在终局路线：其一是VA（Vision-to-Action）范式——在端侧算力受限、任务单一的前提下，通过模仿学习将司机行为压缩为轻量模型，足以满足安全驾驶需求；其二是VLA（Vision-Language-Action）范式——构建更通用的统一大脑，虽可泛化至其他任务，但对自动驾驶而言未必必要。作者认为，VA极有可能成为自动驾驶的终局形态，因其更契合“低智能、高可靠”的工程现实。

原话："它其实更多是因为我在端侧上可能算力没有那么大，且有可能就是说这件事儿所需要的智能是相对有限的，且呢就是说我有足够的数据了以后，我可以基于模仿学习，把啊，就是把这个模型压到，就是更加贴近于这个司机的行为上就够了。"

原话："自动驾驶这件事儿，我觉得他的一个……会不会有两条路线都能通？一条路线就是，呃，由于它的智能上限没有那么高，因此我VA就通了；还有一条路径就是我做了一个VA，它也能做，但是这个VA有可能它还能做其他的事儿。我觉得这两条路径有可能都是成的。"

数据逻辑决定技术路线：本体相关 vs 本体无关

技术路线的根本分歧，源于底层数据逻辑的差异。若一家公司依赖本体相关数据（即真实机器人/车辆自身采集的驾驶或操作数据），则其路径必然趋近于Waymo或特斯拉——前者强调限定场景的深度验证，后者依赖海量真实道路数据的广度覆盖。但若其底层逻辑是本体无关数据（仿真、互联网视频、人类第一人视角等），则其发展路径将显著不同，更接近OpenAI式的通用智能探索。

在机器人领域，本体相关数据的规模化极其困难：真实机器人部署成本高、场景覆盖慢、数据采集效率低。因此，真正可行的路径必须高度依赖仿真数据与人类行为数据（如第一人视角视频、夹爪操作数据等）。作者指出，仿真与人类数据的质变已催生“通用机器人数据的scaling law”：Figure、U-Mi、Zeroth Hand等团队已用数十万小时的非本体数据验证了模型可扩展性。这标志着行业正从“刺激需求”转向“规模化交付”阶段。

原话："我认为这件事儿会极其关键就是我认为如果没有这件事儿，如果没有巨深的金字塔的下面的仿真和人类数据，我认为就是巨深这件事儿的通用智能就出不来。"

数据金字塔：三层结构与闭环演化

作者引入数据金字塔（由朱毅可教授提出）作为理解通用机器人数据生态的框架：

顶层：真实本体数据——最准确、最可靠（如遥操作机器人数据），但极难规模化；
中层：仿真数据——可大规模生成，虽存在sim-to-real gap，但随大模型预训练普及，该差距正快速缩小；
底层：人类数据——包括被动采集（如GoPro视角）与主动采集（高精度设备+流程管控），是泛化能力的关键来源。

更关键的是，作者强调金字塔并非静态分层，而应视为以仿真为中心的闭环系统：仿真既可作为数据生成器，也可作为评测平台；人类数据用于校准仿真与真实，而真实本体数据则用于最终验证。这种闭环结构使各层数据相互增强，而非孤立存在。

原话："我越来越认为数据它可能会是一个啊，就是以仿真为中心的一个闭环。以仿真的人是中间那一层。"

数据金字塔：以仿真为中心的闭环结构

数据并非静态堆叠的层级，而是一个以仿真为中心、以评测为驱动的数据闭环。传统理解中，数据金字塔常被视作独立分层的结构（如真实数据、仿真数据、人类数据等），但实践中更准确的图景是：仿真处于闭环的核心，连接真实世界与模型训练。要真正做好仿真的评测，必须依赖大规模、高保真的真实场景数据——包括物理世界轨迹、人类行为经验，以及针对不同任务的精细化评价标准。这些要素若仅靠仿真“闭门造车”难以生成，因此必须回流真实数据，形成“real to sim → sim to real”的双向闭环。

“从我们的实践中呢，我越来越认为数据它可能会是一个啊，就是以仿真为中心的一个闭环。以仿真的人是中间那一层。”

“真实的遥操作的数据、真实遥操作的评测和仿真的对标就会变得尤为重要……来真正的可以让Sim呃SimtoReal不止可以服务训练，也可以服务评测。”

人类第一视角数据：把人当作机器人训练

人类数据，尤其是第一视角视频数据，正成为闭环中关键一环。其核心逻辑在于：将人视为一个通用本体（agent），其行为数据可直接用于训练机器人或大模型。从第一性原理看，人类视觉系统是信息获取的最优接口——顶在头顶或胸前的采集设备，视角与人眼存在偏差；而智能眼镜作为消费级第一视角终端，则更贴近真实感知。Meta的Ray-Ban智能眼镜已验证这一路径：先以时尚产品切入，再叠加AI功能与数据采集能力，实现“用户愿戴、顺带采数”的自然闭环。

“咱们可以把人就是呃机器人，我觉得大模型很关注的一个能力就是跨本体的能力。如果从这个角度来讲的话，人是不是也是一个机器人？……所以本质上来讲，这种训练范式它其实就是把人当成一个机器人。”

“理想状态下，人就喜欢戴这个眼镜，而不是人为了数据去戴这个眼镜。”

数据价值重估：被高估与被低估的三类数据

当前行业对三类数据的认知存在显著偏差：真实机器人数据被高估，因多数团队已转向仿真与人类数据以提升评测效率；仿真数据仍被低估，尤其其评测价值尚未被机器人公司普遍认知，但大模型团队已深度依赖其进行大规模、自动化测试；人类数据同样被低估，其核心价值在于提供高保真、长程任务中的“失败-修正”经验轨迹。

数据定价高度依赖质量维度： - 预训练数据：趋于标品化，成本较低（如平摊至头部大模型公司）； - 后训练与评测数据：价值显著提升，取决于三要素——物理场景真实性、轨迹专业性（含修正行为）、评价指标精细度。例如一段“做披萨”数据，若包含失误与修正（如蘑菇掉落后重拾），其单价可达数百至数千元/小时，远高于完美流程视频。

“其实你如果中间比方说掉了几粒这个这个这个菜，然后给它捡回来，再重新把这给做好，它会更贵。其实我觉得有点类似于人的学习，人的经验，对吧？失败了以后再成功的经验，往往是最宝贵的。”

数据价值链：从工厂到引擎

在数据生产领域，传统“data factory”（数据工厂）的定位已显滞后——它往往意味着缺乏技术深度、系统性弱、非反馈驱动的流水线式作业。相比之下，更先进的模式应是“data engine”（数据引擎），即以系统能力为核心、以工程化为支撑、以反馈驱动学习的动态生产体系。这种引擎不仅产出数据，更在过程中持续优化自身逻辑与数据质量。当前最稀缺的数据类型集中在两大类：预训练数据与评测数据，它们构成了数据金字塔的高价值顶层。值得注意的是，数据并非越多越好，而应追求高ROI（投入产出比）：聚焦于价值链顶端、真正能驱动模型能力跃迁的数据类型，远比覆盖全金字塔更有效率。

“我认为中局的数据公司可能跟教育公司是长得很像的。”

“数据越来越不像最早的自动驾驶、机器视觉那种‘有标准答案的完美数据’，而是越来越像人的学习——能从错误中学习的数据才是好数据。”

仿真与真实：构建可验证的评测闭环

高质量评测数据的生成面临双重挑战：既要足够难以检验泛化能力，又要可规模化以覆盖千级场景与万级任务。为此，团队构建了“仿真+真实”双轨评测体系：一方面，通过自研物理引擎与高保真资产建模（如非刚体线缆插拔仿真），复现真实世界复杂物理交互；另一方面，设立真实机器人评测基建，用真实世界数据反向校准仿真结果——例如，在仿真与真实中部署相同算法，验证其性能相关性，确保规模化仿真的评测结果具备现实意义。这种“真实锚定仿真”的闭环，是避免评测脱离实际、沦为纸上谈兵的关键。

“如果仿真的评价与真实世界的评价脱离，那这件事儿就算可以规模化，它也没有办法真正产生实质的价值。”

认知共生：数据配方的协同演进

数据生产中长期存在的“扯皮困境”——数据方称模型未训好，模型方指数据质量不佳——根源在于双方对数据价值的认知未同步迭代。对此，核心解法是与最前沿的客户建立共生协作关系：在共同探索中，逐步明确“好数据”的定义——从早期追求“完美样本”，到后期重视负样本、纠错样本、分布多样性（如不同抓取角度与方式）。实践中，真正具备大规模预训练级数据认知的团队全球仅约五家，而数据公司若想持续贡献价值，必须与这些头部客户同步进化，形成双向认知反馈。数据金字塔的配比与有效性，需通过数万卡算力的反复验证才能确定，其本质是一场系统性实验与理论共建。

“我认为核心是两边是否可以同步去迭代——迭代相互的认知，这是一个很关键的事儿。”

大模型派 vs 机器人本体派：数据逻辑的根本分野

当前机器人领域的数据策略正呈现明显分化。以大厂VLA（Vision-Language-Action）团队与世界模型团队为代表的“大模型派”，其核心信仰是零样本泛化能力——他们更关注模型在未见过场景中的表现，而非本体硬件的复杂度。为此，他们高度依赖本体无关的数据：包括大规模仿真数据、人类示范数据，以及标准化的交互接口。这类团队倾向于构建轻量化、标准化的机器人本体，用以验证其上层模型的可迁移性与扩展性。在基础设施层面，他们更早布局大规模LLM式训练管线，尤其侧重仿真评测体系的构建。

值得注意的是，大厂资源分配存在阶段性倾斜：过去三年，机器人团队并未获得与大模型同等的投入；但自2024年起，随着大模型技术路径趋于明确，大量资源正加速向机器人方向回流。阿里、OpenAI、地平线、英伟达等五家已成为“机器人大脑”竞赛的前沿玩家。其中，地平线虽为创业公司，但其定位更接近前沿实验室（frontier lab），正大规模训练专用模型；而字节、阿里（通义千问） 等则依托其大模型积累，快速切入机器人智能层。

“他们需要的是这个零样本的泛化能力。我觉得这个是一个极其极其对，基本上能力。”

“如果说这个数据闭环是掌握在一个本体上，它有规模化自己最大的本体，去做最大的场景，拿回来最多的数据。他有训练自己最大的大脑，那这件事儿可能确实会形成一个霸权。”

本体公司的战略定位：做生态中的‘稳定支点’

与大模型派不同，传统机器人公司正经历数据策略的分化。部分企业仍坚持“真实派”路径，坚持采集真实场景数据；另一些则开始接纳仿真评测与人类示范数据，如Generalist团队通过类人夹爪实现人类动作迁移，即是对人类数据的创新应用。

这种分化背后，是商业模式的根本差异：若企业定位为“大脑智能提供商”，其目标是将机器人部署于真实场景执行任务；而多数当前公司实则扮演“数采厂”角色——仅负责数据采集，智能能力外包。在此背景下，语数（Yushu）展现出清晰的战略定力：它坚定聚焦本体研发，不参与大脑模型竞争，以可量产、高稳定性硬件为核心竞争力。这种定位使其成为未来生态中理想的“核心本体硬件商”——当大厂大脑团队寻求落地时，语数将成为高优先级合作对象。

类似地，智源（Zhipu AI）虽属AI机构，但其商业化路径从早期即强调“上下游全链路打通”；而巨深（Jushi）则以“供给驱动”逻辑推进量产，快速提升行业供应链成熟度。二者均展现出对机器人产业终局形态的深刻理解。

“语数其实我觉得它还是一个更加偏本体的一个模式……它的定位很清晰，它也不和它的，比方说啊，就是它也不和大脑公司去竞争。”

终局形态：从霸权走向共生的生态系统

关于“机器人大脑是否会形成垄断”的问题，答案取决于数据来源的性质：若数据高度依赖特定本体（如特斯拉的Dojo训练闭环），则可能催生单一霸权；但若主流采用本体无关的数据范式（仿真+人类示范），则必然走向生态协同——即大脑公司、数据公司、本体公司三方强耦合，共同推动场景落地。

当前中美发展路径差异显著：美国在大脑智能（尤其是大模型+仿真）上领先；中国则在本体制造（量产能力、供应链响应）上更具优势。但这一差距正在收窄：国内大模型能力已属世界前列（如通义千问为当前最佳开源模型之一），且基建、人才密度持续提升。资源正从大语言模型向机器人方向转移，核心动因有二：一是大模型技术路线趋于收敛；二是行业开始厘清本体相关 vs 本体无关数据的根本分野。

至于技术演进，尽管“世界模型”“空间智能”“物理AI”等新词频出，其内涵仍有区分：物理AI强调在真实世界中行动（含自动驾驶与具身智能）；空间智能聚焦3D空间的生成与预测；世界模型则侧重对物理世界的理解与预测能力，尚未整合行动模块。

“我认为在最后，可能更多的是一个生态系统，这块有最好的大脑公司，有最好的数据公司，有最好的这个机器人的这个本体公司，三者的一个强合作。”

智能演进与数据饥渴的悖论

当前大语言模型面临的核心挑战之一，是其对数据依赖的持续深化。过去我们曾乐观预测，数据问题终将不再重要——或许十五到二十年后，数据将不再是瓶颈。但随着从第一性原理重新审视人类学习行为，这一判断正在被修正：人越优秀，越渴望提升自我，其学习动机不仅不会减弱，反而会愈发强烈。这种饥渴感并非仅指向外部知识源（如书本），更会转向真实世界的实践、挫折反馈与自我迭代。因此，智能越强，对数据的饥渴程度反而越高，只是其学习路径将从“向外学”转向“向内练”。这引出一个关键转变：未来的学习主体可能不再依赖外部数据集，而是通过自我学习机制在高度拟真的环境中持续精进。

我觉得可能会有那么一天，当AI开始向AI学习，那Data Factory是不是就消失了？

人总需要一个环境，无论是一个偏数字的环境，或者偏物理的环境，他都要在这样一个场景下去自我的去提升。

仿真作为智能进化的基础设施

Data Factory（数据工厂）并非第一性需求，它只是当前大规模、标准化知识生产的一种量范式路径，未来很可能被更高效、更自主的机制取代。真正的第一性需求，是人类（及智能体）对学习的渴求本身。在此基础上，我们所构建的并非数据工厂，而是一套以系统为中心、以评测为驱动、以问题发现与反馈优化为核心的能力体系——它包含示范、仿真环境、强化学习（RL）基础设施等模块。

终局图景中，客户可能不再使用我们的原始数据，但会广泛依赖我们提供的仿真环境，让模型在其中通过RL持续“修炼内功”。这类似于人类社会为个体提供的学习生态：无论是物理世界还是数字空间，环境本身构成了学习发生的前提条件。正如爱因斯坦在大脑中构建“思考实验”，其本质是在内部构建一个受物理定律约束的仿真系统，通过逻辑推演与试错完成理论突破。因此，仿真不是万能解，却是解决“深度智能”所需数据瓶颈的基石——它必须嵌入一个更宏大的“数据金字塔”结构中，与真实世界、人类反馈、知识蒸馏等环节协同运作。

我觉得仿真是这个，因为我认为仿真是真正能够去解决巨深数据问题的基石，或者说，我认为仿真是这个整个巨深智能，它对于这个学习所需要的这个前提条件。