148: 访谈它石创始人陈亦伦：具身的三道曙光和第一道关卡

从算法到机电：一条通往机器人的隐秘路径

陈亦伦的职业轨迹，是一条从纯算法研究走向机电系统落地的“反主流”路径。作为物理竞赛保送生进入清华电子系，后赴美攻读机器学习博士，他早期的研究几乎完全聚焦于算法层；但与此同时，他始终对能动的实体系统充满向往——羡慕室友做机械、液压、电机控制，甚至亲自参与过液压机器人、精密磁浮装置等产品开发。他坦言，自己一直有个执念：要做成“我想要的那种机器人”。在2021年前，他观察到，机器人控制技术正悄然发生范式转变：强化学习（RL）与仿真-现实迁移（Sim-to-Real）技术的成熟，正在让四足机器人、双足行走等复杂运动变得可预测、可复现。尤其ETH苏黎世联邦理工团队的工作，验证了用神经网络直接控制全身运动的可行性；而MIT开源的Mini Chita平台，则为整个领域提供了软硬件协同设计的范本。这些进展让他确信：机器人控制的“最后一公里”，正在被AI打通。

我那个时候就非常非常喜欢机器人这个东西，然后机器人包括电动车……我觉得太有意思了。

机器人来说，我知道这把钥匙一定会在之后的某一个实际时间点，它会慢慢开启。

2021：端到端自动驾驶的“GPT时刻”

2021年，陈亦伦在华为主导了一项极具风险的探索：用端到端神经网络替代传统两百万行代码的规控系统。当时行业普遍将自动驾驶拆分为感知与规控两层，而规控因涉及闭环反馈（AI动作持续改变环境与观测）被视为最难攻克的“黑箱”。陈亦伦团队选择直面这一挑战——他们调用约100辆车的车队，专职采集真实人类驾驶数据，并在司机配合下系统性构建高质量行为样本。当数据积累至数千小时后，网络开始展现出惊人能力：在高度非结构化、人车混行的城中村复杂场景中，仅靠神经网络输出轨迹，便流畅穿行而过，且尽量避免后处理干预。那一刻，他意识到：AI已具备直接执行planning任务的能力，这不仅是自动驾驶的转折点，更是通向具身智能的信号弹。

越复杂的系统，越多的数据，往往它的算法结构就会越简单，它会返璞归真，它才能经得住这么大数据的冲刷。

A.I.可以做planning了……当时就是非常非常强烈的这种感觉。

主动退场：为更大的梦想按下暂停键

尽管端到端方案在2021年已验证可行，陈亦伦却在次年（2022年）选择离开华为，回归清华从事研究。他解释：L2高级辅助驾驶的“钥匙”已被他找到——即数据驱动的端到端AI替代规则逻辑；后续只是工程化放大过程，无需他继续押注职业风险。而真正让他心潮澎湃的是端到端系统所揭示的更深层可能：通用机器人所需的“感知-决策-执行”闭环能力，其底层逻辑与自动驾驶高度同构。但他判断，2022年时机仍未成熟：市场未Ready，技术细节（如全身控制、任务规划、安全验证）尚待厘清。因此他选择“退半步”，用两年时间深入研究，直至2024年下半年才确认：具身智能的三道曙光已清晰可见，而第一道关卡——高质量数据的规模化获取——正被突破。2025年，他与李振宇共同创立踏实智行，首轮融资超2.4亿美元，刷新中国具身智能纪录。

我当时非常认真地跟我离职的时候，跟我每一个领导说我要做机器人，他们觉得非常不可思议。

硬件优势：最小化 Sim-to-Real Gap

在具身智能的发展路径中， locomotion（运动控制） 的突破已非常显著——当前人形机器人能流畅跳舞、打武术，其背后的关键在于 Sim-to-Real Gap（仿真到现实的差距）被大幅压缩。这一差距的缩小，主要依赖于硬件公司的独特优势：它们通过精密的机械设计、传感器集成与执行器优化，从现实端（real）向仿真端（sim）靠拢，而非仅靠提升仿真精度。相比之下，纯软件公司更擅长从 sim 向 real 推进，但受限于物理世界的非理想性（如电机延迟、摩擦、形变等），难以达到同等流畅度。

“硬件公司，硬件见长的公司……因为它核心就是把 sim 跟 real 两边越来越靠近。” “ locomotion 在技术上已经是完全磨清楚门道了啊，它其实只是需要一个时间把它发酵发酵，它就会越来越好。”

大模型赋能：任务规划（Task Planning）的曙光

如果说 locomotion 解决了“如何动”，那么 GPT 等大语言模型带来的第二道曙光，则解决了“做什么”与“怎么做”——即任务规划（task planning）能力。传统机器人缺乏类似自动驾驶的共享地理信息系统（如 Google Maps），当用户下达模糊指令（如“去东方明珠”或“去造另一家公司”）时，系统无法自动拆解为可执行步骤；而大模型凭借其强大的语言理解与推理能力，能将高维意图映射为低维动作序列，显著降低任务规划的门槛。

“机器人来说，我说我想造另外一家公司去，或者我想做这个事情，这是多简单的句话。那么它应该怎么知道一步一步完成呢？” “大模型出来以后，它不太一样，所以它非常擅长干这件事情，它非常擅长干 task planning，任务规划。”

端到端：具身智能的第三道曙光与方法论分野

第三道曙光是端到端（end-to-end）学习——即用统一神经网络直接从原始传感器输入映射到动作输出，绕过传统模块化设计（感知→规划→控制）的复杂拼接。陈亦伦强调，端到端不仅是技术路线选择，更是实现“令人惊叹效果”的关键解锁姿势：当它能产出上一代技术无法企及的行为时，便迎来了真正的 Aha Moment。

当前行业虽普遍高呼“端到端”，但其具体实现路径高度分化： - VLA（Vision-Language-Action）：以视频+语言为输入，统一建模动作生成，侧重多模态对齐； - 世界模型（World Model）：核心是预测“状态转移”，可用于模拟交互后果（如车辆变道对周围的影响），尤其适用于封闭交互系统（如交通流建模）； - 强化学习 / 模仿学习：则是实现端到端的两种主流训练范式。

值得注意的是，这些方法并非互斥，而是针对不同“头部问题”而生： - 若核心挑战是与人类/车辆的安全交互，则需世界模型； - 若挑战是开放世界中的未知物体识别与语言驱动决策（如 L4→L5 自动驾驶），则需 VLA 类范式。

“端到端是个更大的概念……它要通过数据来解决问题，它要获得下一代难以匹配的性能。”

数据墙、算力墙与创造力墙：具身智能的三重跃迁

陈亦伦提出，AI 解决复杂问题需跨越三道墙： 1. 数据墙：当前具身智能仍卡在第一道——如何低成本、高效率、大规模获取真实世界数据。数据量决定模型复杂度上限； 2. 算力墙：数据充足后，算力 scaling law 发挥作用，系统进入“超级函数压缩器”阶段，行为看似智能，实为对训练数据的强拟合； 3. 创造力墙：当算力趋近瓶颈，真正的突破将依赖后训练阶段的巧思与创新——如如何让模型理解“动作改变世界”的因果逻辑，而非仅模仿历史样本。

因此，具身智能当前最核心的关卡仍是数据获取，而世界模型、VLA 等技术路线，是后续阶段为解决特定问题（如交互、开放世界）而发展的进阶工具。

从数据到架构：大语言模型发展的关键拐点

在大语言模型的发展历程中，数据与算力的积累只是基础条件，真正带来突破性进展的是任务目标与网络架构的双重创新。早期互联网语料已十分丰富，GPU算力也已具备，但直到2017年Transformer论文提出、以及后续GPT系列将BERT的编码器-解码器结构简化为仅保留解码器，行业才迎来拐点。然而，更本质的转折点在于：OpenAI团队选择了“预测下一个token”作为核心训练任务。这一看似简单的任务——让模型持续完成完形填空——却意外引导网络逐步涌现出语言理解、代码生成甚至逻辑推理等能力。

“GPT最伟大的事情，或者OpenAI当时最伟大的事情是，他们想出了Next Token Prediction这个训练任务……你让一个网络不停地去做完形填空，它居然能够走向目前GPT这样的一个能力，这是个非常不可思议的事情。”

Andrew Ng当年用一个中等规模的RNN做next-token预测时，惊讶地发现它不仅能写诗，还能写代码——这在当时并未引发广泛关注，却揭示了一个关键认知：一个设计精巧的任务，可以成为通向通用智能的路径支点。而Transformer的崛起，则进一步印证了另一条经验法则：在大规模数据训练中，结构越简单、实现越清晰的模型，反而越具鲁棒性与可扩展性。尽管在小数据集上Transformer未必占优，但因其简洁、易实现、不易出错，反而在大数据冲刷下胜出。

“越复杂的任务，越大型的数据，它的网络结构就会越简单，越返璞归真……计算效率最高的、最优的、时间最简单、最不容易出错的，往往是最好的方法。”

具身智能的‘两个Awesome’：空间重建与交互建模

若将大语言模型的成功路径类比至具身智能领域，我们亟需回答两个核心问题：什么是合适的训练任务？何种表达最能承载物理世界的本质规律？ 陈亦伦认为，自动驾驶已率先给出两个关键答案：BEV（Bird’s Eye View，鸟瞰图）空间重建与接触交互建模。

BEV之所以关键，在于它明确区分了“感知-空间映射-决策-动作”这一链条中的不可绕过环节：无论采用端到端还是分阶段训练，机器人必须先构建出对环境的统一空间表征，再在此基础上进行路径规划与动作生成。若跳过BEV层，网络往往仅陷入对历史视频-动作的单调记忆，缺乏对物理世界的结构性理解。

“你一旦有空间重建来说的话，你会发现你在后面训练planning、训练各种各样政策，做出一些非常高技巧的动作非常容易。但你如果没有空间重建的这个概念……它不理解这件事情。”

更深层看，物理世界AI的核心在于用最精简的物理变量（而非原始像素）来表征世界。RGB图像虽直观，但存在视角冗余；而物理空间中的时空占据、物体关系、力学响应等变量，才是更本质、更紧凑的表达。这与大语言模型通过token序列逼近语义空间的思路异曲同工——好的表征，是让神经网络学会‘看见’物理定律本身。

而第二重挑战，是如何让智能体与世界建立有效交互。语言模型的交互对象是人类用户，其智能体现在对话反馈的连贯性与适应性；而具身智能的交互对象是物理世界本身——尤其是柔软、易变、高自由度的对象（如布料、线缆、人体组织），其操作依赖对接触力、力矩、形变动态的实时建模与调整。真正的具身智能，必须能预测交互后果、反向规划操作策略，并在动态反馈中持续修正行为。这不仅是技术难题，更是认知范式的跃迁：从“观察-预测”转向“交互-理解”。

图灵测试的具身版本：行为拟人化与泛化能力

当具身系统在空间建模与交互建模上取得突破后，其行为将逐步逼近人类操作水平——这正是具身智能的图灵测试：观察者无法仅凭动作表现区分人类与机器人。例如，当机器人完成穿衣服、戴帽子等日常任务时，其动作流畅性、适应性与容错性应达到“难以分辨”的程度。

“你比方说你给一个机器人，让他穿件衣服，戴个帽子，你可能也分不清楚他是人还是机器人。然后只有你看他的动作，你不太容易去跟他说他是人还是机器人。”

实现这一目标，需满足两个条件：一是任务场景不能过于简化，需覆盖真实世界的多样性与不确定性；二是方法论必须具备可泛化性——即在特定任务上习得的策略，能迁移至新场景、新物体。陈亦伦强调，模型规模本身并非目的，关键在于其背后所承载的方法论深度。正如大语言模型在AI编程等垂直场景中展现出强大泛化能力，具身系统也需在基础任务（如抓取、装配、操作）中提炼出可组合、可复用的物理推理模块。

当前阶段，行业尚未就“具身智能的next-token”达成共识，但共识正在凝聚：以空间为锚点、以交互为驱动、以物理定律为约束的训练范式，是通向涌现性能力的最短路径。一旦第一道关卡（低成本、高效率、大规模数据获取）被突破，性能提升将如大语言模型当年一般，迎来指数级跃迁。

方法论泛化：从垂域模型到通用智能的底层逻辑

在具身智能的发展路径中，真正决定系统能力上限的，并非任务完成的广度，而是背后方法论的可泛化性。以大语言模型为例，尽管当前最成功的落地场景是 AI coding，但其训练目标并非仅限于代码——它本质上仍遵循通用大模型的方法论框架：通过海量数据拟合，构建对语言结构与逻辑的深层理解。这套方法论可以无缝迁移到数学推理、物理建模等其他领域，只是数据分布与任务定义不同。同样，自动驾驶系统在中国训练出的 FSD 模型，即便在印度或日本表现不佳，其底层决策逻辑与感知-规划架构仍具有一致性；真正决定系统能否跨域迁移的，是方法论是否具备可扩展性，而非特定场景下的性能峰值。

“越大的模型，它真正分化的其实背后的方法论。”

“方法论支撑泛化，数据能够无限扩充，然后当你模型越来越大，你其实就是可以适应 multitask。”

因此，具身智能的下一阶段关键，并非追求单任务极致表现，而是构建一套可泛化的方法论体系——它允许模型在未见过的任务上，通过少量数据微调实现快速适应。这要求我们从“任务驱动”转向“方法论驱动”，让模型具备自主探索与任务迁移的元能力。

数据瓶颈：为什么遥操作与仿真难以支撑具身智能?

当前主流的数据采集方式——如遥操作（teleoperation）与高保真仿真——在具身智能场景中面临根本性局限。遥操作虽能获取高精度人-机动作对，但其本质是人为干预下的低效数据生成：操作者需持续投入注意力，系统无法捕捉真实世界中人类自然、无意识的微动作与决策过程；而特斯拉、Facebook 等公司早期依赖的遥操方案，虽能记录 ZEB 全量传感信息，却难以规模化复制真实人类在开放环境中的行为多样性。

仿真则陷入另一重困境：高保真渲染 ≠ 高价值任务数据。例如自动驾驶中，重建上海某区域的雨雪积水场景虽技术炫目，但其核心任务是解决“如何决策”，而非“如何看清楚”。感知问题（如图像模糊、遮挡）尚可通过工程优化解决，而交互决策问题（如避让行人、博弈变道）缺乏可靠的物理仿真器——有限元建模、弹簧-阻尼系统等传统方法效率低下，远不如人类用户在真实场景中自然产生的行为数据高效。Berkeley 的 BDD 数据集即是一例：大量视频数据因缺乏任务对齐，最终难以支撑复杂操作模型训练。

“自动驾驶它真正获得的数据的方式，其实它是在用最好最小的代价在记录人的驾驶行为。”

“人通过数字的键盘或者是这种其他方式在记录自己的生活，记录自己的思考想法。”

因此，真正的突破点在于回归“人类行为即数据源”的第一性原理：以最小代价、最高保真度记录人类在真实场景中的自然行为。这正是具身数据引擎的设计起点——轻量级可穿戴设备（如手套+第一视角相机）并非技术炫技，而是对“如何最自然地捕获人类行为全量信息”这一问题的务实回应。

数据源头与真实场景的不可替代性

在具身智能的数据生成路径中，所有数据本质上仅来自两个源头：人本身，以及真实世界。当前主流做法常将意识路径简化为“人→世界”，即先由人产生行为，再将其迁移到世界中。这种路径虽能实现快速增长的数据积累，但其核心问题在于——这些数据本质上仍是传感器数据，而传感器的设计是否自然、是否贴近真实任务，决定了数据质量的上限。

其中，“真实场景”是关键前提。许多团队依赖遥操作（teleoperation）采集数据，但这种方式存在明显缺陷：遥操存在延时、效率低、干扰原场景作业，在工厂、咖啡店等真实环境中往往不被允许。正如一个反例：若想研究如何做咖啡，推一个机器人去现场遥操操作，只会打乱所有人的工作节奏。更深层的问题在于，在人工构建的封闭测试场（如自动驾驶专用测试场）中训练的模型，无法泛化到真实城市环境。所谓“开城”，本质是在真实城市中采集多场景、多地域数据——北京采集的数据能否用于云南？中国采集的数据能否迁移到日本？只有在真实、开放、多样化的场景中采集的数据，才能支撑具身智能体的泛化能力。

“你想清楚这件事儿之后，你就觉得只能通过可穿戴设备这种方式来。”

“我人戴了手套，戴了摄像头，去看人之所看，感知人所感，然后把这个手套跟摄像头放到机器人身上。那机器人其实理论上说，它也是一样的，看人之所看，感人之所感。”

真实动作与全信息手部数据采集

仅有真实场景还不够，还需确保采集的是真实动作——即人在自然状态下完成任务时的完整操作行为。遥操作的问题在于，操作员需临时“化身”为技能工人，但其动作常是“虚假动作”：为适应遥操延迟或操作界面限制，人会调整动作节奏、路径甚至策略，导致采集到的行为偏离真实任务完成方式。

因此，必须采集全信息的手部操作数据，包括三个关键维度： 1. 手的位置与姿态（作为终端执行机构）； 2. 各手指的姿态与运动（五指协同的精细动作）； 3. 接触力与触觉反馈（通过触觉传感器捕捉压强、滑动等物理交互）。

我们通过定制化手套实现被动式、低干扰的数据采集，无需佩戴臂部设备，即可稳定获取指尖位置、姿态与力信息。该方案结合第一视角摄像机，解决“手被遮挡”问题（如叠被子时手伸入被窝），并通过算法与硬件协同设计提升输入可靠性。算力策略上采用分层设计：云端处理高精度建模，端侧部署轻量化芯片实现实时反馈，兼顾性能与可扩展性。

“我们做的很多方式，为了非常容易的获得让人不难受的情况，我们叫被动采集，它可以非常稳定的拿到指尖的位置，拿到我想要的这些信号等等啊。”

从零开始定义具身传感器：超越VR与动捕的创新

尽管VR与电影动捕领域已有手套技术，但二者均未针对具身智能需求优化：VR手套受限于摄像头定位，精度低、遮挡严重；动捕手套追求“趋势表达”，忽略毫米级精度与力反馈，均属不完备方案。更关键的是，机器人领域此前并无专为具身智能设计的高保真手部传感器——若已有成熟方案，团队无需自研硬件。

我们坚持从任务定义传感器：具身智能需要的是20+自由度的五指灵巧手操作数据，而非降维方案（如三指夹爪或两指工具）。降维方案本质是“用工具约束人手”，导致采集与部署端自由度不匹配，形成闭环限制。我们拒绝降维，坚持高维采集，因为只有完整复刻人手行为，才能真正迁移人类技能。

“如果说这个设计师个手套一个工学设计手套非常有难度的话，他会转向一个降维版本……它相当于什么？它当你把一个有二十多个自由度的手，通过一个工具把它塞进去，让你降维，你只能按照它既定的自由度去操作。”

在行业认知层面，我们对中国技术充满信心：中国在端到端自动驾驶、具身智能等前沿方向已具备引领性成果。具身智能的本质是硬件、场景、本体、数据、算法的深度耦合，而非模块化拼凑。美国团队虽在灵巧手领域有布局（如特斯拉），但多数缺乏垂直整合能力；而中国团队正以系统级创新破局——硬件自研、场景驱动、数据闭环，三位一体。

数据采集：从谨慎试错到硬件驱动的规模化跃迁

在数据采集策略上，团队起初采取极其审慎的渐进式路径：先小规模试错，逐步提升数据浓度，验证有效性后再推动规模化。一旦确认方法可行，便迅速进入硬件驱动的扩张阶段——因为高质量数据的规模化必须依赖专用硬件支撑。为此，团队投入大量精力进行硬件创新，核心目标是将单套设备成本压降至可大规模部署的水平，从而释放数据产能。陈亦伦预计，明年数据量将暴涨数倍。

当前主要成本结构由两部分构成：硬件成本与人力执行成本，但背后真正的核心支出实为算力成本。与遥操作（teleoperation）相比，该方案展现出显著成本优势：遥操作需部署真实机器人，且操作效率低、成功率有限，同等数据规模下，其投入可能是本方案的百倍以上。据其估算，单条数据成本至少可降至遥操作的百分之一。这一趋势正被更多团队跟进，但真正实现全量信息采集仍面临门槛——许多公司虽采用夹爪方案快速获取数据，却在向真实场景迁移时遭遇瓶颈；而手套式方案则受限于人机交互体验不佳，仍需回归自研硬件路径。

“摇操一般来说可能对比我们这种方式，我们可能踩十条，十条都能用的话，摇操可能最多只有一条能用。”

“据你所知，有谁在这么做呀？……我我自己认为，就是二六年就这种方式就会让数据大爆发，爆发到一个大家非常惊讶的地步。”

模型架构：以‘世界引擎’重构具身智能的底层逻辑

在模型层面，团队提出 AWE（AI World Engine） 框架，其核心在于将世界建模而非感知建模作为神经网络资源的首要分配方向。与主流VLM（视觉语言模型）仅关注局部纹理、颜色等表征不同，AWE优先编码时间、空间、力等基础物理量，并强调对交互反馈（如挤压形变、反作用力）的建模能力。

为何称其为“Engine”？关键在于其动态演化特性：世界状态会随机器人动作持续改变，而模型需能预测后续演化路径，并据此推荐最优行动策略。陈亦伦强调，高效训练的本质在于模型结构与任务特性的深度耦合——机器人任务天然要求对物理世界进行因果性建模，而非仅做模式匹配。

他进一步指出，机器人领域亟需独立于VLM的基础模型。若将机器人视为多模态大模型的下游分支，则会陷入认知误区：正如自动驾驶并非CV模型的简单延伸，具身智能亦需专属理论框架。他援引2017年自动驾驶行业的教训——当时许多人试图在成熟CV模型上“长出”自动驾驶模块，但他坚持认为，若视自动驾驶为“AI皇冠上的明珠”，就绝不能将其降级为其他模型的附属功能。

“你只要知道二零一七年是个什么状态……你都觉得它是皇冠上的明珠，你还认为它是一个三维模型长出来一个头子吗？它肯定不是这样子呀。”

“机器人这个领域一定要拥有一套自己领域的……它能展现的智能规模应该是远大于大家现在想象的一个多模态大模型的。”

Scaling Law与行业演进：三堵墙与冷启动节奏

针对“具身智能尚未找到Scaling Law”的质疑，陈亦伦持明确乐观态度：Scaling Law必然存在，且当前已进入明确的scaling阶段。他提出行业冷启动需依次跨越三堵墙——数据墙、算力墙、交互环境与技巧墙。大模型之所以爆发迅速，正因跳过了数据积累阶段；而自动驾驶与具身智能均需经历完整三阶段，导致冷启动周期较长。

他预测，若从2025年起系统性推进端到端方案，2027年前将出现显著效果；结合当前进展，实际突破可能提前至2026年。尽管行业平均速度持续加快，但最懂数据的公司往往最懂AI，数据能力与模型能力将深度绑定，形成核心壁垒。团队当前策略是先闭源打磨至高价值状态，再以“用户低门槛获取价值”为标准推进开源——开源不是简单上传模型，而是确保其被广泛使用并产生实际效用。

“scaling很多时候，它对于一个新行业，巨声这个行业，它的冷启动时间为什么会长呢？就是因为它一定要三个阶段按照顺序来。”

“最懂数据的公司，往往是最懂AI的公司，它一一定是互相映射映射到的。”

行业节奏：端到端具身智能的演进时间线

在谈及端到端技术何时能带来惊艳效果时，陈亦伦认为，行业整体正加速前行。以巨声为例，若从2019年认真启动端到端研发（从伪数据起步），到2021年已可见初步效果；那么若从2025年才真正投入，到2027年必然能见效——但当前进度显示，实际发展比预期更快。他强调，行业平均速度正在持续加快，并预测：2025年将出现大量企业决定切入该领域，而2026年将迎来数据大爆发，随之而来的是AI能力的跃升。尽管个体玩家进展不一，但整体趋势明确：具身智能正从技术验证迈向实用化临界点。

我认为从二五年认认真真开始搞这件事情，到二七年就一定会有效果。

数据大爆发必然会伴随着AI能力的提升，所以这是个行业平均速度。

信心信号：从Demo视频到真实价值落地

陈亦伦指出，2026年将出现大量可观察的积极信号：首先是Demo视频激增，这与早期自动驾驶发展路径一致——当技术能稳定生成演示视频，会吸引更多玩家进入垂直细分场景；由于场景收敛、数据浓度提升，这些领域会率先被解决。更重要的是，通用具身能力将稳步增强，带动行业信心指数持续上升。这种信心将首先由早鸟用户体现：他们更关注长期潜在价值，而非仅短期使用价值。

他特别强调，真正的信心体现不在于“合作”本身，而在于是否构建了可共享的技术创新价值池——即通过产品与技术创造真实商业价值，实现互惠互利。没有价值池的合作只是表面文章；反之，一旦价值池形成，自然会有更多伙伴加入。因此，巨声的策略是：2026年将极度聚焦，把实际价值做干净、做漂亮。

我们并不打算去 demo 去做这些事情，而是我们觉得这就是正确的做事情的方法。

核心是要把这个价值池子把它做出来，所以这件事情是比较重要的。

落地场景：从工业柔性制造切入，直面真实痛点

尽管消费者市场是终极目标，但陈亦伦明确表示：进入消费级领域仍需严肃评估时间点。巨声的首要落点是已有机器人部署的工业场景，尤其是那些长期被遗留、却亟需新式生产力的“硬骨头”。例如精密柔性制造中的线束装配——从汽车、冰箱到服务器，凡有电力系统之处，均需线束；而其制造涉及理线、插拔、装配等复杂柔性操作，对机器人而言极难：人自己理线都乱糟糟，更别说让机器精准完成。

他对比指出，手机等平面组装工艺虽也复杂，但因结构规则、流程标准化，自动化程度已较高；反而是立体、柔软、非结构化任务（如插接、堆叠、软硬混合装配）才是当前瓶颈。巨声正聚焦于此，与大量真实痛点用户深度合作，并采取“用户驱动+快速迭代”模式：合作方与巨声目标高度一致——把问题干净漂亮地解决掉。

你只要有电器的地方就会有线……它的制造对于机器人来说是一个非常难的问题。