149: 具身模型哪家强？与范浩强、高阳聊具身模型的测评、RoboChallenge，26 年具身展望

测评困境：从 demo 视频到真实世界的落差

在具身智能领域，模型能力的评估长期面临一个核心难题：缺乏统一、可复现、大规模的真实世界测评标准。此前，学术界和工业界普遍依赖“精挑细选”的 demo 视频，即从大量尝试中挑选出唯一一次成功的片段进行展示（cherry-picking），或仅在仿真环境中测试少量任务（通常三四个），且不同论文所用任务集往往不一致——即便同名任务（如“table placing”），实际设定也可能完全不同。这种碎片化、不可比的评估方式，使得行业内部难以横向比较模型真实水平，也令外界对技术进展产生疑虑。

元力灵机联合创始人范浩强回忆，团队在早期测试开源模型（如 Pi-0）时，30 个简单任务的平均成功率仅约 20%，即平均四次尝试仅成功一次。这让他们陷入焦虑：若将如此数据公开，是否会加剧外界对整个行业的不信任？尤其在模型尚未成熟时，测评结果的波动性极大——模型表现不佳，究竟是因环境差异（如杯子把手形状不同），还是模型本身能力不足？ 这一根本性问题，凸显了真实世界交互中物理环境不可控性对测评结果的巨大干扰。

RoboChallenge 的破局：标准化、规模化与社区共建

为打破这一困局，元力灵机联合 Hugging Face 于去年 10 月发起并上线了 RoboChallenge 开源测评平台，其核心思路是：将虚拟空间大模型的成熟测评范式迁移到具身领域——即构建一个标准化、可复现、大规模的真实任务集。该平台精选 30 项对人类而言几乎零失误的日常任务（如插花、扫二维码、叠餐巾纸等），要求模型在多样化的物理环境中反复执行，并统计数百次运行后的平均成功率，从而有效控制结果方差。

真正带来信心转折的是 Pi-0.5 权重公开后的测试：成功率从约 20% 提升至 42%，翻倍增长，且部分简单任务（如叠板）经少量微调即可达到 100% 成功率。范浩强形容这种进步不仅是数字变化，更是一种“感官层面的震撼”——站在机器旁观察其运行，能直观感受到模型“更灵光了”。高阳补充指出，此前高校实验室虽有测评尝试，但受限于资源与协作，难以形成规模化影响力；而 RoboChallenge 的关键创新在于推动社区共建，使测评过程本身成为凝聚行业共识、建立客观公信力的过程。

信心来源：具身智能正逼近关键临界点

从 Pi-0 到 Pi-0.5 的跃升，印证了2026 年可能成为具身智能的“GPT-3 时刻”——即模型能力在数据规模与训练范式突破后，实现质的飞跃。范浩强指出，当前行业共识是：“scaling data”将是 2026 年最核心的主题，而具身领域面临的挑战在于，仿真数据的多样性难以提升，真实世界数据的采集与标注成本又极高。因此，像 RoboChallenge 这样的平台，不仅用于测评，更可反向驱动数据生成与任务设计优化。

两位嘉宾均强调，测评本身增强了他们对具身技术的信心：“组织与参与测评的过程本身增强了他们对具身的信心。” 尽管当前模型仍远未成熟，但进步速度惊人；国产模型（如千寻 Spirit V1.5）已能在 RoboChallenge 榜单上超越国际开源模型，标志着中国团队正从“追赶者”向“引领者”转变。

评测难题：从学术尝试到产业需求

具身智能模型的系统性评测，长期以来面临资源与可复现性双重瓶颈。早在博士阶段（2016年起）就深耕机器人领域的高阳指出，尽管学术界很早就意识到评测缺失的问题，并提出了若干雏形方案——例如卡内基梅隆大学的 Abhinav Gupta 早在其读博前就尝试过远程访问实验室机器人进行测试；上海交通大学陆建武老师团队也有类似探索；甚至类似“云内支援”的模式也早有构想——但这些尝试受限于单实验室规模：机器人数量有限、实验空间狭窄、任务仅限1–3个，且高度依赖人力维护（如任务失败后复位、手动干预等），一旦学生毕业，整套系统往往便无人维系。因此，这些努力虽具开创性，却始终未能发展为连续运行、广泛采纳的标准化基准。

与此同时，模型能力本身也构成另一重制约：早期机器人算法几乎不具备泛化能力，往往只能执行单一或极少数预设任务（如“缝手绢”或“剪纸”），无法应对新任务。而如今，随着VLA（Vision-Language-Action）模型的兴起，模型已具备执行任意任务的理论潜力——尽管成功率未必100%，但至少“能做”。这一技术拐点，叠加产业界大规模入局（如元力推出的 RoboChallenge），共同催生了对大规模、可扩展评测体系的迫切需求。

“以前的模型或者以前的机器人算法，它只能对吧？我只能缝一个手绢儿，或者我只能剪一个东西，你让我去做一个其他任务，它根本做不了，就它只能做一个单一的任务或者少数几个任务，对它对于任务的这个限制是比较强的。”

“现在的是说我能做，但是可能我的成功率没有百分之百，但至少我现在的模型是什么事情，对吧？理论上来讲我都可以做。”

真实世界 vs 仿真环境：精度与泛化的两难

具身智能评测的核心矛盾在于：物理世界的不可控性与评测所需的精确可比性之间的张力。正如范浩强所言，即便看似简单的物体（如杯子），其把手形状、摆放角度、光照条件等微小差异，都可能显著影响模型表现——而我们无法在不同实验室间复现“一模一样”的物理环境。这导致模型失败原因难以归因：究竟是模型能力不足，还是环境扰动过大？

过去，计算机视觉之所以能快速迭代，正得益于其评测高度可重现：同一张图像、同一组数据，结果稳定可复。而机器人必须在物理世界中执行轨迹，噪声无处不在——正如业内所言：“robotics about noise”。因此，当前评测目标不应苛求“精确到小数点后一位”，而应聚焦于捕捉代际级差异：在模型仍处早期（如平均分未达60）的阶段，评测系统需处于“敏感区”，放大模型间真实差距，从而清晰反映技术演进趋势。

“我们反而就说跳出来想，就是说那我可能追求不是说我百分之百能去测出来这个……而是说它要能够去反映这些模型发展的趋势。”

“现在比的是说，哎，这个他是零，我不是零……现在这个榜单上他那个很多成绩，你看最高那也甚至也从……六十分都都没到呢，那我觉得这反而可以为之了。”

Benchmark 的两条路径：RoboChallenge 与 RoboArena 的范式之争

当前主流评测路径呈现两种范式：微调导向（few-shot）与零样本导向（zero-shot）。

RoboChallenge 采用典型的 few-shot 设定：提供30个任务，每个任务附约1000条人工采集的示范数据，参赛者基于基模进行 fine-tune 后提交结果。这种设计更贴近当前技术现实——多数模型尚需任务特定微调才能有效执行，且集中部署于同一硬件环境，保障了测试条件一致性，便于直接比较。

而 RoboArena（由 Physical Intelligence 发起）则采取 zero-shot 路径：任务现场指定，模型需仅凭文本指令完成任意任务；测试在全球分布式实验室中进行，每次对比两个模型在同一台机器人上的表现，通过成对比较构建排序关系。其优势在于更接近未来理想场景，但当前模型能力尚不足以支撑高成功率——大量任务接近零分，反而削弱了区分度。正如讨论所言：“如果都接近于零的话，你反倒也比不出来……它就只能得出这种结论来：虽然他们都没抓住，但这个看上去好像走的更 promising 一点儿”。

“RoboArena 是一个 zero shot 的一个设定，就是它假设你模型足够强，你可以做任何的事情。”

“所以他的那个方法其实对现在的模型来说太难了哇！”

测评困境与指数级发展预期

在具身智能模型的测评中，若所有模型表现均接近于零（即成功率极低），则难以形成有效区分，最终只能得出“虽未成功，但某模型路径更值得期待”的模糊结论。这反映出当前 RoboChallenge 等基准测试对模型能力的要求已远超现有水平。尽管行业整体仍处于早期阶段，公众普遍认为机器人落地家庭或商业场景尚有距离，但历史经验表明：智能技术的发展并非线性，而是典型的指数级演进路径。以大语言模型为例——三年前它尚只能“说些话”，被视作技术极客的玩具；如今却已能完整解答 IMO（国际数学奥林匹克）竞赛题（每年中、美各派5人参赛），模型能力已实现质的飞跃。具身智能亦遵循同样规律：初期看似“很菜”，但进步速度可能远超预期。正如团队早年用大量微任务模型“加起来打不过一个 Grounding DINO”，却不妨碍产品真正走向市场——最终决定成败的，是场景落地逻辑，而非单一模型的绝对性能。因此，即便某模型当前 zero-shot 成功率仅为 10%，也不应阻碍团队开展早期落地尝试。

RoboChallenge 生态与模型竞争格局

RoboChallenge 平台的设计初衷是打造一个干净、开放、低门槛的基准测试环境，类似 ImageNet 或 CIFAR，强调学术中立性。平台本身不绑定公司身份，测试记录仅以个人名义提交（需实名），成绩发布后才由团队认领。这种机制确保了 benchmark 的纯粹性——“测好了也不会驳谁面子”。截至目前，平台已收到超 10,000 次独立测试运行（两个月内），覆盖全球多地（包括英国伦敦），且机器资源仅约 9 台（含双臂、单臂、协作臂等多类型），导致排队反馈成为瓶颈。目前公开认领的最优模型是千寻的 Spirit 1.5，其表现略优于派零五（Pi05），而 Spirit 1.5 在内部测试中亦小幅领先。其他参与方还包括 Wow OSS Flow 等公司，但多数团队选择成绩稳定后再披露。值得注意的是，模型性能提升已形成清晰趋势：早前大量模型总和不及一个 Grounding DINO，如今已有多个模型在特定任务上展现出可量化优势，说明整个具身研发社区正快速成熟。

任务设计哲学与模型能力盲区

RoboChallenge 的 30 项任务源于团队内部“脑暴”：成员每人提出“未来机器人必须能做的事”，汇总成数千条需求清单，再由数据采集团队筛选可执行场景。事后分析发现，这些任务高度多样化且考点丰富——几乎每项任务都具备独特难点： - 碎纸任务：考验柔性物体操作与遮挡下的感知-动作协调； - 插花任务：不仅需手部精确定位，更涉及物体间交互（花柄与花瓶的配合）； - 扫码任务：看似简单，实则暴露模型缺乏时序记忆能力——扫前与扫后图像无差异，模型无法判断“是否已完成扫码”，导致动作停滞或重复执行。这揭示了当前主流 VLA（Vision-Language-Action）模型的共性缺陷：均为单帧输入，缺乏上下文记忆机制。正如比喻：“模型每零点几秒就失忆一次，像金鱼一样”。

“就像你生活的时候，每过一百毫秒你就失忆一次。你想一想，它就是金鱼，金鱼就是说什么每七秒它就忘了嘛，它就忘了。这个模型现在每。每零点几秒就忘一次。”

“它其实它并没有一个机制能去把这个我是不是已经扫过的这个上下文放进去。”

尽管如此，这些“拍脑袋”设计的任务反而精准戳中模型盲区，凸显其真实世界泛化能力的不足。例如，将皱缩餐巾纸放回纸篓、将杯子精准嵌入毫米级容差孔洞等任务，即便最优模型仍具挑战。这印证了任务集的高价值：它并非追求技术完备性，而是以多样性构建模型能力的“显微镜”。

RoboChallenge 的设计哲学与社区演进

RoboChallenge 的核心设计理念是保持平台通用性与开放性：平台仅提供机器人控制的 API 接口，不强制统一模型架构或微调方式，允许参与者自由选择计算框架、控制逻辑甚至数据来源。这种设计规避了因微调参数、硬件差异等带来的结果不可复现问题——正如高阳所言：“如果是我们来做微调，但微调它其实有很多这种手艺问题嘛……哪怕这个显卡换一块，也许结果都不一样”。

平台初期依赖志愿者提交结果（最初 6 个榜单成绩均来自 volunteer），后续才逐步吸引企业主动参与评测并自建评估流程。为保障结果可信度，团队倡导开源自证机制：提交成绩者需同步公开模型代码，使他人可复现大致趋势（虽允许合理误差）。这一机制虽依赖社区自律，但团队相信“绝大多数的参加人员，他是一个就是为了学术目的的，就是是这么技术严谨的这么一个事情嘛”。

“那理论上其他人可以再去提交一遍，对他可以再去交一遍这个东西嘛，对吧？那也许因为有些误差的问题，这个结果不是百分之百重合的，但至少那个大的趋势它也是对的”

“我我们还是相信，就是就是相信绝大多数的这个参加人员，他是一个就是说就是为了学术目的的，就是是这么技术严谨的这么一个事情嘛”

测评生态扩展与行业协作模式

RoboChallenge 已从单一任务（如 DexNav）发展为多方共建的开放协作平台：目前已有十余家企业加入 partnership，包括国际公司（如 Hanson Robotics）及本体厂商、数据采集实验室等。合作形式多样——有企业捐赠硬件（如灵巧手）、有厂商提供自有 benchmark 供社区提交测试，目标是构建丰富多元的测评场景矩阵（如 KitchenNav、RestaurantNav 等），从而更全面评估模型泛化能力。

“那其实那对 RoboChallenge 来讲嘛，其实是希望是说，就是所有的人都能把自己的这个 control biotion 放进来。那这样的话呢，这这个整个的这个 program 它就可以内容越来越丰富，越来越丰富”

“我们说，哎，那这个 idea 我们也非常欢迎”

具身智能的当前瓶颈与未来路径

当前具身模型的核心瓶颈在于数据规模与质量。范浩强指出：“其实如果数据层面我们有像大语言模型这样无穷多的数据，具身模型啊它的解决，我觉得并不是一个很难的一个问题”——大语言模型的成功路径（预训练→SFT→RLHF）正被具身领域借鉴：先用海量文本/视频数据学习世界知识与不变性，再通过大量机器人交互数据构建“感知→动作”映射，最后以强化学习优化策略。

模型架构本身并非关键限制：VLA（Vision-Language-Action）仅描述输入输出模态（如 tactile 触觉可替代部分视觉），基座模型可以是 VLM、视频生成模型或其它形式。高阳团队采用 VLM 为底座，融合人类视频、可穿戴设备、遥操作数据进行多阶段微调；而数据来源上，BAT 采用“仿真+真机”双轨策略：仿真数据用于提升多样性但受限于场景构建成本；真机数据（尤其遥操作、可穿戴）虽采集成本高但质量优，更适合后训练阶段。

“所以就比如说你做仿真和做采集，可能最后都变成是说我怎么才能有一个一个集合？就比如说去枚举了大家日常生活中能接触到的所有商品”

“你搞仿真的，那你就天天想怎么做三D asset……你想搞信真机的啊，就不停的研究，就怎么大规模的用一大堆的操作员把这个东西工业化的降本。我相信，也许最终都能走到终点”

数据采集：真机、离体与共享的路径之争

具身模型的数据来源虽看似纷繁多样——包括仿真、真机采集、可穿戴设备、甚至人类手持设备采集——但其底层知识仍根植于对物理世界的观察与理解。无论采用何种采集方式，最终都指向一个核心问题：如何构建一个覆盖日常场景的、系统性的知识集合，例如枚举生活中常见商品及其交互方式。从企业实践看，部分团队选择延续自身优势路径：如早期构建了线下大规模人脸数据采集体系的公司，目前仍以真机数据为主；而美国公司 Generalist AI 则另辟蹊径，采用“人手持夹子采集”而非机器人采集的离体式采集模式，宣称已积累27万小时数据，并具备每周1万小时的采集能力。若该数据属实，到2026年底其数据量可能接近百万小时。与此同时，可穿戴采集方案也进展迅速，有公司宣称今年目标为1000小时。这些路径虽形式各异，但共同指向一个结论：数据的最终价值不在于其表征形式，而在于其背后所承载的、对世界知识的系统性积累。

“最终还是那个就是总的知识量到了，其实你无论这个 data 的 representation 是啥样，可能都可以最终走通。”

“恰恰就是这些人类劳动，它造就了现在这模型的伟大。”

数据共享：从封闭采集到开放生态的挑战

与大模型时代不同，具身数据的获取具有高成本、高门槛、难复用的特性——互联网时代的公开数据虽需清洗，但采集成本近乎为零；而具身数据多需企业自建采集体系并投入重金，导致其天然具备私有性。目前行业内的数据共享仍处于早期阶段：学术层面已有如 OpenX Embodiment 等联盟推动数据集整合与公开；但企业级层面，尚无大规模、制度化的共享机制。有观点指出，互联网数据的“免费”是误判——真正关键的是海量工程师对原始数据的清洗与标注劳动；具身领域亦不例外，YouTube 等平台的视频数据虽庞大，但能否被有效利用仍取决于前置性问题的解决程度，例如环境建模精度、任务分解能力等。因此，数据 scaling 的前置瓶颈，如任务完成率（如 Table-30 任务成功率需达 90%）、算法可扩展性、以及社会化的采集分工体系，才是当前亟需攻克的系统性工程。

“这些地方都是真正的人类劳动在里面的，并且我觉得就是说，恰恰就是这些人类劳动，它造就了现在这模型的伟大。”

落地瓶颈：从通用能力到垂直场景的跃迁

当前具身智能的商业化落地，受限于基础模型能力尚未成熟，远未达到大语言模型（LLM）在编程、搜索等场景的渗透深度。LLM 的应用已覆盖约一半的 AI 流量（如编程辅助、问答替代搜索引擎），但即便其已具备 AGI 初步形态，实际普惠仍需时间转化——例如用户尚未习惯仅靠语音指令完成外卖下单。具身领域则面临更严峻的挑战：机器人能做什么？ 编程是高价值、高抽象度的单一任务；而机器人应用则高度分散——叠被子、拿快递、修屋顶等场景彼此割裂，难以形成统一范式。工业场景（如汽车装配）已有六轴机械臂落地，但消费级服务机器人仍缺“杀手级应用”。创业者常以“叠被子”为理想锚点：它既非 trivial（扫地机器人厂商不愿做），又具实用价值，且能倒逼算法与硬件协同进化。目前已有进展信号：派零六（Panda）可叠纸盒，Delta 专注软物折叠，3D Robotics 能卷袜子——但被子因重量与形变复杂性，对硬件负载与控制精度提出更高挑战。行业共识认为，真正的破圈将始于一个震撼级 Demo：它未必完成复杂任务，但能让客户相信“它能做更多”，从而驱动正向需求循环。这一时刻可能在3–4 年内到来（即 2026–2027 年），类比 LLM 从 GPT-3.5 到 GPT-4 的跃迁；当前具身智能或处于 CIFAR-10 阶段——toy example 已成熟，但 ImageNet 级别突破尚在途中。

“客户哪天信了，其实呢，真的就是应用它的爆发之时。”

具身智能的“CIFAR时刻”已过，ImageNet在即

当前具身智能的发展阶段，非常类似于计算机视觉领域从 CIFAR-10 向 ImageNet 的跃迁过程：CIFAR 因其仅含 10 个类别、32×32 分辨率图像，本质上是 toy example；而 ImageNet 以 1000 类、全分辨率图像 构建了更贴近真实场景的评估基准，真正推动了模型能力的质变。类比到具身智能，行业已走出实验室阶段，但尚未进入规模化客户落地期——正如自动驾驶从 Apollo 开源生态走向以客户为中心的成熟阶段，具身智能正处在一个“加速进化的前夜”。从业者能清晰看到技术路径的清晰化，但公众仍需看到机器人真实、泛化、无剪辑地完成倒茶、叠衣等复杂任务，才会产生信任。这种认知鸿沟，本质上是技术成熟度与公众感知之间的必然时间差。

“它历史是一波一波 Echo，然后它的 Echo 的频率越来越快，感觉是在进入加速进化的前夜。”

“公众往往会把这个东西联想到说啊，这个马上可以进我家叠衣服吧，就是会把一个技术展示直接联想到一个应用落地上。”

Demo 工程的‘公开的秘密’与测评可信度挑战

行业内部心照不宣的“Demo 工程”现象，已成为具身智能测评中的核心痛点。许多展示视频背后依赖高度可控的环境设定：如固定物体位置、反复尝试后仅保留成功片段、甚至人工干预操作。例如 Figure 早期视频虽令人震撼，但其泛化能力仍存疑；类似地，高阳提到的“找甜区”策略——在特定杯位下算法恰好成功，再将该片段用于宣传——已成为常见做法。公众因缺乏技术背景，常将单次成功 demo 直接等同于产品成熟度，导致认知两极分化：要么认为“机器人已全面普及”，要么视其为“视频剪辑骗局”。

为提升透明度，RoboChallenge 社区正探索多种反作弊机制：如在视频中嵌入唯一哈希值、结合区块链存证、或强制上传原始未剪辑素材；远程直播+交互式测评也被视为接近“现场看”的可行路径。然而，物理世界测评的防作弊难度远高于大模型——后者可通过开放提问天然抵御数据污染，而具身系统仍面临“同任务重复提交取最优”“人工遥控替代模型”等社会工程学攻击风险。

“最好的方法就是带着大家站在东西面前现场看，这是个唯一的光秃子。”

“一涉及到真实世界就挺有意思的，可能你要 hack 只能社会工程学了啊。”

2026展望：具身领域的‘GPT-3时刻’能否到来？

展望 2026 年，从业者最关注的悬念已从“中美差距”转向更本质的问题：具身基础模型能否达到 GPT-3 甚至 GPT-3.5 的能力水平？高阳回忆，视觉领域从 Google 的“千机生成猫脸”到国内实现人类水平性能，仅耗时约三年；如今在 Cursor/Codex 提升研发效率的加持下，追赶节奏可能更快。他个人对行业信心持续上升——早期困惑逐渐消解，技术路径日益清晰，Scaling Data（数据规模化）已成为行业共识的核心主题，而数据获取方式（视频学习、真机遥操、UMI 人体动作采集等）则成为当前主要分歧点。未来一年，更多团队或将推进 UMI 等低成本高质量数据方案，推动具身智能从“能做”迈向“可靠做”。

数据来源与采集路径分化

当前具身模型的数据获取路径呈现明显分化：一部分团队侧重从视频数据中学习，另一部分则更依赖真机数据。真机数据又可分为两类：一类是通过遥操采集实现，其优势在于数据质量最高，但成本极高——需自建机器人或至少保持结构同构；另一类是近年来兴起的UMI（Use Me as Instructor）范式，即让真实场景中的操作者佩戴可穿戴设备，采集其自然工作过程中的动作与环境交互数据。Generalist、3D Robotics 和踏实等团队均已开展相关探索。预计到2026年，将有更多团队跟进此类工作，推动数据采集从实验室走向真实场景。

‘真机数据又可以分为比较重的去做遥操采集，它的质量是最高的，但是很贵，因为你需要造一个机器人，或者至少是一个同构的结构才好做遥操。’

‘而现在很火的一个方向是 U M I，简单来说就是让工作中的人带着可穿戴设备来采集真实场景里的真实工作数据。’

模型架构与硬件演进双轨并行

在模型架构层面，VLA（Vision-Language-Action） 或端到端范式已成为主流方向，但各团队对 VLA 的理解与实现路径存在显著差异。例如，高阳提出可扩展为 VLTAT（Vision-Language-Tactile-Audio-Text），强调多模态融合；小张则指出，VLA 的基座未必局限于大语言模型（LLM），以视频为基座同样可行，这为模型设计提供了更灵活的自由度。

硬件方面则涉及更复杂的跨学科挑战，需同时兼顾寿命、耐久性、可靠性、精度、负载与续航等多重指标，背后依赖能源材料等底层技术的突破。理论上，大脑（感知决策）与小脑（运动控制）可与本体硬件解耦，海外已有专注“大脑”研发的创业公司。但在中国，多数团队采取软硬垂直整合策略——如星海图、智简动力、千寻等，既做模型也做本体，以加速迭代并利用国内供应链优势。这种路径虽非唯一，却在当前阶段展现出更强的落地可行性。

‘理论上，智能也就是大脑和小脑的部分和硬件的部分是可以解耦分开的。’

团队背景多元，凸显跨学科本质

具身智能领域的创业团队背景高度多元，主要可归为三类：自动驾驶背景（如华为前自动驾驶首席科学家陈亿伦、新海图高阳、智简动力贾鹏与王凯）、学术研究出身（如高阳、徐华哲），以及其他 AI 子领域专家（如范浩强的计算机视觉背景）。同一团队中，联合创始人背景常形成互补：星海图由工业界经验丰富的高阳与学术背景深厚的赵航共同主导；千寻则由机器人厂商珞石出身的韩风涛与技术专家组成。

这种多元融合恰恰揭示了具身智能的核心特质：它不是一个单一技术领域的延伸，而是一个高度跨学科、跨领域的系统工程。正因如此，它既显得“混乱”“头大”，也蕴含巨大创新空间——无法靠单一巨头短期砸资源速成，而需长期协同演进。未来仍存在诸多变数，值得持续观察与参与。

‘这是具身智能目前让人感觉比较混乱、难以看清和头大的地方，也是它很有意思的地方。’