从编程竞赛到AI创业:兴趣驱动的路径
唐文斌的AI之路始于浙江新昌一个县城中学的编程兴趣小组。初二时,他因偶然机会被选入学校刚设立的信息学竞赛培训,从此与编程结缘。“编程的乐趣在于解决问题的成就感”——当一道题被构思、编码、调试并最终通过所有测试时,那种工程师特有的正向反馈极具激励性。与数学、物理竞赛不同,编程的解法不唯一,更强调在无标准最优解的开放空间中寻找较优策略,这种探索过程与后来AI领域的优化问题高度契合。
大学期间,他持续活跃于TopCoder、ACM等竞赛平台,并参与命题工作(2007–2013)。他指出,出题比做题难得多:一道好题需具备强区分度,能有效拉开参赛者水平,这要求命题者既懂算法本质,又深谙用户思维——“你得是一个好的player,才能做一个好的judge”。这一认知后来延伸至AI领域:制定benchmark本身就是一项高难度的系统工程,尤其在具身智能等新兴方向,评测标准的设计直接决定技术演进方向。
“它其实并不存在一个最优解,所以你其实可以去发挥你的想象,发挥你的这种可能性啊,去找到那个较优解。”
“你得是一个好的player,你才能是一个好的judge。”
清华班的‘男生宿舍’与旷视的伏笔
2006年,唐文斌进入清华大学计算机系——一个仅有27名男生、无女生的特殊班级。因大二重新分班,他与后来旷视联合创始人印奇(原自动化系)才正式熟识。两人初识于微软亚洲研究院(MSRA)实习:2008–2009年,印奇在孙剑组做人脸识别,唐文斌则在张磊、蔡锐组研究图像搜索,图像技术的共通性催生了频繁的技术交流。
另一关键契机是大四学生节:全班27人自编自演男生版小品,印奇任导演。唐文斌评价其“很有组织力”,不仅协调复杂剧本,还邀请校外女生客串,使节目兼具温馨与幽默。这次合作让团队默契从科研延伸至协作层面。毕业前,三人已约定“有机会要一起创业”,为2011年旷视的诞生埋下伏笔。
值得一提的是,唐文斌在本科期间已深度参与信息学竞赛组织工作。他与同学胡伟栋(NOI金牌得主)牵头命题多年,这段经历让他深刻理解技术生态中‘规则制定者’的价值——这后来成为他判断AI创业方向的重要标准:不只做执行者,更要定义问题本身。
从‘本质’到‘有用’:创业者的认知跃迁
唐文斌回顾旷视早期时提到一个有趣现象:研究院里常有人说‘这不本质’,大家执着于攻克最后的技术难点;但商业化产品中,“所有对客户有影响的东西都是本质的”——它未必是最难的部分,却是决定产品价值的关键。这一认知转变贯穿其两次创业:2011年做计算机视觉时聚焦落地场景,2025年创立元领灵机则坚持“不做人形机器人”,也主动参与多模态基模预训练,选择少数派路径。
他强调,具身智能的真正挑战不在于硬件形态,而在于持续使用率——当前行业仍需回答:到底有多少机器人在被真实、稳定地使用?元领灵机的使命是打造“智能的、有用的、可信赖的机器人”,其技术路线强调实用性优先于炫技,这与他早年竞赛中追求“较优解”而非“理论最优”的思维一脉相承。
“当你真正变成一个商业化的产品的时候,那你所有对客户有影响的东西都是本质的,对吧?它不是那个最后最难的那个事情,它才是本质的。”
从校园合作到创业萌芽
在清华大学读书期间,唐文斌与后来的旷视联合创始人印奇、孙元浩曾因一次集体文艺演出结缘——全班二十七位同学几乎全员参与表演,而唐文斌本人属于“路人角色”之一。这段经历让他感受到印奇出色的组织能力,也拉近了彼此距离。更关键的是,他们在科研上保持高频交流:两人均聚焦图像与计算机视觉领域,虽当时尚未使用“AI”一词,但已形成共识——计算机视觉是未来机器人感知世界的核心能力。因此,毕业前他们便约定“有机会一起创业”。不过彼时方向尚模糊,更现实的路径是先去Google等工作几年再行动。
唐文斌当时是唐杰教授的首位硕士学生,因唐老师刚晋升副教授、每年仅限招一人。尽管唐老师主攻图计算,唐文斌的研究方向实为数据挖掘,尤其聚焦社交网络分析。一次唐老师学术休假赴海外期间,推荐他前往微软亚洲研究院(MSRA)的Web Search and Mining组。命运的转折点出现在他抵达后:该组已更名为Social Media Search,并转向图像搜索方向。他由此开始接触图像上下文建模,其硕士工作即围绕“利用图片上下文信息增强图像搜索”,该方法后来被应用于“以图搜图”类产品中。
我们当时就想,能不能够把这种Kinect的这种啊游戏体验搬到手机上面?因为当我们手持,比如说我这么手持手机的时候,这不是这个摄像头,我其实是可以看到我,对吧?那我既可以看到我的脸,我也可以看到,比如说我手在这里,也可以做一些动作,对吧?
乌鸦来了:一场误打误撞的创业启程
创业契机来自多重外部触发:2010–2011年,Kinect体感交互风靡全球;同年iPhone 4上市,首次搭载前置摄像头,让手机端实时捕捉面部与手势成为可能;同时,独立开发者通过App盈利的成功案例(如墨迹天气)激发了“自己做个游戏赚钱”的朴素想法。三人团队(唐文斌、印奇、孙元浩)自购MacBook开始开发,最终推出体感互动游戏《乌鸦来了》——业内首个手机端基于摇头控制的体感游戏,一度登上App Store免费榜前三。
尽管游戏未带来直接收益,却为团队赢得行业声誉与投资人关注。在联想之星与联想创投支持下,旷视科技于2011年正式成立。此时创业动机仍具探索性:并非清晰规划,而是带着模糊方向感“先走走看”。他们将创业视为工程师解决问题的延伸——技术价值的释放需要更极致的自主权,而创业正是实现这一目标的路径。
其实你们最开始做的乌鸦来了,就是开发移动端手机上的游戏,这在当时也是一个大方向,因为后来移动互联网是一个很大的热潮嘛。
随后团队又推出3D体感游戏《街头速滑》,并尝试构思“体感版愤怒的小鸟”(用手机模拟弹弓拉力)。但很快意识到问题:团队成员自身并非轻度游戏用户(偏好《星际争霸》等重度SLG),对小游戏的策划、数值设计缺乏共鸣,成就感薄弱。他们意识到:游戏只是技术落地的场景之一,而非终极目标。2012年底,团队果断停止所有游戏开发,转向更核心的使命——让计算机视觉技术在真实场景中创造价值。
我们其实是想把技术应用到不同的场景里面去,游戏只是其中的一个场景,所以我们的目的不是要成为一个游戏公司,我们其实想做的是那个技术本身。
技术驱动下的战略转向:从Face++到金融级落地
停掉游戏业务后,旷视迅速转向B端技术平台建设,推出Face++开放平台,将人脸识别API全面开放,主动探索技术应用场景。早期合作包括为美图秀秀、美图手机提供人脸关键点检测(瘦脸、大眼等美颜功能),验证了技术的工程化能力。
真正实现规模化突破的是与支付宝的合作:为解决线上开户的实名认证难题,支付宝亟需金融级高精度人脸识别方案。经全面调研,旷视凭借在LFW基准测试中的突破性表现胜出——将识别准确率从普遍的91%跃升至98%以上,成为业内首个实现该跨越的团队。这一成果得益于对深度学习技术的快速跟进(AlexNet于2012年发布后,旷视迅速将其应用于人脸识别),而公司内部首位深度学习研究者方浩强正是这一突破的关键推手。
回看创始团队基因,他们始终是典型的技术驱动型工程师思维:对用户需求的感知相对薄弱,更擅长“拿着锤子找钉子”——从已有技术能力出发,主动寻找匹配的应用场景。这种特质虽限制了产品导向的探索,却确保了技术深度与长期壁垒的构建,为旷视后续在安防、金融、手机等领域的规模化落地奠定基础。
从LFW基准测试突破看早期深度学习落地
在人脸识别领域,LFW(Labeled Faces in the Wild) 是当时最具权威性的评测数据集,各团队性能普遍徘徊在 99% 左右。旷视团队是首个将识别精度从约91%直接跃升至 98%~99% 的队伍,实现了技术上的跳跃式突破。这一成果的实现时间点恰逢 AlexNet(2012年) 带来的深度学习浪潮,而旷视对这一技术方向的跟进极为迅速。尽管初期团队内部对深度学习效果仍持将信将疑态度,但公司内部首个深入探索该方向的是高中生方浩强——他被派去“探路”,最终验证了其有效性。与当时还是本科生实习生的周尔进组成“强进组合”,两人在关键点检测与最终识别等核心问题上取得了系统性突破。
“我们是第一个直接从九十到九十一,直接把它拉到九十八、九十九。” “其实这也是可能到现在也挺值得AI公司借鉴的一种人才的使用的方式。”
开放文化与数据飞轮:技术优势如何转化为商业壁垒
旷视早期展现出极强的技术开放性与实验精神:当团队看到深度神经网络在变深后潜力初显,便鼓励年轻成员大胆尝试。方浩强、周尔进等“动手快、足够聪明”的年轻人在缺乏成熟经验可循的背景下,成为技术落地的关键推手。这种文化也延伸至商业策略——旷视意识到,纯技术精度的领先往往只是时间差,真正的护城河在于数据飞轮:随着更多用户在平台完成身份认证(如支付宝、滴滴、Uber等),系统积累的多样化人脸数据反哺算法迭代,最终达到金融级精度。这一正向循环使旷视在身份认证领域长期占据 70%~80% 市场份额。
“因为它更多的人在我们平台上做认证,所以我们见过了更多的人,我们的这个系统也更准,所以它能够达到一个更加金融级的这样一个水准。”
AI to B的三大核心经验:可量化价值、成本占比与项目陷阱
总结旷视在AI to B领域的实践,可提炼出三条关键经验:第一,价值必须可被量化。B端客户理性决策,需清晰看到降本或增效的可验证ROI;若仅靠PPT包装虚假指标,将导致续约率、复购率下滑。第二,产品在客户成本结构中的占比不宜过高,否则易被替代——即便如宁德时代、英伟达这类巨头,也正面临客户自研替代的趋势,其不可替代性源于规模、生态与信任的综合壁垒。第三,警惕“项目陷阱”:B端需求高度定制化易使企业沦为“项目公司”,丧失规模化能力。旷视在物流机器人业务中,通过将仓库流程拆解为标准化模块(如入库区、存储区、发货区),并提供可配置组件,使集成商能“搭积木”构建完整方案,从而实现从非标项目向标准化产品的转型。
“我们其实前面还有一个集成商,他拿着我们一些标准的这种component的,他搭建成了一个……我们就提供一些积木块,让他能够去搭建成一个一个完整的一个解决方案。”
仓库场景:标准化的机器人起点
在早期物流机器人创业浪潮中,团队面临的核心挑战不仅是招人难——比如仓库环境恶劣(零下十度)、工作强度大(类似马拉松式重复劳动),更深层的问题在于缺乏愿意长期从事此类工作的劳动力。这一问题在日、韩、欧洲、北美等老龄化严重的地区尤为突出。当时,Kiva(后被亚马逊收购)等公司已开始用AGV方案解决仓储问题,但真正决定系统效率的并非硬件本身,而是调度系统:如何协同数百甚至上千台小车,优化货位分配、订单优先级、路径规划等,本质上是一个大规模运筹优化问题。
团队意识到,机器人要走出实验室,必须找到一个相对标准化的应用场景。工业机器人长期聚焦于汽车与3C等高度结构化领域,而其他场景因对象非标、流程多变,始终难以规模化。相比之下,仓库中处理的对象(托盘、箱子、单件商品)具有较高一致性,使其成为机器人落地的理想起点。因此,团队的初衷并非仅做物流解决方案提供商,而是将仓储作为突破口,为未来机器人走向园区、开放场景乃至通用化铺路。
“我们觉得仓库是有可能能够一定程度上标准化的……它更可能让这个机器人能够能够被用起来。” “物流是可以作为一个起点,能够让机器人先用起来。那 eventually 它可以走出这个这个这个盒子……能够变成一个更 general 的。”
调度即核心:从竞赛思维到算法驱动
团队的技术优势源于早期在算法竞赛中的积累——他们将仓库调度问题类比为“下棋”:每台机器人是棋子,订单流是对手动作,目标是在动态约束下达成全局最优。强化学习与运筹优化方法在2015年前后(AlphaGo时期)开始外溢至该领域,为多车协同调度提供了新工具。尽管深度学习热潮(2012年起)对感知、规划有一定启发,但真正带来突破的是调度算法的系统性升级。
在优衣库上海仓项目中,团队凭借强大的调度能力脱颖而出。该项目要求上千台机器人协同,方案复杂度极高,客户采用“超女选秀式”五轮筛选机制。团队最终胜出的关键在于两点:一是强调软件与算法才是效率核心;二是坦承“我们不是经验最丰富的方案商,但算法与调度绝对最强,没有之一”。客户高度认同这一判断。
“这么复杂的一个项目,最后决定它的这个效率的靠的是什么呢?靠的是软件和算法。” “我们绝对是在算法和调度上这个最强的没有之一,他们也非常认同这一点。”
危机与信任:TO B市场的承诺悖论
优衣库项目初期遭遇重大挫折:上线后系统仅达成40%目标效率,客户一度认为“完蛋了”。团队被迫承诺大量高风险功能(如竞争对手吹嘘但技术不可行的方案),并在时间压力下仓促交付,导致系统脆弱。痛定思痛后,他们主动向客户坦陈问题,请求半年延期,并彻底重构代码,最终成功交付。这一经历让创始人刘景认可其“锲而不舍的精神”,后续更多项目随之而来。
该案例揭示了TO B市场的深层矛盾:在激烈竞争中,过度承诺(over promise)成为常态——客户默认供应商会夸大能力,而真诚说明技术边界反而会被视为“能力不足”。尤其当企业尚未建立行业权威地位时,“说no”易被解读为“做不到”,而“说yes”即使风险极高也更易中标。这种机制导致客户预期被抬升至不切实际水平,最终项目失败频发却因各方羞于谈论而缺乏复盘,信任持续被侵蚀。
“当客户认为说你就是那个权威、就是那个专家的时候,你跟他说你做不到,他会信任你。如果你当时还没有在那个位置上,那你说你做不到,他只会认为你弱。” “over promise提高了客户的期待……也摧毁了很多客户的信任。”
务实落地:从POC到可持续闭环
团队反思当前具身智能行业的浮躁现象:大量机器人仍停留在POC(概念验证)或P2(演示)阶段,依赖摆拍而非真实场景闭环运行。真正的落地需满足两个条件:一是能完整闭环实现客户功能(非仅在特定条件下OK);二是客户能清晰算清经济账。二者缺一不可。
面对技术现实(如机器人任务成功率无法达100%),团队采取更务实策略:在已有客户信任基础上,坦诚沟通技术局限,并设计容错工作流——即使单次失败,系统仍能兜底。例如在Robo Challenge中,团队不承诺“完美执行”,而是构建“失败后可恢复”的完整流程,让客户看到系统级可靠性而非单点性能。这种“How to Yes”的合作方式,正逐步建立可持续的落地范式。
“我们需要去设计一套完整的工作流,使得就是说你做 failed 之后,你失败了之后,我依然是有方式能够给你兜住底的。” “以这样的一个一一套系统的形式,我来提供给到客户,但同时我能够帮你把账算明白。”
从旷视到具身智能:分拆与重组的逻辑
尽管当时手上已有大量未确认收入的订单,团队仍决定在2025年重新成立一家专注于具身智能的独立公司。这一决策源于对技术趋势的敏锐判断——早在2024年,旷视内部就已开始探索用大模型驱动机器人控制的实验,包括VLA(Vision-Language-Action)方向的早期尝试。2025年春天,新公司正式运营,而此前数月则用于完成复杂的股权重组:旷视仍在京运营,部分老股东退出,新基金承接其股份,整个过程涉及中介团队与核心成员的大量时间投入。
分拆后的股权结构保留了历史延续性:旷视的老股东在新公司中仍持有一部分股份,形成一种自然过渡。这一安排既尊重了过往贡献,也为新公司奠定了稳定基础。正如唐文斌所言,这次分拆不是断裂,而是战略演进的必然结果。
我们原来的老股东们其实是在园林基这边是持了一股比的,所以这是这个分拆出来的时候的一个setting。
中间交易也持续了几个月。
团队为何不散?信任、感情与人才密度的化学反应
在具身智能创业热潮中,小强、金银天才等核心成员并未被外部高薪挖角,选择共同创业。唐文斌认为,这背后有三层原因:一是长期协作建立的高度信任与能力互认;二是旷视研究院多年积累的业务场景与客户资源;三是深厚的人际情感纽带——例如他与范浩强相识于人大附中竞赛时期,与周尔进更是高中同窗、老乡。
旷视研究院早期以高人才密度著称,曾聚集十余名AI金牌得主。这种密度带来的核心优势在于:强人之间能减少流程依赖,通过自发协同产生高效化学反应,显著提升迭代速度。但唐文斌也清醒指出,仅靠顶尖人才并不等于商业成功——技术突破需与落地能力互补:研究者易陷入“本质问题执念”,而商业化则要求团队兼顾所有对客户有价值的事,哪怕它们“不酷”。
我们以前研究院那个挺逗的,大家有句话叫‘这不本质’……兴趣就会急剧下降。
强的人会喜欢更强的人在一起,大家彼此之间的互相认可度是非常重要的。
具身智能的核心瓶颈:模型、有用性与可信赖性
2025年初,尽管资本对具身智能的兴趣升温,团队更关注的是技术本身的跃迁节奏——历史经验反复证明,每次重大技术变革的实际进展都远超预期:从深度学习、Transformer到智驾落地,每一次都“比想象中更快”。机器人作为AI与物理世界交互的终极形态,正站在类似拐点上。
团队将当前核心挑战归结为三大关键词:智能、有用、可信赖。其中,“有用”直指问题本质:机器人能否完整解决问题并实现经济可行性;而“可信赖”不仅关乎机械安全,更取决于“智商”是否足够——低智能才是最大的不可靠。
针对行业普遍采用的VLA训练路径(即在预训练VLM后叠加action模块微调),团队提出尖锐批评:这种做法如同让初中生直接进体校训练,既导致基础能力受损(VLM性能下降),又因训练偏移造成能力天花板受限。他们主张“具身原生”路径:从VLM预训练阶段就融入机器人数据,实现多模态与动作能力的协同进化。
你狂练体育的那三年,你有可能就把你的原来的语文、数学这种文化课水平就拉下来了……所以它得要你既上体育课,你还得上文化课,所以他得要一起做co train。
所以这是我们现在看到了一个问题:他得要从小就要开始练体育——最好是VLM初期就让他见到机器人数据。
原生多模态训练:从Day One融入机器人数据
在具身智能模型训练中,一个核心挑战是文化课能力与体育课能力的协同问题:若模型仅在预训练阶段接触互联网多模态数据(如视频、图文),后续再接入机器人操作数据,其对物理世界的理解与操作能力将严重受限。因此,唐文斌强调,VLM(视觉语言模型)的预训练阶段就应纳入机器人数据,而非在模型训练完成后“嫁接”——这正是“原生多模态训练”与“嫁接式训练”的根本区别。
具体而言,原生训练指从头开始联合训练多模态数据(互联网视频、支架数据、机器人操作数据),使模型在初始阶段就具备对物理世界的感知与行动理解能力。相比之下,嫁接方式虽成本较低,但效果受限。Gemini系列即采用原生多模态架构,而具身智能领域也应遵循相同逻辑:机器人数据必须在Day One就进入训练流程,才能构建真正“物理世界原生”的VLM。
“所以这就是我们现在看到的问题啊,两种方式要去解决这两个问题。第一个就是说,他得要从小就要开始练体育……所以最好是说他们在VLM一开始初期的时候,我能不能就让他见到机器人数据,而不是在一个VLM已经被训完了这个之后再去看机器人数据。”
“所以这就是我们现在的DM零对模型是这样去做的……我们其实是跟捷越一起那个训的这个VLM,这就是意味着你们是一起参与了预训练的过程。”
三类数据协同与仿真数据的边界
唐文斌指出,构建物理世界原生模型需融合三类数据:① 多模态互联网数据(视频、图文等);② 支架数据(开放道路场景的视觉描述);③ 机器人操作数据(手/腿动作、力反馈、触觉等)。三者缺一不可,且应在预训练阶段即联合输入模型。
在数据采集方式上,团队采用人机协同采集路径:包括遥操作、手扶示教、外骨骼辅助、无本体密钥采集等多种形式;同时辅以人本中心数据(如穿戴式设备记录的人类行为)。而关于合成数据(仿真/生成数据)的应用,目前仍持谨慎态度:在接触密集型操作任务中,仿真数据质量不足——尤其在非刚体建模、力/触觉模拟及sim-to-real迁移方面存在显著gap。
不过,仿真在两类场景中仍具价值:① 局部运动控制(如跳舞,仅需重心稳定);② 高层任务理解(如任务分解、规划,不涉及物理交互)。尽管李飞飞、黄仁勋等人看好合成数据前景,但团队当前仍以真机数据为主,强调“scale”需兼顾成本、规模与质量。
“我们现在用仿真数据用的比较少……因为仿真数据在我们现在的这个我我们觉得是说在那些contact rich的这种操作类的事情上,现在其实仿真数据帮助不是很大。”
“但仿真数据在两个环境下,我认为是非常有用的。一个是做那个local motion……然后第二部分非常有用的就是说,可能去做一些更……high level的理解,比如说去做一些任务的分解、任务的规划。”
具身模型的系统分层:System Zero/One/Two的协同架构
针对“具身模型是否应独立于大模型”的争议,唐文斌提出三层系统架构观点:System Two(慢思考)负责推理、任务分解与语义理解——这部分已高度依赖大语言模型能力,与现有LLM技术一脉相承;System One(中频交互)对应VLA模型(约10Hz),实现任务到动作的映射;而System Zero(高频控制)需处理毫秒级动作(如抓取微调),频率需达100Hz以上,涉及力控、触觉反馈等,必须与硬件深度耦合。
这种分层架构解释了为何大模型公司(如Google、OpenAI)虽在System Two层面具备优势,却难以替代专注具身的团队——机器人能力最终取决于硬件-算法-数据的闭环。尤其在数据层面,真正的数据飞轮需依赖规模化机器人落地:若机器人未被广泛部署,就无法获得真实场景中的失败、接管等高价值数据。因此,“数据不是采集出来的,是用出来的”。
“所以回到你说,就是说今天跟,呃,大模型到底有没有关系?我认为在system two的那个层面上,一定是有。强关联的啊……我们在system one和system zero这两个层面上,就你说的那种更精细的、更动作层面的,是的,这种工作上去去做努力啊。”
“最后数据来自于哪里呢?我会觉得数据最终的数据其实是来自于就是数据飞轮……所以我们一定要找到一种方式去解决,就是说要让批量化的机器人能够被用起来,然后这个过程中最回来的数据才是最有用的数据。”
数据飞轮与系统闭环:解决鸡与蛋问题的关键
当前具身智能落地的核心瓶颈并非单纯模型性能不足,而是数据飞轮尚未形成闭环:机器人因不成熟而难以部署,又因未被部署而无法积累真实使用数据,进而无法反哺模型优化。这一“集合弹”困境要求我们必须跳出传统“采集数据”的思路,转向以应用闭环驱动数据生成的路径——即让批量化的机器人真正进入使用场景,在持续运行中沉淀高质量反馈数据。这显然不是一家模型公司能独立完成的任务,也非大厂简单投入资源即可速成;其本质是系统级工程,需硬件、算法、调度、人机协同等多环节深度耦合。
“它有点像,比如说一个滴滴或者 Uber 的网络里,有自动驾驶的车辆,有人,有司机。”
“这个东西就只能做POC,它不是一个真正的可被可用的东西。”
模型演进路径:从 Specialist 到 Generalist 的跃迁
模型能力提升的方向正从专精型(Specialist) 向通用型(Generalist) 演进。当前主流方法仍聚焦于针对单一任务微调基座模型;而更具挑战性的是构建能通过统一提示词协调多个任务的 Generalist 模型——这要求模型具备更强的泛化与任务切换能力。我们通过 Robo Challenge 设定了三类评测维度:Specialist(单任务微调)、Generalist(多任务共享模型)、Zero-shot(无训练直接执行)。目前 Generalist 的成功率仅约 30%,Zero-shot 尚不可行。因此,今年的关键突破点在于提升 Generalist 性能,使其足以支撑真实场景的初步落地。与此同时,场景选择同样关键:理想的落地场景需满足四大条件——高容错性、时间容忍性、适度泛化性、长时间作业需求。物流场景正是典型代表:它允许失败后人工接管,支持系统级闭环调度,且具备规模化经济潜力。
硬件策略:场景定义形态,模块化替代标准化
我们坚持“模型解锁场景,场景定义硬件”的原则,反对“模型定义硬件”的粗暴逻辑。硬件形态的上限由物理能力决定——若人类遥控操作都无法完成任务,则算法再强亦无能为力。因此,硬件设计必须基于真实场景约束:标准化人形或轮式双臂机器人未必最优,因其重心高、移动慢(约 0.8 m/s),在工厂等场景中反不如低重心 AGV(可达 4 m/s)高效。此时,让机器人“静止工作”反而是更优解。我们主张模块化组合式硬件架构:通过抽象出若干基础功能模块(类似乐高积木),快速拼装适配不同场景需求的形态,在避免过度设计的同时兼顾一定通用性。目标是实现非项目化、非定制化的高效部署路径——既非千篇一律的标准化产品,也非一锤子买卖的定制开发,而是在可复用模块基础上的敏捷适配。
模块化硬件与基础设施即竞争力
在评估具身智能项目的 ROI 时,我们意识到:真正落地的关键在于将硬件嵌入真实场景,但又不能陷入“每个项目都定制硬件”的泥潭。因此,我们设想的路径是——构建一套模块化、可拼接的硬件体系,就像乐高积木一样,通过组合几种基础模块,快速适配不同场景需求。这一思路背后,是对行业本质的再思考:模型效果本身并非核心竞争力,真正的壁垒在于迭代效率。当前所有模型都在同步迭代,所谓“五十步笑百步”,模型的当前状态并不重要;重要的是,谁能更快地完成“数据→训练→推理→评测”的闭环。
为此,我们系统性地构建了面向具身智能的基础设施体系,涵盖数据、训练、推理、硬件与评测五大环节。其中,Dexbotic 就是为解决内部实验复现难、协作效率低而自研的框架。它并非替代 PyTorch,而是在其之上封装的一层工具集:支持配置化选择 VLM 基座、vision encoder、action head(如 diffusion 或 regression),统一数据格式与部署流程,极大降低实验门槛。我们最初只为内部服务,但很快意识到:这套工具对整个研究社区都具有价值。开源它,既能借助社区反馈持续优化,也能反哺自身研发速度。
原话:“我们认为这整个的基础设施是非常重要的,是这才是真正的核心的竞争力。”
原话:“今天不是具身智能公司现在一百家,对吧?我认为现在核心不是说是谁行谁不行的问题,而是这个行业到底多快能行。”
Robo Challenge:评测即科研基础设施
Robo Challenge 的设计初衷并非打造一个榜单供公司 PK,而是构建一个可复现、可比较的评测基准。在具身智能领域,sim-to-real gap 极大,算法是否有效,必须依赖真机大规模测试。我们内部大量算法迭代都依赖该评测体系提供的信号——它本质上是科研的基础设施:没有 benchmark,就无法衡量进步,行业也无法协同演进。
为确保透明与公平,我们公开了所有任务的 fine-tune 细节、模型版本(如 DM0)及提交流程。任何人只要下载 Dexbotic 框架,即可复现我们的结果。这引发过内部讨论:是否该“藏一手”?但最终共识是——既然可复现,公开反而增强信任。我们与同行交流后发现,大家也认同:技术扩散本身不是威胁,而是行业加速的前提。
值得一提的是,类似 MegEngine 的教训提醒我们:基础设施开源的时机至关重要。旷视 2013 年就开发了深度学习框架,但直到 2018 年才开源,彼时 PyTorch 已成主流,生态早已定型。相比之下,Dexbotic 选择在具身智能尚处早期(2023 年 10 月开源)时推出,正是为了抢占先机,让开源社区共同建设生态。
原话:“今天我们可能是第一,我觉得很有可能哪家公司可能两周之后,他提交了一个模型,有可能会比我们更好,这完全有可能。”
生态共建:从模仿学习到强化学习的协同
Dexbotic 当前聚焦于 VLA(Vision-Language-Action)模型与模仿学习,但我们也意识到强化学习(RL)是另一关键支柱。在与清华汪宇、吴文星琼团队(Alif 框架开发者)及余超等学者交流后,我们决定采取分工协作策略:Dexbotic 主攻模仿学习,Alif 主攻具身强化学习,并已打通部分接口,未来有望整合为统一平台。这种协作模式,正是开源生态的典型优势——避免重复造轮子,聚焦各自优势领域。
开源以来,Dexbotic 已吸引约 1,000 名开发者,多所高校正在使用,阿里通义实验室(作为股东)也安排团队接入开发。这印证了我们的判断:大厂并非必须自建闭环,而可选择做基础设施提供者。例如阿里定位并非成为独立玩家,而是打造更优 VLM 支持更多 VLA 研究者——这与我们的开源目标高度一致。
回望开源生态史,DataBricks、Hugging Face、MongoDB、Red Hat 等案例表明:早期开放、持续共建的基础设施,最有可能形成广泛影响力。Dexbotic 代码量虽不算庞大,但投入精力不少;其价值不在于技术独占,而在于通过开源建立信任、吸引反馈、加速迭代。在具身智能这场长跑中,生态繁荣比单点领先更重要。
原话:“它既是利他也是利己的,就是我们就是希望让这个东西能够做得更好。”
开源是建立信任的核心机制
在具身智能领域,开源并非仅仅出于技术共享的善意,而是一种建立行业信任的关键策略。正如唐文斌所强调的,开源意味着将核心代码开放给全行业——“我 code 都给你了,你可以自己改,你不想合并到主线里来也没有问题,你就拿去就用就好了”。这种透明化操作,极大降低了技术采纳门槛,也加速了生态协同。以 RoboChallenger 和 Daspartic 为例,尽管其代码量看似不大,但真正构建一个可被广泛采用的开源框架,仍需投入大量精力。这背后需要的不仅是工程能力,更是一支具备强烈分享精神、能长期专注投入的团队。当前,大公司虽在模型与硬件生态上持续发力(如英伟达的 Isaac 平台),但在具身智能这一细分领域,尚无真正成熟、开放且被广泛采纳的基础设施平台。因此,开源不仅是技术选择,更是战略选择:它决定了谁能主导生态话语权。
我们想说的点是说,开源是大家增加信任感的一种方式。
像具身智能这个领域,包括测评,包括开发框架,大公司它没有去推出一些相关的东西吗?
行业格局:从分散到集聚的必然演进
唐文斌对具身智能行业的长期格局判断,呈现出清晰的三阶段演进路径:第一阶段是高度碎片化——因场景高度垂直(如仓储、制造、家庭服务),大量公司得以在细分领域生存;第二阶段是能力集聚——随着大模型能力增强,通用能力开始“吃掉”垂直小模型,具备平台化能力的公司(无论是以模型还是本体为核心)将脱颖而出;最终可能仅剩个位数家全栈型公司主导全局。他特别指出,中国在具身智能领域具备显著优势:相比硅谷,中国团队在硬件迭代效率上远超对手,而模型能力虽曾落后,但正快速追赶。这种“软硬结合+快速迭代”的组合,使中国公司更有可能成为最终胜出者。
它就变成一个全栈的一个事情……它就变成一个全栈的一个事情,那就是说,因为我们需要有一个载体,有硬件为载体来提供这样的一个产品的形态,那这个时候我就可能就不需要有那么多的公司的存在了。
其实硅谷获得了大额融资的具身这类公司也不少的。对,但它的迭代效率是很低的。
生存法则:模型领先 + 数据飞轮 + 场景克制
要成为最终幸存的少数公司之一,唐文斌认为必须聚焦两大核心:第一是模型能力的持续领先——这是机器人的“灵魂”,决定了其是否智能、有用、可信赖;第二是构建可持续的数据飞轮——即在真实场景中实现规模化部署(他提出“千台级持续使用”是数据飞轮启动的关键门槛),再通过反馈数据反哺模型进化。他特别警示行业风险:警惕沦为“小老头公司”——即陷入为每个客户定制开发的项目制陷阱,丧失通用化能力与规模化可能。因此,元力灵机的战略是:以通用模型为基底,在容错性高的场景中务实落地,既获取真实数据,又避免过度 overfit。这种“用当下模型解决当下问题”的策略,比为单一场景重训专用模型更具长期价值。
所以,我认为就是说,第一件事情是……模型的能力和这个这个模型的智商是最关键的,这是第一个。
我们今天之所以成立元力灵机,我们核心就在追求的还是希望能够走向通用化的这个机器人的这样一个状态。
低谷期的心态与资本现实
在经历行业低谷时,团队心理层面并未出现剧烈波动——这源于创始团队对核心方向的高度共识:我们并未随市场情绪起伏而摇摆。真正显著的变化体现在资本端:融资难度陡增,旷视历史上多次关键融资恰恰发生在行业低谷期,过程极为艰难。这一现实带来重要教训:创业者需在市场情绪高涨、资源充裕时提前储备足够“弹药”,同时保持战略定力,将资源集中投向真正相信的方向,而非散弹式撒网。
“我们并没有那个就是跟着什么市场的情绪说啊,我们这个时候我们很嗨啊,那个时候我们很down,就是并没有。”
“怎么能够在,呃,在在好的情绪和合适的时间,能够储备足够的弹药……但同时,我们又能够比较专注的把弹药是打在我们真正believe的这个事情上,而不是去开散弹枪。”
专注:学会说‘不’的创业哲学
元力成立后,团队明确拒绝了多个看似热门但偏离核心目标的方向。例如,坚决放弃表演类机器人场景——尽管有客户和合作伙伴提出需求,也有多家公司投入数千万至亿元上春晚,但团队认为:表演虽具情绪价值,却无法实现机器人作为“生产力工具”的核心使命。同样,主动放弃了汽车制造产线场景。尽管团队曾服务多家车企,且行业普遍视其为理想落地场景,但实地调研发现:汽车生产高度节拍化、容错率极低,其复杂性远超“pick-and-place”的简单想象——包装形态、辅材布局、容器限制等细节,使真实场景与理论模型存在巨大鸿沟。
“我们真正想去追求的就是说,真正能够让机器人能够作为一个生产力啊,能够是,我认为这是真正最大的呃这个需求和市场。”
“我认为汽车厂不是好场景……这个还是得要有这种现场感,才能够对这些东西能够有有判断。”
从旷视教训到未来聚焦:拒绝‘加法模式’
旷视早期的教训深刻印证了分散投入的风险:虽拥有高人才密度,却因涉足过多方向(视觉、自动驾驶、安防、机器人、手机等)导致能力稀释。团队反思:商业本质并非“加法”——A+B+C通常≈max(A,B,C),而非叠加值。若重来一次,将集中力量深耕1–2个方向,而非“每件事都干得不足够深”。当前行业虽热,但需警惕两大现实落差:技术层面,具身智能远未达家庭服务级成熟度;落地层面,POC与真实规模化应用间仍存在约80%的鸿沟——许多公司回避此问题,但客观看待技术斜率(虽预期被拉高,但进展迅速)方能稳健前行。
“我们原来人才密度非常高。但我们依然被稀释了,就是因为我们做了太多的事情。”
“P O C 跟真实场景就是真正的落地……也就是走了百分之二十的路……这是一个不太想暴露的问题。”
2026目标:模型泛化与规模化落地双轮驱动
元力今年的技术目标聚焦两大核心:其一,在模型层面追求“多任务泛化”能力,设定激进成功率目标(当前仅30%),但已观察到显著提升信号;其二,在场景层面锁定单一场景,目标2026年实现“一千台机器人在真实生产/服务场景中持续使用”——即每日开机超10小时,形成数据飞轮闭环。硬件虽已具备,但暂不展示,因当前优先级明确:不追求演示效果,而追求真实世界的持续可用性。
“我们今年的目标算法目标会定在就是说,在这种 multitask 和 general generalist 的这样的一个啊。模型层面上的一个成功率……现在只有百分之三十。”
“我们就定了场景,就是说一个场景,就一个场景,一千台,二六年就实现。”
从自动化到具身智能:创业初心与现实落地
唐文斌选择进入自动化系,是因为他认为这个系的名称最接近AI与机器人的本质——它天然承载着对智能系统的整体性理解,而非仅聚焦于软件或硬件的单一维度。这种认知也深刻影响了他后续的创业路径:在旷视早期,团队就怀揣着“让机器人能够看懂世界”的愿景,并逐步将重心转向物流机器人领域。他提到,自己内心始终渴望真正做出一台机器人,因此在旷视第二次搬迁办公室时,团队特意让行政采购了一台机器人放置于前台——这台机器人至今仍在使用,成为团队初心的具象化象征。
这一坚持也延伸至他对当下具身智能的理解:他认为,具身智能是值得投入终身去做的事业,因为它融合了感知、决策与执行的闭环,是AI从“虚拟”走向“物理世界”的关键桥梁。在系统架构上,他认同三层结构的划分:系统二(宏观任务规划)可依赖大语言模型;系统一(动作生成)与系统零(底层控制)则需软硬件深度耦合,这正是创业公司的主战场。他强调,当前阶段不应追求单机极致通用性,而应通过系统级设计,让机器人在人可兜底的场景中渐进式落地。
“在庞大的物流调度系统里面,既可以接入已经存在已久的各种专机自动化设备,还有人,同时也可以接入更加智能的新的具身智能机器人。”
“单机的智能尚未达到极强的通用性和泛化性的现在,落地就可以进行,因为当机器出错时,可以通过系统调度和优化,让其他的设备或人来接管。”
场景选择的辩证:兜底机制 vs 端到端闭环
唐文斌与前文提到的质检动力创始人贾鹏,在具身智能落地路径上呈现出互补性视角:贾鹏主张优先选择端到端可由机器人独立完成的任务(如工厂柔性搬运),强调任务的完整性与闭环能力;而唐文斌则更倾向于引入“人机协同兜底”机制的场景——即在系统层面设计容错与接管能力,使机器人在能力边界内运行,一旦出错,可由人或其他设备无缝接续。
物流正是他眼中理想的初始场景:系统中可同时集成既有自动化专机、人类操作员与新型具身机器人,形成弹性网络。这种设计不仅降低了对单机泛化能力的苛求,也使得投资回报率(ROI)更易控制在客户可接受的区间内。值得注意的是,他与贾鹏、乃至千寻创始人韩风涛均不约而同地指出:当前适合落地的任务,节奏不应过快——这成为行业共识,也暗示了技术成熟度与工程落地之间的时间差。
“在系统层的设计里,机器人干不了的活儿、干错了的活儿,人可以接着去干。”
“节拍没有那么快的任务,才是机器人当前能真正帮上忙的起点。”
行业共识与差异:从数据反馈到系统竞争力
本期内容与《157期:具身智能2026 Q1季报》形成呼应——唐文斌提出的三层系统架构与Sharpe在CES上披露的构想高度相似,印证了该范式正逐步成为行业标准。核心共识在于:大模型擅长高层规划(系统二),而具身智能的真正壁垒在于底层执行(系统一/零),即如何将基模能力与物理世界紧密耦合。这也呼应了贾鹏提出的“physical agent”概念:具身智能本质上是物理世界的智能体,其竞争力不在于模型本身,而在于如何用好模型,并在真实场景中持续获取反馈数据,反哺系统迭代。
因此,场景选择的差异(端到端闭环 vs 兜底协同)并非对立,而是不同技术路线在当前阶段的务实策略。这些差异将逐步演化为公司间的结构性分野:有的选择深耕垂直任务,打造极致效率;有的则构建弹性系统,在复杂环境中实现稳健交付。无论路径如何,真实使用场景下的数据闭环,始终是构建长期护城河的关键。