从清流到事功:曾国藩式顿悟

高继扬在讲述自己人生转折时,特别提到曾国藩的转变——从二十多岁的儒家清流,到四十岁成为极具事功能力的实干者。这段历史对他产生了深刻影响:一个文人出身的书生,在晚清动荡中组织湘军、对抗太平天国,其核心能力并非天赋异禀,而是学会如何调动资源、凝聚人心、推动复杂系统落地。高继扬当时正处于申请国外暑期项目失利的低谷期,通过阅读传记寻找答案,最终在曾国藩身上看到一种现实主义的生存智慧:真正决定成败的,不是理想本身,而是你能否拉动足够多的人与资源,把事情做成

‘他发现最重要的还是,当你要做一件事儿的时候,你到底能有能拉动多少资源,有多少人,多少资源愿意跟你一块儿去做这件事儿,并且最后把这事做成。’

‘我就是看书……通过看别人在可能一些困难啊、一些什么的,给自己来点灵感吧。’

阶段性努力:清醒的勤奋者

高继扬自述并非天生“卷王”,而是典型的目标驱动型勤奋者只有在意识到某段时期至关重要时,才会进入高强度投入状态。小学六年级暑假为分班考试突击,初三重新发力,高中专注物理竞赛——他总能在关键节点精准发力。他坦言自己并非天赋型选手,与真正有天赋的同学相比,靠的是系统性归纳与重复训练:将题型映射到考点,建立解题模型。这种思维模式延续至清华阶段——选择微纳电子方向本为芯片创业铺路,但很快发现理论枯燥、路径模糊,转而转向AI。2014年底,他在商汤科技的实习中首次接触深度学习,成为其AI生涯的起点。这种“先观察趋势,再聚焦关键路径,最后集中突破”的节奏感,贯穿了他从学生到创业者的整个成长轨迹。

‘我是当我发现我需要勤奋的时候,我是非常勤奋的啊!然后,但是当不需要的时候,当不需要的时候,对我也不是很勤奋啊。’

‘我那时候就确定觉得要创业……那时候就想到,创业到底做什么啊?’

时代错位感与务实转向

高继扬坦言,本科阶段(2011–2015)虽身处移动互联网爆发前沿,却因“太年轻、啥也不懂、啥也不会”而产生强烈时代错位感:戴威、王兴、陈维等90后创业者已崭露头角,而他自认尚无参与资格。这种认知并非消极,反而促成其主动延迟创业时机,转而寻找更匹配自身积累的赛道。他观察到:芯片创业在当时缺乏清晰路径,而AI虽刚兴起,却展现出“能拉动资源、可工程化拆解”的现实潜力——这与他从曾国藩身上领悟的“事功逻辑”高度契合。值得注意的是,他并非盲目追逐风口,而是在技术浪漫主义(如梁文锋式理想)与工程实用主义之间,明确选择了后者:即“把头伸到土里”,专注链条极长的机器人行业中的可落地环节。这种清醒的务实,成为星海图创业哲学的底层底色。

‘做机器人行业就是一个链条极长的行业,有时候你就是要把你的头伸到土里去。’

‘他似乎是这种极致的浪漫主义的反面,代表了一种极致的效率、工程拆解与实用主义。’

从历史中寻找创业的火种

高继扬坦言,自己早年就形成了一个习惯:当遇到挫折时,不满足于情绪宣泄,而是主动通过阅读传记与历史来寻找思考的“养料”。这种反思式学习让他在阅读曾国藩生平时获得关键启发——曾国藩早年坚持儒家清流路径受挫后,并未沉沦,而是转向现实世界,以务实姿态建功立业。这一路径与他当时的心境高度契合:高考语文英语薄弱、清华保送虽成却难言顶尖,学术“清流”之路似乎已断,但他不愿止步于表面失败,转而决心从底层重新思考未来方向与准备。他系统性地开始探索不同领域,直到唐老师给予他进入上汤(汤晓鸥实验室)实习的机会。这段经历成为他AI生涯的起点:在清华创业大厦实习期间,他首次训练神经网络,震惊于机器能自动从数据中提炼规律,无需人工编写if-else规则。他回忆道:

“我感觉这以后这个这个神经网络可以代替人在数据当中发现规律,啊,这个事儿太牛了,我我以后得做这个。”

“我我得做这个。”

在清华与上汤:认知跃迁与技术启蒙

高继扬将人生早期两个关键节点归结为:六年级至初中时凭借高效归纳总结法短时间内跃居年级前三,首次意识到自己在应试中的潜力;以及本科阶段虽保送清华,却因非顶尖成绩与物理竞赛背景,开始清醒认知自身定位。他坦言高中时从未将清华设为目标,因语文英语长期弱势——“一卷二卷加起来可能只等于别人一卷的分数”。进入清华后,他更直面“真正的天赋”:如韩衍俊(韩神)的作业令人“看不懂”,杨志林本科已做出卓越工作。他自认仅处年级中游(约前30%-40%),但通过加倍刷题、深度归纳总结,形成了“以终为始”的方法论

在上汤实习的四五个月,是他AI实践的真正起点。在鲁叔(李成)指导下,他首次接触姿态估计(pose estimation)任务——预测人体关节点。虽未产出显著成果,却完成了从理论到工程的第一次跨越。他特别强调上汤文化的价值在于:为非顶尖背景者提供开放学习机会,且汤老师愿同时接纳十余人共研。这段经历让他意识到,顶尖AI人才不仅需学术造诣,更需工程落地、产品化与团队组织能力——这为他后续选择自动驾驶赛道埋下伏笔

博士三年半毕业:目标驱动的高效路径

赴美读博前,高继扬已明确“读博是为产业界创业做准备”,因此给自己设定三年半毕业的硬目标——远快于美国CS博士平均5-6年周期。他通过严谨的“归纳总结”拆解路径:目标为4-5篇顶会论文(CVPR/ICCV等),倒推时间表,确保第一年即启动研究。他观察到自身“点子多于执行带宽”,于是主动与同门协作:提出idea、协调资源、共同推进,实现多方共赢。他进一步提炼出顶会论文的三大套路: 1. 挖坑型:提出新问题、构建新数据集与基准; 2. 性能提升型:在既有问题上超越SOTA; 3. 效率优化型:在性能相当下,降低数据需求或计算成本。

他通过主动匹配这三类路径,结合高频投稿(“别人投一篇,我投两篇”)提升成功率,最终于2018年底顺利毕业。博士毕业时,他已清晰认知:AI是底层技术变量,真正的产业必须以AI为最底层驱动力。他通过面试广泛探索自动驾驶、AI+广告、云服务与泛AI(如商汤)等方向,最终坚定选择自动驾驶——因其与Waymo经历高度契合,也为后续加入Momenta奠定基础。

AI作为产业底层变量的筛选逻辑

在职业方向选择阶段,高继扬明确设定了行业筛选标准:AI必须是该行业成立的最底层变量——即“没AI这行业没有,有AI才成立”;同时该行业需具备足够大的规模潜力。基于此,他逐一评估了多个方向:广告因缺乏Google级别的AI原生公司(如百度虽有AI应用,但搜索与广告在AI出现前已有成熟技术路径)而被pass;云服务因多为模型API化封装,未触及技术本质亦被排除;商汤等泛AI+企业则因商业模式接近“工程交付型外包”,存在高成本、低复用性问题而未被考虑。最终,他聚焦于物理世界的AI,并将自动驾驶视为其首个落地形态。这一判断背后,是对AI本质能力的深刻理解:AI的魔力在于能代替人总结规律,而非仅优化局部模块。

“AI加robot也是从底层变革人类生产力的超大型行业啊,所以我觉得这个就是值得投身,值得投身。”

“神经网络对于广告来说可能是优化,但它不是绝对变量。”

Robotics vs AI:自动驾驶技术范式的分野

高继扬加入Waymo后,通过深入研读其代码库与历史论文,发现2018年自动驾驶的技术架构与2008年DARPA挑战赛时期基本一致——仍以感知、定位、建图、规控(决策→规划→控制)为模块化流水线。这一架构源于Robotics方法论:强调系统拆解、可解释性与counter-case应对;而AI方法论的核心则是数据驱动与端到端优化,追求在大规模基准测试中整体性能跃升(如从80→95),而非逐个解决具体场景。这一差异在感知系统上尤为显著:Waymo依赖数十个独立模型(Detection、Tracking、Classification、Scene Understanding层层分拆),而特斯拉则率先采用AI native路径——统一感知模型+端到端输出,背后是马斯克对AI范式的坚定信仰。

“Waymo里面就是说它太有大公司病了……过早地进入到一个可能大公司的一个状态了。”

“本质是Waymo是没有founder的……自上而下的力量是缺失的。”

组织基因决定技术路线的深层矛盾

高继扬指出,Waymo的困境不仅在于“大公司病”(如职级体系、工程文化与Google深度绑定,膨胀期人才快速扩张但方向分散),更关键的是缺乏真正的创始人意志——其创始人实为Google联合创始人,但未直接主导自动驾驶项目。这导致组织缺乏自上而下的战略聚焦力:即便技术团队能力顶尖,也难以像特斯拉那样“马斯克说干啥,哪怕是错了,他也能开始干”。他强调,在自动驾驶这类颠覆性领域,方向性错误并不可怕,怕的是力量不集中、不统一。理想路径应是:在2018年左右成立独立AI-native团队,从零重构系统架构、基础设施与评测体系,彻底摆脱Robotics思维惯性。值得注意的是,他特别指出——是否车企身份并非关键,国内专注“大脑”的企业同样可坚定走data-driven路线,持续减少rule-based模块,实现范式迁移。

“它现在完成了没有?”

系统设计的方法论分歧:AI Native vs. Robotics

在自动驾驶系统的设计上,核心问题并非企业身份(是车企还是纯自动驾驶公司),而是底层方法论的选择:是沿袭传统 robotics 的模块化、规则驱动路径,还是拥抱 AI native 的数据驱动范式?事实上,许多专注“大脑”研发的中国自动驾驶公司,完全可以选择特斯拉式的路线——坚定走 data-driven,持续减少 rule-based 成分,从而实现系统演进。Waymo 已取得显著进步,但其转型速度仍显缓慢;尽管如此,其长期战略一旦确立便高度坚定执行的特质令人钦佩。这种执行力与关键人才的稳定性,构成了其技术演进的底层支撑。

Waymo 的工程基因非常非常强,因为它的工程化基因来自于 Google。我自己的工程师这方面的训练,就是在 Google Waymo 这个体系里边完成的。

我觉得他们两个区别还是在于对待 AI 的态度上,以及面向 AI 的系统设计的调整速度和力度上面。

商业模式光谱:从 Robotaxi 到整车定义者

自动驾驶领域存在清晰的四种商业模式:第一类是 Waymo 代表的 Robotaxi 运营商,自建车队、按单收费;第二类是车企主导的软件订阅模式,将自动驾驶作为增值功能打包进整车销售;第三类是供应商模式,如 Momenta,采用 NRE + license 的方式向车企输出方案;第四类可归为“类整车商”模式,典型如华为——它虽以供应商身份介入,实则深度绑定整车体验,通过顶级自动驾驶与座舱能力重新定义产品,并依托自身品牌与渠道获取整车层面的利润。

Waymo 的商业模式本身具备可行性,只是商业化周期极长;截至访谈时,其在洛杉矶的运营已接近“走通”临界点:服务覆盖从市中心到好莱坞、圣莫尼卡的广阔区域,用户体验显著优于多数 Uber 司机,堪称“AI 时代的 Uber”。这印证了其技术成熟度与运营能力已进入实用化阶段。

它是一个 AI 时代的 Uber。

在 Waymo 的成长:从预测算法创新到工程师思维成型

在 Waymo 期间,作者聚焦于预测与感知模块,尤其在预测环节做出关键创新:早期 AI 预测方法将地图渲染为图像,用卷积网络处理——但受限于局部视野,效果不佳。作者与赵航合作提出 VectorNet 方案:将地图编码为向量图结构,引入轻量级 self-attention(受 Transformer 启发),显著提升长程语义建模能力。该工作不仅解决了实际问题,更被业界广泛采纳,成为其在 Waymo 的高价值产出。

这段经历塑造了其工程师思维的核心:拆解 + 测量——将复杂问题逐层拆解至代码级,再通过单元测试反向验证指标链。他强调,看历史代码是理解工程体系演进逻辑的最佳方式。与赵航的合作亦凸显其风格差异:赵航偏重原理推演(供给侧思考),而他更关注问题求解效率(需求侧导向);赵航情绪极度稳定,而他倾向在关键节点强力推动。离开 Waymo 的决定,源于成长边际效用递减:技术体系已掌握,工程能力已成型,但离产品与商业决策仍远。他渴望转向量产方向、回国创业,并将“物理世界 AI 系统”作为下一阶段学习主线。

我不仅喜欢看现在的代码,我喜欢看过去的代码……这个过程你是能看到一个人的,就是一个工程体系的迭代的,这里边是有逻辑和符号的。

产品定义的再思考:To B 也是产品

在访谈中,高继扬明确提出了对“产品”的独特理解:产品并非仅限于To C场景,而是指任何能直接为特定用户创造真实价值、并被实际使用的解决方案。他强调,自己更关注的是“现实世界的实际价值”,而非拘泥于终端形态。这一理念直接影响了他后续的职业选择——尽管多数人更倾向做To C产品,但他认为To B同样具备产品属性,甚至更具挑战性与战略纵深。

在华为与Momenta之间做抉择时,他最终选择了Momenta,核心原因在于:组织需具备纠错能力。他指出,一个成功组织可以犯错,但必须有人站出来承认错误并推动修正;而旭东(Momenta CEO)的强势、技术深度与坚定信仰,使他成为理想的领导者人选。此外,高继扬对团队已有长期了解(如思博、靳伟等),也增强了信任基础。他形容Momenta的文化是“结果导向+战功文化”,与自己高度契合。

‘我就是想想创造现实世界的实际价值啊,然后是是是这样的一个想法。’

‘一个组织要成功,必须要就它可以犯错,但是得有一个人说我们错了,然后我们改。’

量产路径的战略远见与组织淬炼

高继扬高度评价Momenta在2018年就提出“通过量产自动驾驶构建飞轮,最终走向Robotaxi”的路径——这在当时行业普遍聚焦Robotaxi直奔L4的背景下,展现出极强的前瞻性与魄力。他指出,这一选择背后是清晰的AI落地逻辑:自动驾驶本质是数据驱动,而量产车是获取海量真实场景数据最高效、可持续的来源。通过将软件预装至量产车,既为B端客户提供了可落地的辅助功能(如泊车、高速NOA),又形成了“价值-数据-算法迭代”的正向循环。

他于2020年底加入Momenta,恰逢其首个量产项目(上汽智己)启动交付阶段。他亲历了从Demo到产品、从科研团队到量产交付体系的双重转型。组织文化与能力的重构早于交付启动:早期绍兴事件即为文化转型的标志性动作。初期挑战巨大——架构不匹配、能力未达标、人员流动频繁,既有主动淘汰也有被动退出。但高继扬认为,“不通过打仗,就无法真正洗礼锻炼团队”。正是在一次次交付压力下,Momenta逐步打磨出工程体系,实现从单次交付到数百车型复用的跃迁。

‘他为什么想追求量产这条路走到 robotaxi?这个背后的逻辑是什么?……那我们就很自然的推导,就是说现成的,就是量产车嘛。’

‘你不通过呃打仗这样的形式,你是没法洗礼锻炼这个团队的。’

作为‘鲶鱼’的跨界历练与创业动因

高继扬自认是Momenta引入的一条“鲶鱼”,在公司内横跨感知、定位、泊车、规控、基础设施(infra)等多个模块,尤其推动规控与定位从规则引擎向深度学习转型。他强调,这段经历锤炼出的核心能力并非具体技术,而是“快速切入陌生领域、拆解问题、匹配人岗、动态迭代”的系统性方法论——这为他日后创业奠定了关键基础。

他离开Momenta的动因可归结为两大趋势:一是2022年GPT系列模型的突破,重新点燃了社会对AI的广泛信心;二是自动驾驶量产实践验证了端侧智能的可行性,而其底层技术栈(传感器、算力)与人形机器人高度重合。当特斯拉宣布进军人形机器人,他判断“机器人躯体的工程基础已就绪”,创业窗口开启。

尽管放弃高额期权(据其估算约千万美元),他仍坚定选择创业——“这是我人生的使命”。他坦言,Momenta留不住他,并非公司问题,而是个人志向使然;同时,行业高强度竞争(如“早五晚十二、一周六天”)虽体现团队求胜心切,却也反映行业整体“卷”的现实。

‘如果我能把这个事儿做成,我离我想去做的事儿,最终我想达到那个目标,我又近了一步。’

‘我得我得开搞了。’

Waymo与Momenta:两种文化下的工程师体验

在Waymo工作期间,高继扬感受到的是工程师的天堂式环境:顶级的基础设施、优秀的同事、温暖而宽厚的领导支持,以及一个虽宏大但不施加压迫感的目标。尽管现金薪酬无法与当下OpenAI等公司相比,但整体工作体验仍属理想。相比之下,Momenta则体现了中国智能驾驶行业的现实底色——极致的结果导向文化。在这里,压力无时不在:结果好则晋升,结果差则调整;工程师不仅要专注技术,大量中高级工程师还需直接面对车企客户,而国内车企文化普遍“tough”,批评甚至辱骂常有发生。

“你被骂过没?那就是很平常的骂你什么?哎,我都记不清了。我因为我不是很在意这些事,骂就骂了。”

“你做的不好,我们马上淘汰掉你。你下次如果再做不成什么什么样,那把你把许总叫来,让徐东来解释。”

高继扬坦言,从工程师的自我感受而言,Momenta及整个中国智驾环境并不友好;但从成长性角度看,这种高压现实恰恰提供了更全面的训练——让人直面真实世界的复杂性与残酷性,而非困于理想化的技术乌托邦。他强调,自己更倾向于“面对真实”,哪怕真相令人不适。

许华哲的领导力与自我迭代

高继扬对许华哲(许东)的评价高度聚焦于其战略能力:早在行业早期就准确判断方向,并持续坚定推进,即使遭遇波折也不动摇。这种能力是Momenta能在激烈竞争中脱颖而出的核心。然而,许华哲的风格也带来挑战——直接、 aggressive、毫不回避真相的表达方式,虽出于推动进步的初衷,却可能转化为巨大的心理压力,甚至造成人才流失。

高继扬承认自己也具备类似特质:把真相直接说出来,不加修饰。但他观察到,许华哲后期已开始有意识地调整这一面的外显程度,仅在必要范围内展现。高继扬将许华哲与地平线创始人凯歌并提,认为二者均完成了从技术专家到企业家的跃迁,展现出极强的战略前瞻性、执行韧性与客户导向的迭代能力。他坦言,自己视他们为榜样,并从中深刻学习了何为“以客户为中心”——这不是被动响应需求,而是主动挖掘、定义并解决问题;且这一原则不仅适用于对外,也应贯穿于公司内部上下游协作之中。

离职Momenta与创业决策:三十而立的决断

高继扬在2022年底(30岁生日时)做出离职创业的决定,核心动因是:已积累足够经验,且看到量产落地的窗口期——他主导的NV功能已于2023年初成功量产并交付上汽,他本人也试驾了国内所有搭载NV的车型,确认技术路径可行。2023年5月,他正式离职,放弃约1000万美元的潜在收益,理由坦然:“最 care 的是我想做的事,而非钱。”他强调,金钱对生活品质影响有限,人生价值应锚定于创造真实价值

离职后,他先赴西藏自驾放松,7月返京,8月开始撰写BP——坦言早期版本“不堪入目”。创业初期迅速厘清两个关键判断:第一,必须做整机+智能,而非纯软件,因物理世界的数据闭环才是长期壁垒;第二,拒绝纯科研,坚持落地导向,但商业化路径尚不清晰。最初设想做“末端配送机器人”,融合自动驾驶与操作能力,但很快否定了该方向——因AI浪潮尚未到来时已有公司尝试,仅靠故事难以突围。

首轮融资由IDG领投(通过同学李一康引荐,邵辉、肖军决策),百度风投、金沙江(朱啸涛)跟投,共3000万人民币,估值约2亿人民币(投前/后)。IDG虽投了,但也直言“你们想做的事儿应该不work”,这正体现了天使投资的本质:押注潜力而非当下完美

早期融资:在寒冬中获得天使信任

回顾公司最初的融资历程,高继扬坦言,天使轮投了三千万人民币,由IDG、百度风投和金山奖共同参与,投前或投后估值约为两亿人民币——在当时已属“挺便宜”,而如今行业起点已跃升至两亿美金。紧接着很快完成了C轮加轮,由清华电子系汪老师基金与姚素姚老板(同届杰出校友)联合主导,金额约一两千万,投后估值达三至四亿人民币

尽管融资节奏看似顺利,高继扬却强调:“从今天回看,早期的投资环境比现在冷得多”。彼时(2023年)机器人尚未成为共识,投资人对“具身智能”概念尚感陌生,更遑论一个团队在硬件领域几乎零经验却想做整机——这在当时被普遍认为“idea不靠谱”。正因如此,他格外感谢早期投资人的勇气与包容:“他接受你的错误和不完美啊”。

‘他接受你的错误和不完美啊’ ‘那时候人家敢出手,我觉得我已经特别感谢’

从零补课:拆机、淘宝搜图与第一只工具箱

2023年,团队的核心任务是“研究整机与供应链”,起点极低:没人碰过硬件,连拆机都不会。他们靠买来竞品整机反复拆解,靠淘宝拍照“以图搜图”识别零件,甚至一度对着某个部件茫然无措。一位后来成为公司结构负责人的访客,目睹团队窘境后送来一个工具箱——内含改锥、锤子、镊子、斧子等基础拆解工具,成为早期攻坚的“救命装备”。

这段经历凸显了团队的务实与韧性:“不怕慢,就怕站”。他们选择从整机切入,而非更“安全”的算法或大脑,是因为长期壁垒必须建立在物理世界的数据闭环之上——而闭环的前提,是拥有能采集真实数据的硬件载体。因此,整机不是选择,而是战略倒推的必然结果

‘不怕慢,就怕站’

关键合伙人杨泽一:结构领域的‘天才’与六边形团队

转折点出现在2023年底,经五源投资人引荐,高继扬结识了时年26岁的杨泽一(1997年生)。尽管泽一当时正从事机器人教培(面向初高中生),却展现出极强的系统性思维与工程洞察力——第一次有人为他清晰构建了机器人整机系统的逻辑框架,并能结合过往实践深入剖析。

高继扬迅速邀请其加入:“哇,这个第一次有人给我讲明白了……大概率是对的。” 泽一于2024年1月正式入职,成为公司机电系统首席工程师及合伙人。他不仅理论扎实,动手能力极强,后续公司所有产品的核心架构设计均由其主导

高继扬将合伙人机制视为团队持续进化的引擎:“我要求自己做一个中等面积六边形,合伙人团队组成更大面积六边形”。除泽一外,CFO天奇、商业化负责人鱼磊、近期加入的天齐等,均通过此机制引入。公司对核心合伙人的股权分配以原始股百分点为基准,体现“持续吸纳顶尖人才,为未来五年十倍增长铺路” 的底层逻辑。

‘哇,这个第一次有人给我讲明白了……大概率是对的’

从双足到轮式:解耦复杂性,聚焦操作智能

在机器人研发路径上,团队早期面临一个核心矛盾:双足运动控制与双臂智能操作的耦合问题。高继扬指出,双足的运动控制(locomotion)至今仍是未解难题,尤其当它与上肢操作能力叠加时,会极大拖慢算法演进节奏。因此,团队果断选择解耦策略——优先攻克上肢操作能力,而将下肢简化为轮式结构。这一决策不仅源于技术现实(双足过坎能力在多数真实场景中非必需),更基于对产品落地效率的务实考量。轮式+躯干的整机构型于2024年3月左右正式确立,标志着产品路线从“理想化通用平台”转向“可工程化、可交付的操作平台”。

“双足的运动控制和双臂的智能操作同时解决,这叫 locomotion。这事儿也没解决。” “很多真实的场景里面也不需要这个双双足的这个这个这个这个过坎的这些能力,走路啊,对,就轮式其实也就够了。”

开发者市场:科技产品从极客走向大众的必经之路

团队将商业战略清晰定义为“从开发者市场走向生产力市场”,这一路径并非独创,而是复现了多项科技产品的历史演进规律。正如《跨越鸿沟》所描述的,科技产品扩散遵循“创新者(innovator)→早期采用者(early adopter)→早期大众(early majority)”的链条,而开发者正是创新者的主力军——他们热爱探索、乐于构建,是技术落地的“第一触点”。团队将开发者市场细分为三层金字塔:塔尖是学术型开发者(如李飞飞等高校研究者),中层是企业内研究型开发者(如蚂蚁集团与团队合作的Limbot VLA项目团队),底层则是面向企业应用的生产力型开发者。未来,随着产品成熟,集成商与终端用户也将自然演变为新的开发者层级。

“开发者市场本身它又是一个科技产品从早期的 innovator 走向大众的一个必要的一个过程。” “这有点像那个《跨越鸿沟》那本书里边啊描述的啊,就是早期的使用者都叫 innovator。这 innovator 其实就是开发者,他就是对这个事儿喜欢、热爱,想想探索探索,对吧?想想发明点东西。”

整机工程化:从AI人才密度到流程严密性的范式迁移

对比AI研发与整机开发,高继扬强调二者在底层逻辑上同属工程化问题,均需“拆解—测量—组织”的方法论。但关键差异在于:AI更依赖顶尖人才密度(如10x工程师),而整机开发则高度依赖流程的严密性与系统性。从构型设计(错误构型将导致全盘失败)、结构设计、线束嵌入式系统集成,到EVT验证中反复暴露的线束磨损、结构强度不足、来料质量波动等问题,每一步都需通过标准化流程进行闭环排查。后续DVT阶段需完成一致性测试与老化测试,最终走向量产。这种系统性工程思维,不仅适用于机器人,也通用于消费电子等复杂硬件领域。

“你甭管是做今天的机器人产品,做消费电子类产品,还是做什么,其实我觉得都是类似的,都有它相同的那一部分。”

智能演进:端到端与真实数据的坚持,以及VLA的转折点

团队自创立之初即确立两大智能底层原则:坚持端到端架构坚持真实数据驱动。这一判断源于自动驾驶领域的深刻教训——模块化分层设计与纯仿真路径均难以落地,而真实数据才是解决现实问题的唯一可靠路径。2024年智能主线尚未成为核心,整机与融资才是重点;但2025年起,重心转向数据与模型体系搭建。早期尝试扩散策略(diffusion policy)等小规模VLA模型,发现泛化性不足;在LLaMA-3与VLA范式成熟后迅速调整,成为国内首批拥抱VLA的团队之一。2025年8月,团队发布全国首个自采500小时高质量遥操作数据集及基础模型开源,为行业提供稀缺基础设施。

“AI有一个底层的一个一个一个一个原理吧,就是说。就是我要解决的这个问题在这样的一个domain里边,那我训练这个模型的数据最好也在这个domain里面,对,不然的话就涉及到了所谓的domain transfer。”

六边形战士:具身智能竞争的多维挑战与阶段优先级

具身智能的竞争绝非单一维度的模型比拼,而是一场六边形战士式的系统性博弈。高继扬指出:与大模型不同,机器人赛道存在“全链路空缺”——供应链不成熟、数据荒漠(无整机即无数据)、算法验证困难、渠道高度线下化。因此,团队在不同阶段动态调整优先级:2024年聚焦融资与整机/供应链;2025年转向数据与智能体系构建;2026年起重心转向场景与应用落地。同时,持续获取政府与资本支持的能力,也成为维系长期研发的关键资源。团队意识到,唯有在整机、数据、模型、渠道、生态等多维度同步补强,才能跨越鸿沟,走向规模化商用。

“机器人、具身智能的竞争是是多面的。它是个六边形,它不是说大语言模型……算法和模型是是是是一小部分,这里面有大量东西全都是空缺的。”

真实数据是具身智能的底层刚需

在星海图的底层技术逻辑中,一个核心原则是:若要解决某一领域的问题,训练数据必须尽可能来自该领域本身,否则将面临所谓的“domain transfer”(领域迁移)难题。这一问题曾在博士阶段的AI研究中极为热门,但后续实践表明——使用目标域内的真实数据解决问题更高效、更有效。这一认知被延续到自动驾驶与具身智能领域:在自动驾驶中,99.9%的问题仍需依赖真实路测数据解决;仿真虽不可或缺,但其价值更多在于辅助验证与补充,而非替代真实数据。尤其在具身智能方向,传统基于图形学(graphics-based)的仿真器生成的数据与现实存在显著的“sim-to-real gap”,该差距极难弥合,导致仿真数据的实用性受限。

真实数据没有 sim-to-real gap。

我们关注的是智能的总成本,而数据质量低会导致大量训练成本被浪费。

真实数据的成本账怎么算?

成本分析是判断数据策略的关键。智能系统的总成本由三部分构成:数据获取成本、训练成本与工程师团队成本。其中,数据获取与训练成本之间大致呈 1:5 至 1:10 的比例——即每投入1元获取数据,需额外投入5至10元用于训练。这意味着,若数据质量不高,训练环节将产生巨大浪费。因此,提升数据质量是控制整体成本的核心路径。

以中国一线城市的实际运营为例,获取1小时真实世界数据的真实成本约为 200–250元,包含人力(约3–4小时操作与复位)、机器人折旧(按10万元/台、寿命1000小时估算)等。由此推算,1万小时真实数据成本约250万元,10万小时则达2500万元——这恰好接近一个普通人从出生到18岁与物理世界交互的总时长。若进一步考虑大规模部署(如万台机器人),则总投入可达数亿甚至十亿元量级,涵盖制造、运维、遥操、标注与质检等环节。

你获取一小时的真实数据,可能实际投入的人力在三到四个小时……机器人折旧算上,大概是二百到二百五十块钱。

我们现在真实数据为主吧……但到底是一万小时的真机遥操作数据,还是五万小时的五米数据,还是二十万小时的POV数据?这事儿得试出来。

数据金字塔与数据配方(Data Recipe)

所谓“数据金字塔”,其结构并非天然固定,而应由智能任务的实际需求决定——塔尖是真实数据(无domain gap),其下是仿真数据、第一视角(POV)、第三人称视频、人类中心数据(如五米、外骨骼采集)等。不同层级数据的价值取决于具体任务,不存在普适的黄金比例。当前星海图采用“真实数据为主”的混合策略,包括:以机器人为中心的遥操作数据、人类中心数据(如五米)、POV数据等,但具体比例尚无定论,需通过持续实验摸索——AI本质上仍是实验科学

值得注意的是,部分公司押注仿真数据,往往与其商业模式相关(如通过销售机器人给开发者间接获取数据)。但星海图强调:其技术路线源于对具身智能本质的深刻理解,而非商业反推。真实数据的可扩展性依赖两个关键条件:一是进入真实场景而非依赖模拟工厂;二是采用众包方式分发采集设备,借助政府支持与商业模式闭环推动规模化。北美在无本体(no-body)数据采集(如手套、夹爪采集)方向的探索,也印证了该路径的潜力。

最终,我们具身智能能够落地的,一定是供供给侧和需求侧碰出来的一个东西。

好的场景、好的商业化场景,一定是说,我做完一个之后,我可能很快就到一万台——这样的场景。

需求侧的三大筛选条件

在评估AI机器人适用场景时,需首先满足两个基础约束条件:第一,任务执行速度不能过高——当前技术尚无法稳定支撑极高频、高动态的操作;第二,AI出错后的失效成本必须可控——即错误不应导致不可逆的重大损失,否则该场景不适合部署。在此基础上,一个理想的商业化场景还需具备三大特征:具备爆发潜力(如单点落地后可快速扩展至万台级部署)、面向全球化市场(优先选择欧美等高付费能力地区),以及场景高度标准化(不同国家间操作流程、物体形态、环境布局高度趋同)。例如,商业服务类场景(如跨国酒店、零售)因各国差异过大,往往不符合这一标准。

“它一定得是欧美国家有的,因为那边付费能力好,付费能力高。”

“你把所有的这些……不断的去碰撞、统一,然后呢,我们现在看到的还是比较看好。”

动作原子化与核心场景识别

我们提出将现实世界劳动者的核心动作抽象为五类原子操作:carry(搬)、pick(拿)、pack(包)、fold(叠)、operate(操作设备)。绝大多数岗位的实际工作,正是这五类动作的有限组合——通常仅需20至40种动作即可覆盖90%以上常见岗位,远非数百种复杂动作的堆叠。因此,符合“动作组合简单、重复性强、泛化需求高”的岗位,是当前具身智能优先落地的理想场景。

其中,仓储物流中的bin picking尤为突出:面对动辄上万SKU的仓库,传统自动化方案(如夹抱机器人、AGV)难以应对高SKU密度下的精准订单拣选,而人类仍需逐一手动取放——这正是VLA模型可发挥泛化能力的关键战场。此外,智能制造中的厂内物流环节(如单手/双手取放零部件)也具备类似特征,但装配类任务因涉及毫米级柔性操作,复杂度更高,暂不适合优先铺量。

“其实您去想,就是说很多我们现实世界当中的这个劳动者啊,都是这五类动作的各种组合。”

为何是这一代AI?双系统架构的必要性

尽管十年前已有机器人公司尝试类似场景,但传统方案受限于泛化能力缺失:夹抱式、叉车式或协作臂机器人仅能处理单一固定任务(如整托盘搬运),一旦面对成千上万种形状、材质的物体,便迅速失效。而新一代AI驱动的机器人,核心突破在于将任务统一抽象为“pick anything, place to somewhere”——即任意物体的抓取与放置,这正是VLA(Vision-Language Action)模型所擅长的。

我们采用VLM+VLA双系统架构:VLM(Vision-Language Model)负责高层指令拆解与逻辑推理,VLA则专注低层视觉-语言-动作映射,实现端侧实时执行。这一设计源于现实约束——端侧算力有限,无法部署数十B甚至上百B的大模型;同时,执行延迟必须可控,因此动作模型必须下沉至本地。VLM仅在需要复杂推理(如家庭服务)时才被调用,而在工商业场景中,固定20–30个动作可直接通过轻量接口调用VLA,高效且经济。

“真正什么时候用Waymo……比如说家庭,这个Waymo才是一个最最重要的啊不可或缺的一个组成部分。”

“所以这是为什么我们要把它拆开,那还是围绕着我们要真正的产生价值、产生商业价值去考虑。”

数据、整机与创业公司的结构性优势

VLM(视觉语言模型)与Transformer、Diffusion等架构仍存在大量未被解决的前沿问题——这部分是当前所有公司共同缺失的;而另一部分则是行业普遍已有的基础能力。在算力层面,基础设施、资金与人才构成核心门槛,其中大厂在基础设施与人才储备上具有压倒性优势,但最缺的恰恰是高质量、场景适配的数据。美国诸多头部公司正面临同样的数据困境,而中国创业公司在这一环节反而展现出系统性优势:大量整机厂商亲力亲为地构建硬件闭环,使其在数据采集的敏捷性与场景贴合度上远超依赖采购数据的大厂。

这里存在一个关键悖论:不懂模型,就无法定义高质量数据体系;而优质数据供应商的前提,恰恰是自身必须具备模型理解能力。因此,真正有效的数据生产流程应是:由懂模型的技术团队设计数据标准与治理体系 → 交由运营团队执行采集与质量验收 → 最终进入模型训练环节。更进一步,这些数据必须与整机深度耦合,因为后训练与交付高度依赖真实设备的反馈闭环。正因如此,具备整机能力、硬件know-how与基础模型能力的创业公司,形成了难以被纯算法团队复制的竞争壁垒

“你如果不懂模型,你是没法好定义好的数据体系的。你就天天光光在那儿那个乱七八糟的采吧,你采来的数据全都是垃圾数据,没什么用。”

“有整机、有硬件能力、有基础模型的know-how,是我们去把数据的这套东西给做好的一个很重要的前提条件。”

开源数据与特斯拉路线的异同

基于上述认知,星海图自2023年8月起主动开源数据,并非将数据作为核心业务,而是秉持“乐于分享”的理念——即便客户仅支付象征性费用,我们也优先支持其落地应用。这一策略本质上呼应了特斯拉的自动驾驶路径:整机+数据闭环+端到端模型。但二者存在根本差异:汽车具备明确市场需求与规模化交付能力,而机器人尚处需求真空期,这是机器人创业公司面临的最大挑战。

车企(如理想、小鹏)进军机器人领域拥有天然协同优势——它们已掌握用户触点与数据流;而纯软件供应商则面临车厂自研自动驾驶的挤压。在自动驾驶赛道,业务协同(即已有业务对新业务的赋能)比人才与资金更具决定性。相比之下,星海图所处的通用机器人领域缺乏此类协同:需求侧分散、供给侧零散、数据不可复用——创业公司只能回归到最本质的竞争维度:人才、组织与资金效率

“对于做语言模型来说,字节有飞书和抖音的流量,它做这个就是在需求侧直接就有协同……对于做自动驾驶软件的供应商来说,直接就会面临车厂自己做自动驾驶的降维打击。”

价值观分歧与务实创新的平衡

许华哲的离职并非简单的“量产文化”与“研究文化”对立,而应被重新定义为:以客户价值为锚点的务实创新,与追求前沿突破的超前探索之间的动态平衡问题。我们始终强调,技术创业的初心是为客户创造价值,而非沦为大型实验室。正因如此,当发现直接切入生产力场景不可行时,我们果断转向开发者市场——只要需求真实、付费可行,即构成健康的经济模型,进而滋养组织的务实文化。

在具体执行中,我们采用“战功文化”:以结果为导向分配资源,以实事求是为原则调整战略。支持华哲创业并非妥协,而是基于长期价值判断的协同——星海图将参与其首轮融资,以新方式赋能其to C家庭应用探索。这印证了我们的核心逻辑:创业公司的生存前提是算清ROI——既要评估创新对长期战略的价值贡献,也要衡量其短期收益。理想主义必须扎根于现实土壤,否则就会滑向空想。

“我们不是说不做创新,前面先要务实。对,先要务实。我觉得这个还是创业公司生存,先生存。”

“理想主义不能变成空想。理想主义能够实现的基础,是我们每天都要去算ROI。”

技术愿景:让培训机器人像培训员工一样

高继扬坦言,尽管星海图在技术拆解、ROI测算等方面非常务实,但其真正的技术愿景却带有强烈的理想主义色彩——让培训机器人像培训一个员工一样:通过几次示范与自我演练,机器人即可在特定场景中稳定、自主地完成任务。这一愿景构成了星海图产品战略的底层逻辑。为支撑该体验,公司构建了“基础模型 + 后训练工具 + 整机”三位一体的产品组合,目标是让客户在使用机器人时获得与使用人类员工相似的交互感与可控性。未来,随着机器人员工的生产力显著提升,人类社会的整体幸福感也将随之增强。

我们希望给这个世界带来的巨深智能带来的核心体验是,我们要像……能够让培训机器人像培训一个员工一样,培训一个人一样,通过几次的示范,然后再通过几次的自我演练,这个机器人就可以在那个场景里面稳定的自主的完成任务。

务实主义的创业节奏与组织挑战

与AI应用或大模型创业不同,机器人行业天然要求团队“去土里”——深度介入供应链、线下客户对接与数据闭环,因此缺乏“浪漫”的土壤。高继扬强调,星海图的策略是步步为营:2024年聚焦整机与供应链建设,2025年发力数据智能,2026年拓展场景与应用。这种节奏并非因保守,而是源于对复杂度的清醒认知。

组织层面,公司从十几人扩张至两百余人,估值两年内增长约30倍(从2024年1月的3亿元到约100亿元)。高继扬认为,组织问题的根源并非估值上涨本身,而是复杂度与广度的急速扩张。他指出两大核心挑战:一是现有团队能否跟上成长速度;二是能否及时引入高密度、高经验的人才。尤其在具身智能领域,整机供应链强调纪律与流程,而智能系统则依赖人才密度与创新,二者天然存在张力。

我们强调一个,就是说这个我们还是比较精益经营的啊,就是该省的就省,该花的就花啊,我觉得是这样的一个情况下,大家也都取得了一个比较好的一个谅解和平衡嘛。

在很多的这个客户交付的问题上……我们公司整体体现出的这个进取心和韧性非常的好,非常强。

融资进展与行业定位:狼性之外的清醒

星海图本轮融资已顺利完成,参与方包括吉利、北汽等产业资本,以及正鑫金鼎等PE/二级 crossover 投资者;六家老股东全部跟投,其中凯辉、基石资本、湘和等三家甚至超额认购。高继扬笑称,本轮融资主要由联合创始人天齐主导,自己仅在关键节点“画皮”出场,侧面反映公司已进入成熟运营阶段。

谈及行业地位,他保守估计星海图估值位居中国具身智能公司前五(仅次于致远、银河、宇硕等),并坦承对同行保持高度学习态度:向宇树学习整机与供应链垂直整合,向Physical Intelligence学习前沿算法与大模型能力,向智源学习组织管理与知识产权策略。他特别提到智源管理团队的“实事求是”与快速调整能力,甚至称赞其知识产权体系“做得特别好”。

当被问及公司动物隐喻时,他最终选择“”——但随即澄清:“狼性”并非星海图独有,而是行业常态;真正稀缺的是在高压交付节点(如G0 Plus发布前连续一个月无休)中展现出的韧性与进取心。这种“清醒的狼性”,或许才是星海图最独特的底色。

我觉得我们没有一个特别好的,可能最接近的是狼啊。

历史镜像与现实清醒

高继扬坦言自己并非“高雅文化”的典型拥趸——不常听古典音乐,偏好周杰伦、五月天等流行乐;阅读上虽不热衷小说,却对历史类书籍情有独钟。当被问及“人生之书”时,他略带调侃地避开曾国藩,转而推荐吕思勉所著的三国史著作。他强调:真实历史远非戏剧化叙事,而是充满逻辑性与现实挣扎的复杂过程;在那个“你死我活”的时代,无人是完人或纯粹理想主义者,所有人都是在现实约束下,凭借判断、取舍与运气步步为营,最终取得阶段性成果。

而他尤为珍视的现实启示在于:今天已非“唯一胜者通吃”的丛林时代——“今天我们每一个人都可以很好,每一个公司都可以很好”,关键在于能否真正围绕客户创造价值,用技术与产品落地可持续的正向循环。

真实的历史总不是那么戏剧性,真实历史有它的逻辑性啊。

好在的就是说那个时代太就是你死我活了,最后好像只有有一个人能够能够取得一些结果一样。但今天不是,今天我们我们每一个人都可以很好,每一个公司都可以很好啊。

责任即正反馈,务实即防御机制

谈及创业以来的正负反馈,高继扬的回应极具反常识色彩:融资成功并非正向激励,反而强化了他的责任意识——面对账上数十亿资金、数百名员工投入、政府期待与客户信任,他感受到的是沉甸甸的担当,而非成就快感。他坦言,自己真正期待的正反馈尚未到来,目前最渴望的仍是万台级出货量这一硬指标的达成。

至于负反馈,他几乎不以为意:“我没有特别在意别人对我的评价”,尤其在早期遭遇投资人不理解时,他早已形成一种“目标导向”的思维惯性:只要内心确信所做之事实事求是、方向正确,外界的质疑、轻视甚至否定,都不足以动摇其信念。这种清醒源于对行业本质的深刻体认——机器人行业不允许技术浪漫主义者生存,它更青睐“狼性”:既怀抱理想,又日日精算投入产出比,平衡多方关系,身先士卒解决一线问题。

我接受,就是我们现在做的这些事儿。假设我内心认为我们是正确的,是实事求是的。大家有一些不理解、不认可,甚至是瞧不上等等,这个我也都OK啊。

所以那那期我是印象很深刻。

行业洞察与人生锚点

高继扬对机器人行业的观察尤为犀利:公众通过视频建立的机器人认知,往往严重美化了现实——视频呈现的流畅状态,远优于现实中的卡顿与故障。因此,他呼吁社会给予行业更多耐心。他进一步指出,AI产业与具身智能领域塑造出截然不同的人格模型:前者可能容纳更多理想主义,而后者则必然导向一种“狼的状态”——在理想与务实、愿景与细节之间反复校准。

在快问快答中,他提及洛杉矶的ABC豆腐House是他最爱的美食地标,并坦言若退休,愿在此安度余生。而当被问及“当前最关键的bet”时,他回归初心:具身智能是他人生的“that”(终极命题);当下最聚焦的目标,是在生产力场景实现万台出货量——这不仅是商业里程碑,更是对行业现实路径的一次坚定押注。

他亦分享了对播客《语言级世界工作室》名称的共鸣:世界本是主观认知的产物,而认知过程即语言构建的过程;我们通过一次次“唯心”的抽象尝试,逼近客观真相——这恰是技术探索者最朴素的哲学实践。