就是讲曾国藩从二十多岁是一个儒家清流,哎,怎么到四十岁变成一个特别有世功的一个人?是杨志林也是你们同学,是他是一个什么样的人?就是高不可攀的大神啊!这。你是当时引入的一条鲶鱼吗?我应该算是吧,我应该算是吧。我从M出来创业,我放弃了所有的期权,我们全都放弃了,有多少?当时那个时间点,一千万美金可能是有的吧。
最近许华哲要离职,是的。许华哲主要是做算法,这是不意味着现阶段来说,对于机器人公司算法创新是不重要的?你刚才也提到,在Momenta,嗯,邵青离开了Momenta,至于,呃,曹旭东的影响,你觉得华哲离开?星海图至于你的影响,这两者是一样的吗?Hello,大家好,我是小俊。我一直有一个疑惑:为什么中国巨深智能产业里没有出现一个像梁文锋、杨志林这样带着浓重的技术浪漫主义色彩的人?
这让我有时候有点失落。直到我认识了高继扬,他似乎是这种极致的浪漫主义的反面,代表了一种极致的效率、工程拆解与实用主义。这次访谈录制的时候,正好是星海图的一位联合创始人许华哲即将离职,这也许是某种信号。高继扬告诉我,做机器人行业就是一个链条极长的行业,有时候你就是要把你的头伸到土里去。那接下来就是我对星海图创始人高继扬的访谈。
Hello,季阳,你的实际年龄好像比你呃,真实看起来要年轻很多。我一直默认你是八零后,直到我们见面之前,我看你资料才发现你是九二的。所以你是经历了什么同同龄人没有经历过的事情吗?你说的这个实际年龄指的是指的是看上去比其实要要要要老一些是吧?还是怎么样?对,看上去比实际生理年龄要老一些。哦,哎,我觉得这可能是也跟这个创业有关系啊。
创业确实需要一个人。更早的进入到一个我觉得成熟的一个状态吧,而且是各方各面的,因为每天可能也跟不同类型的人打交道,然后呢,需要这个这个人整体来说是比较一个符合的一个状态。嗯啊,我觉得可能跟这个创业有关系,那再加上可能我这个面相也就是偏老一些吧。你是一个什么样的小孩啊?从小你是怎么长大的?呃,小时候。
小时候我觉得就比较比较比较正常吧,比较正常。小学的时候学习成绩还可以,然后呢,可能前几名,前前五名,但也不是那个年级前五啊,不是班级前五,班级前五,班级前五或者前十这个样子。然后,然后我我那小学也不是不是那种就是特别好的小学吧,就正常好,正常好的小学,在石家庄,在石家庄,对我是河北石家庄人。嗯,就是一个正常的小学,然后呢,反正就正常的上学,然后小的小学的时候呢,学过一段时间的,就是那个时候反正都上什么奥赛啊,呃,数学奥林匹克嘛,然后学了一段时间,但其实学的也也不是特别好,所以其实我的小学还过得比较轻松嘛,就是后来也就不学那些了,就正常上课啊,然后等到六年级的时候,就是突然发现还是得这个考虑初中的这个问题,嗯,然后当时我父母也也比较。
就是开始关注这个问题了啊!五年级、六年级的时候,然后所以那个时候就是努力了一段时间,然后尤其是我记得就是六年级那暑假。这个是我应该是第一次用功,对六年级的暑假不都毕业了吗?对,因为我要准备就是初一的那个分班考试。哦。就想上那个重点班,而不是普通班。对,所以那个我觉得是我考试生涯当中第一次还不错。啊啊,哎,应该是当时考了年级第三名。
啊,然后后来就初一、初二就又又比较比较正常吧,比较普通。啊,然后嗯,到初三那会儿又又开始好好学习。就初一、初二反正成绩也也还行吧,就几十名,年级几十名的样子。哎,你在石家庄哪个学校?初中是二十七中啊,然后小学是玉东小学啊,行。我高中还不错,高中我们是我是那个石家庄二中,嗯,然后是那个省理科实验班。啊,也正是因为考上这个班了,所以后面才有机会学这个这个竞赛。
就是我是学物理竞赛嘛。哦,你是高中才竞赛的?对,我是学高中开始学物理竞赛,然后学物理竞赛,然后当时也是尝试学了一下其他几门,发现这个还是物理竞赛感觉学得明白一些。然后,所以高一高二就是在学物理竞赛啊,就是正常的文化课。我用我们那学校就是这样,就是你要是选择物理竞赛,正常的那个课程就可以少上一些。嗯,然后我,所以我就后来就是就是没有高考,就是竞赛啊,物理竞赛保送上清华。
嗯,这样你是竞赛的能力很强,是有天赋吗?我觉得不是,我我觉得我我我我见过真正有天赋的人啊,然后跟真正有天赋的人比,我觉得我主要是靠勤奋啊,靠努力。然后物理竞赛其实也,我我觉得我也不笨啊,首先对,但确实是有的时候解题啊这方面的,有些同学就是能够想到啊那个解法,然后我我可能就是想不到啊。那那我的办法呢,反正就是说这个,所以从那时候开始练就归纳总结。
然后呢,把不同的这个题型,对吧,映能映射到什么样的考点开始归纳啊?然后呢,就是就是靠勤奋吧啊!所以其实我我最后我觉得当时我运气也不错,呃。呃,因为那个物理竞赛它这样,它是省一等奖的话,你就有保送保送资格。然后,但是呢,你得参加那个当时叫保送生考试。那保送考试又要又要把什么数学呀、什么英语啊、语文呐这些全考一遍。
对,然后我呢就比较幸运,就正好进了省队。然后进了省队之后呢,去参加全国赛。然后在全国赛呢,也也不是特别好吧,就是不是全国一等奖,我正好全国二等奖。嗯,然后那年呢,清华反正全国二等奖。也是让你可以挑专业的啊,所以当时我们那年是在厦门,当时我记得,呃,二零一零年的呃十一月份应该是啊,二零一零年十一月份,当时在厦门考了两三天,然后考试的最后一天。
呃呃,我现在都还记得那个清华招生的老师,因为大家都在一个宾馆里面啊住着,然后他就直接给宾馆那个房间打电话啊,说通知你们这房间里边谁谁谁谁谁谁谁谁去哪个房间,然后然后当时就我被通知到了,然后一去那边,然后就可能有几十个人在那边排着队。啊,然后排队干什么呢?就是问你俩问题。那个,你你你现在反正有这个机会,你那个要不要上清华?
嗯,要上清华,你先选个专业啊。然后当时我就是选了那个电子工程,电子系,就这样。为什么当时选这个专业?你当时对它有什么认知吗?当时啊,就是觉得做芯片这个事儿,嗯,是可能是有有前途的,所以当时去电子系,因为电子系是做芯片的啊,那个集成电路啊,所以就就就就往这个方向。但当时其实也没有特别特别好的这个思考吧,啊,但是知道这个东西应该是有有前途的啊,方向没问题。
然后呢,这个我就写了电子系,然后电子系也是也没错,也是清华很好的系啊啊,清华第一大系。然后那个那个可能摇班可能更好一些吧啊。然后对对人的这个要求会会更高一些。电子系其实计算机系也也都还挺不错的了啊。你当时很属于很勤奋的,你是有多勤奋啊?你是显著比其他人更勤奋?我是当我发现我需要勤奋的时候,我是非常勤奋的啊啊!
然后,但是当不需要的时候,当不需要的时候,对我也不是很勤奋啊。哦,所以我感觉你的人生好像是,就是你意识到这个时间段对你很重要,然后你就会突击一下,然后你意识到这这一段可能我轻松也没事儿,你也会放轻松,所以你是一段一段的是吧?呃,对,至少我觉得上大学之前吧,是是是这样的。其实上大学之后呢,也也也有过这样的。
然后大后,但是大学毕业之后,我觉得我就就是就变了一个一个状态,就是一直就保持比较勤奋的状态了。为什么目标感增强了吧?我觉得上大学那会儿。刚上大学,其实就开始想,就是说未来要干点啥嘛啊。然后我我忘了是什么大二还是大三吧,反正想好就是还是要创业啊。我那时候就确定觉得要创业。对对,那时候我我就想好是要创业。
嗯,那时候怎么看当时的创业环境啊?你当时有有试水什么东西吗?没有,呃呃,当时是参加过一些就是学校里边的什么科创的这种比赛,挑战杯什么之类的,是那种就是科创类的竞赛,就是反正你有一个好的想法,然后你你把它实现出来啊,就是科创类的,嗯。然后但是没有做什么就是可能事实上的创业的这种动作吧。然后当时我上大学那会儿是二呃二零一一一年到一五年这个时间段嘛。
然后就发现,就是那个会儿最火的是就是移动互联网,对啊这块儿,我我我记得就是一五年那会儿就是外卖,然后之前是一一年那会儿可能是校内网,对,然后中间有一些什么那个打车呀什么之类的,哈,对,然后后面就是共享单车到一路对对对是的,是的,然后但我当时也感觉就是哎呀这这事好挺挺厉害的,但我觉得跟我好像没啥关系。
对,那时候就隐约感觉到,这个这是大机会。嗯,然后但是跟我没关系。为什么跟你没关系啊?我太年轻了,然后我这个啥啥也不懂,啥也不会啊。然后现在做这件事的人都是可能呃二十多岁、三十来岁的人,可能是是现在的呃就当时的那波的主力的创业者嘛。那时候最最红的创业者,九零后创业者是戴威。是一六一七了啊!是的,是的,对对,当时就开始读博了。
嗯嗯,我记得我我读本科那会儿,主要就是呃。王兴、兴哥,还有陈维啊,就是他他们这这一波,就是对我觉得,对我就感觉这这个应该不是我的机会啊?你觉得不一样在哪里?呃,我觉得就还是,一代人肯定有一代人机会。对,人家累积了之前学了很多东西,也做了很多事儿,所以到这个机会出现的时候,就就就是他的机会,轮到他了。
但是,我我觉得我们其实我就那时候我就是大学生,啥也不懂,啥不会,那那肯定我我这个想想干也没法干呀,也不可能我也不可能赢啊,不可能能拿到这个机会。所以所以当时就开始去想,就是说那创业到底做什么啊?然后。啊,很巧,大四的时候,其实我大三的时候选专业嘛,我就选到那个微纳电子,还是秉承着想做集成电路的这个什么初心哈,然后去选到微纳电子了。
哦,那是选专业,不是换专业是吧?不是,对,他是电子系是这样,他是说到那个大三的时候你可以选一个方向,嗯啊,然后我我当时就选微纳电子啊,然后。选完之后呢,发现哎呀,这个这个,天天学那些那个那个,就是跟物理很多材物理啊材料啊啊固体物理什么之类的,又感觉学的不是很很很很很带劲儿,嗯啊,然后呢。死记硬背的东西特别多,我都发现啊。
然后同时我也感觉这事儿拿芯片创业那时候还没有国产国产替代的这一波啊啊。然后我就感觉拿芯芯片创业又又看不到路径,嗯,看不到路径。所以很巧就是。那个,那你那时候还是想要创业的?想,对,是是是是想的,对。然后也很巧,就大四那会儿啊,正好有一个,正好有一个那个那个机会啊,就是当时商汤啊,在那个汤老师在学校有一个小范围的交流啊,汤小欧老师,对对,汤小欧老师,汤老师。
然后呢,我就是有机会去跟汤老师交流了一下,然后那个就知道。就做深度学习,那是我第一次就知道深度学习。之前只是就听说过哎,deep learning,没有deep learning。对,这是我第一次好好的去去认知这个概念。嗯,然后那个汤老师也特别好,就是给了我一个实习的机会。我啥也不会那时候啊,就是从来没训过神经网络啊,什么也没有。
对,然后我就我就我就大四的那个大四的应该是那个那个十二月份吧,啊,二五年的年初,二四年年底我就去上汤开始实习。训第一个神经网络就是开始接触AI,相当于是。当时这个吸引的是什么呢?既然你都没有接触过,为什么唐老师说了你马上就去了?对对对,这这这之前还有一个事儿,这之前还有一个事儿就是大三暑假的时候呢,其实我是有一个机会,就是说去那个呃,当时斯坦福有一个那个暑期实习的项目啊,叫叫UGVR,然后我就去我就去那边去实习了。
那当时去实习的时候还不是做的AI这个方向。做了一些什么图像啊、医疗什么之类的,对,也也挺杂的。然后做完之后呢,那个不知道为什么啊,到现在我也不知道为什么。然后那老师反正没给我写强推。然后就导致呢,我想上学校,就是反正他给我写推荐信的都都都没都没都没上去。然后最后当时就是有几个我没让他写的,因为我觉得这些学校应该都很很轻松很随意的。
那包括呃 U S C U C S D,还还有还有一两个吧,反正就最后只有这几个呃没让他写的,然后给了我 offer。然后当时那段时间呢,也是一个算是小打击吧,低谷期,哎,小小对是个小打击。然后当时就开始反思啊,反思,哎呦,我这哪做错了,哪做错了?然后,然后也看了很多书啊,我一直也比较喜欢看书啊,看什么书?
尤其喜欢看历史,嗯啊,看历史那段时间呢,我就是反正看了很多吧,但是我记得住的,现在记得住的,就是看到曾国藩。曾国藩就是就是讲曾国藩这个从二十多岁是一个这个儒家清流,哎,怎么到四十岁变成一个呃,就是特别有这个事功的一个人,就是他特别会在这个现实世界当中去带领这个一个大的团队,而且当那个时候的困难也很多呀,他一个汉人在。
这个清朝末年,然后抵抗太平天国啊,就在这,然后去这个建立军队是吧?他训练军,一个一个一个文人出身的,他要去训练军队,那他怎么从一个儒家清流,然后变成了一个这样的一个人?嗯,然后他当时自己的一个,当然也是那本书对他的一个描述,他这个顿悟就是说。他发现最重要的还是,当你要做一件事儿的时候,你到底能有能拉动多少资源,有多少人,多少资源愿意跟你一块儿去做这件事儿,并且最后把这事做成。
他发现这件事儿是最重要的。你当时是申请学校不如意,为什么去看管理?怎么怎么调动军队?不不不,其实就是因为我大概有这样的一个习惯吧,就是就其实从很小的时候就是这样,就是有一些比如说呃那个那个不顺利,对吧?我就我就反思,但反思我得需要那个。思考的来源嘛,养料啊。然后我就是看书,对,反正就是看传记啊,看历史啊,就乱七八糟看。
然后呢,就是通过看别人在可能一些困难啊、一些什么的,给自己来点灵感吧,啊,来点灵感。然后,所以那一种解说刚好看到他啊,刚好看到他。然后,哎,我就发现这事儿值得参考,嗯,值得参考。就是说,嗯,这个虽然我这件事儿没做好,失败了,就像他。发现他这个儒家清流这条路走不下去了,对,但是他还是就是说能够去建立另外一个呃这个这个轨迹,这轨迹就说我我要去真正的去在这个现实世界当中去做事儿啊,然后呢去去去拿到结果,对,这事儿很重要。
然后我就觉得,哎,这这跟我的想的其实是一样的啊,我因为我本来就想创业嘛。只不过可能那我在学校这条路上确实去不了最好的学校了啊,那就相当于儒家清流做不了了,对吧?那我那我能干点啥?那那我我就觉得那我要去。真正的从底层思考,我未来到底要做什么,然后以及我要为做这件事儿做什么准备啊!所以我当时我也就是系统性的开始看各种各样的方向,嗯,然后看到唐老师。
啊,给我的这机会,然后我觉得这这事儿好,这事儿应该是有前途的啊,然后我就去尝试一下。嗯,对,然后然后而且一去我就训练了这个神经网络,我就发现哇,这是一个事儿,太就是太有魔力了啊!因为我都发现这个这个计算机可以从数据当中自己提炼规律啊。那那你看我们编程序,因为我大学也编程序嘛,编程序干啥?编程序很多时候就是人体验规律啊。
提炼规律写成一些规则语句,if else什么之类的。现在不用人了啊,就就机器学习啊,神经网络自己从数据当中提炼规律,它把这些规律里边的所谓的if else。变成了自己神经网络当中的参数,这过程全都是自动的。哎,我觉得这这事儿太强了,太牛了。我我得做这个,嗯。然后当时我觉得人未来应该不太会用,就很少会用编程了啊。
然后然后我现在都很记得,就当时那场景是我有一天从那个。实习那地方出来,那实习地方创业大厦就是清华科技园里边那一栋楼,然后我就在想,当时训练完这个神经网络的一些感受,然后骑着自行车,然后突然就是想到这个,我说我感觉这以后这个这个神经网络可以代替人在数据当中发现规律,啊,这个事儿太牛了,我我以后得做这个。
嗯啊,所以那个时候我就想好,我我就一定要做这个事儿了啊。那这是我我怎么就是开始做AI的啊?也是那个时候,其实就是就是就是我特别感谢,我到现在我就特别感谢,就是。上汤的就是这种文化,就是其实给了我我们这种就是从来没有接触过的,还有学校里没接触过的,人家给你一个机会可以去学习啊。你在上汤多久?小半年吧,小半年四五个月,可能只有汤老师同时 offer 几个人这样的机会。
没有,当时我我汤老师肯定是跟大概当时十几个人嘛,然后呢,这十几个人,反正汤老师都是比较 open 的,想来都可以来。啊,然后那个那个,我就比较主动嘛,然后去,当时我是跟着那个呃李成啊鲁叔,然后去去去做的啊,当时我还记得我当时做的叫pose estimation。就是预测人的这些这个这个肩膀啊、胳膊肘啊这些关节点啊,就就做了这么一个。
后来看嘛,这个这个工作本身,我当时我也没做出啥。啊,但是是我的一个就是开始做AI的一个起点了。嗯,所以其实你复盘你从小到大的这个成长轨迹,第一个重要的节点是六年级到初中的时候,就是你第一次发现哦,我可能在考试上是有天赋。的,因为我通过很短的时间就拿到了年级前三的这个结果。嗯,然后第二次一个很重要的点是,你觉得从大学申请博士学校不是足够好,然后让你转向了。
你觉得可能学术这条路不适合我,你想转向了一条更现实的路,是吗?嗯。对,我觉得,我觉得上清华那个,那个当时保送上清华也很重要啊。就是,哎,我就觉得这个,因为我其实高中的时候,我从来没想过我能上清华,从来没想过。哦,从来没,没从没想过。它不是一个目标是吗?我觉得我很难上,就是高考我不可能,我我的那个语文和英语都都不太好啊。
然后那个有多不好?多多不好,嗯。哎呀,都不好。对,想起有一次考试,就是我一卷,就语文是一卷二卷嘛,一卷就是什么那个阅读理解呀之类的,二卷是作文嘛,一卷二卷的分加起来可能跟。考得比较好的一卷的分儿一样高啊,就是满分可能一百五,我我两个加起来就一百来分儿。OK啊,然后别人一卷可能就九十多分儿。哦,对,啊,然后那物理竞赛对你很重要,很重要啊。
就我觉得当时我就这么,我就想就是物理竞赛,我考不上,考不上清华,我就高考呗。高考我就说那我能上个。能上个四川大学、厦门大学这样的,我我都已经挺开心的了啊!对,然后所以其实我觉得上清华那个是挺重要的啊。他就是当时我虽然没有这目标,但是我确实是很勤奋。可能别人就刷题嘛,那时候就刷题,然后别人刷一遍的题,我我刷两遍,别人刷两遍的我刷四遍,啊,就是就是这样,然后总结归纳。
因为我觉得其实我我过去考试也好呀,呃,就是就是应付这些东西,我主要的方法论就是就是归归纳总结,嗯,就这些东西,嗯啊,哎,上大学之后的那次小打击,我觉得是。就是我觉得让我更就是我我从来也没有想过走学术的这条路线,但让我从更底层的去有一个机会去想我我应该去怎么选方向,然后我应该怎么去推进,我想去做这件事儿,我应该把什么当成目标啊,而不是把一些表面的东西当成目标。
在当时,清华是不是杨志林也是你们同学?是他是一个什么样的人?他是就是高不可攀的大神啊!这是真的,就是他一直都很厉害。然后他应该也是接近特奖的一个。我觉得在清华里边也也,我觉得也比较普通吧。就是年级在电子系,就是大神也很多。我我也就是 top,谈不上 top,可能百分之三四十成绩大概就是这样啊。对,然后呃,执林那一直都是很厉害的啊,我觉得他本科的时候就已经做了特别特别棒的工作了啊。
他的厉害是来自于什么呀?是天赋?我觉得是天才吧。我觉得确实清华里边,就是说上清华之后,就是更让自己见识到什么叫真正的天赋了。就是就是学物理竞赛的时候,已经见识到天赋了啊!就是我我们学校有几个,最后他们拿全国一等奖那几个人,我觉得真的是天赋,就是人家做一遍就会了。哎,我我反正就就是搞不明白,对,然后然后上了清华之后更是这样。
我们那届,我我我们系我们班有一个是韩神,这可能那个叫韩衍俊,他就是更神的,就是就是他写的作业,我看他写的作业,我就想学习一下,我都看不太懂,我得换一个人作业抄一下,或者是参考一下。对,然后就我我确实就是当时就感觉到,就是这个这个就是这个清华里边真的大神太多了,所以我在清华里边就是。就是学到了,就还是要要要谦虚吧,嗯,要要要要低调哈,对,因为确实是天外有天,人的人外有人,嗯啊,那个像植林呐,像韩衍俊啊,我都是我觉得那一届里边最最杰出的学生了。
植林哥,你是一届吗?是一届的,是一届的。哦,他也是一级的。对对对,你大二头发白了是为啥?哎呀,这个也也其实也不知道,就是有可能是当时那个我我比较喜欢搞科创吧,就是参加挑战杯啊,然后呃挑战杯反正当时那还行,就是呃学校里边拿了一个一等奖,然后然后弄完挑战杯,有一天我发现哎。这个就是这个位置,然后有有有有几根白头发了啊!
我说啊,这可能是累的吧,然后我也就没管它了。然后后来反正就就出现就是越来越多了,就这样啊,嗯,对,但好,所以好好多人都觉得,哎,这个继扬你你是不是染的啊?其实不是染的啊,就是自然白的啊。你后来就没有动过了啊?没没管。我我发现杨志林跟你是有那个轨迹交错的。那你在上当实习的时候,严俊杰当时在吗?我跟他不是很熟。
我当时是就是我的直接的 mentor 是鲁叔嘛。然后的话,当时我认识了曹旭东啊啊,旭东对。然后这也是后来我去Momenta Momenta的原因之一。他们当时在商汤是一个什么样的状态啊?呃,旭东当时在商汤应该已经是就是那个就是核心的,就是技术leader啊之一了啊。然后呢,当时做就是人脸这块的嘛啊,我就是因为当时我就是个小实习生,其实跟人家也没有。
特别多的直接的这个交流,但是感觉到就是说,当时的那一波人其实都很强。然后呢,那个那个,而且他们不仅仅是说学术上有自己的造诣,而且是在工程和产品化上面也也很强啊。对带团队、组织管理上面都很都很强,他不是那种全纯学术型的。嗯,其实我也是当时有这个认知,所以后来回国的时候跟许东聊的比较愉快。后来去美国,然后因为他做自动驾驶,我在Waymo也做自动驾驶嘛,然后就更熟了,有更多的共同语言了。
后来你博士是为什么选择了就是 CV 这个方向?是在商汤实习完之后你开始对,就是在商汤做的选择。对对对,就是在商汤实习的时候就做 CV 嘛。当时我也是想好那个去去 USC 那我就就做这个方向。如果要是我找不到合适的实验室或者老师。啊,带我的话我就quit就不读了啊。对,但很幸运,反正到那儿之后,我就到那儿之前吧,我就开始看,哎,我这个能找哪些学长啊,然后能联联系一下。
对,然后当时就找了那个孙晨陈哥啊,然后提前就联系他,他是。呃,清华七子班的,嗯,然后现在在那个布朗大学做教授啊,然后那个我后来我就通过陈哥孙晨,然后进到那个呃RAM的实验室,然后开始做这事。为什么三年半毕业?自己也也有归纳总结吧,哈哈,归纳总结,这是一个人生重要的事情。首首首先,我觉得就是当时我我先给自己定了一个目标,就我觉得。
我觉得既然我已经想好我我要未来我要创业,我要进入产业界,嗯,那读博士其实我是一个阶段啊,它是为了完成我的某些训练,而这个训练完成的时间肯定是越快越好了啊,那所以我就想,那我能不能四年毕业?可能正常在美国读博士五年,嗯,可能甚至六年。那我给自己定目标,我就说四年。然后四年毕业呢,你就得,你就得推导一下。
四年,你又不想水水的毕业,水水的毕业,老师也不会让你走人嘛。所以你就要四年做到可能一个还不错的水平啊。那当时我就想,我就看了一下,大概可能四到五篇顶会,啊,就是顶会,我们这个领域顶会就是 C A P R 啊,什么 I C C V
这样的四到五篇顶会。然后那你要想四年的时候发到四到五篇顶会。你就得排这个时间表,对,第一年开始发,对,第一年就要开始做嘛,然后第一年就不是一年级的结束的时候,你就要肯定要投入去,因为CPR是每年年底。
截稿啊,就是截止那个投职,呃,投那个投稿日,呃,所以你就要提前去去做这些这个呃安排了啊。就大概反正就是先选好这个方向,然后呢,在这个方向里边就按照这个schedule去去发,然后,然后当时我我发现我的idea可能比我的事实能干活的带宽要多,所以呢,我就尝试着说。那我能不能跟就是我们实验室的其他的同学一起去发啊啊?
然后呢,所以我就当时就有就是会会把一些idea分享出来,然后的话我们就共同一做啊啊,然后这么着去发,让他们干活是吧?也也不是,大家一起干活。然后,但是我我可能会就是说会会提周密呃,会会有些idea对,有些idea出来,然后呢,就是把大家没有。充分发挥的时间发挥出来,哎,然后然后这么着的话,就大家都好嘛,嗯,对,然后所以所以所以到那个呃三年的时候,我就发现我攒的差不多了啊,然后我就当时正好也有几个师兄要毕业,然后我就跟老板一块提了,然后我们那老板七十多岁的一个印度老头,特别好。
那特别nice,然后呢,他也知道我我的志向啊,他也知道我我反正我在实验室里面确实是做的还行啊,给给他也做了一些贡献,然后呢,他也就很很nice的同意了啊,我我这个。一八年年底这个毕业的这个这个请求吧,嗯,因为一般发不发顶会其实是一个高度不确定的事情,其实你很难控制,你怎么提高它的确定性?首先就是说发 paper 这件事哈,我觉得也是有规律可循的。
嗯,啊,基本上就是发这种顶会的论文就三种套路。当时我就总结,又是归纳总结,就是三种套路。第一种套路呢,就是说,呃,最厉害的、最厉害的人都是挖坑的啊。这这问题以前没人研究,我做一个数据集,我提出这个问题,建立 benchmark。这种挖坑型的文章啊,这是第一第一类,这种都很难做。第二类呢是已经有了这个问题,然后呢,我在这个问题上面我要去呃性能做的比前人好啊,这提升就提升性能的,这是第二类paper。
第三类paper是在性能接近类似的情况下。我的成本,或者说我的监督,我用的是个数据,比别人少,反正就这三类啊,几乎就是所有的赔款都能往这三类上去去套,嗯,然后呢,所以我就在这三类里面去那个那个。那个做一些选择嘛,啊,有的是第一类的,有的是第二类的,有的是第三类的,啊,然后这么着去推进。然后第二个的话就是说,还是得多发,就是就是别人一届发发一次发投投一篇,我投两篇,哎,然后就是提高提高概率嘛,然后那个对。
你博士毕业那个时候,你想清楚的是什么?你没有想清楚的是什么?对,博士毕业那会儿呢,就是找工作嘛。我是通过就是说找工作这事儿去了解行业,嗯,因为很早就想好,就是还是要做产业。但我我是感觉呢,就是AI它本身啊,还是偏技术的一个东西,嗯,它它不是一个真正的产业,产业还是围绕需求的啊。呃,所以我就再去通过面试,然后去学习了解这不同的行业。
嗯,当时就看了这个自动驾驶,呃,广告就是AI加广告啊,然后呢,这个云啊,还有这个呃,当时就所谓的这个泛AI加啊,商汤也属于这种,对,商汤就属于这种泛AI加的,嗯嗯。然后看完之后呢,我就觉得,呃,当时我也给自己定了几个标准去去筛选行业。我觉得这个行业一定是,就是说以AI作为最底层的变量,AI这个技术作为这个行业最底层的变量。
啊,就是说没AI这行业没有,然后呢有AI在这个行业才成立,嗯,然后且这个行业本身足够大啊的有有有一些标准吧,最后我就觉得我未来应该去做物理世界的AI这件事儿,嗯,然后呢自动驾驶是物理世界AI的一个。第一个第一个形式第一个形态啊,也是那个时候可能不多的产业,嗯,所以就想好就是做做自动驾驶。商汤被pass的原因是什么?
你有想过要加入商汤吗?对我还是觉得就是说AI呃商商汤的这个就是这种AI加的这种这种模式呢,我觉得会就是商业上可能会有些问题啊。但当时对于这些的理解也不是特别的深刻啊,我我就是觉得就是。这个是会不会干成外包?对啊,我觉得他他可能形成自己的产品,然后没有产品的话,你在交付侧,你的你的这个每一次的这个成本感觉都很高,因为你是工程师去去交付嘛。
嗯啊,我就觉得这个可能。可能会有些问题。嗯,广告被 pass 的原因是,广告被 pass 就是因为没有 Google 这种公司,对,是的,百度,对对对。当时 Google 里边其实它是有做 Google Research 啊,然后就是纯 Research,然后也有就是做做那种搜索呀、广告啊用 AI 的。
嗯,我是觉得就是说搜索也好,广告也好,它当然有 AI 更好,但是没有 AI 连这事儿也成立。嗯,对,在在A
I出现之前,在所谓的神经网络出现之前,可能有别的机器学习技术;在机器学习出现之前,可能还有其他的技术啊,去解决搜索和这个广告的这个问题。那就意味着。就是AI不是这个行业的那个绝对变量,嗯啊,我还是想找一个就是绝对变量,这么着我们才就进入到一个一个崭新的一个事业里面,在这个崭新的事业里面,我们就是可能年轻人吧,我觉得才有更多的成长机会。
神经网络对于广告来说可能是优化。对,pass了云,pass了云。对云,因为当时就是把一些模型包装成 API 去做,我觉得这个也也不是很本质。在当时只剩自动驾驶。对对,然后呢,自动驾驶这事儿我又延展了一下,我觉得这个是物理世界 AI,就是 AI 加 robot。啊,哎,我觉得这个当时真的这么想吗?当时真的这么想啊,AI 加 robot。
对,嗯。然后我觉得这事儿这事儿超牛。你为什么不去 robot 呢?当时也有很多的研究方向是没错,没错,也有这些公司。嗯,我是觉得就是因为传统那些读博士的时候也也接触过这些方向和领域哈。传统的 robot 还是啊控制优化,然后呢这个 slam 这这这些技术,这些技术呢,我觉得它。它很难从底层,因为它跟人的这个工作方法不一样。
它很难从底层让这个机器人真的像像像人一样工作。它机器人里面更偏机器,而不是更偏人。你想让它变成人,还是得用AI的这种方法。虽然那个时候AI AI或者神经网络还没有那个那个今天这么这么好吧,但我觉得这是个大方向。还是回到那个,就是AI的魔力在于能够代替人总结规律。哦,这个是你擅长干的,这个,但我发现A I做这个事儿也做的很好,嗯,啊,然后呢?
那我那我觉得就是这个,它是有有有机会把这问题真正解决的。然后AI加robot也是从底层变革人类生产力的啊的的的超大型行业啊,所以我我觉得这个就是就是值得投身啊,值得投身。嗯,你第一站选择了Waymo,对,在聊你第一段工作之前,你能不能从你的视角复盘一下过去十年自动驾驶这个产业的变革?嗯,首先呢,我觉得,呃,当时确实是啊,就是说我在加入呃
Waymo 开始干自动驾驶之前,其实自动驾驶已经有十年了,它是零八零九对 DARPA Challenge 啊,然后所以当时呢,我我就在当时那个时间点,我就回过头去开始看当年的 paper。
全看了一遍,呃,大部分看了一遍。嗯,对我,我不止把paper看了一遍,我去了Waymo之后,我就最喜欢干的事儿就是读Waymo的code base,把历史严格也都也都看了一遍。然后呢,呃,当时其实你可以看到的一个很明确的点就是说。一八年那会儿的整体的自动驾驶的技术架构和零八年那会儿的自动驾驶的大的技术架构框架其实都一样了,没没区别。
零八年的paper里面已经说清楚了,这事儿分感知、分这个定位,然后离线做好建图,然后。感知定位之后,在这个地图里边做这个规控啊,然后呢,感知做得好一些,规控这边就可以做更好的这个避让动作啊,做判别。然后规控里边先是决策,再是规划,然后是控制。大的pipeline,零八年就是这个样子。嗯,只不过呢,后来随着AI技术的成熟,尤其是在CV领域的成熟,把很多呃,感知部分的模块替换成了这个这个AI的算法驱动的,比如说最早的就是这个激光雷达,最早激光雷达是什么?
它是。这个 clustering 这种就是聚类,就是他发现这这有一堆点云,他给你聚到一块儿,他是通过这样的方式去判断这儿有没有障碍物。那后来逐渐变成了神经网络去去去做这个推理啊,所以它的就是说整体的自动驾驶在一八年的技术架构和零八年的技术架构没区别,但是这一套技术架构的底层逻辑不是 AI 的。它的底层逻辑是 robotics 的,就是 robotics 的底层逻辑。
我在我的观察、我的认知上不一定对,对,它是做系统拆分。然后呢?关注counter case,啊,正是因为他关注counter
case,所以他要把这个这个这个系统分成一个一个可解释的模块儿。然后在这个可解释的模块里边去解决这些case的问题。嗯,AI的方法论不是这样,AI方法论是追求数据驱动,然后端到端,然后呢,AI不太擅长解决一个两个具体的case,但是他特别擅长的是我从整体上提升benchmark的性能。
我在一个大的benchmark上,之前是八十,我一波优化干到九十,再一波优化干到九十五。那那这里边九十到九十五肯定我有相当多的case变好了,不排除有部分的case变差了。嗯,对,所以这个就是我们看到当时我看到就是 robotics driven的啊这个技术架构是是分分模块感知、规控啊定位,然后离线建图。
嗯,但是AI的底层底层逻辑其实不是这个,AI底层逻辑是端到端,然后呢?同时间,其实一八一九二零年那会儿,就是特斯拉开始去做自动驾驶,而且是用AI的方式推端到端的。他最早做端到端是什么呢?是把这个感知先统一啊。当时他就是这个感知的,就是一个模型解决所有的感知问题。嗯啊,那那同期其实Waymo是怎么干的?
说感知里边就可能有几十个模型,真的是几十个模型啊。这个这个Detection可能是。有有有一两个,嗯,detection完了之后呢,要做这个tracking,嗯,tracking呢里边有一些小的classifier,然后去做一些类别的判断。tr
tracking完了之后,形成了形成了track,然后再去判断做classification,啊,每每一类classification,可能pedestrian什么这个这个这个vehicle都都有自己的classifier。
然后这些弄完了之后,在在 scene 这个 level scene understanding,再再做一些这个什么分类器啊,所以你就看整个的感知就有几十个模型啊,然后再是这个规划啊,规划里面当时当时还是就是这个传统的这个规划算法,但也逐渐再去替,但这种方法论就跟 AI 的这方法论不一样,AI 方法论还是说。
它不是一个一个小模块,我还是要追求尽可能追求端到端啊,所以所以是那个时间点,我觉得就是说也是进了Waymo开始学习这个这个这个这个历史哈,我发现呃Waymo因为过去很长时间主导是Robotics的的人主导哦啊,所以它形成了这样的一套东西。Tesla在做这件事的时候,那那马斯克他就肯定是数据驱动AI,他相信的是这一套,所以他们就是完全就是AI native的去设计了整个自动驾驶的这个框架。
人也不一样,对吧?人也不一样,人也不一样,人也不一样啊。呃,或者我觉得在leader这个层面,人不一样。你说工程师这个层面,Waymo当时的呃这个人才密度非常的高,应该很高,非常的高,就是不缺有判断力的或者有技术能力的这些工程师,都是很好的工程师啊。但是我觉得就还是说。自上而下的一些东西吧,嗯啊,缺缺失了,嗯嗯,对,所以我觉得,如果咱们回到刚才那个问题,回顾过去的这一段时间的话,其实就是我觉得从零八年可能到。
嗯,一六一七一八年这段时间都是 robotics 主导的啊模块拆分,然后呢 AI 起来了之后,呃,先是去做了一些模块内的呃这个算法的替代,整个框架 robotics 里边小模块替换成 AI,但是从呃一七一八一九年开始,另外一个路线就是我我 AI native 的重新去设计这个框架,嗯,演化到今天,其实逐渐的,就是后来说的什么 BEV。
啊,这个端到端啊,VLA就出这套了啊,所以到今天其实这套已经成了主流啊。所以你当时一八年进入Waymo之后,你发现你意识到它是错的吗?那时候不敢讲它是错的,我就感觉不太对。你的直观感觉是什么样的?就是我觉得 Waymo 当时我的感受有两个,首先 Waymo 大部分还是很好的啊,咱们只说问题是吧?嗯,呃,我觉得有两个小问题,第一个小问题呢是。
呃,Waymo里面就是说它太有大公司病了,就它本身我们还没有做出价值,然后呢还是一个创业状态,我理解。那里边人其实挺多的,多少人?我当时去的时候有一千人了吧,我走的时候可能快两千了吧,快两千了。哦,那是一个迅速膨胀型,迅迅速迅速膨胀啊!我因为我当时。我开始跟的leader可能开始就是十来个人,我走的时候是七八十人吧,就是感知团队在那个时间就迅速的在扩充。
为什么扩充?呃,那时候就是想用开始用AI的方法系统性的改变感知了啊。对,之前还有很多传统的rule base的东西。嗯,对,然后。对,因为那时候 Waymo 也不缺钱嘛,钱也很多啊,所以,所以,我我当时感觉就是说,这个,这个过早的进入到一个可能大公司的一个一个状态了。他跟他所有都跟 Google 是对齐的,对吧?
呃,职级体系啊,对,职级体系是对齐的,然后包括整个的工程体系也是对齐的。文化,呃,文化也很像啊,就是很那个,就是我我觉得硅谷最近的状态可能跟十年前的状态又不一样了。最近硅谷状态还是比较这个卷,对,比较卷,都是 founder mode 了已经。呃,那那那那那些年,我觉得还是比较 p3 love 是吧?
大家民主,然后这个什么的。现在我觉得也也不太是那样了。早几晚几啊?你们当时?哎呀,我是很勤奋的,我是我我一般就是自自自自动加班那种的,但是如果要是没人管正常的,那有四五点下班的啊,去接孩子的,然后也有可能六七点走的,对。我呢,反正一般都会,因为我觉得我,我觉得我要好好干,我要好好学,所以正常工作做完了之后,我就开始看
Google 里边的所有的 doc、design doc 加上 code base,啊,就看。
嗯,这是你当时意识到第一点可能的问题,就是大公司,并第二个呢?嗯,第二个我觉得就是说。就是,这这大公司并背后,我觉得它这它这是个表象,它不是本质,本质是啥呢?本质是我觉得,呃。Waymo是没有 founder 的,嗯,对它的 founder 其实是是 Google 的 founder,但是
Google 的 founder 又又没时间直接去管这事儿,所以所以在这个里面就是自上而下的力量,我觉得是缺失的,不像特斯拉,马斯克说干啥,哪怕是错了,他也能开始干。
就我觉得,我觉得就是在这种行业里面创业,其实错不怕啊,有错我们快速迭代、快速调整,这个都
OK。怕的是,就是说力量不集中、不统一啊,我觉得这个很那个很危险。假设Waymo有一个更强势的founder,他应该做什么呢?在一八年那个时间点上,我觉得就是要系统性的改变啊,整个的架构应该另起一个team,然后从头开始去做啊,这个这个这个这个架构,然后用用一套的infra,一套的评测体系啊,但是整个的这个架构要AI
native的重新去设计。
但是他从第一天跟特斯拉就是两类公司,一个是好像想想做那个技术大脑的公司,另一类是有肢体的公司,就有车,有很多的车能开在路上。它的基因都跟特斯拉如此的不一样,他在那一刻能做什么样的调整呢?他也不能马上说我要变成一个车企。呃,我觉得倒不是说调整到一个车企的状态,而是就是在做自动驾驶软件。自动驾驶系统的这件事儿上面,我们以什么样的方法论、什么样的底层逻辑去指导我们的系统设计?
嗯,是 robotics 的去去设计,还是 AI native 的去设计?啊,就这个跟我们是不是一个车企,还是是不是一个自动驾驶企业没关系啊?就事实上,你看很多国内的这个呃自动驾驶的这个专只做大脑的企业,它也可以很就是用特斯拉那种方式,我就是AI native,然后就是data driven,坚定的走data driven,然后呢不断的去把rule base东西越搞越少啊,然后去去去完成这个过程。
它现在完成了没有?Waymo,嗯,现在肯定比之前好的多得多,好的多得多,对,好的多,但是具体的我也不是很清楚了,嗯,对,但是它这个转换过程是很慢的,转换过程是比较慢的,所以其实我觉得Waymo是可以做得更快的,但今年今天Waymo的这个结果又很好,所以所以我我又很佩服,所以为什么呢?这是。我我觉得还是就是说这个这个他对于长期的这个战略的这个一旦选择了之后,他的执行是很坚定的啊。
然后同时呢里边还是有对的人,只是调整的速度慢了一些,但是他是在调整。你怎么看Waymo的商业模式?其实我觉得就是自动驾驶这里边有有这么几种商业模式哈,就是我我们说自动驾驶的这个概念下有有这么几种商业模式,嗯,呃,第一种商业模式呢,其实就是Waymo这种代表的啊,Robotaxi啊,那他们相当于是我自己运营车队啊,以自动驾驶技术,然后我运营车队,然后呢这个。
呃,这个通过提供服务的形式啊,然后呢去赚每单的这个费用啊,然后呢,第二种模式呢是像呃车企这样的,那他卖车,然后把自动驾驶作为一个。呃,软件订阅的形式向你向你收费,嗯嗯。然后第三种模式呢,是像比如说像Momenta这样的供应商啊,那么它其实是NRE加license啊,向这个车企提供自动驾驶的解决方案。
其实还有第四种,我觉得,我觉得可能华为算是第四种啊,它是介于车企和那个供应商之间,供应商之间的啊,我觉得它本质上其实还是在这个车企这个层面,就是赚的整车的利润啊,它通过呃这个更好的自动驾驶体验,就顶级的自动驾驶体验和顶级的座舱体验,重新定义了车,然后再加上它自己的品牌和渠道影响力啊,所以它我觉得它的整个的呃营收和利润是建立在整车这个层面。
所以你觉得 Waymo 的商业模式能走通吗?哦,我觉得,我觉得它是商业模式本身是没问题的啊,只不过在走通的过程当中,它就是需要克服的这个这个这个困难和阻力,然后这个周期是非常长的,直到今天为止,我觉得已经算是看到那个走通的曙光了吧?你觉得 Waymo 和特斯拉它这两条路线现在有胜负手吗?一个是走的是这种,我觉得更科学驱动,嗯,然后另外一个走的是更工程驱动。
第一天就有很多的车在路上跑,然后收集很多的数据,嗯,这两条路线今天能说哪条路线是正确,哪条路线是错误的吗?明白。首先,我觉得 Waymo,呃,不算是科学驱动,Waymo 的工程基因非常非常的强,嗯,就是 Waymo 的工程化基因和 Tesla 的工程基因,我觉得是一样强的,因为 Waymo 的工程基因来自于 Google。
我自己的工程师这方面的训练,我觉得就是在 Google Waymo 这个体系里边完成的。所以,我我倒不觉得 Waymo 是个科学的公司,Waymo 非常的工程,嗯啊,呃,只是呢,就是说,呃,我觉得他们两个区别还是在于就是对待 AI 的态度上啊,以及面向 AI 的这个 AI 驱动的整体的系统设计的调整速度和力度上面,它的不一样。
我觉得主要还是来源于在这儿。你能预判一下 Waymo 的未来?我我觉得Waymo Waymo我我那个去年的呃十一月份我我就是回到美国嘛,然后我特地去LA,因为没去三番哎,我没没在没在LA做过,因为我看那个他在Waymo在LA开通服务了,我去做了一下,我觉得体验特别好啊。然后呢,确实是已经做到了比大部分Uber要好得多的体验了啊,所以所以我觉得它的商业模式已经算是就是接近走通的这个边缘了。
嗯,它是一个AI时代的Uber。应该是的,对。然后他运营的范围很广,他是从这个呃洛杉矶 downtown,然后到好莱坞,然后一直到三三Monica这一大片全都在运营。嗯啊,所以你在Waymo期间你做了哪些工作,以及你学到了什么?有哪些重要的learning?嗯,我当时在Waymo,我主要做的还是就是预测和感知啊这块。
呃,我先去做的其实是预测啊,因为当时正好有一个机会,就是呃,传统的自动驾驶的预测,预测是干什么?预测就是说,我要预测我周围的行人和车辆,他下一步会干什么?嗯,我得我得大概预判出他要干什么,我才能决定我自己要干什么。而且本质上这也是一个交互和博弈的一个过程。嗯,然后呢,所以我当时就刚进Waymo,然后呢,这个领导说有这么一个机会啊,那我就我就觉得挺好的,我就开始去做啊。
然后当时呢,我们去尝试用呃这个这个肯定是用AI的方式去做这个这个预测,但之前呢,其实也有人尝试。那之前用AI的方式做预测,这个方法呢不太对。那方法是什么呢?就是说他先把地图渲染成一张图片,然后用卷积神经网络去处理这张图片。带来的问题是什么?带来的问题就是。卷积神经网络它还是叫它是一个局部视野,嗯,但是地图这个东西它是很很长的,所以它就会导致它对信息的这个处理啊不够不够好啊。
在当时我们做的一个创新吧,就是说我们用图神经网络的方式啊去把地图变成用向量去表达。而不是把地图渲染成一张图片,就把地图变成向量,然后把向量放到图神经网络里面去做处理。这个图神经网络当时我们用的最基础的算子就是这个 self attention 啊,其实当时也是参考了 transformer 里边这个
self attention 的设计,但是没有搞它那么那么重的架构,但是还很轻的一个,因为给我们的算力也很小,做了一个很轻的架构做 self attention,然后后来就发现这个效果很好啊,然后这个工作就当时我跟赵航我们俩一块儿做的啊,你们第一次合作。
对,第一次就是说,对对对,第一次合作啊,然后我们一起把这个东西发了。我我觉得这个对于我来说也挺好的,因为我觉得他确实是,我觉得做的这个工作。呃,这份工作我觉得做得还不错啊。然后呢,确实解决了一个之前没有解决的问题,而且事实上后来也有很多的这个公司呃使用我们的这个方法啊,所以我觉得这个还是比较满意的工作。
VectorNet,VectorNet,对。对赵航回忆这个事情的时候,他说你让他印象很深的一个点,就是当时你们在想这个怎么设计,就是规划怎么做。然后他他的传统的思考方式是他可能去把paper读一遍,但是你说周末我我去看一看我们的代码库,就是我把我们的代码全部看一遍就知道了。他对这个印象很深。哦,对我是,我我确实是喜欢看代码。
然后呢,而且我不仅喜欢看,就是说现在的代码,我喜欢看过去的代码。然后我就看从过去看到看到那个这个最近,然后再看到现在,就这个过程你是能看到一个人的,就是一个一个工程体系的迭代的,这里边是有逻辑和符号的啊,所以我是比较喜欢干这些事儿。你当时有意识到你跟赵航有什么不同吗?在那个合作过程中,嗯。我觉得,我觉得,呃,我们就说,就是在技术上面哈,我觉得赵航的呃思考的问题的方式呢,就是他更愿意从原理层面去想清楚这个事儿应该是怎么回事儿。
我呢,更从问题的角度去看这个解决这个问题的方法最有效的。应该是啥?嗯啊,就是就是一个是我我觉得从如果我们从现在创业就是一个是可能更多的是供给侧思考,一个是需求侧思考啊。对,我觉得这个是一个啊不一样的,我觉得这也是一个互补吧啊。他是一个什么样的人?他很 nice,就我我有很 nice 是一个很好的评价吗?
我觉得是是是是很好的评价啊,就是我我有的时候脾气还会哎呀,有的时候这个着急啊,然后会他永远超稳定。啊啊,超超超超稳定,情绪超稳定。对,有的时候我就是就是就是会会,比如说一些事儿不及预期的时候,我会那个那个强烈的去 push,然后然后去推动啊。对,然后赵航会就是他内心也着急的啊,但他我觉得他在外外在上面他会比我做这一点做得更好。
你在 Waymo 的时候会这样吗?非常 push。Waymo的时候轮不着我push啊啊我我就是一个小工程师,然后那我就push我自己嘛,是吧?然后后来我我开始逐渐带团队take lead,嗯,但是Waymo那个环境下嘛,他就是他不鼓励,应该不鼓励,不鼓励,所以我我也只能在那个框架下去做事了啊。对,嗯,所以你在你对你在Waymo的工作满不满意?
两年,我我挺满意的,对我挺满,而且我觉得,我觉得,我觉得我是特别感谢 Waymo 给我这个环境去学习啊,我觉得 Waymo 让我学到的应该比我对 Waymo 的贡献要多。我觉我觉得我最重要的学到的东西啊,呃,第一个就是从知识层面的,就是自动驾驶。整套系统是怎么 work 的?嗯,不仅仅是端测,还有云测是怎么 work 的?
嗯,然后以及它的历史沿革是什么?对,就整个这个系统,我我脑子有概念了啊。然后呢,从技能层面,我觉得让我得到了很好的训练训练呢,就是说这个工程工程师应该怎么做?什么叫工程师的思维?我觉得是在那个时候,我逐渐就定型了。什么叫工程师的思维?工程师思维就是拆解加测量。啊,就是把一个复杂问题拆解成若干个,呃,这个这个稍微不那么复杂的子问题,然后再拆解,再拆解。
你写代码或者解决工程师的这个这个,我是说做软件工程,这比如说这样的一个领域的话,拆到最后就是一行一行代码。嗯啊,测量的最后是什么?是一个个单元测试。然后再一层一层回去,然后你看你顶层的这个指标,看你中间层的指标,看你最底层的指标,然后你整个系统是怎么运转起来的?这跟你物理竞赛一样吗?啊,有有一点不一样,我觉得有一点不一样。
物理竞赛嘛,其实我觉得更多的还就是一个解题的游戏啊,然后呢。嗯,它不是一个系统化的一个工程啊,它更多的还是就是哎,这个题映射到这个知识点,这个题映射到这个考点,然后一套一套方法过去。哎,但但是我觉得就是说,呃,物理竞赛也好,读博士也好,还是做工程师也好,我觉得逻辑思维能力都特别强,呃,要要求都特别高啊。
所以我也是,我觉得通过这几件事训练,就是这个逻辑思考的这个能力。嗯啊,嗯,你是ENTJ对吧?应应该是啊,做过一些测试,应该是这个。嗯,你是在什么情况下决定要从Waymo离离开的呀?嗯,当时是二零年的呃下半年了啊,一八到二零在Waymo,哎,一九年年初啊,一九年一月份加入的,然后到二零年的下半年,那个时候我就觉得,就是刚才我说的这几件事儿,自动驾驶这个系统。
也感觉也学的差不多了,然后呢,呃,我想做的一些我自己还比较满意的工作,我觉得也做了啊。然后呢,工程师的这些训练,我觉得那那时候我我写代码写的写的也很多啊,我我觉得我也差不多了。包括写代码,包括怎么review代码,然后怎么去做整个的design,然后包括当时也呃开始带一个小团队,然后去做啊一些这个这个系统的设计,带团队拿结果啊。
所以我就开始想我。我觉得,我觉得在这边的这个成长的这个效速率,嗯,就逐渐就是收敛了啊,所以,我得,我得那个。想我的下一步了,嗯,然后同时呢,我也意识到了几个问题,就是我在微末做,我做我我更多的还是做一个技术,做工程师,嗯,我离产品太远了。啊,然后我离公司是怎么经营的这件事太远了,嗯,所以我就觉得我得啊,同时我不是之前就说嘛,我就想创业啊,一直心里边就就琢磨着什么时候创业啊啊,拆解创业学先学了一个自动驾驶系统,就是第一课对吧?
对,或者这个这个东西应该被归纳为叫呃物理世界AI系统。应该怎么去答啊?物理世界AI系统,嗯,对,然后然后怎么做工程师,然后怎么带一个小团队拿到一个系统结果啊?这些事儿我觉得都都都训练的差不多了,嗯,然后呢,我我就该想我的我的下一步是什么了啊?当时我就想,我我第一我想做产品。对,然后第二个呢,我觉得我要进一步的为创业做准备啊。
然后呢,我创业我估计是在国内,我得回国,嗯,大概就盘了盘这几个事儿。然后呢,所以我就想好,就是第一,我要做,我继续做自动驾驶。但是我不做robotaxi了,我就做量产啊。然后呢,当时我也确实看好量产的这条轨迹,能够更快的产生产品价值,给用户创造价值。robotaxi这个还是慢,对吧?太慢啊,太慢。嗯,对。
然后第一个做量产,第二个回国。啊,然后当时符合这个条件的国内就是华为,我们的。然后你也可以去车企啊,魏小李。没错,没错。但是呢,那个时候我觉得。嗯,我我又想去一个,就是说自动驾驶能力更强的一个,或者是AI能力更强的一个公司吧。那个时候我觉得未包括蔚来啊,包括理想啊,我觉得都还好像没有那么强吧,啊。在那个时间点啊,然后然后所以小鹏在做,对小鹏在做,是的,是的,小鹏在做。
那我就觉得小鹏已经做的还行了,我我应该也没啥机会了。对,我是喜欢去不行的地方,然后然后把一个东西做做好的。但是如果你特别想做产品的话,我觉得大部分人还是非常渴望做一个To C的产品的。去Momenta意味着你做的其实是个to B的产品哦。对,我觉得在这里边,我对产品的定义不是说啊to C的这个才才叫产品,而是说我想做一个直接能够能够给某一些用户创造价值的。
他要让他用起来,这个在我定义里边就是就是to B也行,to B也行啊,就就是产品了。对这个,有的人不一样,有人非得是to
C才能叫产品。是的,是的,我我就是反正我就是想想创造。呃,现实世界的实际价值啊,然后是是是这样的一个想法,所以当时就是华为和呃Momenta啊,然后都聊了是吧?对对,华为当时就是跟呃这个陈一轮一轮师兄啊,也也是我这个电子系的师兄嘛啊,然后还有当时跟这个嗯苏苏老板苏青啊都聊过,然后摩根他就是跟孙刚啊许通啊聊,对,然后后来我还是觉得去摩根他比较好,为什么?
呃,我觉得首先就是说呃摩根他我我比较确认这应该没大公司病。啊啊,然后呢?旭东够够强,够强势。然后你喜欢强势的人?我我觉得是这样,就是说我我我觉得一个组织要成功,必须要就它可以犯错,但是得有一个人说我们错了,然后我们改。对,但是不能说没有人站出来说我们错了。啊,对,所以所以得有一个人能纠错,啊,我觉得这个这个东西在我们要做的这件事里边足够重要啊,然后呢?
那我觉得,我觉得旭东他呃懂技术,非常懂技术,然后AI的这个信仰者啊,然后呢,这个这个他的长期的这个这个目标也非常坚定啊。然后整个团队其实我觉得,因为之前也有一些在上汤的时候也也认识一些,包括思博呀、靳伟啊,就上汤的时候也都认识啊,所以就就聊的就比较好。然后我就当时就决定去了啊。我们它是一个什么样的文化?
绝对的,我觉得是,我是很适应的,我也很喜欢那个那个那个那个。感觉跟你非常对味儿,是吧?就是结果导向啊,然后那个结果导向,然后的话呢,战功文化啊,呃,这个有做什么比较极致的事情吗?你说你说Momenta还是我?Momenta。嗯,我觉得M一直是比较呃,我就从结果来看哈,M从一八年开始。对吧?那个时候就明确提出要做量产自动驾驶,然后通过量产自动驾驶,然后这个飞轮,对吧?
然后走向Robotaxi。这这个我觉得很有vision的一个一个判断,在一八年那会儿啊,一八年那会儿大家还是说我我直接搞robotaxi,然后那个时候包括Waymo都是这么说的,类似的公司在国内可能就是Pony
AI对吧?对,Pony然后文远都是都是就是Waymo的这个呃故事路径嘛,包括百度啊,然后那那那徐东敢就是说我通过量产去走这条路,我觉得本身在那样的就就我们要有有那个时间的站在那个时间点去思考这些问题,我觉得很很有vision。
啊,也很有魄力,对,然后而且很坚定,那一直一直这么去说,一直这么去搞啊,那那我觉得他一直能去做这件事本身就极致了,然后在这个过程当中,呃,Momenta也有很多次的组织的迭代啊,从一个偏。科研的偏research转向一个偏啊面向产品的,然后在面向产品交付的这个过程当中,把自己的工程的这个体系又逐渐打磨出来,然后呢又把一次成功的交付复制到几十次,现现今天可能都有有一一两百次车型的这个交付了。
所以就是他他每一步其实都是在不停的迭代自己。呃,我觉得只要是一个能够不停的迭代。永不满足的,其实都是追求极致的一种表现。他为什么想追求量产这条路走到 robotaxi?这个背后的逻辑是什么?我我觉得还是就是说,大家都是 AI 的这个 believer 嘛。嗯。那那 AI 是什么?怎么走过去?对,就是 data driven,就 data,因为 AI 它一定是需要数据的。
那我们要解决第一个问题,就是数据从哪来?嗯。如果我们简单去算的话,说我自己养一个车队。一百台车,一千台车,一千台车已经很多了啊!那一千台车,我要去把一个城市覆盖掉,其实都很困难,更不要说全国这么多个城市。可是我我们最终要解决的这个自动驾驶问题,就是哪都能开,哪都能跑嘛。那你首先要解决的就是去怎么样才能获得所有地方的数据。
那那就很自然的推导,就是说现成的,就是量产车嘛,有这么多量产车,那我要去把这个。呃,我的自动驾驶的这套软件先装到我的这个量产车上面,然后通过这样的方式给客户提供了价值。可能这个价值开始不是端到端的完全的自动驾驶,那可能它是一部分辅助驾驶也好,泊车也好,至少让大家用起来了,有了这个价值,这样形成了数据和商业价值的循环,这样这个数据的获取就变成了一个商业驱动的行为。
那我数据有了,我AI的算法和能力自然而然的会有。你当时加入的时候,它处于哪个阶段?呃,我想想啊,呃,刚开始要做第一个量产交付,对,呃,二零年年底他们呃,M是拿下了就是上汽的智己那个项目,嗯,啊,然后二一年这一年就是要做。就是做做做交付啊,所以我我我觉得这时间点也特别好。那我就是一来就是做我想做的事儿,就是做量产,就是做交付。
嗯,然后这过程里面呢,呃,我觉得我也挺幸运的,就是拿到的机会也很多啊,就是把各种各样的事儿都做了一遍。哎啊,当时的困难会是什么呢?在那个时间点,你说是对于我的困难还是对于摩门塔的困难?对于摩门塔的困难,我觉得第一次做量产自动驾驶且向B端客户交付,对这这是两个两个第一次。第一次是说呃两个第第一个第一次是第一次要把一个demo级的东西变成一个产品级的东西。
第二个第一次是要把一个这个产品向一个呃大客户B端客户交付完成服务,嗯,这是两这是两个层面啊。我觉得两个第一次都凑在一起啊,我觉得这个过程确实是呃我我是学到很多的挑战是什么呀?当时内部实际是真实的挑战。嗯,这个文化是不是会变得非常的大?从如果从一个research文化变成一个交付量产的文化?其实我我觉得,呃,Momenta的文化在可能更早的一个,因为之前也有过,就是说,啊,绍兴离开
Momenta 的那个那个事情嘛,嗯,其实那个事儿就是旭东在改变公司文化的一个动作,在我我的理解里面哈,对,然后对,因为我我不能替替他说,对,这是我的理解啊,那就是他就是逐渐的要从一个 research lab。
变向一个真正做产品的公司,嗯啊,那么在这个过程当中,组织是一定要发生变化的。所以,我我觉得组织的变化是在那个交付之前就已经发生了。就如果没发生的话,可能连那个定点项目都拿不到啊。那么正式开始去做这个定点交付的这个过程,是一个就是真正的一个一个一个考验了的的开始啊。那么我觉得挑战就是说,呃,这个这个组织上肯定是不ready的啊。
你的整个的组织的这个,首先是说这个这个组织架构可能就不是面向量产设计的,然后。团队里边的这些同学的能力,能力战也没有匹配到那种强度,啊,所以呢,在这个过程里面,就是有比较呃。频繁的啊,组织上的调整,嗯啊,然后呢,这个有的是主动的淘汰,有的是被动淘汰,反正当时也是人流动也很大,嗯,然后在这个过程当中,我觉得我觉得这事儿都是好事儿,这都是好事儿,因为你你不通过呃打仗这样的形式,你是没法洗礼锻炼这个团队的,嗯啊。
然后通过这样的一个方式,M其实是把这个组织变得变得变变得变强了啊。然后呃,包括我,然后包括还有另外几个都很不错的leader,在那个阶段里面,我觉得都是成长特别大啊。然后逐渐的把这个事儿给做起来。你是当时引入的一条鲶鱼吗?我应该算是吧,我应该算是吧。啊,旭东包括松刚那个对我的使用呢,应该还是说就是说比较灵活的。
啊,呃,我也我也接受这种这种灵活的使用。啊,我开始是做感知,后来做,呃,后来是做定位和泊车系统。啊,然后呢做。这个infra啊,然后infra应该是同时做的啊,然后做那个那个那个规控啊,然后呃做做做,当时为什么为什么我去做规控和和定位啊?都是因为我们想把规控和定位从传统的rule base变成deep learning的,那变成神经网络的啊,所以让我去让我去搞。
然后呢,后来我在M做最后一件事就是NV啊这个的量产,就是高高速。高价啊,这个 NV 系统的这个量产,嗯啊,然后呢,把这个产品做完,然后交付给上汽啊,就大概这就是我在 M 的这个过程。你能做到多极致?作为一条鲶鱼,首先我面对挑战,我是呃比较那个。兴奋,对,比较兴奋啊,不会说。但是你说,我觉得任何人呢,面对未知,都还是会多多少少有一点那个那个忐忑、忐忑、胆怯、恐惧,这我觉得也都很正常。
我也有,我也有,但我觉得压倒性的还是那个OK,这这是这是我想做的事儿,我我得去干。嗯,然后呢?在这个干的过程当中呢,我觉得是我收获了一个很重要的能力,不是我能解决规控的问题,我能解决什么产品的问题,而是我收获能力是说我可以很快速的进入到一个我不熟悉的领域,然后呢,用一套固定的方法论。去理解这里边这个事儿都是怎么回事儿,嗯啊,然后把它做拆解,然后然后当时就是就因为因为开有团队嘛,所以拆解的同时还有就是说把事儿拆开了,然后人事匹配。
什么人跟什么事儿能配到一块儿?然后,然后呢?当然,人事匹配也不是第一天就就匹配好的,你要过程当中去监控,这就测量,然后看反馈好扩大,反馈的不好收缩,再调整啊,就是就是这样的一套东西。我觉得是当时在转战多个呃模块和产品线的这个过程当中,逐渐就练出来了,嗯。你的那个面对挑战的兴奋的来源,就压倒性的兴奋的来源,你觉得来自于哪里?
我觉得是,我觉得如果我能把这个事儿做成,我离我想去做的事儿,最终我想达到那个目标,我又近了一步。嗯,对,在在那一刻还是创业,创业,对,嗯,对,我觉得,我觉得创业就是说,如果我连这事都做不好,我创业不可能做得好,嗯啊,然后呢,那我觉得这就是一个,因为我想到就是说,创业肯定,公司方方面面的事儿,那不止研发了,哎呀,就是各种事儿,我肯定都得去去解决。
那那其实就是核心要要锻炼出来的是解决问题的能力。对,然后当然解决问题的能力背后肯定还是有一些这个底层的思考方式和方法论做支撑的。嗯,那那我得打磨这些东西。嗯,对,所以所以当时我觉得我兴奋的,就是说,就是这个事儿本身我我很感兴趣,然后我也觉得很有价值,然后同时我觉得我可以去离我真正想去做的事儿更进一步。
你觉得 Momenta 的不足是什么?我觉得在这个呃,其实M历史上也还是有很多特别好的人才的。然后,那比如说为什么没有把我留住?然后为什么我我我出来创业了要?而且在那个时间点,而且我我从M出来创业,我放弃了所有的期权,这些东西全都放弃了。有多少?哎呀,我也有点记不清了,反正挺多的吧?啊,可能有个,呃,按照当时那个时间,现在这个时间点可能更多吧。
当时那个时间点,一千万美金可能是有的吧?啊,然后,呃。对我我我觉得就是说在在人才的就是真正的顶级人才的这个保有和持续的培养上面,我觉得是可以做得更好啊。他为什么没有把把你留住?哎,我我觉得这个可能更多是我的问题,就是因为你要创业,对,我想创业啊,对,然后呢?嗯,但是就是说你在什么时间点创业,其实也有很多个要素要去要去均衡嘛,要去平衡嘛。
我觉得在这个问题上,可能我自己的就是说诉求更多一些啊,就是我我是二二年年底的时候,我看到了一些变化。嗯,变化之一呢,就是就是因为GPT,因为当时还没有ChatGPT,还是GPT一、GPT二,当时到了GPT三,然后InstructGPT也出来了。我觉得这东西让世界啊再一次相信AI了啊,这很重要。就是这个有没有这个相信?
就我是相信的,那旭东是相信的,做AI的人都是相信的。那只有我们相信不重要。呃,这个不。不够,不够,还得有更多的人来相信,嗯啊,你这么着才有资金呐,才有什么进来,对,所以我觉得是整个社会开始再一次相信AI了,这是第一个。第二个的话呢,就是自动驾驶这一波,就是量产自动驾驶这一波,是让我们啊把端侧的这个智能。
开始逐渐变得可能啊,因为你是机器的也好,还是自动驾驶也好,最终还是有一些很核心的智能的算法模型要跑到端侧的,这个就需要你的传感器。和你端测的算力啊,那这两块其实今天来看,机器人用的端测算力和端测传感器和自动驾驶的呃智能驾驶这一套,其实大差不差的。嗯,所以那那个时候我就看到了,就是这一波这个产业链能能起来啊。
那你这两个要素完成了,机器人躯体的这个底层的一些工程能力,其实历史上一直具备,只不过我们需要在这个重构一下啊,围绕我们的产品再重新设计一下。所以我觉得这些要素大概是具备了。然后同时,当时,呃,Tesla也开始正式宣布要做人形机器人。嗯,哦,我觉得这些这些要素就就就都ready了,我得我得开搞了。这是你说你为什么创业?
你刚才说的是Momenta怎么能留住你?那个问题划走了。Momenta怎么可以留住你?呃,我我觉得我觉得Finally。是是是留不住的,无论如何都不行。对,无论如何都不行,因为我觉得这是我我的人生的使命啊。那其他人呢?能留住其他人吗?嗯,我觉得,我觉得M的就是说,首先,我觉得这个可能也不全是M的问题啊。
呃,Momenta确实,因为在那个那个时间点,包括到今天为止,整个自动驾驶行业的都是还是很卷的。我觉得那个卷度要比今天做巨深智能要更卷,多卷。到今天为止,M的加班强度,我觉得都比我们要更厉害的。早几晚几嘛?早早早早。晚肯定肯定,核心上马团队都是到十二点的,然后一周是六天都是打底的,嗯啊,然后。嗯,极致的卷,极致的卷。
但这个我觉得真的不怪,呃,不怪许东,不怪M的管理团队。这个行业就是这样,他们是想赢的,他们要为企业,呃,谋求发展,要抓住这些客户的机会。他不去这么拼,这个没办法。而且,所以我觉得拼是为所有人负责的一种选择。所以你在M老的比在W快是吗?我我觉得,我觉得可能创业之后,那个那个更快一些吧。对对对,嗯,你这两段工作挺有意思的,一个两年是在W,一个两年是在L,对吧?
是,而且他们两个是极致的对立的文化,是对吗?你能总结一下吗?然后你从这两个里面分别学到的learning和know know how,嗯,呃,我觉得文化层面啊,呃,Waymo。真的是工程师的天堂,就是说,这个这个天堂,我觉得是说自我感觉上面的,你可以有最好的这个infra。然后呢,你可以有最好的同事,然后呢,你的领导对你的support,对你的支持都是。
非常,温暖,非常温暖的,非常宽厚的,嗯,然后呢,呃,目标呢?这不是梦中团队吗?啊,是啊,目标是有的,但是呢,并不是push的,对,然后呢,这个这个待遇也都不错,呃,当然就是那个时候的待遇跟今天像OpenAI啊或者这些的待遇没法比啊,现金的待遇没法比,但那个时候也都还不错啊,然后这个这个这个Google的这些园区也都可以去呀。
食堂啊,什么的,就就就是这样的一种状态。呃,Momenta呢,呃,我觉得就还是不怪Momenta,这就是国情行业的问题。就是这个,首先是绝对的结果导向,结果好就是往上走,结果不好那就得调整调整啊。所以那就压力是随时的,嗯。然后呢,呃,在Waymo,呃,你大概率不用面对客户,啊,因为你的客户都是那些乘客,然后觉得这个产品不够好,那先不推给乘客就OK了,嗯。
但是M是To B的,呃,大量的工程师就是可能一定级别以上的工程师都是要直接去面对客户。对,然后需要跟客户做交流,至少就是比如说像呃总监呀或者更高级别的,都是需要去直接面对客户的啊,然后呢跟客户去交流汇报。然后那国内的这些车企的这个这个文化比较 tough,对吧?那那这个就是肯定就是说说说骂就骂的啊,说不开心就是要要要说两句的,对吧?
你被骂过没?那就是很平常的骂你什么?哎,我都记不清了。我因为我不是很在意这些事,骂就骂了。对,然后但但就是说他会给你很强的心理压力,说你这个做的不好,你可能没有机会了。你做的不好,我们马上淘汰掉你。对你下次如果再做不成什么什么样,那那你你你把许总叫来。对,让徐东来解释,就等等这样的话,肯定都是都是有的,嗯,所以所以你单纯从一个对工程师自我感受上来说,呃,M,然后以及整个的中国的智驾的环境,我觉得都不是好的啊。
但是呢,我觉得呃,从另外一个角度来说,从成长性上来说,啊,我觉得在啊中国的智驾环境里面,对于工程师的这个训练,综合能力的训练又是更好的啊,它可以让你看到这个世界真实的状态。啊,就我觉得这个世界真实就是这个样子的,嗯啊,你很喜欢说真实世界、现实世界,对吧?对对,因为我觉得就是说,如果我们生活在一个被其他人或一些信息包裹起来的环境当中,我觉得是不本质的,嗯啊,对,然后然后,所以我我比较喜欢面面对真实,哪怕这个真实很多,往往很很多时候这个真相和真实是残酷的啊,那我觉得也要去面对它,嗯,对。
在这个过程中,你觉得旭东发生过变化吗?旭东,我觉得他,哎呀,真的,我觉得旭东,我我觉得旭东最强的点哈,一直没变。旭东最强点就是我觉得他的战略能力特别好,嗯,对,那么早的时间点就判断出来我们要做这件事儿,然后一直坚定的去推推动,然后过程当中有波折也也也也不动摇啊,所以是战略能力是我觉得他带领我们他从这么多自动驾驶企业里面脱颖而出的最核心的那一个那一个能力。
然后呢,当然了,就是旭东嘛,就是我觉得我也有这个问题啊,就是说,呃,都是比较push的,比较aggressive的,所以他。跟他工作肯定压力都比较大的啊,然后呢,也因为这个,很多可能同事会会离开啊,会或者会会什么的,呃,我后来我发现,可能旭东他就会选择性的,就是说。嗯,不把这一面展现给那个那个更多的人了。
我觉得这是他不把哪一面?啊,就是就是就是特别 aggressive 哦啊,或者是呃,就是其实我觉得不是 aggressive,是是把真相说出来。对,就是有的时候把真相说出来,把现状这个说出来,但是可能说有的时候是用一种很非常直接的方式去表达出来,这种方式本身就会让很多人感受到。啊,压力这种压力大到一定程度就会成伤害啊!
哦,对,你是这种风格吗?我是哪种风格?旭东这种风格,嗯,我觉得有有这一面,把 aggressive 直接表达出来。哦,对,我觉得我我我是有这一面的啊!对,你们对比一下 Momenta 和地平线。哎呀,这两个公司太太太厉害了,我都觉得我是没有资格去去评价他们的哈。那我真的觉得这两个公司都都特别好,就是旭东很早就,刚才我说旭东战略能力,就旭东很早就布局这个做芯片。
今天芯片他们芯片也要马上就要出来了嘛?对,呃,这个这个芯片这公司公司也特别好,然后定点也拿的很好。对,其实其实其实你这是他可能三年前的决定。然后两年前,呃,两年多前,这个公司开始启动,正式招了一批人,然后把这个事儿做起来,然后到今天拿到结果。对,如果这个决定可能晚做一年,晚行动一年都没有今天的这个,所以我觉得都战略能力超强,嗯,然后呢,执行能力超强啊,然后呢,面对客户的这种。
迭代调整能力也超强,对,这都是就是说,凯哥可能也是从一个科学家逐渐转向一个企业家,嗯,旭东也是从一个啊,可能没那么科学家吧,但是也是比较偏科学范儿的这么一个一个一个状态面前走向一个企业家,我觉得这个迭代能力都特别强,就我觉得更多的真的我是从他们身上学习,啊,然后呢这个。作为榜样的,很多时候我确实把他们作为榜样啊。
但看起来在W和M中间,你更相信的是M这条路,量产的这条路,对吧?是的,这个对你的后来创业影响非常大。是的,嗯,你刚才说你为什么开始创,想到开始创业,从你开始想到你做了决定并且行动中间有多久?呃,其实我我当时行动,我是还是比较立即的吧。就是我二二年年底,我想好,正好二年底我就是三十岁嘛,当时过生日的时候,我那年年底,二二年年底,二二年年底,我三十岁,我九二年年底。
十二月吗?十二月射手座吗?啊,对射手座。然后,呃,当时反正也是这一系列事儿交织在一块儿,对吧?然后我看到了变化。然后呢,我觉得自己该练的都练的差不多了。然后呢,这个这个,同时我在M做的这一系列事儿,我也能看到到二三年的三四月份左右,就是N V这个产品我也能量产掉。所以我觉得到了这么一个节点啊,然后呢,我我就当时我就想好,我就肯定要要开始干了,嗯。
然后所以,但是我确实还是把这件事做完了的,就是把N V这个事儿啊高速高架N V量产,然后交付给上汽。同时我们看到。整体的这个体验呢,表现呢都还不错。那段时间我几乎也把呃国内所有的车,啊,就是带N V这功能的车全部试驾了一遍,对。然后我觉得做的还可以啊,然后所以我就五月份就提了呃离职,然后五月二三年五月,二二三年五月份,对,放弃一千万美金,心疼吗?
呃,我我具体记记记不太清是不是这个数了,大概是这是这个数左右。我我其实没什么心疼的啊,一点都没有,没有啊。对,因为我觉得就是说,嗯,首先我我觉得我想,我就我最 care 的事儿还是我想去做的那件事儿啊,而不是一些钱啊什么东西的。嗯,然后呢,我觉得和那件我想做的那个事儿比起来,其其他的这些东西都。嗯,那个价值不大啊。
对,然后嗯,这是一一方面吧。然后另外一方面的话,就是我觉得钱这个东西,其实你你你就日常我也花不了多少,就是吃吃饭呀什么的,就是正常的够了。我觉得也也没什么区别,再多再少也没什么区别。对,就我其实倒没什么心疼。你觉得从你离开Momenta那一刻和你进入Momenta那一刻,你自己的变化是什么?他刚好是你回国工作的。
对,我觉得,呃,我觉得底层的一个变化是,我学会了,呃,什么叫以客户为中心。哦,对,这个是是是是Momenta的文化价值观第一条,以客户为中心。对,呃,这然后呢,我觉得是在这个实实践的这个过程当中,体会到了什么是以客户为中心。客户为中心不是生硬的说客户说让我们做什么我们就做什么,而是真的站在客户的角度去看他的需求是什么,帮甚至帮助他挖掘他的需求是什么,然后提出更好的方案啊,然后去去去帮他解决问题。
嗯,然后客以客户为中心也不是说是公司内对公司外的,而是所有的上游面对下游的一个公司内也有一客户中心,对吧?你的支持团队。面向你的业务团队,啊,你的上游的平台团队,面向下游的交付团队,都是以客户为中心的这样的思考问题的这个方式。与以客户为中心相对的,我觉得有一些是以这个。比如说自我成长为中心,啊,比如说以啊所谓的技术领先性为中心,啊,我觉得这些都是错误的,啊,至少在做一家企业来讲都是错误的,嗯嗯。
然后你决定创业的第一件事是什么?呃,你说的是我做的一件事吗?对,我我做的第一件事是离职,先离职。哎,你在离职前什么都没做?嗯,几乎没做什么吧,就是大概就是想了想要做什么,但是后来发现想的事儿也不太对啊。然后哦,那当时对跟就是跟那个那个赵航跟天威啊,我们一块聊了聊这些事儿。赵航也回国,他在清华对吧?对对对,是的,是的。
然后最早公司其实我们三个嘛,啊。然后天威当时在萌萌他,对,他跟你一起离职的吗?哦,对对对,他跟我一起离职的。然后,那个离职之后嘛,反正我就先呃出去玩了一段时间,去哪儿?去去西藏啊啊!然后那个那个自驾,然后后来回来之后,七月份出去吧,然后八月份。开始就是整整BP,那时候也就开始融资嘛,也不太会整,反正哎,现在回看当年弄那BP,简直就是不堪入目了,已经啊,嗯,对,然后写着点啥呀?
BP,哎呀,那个太太糟糕了,我觉得太糟糕了。他刚开始的时候呢,就是说。开始想清楚了几件事儿,呃,第一呢,就是说我们做具身智能,必须得是整机加智能,不能只做智能,啊,对。然后呢,这个这个,因为我觉得长期来看,我们的壁垒是建立在物理世界的数据闭环之上的啊,所以我必须得做整机,得做硬件。然后呢,第二件事呢,就是说,呃,这个这个,我我是想去做,就是不,我不想去做科研,不想去做纯研究的这些东西,我是想落地的,嗯,我想落地,产生价值,对。
但是价值嘛,就就是要考虑商业的问题,商业化的问题。但是在那个时间点,我觉得我是没有答案的。然后呢,所以当时就想说,那我直接去做一个落地的。想做做末端配送啊,后来我也很快就否定了那个方向。对,赵航说了这一段。对,你们最早想做的是一个配送的机器人还是什么?机器人的配送,末端的配送,相当于是把增驾驶复制在配送这个行业里来。
呃,再加一点操作的。能力,因为末端的这个配送,很多时候还是需要,比如说电梯啦、开关门啦、拿东西放东西啦,啊,当时是有这么一个考虑。但是其实没有这一波AI,就已经有公司在做这个很长时间了。是的,是的,是的,用这个故事融了。呃,想想融了两轮吧。对,我这个故事能融两轮啊?啊,呃,不是,主要是不是靠故事吧,靠团队吧。
所以后来我理解了什么叫天使投资人。啊,天使投资人,天使投资人就是他觉着虽然你现在什么也不行,但是他觉着你还是有潜力的。哦,所以他天使一把,他就当天使了,然后再给你一些钱。哪两位天使呢?是是啊,那个那个。百度风呃,IDG和百度风投是最早两位,其实就是金沙江也在我们最早那轮,就当时是雨桐学姐。然后那后来因为一些事儿嘛,那个去Kimi了,他也不在金沙江了,后来那个也就退出了啊。
哦,对对哦,金沙江退出了啊。对中间,但是那个那个朱老板就就就退了啊。对,其实我不看好所有这个机器人。对对对,但其实我跟朱老板没有没有直接的聊过啊,所以所以我觉得反正我也比较。无所谓吧,他当时投的也不多啊,就退就退了。然后,呃,金沙江本来也是天使,也是天使,就第一轮是投最最多的是IDG啊,然后领投,然后百度风投投了呃一部分,然后ID呃金沙江投的是最少,是这样。
IDG投你们的逻辑是什么?是李小军自己看的吗?嗯,当时是这样,我有一个同学。呃,叫李一康,然后在IDG做投资人,然后呢,那我们是本科同学,然后他帮我引荐的,然后他也是内部推动的,然后推到邵辉啊,邵辉呢,这个之前就是投资自动驾驶比较多,他可能对自动驾驶这事儿有点这个。这个信仰,然后对于自动驾驶里面出来的人呢,也不都比较信任嘛,比较看好。
然后呢,所以他们就决定,然后后来跟肖军见了一面,啊,然后呢,肖军也觉得看上去这两个人还。还行,对,然后就是你跟赵航,对呀,我们赵航,然后还有还有天威嘛,然后就就就就就投了啊,然后呃,但是呢,他们当时也说了,就是你们想做的这个事儿应该不 work 啊,呃,再再再琢磨琢磨吧,对,然后所以你看,这就是天使嘛,是吧?
他接受你的错误和不完美啊,投了多少那是?嗯,第一轮我们的三千万人民币吧,就是一共三千万人民币啊,那个就是 IDG 加百度风投加那个金山奖估值是。我忘了是投前两亿还是投后两亿人民币,这大概就是啊,你跟现在可能出来都是两亿美金起步,哎,我们那时候发现还挺便宜的,对,两亿人民币啊,这第一轮,哎,然后那个后来呢,紧接着很快做了一个加轮,就是C放嘛,嗯。
最放的是这个电子系,清华电子系的这个这个汪老师做的基金嘛啊啊,然后也是这个姚老板,姚素姚老板他们一块做的姚姚老板也是跟我一届的,也是我们这一届的这个杰出代表,对,他是电子系的啊,然后当时那个做了一个嘉伦啊,对,大概这就是最早的两个嘉伦多少钱?嗯,投了投了,有点记不清了,一两千万大概,可能两千来万,不到两千万啊。
然后投后估值可能三四个亿吧,大概。所以二三年你们还做了什么?拿融资,这是一个很大的事儿。当时就开始融资还挺顺利的,对吧?对,呃,我觉得是从那个时间点看,跟我们的同行比,相前两轮算比较顺利的。然后呢?但是你要拉到今天这个时间点,已经算比较困难的了啊!今天就是可能随便讲一讲,看这团队行,两亿美金,一亿美金起步,啊,所以你就是觉得便宜了?
呃,我倒不觉得便宜。呃,我我不觉得便宜了,就我觉得那时候还是那些投资人有勇气,因为那个时候的早期,呃,这个。呃,天使和VC的这个投资环境比今天冷得多,比今天冷得多。那时候人家敢出手,我觉得我已经特别感谢。而且二三年的机器人还没有成为一个共识。呃,对,一个是就首先二三年那会儿大家聊的是什么?是人形机器人。
嗯,我们讲说我们做具身智能,然后具身智能这词儿可能大家都还不是特别清楚是什么意思啊。对,然后然后所以当时也有这方面的困难嘛。啊!而且你们还做一个非常窄的行业,对,还非常看这idea还非常不靠谱。嗯,对啊,然后。二三年其实,呃,其他做的事儿就是说,开始那个研究研究怎么做整机嘛,啊,供应链整机,哎,这早期真的是我,我我觉得我们的起点是非常非常低的,就是在在这块儿啊,非常低,啥也不懂。
哦,然后研究供应链和整机,研究拆啊拆啊,就是就是就是买别人的产品回来拆,然后就看他们这东西是怎么搞的啊,然后看看这这哦,这原来这个是电机,那那个时候真的哦,这这个是关节模组,第一次看到这些东西,对,然后然后看他们这个大概是什么样的一个方案,然后这些供应商都是从哪来的。然后最早找供应商也不会找,然后我们也
nobody,然后找不到供应商,那个那个,所以当时有一次我记得,我拆出来一个东西,我说这是什么东西,然后。
不知道是什么东西,然后呢,就淘宝拍张照片啊,以以图搜图,哦,然后找到了就是卖这种产品的供应商,然后就反正早期就很很困难,然后包括怎么怎么拆这个东西其实都不会啊,怎么拆这个东西都不会,然后。那个我们公司后来的这个今今天也是我们公司的这个结构这块的负责人,那个时候来我们公司看,哎呀,看看我们太可怜了,然后然后给了我送给我了。
一个工具箱,这工具箱就是里边一些改锥啊、锤子呀、什么什么这个镊子呀、斧子啊,什么这些东西,反正就是帮助你拆机的这些工具。对,所以那个时候我觉得早期就确实是就是起点比较低,然后那个那个,呃,我觉得那个时候就是说怎么去都没有碰过硬件对吧?没碰过,没碰过。然后怎么去接触这个东西,怎么进入这个东西,完全不懂啊。
然后直到。直到我遇到了我们的今天,也是我们公司合伙人,也是我们机电这块的首席工程师,呃,叫杨泽一。也知道我遇到了他啊,他是一个投资人给我介绍的,那五源的一个投资人啊,五源当时也没投我们,但是确实很好的给我介绍了泽一,泽一本身也很年轻啊,九七年的啊,然后呢,但我觉得是是天才,因为当时我我感受到就是结构这块、机械这块我们完全一窍不通,所以我我要做的事儿是应该跟行业里面的人聊,先学一学吧啊,当时有几个渠道就开始去聊人。
啊,然后就聊到择一的时候,我就感觉到,哇,这个第一次有人给我讲明白了,就是就是第一,很有框架性的给我讲清楚了一个机器人系统。整机系统应该是怎么回事儿?嗯啊,第二很有洞察力的,就在他已经做过的一些一些事儿里边,很有洞察力的,能够跟我说出来个一二三。虽然我不懂这个这个这个这个里边具体的一些知识啊或者能耗,但是我觉得如果有一个人给我。
在这个陌生领域,有一个这种感觉,我真的觉得大概率是对的,对。然后,所以我我就我就请则一,我说的,嗯,咱们要不一块干吧?啊,你聊了多久?嗯,我们一共聊了几次吧?然后我我可能去深圳,因为他是南科大的,然后我去深圳那个找了他可能两次啊,然后第二次就决定了来公司啊,所以说二四年应该是年一月份嘛。呃,二三年年底我们说好,然后后来他就稍微准备了一下,二四年一月份来公司了。
他当时是在学校做什么呀?他其实当时已经毕业了,他在自己创业。哦,他在自己创业做,他就是也很能折腾,就是又又能折腾,技术能力又好的这么一个人。然后而且思考问题呢,他真的很本质。那你们还公司收了吗?没有,他就就就就就慢慢就不做那个了。就是就是他当时做机器人的培训,就是给初中生、高中生做培训。哦,机器人教培。
哦,对,然后一盒。那难怪能讲清楚啊。哈,对我可能就是那初中生,对,是的,是的。然后他动手能力到底怎么样呢?这个讲清楚和能做的是两个事儿。哇,就非常强,就是后边我们公司的所有的产品,几乎就是大的框架的设计都是他来把关的,都他来做设计,然后他来推动啊。对,所以说我觉得泽一对于公司的这个,当然泽一他对外的这个这个露出比较少了啊,大家都不知道他。
他是一个合伙人是吗?对对对对,是的,是的,是的。这种合伙人给多少股份?啊,这个这个,我我们是这样,我我说个大概的范围,就是就我觉得按照基本上按照百分点去去去给的,就是我们原始股的百百分点去给的。啊,然后哎,其实我们那个那个天眼查上面,要是想有有新人也可以查得到啊。对对对。然后,哎,我觉得就是说,什么是合伙人?
就是我我希望构建的团队呢?是说,我要求我自己做一个中等面积六边形,啊,然后我希望我的减一,我的合伙人团队做更大面积,组成一个更大面积六边形。啊,然后这样我们这个团队就就就会变得很强啊,而且很均衡的强。那所以我觉得他毫无疑问在呃机电系统在产品。呃,这个甚至产品思维这个维度,我觉得他都特别好啊。然后,然后还还这么年轻,而且就是天才,我觉得就是对。
然后呃,包括我们公司其他几个合伙人也是啊,包括我们,我们比如说公司的CFO天奇,他去年其实我我们公司一直就有这样的一个机制,就是我们会呃持续的啊引入。呃,好的人,然后呢,这个,而且我们也比较舍得,我比较舍得分这些东西,然后去去去,因为我觉得我始终把公司,如果我们希望。公司在未来的比如说五年的时间,我要翻十倍二十倍,那其实我每一个阶段都是创业嘛,对,所以我觉得我们从底层来说需要这样的一个机制,去持续的把这个呃好的人能够给吸纳进来,嗯,所以我们这个合伙人是从这个机制啊,是从我们三个,就是我天飞赵航,我们三个创办这个公司之后,我们就一直有的一个机制。
所以,呃,包括择一,然后包括后来的华哲,然后再包括后来的,呃,鱼磊,就是我们商业化这块负责人,包括到最近,呃,呃,几个月之前,天齐在加入,其实我们都是以这样的形式加入进来的,嗯,啊,所以,所以我觉得这是一个,就是我们公司能够可能从过去的这段时间里面,呃,一堆公司里边稍稍脱颖而出一点的原因之一吧,啊。
我有一个问题不是很理解,为什么你开始做公司第一件事情最在乎的是整机呢?对,其实,在那个时候也可以做,比如说一个大脑。对,嗯,有很多其他的选择,为什么选择是第一件事情是整机呢?而且是一个你们这么陌生的领域,你可以从软件开始做。没错,啊,小军这个问题问的其实特别特别本质,就是因为首先我我day one的时候,我想好一件事儿,就是。
我们要做巨深智能,巨深智能长期壁垒建立在物理世界的数据闭环之上。对,只有把这个东西构建起来了,我们才真的有一个说别人进不来,我我们能够长治久安的这么一个壁垒了。啊,OK,那我要去构建物理世界数据闭环,我必须得有这个数据的载体。对这个数据载体就是我的整机,就是这个硬件,这是这是长期的事儿。第二个就是中短期,我们的商品到底是什么?
我们要给世界提供的商品。大概率不是一个算法,不是一个所谓的大脑,它是一个整机加智能形成的,在物理世界能够有执行能力的这么一个物理实体。嗯,这个是我们的商品,啊,也就是说中短期我们需要软硬结合的商品,长期我要构建物理世界数据闭环,我需要硬件作为我构建数据闭环的核心的媒介。那从这两件事儿来说,都倒推回来,就是我必须要把整机和供应链做好。
所以我觉得是从战略倒推回今天我们要做什么事儿。嗯,那有了这个结论之后呢,我觉得我们就是说,虽然开始我们不太会做,然后,但我觉得就是说,这个不怕慢就怕站,是吧?我们就得开始做啊。这个日拱一卒,咱们就往前往前开始搞啊。所以,所以我觉得是,这是也是当时啊,二四年那会儿,很多投资人问我的,说,既然你天天就搞整机,你们不是一个自动驾驶AI团队吗?
你们不应该做做AI吗?那个时候其实我我的解释大概就是这些,就是我我为了更长期的那个目标,我今天我必须得做成绩,不然的话,我如果直接去做算法,这些算法也都是空中楼阁。这算法做完了之后,我没法把它变成我的产品价值、商业价值,这个意义是不大的。就是说,在汽车这个产业里,你希望做的是车企,你不希望做的是Momenta那个生态位。
我觉得,呃,首先呢,具身智能跟汽车这个行业还是有一定的不同的。嗯,汽车这个行业是,或者汽车加自动驾驶这个行业是,自动驾驶这波开始的时候,汽车业已经存在一百年了。嗯,所以你也没机会,或者你作为一个自动驾驶切入赛道,你也没机会说自己造车。啊,只有是说做新能源的,他能切入说自己造车,嗯啊,然后呢,所以我觉得就是说,对于做自动驾驶的公司和这个。
同学们来说呢,就是已经有一个一百年的汽车产业,是幸运也是不幸。幸运是说它的客户和商业化的路径极其明确啊啊,呃,这个客户就是全球可能二十个车企,二十来个车企,商业化的路径就是我们要去。把产品做成方案卖给这些车企啊,那么不幸我觉得也在这儿。不幸就是说,因为中间隔了一道车企,所以这个车企和才这个车企才是跟你的终端的使用者直接打交道的,所以你的数据闭环构建其实并不是那么的通畅,不是说完全没有,而是不那么通畅。
嗯,至少在早期不通畅啊。那么同时呢,这个因为你是做一个呃软件和这个系统层,所以其实你对于这个车是怎么回事儿,你没有把控力。嗯,然后呢,又因为这个软件其实和这个车最终这个体验是整合在一起的,所以最终你给客户交付的这个体验。有可能是打折扣的,嗯啊,所以我觉得这就是他的不幸啊。那那回到巨深智能,这个也是就是矛盾统一的啊,都对立的,幸运和不幸也都在这儿,嗯,不幸就是说没载体。
你想把这个事儿做做做好做成,你就得自己做载体啊,你就得你要克服你这个不舒适,你要去学,你要去搞啊。幸运也在这儿,幸运就是说,当你把这一步真正做完了之后,那你发现机会特别多啊。然后呢,下游那么多个行业,千行万业,对吧?都可以搞,都可以做啊。所以它是一个更广阔的一个市场和空间啊。所以我觉得。这就是我们看到的幸运和和和和不幸。
嗯,那对于我们来说呢,我们也没别的选择,我就必须得把整机做好啊。对,就相当于汽车产业退回了一百多年前。呃,还还汽车产业退回一百多年前一一百多年前起,这个还有智能技术,所以我我觉得这两件是同时去做。所以其实到今天,你看我们的呃团队,我们的组织也是有这个就是人才密度比较高的这种智能的这种团队,嗯,也有就是流程体系更强一些的,要求更强一些的,对吧?
这个这个整机和供应链团队,嗯啊,对。到二三年底你们做到什么程度了?应该还是啥也没有的状态,还是啥也没有的状态。到二二三年底应该就是,其实我们就是刚把第一轮融资做完啊,然后第二轮融资其实是二四年年初,一二月份我记得是春节之前吧?你说是那个加轮吗?对,加轮C放那轮,嗯,对,所以基本上我们做整机和供应链这些工作都是二四年这一年做完了啊,所以二四年的主题是整机和供应链,没错,这对你们来说是补课。
补课,然后呢,呃,一是补课,二是呢,我觉得为我们二五年,呃,建立在开发者市场里面的可能一点优势啊,然后进入这个市场做准备啊。为什么你们不做人形机器人?你们在构型上是怎么想的?对,你们其实选择一个折中方案。我觉得我不会把它称为折中方案,嗯,我会把它,我们最早提一个理念啊,就是说,首先我们做具身智能。然后呢,我们的切入点是要做操作啊,我们还是想去做操作这件事儿,操作操作智能。
那么我们做操作智能的话,我就得去想这个操作这样的智能需要什么样的本体。当时我们想要叫智能定义本体。啊,就是从智能的需求出发去看本体应该怎么做,或者说数据定义本体吧?你怎么能够收数据?嗯,也可以这么讲啊。但是因为我说智能是最终的目的,数据是当中的一个手段,呃,手段对,所以说智能定义本体。所以呢,我们就想,就说我去为了做操作,那双臂肯定是重点,嗯,对吧?
双臂是重点之后呢,那其实这个下肢啊是双足的,反而给我的智能的演进和算法的研发带来了困难。啊,因为这个其实到今天为止啊,这个问题也没有解决,就是双足的运动控制和双臂的智能操作同时解决,这叫
locomotion。这事儿也没解决,嗯。那所以我就说,那这个问题我们得先解耦,我先把上肢操作好。而且事实上呢,很多真实的场景里面也不需要这个双双足的这个这个这个这个过坎的这些能力,走路啊,对,就轮式其实也就够了。
所以那个时候我们就定义说,轮式加躯干,这个是啥时候定的?呃,二四年的具体时间点记不清楚,应该在二四年三月份左右。啊,二四年三月份左右。啊,事实上,开发者市场它的内涵啊,会更丰富一些。对我们看到,就是说,这有点像那个呃《跨越鸿沟》那本书里边啊描述的啊,就是早期的使用者都叫innovator。这 innovator 其实就是开发者,他就是对这个事儿喜欢、热爱,想想探索探索,对吧?
想想发明点东西。然后是这个 early adopter,就是早期采用者,嗯。然后是什么 early majority,早期大众,嗯。那么其实我们说,我们今天来看我们的商业战略,我们叫从开发者市场走向生产力市场。那那这个这个战略的背后,其实就是一个科技产品从 innovator 到 early majority 的这个这个过程。
而且历史上有很多的科技产品也都是走过这样的过程。远的例子,这个苹果的 Macintosh 这个电脑个人 PC,嗯,对吧?最早那就是极客使用的,后来设计师企业里面的设计师开始用,然后再到后来一些可能文员办公的办公室的同学开始去用。最近的一个例子,我觉得就是拓竹的这个打印机,3D 打印机。3D 打印机最早肯定是极客的玩具嘛,对吧?
而且是少数极客的玩具。后来变成了每一家企业必备的啊,然后再到后来,可能现在可能有一些这个家里边都想买一到两台这个拓主的打印机,呃,然后甚甚至还有人做这个打这个3D打印的这个factory这个范儿是吧?嗯,对,所以我觉得这你看这些科技产品从一个创新走向呃这个大量被采用,其实都是这样的过程。嗯,对,所以我觉得这是规律啊。
那么我们其实也是遵循这个规律,就是从开发者市场。走向这个应用市场,而我们定义的这个应用市场最主要的还是生产力市场。嗯,其实我我觉得我也不是,就是说这个在机器人领域第一个用这个模式的语数,其实它是这个模式,那它是做四组仓组开发者市场。高效,然后慢慢的到这个这个一些二胎的这些公司,然后呢做出一些好玩的东西,然后逐渐走向那个那个现在就是娱乐市场嘛,对,娱乐市场,对娱乐市场,对,所以所以我觉得就是说这这里边是有它背后的规律的,所以这是为什么我们在呃做了R一这款产品之后,就是轮双臂这款产品之后呢,我们去尝试像。
开发者市场里面去进行商业化销售啊,也是为了跟客户建立反馈的这个闭环啊。那么开发者市场本身它又是分层的。塔尖的我们叫学术型开发者,啊,像李飞飞,像美国最好的一些大学的研究研研究员啊老师P H
D们,这就是学术型开发者。再往下,我们叫企业内的研究型开发者。大厂里面总有一批人去做最前沿的东西,对吧?比如Physical Intelligence,比如说最近我们跟蚂蚁一起这个,我们帮助蚂蚁一起做的这个呃Limbot V L A,其实他们也是企业内的这种呃面向。
这个面向未来、面向研究的这种开发者,再往下其实生产力型的开发者啊,我们在这里面也有很多的客户,他就面向企业应用啊,面向落地再去做一些开发、二次开发。我们这个金字塔再往下,其实就是未来我们的产品更成熟。更更整体化,它就面向集成商啊,它会成为新的开发者。嗯,再往后,其实可能是终端的用户使用者。所以这开发者,它不是一个说狭隘的或者狭义的科研高校市场。
它是一个金字塔,而且本身开发者市场就是一个一个科技产品从早期的innovator走向大众的一个必要的一个过程啊。在整机这里面,你有什么learning吗?拆解一下,learning太多,我得想想从哪开始讲。对我我我觉得是是这样,就是说,首先做整机跟做,因为我在做创业之前,我就是做AI的嘛。嗯,呃,我觉得做整机的,呃,说相同点和做AI的相同点,其实本质上它还是一个工程化的问题。
那工程化的问题,我们就可以用一样的方法论去看,就是拆解测量,拆解测量啊,然后我们去这个这个把这个复杂问题拆成子问题,然后做好组织,做好团队。那不同点是什么呢?不同点就是说AI里面其实更强调的是,就是说这个人才密度。啊,就是必须得有非常顶尖的这个开发者啊,就顶尖的研究者,嗯,去把好的算法做出来。然后之前其实,在AI
coding之前,大家强调这个10x engineer,就是说这这类的人其实对于组织来说非常的重要,嗯。
但是对于一个呃这个机电系统整机来说,我觉得更强调的是整个研发流程的严密性。对你从早期的构型设计,如果这构型设计都是失败的,你后边全都是错的。构型设计,然后逐渐到结构设计里面的线束嵌入式系统啊,然后你的整机的软件平台,然后这些做开始做 EVT 验证,验证的功能是不是 OK,然后过程当中你会发现有你的线束可能有问题老磨损,然后你的这个结构哪里强度不够,然后你会发现一个供应商的这个来料质量总有问题。
这个你就是要去用严密的这个流程去排除过程当中的这些问题,然后走向我们说就DVT阶段,哇,然后开始做一致性、做老化测试,然后走向真正的这个生产阶段,嗯啊,所以我觉得它就是更严密的一套流程。而且这个东西就是说,你甭管是做今天的机器人产品,做消费电子类产品,还是做什么,其实我觉得都是类似的,都有它相同的那一部分啊。
那到了二四年,你们的战略变化了吗?你们还是想做配送链市场吗?嗯,我觉得很快就就变了。二四年的其实就是二三月份吧,我记得就是在你们整机刚刚开始做出来的时候,对对对,就刚刚开始做啊,刚开始做的时候,对,刚开始做的时候我们就做了调整,发现这边不玩啊,这个我们想的这件事儿太早了,现在还不是做那个事儿的时候,啥也不成熟,整机也不成熟,供应链也没有,然后那个。
智能也不 ready,客户也不成熟,市场也不在,嗯,那就没没法搞啊,所以我们就马上就切换了,调了战略,调战略啊,就是说我们要做这个,呃,就是刚才说这个轮式双臂聚焦操作,然后切入开发者市场啊。但当时呢,我觉得没有我今天说的这么清楚,但当时就是说,那我先去。就是卖高校,然后后来我发现,哎,高校这其实并不只是高校,它叫开发者市场,开发者市场是我们走向未来一个关键市场,所以也有点运运气成分吧,来做对了啊。
那你们当时对于智能是怎么思考?智能这块呢,我觉得我们从 day one 哈,我就确定,我们就确定的就是几个基本原则,但是具体的。方法论或者具体的这个方法是没有的。那最早就是我们确定就是要端到端,一定要坚持端到端,一定要坚持数据驱动啊。这两个是我们也也是做自动驾驶的这个这个lesson learn嘛,就是说不要再搞这个模块的这种分层设计了,这个不work。
然后呢,这个一定要用真实数据解决解决问题。因为自动驾驶其实也呃很长一段时间也尝试用仿真解决问题啊,嗯,然后但其实是不太work的。嗯,所以我们就坚持端到端,坚持真实数据。那那个时候就定下来是这些东西,但是呢,具体你说开始做 VLA
的这些东西,我觉得还是到了。嗯,二五年吧,我觉得就是最早,其实我们没有做VLA,那时候在派零之前还没有VLA的这样的特别成熟的范式,嗯,那那那更多的还是做diffusion policy这种小的VA模型,vision
action的这种小模型,啊,然后尝试一段时间这个,然后发现它的泛化性不足,然后呢派零出来做VLA,觉得哇这个这个确实是很work,对,然后就马上调整去做VLA。
所以二四年的智能不是你们的主线,二四年整机是你们的主线,二五年的主线可能至少至少我自己的重心绝对是在整机和和融资,对,OK,然后到二五年我的重心就开始到数据,先是数据,然后是这个模型。啊,然后同时也有融资,然后同时还有商业化,因为我们开始做开发者市场啊。然后这一年我们有一百一百五十多个客户啊,这些客户其实也很多,在团队也付出了很多。
有些大客户、关键客户,我也自己跑一线啊去做下来。对,二四年、二五年有新的融资吗?啊,一直都有我们,我们后来融的其实都还行,一呃策略调整了之后,然后那个那个故事重新讲了,然后我们这融资还就还算比较顺吧。因为机器人竞争,它其实链链路非常的长,是它又是整机,又是数据,又是呃模型,是等等等等,其实不止这些。
还有很多,你的优先级是什么样的?重点是什么样的呀?不同阶段,我觉得就是这个,就是主要矛盾的问题嘛。不同阶段主要矛盾是动态变化的。嗯,首先,我我我特别同意刚才小俊说的这个,就是机器人、具身智能的竞争是是多面的。它是个六边形,它不是说大语言模型。我觉得更多的竞争发生在模型本身,因为你会发现数据可能百分之九十是ready的,然后你的渠道和终端也都是现成的,所以就是模型本身决定了很多产品体验的问题,和那你也不用担心分发的问题。
模型及产品,对,不错。但是到了具身智能,你会发现。你供应链不怎么样,几乎都没有哦。然后数据没有啊,因为你没有整机,没有好的整机就没有数据嘛。对,数据没有,数据荒漠。对,然后呢,算法呢,呃,这个有一些 reference,但是因为没有好的数据,所以呢,这算法到底 work 不是十分确定啊。那模型就更不用说了。
然后渠道全部是线下的。对,就是卖机器人,你不可能线上买,对吧?你还是要线下的去去跟大家有这个分销的这个体系啊,然后再到你的这个这个终端,终端其实就是机器人本身。所以你会发现,整个价价值链条里面,这个这个我说的是价值链条对吧?价值链条里边,算法和模型是是是是一小部分,这里面有大量东西全都是空缺的。嗯,这是这个本身这价值链。
嗯,那同时还有就是说这个资源方面的,呃,我觉得具身智能,因为它是现在整个国家都很重视,全世界都很重视。所以这又需要就是这个可能一些这个政府的一些支持,资本的一些支持,所以持续性的这种资源获取能力也很重要。嗯啊,那那那你把所有这些东西拼起来,对吧?就咱要求你这个公司是个六边形。啊,呃,那么,那么,所以呢,就是说,我觉得回到刚才小金的问题,就是说,呃,我觉得不同的阶段我们的优先级是不一样的啊,至少我的关注重点是不一样的。
那二四年,我就是先把就是持续搞融资,然后整机和供应链搞好。二五年持续搞融资啊,然后呢,把这个数据和智能体系我们要搭起来啊,所以二五年我们八月份我们。全球第一个,呃,全国第一个算全球,全国第一个,我们做了数据的开源,而且是我们自己采的五百小时的高质量的这个遥操作数据,我们做了开源,然后我们做了这个基础模型的开源,啊,后来也有些我们的友商也陆续做了开源,啊,那么那么到了这个这个呃二六年,那我我觉得我们的重心又发生变化,啊,二六年的话,当然这个又持续融资啊,这个这个不能停,嗯,哎,然后呢,但是我们的业务上的发展重心,我们就来到了场景和应用。
啊,我们的整机 ready 了,我们数据的和智能体系上正轨了。那我们就要开始关注场景和应用。我们刚才说,从生产啊,从开发者市场走向生产力市场,这就这就要走走在这儿。数据和智能,你们做到什么阶段了?你满意吗?呃,很难讲,现在就满意了,就不可能满意了。就是,但是我觉得搭搭起了一个框架。对,我觉得是我们这个这个团队逐渐我们比较完善了。
然后呢,我们基础设施搞起来了。呃,然后呢,我们的这个基本的这个模型我们现在有了。然后整个团队动能很好,然后再持续的往前去推进。对,所以呢,我觉得就是说,当我我我已经看到了,说一个团队,尤其赵航现在带领的这支团队非常好。氛围也很好,然后大家干劲儿也很足啊,然后我们的结果也不错。在这种情况下,那我相对来说我就可能花的时间和精力要少一些啊,是是。
所以这一块主要是赵航在做,对,没错,智能和数据,对对。嗯,你们坚持用真实数据,但是机器人行业跟智能驾驶行业一个最大的不同是在于,智能驾驶行业天然它汽车就已经在卖车的同时就已经有商正向商业模式的同时又能收集数据,所以它有大量的真实世界数据。那机器人这一块。数据太太可怜了,少的那怎么办呢?就为什么一定要收集真实数据呢?
对,这里边就涉及到就是大家也常常讨论的一个问题,那是仿真数据。反正现在数据是没有的,那那你就要得搞数据,是仿真数据还是真实数据?对对。那么我们其实从 day one 就比较坚持真实数据哈。我觉得在这个里边,就是说这也是你从自动驾驶自动驾驶里面学到的是吗?呃,我觉得很大程度上是的。而且而且,我我觉得 AI 有一个底层的一个一个一个一个原理吧,就是说。
就是我要解决的这个问题在这样的一个domain里边,那我训练这个模型的数据最好也在这个domain里面,对,不然的话就涉及到了所谓的domain transfer。domain transfer这个问题其实是曾经是AI里边很那个。很很很火的一个
topic,在我读博那会儿,但后来呢,这个工作大家就这个方向大家现在做的少了,因为发现就是还是得用数据,那个 domain 里面的数据解决问题更有效啊,而且确实是有效果,所以我觉得这是底层的一个一个原理哈。
那到了自动驾驶,我们也确实是发现,可能九十九点九的问题都还是真实数据。路测数据解决的问题啊,仿真不是说不用,但仿首先,仿真这个词儿是一个 overloaded 的词儿,就它有很多含义,在自动驾驶里边它有很多含义。嗯,那么,那么,那么真正解决问题的还是我们说的真实数据啊,真真就是实测的、实实采的这些数据啊。
那么到了具身智能,我们看到就是说,传统的 graphics based,就是图形学基于图形学的这个这个渲染器做出来的这个仿真的体系。的 sim to real 的 gap 我们认为还是很大的啊,那其实就导致了就是说这个 domain gap
的这个问题啊,这个问题其实很难克服。那么,那么,那么,当然了,大家可能做仿真的同学呢会说说,哎,仿真数据容易获取,因为我这儿生成出来的,真实数据你获取不了,你得去现实世界去采去,贵,对,对,呃,是贵,但我觉得就是贵与便宜这事儿,我们得综合去看。
得算账啊,就是我这里边就是有一个,就是我们要关注的是什么?第一,关注智能的总成本,智能的总成本三部分。数据成本啊,数据数据的获取成本,然后呢,训练成本,然后工程师团队的成本啊,我们姑且把工程师团队先放一边啊,因为这个大概反正就是那个数啊。那么数据的获取成本和数据的使用,也就是训练成本的关系,大体是一比五到一比十。
嗯,也就是说,我花一块钱搞来的数据。我得花五到十块钱才能把它训明白啊!那那意味着什么?如果我的数据的质量是低的,我其实把很多钱浪费在训练这一步了。嗯,所以这是我们就是说从一个成本的角度你去算这个事儿,你也要想尽办法把数据的质量提上去。你这样,你才节约你的这个这个训练成本。所以我回答这个就是贵的这个事儿,我们要整体来去看贵和便宜,这是第一点。
第二点就是说,我们再去算账,说数据真实数据获取的真实成本到底是多少,到底有多贵啊?要不我先问一下小俊,你觉得获取一个小时的,就是物理世界的这个真实数据,你你你盲猜一个,你觉得应该多少钱?它这里面分了运维的成本,也有。人员的成本,对,是的。你这里面说的是成本是哪个成本?就是把所有都加一块儿,啊,所有加一块儿。
一个小时吗?一个小时。真实是就是真实彩是吧?真实彩,你可以就直接估一个数量级就好啊,是十块钱、一百块钱还是一千块钱?我想想,嗯。一千,OK,一千块钱,嗯,真实的数字,我们自己运营下来,我算上这个,首先真实世界里面采一个小时,就是就是我要获取真实世界里面一个小时的数据,可能我实际投入的人力在三到四个小时,嗯嗯,我把三到四个小时的人工算上,嗯,我再把我的机器人折旧的成本算上,嗯,大概是多少钱?
二百到二百五十块钱,这个是真实成本。啊,那么,那么意味着什么?意味着就在中国的成本啊,就是这个中国可能北京、啊上海、苏州这样的严,就是比较贵的地方,可能到比如说西部的一些地区会更便宜啊。那么意味着什么?意味着我获取一万小时的数据,二百五乘一万是吧?二百五十万。嗯,我获取十万小时的数据。是两千五百万,十万小时的数据意味着什么?
其实一个人从那个生下来到十八岁和物理世界交互的总时长是这个量级,是是是十万小时这个数量级。对,那意味着什么呢?意味着我们假设这个机器人它是有使用寿命的嘛?嗯,它是几千小时一个使用寿命呢?我就就是折到每每一个小时就算这个成本。使用完这几千小时之后,它就报废掉了,它价值就全部归零了,啊。我在想王鹤算的这个账,你听一下,就人心机器人一台至少十万制造成本,对,一万台买下来用于数据采集是十个亿,嗯,每台两半导体。
两人遥操四个人需要一个月小几万,然后还有标注和质检,每个月维护一万台机器人成本在数亿到十亿。没有我,我我我我关注的是每小时成本,就是我们首先得定下来一个计量单位,就为什么我要买一万一万台?这问题没回答是吧?哦,嗯,对,所以所以我们就说说我算的是每小时成本,嗯,对,每小时成本这个里面,这个我刚才说获取一小时的真实的数据,我大概需要三到四个小时的人工,嗯,啊,因为为什么它不是一一一比一的?
因为这里边机器人可能需要复位,然后需要 set up 等等的,那然后机器人折旧这事儿怎么算?嗯,我们估计按十万。块钱,嗯,去去算啊,其实我们的成本会比这更低一些啊,那我们姑且按这个来算了啊,那我们去定一个,呃,这个这个这个,它运行多少小时,它就彻底报废了。啊,我们保守一点说,啊,这个一千小时,哎,呃,一千小时呢,其实是还中性的一个估计,因为最终你会发现机器人的寿命会限制在哪里?
限制在齿轮上面啊,就是齿轮这个东西会坏掉,崩齿啊,或者精度下降了,其他地方其实不太会坏,嗯啊。那么,那么十万除一千是多少?是一百,是吧?然后你加上我刚才说的三四个小时人工,是不是这数?对吧?一小时二百到二百五,嗯,对,这个我我我给你算的还是一个粗犷运营的啊,还没有特别精细化运营,然后你也没有把你的就整机成本事实上比这更低,而且整机的寿命事实比这更高。
对他们现在也讲一个数据金字塔,没错,塔尖的数据就是真实数据,这个毫无疑问,因为真实数据没有 seem to real,没有 seem to real
gap。然后下面是仿真数据和以人为第一视角的数据,就是在承认真实数据非常有效的情况下,我们增加下面的数据量有什么问题呢?就它的不好地方在哪里呢?啊,首先我们说,就是说数据金字塔的定义应当来自于智能的需求,就是我得看智能要解决什么问题,而不是说我凭空就定义出来啊,就数据金字塔就是这样的,上面是真实数据,下面是什么数据,最后是仿真数据。
谁说的非得长这样?树金字塔是对的,但谁说的树金字塔非得长成这这样?嗯,非得是这么个比例?没人说。对,我们得看智能要什么。嗯,什么样的数据比例对于智能的最终的产出效率是最高的?你们现在选的是全部都是真实数据?我们现在真实数据为主吧,就是真实数据主要分两种哈。嗯啊,或者说分几种啊?那那第一个,刚才我们讲的是叫啊 robot centric data,就是以机器人为中心的人要操作它的数据。
第二种呢是,呃,以这个叫叫 human-centric data 啊,就比如像五米,像呃美国一个公司 Sunday 做那个采集的这个,包括其实还有一些更新的外骨骼的一些采集设备,对,这些都是 human-centric data,就这些数据其实都都有用。还有就是 POV
数据,人就戴一个这个眼镜,或戴一个这个头戴式的这个摄像头,然后呢手手上什么也不戴,就采这些数据啊,其实这都是就叫统一为叫 human-centric data。
然后还有什么?就是第三视角的数据,互联网视频数据。嗯,然后还有什么?还有所谓的仿真数据。当然,仿真数据里面又有不一样的,有。我们得看这仿真器是 graphics based,就是图形学基于图形学的渲染出来的数据,还是基于真正的世界模型生成出来的数据?啊,那那就这是我们说的所有的可能的数据,嗯,对。但是没有人知道的是这些数据的比例关系应该是什么?
对,对,这个叫 data recipe,嗯,对吧?很多大语言模型公司今天的最大的秘密就在于这个。对,啊,那那对于巨神智能公司来说也是。那我们现在知道就就就这些数据。所以我们要保证的是什么?我们要保证,就对于星海图来说,我要保证的是我们在各个类型的数据的获取上面都畅通无阻,我都有。我觉得你没有说你们一定BAT真实数据啊?
不,我一定以真实数据为主,这个是确定的,这个是一定的啊。啊,真实数据为主,但是,我到底是一万小时的真机遥操作数据,还是五万小时的这个呃这个这个这个乌米数据,还是二十万小时的这个这个POV数据?这事儿。得试出来了,嗯,对对,这不是拍出来的,这个是实验,就是AI,归根结底还是实验科学,得试出来。你们现在数据recipe是什么?
这个坦率来说,今天此时此刻在训练的这个模型的这个recipe,其实我我也不是特别清楚啊。对,但但是大体呢,就是还是是我们刚才说的这个真实数据,然后呢,真机呃,遥操作,然后五米,然后加POV这样数据的一个混合啊。我也听过一种说法,就是说为什么有的公司 bet 仿真数据,有的公司 bet 真实数据,是因为 bet 真实数据的这些公司,他们的商业模式是要把这些。
机器人卖给你说的开发者,也就是实验室,然后让他们去采集真实数据,再来训练自己的模型。所以这是你们商业模式决定的,你们一定要说真实数据最有效。嗯嗯,就绝对不是,绝对不是。就是说,首先就是我们的一切的起点啊,就是说,首先我们说具身智能这个事儿还是一个完完全全技术驱动的。一个创业啊,是技术的改变带来了产品的改变,带来了商业模式的改变。
对它不是因为我定的是商业模式是这个,所以我定我技术是这个,这逻辑是错的啊。所以我们是最早我们就想清楚了,就是要真实数据、真机数据为主,然后去做这件事,坚持端到端。然后呢,又因为这个呃技术产生的这个产品现在不成熟,没有直接的生产力场景的价值,所以我们要去呃先去做一个开发者市场,然后逐渐做一个过渡。所以,我我觉得它的这个逻辑啊,不是因为商业,所以这个技术,而是因为这个技术,所以这样的模式啊。
真实数据可以怎么 scalable?真实数据的 scalable 其实要就是说有两种条件或者两个要素。第一个就是我们一定要进入到真实场景,它得是一个场景的,它不能是所有无穷无尽的场景。它应该是无穷无尽的场景,就是各种各样的场景,我们不要做限制。所以呢,不应该特别多的在所谓的素材厂里面。去完成这样的数据采集,嗯,所以我们也是从去年开始,我们也应该是全国第一个啊去做我们叫真实场景的数据采集。
好,OK,是第一个条件,就是说我们一定要进入到真实场景当中去啊,因为真实场景它是 non scalable 的话,我必须要去构建一个场景出来。嗯,第二个就是我们一定要用众包的方式去做这个数据采集啊,也就是说我们要把这个采集的这个设备以某种方式分发出去。那大家一起能够参与到这个活动当中来,而且在这个里边,可能呃政府肯定是要有一些支持,我们也要去投入。
然后呢,这个有一定比较好的商业模式支撑这样的东西去往前去走。那今年我们也会去做这样的这个实践啊。那么,那么这两个要素,一个是。把这活儿分出去,应该是分到真实场景里面来,所以就会呃使得我们这事儿可以快速 scalable。所以这也是为什么我也这是呃我们也一直很关注,就是北美的一些进展啊。北美其实是呃比我觉得比国内更早的,就说进入到了。
这个这个这个,它叫无本体的这种数据采集,就是无米啊,嗯,包括三D这样做的这种采集手套、采集夹爪这样的这种方式里面啊,我觉得这个这个方向是是很重要的。你说今年对你来说很重要的是应用和场景,对你准备怎么定义场景呢?首先呢,呃,我我们就是可以系统性的聊一下这个问题,就是。最终,我们具身智能能够落地的,一定是供供给侧和需求侧碰出来的一个东西啊!
因为首先说,就是说这个这个需求侧其实非常非常非常的多,几乎所有现在咱们说这些劳动者在做的这些活儿,那按理来说都是具身智能未来要解决的问题,所以需求特别特别的庞大啊!但是呢,不是所有的需求都是呃好需求,或者都是在适合在这个阶段解决的好需求啊。那么这个时候呢,我们先来看一看供给侧。哎,供给侧呢,我觉得基础模型的供给特点啊,它有这么几个点,就我也是我们定义的顶层指标,我们叫速度、精度、泛化性。
啊,速度就是它这个基础模型驱动下的这个操作速度能有多少?那我们看,就是说基于模仿学习的大概率超不过人啊,可能百分之八是百分之九十的人类速度就不错了啊。那么精度是什么?就是厘米级别的操作精度,毫米级别的我觉得那是下一步的事儿,先解决厘米级别的啊。然后是泛化性,这个泛化性呢,就是说我需要多少条新增数据才能够解决一个新问题?
那有些动作,比如我们今天已经做了,就是我们叫万物抓取。那在抓取这件事上,我们已经做到零样本泛化。那么,在比如说像呃叠 fold这个这个事儿上面,可能毛巾呢、T恤衫啊,在我们办公室里面。啊,衬衫啊这些的可以可以可以搞一搞,但是其他的衣服还是要重新去学。所以这个里边就是有一部分是零样本,有一部分是少样本,有一部分还待解决啊。
所以这就是我们所说的这个泛化性的这个定义,就是多少个新增数据可以解决一个新问题?这看的是边际成本。嗯,速度、精度、泛化性,这个是我们的供给的这个特点。然后我们再回需求侧哈,所以需求侧就有这么几个限制了。第一个就是速度不能要求太高,是吧?太高的这个在这个技术做不了啊。第二个呢,就是说,呃,这个这个呃,其实还还有一个点,就是说,就AI呢还是会有出出现问题的,还是会犯错的。
所以这个犯错之后的这个失效成本不要太高啊,不要一一搞一搞错了就无法挽回的损失,这个不太适合。好,这是两个基础条件。然后在这个基础之上,我们还要再去看,就是说好的场景、好的商业化的这个这个这个场景,一定是说,呃,有爆发力的。就是我我做完一个之后,我可能很快就到一万台。啊,这样的场景。那么,在这样的这个呃里面,它你会发现,首先我们要求这得是个全球化的一个市场,嗯,就是假设一个事儿只在中国有,只在欠发达国家地区有,那可能不是第一步的好市场,对吧?
它一定得是欧美国家有的,因为那边付费能力好,付费能力高。那第二个呢,就是说全球市场的这个情况下,且在全球不同的市场里面的这个场景。又是比较类似和统一的,啊,那比如说什么就不符合了,商业服务里边的很多其实不太符合啊,那那那那这个不同国家的酒店可能是不一样的,不同国家的这个零售可能也长得不太一样,嗯啊,哎,所以你把所有的这些。
就是放在一块儿,然后呢,不断的去碰撞、统一,然后呢,我们现在看到的还是比较看好。嗯,首先我们定义几个动词大类啊,就是我们叫 carry、 pick、 pack、 fold、 operate。对,carry就是搬。啊,pick就是拿,pack就是包,fold呃就是叠,对吧?然后呃还有这个operate就是操作设备啊,操作一些一些设备。
其实您去想,就是说很多我们现实世界当中的这个劳动者啊,都是这五类动作的各种组合。嗯,而且几乎你会发现每一个岗位哈,涉及到这个动作组合的数不会特别高。二十个、三十个、四十个,基本上cover了很多岗位啊,不会有一个岗位说一天这个人需要做几百种不一样的这个、这个、这个动作。啊,其实都是很固定的,所以像这样的岗位,我们看起来是好场景。
所以巨深这样的好场景,率先要要铺量、要落地的啊。现在有哪哪几个具体的场景?非常具体的。我觉得,我觉得在这个仓储物流里面的这个bin picking是很好的一个场景啊。就它解决的问题很简单,就是这个超多的这个SKU,可能一万个、上万个SKU在一个仓库里面,它的存储方式是什么?一个一个的这个bin,就是这个斜口的盒。
一个盒里边放一个东西,放一类东西;一个盒里放一个东西。然后很多时候人干什么?订单拣选啊,就是人拿一个订单去哪拣,去哪拣,去哪拣。又因为它这个数量太多了,所以传统的那些物流解决方案其实没法有效的解决这个事儿。所以,我们看一下这个场景还不错啊。然后呢,还有一些其他的,我觉得像智能制造这个场景里面,其实也有大量的这种物流的环节啊,厂内物流的环节。
就智能制造里面,它其实一是物流,二是这个。这个这个装配组装啊,组装这个就涉及到了毫米级别的操作,而且很多时候是柔性操作,复杂度一下就上去了啊。那我们可能要要要放一放啊。那么,那么厂内的这种各类的物流。就是单手拿、双手搬的这类的,其实都可以啊。我听起来会有一个很大的疑惑,嗯,就是十年前也有很多的机器人公司在成立,他们也都可以做这些场景,为什么需要这一代的AI来做这些场景呢?
其实还不太一样。定制化东西啊,首首先就是说这些不是很定制化的东西,就是说,呃,我分成两个问题去讲哈。第一个就是,呃,物流是一个持续的在被机器人。的公司解决的一个问题啊,那么嗯,这个早期的,比如说像这种呃Kiva这样的这种机器人,再到后来,比如像这种夹抱式的机器人,夹抱就是夹抱料料箱,然后送到一个地方,其实它基本上都是解决一大类问题,但时至今日你会发现。
大量的仓库里边还是有很多人拿着订单去到一个一个的这个这个斜口盒里边去去拣货,这个动作还是很多的。原因是什么?原因就是当你的SKU的数量特别多,然后订单又是从这些SKU里边挑几个,就这类事情发生。这类事情其实在很多场景里都会发生,传统的方案是没有办法的。所以这就是为什么传统方案没法解决这一类的问题。这是为什么今天还是有很多人再去做这样的事儿,在车厂里边其实也有类似的。
这个一般,它车厂里面叫叫所谓的S P S集中分装啊。它干的事儿是什么?就是这个这个呃车在上总装线之前,它一般会有一辆A G V,先去到一个呃这个小小仓库区,然后呢它转一圈,然后呢三五个货架就会有一个人,这个人。从这个这个这个货架上面把对应的这个商品啊零部件拿出来,放到这个啊A G V的这车上,就做这一个动作。
嗯,这个里面这里边用到的人其实也很多啊,所以其实你看它都是这样的:一个从一个区域拿一个东西起来,单手拿或双手搬,放到一个指令指令的空间里边,pick anything。Place to三母眼就这么一伙儿啊。那传统的方案,呃,无论是这种夹抱机器人还是移动式机器人,它没法解决这个事儿。再到比如说很多传统的这种协作臂机械臂,那它解决不了的是泛化性问题,它能解决的是一个。
呃,这个比如说,呃,一一托盘的货啊,这种这种叉车搞一下,或者是码垛大的这种机械臂去码垛,这样是可以解决。但真正到了这种物体成千上万个,然后不同类型、不同形状的传统方案是失效的,这是第一个问题啊。然后我们继续说这个第二个第二个问题啊,就刚才第一个问题说的是说为什么传统的这些方案没法解决?嗯,那第二个问题呢,就是说为什么它不是一个高度定制?
的东西,因为在这个里边,其实你看,我都把刚才这个问题归结为了什么?就是 pick everything,对吧?或者 pick anything place to somewhere,对。那那事实上,今天如果小俊来我们的办公室,你能体验到第一部分了,已经。就是你随便从兜里边掏一个东西出来,随便拿一个什么什么口罩啦、耳机啦、呃口香糖了,放在桌子上,它都能可以准确的给你抓起来。
而且我们这套就是用真实数据驱动的VLA去解决的问题。嗯啊,那我们接下来再解决一个Place to Anywhere,其实它是一个从AI的这个范式里面,你会发现它是一个高度统一的问题,它不是一个定制化的问题。啊,我理解这一波机器人公司这么贵啊,很大的原因是因为你们讲了一个通用大脑的故事。大脑你们是怎么做的?
你们现在做到什么阶段了?嗯,以及你们和比如说字节啊、嗯、小米啊、嗯等等这种大公司做的大脑,你觉得未来会什么关系啊?对,在海外可能是 NVD 啊、派呀,可能是 Google、Google。对,首先呢,我我们先定义一下大脑。对,我觉得大脑这个词儿有时候会有点模糊。我们回到基础模型这个词儿。那我觉得这个世界上会有两个很重要的基础模型,至少对于具身智能来说啊,一个我们叫做动作的基础模型,也就是 VLA。
嗯啊,这个动作基础模型它最终是要产生 action,啊,就是驱动一个本体执行任务。它的输入是 vision 和蓝轨迹啊。那么还有一个一个模型,其实是做上层的这个这个指令的拆解、逻辑的思考能力的,这个往往是一个多模态的语言模型啊,VLM。嗯,那么今天我们的这个所谓大脑的这个结构,其实就是这两个模型的一个组合,我们叫双系统啊。
那么这个VLM干的事儿,就是把一个模糊的指令。拆解成若干个可以执行的任务,然后这个若干可以执行的任务进入到 VLA,然后去完成这样任务的这个执行啊。那么这两部分都叫做这个基础模型。那它的这个呃功能其实是不太一样,嗯啊,这是我们的现在的架构,也是我们相信能够支撑我们往前走很长时间的这样的一个技术架构啊。
你们是第一梯队吗?我觉得在呃,如果看国内的话,我觉得我们是第一梯队啊。当然这个问题要回到从哪个维度去定义这个梯队啊?那其实大家会去看的话,就是呃,估值、融资额,然后一些技术的这个发布啊,然后呃,商业化能力。那我觉得就是说,如果真实的智能水平。从真真实的市场水平,那我们肯定是,我们肯定是啊,呃,因为就在这里边,我们我觉得是引领了国内的,呃,首先从去年的下半年开始,国内有一波开源啊,我们是在国内的这波公司里边,我们公司做了第一个,就是公司层面的技术模型和数据集的开源,然后后来有很多其他的友商啊,也做类似的,这个度,我们八月份当时开源了我们的这个数据集和我们的G零的这个基础模型。
然后呢,到了这个后来呢,我们一些友商啊,九月份、呃,十二月份、今年一月份也陆续也在发,嗯,也在开源。那么我们今年一月份又做了一件事儿。就是说,我们在开源的基础上,我们做了一个开箱即用的体验啊。因为我刚才说,我们今年的的的的重点是什么?是是是场景,是应用啊。那么,其实我们看到,就是说,真正你在做 application 之前。
啊,我们可以把这事儿分成这么几个阶段。嗯,最原始这个阶段叫 demo in the video,就是视频里的 demo,很多这样的东西很多。嗯,然后是 demo in the office,就是你你可以在这个办公室里面看到,在一个公司办公室里面看到他现场给你做这个 demo。第三种类型叫 demo in the wild,就是我们说的这个,我们就万网抓取的这个 demo,我可以在所有地方。
去做这样的部署啊,在我们事实上在新加坡、在韩国、在美国的客户那边,在我们的办公室,在很多投资人的这个年会的现场,我们都展示这个demo,而且是真的是pick up anything啊,这个这个很多观众或者是这个体验的同学兜里面掏出来的东西都可以解决,这个叫demo in the wild。demo in the wild解决了之后,其实才是application。
所以这是我们今年年初啊,我们在这个我们发布的这个 G0 Plus 啊这个机模里面,我们释放的一个能力,我们跟我们的这个整机就是 R E Light 啊做了一个整合,这个也是国内的首创啊。那我们为什么做这件事儿?核心还是在于,第一,我们要看场景应用;第二,我们相信商品的主要形态是整机加智能。啊,嗯,为什么你们选择 VLM 和 VLA 这双系统?
为什么不直接做一个端到端?你知道,你同行也有很也有人做端到端。是的,是的,呃,我我觉得这个里边其实这个这个还蛮直接的啊,就是我们必须要考虑的一件事是,到最终我们落地的时候。我端测的算力其实是有限的,哎,我不可能把一个几十B的一个一个推理模型,甚至是上百B的一个推理模型,嗯,放在我的端测,这是不可能的。
这这这个一定是在服务器上的。我端测里面是什么?端测里面就是一个完成动作的模型,啊,那如果我把这个端测的就是所谓完成动作的这个VLA模型也放在云云云上,它最大的问题是啥?就这个延时啊,大概率是解决不好的。嗯啊,所以执行动作的模型一定是要在端侧,啊,而且很多时候你会发现,其实我们并不需要那个 VLM 的那个推理部分。
假设我的很多就是工商业的这个工作场景里面啊,你会发现很多工商业工作场就二三十个动作,那我就这二三十个动作直接调用这个 VLA 的这个语言接口,其实也就够了啊。真正什么时候用 Waymo 还是就说我们要进入到更通用的场景、更泛化性的任务,比如说家庭,这个 Waymo 才是一个最最重要的啊不可或缺的一个组成部分。
所以这是为什么我们要把它拆开,那还是围绕着我们要真正的产生价值、产生商业价值去考虑。对星海图来说,你觉得它的肢体更重要,就是硬件整机更重要,还是脑子更重要?一定是大脑,一定是模型更重要。但是我们为了做好模型,我的整机一定也要好,所以这是他们之间的逻辑关系。就是你觉得整机能采用有哪种数据闭环,是的,然后能为为了智能,对,也就是我们对对。
嗯,那你们相对于这些大公司来说,做一个机器人大脑的优势是什么呢?做一个船公司,嗯,其实我觉得应该这么去想,就是做一个大公司,相比于我们有什么优势?因为在很多时候,其实我觉得我们这儿全是优势。你看谭杰,呃,Google的谭杰就跟我说,他觉得他在Google的Dimai的那个呃大语言模型上,在这个基础上面去做BLA就有很大的优势。
是,他需要一个就是更聪明的大脑,然后BLA其实是这个基础模型的延伸。嗯,但是。你们没有这样的一个基础模型,嗯,一个庞大的基础模型。呃,首先,那那我们要盘一盘,就是说,为了把这事儿做成的成功要素有哪些?然后,以及去看这些成功要素到底是在大公司里边分布的多,还是在我们这样的公司里边分分布的多,对吧?这个决定了我们刚才说的这个所谓的优势的这个问题啊。
我们首先定义目标,我的目标是把 VLA 这个模型做好,就是能够让一个机器人在物理空间当中能够这个真正的去解决问题,做各种各样的操作,这是我们的目标。那么我们为了去做好这个这个 VLA 模型,我需要什么?我需要数据。这个数据不是互联网数据,而是真实世界里面的呃机器人也好,人也好,去操作这些物体的数据。
这是数据层面。嗯,第二,我需要一个好的算法。这个好的算法今天本身有一部分,呃,承接自啊这个传统的这个 VLM 的这个领域啊,包括 Transformer 这套架构,包括 Diffusion 这套架构,也有一部分尚待创新啊,尚待研究啊。这这一部分是大家其实都没有的啊。前面一部分是大家都有的,后边这一部分是大家都没有的。
然后。这个第三部分是什么?是算力,算力的背后其实是这个基础设施的能力和资金啊,然后是人才,是是是人才,嗯,大厂是什么呢?就是说这个基础设施、算力、人才这儿肯定都特别好啊,然后呢,这最最缺的是数据,然后呢,这个所以其实像包括像这个这个这个美国的很多公司吧,其实我们跟谭老师交流也很多哈。他们就是很很很着急的,就没数据,赶紧搞数据啊!
其实就是说,在搞数据的这件事儿上面,中国的公司系统性的要比美国的公司更有优势啊。然后中国的创业公司,因为在整机和硬件方面,都是很多公司都是亲力亲为自己去做的,所以相比于大厂,速度更快。因为大厂里边要做这件事儿,他要获取数据,要么买,要么买数据,要么自己采数据。但是你会发现,买来的数据一般都有这样那样的问题啊,除非这供应商特别优质。
但这供应商优质的前提是什么?这供应商优质的前提是他自己得懂模型,才能能把好的数据搞出来。就这里边,你看这个悖论就就就就来了,这个矛盾点就来了。你如果不懂模型,你是没法好定义好的数据体系的。你就天天光光在那儿那个乱七八糟的采吧,你采来的数据全都是垃圾数据,没什么用。必须得有懂技术模型的公司定义这套数据体系和数据的治理体系,然后再把它交给一个或多个运营团队完成数据采集、做质量验收。
啊,然后你才能进入到训练的这个阶段。嗯,所以你看,它它是这样的一个一个流程。同时,这个数据还得是在你跟你的整机有一定的这个结合性,因为最后我后训练肯定还是基于这个整机的这个数据做后训练啊,然后才能去交付出去。所以你会发现,有整机、有硬件能力、有基础模型的,呃,know how,是我们去把数据的这套东西给做好的一个很重要的前提条件。
嗯,所以这就是我们这样的一个创业公司啊,我觉得,或者是有整机能力的创业公司,相比于没有整机能力的。这个其他公司,我觉得一个一个一个优势的一个地方,你们是不是也想卖数据给他们?我觉得数据不是我们的业务,但是呢,我们我们乐于分享,我们乐于分享啊。这就是为什么我们去年八月份我们就开始开源数据。开源数据完之后呢,呃,这很多这个我们的客户其实就找来说,哎,能不能从我们这儿搞一些数据啊?
那那其实很多时候我们都是无偿,或者是稍微收一点点小小费用,但都是很小的,就交付给了这个这个他们去去使用啊。所以我们是乐于分享,是不是能这么理解?你们其实想走特斯拉的路线,如果对标到自动驾驶行业的话,嗯。呃,我觉得,我觉得在比比如说,我们说特斯拉的这个自动驾驶路线是整整车加上这个啊数据采集,加上端到端的这个模型的这个智能。
如果是这条路选呢,那我觉得我们是的啊,我们要自己做我们的整机,我们要完成数据的采集,然后呢,数据的这套体系,然后基于这套东西,我们要去做好的基础模型实施的。不同的是什么?不同的是,呃,特斯拉做的是汽车嘛,汽车它有一个明确的行业,对它本身汽车本身是有需求的,啊,汽车本身能卖出去,然后机器人本身卖不出去,对这个我觉得是挑战啊。
那你看,好像比如说理想、小鹏这种车企来做机器人吗?他们有他们的优势,我觉得他们有他们的优势,我们有我们的优势。我觉得企业之间去竞争这件事儿的话,无非就是说刚才咱们讲到的,顶层的看的话,我觉得是三个要素哈,就是呃人才或者组织,然后资金啊资源,然后呢就是业务协同啊。往往呢,我觉得大厂啊,或者说有有一些优势业务的这些企业做一个新业务的时候,它对于完全的一个初创公司来讲。
最大的优势不来自于人才和资金,而在于已经存在的业务的业务协同。嗯,这个我觉得是是是是最要命的。嗯嗯,比如说说做那个呃做语言模型,那天然的呃这个字节有有整个飞书和抖音的这些流量,它做它做这个就在需求侧直接就有协同。嗯啊,所以对于做语言模型来说,它就是一个一个降维的一个问题,有很大的劣势。那么对于自动驾驶来说,纯粹就做一个自动驾驶软件的供应商,那直接就会面临来自于,比如说车厂,他要直接去做,呃,车厂自己做自动驾驶。
的一个,因为车厂自己做自动驾驶,他直接掌握数据,直接把握用户需求。只要他能够投入足够多的资金,然后把好的人才队伍建立起来,其实他做这件事优势也很大。嗯,啊,所以这个就是我们刚才说的业务协同这块儿,我觉得是创业公司面对大公司的时候真正的压力所在。如果没了这件事儿,其实巨帧智能是没有的,因为你发现需求侧,呃,这个千行万业那么多,也也谈不上什么业务协同,大家都可以找到自己的客户。
然后供给侧全都是新供给,汽车的零部件一个也用不到这个机器人上,大家都得从零开始研发。然后自动驾驶的这些数据、道路数据,其实对于解决操作的问题用处也不是特别大,所以这就不存在刚才我们讲的这个所谓的业务协同。OK,那就回到了,呃,人才、组织和资金资源这两个维度的竞争了啊。那那从这个维度去讲的话,那我觉得就大家各各自有各自的这个优势。
嗯,你有把Momenta的量产文化怎么贯彻到星海图?嗯,首先呢,我觉得,我觉得,我想做一个小小的修正,就是我觉得不是量产文化,而是为客户创造价值这件事儿到底有多重要啊?我觉得有有,我看到很多公司就是他不把把为客户创造价值、以客户为中心或者客户第一这样的呃理念作为公司存在的最重要的原因。这个呃文化和价值观的缺失,其实会导致很多很多的问题啊!
就是量产这件事儿,其实呃,我觉得可能有点、有点、有点,就是这个这个定义稍微有点狭义,所以我想把它定义为就是为客户创造价值,用技术为客户创造价值的这样的一个文化,我觉得是非常重要的。那我们也其实是从Day One开始,我们就特别致力于去做这件事儿,这就是为什么我们在发现了这个直接去做生产力场景。不太可能的时候,我们及时调整,然后做开开发者市场。
那我们给开发者市场的客户提供价值也是价值。而且事实上,就是说能够跟客户建立起来,无论什么样的客户啊,只要他的这个需求是真实的,他的付费是OK的,那么那么这个我们做的这个单位的这个经济模型是是是正常的。那只要是在这样的模式驱动之下的形成的这个供给和需求之间的这个关联,对于这个组织来说就特别的好,嗯,因为可以培养整个这个组织的一个为这个围绕着客户价值做务实创新的这样的一种文化氛围。
不然的话,很容易我们这样的就是技术出身的啊,这个创业团队就容易进入到一个大型实验室、大型研究院这么一个状态。那样的话,我觉得就背离了我们做公司的初衷了啊。嗯,最近许华哲要离职,是的,他跟这种一个是 research 驱动的文化和一个是嗯,你叫他实践也好,你叫他嗯量产也好,驱动的文化是这种两种价值观的分歧吗?
呃,我觉得啊,首先我还是想肯定一下华哲,就是华哲是一个就是非常有影响力的一个一个科学家,他在很多前沿问题上面的理解,算法问题上理解也很到位,嗯。那么,但是呢,就是说,我觉得确实是,呃,存在一些,就是说,我们到底是要去做一个务实创新,围绕客户价值一步一步来这样的,还是说,可能我们就是就是要要更多的去做一些超前的创新之间,我们是要有一个balance。
然后呢,华哲的,其实我们最后决定还是这个支持华哲去。这个创业,其实我们华哲的第一轮融资,我们也会投资啊,星海图也会投资。那么更多的呢,还是出于一个华哲想去做这个to C方面的呃家庭应用方面的这个探索。那么在这个角度呢,虽然未来不排除我们也会去做哈,那我们愿意去以一个新的方式去支持它,把这件事做好啊。
我觉得这个在当下来看,对于大家来说都是更好的选择。你们所相信的东西在当下这一刻的分歧是什么?嗯,我觉得其实谈不上呃特别多的这个分歧啊,我觉得还是就是说公司发展到,其实刚才我从开始就提到了,就是说公司有这个合伙人的这个机制,嗯啊,那么从呃最早呃我天威赵航我们呃我们三个我们创办了这个公司之后,那么呃,公司到现在为止引入了多位的这个合伙人。
那我觉得公司在不同的发展阶段需要不同类型的人为公司去啊持续的去创造价值。当然,我们也特别愿意去分享公司的价值。然后去把大家做成一个特别好的一个团队啊!那在这个过程当中呢,我觉得这个、这个、这个,我们本质上呢还是战功文化,实事求是的战功文化啊。那么我们会特别鼓励有结果的同学啊,就是去用更多的公司资源做更大的事儿。
同时呢,我们也会实事求是的去做一些调整。所以我觉得,呃,我们以新的方式支持华哲去做他的这个啊创业,我觉得也是过去的这段时间大家实事求是的根据结果,然后大家共同的做出一个选择吧。因为华哲主要是做算法,这是不是意味着现阶段来说,对于机器人公司算法创新并不重要?不是啊,首先我们公司的算法创新能力非常强啊,赵航在这方面的这个这个能力,我觉得也是有目共睹的,嗯,那么呃,但是我们想强调的是什么呢?
就是说算法的创新它不能独立于存在,独立于整个公司的基础设施去存在啊,我们还是要看整个的军智能价值链条。这价值链条是什么?是整机供应链、数据。然后呢,这个这个AI的infra,然后是算法,然后结合了这个算法之后产生的模型,然后是分销啊,然后是我们的终端,是我们的客户客户价值。所以整个这个链条里边,你会发现,这个呃,我们如果用一个关键指标去衡量的话,就是看各个要素的传播周期,你会发现整条供应链的传播周期是十二到十八个月。
呃,终端和这个渠道的传播周期是更长的,因为你需要线下的跟客户建立起来关系。传播周期指的是什么?传播周期指的是,当我的呃,比如说一家公司有了这个东西,我需要多长时间也有这个东西?啊,或者我有了一个东西,我的友商学我,他需要多长时间才能学明白、学会、完全掌握这事儿?整机和供应链十二到十八个月,一个新产品的研发就需要这么长时间。
嗯,然后呢,呃,这个客户渠道的这个建立六个月起步啊,大客户时间更长啊。那么,呃,这个数据体系是在刚才我们说的整机的这个基础之上再加六到十二个月啊,因为你要基于你的整机体系去构建你的数据的这个套闭环体系。然后你会发现在当下这个时间点啊,就是算法的传播周期相对是较短的,因为现在大家都讲开源。然后呢,至少论文都是有的。
对于第一梯队的有非常好的这个算法和工程师团队的算法工程师和这个工程师团队的这样的公司来说,算法传播周期是两到三个月啊,所以它的竞争壁垒最少。是的,是的,它的投入大,但是壁垒小。对他在创新上面的投入非常大,但是他在防止被抄袭这件事上的壁垒很小。所以,在创业公司直接发落大厂就好了。我觉得,我觉得是说,我们要学会用更聪明的方法,更有 ROI 的方式去去做创新。
所以你看,我们公司有一个价值观叫务实创新啊。我们不是说不做创新,前面先要务实。对,先要务实。我觉得这个还是创业公司生存,先生存。然后呢,就我觉得就是说,理想主义是对的。我也我觉得我是个理想主义的人。嗯。但是理想主义不能变成空想。嗯。理想主义的能够实现的基础,是我们每天都要去算 ROI。然后去算一件事儿,对于我们的长期战略的价值贡献和我们短期收益的价值贡献到底有多少?
这就是我们的总体 return。嗯,但是我们一定要有这样的一套逻辑去算啊。你刚刚也提到,在 Momenta,嗯,邵青离开了 Momenta 之余,呃,曹旭东的影响,你觉得华哲离开星海图,至于你的影响,这两者是一样的吗?首先,我不好。谈就是旭东当时在这件事上他的真实感受或者是真实的判断是什么?但至少就是说,我觉得对于星海图来说,这是一个呃,这个长期来看绝对利好的一件事儿啊。
然后,因为我觉得还是就是说,我特别在公司里面强强调的就是价值观啊,价值观是指导我们整个组织成长然后发展的最最内核的那个东西。而价值观的底层是什么?价值观底层是第一。面对取舍的时候,我们怎么选择?到底选什么不选什么?然后面对利益分配的问题的时候,我们分给谁不分给谁的问题?所以在这些问题上,我觉得我们绝对是要坚持我们的呃价值观和我们的长期战略的啊,不会被短期的利益让。
这是一个艰难的选择吗?取舍,取舍。我觉得,我觉得在在任何时候。都都都不容易吧,都不容易。你想了多久?呃,其实这件事 settle down 其实蛮久了,已经。呃,去年八月份我们内部基本上就完成调整,赵航统一管理我们的基础核心团队。也正是在赵航统一管理之后,我们就取得了很多进展啊。到今年一月份,我们全球首个的这个开箱机用的 G T Plus,赵航带领团队拿出的结果。
那么,呃,八月份那个时候呢,我们基本上就是达成了一个呃一致啊,我们就是说这个整个基础模型找航带领华哲去探索啊to C的啊应用方向的一些可能性,嗯,然后呢,公司愿意去支持他做任何愿意的这个探索,同时支持他去这个这个在合适的时机啊去投资他去这个创业啊,理解。我们刚才其实说了很多,不管是大脑,也也包括算法,然后也包括呃整机,也包括数据。
是。那你觉得你的技术vision是什么?你最终希望星海图变成一家什么样的公司呢?我知道你有很多路径,你有很多的方法,你有很多的拆解,你有很多的ROI,听起来都很现实。那你的技术vision是什么?我觉得,如果单说技术的vision的话。这个是我们可能每一次我跟投资人去去讲的时候,我的第一页的PPT,就是我们希望给这个世界带来的巨深智能带来的核心体验是,我们要像。
能够让培训机器人像培训一个员工一样,培训一个人一样,通过几次的示范,然后再通过几次的自我演练,这个机器人就可以在那个场景里面稳定的自主的完成任务。我觉得这个是我们要最终实现的这么一个一个体验,一个愿景。嗯,那么为了支撑这样的体验和愿景。我们在产品上面,我们是三三个产品的一个组合:基础模型加后训练工具加整机,是这样的一个组合,给我们的客户带来这个使用这个机器人员工,可能像用一个这个人类员工一样的体验。
那未来其实会啊更好,机器人员工的生产力啊会这个显著增加我们整个人类社会的这个幸福感。嗯。这个世界会因为有星海图有什么不一样呢?因为有星海图这家公司有什么不同呢?就是你们和另外一家机器人公司不同是什么?呃,我觉得未来还有很多可能性,但迄今为止,我觉得我们已经给这个世界带来了一些不同。就是我们已经服务了至少一百五十多个全球的开发者客户,他们在用我们的整机产品、数据产品和基础模型产品,在做他们想做的这个生产力场景的这个应用。
那么,我希望我们的产品能够进入到呃不仅仅是开发者当中,而进入到真正的使用者,进入到开发呃这个生产力场景当中去啊,能够给大家提升生产力,带来更多的幸福感。所以,我觉得这是从今年往后看,我们要给这个世界带来的不同。为什么我觉得在机器人行业里面,我好像没有看到那种特别有,呃,tech浪漫主义的人啊?很有可能是机器人这件事本身就不浪漫。
为什么呀?因为这个事儿,这是我的疑惑。我我觉得确实是啊,就是说机器人这个事儿链条非常长,嗯,周期也很长。相比于语言模型啊,AI应用类的创业,我觉得很大的一个不同就是它的链条的长度不一样。嗯,如果我去做AI应用或者是巨或者是大语言模型,不用操心供应链的事儿,我不用操心数据的事儿。我可能也不用跟特别多的这个线下的客户打交道啊,然后呢,我就安安心心的做好我的模型研发,然后呢,我做好我的社媒的上面的这个病毒传播就好了。
所以这些这种事儿本身就会让这个团队有更多的这种浪漫的可能性,而而我们天然的就去就要去土里,就要去土里边做很多东西,土里边,嗯,对吧?我我们就没法浪漫。哦,嗯,计划务实,嗯,你在公司做的非常嗯激进或者是务实的一件事情,非常极端的有什么?我觉得我可能没有什么极端的这个这个选择吧。我我更多的时候我们还是步步为营啊,就是步步为营,步步为营。
哎,就是首先我对于长期的战略非常的坚持啊,就刚才我们讲的,我们要做整机,要做预训练模型,要做后训练工具,然后提供这样的体验出来,这个我非常坚持。然后呢,我们要从底层去构建我们的供应链体系,这个我也很坚持。但是呢,我并不会就是说。在一个时间段内把所有的事儿同步展开,因为那样的话,我知道拿不到好的结果。
所以,我我们的策略一般还是步步为营。所以,这是为什么我们二四年我的重心就是整机和供应链。对,二五年我们就是数据智能,二六年我们就要开始做场景和应用。我很好奇啊,怎么能识别一个机器人公司在画饼?我觉得,我觉得这个东西无法在一个瞬间去完成识别,需要一个周期。嗯啊,所以就是要去看这个团队可能一年前、两年前说的,跟他这一年做的,以及跟他一年之后做到的去做一个对比。
哦,现在有谁啊?呃,看起来画饼的嘛,你是说?嗯,哎呀,我其实觉得就是大部分,我觉得投资人还是很会观察和选择的一个群体。基本上经过投资人选择的这些公司,这个太艺术了。哎,还还,我是事实啊,我觉得还都是那个经过了时间的验证啊,然后拿到了一些结果,至少在某一方面拿到一些结果的公司。嗯,你们在画饼吗?必要的画屏肯定是要做的,因为因为我觉得是这样,就是说,呃,这个其实这个世界是靠相信。
去这个驱动的,就是很多时候不是说我已经拿到了这个结果了,而是大家我们的公司的员工、投资人、供应商、客户相信我们能够把这件事儿去做到。那你说我要让别人去相信的时候,就是这个我肯定要要去说未来我们要会去做什么事儿。所以如果我们把描述未来会发生什么这件事定义为画饼的话,那肯定我们就天天画饼,对吧?但是呢,我们要努力的非常非常努力的去把我们每一个对于未来的描述都变成现实,这个就不是那个意义上的画饼。
你们最近一轮融资是不是即将close还是已经close?已经close了。嗯,对,你们讲一下这一轮融资的过程以及它的资金来源。啊,这轮融资过程,其实我自己参与的参与度是历史上所有轮次最少的。主要是靠天齐,主要是天齐,他这个太厉害了,这比我的融资能力强多了。我现在主要是这个画皮儿,那他需要我这个什么的时候,我去。
讲一下,呃,所以具体的这个这个融资过程呢,我觉得,呃,这个有一些这个波折啊,因为我们也很坦然的,就是说,这个我们跟华哲的这些这个问题肯定会造成一些呃大家的理解也好,不理解也好,那就需要一些的这个这个解释啊。但是呢,客观的结果是非常好的啊。我们这一轮呢,有呃很好的产业背景的这个。呃,产业背景呢,包括吉利,包括北汽,还包括很多这个呃大的PE阶段的和一二级crossover啊,包括正鑫金鼎等等。
更关键的是,我们有六家老股东,对。都这个Perata,而且还有可能是三家还是四家Super啊,就是超额啊,包括凯辉,包括基石资本啊,包括这个这个湘和等等。那我觉得就是大家的这种啊选择,其实是这个已经充分的认可了我们公司过去。呃,这个取得的一些成果,以及对于未来的一个展望啊。你们估值相比两年两年前增长了多少?
我想想,两年前是二四年的,现在二四年的一月份,增长三十倍。三十倍啊,好像是三十来倍吧。一月份那时候,我们就刚二四年一月份刚融完第一轮嘛,三亿嘛,三亿左右吧。啊,现在的话,我们就是一百亿,估值在两年时间迅速的膨胀这么多,你觉得组织会遇到问题吗?呃,其实我觉得组织会有问题的原因不是因为估值上涨了,而是因为组织本身变复杂、变庞大了,嗯,这个会会有问题。
除非就是说这个创始人团队因为估值上涨自我膨胀了,那个肯定会引发很本质的问题。但我觉得我们是没有的,我们我们今天的状态,我觉得要比两年之前清醒的多,更务实了,更清醒了,对于未来要做什么事儿更更明白了。啊,那么在这个基础之上,我们去看组织的话,那我们首先组织比呃两年前也扩大了,得有个啊二十来倍吧。我们今天大概那个时候也就十几个人,那么现在有二百二百来人,二百多人,那么。
那么扩大这个过程当中,其实我们对于组织的调整速度还是很快的啊。呃,这个这个这个在不同的阶段,我们这个阵型怎么展开啊?基本上可能每三到五个月,我们都会做一些局部的调整啊。你有遇到什么现实的问题吗?现实的挑战,我我觉得我可以说一个,我我印象最就是说最最最大的吧。最大的,我觉得还是说,就是在我们要做的事儿的难度、复杂度和
scope 广度,在急速扩张的这个过程当中,啊,我们首先是公司已有的同学,包括我在内,包括其他的创始人、合伙人在内。
能不能跟上这个成长速度?第二个就是我们能不能及时引进更牛的人,有更多经验和know how的人去及时补充?对我觉得这是这是第一个问题啊。第二个问题就是天然的做具身智能这件事是两个懂man的两个领域的混合,一个是我们的就是整机供应链这一套强调流程体系强调纪律性,第二个是智能。智能这是强调这个,当然它也有它的工程属性在,但是更多的还是强调人才密度、创新啊,创新对,没错。
啊,所以所以呢,这这个一个是强调纪律流程,一个是强调创新人才密度,天然的会有一些组织上的难度啊,在对,所以我会我觉得这个是我们看到的两个挑战。你现在怎么调和的呀?嗯,我们调和的方法呢,其实这个我不敢说我们今天已经调和的很好了,我觉得还是会有很多很多的问题。华哲离职是不是跟这有关系?嗯,我觉得这个可能关系到不大。
OK啊,这个关系到不大啊,因为因为这个东西它不是一个,就是从从从组织层面看整机和智能的矛盾,因为我们智能团队今天很强很好啊,嗯。我觉得我们的一个基本的,我们做什么事儿的这个基本的方法,就还是我们对人呢,我们就要正直诚信,嗯啊,正直诚信,就是说还是做做做对的事儿,然后呢,真诚的对待公司里边的每一个同学啊,然后同时呢,我们强调一个,就是说这个我们还是比较精益经营的啊,就是该省的就省,该花的就花啊,我觉得是这样的一个情况下,大家也都取得了一个比较好的一个谅解和平衡嘛啊,嗯。
你们现在是估值就是正在交易金额的估值排名第几的中国具身智能公司?我不是特别清楚其他家的这个准确估值,因为现在这里边其实也有很很快速的变化。据你了解,呃,此刻此刻呀,此刻我不知道前五可能是前五,第五,前五。因为我我不太知道有几家公司的具体估值,那最最高的那那个致远、银河、呃那个宇硕这三家肯定是最高的嘛。
然后我我不知道还有没有哪些在交易的比我们高,所以我我保守说一个第五吧。啊,嗯,前五吧,对,嗯。你觉得你能从同行身上学到什么?我我一直学习宇树的这个做整机和供应链啊,他们就是做的很深入,垂直整合,自己设计,呃,这个这个这个齿轮,自己设计壳体,自己设计里边的这个做电磁仿真啊,做电机,这些其实是我们一直在跟这个这个向宇树学习啊,就是深入的去进入供应链,整合我们的这个呃上下游。
然后我觉得跟PI我们也也是学到了很多啊,就Physical Intelligence,他们更多的还是整个巨深智能行业在智能这个领域的领头羊,我觉得是毫无疑问的。他们的人才密度、资金密度都保证了他们能持续做这件事儿。嗯,所以我觉得在他们的这个前沿算法的这个这个做大模型、基础模型这个方向上,我们是啊学习很多啊。
但我觉得我们比他做的更有效率啊。然后呢?那第三个,其实我觉得在就是智源,啊,我们也学习很多啊。首先,我当然这个智源,我觉得他有很多很多种做法了。呃,我觉得我不去评论那些存在争议的做法。我看到一个成熟的呃管理团队去做具身智能这样的一个事业的过程当中,他们有什么样的经营动作?啊,比如说,哎呦,非常非常多。
我觉得他们做的就是很多方面都很好,他们甚至连知识产权这件事儿做的都特别的好啊。就是知识产权可能是一个大家都不会关注,但是我关注到了,我发现他们知识产权做的特别好啊,组织也很好。然后呢,整个管理团队的这个啊也很实事求是,调整速度也很快,所以说我觉得真的我我是比较 respect 高继扬的。然后我们也跟他学习了很多。
呃,很早创业很早的时候,我跟有幸跟邓总也聊过一次。那那个时候我就感觉到他是一个就是很成熟的企业家的一个状态了。你的创业老师是谁呀?创业老师啊,嗯,这可能还真真没有一个,就是我就是能学的我就学啊,没有一个人是是说可能没那个运气吧,遇到一个特别好的老师能够能够去教方方面面嘛。嗯,如果把星海图比在商业社会比作一个动物,你觉得它是什么?
哎呀,这个问题还真没想过。我的第一反应是。这个这个问题真不好回答。我我觉得,我觉得如果非要类比的话,可能是狼。我觉得,但是狼我觉得又不是很准确,因为狼最最这个什么,就是好像我们要突出我们的狼性,但其实我觉得大家都很狼性,没有哪个公司不狼性的。现在就是巨深智能里边前面的这些公司都非常狼性,都非常卷。对,然后呢,我们。
对,所以这个问题,我我觉得我们没有一个特别好的,可能最接近的是狼啊。嗯,你能不能说一个片刻,一个一个时刻,特别能体现你或者你们公司的狼性?嗯,我觉得,我觉得在很多的这个啊,客户交付。的这个问题上,啊,或者是在这个时间节点的这个这个面前,很多时候也不是给客户交付,可能就是我们自己定了一个发布的一个节点,在这些时刻,我觉得我们公司。
整体体现出的这个进取心和韧性非常的好,非常强。那然后这个,比如说我们在这个呃 G0 Plus
在发布之前,整个团队可能我们赵航团赵航老师带领下的这个整个智能团队,也包括整机团队也要配合。可能连续工作了,我不知道得有一个月的时间,就周末是不休息的啊。我觉得这这种韧性啊,然后这种这种进取心,然后面对目标这种,就是一定要达成目标的这种这种韧劲,我觉得特别好,特别我是我是我是我是很感动的啊,我也很自豪我们有这样的团队。
嗯,你喜欢什么样的音乐?什么样的电影?什么样的小说?我很喜欢看电影,呃呃,大学那会儿几乎把豆瓣里边的高分全看完了,啊啊,以至于我现在没有好电影可看。然后呢,丧失了一个很好的享受的娱乐的一个方法。对,所以很多时候老电影会重复看一看。嗯,这个我我喜欢看的电影类型其实很很广,能够让我暂时的脱离这个世界的,呃,让我进入到另外一个空间的这些电影,我都很喜欢。
啊,这个这个故事性的、科幻的呀、动作的呀,啊,然后呢,可能还有一些比如悬疑的呀、爱情的,都我都喜欢看。啊,然后我觉得通过看这个电影,一方面是放松嘛,另一方面,哎,看看这个还有什么样的这种故事的这种可能性,都都蛮好的。音乐啊,音乐,我我不是一个很很好像很高雅的这个,就高雅的音乐好像不怎么听啊,主要就是听一听什么流行音乐吧。
我是九零后,就是周杰伦呐、五月天,我觉得这都很很普通,普通青年,对,就没有一点文艺的这种感觉了啊。对书的话,我小说其实看的不多啊,但是我很喜欢看书啊,就看历史类的书很多啊。我们希望每位嘉宾都给我们观众和听众推荐一本人生之书,就是他真的对你有很大的启迪和改变。你能不能给我们推荐一本?此时不能说曾国藩啊呀!
我就刚想刚好想说这个,嗯嗯,那我觉得可以是,就是我我我我那我说一本我我最近在看的吧,就是我最近在看这个。吕思勉写的一本就是讲三国的书啊,那个那个名字我有点忘了,但是就是吕思勉讲讲三国的那一本。然后呢,我我觉得就是说三国这个历史其实呃,它呈现出的状态啊,某种程度上来说和巨深智能今天的。状态很像,嗯,有非常非常多就是可以参考或者获得启发的地方啊。
然后,而且事实上,真实的历史总不是那么戏剧性,真实历史有它的逻辑性啊。然后,真的,如果我们回到。那个时间节点,你会发现,没有哪个人是草包,也没有哪个人是绝对意义上的理想主义的英雄,都是在现实当中去挣扎、去取舍,然后凭借一些运气可能。然后取得了一些胜利,然后步步为营,然后去取得最终的一些一些成果吧。嗯,但我觉得好在的就是说那个时代太就是你死我活了,最后好像只有有一个人能够能够取得一些结果一样。
但今天不是,今天我们我们每一个人都可以很好,每一个公司都可以很好啊。那更多的还是说我们怎么围绕我们的客户去把价值做。用我们的这个技术,用我们的这个产品。你创业以后,在现实世界获得的一个最大的正反馈和一个最大的负反馈分别是什么?我觉得最大的正反馈,做范儿,我期待的那个正反馈还没有来临。对,我觉得是那两个数吗?
出货量。对对对,我觉得那个就是我追求正反馈。我觉得融资对于我来说没啥正反馈。嗯呃,就是我我每次融资成功,我其实给自己的这个什么,都是我觉得我肩上的责任。嗯啊,这个是吧?这个二十亿、几十亿那些钱在账上,我得把这些钱花好管好。然后这么多同学投入到公司里面。我要为这些,呃,同学,嗯,我觉得要负责任,要给他们一个好的前程。
然后,呃,很多政府的领导给我们关怀,然后我们我要去交付一个好的这个产品和结果给他们。很多客户给我们机会,我我觉得我不能辜负啊,所以我觉得更多的是感受到这个责任,嗯。负反馈,坦率来说也没有特别多。我我觉得我没有特别多,嗯,没有特别多啊。对,就是开始的时候有一些负反馈吧,就是有些投资人不理解你嘛。呃,但坦率来说,我也不觉得这是什么负反馈吧。
啊,就是我后来其实我很早吧,我我觉得我就大概形成了一种状态,就是我没有特别在意别人对我的评价。啊,对我我就是比较低吧,程度比较低去在意。对,然后我更多的还是会去想,是说我们的目标是什么?我们要给这个世界带来什么价值?我们现在有没有在做正确的事儿?呃,我接受,就是我们现在做的这些事儿。假设我内心认为我们是正确的,是实事求是的。
呃,大家有一些不理解、不认可,甚至是呃瞧不上等等,这个我也都OK啊。所以我觉得这个就是说,呃,我在我们坚持要去做的这件事上,so far,我觉得我没有什么因为负反馈而动摇过啊。如果有人评价你们产品不好,你怎么想?我那我会第一时间去解决,第一时间去去去去。哎,我我其实很多时候我就去客户现场。然后我们在发展过程当中,确实产品很多时候有有问题的,这这是我觉得创业的过程当中常态。
所以那我的办法就是说,第一。呃,我自己作为这事的第一责任人,我去客户现场,我去给客户去这个解决,同时我要把这个体系建设起来,持续性能够解决这些问题,通过一个问题解决一类问题啊。然后,因为很多时候身先士卒能够给呃大家做表率啊。然后我也要求我的简易们也是这样做,身先士卒。然后呢,这个在一线获取一手信息。
解决客户问题,然后给团队树立好的榜样。还有几个快问快答,一个全球范围内你喜欢的食物。哇,平常对食物研究也不多,呃,我我比较喜欢吃,假设就说一个吧,我现在突然蹦在我脑子里边了,就是我上那个我读博士的时候在洛杉矶嘛,然后洛杉矶美食很多,嗯。有一家店我特别喜欢,呃,叫那个啊,那个A B C豆腐house啊,吃韩国的这个这个豆腐锅的啊,那个我是特别喜欢。
一个全球范围内你喜欢的地点。呃,我我我觉得,如果如果有一天我我退休了,就不干活了,不不创业,创业差不多结束了,可能我觉得洛杉矶挺好的。啊,基于当下的认知,一个关键的重要的bet是什么呀?呃,我觉得,那我就回到创业这件事上。我觉得,呃,首先,我我我去创业这个这个做具身智能,就是我人生的that,对吧?
就我这一辈子就干这件事。然后呢,那个在当下这个时间点,我们选择把在生产力场景,我们做出万台的出货量,做成我们就当成我们接下来最重要的事儿啊。这个就是我们的that。嗯,你听过我播客没有啊?听过。你听过谁的呀?印象最深刻的是李一帆呢?李一帆呢?为什么?嗯,我觉得,我觉得李一帆讲的很多东西,因为他是做就是呃这个自动驾驶相关的吧,嗯,相关的激光雷达,对对,激光雷达。
我记得当时你采访他,就是他谈到了很多他早年间一四一五一六就那时候是混沌摸索期的那个状态,我是。呃,很受启发啊!然后我我发现,哎呀,这个这个这个,就是就是看早期,人今年今年这么成功,公司这么好,早期的时候其实也是就是一点一点做过来的,也不是一帆风顺。然后我想起来,我们最早的时候,我们那个我觉得混沌期的时间会更短一些。
那我觉得,哎,反倒我还挺挺幸运的啊!很快我们可能就步入到一个还OK的一个轨道上面,然后。嗯,包括他谈到很多对于这个这个客户和技术产品的这些理解和判断的时候,啊,我不是一是有共鸣,二是有启发啊,所以那那期我是印象很深刻。我们工作室叫语言级世界工作室,当你听第一次听到这个名字的时候,你在想什么?语言级世界工作室,嗯,我觉得这个名字特别贴切啊,就是说,其实这个世界,我们每一个人看到的这个世界。
都是一个主观认知之下抽象出来的世界,嗯,而这个主观认知的过程,就是一个语言的过程,啊,所以所以我觉得这个其实,呃,会有一点,呃,会有一点唯心主义啊,但是我觉得这个是普遍的常态啊,对,但是我觉得确实是很多时候我们对于这个世界的理解,就是通过这一个一个的唯心,然后去尝试变还原一个客观世界,啊,嗯。刚才我们走过来路上问你个问题啊,就是有什么机器人行业你们都知道的事儿,但是我们都不知道,你们讲讲秘密。
嗯,我我觉得可能可能因为大家对于机器人的理解,更多的是来自于视频,对视频的这个形态塑造了大家对于机器人的认知。然后呢,我想说的是,可能视频里面呈现出的机器人状态,比现实当中的要要好的多。啊,然后,然后现实当中的机器人,我觉得大家还是要给他更多的耐心啊。但这件事会发生,嗯。所以我说的那个感受,你觉得是对的吧?
就是我觉得在机器人行业里面,好像没有那种特别技术浪漫主义的人,我没有见过,起码。我觉得这个行业不允许这样的人存在。如果有这样的人存在,可能他会会有很大的suffer。嗯。就是我选择AI这个产业和我选择具身智能这个产业应该是不一样的人的可能,我觉得这个行业这件事儿会把人塑造到不一样的状态,是一个狼的状态。
是一个既要有理想主义,又要每一天很务实的去思考我今天要做什么,明天要做什么,我每件事儿的这个收益和付出是什么的状态,需要平衡好很多方的关系的一个状态。好了,今天的节目就是这样。这里是商业访谈录,是一档由语言及世界工作室出品的深度访谈节目。你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是语言及世界 Language is World。
我们希望和你一起从这里探索新的世界。We'll explore the new world from here. Shouting out so the clouds can't hear. Every heartbeat drawing the map we steer. We'll
explore the new world from here. Step by step turning doubt to cheer. We're the start of the story. This where we're here. We'll explore the new world
from here.