你们最多的时候是不是有十几个 I O I 的金牌?我们 N Y 的金牌更多。当时范浩强作为高中生是怎么跑到你们这儿上班的?那反正这也是个有趣故事。以前研究院有一个挺逗的,大家有句话叫“这不本质”,大家都想去解决那个本质的问题。但实际上,当你真正变成一个商业化的产品的时候,那你所有对客户有影响的东西都是本质的,对吧?
它不是那个最后最难的那个事情,它才是本质的。所以还是回到刚才那个问题,就是今天到底有多少机器人、具身机器人是在被持续的使用?有多少?欢迎收听晚点聊,我是曼奇。本期嘉宾是元领灵机的联合创始人和CEO唐文斌。二零一一年,他和两位清华同学应奇、杨木一起创立旷视,这是中国最早的AI创业公司。二零二五年初,唐文斌成立元领灵机,开始具身智能的新创业。
在本科到研究生时,他做过七年中国信消赛国家队的总教练,认识了大量奥赛小天才,其中不少人之后加入了旷视,现在又在元领灵机和文斌一起创业。这期我们聊了竞赛往事、旷视的创业复盘和元领灵机的这一年。这是一家不做人形机器人的具身智能公司,也是一家会直接参与多模态基模预训练的公司。这两件事都是少数派选择,元力灵机会给中国具身市场带来哪些不同呢?
我们正式进入本期节目吧。今天非常高兴可以邀请到唐文斌,元力灵机的创始人做客晚点聊啊,你可以和我们的听友简单打一个招呼。OK,晚七好,大家好啊,我是这个元力灵机联合创始人兼CEO唐文斌,然后灵机呢是一家我们希望去打造这个智能的、有用的、可信赖的机器人,那这是我们的这个使命的描述,所以我们希望能够通过具身智能,通过AI的能力,能够以机器人作为形态,能够去赋能更多场景,去创造更多价值的这样一家公司。
文斌也是一个非常资深的AI创业者,就是二零一一年的时候,你是和应奇和杨牧一起做了旷视,然后二五年元零零七,这中间也有十几年的过程,包括你从。初中的时候就开始做编程,然后我也想从这段经历聊一聊。你可以讲讲,就是最开始你是怎么接触上编程,然后怎么开始做竞赛的吗?就我老家是绍兴下面的一个县城叫新昌,然后呢,我们那个地方其实原来没有接触过这个竞赛,然后非常巧合,就是我上初二的时候,然后当时我们的那个初中叫新昌城关中学,就刚刚开始搞这个竞赛,然后他就从每个班里面挑了两个数学最好的同学,然后去那儿学这个竞赛,然后反正也是阴差阳错吧,就是遇到了这个这个就是编程竞赛。
N O I这个事情,然后我们就觉得就非常的有意思啊。然后我们当时有很多小伙伴去这个机房里面,然后老师也给了我们机房的钥匙,然后很多小伙伴去了机房就是。更愿意打游戏,但我们有两三个人呢,我们更觉得就是说编程其实比打游戏更好玩啊,所以我觉得就是一个也是跟兴趣有关嘛,所以就是从那时候开始接触竞赛,运气也比较好,然后也拿了一些成绩的。
就当时对十几岁的你来说,你觉得编程的乐趣如果描述一下,它是什么了?我觉得是一种叫解决问题的,叫做解决问题的这种成就感吧。就是说,哎,那你有一个问题在那里啊,然后呢,你通过构思一个方法、一个算法,然后你把它编程实现,哎,然后你通过了所有的测试,确实解决了这个问题。然后你这个啊代码又写的很优美,那你在这个时候其实是有一种叫做。
这种工程师的解决问题的快感,我认为这个其实是一个非常强的一个正面的一个正向激励。那像这种就是信息要在,因为它可能涉及到时机去编程什么的,有什么不一样的地方?我其实原来也参加数学竞赛跟物理竞赛,OK,全部都参加啊。对数学题和物理题,其实很多时候其实就是在啊,相当于这个题那有一种解法,那其实也是一种解题的一种快乐。
但是编程它很多时候它的解法不唯一。它其实有很多种不同的这个解法,而且我们并不是去求得那个答案,而是在设计一种方法去求得这个答案。所以在寻找一一种过程,然后呢,也有很多的那个编程的题目,它也很有意思,就是它其实是没有最优解的。比如说啊,我们找到一条最短路,或者是求一个什么样的一个解,使得一个问题的一个优化方案能够达到一个一个比较优的一个方案,那。
它其实并不存在一个最优解,所以你其实可以去发挥你的想象,发挥你的这种可能性啊,去找到那个较优解。那这个其跟今天这个这个做AI或者做优化问题,其实很多事情其实是一样的。所以就这个过程中是一个是一个不断的去思考寻找。解法,哎,获得反馈,而且这个反馈很多时候其实是比较及时的,因为你的程序可以提交上去,可以它马上就可以给你一个 wrong answer,或者给你一个 accepted。
所以我们当时除了做竞赛题,其实也很写了很多不同的程序。我们当时也做过网站,也写过一些,比如说我们也玩游戏,对吧?然后写过游戏外挂,所以就是说,其实武装了自己就变成了一个一个可以去制作很多工具的一个人,所以我们就觉得整个计算机科学其实是非常的有意思的。那对,所以那我们当时候这个保送的时候,其实在清华里面是可以选专业的。
你是零六年上的本科对吧?对,嗯对,但那个时候就是应该绝大部分的同学大家也都没想,都觉得是说,哎,我默认就应该去计算机系,所以我们所有人都去了计算机系。就我之前和印奇聊的时候,他说他在清华读本科的时候,因为你们是同班同学嘛。他说他不是那种成绩最好的学霸,嗯,他说你是真的学霸了。他是他是他是文艺,他走文艺路线的。
啊,对对,他因为他有去就是跳拉丁舞什么,他是你们清华国标队的队员。对。然后包括你在大学的时候,你也继续有去参加挺多竞赛的。对,嗯,像 Topcoder,然后 ACM 等等。是是,因为我觉得高中的时候很多人去做竞赛,他其实。呃,对大多数人来说,他有一个相对实用的目的。你说保送,对。然后大学继续做这个事儿,那应该确实是特别喜欢。
对,我觉得就好玩儿。你说的那种刺激和正反馈,你可以讲讲一些什么具体的?比如说哪些比赛会给你这种感觉?我觉得其实很多比赛其实都会。我们去参加一个编程竞竞赛,我们都是想赢的。然后 TopCoder 里面还有一个很有意思的一个一个呃环节,是叫做
Challenge,什么意思呢?就是说。他比赛是一个半小时,然后大家把那个程序都提交之后,我们可以在同一个房间里可以看别人的程序,有五分钟时间,你可以看是说别人提交的程序,你认为如果他是错的。
你可以提交一组数据,让他输出一个错误的答案,你就可以把他的成绩变成零分,你就可以加五十分,有这么个过程。我特别喜欢那个环节。那那其实又是一种非常有挑战性的,但是又需要就是每个人的那个程序只能被challenge一次,就是说如果比如说我把你的分数那个那个程序给干掉了,那别的人就不能再再来干掉你的那个那个那个程序了。
所以就是说他还得比手速,比观察力,所以这是一种非常强烈的这种这种在压力下的,呃。但又同时需要去思考和形成结果的这么一个方式,所以我觉得就大家非常 enjoy 这个过程。嗯,而且这个对抗性很强。对,是的。那你有记得自己最爽的一次是,比如说怎么抢抢到了多少分,然后你干掉了多少队吗?对我们那个时候一个房间应该是就是一一般一个房间是二十个人嘛。
我那天有一天是,然后一个比赛 top quarter 是三道题。我有一次是在一个比赛里边,那呃那一道题啊,二十个人全部都提交了,并且我认为他们都有一个非常小的trick,其实都没有发现。然后我把那十个就十九个人全部都challenge掉了啊,所以我觉得那次印象非常深,就是我靠那个challenge就拿了九百五十分,就是十九乘以五十,对。
这个都是会放到你累积的这个分数榜单里的,对吧?因为 top coder 应该是一直就是它是一个累积持续的排行榜。对,它是那个每次比赛它会给你的那个 rating 可能会提升一点,降低一点。今天那个很多那个 AI 的这个这个 benchmark 里面有一个叫 Codeforces 的 benchmark,大家其实也是在评测这么个东西嘛。
罗天成也很喜欢打这个比赛,是不是?对,你们是老乡,他也浙江的。对,我第一次参加那个信息学竞赛就是跟罗天成一起的,当时那个他高二,我初三,所以我俩都是浙江队的。那个时候不分初中高中,就是全国赛的时候已经不分初中高中,就都是一样的题,对一样的题,所以我俩是那一届是同一年浙江队的,当时。你当时还认识了哪些竞赛的?
你觉得还挺好玩的同学,包括现在也还有一些有交流的。对,我觉得其实挺多的。就是说,那今天其实很多圈子里面很多人都是以前搞竞赛的,包括像阿里的蒋凡,我们当年其实很多年前也都是在论坛上一起一起灌水的。然后楼天城也是,就是我们公司里面其实当然很多人了,对吧?然后包括其实,比如说像Kimi里边的周星宇,他原来也是这个搞这个竞赛的。
比如王小川,他是很早年也是搞竞赛,而且他也当过那个那个国家队的教练。嗯,对,因为后面你你自己去当过这个国家队的教练。我们是在本科期间,因为他这个其实是个学生的义务劳动。对,就是说那个计算机学会,因为需要有一些学生工作,因为,呃,从整个的这个比赛的组织是整个计算机学会来组织的嘛,但是中间有的命题啊啊,主要是命题相关的一些工作,那。
这个大部分其实是由学生委员来做的,所以我从大二开始就呃跟呃另外的一位同学叫胡伟栋,是比我大一级的,也是一个AI的金牌。然后呢?呃,我俩一起在牵头搞这个这个这个命题工作,我们搞了好多年。我是从零七年到一三年,然后一三年之后我们就那个交给了另外一位同学啊,然后来整体的来组织这个事。那相当于你创业两年之后还做了两年的交流,两年是的。
那是因为你特别热爱吗?因为创业应该挺忙了。对,就很好玩。啊,对,我们也很 enjoy
这个过程。这和你自己打比赛的区别是什么?就是你去出题和你做题的,是这样的,出题比做题要难得多。一个好的出题,并不是说这个题有多难或者多简单,它核心要的是区分度。我们要把参加比赛的两百个同学把大家的分数能够拉开,所以整个题目就是说如何能能够去找到一个好的setting,考察的点又足够的有趣,跟以往的题又不那么的一样,又有新意。
所以出一个题是非常的费力的。我们做题可能只需要一两个小时,但出一个题可能需要用一周的时间。啊,我觉得这有点像现在做AI里的有一个环节,就是制定benchmark做evaluation的这个过程。所以其实定evaluation是一个非常难的事情,包括今天具身的evaluation其实也是一样。那到底什么是一个好的benchmark?
如何能够让这个benchmark有区分度,能够去评测出各个不同的维度的一些东西?其实是需要非常认真的思考和体系化的设计。那这个里面有一些什么窍门或者方法吗?我觉得这个很多时候其实还是做一些这个经验的判断,你自己得是一个好的 player,你才能够是一个好的 judge。如果你自己不是一个 player,你是做不了一个好的 judge 的,就因为你对这个东西它没有体感。
所以今天 AI 里面的很多 benchmark,最早的模型相关的 benchmark 是 OpenAI 定的。今天其实具身智能的 benchmark,我们是最早的一波跳出来去做。我觉得其实也是类似,你得是一个好的选手,你才有可能是做一个好的裁判。那回到上学的时候,因为你当时本科的时候就和印奇认识了嘛?
当时对他是什么印象?对我跟印奇其实上那个本科的时候,一开始其实没有那么熟。一个班多少人了?我们班非常神奇,我们班是一个没有女生的班,我们班一共二一共二十七个男生。对,在清华里面是一个非常神奇的班,因为我们那一届的摇班是从大一到大二在清华里面再考了一次试啊,所以呢,就是我们是大二,他是原来是自动化系的,我是计算机系的,所以我们就相当于大二的时候,就是大家重新来到了一个新的班级。
然后呢?因为那一年那个清华的宿舍不够用,所以我们还不住在一栋楼。熟起来是有两个原因。第一个呢,就是我们后来都去了MSIA实习,嗯,微软研究院。对,然后他当时是跟着孙剑,就是在做人脸相关的一些工作。那是哪一年了?呃,那是应该是在零八年、零九年。就是你们大三、大四对大三、大四的时候,对。然后我是在楼三楼,他在四楼。
然后我是在另外一个组里面,我是跟着呃张磊跟蔡锐啊。蔡锐现在是在小米。然后呃,我当时在做图像搜索啊。然后所以我们就是在MSI里边,这个我俩就是经常也一起碰一碰,讲讲看看他那边在做什么,我这边在做什么。因为也有一些跟这个都是跟图像相关的嘛,所以交流的还挺多。我觉得这是一个这个竖起来的一个契机。然后第二个呢,就是我们在大四的时候,啊,清华有个学生节,就是大家类似去表演一下节目啊,然后这个热闹热闹有这样一个活动,然后我们那一年我们班里边排了一个剧。
啊,二十七个人拍了一个剧,全部都是男生。对,演什么了?演了个小品嘛。印奇是导演,当然印奇从国标队也请了个女生过来一起来来客串了一下。反正我觉得那次对他印象就非常深,因为就是导演这个工作其实还是,然后也呃希望所有的同学都可以参与进去,所以就做了一个非常复杂的剧本啊。然后呢,这个我们的这个剧既温馨也搞笑啊。
所以那个过程中我就觉得他很厉害啊,很有组织力。是的。你们二十七个同学都参加表演了,基本基本都参加了。我应该就是属于路人角色之一,所以就是我觉得这两件事情上,就是呃,第一呢,我们在一些这种科研工作上,我们互相有很多的这个讨论交流。然后呢?第二呢,就是这个这个这个单据的这个事情吧。我觉得就是也拉近了大家的这个这个距离吧。
所以我们后来就是说毕业前,我们就约着说,哎,那有机会要一起创业。你们毕业前,你指的是本科还是指本科毕业前?零九年,我们后来想创业是,反正也有几个机缘巧合吧。其实很早就约着说,因为他也是在做图像嘛,我也在做图像嘛,所以啊,那时候我们也。不怎么讲AI这个词对吧?当时都还是讲讲machine learning啊,对,机器学习那会儿。
对对,讲讲computer
vision对吧?然后我们就讲着说,哎。其实,计算机视觉一定是个很有用的东西。我们觉得,就未来机器人都需要眼睛,对吧?都需要看到这个世界。那视觉就是一个让机器人看懂这个世界的一种方式。所以我们觉得是说,哎,未来,哎,有机会可以一起创业,但是创什么呢?反正也不知道,对吧?那我说这个运气呢,先去国外上两年书啊,我们先去什么去Google啊什么的去工作工作,然后说有机会再一起约着创业吧,对吧?
然后我当时呢,其实在。啊,这个清华还读了个master,然后是我是唐杰的学生,嗯啊,上次我们聊过,你说你是他第一个学生,对我是唐杰的第一个学生,是的。我之所以成为他第一个学生,是因为那时候那个唐杰老师刚升副教授,所以他刚刚才具有招生的资格啊,每年只能招一个人,所以那个第一个人是我。你为什么当时想选唐老师?
对唐老师还是很牛逼的。我们当时也上了选了一些不同的课嘛,我们就当时就是说觉得,呃,唐杰老师非常的sharp,就是对很多问题其实是有非常这个深的洞见。唐老师当时也是在这个呃Cap实验室是吗?对他那会儿就在。他们那边应该是做图计算相关的,对这个这个非常有意思,是这样。对他后来怎么又和计算机视觉和图像怎么结合起来?
他他他其实没搞视觉,是这样的,就是我我在那个呃我们实验室里边,我还是做的是data mining。啊,data mining,对数据挖掘,对数据挖掘。所以我那个,我其实在研究生期间、本科期间,其实发的一些文章都是跟data mining相关的。所以我们主要在做社交网络上的数据挖掘,跟唐老师一起,我们去做了很多这方面的工作。
后来呢,就是中间有段时间啊,唐天老师学术休假了一下啊,他去国外待几个月。他说:“你要不去MSIA待一阵子吧?”然后我就去了MSIA。然后我去的那个组呢,叫 Web Search and Mining,其实是做文本的。然后我去了之后,第一天我的那个 mentor 就跟我说,哎,我们组改了个名字,我们组改成叫 Social Media Search,就是做那个社交媒体搜索。
他说说我们接下来,我们原来是做 Text Mining 的,我们现在开始做 Image Search 了。他说你还干不干?啊,我说来都来了,这个这个再换个组也很麻烦,对吧?然后我觉得也机缘巧合开始做具身,对。我们当时做的这个东西就跟那个 text mining 就没什么关系了,所以我在那个 MSI
做的那篇工作叫就是呃用一些图片里面的一些上下文的信息去做加强图像搜索的这个能力,后来这个能力应该还被。
呃,port到病里面去,就是做图像搜索,就是以图搜图的这样的一些一些。所以,按照你们本来的计划是,当时印奇在美国在哥伦比亚读博士,是,然后你在这边在清华唐老师这边读硕士,对,包括你们可能想工作一段时间就再创业,但实际上后来的是,后来后来怎么个你们对你们很快就开始创业了啊?后来是这样的,我就是那时候,呃。
机缘巧合的点是这样的,当时呢,那个 Kinect 非常火,我不知道你记不记得,就是那个大概可能一一年前后,就是那个体感交互游戏机非常的火,那个 Xbox 三六零啊,然后加了一个体感交互的这个东西啊,就是你可以拿着一个对切西瓜对对对,不用手柄,就是就用人体操控啊,然后就比如说你手去切西瓜就这些玩意儿,然后那个时候的那个体感交互游戏非常火,这是一个背景啊。
然后第二轮就是,我阿姨在那一年的时候送了我一个iPhone四啊,我觉得iPhone四是个非常伟大的产品。它是你说那年是一零年,应该是一零年的这个这个。下半年了,就是反正已经快到一一年的时候了。然后呢,呃,为什么是iPhone四这个产品很牛逼呢?就是它是历史上手机上第一次出现前置摄像头。我们当时就想,能不能够把这种Kinect的这种啊游戏体验搬到手机上面?
因为当我们手持,比如说我这么手持手机的时候,这不是这个摄像头,我其实是可以看到我,对吧?那我既可以看到我的脸,我也可以看到,比如说我手在这里,也可以做一些动作,对吧?所以我们就觉得是说,这里面其实是通过计算机视觉的能力,是能够做一些这种体感交互的产品出来的。然后当时第三个 trigger
是说,当时有很多的独立开发者其实也挣到了不少钱,什么墨迹天气啊,就是有很多的这种这种独立开发者的这种 A P P,其实也挣到很多钱。
啊,我们就说,哎,我们自己一起来做个游戏,然后我们我们去挣点钱嘛。然后,呃,最早是我跟一起,我们两个人就说,那个我们俩各投资一台 Mac Book,就是以前都用的是 Windows 电脑。然后呢,啊,我们就开始做这个做这个游戏。后来发现两个人马力不足,就是,然后我们就把杨木拉了进来,然后我们就三个人就开始做了这个游戏。
然后那个游戏当时还就是那个做了一个叫 Cross Coming,叫来了对那个游戏。然后当时还那个下载量还挺大的。对,当时应该是没有什么推广,然后它一度是到苹果 App Store
免费榜的前三。对,是的,是的。但实际上这和旷视之后的业务差别挺大的。对,但旷视刚成立的时候其实也没太想明白要干什么,所以呢,就是像机缘巧合,就是我们发了那个游戏之后,虽然没挣到钱,哎,但是挣了一波名声,因为很多人下载,然后呢,当时还拿了一些行业里的奖项。
这个游戏是。这个独立开发者的游戏里面最有趣的一个,因为我们当时就是用一个类似于用个摇头去控制的一个一个一个这么一个体感交互游戏,我们说是行业第一个在手机上的体感交互游戏的这么一个这么一个方式,然后。对,然后就很多投资人找上门来啊,然后我们就呃,然后我们也我们说那见一个投资人,我们肯定也不应该只见一个,对吧?
那我不如多见几个。然后呃,后来就觉得说我们未来也有机会一起创业,那我们就说这个在战场上学习也是一种。挺好的学习方式,对吧?那我们就不如就开始吧。所以我们就是当时那时候那个联想之星跟联想创投当时投了我们啊,所以我们就拿了那一笔钱。当时你们对创业是怎么想的了?当时你们怎么理解创业这件事情了?因为这个听起来好像是有一种被很多外部因素推着的一个决策。
我讲的是一个很真实的一个版本,就是当时很多东西上是说我们有一个模糊的方向,我们觉得未来会走上创业的道路,但今天怎么走其实并不知道。那先走走看,我觉得是一个模糊的方向感。那这种模糊的方向感的情况下,我们愿意在此在这个过程中去一边前进一边成长。我创业还是一种手段嘛?其实是希望能够做的这个技术和产品,能够对更多的场景能够去带来价值,这是我们很多成就感的来源。
工程师的很多成就感就是你看到问题在那里,你先把它解决了,这就是一种很强的一种成就感。所以它是工程师想解决问题的成就感的一种延伸,是,只不过是一种更极致的方式,就是你们自己来做主,我解决什么场景的什么问题。对,我觉得可以这么理解。其实你们最开始做的乌鸦来了,就是开发移动端手机上的游戏,这在当时也是一个大方向,因为后来移动互联网是一个很大的热潮嘛。
然后旷视在一一年成立,但你们后来其实就没有再继续做to C和跟移动互联网相关的事情了。我我们其实还稍微做了一块。我们从一一年成立之后,就是说当时就是说我们希望说把计算机视觉能够应用在不同的场景里面,其中的很大的一个应用方向就是游戏。所以我们就给投资人讲的这个,我们觉得可以把体感交互游戏作为一个很。重要的一个品类啊,我们现在就是这个品类里面做的不错的。
然后我们后来,我们第一款游戏是那个乌鸦来了,是个二D游戏。第二款我们还做了个三D的游戏,我们做了一个叫呃街头速滑的游戏,是一个就轮滑的游戏。它有几个操作方式,我们当时就加了很多,比如说用摄用摄像头的,然后用这个。呃,用一些体感交互,比如说用那个,比如说跳,我们是拿着手机,你要这么这么来一下,就是跳。
然后呢,有一些飞弹会过来,你需要躲,所以你会需要人脸去躲啊。通过这样的一个方式的一种多维度的这种交互式的一个游戏。然后那款游戏当时反正也还是卖了一些钱的。我们当时还有人,当时还麒麟购和触控,就当时那个就做捕鱼达人的那个公司,然后当时也愿意说帮我们愿意做发行啊什么的。就那个游戏做的还还蛮精致的。然后我们后面还想过一些,就是当时那个
Angry Birds 那时候开始火,哎,愤怒小鸟特别火,我们就说,哎,我其实也可以做个体感交互的 Angry Birds,就说,哎。
我就拿手机当个弹弓,我我我我拉弓,这个射对吧?就是就这些都是靠视觉识别的,是吗?比如说你拉多远,可能对应不同的力度。是的,是的,是的。所以我们当时有很多这种类似于好玩的一些创意,但是呢,我们后来做了一段时间之后,我们就发现说,有很大的问题,就是我们自己其实不玩这类游戏。就是我们偶尔也玩游戏,但我玩的游戏其实都是那种就是几个G的游戏,我们打什么星际争霸,对,然后就打这种类型的,打那种对,就是SLG的这种比较多一些。
然后我们就会发现说做的这些小游戏跟我们自己的这个。这个成就感其实不是很强,然后我们那游戏很重要的,比如说那我游戏的这个策划,我收费点怎么设计,数值怎么设计,我们在这个过程中其实体会不到成就感啊。我们后来就觉得这个路可能有点走偏了,我们其实是想把技术应用到不同的场景里面去,游戏只是其中的一个场景,所以我们的目的不是要成为一个游戏公司,我们其实想做的是那个技术本身。
那你觉得张一鸣看内涵段子和今日头条吗?嗯,我觉得他也不看啊。对对,不太一样,所以我觉得还是得要 follow 这个你自己内心的想法。那回过来,我觉得我们这帮人的想法其实是一种工程师的想法,就是希望能够用这个技术去改变一些事情,去实现一些事情,所以。所以我们说,哎,那那时候该干嘛呢?其实没想明白要干该干嘛。
当时的人脸技术其实也很早期,啊,去很多的场景并不那么的 ready。所以我们说,先做个开放平台吧。我们就做了 Face 加加,把所有的 API 都开放出来,一起来探索一下这玩意儿到底到底在哪些场景里面有有用。一二年的年终,我们就停掉了所有的游戏的开发。其实整个旷视。哦,还是非常技术驱动的一个思维,就是你们很认定,你们觉得有潜力的这个技术方向,当时看到的就是计算机视觉,然后去找各种场景。
是,就回头看的话,你们当时的这样一个创始团队的组合,他有可能去做更偏产品或者用户驱动的。一种创业吗?我觉得从基因上可能很难,因为我们对用户的观察、对需求的观察是呃非常肤浅的,非常肤浅。怎么怎么讲?就是因为不管是to C的产品还是to B的产品,那to B的产品你要对场景、对这些东西是要有理解的,对吧?
to C的产品是说你要有很强的感知力,你能能够切换到用户的视角。然后我们这帮人的喜好是非常的啊。诡异或者独特的,并不是大众审美。我们内心中觉得有趣的那个事情,未必是大部分人喜欢觉得有趣的那个事情。这个 mindset 还是拿着锤子找钉子的这种想法。我们有视觉相关的些技术,OK。那我们有人脸的技术,我们有一些图像搜索的技术。
那什么样的产品能做这个事情呢?我们包挖了很多场景,比如说通过图片去搜衣服。当时我记得什么美丽说、蘑菇街,就也是那个时候挺火的,对吧?然后我们就说,哎,那我能不能够啊做这种服饰的推荐啊啊基于视觉的服饰的搜索啊?那我最后自己其实真正的热爱能力属性其实都不在那里。然后从Face加加之后,旷视后来真的。找到比较主要的业务是在什么时候呀?
其实飞思佳佳作为一个平台,我们当时也提供了很多技术给到不同的公司。我们当时跟跟美图秀秀和美图手机其实做了很多的合作,就是提供这种人脸的关键点检测啊,帮你把脸拍瘦啊,啊,就是把眼睛放大这一系列的东西。对,所以这些SDK的这个业务做了一段时间,但我们真正第一个起规模的业务其实是跟支付宝的合作。当时支付宝搞这家网上银行,它非常需要去解决开户的问题,也就是说你就是你本人啊,然后你不用去到线下网点,而可以在线上就进行开户这个事情。
它需要一个非常准确度非常高的金融级别面识别技术。当然,支付宝。应该在市面上survey了所有提供人脸识别技术的公司,最后发现我们提供的效果是最好的。你们当时进步了多少?当时有一个benchmark叫LFW,就是做人脸识别的,叫评测的数据集,大家水平都是在大概九十九十一这个水平。我们是第一个直接从九十到九十一,直接把它拉到九十八、九十九。
这么一个这么一个跳跃式的这个发展是我们做的,当时是用什么技术实现的呀?因为其实 AlexNet 是一二年出来的,对,就那就是那个时候,就是那个时候用了深度学习,所以你们是跟得很紧的。其实全球可能 AlexNet 也是那会儿算是一个标志性的成果。我们那时候其实也不太信,也是将信将疑。其实我们整个公司里面第一个做深度学习的其实是方浩强。
方浩强,嗯,他当时是一个高中生,我们派了一个高中生说,哎,先去探一探吧。最后发现,就效果其实非常好。当时就是周尔进跟方浩强这两个人,我们说那个内部叫强进组合,啊,然后然后他俩其实组的队,最后把整个人脸识别里面的从,啊,关键点的检测,最后的这个识别这几个问题都做得非常好。周尔进当时是本科生吗?周尔进当时应该也是实习生,也是本科生。
其实我觉得这也是可能到现在。也挺值得AI公司借鉴的一种人才的使用的方式。你们当时用的人还是挺年轻的,因为当时啊,首先很多东西也还在摸索。呃,后来比如说像深度学习的这些东西,其实都很新。你坦白讲,没有什么太多的经验可以借鉴的。所以这个时候其实是,呃,一帮,呃,动手足够快、足够聪明的人,其实才是更重要的。
所以我们拉了很多搞竞赛的人进来。当时范小强作为高中生是怎么跑到你们这儿上班的?对,这个反正这也是个有趣故事。小强是初三升高一的时候,那年进了国家集训队。他高一到高二的时候就去了参加了 IY 的比赛,那一年他应该是 IY 的第二名。就当时你是那个教练,我是教练。对,然后呢,我们那年出台了一个新的规定,如果你参加了国际赛,参加了 IY,且你拿到了金牌。
就请你不要再参加了,把机会让给更多的人。相当于他高一就保送了。对对,嗯,对他其实初三就保送了,他就没事儿干了。然后他就问我说:“那我没事儿干了怎么办?”我说:“我们刚开始创业,那要不来这儿吧?”所以他高二就加入了我们。那像当时你们开始愿意去尝试深度学习这个方法。是,呃,比如说你们让他们去试的,还是说就是你们招了很多很聪明的年轻人之后,他们自己就会去看他们想试的东西?
对,我觉得这个也都是很 open 的这种讨论的过程中,对,当时就我们也看到了,就是说用神经网络,因为神经网络其实并不是一个很新的东西,但是把它变深了。但这个东西到底能够带来多大效果,大家其实还是还是将信将疑。所以呢,那个时候我们说,哎,小强去试一试呗。然后小强也觉得这个方向很有意思啊。然后也去试了试,哎,试的效果,这个出乎意料的好。
所以,呃,有很多的这种新的一些技术,我觉得要抱有一个足够开放的态度去看待。呃,一方面你们当时技术做的很强,但另一方面也能看到,其实上一轮这种AI创业,嗯,有的时候你很多这种技术的优势并没有转化成一个商业上的成果。我认为。呃,你说的这话其实也不完全对啊,就是还是看场景。那我们讲就是说,如果它是一个纯技术层面上的一个差别,那呃,似乎它的这个壁垒说只是个时间差啊。
那你今天你做了,他另外一个人可能过几天其实也能做,对吧?那这里面真正的这个这个呃叫护城河也好,或者说这个门槛在哪里呢?其实是个数据飞轮,就是说,如果是说因为更多的人的使用积累了更多的数据,而这个数据能够来帮助算法或者帮助这个产品变得更好,那这个事情就变成了一个正向的一个循环。所以你会发现,是说有的场景下数据飞轮是能转起来的。
比方说,刚刚讲我们给支付宝做的这个身份认证这个事情之后,后来呃,我们想服务了支付宝,那不是各种还有别的宝是不是也会需要这个这个人脸识别,对吧?所以我们给几乎所有的这个互联网金融的场景。后来我们又给滴滴、给Uber,然后就是说,比如打车的时候,其实你也很担心说,比如说拼车,那你隔壁的那个拼车的那个兄弟,他是不是他本人?
会不会有危险,对吧?也有很多这种线下的O to O,其实都会有这种身份认证的需求嘛。那它是一个信任的基础,所以,啊。因为我们更多的人在我们平台上做认证,所以我们见过了更多的人,我们的这个系统也更准,所以它能够达到一个更加金融级的这样一个水准。所以,哎,那我们现在在身份认证这件事情上,我们今天依然占有大概百分之七八十的这个市场占有率。
所以就这样,是因为有它的这个数据飞轮在。但是比比方说你刚才讲卖SDK这件事情,它可能就不是一个,就今天大家可能对这个技术的精度要求其实也没那么高,对吧?然后慢慢的大家企业都能做,啊,那这个事情它的这个在没有数据飞轮的一个情况下,那整个的门槛它确实就是个时间差而已。像身份认证的话,如果特别大的公司是不是也会自己做呀?
如果它整个生态里有很多这种需求的,对也会有。但我觉得就很多时候也看值不值得,就是说,因为呃还是要看清楚目的和手段嘛。有的时候是说你所有的东西当然都可以自研,但是呃它只是在你里面只占一个。小的环节,那你在这样的一个情况下,你投很大的力气去做这个东西的研发,和我做了研发可以服务很多的客户,那我均摊下来的成本肯定是你用外部的肯定是更低的,对吧?
你比如说今天滴滴其实依然也是我们的很大的客户,滴滴的人脸身份认证的这个量其实也很大,它能不能自己做?那我觉得也没必要。你刚才讲的就是旷视找到的第一个起量的业务,其实是偏软件的这种人脸识别的技术方案,去服务各种。互联网应用,互联网的场景对,然后但后面其实外界对旷视的很多印象还是来自你们后来做了一些更重的、更To B的一些业务,比如说安防啊等等,那个是我觉得更难做的一个生意啊。
对,为什么要转向那个方向?就是旷视其实过去几年其实做了很多加法,就是因为我们一直都在找两个轴的一个平衡点,是什么呢?是说叫技术可达性和市场规模。哎,我们其实做的非常好,但它整个天花板就不是很高。因为你每天要刷那么多次脸嘛,其实并不需要,对吧?所以我们需要去找到下一个更大空间的啊,更大需求的这样的一个问题。
它它maybe可能更难,所以我们其实是在通过这样的一个方式,逐渐的就是发展出了一些新的业务。其实都是在逐渐的走向一个更大的需求和更大的市场。就如果总结一下的话,你觉得AI to B它会有一些什么?经验和教训,我觉得有几点。我觉得第一点是说,你的价值能不能够可被量化的?计算就是因为很多to
B的角色其实他是非常理性的角色,所以他要去看是说我用这个AI的工具或者这个产品,我到底给我解决什么问题,我到底降本也好增效也好,我能不能够被量化?
这个可以正反例举一下吗?比如说什么是可以被量化计算,什么是不太好被量化计算?我们有的时候会给客户去算ROI,对吧?但有的时候你其实是说ROI,你有很多的trick,让它似乎表面上的ROI能够看得很好,但。如果是说你的这个 ROI 是一个自己骗自己的,给客户做了一个 PPT 上的这种假 ROI,那这个事情你也许可能搞定一些客户,但你长久是你是不能够 scale 的。
比如说你的续约什么可能就会表达。对,是的,是的,就是你的复购啊这些其实都会有问题。第二个呢,我自己觉得就是你最好在客户的那个成本构成里面不要占太大,所以我们最好找的场景是说它其实是有广泛的需求。但是你在每个客户的需求里面,你在他的那个成本构成其实都不要太大,因为如果你在里面太大的话,它很有可能会replace你。
就是你刚才讲,就是有很多大厂,它是不是会自己干?那你怎么看像宁德时代和英伟达这种?其实他们也都占客户的成本挺大的,但大家又好像离不开它,这岂不是一种最爽的状态吗?对,那这个牛逼就之处是说它的这个就是强大到不可被 replace。但是宁德时代其实也一样的,很多车企也自己在建电池工厂,对吧?所以,但是因为宁德时代本身的这个保有量在,然后呢,客户也很认可,所以。
大家还是用了很多他的对,其实宁德时代和英伟达肯定都面临这种趋势,是包括像 Meta,像就是海外中国的所有的大厂,对 Google 也都在做自己的芯片,只是说它目前这个阶段它仍然是不可被替代啊。所以我觉得,我觉得这个算是第二个嘛。然后第三呢,我觉得其实要非常啊,当心这个项目陷阱,就是说。我觉得做to B会非常容易陷入到一个一个的项目里边去,就是,呃,因为,B端非常容易客户的需求是多样化的。
那在这样个多样化的需求里面,我们到底我的产品是标准化到什么程度?我什么是配置化的?什么是定制化的?但如果是,一旦是说你当你每一个项目你都要去给客户去做定制化的时候,你的这个业务的这个scale其实会有非常大的问题。所以呢,我们总结下来就是说,希望呃去找的这个业务就是你给客户的这个价值。是清晰的、可被计算的,然后呢?
第二呢是说,能够在这个这个呃。产品的标准化程度上是能够你能够做成一个产品公司,而不是做成一个项目公司的这么一种形态,我们认为是一个更好的一种业务形式。嗯。我觉得可以以旷视当时你曾经负责的一个业务,也和现在其实做具身智能是比较相关的,就是你们当时做物流机器人这个业务。可以来展开说一说,你当时是整个业务的负责人是吧?
你就商业化这些,你你也都负责?对,都是我负责。对啊,比如说以物流业务为例啊,就是说我们现在的这个呃收入构成,其实也是大概可能是一半一半。我们大概有一半的业务是来自于项目收入,一半的业务是来自于产品收入。就是项目收入的意思,就是说我其实这个做这个给仓库去提供啊这种搬运机器人啊这样的一个方式,它其实就非常像啊这个做装修。
啊,因为你的房子长什么样子,对吧?你的业务流程长什么样子,所以我大概率是要一定要去定制化一个东西,去 fit 你这个房子长什么样子,就非常非标。对,非常非标。我们其实,在前几年的时候,当我们做的每个项目都做了很不一样的时候,这个就非常的痛苦,你的这个 scalability 是有很大的问题的。那我们后来就是觉得是说,一定要在这里面要寻找标准化,所以我们把仓库其实分解成了很多个环节。
比如说入库的啊托盘存储区、箱式存储区啊,然后发货区,但每一个环节里面,我们用一些标准化的解决方案,我们用标准化的产品来来来来解决掉,就相当于把现在把一个定制化的事情,就变成了一个更加配置化的事情。然后,同时我刚才讲还有百分之五十的我们的收入是这种产品化的嘛,所以我们其实前面还有一个集成商,他拿着我们一些标准的这种
component 的,他搭建成了一个,就是我们就提供一些积木块,让他能够去搭建成一个一个完整的一个解决方案。
旷视开始布局机器人的业务应该是在一六年左右。对,一六年,一六年当时是看到了什么机会要来做机器人?其实这个和计算机视觉,嗯,它当然用到了计算机视觉,但它又还有很多别的技术,它是有一点gap的。怎么想到要去做这个东西?对我觉得这个在应奇和我的这个心中,我们其实都有一颗想做机器人的梦。我们从做 Day One 就开始。
对你刚刚说,你们最开始也是觉得以后机器人都需要眼睛,所以你们觉得计算机视觉是一个很有前景的技术。是的,就是那个旷视的名字当时叫 Mega Vision,我们叫 Mega Vision,就是说叫就让机器人先能看懂世界。当时就是这么一个想法。所以,我们其实呃,反正当年也非常机缘巧合吧,就是我跟应奇一起去了一个叫呃。
那个在天津的,呃,天猫超市的仓库,然后我们当时就看到里面有很多的人,然后里边的人呢,就是拉着个小小车啊,然后再开始在拣货,就是给那个。呃,北京周边的这些北京、天津这边去发那个天猫超市的那个订单,然后呢,他们一个拣货员啊,在仓库里面非常冷,因为它它很高,所以它没有暖气。然后我们当时去的时候,零下十度。
然后呢,里边的每一个人拉拉着那个小推车,他们说他们那个一天要差不多要走四十公里,所以他们每天都在零下十度的环境里面。一个马拉松啊,就非常的夸张。然后呢,他们说他们的人员流失率啊,他他让我们猜,就说你知道我们人员的那个那个一年这个这个流失率多少吗?我说百分之六十。他说你这个就就缺乏想象力啊!他说我们的人员流失率一年是百分之两百,因为这个工作实在是太辛苦了,所以我们觉得是说我们内心本来就想做机器人。
那我们先让机器人看懂世界,那我们其实也是非常希望能够有手和腿能够去形成对物理世界的输出。所以我们觉得,哎,仓库这个场景确实是有很大的这个需求。所以呢,我们在那个时候其实也投资了一个公司,后来我们也把它收了进来。啊,然后啊,通过这样的一个方式,这个逐渐逐渐就形成了那个物流机器人的业务。这还不完全是个人力替代的问题,它其实是帮助这个仓库的这个客户去,我们叫省人、省地、省钱、省心。
因为它其实从人员管理上其实也很复杂,而且人真的,你看物流它其实是发生在消费周边的。对吧?所以消费周边的人一定是贵的,而且经济条件是不差的。所以这些人他就真的不愿意去干那些年轻人,谁愿意去干那个仓库里面零下十度、天天一个马拉松的这种这种活呢?所以,他整个就招人是非常困难,啊,就这还不仅仅是个经济上的问题。
那我们看到就这样的一个问题,其实在国外是非常更严重的。比如说在韩国、在日本,对吧?在包括在欧洲、在北美,其实更加没有人愿意干这个活啊。对,因为其实最开始像Kiva这种方案,就是亚马逊。在用嘛,然后后来也把可以把这个公司收了。你们当时做这个和那会儿这个创业潮有关系吗?其实当时也有好多物流机器人的新公司成立。
对,当时几十家快仓啊,就差不多都是在那个时间,跟他们倒没什么关系。但我因为我们自己也一直想做机器人,我们也觉得是说 somehow 这个机器人也也得跟你刚刚问的那个问题就有点关系,就是我们得找个相对标准的场景,因为机器人的很多场景其实非常发散,对吧?那过去的工业机器人其实最大的应用场景就是在汽车和三C,以汽车为主。
那其他的场景,整个的机械臂啊、机器人啊这种形态,其实它量其实都没起来。那我们觉得仓库是有可能能够一定程度上标准化的,因为它处理的对象,它要么是个托盘,要么是个箱子,要么是那个商品的那个 piece 就一件一件的。那所以它形成了一定程度的标准化,所以它更可能让这个机器人能够能够能够被用起来。所以我们觉得,就是仓库是一个非常好的一个一个场景,作为一个机器人的起点。
对,当我们就是真正想做的事情。呃,也不是说我们想做个物流的这个场景的这个方案提供商,而是觉得是说物流是可以作为一个起点,能够让机器人先用起来。那 eventually 它可以走出这个这个这个盒子,对吧?能够走到园区里,走到更开放的场景里面,能够变成一个更 general 的。可以说你们当时想做通用机器人,只不过当时可能没有具身智能这个说法。
对,当时我们也没有这个技术。我觉得很多东西是需要等待技术的变化的。那当时做这个通用机器人肯定是不现实的,而且当时其实很多机械臂的啊一些应用其实都做的非常的不好。那当时的新的技术有什么呀?那个时候其实很大程度我们觉得是觉得是。调度是偏一些运筹和偏呃强化一些方法吧,就是因为一个仓库里面,我们当看到有很多类似于像Kiva这样的一些机器人之后,它其实真正决定它效率的是那个调度系统,就是如何能够让更多的车能够协同的工作起来。
我货放在哪里啊?订单谁优先处理?然后这个小车到底以什么样的一种交通的方式去多车的这种调度,这个事情其实才是更重要的。而这个事情就跟我们当年搞竞赛的这个事情其实非常像。所以我们觉得这就是exactly就是我们非常擅长的事情。嗯,这是个优化问题,是个优化问题。对。那二零一二年开始的这一轮深度学习热潮,因为其实当时从一二年到一六年也是有一波AI热的嘛,当时的。
AI的技术外溢到这个领域了吗?有哪些地方是可以帮助机器人的?但是我觉得有一些吧,但不多。那个差不多一五年的时候是那个 AlphaGo 和 AlphaGo Zero 吧,对吧?所以那个时间点的时候其实是通过啊,其实机器人的调度这些问题,其实它也可以被认为是一个下棋的问题。对,所以其实是有一些强化学习的方法是可以被用到,就是今天的这种这个机器人的这个调度调度调度优化里。
是的,是的。所以这个技术上其实也在发生一些一些变化。在没有后来的新的技术变革的时候,你们用当时的一些机器人的技术、一些AI的技术,你们后来就是做到了哪些应用上和商业上的结果呀?我们其实服务了很多这个这个呃世界五百强的公司,比如说可口可乐。雀巢啊,优衣库啊,在海外其实也服务了很多客户。然后优衣库其实是个非常有意思的客户。
我们在一九年的时候参与了上海优衣库的投标,那个仓库每年发的货值非常的夸张,发货量也非常的大。那个仓库呢,啊,他就希望能够打造成一个自动化程度非常高的一个仓库,所以方案无比的复杂。优衣库呢,在国内几乎把所有物流机器人公司、自动化的公司全部都叫了过去,就跟超女选秀一样,一轮一轮筛。哦,你们是所有人一起去吗?
还是?就是一波一波一起去了,还是单单独建的?每个都对,他是这样的,他一轮一轮评选,他第一轮就是所有人先去提案啊,提案完了之后说好,那第一轮。哪几个不行,你们就可以下次不用来了。好,第二轮提案,第三轮提案,一共做了五轮。然后我们那个项目也用到了有上千台的机器人的一个数量,一个复杂性非常之高。我们当时也是依靠我们的这个比较强大的一个调度能力吧,所以就是客户也选择了我们。
我们跟客户讲了这么两点,说这么复杂的一个项目,最后决定它的这个效率的靠的是什么呢?靠的是软件和算法。他说他们特别认同啊,然后我说这个我们绝对不是这个最有经验的这样的一个方案提供商,但我们绝对是在算法和调度上。这个最强的没有之一,他们也非常认同这一点。我不知道这个项目就是它的价值多大呀?像这种项目最后拍板需要到优衣库的创始人级别吗?
基本上是就是接近创始人这个级别了。你们最后是不是和创始人见面了?我记得有一次好像是应奇说你去,对我去日本去见他了。我去见了刘金这个项目,因为由于它非常的复杂,有很多家公司一起去投标,这里面就有很多to B里面的一个陋习,就是大家做了很多的old promise。那这家供应商说他能干这个。我们认为技术上是做不到的,但他说他能,客户就问我们他能,你能不能?
那这个时候你是不是只能硬着头皮说我也能?于是我们其实是说承诺了很多,其实实际上我们觉得技术风险非常高的这样的一些一些事情。所以当时整个项目里面其实充满了风险,很多东西我们都不知道最后能不能搞得定,但我们硬着头皮说我们能搞定。然后最后呢,差点搞砸了,确实差点搞砸了。就是我们会发现说这个仓库刚啊我们全部弄完之后,呃,我们就那个目标效率是百分之一百的话,我们其实只达到了百分之四十。
所以就巨大的gap,然后我们当时这个时候就觉得已经完蛋了,然后客户也觉得说,那你这这这怎么弄?这个仓库根本没法用,而且有很多一些,呃,因为时间表也非常紧嘛,所以我们很多东西上这个,呃,叫做。技术方案上其实也有一些问题啊,然后我们当时就痛定思痛,也跟客户去解释,就说希望再给我们一些机会。我们觉得就是说我们已经踩了一遍坑了啊,我们也知道问题在哪里了,那我们也有决心,也有信心把这个问题解决掉,所以我们最后让客户给我们延期了半年。
啊,然后我们把所有的code都推倒重来了一遍,好,然后最后搞定了这个项目。然后就是后来去见刘景的原因,是因为他们也觉得这个方案实在是太复杂了,太难了。他们也没有想到我们真的最后能够把他们搞定。他们觉得这种这个。他觉得这个锲而不舍的精神其实也非常的也非常的不错啊,所以他后面把一些这个其他的项目其实也都那个交给了我们。
所以你们是转危为安,你们把一个事儿又重新给他弄好之后,你去见的创始人。对,是的。所以我自己觉得就是说,这个做to B,你说你刚才讲就是说有什么经验教训?呃,我觉得今天我也不知道这个答案是什么。就是说,因为大家在竞争的过程中,我认为是会有非常多的 over promise,就是因为我要拿下这个单子,所以我会跟客似乎因为竞争对手在客户那儿在吹牛,但我如果是非常。
真诚和实在的跟他去讲这个事情,我很容易我就拿不到这个case。那你们曾经试过非常真诚、实在的去讲,我就是做不到吗?于是我们很多case就丢了呀。我认为这个东西是呃呃跟你当时的整个的这个地位有关。当客户认为说你就是那个权威,就是那个专家的时候,你跟他说你做不到,他会信任你。但是如果呃你当时还没有在那个位置上,那你说你做不到,他只会认为你弱。
嗯,对,然后有一另外一个人,他说还行,对吧?那这就是个很尴尬的事情,所以就是说,所以我认为这个会导致一个畸形,是说,呃,大家的这种over promise提高了客户的对一些事情上的一些把这个一些期待提到了一个。不切实际的一个状态,然后最后让很多的事情其实的这个结果是不好的,那也也摧毁了很多客户的信任。
所以我认为这个其实也是现在的一个to b市场里面的一个一个问题啊。那你们就没有遇到,比如说你的一个竞争对手跟客户说我能做到,实际上他也做不到,最后做了一段时间,这个因为这个标可能又会流出来嘛。他可能又会去找别的供应商。呃不,这个其实不是的。首先,你这个这个反馈周期可能是一个以年计的一个单位,对吧?那他说他行,他先上了。
好,那首先这个标是不是就给了他?他给了他之后,他可能过了搞了半年才搞砸。你要半年之后才看到这个情况。那客户说啊,完了,这个东西搞砸了。他搞砸了,客户也丧失信心了,他也不想再搞这个事儿了。然后一般来讲,这个时候大家其实也羞于去谈一个失败的项目,所以大家其实,在,呃,市面上其实不会听到太多失败的case,因为大家不管是从供应商的角度还是从客户的角度,大家其实都不想去谈这个事儿。
嗯,对,所以我认为这种情况现在依然存在。但是,你比如说,我们现在跟客户,其实当我们建立了很好的信任之后,我们会告诉他,什么东西这么做其实是有风险的,他的问题可能在哪里,我们可以一起来想个办法,能不能去做小规模,可能去做一些实验,去验证这个东西。那当互相是一个很高的信赖程度的时候,我们就可以很真诚的去探讨很多的解决方案。
但是,如果你是一种很这种竞争式的这样的一个情况下,很多时候就会变成一种over promise的一种状态。你在具身智能行业观察到了哪些过度承诺的现象?我认为今天其实很多啊。我觉得就是说,现在就整个具身智能行业里面,就是说,在除了文娱、除了科研,那到底有多少机器人是在被持续的在运行和被使用?其实也不太知道。
对,首先一个机械要怎么样有用啊?就第一呢,就是你得要把客户的这个场景真正的能够关闭掉,能够真正的闭环的实现他所要的功能,而不是说,哎,我我在这种情况下是OK的,我换一个情况可能就不work了,对吧?所以它就就得是一个。就是闭环的一个一个,这是第一点。第二点呢,是说客户的算账是能算得明白的。嗯,对,这两点满足的情况下,客户才会批量的、持续的去使用它。
那我们今天就是说,其实很多的场景,呃,我觉得我们很多都是更像 POC,更像
P2,就是大家就是其实就做了很多的摆拍,但真正是说它是不是被持续的用起来,我觉得,呃,我觉得就可能也打个问号吧。然后呢,那现在就是说从客户的这个角度来讲。也有很多的这个厂商,就是大家其实,在拉高大家的这个期望,技术型其实可能并没有达到那个状态,但大家就说,哎,我这也能,那也能,但最后可能这个结果
ending 可能不会很好,大概率达不到那个原有的这个期望,所以我认为是说,真正的落地这个事情呢,就是还是得要比较务实的、有效的去推进真正的这个机器人在场景中的使用。
那你们会怎么选择喽?你们是要参与,稍微也过度承诺一点,因为技术也在发展。我觉得我们今天跟跟几年前还是会不太一样,就是我们今天其实是有很多的,呃。跟我们已经建立了信赖感的客户,就是因为跟呃这个我们的物流机器人公司也好,其实是有很多我们跟很多的客户已经建立了基础信任。他们知道是说我们这帮人是什么样的风格,对他们信任我们说,当我们说no的时候,我们是很认真的在跟他讲,我们寻找一种方法。
How to yes,然后找到一种方法能够来解决他的问题,所以他们会有这样的一个信赖感。那在这样一个信赖感的情况下,我不需要去跟他去 over promise,对。然后第二呢,我们也会告诉他,就是说,哎,我们今天的这个机器人的水平,今天模型的水平,对吧?我们比如说在 Robo Challenge 上,大家就仅仅仅是桌面任务,大家能做到百分百其实是做不到的。
那做不到百分百怎么办?我们今天,那我们就不要假想着让机器人做到百分百。我就告诉你,机器人现在就是做不到百分百的这么一个状况,但我们需要去设计一套完整的工作流,使得就是说你做 failed 之后,你失败了之后,我依然是有方式能够给你兜住底的。你的工作流是完整的,那以这样的一个一一套系统的形式,我来提供给到客户,但同时我能够帮你把账算明白。
那这是一个更有效的一个,就是真正的务实落地的方式。嗯。如果总结来说的话,就是在这一次成立新的元领零之一这个公司之前,旷视之前的机器人业务,你觉得在技术上和商业上做到了什么成绩?做到一个什么状态?呃,我觉得就是旷视的这个机器人业务,我们现在叫元力聚合机器人啊,所以那也是个单独,现在也是一个单独的公司了。
现在名字叫元力聚合机器人,然后我们的品牌叫Atomics,就是原子的聚合的这种这种这种这个意思。然后那呃,我觉得就是业务是属于这个叫。我觉得就在进入到平稳的增长期吧,就是因为相对来讲,我们的这个呃,就搬运型的这个产品,我们不管是托盘类的还是相似的这个产品,都已经有比较成型的这个产品的形态,然后客户啊、销售啊、呃、渠道体系啊,其实也都有相应的一个比较成熟的一个体系,所以,然后增长也蛮快的。
然后我们现在的那个海外占比在非常快速的在提升,大概是能做到一个什么样的市场规模或者收入规模了?对我们现在大几个亿吧。就是呃,但我们现现在手上有很多的订单,就是没有确认收入的订单有很多。二五年要重新来成立,就是一个专门做具身智能的公司,当时是怎么考虑的,以及说在旷视是怎么去提议的?对,就是我们首先其实还是看到了很多这个技术上的变化,所以呢,就是很早就是那个。
呃,小强儿、金银天才,他们其实已经在做一些相应的一些实验了。就是我们在看,就是说用大模型驱动的这个方式去驱动几个机器人的控制,对做 V L A 的一些工作。其实很早我们就开始做了。你说的很早是哪年?在呃二四年,二四年,对,二四年我们就开始做做相应的一些实验。然后元历零七正式开始运营,我理解应该是二五年的春天。
对。中间这几个月的时间是在准备什么了?呃,我们在做这个重组嘛,旷视呢还在北京啊,然后这里边有一些退出的股东呢,其实也有这个新的这个基金啊,然后来承接了他们的股份,有这么一个过程。所以这个过程其实是一个蛮,啊,蛮复杂的一个交易过程。所以当时就是那个中介团队啊,应届也好,我也好,我们就花了很多时间在事情上面。
嗯,因为你刚刚说的那个是园林聚合拆出来了嘛?那园林林基和旷视和之前的这些股东,它是个什么关系了?我们原来的老股东们其实是在园林林基这边是持了一股比的,所以这是这个分拆出来的时候的一个setting。对,嗯,对。其实就这样一个相对来说,它还是有一些历史的,包括有一些老股东占比这样一个结构,中间交易也持续了几个月。
嗯。哦,然后又赶上具身智能创业非常火热,嗯,像范浩强这些人为什么没走啊?怎怎么大家还是一起等在一起来来创业?包括中间我不知道会不会有人去找他们,对创业或者是去挖他们?对我觉得肯定有啊,我觉得就是因为就是小钱儿进天才,我觉得这些人其实都不缺机会了,就是其实很多人都想拉他们。我觉得,呃,那大家为什么之所以还能在一起呢?
我觉得可能几点吧。我觉得第一,我觉得是说。这个大家还是相信我们这一群人在一起,能够把这个事儿能够增加它做成的概率。我觉得是说,呃,大家这么多年的这种配合、信赖程度,对能力上的这种信任程度,加上我们的一些业务上的积累,包括我们物流机器人那边的这个客户啊、场景啊这样的一些积累,啊,我们都认为是说大家一起干,其实这件事情是能够有更高的概率干成的。
所以,我认为这是大家今天没走的一个原因。当然,就是还有很重要的,就是这个兄弟感情,其实也是很重要的一部分,对吧?嗯,对,像范浩强和周尔进,相当于他们十几岁的时候你就认识他们,你们应该认识十几年了。对,在一起工作十几年了。我跟小强认识是他初一的时候,然后我跟尔金认识是他可能也是初二,可能哦,就所以他也是因为参加了那个比赛,所以他中学你就认识他了。
对,尔金跟我因为还是我俩还是那个同一个高中的哦,你是老乡对啊,所以就我们就认识的更早啊。对,然后小强是因为我上了学之后我去人大附讲课啊,然后就有个小孩子就特别厉害,就每天坐在第一排,然后因为人大附很多孩子都很聪明嘛,所以大部分都很聪明但不认真啊,这是一个又聪明又认真的孩子,我就我当时就印象特别深啊。
对,然后后来就是果不其然,就是初三就进了国那个集训队,然后就高一就进了国家队,然后去IY还拿了第二名,所以这个还是还是挺厉害的,对。嗯,对,我觉得旷视这群人,但这确实我也是比较好奇的一个话题啊。就我觉得大家还是在一起的时间非常久,嗯,包括像张祥宇在街阅,他以前也是在旷视研究院,嗯。对,也是可以说一直就是在一个就大的这种体系里吧。
对,我觉得就是还是,我觉得就是说这个这个团队之间还是有一种互相吸引的力量的。就是说,呃,我觉得强的人会喜欢更强的人在一起,大家彼此之间的这种互相认可度是非常的重要。对,所以就是说旷视研究院,我觉得就早年我们的人才密度很高啊,然后每个人其实都很强。那大家互相maybe可能有的时候意见不一样,但大家都觉得说,哎,你每个人都是一个非常有想法的人,是一个非常强的人。
那这个其实也更加吸引了更多强的人能够一起加入进来。大家就觉得这帮人凑在一起是能够去做出很多不一样的东西来。嗯,你们最多的时候是不是有十几个AI的金牌?对。我们N
Y的金牌更多。其实现在大家很多AI公司,包括一些大厂,也是强调这个,就是非常高的人才密度嘛。嗯。但这个其实并不能直接转化成商业上的成功。我觉得人才密度能够转化成生产力,能够转化成就是说,其实是一种叫做更高效的一种配合,就是很就是互相一群足够强的人在一起,大家很多事情我不需要那么的流程化和机制化,它很多的这种化学反应可以天然的形成啊,所以它的整个的这个迭代的效率和节奏是能够变得更高的。
那我我认为这是带来这个好处,但是我们到呃。呃,商业也好,到落地也好,那我们其实很多时候需要对客户的很多的洞察,对问题的理解,把这个事情不仅是说把最难的那一趴解决好,也要把那些很脏的那些活都要解决好。那这个时候其实很呃,可能会需要另外的一群同学,我们一起要来配合做这个事情,因为强的同学他有的时候他的兴趣点他会。
更愿意去解决那个最本质的问题。就我们以前研究院那个有一个挺逗的,就是我们大家有句话叫“这不本质”啊,就是他们大家都想去解决那个本质的问题,那个不本质的问题,大家就其实是。这帮人其实他的那个兴趣就会急剧下降。就这是研究院的研究员高平会是诱导的一句话。对,然后这个话可能从从从我从应奇啊,就是我们可能也也有时候会说这个话,我们自己三万号自己也会有有这样的一个坏习惯。
但实际上就是,当你真正变成一个商业化的产品的时候。那你所有对客户有影响的东西都是本质的,对吧?它不是那个最后最难的那个事情,它才是本质的,对吧?对,所以我觉得这个还是需要团队的搭配啊。你觉得最强的人怎么看?财务回报这件事情了,因为其实旷视创业很多年,包括像自己可能都是跟你们差不多时间成立,比你们晚几个月吧。
我觉得就是财务回报,我觉得对大家来讲肯定是非常重要的啊,所以我觉得这个其实也是,呃,印奇跟我我觉得我们心中有愧的地方,就是带大家创业这么多年也没挣到钱。但我觉得就大家其实,在财务回报之上呢,也有更高的追求,就是其实还是对事儿,对于把这个事情能够做成,对社会的这个影响力、这种价值感啊,我我认为这点上会有更高的一个追求,但是依然就是财务回报,我认为很重要。
就是因为元林林基作为一个新的公司,你们其实有一些旷视之前的股东,对,也有很多旷视之前已经非常资深的元老级的人物。那你们在吸引新的和现在你们要做的事情更match的一些人才的时候,嗯,你们能给到一些什么样的激励呢?比如说像期权啊这些,它和一个崭新的创业公司相比,会有什么区别吗?我觉得我觉得没有差别。我我们现在就是一个崭新的公司,所以我们的所有的这个这个激励的方式,就是一个按照完全按照一个新的公司来。
包括期权池的份额也都是跟新公司差不多的。我们留了个百分之三十的期权池啊。所以你们现在实际上,比如说你有算过你们有多少是以前旷视的同事,有多少是后来你们新引进的一些人才吗?我们现在大概可能百分之四十是原来的同事,百分之六十是那个新的同事。嗯啊,现在是大概一百人左右,对,一百人左右,对。那到这次创业就是二五年,你们开始正式运营之后,当时看到具身智能行业是一个什么情况,以及你那会儿判断就整个具身领域。
呃,面临的主要的问题或者说要解决的任务是什么?对,我觉得就是说,当时的这个似乎资本市市场上开始在变火,就但不像今天这么这么这么这么火热。我觉得已经但已经有这个苗头了。但我觉得就是说,我们看到的更多是一个叫做技术的变化一个变量,就是说。呃,我之前跟一起说,我说我们历史上每一次技术变化都低估了它的这个变化速度。
就我们最早的时候,比如说深度学习,那深度学习的时候,我们其实也没有那么信深度学习,说哎,它能够比原来的这个这个什么SVM啊,就这样的一些方法能够好多少?哎,但我们最后发现说,效果发展的非常快。然后呢?第二呢,就是后来比如说 Transformer 出来之后,当时祥宇还发过一篇文章,叫 Make CNN Great Again。
哦, Make CNN Great Again。对,就是我们为什么 Transformer 出来是 Make CNN Great Again?因为当时就是有一些 performance 上,就是 Transformer 已经比 CNN 要更好了啊。但是呢,我们认为它在数学上有很多东西形式上是等价的,所以呢,就是祥宇就也还发了篇文章,就说啊,我们 CNN 同样的。
啊,也可以拿到这个效果。我们还还有这样一篇文章,但后来发现 Transformer 的这个发展其实非常快,对吧?然后包括智驾,智驾我们其实最一开始的时候也有很多人在怀疑,就是说这个事情到底能不能够搞得定。但我觉得也是半信半疑啊。然后那今天我们大家可以看到,就是智驾的很多这个变化,Robotaxi 都已经上街了,对吧?
所以,就今天到机器人,我觉得也是一个技术上的变量,就是说,我们通过端端端的方式去形成这个机器人的控制,这件事情到底能不能行得通?那今天的performance可能还只有,比如在Robo
Challenge上面,桌面任务都可能只有百分之五六十的成功率。它其实是非常低的,但是它在一个一个巨陡的梯度在在进步,所以我觉得就是还是就是真的是我们我们都不断在提高我们自己的这个阈值,都觉得是说哎,它会变得越来越快,但依然每次都比我们想象中更快。
就因为有更多的资金、人才和大家的专注度涌入进来,所以使得这个创新其实变得变得变得更快。所以我觉得是一个非常令人兴奋的一件事情。那对于机器人来讲呢,就是说,我认为这个问题其实就在那里。我机器人是一个我们对于这个叫AI之于物理世界的这个终极形态的一个想象,对吧?那所以。如何能够在物理世界里面能够去做这种生产力的输出?
那 suppose 就是机器人这样的一个形态,所以我们觉得就是说今天的这个技术变量 potential 能够带来非常大的机会,而且需求很显然就在那里。那你觉得具体的几个瓶颈,或者说先要解决的几个事儿是什么吗?对,我觉得今天其实最核心的问题其实就是。模型和大脑的问题。远离邻街的小伙伴,我们大家讨论了一下,说我们的使命到底是什么?
我们最后用了一句非常朴素的话,我们的那个话这么讲,我们叫打造智能的、有用的、啊可信赖的机器人啊,这是这是我们想做的事情。然后我们说,为什么是这三个词呢?就是智能是因为今天技术上的变化是我们这个这个开启这家公司的一个原因,所以这是我们就是所以智能是它的核心。然后有用什么是有用的?就是有用本质就是你能。
能完整的解决问题,对吧?它就能有用。然后第二,它账能算明白,它就才能变有用。可信就是说,它它是那个机械臂的问题吗?它不是的。它那机械臂也好,那个camera也好,其实很多其实都OK的。但问题是它。它不够智能,它不能够很好的去完成那个那个任务,所以就是今天核心瓶颈是这个有用就卡在智商上。然后可信赖也是一个问题,就是说可信赖当然当然有安全性啊、可靠性啊这些问题,但智商低其实才是最大的不可靠,对吧?
所以我们认为,就今天其实最核心的问题,其实还是回归到就是说,到底模型、到底算法能够让机器人能够变得多智的这件事情,其实是最重要的。嗯,对,因为二月十号你们有一个技术发布会嘛,对,当时你们也讲了,你们比较。相信的一个方法是说具身原生,嗯,这个可以就是讲讲什么叫具身原生吗?现在因为大家的整个的技术框架都在用WLA的这样的一个方式嘛,当然Word Model跟WLA其实也有很多的这个就是互补的这些地方。
那现在的VLA很多公司的训练方法是说,OK,我下载了一个开源的VLM,然后在后面加了一个action的模块,然后呢,我就开始去训这个VLA,这是大部分公司现在是这么做的。但这个导致的一个问题是什么呢?就有点像一个九年制义务教育刚结束的初中毕业生,然后你把他拉到了体校,然后你就开始给他狂练体育啊,然后练完了之后呢,就是说你会发现有两个问题。
第一个问题是,他由于没有从小开始练体育,他根骨不健壮,对吧?所以他的整个的VIA的这个能力是有上限的。好,然后第二个问题呢是说,呃。你狂练体育的那三年,你有可能就把你的原来的语文、数学这种这样的一些一些一些这个文化课水平就就拉下来了啊,所以你会发现说,今天这个 V L A 里面的这个 V L M 的能力,很多时候效果已经不是不是特别好了。
你意思就是说,在 V L M 上加了个 action 的模块训之后,反而会影响它本身多模态那个模型的能力?是的,会会会会巨大的下降。这个在技术上是为什么呀?其实,在 L L M 上加上就是视觉,加上多模态。它经常也会影响大语言模型的能力。对,这很那这这很简单,就是说这个东西就是说你是一个就是你拉去上体校,你文化你语文课数学课没上了。
啊,所以那你就练完三年体育之后,你确实语文课、文化课水平就不行了。所以就是说,他得要你既上体育课,你还得上文化课,所以他得要一起做co train。所以呢,就是说,那这是我们现在看到了一个问题啊,两种方式要去解决这两个问题。第一个就是说,他得要从小。就要开始练体育,对吧?所以最好是说他们在 VLM
一开始初期的时候,我能不能就让他见到机器人数据,而不是在一个 VLM 已经被训完了这个之后再去看机器人数据。
你指的是预训 VLM 预训练的阶段。VLM 的预训练不是 VLA 的预训练,对。所以这是这是这是第一个。第二个呢是说在 VLA 训练的时候,我也不只是去训这个 action,我同时也去训它的这种 grounding 啊,这种这种 VQA 啊,就是这样的一些偏。偏 WLM 上面一些能力,我去做 core training,那这样子的话呢,就是这个就可以使得它的这个文化课的能力依然能够被保留。
所以这是,所以我们现在看到,比如说像像 VLM 的这个训练,其实也有这个叫原生训练和嫁接训练两种方式嘛。就是一种是说在大语言模型 LLM 先训完了,然后完了之后再加 video 的 data,然后再去做 alignment,就这样,这是一种训练方式。第二种是说 from scratch,就是从头开始去训这个东西,对吧?
嗯。所以有两种方式,就一个原生多模态的。对,原生多模态的。那现在很明显是说原生多模态其实会是,虽然可能成本更高,但是应该是会是效果更好的一种方式。Gemini系列一直都是原生的,那今天就是说具身也是一样的,所以那我们如何能能够去做到原生的这个 VLM 的 AI?所以就是说我能不能把机器人的数据在 day one 我们就加入进去,就把它变成一个,就是在 V L M 里面就让它看到机器人的数据。
现在其实整个物理世界里面其实有三类数据,一类呢是这个叫啊多模态的互联网数据,对吧?这是大模型公司里面现在比较多的。视频数据是一类嘛,所以在大模型公司里面啊收集了很多这类数据。第二类的话呢是支架的数据,其实相当于是在开放环境的一个最大的一个描述,在道路上的这个最大的这样的一个数据的描述,对吧?然后第三个呢就是机器人的操作数据,所以这三类数据我们觉得是说它应该在
day one 的时候就应该被联合起来送到一个模型里面去训出一个物理世界原生的这样的一个 VRM。
然后再给到 WLA,这个阶段就需要给机器人加开放世界的自动驾驶的数据吗?这个也取决于你对机器人的定义是什么。机器人的这个 VLA 的这个 A,它不仅仅是说我手的动作才是那个 action,我腿的动作也是个 action。那腿的动作的 action 和手的动作没有差别的,对不对?所以就是 visual language navigation 和 VLA 基本是一件事情。
所以就是那你加了这样的一个数据,你会增加它对更多环境的理解能力。就是你让它去做导航,那它的这个能力就一定会增强。只不过大家觉得机器人在早期的应用阶段,可能还不涉及到一个户外的环境。呃,就是如果你把它限制在纯桌面任务上,那确实可能帮助不大。但是如果我们对机器人的想象,我们今天想象的这个机器人的形态,不是是一个是说OK,我只在table top来做事情,对吧?
我希望它是一个更强功能,能够在开放环境、室内环境也好,室外环境也好,能够在泛环境下,能够去形成它的能力的泛化性的这么这么一个这么一个期待,对吧?嗯。所以你们的DM零对模型是这样去做的。对,所以我们的DM零就是说,我们其实是跟捷越一起那个训的这个VLM,这就是意味着你们是一起参与了预训练的过程。呃,我们就这里面训练其实分三趴,就是第一趴呢是一个VLM的预训练,所以这里面我们就相当于是说,啊,我们把一些数据我们其实掺在了一起,把那个捷越那边有一些这个多模态的数据,我们这边有机器人的数据,我们一起训了一个原生的VLM的多模态,我们加上一些支架的数据。
好,然后呢,基于这个 VLM,然后灵机这边再接着训,就这部分是相当于是大家合作一起合作联合训练的。然后呢,我们再接着去训这个 VLA,好,然后呢,再做 VLA 的 post training,啊,就是通过这样的一个 pipeline 去形成了一个一个更加原生的,就是从数据层面上也原生,从训练方法上也更原生的这么一个一个机制。
嗯,因为最近应奇也官宣他担任阶跃的董事长了,他同时也是千里的董事长。阶跃、千里、元力灵机,嗯,这些他都是AI技术,然后是不同的类型的AI技术,要用在不同的场景。这些公司之间什么关系?对公司之间是就是兄弟公司关系吧?对,所以我们就是也互相之间其实也有一些这个业务上的合作吧。有合作,但你们股权上没有什么关系,是吗?
对,有共同的股东,而且本身那两边是硬气在负责嘛,对吧?然后我们也有很多的这样的一些这种。互相可以合作的地方,因为有些数据是我们这边其实是有很多的这个这个,比如说机器人的数据,那节约是不会是没有的,对吧?然后那支架的数据是在那个千里那边,但大家其实是说其实是可以有一些合作,让这样的一些模型的能力能够更加汇聚到一起,然后这样的一个集模可以 benefit 所有人,可以对所有人都有帮助。
啊,那所以这是我们就是说在形成的几个兄弟公司之间的这样的一个合作。你们之前的数据是从哪儿来的?你们怎么采集的?对我们之前数据就是就是反正跟大家都一样,我们也在做采集啊。你你说的采集是指?也类似可穿戴设备这样去采集吗?对,反正有几种不同类型嘛。因为今天大家其实数据上也有,就是说到底是机器人以机器人为中心的数据,还是以人为中心的数据,对吧?
所以那以人、机械人为中心的数据,不管是通过遥操的,还是这种这种手扶的,还是通过什么外骨骼的这样的一些方式,或者通过一些什么无本体的、什么物密这样的一些方式去做采集的,那这是一类的。第二类的,我们也有一些这种 human-centric,就是说。呃,穿戴式设备去形成的数据,所以几类的数据其实是一个最后是个是个配方,它是一个如何去做一个好的一个混合的一个方式啊。
那合成数据在你们这个配方里有位置吗?我们现在用的比较少,我们现在以真机的数据为主。首先,你可能要定义一下什么是合成数据,就是我们现在但凡是采集的数据,其实都是合成数据,它只是在物理世界里边去合成的数据,对吧?因为它并不是真实的。哦,那我我指的可能是生成生成的数据嘛?对,仿真和生成的数据。对,我们现在用仿真数据用的比较少,因为呃,仿真数据在我们现在的这个我我们觉得是说在那些
contact rich 的这种这种。
就是操作类的这种事情上,现在其实仿真数据帮助不是很大,而且它其实仿的很难仿得很真,就是因为刚体就相当于比较好弄,但如果它是个非刚体,那就是现在渲染出来这个结果其实也也很难那。就也不准,对吧?然后第二是说,那我这些多模态的信息,力啊、触觉啊这东西,我能不能仿得很真呢?就其实也仿得不是很真啊。然后第三呢是说,仿真数据能够由于它的这个
sim to real 的这个 gap 很大,所以它能够对算法带来的这个帮助,现在看起来是比较有限的。
但是仿真数据在两个环境下,我认为是非常有用的。一个是做那个 local motion,比如说像语数啊这些那个像跳舞跳得非常的。酷对吧?那啊,那它这趴其实因为它其实跟跟世界的接触只有地面,它只要保持重心的稳定,其他的其实它并没有有太多跟物理世界的接触对吧?交互,所以这部分仿真是非常有用的。然后第二部分非常有用的就是说,可能去做一些更。
更更更 high level 的就是说,呃的理解,比如说去做一些任务的分解、任务的规划,它不用去做操作。比如说,呃,这样的一个环境里边,比如说这个把什么水杯收一下,它能不能够理解说,啊,这个事情是说找到哪个杯子,啊,要干一件什么样的事情,把水倒掉或者怎么样?那这种任务理解层面的东西,我觉得仿真数据可能是比较有用。
嗯。你怎么看?像李飞飞、苏浩还有黄仁勋,他们都提到觉得接下来合成数据,就世界模型对生成的这种合成数据,可能会对机器人是非常有用的。呃,我觉得我们反正也抱着开放态度去看吧。当然,现在核心要找的方式是说,我们数据一定要 scale 这件事情,大家其实是没有异议的,对吧?那仿真是一种 scale
的方式,那 video 数据也是一种 scale 的方式,那或者是说一些 human-centric data,或者是说让机器人真的被用起来之后形成的数据飞轮也是一种 scale 的方式。
但依旧为我们要找到一种 scale 的方式。那 scale 的关键就是我成本不能太高,对,是的。然后量要大,是的,对。但是呢,仿真的问题是在于是说仿真也好,世界模型也好。就像生成的这个东西,它生成的这个质量,它到底能不能够对现在的模型的学习能够带来帮助?这是个 big if。对,然后那今天互联网的数据里面其实也带来包含了很多物理世界的信息,对吧?
那比如说我去看的这个 video,那这个 video
里面的这样的一些信息能不能够对机器人这种操作能够去带来帮助,是也是很有可能的。但今天这个路其实也没有完全畅通,所以我认为是说这个,我觉得保持开放态度。然后,但我们现在的这个状况下,还是以征集数据为主。对,然后就是在你觉得对具身来说最重要的模型。这个问题上,我觉得有两种观点,一种是会强调具身模型它的独独特性、独立性,嗯,然后还有一种会觉得这是大语言模型的其实一脉相承的一个东西嘛。
你们和就业的这种合作,包括基于混合多模态,然后再来进一步做VLA的训练,嗯,我我觉得其实是。更多的去和,就大模型的这个技术结合的这样一种方式啊,就是它哪些具体来说哪些部分是一脉相承,哪些可能是具身模型要单独去解决的问题。对,我觉得这个首先可能还是有一个架构层面的一个一个方式啊,比如说现在很多公司都在提双系统。
这个双系统是指,呃,我们有个 System Two,是解决的是说,OK,是个慢思考,是个推理、任务分解、理解这样的一个一个能力的。那这部分的能力,显然现在的大模型。他的那个能力是非常擅长的,对吧?然后第二部分呢是这种叫做操作类的能力。那OK,那啊,今天可能是个V L A,那这个V L A是一个上面那个大模型大概率是跑在云端的,并且它的那个是一个更低频的这么一个交互的一个方式。
那机器人操作这个VUA今天可能是个十赫兹的,是一个中频的这么一个交互方式,所以这部分的这个模型到底解决哪些问题?然后,但是一个十赫兹的一个模型,今天其实去驱动一个机器人,其实可能还是不行的,因为我们有很多的操作,比如说这个这个呃,你要拿起来。呃,比方说,我要,我要,我要,我要,我要这么调整一下,转一转。
那你一个十赫兹的一个模型,你是不可能做出这种动作来的,对吧?所以,system一下面可能还有一个系统,还有一个模型,就是说我需要把它变成一个把力啊、把触觉啊这样的一些东西有个更好处理的一个。一个更高频率的,一百赫兹以上的这样的一个模型,所以有可能会分成三个模型。那这三个模型中间的大家的这个 interface 交接面到底是什么?
我觉得这个其实也都还是在很多这个是个开放问题。所以回到你说,就是说今天跟,呃,大模型到底有没有关系?我认为在 system two 的那个层面上,一定是有。强关联的啊,而且现在已经做得很好了,所以呃,很我觉得这个具身的公司其实大家是在这个system。这个 one 和这个 system zero
比,就是说就是一和零,嗯,就这两个层面上,就你说的那种更精细的、更动作层面的,是的,这种工作上去去做努力啊。
对,这是那个 system 零嘛,就但 system 一其实,在做的是说,我们也在做一些逐渐让机器人能够在啊,能够理解问题,能够理解任务,能够去执行操作啊。那这个事情上,今天其实 V L A 也还在一个很也很早期的一个阶段,对吧?做大模型的核心AI lab,像Google OpenAI,国内像字节,其实也都在做机器人做具身智能。
你觉得最终长期来说会被他们覆盖掉吗?因为他们有很强的基模。我觉得。还不太一样,就以前我们有个比方,就是说,你看梅西踢足球,你能不能学会踢足球?这可能还是很难的,对吧?就是你你看视频,你是学不会你自己踢足球的。所以就是说,今天机器人这件事情,你大概率和硬件还是会有一个很强的一个关联性。所以呢,就是说我们在就是说这个大模型公司会在这个 System Two 的这个层面上,我认为是有非常强的能力的。
但是在 System One 和 System Zero
的这个角度来讲,我们同样需要有很强的这样的一个模型能力,并且它需要跟很多的这个硬件啊。去形成关联,这是这是这是一个。然后第二个呢,我认为是说大家都在讲数据是个很大的问题嘛。那最后数据来自于哪里呢?我会觉得数据最终的数据其实是来自于。就是数据飞轮,但这里面有个集合弹的问题,就是说现在机器人它不成熟,啊,使得它不能被用起来,然后不能被用起来的,你使得就是你也不存在,就是说机器人被用起来之后所带来的这种失败,或者比如说接管的这样的一些数据,对吧?
今天有个这个集合弹的问题,所以我们一定要找到一种方式去解决,就是说要让批量化的机器人能够被用起来,然后这个过程中最回来的数据才是最有用的数据。所以,也就是意味着是说,今天这个数据不是一个大家靠采集,而是需要把整个的应用去做闭环,才能够。把这个数据飞轮和真正的壁垒能建立起来,那这件事情其实不是一个模型公司就是就能搞定的事情,所以也不是一个就是说今天大厂说哦,OK,我现在干一干这个事情就搞定了。
当然大厂,呃,他当然也可以投很大的力气去做,对吧?对,嗯嗯。对,我觉得取决于他现在投多少资源。对,因为他也可以去做硬件,也可以去做长颈鹿。是,我觉得就是说,没有什么东西是说只有你能做,别人不能做的。所以,但呃,任何一个公司最后他的这个精力其实是有限的,他没有办法做那么多的事情。你现在是觉得就这个行业最重要的问题是模型性能的提升吗?
那你大概预测的话,就是到什么时候他能慢慢去解决你说的这个鸡和蛋蛋和鸡的问题了?就是我才真的让一些嗯机器人可以在某些场景先用起来。对,我觉得今年其实就有希望。就是说,那这里面有两个部分,就是一个是模型能力的提升,一个是场景的选择。先讲模型能力提升吧。我们觉得是说,接下来模型能力提升的一个很重要的方向是叫多任务模型。
今天我就是我们在 Robo Challenge 上其实做了一些这个评测,对吧?然后评测呢,我们现在其实分了两两个 track,一个 track 可能叫叫叫专呃叫 specialist,什么意思呢?就是说,假设你有一个 VLA 的基模,有一个具身智能的基模。然后今天去完成一个任务的时候,我还是会给你这个任务的很多数据,你可以在这个任务上再去做一些这个后训练啊,然后再去评测。
所以就这个模型就相当于是在这个基模之上是被微调到了只处理这一个任务的这样一个模型。所以这种这是一种评测方法。然后第二种评测方法呢叫 multitask 或者是叫 generalist,就是说我现在可能有二十个任务。呃,然后呢?你现在我这二十个任务的这个样本其实都给了你,但是你只能训一个模型,这个模型就通过提示词要把这二十个任务全干了。
那它对模型的这个泛化能力其实是要有更强的这个要求了,对吧?然后第三个呢,就是说叫叫 zero shot,就是说。零样本就是说你根本就没见过这些 task,我也不给你任何的训练数据,你这个机器人来了之后就或者模型来了之后,我就直接就让你干这个事情,就通过提示词,我把提示词描述的足够的精确的情况下,能不能通过提示词直接去驱动模型把这个事情就搞定了。
这是第三个层面,对吧?所以就是,那我认为今年很重要的一点就是说,我认为到目前为止,大家其实都更多还就是在做这个 specialist 的算法,这是当前。那我认为今年大家的会要从 specialist 要走向 generalist。Zero shot,我觉得今年可能还还还有点做不到,还做不到。现在 Zero shot 实际上你们成功率,比如说 D M 零能到多少?
现在 Generalist 我现在也就才做到百分之三十几,那这个这个就其实还很低嘛。所以就是说要把 Generalist 的这个水平先提升上来啊,才能够去谈那个 Zero shot 的这个事情。所以我们认为就今年模型其实是会在 Generalist 上是有一个很大的一个提升,然后呢,使得就是说很多的场景能够被解锁的,这是这是第一个。
第二个呢,就是说,那我们要去用起来,就是集合袋的问题,我得还我场景上也要去做一些选择。我们觉得说,场景上其实是有几个,有几个,呃,叫特性吧,我们是可以去使得。这个场景是个更好的场景。我们内部有这么几个标准啊,就是说,第一个呢,我们说它得是一个叫错误容忍的场景。嗯,容错,容错率比较高的场景。对,就今天我真做不到百分百,所以你要允许我犯错,或者说你有办法让我犯错之后能够给我兜住啊。
所以这是这是第一个。第二呢,它得是个时间容忍的场景,就是说你最好不能有太强的节拍要求,因为我都有可能做错,对吧?然后而且我端到端的方式,我其实也不能保证是说,哎,我六秒钟一次我就一定能搞定。所以你的节拍上也不要有太高要求。然后第三呢,我们说它得是一个泛化的场景,适度泛化的场景吧,就是。因为如果它是一个特别
specific 的一个方案,我可能非标自动化的方案可能是更好的,对,所以然后第四呢,它得是个长时间作业的场景,因为否则我就没有这个投资回报,对吧?
你还是得让这个机器人一直在那做嘛,所以呢,这四个条件我们说这个它是个必要不充分的条件,我们需要去找到对时间上对错误容忍又具有泛化性又长时间作业的这样的一些场景,是今天具身智能更适合去落地的场景。对,有什么这样的场景吗?我觉得其实比如说像物流啊,就是一个很好的场景。物流为什么它容错会比较高?物流的容错的方式是这样的,就是说我可以让机器人先干。
假设我们可以让它去调度的情况下,那机器人没干完啊,就是假如它失败了,我可以再让调度系统给它送到人工那儿,让人工接着干就完了。啊,所以我就其实是可以用一套系统的方式去形成一个对他的一个支撑。我提供的不是一个单机,而提供的是一套系统。那通过这样的一套系统,去使得他的任务是能够被闭环的。就它有点像,比如说一个滴滴或者
Uber 的网络里,有自动驾驶的车辆,有人,有司机,所以就说最后它落地的时候,我认为就是它一定是一个不完全是一个纯机器人的一个方案。
是它首先它是一套系统,就是说让机器人先干,它没干完了之后,我也可以有远程的人员的这个接管,我也可以有就是说从这个工作站机器人的工作站搬运到这个人工的工作站,人工再接着干的这样的一种调度的这样的一个系统,所以有很多就通过各种方式创造让机器人能够去持续使用的。环境这个温室环境,我认为非常的重要。嗯,对。
那其实你说的这种方式下,我觉得确实得设计一个整个系统,对,让客户觉得我让机器人试,他有可能试不出来这件事儿,对我没有那么大的损失。对,然后基于此。客户算账还能算明白,所以就他首先就是还是两点,第一点就是说,我们刚才讲的这个兜底的这个方案,它解决的不是个Ry的问题,它解决的其实是一个叫闭环的问题,就是说我不能这个事情就是说机器人干到一半,哎,它它它搞不定了,它就变成了一个异常行为,就得要人去处理,那你的整个的这个这个系统它就不能够连续的顺畅的运行,对吧?
所以这个东西就只能做做POC,它不是一个真正的可被可用的东西。然后第二个问题就是,怎么能够把这个账能算明白?那这个账算明白,就是要把整个的系统的这个、这个、这个、这个total cost能够算在一起,依然能够让他把这个他的经济账是有利的。你们现在已经开始一些这样的实践了吗?我们在做,对这个有可以分享的。
这个我们我们应该会在今年年底吧。我们今年年底应该会有一些很有意思的一些东西,我们会拿出来给大家看。那在现在这种竞争环境之下啊,就是有很多公司在融资,有很多公司在呃,皮尔,比如说我可能有些什么样的落地等等,对。你们二十六年底才才放一些东西出来,你不会觉得这节奏太慢了吗?呃,我觉得我们可能可能还是做事的方法不太一样吧。
我觉得就是说我们内部的一个或者我们这帮人的风格就是说叫,就还是在讲这个技术性啊、价值务实吧。所以,我们一方面我们在让我们也会放很多的这种展示性的东西出来,让大家看到我们的进展,但是我们在真正就是从落地的层面上。啊,我们是真的在落地。就是我说的这个真的在落地的意思是说,我真的要闭环的解决这个场景里面的所有问题,而且这个账还能够算得明白,不是一个展示性的产品,不是一个P O C。
但这个事情的难度,我认为比做一个今天能够放出来展示性的东西的难度,完全不是在一个量级上的。所以还是回到刚刚那个问题,就是今天到底有多少机器人、具身机器人是在被持续的使用?有多少?你怎么定义被持续的使用?对啊,就是他一直在那干活,就是你每天开机十小时以上,好,连续两个月都开着机,然后是在真实的场真实的场景里面,且能够有有量。
我多多少算有量吗?对,那就一百台吧。对我就就随便拍个数字,就说你今天有多少个场景达到了这么一个状况呢?我认为可能几乎没有。所以,所以,所以,我我认为就是今天其实场景不在于广,就是说我们在从场景落地和我们去做这个算法突破这两件事情,其实它是一个。它是有夹角的,它不平行,但它也不正交,就是它有相关性,但它但它它不是一个完全
align 的一个事情,所以我们认为是说在算法上,我们需要以最大的这个投入和坚定的步伐去推动算法的这个演进,然后通过算法和模型去解锁了一些场景,但我们解锁的场景,我们也不用去做的很广,就是这个就是搞很多的场景,我们能不能找到?
两三个场景,这两三个场景我真正的能给他做闭环。这个闭环就在于是说,OK,我就在这单一的场景,它解决的问题是有普适性的。就这一个场景,有一千台机器人或者一百台机器人持续的在被客户使用。那我认为这个东西其实才是真正的这个这个商业上的落地啊!你们最开始会切入的场景,我理解应该还是你们有积累的物流这个大的场景,是吗?
这可能是你们首选呢,是。你们对硬件形态是怎么考虑的?你们是会做人形吗?还是服务于那个场景的一些其他的形态?我们当然同时也会做一些,就是说标准化的形态。但我认为,就是说最终进场景的时候,其实一个标准化的形态,很多时候其实是不太适合的。就因为它很容易走到两个状态,就是说我举例啊,比如说我们到一个具体场景的时候,它很有可能,比如说叫叫叫叫
underkill 或者 overkill,这个场景你很可能这个标准化的形态可能解决不了。
比方说,由于我们一些相机的安装位置或者末端的一些位置伸进去的时候都被卡住或者什么之类的,就很容易出现这种情况。然后那另外一种是说,哎,我恰好这个构型能解决这个问题,但是呢,呃,又有可能是说。这个这个它有可能会被过度设计,那在过度设计的这个情况下,你的成本可能是偏高的。那这样,所以所以,我我自己觉得是说,今天可能用一个完全标准化的形态去做硬件。
我觉得可能不是最好的一个方式啊。你意思就是说你们会有几种不同形态的硬件,然后组合?对我们会有不同的模块,我们会去做组合。所以我们内部的一个理念是说叫呃模型在解锁场景,我们通过场景去定义硬件。模型解锁场景,场景定义硬件。我觉得这个好像比模型定义硬件中间是多了一个环节的,因为有很多公司,比如说像星海图之前他们就会说是模型定义硬件啊,一脑多型嘛。
对,在模型其实对定义不了硬件嘛,因为很多时候其实硬件是决定了这个机器人的能力上限。就是说,因为这个东西就是说,你看我假设一个场景能不能够用机器人解决,我们就看遥操能不能搞定这个事情,对吧?就是如果你遥操也搞不定,那那这个事情你用算法再牛你也搞不定这个事情,对吧?所以硬件就是决定了是说这个机器人的这个形态能够在这这个问题上能够解决的上限。
是因为遥操这种方式其实已经体现了,就是人来操作的智力水平已经体现了,只是说如果他搞不定的话,就是这个硬件本身的精度负载别的问题导致的。是的,是的,所以就是说,所以相当于用人的脑子加上机器人的这个硬件的心心态去决定,就是说,哎,我这个问题可不可被解,对吧?然后呢,剩下的东西就是交给模型了。然后,第二呢,就是说,我们去到具体的场景中去的时候,我们经常会需要考虑这个
RY 的问题,我们就需要有一个很多时候的一些冗余设计,我们可能就在这个场景中可能就并不需要。
那举例来讲,比如说在有些场景里面,是不是我真的需要啊轮式双臂或者人形呢?我甚至有的时候,我机器人可能都不需要它动。我们现在看到的所有的这个人形也好,轮式双臂也好,它其实重心是非常高的,所以它其实是不支持快速移动的。就是你,它也就一米,啊,每秒开到什么零点八一米每秒,我觉得可能就就顶天了,因为它一开快,你只要一急刹车,它是会非常容易倾覆的,就是很容易倒,对吧?
好,那开不快。你设想一下,比如说在工厂也好,在别的一些场景里面也好,我可能用一个小的AGV把它送过来。我那个AGV可能贴地飞行,我可能可能开得非常快,可以开到四米每秒,对吧?所以那这个时候其实,呃,我们对这个具身机器人,我就你就站在那儿就好了,就你就别动了,因为因为你重心太高,我用重心低的东西其实运搬运的速度更快。
所以那在这样的一个情况下,其实它的整个的这种移动能力可能就是冗余的。那很多时候你可能就不需要。所以,当我们要去看 ROI 的时候,我自己觉得就是说,是需要去这个这个到场景中去的一个硬件。当然,就是说我们肯定不希望就变成一个项目化的,每个项目都是一个一个 customized 的一个硬件,都是个定制化的硬件。
所以,它核心是说如何能够变成一种一种模块化的一种这种这种拼接式的方式,能够快速的去组合成在这个场景中的一种硬件的形态。这是我们现在对这个问题的想象。就相当于你得抽象出几种。基础的像乐高积木一样的东西,然后它可以快速拼成不同的东西。对,我觉得原理比较特别的一点就是,你们其实对外讲了很多你们做的一些。行业基础设施的工作,嗯,包括像你们之前发了
Robo Challenge 这个测评是,还有你们做了一个叫做说具身里的 Pytorch 的 Dex Part 这个那个框架,对 Dex Part 这个这个开发框架,对,嗯,然后还有你们做了这个工工作流,对,Default 对吧?
对,也是把它都开放出来了,嗯,就做一个创业公司,为什么要做这些工作?我觉得首先就是说我们之所以开放出来,本身就是对对我们自己就很有用,就是说到底决定一个呃。模型公司也好,或者就具身智能公司也好,到底大什么是大家最大的竞争力?呃,这个竞争力是你今天的这个模型效果好呢,还是什么?我认为就是说,所有的模型其实大家都是在交替向前,大家都是在不断迭代,所以很重要的一件事情其实是迭代的效率。
而不是模型的当前的这个状态,因为你当前的状态其实也就是个五十步笑百步的状态,就是就它,所以它不重要。对,所以那,呃,那如何能够让它能够去快速的迭代呢?就需要一系列的这个基础设施的帮助。这个基础设施包括在数据的基础设施上,包括在训练的基础设施,在推理的基础设施,在硬件的基础设施,在评测的基础设施,我们认为这整个的基础设施是非常重要的,是这才是真正的核心的竞争力。
那所以呃,我们现在发的那个几个基础设施的产品,一个比如说像那个Dexbotic,就是我们自己内部原先我们要去复现很多的算法,我们要去做这些算法的比较,我们要去做这个很多的这种实验,就是如何呢能够让这些实验能够有效的进行,其实就是很麻烦的。啊,所以呢,我们自己内部也开发了一套框架,就是让大家所有人都能够在这样的一套框架上去进行一些实验的一些比较,做一个叫做面向实验的research啊的这么一个形态。
所以这是我们的这个从那个Dexbotic的这个这个初衷。所以我们一开始目标就是服务于内部,但我们同时觉得这个东西其实做得很好。我们觉得对其所有的这个 research 的这个人员其实都会有用,所以我们就选择把它开放出来、开源出来。然后呢,我们也希望用更多的人去用,也能够反哺到,就是说,这个框架能够做得更好,也能够来帮助我们自己能够能够跑得更快,比如说。
今天不是巨声智能公司现在一百家,对吧?我认为现在核心不是说是谁行谁不行的问题,而是这个行业到底多快能行。就是今天,所以我认为最重要的一件事情是说,大家要齐心协力来推动整个智能的发展,让这个智能的发展使得算法和的能力和技术的能力能够达到真正很多的这种应用的这种水平和标准。我认为这是今天这个行业能成立的最大的 big if。
然后只要这件事情能形成,我认为它可以存活很多家公司。但是如果这个东西行不成,那今天大家除了搞搞科研、搞搞文娱,就没有然后了。那那那所有的公司就都是泡沫。所以我认为这是那个最重要的事情。所以我认为就是说,我们把很多东西开放出来,就是这个也是就是我们。它既是利他也是利己的,就是我们就是希望让这个东西能够做得更好,所以这是比如说 despotic,对吧?
然后第二个呢,就是比如说像这个 robot challenger, robot challenger 其实我们呃就是也有几个目的,第一,首先我们是一个对内的评测服务,就是我们今天其实做很多算法的研发是是需要很多的评测的,因为。我也不知道哪个方向是对的,而且因为 sim to real 的 gap 很大,所以我们需要去基于真机的大规模的这些测试,能够给到我们很多算法上很多信号,对吧?
到底我们应该往哪个方向去发展?所以这个评测服务就是一个本身就是一个科研的基础设施。如果你都没有一个 benchmark,你怎么去衡量你的进步呢?对吧?行业也进步不了,我们自己也进步不了。所以我们觉得也把它开放出来,有一些 benchmark 能够来牵引大家一起,哎,来提升整个的算法的这个 performance,来衡量大家 performance。
我们认为也是一个很好的一个事情,所以我们也选择把它开放出来。所以,就是 robot changer也好, dexbotic也好,我们也其实都是希望是说,它我认为它既是一个利他,也是个利己的一种一种方式啊。就是逻辑上确实是如你所说,就行业现在都是创业公司,大家要一起努力把这个行业往前推。对。但另一方面,其实创业公司之间的融资和人才竞争也很激烈。
对。就你大家其实。可能不想用你开发的东西啊,包括那个 Robo Challenge,其实因为你们最近自己发了模型之后,然后你在两个榜单上,在 Robo Challenge
上都是第一,也会有同行觉得这样不公平啊。我们内部也有过这样的一个纠结,但后来就觉得就是说其实也没啥,因为所有的这个测试其实是公开的,就是因为呃大家想要去复现我们那个分数是非常简单的,你只要下载那个呃那个那个 Dexbotic 的框架,下载 DM0 的那个 code 啊,下载完了之后,你现在去提交
Robo Challenge,你就能拿到那个分。
所以我们公开了所有在每个 task 上的 fine tune 的细节,啊,然后包括 general list 的那个版本的这个细节,我们全部都公开了。所以它是可以直接复现的。所以我们认为就是说,我们自己教不教其实也也不本质啊。我们后来跟一些同行聊,大家也觉得就是说这个东西你反正都是公开的,都可以复现的,这个其实也也不本质,对。
所以我觉得回到就是 Robo Challenge 的初衷,我们果然输了两次副本局啊。继续说,对我们觉得就是 Robo Challenge 的初衷,就是我核心其实并不是说想要去形成一个榜单让大家去 PK,而是说我们真正能够有一些这种好的 benchmarking,能够去指引我们真正就是说去衡量当前的整个的这个。
技术的这个阶段和状态,让大家在一个一个牵引下一起去进步,我认为这是核心。那今天我们可能是第一,我觉得很有可能哪家公司可能。可能两周之后,他提交了一个模型,有可能会比我们更好,这完全有可能。其实之前旷视也开发过,嗯,Meg Engine,对,天元那也是一个框架,对。但实际上,相比于就是大厂,比如说
PyTorch、像 TensorFlow 这样的框架,嗯,像天元这种框架,它一直还是生态没有那么活跃,它比较小众。
是的,就它最后其实我不知道它它实际上达到了你们说的利己利他的利己可能比较明确了,利他这个目的达到了没有?呃,然后重新来做这件事是怎么想的?我觉得是这样的,我觉得那个make
engine这个问题,呃,就就是当年我们做那个就是CNN的框架嘛,就是其实因为我们最早的时候,当时只有caffe,只有mxnet,所以其实是没有一个好的框架,tensorflow当时也没出来,所以旷视刚开始做这个深度学习的时候,我们就觉得自己要做框架啊,然后呢,我们其实一三年就做了这一套框架。
那个时候其实也没有 paddle paddle,没有那个 pytorch,没有 tensorflow,就在那个年代。但是我觉得我们当时其实对开源的这个方式是没有理解的,就是说,所以我们觉得我们自己做了一个很好的引擎,我们就自己用就好了。那呃,等到我们想去开源的时候,已经二零一八年了。这个时候其实已经没有什么意义了。
所以就是整个的这种基础设施能够变成更有影响力,或者能够被更多的人去使用,并且通过开源的力量来一起把它建设好,这件事情核心。是要早哦,所以你们现在就开源 Dexbotic,其实反而是当时 Meg Engine
开源的太晚了,对。所以,我们今天其实是这样,就今天也没有太多的人在做这个事情,所以我们就选择是说,呃,我们正好就是也也做了这样的一个东西,我们觉得自己也觉得很好用,所以我们也愿意把它开放出来,大家就是,当然大家也不见得一定要用,对吧?
就是你愿意用你就拿去用。具身模型的开发和实验,它具体有些什么区别,导致之前的 PyTorch 或 TensorFlow 这些不太支持或者不太好用?首先,Dexbotic 它其实就是在 Pytorch 之上的一层东西,所以我们并不是一个去 replace Pytorch,而是它是一个 Pytorch 的一层封装,所以其实它是在这个基础之上去提供了更多面向具身智能的这样的一些一些一些呃工具吧。
啊,所以,我们一开始的时候,我们不,并不太叫它叫框架,我们叫它叫一个 two box,就是说我们在里面内置了一些功能,就比方说,哎,你的模型的这个定义是可以通过一些配置化的方式,你可以去选什么样的一个 VLM 的基模啊,什么样的一个 vision encoder,什么样的一个 action
的那个那个模块啊,然后你是这个 diffusion 的,还是你是什么样的一个方式的,所以有很多种这种这种可选啊,所以使得你做实验变得更加方便。
第二呢,就是说这种。啊,我们统一了一些什么数据格式啊,统统一的一些这种部署的方式啊,你在本地训练,在云端训练,你都可以都非常的容易啊。就是说,它其实是一套,呃,一套工具。使得你做很多的事情能够变得更加的方便,这是第一个。然后呢,我们现在呢,就整个的 Dexbotting 呢,其实现在做的是一个叫呃,更加面向 VLA 和面向模仿学习的。
一个一个一一个事情,嗯,然后我们其实,在本来呢,我们在里边也在加一些,就是说把那个强化学习相关的一些知识再往里加。但我们后来发现,就是说其实那个Alif其实已经把这个事情已经做得很好了,就是那个清华的汪宇老师跟吴文星琼他们搞的这个这个Alif,其实已经把这个事儿把强化的这个框架他们已经做得已经蛮好了。
他也是面向具身的强化,还是就是他给强化学习做的?对,他其实是个面向general的强化,但是呢,他现在主打既然就在面向做具身的强化。后来那个天才啊,跟那个就王宇老师啊、余超老师啊,这么一些讨论了一下,就说,啊,我们就觉得就大家就一起搞呗,就是因为本身都是开源的嘛,对吧?所以呢,我们就是我们这一趴其实做的是这个这个偏模仿学习的,他这边是强化学习的。
然后两边呢,我们现在也打通了一些接口,然后也希望未来有可能会把它合并成一个更大的一个 project,的就是说大家就一起把这个东西能够打造成一个大家足够好用的一个框架。我们其实也把这个东西开源出来,就是也是希望是说,真的是希望更多人能去用。如果他觉得好用的话啊,呃,大家去用,用的这个过程中也可以一起 contribute 回来,让大家这个东西能变成一个更好的东西,那对我们自己也也有利,对。
因为你们是二月刚开源的,对,我不知道现在就社区的活跃度、参与度怎么样。我们那个第一点零是在那个十月份就开源了,所以现在应该有个有个千把个开发者啊,差不多。你说的是外部的,对外部开发,外部有几千多个开发者。然后现在有那个有挺多高校在用的。那吸引了什么同行吗?你知道有什么公司在用吗?那个千问在用,我们之前跟那个林君阳也沟通过啊,然后他也一起过来交流过,然后我们呃,他那边应该也安排了同学在用这个大
Ex 巴这个在做一些相应的一些开发。
对,对,其实这又说回刚才我们说的一个问题,就是很多大厂也在做 WLA 具身模型。嗯,就林志扬他们那边的 team 也在探索这个方向,嗯,但我觉得这个还是目的不太一样,因为阿里也是我们的股东嘛,嗯,我认为是说他其实并不是说我自己要跳进去成为一个
player,而是说能够做好一个更好的一个,也是做一个基础设施,做一个更好的一个 VLM,去 support 更多人去做这个 VLA,我认为这是他的这个战略的定位。
而且第二呢,我觉得他做也没关系了,就这个行业、这个市场它足够大,其实是容得下很多的这个这个玩家一起在里边。历史上有什么创业公司在比较早期就做一些面向行业的基础设施,然后后来他有一个。比较好的成果或者比较活跃的生态吗?我觉得挺多的呀。你比如像什么 DataBricks,我不知道,就是比如说像这个那 Hugging Face 也算吧,对吧?
你觉得安卓算吗?安卓曾经算是一个创业公司,当然它比较早就被 Google 收购了。那安安卓当然也算,你比如说 Red Hat 也好,或者 Linux 系列的这些东西其实也好,对吧?就很多,你比如说像啊,比如说很多数据库,像 Mongo DB 啊,就是那这些其实都是在什么 Mongo DB 也好,比如说什么好多什么 Message Q 啊这些东西,就是其实都是在整个开源系体系下那个成长起来的。
对,我觉得开源核心是,是这样的,就是说,因为其实 daspartic 的其实那个 code 的那个其实量也没有那么大,就对你们来说没有花那么多精力是吗?啊不,我们还是花了挺多精力。我们想说的点是说,开源是大家增加信任感的一种方式。我 code 都给你了,你可以自己改,你你不想合并到主线里来也没有问题,你就拿去就用就好了。
像具身智能这个领域,包括测评,包括开发框架,大公司它没有去推出一些相关的东西吗?就如果你们相比于自己花一些精力去开发这个东西,开放给全行业,然后另一种选择,我觉得就是你可能直接用一个,比如大公司他会搞一个生态,包括英伟达什么也经常干这种事儿,对吧?对。我觉得现在没有好的,你觉得确实没有。现在确实没有好的,就是我觉得也许可能有公司会想出来做,但是那个大公司有可能也会啊,愿不愿意投入力量去做?
但不管是 Robo Challenger也好,代代斯巴提也好,其实他的工作量其实都蛮大的。那这个事情其实不是一个一朝一夕的事情,而是需要一个很强的一帮人,很认真的去做这个事情,而且是有足够好的分享精神。的的的这样的一个方式,你觉得长远来说,具身智能行业会是一个什么样的格局啊?我觉得规模上大家肯定会觉得很大嘛,你也可以想想,你觉得大概有多大?
然后还有集中度、产业链的分工,大概是怎么?对我我我觉得是说它可能会是一个逐渐的过程。我觉得就是在我认为在一段时间内都会有比较多的公司存在,因为因为今天其实细分的场景是非常多的。一段时间和比较多,如果量化描述下是怎样了?在模型还不能够统一化的一个情况下,我认为会有很多的公司存在。那它有很多的这种 vertical,它可以去做啊,这是第一阶段。
然后第二阶段呢,是说OK,呃,但我们看到就是,比如说像不管是AI一点零的公司也好,包括现在大模型的公司也好,它逐渐的这个能力在集聚,是因为这个模型的能力它变得更强大了,小模型的能力被大模型吃掉了。就是被那在这样的一个情况下,那做vertical的这个公司,它就慢慢的就会变得比较困难。这个第二个阶段就是一个集聚的一个阶段,然后那我会出现一些平台型的公司,就是说,不管是以模型为平台,以本体为平台。
我是自己做一些 virtual 的场景,还是我把这个本体加模型以合适的方式去给到更多的这个应用公司,能够去做场景的这样的一个落地,所以就慢慢的会集聚。我觉得可能最终可能个位数家公司,我觉得可能就够了。各位出家是全球还是说你指的中国?我认为可能大部分公司都在中国,就是因为我觉得这个事情,因为跟硬件还是会强相关的,就是今天,呃。
具身其实比大模型是一个更加有中国优势和中国公司应该干的一件事情。其实硅谷获得了大额融资的具身这类公司也不少的。对,但它的迭代效率是很低的。为什么它在模型上看起来是领先了?对它模型上做得好,但是它的硬件上的迭代效率是很低的。所以它有可能成为一个以模型为核心的,有可能啊,那 maybe pi 可能想做这样的一个事情,对吧?
也有可能被收购,对,就是还是回过来,就是说回到,就是说对未来的这个判断,我觉得是说最后公司,呃,当模型能力大家往上去提升,能够去变成一个更通用化的、更泛化的这个能力的时候,那这个时候其实整个的这个。它就变成一个全栈的一个事情,那就是说,因为我们需要有一个载体,有硬件为载体来提供这样的一个产品的形态,那这个时候我就可能就不需要有那么多的公司的存在了。
嗯,对。你觉得怎么样能成为最后剩下来的不到十个的公司之一?对我觉我觉得核心还是两点。我觉得就是今天第一点就是说,我认为是要在模型的能力上的领先是一切的根基。这是因为今天就是呃。就跟造车一样,就是造车这个事情,其实最终是一个产业链整合的事情。就是我们并不需要去开发每一个轮胎,我们去开发每一个车架,因为整整个的产业链起来之后,其实是有非常多的供应商能够去协同的去做这样的一个一个一个研发的。
但是谁能够是说让这个机器人更有灵魂啊?它有一个好的一个大脑,它是一个智能的、有用的和可信赖的一个机器人的一个形态,然后在场景中能真正的能解决问题。然后把这个商业的这个方式能跑通,且能够把数据飞轮转起来,我认为这是这是这是最关键的。所以,我认为就是说,第一件事情是。啊,模型的能力和这个这个模型的智商是最关键的,这是第一个。
然后第二个就是要在场景中去形成,呃,更多人的使用啊,机器人的长期的这个被使用形成的这个数据飞轮,然后用用这个数据飞轮去反去,呃,更加哺育了这个模型能力的这个继续提升,去形成了它的这个竞争力。嗯,对,你觉得大概比如说到一个什么样的量,它这个数据飞轮算转起来了呀?如果我们用一个量化的一个数字来说的话,我觉得就是一个场景一千台,因为,呃,我认为就是说。
从数据飞轮的角度来讲,就是首先它还是得要有量,对吧?然后第二的话呢,就是说,呃,它是一个逐渐的去拓展的一个方式。我们肯定是希望它是能够在更多样化的场景、多样化的任务里面去形成数据飞轮。但是我能不能够在他 suppose 能够干一百件事情前,他能够干一件事情,那他能够在这一个事情里面能够有批量化的应用和持续的使用,我认为这件事情是非常重要的。
所以我认为是说,千台可能是一个门槛,对,能够被持续使用的千台。嗯,之前我们和逐迹的创始人张威聊,就是他觉得如果。先让现在这个阶段的机器人就去做落地的话,它最后上线可能它开始是这样增长,然后最后就到这儿了。嗯嗯,为什么呢?就是因为你花了很多精力去做那个场景本身的优化,你没有把更多精力放在对,比如说。非常聚焦于这个模型性能的提升,嗯,然后你让它更聪明之后,它可能一下就能解开一片场景。
对,这个我是认同的。所以,我们刚才讲就是说,其实落地和那个模型这两件事情,它是个叫叫正叫夹角关系,它。他这个目标是不 aligned 的,就是说我们今天在模型上就是要去追寻它的泛化性,要去追求它的这个通用能力更强。这个大模型最后一定会吃到小模型,而不要是说我们最后去到一个场景中去 customize,对吧?
所以,但是第二呢,就是说我们要去做落地的时候,我们应该用现在的这个模型,就用这个模型去落地,而不是我针针对这个场景,我再去 customize 一个一个专门针对 over fit 到这个场景中去的一个。一个一个东西,就那样这样的话,你就又回到做项目的这个逻辑上了。所以你是通过这种方式来平衡的,就是你就用现阶段的那个本着通用的能力的那个模型去做现在的落地。
是,那你得靠一些别的方式去给他补这个能力。对,所以我们刚才讲就是我们需要找容错的场景。嗯,对,一个是场景选择,一个是些其他工程能力去补。对我我觉得就是说具身智能公司还是要警惕,要成为变成一个叫。叫什么?要警惕变成小老头公司,对吧?就是你最后小老头公司,对,就是你变成了一个做项目的啊,然后呢,你就每个项目都去做 customize 的,就是原来的非标自动化的公司。
这为什么叫小老头啊?对,就是就是你你是长不大的哦,然后就所以你比较小,然后存在的时间也很久,你可能也比较难挂。对,是的,是的。所以,我我觉得这是我们要去警惕的。那我们今天之所以成立元力灵机,我们核心就在追求的还是希望能够走向通用化的这个机器人的这样一个状态。所以,我们会选择一些场景会开始,但我们并不是只是想去解决这单一一个场景,而是希望能够走向今天是真的是有希望能够走向一个通用的机器人,在更,啊。
泛化的场景下,泛化的任务下,具备一个更更通用化的能力,能够走向一个我们对真正的机器人的想象。我认为这个机会是存在的,所以就是,所以在这个算法能力上和模型能力上,这是第一要务。然后第二要务才是说,OK,我要有阶段性的这个商业化。那阶段性的商业化,同时也去实现这个数据的飞轮。那我们要这两件事情,要把它变成一个正相关的一件事情啊。
嗯,对,对,而且,嗯,其实你要阶段性的落地了,你才能获得你说的那个数据数据,然后才能提升模型的能力,对吧?除了你采集数据之外,因为现在整个具身智能行业看起来是非常火热、欣欣向荣的,嗯。那作为身处其中的人,你觉得有什么值得大家提前去未雨绸缪和小小的,比如说给行业一个提醒的地方?对,就是说现在大家的整个的这个期望其实是拉的很高的,我觉得这是好事情。
就是你说的大家指的是投资人还是投资人吧?资本市场就是说整个公司把大这个投资人的这个期望其实是拉的很高的。但我觉得所有的投资人也都知道,说这里面其实是有很多的泡沫存在的。但这个它是个好事情,这个好事情是说,因为我们吸引了更多优秀的人进来,去尝试去解决这个问题,所以会让它的这个技术的发展能够变得更快。那你说什么东西是未雨绸缪的呢?
我认为是说,技术的很多东西的这个突变可能会需要时间。那我觉得就是说,既不能短期太乐观,也不能长期太悲观。那不管是自动驾驶也好,那个原来的那个深度学习也好,这个大模型也好,都过了一个所谓的这个Gartner曲线的这个过程,对吧?今天可能大家就是在期望的逐渐在还在上涨的那个状态,那。Half cycle,对 Half cycle,那你最后大家会觉得是说啊,落地真的被用起来了吗?
我们扪心自问一下,我所有的投资人其实都很聪明,他们也都知道现在没有被用起来,对吧?但他们还是在投,对,但但他们信这件事情,我觉得这是一个模糊的正确,对吧?就是他们认为大方向长期是可以落地,是的,是的。但但 eventually 就是说,它肯定会有这么一个过程。但经过这个过程之后,我觉得是说,哎,非常务实的,整个真正把数据飞轮跑起来的场景上也能够去落地的。
但同时,依然坚持不懈的在推动技术发展的这样的一些公司,是能够走到最往上的那个,就再从下来往上的那个阶段。你觉得巨深什么时候可能会经历类似于自动驾驶在一八到一九年也沉寂期对那个低谷期?嗯。不知道呀,说这个东西其实还是取决于,呃,因为这里面其实取决于很多东西,就是今天,嗯,你看自动驾驶一八一九年的这个状态,是因为当时。
呃,似乎感觉到技术上没有什么变化了。对,就WeMo那条路线没有大家想象中演进的快。对,但是呢,因为那个时候Transformer又还没有开始,但是今天,所以它本质上是个信心问题。是的,对,所以那今天我认为是说大模型给了我们太多的惊喜,以使得我们在这个信心上是其实是有一个很强的一个建立的,这是这是第一点啊。
然后第二点呢,就是说机器人的商业化,坦白讲比自动驾驶更容易。就是说如果它要 scale,其实可有可能会更难啊。但是呢,它要能够取得一些部分的商业化是更容易的。对,所以这两件事情叠加起来,也许这个事情可能可能会更平滑一些,我觉得就是机器人的商业化总是会有一些阶段性的成果释放出来。是的,但是呢,我觉得就是说,呃,从业者我自己觉得就是我们自己要知道我们自己是处在哪个阶段,对吧?
就是我们在模型上到底是什么样的一个水平?今天大家都在讲啊,这个这个放了很多的这个这个视频,那这个视频。这个demo,你是一个三十次失败里面选的成功的那一次呢,还是一个真正的一个当前的一个水平的?然后我们以什么样的一个速度能够去更快速的去迭代,走向我们心中想要达到的那个状态?然后我们阶段性的这些商业化,真正的是否能够被用起来,而且形成去去形成数据飞轮?
那今天可能大部分的这个收入可能来自于数据工,大家都卖数据都是去做数据采集的,对吧?它它不是真正的落地,对它不是真正的这个这个有效价值的转化。我们自己还是得要就是脑子清醒的去看待这些所有的这些问题啊。如果具身模型的性能进展的速度不如你预期快的话,你觉得可能会是因为什么原因?有可能是数据的原因,也有可能是说今天模型的这个结构上可能就是需要有一些这种这种新的这种结构,对吧?
那我觉得,但我我相信是说。有这么多的资金和这么多的人涌进来,我认为这里面的这个这个发展还是会比较可,这个这个比较好的。如果说信心进入相对低谷期,你们有什么提前的准备吗?有什么Plan B吗?我觉得一方面,我觉得就是还是得要先准备好足够多的干粮,对吧?这是我觉得这个也是很多巨神公司其实今天其实在做的事情,对吧?
这是现在确实头部的公司融的钱非常多,还是弹药你要先充足啊。然后第二的话呢,我觉得就是说还是就是。你bet在你自己真正信的这个事情上啊,然后就是,所以就是,即便你蛋要多,他也经不起这个。我曾经融过很多钱,对吧?那其实也是经不起,就是你分散式的去开枪的。但就是还是要专注在一个一个真正believe和真正想bet的这个地方。
我觉得专注特别重要啊,所以这是这是第二。然后第三呢,就是说,如果是说,哎,那技术上。可能会有需要一段时间的这个摸索期,那我觉得我们就和行业一起去摸索,在你有粮食且有业务的这样的一个情况下,我我认为是说是可以就是让大家度过这段周期。但我现在我是非常相信是说现在的这一波的这个技术变革是能够走向这个这个。
通用机器人这个状况呢?因为你之前也经历过,就是整个创业过程中的一些起伏和行业进入低谷,你可以描述一下,就是进入低谷是一个什么状态吗?心理上的,然后整个团队氛围上的,我我觉得我们整个团队感觉心理上其实呃倒没有什么太大的变化,因为我们自己内心中想就believe对那些事情其实非常的一致,就是我们我们并没有那个就是跟着什么市场的情绪说啊,我们这个时候我们很嗨啊,那个时候我们很down,就是并没有,嗯,我觉得主要还是这种资本市场上的这样的一种感受,就是说你在那个时间点的时候融资会很难融。
然后旷视其实历史上有几次融资,其实都是发生在一个低谷期,整个的融资其实是比较比较挣扎。这个东西就是说,也是一个教训,就是说我们怎么能够在,呃,在在好的情绪和合适的时间,能够储备足够的弹药,对吧?但同时,我们又能够比较专注的把弹药是打在我们真正believe的这个事情上,而不是去开散弹枪,对吧?的的这样的一个方式,呃,所以然后从团队的角度来讲,我觉得就是说。
如果你自己内心是真正相信和坚定的,我认为没有什么变化,因为我们做的事情其实还是那些,还是那些事情。在成立元力之后,你们曾经对什么事情 say no,就是拒绝做什么事情吗?就你说要专注,不要去开枪台分散。我觉得我们挺多的,比如说,呃,我们对于比如说表演类的东西,我们就是 say no 的。有人找过你们,还是你们自己讨论过要不要做这个?
对,就也有人找过我们,我们也有很多的这个合作伙伴和客户,其实他是有这个需求的,但我们觉得这个跟我们想去。打造有用的机器人啊,就是情绪价值也是有用的。我并我并没有这个这个抨击这个这个这个这个方向,就是说,但只是跟我们选择的方向其实不太一样。我们真正想去追求的就是说,真正能够让机器人能够作为一个生产力啊,能够是,我认为这是真正最大的呃这个需求和市场。
嗯。呃,数家公司都花了大几千万到一亿来上春晚参加表演,其中有一些其实不是主打表演这个方向的。对,你觉得这算分散开抢吗?你觉得这个每一家上春晚都达到了效果吗?你们当时讨论过要不要上春晚吗?我我觉得我们不会啊,就因为我们现在走的其实不是一个表演型的路线,所以那你就春晚上的其实它大部分还是走的是表演型嘛,对吧?
哦,这是你拒绝的对一个事情,没有去做表演型的这样一个场景。是还有还有吗?还有。啊,比如说跟汽车相关,跟就是跟汽车产线相关的一些场景,对,因为我们有很多这个跟汽车产业链上的一些朋友,对吧?对,包括千里之家,其实他自己和对千里本身自己也是有汽车厂嘛,对。但我认为就是说,其实汽车的场景是非常的不适合的。就是因为你想,它是一个高度错误不容忍、高度有节拍的场景,所以它两个东西其实都是非常难的问题。
那这个场景虽然大家都觉得是说,哎,汽车厂可能是最好的场景,Tesla也在讲这个故事,Figer也在讲他跟宝马什么,对,但我认为汽车厂不是好场景。这个是因为你们曾经在以前做物流机器人的业务的时候,你们就服务过一些汽车工厂。我对我们既服务过,同时我觉得就是很多东西就判断要去现场看。我们想象中这个样子的,它可能就是个 pick and place,从这头拿起来放到那头去。
但你们你会发现说它的包装形态,哎,它的这个商品的这个形态,它的它的这个这个很多的这种辅材啊,它的位置的限制啊,一系列的这个东西,它的容器的限制,一系列这个东西,最后跟你想象的可能是完全不一样的。所以,我认为是说,这个还是得要有这种现场感,才能够对这些东西能够有有判断。你刚才总结的两个去提前应对低谷的点,一个是说还是要有足够的弹药,第二个是说。
就是不要分心,要真的去把资源投到自己相信的事情上面。这个和你们之前的一些,嗯,就我说旷视早年啊,嗯,一些什么经验教训会有关系吗?是的,我觉得旷视原来其实就做了挺多的事情的,我觉得我们不够专注,所以其实使得我们原来人才密度非常高。但我们依然被稀释了,就是因为我们做了太多的事情。您就说,第一是说有些我们大家想要battle的这个方向不太一样,这是主观的原因;也有一些客观的原因是说我们做的哎盈利性比较好的业务,但是它的市场规模是比较有限的。
对,所以就是在这里面,就是说。这个形成了变成了一个加法的一个模式,但我认为加法的模式其实一般来讲都不会是好模式。就是我认为在商业上就是A加B加C基本上约等于max A B C,就是基本上约等于那个取最大值。所以就是说,其实,啊,创业呢,我觉得就是还是要能够bet在你真正信的那个事情上。然后要把这个事情要 make it happen,我我认为是最重要的。
就是如果我们再来一次的话,我觉得我们应该不会开那么多条方向。我觉得我们应该更多的人集中力量去干一两件事情。你觉得在上一轮AI热潮里面,真的值得集中力量干的一两件事情是什么?我觉得可能每一件事情可能都值得干,只是说我们每一件事情都干的不足够深。嗯啊,比如说,其实你们当时有有视觉相关的,有自动驾驶,有自动驾驶,有安防,有机器人,对。
然后我们也有一些偏这种手机啊这些场景的,就是我觉得我觉得可能每个场景可能深入下去,可能都是一个很大的公司,对。但是我们就是把它做成了一个加法的,就是当然也有一定的规模,也做的也还行啊。就是但我认为还是分散了太多的这个方向啊,对。你觉得最深圳行业里面现在有什么被忽视的真问题吗?被忽视的真问题,嗯,我想想啊。
我觉得,就说大家也不一定是叫被忽视的真问题吧。说现在的真问题很多,就是。我觉得今天从模型和场景,我认为这两个都是真问题。模型大家的水平现在不是一个具身智能已经啊接近可用了的状态。大家比如说看到了那些视频,figure里看到的那些视频,你看起来就已经非常酷,感觉都已经可以进入家庭做保姆了,对吧?嗯,就send robotics的家庭,对不起,我我不认为能做到。
我不认为是说现在几几个机器人已经达到了这个状态,能够进家庭做保姆。它可能就是很多次失败里面的其中一次成功,所以就是。所以我觉得我们真的是需要更客观的去看待现在的这个技术的水平,然后能够让更坚定的去往前一步一步的脚踏实地的能够去推动整个的技术的发展,这是在技术盘。然后第二呢,就是落地盘呢,我觉得就大家做了很多的
POC,按我们的以往的这个经验教训嘛,就是 POC 跟真实场景就是真正的落地,我觉得至少。
也就是走了百分之二十的路,因为P O C你永远只需要去验证你成功的时候是什么样,你失败的时候你会怎么样?这些东西其实都是需要有这种机制,让机器人能够变成一种自动化的机制去做,所以。我认为,就是大家其实对落地这个事情,现在其实也是有巨大的这个这个 gap
的,所以,我我倒不认为是说大家这个是一个叫做被忽视的这种问题,但只是说大家这是一个是一个不太想暴露的这种问题,对,嗯,不太想暴露,对,我记得我跟那个啊,我就不说是谁了,就是也是一个那个其中的一个具身公司的这个呃 CEO
的创始人跟他聊,他他刚刚说一句话,我觉得挺逗的,他就说,哎呀,他说我特别想给这个行业泼点冷水。
但是呢,又怕泼得太狠了给泼灭了。然后我跟他讲,我说这个,我说我说我们客观的去看待这个事情呢,就是说,确实现在大家这个期待被。过高的这个这个就是被拉高了,但是呢,我觉得很多的这个进展的这个斜率,我认为是依然是一个非常非常陡的斜率,所以我认为说这个也也不本质啊。就说虽然预期被拉高了,但是事实在快速的追赶预期。
是的,嗯。在从二六年到二七年,你希望原力达到一个什么状态?我们今年的在技术层面上的目标是这样的:我们认为核心还是要在泛化性上下功夫,所以我们今年的目标算法目标会定在就是说,在这种 multitask 和 general generalist 的这样的一个啊。模型层面上的一个成功率,我们定了一个非常激进的目标,现在只有百分之三十。
但我们今年的目标其实是非常高的,而且我们认我们也看到了很多signal,我们觉得就是这里面是有一个巨大的提升空间。对,然后第二个目标呢,就是我觉得。就是还是场景上,我们要把数据飞轮转起来,所以我们就定了场景,就是说一个场景,就一个场景,一千台,二六年,二六年就实现,对。你们现在都没有展示过硬件,我印象中啊,对我们有硬件,我们只是不展示而已。
我们觉得就是也没有必要展示吧,对。所以我们我们现在其实就是核心关注,其实就两件事情嘛,就是一个就是模型能力的提升,第二个是说我们真正场景中能够去持续的被使用。就是,而不是说我不是去做 POC,我就核心要做有规模化的被持续使用啊,这是我的两个核心的目标。对,按照你之前的定义,那就是这一千台至少每天开机十小时以上,对,在真实的生产或者服务场景里去用起来。
是,嗯嗯。有些什么你现在嗯还没有答案,但是你觉得很重要的问题吗?那我觉得太多了,就是我有很多问题其实都没有答案。那比方说,那今天大家其实也在讲 system two 和 system one 对吧?就是那个大脑和小脑。那大脑的输出如何能够被很好的作为小脑的输入,来真正的来提升整个的 V L A 的一个 performance?
这个东西到底中间的这个这个应该用什么样的一个一个中间表示和这样的一个信息的输入,现在其实也不知道。这是,然后第二是说我们今天数据上到底scale的这个数据的路线到底是什么?今天是靠这个video的数据,还是靠这个egocentric的,就是这种人类第一视角的这种数据,还是这个这个仿真的数据?哪条路是能够最?
让他的这个skill的效果是最好的,其实也不知道,所以我认为就是有太多的未解之谜。但今天就是每个方向上也有很多的这个不同的这个同行在努力啊,所以我觉得我们也有一些自己的一些基础上的一些bet。从你开始做机器人也算上,就比如从一六年之后的时间,然后到现在,呃,你更独立的来自己做一个业务之后,你发现了自己什么不一样的特质啊?
我觉得我们其实,在过往就是做很多的这个产品和场景的时候,其实蛮需要一个能力,就是说叫所谓的这个AI的技术产品经理,就是说因为原来比如说做深度学习的时候也好,很多时候也是算法是没有办法。百分之百满足这个场景的,那很多业务口的这些人呢,他就会对,对对这个技术会有两种期待,一种是觉得你无所不能,一种是觉得你啥也干不了。
但实际上,很多时候他既不是无所不能,也不是啥也干不了,他中间需要一些这种,这种这种 work around,对吧?需要一些这种,这种方式能够使得他能够被。呃,恰好的用起来的这么一个模式,现在大模型领域不是会很流行吗?从最开始的 RAG 到后面对上下文 engineering,然后环境 engineering,是的,是的。
所以就是说那个,那我认为就是说这个这个其实是很需要这样一个桥梁性的人,就是说他又要懂技术,又要懂场景,不管是在旷视也好,就是包括在今天也好,我们也依然需要有很多就是说这个。既能够知道这个技术的能力的边界,又能够在场景中去思考客户价值的这么一个角色,我觉得就是。这个呃,我觉得旷视这个历史上还是出了一些这样的一些就好的这种AI的技术型产品经理的这么一个角色。
对,所以你觉得你其实你也是,我是也是充当了这个角色,对,是的,嗯嗯,一个大的AI技术产品经理,我认为是的,而且就是说,因为最后这个其实会变成一个大工程,就是说我们讲就是说。呃,基础设施为什么很很重要?就是因为我们要从应用侧的这个数据飞轮就回来啊,到整个的这个 research 的这条这整个的这个
pipeline 上面,让大家能够更快速的去迭代算法,然后再从评测能够去输出一个一个好的一个挑选出一个好的模型 apply 到整个的这个应用上,所以这个最后也是一个巨大的一个一个基础设施工程。
所以那这件事情的这个整体的这个。这个设计那只能是我来做这个事情,对吧?嗯,因为到现在你也真正创业十五年了嘛,然后就是这一路的。这个过程,如果相对感性的来形容一下,是一个什么感受?我自己觉得就是还是非常感谢这个时代的,就是我觉得是,我觉得真的是我们在经历一波又一波的这个技术变化的浪潮,而且我们看到让很多事情原来认为是不可能的事情,今天技术上使得它变得可能,对吧?
从最早,我觉得我们说这个人脸识别能够抓坏人。我们绝大部分人是投了,觉得这事儿不可能做出来,啊,那那今天这是已经是一个非常容易的事情,对吧?然后那到这个自动驾驶也好,到这个这个机器人也好,到今天具身智能也好,大模型也好,所以我觉得非常感谢,是说我们遇到了这样的一个技术的浪潮,我们也在不断的这个过程中,啊,就是在让我们不断的在兴奋啊,我们想要去参与进去。
去达成一些我们自己的这个内心中的这样的一种人生目标,我就感谢这个时代,也感谢这样的一个技术的变化。对,相当于你创业十五年,中间已经有三四波,就还让你挺想投入、挺兴奋的技术。是的,对你有一个特别长期的想实现的技术上的理想吗?我跟你跟你分享一个,就是硬气的,他当时说,他说他为什么选自动化系?他说他觉得自动化系这个名字是最接近于AI的那个那个系的名字啊,就是最接近机器人、最接近AI的那个系的名字。
那然后我觉得,包括我们从啊之前呃旷视希望让机器人能够看懂世界,然后包括我们后面中间做了物流机器人,就是我自己内心中是非常希望能够去。做机器人的,所以我不知道你有没有来过旷视办公室。我知道你刚刚说这段,我就想到你们办公室门口的那个机器人了。我们在搬那个第二次办公室的时候,我们就去行政,就让行政去买了个机器人放在了前台。
然后这个这个机器人到目前也就是也还在旷视的这个前台。所以就是因为我们内心中就真的想去把这个机器人能够打造出来,所以我自己觉得就是今天是一个。就是就是,具身智能是一个是一个,值得投入这个lifetime投入所有的时间去做的这么一件一件事情啊。OK,嗯,好,今天非常感谢我们丁总和晚点聊分享了从旷视到现在整个十五年的创业经历,尤其是元灵灵机这一次成立,看到了具身智能怎么样的机会,然后团队已经做了哪些事情,在模型性能在场景落地上有一些什么样的思考和实践。
嗯,那今天的节目就到这里,感谢各位的观看,拜拜。嗯,好,谢谢。嗯。本期连点呈现分享和往期节目中的两个呼应,一是在四月初发布的一百五十七期具身智能二零二六年Q一的季报之中。我和 Peter 聊到了 Sharper 在二零二六年初的 CES 上提出的三层结构的具身智能系统,这和唐文斌在这一期里提到的三层结构的构想非常相似。
我们当时讨论这个话题的背景,是在聊有什么事情是 OpenAI、
Google、字节这样做基础大模型的公司不能做,而只有具身智能公司才能做的独特的问题和领域。唐文斌说,在系统二,也就是负责宏观的任务规划的这一层系统上,其实大语言模型是非常擅长的。现在的大部分具身系统也有赖于大语言模型和多模态基模这一块的能力,而在涉及到更精细的动作的系统一和系统零的部分,则是软件和硬件更紧密结合的地方,是具身智能创业公司可以去努力的空间。
这个想法也类似于一百五十五期中质检动力的创始人贾鹏所说的 physical agent 物理 agent,也就是他认为本质上来说,具身智能就是一个物理的 agent。在这个大的 agent 的系统里,基础模型是底层,而怎么把基模的能力用好,是具身智能公司可以去做工作的部分。其中重要的一个方式,就是要获得真实使用场景下的反馈和数据。
然后反哺于整个具身系统的提升,这也是具身智能公司可以建立竞争力的地方。第二个想分享的是关于场景选择上的一个对比,在一百五十五期中,贾鹏说他觉得当前适合具身智能机器人的场景是那种端到端的场景和任务。这里的端到端是指这个任务从头到尾都可以由机器人去完成。他当时举的一些例子是在工厂里去做一些比较灵活的、柔性的搬运或者上下料的工作,而在这一期里,唐文斌有一些相反的想法。
他认为要去找那些人可以兜底的场景,通过系统层的设计,让机器人干不了的活儿,机器人干错了的活儿,人可以接着去干。物流就是这样一个例子,在庞大的物流调度系统里面,既可以接入已经存在已久的各种专机自动化设备,还有人,同时也可以接入更加智能的新的具身智能机器人。而在单机的智能尚未达到极强的通用性和泛化性的现在,落地就可以进行,因为当机器出错时,可以通过系统调度和优化,让其他的设备或人来接管,同时也可以通过系统和工程的一些工作,来让整个体系的效率和投资回报率保持在对客户来说比较合理的空间内。
两个人对场景的描述也有共性,就是他们都希望去找节拍没有那么快的任务。其实之前一百五十四期节目中,千寻的创始人韩风涛也提到了,现在适合机器人去干的任务,它对节奏和速度的要求不能太快。这些对于先去什么场景落地的不同思考和选择,会逐渐成为具身智能公司之间的差异来源之一。本期节目就到这里,欢迎收听。如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法,这也会成为我们节目的一部分,让整个讨论更完整。
你也可以把我们的节目分享给对这个话题感兴趣的朋友,欢迎推荐更多你想听的主题和嘉宾。你可以从小宇宙、苹果Podcast等渠道关注晚点聊Late Talk,也欢迎关注我们的公众号晚点Late Post。下期再见。