Hello,大家好,我是小俊。今天这期节目,我们来到了美国纽约。此时正是中国的春节,纽约刚刚下过了一场大雪,这是近几年以来纽约最冷的一个冬天。街道上还有许多没有化开的冰雪,但是今天这场对话让我感受到了一种冰冻解封后的人间烟火气息。今天坐在我对面的是华人青年科学家谢赛宁,他刚刚和图灵奖得主杨立昆一起踏上了创业的旅程。
他们的 New Lab AMI 刚刚完成了第一笔超大规模的融资,目前团队规模为二十五人。谢赛宁一直告诉我,他不是那个天选之子,他是普通的那一个。那接下来就是我对谢赛宁的访谈。伊利亚给我打电话,哦,就我我我什么都没说,我就把OpenAI拒了。他们发给我一个offer,然后我说我不去,抱歉。但是有爱的同时,一定就有恨,就他他是一体两面。
我今天早上我们在纽约,就是布鲁克林拍空镜。我觉得这里我很喜欢这里,就因为我住在时代广场那边。我觉得那边还是一个非常刻板印象的纽约,但是好像来到这里就是一个充满了艺术气息和生活气息的纽约。是啊,我觉得 Dumbo Dumbo 这边当然非常艺术,对吧?很多电影里面,我们之前有个韩国电影叫《过往人生》,里面他们里面拍,你可能看到旋转旋转木马,然后那边的 Dumbo 大桥是吧?
哦,时代广场只有游客才会去啊,我就是真正的纽约人是不会去的啊。但其实 N Y U 附近其实也很好,那边呃叫 Greenwich Village,然后那边也是一个村儿,然后那边也很有生活气息啊。你为什么会来纽约做学术呀?这好像不是一个很多人的选择,呃,倒也不是吧,但是历史比较长了,确实是呃各种原因吧。
我觉得啊,当然也是因为我确实比较向往这个城市。对啊,向往这个城市里面的很多的元素啊,他的一些人,然后包括N Y U其实也是,然后当然主要的原因还是因为Young啊,然后像A I的这些efforts对吧?呃,N Y U其实确实做的很不错,嗯,但另一方面,N Y
U还有很强的电影学院。对啊,然后我喜欢的很多导演,像什么 Martin Scorsese 啊,包括最近赵婷啊,什么都是麻友的毕业生啊,所以也是 partly the reason 吧,对,也是也是也是也是一些原因。
对我这个我我昨天跟你说,呃,我觉得我来美国现在多少年了啊?一三年过来,然后十三年左右了。我这个后训练现在有点崩,嗯,所以中英夹杂的问题,对观众朋友们不好意思,我尽量尽量解释啊,多多见谅,多多见谅,多多见谅。嗯,我好像没有在任何地方找到你的一个播客或者一个访谈,所以这是你第一次做一个播客或者访谈吗?第一次做播客,第一次做第一次做访谈,对你可能能找到很多。
我出去在各种 conference 对吧,会议上面的演讲做演讲这些这些很多。为什么你之前这么多年都没有上过一个播客或者做一个访谈啊?我觉得。嗯,我不知道。我觉得我更适合做一个听众。我很喜欢podcast,对我经常听很多的podcast。我的这个Spotify啊、YouTube啊,每天上班、下班,然后睡觉前,平时没事儿都会听一些podcast。
嗯,对。然后我觉得我也挺有表达的欲望的,或者说,我私下里跟朋友也会聊很多东西。我跟学生,我觉得,嗯,平时抓大家一起聊天,我觉得也很开心,嗯。但是Podcast这件事情,对我也不知道啊,可能是因为没有人邀请我吧?应该不会呀。呃,其实对有一些吧,但是我觉得还是可能也是因为比较挨人吧。我觉得很多时候,对觉得。
嗯,不知道哪些话应该说,哪些话值得说,哪些话大家愿意听啊?但我现在我觉得慢慢。对年龄大了之后也也还好,拥拥有了这个不被人喜欢的勇气。我其实在网上看了你的很多很多的信息,但是我发现所有人对你的描写都是从上海交大的ACM班开始的。那我也很好奇,在那之前的谢赛宁是什么样的呀?嗯,你能不能从以你对这个世界拥有最早的记忆片段为开端,来给我们讲一讲你的童年和成长?
我啊,OK,你看,这就是为什么我们不想做podcast,因为确实啊没准备过,或者说你得让我回忆回忆。嗯,从最早的记忆片段呢,当然就是我觉得从小时候开始吧,可能啊四五岁的时候。嗯,我妈妈带着我去四处旅游,这可能就是一开始的记忆哦。在哪里旅游?呃,各种地方,对,因为他也做一些生意,然后四处跑,全国各处跑,对吧?
我记得印象很深,对吧?这种在上海的这种初印象,然后去啊四川啊,然后这些就是能想象的各种旅游旅游景点吧,啊。但是对我,如果非要对深扒这个家庭情况呢,就是就是我爸是一个纯粹的死宅,嗯啊,从从来不出门。但是他最爱看的事情就是看书,所以我家里,呃,反正有一个书房吧,然后几面墙都是都是书,所以,所以我小时候基本上就处在这种状态之中,要么就在外面跑,被我妈带着到外面旅游啊,要么就在家里面翻一些有的没的啊,能看的不不能看的书都看一看,对,然后我觉得这是这是一开始的童年,然后到了后来,后来确实,我觉得我们这一代人的成长经历还蛮不一样的。
因为我觉得,当然不知道。我觉得现在的孩子可能在这种AI的时代也会有同样的感受吧。但我那时候,我大概九岁的时候有自己的第一台电脑,然后那时候开始啊,不用来干正事儿的吧,也是一盒一盒的买游戏,然后打游戏。然后后来有了互联网啊,然后第一次感觉到这种信息爆炸,所以那时候第一次知道什么叫做内容啊。然后那时候,就会觉得自己突然有了更多的表达欲,因为你看书还是单向的这种学习的过程,嗯啊,虽然也是很开阔,对吧?
但到网上,当初有这些BBS,然后你可以上网去发表意见,我还记得对吧?有有这种新浪博客。啊,现在可能都没有了,但我写了很多很多的博客哦,是吗?啊啊,呃,各关于各种各样的乱七八糟的topic,现在对,现在肯定回头看过去都会都会很好笑,但是最popular的一篇文章是什么呀?很多吧,我记我记得啊,有点有点。
为赋新词强说愁的感觉吧。哦,嗯,可能那时候包括QQ空间,对吧?就是大家总会有一个想要有一个平台去去表达自己。然后到后面,其实还有更多的这种新兴的媒介出现,包括有博客,然后有有有微博,对吧?但那时候其实不是微微博,是饭否,不知道听没听说过,是王鑫,对吧?然后那时候我也是饭否的重度用户啊,啊,上面。呃,饭否现在还能登录,但是实在是不忍直视啊。
有时候看了看,我想,哎呀,要不要赶紧删掉啊?最后想一想,还是留在那儿吧,啊,让它变成这个互联网记忆的一部分。嗯,但是我觉得那时候,呃。我觉得,我觉得这种互联网的爆炸式的增长,让我变成了一个对很多事情都很感兴趣的人。嗯嗯,我觉得是这样。所以你爸爸。妈妈,你妈妈是做生意的,你们是一个商人家庭吗?也不是,也不是。
呃,对啊,反正我爸爸基本上是也是他,他是本科是学心理学的啊,他也之前也从事一些教育工作,然后后来也在一些呃这种电视台上的传媒工作哦,可能跟你是同行哦,对,所以他小时候我的记忆,对他的记忆是他扛着摄像机到处跑。哦,那这个有趣。对对对,但我家里确实没有没有人是学纯理工的啊。哦,这也让你的性格,我觉得还有一有一部分是蛮文艺的,可能吧?
这,但是,但我觉得我我觉得我我我唯一想说的还是,嗯,在这种非常轻松的家庭环境成长起来,啊,确实让我的自己的这个世界模型,我觉得啊。我自己对他,我还是觉得蛮蛮 proud of 的,对,蛮蛮骄傲的,对,因为我觉得我会,或者说你刚刚问为什么会来纽约,我这我觉得这也是其中的一部分,嗯啊,我觉得我可能会希望自己或者希望身边的人都更加 open minded 的去看待这个世界吧。
你是学习成绩一直很好吗?因为你是保送到交大ACM班的。呃,完完全不是的,我是从高中。对我觉得这件事情是这样,就是说,你可以看我现在有身边有很多很多的朋友,大家其实都是。呃,A class一路走上来的,对啊,最好的高中,对吧?然后最好的本科,呃,参加竞赛最好的本科,然后最好的PhD,然后结束了之后去比如四大教书,就有一个非常清晰的主线,对吧?
然后我也很崇敬他们,我完全不是这样啊。我是一个,呃,最多是一个B class的这样的一个trajectory啊。你像你像而而且很多我的这些决策其实还是蛮玄学的,因为我觉得我并没有刻意的。在某种这种优绩主义的这种这种这种这种setting下框架下面,去努力追求一些事情,很多时候其实还是挺随机的啊。然后可能也是这个没办法啊,这个智商不够。
但是确实,比如说像保送的时候,对吧?这个也是很偶然。然后反正有有两个呃这种信息学跟数学的竞赛的奖,然后这时候恰好交大有这么一个。呃,计划就是说可以提前进校啊,就是想收割一些同学,然后让大家不要去高考。对,其实我当初还是蛮顺着高考的这个框架去培养的。其实我呃本身应该是应该是要去参加高考的,嗯啊,所以当当初还纠结了很很长一段时间,学校老师都会说啊,这个不行啊,你怎么能这个临阵脱逃呢?
你已经你看你的成绩也很好,对吧?啊,你当然应该冲一冲清华北大啊。然后我的内心想法是,哎呀,交大挺好的。我觉得我去我去上海也待过,我觉得我跟这个城市跟这个学校都气质相投,并且我就是想学计算机。然后我觉得交大那个时候计算机也很不错啊。我也听说过有ACM这样的一个计划,虽然那时候这个选拔的过程其实是要到啊,你你提前进校进去之后有一个夏令夏令营之类的这样一个一个program,对吧?
然后你进行一些测试。啊,然后,然后才能进入到这个班级里面。对,但这里面有很多很有趣的事情发生啊。当当然,首先话又说回来,我觉得我还是蛮啊,怎么说呢?就让我再选一次的话,我完全不会后悔。对我觉得提前进校的那个暑假是我这人生中的高光时刻。为什么?因为那两个月啥也没干,就在寝室里面打游戏。这为什么是高光时刻?
因为这辈子在之后再也没有出现过这样的时刻了。当时打什么游戏?呃,很多啊,打刀塔啊什么的,就是宿舍里面,就是就是那种我在高中时候从互联网上看到的那种大学生活,你知道吗?啊,就是就是就是有好好学习的一部分,但也有一些这些啊,找寻自己,然后在。呃,这种,呃,漫无天日的虚度时光的这样的一个一个经历,对,所以现在您的人生高光时刻是在虚度时光是吗?
在寝室里,可以这么认为,对。哎,你很有意思啊!你一直在说你不是成绩最好的那些人,但是你你你也很顺呀,你也你似乎也是成绩最好那一批。为什么你对你自己心里的认知是我的成绩其实是一般呢?我其实就是说,我看跟谁比,对吧?跟那些最顶尖的竞赛选手,像我刚刚描述的这个。非常顺利的这个对吧?姚班大神,然后四大P H D、四大教授来比,那我真的是啊,远远远远不如。
但另一方面,我觉得我还蛮感恩我所有这一段经历的,因为我会觉得。啊,就接下往后讲的话,其实我觉得还蛮还蛮有意思的。啊,比如说,在我去交大的时候,其实交大也不一定是一个在计算机方面、人工智能方面一个特别特别领先的这样一个学校。对吧?然后到现在,比如像A四M班已经变成了一个,呃,当然这跟我没什么关系,但我的学弟学妹们,包括我的学长们,对吧?
不管是做创业还是在做学术,然后在各个地方发光发热,然后并且我们有一个很强的这样一个校友的网络啊,大家联系在一起,然后做事情。我觉得啊,我觉我觉得还是啊,是是一个向上的这样一个 trajectory 吧,向上的一个轨迹。嗯啊,再到后来,哎,这里面还有一个很有很有意思的事情,我想提一下,就是我 A 三班会面试,然后面试的过程会有这种老教授的,当初是这个沈恩少教授面试我们啊。
这个面试其实不是不是问你一些 technical 的问题,他会问你你喜欢读什么书,嗯啊。然后我觉得这件事情是明明注定有一些缘分,因为,啊,我当初非常着急,差点答不上来啊。然后我跟他说,我其实啊很喜欢看的一本书,也是我最近刚看完的一本书,是这个这本书叫《What Is Mathematics》,就是什么是数学。
然后沈晨超老师就接着就问说:“哎,那这本书的作者是谁?要考考我啊!”然后我有点懵,对,然后你这个对吧?一个高中生,人家这个对外国人名我也记不住,想了想,哎,最最终还是打出来了,是这个Richard Krohn。就是理查德·克朗,然后沈老师就是说,啊,对你一定要记住这个名字,因为这是相当于二十世纪最伟大的一名数学家啊。
为什么这件事情让我觉得冥冥之中自有天意,或者有一些巧合在这里面呢?是因为现在在NYU我在的这个这个系这个院就是克朗数学科学研究所啊,就是Richard Kron啊,拿铲子挖的第一勺土,对他建起来的这个系,嗯。所以啊,我觉得还蛮有意思的,对吧?然后到后面申请其实也是一样,我觉得,嗯,或者从另外一个角度来来说这件事儿吧,我觉得,我觉得好像这个世界总是不想让我去做我想做的事情。
但是,但是我偏偏要做我想做的事情啊,呃,比如说我本科的时候,我一开始就对计算机视觉,对吧?或者说对人工智能产生了一些兴趣。啊,那时候也是刚开始,就是在A三班,大家会在大二开始进行这种这种科研实习,然后会到这个学校里面的不同实验室里面去。然后我去的这个实验室就是一个做啊神经科学加AI的这样一个实验室,啊,叫做BCMI。
然后书架上放着很多很多关于意识、关于大脑、关于图像啊,然后关于我们怎么样对真实世界产生认知这样的书啊,我看了之后觉得哇,太有意思了。然后,呃,后来在在这个过程中,我还认识了我的一个学长啊,这个学长是这个侯晓迪哦啊,然后他他对他也是鼎鼎大名,他之前也创业,然后现在也在创业啊,然后我每每跟他聊起来。他总会说,这个世界也变了,但我们都没变啊。
我们特指我跟他,因为因为我觉得我们每次聊的东西,就像我们十几年前聊的东西一模一样。对,那时候他是这个学校的一个传奇。对,然后他干了两件传奇的事儿啊。第一件传奇的事儿是他作为一个本科生,呃,发表了一篇C V P R的论文。对,然后这个论文里面啊,呃,是一个非常精巧的算法啊,一共只有七行代码,解决了一个很重要的问题,然后发表了一篇论文。
嗯,现在CVPR已经每年接收可能几千、几篇、几千篇论文,对吧?好几万篇投稿,所以现在你像我们要招本科生,然后大家人手都三篇、四篇、五篇CVPR已经不算什么了啊。但在那个时候,在大陆的学校啊。能发表这样一个顶会的工作,其实是非常非常困难的,非常罕见,非常罕见。然后,如果是一个本科生发表这样的工作,闻所未闻啊!
所以,所以真的是每一个人都非常非常佩服他。嗯。但是呢,他又做第二件非常厉害的事情,是他呃带领一个team呃撰写了一个东西,叫做交大生存手册,交大学生生存手册。哦,这还是一个team写的?呃,应该是他主笔啊,我不知道后面应该有一个团队跟他一起。啊,然后这个东西现在网上还有存档啊,我觉得欢迎大家,呃,线下可以去看一下,对,呃,这个手册里面讲了什么东西?
然后有些有些话,对我前两天又回头又重温了一下,啊,我觉得非常非常有意思。对,呃,他讲的事情是什么?就是讲说人为什么要学习?中国的教育体制、大学的模式到底哪里错了?你应该把时间花在什么样的地方上?去达到你想要的人生,嗯啊,或者说他也指导大家说怎么样做研究,做研究的目的是什么?做研究的目的不是要灌水发论文,而是真的对这种无限的未知的探索啊,类似于这样的事情啊。
当然里面也会教大家什么怎么样逃课啊,怎么样啊呃完成作业比较比较快速的方式完成一些作业。对,是一个这种小册子。呃,我也去读了一下,他说:“如果一个人把政策评分作为自己的至高追求,那么他就是这个政策的牺牲品。”嗯,我完全同意。对我觉得这些事情现在回想起来,可能潜移默化真的影响了我对很多事情的认知。他在发表这个的时候,你大几啊?
呃,大大一大二吧。大一大二,对,大一大二你就认识他了,是吗?呃,那时候他已经申请成功,然后去了呃加州理工读PhD哦,所以我跟他是在,因为他也是这个这个实验室毕业的。所以,我跟他相当于在网上沟通。我何小迪当初是在这个加州理工,然后就已经读PhD了。对他也申请到了很好的学校,然后我们都非常非常羡慕啊,在那个时候。
然后我跟他还是会在这个当初是在Google Chat上,然后跟他聊很多很多的话。然后他真的是也是啊。给了我很多很多的建议吧,对。现在还记记得有什么建议啊?呃,没有更多的时候,在网上跟他聊的时候,更多是聊research,对,到底应该做什么事情?嗯,跟他讲一讲我自己的迷茫啊,然后呃,然后怎么样怎么样能够发出来一篇论文吧?
大概向他取取经。对,然后那时候,但那个时候,我觉得通过小迪,然后通过我看的这些书,已经基本上确定了。我觉得我这辈子就想做这个事儿啊!我觉得这件事情可太有意思了。计算机视觉,呃,那时候其实并没有这样一个。名字在那儿,或者说慢慢开始有计算机视觉这样一个一个
terminology。但其实之前对吧?然后大家去处理图像或者 video 的信息已经很长时间了,比如大家会做所谓的 image processing,就是图像处理啊。
呃,更多的是从这种大不一的 major 开始的。对,然后计算机视觉可能是啊有呃慢慢变得更加更加 popular,嗯,对,然后也也就是我开始学习这些之后的呃这这些知识的时候吧,它开始变得越来越 popular,对,然后呃我刚说这个世界总不想让我们做这件事情,是因为在呃教大一三班的时候。其实还有另外一个特点是,这个班里的每个学学生在大三的时候都要出去实习一次。
嗯嗯,现在其实也蛮常规的,但其实在当时还是就是这个班的主要的这个这个发起人叫于勇老师啊,他的一个创举。所以那时候,大部分人就是A三班会跟这个Microsoft,呃,Research Asia就是亚云亚云院有这么一个合作的一个项目,所以会把我们的很多学生送过去,然后做一个大概呃六个月的这样一个实习。对,所以,呃,我的当初的,就是如果我什么都不做的话,我就会去亚亚研院实习。
对,虽然也很好,但那时候,呃,其实没有一个做视觉的组愿意接受A三班的本科生去实习啊?为什么呀?呃,我不知道,可能是因为当初你像马伊老师啊、孙剑老师都在那边啊,开明的时候应该也在那边了。然后我觉得他们可能不喜欢有太多的这些啥也不懂的本科生啊过来参与这些事情,对吧?他那个他们那个时候非常的人才济济,是的,是的,是的,没错。
但但我们真的是什么也不懂,对吧?我觉得我我现在也慢慢能理解啊。呃,但那时候。呃,有一个选择就是还是去 MSR A,但是就不要做什么跟视觉相关的这些 research 了。啊,然后于老师也跟我说说,哎呀,其实你们本科生啊,现在最重要的还是有一段研究的经历,学会怎么样做研究啊。呃,具体做什么样的这个这个方向不重要,不是很重要。
嗯,对,呃。但我觉得不行啊!我觉得我没办法接受我去做一个完全不一样的一个一个方向。我希望对这个领域了解的更多,我希望能够踏踏实实的啊做一些事情。然后希望有朝一日能像小迪师兄一样啊,能够发一篇CVPR的论文。对,这是小迪那时候就已经是你的偶像了,是吗?有点,有点。他他是很多人的偶像。对,在交大的时候哦,呃,然后,所以我就开始琢磨这个事情怎么办啊?
然后就开始发邮件,所以联系了这个新加坡的NUS,对吧?啊,新加坡国立大学的。呃,严水成老师的这个实验室,嗯,对,啊,这件事情是完全我自己联系的,也没有也没有告诉于老师啊,然后等到敲定说,哎,我可以有这么一个实习的机会。啊,然后他那边已经有一些,呃,补贴,然后说什么时间什么样的这些这些这些架构已经都啊比较完善了,然后我就去找于老师,我说,于老师,我实在是不想去亚研院,啊,我想去这个新加坡的这个学校的这个组去做我想做的研究,嗯,啊。
余老师沉默了几秒钟,对,呃,可能我猜啊,我不知道,我我我还没有问问过他这个问题,但我猜他心里想法是,啊,这个学生怎么这么刺头?对。因为在老师的心中,亚圆圆是一个更好的选择。是的,是的啊,一是一个更好的选择,二是我觉得也是能够让大家都通过对吧,能能把大家聚聚合在一起啊。我觉得一是当然也方便管理了,第二也会有一些更多的这种synergy对吧?
大家还是可以互相交流啊啊。然后那那你去一个新的地方,这件事情到底意味着什么?嗯,这个地方到底靠不靠谱?你要做的事情靠不靠谱?这件事情可能是不可控的。你纠结过吗?我我没有拒绝,但但于老师,我觉得我也非常 appreciate 他,就是他反反正沉默了几秒,最后说:“好啊,你去吧。”对,呃,然后我就去了。
呃,但是这件事情呃发生了之后,像水城这个组 N U S 的这个实验室变成了我学弟学妹之后的一个可选择的一个一个一个一个 position,对啊,所以我觉得啊。对,所以我觉得我还是想 take 一些主观能动性吧。我觉得 take 一些 initiative,然后去做我自己想做的事情。对,在当时还非常早期,就是和图像相关的人工智能到底吸引的是什么呀?
嗯,它为什么吸引了你呢?让你做出了很多不一样的选择?因为我觉得我感受这个世界的方式就是通过视觉。嗯,我会想。我小时候可能也比较无聊吧,我就会想,哎,人有这么多,对吧?感官,啊,如果非要让我让我去掉一个的话,我会去掉哪个?我觉得。也许我听不见,也许我没法说话,也许我没有触觉,没有嗅觉,啊,我会过得很悲惨,但可能还可以接受。
但如果我没没有了视觉,啊,那那我不能看动画片了,我我也不能看电影,我也不能打游戏了,我似乎丧丧失了一个人的独立性。然后我觉得,当然这件事情,这些最开始的想法和后来我看到的一些书里面,呃,讲的事情,我觉得也蛮不谋而合的吧。呃,因为你相当于视觉信号,其实占了人的大脑这个皮层。呃,看你怎么说,对吧?就是主要的视觉区域可能有百分之呃百分之三十占整个大脑,但呃整个大脑在你看到这个图像的时候啊,激活的部分可能要占到百分之七十,嗯,对吧?
所以其实我们所有的人都是视觉动物啊。然后这件事情。对我我我是这么觉得的,我也是一个视觉动物,我也很喜欢,啊,看一些东西。对,生物眼不是毒,不只是人,不止人。对,你说的非常非常对。嗯,所有的动其实不完全是这样,因为其实,在五百三十 million 啊 years ago,就五百三十个百万啊呃年前,其实地球上其实是这些生物是没有眼睛的,大家都在这种深海里面生活。
呃,暗无天日,对吧?大家都在深海里面,然后光打不进来。然后突然有一天,啊,有一些生物能够,呃,发展出来他们的视觉了。虽然还是很弱,只能看到一点渺茫的这个这个这个信号,对吧?啊,但这时候他们就很厉害了,他们就能看到自己想要捕食的对象在哪儿。我就可以很快的游过去,然后把它吃掉。它还能躲避躲避天敌,有人要过来要抓我了,我立刻逃跑,对吧?
哦,一旦视觉诞生了。呃,其他的生物在进化的过程中又不得不演化出更强的呃这个这个视觉,对吧?因为因为如果你不有更强的视觉的话,你就会被吃掉,对吧?所以就展展开了一场军备竞赛。啊,所以这是所谓的寒武纪大爆发啊,就所谓的Cambrian era,就是说地球上在这个寒武纪之前,可能只有屈指可数的这些物种,但是过了寒武纪之后,突然到大爆炸似的多了几十万种这种物种啊。
一个leading的theory就一个一个理论,其实是说这种大爆炸的啊来源,其实就是因为大家在视觉层面展展开的这种军备竞赛。是的,是的,所以,所以你说的完全对,我觉得,我觉得这其实是不是一个人特有的事情,我觉得所有的动物其实也是这样啊。然后,所以,呃,我对这件事情还是还是蛮感兴趣的,而且,而且你知道,呃,视觉这件事情其实也不只是一个感官啊,有一种说法是,其实眼睛是唯一一个。
它是大脑的一部分,但它是唯一一个暴露在真实世界里面的大脑部分,因为其他的大脑部分都藏在我们的头骨背后。嗯,对吧?所以这样想的话,其实解决视觉不是要解决视觉本身,而是要解决智能本身。对,所以一切我觉得都是能串起来的。从你还没有进入大一的正式上学之前,那个在宿舍里躲着打游戏虚度时光的你,然后到你找到了计算机视觉的这个人生的主线,这中间发生了什么呀?
嗯,其实也没发生什么。其实很多时候,我觉得都都来源于偶然吧。嗯。就像我,如果当初也许没看这本书,然后我可能也不会走上这条路。但有时候我觉得这也是一种必然。我现在还是蛮相信,其实每个人都有自己的命运,嗯,或者说啊,我有时候跟学生说,你不要想着说你不做这件事儿,别人就会把这件事儿做了。你要想,如果你不做这件事儿。
这件事儿在这期世界上永远不会发生,啊,这是什么意思呢?就是说,就是说,就是说,你现在在做一个research topic,对吧?然后你做的这件事情。你是怎么样一步一步到达这个这这个端点的啊?这件事情完全取决于你自自己之前的个人的人生的经验成长的背景,可能是你看过的一本书,可能是你跟一些人的一段对话,可能就是你的genetically,呃,就是你的基因wise完就是就是跟别人不一样,对吧?
我觉得每一个个体在这个世界上都是很独立的。每个人都是这个世界的一个变量,每个人都是这世界上一个变量,然后有可能谁说的准呢?有可能你就是这个世界上最重要的那个变量。这是你的世界观,我觉得是我乐观的一面吧。对,嗯,你在新加坡国立有获得你想获得的东西吗?呃,我觉得,我觉得有。首先是我交了很多很好的朋友啊,之后我可以也可以慢慢展开。
但我认识了,比如说,呃,其实当初带我的主要的这个这我的mentor是冯家石啊,他当初是这个PhD学生。对,然后他带着我,然后做了一些工作啊。我们发表了一篇,也不是顶会,很不幸,本科还是没能发出一篇CVPR啊。但但发发表了一篇啊,还不错的这个BMVC的paper,对,是一个是一个没那么顶会的计算机视觉的这样一个论文。
所以,呃,我觉得,我觉得还是有很大很大的收获。我我第一次知道了,呃,research是怎么回事儿,对吧?真正写过一篇paper跟没写这篇paper,我觉得还是差别还是很大的。那是你关于CV的第一篇paper?是的,是的。但你可以认为这是一个关于CV的paper,但其实跟CV也没有什么关系啊。它的唯一的一个application是这个人脸识别,对它更像是一个呃机器学习的论文吧。
啊,但那时候也很正常,所有在学CV或者说研究CV的人都在做类似的事情啊,所有的这些,呃,这这这种 manifold clustering 相关的东西,对,呃,但是也就是在那个时间点上,呃,那是二零一二年、二零一三年、二零一二年,对吧?所以刚好也是 Alexnet moment,嗯,所以我也是在那个时间点上啊,知道了这件事儿,对吧?
然后对,然后知道了 ImageNet,知道了深度学习,所以我觉得那其实是一个原点,那是我刚开始做 research,然后学会怎么样做 research 的一个原点,也是整个深度学习的一个原点。这是你的大三,大三对,这个时候大学就快结束了,所以你其实,在本科期间就已经找到了你的主线。我觉得是的,嗯,那你当时的内生奖励机制是什么呢?
其实我觉得还是好奇心吧,对,哦,就是我,我觉得,我觉得想,我想要知道为什么,对,然后或者说这可能也是我的一个自己的一个解释吧。我觉得我也不知道我的 intrinsic motivation 到底是什么,哦,但是,嗯。我希望了解更多东西,我希望了解关于这个领域的更多的事情,我希望跟这个领域的最顶尖的这一部分学生也好,研究员也好,老师也好。
有更更深入的交流,嗯嗯,所以这也是为什么之后我决定还是想要出国,想要申请,我觉得也是跑了一是这个这个原因。这里我想多插一个小问题啊,嗯,你也肯定有很多清华姚班的朋友,也有很多清华姚班的呃朋友来过我的节目,是的,我想知道清华姚班,你觉得跟交大的ACM班最大的差别会是什么呀?在培养上?我觉得可能A三班没那么卷吧,啊,一个一个差别是,呃,again这件事情其实还是于老师的一个一个设计,他我觉得是一个呃挺伟大的一个教育家,我可以这么这么去说,嗯,对,像我们当初其实我们的课程设计上,呃,会有很多。
呃,看起来还是蛮奇怪的这些设定。比如说,我们有一门课程,于老师其实很很自豪的,就是说叫做学学子讲坛。这个学子讲坛是什么呢?就是说大家要到啊这个课上,然后花可能四十五分钟到一小时去做一个presentation啊,给一个talk。然后这个talk不能是跟学习有关的,它可以是关于这世界上任何事情的啊,但不能但不能学习有关系。
对,所以呃,有人会讲哲学,有人会讲历史,有人会讲社会啊,有人会讲很多很多很有趣的东西,当然也可以讲科学,嗯,对。然后我觉得,我觉得这可能是一个培养机制的不同。当然,我也没去过摇班,所以我也不清楚啊。但我觉得大家还是在一个相对来说比较宽松,并且比较比较强调通识的这种这种这种设定下往前走的,嗯。你给我的感觉是你好像不是一个喜欢过度竞争的人。
呃,我觉得我不惧怕竞争,但是我觉得确实。我不喜欢过度竞争,并且我觉得过度的竞争一定也不利于创新。对我觉得,我觉得这个这个当然不是说A三班没有竞争啊,其实有很强的竞争。你在这个竞争中是优胜者吗?没有被淘汰出去。OK啊,对啊,但其实也不能叫淘汰了,就是其实是大家觉得自己适合还是不适合,然后会选择继续留在这儿还是出去。
对,你本科大概排第几?一共可能有三四十个人,可能排十几名这样吧。就没有特别卷自己啊,没有没有特别卷自己,嗯。你你有想过要成为ACM班的,比如说第一名、第二名吗?这是你的追求吗?我成为不了,对,啊,真真的真的成为不了,因为我们有很强的这些,对,呃,竞赛背景的学生,然后或者说这个评价的标准,其实我觉得也是多元化的,其实不好讲谁是第一名、第二名,或者说如果只看GPA的话,啊,那我确实做不到。
嗯,对。然后我觉得,而且我对这件事情可能也是受了《生存手册》的启发。我觉得我也不是那么在意,所以你从那个时候就开始非常追随自己的兴趣。是的,对我觉我觉得追求我的兴趣,并且我会想方设法促成这件事情,对吧?尤其在申请的时候也是一样。嗯,刚才的一个例子是你去了新加坡国立,而没有去微软亚源院。对,申请的时候其实对这这里面还有另外一个故事,就是当初差点失学啊,但也没有失学,就是还是有一些
offer,嗯,但是也是没有一个我想去的做计算机视觉的老师的 offer。
哦,这件事情让我非常非常的沮丧,然后一度我会想,好吧,那我可以去做一些关于推荐系统的研究,一些更加呃,那种呃,机器机器学习的研究。哦,呃,直到最后,然后我就我就开始疯狂的跟大家写邮件,就是套词邮件,嗯,对,然后然后这个屠屠卓文老师,对屠屠教授,然后回复了我。啊,但这件事情已经非常非常晚了,因为你知道,大家申请P H D一般都是要四月十五号就截止了,对吧?
我其实四月才收到了这个回复。哦,对,你最想去的老师是谁呀?在那那个时候?呃,那时候其实做计算机视觉的老师不多,对吧?然后我觉得涂老师当然是一个我非常非常敬佩的一位老师,所以我觉得他也是我的一个Top choice。对,嗯,然后当然了,还会有很多。你当然说,像像在斯坦福、伯克利,对吧?MIT都会有有很多这些计算机视觉的先驱啊。
但那时候,这个啊,超过我的能力范围之内,嗯,对,所以,所以我跟涂老师发这个邮件,然后他就啊回复了我。然后我还非常记得非常清楚啊,因为有时差嘛,所以陶老师说我们要不要打个电话?你有什你什么时候有时间?我说我任何时候都有时间啊。然后所以我半夜三点在宿舍的楼下跟陶老师打了这么一个电话,告诉他为什么我觉得啊我想做这件事儿,我之前做了哪些事儿啊,并且我觉得我为什么很欣赏你的research,我觉得我们可以一起工作,一起共事。
对,所以啊,后来涂老师就就把我把我捞起来了啊,非常非常非常幸运。最后几天,最后几天把我捞起来了,到后面还有转折,因为我一开始这个涂中文教授其实是在这个UCLA。对啊,所以我拿了offer也是UCLA的offer哦,然后我办好了签证,准备要入学。然后之后之前啊,大概一个星期,陶老师说啊,这个不好意思,我要跳槽了啊,我我在U
UCLA因为种种原因待不不想待下去了,不想在这儿继续待着了啊,我要去另外一个地方,我要去哪?
我现在我也不能告诉你,我也不知道。对,因为他当初也在面试。哦,真的?对。然后他跟我说:“你有几个选择,一是啊可以留在UCLA,然后把你啊交给其他的老师托管。”然后也可以等一等,看看我这边工作的情况。然后有可能啊,如果去到一个你愿意来的学校的话,啊,你可以跟我一起来。对,所以你等了吗?还是你马上说我就选择你?
呃,我基本上就是说我马上说我就选择你了。对。你不在意学校是吗?呃,我觉得,我觉得我不在意学校,并且我还是觉得,对我觉得这些事情都很有意思,因为当初其实你如果看。呃,U C S D的话,可能感觉什么综合排名什么都不如什么U C L A,嗯啊,呃,现在完全不是这样了。如果你看这个C S
ranking啊,或者说从A I的这种招人啊,然后学生啊,包括这种师资的储备,A I的呃这种力量来看,我觉得U C S E都已经是前几名的这种这种级别了。
在当初完全不是这样。在当初,而且我其实还一直很想合作一个老师,叫 Serge Brunki。他刚刚决定也要跳槽离开 U C S D,啊,所以我觉得一切都很绝望啊!就是我要去的地方似乎排名也没那么高,呃,然后师资也在外流,师资也在外流。但我想了想,说这个都不 matter 啊,都不重要。重要的事情是我跟谁在做什么事情,然后这件事情是不是我想做的事情啊?
我觉得。抛开所有这些噪音,这是我唯一一个想要去关心的事情。嗯,这个很有趣。对,嗯,所所以这件事情发生了好几次。对我刚说,在交大其实也是一个向上的trajectory,然后去。去这个去去去U C S D其实也是,就是就是,当然我不是说这件事情跟我有任何关系,我觉得跟我没有任何关系啊。但三胖,我觉得我能看到一个地方,或或者甚至一个人他的 upside 的 potential,就是说他的潜力。
嗯,然后我也愿意跟这些地方一起成长。我觉得这是我体会比较深的一个事情。你多久知道涂老师去的是U C S D啊?呃,可能隔了隔了几个月吧,对,可能隔了一两个月,大概。你当时有担忧过吗?当然有担忧过了啊,对,因为因为涂老师其实是一个非常谦虚,呃,能力极强但又非常谦虚的一个人。所以,他总会给我打预防针的,说那我要去的学校有可能排名会比较靠后了啊,你要考虑一下。
对,你怎么说?啊,我有点不太记得我说什么,但 again 对我来说,这件事情可能不那么重要,而且而且而且那时候还没有到要做选择的时候,对吧?那我们为什么要呃为了没有发生的事情而提前忧虑呢?啊,所以我也没有想太多。有其他人做这样的选择吗?在涂老师沟通的学生中?呃,应该基本上没有。我是他在U C S D招的第一个学生。
哦,那我觉得光凭这一点,涂老师应该非常喜欢你。呃,我觉得这个都是对,我觉得也是他救了我吧。啊,确实是,当然这个也不只是一开始捞了我,再到后面做research在PhD的过程中,我觉得他也也是真的帮帮到了我。对我之前像在新加坡实习啊什么的,你可以认为我们在做一些research,但事实上啊,可以说还是小打小闹。
对,有一个人在你的旁边。教你做事,这种感受还是不一样的啊。涂老师是那种坐在你的显示器旁边,跟你一行一行代码往后去对的这样一个老师,嗯啊,而且他也经常啊,我觉得很骄傲的会跟我们说这些事情,并且我觉得他也非常值得啊这样的骄傲,就是说他发了几篇其实对后面的这个计算机视觉有重要影响的工作,都是他独立单个作者完成的工作啊。
然后这些工作。没有什么像现在一样,大家用 PyTorch,有这么多这些开源的社区,有这么多的这些库你可以调用,对吧?有 GPU,啊,在他那个时候什么都没有,他要从底层开始写起。比如说他要做图像分割这样一个
task,他要从头写起,大概有五万行的这样一个代码,他还把这个代码发给我看过。啊,那这个包含了最底层的,啊,这些这些包括一些 distributed training 啊,一系列的这些东西啊,全都是 C 加加写的。
对五万行代码,我觉得啊,一方面我觉得我很很很幸运,不需要经历这些;,但另一方面,我觉得其实啊,他们这一辈的在美国的这些这些这些scientist啊,这些professor,真的是令人敬佩。对,如果没有他们的话,也没有我们的今天。他们其实是,呃,闯出了一条路。对,本来这条路是不存在。像我说的,对吧?发一篇CVPR这件事情,其实是非常非常困难的事情,并且有某个圈子啊,有某个固定的圈子。
对,然后我觉得,我觉得要靠涂老师,啊,要靠其实他的他的老板对吧?朱松纯教授,然后包括后来像飞飞啊等等,啊,飞飞老师,然后大家把这条路蹚出来,让我们才有路可走。嗯,我看到有一个小红书评论说谢赛宁在国内表现平平,平凡无奇,到了美国一鸣惊人。所以变量到底是什么呢?首先,首先我觉得没有在国内平平无奇吧,嗯,我不接受。
然后在美国也没有一鸣惊人,我也不接受。我觉得,我觉得好像我做的这些事情还是一个蛮 smooth 的一个一个很平滑的一个过程。对,然后或者说,我觉得这也是我希望,呃,我作为一个研研究人员,对吧?啊,这种这种科学从业者吧,啊,我希望能够。处在的一个位置,就是说这件事情不是一瞬间的荷尔蒙或者肾上腺素的爆发。
这件事情可能是一个终其一生的一个建设啊,一种一种很宁静的一个过程啊。我是希望希望自己能处在这样的状态。我说这样的状态,是因为我知道很多人就是就是这样的状态。对这些我最崇敬的这些这些researcher,他们就是这样的状态。对他们没有。没有说怎么有这种一鸣惊人的啊,或者至少他们的做事情的方式不是,或者做事情的目的不是为了一鸣惊人。
对,我觉得是这样的。是为了什么?是为了还是把问题想清楚?嗯,你博士期间的工作是怎么展开的呀?啊,博士期间工作也很有意思。对,博士期间工作,呃,我觉得也是靠这个托老师手把手带。对,但啊,我们有第一篇论文啊。呃,by the way,我我在博士期间也不是一个成功的博士的学生。按现在的这种 standard 来看,我一共发了可能应该有五六篇顶会的 paper 吧。
啊。啊,这个是什么水平?呃,我不知道,在那个时代应该还行吧,是能找找到顶尖实验室工作的水平。现在可能已经是对现在现在我的很多学生要比我当初要。发的多得多得多的paper啊,然后工作质量也好的多。但是,anyway,就是一开始的话,我觉得我们做了一个工作叫做呃deeply supervised nets,嗯,对,这个工作其实是我跟另外一个更高年级的博士生一起合作完成的啊。
然后这个时候,这这是二零一三一四年的时候。对吧?然后这时候是深度学习终于开始爆发了,但我觉得这也是一个很有趣的时间点,因为其实有很多人不接受这件事儿,尤其很多做计算机视觉的老师甚至都不接受这件事儿。嗯,就大家觉得深度学习。还是一个炼金术啊,还是一个黑盒子啊!大家更相信传统的机器学习的理论,相信SVM或者相相信一些啊贝叶斯学派的一些理论,对啊,能够及时的转转身去做深度学习研究这件事情,现在看起来对吧?
开着这个历史的后视镜,都是一个no brainer,就是你你不需要做这样的选择,对吧?你就应该这么去做。但但在当时要做出这样的选择,我觉得是需要一些勇气的。所以涂老师其实是我,这也是我另外一个非常,呃,非常敬佩他,并且我我深深的受到了这这件事情的影响的啊,这么一个一个事情,那就是说他其实是很及时的做了这个转身。
所以这个 Deep Supervised Nets 啊,就是在这个时代,我们我们第一个 Deep Learning 的一个工作,对吧?所以这件事情的,呃,事情也很简单了。这件事情就是说,我们怎么样,呃,你所有的这些神经网络啊,在之前都是只是一个所谓的 single strand,都是一个长长的链条,嗯,然后有有你的输入,然后得到你的输出,对吧?
然后现在 deep supervised nets,就是说你现在其实可以有 multiple 的 branches,就是说你的一个神经网络其实可以有。多个出口,你在不同的出口上,你都可以施加一个监督信号。这样的话,一个最直接的一个好处就是说,你可以啊,不只从最远端的这个信号做 back propagation 回到呃之前的 early 的这个 layers 反向传播。
对,你你你你你不需要从最远端做反向传播,一路到最最头啊,你其实可以从中间的一个节点做反向传播,这样可以解决一部分这种梯度消失的问题。嗯。然后这件事情其实跟后来,比如大家做 ResNet,其实也有点神似啊。其实就是或者说在那个时代,大家其实都想要解决这样的问题。那 DB Super Res Nets 就是一个要解决这个问题的一个方式。
其实这件事情,呃,虽然很远了,对吧?这已经 again 十二年前了。但我觉得 research 就是这样,十二年之后,其实我们现在的一些论文又再次用到了同样的这样的设计啊。有时候甚至是我们都没有意识到。对我觉得这个很有很有意思。但这我们先不说十二年以后,对吧?那我第二篇论文其实是叫做这个 holistic edge detection,就是一个做边缘检测的工作。
HED HED对啊,我觉得我对这篇工作其实也蛮蛮骄傲的,因为这件事情说白了,把把一个research问题解决了。啊,呃,既是一种幸运,也是一种不幸。就是幸运的是说这篇论文是一个不错的论文,不幸的事情是,当这个问题已经解决了之后,那没人后面没人做,所以也没有人去 cite 你的文论文了啊,所以少了很多 citation。
对,呃,但是。呃,但这个工作其实本质上就是一个 deep supervised nets DSN,在一个呃图像啊,或者说边缘检测,但但其实是一个全局的呃这种我们叫做 pixel labeling,就是说像素级别的这种这种标注的这样这样 task
上面的一个实现,嗯。对,然后这件事情呃也打开了我很多的思路,因为我会发现,哎,原来一个神经网络,它的每一层其实是有它隐含的这个结构跟信息在这儿的,你的一个神经网络。
Again,不只有输入跟输出,你的中间会有很多的这些信息,它代表了这个世界的一个所谓的 hierarchical,就是层次化的一个结构的。对于边缘检测来说,它代表了就是说你的。初级的这些层输出的这些边缘,就是更加所谓 coarse、更加粗糙的这些边缘,对吧?然后越往上,你的边缘也就更细致,所以你最后可以把这所有的这些边缘融合到一起,得到一个最贴近于人的认知下的这种边缘的这样的一个一个输出的结果。
我觉得这件事情其实是,也让我对深度学习有了新的认知。嗯,它是一个很有趣、很有趣的东西。你可以认为它是一个 black box,但这个 black box
的每一个部分,你又能把它打开啊,接入一些新的灵感,然后达到一些新的目标。我觉得这件事情对我启发很大。然后这个paper当初呃对我的人生影响也很大,是因为它这个是发表在ICCV,然后也得得到了一个奖啊,这个奖是这个马尔奖,就是其实最佳论文奖的提名,还不是最佳论文奖,只是一个提名。
但其实这个对于马尔奖来说,就是他评选,呃,两个论文了,就是相当于马尔奖跟马尔奖提名是两个奖项了啊啊,所以这件事情让我觉得啊,你要说什么一鸣惊人,我当初确实觉得,嗯,你看我也是年少成名了啊,就现在,当然我们有很多这种这种中国学生也在这种世界的舞台上啊得的这些best paper可太多了,对吧?但当初对我来说,呃,走上那个舞台,然后或者那个讲台吧。
然后去给这个 award presentation 啊,去给这个 talk,我就对我的触动是很大啊。我会觉得哇,我的这个人生开始了,对吧?然后我会不断的努力,我会有越来越多的 best paper 啊啊。很不幸,这是我最后一次拿 best paper。这时是博几啊?是博博二吧?啊,然后直到现在,过前两天春节,大家发短信还是说啊,祝祝你这个新年快乐,best paper多多啊!
我说已经过去十年,每个人都这么祝我了,再也没有得到。你还想要吗?呃,好问题啊!就我觉得这件事情对我来说也没有那么重要啊。一方面是我知道了这个流程,我知道其实,呃,我得没得一篇 best paper,可能不代表这篇工作的好坏。我也知道了当初我得了那篇 best paper honorable mention,其实多半也是运气。
嗯嗯,这是一个巨大的随机过程啊,一个论文。中与不中,然后能不能得什么样的奖?我觉得这件事情呃非常非常随机。然后如果一件事情这么随机的话,它不应该是一个 researcher
应该关注的事情。所以你到了博尔,感觉到人生终于开始了,对,然后人生终于开始了,然后立刻现实就把我打翻在地,对吧?呃,呃,倒也没有那么夸张了,就是说,呃,我觉得这也是另外一个我读PhD的时候,哎呀,又要感恩涂老师,就是他其实又是一个非常非常open-minded,让我们去探索各种各样不同方向的一个人。
所以我在PhD的时候一共实习了五次。哦,我觉得即使在今天看起来,虽然跟学校跟 industry 已经合作这么广泛的情况下,我觉得也是挺难以想象。你为什么想去实习?呃,我就想走出去去看看,嗯,可能就像我小时候去旅游是一样的。我想知道在这个世界不同的地方、不同的组织有什么样的事情在发生,啊,有哪些人在做哪些事情啊?
我想知道这一切。而且我一方面我跟你说对吧?我一直想做啊人工智能或者想做计计算机视觉,但另一方面。我也会问自己,What if I'm wrong,对吧?嗯,What if,就是假万一呢,对吧?万一这世界上会有另外一个更有趣的事情发生,那怎么办?对,所以我觉得这也是另外一个我的一个 motivation。
你去了 NEC Lab,去了 Adobe,去了 Meta,去了 Google Research 和 Deep Mind。啊,对,感谢感谢背景调查。对,是的,是的,是的,是这五个地方。然后呃,其实前四个都在湾区了,所以我其实那段时间其实还是蛮开心的。就是每年啊,我有一辆自己的破车,然后每年夏天啊,我要把我自己的宿舍转租出去,开着我的车。
一路从南加开到北加,嗯,好八小时的路程啊,有时候会跟有一两次会跟朋友一起,大部分时候是我自己在路上。啊,我觉得这件事情还还蛮酷的,对啊,所有的身家就在我的车里,两个行李箱啊,然后不带走任何一切,因为我这个房子我也我也我也没了,我要回来我要再重新找房子,对,呃,居无定所哦,这种这种流浪式的研究员的生活,嗯,我还蛮我还蛮开心的。
这五家里面你最喜欢谁呀?我觉得各有各的特点啊,像这五家里面,就是所以,我我最近也跟学生说,我有很多学生,然后他们实习其实没有做出来什么好的工作,然后我就跟他们说,我就会拿我自己举例子。我说这五我我做了五次实习啊,一半儿都没做出来什么东西。嗯啊,然后这个实习周期有多长?呃,一般都是三个月到六个月。对,所以我大概一半的一年一半的时间在学校,一半的时间在湾区啊。
当然,第一半的时候在伦敦。对,然后我觉得没有什么喜欢不喜欢,我是我我我会尽量的去 diversify,呃,就是就我会希望我去的每一个地方都不一样。对,我希望他是一个更多元的经历,所以 NEC Lab 它当然是我第一个第一个去的地方,然后我觉得在那里我也发了一篇 CVPR
的论文啊,然后那边呃有很多很好的小伙伴,主要还是华人居多,嗯啊,然后大家中午下班了就一起去 Cupertino 啊去吃饭啊,我这是我对他的印象,我非常非常喜欢这个集体,然后非常喜欢大家做研究的态度。
然后我也发表了一篇我自己的论文,所以我我我觉得我非常高兴这段经历。对,AMI Labs当年应该也是深度学习的聚集地。于凯博士也在那里待过,是呀是呀是呀,嗯嗯是的是的,当然啊,它有两个分布,一个在 Princeton 啊,一个在这个 Cupertino。所有做 Vision、做 Media
相关的人都在湾区啊,然后所有做呃跟这种传统的机器学习相关的工作的人都在都都集中在这个 Princeton 这边。
对的,然后后面可以有些可以跳过,但是反正在Adobe我就没做出来,原因是,呃,Adobe是一个非常非常artistic有这种艺术家气势气质的公司公司哦,对的,make sense。然后我在那时候在三番,然后。呃,让我做一些跟 design 相关,跟这种 cross-housing,就是说你要在互联网上去写一些啊,这种 Mechanical Turk,就是一些互联网的这种。
用户 feedback 的这种系统吧,对吧?然后一些用户反馈系统,然后用它来指导一些呃机器学习跟呃这种这种呃计算机视觉的一些一些任务,比如说 segmentation 这件事情,我做我我就没做好啊,我还对我的 mentor 心怀愧疚,对啊,当然他们也都很友善啊,对啊,但这这这也是一次让我体会到其实 it's okay。
呃,没有做出来什么东西,其实也不是the end of the world,对吗?也不是世界末日。但那那一段时间其实还是蛮消沉的啊。然后这段消沉期其实一直持续到了我去Meta实习。就是在学校里好像也没有做出来什么有趣的工作,然后到了Meta之后之后,然后呃,实习只有可能三个月的时间。我在前两个月基本上也我在export一些东西,在探索一些东西,也是跟这种神经网络的架构相关的一些东西。
但也没探索出来什么东西,什么名堂啊?然后突然一个转机发生了啊!这个呃,凯明加入了菲尔啊,在那个时候。对,所以这大概是我实习的一半的时候,何凯明老师然后加入了菲尔,然后成为了一个啊 full time 的研究员。嗯,所以啊,那是我第一次跟凯明共事,那是我第一次啊向他学习。对,然后然后那时候也建立了一些深厚的友情吧,我觉得啊,因为那时候他第一次来美国。
他第一次,他他有很多第一次是在是在这个菲尔的时候啊发生的,对吧?他那时候也不会开车,第一次来美国也人生地不熟。我要开着车带着他出去吃饭,然后送他回家,有时候啊。但他后来也会自己学车了啊。然后他也不会用Linux,嗯,这件事情也很有意思。对,因为在微软的时候,他们都用,他们只能用Windows来编程。
对,所以我要教凯明怎么样用这些cluster,怎么样用Linux。对,但你会发现啊,凯明,凯明,这个,这个,这个是凯明,不是没有原因的。对,然后我觉得,我觉得像他身上真的是有这种。啊,可以叫他光环,或者我可以叫他某种,呃,这种现实扭曲引力场吧。这其实是 Steve Jobs 的说法,就是说 Steve Jobs 这周围的人受到他的这个影响,都会觉得现实发生了扭曲,对吧?
有些本来完全做不到的事情,现在慢慢竟然可以做到了。啊,我觉得凯明也是有这样的魔力的。对,然后所以这是我第一次看到说一个真正顶尖的研究员是怎么样做做 research 的。你那个时候实习期只剩一个月了,你们为什么能够建立起深厚的友谊啊?我觉得,我觉得一是生活上的交流哦。他为什么选择你呢?他为什么跟你交流呢?
呃,因为因为我在那边是一个 intern,然后我的我的 manager 就把我委托给凯明了。啊,因为因为反正我做的也很不好啊,也没做出啥东西。然后凯明来了,说:“哎,凯明你来带一带吧,你参与参与讨论吧。”对,所以那时候还剩了一个月的时间。然后凯明就说:“要不我们来一起参加一下这个ImageNet Challenge吧。
”对,就打这个比赛哦,嗯,然后,然后我说,哎,好呀,那我们来来打打这个比赛了,因为凯明在微软的时候,那。他做出他这些工作就是靠打 Image 的比赛,对吧?然后,然后一步一步打起来的。说白了,嗯,然后,所以我们也来去,去,去,去玩这个 Image 这个
Challenge,嗯,然后在这个过程中,我,我们,我们就发现,哎,我们之前想到的一些思路,其实,其实是一个 reasonable 思路,其实是一个很好的思路。
对吧?然后其实这个 idea 我我 propose 给凯明,凯明,他的魔力在于他能把,他能把所有很普通的东西啊变成一个金子般之前的这个 idea,嗯,对,所以我们做了这个 ResNet 的这个工作,然后这个也是我们参加 ImageNet 的 challenge 的一个一个 solution,啊,一个一个 submitted solution,然后我们当初得了第二名啊。
啊,没得第一名,但我觉得我们其实是effectively应该是第一名,因为第一名的solution是一个就是on somebody的solution,就是把一些之前的算法啊做模型融合融合起来的一个一个solution。对,然后我们其实是一个全全新的框架。嗯,对,然后,然后那个时候,呃,对我觉得,我觉得,Rustacks想要讲讲述的事情也是。
在涉及到我们怎么样去通过一个去更改我神经网络的架构,去学到一个更加 scalable,对吧?可以扩展化的这样一个 representation,这样一个表征啊,这这件事情其实也非常好玩,因为这件事情啊, idea 非常非常简单,它就是说原来比如说我的 ResNet 只是一个串行的网络,对吧?只有一层一层一层的这样的这样的 con con layers,嗯,现在我可以平行的。
扩展成好几个不同的 groups,每一个 group 里面有单独的自己的一个小网络,相当于你是网络在一个大的网络里面,又平行的分布着很多小的网络。嗯,啊,这件事情为什么有意思?因为按现在的话来说,这件事情就是 moe。哦,对,所以,所以,我们当初在至少在 ImageNet 上面已经看到了某种 scaling behavior,就是说,当你的 group 的数目越多。
你的这种神经网络也就越稀疏,啊,然后你的神经网络越稀疏,你的宽度越越大,但你就能够在同样的这种 flops 这种计算量下,然后得到更好的结果,它就收敛的更快,然后你最后的结果也就变得更好。我觉得这件事情跟现在大家在M O E export东西也是不不谋而合的。这个工作算不算凯明那个ResNet的延伸呀?
是的,是的。所以为什么叫ResNet的?凯明说,对这个这个是谢斯ResNet。所以它这个X既是既是Next啊,既是下一代的ResNet,也是呃给了给了我的一些给了我一些credit啊,嗯,对,我觉得啊,凯凯明是一个很会取名的。人对给给paper取名的人对后面很多这些论文其实都是他帮我们取名的,嗯,他会他会把人的名字藏进去,倒倒也不会,倒也不会,不是每次都会这样做,但只是说是一个巧思吧。
我觉得这也是他的research taste的一部分。他为什么要把你藏进去?不知道啊,我觉得我觉得可能也是啊。啊,我其实不知道,我没有问过他。嗯,你们那个时候已经共事多久了?你的实习期有延长吗?这都是在那一个月里面发生的。对,就是就是在一个月里面发生的,这样的事情不计其数。我我很多很好的工作,其实都是同样的节奏,就是一开始怎么做都做不出来。
哦。然后到最后,突然一瞬间有灵感的迸发,然后把这件事情收敛。就是 research 从来不是一个线性的发展,或者说一个线性发展的 research 永远不是好的 research。嗯,对。然后我们很多的工作其实都是非线性的。我之后可以给你再讲一些其他的 story。嗯,好,呃。对,反正反正这时候是是跟卡明,然后我就我就结束了,然后就是这段时期也就结束了。
但是你们友谊保持下来了,是吗?我觉得是的,对,嗯。然后去完了Meta,这个又是一个有成果的一一份实习,我觉得是一份有成果的实习。在Google呢?在Google啊,我觉得做的做的也。也还不错,因为我开始去了解一些视频是怎么玩的。对,这些实习都跟我之前做的东西都不一样,每一段实习跟我之前做过的topic都不一样,啊,所以导致我最后的毕业的论文,其实,啊,表面上其实是很散的。
但我还是能找到一个方式把它们串起来,然后串起来的方式我再向告诉你。但是,但总之是在Google的时候,我去研究了一下这些视频的这种这种呃神经网络的这种架构跟训练的呃流程到底应该是怎么样,我觉得收获也蛮大。哎,我有一个疑惑,因为你既然在 Meta 跟凯明合作的很好,然后他又是一个鼎鼎大名的 AI 的 researcher,你为什么不留下来继续跟他合作?
我觉得很多人可能会这么选择,你为什么要接着去其他地方去游览了呢?呃,这是这其实是凯明的建议。凯明会建议每一个人去不同的地方实习,这样才能去收有最大最最大化的收获。对,所以像我们当初我啊,包括王小龙啊啊,大家其实都是实习了一次,然后然后之后,呃,我们当然都愿意留下来,但凯明说你们去其他地方看看吧,对,也许会有不一样的收获。
嗯。但是你博士毕业以后回到了Meta,是的,对。我觉我觉得还有就是在Google时期完了之后,紧接着又去了DeepMind时期,我觉得那段经历其实是对我启发是很大的。嗯,DeepMind那时候还不属于Google,呃,还没有收购是吗?不不收收购收购,但是是两个不同的不同的organization,嗯,因为它呃只在伦敦,嗯,对。
所以那段时间我去呃在做一些RL相关的research。啊,然后原因是我真的不知道这件事怎么玩的,然后我想去看一看,啊,然后做的也很痛苦,而且伦敦的冬天那那段时间是冬天,好冷,伦敦冬冬天也很冷啊,我还非常记得非常清楚,我要从伦敦地铁下来,工作到很晚,晚上可能十点十一点,然后凛冽的寒风,然后夹夹夹杂着雨啊,打到我脸上啊,然后衣服帽子都挡都挡不住。
一步一步回到我那个蜗居的小屋,对吧?临时的宿舍啊,其实还是还是蛮辛苦的,对。然后,但那段时间对我的啊,我觉得我觉得启发也很大。第一,让我觉得我好像不是很喜欢做。啊,阿瑶相关的research,嗯,或者说我不喜欢做机器人相关的research。机器人,因为因为其实当初阿瑶其实就是在在在这种啊虚拟的环境里面,模拟环境里面去做一些embodied agent的task。
对,嗯,然后,但是我觉得我更多的收获其实是来源于我对Demand这样一个组织的认知是在那个时候build起来的,嗯啊,我觉得哇,这个地方好不一样啊,跟我去的所有地方都不同。对,他们会有一个很不一样的管理模式。比如说,他们会有很多这些,呃,PM去协调不同的research的team之间的这种运作。嗯,他们会有这种不同的working
group,就大家还是会有很多bottom up的idea,自下而上的这种idea。
但是他们又有一种 top down 的管理的模式啊,并且它也是一个层级化的管理模式。一开始纯粹探索性质的这些这些 idea 啊,然后大家可以有自己的一个小的 group 去去去做一些 early study。然后立刻就会进入一些,如果一旦一个东西成型,立刻就会进入一个更加 top down、更有组织性的这样的一个管理的模式下。
嗯,我觉得这件事情非常非常有趣。然后现在回想起来,对吧?我我之前在推特上也跟大家说,就是 Damis 跟很多 intern 也都见面,然后大家组织了一个 meeting。然后Damis就跟大家说啊,或者说其实是有人问他这个问题,就是说,哎,Demand的使命到底是什么?这个公司你们到底最后想成为一个什么样的公司?
Damis的回答是,呃,Demand最后会成为一个能拿Multiple Nobel Prizes的公司,嗯,能获得多个好这个要要要划重点多个诺贝尔奖的公司啊。我觉得我们当初都说哇,这个也太 ambitious 啊啊,是不是有点天方夜谭?只是在做 AI 而已啊。但现在我们看到他们已经至少实现了一步吧?
我觉得,我觉得,我觉得真的是非常非常敬佩。啊,其实 AlphaFold 这个这个整个的 team 就是在我实习的那个过程中,呃,逐渐逐渐衍生起来的。对我,我其实能看到哪些人在做这些事情。然后一开始也也有一些 intern 在参与这个过程。然后一步一步,他是怎么样从一个探索性的这样一个
idea,逐渐变成一个有组织、讲究 execution,一步一步能够去达到最后彻底改变这样世界的这样一个一个一个项目的这样的过程。
组织问题,我们稍后会着重的来聊。嗯,我在想,你是不是实习太多,所以你后面没有 best paper 了?呃,我觉得有可能是这样啊,或者说,我觉得我做的东西。啊,可能太多太杂。实习是从博级开始的,就是第一年开始哦,第一年开始,所以这两个一直是交织交织的,一直是交织的。嗯,对,所以所以我觉得你说的很对,其实我的时间线其实是被打乱的,对吧?
确实会失去一些注意力,但我觉得这也是一个我自己的设计。所以说回回来就是说,怎么把这些事情串起来呢?我觉得我的博士的论文题目是啊。这个 deep representation learning with induced structural priors,大概就是说一些结构化的先先验啊,用用这些先验来指导我们怎样能学到一个更好的深度学习的表征。
嗯,然后这件事情。again已经过了很多很多年了,但我我发现我现在在做的事情还是这件事儿。然后,并且这个十一月还是十二月开会的时候,然后,然后,然后有一个workshop,他们的这个workshop title就是说representation learning with啊, structural prior吧,大概就是用结构化先验和表征,大概类似这样的一个topic啊。
然后我再给了一个套盒过去,然后我在我talk的最后我就说,其实过去的十二年啊。你们这个 workshop 的 topic,虽然现在还是 frontier,我我们我们在讨论它的时候有了一些不同的意义,但是这个也是我当初一开始想要 study 的问题,也是我现在觉得还还是没有完全解决的问题。对,所以一方面我觉得我的这个读PhD期间时间线有点支离破碎啊,原因是我在不同的地方在做不同的事情。
但另一方面,这也是如果你想要去涉及的东西是表征学习这个topic的话,这也是不可避免的。嗯,原因是它就像种一棵树一样,你的表征其实是你这个树的树根,这个树长长起来之后。它得要有不同的枝桠,对吧?哦,这每一支其实就是一个不同的我们叫做 downstream 的这种 application。就是一个新的应用,所以我做过图像识别,然后图像分割、边缘检测、视频识别、动作识别,对吧?
然后包括甚至后后期有一些这种 embodied RL 相关的 task,啊,在所有做这些事情的时候,我看到的这些问题,它们都是这些树枝上的一个分叉。他们不是根,对吧?我觉得有可能你说的对啊,我没考虑过这个问题,我会不会有更多 best paper?但我希望还是能够更多的种这棵树,然后我希望能够扎更深的根,而不是。
去在啊,在这个在这个 branches 上面走得更远,对,嗯啊,然后我觉得 again,我觉得这件事情是 deep learning 的核心,就是我们说这个表征学习 representation learning 这件事情基本等价于 deep learning。给大家解释一下什么是表征学习。呃,哎,好问题。
对这这件事情,呃,我觉得,我觉得,之所以我很喜欢说我是一个做表征学习的人,是因为这件事情还是蛮难定义的。从数学上来讲,你可以认为表征学习就是说你有一个data,对吧?x,然后你现在要把它map到一个一个啊,一个一个space去。然后现在这个 space 可能会具有一些性质,啊,这些性质可能这些好的性质可能会更容易让你在下游的任务上面取得更好的结果。
对吧?然后,所以你要学的这个,从,嗯,从从初始的这种数据,再到这个具有良好良好性质的这个空间的映射的这个函数,这就是所谓的表征学习。对,然后这个函数也不是只是一个简单的映射,它有可能是一个 hierarchical 层级化的一个映射。对,然后我们现在,呃,当然这件事情可以用不同的方式实现。那现在,呃,主流的实现的方式,当然就是用一个。
非线性的神经网络来实现这个这个这个这个函数,对,所以我觉得这是一个定义。但我刚说我会我会愿意呃说我自己是做一个representation learning的人,是因为我觉得这是一个永恒的title,就就因为这个领域发展太快了,很多时候我们做很多的事情,包括我我举一个例子吧,这个可能是一个非常非常非常negative的example。
就是以前其实有呃,在我在我什么时候可能P P H D刚毕业的时候,有一个东西非常非常火,叫NAS,叫Neural Architecture Search。就是叫做呃神经架构这个这个检索吧,我不知道应该怎么翻译,就是 neural architecture search,嗯,呃,这个领域里面很多共识就是说这样一个 topic。
耽误了整个领域大概两年的时间,这是一个错误的方向。大家在这个错误的方向上面发了几千篇论文,但最后没有任何的收获。嗯,然后所以为什么我说表征学习是一个很好的这样一个态度呢?或者说,我愿意跟所有人说我是一个做表征学习的人,是因为这是一个 fundamental 的问题啊。如果你现在说我是做一个 neural architecture search 的人。
啊,那那这个这件事情就很麻烦,有可能过了两年之后,你就立刻得要改行啊,你就要把自己网站上说我的 research 方向是 neural search,把这句话删掉,替换成下一个更 fancy 或者说更不一样的一个一个 term。它不是一个永恒的主题,它不是一个永恒的主题。嗯, representation 是一个永恒的主题。
是一个最反的 mantle 的主题,也是一个还没有被解决的主题。嗯,嗯。所以啊,哎,PhD可能讲的有点长了,但是但还要说,就是说,我觉得PhD的时候其实也也遭受了更多的挫折啊,包括比如说我们一开始Deeply Surprise Nets这个论文这件事情,也是一开始我们投了NeurIPS得了一个挺高的分数啊,大概是八八六还是怎么样,八八七的一个分数。
哦,最后还是被拒稿了啊!然后这件事情对我来说也是一个打击。嗯,我发现哇,原来发表一篇论文。这么难,即使得到了很好的评价,但还是因为一些很离谱的原因,然后被拒稿。离谱是什么?离谱原原因是因为我们当初我们的里面有一个数学公式啊,它应该是平方,我们有一个 typo 啊,把这个平方项落在那儿了啊,没有没有写,纯粹是一个 typo,非常容易 fix。
哦,但 PC 说。啊,就是这种 program chair,就是负责这种这种会议的人,就会说啊,这件事情导致你的数学上不成立,是一个错误啊。然后这件事情 rebuttal 的时候,就是说你在反驳 review 的时候, review 没有看到。所以,呃,我们很不幸,你没有办法被呃被fix啊。那现在我们只能去搞啊。
现在看起来已经不可想象,就是因为第一,现在可能大家也不会去检查论文里的公式了。第二,我觉得大家也相对来说更加宽容了。在那个时候,其实大家会非常非常抠这些细节。嗯,对啊,但没关系,反正我们就投了这个AI Stats另外一个一个会议啊,机器学习的会议。然后这个论文去年啊得了他们的这个Test of Time Award。
哦,就是一个时间检验奖,所以我觉得这么久,对呃,因为因为所有的时间检验奖都是说你要评价十年以后的,在十年整以后的这个节点,评价十年前所有发表的paper里面哪一哪一篇论文影响力最大,对这个领域影响最大,对。所以我觉得,嗯,我突然又释怀了。我觉得啊,确实做研究是一个长期的过程,嗯。然后,所以这也是为什么我跟很多学生也会说这件事情。
然后,我觉得。嗯,其实其实不要在乎啊,每一个时刻你的成败吧。我觉得,或者说从数学的角度来描述的话,就是说不要在乎一个 point estimate,就你不要在这个时间轴上在每一个点估计你做的好还是不好啊,因为所有的评价它之呃到最后都会是一个积分。哦,就你需要时间的积累,到最后你看所有你之前做过的所有的事情累加到一起,它决定了你是不是一个好的 researcher。
嗯,但是在那一刻你还是会很沮丧的,很沮丧,对,非常非常沮丧。你在那一刻很难想到十年后的事情,很难想到十年后的事情,嗯。你在博士毕业的时候对自己的人生是抱着什么样的期待呀?因为你也发了一些很好的论文,你也是有有过五次实习经历了。你觉得你自己是应该往科研方向走,还是往产业走?你有做这个选择吗?我觉得那时候一直都不是很自信。
那时候我都没有去想过找教职,因为我觉得我不配啊。呵呵呵,因为你为什么在每一刻都觉得我不配啊?我觉得现在好一点,但是呃,可能这个有点夸张了,也没有觉得真的不配吧,但只是觉得比起我的那些peer啊。他们在这个既定的轨道上面,像我说的,一步一步通向这个很好的教职,这条路线,我觉得我不在这条路线上。哦,或者说你刚刚说的这件事情也很很有道理。
如果你最后真的路线是要找一个教职的话,至少在当初那个时间点上,你不应该去五个地方做五个实习,做五个不同的项目。这件事情非常不利于不不利于找教职,因为如果你想找教职的话,你留在何凯明的那个团队里面,你可能会能发更多的paper,然后你有更多的结果在那那个时间段。他可能能够通更加顺畅的通往一个确定的目的,对,我不知道是不是一个确定的目的,我真的啊,我觉得还是挺玄学的,所有这些决策。
都是说我只我只考虑的事情是我应该去做哪里啊,跟我最呃做我最想做的事情,然后最好是跟我最想要共事的人一起共事啊。我觉得其实这个想法其实非常非常单纯,所以在当初找工作也是,其实我就是。啊,也四处都在找吧,各个大厂其实也有有不少 offer,对。然后,呃,我之前也讲过,我当初面试 OpenAI 的经历,其实还是蛮蛮酷的。
反正在一个小黑屋里面关了五六个小时做一道题目,啊,出来的时候天都黑了。对我觉得我对那个体验也比较奇妙啊,感觉也比较奇妙。啊!但那时候其实我面试官在Open AI,张舒曼哦,对我我看到你在知乎上写过这个经历,对吧?呃,不在知乎,反都是在Twitter上面,在X上面。对,知乎转了那就是啊,是的,是的,是的。
对他当初的这个这个这个面试题是一张A四纸,他是手写的,铅笔手写的一行一行的这个面试题啊。我觉得这件事情对我也是一个很大的触动。嗯啊,我觉得我觉得太有意思了,这个地方很有意思啊。然后呃,最后最后其实对,当然也有offer了,但是。最后啊,没有去Open AI,没有去Open AI啊,这就是这个时间线开始对量子力学开始发生了一些变化。
那时候是二零二零一八年啊,对哦,好早嗯啊,所以所以如果我去Open AI,可能呃我现在是L L
M的一员啊,maybe啊,我觉得可能不会对,我不知道我不知道不知道会发生什么对,但那时候其实想都没想,那时候我就想去Fair,如果Fair给我这个offer,我一定会去。你想去Peter的原因是凯明,呃,对凯明Peter,呃,Russ
Gershick,就是所谓的当初的计算机视觉的三驾马车啊,他们都不是那种很很senior的,比如说大学的教授或者怎么样,都是这种啊中青年吧,大概啊的研究员,但就是最顶尖的三个人,对他们在那儿,然后他们做的研究就是最最最顶尖的计算机视觉研究,所以对我来说没有什么好选的。
所以当初还挺好玩的,就是这个,呃,这个伊利亚给我打电话啊,就我我什么都没说,我就把 OpenAI 拒了。他们发给我一个 offer,然后我说我不去,抱歉。伊利亚打电话说什么?呃,非常生气。然后他问我说,呃,你为什么不讨论一下就把这个 offer 拒了?是我们给的钱不够吗?多少钱?呃呃,记不太清了。其实非常非常低,可能就呃可能几十万吧。
当初的那个 pay 都是就是一个顶尖的 Ph.D. 的学生在二零零八年能拿到的这个工资,大概是可能四十到五十万左右。对,美金,美金,对,呃,然后现在已经至少翻个三倍啊!但是 anyway,然后那个时候啊,OpenAI 也是这个 level,没有什么问题。对,然后但是伊利亚很生气,然后我我我也只能搪塞两句,然后跟他说不能去啊,然后但但那时候确实因为生气会说什么呢?
呃,其实也没有,就只是语气非常严厉吧。对,他为什么要决定打这个电话?我不知道,那说明他确实对招人很用心嘛。他没有被拒绝过。呃,我我不觉得是这样,在二零一八年的时候,我觉得他应该经常被拒绝。哦,嗯,因为那时候的fair。呃,不止在为人,我觉得在很多方面,对于最顶尖的PhD毕业生来说,我觉得都是一个比OpenAI更有确定性、够更open,然后更像一个学术环境的这样一个一个一个机构。
啊,我觉得至少在那个时间点上,我身边的所有人如果有这样的选择的话,啊啊,除非他们是确实要做一些OpenAI已经在做的很擅长的这些事情啊,我觉得他大家还是会倾向于菲尔的。你是很顺畅的拿到了 Fair 的 offer 吗?呃,也没有那么顺畅了啊,我觉得也也挺,对,一路都很都很都很坎坷。你当时拒绝了 OpenAI 是因为你拿到 offer 了吗?
是的,是的,是的,对。但在 Fair 的时候,你像我给了一个 talk。这个talk啊,我当初也没有任何经验。我觉得所有人在我那个阶段好像找工作都蛮有经验的,就我啥也不知道。然后给了一个talk,本来呃L K的时间是一个小时,那正常大家应该是讲四十五分钟到五十分钟,然后有十分钟提问。啊,然后我讲了半个小时,讲完了,然后大家。
这个面面相觑,不知道该怎么办。当然,当然,当然,我觉得会有很多下面的researcher给了给了我很大的面子,然后提了很多的问题,所以把时间三炮撑到了四十五分钟吧。啊,然后不至于那么尴尬。然后后来凯宁跟我讲说,大家觉得这件事情第一很不常规啊,怎么能这么快就讲完呢?第二,我觉得要不以后面试都这样算了啊,半小时讲个talk也挺好的,省省大家的时间。
所以,所以有很多时候,我我觉得我做的这件事情都没有做到尽善尽美。嗯,你为什么那么快讲完了?你为什么不遵守他的规则?我不知道有这个规则哦,没有读。呃,我我不知道有这个规则。你像现在,比如因为因为这个规则其实是一个 drop talk 的规则,就是没有没有没有人告诉我这个规则。对,大家说有这么一个十一点开始有一个 talk,但其实这是一个既定的规则,因为在学术界的面试就是这样啊。
然后菲尔在当初其实是一个学术学术机构,嗯。它其实是一个大学,它的运作的模式其实就是PI带着一些小年轻,对吧?不管是intern也好,还是一些新入职的同学们也好,嗯,然后一起做事情。并且当初我加入菲尔的时候,我可能是啊,我不知道是前几个,可能这个陈新磊可能是第一个,但我可能是第二个,就是这种fresh PhD graduate能够加入菲尔。
一开始他们不招这种牛牛PhD
graduate的。如果是只是一个PhD毕业生,他们他们不愿意要要你,他们只会招这些像凯明一样啊,已经做了很不错的这种这种这种这种研究员,嗯,对,所以我也是比较幸运吧,对。啊,我觉我觉得我觉得菲尔对,确实是那个时候的圣殿了,嗯,然后所以,我觉我觉得我也没有纠结太多的太多的其他的可能性,嗯,然后伊利亚这件事情的,再再多插一句,呃,我一共就跟伊利亚打过两次电话,这是第一次啊,第二次可以之后再聊,也是他是是二四年七月的时候,他SSI刚成立,然后他跟我发邮件说愿不愿意来一起工作,你又拒绝了他。
呃,对,这次为什么呢?呃,这次是因为我刚在 NYU 开始我的工作,然后。嗯,我觉得好几点吧。我跟大家聊的时候,呃,我们主要讨论的topic这次不是工资什么的,都没有聊这些事情。主要讨论问题是怎么样给未来的人工智能给予爱的能力。关于爱的能力啊啊!讨论哲学,呃,当然我最后问问他了一句话,我说:“你对多模态这件事情怎么看?
你对计算机视觉这件事情,或者你对general的这种感知的模型,你应该你你怎么看?”啊,伊利亚的说法是他觉得这件事情已经解决的很不错了。好,那所以我觉得,可能呃,SSI有自己的基于语言的啊这样一个一个一个路线吧。然后这条路线至少在现在为止,不是我想要去去设计的路线。这是你们底层的分歧,就是到底是LLM还是视觉?
对我觉得之后可以再聊这个细聊,但是。我并不觉得这是一个分歧,嗯,我觉得我觉得这是一个一个有机体,然后大家只是在不同的地方,在不同的时间,在做不同的事情而已。我一直喜欢说一句话是兄弟爬山各自努力啊,大家在各个地方做各自的事情,我觉得没有任何问题啊,不是要拼的你死我活的状态啊。L M跟我想做的事情不冲突。
并且没有L M最近的这些发展,可能也没有现在计算机视觉现在的这种状态,嗯。你们那个话题怎么赋予人工智能爱的能力?有结论吗?啊,结论就是这件事情很重要。为什么呀?因为如果没有的话,我们面面面临的是一个非常不确定、非常危险的未来。但是有爱的同时,一定就有恨。就是他,他是一体两面,他不可能只有爱。当他学会了爱的时候,他一定会,他一定知道他的反面是什么。
对,我我完全同意你说的。嗯,这件事情就上上升到哲学命题了。嗯,但我觉得,或者或者,我想反问一句吧,就是为什么大家会对自己的孩子,会对人这么信任?然后对AI这个新的这样的一个智能的实体,会这么担心或者恐惧呢?啊,我觉得这里面我我没有答案,对,但我觉得会有技术上的一些。可以去把控的地方,就我们可以通过技术的手段,让AI能在未来变得更加可信、变得更加安全、变变得更加controllable,嗯,可以控制。
然后,其实这件事情侧面也是为什么要做要做世界模型啊?他为什么想要找你?呃,不知道,可能可能他reach out了一千个人、一万个人吧。我才对。我们那天在一起等餐厅排队的时候,其实我们在纽约的街头一起走了走。我们的话题很自然的就延展到了那些对你非常重要、影响过你的人。就是刚才在你的分享里面,其实人这个因素占据你的很多选择的非常大的比重。
为什么人对你来很重要?而且你的那个自己的个人简介里面也清楚的写出来了哪些合作者对你来说很重要。这个非常少见。为什么人对你来说这么关键?这件事情少见吗?我觉得一点也不少见。我觉得,我觉得这这这就是一个在学术圈里面大家的一个一一一个行为的模式吧。我觉得大家会有有这种组织起来这种social network,嗯啊,然后这些人决定了。
你的认知啊,因为他们可能是你的学生,他们可能是你的老师,对吧?但是不是说老师就一定教导学生?有时候也是学生反过来教导老师的啊。所有这些事情都能成立,所以它是一个一个巨大的一个graph。然后人与人之间全都会被联系到一起,嗯啊。然后我觉得这也是为什么research或者science这件事情特别奇妙的一点,嗯,因为我觉得很多时候人与人的这种。
这种这种彼此的信任、彼此的欣赏啊,彼此的这种这种感受吧,我觉得不是通通过比如大家非要生活在一起,然后做朋友这样建立起来的。很多时候其实是通过 scientific 的 discovery 这种这种这种 research 的部分建立起来的人与人的关系啊。我觉得这件事情其实是非常有意思的。比如说对我很深影响的人,那我可能。
了解他们的个人,当然我也会尝试去了解他们的个人,对吧?但这个对我来说不重要。我似乎在透过他们的论文了解他们的想法啊,然后,然后我觉得这才是 research 的意义。就我觉得 research 的意义不是为了发论文,我我我不认为。呃,发论文是是是这件事情的一个一个目的啊,完全不是这样。目的应该是目的是什么呢?
啊,是对人人的游历吗?我觉得凯明跟我说这个目的是。嗯,其实它的本质的意思是要把这个把 knowledge share 出去,就是你发的论文的目的不是给别人看的,是为了让别人看到这个论文之后,别人有事情做。嗯,就是就是你发表一一篇论文,别人 understand 了一些其中内容,然后大家会觉得我自己的视野被打开了,嗯,就是对别人有帮助,对别人有帮助,对能够 inspire 别人,或者说能够启蒙别人。
哦,这个是 research 的目的,我觉得这是 research 目的,或者说一个更浪漫的说法,其实是说啊,我这这这句话是这个这个汉娜阿伦特说的,然后他说。嗯,我不在乎什么 impact,啊,我不在乎影响力这件事儿,因为因为其实,在 research 圈子里面,大家会说我们发 paper 的目的是创造某种 impact,对吧?
对,其实在我字典里面,我其实有点对 impact 这个词是有抵触的,抵触有有一点抵触哦,啊。呃,为什么呀?你抵触他的是什么?Again,就是说,这个阿伦特他说的说法是说,他说他觉得,呃,impact这个词是一个过于aggressive、过为男性化的一个词。这对他来说,他做这些事情的目的不是创造impact,而是为了理解本身。
他觉得,如果能够理解到一一个事情,这件事情的感觉是很奇妙的。如果你能把你理解到的东西写下来,不管是一篇文章、一篇论文也好,传播出去,那你就能够有可能让这世界上更多的人对这样的一个问题有跟你一样的这种理解。啊,然后这件事情会会会一步一步的传导下去啊,形成一个一个很大程度上某种共鸣。然后,然后这个阿伦特的说法是,他会在这这之中找到一个家人的家人的感觉,他会觉得自己理解了一件事情,告诉别人,让别人能够被理解。
那说明这些人也一定程度上理解了我,嗯,但我觉得人作为这个社会上的生物是需要被理解的。对他把影响力这个词用了一种非常柔软的方式表达了出来,是在谋求理解。我觉我觉得是,我觉得是你更赞同这个说法,我觉得很赞同他。嗯,因为我觉得。对,我觉得创造 impact 这件事情没有问题,特别以我为中心。嗯嗯,我要创造 impact。
嗯,对,以我为中心,并且是对你说,你说非常对。以我要创造这个 impact,我要改变这个世界。但这个世界的人同意我这样改变他吗?或者说,这个世界上很多的灾难其实是因为大家要创造
impact,要去改造这个世界啊所带来的。对我觉,我觉得这件事情我会倾向于。同意这种更柔软的表述,我觉得,呃,能如果能让在这个世界上的所有的人,啊,因为我们做的研究能够对问题多了一层新的认识,多了一层新的了解,啊,那这个地球上的智能总量就会被提上去。
但地球上的智能总量提升这件事情,永远不是一件错误的事。它永远是一个对世界来说有利的事儿,不管是 impact 也好,还是被更多的人理解也好,你希望被更多的人认识和记住吗?嗯,你对这种 fame 是有需求的吗?我当然没有这个需求了。你没有这个需求,但我觉得,我觉得,我觉得我没有这个需求。但真的吗?呃,我我或者说我站在我现在这个角度,我其实是这个某种虚假的 fame 的一个受害者。
啊。呃,原因是现在大家会把我们的一些论文放到小小红书上去去议论,然后其实这件事情没有一个,或者说大家说所谓什么三大会,然后要宣传工作,对吧?哦,我我我从来没有一次要求过任何一家这样的媒体。去做这样的宣传,嗯啊,然后我跟我的学生说,你们千万不要去什么去小红书啊,去什么知乎,去宣传自己的工作,你可以去解释你的工作,你可以去评论你的工作,没有问题啊,不要去宣传自己的工作。
为什么在X上是可以的呢?我觉得X上面,嗯,更多的还是。就是就是还是看怎么叫做宣传吧,我觉得我觉得我更focus的东西还是说把这件事情稍微凝练总结,然后告诉大家是怎么回事儿,更有点像吸引大家去看我的这个工作。我觉得这件事情没有问题,但我说的宣传更像是你说的fame这件事情,因为我真的很不能接受的事情是大家现在会会说。
某某某团队发表了什么什么工作哦,会强化那个人,会强强化这个某个人的团队,会强化这个人。对,呃,如果有这个小编们听到这件事情的话,希望大家以后能够不不去说这件事儿,不能写写在您团队上。不要不要把我的照片放在上面,不要把我的名字放在上面。我们需要更加鼓励年轻人真正做出这个工作的人,让他们有更多的 visibility,对吧?
那大家可能会觉得你是一作,maybe。呃,对,如果是我是一作的工作没问题啊,但我不是一作,对吧?哦哦,我只是这个团队的负责人啊,然后很多这些工作都是学生做的,对。那应该叫什么呢?不叫谢赛宁团队,就事论事就好。讲这件事情解决了什么问题啊?然后它为什么重要啊?我觉得就够了。对,但我觉得这件事被别人拿出来当靶子是吗?
呃,对啊,因为我觉得这件事情会增加增加很多的风险吧。我觉得,对。嗯嗯,那你来讲讲那些影响过你的人吧。其实刚才我们已经讲过几个人了,凯明、涂教授,还有吗?哦,是啊,我觉得对吧?这个是是在是在菲尔那其实可以顺着菲尔往下讲。那就是说菲尔结束之后,那那我就来NYU了。我觉得这又是一个。Decision making 的 point,嗯,菲尔待了四年,待了四年整,对,OK,是的,是的,呃,也是起起伏伏。
对我,我刚刚说我很多去的地地方,其实都跟这个这个地方共同成长。可能菲尔是一个例外啊,我去的时候是他的顶顶点,高点,嗯,啊,可能是高点,对。然后啊,现在,对,也很可惜吧,现在在在那里发生的事情,啊。但我觉得也,嗯,对我,因为我跳船跳的比较早,所以我也不是在在他在他这个这个这个谷底的时候才才离开。对啊,我我我觉得我也是看到了一些迹象。
对,OK啊,然后,但是对,然后然后我觉得,如果如果说影响我的人的话,那在这个过程中去NYU的时候,我觉得这又是一个蛮玄学的一个决策的过程,对吧?然后那个时候。其实决定去纽约,我刚其实也说了,是因为可能我会比较喜欢这个城市。然后,但我觉得呃,另外一个很重要的事情也是因为Young在这儿,对Young可能在这儿,嗯,对,嗯,为什么他在这儿你愿意去?
你们在Fair是共事过,呃。他会,他经常会说他有 recruit 我,就是招招了我三次,对吧?然后第一次是在 Fair,啊,但那时候是因为他是这个 Fair 的总的负责人,他是这个 Fair 的 director,啊,我没有跟他直接的共识,对,但也当然也受到了他的影响,或者说长期以来有交流吗?有交流,有聊过,对,但没有直接的合作过,嗯。
然后去NYU是第二次,啊,第三次我们可以之后再聊。嗯,啊,然后,然后在NYU这段经历也是,我觉得,我觉得为什么他在这儿非常重要,也是因为我觉得他是一个非常有vision的这样一个人,所以。对,我觉我觉得还是很多很直觉的这种决定吧。比如说N Y U的教学楼,我们叫做这个Center of Data Science,呃,是就是就是所谓的这种数据科学中心啊。
这件事情其实是杨牵头,在过去十几年之前就就设立了这样一个一个组织。对,它独立于啊,比如说传统的计算机系或者数学系之外,它是一个新的这样一个department。所以,我们有一栋新楼。然后,第一次我踏入这个楼的时候,我就觉得感觉很好啊,因为呃,完全都是玻璃门。对,之后有空的话,可以带你过去看看,它它都是玻璃门啊,呃,所有东西都非常非常open。
然后学生有点像公司,但是然后配色又很好。对我刚刚一直说我是一个视觉动物,对,就这个这个里面有这种暖色调的,然后橙色的这样一个floor啊,然后有各种沙发,然后大家。呃,虽然虽然很混乱,有各种各样的机器人在地地上跑来跑去,然后有各各种各样的学生在这个沙发那个沙发,然后坐着学习啊,然后没有任何隐私,毫无隐私可可言,所有的教授的办公室的玻璃门啊,看得清清楚楚里面里面发生的事情。
嗯,对。然后,但我觉得哇,这个很有趣,这个环境很有趣。对啊,现在其实越来越越多的美国的学校开始有这样的 effort,就是说我们希望有一个。嗯,这种呃 interdisciplinary 就是跨学科的这种中心,对吧?通常来讲就是说这种 AI 的这这种中心啊,然后然后然后通过它来吸引人才,通过它来把不同的院系组织到一起,因为 AI 确实承担了一个。
这种中间层的这样一个一个一个一个身份和和位置,连接大家,连接大家,连接所有人,对,嗯,啊,不管你是做科学的,对吧?做物理、做化学,然后做数学、做统计、商学院啊,然后包括当然计算机科学啊,我觉得AI是一个很好的一个中间的这么样一个中间的节点,嗯,对。但一样的远见在于他啊,十几年前就把这件事情已经establish起来了。
对,所以我觉得,我觉得他这个啊是蛮 visionary 的一个人。嗯,对。然后,所以 NYU 在 AI 的布局上面也也很好。所以其实,呃, again,我觉得计算机系不是他的这个学校的强项,但是他有很多呃 AI 的人才储备。对他汇集了很多很厉害很厉害的 AI 的这种这种
faculty。对,嗯。LeCun是你选择NYU的一个原因,这也是我觉得有很多很多原因,他是其中之一,因为他需要面试我,然后他需要最后拍板,对,嗯,或者说是他选择了我,嗯,重要的人还有其他人吗?
嗯,我觉得还有啊,比如说在NYU的这个时间,然后我还跟很多其他的。老师也有合作,然后对我影响我觉得很大的一个人也是可能飞飞老师吧,对啊,我觉得李飞飞老师,呃,他写的那本书大家一定要看一看,对,就是他的自传,对啊,然后我也读过,但是我觉得跟他深入交流下来,我觉得我的收获又更大,对,然后或者说有时候我会我跟他说我遇到我面临的ch呃这个困境和challenge。
然后菲菲老师会很语重心长地告诉我他过去的一些故事,嗯,然后这件事情其实对我是一个极大的安慰。比如说什么样的故事啊?啊,具体的事情可能可能就不方便讲了,但是总之是他一路成长起来,其实也不是一帆风顺,嗯嗯,他也是有有有需要,嗯。踏遍很多的荆棘,然后一步一步克服很多的障碍,然后到现在站在这种世界的舞台上,啊,变成一个华人的骄傲,或者说变成整个这种research领域计算机视觉的一个北极星啊,让大家能够看到,呃,他他他他他想的想的事情,然后能够啊,在某种意义上。
制定一些新的这种路线吧,我觉得这件事情啊,对他对我的影响都非常非常大。嗯,然后我觉得飞飞老师。最厉害的点在于,他是一个能够定义问题的人。嗯,就这件事情,其实也不是一个很、很、很直观的事情。就是说,其实大家说这个飞飞老师,呃,最厉害的。这个这个成就就是build的这个Image Net这个data set,对吧?
但其事实上这个不只是一个data
set,这个不只是一个数据集啊。你大家可能很难想象,可能在过去这个时间点,对吧?然后呃,比如二零一二年或者二零一一年的时候,图像分类不是一个明确的问题。啊,就是把这个问题定义清楚,远比build这样一个数据集要强得多得多,要要重要的多得多得多。嗯嗯。然后,我觉得飞飞老师就是说,set的这个agenda把这个问题定义清楚,使得接下来deploying可以有一个playground,有这样一个平台啊,可以去施展拳脚。
我觉得这件事情是是是他最厉害的地方,也也是我一直想要学习的地方。嗯,对,所以我跟他做有两篇工作,一篇是 Thinking Space,然后这篇论文主要也是在涉及到这种多模态的语言模型里面,怎么样去解决呃更好的解决这种呃这种空间智能的问题。然后最近我们有一篇paper叫啊Cambrian S,然后这个论文也是涉及到的事情是说,在视频里面啊,我们怎么样去定义问题,到底哪些问题才是重要的?
对我觉得,我觉得这一部分跟他的合作也帮我拓展了我research的边界。菲菲老师是怎么跟你熟识的呀?呃,都是很机缘巧合的机会吧。他有有一次来纽约出差,然后我们就一起吃了次饭啊,然后跟我们讲讲讲,跟我讲了很多很多东西。对,然后后来他经常会来纽约,然后因为他也在创业嘛,啊,然后我们会经常一起聚一聚,然后聊一聊。
对,大概是这样。然后平时我们会在research上面会有一些meeting。嗯,我有一个好奇,我想可能也是很多人对你的好奇,就是你是怎么样从。一个非常年轻的开始做学术的研究者,然后慢慢的能够和这些AI业内赫赫有名的人走到一起,并且站到一起的,也就是说你是怎么走进AI的核心的呀?我我还是不觉得我在AI的核心,或者走进AI的核心吧。
嗯,因为你刚才说的这些人,肯定很多人都很想跟他们合作,是吗?啊,当然是了。对,我觉得,而且你看,你们都是一些机缘巧合,可能凯明是刚过去,你作为intern让他打开了自己,然后菲菲老师是也,你们也就是吃了一顿饭,你是怎么让他们打开自己的呢?我觉得这件事情很难刻意的做到,嗯,或者说这件事情也有点玄学。我会觉得你可以叫它某种吸引力法则,或者说你可以认为啊,大家想法一致的人最终都会聚聚聚合在一起。
虽然你可能有无数的小溪,但最后可能都会汇聚到一条河流上。我觉得,比如说,呃,我上述列举的所有的人,他都至少是做vision的啊,或者说,或者即使包括杨,他可以认为是做general AI,但他出发点对吧,也是做这种数字的识别,这件事情也是一个视觉的问题。对,我觉得大家的这个根基还是非常非常非常非常吻合的。
嗯嗯,所以我觉得我真的没有刻意让这些事情发生。对,然后很多或者说我觉得也不需要很刻意的让这些事情发生吧。大家只是基于这些 research 的问题,然后对这些问题的理解啊,然后一起合作。对。嗯,我我觉得我会这么认为,认定这个问题就是从外部看,会觉得你是一个很有目标,然后很有逻辑的人。但是刚才通过我们聊,我发现你是一个选择上还蛮无序的人,对吧?
对,我觉我觉得我觉得有一点无序啊。嗯,但我觉得这也是一个所谓的 by design 的过程,就是我觉得我选择这样的无序啊。我我觉得呀,我觉得我觉得用这个这个很老套的说法就是 follow your heart,对吧?但我觉得其实很多时候。对,没办法,就会说我的很多选择没办法,真的优化一个一个结果啊!
我觉得这是无序无序性的来源。对,那在这个这么无序的选择之中,你能把你的这个所有的研究的历程串成一条线啊?刚才其实我们已经讲了几个工作了,是的,是的,是的。对,我觉得那我们可以一点一点去讲吧。我觉得,我觉得确实一个好处是我也没那么多paper,所以也许可以可以比较容易的去串一串啊。然后我觉得确实,呃,我觉得不能说是这个草蛇灰线吧,但也确实有一条呃线在背后。
对,指导着我一直做这件事情,或者说,其实说这些论文呃之前,我想说,其实计算机视觉发展了这么长时间,对吧?我有很多朋友。其实大家开始慢慢去探索新的方向,对吧?比如说去做一些啊
robotics,对吧?然后做三D的视觉啊。我其实也也在尝试向外扩展边界,但回过头来我会发现,这条主线上,对吧?我觉得这条主线对我来说就是表征学习这件事情上,嗯啊,有太多的问题没有解决,对,所以我希望停留在这条主线上,往前拓展我们做所做的事情。
所以,我觉得这一切的起点可能,呃,如果往前数的话,当然是涉及到 deep learning,涉及到 deep neural network 这些 architecture 的 design。我觉得这一部分当然跟你的表征学习是有关的。嗯,然后这也是我觉得在过去大家努力的一个方向吧,也不不只是我,对吧?
然后所有的人大家都在做这件事情,怎么样去 design 一个更好的 architecture,使得我们能够去学到更好的表征,使得我们能去解决更呃解解就更好的解决问题,嗯,对吧?然后呃,再到后面其实。呃,我觉得,我觉得事情就会发生一些变化。我们就发现,其实architecture本身不一定是最重要的,它一定很重要,但它不一定是最重要的,或者说它不能不是事情的全部。
所以至少有好几件不同的事情会交织在一起,对吧?Architecture是一个事情,就是你的架构是一回事儿,然后你的数据也很重要,嗯啊,然后还有就是你的objective,你的目标也很重要,对吧?呃,我觉得架构决定了。啊,你用什么来训练?我们可以想象这件事情是你有一个巨大的引擎,然后那那,你可能引擎的这个硬件其实就是一个
neural network 的架构,嗯,但是你只有这样一个引擎的架构其实是没有用的,你没有油,你没办法发动它,对吧?
所以呃,有数据层面跟有这种 objective 层面,这种目标函数层面的这种考虑。然后啊,所以,所以我之后的这些 research 其实也是按这条主线,对表征学习的主线,围绕着架构、数据、 objective 往往前走。嗯嗯。然后啊,那其实,在 Fair 的过程中,我觉得 Fair Fair Fair 这个正式工作 full time 工作的这个过程中,嗯,我觉得一个核心是。
呃,我跟凯明一起啊,然后凯明在力的一些这种自监督学习的这样的工作,对。然后其实 again,现在大家会说这个 scaling 是一个是一个已经是一个 buzzword,就 everybody's talking about scaling,嗯,对吧?但其实。第一个人真正有人跟我说,我们要做
scalable 这这样的 model,就是我们需要把模型做的大大大啊,这是凯明的原话,大大大啊,对,啊,是是凯明告诉我的。
对哪一年告诉你的?呃,就是大概可能一八年、一九年这个时间。对,然后所以他从一开始对这件事情的认定,就是说我们一定需要把模型变得更大,把数据变得更大,这样就能够得到一个啊,就能推演到一个更好的结果。我觉得,我觉得凯明很早很早之前就有这样的一个vision。嗯。嗯,然后所以我们也呃在这条路上有一些努力吧。
然后所以我觉得一开始大家讨论自监督学习,包括杨立昆啊,他是一个一个一个big advocate,就是说他是他是非常在乎这个自监督学习。他有这个经典的这个蛋糕的这个analogy,这个这个比喻,对吧?就是底层是你的蛋糕的这个这个这个body这一部分必须是self-supervised learning。
在上面你可以有一个 supervised learning,对吧?这一部分是它的 icing on the cake,就是你蛋糕上的这些、这些、这些奶油吧,啊,然后再往上有一个 reinforcement learning,它只是 cherry on top,它只是上最上面的一一点樱桃,嗯,啊,这个蛋糕上面的每一层其实都很重要,但是它没有主次之分。
嗯,如果你没有蛋糕的这个底座啊,你是没办法只靠这上面的一个 cherry 能够通向这个智能的。嗯,对,所以因为我们在 Fair,因为我们做 vision,所以其实我们很早就在关注这件事情。但这一部分 research
进程是这样的,就是说大概在一五年、一六年的时候,大家已经开始。知道自监督学习其实是vision的一个未来,所以那时候呃,大家会design就设计各种各样的我我我们叫做pretext task啊,或者说它是一种代理的这种objective代理的目标啊,就是一些代理任务吧。
就是说,呃,什么是自监督学习呢?就是说,我现在没有一个label直接给你。对吧?不像 ImageNet 一样,我有一千个 classes,那我可以直接去训练一个 supervised classifier,然后通过这种方式拿到这个 representation。在过去的时代,其实大家做的都是这件事儿,嗯,通过一千个 class label。
By the way,这一千 class 里面有两两百个狗的不同的这个种类啊啊,即使这样,这是这是为什么为什么 ImageNet 这么强,对吧?即使这样的分布,它还是能让啊我们的神经网络学到很好的表征。我觉得这件事情非常非常厉害,但是大家也能看到这件事情的局限性。一旦你所有的事情都只是 supervised learning,很多东西你是没办法去刻画的。
嗯啊,因为他学到的东西,比如我们现在坐在这里,我们看有这些椅子,对吧?然后我们现在有大量的这些图片啊,有不同的椅子啊,有些椅子可能比较正常,是在我们这种 studio 里的椅子,有可能是在家里的椅子,有可能是一些这种设计师的椅子,对吧?或者说是一个 avocado chair,一个长得像牛油果的椅子。
那对于监督学习来说,你需要把所有的这一切映射到一个 label,这个 label 就叫做椅子啊。所以你的 network 其实要学的这个映射啊,其实是非常非常困难的。对,所以它是无穷的映射,它是无穷的映射,嗯啊,所以所以它只能要么去memorize,要么去记背诵一下你见过的所有的意思,你背给他所有意思,嗯,要么就啊这个这个这个通过一些我们叫做spirits correlation,就是一些。
假的一些相关性来告诉你是一个椅子,比如说他也许没有看这把椅子,但是看的是椅子背后的背景啊,然后或者说他觉得哦,所有的椅子都会在一个桌子旁边,所以他基于这个来有一个决策的分界,然后说哎,这是一把椅子,但这件事情不是我们想要的,我们想要做到的事情是从这种非常 diverse 的 visual knowledge 里面, visual observation 里面。
去能够有某种common sense,有某种某种这种这种这种这种直觉,嗯,直觉,嗯。对,或者说某种常理,对,所以这是一开始大家为什么想要做,呃,所谓的 soft plus learning 或者 unsupervised learning 一个常见的过去的误解,是因为,呃,是是说,哎,我们要做
unsupervised learning,是因为给这些数据打标签这件事情太难了,太贵了,我们需要雇人,需要去打 label,啊,花钱花时间,我们不想这样做,但只是这只是其中的一个很小很小的问题,大的问题是。
在做计算机视觉的人看来啊,很早之前大家都知道啊,只通过这条路径是没办法给予AI系统这种common sense的。嗯,所以一五一六年的时候,大家非常非常有创造力,那一段时间其实还是一个蛮有创造力的时代,大家会设计出来各种各样乱七八糟的任务啊,这些任务比如说你把一张图啊转个九十度,或者转一百八十度,或者转二百七十度。
你不给这些图一个标签,但因为你设计了,你你你设计了怎么转这些图,对吧?然后这些图啊,会这些图以及它所旋转的角度,可以形成一个 valid pretext
task,你就能够去预测这些被转过去的图到底转了多少度。这就变成了一个所谓的一个代理的任务,嗯,类似的代理的任务还有包括给一张图,然后我们把它变成一个灰度的图,把它的颜色全去掉,但是我又通过我一个神经网络去重构我原来的这个颜色,相当于从一个灰度图怎么去 predict 啊,怎么去预测每一个
object 它的颜色到底应该是怎么样?
嗯,然后还有还有类似的例子啊,这个数不胜数。比如说,还有另外一个最后一个例子啊,再再举一个例子说,这个所谓的 context encoder,就是说,我现在把图中间挖掉一块儿,把它变白,我现在怎么样去训练一个神经网络,然后去把这一部分的这个这个空给它填填进去?嗯嗯,所有这些。Pretext task的依据都是说我们现在啊,觉得人其实这件事情是可以做的。
人之所以能做这件事情,人之所以知道,哎,你这张图片到底是转了九十度还是一百八十度?你这张图片。上面的一只蝴蝶啊,一个房屋,它的有什么颜色?或者你可以去预测中间缺失的一块的信息。这些事情是因为人有基于对于这个物理世界的某种认知,他有这个common sense,嗯,所以他就能够去猜出来这些被cropped的这些信号,被已经损失掉的信号啊,应该以什么样的方式被重构出来?
被遮掩的信号。对,嗯。但当初的问题是百花齐放,有各种各样的paper。嗯,然后但是没有一个能打的啊,所有的结果都其实很差啊,都比 ImageNet 的这种 pretraining 要差大概可能十五到二十个点百分点啊,所以大家在 make 一些
progress,大家在一步一步往前走,但是这个距离。呃,ImageNet能够通过这种 supervised learning 在 large scale 这种 data 上面学到的这种这种 label,呃,有 label 的情况下学到的这种 inf representation,还是差的太多太多。
对吧?所以,呃,我们当初做了一件事情,然后这个跟凯文一起做,然后这个这个架构叫做叫做Moco,嗯啊,Momentum Contrast。动量对比学习,对动量动量对,这个中文名字听起来都很有趣。对,是的,是的,啊,动量对比学习啊,呃,其实我觉得其实不用深究它里面具具体的这些技术细节,因为现在看起来已经很多东西已经不重要了。
但它总之它是第一个把这种叫做对比学习的这样的一个框架,嗯,把它真正做work的一一篇论文。然后什么是对比学习呢?也很简单,就是说我们现在在这个 representation space 这个表征的空间里面有有有不同的点,这些点可能是同样的一个 object,也有可能是完全不一样的 object。比如说我有好几张关于这个椅子的图片,嗯,对吧?
然后也有一些可能是桌子的图片,或者是一只猫猫狗狗的图片。嗯,这些图片都不一样,但在这个空间里面,我们能够去度量它们的距离,或者说我们知道这些所有的不同的椅子,它的这种这种图片应该离得更近啊,它的representation应该离得更近。但是一个椅子跟一只猫,它们距离应该更远。嗯嗯,所以这就是一个对比学习的一个基本的一个逻辑。
然后这件事情其实也不新。这件事情其实也已经做了很多很多年了。然后,Baidu这件事情,呃,初期的一些论文其实还是 Ilya 第一个跟他的学生啊一起做到的。对,呃,很有意思。当然,在解决的问题不直接是 representation learning 的问题,而是一些 metric learning 的问题,一些一些度量学习的问题。
啊,但是但是没关系啊,在这个这是大概是二零一九年的事时候,我觉得我们又赋予了这个对比学习一些新的意义。当然,这件事情也不是。这个横空横空出世,其实,在之前,整个领域已经慢慢在往这个方向啊去去去拓展。比如说,有一篇paper叫做CPC啊,还有一篇paper叫叫这个这个Memory Bank啊,这两篇paper已经是在朝这个方向,就是通过对比学习来做啊自监督学习这条路线上已经走了几步。
对,啊,然后这这时候我就不得不佩服凯明的本事了啊!我觉得,我觉得,我觉得这也是。呃,一个时间点让我觉得哇,这个一个顶尖的研究员啊啊,然后或者说我觉得不能说顶尖的研究员吧,我觉得凯明在我心里面就是最牛逼的研究员啊。然后他到底平时是怎么做事情的?嗯啊,我觉得我觉得有好几点吧。我觉得也许我们可以简单聊一聊,就是我觉得他是。
有某种极致的专注力,哦,然后这个专注力能够让他有某种心流,叫做这种 mind flow,对吧?他能够沉浸在这个问题上,不需要考虑这个世界上发生的所有的其他事情。嗯,然后我觉得这件事情我特别特别佩服啊。然后另外一件事情是他的专注会怎么体现呢?我觉得,我觉得他专注体现在,嗯。他每天除了这一个问题之外,不会想其他任何的东西。
他会抓着跟他一起合作的人去聊这件事儿,也会抓着其他人去聊这件事儿啊,反正就是这件事情。是一个他思维的这样这样一个主体,对哦,然后他大部分的这种mental cycle都会被allocate到这这一个具体的问题上,哦,然后很难的,我觉我觉得非常非常难,因为哦念头很多时候自己很难控制,是的,是的,是的,哎,对这个这个跟世界模型也有关系,念头很难控制,这这这个这个话说得好,啊,但凯明其实是一个非常非常。
有这种决策能力,然后能够专注的人,对,其实我觉得有好几点吧。我觉得一个 top 的 researcher,他们都或多或少需要这样的能力。他们需要有足够多的专注力,他们需要有足够好的这种 research 的品味啊。这个怎么定义?我们等下可以聊。嗯,然后他们还需要能够有一定的坚守,就你不能说只是随波逐流,然后。
然后,然后去做别人感兴趣的事情,啊,然后当然你还需要有很强的这种工程的能力,research的sense,啊,包括你看文献的时候,你知道哪些事情重要,哪些事情不重要,这个很重要啊,这对你你也知道,就这件事情其实也是一个学术界其实蛮莫名其妙的地方,就是大家你要会划重点。对大家,主要的原因也是因为大家不讲重点,你知道吗?
有时候要么是大家不会讲重点,又要么大家有时候不愿意讲重点啊;要么是有时候大家其实没有意识到重点是什么。嗯,但凯明的能力在于他能够把这些重点啊抽丝剥茧,然后提取出来,然后告诉你。啊,然后建立这种在这种高维度的抽象空间中的这种联系哦啊,我我觉得非常非常厉害,对,所以所以所以很多时候其实凯明的每一个idea不是坐在这个back of the room对吧?
然后在在家里面拍脑袋想出来的,然后其实是基于不基于不断的探索,基于大量的阅读,然后基于大量的思考,一点一点衍生出来的。然后这件事情其实我觉得真的是非常深刻的研究,呃,影响了我做研究的方式,以及我现在跟我的学生说大家应该做研究的方式是应该增加输入,呃,增加输入,并且并且我觉得这里面其实是有一个范式存在的,嗯,就这里面范式这也是凯明教育我的,对吧?
他就说,其实这些所有的idea你不能坐在那儿想啊,因为如果你要想出来一个idea啊。这个idea一定不是一个好的idea。这个idea有无非有几种可能性。第一种可能性啊,呃,你比世界上所有的人都聪明,所以你想出来一个特别特别厉害的idea,其他人什么人都都想不出来啊。但我觉得这件事情概率极小,所以更大两个可能性是:第一,呃,在你想这个idea的同时,这世界上一百个人、一千个人、一万个人在想同样的idea。
所以你要面临跟他们竞争,你的手速可能不一定比他们快,对吧?第二个可能性,这是一个非常差的idea,别人已经试了很多次了。不成功,不成功啊!那你可能也没必要去试下来。嗯,所以所以我觉得凯明对我的最大影响是他教会我怎么样找到一个research
idea。嗯,怎么找?我觉得这是一个求索的过程。呃,所以所以现在我我我有学新学生进来,我会跟大家说,一个research的周期,呃,当然我希望他会更长一些了,但是在现在的这种竞争的环境下面,可能最多有六个月时间。
也就是说,从六个月一开始,你要开始想一下 idea,然后再到后面,你要把这个 idea 写成 paper, publish 出来,这个整个的周期大概是六个月。嗯。然后这个流程是怎么样的呢?是你需要有一个 general 的方向,你得知道你要干嘛,你也不能完全什么也不知道,然后就说我要做 research 也不行。
这这件事情可以通过跟你的老师一起去聊,然后或者说跟你的 peers 对吧,你的周围的同学一起去讨论,或者你自己通过你自己的阅读,有一些 general 的这种 direction,这种这种方向性的认知,嗯,对吧?然后但是一定要给自己。足够多的时间跟空间去 explore,啊,然后然后这个 explore 这种探索期,我觉得至少要有一个一到两个月的时间。
探索期应该做什么呀?探索期哎,好问题。探索期做什么事情呢?呃,不能坐在那儿想问题啊。你要探索的事情就是说,我现在要不断的去 hack 一些东西啊,就是就是你要真的像像一个 hacker 一样去 play with。啊,去玩一些东西啊,就把 research 当做一个一个游戏,当做一个玩具去玩。嗯,这个东西,比如涉及到,比如你可以去推一推公式,你可以去读更多的论文,可以找一些联系。
啊,当然,可能更重要的事情还是要动手去做事儿。去去去写代码,然后但是你写代码的时候,呃,要要注意的是,你写的代码不是不是一开始你的出发的这个idea或者这个direction啊,而是一个探索的过程,所以你写的代码可能是简简单reproduce一个baseline。对吧?拿一个别人的paper在做的事情,然后现在我们把它重现一遍,哦,然后还有可能是在这个baseline的基础上去有一些某种拓展,嗯,然后这里面最重要的事情是要找到一个信号,就是说你现在还是跟你刚刚说的有点像,所有这个决策的过程其实是一个蛮无序的一个探索的过程。
它是一个我们叫做随机梯度下降,对吧?这是一个这是一个所有机器学习的基石,但它同样 apply to 这个 research 本身以及我们的人生,就是大家在追求这个最终目的的过程中,其实都在都在进行一个 stochastic gradient descent 的一个过程。嗯嗯,然后我觉得 research 的部分也是一样,对你来说,对 research 最重要的事情。
不是从A点通到B点,比如A是一个idea,B是一个paper,而是这个过程中你到底能找到什么样的signal,你的gradient,你的梯度到底在哪?对,所以这个这个凯明的说法是啊,这个梯度本身这件事情。才是你真正的idea的来源,就是当你经过不断的探索,嗯,你试了很多东西,有可能不成功,有可能成功。
By the way,不一定是一个成功的实验才能给你这个梯度,有时候一个错误的实验会给你更大的梯度,对吧?啊,就是说,你只要就是最怕的事情是你不知道往哪走,嗯啊,所以一个好的结果,一个坏的结果啊,都是都是好的结果。对于research来说,一个surprise,一个一个令人惊讶的这这样一个observation,永远是一个researcher对于一个researcher来说最最幸福的事情。
意外,你观测到的东西,对你你你看到了某些意外,嗯。所以,所以,所以他说,就是经过这样的探索之后,在这个过程中,你发现的这些idea才是真正属于你的idea啊。一开始你想的这个 idea 不是你的 idea,这个东西不属于你,探索中的 idea 才是属于你的 idea。然后 research 过程就是找寻属于你自己的这个 idea 的这个过程。
嗯,但但这个词,你你你要看到它是属于这个东西,真的是是你自己的,就上天给了你一个灵感,注入你的脑袋里。对,一方面上天给你了一个灵感,另一方面它又是基于大量的实证跟实践,嗯,得到的,对吧?它这里面没有没有 free lunch, again,有可能你真的是一个天才,或者说你真的极端走运。啊!上帝握着你的手写下了这一个公式,有可能发生。
啊,大部分时候,大部分的进展,甚至大部分。对这个这个领域产生很多影响的工作,我觉得还是一步一步啊发生的。对,总能够追根溯源,找到它的起点。啊,所以我也跟学生说,其实最差的research是什么样的research?就是一开始你定义好的一个问题,你说这是我的idea,最后你发了一篇论文,这个论文的idea跟你一开始想的idea完全一致,你没有遇到任何的障碍。
你没有遇到任何的困难,他为什么是最差的?因为这件事情说明你的这个 idea 是一个 boring idea,你发了发发表论文是一个 boring
paper。对啊,我觉得我觉得这件事情,呃,我这么多年观察下来,确实非常非常准确。对,所以所以我觉得这件事情也是为什么要跟学生说呢?就是因为大家其实有时候没办法接受这个事实,大家总会觉得我一开始应该想到一个小妙招,然后我现在实现它,把它做work发一篇paper,我成功了,我不忘去做下一件事情。
哦,但这件事情能够给个人的积累其实是非常非常有限的。探索的过程其实非常难,很多人不会探索,探索人非常难。而且这是为什么所有这些论文在我看来都是非线性的。这个非线性体现在两点:第一点是你六个月的时间。哦,然后到第五个月的时候,比如说我刚刚像跟你说这个这个 Rise Next 的这个 story,对吧?
一方面大家听起来,哇,你最后一个月的时间重新改方向,把这件事情做好啊,那那那这个时间周期这么短,你竟然能做成这件事情,好像听起来很不可思议。但你知道这件事情发生的太多了之后,我发现这件事情真的是有迹可循。哦,你经常是这样啊?我经常是这样,或者说我最好的工作都是这样发生的。那你前五个月怎么保持自己的心态啊?
呃,那就没办法,你得要接受这个事实,你得要你得要能够能够告诉自己,这是一个常态化的research的过程。嗯,哎,那前五个月你会想到换一个方向吗?我可能去选选那个 boring idea。哦,我我觉得会方向,而且而且而且而且换方向这件事情非常非常重要。就是你一定要学会 pivot,因为我刚刚说最差的工作是你一开始 idea 就是这个 idea,最后的 pivot 也是这个 idea。
嗯,最好的工作是你在这个过程中已经弯弯绕绕,然后跳来跳去走了很多很长的路,才走到这个节点。嗯,呃,这条路虽然非常崎岖,但你总能从最后的这个这个终点一步一步找找寻回最开始的起点。嗯,就最后才能把它连成线。最后才能。但是你在过程中是不行的。是的,你在过程中,呃,我觉我的,我觉得你在过程中,因为你不知道,你没法预测未来,对,所以这永远是一个探索的过程。
所以我觉得有两个月这样的探索,逐渐形成一个 idea,然后逐渐去拓展,然后去 scale up,对吧?然后然后把实验补充分,这个东西可能再花个两到三个月的时间,到最后把 paper 写出来,然后花一两个月时间,这是一个已经是一个非常非常顺利的一个 research 的流程了。嗯,哦,然后然后我觉得我觉得这件事情。
呃,again,我觉得在现在这个时代面临着很多的很多的challenge,大家会受到各种各样的压力,对吧?我觉得现在的竞争压力太大了,竞争压力太大了啊!然后,然后我觉得会会让大家觉得一定要追赶最前沿的东西,然后把事情尽早的做完,抢占先机,嗯啊,把坑占住。对,但但回过头来说,我觉得就像我刚刚说的,我觉得飞飞老师最厉害的地方。
是因为他是一个能够定义问题的人啊,如果失去了定义问题的能力,基本上也丧失了很多创新的能力,基本上也丧失了做 research 的能力。对,而且这件事情,我觉得。我刚刚说research的非线性,这是这是时间上,但从结果上来讲,其实也是非线性的。嗯,就是说这个是其实是MIT的教授Bill
Freeman,然后他有一个非常经典的这样一个一个plot,就是一个一个一个illustration啊这样一个插画,他经常做talk的时候会讲。
就这这条这个插画有一个横轴轴一个正纵轴,横轴的起点是一个很差的工作。一个还不错的工作,一个非常好的工作,一个非常非常厉害的工作,这是他的横轴,对吧?他的纵轴是对你的整个职业生涯的影响,这篇论文对你职业生涯的影响,所以你可以猜一下这个curve到底应该是怎么样的,对吧?它不是一个linear的curve,它不是说一个很差的工作。
啊,就对你比如职业影响可能很差,然后然后到最好的工作或者或者说比较好的工作已经给你很不错的这个回报,然后一点一点往上是一个线性过程,那不是线性的。嗯,他是说,基本上你一个很差的工作其实也不会怎么伤害到你,没人 nobody cares,没没人会注意,还不错的工作也没人注意,能给你带来的收获也很小。嗯。
但是有时候你做出来一一篇非常好的工作,特别厉害的工作,嗯,每个人都知道的工作,嗯,你的这个 impact,对吧?我刚刚说我不喜欢 impact 这个词,到顶点了,这个东西,这个这个这个一下就会冲到冲到顶点,对吧?所以说我们经常说学术界里面大家衡量的是所谓的代表作。或者或者说另外一个说法是说,大家
optimize 的目目标不是一个 average,不是你所有之前的工作的一个一个平均,嗯,而你你 optimize 东西是你的你的工作的一个 max,就是它的它的上界最高点。
对吧?我觉得这件事情也体现出来 research 这个游戏的一个一个一个一个非线性的一个特征。嗯啊,所以最高点是好还是不好?当然好了,就是说,就是说,你的你你只需要就你这辈子只需要成功一次就好了。嗯哦,然后这件事情其实我之前C E P R的时候给了这个talk,我我叫我叫Rice是这个无限游戏,对吧?
这件事情,呃,大家反响还是蛮强烈的。其实,其实我觉得啊,我觉得我觉得我很少给这种non-technical的talk,因为这这个东西更多的是一些哲思跟一些总结吧。Rice讲确实挺好的,嗯,对,然后啊,但里面其实也。呃,也也包含了我上面讲的所有的这一切,因为因为你想是呃,其实research这个这个职业对吧?
一个researcher这个职业,它的它的它的本质到底是什么?哦,他不是一个下棋的棋手,他也不是一个现在冬奥会的一个运动员,因为对于一个棋手和一个运动员来说。你最后的成就取决于你最差的一步。some to some extent,你要保证你的每一步,你的动作得要标准。你如果中间出了一点点差错,对吧?
你下棋中间出了一点小错,下落子错了一次就输了,你就输了,嗯,对吧?所以这是一个有限游戏啊,在这个过程中总有赢家,总有输家。但 researcher 更像一个发明家,说你这这辈子真的只需要成功一次就够了。嗯,哦,呃,如果你足够幸运,你可以成功几次啊,两次吧。但你不需要成功一百次,两次就到顶点了,是吗?
我我觉得,我觉得是的。哦,所以所以,我所以我觉得这件事情其实挺好玩的。所以所以,我觉得我觉得整个这个领域慢慢往前走,我觉得也需要反思吧。我觉得我觉得现在。呃,原来的学术界其实他的社会责任也好,或者说他在整个这个 research 的这个 landscape 下面的定位也好,都是制定这个游戏规则的人,嗯,都是制定接下来我们去去哪人,对吧?
现在完全不这样,嗯,现在制定这个去哪的人是是 OpenAI,啊,是可能是是 Google,啊,或者是 Meta 或者其他各各个大厂,对对吧?他们是有限游戏。他们他们彼此之间是有限游戏,嗯,但导致他们把学术界也带成了一个有限游戏的这种这种决策的这样一个链条,嗯,对吧?所以你就会看到很多时候大厂发一个工作啊,不管它叫它什么O系列也好,GPT什么系列也好,啊,纳努布纳系列也好。
一个特定的这样一个一个工作一个产品的launch,紧接着学术界的所有人都会蜂拥而至,然后说我们怎么样在这个范式下面。用这项叫做 peanuts of resources,就像花生米一样少的这种这种这种资源,嗯,然后尝试去追赶啊,追赶,哦, What's the
point?对吧?就是确实确实有有这种追赶,或者说可能大家也也不相信自己能,但大家可能也对你说的对,就可能也追赶不了,所以就变成了某种某某种意义上的复线,或者在它上面。
通过一个,我我觉得这个这这样的research的过程其实是非常非常痛苦的啊,因为因为我还有一件事情没说,是因为我在NYU的最近两年,其实我还在Google兼职,嗯,做part time,然后这件事事情持续了。在Nano Banana团队,对对,在Nano Banana团队,然后就是Stanley里面的团队,然后呃这件事情持续了两年,所以。
啊,哎,不知道当讲不当讲。我有时候跟跟一些朋友说,我之所以去 Google 做这个工作,原因是我想看看 Google 大家在做什么,嗯,这样我就知道我在学术界不做什么。哦,就是就我要知道你们在做什么,所以我不做什么。嗯,因为如果你在做这件事情的话,我为什么要跟你一起做呢?make sense啊,因为它有更多的资源啊,它有更多的没有必要再跟他卷了。
嗯,是的,是的,是的,所以这也是一个指导我们。对这个,这个我我我不想太跌味儿啊。By the way,这个 disclaimer,这些我所有的东西只是基于我在 NYU 一个不那么成功的这样一个经验的一些分享,呃,完全不代表这个世界 research 的多元性跟复杂性。嗯啊,而且回过头来,就等下我们还可以说,我觉得有一些配备我确实想想想跟大家分享一下,呃,但回过头来说,我觉得我并没有做出一篇。
我认为真的有价值的工作。嗯,你说这句话就是为了告诉大家哦,我还没有到最高点,我还没有到达那个max。呃,你说的对,我还我还我还我还年轻,还还还可以再努力努力啊!不是,但确实是这样,因为因为我我我我昨天在想这个问题,我想可能有大概这个二十篇左右吧,二二十二三篇paper,然后呃呃深远的影响了整个深度学习跟AI的进程啊。
那那这个世界有二十篇paper或者二十五篇paper吧。那那我一片都没有啊!我还有什么理由不继续努力、继续做下去呢?嗯,我觉我觉得,我觉得这是一个目标。DIT不算吗?呃,我觉得算零点。二五吧,就或者说DIT更像是在这个research的边界的切线上面往前push了一小步。这件事情不是我们做,也会有其他人做啊。
他没有complete change属于你,对他没有他没有完全属于我。嗯嗯,你说你说对对,是的,是的,啊。对,但这些,或者说我,我觉得,呃,diffusion model当然算,对吧?包括可能DDPM不算,对,然后。啊,我我我不知道,我们也也许可以列举一下,我觉得这个可能还蛮有意思的啊。我觉得 LeNet 算,我我可能数数不全啊。
好,我们随便数一数。我觉得影响过 AI 是进程的论文对吧?对啊,或者说我觉得,在我看起来啊,这件事情是是能真真正称得上代表作,然后或者说我差的还很远的这些工作对吧?然后我觉得,我觉得,我觉得啊,LeNet 当然算,AlexNet 当然算。呃,然后 ImageNet 当然算,呃,ResNet
当然算,呃,这个 R-CN 或者 Faster R-CN 这个 detection 的部分当然算啊,呃,这个凯明已经好几次啊,然后,嗯,然后还有什么?
然后 Transformer 当然算,嗯,啊,Attention is all you need 当然算,呃,GPT 三当然算,啊,BERT 当然算,呃,我觉得 Clip 也算。啊,ViT我觉得也算,对,啊,Vision
Transformer我觉得也算,啊,还有GAN啊,我觉得也算。对啊,数数不全,大概大概大概是这些level吧,包括3D里面,包括Nerv、高盛Spotting,我觉得都是算,嗯,都都会算。
对,呃,所以各个领域吧,都有都有他们的这些工作,这些工作的意义在于,大家本来是,呃,渐进式的通向。一个方向啊,突然有这样的一个论文横空出世,彻底改变了我们刚刚说这个 stochastic gradient descent 的过程。就你看它的收敛的曲线,夸有一个 drop 啊,这这是我定义的这件事情啊。
然后我觉得。那假设这个漫漫的历史长河是说这条曲线还在继续往前,对吧?有一次一次的这种这种呃这种这种这种让大家不管是跳出之前的 local optimal,还是进入下一个阶段这样的这种论文的出现啊,呃,但是我觉得还差得很远,这条路还远远没有收敛。我觉得之后还有很多事情可以走,我我希望。呃,我觉得不需要是我自己,我希望至少我能够参与到这件事情上。
对我希望,假设有下一次的revolution啊,我希望,我希望。回回过头来,对吧?我说我说可能不是创造某种impact,但是是因为我个人的经历,我身边的这些合作的模式啊,然后我自己的认知,我自己的思考。然后我能够理解一些东西,然后我理解的这些东西能够 somehow 对对这这些这个世界的啊或者AI的发展有一定的影响吧?
我觉得我觉得这件事情啊是我现在很关注的事情。嗯哦,AIAM是不是没有这个希望了?呃,下一个 revolution,呃,我呃 again,我觉得我觉得完完全不是不是没有希望,或者说我我会说,L M终将凋零啊,不对不对,L M L M永永永不会死,但终将凋零啊,就老兵不死,终将凋零,对吧?就是就是为什么终将凋零?
呃,they won't die, they will just fade away,就是说这个东西一定会有它的价值,它是一个很好的工具,我现在会天天使用 L M。但它不是我们构建一个universal一个通用智能系系统的基石,嗯,它不是这个世界模型的呃这种这种这个大厦的。啊,地基世界模型,我们稍后再聊。
你的工作你还要展开吗?呃,我我就再讲一讲,有时间吗?有有有,你都已经说没有达到 max 了。是是是,对对,因为啊,这样说起来好像这些工作也没有什么好聊的了。但我觉得还是有一些意义的,因为就像我刚刚说这个 nonlinear 的
research,对吧?在一篇论文里面,我们会先做一些事情。然后逐渐的,然后然后有一些储备,然后在最后一个月里面,然后找到一个新的方向,然后然后 deliver 最后的结果。
嗯,我觉得当我看我之前所有的这些工作的时候,我心里面也会有这种感觉。就我现在还处在一开始迷茫的探索期。但谁知道呢?也许今年,也许明年,也许啊,我突然这个这个,对吧?灵魂开窍,然后就能做出来一些更有意义的工作。嗯啊,但我觉得这里面的根基在于,呃,像我刚刚说的,它得要能够串起来一条线。然后,或者说它其实不是一条线,它是一个graph,它是有不同的节点,不同节点跟节点之间,每个节点是一篇论文,它们之间都有彼此的联系。
你后续发的论文都会受受到前面所有这些论文的影响。嗯,对,所以所以后面比如说contrastive learning这件事情做味儿,就是说我们第一次在视觉的这些task上面看到。MoCo这样的工作,尤其我们有V一、V二、V三,对吧?然后在V三,我们用Transformer,然后我们去Scale
up,呃,其实已经比ImageNet能得到的Representation在各种各样的Task上面都要好很多了。
嗯,这件事情对我们来说其实是一个重大的一个Surprise。嗯嗯,呃,然后其实那个时候在那个时间点上,我会觉得哇,一切又是欣欣向荣啊,我们的问题基本上可以找到答案。那我们找到了一个方式,自监督学习可以 work。接下来我们只需要 scale up 我们现在做的事情啊,那那就是一个无比光明的未来。嗯,但又很不幸,这件事情也没有发生,对吧?
但但在这个之前,我们又有另外一篇对不对?也是啊,MoCo 跟 MAE,by the way,都是凯明 lead 的项目啊。其实大家说这个什么叫做一个 lead 一个项目,我觉得。我觉得凯明也也真的show出来这个leadership,就是说他真的承担了百分之八十九十的一作加这个last author就是末作这种corresponding通讯作者的这个职责。
他需要自己写baseline,需要自己跑很多很多的实验,需要最后把paper写完,去讲讲这个story,去present。嗯,所有这些事情啊,基本上是凯明一个人单枪匹马然后做到的。哦,那其他人呢?呃,其他人,呃,我们我们当然也也有参与,也做出了贡献。但我只是说这件事情是凯明主导的一个路线。对啊,我们。
我们在这儿加快了这个事情的进度啊,可能会让结果也变好了很多,嗯啊,但不影响这件事情的实质,对,所以所以这是。凯明到现在,比如说前两天他还跟我说,他非常 enjoy 这种 I C I C 的 work,就是 individual contributor,就是个人贡献者的这样的一个一个身份。嗯,啊,他并不 enjoy 说管理一个大的团队,让大家一起只是作为一个 manager 来指导方向。
他他不喜欢这样的事情。他现在管多少人啊?他也有很多很多人,他现在有很多本科生啊来 visit 他。对,然后他。呃,现在也做很多很多很好的工作,所以我其实不相信他。我跟他说,你其实也是一个很好的 manager 啊,至少我我你虽然你没有真的 manage 我,但是只要我在你的身边啊,我就能感受到对自己做事情的效率啊,我我就觉得我自己变聪明了啊。
我觉得,我觉得我如果想要有一个 manager 的话,我希望我希望得要有这样一个 manager,对吧?他能够 empower 呃身边的人去变得更好。对,我觉得我觉得支持卡尼,嗯,所以 M A E 反正就是说 contrastive learning 这条路我们走了走,发现哎,它不能 scale up 啊,所以我们想要换一个方向。
那我们又回过头来去用了一个更简单的方式,就是某种去噪的呃 auto encoder,就是这种自编码器啊,就是 mask 的 auto
encoder。啊,这个方法就更简单了。反正啊,大家可以回去看paper。但是总之是,就是通过把一些image做一些corruption的方式,然后去再去重建啊,这些这些noisy的这些image或者corrupted image、masked image的方式去学representation。
嗯,对这件事情跟contrastive learning fundamentally不一样。但它的结果也很好,对,虽然它会有很很不一样的特点,比如说它不会去explicit的去model这种某种environment这种不变不变性,导致它做这种linear
probing的时候结果会会会稍差,但做anti fine tuning这是两种不同的测试这种representation的方式,对,呃的时候效果又会好很多。
总之它们会不同的性质啊,它们学出来的representation也也长得也不一样。对,然后这些事情到后面也会有很深远的影响,可以再我们可以再聊。嗯,但是这是M A E,然后那时候我们就觉得哇,M A E好厉害,好,呃,M A E。至少能拿个 best paper 吧,后来也拿不了啊。呃, me skill up 就能解决所有的问题吧?
后来发现,哎,也不 skill up。嗯,对。哎,其实我听,呃,你跟翔宇之前是聊过这件事情,因为他其实也关注过自监督学习,然后他其实也,呃,讲了很多为什么自监督学习不能 skill up
的一些原因。其实,对我就我就不赘述了,大欢迎大家回去重听节目。但是,总之是当初其实是有点。这种大起大起大落吧,啊,大家一方面得到了很好的结果,但另一方面,这些 paper 又只是一个 paper,我们从来没有能够真的 deliver 出来一个实际的,对吧?
然后像 GPT 一样,能够通通向一个完全不一样的 scalable 的未来的这样一个范式,嗯,对我觉得这件事情。所以到那个时候就有点啊,告一段落。当然那时候我还做了一些其他的工作,比如说我把自监督学习啊可以说是第一次拓展到了比如三D的领域,在Point
Cloud上面也做了一些工作。对这些啊叫做Point Contrast,但这些工作可能更多的就是说证明了Representation Learning这件事情不只是一个Image Domin的问题,它是一个很普适的。
啊,一个一个一个方法,或者说一个方法论,它不止在image上面成立,它也在三D的空间。到后面,很多人去试各种样的medical
imaging,还有包括这种robotics的这种task。各种抖音,他都成立,所以这件事情,我我我不认为它是一个失败,啊,呃,因为它确实在影响很多很多不同的,就是超超越我们现在关注的,比如说计算机视视觉本身的领域,对,但另一方面,它也远远没有达到像L M的这样的这样的这种这种影响力,嗯。
所以啊,做完了这些事情之后,又做什么呢?啊,对,好像又开始回到了呃探索期了。这些都是在菲尔实验室,都是在菲尔菲尔在做的,对吧?你在那个阶段待了四年,待了四年,嗯,哦。这时候,Fair是这个周期就结束了吗?没有结束,还早还早哦。这可能是前面的一到两年时间吧。对,哎,还有一个好玩的事情是,在在在在在这个吹一吹凯明,就凯明,这个这个当初其实资源永远是一个问题,G P U总是不够的啊。
然后当初Fair make了一个decision是说我们试一试这个T P U这个东西好不好玩。嗯,Google一直在用,然后他们也全全面转型使用T P U。所以,呃,我们买了大概五千张这个 TPU 的 core 啊的的这个芯片啊,啊,不是买就是租吧,就是在 Google Cloud
上面啊。然后一开始是为了做 language model 人准备的,然后大家去玩了一玩啊,后来发现,哎呀,太难用了,实在是不好用。
啊,凯明上来说我来啊,所以他真的是这个这个这个 single-handedly,就是就是 again单枪匹马啊,从从头到尾在TPU上面build了一整套infrastructure。使得我们能去做之后的一系列的这些工作,嗯,包括MoCo,包括M A M A E,啊,包括后面的这个这个D I T,都是都是在上面在T P U上面发生的。
所以这件事情对我来说也是一个很重要的一个一个guidance吧,就是怎么总结呢?就是就是就是呃,工欲善其事,必先利其器。嗯,然后,凯明教我的一件事情是说,你的research的上限其实取决于你背算的好坏。嗯。就如果你的baseline很差的话,你可能很容易自欺欺人啊!你你是做不出来什么东西的。你如果没有花足够大的心思去在baseline level上面去去去把这个system搭建好,对吧?
把工程也做到极致,你是没有一个平台让你去做真正的探索的,因为你可能会发现一个啊有趣的、有价值的一个信号。但有可能这个信号完全是错的,原因是因为你的baseline对吧?你的基准本身就不够好,嗯,哦,所以这件事情也蛮反直觉的,因为大家总说,哎,我的baseline要是差一点,那我能,瘦出来的这个performance gain就会多一点,那我可能更容易发paper,对吧?
但是其实其实凯明不这样想,嗯,他会想我们怎么样把baseline做的高到不能再高,这时候在这个基础上我们做出的新的事情。那是groundbreaking的事情,嗯,那是真正的breakthrough,对吧?你在一个弱的baseline下面做的任何的提升,可能只是一篇灌水的paper而已。啊,所以这件事情我觉得对我来说也是一个启发。
包括他们做 detection 的时候,做这这一部分工作,我没有参与,还在在读 P H D。但所有的这些,呃,Fast R C N、 Ma Mask 或者 Mask R C N,然后这些这 focal loss 等等一系列工作吧,这些工作都是因为他们啊,包括包括 Ross,包括凯明,包括这个吴玉新啊,大家在 Kimmy,他们做了大量的工作去搭建这个 infra。
然后去build这样一个code base,使得baseline啊这些方法的baseline就已经远超于这些所有的乱七八糟的C V P R的paper,嗯,就我们的baseline已经比你强了。那我再往上走一步,那我当然要要要要要比你走得更远,嗯,对吧?所以所以我觉得我也是一直有这样一个一个一个一个一个一个方法论在这儿的。
我觉得我会比较重视,嗯。这种这种,我觉得我不想叫它工程吧,因为它还不完全是这种这种,只是这个 co base 的这这种这种事情,它不是一个在产品公司里面打造一个 co base 这样的一个关系,它更是一个 research 的 breakthrough 的脚手架。你的脚手架如果不稳,你什么都做不出来。
好,所以所以这个这件事情也影响到我们现在做的一些东西。但
anyway,就是说,凯明在搭这个脚手架的方方面,其实真的也是非常非常厉害。哦,所以我觉得你好幸运,因为你很早就有人告诉你很多正确的做法,你所以其实,在很多事情上你少走了很多弯路。对,我觉我觉得我非常幸运,但但但我也希望就是,但我觉得很多东西真的是一方面是common
sense,但像你说的,一方面对于一个一个学生来说,这件事情可能不那么obvious,不那么显然,嗯,哦。
呃,像像这个脚手架,现在我们我们在菲尔的时候会有一个这样的 running joke 吧,就是有点有点开玩笑性质,就是说大家进到菲尔实习的第一课,你猜猜是什么?嗯,第一课啊,是要用一个工具,你猜这个工具是啥?不知道这个工具是是 Excel 表格哦,这这件事情也很也很也很有趣啊,就是大家我们会有一整套这样的 track experiments。
当然了,这件事情有可能有点过时啊,呃,因为现在可能又会有更好的有有有很多更好的工具对啊,但那个时候我们会。精细的去去构建这样一个 template,这个 template 就是 Excel,所以有时候我们有点像文职人员啊。我们每天做 research 过过程中,不是满满屏幕的代码,我们在写一些什么
fancy 的东西,而是盯着这个 spreadsheet 啊,这个 Excel 的表格,嗯,然后去看每一行它到到底代表什么。
这里面关于research部分,就是说你怎么设计这个表格,你怎么能保证你的每一个实验都能给你像我刚刚说这个梯度,对吧?呃,因为你总会有可能有两个极端,一个极端是你做的实验做的太少了,所以你的信号不明确,你是爱不知道。另一个极端是,那个我我我完全不care我在做什么实验,我就瞎跑实验,对吧?我我有这么多资源,我就maximize我的资源,然后就run所有的job,然后把所有的结果全都这个dump到,就是直接直接放到这个表格里,然后我就觉得心满意足,我觉得我的research已经做完了。
这两种情况都是一个比较差的,呃,学生的 research 的一个 pattern。对,但当初其实通过看凯明怎么样去 build 这样的一个
spreadsheet,我觉得我学到的特别多。对,因为其实你就会要去去make一些决策,这些决策就是说,我的这个我我到底应该关注哪些metric,嗯,对吧?我到底应该记录哪些内容,就有哪些column哪些列,然后还有就是说,我到底应该有哪些行,我到底有哪些实验的结果应该放到这个表格里面。
哪些实验的结果我可能就不放了,或者说我隐藏起来,因为你放进去的这一行是需要跟其他的这个表格里面的其他的行发生关系的。然后这种对照式的对比,这个是research的流程,这个东西again再次给了你一个这种梯度的信号,嗯,对吧?然后这件事情其实有时候是非常非常subtle、非常非常微妙的,因为它并不是说你的结果越好。
你就你就你就一定是通向正确的道路,啊,那应该是,呃,就是还是说,你看你哪哪一哪一个哪一个对照能给你最大的这个信息量,maximize你的information。比如说我举个简单例子,如果你做了一个实验,这个实验给你了,呃,这个这个这个差了,比如说你的performance掉了十个点,对吧?啊,这时候如果你是一个悲观的人,你会说,哎,这个实验废了啊,完全不成功,那要不就算了。
但如果你是有这种发法论的发法论的人,你会觉得,哎,这个方向可以掉十个点,那我往这个方向的反方向去设计我的算法,那是不是我就可以涨很多点?因为你最害怕的事情是它的performance停留在原地,嗯,不好也不差,对吧?它不好不差就没有信号,没有信号,对吧?一个一个一个negative的信号的反方向就是一个正向的信号,一个positive的结果的正方向也是一个好的信号。
哦,所以所以这件事情也是一个非常非常有趣的事情,嗯,然后还有一件事情,凯明用这个表格经常告诉我的事情,也是说。你要学会做预测,在你跑每一个实验的时候,你要预测这个实验的结果应该是怎么样?为什么呀?因为你要猜,你要猜,你想的对还是不对?如果你想的对了。说明你前面的这个思维链条是可以往前继续延伸、往前继续推的。
嗯,如果你想想错了。Again,这也是一个surprise,嗯,对吧?也是一样的,也给也给了你一个信号,那你就会怀疑说,哎,我为什么想的不对?嗯,对吧?我哪里想错了?我可以要,我可以尝试去解释背后的原因,嗯,然后或者我可以去重新去审视我自己的思路啊,这些东西都是有价值、有意义的信号。呃啊,这个可能说的有点具体了,但是确实这些事情,嗯,哦,这个很很有启发,或者很多人对很有启发,对对,因为他们可能没有你幸运,不能在他身边工作。
是啊,对,但凯明其实他也是呃,不是我我说的好像凯明是一个这种这种无所不能的机器,呃,研究机器其实他不是啊,他也是一个很很真诚、很有趣的人。他是有生活的人吗?他是有呃,他的生活很干净、很纯粹。但是,我跟他一起工作的几年时间里,我也跟他一起打了几年游戏。打什么游戏?他他他是这个魔兽世界的。中式玩家哦,然后我们一起那时候会打炉石,炉石传说啊,是一个棋牌式的这这么一个一个游戏,也是对战。
我我跟他有时候会这个一起联机,然后打几盘游戏啊,然后我有时候上线。发现哎,凯明也挂在上面打游戏啊!你们会一起打多长时间?呃,不不,没有没有一起打很久,对,但只是平时线下会讨论游戏,就先一般一般是比如我们讨论一个小时啊,或者两个小时吧啊,前一个小时讨论research,后一个小时讨论游戏。讨论什么呢?
呃,就是说这个我遇到的,哎,你最近玩的怎么样?嗯,然后啊,我给你讲一下我上次对这个十二连胜,然后发生了什么,就类似于这样的事情啊,挺无聊的,挺好玩的事情。从打游戏身上能学到什么 research 的方法吗?倒也没有,但是发现凯明游戏的也比我打的好,他天梯爬的也比我高啊,我就觉得哎呀,嗯。这个没办法,四各个维度上被碾压。
对,呃,但是对,然后然后,但我觉得确实,凯明也是一个。蛮蛮蛮蛮蛮有趣的,就是他会对,如果如果你是真的是跟他一起工作的话,他会很愿意跟你去交流很多东西,然后并且这些东西包含我刚刚说的这些 research 的方法论,也包含一些呃有些虚无缥缈或者说呃很 broad 的这些内容。他最喜欢聊的东西其实是进化生物学,他本科是学物理的,还有物理。
然后,呃,包括量子啊,然后还有包括啊哲学。对他一直劝我们的事情是说,呃,哎,那个赛宁,你们你们在美国读博士,你们的title可都是。PhD啊,对吧?是是,it's a doctor of philosophy啊,是哲学博士。嗯啊,但为什么你们培养出来的人一点哲学都不懂呢?嗯,灵魂拷问哦,他不是在美国读的,他不,他不是啊,在香港对。
然后,呃,呃,但这个也不只是美国,香港应该也是PhD,就是PhD只是变成一个代号。但他说,你们一定要多读点哲学啊。然后,所以,哎呀,这件事情也是啊,挺好玩的事儿,就是他给这个,其实每个人或者至少给我吧。然后一开始入职的时候,给我一本书。然后这本书是,呃,不是不是教你怎么做research的,那这本书是《金刚经》啊,呃这个。
对,哎呀,我是不是透露的过多了?《金刚经》跟 research 的关系是什么?呃,我觉我觉得这个涉及到 research taste 的问题。嗯,对,这个也是我很想问你的,因为研究圆圈现在我觉得说最多的词就是 research taste。一些人在说你的时候,就会说你是 research taste 好的人。
好,谢谢。那什么是 research taste taste 呢?什么来决定它呢?我觉得,我觉得你看,你用这么一个很高大上的词啊。对吧?然后还要用用英文来说,说明这些东西很难很难被定义。它真的是一个内法审美,对。然后我觉得包含我其实上述所说的所有的这些事儿,对具体怎么做事情,我觉得这些事情都包含在之之内。
但呃,也涉及到一些更 high level 的这种这种这种哲学啊呃部分的这种考量。我觉得啊,像像凯明送我金黄金,我觉得。他因为《金刚经》里面说,这所有事情如梦幻如泡影,对吧?然后其中有一句话也是:凡所有相,皆是虚妄。若见诸相非相相啊,即见如来。嗯啊,然后这件事情扯远一点,其实跟西方的哲学里面的某些观点其实也蛮像,对吧?
比如康德去讲所谓的物自体。然后,然然后然后,到比如叔本华讲作为意志跟表象的这种世界,对吧?然后其实大家想要表达的事情啊,我我不懂哲学,我也不想高谈阔论,但是以我粗鄙的这种认知,我觉得他们想讨论的事情都是说,你看到的东西不是这个事情的本体,嗯,你看到的事情世界也不是实质,对。所以当你看一篇论文的时候。
重要的事情是打破这个论文给你的一个幻想,去追问一下这个论文背后到底隐含着什么样的一个一个一个实质性的东西。然后,我觉得research
taste的来源就在于大家能不能真的抛开所有的这些。虚无的象,然后去一直去通往通往这个真理的道路,一直去求索。嗯,哦,我就我觉得凯明这件事情做的是最好的,所以这件事情,如果你想的长远一点,就是说我到底应该用什么样的方式指导我,怎么样去选择一个题目,到底做什么样的事情。
对吧?然后这件事情又会涉及到你在做research的过程中,具体每一步该做什么。我觉得所有事情都是一致的,嗯啊。然后我觉得research taste不够好的一个问题在于,可能大家会沉迷于这个项,这个项可能是一个paper的acceptance。可能是外界像你说的某种 fame,可能是因为你可以很快的去把这件事情做出来,你能够得到的这种一时的这种称赞和和这种追捧。
对我觉得,我觉得对于凯文来说,这件事情完全 complete out of his kind of world model。对他完全不 care。哦,我觉我觉得对啊,但但你要问我具体research taste有如下A B C D几点啊,这件事情就比较比较难讲了。这件事情因为。涉及到的东西也很也很多,因为因为其实 research 本身就像我说,也是一个创意流程,也是一个写作的过程,对吧?
从你的写作的,by the way,凯明也是写作能力最强的人,他也非常鼓励我们说一定要开始早点开始写作。这件事情非常非常不幸,到我现在,哎,都已经这个一把年纪了,还是做不好啊。就是凯明所有的论文都是在 deadline 前一个月做完的。至少在菲尔的时候是这样的哦,哦,就是当其他人都还在为了 deadline 通宵奋战,然后赢这个这个获得获得巨大的满足感的时候,凯明,你知道吗?
就是那种闲云野鹤,然后,然后一个月把事情已经做完了。然后开始把它一一遍一遍的 polish,然后观察着你们去赶 deadline 吧。啊,我是一个非常 chill 的方式,然后把这件事情做到尽善尽美。他是一个月前全部做完,全部做完哦,嗯,就 paper 写完啊,不是说这个结果得到,是 paper 全部写完,这是一个已经 publishable 的一个不错的工作。
那这是意这意味着他是要在什么时候开始写?那就是提前两个月开始写。他只用写一个月,呃,我一个月很长了。对,呃,当然他后面还会继续写,在大案之前的这一个月,呃,会会polish每一个表格,呃,每上就是每每一个每个字吧,每个标点符号啊。比如说这件事情也也也影响到我,比如说我现在就就有这种OCD对吧?就是这种应该怎么说强迫症对,然后也是凯明时期带给我的,就是说你的一行论文。
不能有一行有小于百分之六十的文字啊,站住什么意思?就是说,如果你有一行,你你有大半行是空的啊。这个看起来不好看,你要把这一行占满,或者占的占的大概有百分之六七成满哦,这样你paper看起来才比较优雅优雅对,嗯,或者uniform对啊,哦,所以所以这也是我们现在每一篇paper最后我都会让大家所有学生这个对你你们好好看,你如果有一个什么trailing
word对吧,你有你现在如果大家不注意的话,你会有一个。
有一个有一个有一个词,然后单独站一行,在一个地方啊,很难看的,对,懂啊,嗯,然然后,而且凯明想这件事情的时候的想法是说,呃,这个paper不是给你自己看,这个paper给别人看的,所以你要在乎的是别人的观感。啊,你怎么样能够就是paper只是一个载体,我怎么样通过这样一个knowledge的载体,使得大家可以比较顺畅的get到你自己的。
这个这个想要表达的这个内核,它这个沟通界面要赏心悦目啊!哎,你总结好好,对沟沟通界面要赏心悦目啊,所以保证你的配备也不能太难看,对吧?然后你这个细节要做好啊,所以所有这一切你可以认为它也是某种 research taste,但我觉得这件事情其实是一个 general 的。对于生活或者对于这宇宙一切的某种审美,嗯,啊,我觉得这件事情在我看来都是相通的,嗯,对吧?
然后这也是为什么我们很在意我们自己的论文。呃,怎么样能够比较 unique,就是比比较有自己的这种独特性?然后我们可以呃有自己的网页的设计,我们会自己录一些视频,啊。一就是也有很多人录视频啊啊是啊对,但是有很多人觉得为什么你们要搞这些事情?这些事情跟跟跟这个 research 一点关系都没有,这难道不是一个 destruction 吗?
为什么你要花额外的精力去去 polish
这些东西?你是不是就为了炒作营销啊?呃,我希望大家不这么觉得吧,因为因为我觉得我觉得。有你自己的一个风格,这件事情其实是非常重要的。嗯嗯,然后这这也是为什么我们所有的paper都会用一套这种模板,然后我们会有一些自己的设计,然后间接的我也希望把一些我的taste
again,我不能完全保证他们都很好啊,但是somehow至少跟我的学生一起讨论吧,然后大家可以一起去把这件事情。
嗯,至少一起能够去构思,一起去想一想。对我觉得这件事情也是在我看起来这个大的这个 research taste 的中间的一部分。嗯。它包含了很多很具体的小的细节,呃,非常非常非常多的细节,嗯,对对。但我觉得这也是为什么做 research 很有趣的点。我我昨天跟你说过,我这个从小的梦想其实是当个导演,对吧?
嗯嗯,从小的梦想,没有没有从小什么时候破破灭了?呃,很快就破灭了,很不幸啊。但是,但我还是会看很多电影吧。然后,但是我觉得。到后来,我还发现 research 的过程跟拍电影过程,呃,其实没什么不一样。为什么呢?因为电影也需要发现一个主题,它也是经过探索。我我有一个我想要拍的故事,它也不应该是我站在此刻,我就觉得哦,我这个故事就是这样了,然后我直线通往彼岸。
也不应该是这样的。你你也应该去拍电影,我觉得他有很好的直觉。对,就是是的,exactly对吧?最差的电影就是说我是个流水账,对吧?我有这个,我有A中间没有什么冲突,然后通往B,然后事情结束了啊!我就我就我就我就放给你啊!一个好的电影其实是说。或者说,为什么我们写paper的时候,大家说,哎,他讲的故事讲得很好啊?
虽然这件事情可能甚至有点narrative,就是storytelling,storytelling对吧?嗯,电影是一个storytelling的过程。对吧?有有一本书,其实我之前还跟学生推荐,我就我学我学习凯明,跟跟大家推荐一些,呃,这个不搭嘎的书。我给大家推荐一本书,叫做就叫Story,是这个麦基的这本书啊。
这本书其实是是新闻学,新闻都要啊,真的吗?啊,OK,I see,I see,I see。对,因为它里面讲,对吧?你真正的这个故事本身不是人物的背景,而是人物在特定时候的选择。啊,这件事情带来了冲突,然后带来了对这个世界的变化,推进剧情的发展。我觉得 paper exactly 就是这样,你写的这个 paper 本身。
Technique当然重要,这个knowledge当然也很重要,但是也许更加重要的点,是你到底是怎么怎么到达这儿的。你到底中间做了哪些决策?嗯,对吧?你的decision到底到底是到底是make the decision?嗯,哦,为什么这个decision很重要?为什么读者读了这个decision making的过程之后,也许他们自己也会受到启发?
也许他们自己也能去做一个完全不一样的事情,但 somehow 又能跟我们 present 的这个东西串起来。我觉得这件事情不就是拍电拍电影吗?啊,然后已经把 research 进进化到了艺术的层面。哎呀,不是这个 Pig 说了吗?这个他不喜欢艺术家,对我就我我觉得对我也我也我也我我我完全不是我我其实没有什么艺术的见解,也没有什么艺术的。
修养啊,更没有什么艺术的能力。嗯,但我还是觉得这世界上的每一个人,不管你是不是经历过这样的训练,呃,有一些非常非常common的、非常非常个人化。比如说,这个Martin Scorsese说,对吧?最有创创意的东西,其实是最个人化的。嗯嗯。我觉得每个人都太不一样了。你怎么样在做做做做research的过程中,也能发发发掘出来你心里面的那团火,对吧?
你自己不一样的地方,然后用它来指导你的research taste。我觉得这件事情才是,在我看起来一个一个一个scientific的这个这个道路上面很重要的一环。嗯。其实人在选择自己偏好或者相信自己偏好这件事情上是非常难的,因为大多数人都愿意走一条就是我们一起走的路,因为它更安全。就包括你说的做 research 的探索的过程,也是一种就是更加愿意相信自己某种偏好的一个过程。
对,我觉得,我觉得这件事情是这样,而且这件事情对 research 来说还还蛮重要的。嗯。还是有点玄学,但是其实这个也是在A三班,然后于老师在我们本科时候跟我们说过一句话,他说不是因为看见所以相信,嗯,因为相信所以看见,嗯,哦,就如果你不相信这件事情的话,啊,你可能完全看不到这件事情。啊,按按你按你按你设想的方式去发生,对,我觉我觉得啊,哎,我觉得不能太玄学,但是就这里面,好,我们有点虚了。
Research还是一个科学的科学的过程,然后我们每一次的decision得要基于事实啊,不能不能不能完全只是因为你相信一件事情,然后你就你就你就你就往那儿走。对,这件事情肯定是错的,但是somehow还是有一点这个的成分,就是大家还是有某种。自己的属于自己的这种精神的力量,其实能够去改变啊,你在study问题或者你在看待这些问题的方式。
嗯,我要拉回来,我们飘出去了,飘出去太远了。对对,嗯。你说research是嗯,就是更重要的是你怎么做决定的?那你这个嗯做研究的这个历程,你刚才还是没有讲完,就是后面的决定是怎么做下去的?其他可能可以比较快讲一讲,因为其实有了现在铺垫,很多事情也蛮好讲了。因为其实很多时候,我觉得,我觉得有有有很很很好多点,呃,来指导怎么做事情吧。
第一是可能要有某种质疑精神啊,这件事情。我觉得应该不用讲吧,但是有时候在现在的这种竞争的环境下,大家可能会慢慢丧失这种都很难,嗯,对,有点难,嗯,然后还有就是说,我觉得还是要,呃,我在我那个无限游戏的talk里面讲,呃,you are you you are the genius of yourself,你是你自己的天才。
希望你自己能够去做一个不一样的事情,be different这件事情,我觉得也是一个很high level的一个指导的一个原则。嗯,所以往后说,那像像我们,我跟我跟我跟我当初的这个实习生,呃,刘壮,他现在也是一个。很强的这个 researcher,他现在是普林斯顿的一个一个教授了啊。然后我们一起做一个工作叫 Confluent,啊,这件事情你可以看到对跟跟这个 Resnet 也是一个映映照,嗯啊。
然后呃,这个 paper title 非常 ambitious,叫做 A Confluent for the
2020s,就是二零二二零二零年代的这个卷积神经网络,嗯啊啊,可以猜一下这个名字谁取的?啊,凯明,对,其他人也不敢取这种名字。呃,又有x啊,然后凯明,凯明取了这个名字。然后我觉得我们做出来,呃,但这个paper其实很简单,就是说大家认为在vit里面,就是vision
transformer里面最重要的东西是self attention,但我们我们质疑这件事情到底是不是真的。
然后通过这样的质疑,我们去啊去这个这个这个铺叠这样的实验,对,然后最后发现其实这件事情没有想象那么简单。Software tension可能是最不重要的一环,整个的这些呃global这种architecture design以及这些宏观跟微观design才是决定啊这个performance的一个一个更加至关重要的地方,对,所以这件事情。
我觉得对,也是也是当初跟刘壮一起,当然还有其他的同事一起,我觉得我们能够去提出这样的问题,有所质疑,然后啊,刘壮做了大量大量的实验,把这件事情最后梳理清楚,对吧?然后,然后我们有这样一个一个一个figure,有这样一个plot在在paper里面,就是说我们现在怎么样从一步一步从一个卷积神经网络。通向一个这种层层次化的这种 transformer 架构,它每一步哪些实验重要,哪些实验不重要,对吧?
呃,就是一系列的 ablation study。然后这个图现在也变成这个 paper,呃,我觉得我觉得还不错,就是它可能也配得上它的题目,就是在此之后也没有人设计。卷积神经网络架构了,基本上,啊,然后然后还有就是这个这个这个这个这个figure这个配图,现在变成了一个经典的配图啊,所以在各种各样的配本源都能找到它的痕迹啊。
这个配这个图也是我当初花了很长时间手搓出来的。对,然后这件事情对我的启发也很大,就我觉得,对吧?就是其实大家是知道,因为这个图本身,他在讲关于这个paper里面的一些逻辑,但他所涵盖的这种怎么样去精细的做ablation,并且控制变量的这样的一个方法,这件事情是可以被应用在很多很多不同的paper,不管你的topic是什么的,对,所以我觉得这件事情也很好玩,嗯啊,然后。
后来,呃,可能可以谈一下,比如DIT对吧?然后,但这个paper也是,这个paper又是一个,这就到N I N Y U了。没有,没有,没有,这个也是,也是菲尔,是菲尔的最后一个工作。哦,嗯,然后菲尔那个时候已经开始有一些。啊,culture shift,OK,因为那时候 Chat G P T 刚出来哦,Open I 啊,然后 Deep Mind 也做的也非常好。
Open I 作为一个新兴的这样的一个 research 的力量,嗯,然后其实做了很多在菲尔大家想都不敢想啊,想呃即使想了也做不到的事情。对,然后大家就开始在思考这个组织模式上到底出了什么问题,是不是要进行大的改革?其实已经进行了很多次这个reorg,这也是一个trigger,是说我为什么我觉得当初已经不是一个好的时间,我继续留在菲尔呢?
已经开始下滑了,倒也不是下滑,只是说大家的focus已经不在research上面了。嗯,大家会。呃,有开这种好几个小时、几个小时的这种、这种、这种research的alignment的meeting,就是这种对接的这种会议、对齐会议、对齐会议啊。然后这个会议的唯一的topic就是说,我们到底应该做啥啊?
但这样的会议,呃呃,这个持续了,比如说好几个星期的时间啊。还是没有办法确定,因为没有人会知道自己要要做什么,因为这件事情是完全反我刚刚说的这个 research 的正常的这种 bottom up 的逻辑的,嗯,对吧?现在变成了是说我们要坐在一起讨论,我们接下来一年两年的时间应该做一个什么样的 research project。
这件事情在我或者在凯明或者在很多研究员的心里啊,看起来都是都是反 research 的。对,所以那时候也受到了很多的影响吧。比如说,当初我在做这个D I T的时候,diffusion也是刚刚起步啊,还没有人,菲尔还没有一个人在做diffusion model相关的研究啊。但我觉得,哎,这个东西好像很有趣,我觉得应该去尝试尝试。
然后Bill
Peoples啊,他是我当初招的一个intern,嗯,对吧?然后他现在是Sora的hat,啊,也在Sora的这种各种生成的视频里面,他也是主角,嗯,对,他是一个非常非常sharp啊,或者或者在我看来是一个。我觉得完美的PhD学生吧,就是在各个方向,呃,至少是六边形战士的这样一个学生。对,但Anyway,当初我们的起点其实不是要做diffusion
model,也不是要做dit,在前两个月的探索,完全也是集中在表征学习这件事儿上。
就是说,我们想要看一看你一个diffusion model学到的这个表征,到底跟一个正常的supervised learning或者说一个soft supervised learning学到的表征到底有什么不一样?其实后续在这个方向还有很多很多的工作,但我们开始的这个做了一段时间的感受就是说,这个东西好像。
也还行,也就那样,嗯,他能学到一个不错一个生成模型,能学到一个不错的表征,但这个表征要比你的自监督学习的表征要差得多得多得多。嗯啊,就完全不能打,对,所以我们就放弃了。但是在这个过程中,到了最后一个月的时候,我们发现,哎,啊啊,By the way,这个东西的前提是说,因为D I
T,我们需要在这个表征的level去跟比如说V I T based的这种表征的系统要做一个对比,嗯,所以那个时候是我们为什么我们不用U Net要用V I T来做这个diffusion model,这个是出发点。
对吧?然后后来我们发现,哎,这件事情在表征的这个角度好像没有什么太大的价值。但是好像我们的这个新的architecture,它确实更加efficient,然后确实更加scalable,嗯,比UNet要更稳定,并且从代码的角度,我会非常care这些事情。就从你的代码的角度,我们叫它这种minimal description length,就是说你代码其实还是很重要的,是能体现出来一些事情的。
如果你的代码的长度很短,啊,就能够去达到同样的目的。那你这个方法 typically 会优于一个,比如说写了好几千行代码,一个非常非常庞杂的系统啊。即使它也能做同样的事情,但你的前一种这种更 elegant solution、更 simple solution 一定是更好的。我觉得这也是某种意义上的 research taste。
嗯,所以我们发现,哎,这件事情又简单,又能 work,又 scalable,然后又 efficient。那好像这件事情才是应该我们去 pursue 的
direction,所以也是提前一个月啊,然后然后去做这件事儿,嗯啊,然后那时候也要竞争很多的资源,大家就说,哎呀,你这个做这个事情干什么呀?我们现在要把资源集中到一起,然后我们要做一些更有意义的、更大的 project,虽然有点呃,就不是 nobody
knows,大家所以要有这种对齐会议里面讨论嘛。
但是,但至少 diffusion model 不会是在这个 critical critical path 中的一个重要的,就在这个核心路径上的重要的议员。嗯,对,所以大家会有很多的反对。啊,但我觉得我能看到这件事情,其实是一个很重要的事情,因为我觉得这这件事情从架构,我我做我做架构做这么长时间,我觉得这是diffusion架构的未来。
对它不是 diffusion model 全部,像我说 data 架构,还有还有 objective 都是很重要的。对,但是在在架构上这件事情是绕不过去的一环。呃,所以这是为什么我们最后一个月就朝这个方向去 push,呃,最后结果也很好,然后我们能瘦出来这种真的很好的这种 scaling
behavior,然后我们投了 paper 到 CVPR,啊,然后我觉得都非常开心啊,然后 paper 被拒了,嗯,啊,对,乐困好像写过这个推特,呃,是的,是的,就是就是 novelty 不够,所谓对你们可能做的这个东西。
呃,对吧?你你你没有大段的数学,你没有大段的这种复杂的这结构,你弄一个很简单的这样一个结构,虽然得到很好的结果,但是嗯,review不买账,嗯,对啊,这也是另外一个lesson。但到那个时刻,其实我已经慢慢回过神来了。我发现哦,这个research paper这件事情啊,其实这个在这个巨大的随机过程里面。
中或不中,一点一点都不重要啊!所以,我们接下来又投另外一个会,那什么也没改,那又中了一篇our的paper。嗯,所以再次证明这个完全是一个纯粹的随机过程。但之后发生的事情比较有趣啊,就是拿到这个paper之后,我发现这件事情在各个维度上都比一个unit based system要好。Why not?
你你就应该用这件事儿,对吧?你统一了你的底层的这个逻辑,在至少在架构上面统一了这个逻辑,你可以 share 很多这种 infrastructure,它又这么 efficient,结果又好又 scalable,你可以 train 更大模型。所以我们就想,哎,这件事情这个 paper 发出去,那一定会有很多关注。
呃,which by the way 确实有很多关注,就是推特上很多人讨论。但是我们发现,哎,好像没有人真的用它干任何事儿。哦哦。然后我们开始就开始跟大家聊,就比如说我们去找 Stable Diffusion 的人啊。By the way,我觉得 Stable Diffusion LDM 也是一个,在我看起来属于那二十几篇 paper 里面哦的一一个。
但我跟他们有些人也在再去聊,然后我们跟一些其他的大公司也有在聊。嗯,我们相当于在学校里面那时候我已经就是相当于这篇 paper 是是刚好落脚在我在 Fair 的最后和我在 N Yu 开始。哦,这两边都署名是吗?这样的话,对对对,呃,其其实不是,其实是只署了N Y U的名字和Berkeley的名字哦,因为菲尔不让我们署名,为什么?
因为第一是他们觉得这篇paper, it's okay, it's a paper。第二是,那你已经离开了,不要署名,不要不要借我们菲尔的名声啊,给你,有光天才啊,呃,然后anyway吧啊,就会其实本质上还是一些legal的原因吧啊,反正就没有署名,所以是是数百万有名,但这件事情是一个在在菲尔完整的做完的事情。
对,世界总是这么讽讽刺,有一点讽刺,对,嗯,然后后来反正。发生的事情大家也知道,那就是Bill跑去OpenAI,那说好你们都不买账,那我自己来做这件事儿。哦,是这个原因,是这个原因,对啊。然后或者说那时候他也在跟我讨论说,到底应该去找什么工作?他有好多不同的offer,然后有些startup有OpenAI,然后也有一些大公司。
啊,然后,呃,然后,然后那时候他才第三年,然后他也是这个,也我觉得也是有一个非常好、非常好的这种啊,可能比我强多了的这种预测模型吧。啊,我觉得他是能看到说要早点加入OpenAI啊,OpenAI啊,现在不得了。那是哪一年?呃,是这个二二年啊,呃,二二年年底。对,二二年年底。对那个时候不是 ChatGPT 刚出来吗?
是呀,哦,他就加入了哦,呃呃,对啊,就是他加入了,然后工作就做完了吗?做了对,你们不是在拆GPT之后做的吗?呃,不是,因为我是二三年一月就已经到NYU了哦,所以这个工作其实是上一年二二年的暑假开始的一个工作哦,所以是在拆GPT之前就做了之前对哦,所以这是为什么OpenAI我觉得也很厉害,就他能够意识到。
比如Bill的才能,嗯,并且能够让他们有一个包括Team Team Books对吧?然后让他们能够有一个这样一个很bottom up,在我看起来其实是一个蛮research的一个effort,给他们足够多的自由度跟资源,让他们做一个在之前大家想都不敢想的事情,嗯,这件事情就是Sora,对吧?我觉得这件事情。
至少在在当初,菲尔是没有这个基因的,大公司也不会有这个基因。就如果你们没有离职,还在菲尔。他们依然不会用DIT,呃,那那那那我觉得也不见得,倒不是用不用的问题,我觉得更多的是怎么样能催生出这样新的这种创新的,呃,这种这种结果,嗯,对。然后我觉得或者说这个架构只是其中的一部分,我觉得我觉得它一点都不重要,它只是它只是一个选择,嗯,啊,但决定了这件事情,对,要bad就或者相信这件事情能做成,嗯,我觉得这件事情不是不是所有人都能相信得了的,嗯,哦。
我我觉得这件事情其实是非常厉害的。嗯,这其实在讲的是Sora的诞生的很多前序的故事,对吧?有点是是是,嗯。然后对,然后我哇,你见证了好多啊啊!对,我觉得见证了一些人、一些事吧,的啊,但也错过了很多,对。错过了什么?那比如当初没去OpenAI啊,或者说,呃,之后还有很多其他机会,我就不不说了。但总之是有点我,我觉得我看对了很多事情和很多人很多人。
但也有一些时候,比如说某些创业公司在非常非常早期的时候,然后跟我聊,然后想要想要想要说,哎,就我可能是第一个看他们的demo的人啊啊,也许可以说吧,就是呃,这个Eleven Perplexity的Eleven。然后,他从OpenAI出来,在Palato的这个Blue Bottle的这个这个这个这个这个咖啡店啊,这也是一个硅谷里面so很多事情发生的一个地方啊,很小。
我可能是至少第第二个看到他的一个demo的这样一个人哦啊,他拿着一个电脑给我看一个,嗯,一个一个一个浏览器,然后说:“哎,我们要革了Google的命。”啊,然后我说哇,你这个好厉害!但我心里面觉得,这个是什么东西啊?这个不就是GPT套了一个壳?然后Why are you doing this?嗯,对吧?
所以他说哎,要不要一起来做啊?我说我我我还是比较enjoy being at NYU这个对,去继续做research啊。但后来其实确实,我觉得,我觉,我觉得我对创业者的啊这个这个认知,在在过去的几年也发生了一些变化啊。然后我觉得这件事情跟research还真的不一样啊,有有很多相通的地方,但也也有一些不不同的点,嗯。
对,然后但 anyway 就是这个扯又又扯远了啊。然后工作上,我觉得我们可以呃快速再讲一讲后面的一些东西嘛,因为我可能可以最后总结一下。对,除了 Poplastic 还错过了谁?呃,其他的其他的不说吧,其他的有可能是刚错过,或者还我还不知道是不是错过的那些地方。嗯嗯,嗯,对,但但其实没有什么错过,或者说我在现在这个时间年龄,我并没有后悔任何的决定。
嗯,我觉得,我觉得每一个决定都是比较忠诚于我的内心,然后再做我想做的这件事情。有可能这些决定很傻,有可能从一些维度上来看,其实是一个错误的决定。但我现在会觉得,呃,第一很知足,第二,我觉得,嗯。像你说的,这是属于我的一条路,这条路还能通向更远的未来,我还会在这条路上继续走,所以我觉得非常非常感恩。对,反正DIT之后。
然后我们又做了一个工作,然后就是把这个 flow matching,就是就是把这个新的 objective,然后在 transformer setting 下面也把它啊拓展起来。对,然后这个每次也是都都是当笑话讲了,也是先投稿,然后又被拒了啊。然后,然后同样的原因啊,但是。Again,经过这样的次数多了之后,我觉得我就基本上免疫了。
嗯,或者这件事情其实还是蛮,呃,蛮蛮蛮叫做反反脆弱的。这个塔勒布有一本书叫做《这个反脆脆弱》,对吧?然后我觉得,呃,我当初讲无限游戏的时候,我其实也提到这件这个观点,就是说,我觉得 research 其实必须得要是一个反脆弱的系统。这个反脆弱是什么意思呢?就是说,一个组织或者一个个人或者一个事情,它如果是反脆弱的,就是anti fragile,它的意思是说。
一个可能的这样的一个random的event啊,某种黑天鹅事件,或者说某种shock,就一种一种一种呃呃这种这种令你感到惊讶的一个事件的发生。这件事情如果对于这个组织、对于这个人或者对于这个事情来说,你的收益要比你的损失要大。那你的这个组织就是一个反脆弱的组织,但如果你立刻被这个 shock 击倒了,那你就是一个脆弱的组织。
嗯,所以呃,我看起来就是说,这个 research 这件事情其实是一个怎么样让大家变得越来越反脆弱的这样一个一个一个一个一个事情。嗯。然后,所以呃,paper被拒了也没那么伤心了。然后,但是后来我觉得,就是像像D I T,然后S I T都会变变成一个呃,相当于学术界的一个一个base案吧。然后让大家可以继续在它上面做各种各样的事情。
然后我觉得它的历史这个这个任务也达到,对。所以这是在 diffusion 上面,当然我们后来还做了很多其他的事情,但是我可能想说一下,我们最近比如说有一套另外的事情叫做叫做这个 Cambrian,对吧?Cambrian series。对啊,中文叫做寒武纪。对,但是这个寒武纪这个东西,对我也我也讲了什么是寒武纪,对吧?
就是说,这个这个leading theory说vision的。啊,演化带来了物种之间的在vivo vivo能力上面的这种军备竞赛,然后导致了这种物种大爆发,然后所以大家有时候会觉得寒武纪是一个视觉的起点,对啊,然后说到这个寒武纪了,那那可能再插一句,就是说,其实如果你看整个。地球的历史啊,我们把把尺度放的更远一点,嗯,从五百三十八个 million years ago 一直到现在,对吧?
其实所谓的 modern behavior,呃,这种这种 behavioral 啊
modernity,就是所谓的啊这种行为现代化,这件事情是在过去的三万到五年五万年前发生的。所以,如果假设从寒武纪大爆发,然后开始地球上开始出现这种这种物种,开始一直到现在,如果我们把它缩短到一天,对吧?假设所有这一切都只是在二十四小时内发生的啊,那其实有语言的部分,有这种behavior
modality,然后大家可以有某种。
Abstract thinking,某种symbolic
reasoning,啊,这一部分的过程,其实,在这一天中只占了最后,你猜猜大概多长时间?三个小时,三个小时啊,高估了,高估了,呃,三分钟还是高估了,三秒钟,呃,大概大概是八秒到十秒吧,具体怎么算?哦,所以在这个历史的长河里面,其实我们有语言,啊啊的时间其实是非常非常短暂的,啊,然后但是由于我们是人,我们总会从,嗯,从从人的角度去思考这个事情,去看待这个历史,所以我们会觉得啊,好像语言。
自然而然就是人的智能的一部分,然后这也是区别于人的智能跟其他动物智能的一个主要的区别啊。但 anyway,就是这个可能又又又扯得有点远了。我们等一下可以 come back to this。那我们想说的是,这个 Cambridge
Series,嗯,之所以取这个题目。就是因为我们当初觉得啊,现在这个多模态大模型这么火热,但我们又像有点像当初Confoundx的时候一样的视角,我们希望能够去检验一下啊现在正在发生的事情啊,然后以一个比较solid、比较scientific的方式去研究一下到底什么重要,什么不重要。
所以这是这个 camera model 的出发点。然后这件事情在之前还有另外一篇 paper,叫做叫做 I S Y Shot。啊,嗯,这边有这个导演朋友,对,这也是库布里克的一个电影。所以,所以,所以,所以,呃,那篇 paper 里面讲的事情是说,对于这个呃呃 vision encoder
来说,其实 clip 可能不是最优的,它有可能会有它自己的缺陷啊,呃,因为它有这种太多的这种这种语言的shortcut,导致他对视觉的理解方面有可能出现一些偏差。
所以,Cambridge One其实是这个paper的某种意义上一个延续,是说我们怎么样训练一个我们自己的这样一个系统,然后在呃每一块上都做足够充分的study。然后,但是我们只有一块不碰,就是我们的LM的部分,我们不碰,我们不管它啊。然后,但我们去study,比如说我们的data的构成,我们去study visual representations,对吧?
然后这种这种表征啊,呃,然后以及后续的这些,比如说各种各样的架构,这种视觉处理的架构等等啊,一系列东西。对,所以他是一个蛮大的一个 effort。所以很多时候有工业界的朋友问我说:“哎,你我很好奇,你们是怎么组织组织起来这么多学生,然后做这么大的一个 collaborative project 的?
嗯,对吧?”然后其实我也没有答案呢。非要问我的话,那就是学生给力,对大家,呃,大家愿意去探探究这个问题,并且能够以比较好的方式在一起合作。对,然后当然还这里面会有一个基础,这件事情蛮好玩的,可以分享一下。就我刚刚提到说,凯明当初不是在TPU上面去build这个infrastructure,然后这个从无到有,我们有了自己的资源,然后啊,它lead出了比如说像Moco
AME,还有还有这个DIT这样的工作。
所以很自然而然,然后到了后面在万优的时候,呃,我就在考虑说,我们到底能不能去也在T P U上做一些事情?因为Google,呃,其实还是对感谢Google,Google也是一个非常呃这个这个generous的company。然后它有一个program叫叫做T R C,啊,就是呃T P Research Cloud,它无偿的给学术界的学生还有老师们去用这部分计算机资呃计算资源。
对,呃,但这部分资源极其难用,因为还是面临一样的问题,就是没有这个 ecosystem,所以你没有这个 infrastructure,对吧?没有没有这个基础架构,也没有这个 code base,很多东西 Py Torch 放在上面不 work。嗯,这里面其实就我们开始面临的这样一个抉择。一方面,我们从Google拿到了一些资源,我们可以有更多的算力,绝对的算力去做我们想做的事情。
另一方面,这件事情实在是太难用了。啊,所以我跟学生说,你们一定要去试一试啊!我也给他们讲了,比如凯明的这个 story,嗯,呃,但是他们试了大概可能一个星期,然后回过来说,老师实在这个受不了了,我们能不能买个两台 H100 的机器,还是用 GPU 吧?啊,然后我跟他们说,嗯,这件事情还是要沉得住气。
如果比如说你们试了大概三到四个星期,然后发现这件事情确实有技术上的障碍,我们确实因为我们不在Google,没有这一套infrastructure,所以有些事情我们确实做不了,或者我们解决不了,那我们可以give
up,然后我们可以去换下一件事情去做。但是如果只是因为暂时的这些阻力,你只是试了一个星期,然后然后发现哎这件事情有困难啊,那我觉得我们一定要尝试去走出自己的舒适区,去解决一些这些 infrastructure 的 problem,即使这是一些可能一开始跟 research 无关的问题。
反正学生就就被我被我被我被我劝回去了,然后继续开始啊,在T P U上面develop我们我们自己的infrastructure。对,为什么不用G P U呢?没钱呀啊。O K,学校很惨的这个啊,这个又要吐槽学校。学校北美的学术界是一个是是一个非常非常啊,我我觉得哎,就处在一个很很很难的一个境地吧。对,为什么?
呃,主要还是就第一资源不够。然后举个简单例子,比如说我们要申请 funding,对吧?美国的这个 funding system,呃,可能又要飘的有点远。但是美国的这个 funding system,其实在过去的几十年里面都没有没有什么增长。虽然有很高的通通胀,对吧?呃,所有东西都变得很贵,学生的学费变得很贵,但政府的资助以及各个公司有这种他们这种啊 proposal这种这种 program,对吧?
有一些资助的项目,其实还是维持在一个很低的水平。对,然后大概就是说,应平平均,比如像NSF这样的美国的美国的政府机构啊,能给到每一个单独的这种PI的这种这种总共的呃资助,大概就是。五十万这个级别,啊,美元,呃,五年,五年,五年,啊,每年大概十万,对。然后大量的公司,呃,其实已经变得少了很多了,因为
again,因为 ChatGPT,因为 AI 的时代到了,然后大家慢慢的变得收缩,啊,这个这个我们之后可以再聊。
但是总之是也有更呃,就是其实这种工业界资助的机会也变得越来越少。并且,一旦如果有时候有一些这样资助的机会,一般会给你,比如十万到十五万美元,就是这么就是一次的一次性的给你这么多钱作为资助。但你知道吗?大概有一百个学校,同时一百个老师或者更多的老师去 compete for 这十万块钱哦。呃,十万块钱可以干什么呢?
可以养一个学生一年。嗯,作为学费,嗯,还可以干嘛呢?可以买半个 H 一百或者上百的
cluster,嗯啊,或者给你买个三到四张卡。啊,所以所以这件事情是做不了事情,对吧?然然后那,呃,当然这也不是只是我在吐槽,我们所有的其实就是。所谓的在美国的这个青年教师都是生活在水深火热之中的,大家都要通过自己的方式去找不同的资源,所以这也是为什么呃有点像创业,就是你在一个非常
constrained resource 的情况下,要去从不同的地方找到不同的资源。
你要融资,对吧?小军,你这是商业访谈录,对?我说我这个一点也不商业,但是其实某些地方可能还是有有一些共性的啊。然后包括跟 Google 的人,我们当初我有一个我的合作伙伴在 Google。然后他也很特殊了,他从来不去公司上班。然后说,哎,他说我们可以聊一聊。然后我说好啊,那我去聊一聊,然后飞飞过去湾区去找他啊。
然后他说我们可以聊,但我们不要在办公室里聊,我们一起去呃这个Google旁边的这个Trail上面hiking啊,去徒步啊,边徒步边聊。嗯,所以我大夏天啊跟着他这个徒步了一个小时。然后跟他讲了讲我们在TPU上面做的一些infrastructure的这些这些contribution啊这些贡献,然后包括为什么building这这样一个更长期的collaboration的这样一个一个合作伙伴的这样的关系,对Google来说,对我们来说都是一个好事儿,对。
所以我觉得,哎呀,这不就是一个融资的过程嘛?啊,所以到后面化缘了啊,就化缘化缘的过程,对对对啊,对,确实是因为因为其实这样的资助其实是不求回报的,对,所以我觉得我也非常感谢谷歌,但anyway,我觉得更更应该感谢的还是应该是啊,我这几个学生,然后他们。一点点,然后突破了重重的困境啊!像像我我几个学生,像这个呃Peter,然后呃,然后然后博洋,然后书生,然后很多人吧,然后他们都在TPU上面做了自己的很大的贡献。
嗯,对。然后好,这这是这个前提,就是说我们现在有一些卡可以用了,然后现在我们就可以做一些稍微有一点跟大大模型靠的更近的一些事情。所以这是为什么我们会做这个Cambran的这个工作。对,啊,然后当然了,所有这些 narrative,这些
story,都完全还是我过去这么多年的这些逻辑,就是说,啊,第一表征非常重要,第二,不管你在解决的是一个普通的计算机视觉的任务,还是我们到了一个多模态大模型的时代,然后通过这种VQA的方式去解决这些问题,我觉得这些都是都是都是都是像啊,都是像对。
然后背后背后还是有一些实质性的东西,我们要去要去要去呃要去构想的。嗯,对,嗯,然后这一部分反正关于语言跟视觉,我们可以可以等下聊。然后我我然后我们后来又有一个叫做Cambridge的paper。这paper可能就是更进一步,我们不只做image level的VQA的task,我们希望能够去还是涉及到video,去涉及到视频。
对,然后这件事情其实真正让我真的觉得想要做这件事情的原因,又要说回到电影啊,还跟还跟这个这个这个我喜欢的两个中国的导演还还蛮蛮蛮有关系的。这个贾科长啊,贾樟柯和这个毕赣,对,都是中国很很著名的这个导演。对,然后呃,毕赣他《路边野餐》里面。啊,大量的运用这种长镜头,这件事情让我觉得,OK啊,虽然在他来说是一种视觉的工具。
但这件事情对于人来说,又是一个视觉理解的一个很重要很重要的一个媒介,就因为什么是长镜头,人活在这个世界上就是长镜头,我们的眼睛就是我们的相机,嗯。我们不停歇的在这个世界上面做各种各样的事情,对吧?然后我们看到的东西,这个介质都是video,都是视频。对吧?但是我们又能看到这个视频的这些像素背后的一切东西,我们能推理因果,我们能感受到空间,对吧?
然后贾承科说了一句话,我觉得我非常认同。他说这个电影之所以很有意思啊,这这还是他在纽约的时候跟我说。他说他说这个很有意思,是因为你如果只看这个timeline的话。这是一根时间轴,嗯,它是一个线性的时间轴,但是在这个时间轴的每一个点上,你需要一个空间去扩展它的时间。对吧?就像我们现在在说话,虽然是一个静态、静态、静止画面,但是假设你现在有一个长镜头,或者说,对你现在在纽约街头啊,然后,然后在在当坝大桥下面,当波大大桥下面,对,其实你看到的还是一个又一个的frame,嗯,对吧?
但它背后其实体体现出来的东西是这个世界的状态。是整个空间的这种全局的信息啊,这件事情是完全超越你的呃这个镜头所encode的这种这种单独的单一的每一帧每一帧之外的哦,我觉我觉得这件事情非常有道理,所以这件事情让我觉得接下来还是得要做视频,即使视频难做,即使视频需要处理海量的数据,但还是要做。对,所以Cameras我们就做这件事情,然后这件事情它有点像一个position
paper,position paper就是一些啊应该怎么怎么怎么怎么怎么翻译,应该就是一个观点式的论文啊,就是就是他想我我想要提出这样一个观点,所以在那里面我们讲某种super sensing的概念,就是说超感知的概念啊,然后。
我们还它还是一篇关于数据的论文,它是一篇关于啊这个结构架构的论文,然后它也是一个关于关于这个这个呃 spatial intelligence
的一个论文,所以菲菲老师也帮我们啊提提供了很很多很多宝贵的建议。嗯嗯呃,但核心是说我们想要定义一个范式,是说接下来多模态到底应该往哪走?对吧?然后,所以你如果一一步一步看这个问题的话,就是说,我们我们可能是一个不恰当的比喻,但你可以拿无人驾驶里面来类比,就你可能有一个L零的系统啊,就是什么都没有的系统,这个东西就是一个large
model,嗯,它完全不能观测到这个世界所有的这种visual knowledge,它看不到图片,它也看不到视频,对吧?
但是它能够通过语言的方式,像柏拉图洞穴寓言一样。能够侧面的了解这个世界,这件事情没问题。我们叫它L零,L one是现在的多模态系统,稍微具备了更好的能力,它能够所谓的show and tell,就是说你给它看一个东西,然后它能够告诉你。关于你给他看东西的一些答案,对吧?你问他一个问题,他回答一个答案啊。
这可能是L一,然后L二,我觉得是我叫它Streaming Event Recognition,就是说现在这个东西不只是看一张静止图片了,你会有一个连续的streamable的这样一个visual
stream,就是视觉流。你的智能系统需要能够了解这个视觉流,然后能够去process,就是处理这个视觉流,然后并且啊能够回答一些问题,能够去understand,呃,what what's happened。
对吧?然后再下一个 stage,呃,我叫它 spatial cognition,就是这件事情是我刚刚说的,是你在这个时间的序列上面的每一点,怎么样去能够看到超越它的当前真的背后的,就是这些这些像素背后的这个空间,对吧?这件事情也是一个人非常非常非常 unique 的本领。啊,到最后,其实,呃,我觉得终局就是说,我们需要一个 predictive world model,对,有某种预测性的世界模型。
这件事情才能告诉你关于你observe的这种real world world的一切。对我觉得,我觉得我我想要通过这个paper想要讲的事情是说,我们在build一个阶梯,然后一步一步通向一个世界模型的未来。嗯啊,呃,我们虽然可能不知道应该怎么define这个世界模型啊,至少在这个paper里面,我们不会去做这样的define define的工作,但是。
我们可以去知道有哪些 capability 是我们必须得要有的,对,所以所以这是这个 paper 的核心,然后这个 paper。呃,然后我们也拍了一小段视频啊,这个我还发到了推特上,也是一些学生,就是我们也没有花任何的钱啊,也不是为了宣传,就是一些学生拿着摄像机,然后在纽约的街头上面拍了一段,呃,我们也没能很不幸没能拍出来闭干式的长镜头,但是。
呃,边走边拍,然后算是一个写给纽约的情书吧。啊,然后但是很多人不理解,说你们拍这个东西干什么?这个东西跟你们paper有关系吗?嗯,啊,我说当然有关系了。我们这个paper的本身就是在讲一个活在这个真实世界里面的智能体。他是怎么能够去摄入这种连续的视觉流的信号,并且能够去?感受到这个世界在发生的事情,他们可能会被一些事情触动,对吧?
会会surprise,会会感到惊讶。但更多的时候,他的大脑会有一个某种,嗯,自发运作的这种世界模型在指导啊,大家做自己就指导大家活在这个世界上。对我觉我觉得这个啊,这边贝贝其实还蛮有意思的,因为我其实也以前也没有做过这种。有点像,啊,希望想要 set 一个 agenda,就是定义问题的这样的工作,所以所以说也是希望像飞飞老师多学习吧,就是飞飞老师经常说北极星,对吧?
啊,那我一直在问的问题也是,到底什么是视觉的北极星?嗯,到底这个问题到底是什么?啊,应该怎么去解决它?对,所以这是这个paper啊。你有找到答案吗?呃,找不到答案,找到答案答案我就不坐在这儿了啊。我觉得,我觉得这是一个终极问题啊。我觉得这不是一个计算机视觉的问题,或者说,其实,其实我想说的是,其实计算机视觉这个这个term也很有趣吧?
它叫vision,那vision有两重意思,它是一个非常有歧义的词语啊。vision既指你的视觉,又指你对未来的预判。对吧?就是你说你一个人很有vision,有愿景啊,visionary有愿景,对吧?呃,所以我觉得computer
vision其实啊,我完全不会呃,这个我我我我我我我可以我可以说我是一个computer做computer vision的人,对,但在我定义下的computer vision。
它是一个 perspective,它不是一个具体的任务,它甚至也不是一个具体的领域,它是一个 perspective。perspective 是它是一个观点,对,或者说它是,我觉得智能。就它蛮本质的,它是它是智能一定要解决的啊一系列问题的总和,这个东西叫分身。对,呃,我说具体一点,就是就什么是vision,或者vision care哪些问题呢?
啊,不一定能说得清楚,让我想一想。呃,他第一,他care处理的信号是连续空间的高维度的有噪音的信号,嗯,对吧?这是computer vision要解决的问题。Computation要解决问题,不是在纸上写了大量的文字。我们现在要能够演化出某种智能,它不解决这个问题,它address这个market,它的它的它的target的这个市场就跟language完全不同。
对吧?连续高纬度有噪音的信号,这是vision要解决的问题。第二,从做vision第一天起,从我我刚刚说我的第一篇paper DSN或者had这个HED开始啊,我就知道,或者说我就有这样的一个bet吧,就是vision其实最重要的事情就是要学会这种层次化的表征,就hierarchical representation,这件事情是非常非常重要的。
如果你的表征没有层次的话,你是没有办法去解决这个世界上很多很多的问题的。啊,层次化的过程就是一个抽象化的过程。抽象化的过程就是一个所谓的泛化的过程,是一个generalization的过程。嗯,这件事情跟language model又很不一样,因为language model是纯粹在语义的空间里面去思考这个问题的。
所以,呃,当然还有一些其他特点,比如说我说 vision as perspective,呃,比如说我想想,它又是呃这种大规模的并行化。我们现在能看到很多很多的东西,我们大脑的皮层有很多地方在 fire,对吧?然后我们在并行的处理很多很多的不同的 object,以及它们的呃因果规律,然后 intuitive physics 它们的物理变化。
这些事情是在不同的对时间,然后在不同的空间,都都都在同时发生的。然后我们能够有一个方式,能够 capture 所有的这些变化。我觉得这件事情也是视觉的一个很重要的一个特性。嗯,然后最后可能还有一个就是某种。啊,嗯嗯,我不知道应该怎么样去 define 这件事情,某种某种某种特征的共享吧。哦,这件事情意思是说,呃,比如说我看到就这件事情涉及到的。
呃,语义的部分,或者或者真正的 understanding 部分,可能会会更多一点。就是说,我现在看到一个小孩画的一只狗啊,和一只动画片里面的卡通狗,和一只真实世界里到处跑的狗,对吧?然后我是怎么把所有的这些不同的 view 的这种 entity 能够 connect together?对吧?让我们有构建这种抽象的认知,说,哎,他们都是狗,对吧?
虽然他们千差万别,在在在这种呃,you know data的角度上面,他们他们差的太远,每个pixel都没有可比性。所以,所以我想说的是,呃,Vincent要解决可能会有更多了。我这个我其实也没有仔细想过,对,反正他会有一些这样的共性,这些特点。对吧?层次化结构,然后这种 continuous
domain 的模型,呃, con continuous domain 的 modeling,然后还有这种呃,这种这种呃,大规模的并行和大规模的共享,啊,我觉得这些事情。
都是智能体的一部分。这件事情不能够简简单单把它们归约为只是一个computer vision system要解决的一小块问题。嗯,对。所以这是为什么我会觉得computer vision这件事情啊,我觉得,我觉得,我觉得,虽然现在越来越少的人去做这个方向了啊,学生也越来越少,申请的学生也越来越少,大家在本科时候选择的这个方向的时候也越来越不愿意选择,对吧?
一个一个名校的computer vision。啊,呃,然后,然后,然后,然后,Faculty招人的时候,也是我们可能也越来越少的招一个做纯粹的computer
vision的老师啊。但我觉得这件事情是,就是如果你认为计算机视觉是一个perspective的话,呃,我觉得这件事情是一个智能的本质。你看,过去这几年,Chat G P T来了之后,C V以前其实是嗯人工智能一个非常中心占据一个非常中心的位置。
当然,这是在你就入行之后发生的。呃,这几年L L M兴起了,C V被退回到一个比较边缘的位置。在这个过程中,你觉得你们这些人沮丧吗?呃。我觉得我不沮丧啊,我觉得完全不沮丧。我觉得像我说的,我要感谢这个L M对啊,没有M的话,Vision也没办法拓展到现在这种真正的多模态智能的这样一个大的Scope啊。
就其实,在视觉的发展史在看来,其实也也有两根轴你可以画。这根轴是说,在古早时期,对吧?在最 early 的 stage,计算机视觉所要 handle
的事情,永远是这些最单一、最具体、最简单的任务。比如说,Amnist的数字识别,对吧?一二三四,我要把它显显显显示出来,它到底是数字几?然后到后面有一些小的数据集,像C4R这样的数据啊,是一个三十二乘三十二的像素上面的十十分类的问题,是猫是狗是汽车是飞机。
然后再到后面,呃,像有 ImageNet 这样的 dataset 出现,它变成了一个在二五六乘二五六的这种这种 level,然后啊做 classification 的问题,对吧?呃,但这些时候还还比较相对来说比较可控。然后再到后面会有。啊,detection segmentation,啊,就是这种更结构化的这种这种认知的过程。
对,然后这些是 conversation,然后再到后面,对吧?这根轴继续往前推演,就会到比如说这种 multi model,或者什么什么 model 的兴起。当因为多模态的介入,我们可可以很容易的放弃很多这些具体的、比较比较比较固化的这种这种 task design,这种任务的 design,然后去,那我现在就可以拿着一张图问各种各样的问题。
啊,Suppose以这件事情语言作为一个很好的interface,它是可以或者语言作为一种很好的界面,它是可以去帮你解决很多很多问题的。对吧?所以你可以看到这个这个时间呃这个轴这这根轴呃是从task从简单到复杂的的这样一根轴。但也是一个语言开始慢慢介入到 computer vision 的一根轴,对吗?
这里面会有两个问题。第一件事情是,语言介入到 vision 之后,带给我们巨大的好处,让我们可以很自由的定义问题,我们可以问任何事情,然后我们可以得到任何答案。嗯。但第二个很重要的风险在于语言的介入导致啊,你的你对语言的依赖也也也也变多了,嗯,所以导致所谓很多多模态的时候,这些任务其实跟语跟跟视觉没有什么关系,纯粹是一个语言的问题,嗯。
啊,然后从这这个角度来讲,呃,那我当然是觉得对,哎,vision好像变得边缘化,嗯,对吧?但我当然不会觉得沮丧,沮丧,我会觉得这是一个巨大的机会。因为等到最后,就是如果你现在解决的问题比较简单的时候,那无所谓,你用语言能解决的问题,你就用语言去解决就好了,对吧?呃,虽然我没有看到,我没有办法做所谓的
grounding,啊,就我没有办法知道你描述给我的这个红色的苹果到底什么什么叫做红色,到底什么叫做苹果。
但三胞通过这种啊统计信息在语言里面,我还是能够去完成一些决策的任务啊。这件事情无可厚非,我觉得没有问题。但这里面暗藏了巨大的机会,是说等到真的有一天。我们需要去 deal with 这种真实世界里面真实的 task,去 build 某种真实的 intelligence,啊,那现在这种不够完美的这种这种视觉的表征,就会是一个重大的缺陷。
哦,嗯,所以杨立昆的说法是,现在大家都是只是拄着拐杖,这个拐杖就是语言模型本身,对吧?虽然你可以走走路,然后你会觉得,哎,我还走得挺好的,但是你可能跑不起来,你也没有办法去参加这个奥运会,对,因为你有一根腿,这部分是所谓视觉的表征的这一根腿啊,现在还是还是还是还是还是不够好。为什么你说是真实的 intelligence?
LLM 为什么不是真实的 intelligence?因为我觉得 LLM 是网, LLM 是。虚拟的 intelligence,然后 L M,但是我们的智商,所谓的智智力,不也是虚拟虚拟的吗?哦,我觉得可能“虚拟”这个词不对。我定义的真实是说,是跟真实的世界要发生交互的。对,这个意思是什么?就是说,你看现在 L M 能解决的很好的这些问题。
大部分还是在 digital space 发生的,嗯嗯,比如说,呃,它能够记忆下来所有的这些 factual knowledge,它可以去知道,对吧?我们我们可以把所有的 Wikipedia 的这些 article 全都存在里面,可以告诉我们想知道一切。它可以做很好的这种法律顾问啊,它可以去,甚至可以去帮忙去总结知识,然后去做 education,去做教育。
啊,大量的这些这些东西,对吧?然后我觉得L M,呃,当然是是革命性的。但是这件事情跟我刚刚说的 vision as perspective 要解决的问题,其实完全不是一个市场。就就是就是就是,如果你现在要 handle 的东西是 continuous space high dimensional
noisy 的这种 domain 的话,那这些机器人这些 space 不只是机器人,by the way,机器人是其中一个很好的例子。
我等下会说啊,这些事情很难被 tokenized。他们已经脱离了这个这个 virtual space,脱离了这个 digital space,对吧?这件事情涉及到什么样的 task 呢?你说非常对,我觉得机器人是一个。也会有很多的这些啊,
industrial的application,对吧?industrial的process的control,就是说一些呃,所有的这些涉及到sensory modeling的这些信号,就是说你有一个呃,有有很多不同的这种sensor,对吧?
这种传感器,然后它会感知到这个世界里面在发生什么事情,然后你现在要有一个统一的算法去去model这个environment,这个system。使得你在去啊 perform一个action或者intervention,就是说你在你在你在有一个动作或者你有介入的时候,你能够去预测出来这个系统接接下来会发生怎么样的变化,这件事情是LM很难做到。
嗯嘛,然后这件事情,你说你说非常对,我觉得在我看起来,其实是有两个极端,一个极端是L M,呃。非常擅长在数字化空间里面做很多很多的事情啊,并且非常擅长通过用 coding 这样的 interface,对吧?通过 agent 的方式去介入到我们的物理生活呃之中,这件事也会发生,也没有问题啊。但总归是它,是基于一个离散的 token token 的这样的一个一个一个一个一个 position 啊。
最右边是 robotics。但这个 robotics 不是简单的 robotics,这个 robotics 是真必须得要是真真正的 general purpose robotics。就它能够 generalize 到,就是泛化到一一定程度,使得它能够做人能做到的一切。嗯,它有自己的一套决策系统,然后它有自己的一个自己的大脑。
嗯,然后我现在感觉就是说,这这两集对吧?然后然后从 L M 怎么样一步一步推演到这个 robotics,哦,我觉得这才是计算机视觉啊,或者说在新的时代下面。视觉智能所要解决的问题,对,然后我觉,我觉得这件事情也是多模态的未来。嗯嗯,因为很明显,现在 robotics 呃不还不 work 啊。然后我我经常跟学生说,或者跟我身边的人也说,其实呃,我最想做到的事情是。
通过不做 robotics 的呃这个这个方式去解决 robotics 的问题,为什么呀?嗯,因为你觉得 robotics 的方式解决不了 robotics 的问题吗?倒也不是,因为我觉得我们每个人就我觉得 robotics 进展也太快了,对吧?现在这个春晚上面这些语数什么的,对我觉得我觉得都都令人有点瞠目结舌啊。
但另一方面,我觉得还是要有人 focus 在预训练的部分。就是所谓的这种机器人大脑到底是什么?嗯啊,或者这个大脑包含了你的视觉系统,对吧?在控制的部分,在硬件的部分,这部分又是说兄弟爬山各自努力。我觉得我不需要去啊过早的介入。硬件,然后去去做这些事情。对我觉得现在有 fundamental 的 research 的问题,在软件层面没有解决,在这种大脑的构建上面没有解决。
我们需要先专心把这一部分解决好。当然,这里面很多人会 argue 说,你必须得要有一个。啊,相当于一个闭环,你要有某种合作的方式,你要在你的机器人上面去做验证啊,不然的话,你现在build的某一个算法、某一个模型可能用不上。嗯,啊,这件事情我也完全认同,但我觉得这件事情可以通过某种partnership的方式。
对我只是不想。啊,这个买回来,呃,我我我也没钱,我也买不了那么多机器人。机器人也有自己的硬件的scaling law,by the way,就你是需要买很多的机器人,才能做好一个硬件的,嗯。对我想focus在大脑的部分,然后我觉得这件事情是计算机视觉需要解决的问题,是表征学习需要解决的问题,也是啊,我觉得到最后世界模型要解决的问题。
你看凯明那么早就开始想,就是要大大大,嗯,为什么LLM的scaling law比CV要早那么多?呃,好问题。对我觉得,首先不能说早那么多,因为CV现在没有一个scaling up。对吧?然后其实之前我我是我们都很绝望的。我说,哎呀,这个 vision 怎么始终没有这样一个 scaling?啊,现在可能还行。
现在比如说这些 video diffusion 有一定的 scaling behavior,就所谓 scaling 是你能把数据吃下来,对。然后你能够能够你能你能够得到更好的结果,对吧?啊,或者说或者说这个更形形式化的刻画就是说你 scaling 就是说你现在如果有一个 transformer system。
那我现在满足这个 C 等于 six and D 的这样一个配比,就是说你的、你的、你的 compute 基本上等于你的六倍的、你的、你的 tokens 和你的、你的 number parameters 的乘积。呃,然后我我我想我想借用这个这个这个这个这个形式化的定义来说这件事情,是因为我现在觉得越来越觉得vision不需要要skin了哦。
那为什么?因为again,vision care的事情。跟 language care 的事情完全不同。我的一个不能说暴论吧,但是是一个观点,长期的观点,并且有很多做 NLP 的人其实都认同这个观点,就是说 language model 其实不是一个自监督学习的过程,哦,它其实是一个 strongly supervised learning 的过程,就是说它是一个强监督的过程。
这件事情看你怎么看,什么叫做有监督或者没有监督?对,就是这里面的逻辑是这样的。通常呀,我们讲说你有没有外部的这种 annotation、外部的 label,这件事情决定了你是自监督还是还是还是这个还是这个强监督学习,对吧?但语言这个东西太特例了。什么是语言?语言是人在过去这么几千年的
civilization,然后经过不断的演化,然后在不管是社会学的意义上,还是每一个人单独的个体的意义上,然后 processed 所有的关于这个世界的一切,然后以一个啊 tokenize 的方式把它存储下来。
恰好我们有了一个东西叫互联网。然后我们把这些 knowledge 全都全都 upload 到了互联网上面去,所以恰好对于所有的 L M 的 researcher 来说,这件事情是 for free。但一个东西免费不代表它没有 label 啊。那一个一个问题就是说,假设我们现在没有互联网,那你现在要训训练语言模型,你还能做得到吗?
把书,训进去啊,是的。或者说,假设你没有书,对吧?是的, exactly 就是这种这种 knowledge 的 upload 这件事情本身是一个 supervision construction 的过程。对吧?所以这件事情跟视觉是不一样的,所以有点像language。呃,想要解决问题,始终停留在这个target的这个y space。
就我们通常讲,你有一个x到一个y的一个映射,是所有的机器学习。你可以通过某种不管这个x跟y在哪在哪里,反正你可以去去这么去定义这个问题。然后y通常大家讲讲是supervision是label,然后x是你的数据,对吧?嗯,你可以认为。这个这个这个这个这个 language model 其实只在刻画这个
y space 上面的事情,嗯哦,嗯,但这件事情是,对,回到刚刚问题,就是说这件事情其实不足以代代表啊这个世界的全部,有很多东西你是没有办法去通过语言去去描述跟刻画的。
或者说这件事情既是 language 的好处,也是 language 可能最后像我说的可能会逐渐凋零,或者说 L M 不会作为这个整个世界模型的根基的一个原因啊。原因是就是它的好处是这件事情你不需要做任何事情就可以跟。人有某种对齐,因为你写下来的每一句话、每一个文字都是人写的,都是人写的,嗯,对吧?
你写下这件事情,就是language是什么?language是一个communication的图,language不是一个思考的图,language甚至不是一个decision making的图,它是一个communication,其实它是一个交流的工具。嗯,所以如果它是一个交流的工具的话,你总要 make 一些 trade off,你总要牺牲掉一些东西,对吧?
所以啊,然后然后我觉得,我觉得,呃,我我我我想说的事情,主要是,对它作为交流的工具,嗯,跟人对齐的很好。但另一方面,他也失去了很多本来他呃就是一个一个智能系统应该去模model的东西,嗯,对,比如说我们现在说我有我有我有一杯呃我有一个杯子掉在地上碎了,哦,其实这是一个语言。那我们之所以这么说,是因为这就是我们对最适合我们沟通的一个一个东西。
我们只在乎这个事情的结果和状态,对吧?嗯,我们不在乎一个杯子掉到地上它到底是怎么碎的,对吧?它满足哪些这种这种物理定律?它背后的这种动力学规律到底是怎么样?对,那它 dynamics 到底是怎么样?这些事情我们都不 care,对。所以我觉得这也是它的一个局限。嗯,LLM的人会抱怨说,加入视觉以后,有可能会影响他们的智商。
啊?为啥?真的吗?对他希望,嗯,像杨志林就是说,加入多模态,他们希望不要是一个傻的多模态。哦,是我同意,当然不应该用一个傻的多模态啊。但或者我觉得是,如果不加入视觉啊,你一定会很傻。哦,然后,但我觉得这件事情其实问题的根本在于,到底怎么定义聪明和傻?对,就是对智能智能的定义是不一样的。对,智能定义是不一样的。
然后,或者说,到底怎么去定义什么是一个简单的任务,什么是一个难的任务?嗯,在过去的几十年的时间里,所有的这些人工智能的researcher会不断的去撞到这个这个所谓的这个Marovic
Paradox这个Marovic悖论上。哦,这个悖论说的事情是说你的。对,对于对于机器简单的事情啊,或者说,呃,the easy problems hard,the hard problems
easy,呃,这是一个悖论,就是说,对于机器简单的事情来说,对人其实是难的;对于机器难的事情来说,对人其实是简单的。
你在NYU好像还有几篇工作,呃,对,我觉得从Vista开始,哦,呃,Vista其实只是只是一个工作,我觉得蛮有意思,可以讲一下,因为我们是第一次觉得想要在一个multi-model system里面去building一个system two,所谓的这种。呃,可以去啊,在 test time 做做做
scaling 的这样一个一个一个模型,就是说我们我们看我们周围的世界的时候,比如我现在要问你一个问题,对吧?
啊,这个比如说比如说你周围的这个哎旁边有个垃圾桶是什么颜色的啊?你不会直接像语言模型一样直接告诉我一个答案。你一定会去先去想一想,哎,哪里有这个垃圾桶?你可能会回下头,哎,发现哦,那有一个冰箱,也许这个垃圾桶在冰箱旁边,嗯。然后你会 localize 这个物体,然后找到这个物体,对吧?然后告诉我一个答案。
所以你是有这个 visual 的推理在这儿,对吧?某种视觉推理在这儿的。然后这件事情完全是一个推理过程中的一个 behavior。对吧?然后,然后,然后这件事情,呃,我们当初就做这样一个系统。然后这也是,呃,比比如说,就是在在这个ChatGPT One之前,很长很长一段时间,对,至少隔了几个月吧。然后我们开始做这件事儿的。
嗯,对。啊,那时候这种test time scaling还完全不是一个buzzword,还nobody you know was talking about this。OK,对吧?啊,然后我觉得这件事情可以聊,是因为这件事情其实对于我来说,其实是一个鼓舞。啊,我觉得它既是一个呃,我觉得它是一个
bitter sweet 的这么一个 lesson 吧,就是说它苦苦涩的一点在于啊,我先跟你讲发生了什么,就是说我们有这个 paper 之后,我们有了自己的一个 benchmark。
然后我们找了,就是我有我有两个朋友,这个 Alex Alex Kirilov,他也是这个 Sam 的这个作者,然后还有博文,他俩在 OpenAI 工作,嗯,所以我跟他们聊了很很很长很长的时间。我们告诉他,我们这个工作做了什么事情,我们这个 benchmark 现在在这儿,你可以拿去玩一玩,并且我也讲讲了一些关于这里面背后的逻辑,对吧?
就是说你怎么样能够去做这种 visual thinking。然后后来啊,Alex和Boon就Drive在Open里面Drive这个project,这个project就叫Think with Image啊。然后后来隔了大概可能一年多的时间,对吧?然后这个product launch,嗯,然后这个product launch之后就叫Think with Image。
然后里面呃,其实很多example或者他们benchmark其实就是我们这个paper的benchmark哦哦。所以我觉得他让我觉得很幸福的一点在于,这是第一次我觉得,哎,我们其实可以有办法真的走一条不一样的道路。这件事情可以 somehow 启发在 OpenAI 的 researcher 去 improve 他们自己的模型。
嗯嗯,我觉得这件事情。至少我觉得在学校里面有事情可以做,嗯。但另一方面,呃,又比较比较 bitter,是因为这个这个,你像在那个时候 Open I 对吧?在骚二的时候,我 D D I T 之所以大家能够去接受,也是因为 D I T,呃,会会在骚二的这个 blog post 里面会被 cite,然后或者说 Bill 的名字在上面,让大家能够去找到这个逻辑和背后的线索,嗯,对吧?
但很不幸,我觉得慢慢,啊,最近的几年时间里面,其实, industrial的这些research lab变得越来越close。所以一开始大家发论文,后来大家不能发论文了,可以写一些 blog post,但可以加一些 citation,也可以把每个 team member 的名字写在上面啊。再到后面啊,可以发一个 blog post,但已经不能有署名了啊,只能有一个,对吧?
OpenAI team 或者 Gemini team 啊,就结束了。所以我觉得这件事情,呃,会导致我不知道接下来的这种本来可以很良性的。学术界跟工业界的这种交流的这种渠道,嗯,是不是会被打断,对吧?就我们。做 research 本质上还是一个为爱发电的过程啊!就我们为了探究这些问题,我们也不是为了真的它能够 deliver 什么产品或者赚多少钱。
但另一方面,呃,某种 credit assignment 就是让大家知道谁做了什么事情。我觉得这是在过去的几十年里支撑学术界能够往前走的一个一一个一个一个一个一个机制。嗯,但现在这个机制慢慢被啊被被 IAM啊,这一代的对模型以及这一代模型背后的这种组织结构,我觉得慢慢打破了,它变成商业竞争了,它变成了一种商业竞争。
嗯,是的。对,然后对,然后 quickly conclude一下,我觉得还有两篇,我觉得我想迅速提一句的这个这个论文,就是说,嗯,这个REPA啊,REPA。这个东西叫做 representation alignment。你看,又有一个 keyword representation,所以这是我为什么非常喜欢这篇论文。
但这篇论文也是经历了这么长时间,然后。所有过去的这些工作以以一种奇怪的方式组合到了一起啊,形成了某种化学反应,嗯,然后开启了至少啊一个小的这个research的domain吧,对,然后做的事情很简单,它本质上是一个deeply supervised nets,就是说你现在一个模型不只有最上面有一个diffusion的loss,就是你final的objective。
你中间还会拉出来一些其他的这些 objective,你可以有其他 objective。我们用的这个 objective 是说,我希望能够让我的一个 diffusion model,它是一个生成模型。By the way。让它的 internal representation 能够跟外面的一个自监督的一个模型的 representation 能够 align 到一起。
嗯嗯,就这里面 again 讲的事情是说,表征是最重要的事情。它不但对像 Cambrin One 这样的 system 做 multimodal understanding 重要,它对一个生成模型生成图片、生成视频也很重要。对,所以啊,这件事情我觉得是一个对我来说一个蛮大的启发,但这件事情还没有做到位啊。
你就是说,哎,我为什么要用这种 D P super supervision 的方式,一个非常间接的方式去做 alignment 呢?呃,What if 对吧?呃,能不能直接用这种很强的这种 representation?作为你的生成模型的一个一个一个encoder,或者说作为它的一个foundation,嗯,对吧?
然后这件事情又是再往前推了一步啊,我们也得到了很好的结果。这个paper叫做R E Representation Autoencoder,对它也涉及到表征。哦,也涉及到 auto encoder,但 anyway,啊,这件里面你这这件事情里面的逻辑,我觉得啊, again,我不想说太多的这个
paper 的 detail,但我觉得有一有一件事情,呃,这个马伊老师当初我去香港访的时候,我觉得他说的非常非常对。
他说:“有有学生就会问说,哎,你这样做这件事情,对吧?你的auto encoder,你的表征层现在会变得非常高维,因为它是一个表征了,它不是原始的。”简单的这种pixel的representation也不是一个低维的vae的这样一个representation,它是一个高维的表征。你想要在这个高维的表征上面去做去噪、去生成图像。
这件事情其实是一个很难的事情,对吧?然后有学生当初就提问说:“啊,这个维度太高了,可能不一定是件好事儿啊。然后可能会让我们的学习系统变得更复杂,或者说训练更难啊。”首先,我们的结果啊,完全是相反的结论。但是马伊老师就很激动,他站出来说:“说我要告诉,语重心长的告诉大家,说你们一定不能害怕高纬度。”啊,高维度是所有机器学习里面非常非常重要的一个一个基石啊。
呃,包括不管是之前的所谓的这种核学习的方式,kernel method,还是现在为什么一个 transformer 里面我们得要有这种 up projection layer,对吧?你要有一个呃 d维的向量进来,然后把它变成一个呃四倍的四倍宽的这样一个一个一个一个 fully connected layer,对。
然后然后所有这些事情都是在讲述这样如下的事实,就是说你在一个高维的空间里面。很多问题原来在低维空间里面解不了,现在可以解;很多问题、很多信息原来在低维空间里面没有,现在可以有。哦,然后你也会有更好的efficiency啊。然后这是这是传统机器学习理论为什么你要做升维之后,使得事情使得你的data points可以变得线性可分。
都是同样的逻辑,但我觉得我我受到很多的鼓舞是说,你不要惧怕高维啊!我觉得这件事情用词很好,嗯,因为很多时候大家会觉得会害怕,对啊,会害怕,不只是高维度的representation表征这件事情,也是害怕逃逸出当前的某种local optimal。就是说,我们现在就我们之前做的很多事情都是为了要跳出这个local optimal所做的。
嗯,像像像V E就是当前这个时代里面的一个local optimal。我们希望用一个表征学习的方式把所有事情串联起来,然后这件事情啊。其实是一个很自然的事情,对吧?然后现在也有很多人做相关的这些论文,有很多同期的工作也都非常好啊。但另一方面,这又是一个没那么自然的事情,因为你需要去跳出原有的框架去做一个新的事儿,对。
但当你能够跳出这个 local optimal 去做一个新的事情的时候,啊,我觉得你你就会感觉你的世界被打开了,因为R E之于我们或者对于我的research来说,我觉得还是一个蛮重要的工作,因为它告诉我一件事情,或者说让我能够去make一个bet啊,或者说我们能够预测一个未来,这个未来是什么?呃,或者对还是不对?
啊,我们可以过几年之后再来看。所以这件事情也跟语言相关,也跟diffusion model,像最近很火的C
Dance、Sora都有关系。嗯,好,我现在的ban的bet是说这件事,这个世界上只有一件事情是重要的,就是怎么学学习到这个表征,这件事情是重要的。当你有一个足够好的表征之后。在上面处理其他的问题都是简单的,你的 language model 会逐渐会退化到一个简单的 communication 的
interface。
它不像现在一样,所有的这些多模态的智能都是通过大语言模型驱动的。你的表征层只是提供一些简简单单的一点点 context 进去,嗯,对吧?大部分的这些所谓的 heavy lifting,就是这些脏活累活,都是靠大语言模型来做到的,嗯。我要make的这个bet是说,未来事情不会这样,未来你会有一个很好的foundation,嗯,它是一个很好的好很好的表征,但它也是一个很好的世界模型。
嗯,然后他什么叫做这个世界模型这件事情,我们可以再聊。但是这个 foundation 本身,它可能不是一个 checkpoint,它有可能是一个 neural modular connected together 的 multiple components 的一个 cognitive architecture。
哎呀,说的好复杂。但本质上就是你的一个大脑,它有不同的区域在判断不同的事情,对吧?语言会慢慢LM层会慢慢退化成这个你的你的本质的这个表征,或者说你的这个世界模型的这个foundation的一个接口。嗯嗯,它还是很重要,它永远不会消失,因为人需要通过一个 large model,要提供呃提出问题,然后回答问题,对吧?
他要去跟他沟通,需要跟他沟通,是一个沟通,它是一个界面,对啊。另外就是说,你还有一条线是说你的 pixel generation 本身,就是你怎么样生成一个图片、一个视频本身这件事情,通过 RE,通过 RPA,我们之前一系列的这些工作可以看到。它也需要基于一个足够好的这样一个表征的基础啊,或者说你可以认为它它是一个世界模型,呃,again,在我这里面,在我的定义下。
表征就是一个世界模型最重要最重要的一个一个部分,嗯啊,它不是它的全部,它才是最重要一个部分。但当我们有这样的一个foundation之后,你可以认为我们可以把它轻易的decode成。语言,嗯,对吧?然后我们可以轻易把它 decode 成一个 pixel,然后生成视频。我们也可以把它 decode 成某种 action,某种动作。
所以它可能就是某种现在的这种VLA的类似物,对,但它是基于基于一种更强的表征、更强的世界模型的一个一个架构。现在表征包含哪些部分?语言是其中之一。呃,我觉我觉得是其中之一,对。然后当然这件事情也有争议,就是就是你像你刚刚说,石林可能说他不想让视觉来污染语言。哦,嗯,他们还是会做多模态,但是要想怎么让多模态变成一个聪明的多模态,就不不会让整个大脑的这个智能水平降低。
是的,是的,是的,哎,这件事情,但我要讲了啊,这件事情真的取决于你怎么定义这个问题啊。但我先把前面一句话说完,就是说。哎,呃,这个,这个,这个,这个,你说,你说,比如说语言在其中的这个位置,对吧?我觉得,我觉得我们也会有自己的担心,就是说,语言其实是一个毒药啊,或者语言其实是一个鸦片。你加多语言,你总是会觉得更更幸福的哦,嗯。
那说明它有用啊,这个拐杖。呃,它有用,但它是一个 shortcut。嗯,就如果你你一个人如果一直什么吸鸦片,你就废了啊。然后如果他是一个拐杖,拄着拐的话,你也没有办法训练你的你的大腿的肌肉。嗯,哦,好,这是你跟执林的像两个两个 perspective。对,所以我非常担心语言对于视觉视觉的污染。嗯,哦,这件事情对我来说非常非常担心,而且这件这这个污染已经在发生了。
这个这个污染的发生的状态是这样的,这个污染的发生的状态是整个 large model 有一个巨大的这样一个价值链条,啊,从工业界一步一步传导到学术界。这个价值链条是说我们在最上层有一个 narrative,这个 narrative 是 whatever AGI scaling law, beta lesson, LM。
这些叙事的逻辑,现在的圣经啊,对啊,呃,等一下我们给你讲一下比特拉森,因为我完全不觉得 large language model 是一个啊,这个这个这个比特拉森的一个一个一个一个展展示啊,它 large large language model 其实是反比特拉森的。最后哪些表征会是足够通用的表征?它的终点是什么呢?
啊,终终点我们可以叫做叫做就是世界模型。所以,所以我也许我们可以讨论一下,在我定义下,或者在于这个表征的这个框架下面,世界模型到底是什么意思?什么是世界模型?对,嗯,这也要马上进入到你创业的话题了。哎,我们现在从呃,对,从多模态到世界模型,嗯,对,嗯,是这样,就是严格定义上来讲,世界模型就是说你现在。
给定一个系统或者一个环境的状态,好,嗯,呃,这个这个环境状态可能就是,比如说,呃,你可以认为它是在当前时刻的一个状态,但世界模型也不一定只是做所谓的 temporal 上 prediction。那我们先不管这些事情,总之是你现在有一个系统或者一个环境,你有一个状态 s t,对吧?然后你有一一个
intervention 或者 action,比如说我们叫的 a t,在当前时刻,你对这个系系统施加一个动作。
你现在希望能够学到一个 predictive function 啊,或者 trans transition function 啊 f,使得它能够 take 你的 action 跟你当前的 c 呃这个 state 这个环境 state 能够去 predict 下一个 state。对吧?就是下一个时刻的state。
嗯,所以这是最基础的一个general的这种这种啊世界模型的一个一个定义。然后这个定义本身其实又无比的直接,或者说甚至有点trivial,因为这件事情不是一个新的概念。啊,因为其实一九四三年的时候,有一个呃,这个生理学家吧,叫呃Kenneth
Craik,嗯啊,他第一次提出了这个概念,他就说人在脑子里面是有这样一个世界模型的,这个世界模型能够告诉我们,当我们去做某一个动作的时候,接下来会发生什么样的后果。
嗯,我们因为能够预测我们的动作,我们的action带来的后果。所以这件事情能够指导我们到底应该去 take 什么样的 action,嗯,和做什么样的决策。我如如果我知道我把手伸到火堆里面。我会疼,我就不会,对吧?把我的手伸到火堆里面啊!这件事情,这种 prediction
的这种结构。啊,其实也是过去,呃,包括 control theory 啊,这个在六七十年代,然后大家怎么样把一个一个一个这个月球探测器送到月球,或者送送到送到什么地方,对吧?
然后然后其实大家也需要基于这样的控制系统啊,比如说一个经典的算法叫做 model predictive control。这里面也涉及到一个 model,但这个 model 其实也就是某种 word model,啊,这个算法其实也非常非常简单,就是说你现在需要讨论我到底应该施加哪一个 control signal。
给这个系统,使得它能够去完成我既定的一个一个任务,嗯,对吧?然后,那我要做的事情是说,我在当前的时刻,通过我的模型去 roll out,去去去滚动输出接下来的呃一呃这个这个 kick start 的 action,一个 action 的 sequence。就是说,我现在要要输出我接下来的一个一个
action sequence 动作的一个序列,然后我要通过这个动作的序列,用我的这个 model 去得到下一个时态,或者说每一个 step 上面一个 state。
然后最后我就会有一个呃某种cost的function,一个度量函数,嗯,然后告诉我我执行了这个动作序列之后,我离我最后的这个目标距离到底有多远。哦,所以这个算法就非常简单,就是说你不断的去 sample 你的 action sequence,然后跳回到第一步,就是说,然后找到找到这个这个 cost 最低的这个 action sequence,执行它的第一步,然后重复迭代的去做这个动作。
对吧?再再roll out下一步的action sequence,对,所以在每一次你都要做一个决策,然后这个决策的来源都基于你对未来的这个这个预测,嗯,对,这是所谓在这个model predict control里面,大家怎么去用这个world model,然后再到后面,比如说在model
based RL里面,reinforcement reinforcement learning里面,其实大家也意识到说,一个world model其实是非常重要的。
哦,然后所以这里面有一个经典的论文是 Dyna D Y N A,这个 paper 其实是 Rich Sutton 的 paper。哦,对,所以 Rich Sutton 自己写了这样一个 paper,然后他讲了呃一个很很有趣的观点或者一个
frameer,他讲其实人的智能。体系可能可能可以分两种,一种叫做reactive的policy啊,一种可能叫做啊某种更智能化的model-based policy,对吧?
这件事情其实呃这个类比是是这个所谓的system one system two这种analogy。对吧?就 human cognition 也有所谓的 thinking fast, thinking slow,对吧?就是对于很难的问题,我们可能要需要更多的 mental cycle,然后去去 study 这些问题。
嗯,啊,但对于一些问题来说,我平时或者说我们开车,对吧?我刚学开车的时候紧张的不得了,我左看右看,啊,然后需要做很多的决策。当你真正会了开车之后,你就会把这些决策内化成为你你自己肌肉记忆的一部分,它就变成一个 reactive 的 policy,对吧?所以 Rich Sutton 在 Dyna 的 paper 里面说了一个很有趣的事情,他说,呃。
What is reinforcement learning? Reinforcement learning 是一个非常 primitive,是一个非常基础的、没有模型的、没有这个世界模型的一个 learning 的 algorithm。啊,所以 Richard Sutton
自己其实也是有点反。Pure reinforcement learning,至少在当初的那个时间,在他的这个paper里面,他讲一个更好的一个系统,当然是说,如果你有一个足够强的这个这个世界模型,你可以基于当前state去预测下一个state。
对吧?那这件事情你就有这种所谓的 planning 的 capability 在里面了,就是 planning 就是所谓做计划的能力,嗯啊,然后 planning 其实跟 reasoning 也在某种意义上也是同样的概念。reasoning 现在在 large language model
很火,但事实上,呃,我们需要的这种 planning,然后以及这个 planning 对于 decision making 的这种意义,其实是在当初很早很早,在 control theory、 reinforcement learning,其实大家都在讨论的。
所以我觉得这是一个 world model 历历史,所以所以如果从这个角度出发,world model 的实质。是怎么样去刻画一个系统和一个环境,使得你能够在这个系统里面去做预测,并且这个预测能够指导你的、你的、你的、你的、你的 action 的 sequence,嗯,以及你的自己的决策。大语言模型是 predict next word,这个是 predict next action。
嗯,其实是是基于这个 action predict next state,对。怎么理解state?呃,state是呃最少的信息可以描述一个系统的所有所有状态的这么样一个。一个一一个一个一个信息的啊来源吧,可以这么认为啊,就是一个state是说啊。呃,比如说我对这件事情也涉及到一个很有趣的事情啊,呃,很很有趣的另外一个一个事情,我们都要讨论,就是这件事情跟表征的关系到底是啥?
嗯,对吧?呃,我们为什么说是一个最小信息的一个刻画单元呢?是因为假设我们现在就是说我们现在这个物理世界,对吧?呃,我就说我地球吧,啊,或者我先不说那么远,我们先说我们这个屋子,对吧?这也是一个环境了,对吧?那刻画这个环境的state是什么?对吧?这个state,如果你不追求这种所谓的最小信息啊,或者或者minimal
description length,那它就是可以是,比如说我们现在把整个的这个space全都重建起来。
对吧?然后我们精细的去刻画,呃,这个系统里面的所有的参数,包括这个桌子上的纹理,包括我们声波,对吧?包括啊,我们我们我们我们这个桌子的质量,这个话筒的这种各种各样的physical的这种parameters,嗯,但我们不会这样去刻画这个系统的,对吧?因为很多这些信息对于我们的角色来说不重要。对吗?因为因为其实,如果假设我们现在一个智能体活在这儿的目的是,我们现在要要聊天啊,嗯,那我只需要知知道一些基本的这些事实就够了。
比如说,我的这个话筒可以,呃,在这个桌子上可以放住,然后我我不会去关心每一点的这个光照。也不会关心这个桌上每每每一个细节的纹理,嗯,对吧?这些事情都不重要,所以这个state,其实啊。包可以包含很多很多的信息,也可以包含 enough 信息,就是足够多的信息。这件事情是取决于你要解决什么样的任务的。
那这件事情是什么?就是怎么样去去构建这样的一个state呢?这件事情其实也跟表征学习是直接相连的。嗯啊,表征学习像像我刚刚说的,对吧?我们要有一个层次化的这种表征,啊,这种层次化、海龟式的representation,其实目的就是说,我们怎么样能够去慢慢develop出来这种一层又一层迭代上去,然后越来越抽象。
越来越对我的 decision making 越有意义、越有价值的这样的 representation,嗯啊,它不会精细到每一点,它不会精细到每一点我们当然可以去从一个最 low level 的角度出发,我们可以说,哎,这个呃每平方每立方厘米可能有十的十十几个次方的这种分子,然后我们去 model 每一个分子的碰撞,对吧?
然后然后我们我们通过这种方式来去刻画我们这个系统,嗯啊,这件事情当然不不会 work,这是 totally stupid way,对吧?我们做的事情是说,我们怎么样去能够在统计的意义上去 study 这个问题啊?所以这才有所谓的流体力学,然后才会有所谓的这个呃 Navier-Stokes 方程,然后一系列这样的设定,对吧?
大家变得越来越抽象啊,然后,然后,但是我们能够去。这个刻画的世界也越来越广阔。嗯,其实语言就是以某种意义上的抽象。语语言是某种意义上的抽象,但是它是一种就是已经被证实过的抽象,它是高度凝练的,就是它它是一个已经存在的抽象。它是一个存在的抽象。对。那你你们现在想构建的是一个新的抽象,在语言之外。它是一个。
对他,他他是一个有点,啊,他一定是一个 latent representation,嗯,对。然后这件事情,人可以通过侧面的方式了解到你到底学了什么样的一个 representation,或者说哪些 representation 的,呃,哪哪些 representation 是有意义的。这件事情都没有问题,它不是一个完全的黑盒子,但它不是一个受限于语言的句法跟逻辑的这样一个东西。
这是我为什么说 LM 完全不够 beat lesson。嗯嗯,就Beta Lesson是说,你应该尽可能的减少Human Knowledge,对吧?把你的这种所谓的啊人类的傲慢、人类的傲慢和和他和和和他所谓的这种自大,呃,这种这种傲慢和他的所谓的这种聪明才智啊,呃,以及这些所谓的比较Claver的这种Structure,尽可能减少,然后尽可能的多用。
Search跟learning的方式去找寻答案,对吧?但你可以想象,如果现在我们讨论的是怎么样去、去、去刻画这个世界的话,啊,语言就是这样一种structure。语言是一个人类极其聪明的一个产物,嗯,它有精巧的设计,对,我觉得它本身就是,它都不是多和少的问题,它全都是,它都是,对,嗯,所以,嗯,所,所,所以,我觉得这件事情。
代表着这种语言,它有它自己很强的地方,嗯,而且它一定会在未来的智能所有的这种智能体系里面占据一个很重要很重要的地位,而且它可以COT,嗯,但COT是另外一回事了,COT也是另外一个呃,我觉得怎么讲呢,是一个阶段性的产物吧,对。哦,C O T也是阶段性的产物。对,L M的所有的一切都是一个蛮阶段性的产物。
哦,这也是为什么L M就这件事情,我也蛮同意一样的。就是L M这件事情,其实它也不controllable,它也不safe,因为它没有这样一个真正的世界模型。甚至我们把L M当做一个世界模型在用,但它是一个fundamentally flawed,就是一个有缺陷的世界模型。对,然后呃,这件事情是说,其实就是说,嗯,现在的所有的这些 controllability 或者 safety,对吧?
你一个 LM 怎么去做这个,完全是通过 fine tuning 的方式来来设计的,来实现的,对吧?你需要喂给他大量的数据,让他知道什么事情该做,什么事情不该做,或者他不能做事情,什么话能说,什么话不能说。对吧?什么什么样的话可能会带来危险?什么样的话啊,可能是是比较友好。所以这叫做 alignment。
但所有这一切都是基于某种 post training 或者某种 post training 或者 fine tuning 的 alignment 带来的。嗯。对,但真正的世界模型其实你不需要这样做,因为你可以预测你的 action 会 lead to what
consequence,你可以,你可以,你你的你的这个行为会带来什么样的结果,那你就可以在 inference 的 time 呃的过程中去尽量避免这样的行为。
哦,你可以加一些 external constraints,就告诉我说,哎,这件事情你真的不能做。比如说,我有一个机器人拿着一把刀在切菜,对吧?然后我现在怎么样保证我这个机器人拿着刀不会这个向后一转把你砍了呢?这件事情怎么保证?嗯,对于一个 language model 的思路来说,你你你能做到这件事情的方式就是通过喂给他大量的数据。
嗯,对吧?他他得要能看到这些事情,他能世界模型不是吗?世界模型不不一定需要对世界模型。他因为你能够去预知这个结果,就是我能够去,呃,有一个动作,我可以去 understand 我现在这个刀如果转过来,产生了一定危险会造成的结果。你怎么让他知道呢?呃,这就是你的训练的一部分。对,哎,关于世界模型,现在好像它的定义是没有收敛的。
比如说你们定义的世界模型和李飞飞他们团队定义的世界模型的区别是什么呀?呃,对,所以我刚刚阐述的其实都是在我们定义下的世界模型啊。但我觉得现在遇到很多的问题是说这个世界模型不好定义,原因它其实是因为它不是一个技术路线。啊,它不是一个算法,它是一个目的。嗯,就是我们所有人,不管你在做LM还是做什么video
diffusion model,还是做这个Gaussian Spiking,我们所有人都在通往世界模型的道路上。
哦,所以,所以我说,我说,我说,有时候这些竞争,或者说这些这些arguments听起来,我觉得在过不了多久,可能过一到两年时间,都会显得异常可笑,因为,因为我们其实都在往这条路线。发展,然后每个人也都知道这件事情是应该啊有通向呃应该是应该是正确的道路,但只是大家从不同的方向在思考这个问题。那比如说在我们定义下啊,或者说我先说其他人定义吧,对吧?
比如说对于一个video diffusion model的company啊,比如像像像Sora,像这个Bydance的模型,像Genie,对吧?然后所有这些模型,啊,他们啊,包括 Runway 啊,什么这些 Luma,每一个做这种生成模型的公司都在做这件事情,都在 position themselves as a world model company。
对,但他们其实还是主要聚焦在构建一个世界模模型的模拟器上,啊,一个世界的模拟器上,所谓的 world
simulator。嗯,他们的目标还是能够渲染出来足够好看的视频。使得它能够有某种一致性,能够有足够长的这种内容,等等,并且你可以在在上面施加控制,嗯,你可以选择像Gina一样,对吧?向向前走两步,向后走两步,你要保证你有一定的memory或者whatever啊,这这件事情是他们的这种word
word simulator啊,或者说这种生成派的word simulator想要解决的事情。
对,然后呃,菲菲老师那边在 World Labs 里面,我觉得它更像是一个 front end 的一个一个 asset 的一个 interface 啊,这件事情也很重要,因为它是一个强 3D 的 representation。所以这是呃,by the way,也要恭喜他们最近不也刚刚融资成功?如果你可以看到他们融资的这些lead investor,对吧?
他们在和呃讨论的人,比如说我看到新闻,AutoDesk给他们投了两亿美美元,嗯。那Auto Auto Desk是一个什么样的公司,对吧?Auto Desk是一个做3D这种CAD或者whatever design这样一个公司,嗯,是吧?所以在这个场景里面,你需要有一个非常非常具象化的3D的一个一个,你你你可以叫它表征,它也是某种表征,但它是说你这个东西。
不是一个抽象的概念,对吧?它不是藏在你的参数里面,它得要有 explicit 的 3D 的这种这种形式在那儿。这样的话,你才能够在这个空间里面去掌握某种空间智能,你才能够在这个空间里面去探索,并且你能够 one hundred percent 的确定你不会出错。对于一个 world simulator generated world simulator 来说,这件事情,呃,是不一定,对吧?
虽然你可以通过更长的 context 有更好的 memory,但它是它是不能不能保证的。嗯嗯。然后,呃,我们想要做的事情,其实更像是要去打造这样一个 predictive brain。对,就是我们是我们我们我们看到这个问题的核心,还是说怎么样去提升啊智能本身?对,那这意味着你觉得L L M是不智能的?
我觉得again就是L M是这个智能体中的一个至关重要的部分,它是一个,但它不是全部,它不是全部。对我,我再举个例子,比如说为什么L M做世界模型来说它是fundamentally有问题的?比如说我们还是回到视觉这个问题上,对吧?我们现在坐在这里。哦,我们稍微头稍微扭,比如说五度十度,就会生成几百帧。
其实这个frequency是非常非常高的,人的这个这个FPS其实是可以感知到,比如说一百赫兹啊这种频率的变动的,非常非常厉害,对吧?如果按一个L M的方式去处理这个问题,会发生什么呢?嗯,会说至少按现在的这个这个方式去处理,会发生的事情是,我要tokenize每一个frame,我们把它拉平,串成一个非常非常长的序列。
每一帧啊,我可以做一些当 sample 或者没关系 whatever,然后我们把它串起来,对吧?比如说我有二百五十六个 token for one frame,现在可以有三十二个 frame 或者一百二十八个 frame,把它串到一块儿,那你就有二百五十六乘一百二十八这么多个 tokens,嗯,然后你把它塞到 language model 里面,拿它跟语言做对齐,然后最后回答一个问题。
但这件事情 make sense 吗?完全不 make sense。对吗?因为其实你把一个这种世界的这种representation啊,在它的背后。其实是有某种 global 的 state 的,对吧?你把它序列化成了一个非常非常冗余的 token,嗯嗯。然后 transformer 其实大家说它没有什么 inductive bias,它其实还是有一些 inductive bias。
它 inductive bias 就是说它得要 pay equal attention to every single token,哦。那这件事情本身就不合理,对吧?这件事情代表的事情是说语言模型的 modeling 的这个这个 technique。不能够解决对这种连续啊空间信号的这种认知的问题,嗯,这件事情是不成立的,对吧?
所以,所以,所以,这是为什么对于我们我们要build这个世界模型来说,我觉得,呃,需需要具备如下几个特征,对吧?它需要去。去啊,这个能够能够能够去 understand physical world,就这里面的定义是说得要是 physical world,啊,虽然这 world model
application 也会延伸到,比如说这种这种啊 digital agents 去,比如你打游戏的 agent,当然也会 benefit from world model,但啊,我觉得它首要的任务是要解决 physical world understanding 的问题,然后它得要有足够大的
associated memory,the memory 也是一个很重要很重要的,对于这个 world model。
为基础的这样一个系统的中间的一环,嗯,哦,然后它能够 reason,能够 plan,啊,我们刚刚讲 planning,能够能够做这种 counterfactual 或者这种 causal 的这种 inference,也非常非常重要。然后最后一点就是说,它得要足够的controllable and safe,它得是一个安全的系统。
对我觉得所有这些事情,again,这也是我抄样样样的这个这个这个这个说法了啊啊!但我觉得这几点其实还是非常非常精辟的,对,不多不少啊,嗯。它和大语言模型不是衍生关系,是替代关系。呃,我觉我觉得,我觉得,呃,也也不也不叫做替代关系。呃,我为什么刚刚说,其实我们现在领域每个人都在往世界模型发展,呃,往前走呢?
对吧?原因是大语言模型也想往世界模型发展啊。其实不是这个意思,是说。之前没有大语言模型的时候,我们压根谈不了什么世界模型。嗯,你有一个纯粹的RL的system的话,你纯粹是在做overfitting当前environment的事情。Large language model让你具备了一定对这个真实世界的认知的能力。
它构成了一个元素。嗯,它构成一个元素。然后,但这件事情像我说是fundamentally flawed,因为他的这个认知太间接了啊!语言能带给你的东西实在是太少了。嗯,对,而而且而且语言还会有其他的问题,就是它是一个本质上是一个 communication tool。所以我们在使用语言的时候,对吧?
除非你说一些这个对做梦了,说一些说一些梦话啊,大部分时候你你用语言是带着一个 intention 的,你是要传达一个目的的。所以说,L M更像是一个,在我看来,更像是一个 search engine的眼神,对吧?或者 chat box 更像是一个 search engine 的眼神。我们总要带着我们心里面的这个目的去问一个问题,然后 expect 一个答案,嗯。
对吗?然后,但是这件事情不是这个 world model world model 啊的事实,就像说,就像我刚刚说的 world model,我们大脑里面的 world model 是在我们的这个这个 background 做了很多很多的工作的。它甚至就有有很多心理学一些反直觉的认知,就是说,甚至你大脑已经替你做好了这个决定。
啊,在在你决定要,比如说我桌子上有三个按钮,在我知道我到底想要按哪个按钮之前,我已经能够监测出来我的大脑,啊,已经做好了这个决定给你。这件事情,这个这个实验好像叫什么贝贝贝利特实验还是什么?是一个有争议的实验,但但它体现出来的事情是有很多东西是在你的 background,在你大脑里面已经在发生的。
这件事情是你的 word model 一部分,language model 不是这样,language 只是一个 communication tool。你永远带着目的,你永远呃抛出一个问题想得到一个答案。它也是一个推理的 tool。对啊啊,它也是一个推理的 tool。Of course,但只是 symbolic level 的推理的 tool。
所以你们想构建一个像人类的大脑一样的世界模型?我我觉得,我觉得要越来越看看人。嗯,其实不只是人吧,各种各样的动物,它的智能到底是怎么样发生的?对啊,我我先我先cor扣一下我刚刚说那那那段话,就是说,我觉得为什么大家一步一步都在通向通向这个world model呢?原因是。语言模型已经侧面有一点这个
world model 的 behavior 了,虽然它没有 action,它没有一个对真实世界的 understanding,它其实也不能够真正的 reason plan,因为它的它通过 C O T 的这个 planning 还是呃 C O T 的这个 reasoning
还是很不一样,跟我们刚刚描述的,比如说这种 M P C level 的这种 planning 啊,它也会带来它自己一些问题,但这些都 OK。
但再再下一步,你会看到,比如说大家做这些啊。不管 D I T 也好,或者 whatever 模型也好,但大家开始做生成模型,这件事情已经让让让事情变得有些不同了,对吧?嗯,这也是为什么很多人大家做 video generation 会说自己是世界模型,我觉得也无可厚非啊。虽然我我不同意他们做的这个
video generation 模 model 就是一个最后的 end game 的世界模型,但它确实比 language model 要往前推了一步。
对,呃,哎,他是怎么做到的呢?他在 language model 基础上,嗯,我我觉我觉得,就现在所有这些系统其实也是要依赖于 language model 的。对吧?就是它还是要通过 language model 帮你去做 prompt rewriting,然后去帮你去呃当做一个 conditioning,丢给你的这个视视频生成的模型啊。
其实 language model 也会变成了一个,就是你看这个这个历史的进程就很有趣。原来 language model 是主体,现在 language model 变成了一个 video generation model 的前期的一个准备工作啊的一个脚手架。呃,原来 language model 里面你 model 的是 p y,对吧?
你这个 y 就是还是在这种 semantic space 某种 label space 的这个信息。嗯,到现在你 video generation model 时候,你 model 是 p x given y 的概率。这个的意思是说,你现在 model 的东西已经是 x,x 是你的数据本身,你的 y 变成了你的一个条件,嗯,这件事情已经很不一样了,啊,呃,为什么很不一样呢?
是因为。当你有一个 low dimensional 的这个 y space 的时,呃,你在你再去去 model 这样一个分布的时候,啊。你的 probability density 只会在你的 y 的分布下面竞争,就是说,呃呃,你 assigned 这个
likelihood,哎呀,我这个说的有点过于 technical,但是总之是,或者说我们先不说语言模型吧,我们先说,比如说一个一千类分类的这样一个一个模型,你认为这些 label 也是一个语言的前身,对吧?
它也是一个 low dimensional 的一个 vocabulary,嗯,对吧?然后如果你要做这样一个分类的问题的话,那你的所有你需要去做的决策是,我这个东西如果是一只猫,它不能是一只狗,对吧?我这个东西是受限于我的这个 label set 的,嗯。但是,你当你开始 model 的是 p x
given y,你做一个生成模型的时候,这件事情,你 assign 的这个 likelihood 是说,这个世界上到底有哪些现象,哪些东西是更可能存在的?
这个事情就很很不一样了,对吧?因为你现在要学到的东西,你的这个智能的信息量是远远大于你的P Y的modeling的。你需要知道为什么在这个世界上,一只四条腿的猫要比一只三条腿的猫更常见,嗯,对吧?为什么我要生成一个视频?比如说我现在有一个I don't know一个跑步的视频。为什么我有这样一个一个smooth的奔跑的状态,要比突然产生出来一些幻觉,有三条腿、四条腿这样的状态更可信、更可能?
嗯,在概率空间里面更可能。这件事情已经是有巨大的信息量,你已经要model的东西要远超于你在language space或者label space里面需要刻画的东西了。对吧?你需要对这个世界有一定的认知,所以这已经是更加在我看来有一点 bitter lesson
了,就是就是说你抛弃了更多的语言空间中的这种这种这种认知跟它的逻辑跟它的句法结构啊,开始去 model pixel,开始模型这个这个像素本身了。
但再推演一步,像素本身可能也是错的。像素本身,也不够比特拉森。嗯。像素是什么?像素是人为定义的一个一个一个一个 regular grid,对吧?就是一个一个框框,然后上面每一个框里面可能有二百二二百五十有有有八个 bits information,对吧?然后你可能有这种这种 lattice,就是你有一格一格一格,这是一个像素,这是我们看到的每一帧的图像,对吧?
这件事情也是一个接口,嗯,这件事情也是给人看。对吗?就是 word simulator。为什么大家觉得 Jenny 哎这个好酷啊?因为我们造出来一个视频,我们造出来一个游戏,这个是给人看的。嗯,但再往前推演步,真正的 bitter lesson 是说,我不需要给人看。我为什么需要给人看呢?对吗?他给谁看呢?
他给你的这个系统看,他给你的这个世界看。嗯,它取决于你到底想要什么。它可以给人看,但是给人看这件事情不是 word model 的核心,而是 word model 的接口。word model 本身,它在自发的去。学到更好的表征,去做更好的更好的预测,对吧?但这件事情本身跟你是不是要生成一个很酷的视频其实是无关的,跟你能不能回答关于你的 input space 的一些信息其实也是无关的。
所以,again,就是我重复我刚才刚刚想说的事情。我们每个人都在这个世界模型的道路上往前走。嗯,世界模型是一个目的,不是一个具体的路,呃,不是一个具体的算法,或者说是一个技术路线。然后总有一天我们会有一个更好的世界模型,嗯,语言模型会在此之上,然后它也会变得更强。我们会有更好的多模态的模型,它能够更好的理解这个世界。
我们也会有更好的video生成模型,嗯。然后我觉得R E就是这个这个这个过程中的一个雏形,嗯。所以现在还有很火的一个说法是所谓的Unified Model或者Omni Model。大家试图把所有的数据全都堆叠到一起,使得我们能够让一个系统既能做 understanding,又能做生成。大家讨论的问题也是说,我到底是理解能够帮助生成,还是生成能帮助理解?
嗯,我觉得都不重要。哦,理解和生成是一体的,它都需要一个真正的 world model 作为它的基础。对,一旦有了这个好的 world model,啊,它能够做某种 prediction,能够做某种 planning
reasoning。上层的解码这件事情其实是非常非常简单的,所以你觉得他们都是你们的上层世界模型是这个底座,呃,对,你可以认为我们我们我我我想我们想做的事情,或者表征派想做的事情,是是这个蛋糕最底下的这个这个底座表征派,嗯嗯,表征怎么统一成一样的表征?
嗯,呃,统一成是指那个跟 language 还是最最终统一成某一种表征,抽象某几种抽象的表征,所以还是要有 scaling,对吧?还是要有。现在可以看到的,除了语言,还有什么有 scaling 呢?对语言的 scaling,对我们刚刚说说到这件事情,就语言的
scaling。本身我觉得又是一个,嗯,有点说不太清楚的事情,因为我们我们也知道有一个理论是所谓的这个 compression is intelligence,嗯,对吧?
就是压缩几智能,嗯,是的。但这里面讲的事情是说,嗯,你的语言模型其实是一个 lossless 的 compression 的过程,呃,或者说语言模型模型变大能让结果变好。不是因为他死记硬背背住了所有的所有的这些内容,而是它就是一个更强的模型了,所以它能有一个更好的压缩率,去压缩你所有的input的这些信息,它带来了某种泛化能力。
但我想,我我同意这个观点,但我想后撤一步,我想说,其实因为语言模型在意的问题本身。导致其实他的skin log里面其实是有水分的,就是这个水分是说他并不需要真正用最小的模型去通过真正理解这个世界的方式去回答问题。而且我们所有的这些 benchmark 以及 human 在使用 large language model 在在达到的目标上啊,或者这些任务上,也需要它能够 retrieve 出来,对吧?
就是能够能够能够检索出来这些 factual 的 knowledge。如果一个模型,对吧?它没办法告诉我,比如说 Wikipedia 上面有一个具体的人名,他过去做了什么事情,那这是一个很差的一个一个一个 large language
model。嗯,所以,所以,所以我想说的事情是说,语言模型的scaling law是基于一个对knowledge的这种representation所得来的这样scaling law,所以这是为什么它可能会有一个相对balance的配比,就是说你的你的number
token你的数据和你的parameter需要大概一比一的方式的,chenchena里面是这样的一个一一个一个一个方式,嗯,对吧?
然后去scale up世界模型,尤其是基于。这种 visual intelligence 世世界模型,啊,我觉得它会有一个非常非常不一样的 skin law,它会有一个 skin law,但它这个 skin law 的斜率可能完全不同,或者它的这个配比完全不同。我现在的直觉是这样,它的模型不会很大。
它模型不需要 training parameters,因为你不需要记住啊。如果你要做 video generation,那是另说,对吧?但它不需要记住你能看到这个世界里面所有这些细微的细节。它不需要通过解一个什么确定的方程,在一个巨巨高维的空间里面的方式去判断一颗苹果是不是落下来。嗯,他不需要做这些事情,他不需要人类的智商,他不需要人类最高级的智商。
我们讨论一下到底什么是人的智商,但是总之他不需要这些事情,他不需要把这些这些 knowledge 全都记下来啊,他需要通过很好的 understanding 能力去 filter information,就把信息过滤掉、处理掉,对吧?然后呃,因为最后最后真正重要的东西还是决策本身,嗯,对,所所以这件事情跟人会越来越像,我觉得,因为人就是这样的。
人有很多很重要的事实,对吧?比如说人的视觉系统,或者说,呃,人所有的这些 sensor 统一,对吧?包括听觉、视觉、嗅觉,然后触觉,这些这个这个东西其实是非常非常高带宽的。这个带宽可能要达到,比如说十亿个 bits per second,啊,一亿到十亿这个级别。嗯,但我们现在说话的时候,其实这个带宽极底。
这个带宽只有十到十到十到一百个 bits per second,嗯嗯,所以到底发生了什么,对吧?我们大脑是怎么样一个模型,能够在二十瓦的功率下面,把十十亿 bits per second 的信息,通过我们眼眼睛还有各各种各样的感官输入进来,转化成我们十个 bits per second 的一个一个行为模式?
这件事情是 world model 本身,它过滤大量的无用信息噪音,对它有很多的冗余性,然后它知道什么东西是重要,什么东西是不重要的,所以过滤系统很重要。对,当然这个东西也是一个层级的过滤的系统。嗯嗯,确实是这样。那这个世界模型怎么训呀?呃,语言模型好训,是因为就是互联网信息就在那里,所以它可以训呀。
那世界模型看起来,我都不知道怎么下手。对,我觉得这是一个 biggest bet,因为事情啊越通向我觉得智能的本质,事情也会难难走很多。嗯,对,我觉得像你说的,我们经历了去 dump 整个互联网,然后去训练模型的这样的一个一个时期。我觉得接下来,呃,我其实也不知道这条路能不能成功。我有足够多的信心,但是你要让我说一定百分之百成功,啊,也不一定。
啊,原因还是数据层面,我我们到底能不能把这件事情做到做到极致?需要多少数据啊?需要什么数据?我觉得过去的时代是dump这个啊或者download吧,internet的时代,嗯,现在时代是download
human的时代,嗯,我们要把人类下载下来,就是我们现在每一个again对吧?大家process这些knowledge,我们有一个东西叫internet,把它upload上去,我们可以train一个transformer。
Everything is good,但对于真正的我们对一个世界的理解,一个四岁的小孩他看过的视频,杨也经常举这个例子,就比现在所有的用来训练世界呃这个元大元模型的所有的这些这些token还要多。对吧?啊,四四个月的小孩儿,对他看过的视频的量,要比三十个trillion的这些纯最最最好的这些大语言模型的数据的量还要大。
对吧?所以这个量量级实在是太大,所以我刚刚说要当了。我原本是说,那我人眼看到这些东西,这些数据到底我们怎么能采集过来呢?对吧?我觉得,我觉得视频还是,这是为什么之前,比如在Cameras里面,我还是非常希望去多做一点可能视频啊相关的研究。我觉得这是现在这个全村的希望。对,啊,这件事情可能有很高的门槛,但我觉得不一定成功不了。
我觉得可以分几个阶段走。第一,可以先从互联网的数据开始,先从YouTube开始。嗯,啊,像我刚说,不管是什么全部的这些训练的token,几十个训练的token,还是四个月小孩儿看到这么多的信息,所有这个数据量等于三十分钟的YouTube upload。YouTube上面有海量的数据在那儿,这个有版权问题吗?
呃,所有人都知道有版权问题,所有问题,所有人都在继续继续这么做。嗯啊,我觉得 at some point 一定会有很很大的版权,你或者说这个东西不是一个版权的问题,因为可能YouTube不 own这些视频的版权,但是一个 terms of service 的问题。嗯,YouTube是禁止你去爬取这些数据的。
所以导致这些数据现在非常非常难爬,基本上爬不下来啊!你爬几个视视频,YouTube就把你的IP办了。哦,然后你就你就得换一个IP,对,所以有点有点现在我觉得呃,这些数据公司跟这些这些这这些平台有一种这种道高一尺魔高一丈的感觉,嗯,哦,一方一方要严防死守,禁止你爬数据;另一方另一方要想尽办法要爬更多的数据,嗯,对,我不知道最后会终局是怎么样,对,我自己好有优势啊。
自己好有优势,并且自己也不care,对吧?但是他们也收到了很多律师函,所以我不知道。我觉得,我觉得之后可能会有更多的对,但我觉得这这件事情就涉涉及到人类社会里面啊,更多的这种政治的优化吧。嗯,对。好,第一步是视频,第一步是视频,然后接下来其实Parallel的运作就是说,我觉得。嗯,这样的世界模型,或者一这种这种很vision-centric的世界模型,会有一些。
非常好的这种应用的前景,嗯,因为我觉得只有 research 也是不够的。L M 之所以成功,也是因为 chatbot 这样的一个 interface 实在太成功、太自然了,对吧?它依赖于,呃,互联网,依赖于这种这种移动移动设备啊,但它是一个很好很好的接口,一个非常非常好的 product,啊,所以 OpenAI 自己的人也没有意识到,对吧?
但当我们讨论世界模型的时候啊,尤其是我们刚刚定下的这个世界模型的时候,这个最终的这个pattern到底是什么?我觉得这件事情可能需要,我觉得这可能才是一个真正的难点,嗯,可能是一个比数据还要更难的问题。所以现在,呃,如果拍脑袋想啊,again拍脑袋想的想的idea可能最终都是错的,但是至少有两个出口,一个是比如说这种AI glasses啊,这种真的personal assistant。
这件事情需要一个 world model,这件事情只有语言模型不够,只有语言模型的话,它还是一个带着屏幕可以有语音交互的这么一个 ChatGPT。对吧?嗯,他没办法走出这个产品的心态。比如,我现在经常跟大家举一个例子,我现在带了一些这种这种 wearable devices,它们不是真的 AI 的 wearable devices,对吧?
但 somehow 它们具备了一些我觉得世界模型的特点。嗯,原因是它们是一个 always on 的这种 device,就是它一直开着,一直在监控你的身体体征,嗯,对吧?也有大量的信息,因为每秒对吧?我不知道有多少多少频率,它是以什么样的频率采集这些信息。但我一直在心跳,所以它一直能track这些信息。
对吧?嗯,然后这些信息放到哪里去,对吧?我我我这些信息本身对我来说是没有意义的。我我知道我某个时刻心跳频率BPM是怎么样的,对我来说没有任何意义。所以它需要有一个智能决策,告诉我说,哎,你好像under too much stress,对吧?你现在压力太大了,你需要缓一缓。然后说,哎,你过去几天时间睡眠都不是很好,你可能要需要考虑一下。
对一些一些补救的措施,或者说你今天应该 take a day off,对吧?我觉得这件事情其实蛮蛮世界模型的,只不过这是一个最最最最 basic 的世界模型,因为它能 get 的这个信息实在太少了。嗯,它是一个很垂直的信息,对,非常非常垂直,嗯,对吧?但我觉得这件事情是一个未来的世界模型在 AI variable 上面一个缩影。
嗯,因为如果假设真的有眼镜,或者说,对我知道你不喜欢戴眼镜,但是假设有某种 wearable devices,它能够真的是 always on,啊,我们不知道这个功耗问题怎么解决啊,先不管硬件问题,我先先不管啊,但它能够实时的看到我们所能看到的一切,对吧?有这种完全 always on,然后 infinite 的这种 tokens 进入到这个系统里面。
哦,我我觉得这件事情其实是会有很大很大的潜力的。然后第一,我会很想要这件事这个东西,因为我想知道我几点喝了一杯咖啡,然后是不是这杯咖啡喝的早了一小时,晚了一小时,导致我晚上可能睡眠没那么好了。或者说我是一个运动员,他想要指导我的每一个动作;或者说我在医院工作,我希望给养老院里面的每一个老人都配备这样一个
verbal,使得我知道他每天的这个行为模式是怎么样的,他吃了什么药,做了什么事儿,啊,然后他的心情怎么样,对吧?
他的状态怎么样?嗯,啊,然后跟我背后的这些医疗记录挂钩,然后提供更好的智能决策。我觉得有很多很多类似这样的例子,对。但这件事情也是基于现在的LM现有的多模态的智能,其实是我觉得是做不到。嗯。然后另外一个出口,我们刚刚也聊过,那我觉得就是robotics。我觉得robotics,呃,面临的问题是,其实还是大脑不够。
嗯。然后,即使它可以,呃,武术,它可以表演啊。当当然也不能否认,这也是一个很好的 vertical domain 了,对吧?文娱市场啊,可能也挺大。那机器人就去表演节目吧,我觉得也行。嗯,但这件事情离general的purpose的robot能够走进千家万户,能够背着年迈的老人上下楼,照顾他的饮食起居这件事情距离实在是太大了。
嗯,能干活的机器人都是荒漠。是的,是的啊。然后我觉得这一部分你可以看,对吧?机器人其实是一个很好很好的一个downstream的application,因为不管有任何。上游的这些新的我们讲泛世界模型的这种这种演进,啊,呃,机器人都能够benefit from it。嗯,比如L M出来了,那我们就有V L A。
对吧?然后火了一段时间。现在这个video diffusion做的很好,action condition video diffusion做的很好,对吧?这种生成派的这种word similarity做的很好。那我们也在讨论机器人怎么样去用这些模型去做一个啊,做一个更好的这种action的planning。
对,有大量这样的工作。所以啊,像我说的,我觉得我觉得这里面还有很长的路要走。然后我跟但我觉得,呃,就是在网上看机器人,在春晚上看机器人,和私下里跟从事机器人行业的这些researcher聊。我觉得感受是很不一样的。那怎么说?后者是后者会愿意跟我说真话。哦啊,不不代表他们平时在说假话,只是说后者会更愿意告诉我现在的系统的缺陷到底在哪里。
为什么这件事情听起来好像是啊,现有的这些模型实在是解决不了的?刚才其实讲了你长达十多年的研究历程啊,你是怎么跳跃到世界模型来的呀?嗯,我觉得其实没有跳跃,就像我一直刚说的,我觉得,我觉,我觉得所谓的representation learning表征学习、世界模型以及整个AI的发展,其实还是一个蛮啊smooth的一个transition。
然后我其实不是很喜欢这个世界模型这个这个 word 了啊,我觉得听起来有点 hype,然后并且现在它变成了一个啊。口袋儿一样的一一样一样的一个称呼,然后所有人都在 claim 自己做世界模型。我觉得这件事情,嗯,一方面我觉得对,我觉得肯定不是一个比较,呃,一一个 researcher 会享受 enjoy 的这样一个过程吧,啊。
但另一方面,我觉得可能一个领域往前走,可能还是需要一些这样的这样的 buzzword,对。然后我觉得。非要说的话,我可能会喜欢,呃,世界模型的一点,就所谓 word model,嗯,的一点是这个这个是Jitendra Malik Berkeley一个教授讲的,他说,嗯,他唯一喜欢 word model 这一点,是因为。
他能告诉大家,我做的是 word model,而不是 word model。word 是 W O R D,就是单词,单词啊,我做的是世界模型,而不是单词单词模型。那单词模型就是 LM,对吧?所以我还蛮蛮同意的啊。所以,所以我觉得啊,像我一直重复的,我觉得,我觉得,我觉得世界模型是所有人会抵达的一个一个终点啊,它是它是一个目标,对。
嗯,其实你嗯,随着你要开始做世界模型,你也做了一个非常重大的决定,就是你要呃创业了。这是一个非常大的,跟你之前的 research 的生涯非常大的不不同的一个选择。你为什么做这个选择?以及这个选择是怎么发生的?哦,这个选择也是一个玄学选择。玄学,哎呀,这个这个大家可能觉得我这个太玄学,但是确实是因为之前有很多湾区认识的朋友,一些啊也是对我帮助很大的一些 mentor 吧。
然后大家可能有投资人的身份啊,有这种其他创业者的身份啊,他们就说:“哎,赛宁,你应该也尝试去去创业。”嗯啊,因为在学校里面,像我刚刚说的。其实有很大的困境,对,但并不是学校一无是处。我觉得学校其实是一个很好很好的平台,它让我有足够的空间去真的找到我想做的事情。但我突然觉得,哎,好像现在是一个时间点。
似乎,啊,我想要探索的东西探索到了一定的地步,啊,再往后有可能会陷入我叫它一个中等 pe paper 陷阱,啊,就像中等收入陷阱,就是说你会发一些不错的论文。但是由于这个这个resource的限制啊,导致你没办法真的把你的你的这些idea推广成一个啊某种意义上一个新的breakthrough,对,所以我觉得这这可能是是一个好的时间点。
然后,所以我有一个manager就问我,那时候还蛮有趣的,可能大概是啊去年去年的。可能年终吧,或者说可能是秋天的时候。二五年年终,嗯,对,二五年年终,然后他就说:“哎,你去问一问杨立昆啊,他好像最近在Meta。”待的不是很顺心,嗯,但那个时候其实还没有这么动荡,还没有这个X王,然后比如说菲尔的lay off,然后这么多动荡的事情。
然后我的第一的直觉是说啊,这个怎么可能呢?对Young对吧?我们等下可以再聊。我想再还想再聊一下Young是怎么样的一个人。但至少在那个时候,我会觉得他还是一个对吧,Godfather of
AI。然后,呀,他呃是一个纯粹的researcher,怎么可能会拉他一起创业呢?啊?然后结果,我们有了这个对话之后的第二周的周一,我们刚好有一个one-on-one的meeting,就是一对一的一个meeting啊,跟跟一样,跟了坑呀。
然后还没等我说什么,然后杨就跟我说说,哎,赛宁,你先不要告诉别人,但我已经决定了啊,这个我现在想要做的事情啊,我觉得应该在外面做,我想要去创业,开一个公司。然后我就我就问他说你想做什么事情啊?这个背后的 business model 是什么呀?嗯,然后后来发现哇,这件事情跟我想象的事情完全一致啊,嗯,非常有趣,对。
然后这件事情是什么呢?我觉得你可以你可以叫它世界模型,哦,或者说这部分的出发的逻辑在于。我觉得,在我想做的这件事情上,在现在的这个,不管是世界上每个农任何一个国家,我觉得做不了啊,包括在在湾区,在硅谷也做不了。那这个这个事情是什么?就是说,你还是有一定的这个 research
的程度啊,嗯,对吧?它不是完全的说,哎,我们现在要 large language model,我们要 deploy 这个 system,然后我们要 push to product,然后去去去去 get some revenue。
其实其实 not like that,是吧?然后我觉得这件事情有很强的这种 research 的这种。啊,倾向性,嗯,对吧?但是他又不是在纯粹的学术、学学术的这个这个setting下面,他不是过去的Fair,也不是N Y U,他不是学校,也不是过去的那个传统的Fair。但另一方面,他也不是弯曲的这些大厂和现在的很多这些New Lab处在一个完全封闭的情况下。
封闭是什么意思?封闭意思是说,啊,你当然不开源,不能发表论文,然后像我说的这个 blog,嗯,上面也不能署名啊,也不能署呃署名。然后然后像我,其实我在 Google,在 GDM 的时候,我在 Gemini,整个 Gemini All 只有我一个人是有这种相当于脚踩两只船,有一个 double affiliation,还在学校在做事情啊。
大家其实对学术界。对这种纯粹的探索性的research,其实是有点抵触的,啊,这是一个弯曲现在的一个一个状态。对,然后抵触怎么理解?是谁抵触?抵触意思就是说,第一,我觉得大家瞧不上,嗯,这个这个这个学术界在做的工作,不觉得学术界的做的东西能够真的啊,能能够能够产生怎么样的影响?嗯,第二,他们因为也不 pub publish,导致嗯很多东西你也不知道他们在干嘛,对吧?
即使在这些大厂里面,其实有些大的公司有有这种 research 的部门,然后也有这种偏 product 的部门,但其实这两个部门同一个公司两个部门之间也有一个很大的隔阂哦。因为again就是做做这边,比如说核心模型训练的这些公司的的这些部门,啊,必须要在这个highly competitive这个赛道上面。
啊,走到最前面,这是他们唯一的目标。对,是军备竞赛吗?是一个军备竞赛,嗯,啊,然后这件事情就会压榨你的research的空间,嗯,你会你会抽走这个这个这个这个环境里面能够给你充分的freedom去做research的这样的氧氧气。嗯,所以你没有想过加加入任何的lab,你没有办法忍受这种没有氧气的感受。
是,我觉得这也是一个很有意思的现象。这个现象是说,当初确实有一些机会,我也在有一些其他的考虑,啊,然后,但我想了想之后,我觉得可能这件事情,如果你真的想要做这种完全前沿的探索,你想要去定义问题的话,可能还是得在一个自己的startup做,才会成立这件事情。嗯,就别人的 startup 就是他定义的问题,然后你来做执行。
是其他人其他人 startup,呃,当然,首先我不认为在这个其他 startup 里面,嗯,有任何一个 startup 或者一个大公司。在focus在我们在做的这个事情上,所谓的build building the predictive brain这件事情,对吧?在你可以认为是最foundation layer或者说最upstream layer啊,做一些做一些事情,嗯,这件事情其实是不存在的。
啊,更有意思的是,其实很多我的朋友,在我跟他交流的时候,大家都会意识到这件事情其实是必须的。就我刚说这件事情,一方面有点所谓的这种呃反反共识,对吧?就是有点 contrary view,但另一方面,其实又在过去的一年里面,我觉得又逐渐变成了一个共识。所以我说的东西也没有什么新鲜的,没有什么新鲜的。嗯,但是我刚才简单提到了,我觉得现在在整个AI行业里面。
有这样一个巨大的A I的,呃,这样的这样的一个value chain,这样一个价值链条,在最上层,这个价值链条就像我刚刚说的,有Bit Lesson,有A G I,有L M这样的一个叙事逻辑。这件事情定义了一系列的benchmark,嗯,对吧?就是说你要打榜。嗯嗯,那你这个打打的这个榜可能是 L L M Arena 啊,或者说其他的这些榜单,对吧?
有有一系列这个 benchmark,这个 benchmark 定义了。Resource的allocation就是说,你你怎么样分配资源?嗯,对吧?因为我的目标如果是在榜单上得到第一名,那我只能投入最多的资源,使得我能够处在这个位置上去竞争。然后 resource allocation 决定了,其实这件事情已经跟 researcher 觉得什么是对,什么是错,已经有一点脱离了啊。
虽然有些呃很强很强的 researcher 知道我们可能需要做一些 research,但是在这个价值链条下面啊, resource allocation 决定了他们不能做这一部分的
research。所以,比如说,我会觉得,哎,啊,这个视频理解这件事情其实蛮重要的。但现在好像不管学术界也好,工业界也好,啊,做的不多,或者说大家做这件事情,但没有 fundamental 从 world model 角度去 approach this problem,去去解决这个问题。
对吧?但为什么会这样啊?但你这个很有很有意思的现象,你就会看到,不是没有人不愿意做这件事儿,不是没有人没有这个能力做这个事儿,嗯,是他们全都无一例外啊,不管在哪一个公司里面,无一例外被发配给了一个做视频生成模型的。这个 video captioning 的 team,嗯,因为因为这是在这个价值链条下面的唯一一个一个可以可以间接对吧参与到这个价值链条里面的一个一个 position,对吧?
虽然他们都知道我们这件事情没有解决,我们需要一个更好的,像我刚刚说的一个 word model based video understanding model,并且这件事情可能是一个真正训练出这个 word model 的一个一个很重要的一个一个前提条件。但大家不会有空间去做这样的这样的
exploration,嗯,所以当初我在我在 Google 时候也会有这样的困扰,包括我们做 RE 这样的论文。
这篇论文其实前前后后,这个学生跟他一起,跟博洋一起,我们可能做了快一年的时间。哦,因为这个学生中间可能也,嗯,有有一些身体的原因,然后反正anyway吧,就是可能有有有有一些gap在里面,对吧?然后所以所以反正完成这个工作,我们花了一年的时间,嗯,呃,当我们发表这个工作之后,有我我我其实还有点担心,我会说,哎,这个会不会有Google的researcher然后过来找我说,哎,为什么你会发一篇paper,我们也在做一样的事情啊?
你怎么把我们的机密暴露出去了?嗯,啊。呃,结果是有哦,啊,有有有有好几个research找我,然后他们给我的反馈是,我觉得这件事情是对的。我做了这件事情,做了两个星期,但是我的 manager 说你不能做这个事情了。我们接下来有有 product cycle one、 product cycle two、 product cycle three,对吧?
这些这些产品的发布的这种这种 timeline,嗯,我需要完成。对他们现在的驱动力是不一样的,驱动力是不一样的。对,所以就又说回来了,我觉得还是要回到回到一开始我们讨论这些事情,就是在这样的有限游戏下,在这样的强竞争的环境下。每一个公司都都似乎失去了他们定义问题的能力。比如说,其实你看之前。像像像OpenAI对吧?
然后,它其实是具备这样的能力的。嗯,很多这些问题都是他们定义的,对吧?包括包括GPT。包括像Clip这样的模型,对吧?或者说,他们一开始从成立的第一天起,作为一个research unit,他们也有他们自己探索的过程。嗯,我觉得还是很有research的,很有research,很很有。但是现在research已经变成了一个产品问题,变成了一个商业问题,你必须竞争,不竞争怎么办呢?
啊,那当然是逃出来,然后我们来一起啊,创造一个更好的。更 friendly researcher friendly 的这样一个一个 organization 吧,这样一个团队吧。所以你们要逃离硅谷的叙事。呃,对,我觉得,我觉得双向选择吧。我觉得可能对互相那个什么,对互相dis一下。乐坤见你那次,他跟你说了什么?
他也没说什么,他只是讲了啊,对他说的这件事情,就是说我刚刚说,我觉得我跟他的想法非常一致的这件事情,就是世界是模型是什么,我们可以有一个定义,在这部分上,我跟他的定义其实非常非常吻合。啊,然后包括他做Japa,我我在N Y U也经历了一些过程。这个过程是啊,我从我从质疑Japa到理解Japa到成为Japa,经历了这个人生的三个stage。
嗯,我等一下可以可以再展开聊一下这件事儿。但他具体跟我说的事情是说,这个公司它它不是一个nonprofit,它不是一个纯粹的research lab,所以我们是要有一个business model的。嗯,again,这件事情可能不是他的原话,或者可能更更像是我理解他说的事情啊的话,是是说,我觉得世界模型是世界需要一个世界模型。
嗯,在硅谷之外,在 L M 的叙事之外,有一个隐形的世界。这个世界里面有很多人,大家想要解决这个物理世界上的很多呃物理物理世界里面的很多很多的问题,对吧?他们可能是一个农场,可能是一家医院,但他们拿着 L M 不直接能够解决这些问题,它能解决一部分问题,但有很多涉及到真实世界的 physical understanding 的问题,他们是解决不了的。
嗯。所以大家其实都很焦虑,大家都害怕说,哎,这个AI的浪潮要来了,我我我是不是连上这个牌桌的机会都没有,对吧?然后,所以我觉得这一部分隐形的世界是在这个硅谷的叙事逻辑下面不可见的,嗯嗯,但我觉得这是一个很大的市场。嗯,这是我跟很多人聊天的体会啊。然后我觉得这个这个这个这个,其实我现在最 enjoy
的这个这个时时光,不是跟一些 researcher 聊天,是跟完全不在 AI AI research 这个 field 里面的人聊天。
嗯,啊,我觉得我每次都会得到很大的启发。比如说,嗯。就是怎么讲呢?这个这个也是哦,其实有两个人跟我说同样的话。嗯,第一个还是侯小迪,呃,第二个是这个张涛,是Manus的张涛,涛哥,他们都跟我说,你如果想要做一个好的产品,你首先得要热爱生活。你得知道这个生活里面的人,他们在做什么事情,他到底需不需要这个东西?
哦,你不能把某种AI、某种智能强加于人的头上。对吧?你需要理解他们的需求,然后你需要通过这件事情,不管是做你的research还是打造你最后的产品,嗯。所以我觉得这里面很重要的一点是说,这个世界上有大量的人,他们生活在这个世界里面,他们是这个问题的定义定义人。哦,这些问题不是 researcher 坐在实验室里面想出来的,对吧?
我觉得如果真的我们要做一个能够惠及所有人类的这样一个 AI 系统,啊,这件事情不应该是一个。一个某种独裁的状态,不应该是头部的几个公司强加的一种一种一种能力,哦,我们得要去知道这个世界上到底在发生什么,然后大家有哪些需求,嗯,对,所以所以所以这是,对,这是我觉得为什么。呃,这这是第一点,这是啊,或者说前一半,其实我想说的是,其实世界是需要这样的world model的,嗯,对吧?
L M不能解决所有的问题。第二点是说,world model也需要这个世界,嗯,这个世界有两部分,第一部分是。定义问题的能力,对,就是就是问题的定义,对吧?我希望这件事情是从生活来的,从人的真实的需求来的,或者说是从工业工生产中的需求来的。对,然后这些事情对于硅谷的或者AM的叙事来来讲,都是也是隐形了。
然后其次涉及到你刚说的数据的问题,嗯嗯。就是虽然我们第一步可以从互联网上去拿到这些数据,可以去训练这些模型,但最终还是得要去在真实的世界里面去淘金的啊。这些数据也是不可见的,大家不会把这些数据传到YouTube上面。嗯,YouTube上面的数据还是一个跟人类非常非常aligned,跟人类的价值观和或者跟人类的这种for entertainment的需求非常aligned这样的一个数据的分布。
对吧?然后我们还只是在讨论这个微软的数据,但这个世界里面有大量的。非visual的,对吧?非视觉的,还是在连续懂命的high dimensional高维度的和和possibly noisy对,有可能是有噪音的这样的信号这样的数据的,对这些数据,我觉得现在again对于训练一个世界模型来说至关重要。嗯,我们的世界模型也不只是一个vision的model。
对,因为这个世界也不只有数据,啊,但另一方面,这这些数据现在是不可见的,我们需要从一些地方获得这个数据。对吧?然后,所以,所以这是我跟样聊的这些一些一些一些这个 high level 的这样的一些一些感受,嗯啊。然后到后面,其实这件事情跟 business 有什么关系呢?就等会儿你说,不只是数据视觉模型,不只是视觉,还有什么呢?
还有哪些?比如说,我现在可以有一个飞机引擎,一个飞机引擎里面可能有一千个。Sensor,这些个sensor在不断的记录这个飞机引擎的数据,对吧?我怎么样能够训练一个飞机引擎世界模型,能够知道我这个飞机引擎可能哪里有设设计缺陷?哪里可能现在有有有有有这个有这个啊错误对吧?等等一系列这些非常 long tail 的问题,对。
那这个是一个就是飞机引擎的世界模型,这是一个飞机引擎的世界模型,但它会基于一个 universal 的世界模型的预训练。对,所以你们会训一个通用的世界模型,这是我们的目标。这个是预训练,然后上面可能会有很多的垂泪,很多的垂泪。嗯嗯,像我说的,你看 language model 也是上面的一个垂泪,video diffusion 也上面一个垂泪。
啊,action对吧?然后planning,然后呃robotics也是一个垂类,但这个东西可以非常非常多元。嗯,这个预训练的数据量会有多大呀?呃,这些事情就是说,这是research的部分。对我们现在其实有有一个很很好的罗马,然后我们也招了很多很多的人,大家其实都很在意怎么把一件事情落地,不只是简单做做research。
虽然research非常非常重要,然后现在如果你要达到我们最后想要。达到的那个目标的话,我觉得要做很多很多的 research。但另一方面,我们要找到一个 balance,对吧?我刚刚说它既不是一个纯粹的 research lab,但它也不是一个像 xai gdm 或者 whatever meta
tbd 一样的一个一个一个相对来说比较封闭啊,在现有的 paradigm 这个现有的范式下面去竞争的这样一个 lab,对吧?
我觉得我对它的定位可能是 somewhere in between。啊,可能甚至超过百分之五十啊,一定超过百分之五十,可能有百分之六十、百分之七十,更像一个现在的 new lab。对吧?然后,但是它会有百分之二十三十的这种完全自由的啊,然后呃,这种这种非常前沿的research component。
嗯,其实我理解现在的这些frontier lab竞争这么激烈,是因为现在的LLM的范式是相对已经是确定性的了,是的。所以说他们都在争一个商业的输和赢的问题,相当于说你们不想在这个范式下卷了,你们去提前想去找下一个范式。给我的感受是这样的啊,是这样对,所以。对对,商业访谈录。但是我我我先我先要说,我真的不懂商业啊。
然后我也没有做过startup,我没有成功过,也没有失败过。对吧?嗯,然后所以这件事情既让我感到焦虑,又让我觉得有种无知者无畏的这种冲劲儿。嗯,啊,我会有一个疑惑,就 Ilya 他本身就是一个 research based 的人,他为什么创业?他是第一个找到你吗?为什么他又找一个 researcher 呢?
啊,其实有很多 researcher,因为 again 我觉得 research 是这个公司的 focus,这个这个公司最后最重要的 product 是一个 research breakthrough。嗯,所有的这些各种各样的,我们刚刚说涉及到数据,涉及到问题定义,涉及到这些跟各种各样的 industry 有 partner,对吧?
这些所有事情的逻辑都建立在我们能够 support 我们的 research,能够 make another breakthrough,就是下一个下一个这样的新的 AI 的革命。嗯,然后你可以叫它世界模型的革命,或者 whatever you want to call it,但是它跟 LM
fundamental 不一样,但它至少是一个 transformer 或者 ChatGPT level 的事情。
对,这是我们的梦想啊,呃,落到实处要一步一步走。但但回答你的问题就是说,其实不只找到 researcher,比如说我们的 CEO。对,我是这个公司的 co-founder and chief science officer 啊,我非常喜欢这个 title,因为我觉得我希望我自己的定位还是在 science 上面啊,我不是一个好的 CEO 啊,至少现在不是,我也不是一个。
能够去啊管理一个大的team,然后去launch这些product,对吧?这种这种公司的一个角色,嗯,你不想当CEO跟Pik一样啊?呃呃,对,对对,有点有点像,对啊,然后。呃,对,当然我们我们两个公司的跟AMI Labs可能可能还是会有会有很大的不同了。当然,嗯啊,是的,是的,我我觉得我们这边主要我还是期待的事情,看到的事情还是怎么把research这件事情做好啊,然后这件事情也是我现在看起来。
我们能够吸引人才,能够让大家一起来工作的一个一个真正的这种这种这种精神源头吧?啊,算是硅谷的避难所吗?啊,不能叫做避难所,但是确实是一个不一样的地方啊。这个不一样的地方,我觉得很多人过来,对吧?我们有有从 Open I,有从这个 G D M,有从各个地方过来的小伙伴啊。大家不是为了要赚多少钱,然后说 I P O 要上市怎么怎么样。
大家心里面也非常非常的纯净,就是想要做research啊,并且大家觉得我们有机会能够去成为一个某种意义上的。影响这个AI进程的人,嗯,这件事情我觉得其实,呃,大家很多时候其实都因为现在这个行业的行业的变化,嗯,我觉我觉得心态也会发生一些一些一些很微妙的变化吧。对,什么意思?意思是说。现在大家会有点过于走走到一个极端,是说,哎,我们要
lower everybody's ego, everybody is part of the team,对吧?
就是都是这个团队的一员。但事实上,在发生的事情是,他们确实变成了这个团队的一员,但他同时也变成了这个巨大的 machine,这个机器中的一个可以轻易被替换的一个螺丝钉。嗯嗯,我完全同意。Researcher如果有太强的ego,这件事情不利于团队的协作。但是我还是希望给予年轻人有足够的visibility。
嗯。因为我觉得这件事情能让他们有他们自己的人物弧光啊,然后能够让他们真的成长起来,变成一个现在对吧,在外面有很大声望的这些这些leading的researcher,对吧?但我觉得现在这样的这样的pipeline。收的越来越紧了,或者说这样的上升的通道越来越少。嗯哦。然后,所以这件事情是至少是我们的一个招人的strategy,是说我们会真的真的非常希望这种mission
driven的年轻人加入到这个公司来,大家一起来做成一件事情。
我们其实不想把一些很established啊,这些已经是superhero一样的超能英雄一样的这些researcher聚拢到一起,然后希望大家有某种化学反应。我我不相信这件事情,为什么?嗯,就不能这个团队里有多个你是吗?呃,完全不是,这个跟我自己的ego没有任何关系啊。我我的感觉是,呃。一个人很难被不不,首先我这样的人,我们可以招很多。
我我不觉得我是一个,完全不是啊,呃,这个这个千万不要误会我啊。但是我说的是,可能那那些我们刚刚说有二十五篇改变了AI历史的这些paper的这些作者,嗯,对。然后然后我觉得,相比于他们,我会更向更更倾向于招一些呃有很好的reputation、很强的能力,但somehow还大家不知道的这些人。对,然后我觉得要问我为什么的话,我会我会觉得一个人很难被闪电击中两次啊。
呃,如果你已经发了这二十几篇paper中的一篇,你再发下一次。类似这样的paper的概率,我觉得会低很多。这就是为什么你一直要说我在这二十篇之外。对,我在啊,不是这个目的,但是但是但是确实确实确实我在这个之外啊啊,但这个这件事情真的呃不关乎于我。我觉得我希望,然后我觉得这件事情也是啊,by the way,这个公司是我唯一的一个机会能够keep我的NYU的filiation。
能够建立一定的 academic engagement,我还会,我还是会全全职的投入到这件事情上。但至少我不用很抱歉的跟我的学生说对不起,我刚把你招过来,招了一年,现在我要走了啊,你们自求多福啊。我我我当初其实有一点这样的计划跟筹备,但后来我发现。啊,我做不到。对,哦,为什么?嗯,不知道。我觉得,我觉得我的学生,我我都我都很爱他们啊。
我觉得他们都是特别优秀的人。他们啊,比如说有几个学生吧,然后他们通过他们project,然后做完这一套下来。我也我也在各个公司也有一些这个经验,对吧?我也跟不同的人打过交道,但我觉得我我有几个学生比我见到的所有的这些 leading research lab 的这些研究员都更强啊。从成熟度、从工程能力、从 research taste 来讲,他们都更强。
嗯,但 Sam 跑他们在学校里面没有一个渠道能够真正的。啊,做一个在在充足的资源的情况下去做一个不一样的事情,对啊,倒不是说这些学生都会加入这个公司,我觉得肯定不会,我们还是会有一个清晰的boundary。但只是说,in general,我希望我们的这个公司,我们叫AMI Labs,对吧?它能够承担起一定的这种这种定位,它能够联系起。
学术界里面想做事情的年轻人,让他们能够参与到这个历史的进程来。哦,我觉得这一部分的对这个这个渠道,在现在现在现在的很多这个lab里面是不存在。嗯,如果LeCun不从Meta离职,你会创业吗?呃,我觉得我可能也会,但可能会纠结一段时间。你会自己做C E O?呃,我我觉得我不知道。对,我觉得呃,对,如果如果如果这么决决定的话,也是一个另外一个玄学决定,对吧?
啊,但至少我现在不知道。对,你会做这个方向吗?如果是那样的话,呃,我会在想,对,或者说我现在在公司里面我们讨论的问题,就是exactly我一直在想要做的事情,嗯。然后,然后这件事情,所以有一点不谋而合。而且,其实这个这件事情,呃,我不懂商业啊,所有的这些逻辑,但是有一些点我觉得很有趣,就是我们想要build这样一个反向的Open I啊,什么叫做反向的Open I?
什么叫反向Open I?就是正向的Open I是说,我现在有互联网作为我的数据的发源地,然后把数据download下来,train一个transformer,train一个GPT model。好,我们现在有一个智能,对吧?然后这个东西你们可以叫它AGI,但白的我我也我也我也我也非常反对这个词,我觉得AGI是一个完完全全的伪命题。
但anyway,这个这个你有这个逻辑之后,然后我们现在有了这样一个模型,有了这样一个intelligence,我想要把这个东西push到我的market。对吧?然后不管是to C,然后或者一些to B的application都没问题。然后什么是反向的open呢?是说要做这个model本身这件事情没办法直接从互联网上download下来。
哦,我们没有这个shortcut可以走,我们需要走一条更加艰辛。并且我们不能自己走这条路,嗯啊,所以这是我刚刚说 world model needs the
world,所以我们希望反向过来是说会有很多的这些有点有点草根联盟的感觉,你知道吗?就是就这些不愿意,就是在在AI的浪潮面前有点formal,然后有具体的问题要解决,有很多的数据,类似于这样的公司,大家也可以一起携手,通过某种合作伙伴的方式,一起去共建这样一个模型,对吧?
然后你可以形成这样一个闭环,我们可以有初始的世界模型,我们可以deliver这样的世界模型去创造价值,大家拿到这样的模型可以得到一些回报。然后可以产生更多的数据,来重新去反哺我们自己的这个foundation的数据,呃,这个世界模型。所以你需要从这些生态里收集多少数据啊?你需要哪些类别的数据?嗯,这个就是这个公司接下来我们要我们要讨论的事情。
对,我觉得现在能够看到的事情是说,因为Young其实有他的名望在这儿,然后而且他作为一个真正真真正正的世界人吧,他有一个非常 neutral 的 face,一个中立的角色,对吧?他不是一个,他是一个美国人,但他也是一个法国人啊,然后他。对他,我我们又不在硅谷对吧?所以所以其实能吸引很多很多这样的啊potential的这种partner,对,然后遍布全球啊。
我们这个公司第一天就会有四个office,总部设在巴黎,但是也会有啊这个纽约、呃蒙特利尔的蒙特利尔,然后还有新加坡四个office。然后目的也是说,怎么样把这样的一个联盟能够能够能够打造起来啊?大家一起在这个 research 道路上面往前走。然后这件事情其实我还有一个很有趣、很有趣的故事或者一个比喻,就是你知道这个 Master Card 是怎么来的吗?
美美国大家用信用卡有 Visa,还有 Master Master Card,对吧?是不是反 Visa?啊,对,是反 Visa, exactly。但但这个 story 还蛮有趣的啊,这也是我我这个这个在一个一个很好的朋友和我的一个 mentor 告诉我的。他说,Visa一开始是这个BOA这个这个这个银行创立起来的,对吧?
在此之前没有人有这种信用卡的模式的。然后B A BOA build了Visa credit card,然后push to market,然后赚的盆满钵满啊。然后他还藏着掖着,他还不告诉别人,他别人问了就说:“哎呀,我们这个是赔钱的生意,然后这个东西一点都不赚钱。”直到过了一两年,这件事情藏不住了啊,因为财务上你已经能看出来了。
然后其他人就慌了,你知道吗?啊,家人就说:“这个怎么办啊?这个你现在已经把这个 market 已经 dominate 了,然后我们每一个小的银行,我的体量又打不过你这个 Bank of America。”然后这个我们现在单独发一张信用卡,我又抢占不过市场,怎么办呢?那他们就说,不如我们把所有的这些 local bank 组织起来,变成一个联盟,啊,我们一起推出一张信用卡,叫 Mastercard。
嗯,对,这是怎么样反Visa,然后或者说没有真的反Visa吧,但至少能够跟Visa啊,你懂分庭抗礼的一个方式。我并不是说我们的这个公司真的要走这样的模式,但我觉得在某种某种意义上会有这样的相似之处。对,但我觉得这也是为什么World Model是一个。哦,很挺不一样的这样一个一个一个叙述呃,这个叙事的逻辑,它更加。
decentralized更加分布式,然后,然后也也也天然的,嗯,呃,怎么讲呢?resist某种垄断吧,对。我觉我觉得还是还是挺有意思的,然后这也这也是我们开放性的来源,这也是为什么我们会能够更 open-minded 去讨论这些合作,不管是跟学术界还是跟这些 industry
partner。因为这件事情是 research exploration 的一部分,对,当然我们也不是说我们所有的 research
都会开源或者或者怎么样,这还是一个正经而严肃的一个创业公司啊,呃,但是我觉得我们可能可以做的不一样,对,但我觉得想要做成这样的不一样的事情还是蛮难的,因为像我说的,对吧?
我一直在强调,其实我们在寻寻找一一种平衡。哦,这个平衡是说,对吧?它既不是一个纯粹的 research lab,也不是一个现在的封闭式的这种大模型公司。嗯,啊,然后这种平衡也在于,比如说,像我个人也是一种平衡。就就我我我既不是一个非常
senior,然后已经所谓功成名就的这种这种大教授。哦,但我也不是一个十八九岁的年轻人,可以卷着铺盖跑到深圳的工厂里面,然后然后扎下来,然后去去做这些数据采集或者whatever,对吧?
我都不是,嗯。嗯,好,有一部分数据来自于深圳的工厂。是的,有人在做。我刚刚说的这个例子是是一个具体的公司,对吧?他们有一个公司叫 Build 到 AI,啊,我还挺佩服这个小孩的,叫 ID,对他就是带了几个人从各大 quit 了,然后去了深圳工厂里面住下,啊,然后来来来 Build 这样一个 startup,我觉得好厉害。
对,啊,我觉得我觉得这件事情既是找平衡,但我觉得对我来说。有难度,但也是一个新的机遇吧。我觉得说不定呢,对吧?说不定这个时代,呃,可能既不属于老灯,也不属于小灯,而是属一个属于中灯创业的时代。你对一列两次 said no,然后你对 Ilya said yes,这是为什么呢?就在你眼里,他是一个什么样的人啊?
对,杨杨在网上是一个斗士,对对吧?就是坚决的反对 LM 派。呃,不只是反对LM,其实他不反对LM,从来没有说他反对LM,他非常,他还说自己用Gemini,对他,他完全不反对LM,他只是反对大家觉得LM可以通往一个human level intelligence人类级别的智能的这个叙事。啊,这是他要反对的。
嗯,对他完全不反对AI,但anyway他在网上是一个斗斗士,然后四处开战。啊,但我觉得他私下里是一个很好很好的人。啊,是我一个。打心眼里崇拜或者敬佩的一个人,你们之前熟吗?呃,我们我们合作合作过一些paper,但是肯定不像在一个一个一个startup里面作为co founder的这种形式这么这么这个这个work closely,对吧?
就之前没有你跟凯明熟啊,肯定没有,嗯,对,是的啊。但我觉得,我觉得,我觉得杨是一个人,真的是对他也能够去扭曲这个呃reality field。我觉我觉得他非常非常厉害,就每次。我开始对一些事情有所怀疑,然后我我都会愿意找他聊一聊,他很容易就让他身边的人啊,至少我是这么感觉的。感受到某种宁静,感受到觉得哎,这些challenge不是challenge啊,前方的路一片光明。
对,他是有这样的能力的。嗯,然后而且,但当然,当然,当然,他的research的vision,我觉得我也非常非常敬佩,敬佩。啊,就我刚刚说了很多,比如说什么是 word word model,为什么要 filter 这个信息,这个这个本本质也是 Japa 他提出的这个 Japa
思想的一个内核,就是说你不能做 general model,你不能把所有东西都记住都重建出来,你需要在一个 abstract representation space,一个抽象的表征空间里面去做预测,嗯,这是 Japa 的内核。
但我想说这件事情是 Yang,我觉得还是蛮知行合一的啊,他这个人本身蛮 Japa 的。就就是他一以贯之的在坚持他的很多这个这个这个逻辑和他认为正确的事情,这件事情是不受到外界的任何事情的干扰,啊啊!但这件事情不代表他完全是一个固执的听不进去任何话的人,其实也不是这样。他有些时候他错了啊,有些时候他对了,他大部分时候是对的。
但他其实是能听进去大家说的话的,并且他也说过,就有一个之前有一个新闻稿是说,是说Young,呃,can't be moved,就就杨德坤永远不能被移动,对吧?谁也不能这个对呃移动他啊啊,然后杨杨说,对,就是说他在固执。杨说,呃,我完全可以被move啊,完全可以被移动,但我需要基于事实来被move。嗯,而不是一些人告诉我应该怎么做,我去怎么做啊?
我才我才会move。所以当当初在Meta的时候,其实,嗯,也有很多人告诉他说:“哎,我们现在Meta要去做large language model,我们要做很多这这些事情,你不能在外面再说这些话了,对吧?你不能说今天dis这个large language model不work啊。”Yang完全不能接受,Yang说。
我作为一个科学家的正直,对吗?My integrity as a scientist cannot accept this,对吧?嗯,所以我觉得这件事情我也很敬佩哦。我觉得他真的他说的话,嗯。不是因为现在什么什么东西成了一个热点,让他去这么说的啊,都可以追根溯源,对吧?包括他在讲 world
model 这件事情,也不是最近 world model 火了才说的啊,也是也是很多很多年前他就已经在提这件事儿了。
然后他还还有一个这个很好的论文,我我我我真的推荐给我身边的每一个人去看。就是叫做这个呃,the path the path to autonomous intelligence,嗯,对啊,就是他一个position paper,也是一个观点性的一个论文啊。然后然后这时候你就会发现,他思想里面还是有很多的layer的啊。
这个layer其实又是以一种非常工程化。可实现的,或者说数学化的表达,把它罗列在这儿了。所以你看,他别人问他说这个样这个 world model 到底是什么的时候,他从来不会说一些比较 high level 的这种这种相对来说比较啊比较虚无的这种概念,他永远要给你写公式的。哦,他永远会会会,现在也会,现在也会,而且而且他现在每个星期也会有一天在NYU,然后还是要带自己的group,还是会开组会的。
开组会的时候,就是要走到白面白板面前来,然后给大家那个写推公式,一点一点推。哦, highly technical, very very very technical。对,你们两个的分工是什么?呃,Yang是executive chairman,所以他其实更像是我们这艘艘大船的船长。哦,我跟他这件事情,我也我也我也跟他聊过啊。
谁是船长?他他是船长,不不是聊谁是船长的。我不想当船长。对对对,但他讲一方面讲说,呃,他很不喜欢希望管理这些 operation level 的事情,他不是一个好的 CEO。但一方面,我觉得你也不是,对我可能也不是。嗯,但我我又觉得他是一个很有智慧的一个管理管理者。他给我举这样一个例子,他说,呃,他的管理的思路就像。
在啊,在在划帆船一样啊,这件事情白的位是他的一个 hobby 之一,我等一下可以聊聊他的这个其他的有趣的事情。但他有一个 hobby,他马上三月又要去加勒比海上面去划帆船了啊。他说他的管理模式是说,给予每个人足够多的信任。嗯,让他们做自己该做的事情,但是,一旦出现了一些波折,对吧?一旦我们需要校正一些东西的时候,啊,他会及时的。
啊,as early as possible,尽可能早的去做这样的调整,对吧?但在此之前,trust everyone to do their work,就是相相信每个人去做做他们他们在呃擅长做的事情。嗯,对我觉我觉得这就是一样的定位,他是这个公司的一个呃,一方面是某种精神领袖啊,但另一方面也是这个这个这个大海航行靠靠舵手,对吧?
他他也是他是也有也有这种呃船长的身份在这。对,然后,但我觉得我对他的,对我,我觉得,我觉得,啊,我真正让我觉得我很喜欢跟这个人共事,还是更多personal的原因。因为我看也聊了很多这些decision,其实不是纯逻辑性的决定,有时候还是要看气场是否相投。嗯,啊,都是人的原因,都是人的原因。对,像杨,我觉得他虽然真的是大佬,对吧?
你会,但你会经常看到他在会场上面。拿着一个手机跟所有人拍一张自拍,拍张合影,啊,然后私下里面他也是一个蛮纯净然后温暖的人,对,然后跟他在一起,主要主要是我不会有这种畏惧感吧,虽然他可能对吧高高在上,功成名就,嗯,然后但我不会担心我说了一句错话惹得他不高兴。啊,这件事情我觉得其实还是蛮难得的,尤其在他的这种身份跟地位啊来看,然后我我我可以或者说包括这个公司里面所有的人都可以很直白的告诉他说这件事情我是怎么思考的,我觉得你说的对或者你说的不对,但我们一起来讨论应该以什么样的方式进行下去可以对这个公司最有利啊,我觉我觉得这件事情其实也非常非常难得。
对,能不能介绍一下你们到目前为止在资本上、在团队上的进展?当然,我们这个时候发的时候就已经是你们 announce 之后了。呃,是的,对,嗯,我觉得资本上。对这个没办法,我的世界模型不足以支持我给这样的预测。但是我们 target 可能可能会是差不多一个 billion 吧。对,如果不对的话,我们只能剪掉了啊。
嗯,然后呃,然后然后然后呃,人员的配比上面,然后我们会有很多小伙伴啊,志同道合的伙伴一起加入这个公司,所以我们开始会有。二十五人左左右的一个初始的团队,嗯,然后我们希望逐渐去 grow 这个团队,我们不想太快啊,但也不希望太慢。对,然后然后这里面其实就有很多,啊,我我觉得这这也是一个我觉得创业的磨砺吧。
因为我之前比如在大厂里面也会,呃,refer一些我的这些过去的朋友,对吧?我的学生,然后一起到这个公司里面,但完全不是一个一一个一个事情,对吧?大家去了不同team做自己的事情,但呃,来创业之后,我会发现真的可以把。大家聚拢到一起,哦,然后找到这样一个mission,嗯,然后这件事情我觉得太有意思了啊,嗯,然后这件事情其实我自己也很很感动,因为我们有好几个朋友,然后他们其实比如说都有好几千万的这个OpenAI的invested
stock,如果他们从OpenAI来,然后会有在比如说在Google啊也有好几。
啊,这种呃,哦,不是在谷歌,在在Meta也有也有这种十五个million到二十million的这样的这样的offer,对,啊,然后大家好像想都不想,然后就就放弃了,然后加入我们,为什么?我觉得,我觉得还是说,我们脑子可能都啊缺根筋儿吧,觉觉得好像对你,总之是你要你要你要考虑的是一边是research,一边是。
某些反难受的 outcome,对吧?那当然,我觉得一个创业公司最后做成的话,它的 upside 也是很大的,反难受力啊。至少现现在开始,我觉得大部分人还是很 Mission 追问的,对。然后大家还是相信这是唯一一个地方我们可以做这件事情。你们现在已经开始考虑商业模式了吗?呃,我觉得,我觉得之所以要融这些钱,可能也是希望能够减少一点这些压力。
但是,当然了,这是一个 serious 的 company,所以我们的 CEO、 COO 都在每天花很大的精力去考虑商业模式的事情。嗯,对,然后。哎,我能不能回过去再讲一讲一样?哦,好啊,啊,对,之后看怎么调整一下。但但我觉得我刚刚说,其实这个气质相投这件事情,其实完全不是一个商业 decision。
对,然后我觉得,嗯,符合你的玄学一贯选择方式啊。当然,当然,呃,考虑就是比如说,同时比起来,我也会有一些其他的机会,这些机会可能也会有。much better这种short term的反弹收啊,这种return嗯吧,就又会有更高的工资,更高的回报啊。但我一直考虑的这个这个方式是说,有些人劝我说:“哎,你先去赚两年钱,对吧?
赚够钱了之后回来再创业,不好吗?”啊啊,partly I agree,但是我又会担心说。对吧?我现在,我现在作为作为现在的这个人生的这个stage啊,还有没有两年的时间,可以让我在一个足够好的精神状态去做这件完全explorative的research?嗯,好,我觉得不好说,有可能在你有钱了之后,你的lifestyle,你的生活方式会变化,然后。
然然后然后这件事情也可能导致你失去了最开始的一些勇气吧。哦,然后我觉得这只是对我个人而言啊。我觉得现在我有很多很多的朋友,他们在 Meta,尤其在 Meta 对吧?大家大家其实都赚很多很多钱啊,他们也很卷,他们每天工作。我觉得也是加班加点啊,然后大家基本上都搬到公司旁边,然后每天加班一个一一个一个星期工作七八十个小时这种啊,我觉我觉得我也相信他们一定能够做出一个很仿天然的model。
但我也想对他们说,当你把这个猫做完之后,嗯,可以来我们这儿看看。我觉得,我觉得,Yeah, hopefully it's not too late。但我觉得,其实我认识的所有这些人,大大家都是有这个 mission 的。对 Meta TPD 的招人策略跟你的招人策略是一致的吗?呃,我觉得肯定不一致啊。
我们哪有钱像 Meta TPD 一样招人呢?啊,肯定不一样。对,然后或者说像 Thinking Machine,包括像 XAI,啊,我觉得,我觉得都很不一样。对,我觉得。虽然我们可能融资规模上面其实还是蛮不错的,对啊,至少也能排排进历史前几名,对吧?前几啊,估值多少?不知道,不知道。呃,估值估值我们一直没没变,还是三三个billion的pre-money的euro,对对,然后。
嗯,但是,钱其实还是不是很多,对吧?这个 capital 的 money 其实还是非常非常宝贵的。它不像像在 Meta、在 Google,你真的有一个印钞机在那儿啊,你不但 print money 啊, it's okay,你看 you can do whatever you want。我觉得在创业公司里面,我们还是要非常非常谨慎的去。
布局吧,我觉得你们是刻意不选去硅谷创业是吗?呃,对啊,我觉得我觉得 Silicon Valley again is very ill-piloted,就是大家经常说啊,就是说已经已经深陷于啊,已经被拉出去制造催眠了啊,然后啊,然后我觉得我觉得我觉得呃,但这件事情我觉得不会持续很久啊,被催眠的人总有醒来的一刻。
然后我觉得那时候我们我们完全不排除去硅谷设立公司。我觉得到最后,或者说可能很快。我们的公司 location 一定是哪里有人才,我们公司就在哪里啊,有一个有一个 office,这也是一个很很正常的事情,嗯。对,哎呦,还再再能让我说回杨杨一下吗?好,啊,没有,我想我想说的事情是,是我觉得样其实还有很吸引我的一个一点是。
他真的是一个斜杠青年,或者说挺文艺的这么一个人。或者按凯明的说法,样是一个十六岁青春期一直延续到六十五岁的这样一个人。哦,那很幸福啊!我觉得,我觉得他应该挺幸福的。但他经常就很骄傲的说,他有四大爱好啊。第一个爱好是造模型飞机。好,第二个爱好是拍天文摄影,所以他你看他Zoom经常讲讲套,背后他那有一个星云,对吧?
有个Nebula的这样一个一个一个一个桌桌布啊,桌面其实就是他自己拍的,在后院拍的。然后第三个兴趣是搞电子乐,啊,然后搞一些jazz呀什么这些事情,嗯,啊,然后然后你看。他的网页上面这也是宝藏啊!我经常时不时回去看一看。就他会讲说,在纽约有哪些这些 jazz club,对吧?这些爵士乐,嗯,比较好,哪些乐手比较好?
然后他又讲说,哎,这个,呃,通常来讲,法国人是瞧不起美国的流行文文文化的啊, jazz 除外。所以他讲什么 Charlie Parker
等等一系列人吧。然后这些伟大的乐手怎么怎么样?我觉我觉得好有意思啊啊!然后他还有一个爱好是,就我刚才已经说了,呃,这个帆船。所以,我觉得这样对这样的人对我来说其实是是很有很有吸引力的啊,因为我觉得他的世界其实是很大的,他的世界不只局限在 research 一小块儿啊。
然后我们都要做世界模型了。我希望,you know,这个这个这个这个大船的舵手是一个有格局、热爱生活的人。然后对,还有一个很很有趣的例子。我们接下来三月,也许这个节目播出的时候,我们还有另外一篇paper要放出来啊。这个paper叫叫Solaris,叫索拉里斯星。这个东西其实是一个科幻小说,呃,莱姆的一个小说,然后后来被塔可夫斯基改编成一个电影。
啊,然后我们之所以取这个名字,是因为我们在做一个所谓的这种video video生成的模型。然后这个电影讲的事情也是说,啊,有一片海洋,这个海洋可以读取人的潜意识里的记忆,最后把一些东西具象化生成出来。啊,然后,然后这件事情我觉得非常好玩。然后,当然,当然,塔可夫斯基在他那一部电影里面讲的事情是说,其实我们最大的敌人不是什么外星文明或者这些不不可知的这些海洋,其实是人自己,是人自己的。
苦难和自己的记忆啊,呃,所以这片海洋只是人对自己的投射而已。我想提这件事情是说,我觉得这个这这个电影跟L M发生的事情也太像了。我觉得L M。其实可能没有在理解人,他只是人的一个投射,只是一个反射而已,啊!但但我想是说,跟杨的的关系是在于,我有一天跟他讲说,哎,我们这个paper你觉得叫这个名字怎么样?
然后我想看他知不知道这个电影,然后他说:“哎,你知道这是一个电影的名字吗?”我说:“对啊,我我就是因为这个取的这个名字。”然后他问我说。那你你用的你你看的是哪一部啊?是一九七七五年的一部还是二零零几年的一部?对,哦,我找对人了。对,是塔可夫斯基拍的还是这个索伦伯格拍的?对吧?然后我说OK,我觉得嗯,我不光research服你,我在我在电影上好像你也比我懂得多啊。
我觉得我觉得。对,我觉得这是这是一点啊,蛮有趣的啊,可能对很多人都不重要,但对我个人来说蛮重要的一个一个一个人格魅力的体现吧。有一个中国的投资人曾经跟我说过,所有含着金汤匙出身的创业都没有成功的,几乎没有吧?你怎么看?呃,不懂什么叫金汤匙,融资金额巨大,I see,非常的有名作为founder,就是已经功成名就,而且是非常高的功成名就,嗯。
啊,我们没有含着金汤匙,就像我说,我们是完全一个草,不说草台班子吧,是一个草根联盟的一个创业模式啊。样怎么可能会是草根呢?样的草样不是草根,但他现在在整个AI的行业或者在互联网上,包括在投资人面前,呃,很多时候是一半支持一半反对的。一半支持,一半反对。我不知道这个比例是多少,但总归是他不是众星捧月的那种英雄。
他是一个,呃,坚守自己,然后啊,在永远尝试做下一件事情,但这件事情还没有做成功的这么一个人,嗯,对吧?然后我觉得这件事情导致我们不是含着金汤匙,我们没有金汤匙,我们完全没有这种感觉。我觉得我们是一个 underdog。就underdog,就是就是我们其实是在是在某种这种行业的压迫下生存的这样一个公司,对吧?
你们所有人都在,不是没没有凡尔赛,就真的那那我们可能会有很很多的融资,但比起L M现在撬动的资源来看。这简直对吧?我不知道是百分之几,差太远。你们融资难吗?呃呃呃,有样在这确实不难,对啊。但是对吧?我觉得,我觉得呃,sit round也只是sit round。我觉得要看后面,对吧?然后我觉得要看后面呢,还是说我们到底能不能deliver我们这个mission?
我们能不能把这个research的breakthrough做出来?我觉得这才是对我们来说最关键的事情。啊,但反正我会觉得我非常 enjoy 这种 underdog 的这种身份,尤其作为一个创业者啊,因为我觉得啊,我觉得做 research 也是一样,你们越不相信我,我越 happy。你有感受到谁对你的不相信?
在开始创业之后,嗯,我觉得很多人啊,很多投资人的feedback不相信更多还是相信更多?呃,我我不知道比例是怎么样。我们有很多很多人相信我们,我们有很多人不相信我们。嗯,我们很多的人或者在硅谷里面,大部分人不相信我们,在世界的其他地方,大部分人相信我们。所以综合起来,我不知道啊,呃,但没关系。对,我觉得我最期望看到的事情就是说,对吧?
你们可以不相信我们,但那我们就Let's see,对吧?这个啊,这条路我现在已经all in了啊,你跟不跟?嗯。是的,你觉得创业跟你做 researcher 有什么不一样?我觉得有很多相似的地方,然后但有很多不同的地方。嗯,我觉得创业的话,还是小心滑雪嘛。我不会,不会是吗?我不喜欢运动。我我以前也不会滑,但我最近滑雪,我觉得我还受到蛮多的这个这个感受的。
我觉得第一是滑雪是一个讲求平衡的运动,你掌握了平衡,你才能滑得起来。第二是。你要无所畏惧地把自己的肩膀朝向山下啊!我觉得这件事情太这个反直觉了。就人总是害怕的,人你面对山下的这个坡度的时候,你总是想要往回靠,嗯。反本能对,然后你反本能,然后你一旦从跟从你的本能做事情,你向后倒,那你就完全失控,然后完全摔倒,嗯,对吧?
你只有完全不具备这个这个,你你只有有足够的勇气,然后不害怕任何事情,然后把自己的肩膀向朝向山下的时候,你反而变得更稳定,对吧?然后你反而你更能控制你的速度。所以,这个我有一句话我很喜欢,对吧?这个这个可能是这个哪里的周周周里面的动漫里面的周周Spencer啊,他讲人类的赞歌就是勇气的赞歌。嗯,我觉得这也是我的一个。
对于创业的认知,我觉得,我觉得需要勇气。但你刚刚问这件事情,在学校是不是也是一样?我觉得他需要更多的勇气。但我在学校做的很多这些决定。嗯,我觉得我觉得也是一个蛮有勇气的决定,对吧?然后,并且还有一句话是,这个我我觉得你永远不会独行吧?嗯嗯,我觉我觉得会有很多的人帮你一起,好,也正是因为你有身边的人,所以你才变得更加勇敢。
嗯。你刚才说了你对research的taste,你觉得你对人的taste怎么样?首先,我我不觉得应该对人有什么taste。我觉得对人的taste的这件事情,好像还是一个居高临下的说法。嗯,我觉得识人能力怎么样?我换一个说法是,但我觉得这也是一个相互的过程。嗯啊,我觉得。Again,我觉得是有某种吸引力,把能够一起共事的人聚拢到一起。
哦,然后我们只需要遵循着这样的吸引力,去找到这些人,跟他们在一起就好。对,我好像不会。当然也会有一些具体的这些这些这些这些metric对吧?我们我们当然有一些,比如我们现在要面试,我也不能说啊那个你不用面试了,嗯,我有一套玄学逻辑可以用来用用来招人,我觉得也不现实,嗯,但确实我会比较在乎啊一些事情吧,我觉得我会在乎你到底是不是真的。
有这种想要解决一个问题、想要去理解一件事情的这样的勇气和这样的执着,我觉得这件事情对research、对创业来说都是很重要的。哦,然后我招学生其实也会也会需要有这样的对能能够看到这样的be,就是这样这样的这样的性格的人,嗯,然后。对,就这个到底是什么意思呢?就是在最做做做research的角度来讲,就是说你现在如果有一个问题摆在你面前,哦,这件事情也是凯明跟我说的,应该是他讲说,你一天起床要想这个问题,吃饭的时候要想这个问题。
洗澡的时候要想这个问题,啊,睡觉的时候可能可以不用想,那可能带着这个问题睡觉。你到底有没有这样的、这样、这样的、这样的passion,对吧?这样的热情去一直思考这个问题,还是你只是把这件事情当做一个工作来看待?我觉得这件事情,啊,我觉得,我觉得是一个可以区分人与人的的一个一个标尺。你现在有这个问题吗?
嗯,什么样的问题?嗯,就是每天带着他的问题。啊,有啊,有啊,那当然有了。但我现在问题是,这也是为什么我觉得,呃,在在呃在学校,我觉得待时间久了啊,有点难,因为在学校里面,其实作为一个发挥题,你需要做各种各样的,我们叫做 context switching,就是你需要切换这种上下文,对吧?因为你有好好多这种 partial,要要管理,然后要一起合作,嗯,我觉得在创业公司还是蛮好的。
我现在可以focus on一件事情,我可以想,哦,我们到底应该组建什么样的团队?这个团队需要什么样的人?我们应该在接下来一个月、三个月、六个月、一年。解决什么样的问题?嗯啊,这件事情我可能想的不对,但没关系啊。只要整个这个team齐心协力,对吧?大家可以fail together,pivot together,啊,那我觉得这个公司不会不会失败。
对我不能保证,我现在的每一个设想都是对的。我觉得样可能也没法保证啊,但我我还是相信人啊,像你说的,我还是相信把这些人啊,有理想有热情。然后想要想要闯闯出一番新的天地的人聚合到一起,一定能做出来一个一个了不起的事情。你是当场就答应他了吗?Leekun啊,没有没有没有,这个中间隔了很长很长的时间,也也不是Yang第一个找的我,反正后来呃Yang来负责recruit这个团队,那他也要思考说每一个人到底应该有什么样的角色。
对,我觉得后来我们一起在讨论,一起在协商,而且嗯,我觉得是一个蛮长期的一个过程吧。然后我觉得大家最后都找到了合适自己的位置。你纠结了多久啊?就从他第一次告诉你啊,纠结了可能一个星期吧。哦,在纠结什么?啊,就是说到底应不应该去去创业去做这件事儿啊?到底应不应该跟杨做这件事儿?嗯啊,然后或者说是不是去去寻求一些新的机会?
嗯,对吧?然后后来,但我没有纠结很久。对,我觉得,我觉得,again,杨用他的魔力,对我,我跟大家说,其实跟杨说话有点像,他有点像给你。就就就是casting
spells,就是就哈利波特一样给你施一些咒语,嗯,说一说一些话,然后你就你就你就你就不会想其他的了,嗯。他对你施了什么咒语?哦,没有啊,他只是讲了他的愿景,然后他只是讲了为什么这是一个更好的选择,对于我是一个更好的选择,对这个公司也是一个更好的选择。
为什么在这里我可以有足够多的agency跟autonomy,就是所谓的自主决断的这种能力吧,然后去。打造一个team,然后去帮我们去设计这一套一整套的这种执行的这种roadmap,啊,我也我也非常非常grateful,非常感感激一样能够给我这样的信任,对。但我们公司有好几个其他的co-founder,大家大家人都非常非常好,对,一共有六个co-founder。
哦,这么多,嗯,是的,是的,是的,还有一个CEO,还有什么?有一个CEO,对,还有一个COO,有一个COO,对,然后还有还有一个呃VP VP of World Model,然后还有一个呃,现在暂时的他就叫做C R I O,对啊,他也是一个中国人吧,对,我他叫他叫Pascal Pascal冯。啊,这是什么职位?
呃呃,更多的是某种介于 research、纯粹 research 跟 product 中间的这种 alignment 层的这样一个角色,是负责我们的 innovation 的。对,他也之前有很多的创业的经历。嗯,对。然后我们的 VP of world model 就是 Japa team 当初的这个呃呃这个这个这个这个 director Mike,啊,然后 COO 是当初 Meta 的。
呃,整个南欧区的VP,嗯,对,大概是这样一个组合,所以完全不是一个纯researcher背景的组合,嗯。你们会去探索to C的产品吗?呃,会的,而且最后的目的一定还是会有一个to C的产品。嗯,但我们希望,呃,我们不会受到任何的压力,因为我们还是希望先要把这个world model,不管你怎么定义它,先要做出来。
你们现在这个road map能规划到几年?呃,几年当然都很不现实了,对吧?我觉得如果能规划到一年已经很不错了。对,然后我觉得我们不需要更长期的规划。嗯,伟大不能被计划吗?呃,对啊,就是我不是就跟做 research 一样,我觉得你要有一个探索的过程,开始先探索,先动手做事情,嗯,然后逐渐的找到属于你的 idea。
哦,我觉得这件事情对于 startup 也是成立的。你觉得现在你们的 idea 进展到哪一步了?呃,我觉得进展到了,我觉得我们现在有事情可以做,并且我们还觉得会有一些,呃,很快会有一些很 promising
的结果的这样一个地步,对吧?但这件事情。啊,具体的是什么?我们可以过几个月之后可以再聊。但是啊,对,话又说回来,就是这件事情,其实外面的人对这个公司,对于样还有一个错误的认知,就大家其实不知道什么是Japa,嗯,对。
然后,然后,其实我个人也经历了好几个阶段。我从我从质疑Java到理解Java,再到成为Java这样人生的三个stage。嗯,啊,然后,然后这件事情我觉得也蛮好玩的,因为一开始质疑Java是因为我们刚开始做self-supervised learning,做MOCO,做AMI
Labs,然后我觉得,哎,Java好像是yet another self-supervised learning algorithm。
That's it。然后,后来慢慢理解Japa,是因为觉得Japa其实,啊,比我们想象的走的要更深。它里面会有很多背后的逻辑,有很多的数学的原理,并且我们也需要有人在这条路线上继续坚守下去,因为我们当初发现东西 scale scale up 不起来,然后就不做。嗯。然后,但后来
Japa,比如说,包括举一个简单例子,比如最近有一篇 paper 叫 The Japa,然后他们就一个非常严格的证明,说,哎,如果你要有一个很好的 representation,如果你要要想要让这个 representation,呃。
agnostic to your downstream task,那它一定是一个 as asotropic Gaussian distribution,啊,就有点 technical。它本质上就是说,它是对这种表征的某种性质的一个刻画。嗯,然后我发现,哎,这件事情其实还是有它的道理。然后真正成为 GPT 是因为我觉得 GPT 不是一个模型,GPT 不是一个具体的算法。
Japa是一个整整个一套的 cognitive architecture,就是一套认知体系啊。这件事情是一样,在他的二零二二年的 paper 里面写到的事情。所以这个认知体系,在我看来。是通往一个智能universal的智能体的一个,在我现在看起来一个很合理的道路,对吧?所以它需要负责Japa
Japa不是只是self-supervised learning,它需要有这种word understanding的能力,它需要。
就是理解世界的能力,然后他需要能够有做 prediction 的能力,然后他他需要有能做 planning 的能力,嗯,对吧?啊,预测跟计划,对我觉我觉得我觉得这件事情让我对 GPT 有了新的认知。然后我发现 GPT 其实不是一个具体的,像像大家外面说的一样,好像说哎,一样有这样一个方法,然后它一定要基于这样的方法,然后把它做成一个什么样的事情,不是这样的。
GPT 是一个非常非常广阔的海洋。在这个海洋里面,可以有好多好多的船在上面,在上面,在上面开啊,然后,然后,呃,最后这个整个一套系统会有很多的协作,并且L M也是其中的一部分。嗯,对,所以这件事情让我觉得,嗯,这个公司。可以做,并且有很大的机会可以做成功。原因,他不是把事情做小了,现在很多L M的赛令下面,大家是把事情往小里做。
但样的公司是刻意的把事情做大,嗯,它有足够的空间让我们去做探索,让我们去做 scale up,然后直到最后我们可以有一个某种新的 breakthrough。这件事情到底什么时候来,会不会发生,我们没办法判断。但我觉得这是一条我愿意投入我的我的生命去啊去走的路。创业以后感觉怎么样?真实的感受有变忙变累,有变忙变累当然是有了。
我觉得会有很多 ups and downs,就是会有会有很多。繁琐的事情,但是也会因为整看着这个公司一点点成长起来,看着一些,呃,因为我们有四个office,有这么多的这个legal problem,whatever,对吧?这么多的这种internal friction。面慢慢就是这种应成本来的这种内部的摩擦,慢慢变得润滑,对吧?
这个过程其实也是蛮开心的。然后在在这个过程中,我们也得到了很多很多人的帮助,所以啊,暂时看下来,我觉得我做了一个正确的选择。嗯,跟你预期也许还是会有一点不一样的,可能更乐观。嗯。对,我觉得,我觉得跳下来那一刻就是恐惧消失了。嗯,对,我觉,我觉得只要有勇气,一切都好说。嗯,然后我觉得在这个公司里面,啊,对我是能找到这样的勇气的。
嗯,你刚才说。AGI是个伪命题,你这个能展开一下吗?哦,AGI是伪命题,这这件事情也是一样,经常说的,他之前不是跟Damis有一个辩论嘛,对吧?他就说到底。什么是 general intelligence?General intelligence 到底存不存在啊?这件事情我可能也就不赘述。但其实它的这个逻辑也很数学,也很、也很、也很、也很、也很一样。
对他说的事情,就是基本上说的事情,就是说,呃,这个人比如说有两百万个这种视觉的神经纤维,嗯,这件事情可以去 model 的所有的可能的这种视觉的函数,其实是非常非常大的啊。它是二的。二的两百次方这么多的这种函数,但人能够真正去 process
能够看到的东西,其实基本上啊趋近于零,对吧?就是我们受到我们的意识的限制,我们受到我们自己的神经的这种这种 bandwidth 的限制,我们看不到这世界上发生的一切的事情。
嗯啊,所以人的智能是一个非常 specialized 的智能。对他只能人只能认知到自己能看到的东西,嗯啊,然然后来我又补充了一个Twitter,就是说我看了一本书叫做《Are we smart enough to know how smart animals
are》,就是我们到底是不是够聪明?让我们知道动物有多聪明,嗯啊,然后我是觉得看了这本书之后,我会放弃更多这种人类的自大,啊,我觉得,我觉得这种智能眼镜是一个连续的过程,它不是一个说,哎,人啊就真的是独一无二,对吧?
很多时候我们说啊,人人很有智慧,是因为人会使用工具,但动物一样会使用工具。然后有些人说,呃,人其实有这种某种啊某种对自我的认知跟意识啊。一个一个实验是说,人能够看镜子,然后能意识到这个镜子里面的人是自己,而不是另外一个实体。狗狗是不是也可以啊?对很多动物都可以哦,对吧?因为有一些动物不行,狗狗还蛮喜欢在镜子里看自己的。
对,反反正有很多动物,动物动物动物确实不行,但有很多动物可以,对吧?然后然后也有很多很有趣的事情,比如说像黑猩猩,对吧?然后这个作者。呃,这个这个这个,Dewar他还写过另外一本书,叫《黑猩猩的政治》吧,叫做,然后就讲这个有四只黑猩猩怎么样去做这种权力的博弈啊,就很像这种纸牌屋或者怎么样这种有很多斗争,然后你怎么样拉帮结伙,然后有一些权谋,然后上位啊,然后然后然后等等一系列故事吧。
啊,我觉得这件事情也很也很有趣。然后还有一个,我觉得我印象比较深的事情是说,嗯,比如说他们其实这些动物,包括包括黑猩猩,也有某种 theory of mind,就它也能有自己的 world model,并且它们 world model 还挺强的。比如有一个例子是说,啊,这个实验人员在一个房间里面,然后它有两个 box,然后这个 box 里面。
比如一个放了香蕉,一个放了苹果,然后我们把这个给黑猩猩看一眼,然后把盒子扣上,对吧?然后呃,然后这个实验人员就把黑猩猩拉出去了,然后过了很长很长时间,再把它带回到这个 room 里面啊。然后这时候黑猩猩看到第一件事情,是一个实实验人员在吃香蕉。啊啊!然后黑猩猩直接径直就去打开那个装有苹果的盒子,把苹果吃了,看都不看这个香蕉一眼啊!
所以,所以黑猩猩也有某种。这种这种推理的能力,对吧?然后虽然确实语言是独一无二的,语言是只有只有人类有啊,但不代表其他动物不会交流。如果我们他们有他们的语言,他们有他们的语言,包括你像金鱼也有也有自己的语言,啊,反反正这件事情还是蛮有趣的,我我很推荐那本书,然后然后包括还有我看到那个叫叫什么某一种鸟啊,我我忘了叫什么了,然后他就说他们很会,就是如果他在埋一个食物,他把一个食食物要埋到地底下啊,如果他发现有他的同伴看到了这件事情。
他会先埋在底下,等到这个同伴走了之后,把它挖出来,换一个地方重新埋下去。对,所以,所以我觉得还蛮有意思的。然后,当然我们也知道,对吧?那狗的嗅觉很灵敏,然后蝙蝠会基于听觉,我觉得。智能的界限是很很广泛的哦。大家现在说 Jack 的 intelligence,对。那你们的 world model 会先朝着哪一种生物的智能去做呀?
目标当然是人类的智能。人类智能肯定还是。对,还是还是在至少在一个dimension上肯定还是最强的,或者说他也是能够最能benefit这个世界。对,所以我们还是希望build一个world model通向human-like
intelligence啊。但我只是想放弃人类的这样的自大。然后这件事情其实我最近很受启发,是因为看了这个Rich Sutton的一个他在这个啊这个podcast上面的一个一个一个一个理论。
因为其实我之前我也不知道我该怎么address这件事情。啊,因为大家说,哎,L M不是很厉害吗?L M现在可以写 code,可以拿到 I M O I O I 的金牌,可以帮我们去月球、去火星,这件事情太伟大了。然后我觉得我没法否认这件事情,这件事情确实很厉害,对吧?然后但 Rich Sutton 这个他的他的回答,我觉得就很好。
他回答是说:“你觉得这件事情很伟大、很厉害吗?很难吗?那你就这么觉得吧,因为我不这么觉得。我觉得能够打造出来一只松鼠的智能。”这件事情才是难的问题。一旦你有了一只松鼠的智能,一旦你能够去 build 一个松鼠的智能,能够让它在这个真实的世界活下去,它有自己的 goal,它有自己的目标,它有自己的像你说的这种 intrinsic reward,它知道饥饿,它有自己的 emotion。
然后他能够有一定的社群的活动,后面的写 code 写 code 上火星上上月球这件事情都是再容易不过的事情。好,我现在慢慢觉得我非常认同这个观点。对,如果抛下人类的自大,我觉得打造松鼠的智能其实是一个更难的问题。但对人来说不是这样,对对人的认就是对于对于我们的认知来看好像不是这样,但这件事情完全是因为人类的自大。
嗯,你们也要做人类的智能啊?啊,是呀。但就是说,这个人类的智能有很多很多点,人类的智能不只是语言模型啊,人类的智能有很多智能不能通过语言模型或者语言本身所决定。对,我觉得这是一个核心的观点。你对智能的定义是什么样的呀?嗯,所以说刚刚说这个这个这个 Rich Sudden 讲这件事情,对吧?他觉得松鼠的智能才是真正的智能。
我觉得它的定位有点不同,它定位不是站在人类的视角,以人类中心的视角看待这件事情。他是站在宇宙跟造物主的视角看待这件事情,在这个角度,那当然能够重新去造出一只松鼠这件事情,要比你的你的人类文明在这五百三十个million years最后的八秒创造的东西要伟大的多啊!在这个意义上,我觉得,嗯,又升华了。
我觉得,我觉得上价值有道理啊。但怎么样定义智能这件事情,我觉得。我不会想要去给他一个定义。我觉得就是不同的动物有不同的智能,然后人也有 human level 的
intelligence。嗯,对。然后我希望鼓励大家的事情是说,不要只关注那些我们每一个个体做不到的事情。关注一下我们现在做的很好的事情,关注一下一个四岁小孩儿或者说几岁小孩儿就能做的很好的事情,哦,这些事情其实是我们接下来世界模型需要着重去解决的问题。
嗯,所以这件事情也是为什么 robotics 是一个最后非常合适的出口,因为在你谈论什么 A G I S 这个 super intelligence 之前,能不能先有一个足够 reliable、足够 general 的 robot?能够在我们的家庭的环境里面帮我去解决一些家务,对吧?因为一个几岁的孩子其实能做很多很多的家务,这个这个有一个列表,你可以去网上搜一搜。
一个十二岁的孩子基本上可以做所有的家务了。但现在到底有没有一个机器人能够像一个十二岁的孩童一样去承担这些家务?当然没有。谭杰,DeepMind,谭杰他也说,就是机器人发展是极不平均的,极不平衡的。他跟一个小孩的成长的轨迹是不一样的。嗯嗯,比如说现在机器人的四肢的发达能力已经比他强了,已经比人强了。嗯,但是很多其他能力都还不如一个小孩,因为大脑没没有人做大脑这件事儿哦。
没有人构建机器人大脑,所有的机器人创业公司,包括在大厂的机器人公司,都没有去解决这件事情。DeepMind不算吗?DeepMind现在完全也是基于Gemini,所以它也是在VLLA的框架下去做。嗯,是是是,所有东西收敛到收收收敛到Gemini。对,嗯,哦,但这件事情需要一个预训练的下半场,嗯,按按按姚顺宇的这种经典说法啊,我觉我觉得需要需要下半场,但我觉得这是一个预训练的下半场,嗯,Jim
Fan其实最近也发表了同样的观点,然后那这个预训练就是Word Model预训练这件事由谁来做?
这件事情对我来说是不清晰的。如果我知道有另外一个地方也可以做这件事儿的话,那我可能真的还可以考虑一下。我也我也不一定非要在现在这个 startup 自己做这个事儿,对吧?robotic startup 没有任何的精力去做这件事儿。啊,他们需要把自己的资源投入到所谓的硬件scaling
up,对吧?就是就是你需要买更多的机器人去deploy这些机器人,然后或者在simulator里面去做这些这些imitation learning的方式,能够让你有一个足够好的,能够在短期内解决一些啊这种这种具体问题,创造价值的这样的机器人的团队。
哎,派呢?派V L A对吧?派也是一样。派我觉得已经是一个非常非常researchy,然后做的已经非常非常不错,而且有启发性的一个公司。但again,他们不会做预训练,他们不会做pre training。他们会会拿这个 language model 作为他们的 foundation,嗯,对吧?你们的预训练下半场怎么理解啊?
就它输入什么输出什么?呃,不知道,至少第一步就是,呃,长期来看就是输入的是所有的像我刚刚说的连续空间,呃,高维度的可能有噪声的信号,嗯,对吧?那一开始可能可以还是video,但我们也可能会有一些多模态的encoder去handle不同的这种这种除了视觉之外的信号,然后输出的东西这是research的问题啊。
这是还不 self-supervised 的那轮子啊,我不一定不知道,但是对啊,可能之后会更更清楚,对。然后,但是这件事情,我觉得呃,肯定没有那么容易了,但我觉得这也是 exciting 的地方之所在。我还觉得挺有意思的,因为我们第一次见面你就说 you are not the chosen one, you are just the normal one。
你为什么这么喜欢说这句话啊?没有,你看我这个一路我们也讨论我这些对吧?这个成长历史啊,我我其实没有预预料到我们会聊这些,但是但是,嗯。对我,我觉得肯定不是那种天选之子。然后这句话其实也是我喜欢的一个,呃,球队对吧?就是利利物浦。然后我我是一个cop,已经二十多年了啊。然后然后我觉得也也有点气质相投。
然后我最喜欢的一个教练是呃这个克鲁普,Jurgen Klopp。然后他其实是有点半半开玩笑的跟大家说,就当初另外一个教练穆里尼奥,然后说I am the special one,我是特殊的一个。然后,然后克鲁普说啊,I'm not the special one, I'm the normal one。
对,然后我觉得这件事情,嗯,一方面他自己又非常朋克,他又是那种摇滚气质,然后,然后,然后,然后,呃,然后他又又又经常跟大家说,他觉得他在团队里的定位就是一个电池的作用。他希望能够通过自己的passion、自己的能量,去you know让其他的人啊给其他人的发电,empower其他人,empower其他的人。
嗯,对我也想成为这样的人,我也想成为。一个团队,不管这个团队是在在在学校还是在创业公司的一块电池啊,我觉得这件事情其实不容易,因为有时候。每个人都会有沮丧的时时间,嗯啊,我也想,这个这个多吐吐槽,然后抒发一下情绪。但我现在慢慢觉得。在学校,比如在在学生面前,然后在创业公司的团队面前啊,需要能够有人有这种电池的作用啊,或者说,我觉得杨是一个巨大的电池,他感召了我,但我希望把这个电力通过我也输送下去。
嗯,你最近一次感到呃沮丧是为什么呀?我天天都感到沮丧。我觉得这个已经变成了一个的,这也是researcher的一个宿命吧。我觉得大家这个对底色都挺悲凉的。原因是research的求索的过程就是在一个暗无天日的这样这样一个一个地方去摸索的过程。嗯。你看不见光亮的时候,你总是会感到感到迷茫跟沮丧,对吧?
然后大家真正感受到这种快乐的时候,无非就是你真正把东西做出来的时候,但这一部分的时光又是非常非常短暂的,对吧?可能也许只有百分之五百分之十。凯明好像也说过类似的话。所以长此以往,对吧?以后这个大家大家心理心理状态也很堪忧啊。但我觉得还好,对我觉得,呃,我觉得,我觉得现在这个时代,我觉得还是跟原来不不那么一样了吧。
就是我觉得现在会有更多的。讨论啊,我觉得这也是这个AI这一波带来的好处,就是至少大家不会觉得自己是在一个幽闭的空间里面独自的探索,对吧?至少大家可以刷刷小红书、刷刷微博、知乎,看看大家是怎么讨论这件事儿的啊。我觉得这件事情有时候还是挺解压的,但有时候也挺增加压力的。被人骂的时候,你就不这么想哦。你们公司。
有创业者人格的人吗?因为创业者人格一般还蛮乐观的。呃,我觉得样本身就很很乐观啊,非常非常乐观。他为什么不是 researcher 这种悲凉的底色?啊,我不知道,因为他经历过悲凉,然后成功了吧?哦,他经历过这个AI的寒冬,然后。告诉所有人他是对的,你们是错的啊!如果我经历一下这件事情,我可能也没那么悲凉。
啊,他他还是蛮乐观的。我觉得这件事情,或者说他过去的这些经历,也让他更有信心啊。然后他经常说的一句话是:这件事情跟过去 deep learning、 neural network 发生的事情一模一样。哪件事情?呃,就是现在 world model 或者你不管怎么叫它啊,现在的系统,现在智能系统搭建。
他说,总有一小群人。大家能够清晰的看见这个世界发展的脉络,啊,这个科技的进程,嗯,但是他们只是一小撮人,啊,大部分人看不见,对,因为大部分人都在忙着做其他的事情。那可能 deep learning 之前,那可能就是做一些 whatever,嗯,其他东西,实际上是 machine learning,嗯。
那现在对吧?你这个东西就是你可以,嗯,不说了,想一想,啊,对。然后,然后我觉得,我觉得他其实还是蛮乐观的,或者说他有呃足够的 confidence,然后说,嗯,我能看到的事情是重要的事情啊,我能看到的这条路线是一个清晰的路线,对。然后,在这件事情上,我还蛮相信他的。你有怀疑过他吗?呃,我我说了嘛,我质疑Japa,然后理解Japa成为Japa,所以当然有过怀疑。
但我觉得对人的信任和对一条research主线的信任这件事情是需要时间的。我前两天还在跟学生说,Young每次出去给talk会给一模一样的一个talk。就是他那个 slides 也是,说实话挺难看的,对吧?啊,然后然后,但是又有他个人化的风格,就风格跟 design 这件事情也很有意思。就有些东西本来很丑,但你用的多了,等到时间发生了变化,它又变成了新的时尚啊。
但但他每次给这样一个同样的 talk,但我最近体会就特别特别深,我就说,我这个 talk 已经翻来覆去看了。至少十次二十次,但每次都有新的收获,每次我都会觉得好像我更加 understand。他到底是什么意思啊?然后这件事情的这个更多的 understanding
不是因为我看了十次二十次同样的内容得到了这个新的 understanding,而是因为我自己在做我自己想做的事情,嗯,然后我能找到就是我我我我在看他 talk 的时候,每次都会去做这种翻译工作跟联想工作,我会发现哦,原来他说的这件事情,在我现在的认知体系下。
是可以这样解释的,它跟甚至现在的 large language model 的范式、多模态的范式一点都不冲突。所有的东西一样说的话,都可以被很清晰的 map 到我们现在在做的具体的事情上,并且指导我们可以走出也许某种 local optimal,哦,然后也许可以通向一个一个不一样的未来。嗯,所以它变成了一个 inspiration,对吧?
它它不只是 knowledge,它是一个 inspiration,对,嗯,所以这件事情我觉得也很也很奇妙。嗯,我们刚才聊了很多世界模型。你对这个真实世界的世界模型有什么新的思考吗?在过去一两年,我觉得就是说这件事情一定要超过超出这种research的局限,researcher的局限。啊,一定要走到真实的生活里面去,然后要要了解到这个真实世界发生的事情。
但是我觉得纽约很不一样。我我我我就每天我上班啊,首先我不用开车啊,所以已经开始进入到从一个从一个铠甲脱离出来,进入到真实生活,开始开始步行啊。这件事情我觉得也也有很很多很奇妙的这种反应。比如说我每天有时候其实还是压力蛮大的。有时候遇到一些事情还是蛮沮丧,对吧?啊,但每当我穿过这个从我家到我学校办公室,会有一个公园叫
Washington Square Park 华盛顿公园啊,然后呃里面形形色色的人,什么人都有啊,大家都在过自己的生活,有弹钢琴的艺人啊,有有跳舞的,有这个推着婴儿车的妈妈们啊,有下象棋的老大爷。
对吗?然后有坐在台阶上什么也不做发呆的年轻人,也有拿着电脑学习的AMU的学生哦。然后我觉得我每天最解压的时光就是这大概五五到十分钟的路啊,我会发现这个世界比我们想象的要大得多,不是所有人都关心什么叫做AI。啊,他们可能不care这件事情,然后他们有自己的生活。这个世界很大,但另另外一方面,也许AI在未来某一天确实会影响到他们的生活。
那我们到底应该做什么?我们作为一个researcher,有没有某种社会责任?哦,但这个可能说的有点远了。但我只是觉得,多跟人接触,多跟生活在这个世界里面的人接触。让我对什么是AI,应该怎么样去做下一代的AI,会有一些新的新的认识。于是这件事情正是伊利亚当初给我打电话的时候,他想要跟我聊的东西。但我那时候还没有这些感悟。
有了什么新的爱好?新的爱好?嗯,在纽约吗?对,没有什么新的爱好。我觉我觉得啊,我觉得滑雪算一个吧。对,其他大部分时候可能还真的是没有时间哦。但是在纽约的好处是,你知道你出门之后啊,就能够去找到找到一个新的爱好。这件事情本身对我来说已经足够足够开心啊,不管我有没有时间真的走出门去然后做这件事情。嗯,然后嗯,有这样一个机会在这儿,我觉得还是蛮不一样的,跟湾区也很不一样。
能分享一下,除了工作以外,你有什么喜欢的音乐、喜欢的书、电影、喜欢的游戏?现在啊,嗯。啊,这件事情还蛮蛮蛮难想的,一时半会儿,我我我就我看我我觉得还是通过AI来讲吧。我觉得最近看了什么东西,我想想啊,嗯,我还挺爱挺爱看电视剧的啊,所以可以推荐一些电视剧给给大家看一看。嗯啊,呃,有有个有个电视剧叫POI啊,也是一个很老的剧,好像Personal
Interest,这个很多年前看啊,在那个里面大家讨论了。
什么是一个super intelligence?你有一个好的super intelligence和一个坏的super
intelligence,他们之间的竞争,跟跟对这个人类社会的威胁,嗯,然后我觉得这件事情。啊,我就不剧透了,但是还是挺多模态的啊,而且这件事情有可能有,我觉得有一定的预言性啊,我觉我觉得还挺挺神奇的,对,啊,本质上它就是怎么样从一个在一个盒子里面的呃语言模型,或者说一个可以写代码的这样一个agent,一步一步跳脱出来,变成一个多模态模型的一个过程,我觉得大家可以看一看。
然后到后面,当然还有,嗯,我很喜欢的,比如说像《万神殿》啊,这也是一个我觉得是一个某种A I的预言。对,它是一个动画,它的作者是这个刘宇坤啊,他也是我的老乡。然后,但他也是一个呃,当过什么律师,当过码农,然后最后变成了一个呃小说家啊的这么一个人啊,非常非常厉害,我非常非常敬佩他。然后他他的书我也很爱看。
对,然后啊,但这部剧之前也被Sam Altman推荐过,所以很多人也都看了。然后还有啊,最近当然就是这个很火的这个《同乐者》叫做啊。我觉得这件事情也是一个AI的预言啊!现在有一点麻烦的事情在于,这些流流行文化被AI渗透的太多,导致所有事情好像都跟AI有关系啊,有点受不了啊!但是,但是作为一个,那可能只是因为我是一个AI从业者,所以,所以有时候会会有会有会有不一样的感觉吧?
啊!但我觉得其实这些事情还是蛮有启发性的,包括我之前说的这些科幻小说啊,包括这些老的电影。我觉得那他们可能都是某种现实的预演吧,啊!但通常来讲,这些啊这些这些影视作品都没有去指向到一个很光明的未来。通常来讲,结局都是挺惨淡的,嗯。啊,我最近还看一个电影,叫好像叫呃《No Other Choice》,可能翻译就过来叫叫别无选择吧,朴赞郁的一个电影。
然后啊,他讲的也是AI对人的异化。他全片这个电影没有讲任何关于AI的任何事情,直到最后,但通篇都在讲,因为AI的到来。人到底发生了什么样的变化?人的心态,人与人之间的关系到底发生了什么样的变化?我觉得这些事情也很有很有借鉴意义。对,然后说到电影,最后说一句,就是欢迎大家来纽约。在纽约,我现在以前我会参加一个电影节,就是纽约电影节,会有很多这些电影可以看啊。
现在我会参加两个啊,呃,第二个是这个Runway每年举办的AI电影节。哦,然然后我觉得也很酷,也很有趣。然后要推荐的话,跟我们刚刚说的这些事情都很相关的一个今年的得到他们大奖的这个这个A I电影叫做啊的啊Total Pixel Space,叫做中文你可能叫做全像素空间Total Pixel Space。
然后啊,对我也不剧透,反正这是一个很有趣的一个AI AI的短片。然后它其实讲了很多我们刚刚讲到的关于世界模型,或者说为什么人的intelligence不是只是简简单单的,或者不是这呃purely general的这种intelligence的啊一些一些argument,我觉得很好玩,嗯。我们的每一位嘉宾都会给我们的观众推荐一个人生之书,就是希望他是真的影响过你、改变过你。
你的会是什么呢?书吗?嗯。胖男,你得让我想一想。嗯,一本书,我猜大家可能可能都经常推荐啊。然后,但这本这这本书之所以对我的人生改变很大啊,我不我觉得不能说对人生改变很大,但是是我在本科的时候一个一个群体性的记忆,就大家会看这本书,叫做呃《记忆壁》。啊,你有你有听说吗?就是呃,哥德尔、巴赫、埃舍尔,啊,中文名叫《极易必之大成》,对,里面讲了很多关于啊哲学,关于数理逻辑。
嗯,然后以及这三个人,对吧?哥德尔、巴赫跟埃舍尔,对吧?一个啊,一个数理学家,一个音乐家,好,然后有作曲家,然后以及一个呃画家,嗯嗯,他们之间是怎么样能够啊?他他们到底有哪些哲学的共同点?可以可以这么说。的,然后然后这件事情很有趣,是因为我们本科的时候这本书有这么厚啊,我们我们组团在学习这本书哦啊,这也是我们老师推荐的,所以大家组团学习这本书,然后其实当初大家也看不懂。
但是到后面可能越来越觉得这件事情,嗯,有点道理。对我觉得这这这本书,呃,我觉得如果没有时间去仔细看每页的话,也可以稍微读一个精简版或者某种某种summary。对它里面有些观点,我觉得非常非常有意思。对,然后还有,呃,一本书是那这个也是可能是本科的时候看的,对,啊,叫做《单于摩托车维修》哦。还是叫摩托车修理,Then the motorcycle repair好像叫这个名字,对啊。
然后这本书也是一个内心求索的过程,嗯,他讲的就是一个人骑着摩托车,然后有一个啊,这样可能又剧透了,有一个想象的中的这样一个一个一个哲人,但其实这个哲人就是他自己的投射。嗯,我觉得我看这本书的感觉是,我也其实并没有完全看懂他到底在说什么。对,嗯。但是有些书、有些电影会把你装满,有些书或者有些电影会把你掏空。
哦,我看完这本书的感觉是,他有点把我掏空了的状态。哦哦,然后让让我感觉到了一些。嗯,对,这这个说起来又虚了啊。然后,然后,反正让我觉到了,觉嗯,让让我感受到这个世界里面到底什么重要,什么不重要。对于你来说,什么重要,什么不重要?哦,我不知道,我我觉得永远在找这个平衡吧。我觉得,嗯,我觉得人与人之间的。
真诚的交流是重要的,也许其他都不重要,但我在某一个时间点上你要问我这个问题,那可能我觉得啊,我会说创业很重要,会说research很重要,嗯,但归根结底,我还是相信人与人之间的交流这件事情很重要。听起来你想做 research 也是为了交流,呃,对啊,我觉我觉得是啊,而且我觉得 research 本身也是一个。
Deeper connection吧,嗯嗯,这件事情其实我们在融资的过程中还帮到了我们,为什么呀?啊,就有一个投资人很愿意投我们,然后他的原因原因是原因是他认识的一个很强的一个创业者,也是一个研究员,嗯,然后他说哎,你们一定要投赛宁,然后我们不管以什么样的方式都要帮到他,但我们这个人只在开会的时候见过一次。
哦,然后后来后来这个啊,谁呀?呃,谁呀?啊,这个这个Robin Robin Rahman,就是他是这个呃 Stable Diffusion的一组,是现在 Black Forest的CEO哦,对。Flux对吧?然后,然后,然后这个,我觉得投资人跟我说说,其实他之所以会这样,呃,就是就是这种信任关系啊,是建立在你的学术工作之上的。
这种信任关系,甚至有时候会远超于你真正的personal的这种connection。哦,大家通过一你的一篇作品了解你。然后这件事情会会会传承下去,甚至可以走得很远。你怎么看现在这个 C Dance 啊?呃,C Dance 非常厉害啊!C Dance 这个真的让让我们这个今天的摄摄制组的朋友也可以来讲一讲。
我觉得非常非常强。然后我听说他们也是一个很大很大的模型,而且是一个 M O E 的模型,不知道这个小道消息是否属实。啊,因为在此之前,我我我知道,呃,大家没有人能在这种 diffusion model 里面把 Moe 做 work。如果他们真的能够做到两百两百个 billion parameter,并且是一个 Moe 的架构,并且他们能够把这些数据吃进去,啊,我觉得,我觉得,我觉得非常非常了不起。
嗯,啊,然后但是所有这些生成模型,百分之九十还是一个 data 问题,啊,架构不重要。百分之九十,或者我再说百分之九十五吧,都是一个data的问题。嗯,它的data本身就多,它的data本身多,但多不够。嗯,他们应该做了大量的工作去清理这个数据。去做captioning,去校对这些数据的分布啊,它们diversity、quality以及它们和语言的这个prompt alignment的程度。
呃,我相信这里面应该有大量的人参与这个工作,然后做了大量的事情。对,但是,一旦你把这些事情做好了之后,后续的事情啊就变得简单很多。嗯,但我觉得,我觉得C Dan是很厉害啊。我觉得,我觉得啊。包括sorry啊,包括view想要超越啊,我觉我觉得不一定那么简单。我们的工作室叫语言级世界工作室。当你听到这个名字的时候,你在想什么?
啊,我看到你给我写了一句话,叫“放”,呃,叫那个。放开维特根斯坦,对,放开维特根斯坦。哎呀,以这个结尾是不太好呀,我又开始吐槽了。没事,你我放开维特根斯坦是说你不要,大家不要拿着维特根斯坦,然后哎使劲薅,然后把它作为一个。语言的边界就是我世界的边界,对吧?这句话拿拿来当做一个L M或者语言决定论的背书,我觉得这件事情完全是很离谱的啊。
然后同样的话也也有其他的话,比如说大家说这个费曼讲What I cannot create, I I do not understand,这件事情拿来当做一个Unified Model的背书,我觉得这件事情这两件事情都让我实在是接受不了。嗯,啊,第一件事情是什么呢?第一件事情是维特根斯坦,对吧?他当初讲的这个语言的边界,呃,就是我世界的边界,是有强烈的前提的。
他在这个 Tractatus,什么 Logical Philosophicus,里面讲的这件事情是说。是是说,是说你你的你的,他指的语言针对的是可以被命题啊刻画的这个世界的边界,对。然后这件事情不代表general的整个我们所说的这个世界。对,然后,然后,所以,所以这件事情,第一就是他说的这个这个语言和他说的世界,本来就跟我们现在 L M 里面说的语言跟世界有区别。
第二,维特根斯坦在后期的时候已经完全推翻了自己之前的这个这个一整套的这种这种啊哲学体系。他后来不再说这句话了。然后他讲的事情是,语言其实是一个游戏,所谓这种语言游戏这样的一个概念,就说语言本身没有意义,这些symbol本身没有任何意义。它之所以发生意义,是因为它跟真实世界的实践发生了关系。嗯,然后这件事情就很世界模型了。
啊,就是就我们并不是说语言就能够去完完美美的去represent整个这个世界。我们说的事情是说,这个世界的实践,这个世界的action,决定了语言这个游戏它的内涵跟外延。嗯,呃,again,我我不懂哲学,我也不懂维特根斯坦,但我只是不喜欢看到大家paper里面开篇先拉一句话放在这儿啊,然后我觉得这件事情不符合我的审美啊,然后包括费费曼那句话也是一样,嗯,他说What
can I? What I cannot create, I do not understand。
啊,这句话本身没错,但他说的这个create跟understand。是说,比如说,我们有一个世界,对吧?我们要,我们要认识这个世界,我们要改造这个世界,我们要通过改造世界的方式去认识这个世界。Whatever啊,他说的这些事情还是在一个真实的具体的世界里面要有某种action的。嗯,即使是你是上课,你去你去做一个PPT,你还是一个创造的过程。
但现在很多人会把这句话拿来去做这种,呃,某种简单的 unified system 的一个背书,这件事情逻辑上也是不成立的。我们不能简单把create这件事情归结于一个diffusion model,它反向传播的这么一个loss啊,这这这件事情完全是离谱的,嗯,对吧?所以,嗯。我我我我不知道,我觉得我觉我觉得就跟我可能可能也是我小时候写作文,这个名人名言用多了吧。
现在看到这些事情有点PTSD啊。然后我觉得像凯明讲的啊,大家可以多读读读读哲学。我觉得这件事情还是蛮有意思的。嗯,你一开始就说你相信命运,而且越来越相信。你现在感觉命运在把你往哪里推啊?啊,我觉得。我不知道啊,哦,命命运在在推我吗?好像也没有,对,好,我我觉我觉得好像没有被命运推着走的感觉,嗯,只是。
嗯,在下一次需要做选择的时候啊,希望上天保佑吧。这个世界是一个巨大的世界模型吗?这个世界当然是一个巨大世界模型。那你能预测命运吗?呃,我觉得不能。为什么呀?嗯,因因为我们资源不够。哦,你需要用地球这么大的一个计算机啊,或者说你要有一个有整个宇宙作为你的计算机,才能告诉你一个关于生命啊,关于宇宙,关于任何事情的答案。
这个答案最后可能是四十二。嗯。好了,今天的节目就是这样。这里是商业访谈录,是一档由语言及世界工作室出品的深度访谈节目。你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是语言及世界 Language is World。我们希望和你一起从这里探索新的世界。在最后,很开心的想告诉大家,我们的工作室正在招募内容实习生。
如果你对我们的内容感兴趣,并且你认为你自己具有一定的专业知识、专业素养,欢迎联络我。你可以在 Show Notes 中找到我的邮箱,给我发邮件吧。