纽约初印象与人生轨迹的偶然性
本期播客录制于美国纽约,正值中国春节,城市刚经历了一场近年罕见的大雪,街道上仍残留着未化的冰雪。然而,这场对话却带来了冰封解冻后的温暖与生机——受访者是华人青年科学家谢赛宁,他刚与图灵奖得主杨立昆共同创立了New Lab AMI,团队目前规模为25人,并已完成首笔超大规模融资。
谢赛宁坦言自己并非“天选之子”,而是一个普通的人。他提到,自己第一次做播客访谈,此前虽常在各类学术会议演讲,却从未接受过深度访谈,原因在于“不知道哪些话应该说,哪些话值得说,哪些话大家愿意听”。随着年龄增长,他逐渐拥有了“不被人喜欢的勇气”,开始更坦诚地表达自我。
他回忆起童年:母亲经商,带他全国旅行;父亲是心理学本科背景,曾从事教育与传媒工作,家中书房堆满书籍,塑造了他早期对知识的广泛好奇。他9岁拥有第一台电脑,随后通过BBS、新浪博客、饭否等平台大量写作,体验了互联网早期的表达自由与信息爆炸。这种成长环境让他形成了开放、多元的世界模型,也解释了他为何向往纽约——不仅是NYU在AI领域的实力,更因这里汇聚了他敬仰的文化人物,如马丁·斯科塞斯、赵婷等电影人,皆出自NYU电影学院。
他自认并非传统意义上的“优等生轨迹”:高中成绩中等偏上,走的是B class路径,而非姚班式的“清北-PhD-四大教授”主线。保送交大ACM班也颇具偶然性——仅凭信息学与数学竞赛奖项,便抓住了交大“提前招生”的机会。他坦言当时内心并不想冲清华北大,而是觉得“交大挺好的”,尤其契合他学计算机的志向。进入交大后,那个暑假在寝室打刀塔(DOTA)的“虚度时光”,竟成了他人生中的“高光时刻”,因为此后再难有如此纯粹的自由与松弛。
“我其实就是说,我看跟谁比,对吧?跟那些最顶尖的竞赛选手……那我真的是啊,远远远远不如。”
“我跟他说,我其实啊很喜欢看的一本书,也是我最近刚看完的一本书,是这个这本书叫《What Is Mathematics》……沈老师就是说,啊,对你一定要记住这个名字,因为这是相当于二十世纪最伟大的一名数学家啊。”
从交大到NYU:世界模型的形成与主动选择
谢赛宁强调,自己并非按部就班的“高分选手”,但每一步选择都暗含内在逻辑。他提到,交大在当年并非AI领域的顶尖学府,但ACM班逐步发展为一个强凝聚力、高产出的校友网络,学弟学妹们如今已在学术与创业领域多点开花。他特别回忆了ACM班面试时的小插曲:沈恩少教授问他读过什么书,他脱口而出《What Is Mathematics》,并侥幸答出作者Richard Courant(注:原文“Krohn”应为口误,实为Courant)。更巧的是,他如今所在的NYU克朗数学科学研究所(Courant Institute),正是由Richard Courant亲手奠基——这一“巧合”被他视为世界冥冥中的指引。
他本科时便对计算机视觉与AI产生浓厚兴趣,进入交大后加入BCMI(脑与认知机器智能)实验室,接触意识、大脑与真实世界认知机制的前沿研究。其中,学长侯晓迪成为他思想上的重要引路人。侯曾是校内传奇人物,做过两件“传奇事”,而两人至今仍延续着十余年前的讨论主题——“这个世界也变了,但我们都没变”。这种持续的思想共振,印证了谢赛宁对“真诚对话与长期主义”的珍视。
他多次提到“世界模型”这一概念:它不仅是技术目标,更是一种认知态度——拒绝刻板印象,拥抱复杂性与多元视角。他举例说,时代广场是游客的纽约,而DUMBO、格林威治村才是本地人的生活现场;纽约的吸引力,正在于其艺术气息与真实烟火气的交织。这种对“真实”的执着,也延伸至他对学术与创业的选择:不追逐热点,而追求自己真正相信的方向。
“我其实在网上看了你的很多很多的信息,但是我发现所有人对你的描写都是从上海交大的ACM班开始的。那我也很好奇,在那之前的谢赛宁是什么样的呀?”
“你的人生高光时刻是在虚度时光是吗?在寝室里,可以这么认为,对。”
拒绝Ilya与创业动因:一次主动的‘逃出’
访谈中,谢赛宁提及一个关键节点:他曾两次拒绝Ilya Sutskever的邀请——一次是OpenAI的正式offer,他甚至没开口就直接婉拒;另一次虽未详述,但态度同样坚定。他将此归因于一种清醒的自我认知:“有爱的同时,一定就有恨,他是一体两面。”——意指在高度集中的大模型路径之外,仍存在值得探索的多元AI范式。
他与杨立昆共同创立AMI Labs(Artificial Mind & Intelligence),并非偶然。杨立昆作为Yann LeCun,其对世界模型(World Models)与无监督/自监督学习的长期坚持,与谢赛宁在BCMI时期对“认知机制”的兴趣高度契合。AMI Labs试图跳出当前主流大模型的“算力军备竞赛”,回归更本质的智能原理——如何让机器像人一样从有限经验中构建内在模型、预测世界、指导行动。
他特别提到,自己虽非纯理工家庭出身,但父亲扛摄像机跑新闻的经历、母亲经商的流动性,共同塑造了他跨媒介、跨学科的思维习惯。他不满足于“只做技术”,而希望技术能与人文、艺术、社会现实产生深层互动——这正是他选择纽约而非硅谷创业的重要原因:NYU的跨学科生态(CS+电影+神经科学+数学)提供了更丰富的思想土壤。
“伊利亚给我打电话,哦,就我我我什么都没说,我就把OpenAI拒了。他们发给我一个offer,然后我说我不去,抱歉。”
“我觉得这个世界总是不想让我去做我想做的事情。但是,但是我偏偏要做我想做的事情啊。”
交大传奇学长侯晓迪:七行代码与《生存手册》
在谢赛宁的求学初期,一位名叫侯晓迪的学长成为他学术道路上的重要引路人。侯晓迪当时已是交大校园里的传奇人物——作为本科生发表CVPR论文,在当时堪称闻所未闻;他提出的算法仅用七行代码便解决了关键问题,而彼时CVPR虽尚未达到如今每年数万篇投稿的规模,但在大陆高校中,本科生能在此类顶级会议发表成果仍极为罕见,令人敬佩。
更令人印象深刻的是,他主导撰写了《交大学生生存手册》(网上仍有存档),这本小册子并非简单的“生存指南”,而是对教育本质的深刻反思:它批判了以政策评分为核心的功利主义学习观,强调做研究的真正目的应是探索无限未知,而非灌水发论文;书中甚至包含如何高效完成作业、合理逃课等实用建议,展现出一种高度自主、清醒理性的成长哲学。
“如果一个人把政策评分作为自己的至高追求,那么他就是这个政策的牺牲品。”
谢赛宁坦言,这些思想在潜移默化中重塑了他对学术、人生与选择的认知。而侯晓迪本人虽已赴加州理工攻读PhD,仍通过Google Chat等渠道持续给予他关于研究方向、论文写作等方面的指导。正是在与小迪的交流与自身阅读的双重影响下,谢赛宁逐渐确认:“我这辈子就想做这个事儿!”——即以视觉为核心探索智能本质的研究路径。
逃离MSRA:一次主动选择的“刺头”决定
大三时,谢赛宁面临实习去向的关键抉择:按班级惯例,他将被派往微软亚洲研究院(MSRA)实习。然而,由于当时MSRA缺乏愿意接纳本科生从事计算机视觉研究的团队(马毅、孙剑、张亚勤等资深研究员所在团队人手充足,且对本科生参与持谨慎态度),他若前往,只能放弃视觉方向。
于勇老师建议:“本科生最重要的是获得研究经历,具体方向并不关键。”但谢赛宁内心无法接受偏离兴趣主线。他选择主动出击,自行联系新加坡国立大学(NUS)严水成教授实验室,并在获得确认后才向于老师说明。面对这位“刺头”学生,于老师沉默数秒后最终点头:“好啊,你去吧。”
这一决定不仅打破常规,更开创了先例——此后NUS实验室成为交大A3班学生可选的实习路径之一。谢赛宁视此为早期科研生涯中一次关键的主观能动性实践,也印证了他后来形成的世界观:每个人都是世界的一个变量,甚至可能是最重要的那个变量。
“你要想,如果你不做这件事儿,这件事儿在这世界上永远不会发生。”
视觉即智能:从感官偏好到进化视角的觉醒
谢赛宁对视觉的痴迷,源于一种近乎本能的感知方式:“我感受这个世界的方式就是通过视觉。”他回忆童年曾认真思考:若必须舍弃一种感官,视觉是唯一几乎无法妥协的选择——失去它意味着丧失独立性,连动画、电影、游戏都成为奢望。
这种直觉后来被科学认知所强化:视觉信号处理占据大脑皮层约30%的区域,而图像呈现时大脑整体激活比例可达70%,印证了人类作为“视觉动物”的本质。更深远的是,他从演化生物学中找到共鸣:约5.3亿年前寒武纪大爆发的驱动力之一,正是视觉系统的诞生引发的跨物种“军备竞赛”——能看见的生物得以捕食与避险,迫使其他物种同步进化,最终催生了生物多样性的爆炸式增长。
这一视角彻底打通了他的认知闭环:眼睛是唯一暴露于外部世界的大脑组织,因此研究视觉,本质上是在解码智能本身。从宿舍里打游戏的少年,到坚定投身计算机视觉的探索者,谢赛宁的转变看似偶然,实则必然——命运由个体经验、阅读、对话与基因共同编码,而每个独特存在都可能成为改变世界的关键变量。
原点:深度学习浪潮中的主动选择
2012—2013年,正是AlexNet引爆ImageNet竞赛、深度学习开始突破的“原点”时刻。谢赛宁彼时仍在本科阶段,却敏锐捕捉到了这一范式转移的信号,并由此真正开启了科研生涯。他坦言,这是自己学会如何做研究的起点,也是整个深度学习浪潮的起点。这一选择并非偶然——它源于一种深层的内生好奇心:他渴望理解“为什么”,并主动寻求与领域最顶尖的研究者交流。这种驱动力促使他最终决定出国深造。
在交大ACM班的学习经历也塑造了他独特的成长节奏。他提到,与传闻中“姚班”的高强度卷不同,交大ACM班在课程设计上更强调通识性与自由探索,例如于老师开设的“学子讲坛”,要求学生围绕非学术主题进行45分钟以上演讲(哲学、历史、社会等),这种机制培养了他不以单一标准定义成功的思维习惯。他自评本科排名中等偏上(约十几名/三四十人),没有刻意追求第一名,也坦承自己“真真正正地成为不了竞赛型选手”。这种对多元评价体系的接纳,使他更倾向于追随兴趣而非外在指标。
我觉得我不惧怕竞争,但是我觉得确实我不喜欢过度竞争,并且我觉得过度的竞争一定也不利于创新。
抛开所有这些噪音,这是我唯一一个想要去关心的事情:我跟谁在做什么事情,然后这件事情是不是我想做的事情?
命运转折:一封深夜邮件与一位导师的托举
博士申请过程曾一度陷入低谷:他虽获得多个offer,却没有一个来自他想做的计算机视觉方向的导师。一度考虑转向推荐系统等方向。直到4月临近截止日(4月15日),他才收到屠卓文教授(现为UCLA教授)的回复,并在时差影响下,于凌晨三点与导师通电话争取机会。这次沟通促成了他的首个PhD录取——UCLA offer。
然而命运再次转折:入学前一周,屠老师告知他即将跳槽至UCSD,学生面临三种选择:留在UCLA转导师、等待导师新去向、或随他转至新校。谢赛宁毫不犹豫选择跟随导师,即便UCSD当时在CS排名与资源储备上远逊于UCLA。他强调:“重要的不是学校,而是跟谁做、做什么。”这一判断后来被证明极具前瞻性——UCSD如今已成为AI研究重镇,而他后来也得以与心仪学者Serge Belongie合作。
他们其实是,呃,闯出了一条路。本来这条路是不存在的……没有他们的话,也没有我们的今天。
他发了几篇其实对后面的这个计算机视觉有重要影响的工作,都是他独立单个作者完成的工作……要从头写起,大概有五万行的这样一个代码,全都是C++写的。
研究起点:在质疑声中拥抱深度学习
博士初期,深度学习仍被许多传统计算机视觉学者视为“炼金术”或黑盒,主流更倾向SVM、贝叶斯等可解释模型。正是在这一背景下,屠老师果断转向深度学习,并带领谢赛宁完成了第一篇相关论文——Deeply Supervised Nets(2013–2014年)。这项工作虽由高年级博士生主导合作,却是谢赛宁科研生涯中首个深度学习实践,也标志着他正式进入前沿研究核心。
他自评博士期间产出约五六篇顶会论文,按当下标准不算高产,但在当时已足以进入顶尖实验室。他特别强调屠老师不仅是学术引路人,更是手把手的实践导师:从代码调试到系统搭建,甚至分享其独立编写五万行C++图像分割代码的原始工程——在无PyTorch、无GPU、无开源生态的年代,这种底层能力令人敬佩。谢赛宁认为,正是这一代科学家的“闯路者精神”,为后续AI爆发铺平了道路。
我希望……这种科学从业者的位置,是终其一生的宁静建设,而非一瞬间的荷尔蒙爆发。
对我来说,这可能是一个蛮smooth的一个很平滑的过程……我希望自己处在这样的状态:不是为了一鸣惊人,而是为了把问题想清楚。
DSN:多出口监督与梯度问题的早期解法
回望历史,许多如今看来显而易见的选择,在当时却需要极大的勇气去做出——比如涂老师在深度学习早期果断转向、及时转身的决定,深深影响了我。他所推动的 Deep Supervised Nets(DSN) 是深度学习的第一个重要工作之一。其核心思想在于:传统神经网络是单一链条结构,而 DSN 允许多分支、多出口设计,每个出口均可施加监督信号。这意味着反向传播不必从最末端一路回传,而是可在中间节点就启动,从而缓解梯度消失问题。这一设计与后来的 ResNet 在理念上高度相似,甚至十二年后,我们仍在无意识中复用这种结构——研究的周期性与前瞻性,往往超出我们的想象。
这件事情其实跟后来,比如大家做 ResNet,其实也有点神似啊。其实就是或者说在那个时代,大家其实都想要解决这样的问题。
有时候甚至是我们都没有意识到。
HED:像素级标注中的层次化认知启示
我的第二篇论文是 Holistic Edge Detection(HED),它本质上是 DSN 在图像边缘检测任务上的具体实现,属于典型的 pixel labeling(像素级标注)任务。这项工作让我深刻意识到:神经网络的每一层都承载着层次化的语义信息——低层输出粗糙边缘,高层捕捉精细结构,最终融合后可逼近人类认知中的边缘感知。这不仅解决了具体问题,更重塑了我对深度学习的理解:模型并非黑箱,其内部结构可被解读、接入新灵感,从而达成新目标。
对边缘检测来说,它代表了就是说你的初级的这些层输出的这些边缘,就是更加所谓 coarse、更加粗糙的这些边缘,对吧?然后越往上,你的边缘也就更细致,所以你最后可以把这所有的这些边缘融合到一起,得到一个最贴近于人的认知下的这种边缘的这样的一个输出的结果。
我觉得它是一个很有趣、很有趣的东西。你可以认为它是一个 black box,但这个 black box 的每一个部分,你又能把它打开啊,接入一些新的灵感,然后达到一些新的目标。
实习五年:在多元环境中的探索与成长
HED 发表于 ICCV,获 马尔奖提名(当年仅两篇获此荣誉),是我学术生涯的高光时刻——站在讲台领奖时,我真切感到“人生开始了”。但讽刺的是,此后十年再未获 Best Paper,反而让我领悟:奖项高度随机,不应成为研究者的核心驱动力。博士期间我共实习五次(NEC Lab、Adobe、Meta、Google Research、DeepMind),每年夏天开着破车横穿湾区,居无定所却乐在其中。这种“流浪式研究员”生活,正是源于一种持续的自我叩问:What if I’m wrong?万一还有更有趣的方向呢?
在 Meta 实习中期,何凯明加入团队,成为我科研启蒙的关键引路人。当时我尚未产出成果,他却愿意带我参与 ImageNet Challenge。仅剩一个月的实习期里,我们基于已有思路开发出 ResNet,最终获得第二名——这不仅是技术胜利,更是“现实扭曲力场”(现实扭曲引力场)的生动体现:顶尖研究者能将普通想法点石成金。
我觉得像他身上真的是有这种……可以叫他光环,或者我可以叫他某种,呃,这种现实扭曲引力场吧。
他能把所有很普通的东西啊变成一个金子般之前的这个 idea
ResNet之后:从稀疏分组到MoE思想的萌芽
在ResNet之后,我们进一步探索了神经网络架构的可扩展性问题。一个看似朴素的想法逐渐成形:既然原始的ResNet是串行堆叠的卷积层,那么是否可以将其扩展为多个并行子网络的组合结构?具体而言,我们设计了一个大网络,在其内部并行部署多个独立的小网络模块(groups),每个模块可独立演化。这一结构在ImageNet挑战赛中作为提交方案参赛,最终获得第二名;尽管第一名方案是多个已有模型的集成(ensemble),而我们的方法却是一个全新的、端到端可训练的框架。
这一设计的深层价值在于,它意外地展现出与当下热门的Mixture of Experts (MoE) 架构高度一致的scaling behavior:随着group数量增加,网络变得更稀疏、宽度更大,却能在相同FLOPs计算预算下实现更快收敛与更高性能。这说明早在ImageNet时代,我们就已观察到稀疏化与模型扩展之间的正向关联——这一洞见后来被MoE架构系统性地继承与发展。
“所以,我们当初在至少在 ImageNet 上面已经看到了某种 scaling behavior……它就收敛的更快,然后你最后的结果也就变得更好。”
“这个工作算不算凯明那个ResNet的延伸呀?是的,是的。所以为什么叫ResNet的?凯明说,对这个这个是谢斯ResNet。所以它这个X既是既是Next啊,既是下一代的ResNet,也是呃给了给了我的一些给了我一些credit啊。”
凯明的指导哲学:流动的实习,扎根的友谊
这段密集产出期仅发生在短短一个月内——许多关键工作都始于反复失败,最终在灵光一现中完成突破。凯明不仅是技术上的引路人,更展现出独特的研究品味与命名艺术:他常为论文注入巧思,如将作者名字嵌入标题(如ResNeXt中的“X”既指“Next”,也暗含作者姓氏首字母),这种命名方式成为其团队文化的一部分。
关于为何不留在Meta继续与凯明合作,答案出人意料地来自凯明本人——他主动建议每位实习生轮换至不同机构,以最大化视野与成长。王小龙、谢赛宁等人均遵循此路径,实习结束后友谊却持续深化。凯明的策略本质上是以短期流动换取长期协同潜力:实习是探索,而长期合作是信任的自然结果。这也解释了为何谢赛宁博士毕业后仍选择回归Meta。
“凯明会建议每一个人去不同的地方实习,这样才能去收有最大最最大化的收获。”
跨机构实习:从DeepMind的寒冬到组织模式的启蒙
继Meta与Google之后,DeepMind的实习经历带来双重冲击:一方面是在强化学习(RL)与embodied AI任务中遭遇的实践挫折——伦敦凛冽冬风中的通勤、深夜地铁归途的孤寂,都映衬出研究的艰难;另一方面则是对组织模式的深刻认知重构:DeepMind虽为层级化结构,却融合了自下而上的探索自由与自上而下的执行纪律。初期允许小团队自由孵化idea,一旦方向明确,即迅速转入高度组织化的攻坚模式。
尤为震撼的是DeepMind对自身使命的坦率表述:当被问及公司终极目标时,其回答是“成为能斩获多个诺贝尔奖的公司”。彼时听来近乎狂想,如今AlphaFold等成果已部分兑现此愿景。谢赛宁亲历了AlphaFold团队从探索性想法逐步演变为改变世界的系统性工程的全过程——这让他意识到,伟大项目往往诞生于自由探索与精密执行的动态平衡之中。
“DeepMind最后会成为一个能拿Multiple Nobel Prizes的公司……我觉得我们当初都说哇,这个也太 ambitious 啊……但现在我们看到他们已经至少实现了一步吧?”
表征学习:贯穿十二年的核心命题
尽管博士期间实习频繁、研究方向看似分散(涵盖图像识别、视频理解、动作识别、embodied RL等),谢赛宁始终围绕一个核心命题展开探索:如何通过结构化先验(structural priors)引导深度表征学习。他将这一过程比作“种树”——表征是深扎的根系,而各类下游任务(如分割、检测、视频分析)只是枝干上的分叉。即便博士论文题目已提出多年,该问题仍是前沿焦点:近期一个 workshop 的主题“representation learning with structural prior”再次印证其持久性。
他强调,表征学习等价于深度学习的本质问题:即构建从原始数据到高性质表示空间的非线性映射函数。相较短期热门方向(如NAS曾被普遍认为浪费两年光阴),表征学习因其根本性(fundamental)与普适性,成为值得终身投入的“永恒title”。他更愿深耕根系而非追逐枝叶繁茂——这并非能力局限,而是主动选择的研究哲学。
“其实过去的十二年……这个也是我当初一开始想要 study 的问题,也是我现在觉得还是没有完全解决的问题。”
研究方向的永恒性与表征学习的核心地位
在反思博士阶段的研究选择时,谢赛宁指出,neural architecture search(神经架构搜索) 这一领域曾因方向性误判而拖慢整个领域进展约两年时间。大量论文围绕这一“错误方向”展开,最终却“没有任何的收获”。相比之下,表征学习(representation learning) 是一个更根本、更持久的主题——它既未被彻底解决,也具备跨时代的学术价值。他强调,若将研究身份锚定在“神经架构搜索”这类短期热点上,很可能在两三年后被迫改换方向;而表征学习则不同,它是一个“最反的 mantle 的主题”(应为“最根本的 mantle 主题”,即承续学术衣钵的核心命题),值得长期投入。
如果你现在说我是做一个 neural architecture search 的人……那这个事情就很麻烦,有可能过了两年之后,你就立刻得要改行啊。
representation 是一个永恒的主题。是一个最根本的主题,也是一个还没有被解决的主题。
学术挫折与时间检验的馈赠
博士期间,他与团队投稿 NeurIPS 的论文《Deeply Surprise Nets》虽获高分(8/8/7),仍被拒稿——原因竟是论文中一个数学公式的 typo(漏写平方项),程序主席据此判定其“数学上不成立”,而 rebuttal 阶段又因评审未注意到该错误而无法补救。这一经历让他意识到早期学术评审的严苛与偶然性。但讽刺的是,该论文后来在 AI Stats 会议上获得“时间检验奖”(Test of Time Award),该奖项需在论文发表十年后评选,旨在表彰对领域影响最深远的成果。
这一“迟到的认可”让他释怀:研究的价值不能以单点成败衡量,而应视为时间轴上的积分——最终决定你是否是优秀研究者的,是所有工作的长期累加效应。因此,他常劝诫学生:不要拘泥于当下的 point estimate(点估计),而要着眼于长期积累。
在那一刻你还是会很沮丧的,很沮丧,对,非常非常沮丧。你在那一刻很难想到十年后的事情。
职业抉择:人、理想与两次拒绝伊利亚
博士毕业时,谢赛宁对自身定位缺乏信心,甚至从未考虑教职——“我觉得我不配”。他坦言,若目标明确为学术教职,本应留在何凯明团队持续产出,而非进行五次跨机构实习。但他更看重的是“跟我最想做的事情,以及最想共事的人一起工作”,这种纯粹的动机主导了他的选择。
2018年,他同时收到 OpenAI 与 FAIR(Facebook AI Research)的 offer。尽管 OpenAI 开出约 40–50 万美元年薪(当时顶尖博士的顶薪),他仍毫不犹豫拒绝——因 FAIR 拥有计算机视觉“三驾马车”(何凯明、Ross Girshick、Jitendra Malik)组成的顶尖团队,且研究氛围更接近学术环境。他甚至未与伊利亚深入讨论就直接拒掉 OpenAI,后者因此致电质问,语气严厉:“你为什么不讨论一下就把 offer 拒了?是我们给的钱不够吗?”——这一细节反映出伊利亚对人才的高度重视。
2024年,伊利亚再度邀他加入 SSI,他再次婉拒。此时他已在 NYU 立足,且两人讨论焦点已转向哲学层面:“如何赋予人工智能爱的能力”。他认为若缺乏‘爱’,人类将面临“非常不确定、非常危险的未来”;但同时他也清醒指出:“有爱的同时,一定就有恨。”——爱与恨作为一体两面,构成了智能体伦理的深层张力。
他强调,LLM 与计算机视觉并非对立路线,而是“有机体”的不同部分:“兄弟爬山,各自努力”。当前计算机视觉的进展,实则受益于 LLM 带来的算力、数据与范式革新。他更看重的是技术如何服务于更宏大的目标:构建可信、可控、可被人类接纳的 AI 世界模型。
人是认知网络的节点
谢赛宁认为,人对他的影响远大于技术或工具本身,这在学术圈中其实并不罕见——它反映了一种普遍的行为模式:学者们会自发构建起一个庞大的社交网络(social network),其中每个人既是知识的接收者,也可能成为知识的传递者。这种关系并非单向的师徒传承,而是双向甚至多向的互动:学生有时会反向启发老师,而研究者之间的信任与欣赏,往往并非源于日常相处,而是通过科学发现本身自然建立起来的。
在他看来,研究的本质不是发表论文,而是传播理解。论文的价值不在于形式上的产出,而在于它能否让他人“视野被打开了”,从而激发新的工作、新的思考。他引用汉娜·阿伦特的观点强调:真正的目的不是创造‘impact’,而是追求‘理解’本身。阿伦特曾指出,“impact”一词过于 aggressive 和男性化,而研究的浪漫之处在于:当你理解了一件事,并将其写下来传播出去,就有可能让更多人获得同样的理解——这种理解的共鸣,会像涟漪一样扩散,最终让人感到一种“家”的归属感。
“我不在乎什么 impact……在我字典里,我对‘impact’这个词有点抵触。”
“如果你能把你理解到的东西写下来……你就能够有可能让这世界上更多的人对这样的一个问题有跟你一样的这种理解。”
拒绝‘被宣传’: visibility 与署名伦理
谢赛宁对“fame”并无需求,甚至坦言自己某种程度上是“虚假的 fame 的受害者”——当媒体将论文成果简化为“谢赛宁团队发表XX工作”,并突出个人姓名与照片时,他感到不适。他明确反对这种做法,主张应将注意力回归到问题本身:这项研究解决了什么问题?为何重要?而非聚焦于“谁做的”。
他特别强调,应给予真正动手执行的学生更高的 visibility。如果他本人并非一作,就不应以“谢赛宁团队”命名成果;署名与提及必须忠实反映贡献结构,避免将集体努力异化为个人光环。他提醒媒体从业者:可以解释、评论工作,但不应主动“宣传”;在X(原Twitter)上适度凝练介绍研究尚可接受,但刻意制造“名人效应”则背离了学术本意。
“不要把我的照片放在上面,不要把我的名字放在上面。”
“我们需要更加鼓励年轻人真正做出这个工作的人,让他们有更多的 visibility。”
NYU与杨立昆:跨学科视野的奠基者
离开Fair之后,谢赛宁选择加入NYU,其中关键动因之一是杨立昆(LeCun)的持续邀请——杨曾三次尝试招募他。他形容这是“直觉性的决策”,而杨的远见力是核心吸引力:早在十几年前,杨就推动建立了独立于传统院系之外的数据科学中心(Center of Data Science),并打造了一个高度开放、跨学科的研究环境——玻璃门、暖色调空间、无隐私限制的协作氛围,甚至让机器人在走廊里自由穿行。
这种设计远超时代:AI作为中间层节点,连接物理、化学、统计、商学与计算机科学,而杨早在2000年代初就已预见并制度化这一趋势。NYU虽非传统CS强校,却因杨的布局汇聚了大量AI人才。在NYU期间,谢赛宁也深受李飞飞影响,尤其钦佩她定义问题的能力——ImageNet的价值远不止于数据集本身,更在于它将“图像分类”这一模糊方向转化为可操作、可评估的科学问题,从而为整个领域提供了“playground”。
“飞飞老师最厉害的点在于,他是一个能够定义问题的人。”
“把这个问题定义清楚,远比build这样一个数据集要强得多得多,要重要的多得多得多。”
定义问题比构建数据集更重要
谢赛宁强调,清晰地定义问题本身,远比构建一个数据集重要得多。他特别提到李飞飞(Fei-Fei Li)在推动这一认知上的关键作用:她通过设定明确的研究议程(agenda),为后续工作搭建了一个可操作的“playground”(试验平台),使研究者得以在此基础上展开探索。他认为这是李飞飞最了不起的能力之一,也是自己长期希望学习的方向。两人合作完成了两篇代表性工作:《Thinking Space》聚焦于多模态语言模型中的空间智能问题;近期的《Cambrian S》则进一步追问——在视频理解中,哪些问题才是真正重要的?这种从问题定义出发的研究范式,极大地拓展了谢赛宁的学术边界。
我觉得飞飞老师就是说,set的这个agenda把这个问题定义清楚,使得接下来deploying可以有一个playground,有这样一个平台啊,可以去施展拳脚。
我觉得这一部分跟他的合作也帮我拓展了我research的边界。
从无序选择中走出的主线:表征学习
谈及如何进入AI核心圈层,谢赛宁坦言自己并不认为已“走进AI的核心”,并指出与顶尖学者的合作多源于自然的吸引力与问题共识——尽管合作看似偶然(如一次纽约饭局),但背后存在深层逻辑:大家的研究根基高度一致。无论是视觉(vision)、机器人、三维重建,还是杨立昆(Yann LeCun)的通用AI路径,其起点都可追溯至表征学习(representation learning)这一核心命题。他形容自己的研究轨迹虽表面“无序”,实则围绕一条清晰主线展开:表征学习中仍有大量根本性问题尚未解决。
他进一步将研究拆解为三个关键维度:架构(architecture)、数据(data) 和 目标函数(objective)。他用一个生动比喻说明三者关系:神经网络架构如同引擎硬件,而数据与目标函数才是驱动它的“油”。没有后者,再强大的架构也无法启动。因此,他后续的工作——无论是与凯明(Kaiming He)在FAIR的合作,还是独立探索——始终沿着这条主线推进:围绕表征学习,从架构、数据、目标三方面持续突破。
我觉得大家的这个根基还是非常非常非常非常吻合的。
所以,我觉得这一切的起点可能……其实这条主线对我来说就是表征学习这件事情上,有太多的问题没有解决,所以我希望停留在这条主线上,往前拓展我们所做的事情。
自监督学习:从代理任务到系统性认知
在FAIR工作期间,谢赛宁亲历了自监督学习(self-supervised learning)从理念走向实践的关键阶段。他特别指出,凯明是最早明确提出“必须把模型做得大大大”的人——这一洞见发生在2018–2019年,远早于“scaling”成为行业 buzzword。与此同时,杨立昆提出的“蛋糕模型”为自监督学习提供了清晰哲学框架:自监督是底层蛋糕体(body),监督学习是奶油(icing),强化学习仅是顶部樱桃(cherry);没有坚实的底层,上层再华丽也无法支撑智能系统。
他回顾道,2015–2016年起,研究者们曾大量设计“代理任务”(pretext tasks):如旋转图像并预测角度、从灰度图恢复颜色、补全被遮挡区域等。这些任务的共同逻辑是:人类凭借对物理世界的常识(common sense),能完成这些推理;若模型也能做到,就可能习得类似能力。然而,尽管创意纷呈,早期方法性能仍显著落后于ImageNet监督预训练(约低15–20个百分点)。
谢赛宁指出,人们最初推动自监督的动机常被误解为“节省标注成本”,但真正驱动力是更根本的认知局限:监督学习将无限多样的视觉经验压缩为单一标签(如“椅子”),迫使模型依赖表面相关性(如背景、位置)而非本质理解;而人类能从多样观察中提炼常识性直觉——这正是AI亟需补足的一环。
第一个人真正有人跟我说,我们要做 scalable 这样的 model,就是我们需要把模型做的大大大啊,这是凯明的原话,大大大啊。
大的问题是:在做计算机视觉的人看来啊,很早之前大家就知道啊,只通过这条路径是没办法给予AI系统这种common sense的。
从遮蔽信号到对比学习:自监督表征的突破
人类之所以能在信息不完整时仍能合理推断,比如补全被裁剪或遮挡的图像部分,核心在于我们对物理世界拥有某种常识性认知(common sense)与世界模型(world model)——这种内在模型使我们能对缺失信号进行合理重构。然而,在早期的计算机视觉研究中,尽管涌现了大量关于自监督学习的论文,但整体效果普遍不佳:性能普遍比 ImageNet 上的监督预训练低约15–20个百分点,说明模型尚未真正掌握可迁移的、高阶的表征能力。
为弥合这一鸿沟,研究者们开始探索更有效的无监督表征学习范式。其中,Moco(Momentum Contrast,动量对比学习) 成为关键突破点——它并非凭空诞生,而是在 CPC(Contrastive Predictive Coding)与 Memory Bank 等前期工作的基础上,首次将对比学习(contrastive learning)框架真正落地并验证其强大潜力。对比学习的基本逻辑是:在表征空间中,同一类对象(如多张椅子图像)的表示应彼此靠近,而不同类对象(如椅子与猫)的表示应尽量远离。这一思想虽非全新(早期由 Ilya 等人在度量学习中已有雏形),但 Moco 通过动量更新机制稳定了负样本队列,使对比学习首次在大规模自监督任务中达到可与监督学习媲美的效果。
“你只要就是最怕的事情是你不知道往哪走……一个好的结果,一个坏的结果,都是好的结果。对于 research 来说,一个 surprise,一个令人惊讶的这样一个 observation,永远是一个 researcher 最最幸福的事情。”
“一开始你想的这个 idea 不是你的 idea,这个东西不属于你;探索中的 idea 才是属于你的 idea。”
凯明的研究哲学:专注、探索与梯度驱动的创新
凯明(Kaiming He)之所以能主导 Moco 等开创性工作,其背后是一套深刻而可迁移的研究方法论。他展现出极致的专注力与心流状态(mind flow)——能完全沉浸于单一问题,屏蔽外界干扰,将全部 mental cycle 投入当前研究议题。这种专注并非固执,而是高度决策导向的聚焦:他善于从庞杂信息中抽丝剥茧,识别真正关键的问题与信号,并建立高维抽象空间中的深层联系。
更重要的是,他教会我们:真正的 research idea 不是凭空“想”出来的,而是在持续探索中“长”出来的。他反对“拍脑袋立项”,指出:若一个 idea 是你坐在桌前凭空构思的,它大概率要么已被千人重复思考,要么早已被证伪。有效的 idea 必须源于实证反馈——无论是成功还是失败的实验,只要带来surprise(意外观察),就可能提供关键梯度(gradient)。研究过程本质上是一场随机梯度下降(stochastic gradient descent):目标不是直线从 A 到 B,而是在不断试错中寻找方向信号。
因此,他主张研究应经历结构化探索期:至少预留 1–2 个月,以“hacker 式”的好奇心动手实践——复现 baseline、尝试拓展、阅读文献、推导公式,甚至故意偏离初始方向。方向的 pivot(转向)不是失败,而是高质量研究的标志;最差的研究恰恰是“从头到尾没变过”的线性工作——它意味着问题太 boring,结果自然也无趣。
“你经常是这样……我最好的工作都是这样发生的。那你前五个月怎么保持自己的心态啊?那就没办法,你得要接受这个事实,你得要告诉自己,这是一个常态化的 research 的过程。”
研究周期的现实主义框架:六个月的探索-验证循环
在当下竞争激烈的科研环境中,一个完整的研究周期被压缩至约六个月:前段聚焦方向设定与广泛阅读,中期必须留足时间进行非线性探索(如 1–2 个月),后期则进入快速迭代与论文撰写。这一框架强调:输入决定输出——没有大量文献阅读、代码实验与跨领域联想,就不可能产出真正原创的 idea。
凯明所倡导的范式,本质上是将研究视为一种动态求索(quest),而非静态解题。它要求研究者: - 拥有足够品味(taste)去识别重要问题; - 保持工程能力与文献批判力,能快速判断哪些工作值得深挖; - 接受探索的不确定性,视失败为梯度信号; - 在 pivot 中逼近真相,而非在预设轨道上机械执行。
这一路径虽崎岖,却最接近知识生产的本质:所有重大突破,最终都能回溯至某次看似偶然的“意外”——而那“偶然”,实则是长期专注与系统探索的必然产物。
自监督学习的兴起与局限
在菲尔实验室(FAIR)期间,自监督学习成为视觉表征学习的重要突破口。以 MoCo(Momentum Contrast) 为代表的系列工作——包括 MoCo V1、V2、V3——由 凯明(Kaiming He) 主导完成,其中 V3 首次将 Transformer 架构与大规模缩放(scale up) 引入自监督视觉学习,结果在多个下游任务上显著超越了 ImageNet 监督预训练所能达到的性能。这一进展曾让人误以为“自监督学习已找到通用解法”,未来只需持续扩大规模即可。然而现实很快给出反例:自监督方法虽在特定指标上表现优异,却无法像 LLM 那样通过单纯 scale up 实现能力跃迁,其可扩展性存在根本性瓶颈。
“我们第一次在视觉的这些 task 上面看到……MoCo 这样的工作……V3 用 Transformer,然后我们去 scale up,其实已经比 ImageNet 能得到的 Representation 在各种各样的 Task 上面都要好很多了。”
“但又很不幸,这件事情也没有发生……我们的问题基本上可以找到答案……但又很不幸,这件事情也没有发生,对吧?”
与此同时,凯明还主导了另一条路径——MAE(Masked Autoencoders),其核心思想是 去噪自编码器(denoising autoencoder):通过随机掩码(masking)图像块,再重建原始图像,从而学习表征。与对比学习(contrastive learning)不同,MAE 并不显式建模环境不变性,因此在 linear probing(线性评估)中表现稍弱,但在 fine-tuning(微调)中效果更优。这揭示了不同自监督范式在表征性质上的本质差异:对比学习偏向学习不变特征,而 MAE 更擅长生成高保真重建能力。这些差异为后续研究埋下重要伏笔。
值得一提的是,凯明始终以 individual contributor(个人贡献者) 身份深度参与技术落地:从实验设计、代码实现、baseline 搭建,到论文撰写与汇报,几乎一人承担全部核心工作。这种“单枪匹马”的工程主导力,成为 FAIR 高效产出的关键保障。
基础设施即研究的脚手架
凯明反复强调一个反直觉却至关重要的理念:研究的上限取决于 baseline 的质量。在他看来,一个粗糙的 baseline 会系统性误导研究判断——你观察到的“提升”可能只是系统误差的副产品。因此,真正的突破必须建立在“高到不能再高的 baseline”之上:唯有如此,新方法的增益才具有可信度与普适性。
这一理念在实践中体现得淋漓尽致。例如,FAIR 早期为探索 TPU 可能性,租用了约 5000 个 TPU core,但 Google 的 TPU 生态初期极难使用。凯明再次 single-handedly(单枪匹马) 从零构建整套 TPU 基础设施,使 MoCo、MAE 乃至后续的 DiT(Diffusion Transformer) 均得以在此平台上高效运行。类似地,Fast R-CNN、Mask R-CNN、Focal Loss 等里程碑工作,也依赖于 Ross Girshick、Kaiming He 与 Yangqing Jia 等人长期搭建的 统一 research infrastructure——其 baseline 已远超同期 CVPR 论文平均水平,从而确保后续创新具备坚实根基。
“你的 research 的上限其实取决于你 baseline 的好坏……你如果没有花足够大的心思去在 baseline level 上面去把这个 system 搭建好……你是没有一个平台让你去做真正的探索的。”
在 FAIR,这种对基础设施的极致追求甚至延伸至研究流程管理:实习生第一课竟是学习使用 Excel 表格系统化追踪实验。通过精心设计的表格结构(列:指标、超参、结果;行:对照组、消融实验、新方法),研究者能快速识别信息量最大的对比,避免陷入“实验过少”或“盲目跑量”两个极端。这种看似朴素的工程纪律,实则是将科研转化为可复现、可迭代、可证伪的知识生产系统的关键一环。
从视觉到多模态:方法论的普适性
自监督表征学习的探索并未止步于二维图像。在 FAIR 期间,研究者将 Point Contrast 等方法拓展至 3D 点云领域,首次验证了该范式在非网格化、非欧几里得空间中的有效性。这一工作不仅证明了表征学习的跨模态普适性,也为后续在医学影像、机器人感知等场景的应用铺平道路——无论输入是 CT 扫描、点云扫描,还是机器人抓取轨迹,自监督框架均展现出迁移潜力。
然而,尽管影响深远,自监督学习仍未能达到 LLM 所实现的“范式级”影响力:它更像一种方法论工具包,而非单一可无限缩放的系统。当 GPT 等大模型展现出涌现能力与通用性时,视觉自监督仍停留在“任务适配”层面,缺乏端到端的泛化能力。这一对比促使研究者反思:表征学习的终极目标究竟是提升下游任务性能,还是构建世界模型?
“它确实在影响很多很多不同的,就是超越我们现在关注的,比如说计算机视觉本身的领域……但另一方面,它也远远没有达到像 LM 的这样的这种这种影响力。”
这一阶段的探索最终导向更宏大的命题:如何构建一个能统一视觉、语言、动作的 world model(世界模型)?而凯明所示范的“基础设施先行、baseline 至上、实验可证伪”的研究哲学,正是通向这一目标不可或缺的底层方法论。
实验中的反向信号与预测思维
在科研过程中,负面结果往往比中性结果更具信息价值。一个性能下降十个百分点的实验,若被悲观者视为失败而放弃,对具备方法论意识的研究者而言,却可能揭示出关键方向——负向信号的反方向,恰恰是正向信号的来源。相比之下,性能停滞不前的中性结果最令人担忧,因其缺乏梯度信号,无法驱动后续决策。凯明(Kaiming He)常强调:在每次实验前主动预测结果,无论预测正确与否,都能提供宝贵反馈。预测成功意味着当前思维链条可继续延伸;预测失败则构成“surprise”,促使你回溯并修正认知偏差。这种预测习惯本质上是一种元认知训练,帮助研究者不断校准直觉与现实之间的差距。
如果你是一个悲观的人,你会说,哎,这个实验废了啊,完全不成功,那要不就算了。但如果你是有这种发法论的发法论的人,你会觉得,哎,这个方向可以掉十个点,那我往这个方向的反方向去设计我的算法,那是不是我就可以涨很多点?
你要学会做预测,在你跑每一个实验的时候,你要预测这个实验的结果应该是怎么样?……如果你想的对了,说明你前面的这个思维链条是可以往前继续延伸、往前继续推的。如果你想想错了,Again,这也是一个surprise,也给了你一个信号。
哲学素养与研究品味(Research Taste)的养成
凯明反复追问:PhD 是 Doctor of Philosophy(哲学博士),为何培养出的人却缺乏哲学素养? 他鼓励学生广泛阅读哲学经典,如《金刚经》中“凡所有相,皆是虚妄”之论,与康德的“物自体”、叔本华的“表象与意志”形成跨文化呼应——其核心在于:现象不等于本体,表象之下需追问实质。这种哲学训练直接塑造了“research taste”:即在纷繁文献中穿透形式外壳,识别真正值得探索的深层问题。Research taste 并非抽象天赋,而是由具体实践习惯(如实验设计、写作规范)与高维认知框架(如对问题本质的追问)共同构成的综合能力。
他最喜欢聊的东西其实是进化生物学……他一直劝我们的事情是说,哎,那个赛宁,你们在美国读博士,你们的 title 可都是 PhD 啊,it's a doctor of philosophy 啊,是哲学博士。但为什么你们培养出来的人一点哲学都不懂呢?
《金刚经》里面说,这所有事情如梦幻如泡影……凡所有相,皆是虚妄。若见诸相非相,即见如来……你看到的东西不是这个事情的本体,你看到的事情世界也不是实质。
写作、叙事与研究的审美一致性
凯明对写作的极致要求,体现了其对“研究作为沟通”的深刻理解:论文不是自我记录,而是面向他者的知识载体。他习惯提前两个月完成实验并用一个月撰写初稿,随后反复打磨至 deadline 前——这种“闲云野鹤式高效”背后,是对沟通界面优雅性的执着追求。例如,他要求论文行文避免空行(单行文字占比低于60%视为不美观)、杜绝孤词独占一行等细节,皆服务于“赏心悦目”的阅读体验。这种审美意识延伸至研究叙事:好论文如同好电影,核心不在技术细节,而在决策路径与冲突构建。他推荐麦基《Story》一书,强调“故事的本质是人物在关键时刻的选择”,这与科研中“关键决策如何塑造问题演进”的逻辑完全同构。因此,从排版到视频制作,所有形式创新皆非“营销”,而是研究品味在传播维度的自然延伸。
这个paper不是给你自己看,这个paper给别人看的,所以你要在乎的是别人的观感……你怎么样能够就是paper只是一个载体,我怎么样通过这样一个knowledge的载体,使得大家可以比较顺畅的get到你自己的这个这个想要表达的这个内核,它这个沟通界面要赏心悦目啊!
电影也是一个storytelling的过程……真正这个故事本身不是人物的背景,而是人物在特定时候的选择。这件事情带来了冲突,然后带来了对这个世界的变化,推进剧情的发展。我觉得 paper exactly 就是这样……
研究的本质在于决策过程而非技术本身
谢赛宁指出,真正驱动研究价值的,不是最终呈现的技术细节或知识本身,而是研究者在关键节点上所做出的决策路径。一篇论文的价值,不仅在于它提出了什么方法,更在于它如何抵达这个方法——中间经历了哪些试错、质疑与选择。这种决策过程本身具有启发性:读者若能理解其中的逻辑链条,便可能迁移至自身研究中,做出不同但同样有效的判断。他将这一过程类比为电影创作:最富创意的内容往往源于最个人化的视角,正如马丁·斯科塞斯所言。在科研中,发掘并忠于自己内心的“那团火”,即独特的偏好与直觉,是形成独立研究品味的关键。当然,这并非鼓吹盲目相信,而是在尊重事实基础上,保有‘先相信再看见’的勇气——于老师曾说:“不是因为看见所以相信,而是因为相信所以看见。”
‘你写的这个 paper 本身……也许更加重要的点,是你到底是怎么怎么到达这儿的。’
‘最有创创意的东西,其实是最个人化的。’
质疑精神与‘做自己天才’的实践案例
谢赛宁强调,质疑精神是科研中不可或缺的底层能力,尤其在当前竞争性环境中更易被削弱。他以自己与刘壮(现普林斯顿教授)合作的论文《A Confluent for the 2020s》为例:该工作直接挑战了当时普遍认为“self-attention 是 ViT 性能核心”的共识。通过系统性 ablation 实验,他们发现global 与 micro architecture design 才是决定性能的关键,而 self-attention 反而可能是最不重要的一环。这一结论最终凝练为一张手绘的演进图谱——它不仅清晰展示了从 CNN 到层级化 Transformer 的路径,更成为一种可迁移的方法论范式:如何通过精细控制变量、严谨的 ablation study 来揭示因果逻辑。这张图后来被广泛引用,印证了简洁、可解释的架构设计往往比复杂系统更具生命力。
‘你怎么样在做做做做research的过程中,也能发发发掘出来你心里面的那团火……然后用它来指导你的research taste。’
在组织转向中坚持个人判断:DIT 的诞生与坚持
进入 NYU 前夕,谢赛宁亲历了 FAIR 的文化剧变:ChatGPT 爆发后,研究重心从长期探索转向短期对齐,大量时间被消耗在冗长的‘research alignment meeting’中——会议主题竟是‘我们到底该做什么’,却始终无法达成共识。这种自上而下的规划逻辑,与他所信奉的自下而上、由好奇心驱动的研究范式根本冲突。正是在这种背景下,他与 Bill Peoples(后参与 Sora 开发)启动了 DIT 项目:起初探索 diffusion model 的表征能力,但很快发现其表征质量远逊于自监督方法;转而聚焦于架构本身——为何 diffusion 必须用 U-Net?能否用 ViT 架构替代?他们发现:ViT-based diffusion 不仅更简洁(代码量少)、更稳定、更可扩展,还展现出优异的 scaling behavior。尽管面临资源分配阻力(‘现在要集中力量做大事’),他们仍坚持最后一个月全力推进该方向,并将成果投往 CVPR。
‘Why not?你你就应该用这件事儿,对吧?’
论文中签的随机性与架构统一的洞见
在论文投稿过程中,我们逐渐意识到:research paper 的中与不中,本质上是一个纯粹的随机过程。在投出一篇未做任何修改的论文后,它再次被接收——这进一步印证了其随机性。然而,真正关键的转折点在于:当这篇论文(DIT)发表后,我们发现它在多个维度上都显著优于传统的 unit-based 系统。统一底层逻辑、共享基础设施、提升效率、支持更大模型训练,这些优势让我们坚信:这应该成为主流方向。
有趣的是,尽管论文在学术圈引发热议(尤其是推特上),但实际被采用的情况却寥寥无几。我们主动与 Stable Diffusion 团队等业界方沟通,发现他们虽在技术路径上与我们有相似性,却尚未真正落地我们的方法。讽刺的是,这篇论文虽未署名菲尔(FAIR),实则由菲尔完整完成——因当时我已离职,菲尔出于法律与声誉考量,拒绝我署名。这也折射出:创新常诞生于体制边缘,却难被体制内部识别与接纳。
‘我们发现,哎,好像没有人真的用它干任何事儿。’
‘世界总是这么讽刺,有一点讽刺。’
OpenAI 的选择与 Sora 背后的组织基因
Bill 在 2022 年底做出加入 OpenAI 的决定,当时 ChatGPT 尚未发布,这显示出他极强的前瞻性判断力。OpenAI 的厉害之处在于:它能识别人才、赋予自由、支持高风险探索——比如支持 Bill 团队以 bottom-up 方式推进 DIT 相关研究,最终催生了 Sora。这在传统大公司或学术机构中几乎不可能实现:菲尔不会用 DIT,大厂也缺乏催生此类创新的组织基因。
值得注意的是,这项工作其实始于 2022 年暑假,早于 Sora 公开亮相。而我已于 2023 年 1 月加入 NYU,因此并未参与最终落地。这让我反思:技术架构本身并非核心,真正稀缺的是‘相信某件事能做成’的信念与支持它的组织环境。
‘OpenAI……能够让他们有一个很 bottom up,在我看起来其实是一个蛮 research 的 effort,给他们足够多的自由度跟资源,让他们做一个在之前大家想都不敢想的事情……就是 Sora。’
反脆弱研究系统与 Cambrian 寒武纪计划
经历了多次拒稿后,我逐渐对学术评审免疫——甚至将其视为一种反脆弱(anti-fragile)能力:真正的反脆弱不是抗冲击,而是在随机扰动中获益。研究系统若要反脆弱,就必须在黑天鹅事件后比之前更强。DIT 与 SIT 正是如此:它们虽曾被拒,却最终成为社区基础设施,推动后续大量工作。
受此启发,我们启动了 Cambrian(寒武纪)系列计划,旨在以科学方式检验多模态大模型中的关键变量。其灵感源于地球演化史:若将 5.38 亿年生命史压缩为一天,人类具备语言与抽象思维的‘行为现代化’仅占最后 8–10 秒——这凸显了当前多模态研究的紧迫性与局限性。
Cambrian One 延续了 ISY Shot 的批判视角:CLIP 等视觉编码器可能因语言捷径导致视觉理解偏差。因此我们构建自主系统,系统性研究数据构成、视觉表征、架构设计等模块,唯独不干预语言模型部分。项目规模庞大,依赖学生高度的自主性与协作精神。而支撑这一切的,是 Google TRC(TPU Research Cloud)提供的免费算力——尽管其生态支持仍显薄弱。
‘我当初讲无限游戏的时候,我其实也提到这个观点,就是说,我觉得 research 其实必须得要是一个反脆弱的系统。’
视觉作为智能的底层视角
谢赛宁认为,“计算机视觉”(Computer Vision)这个术语本身存在语义歧义:vision 既指生理上的视觉能力,也指对未来的远见与愿景(visionary)。在他看来,计算机视觉不应被狭义地理解为一系列具体任务(如分类、检测、分割),而应被定义为一种perspective(视角)——即一种关于智能本质的系统性思考方式。
这一视角的核心在于:视觉要处理的是连续、高维、含噪声的物理世界信号,这与语言模型所处理的离散语义空间存在根本差异。从他早期的 DSN 和 HED 工作起,他就坚信层次化表征(hierarchical representation)是视觉智能的关键:抽象即泛化,而泛化是智能应对开放世界的基础。此外,视觉还具备三大特征:
- 大规模并行处理能力——大脑皮层多区域同步激活,同时处理物体、因果关系与直觉物理;
- 跨模态的语义共享机制——例如能将小孩手绘的狗、卡通狗、真实狗统一抽象为“狗”,尽管像素层面毫无重合;
- 对连续域(continuous domain)的建模需求——无法简单 tokenized,难以被语言模型直接覆盖。
“我觉得computer vision这件事情啊……它是一个 perspective,它不是一个具体的任务,它甚至也不是一个具体的领域,它是一个 perspective。”
“杨立昆的说法是,现在大家都是只是拄着拐杖,这个拐杖就是语言模型本身……你可能跑不起来,你也没有办法去参加这个奥运会,因为你有一根腿——视觉的表征这一根腿——现在还是不够好。”
语言介入带来的机遇与陷阱
随着 LLM 的崛起,计算机视觉在人工智能生态中的位置从中心转向边缘。谢赛宁并不感到沮丧,反而视其为重大机遇:语言的介入极大拓展了视觉的表达边界——我们不再受限于预设任务,而是能以自然语言自由提问、自由探索图像内涵。这标志着视觉从“任务驱动”走向“问题驱动”的范式跃迁。
然而,他也指出关键风险:语言的强接口能力会掩盖视觉表征的缺陷。许多所谓多模态任务实则退化为纯语言推理(如“图中是否有猫?”),与真实感知无关。当任务真正进入物理世界(如机器人操作、工业控制),缺乏 grounded 的视觉表征将成为致命瓶颈。
“LLM 是虚拟的 intelligence……但真实是说,是跟真实的世界要发生交互的。”
他进一步提出一个两极模型:一端是 LLM 擅长的数字化空间(factual recall、legal advice、education),另一端是真实智能必须面对的连续物理空间(robotics、sensory control、intervention prediction)。二者并非替代关系,而是互补路径。当前多模态研究的真正挑战,在于弥合二者之间的鸿沟——而这正是新时代计算机视觉的核心使命。
“我最想做到的事情是,通过不做 robotics 的方式去解决 robotics 的问题。”
视觉智能的未来:从预训练到物理智能
谢赛宁强调,真正的通用智能必须具备“预训练大脑”与“物理交互身体”的协同能力。当前 robotics 的硬件进展迅猛(如人形机器人动作流畅性),但其“大脑”——即感知-推理-决策的端到端系统——仍极度依赖人工设计或微调。他主张:应优先攻克视觉预训练的底层表征问题,而非过早陷入硬件迭代。
在他构想中,计算机视觉的未来不在于替代机器人,而在于为其提供可泛化的“世界模型”:一个能从多模态输入中构建层次化、可迁移、可干预预测的视觉认知框架。这要求视觉系统不仅识别物体,更要理解其物理属性、因果关系与动态演化规律——即构建一种“可行动的视觉”(actionable vision)。
他特别指出,工业控制、多传感器融合、实时环境建模等场景,本质上都是连续域建模问题,无法靠 token-based LLM 简单扩展解决。而视觉作为连接物理世界与数字智能的桥梁,其核心价值恰恰在于:将不可言说的连续信号,转化为可推理、可共享、可泛化的认知结构。
“视觉要解决的问题……它的 target 的这个市场就跟 language 完全不同。”
机器人研究的分层路径:先解码‘大脑’,再耦合硬件
谢赛宁认为,当前机器人领域的进展令人瞩目——无论是春晚展示的灵巧操作,还是各类具身智能的演示——但真正的瓶颈不在硬件层面,而在‘大脑’的构建上。他强调,预训练阶段的核心问题尚未解决,尤其是视觉系统、控制逻辑与世界建模之间的协同机制。硬件本身存在其固有的 scaling law(如需大量机器人实机训练),而当前更紧迫的任务是在软件层完成基础性研究,包括表征学习、计算机视觉与世界模型的统一理论框架。他并不否定闭环验证的重要性,但主张通过战略合作(partnership) 实现验证,而非过早陷入硬件投入。他特别指出,计算机视觉与语言建模的范式存在根本差异:语言模型的“自监督”实为一种隐性强监督——人类文明数千年积累的知识已被编码进文本语料,互联网只是将其免费公开;而视觉系统需直接建模物理世界的动力学与因果结构,无法仅靠符号化语言完成。正如他所言:
‘language 是一个交流的工具,不是一个思考的图,甚至不是一个 decision making 的图’
‘你写下每一句话,本身就是一种 supervision construction 的过程’
语言模型的局限:可对齐,但不可完备
谢赛宁进一步指出,语言模型虽在人机对齐上具有天然优势(因所有训练数据均源于人类表达),但其本质是为通信而优化的压缩表征,而非对世界本身的建模。例如,当描述‘杯子掉地碎了’时,语言只关注结果状态,忽略其背后的物理动力学、应力传播与微观机制——这些恰恰是智能系统应建模的关键部分。因此,LLM 若仅依赖语言输入,将不可避免地陷入‘表征贫瘠’:它能复现人类行为模式,却难以生成对世界运行规律的深层理解。这也解释了为何单纯扩展语言模型难以通向通用智能。他补充道,多模态融合(如加入视觉)并非为‘提升智商’,而是补全世界表征的必要步骤;问题不在于是否引入视觉,而在于如何定义‘聪明’——是满足人类交流需求,还是逼近物理现实的因果推理能力。
VISTA与Think with Image:学术启发工业的短暂窗口
他以 VISTA 工作为例,说明学术界如何推动工业实践:该系统首次尝试在多模态框架中构建‘系统二’式推理能力——即在测试时进行显式视觉搜索与定位(如先回忆垃圾桶可能在冰箱旁,再定位回答颜色),而非直接输出结果。这项工作早于 ChatGPT-1 多月,当时‘test-time scaling’尚非热点。VISTA 的成果后来启发了 OpenAI 的 Think with Image 项目,其 benchmark 与核心思想高度重合。这曾让他感到鼓舞:学术探索确实能撬动工业模型的演进方向。但另一方面,他也观察到趋势的恶化:工业界研究实验室正日益封闭——从早期可署名论文,到仅能发 blog post,再到连署名都仅以团队名义呈现(如 OpenAI 或 Gemini team)。他忧虑:当学术界赖以运转的‘信用分配机制’被商业竞争取代,‘为爱发电’的研究动力将难以为继。他最后提到 REPA(representation alignment)论文,再次强调‘表征’仍是其研究主线,并呼吁重建开放、可追溯的学术-工业协作生态。
表征对齐:从监督到自监督的范式跃迁
当前的大模型训练机制正经历结构性转变:过去由学术理想驱动的研究范式,正逐步让位于商业竞争逻辑,尤其在 IAM 这一代模型及其背后的组织架构中表现明显。在此背景下,论文《Representation Alignment》(REPA)提供了一个关键突破口——它本质上构建了一个deeply supervised network,不仅在输出端使用 diffusion loss,更在模型中间层引入额外的监督目标:让 diffusion 生成模型的内部表征与自监督模型的表征对齐。这一设计再次印证了表征的核心地位:它不仅关乎多模态理解(如 Cambrin One),也深刻影响生成模型(图像/视频)的质量与能力边界。
值得注意的是,该方法虽有效,却仍属间接路径:为何不直接将强表征作为生成模型的 encoder 或 foundation?后续工作《Representation Autoencoder》(REA)正是对此的推进——它将 autoencoder 与高维表征结合,挑战了“高维表征导致训练困难”的直觉。正如马伊老师所强调的:“你们一定不能害怕高维度。” 高维空间并非障碍,而是机器学习的基石:从 kernel methods 到 Transformer 中的 up-projection layer(如 d → 4d 的 FFN),本质都是通过升维使数据线性可分、释放更多信息、提升学习效率。这不仅是技术选择,更是认知突破——高维表征不是问题,而是通往更强世界模型的必经之路。
“有学生当初就提问说:‘啊,这个维度太高了,可能不一定是件好事儿啊……’首先,我们的结果完全是相反的结论。”
“我要告诉你们,语重心长地告诉大家,说你们一定不能害怕高维度。高维度是所有机器学习里面非常非常重要的一个基石。”
世界模型:从预测函数到认知架构
REPA 与 REA 的探索最终指向一个更宏大的目标:构建世界模型。严格定义下,世界模型即一个预测函数 f,输入当前状态 sₜ 与动作 aₜ,输出下一状态 sₜ₊₁ 的预测。这一概念并非新见——1943 年,生理学家 Kenneth Craik 首次提出:人脑内置世界模型,用以模拟动作后果,从而指导理性决策(如“手伸火堆→会疼→不伸”)。该思想亦贯穿控制理论:从登月导航到 model predictive control(MPC),本质都是基于模型滚动预测最优动作序列。
然而,当代 AI 对世界模型的理解仍显单薄。当前主流路径将世界模型简化为“预测模块”,但作者认为,真正的世界模型应是一个认知架构:它由多个神经模块构成,各司其职(如感知、推理、规划),而表征是其最核心部分(虽非全部)。在此框架下,语言、视觉、动作等模态均可视为该表征的 decode 输出——语言不再是驱动一切的“大语言模型霸权”,而退化为简洁的交互接口;视觉生成(如 Sora、C-Dance)也不再依赖端到端像素建模,而是基于强表征的高效解码。这预示着:未来 AGI 的核心不是更大的语言模型,而是更强的世界模型表征。
“我现在押的 bet 是说,这件事,这个世界上只有一件事情是重要的,就是怎么学习到这个表征,这件事情是重要的。当你有一个足够好的表征之后,在上面处理其他的问题都是简单的。”
“语言其实是一个毒药啊,或者语言其实是一个鸦片……它有用,但它是一个 shortcut。如果你一个人一直吸鸦片,你就废了。”
语言的陷阱与多模态的清醒
在通往世界模型的道路上,语言是一把双刃剑。一方面,它作为人类最高效的沟通工具,是大模型不可或缺的接口;另一方面,过度依赖语言可能带来“语言污染”——尤其对视觉表征的侵蚀。作者坦言:“我非常担心语言对于视觉的污染,而且这个污染已经在发生了。” 其根源在于工业界—学术界共同强化的价值链条:以“scaling law”“LLM as AGI”为叙事核心,将多模态智能强行塞入语言主导的范式,最终导致系统智能水平下降。
这与杨立昆(Yann LeCun)等学者的立场形成有趣对照:他们同样警惕语言对视觉的干扰,主张构建“聪明的多模态”,即在不牺牲底层表征质量的前提下实现跨模态协同。作者进一步指出,语言的诱惑性在于其即时反馈带来的“幸福感”,但正如拐杖会削弱腿部肌肉,过度依赖语言会抑制系统发展更本质的表征能力。真正的突破在于跳出当前局部最优(如当前大模型架构),拥抱高维、模块化、以世界模型为核心的新范式——这不仅是技术选择,更是认知觉醒。
(收尾段留空)
模型预测控制与世界模型的本质
模型预测控制(Model Predictive Control, MPC)是一种经典控制算法,其核心思想是:在每一个决策时刻,系统基于当前状态和内部的世界模型(world model),滚动预测未来一段时间内不同动作序列(action sequence)所导致的状态演化路径,并通过一个代价函数(cost function)评估每条路径与目标的偏离程度;最终选择代价最低的那条动作序列,仅执行其中的第一步,然后在下一个时刻重复这一过程。这一机制本质上是将预测能力直接嵌入到决策流程中——即“基于对未来状态的预测来指导当前行动”。
这一思路后来被引入强化学习(Reinforcement Learning, RL),催生了基于模型的强化学习(model-based RL)。Rich Sutton 在其经典论文 Dyna 中明确指出:标准的强化学习是一种无模型的、原始的学习范式;而更智能的系统应具备世界模型,从而支持规划(planning)能力——而规划与推理(reasoning)在本质上是同一类认知活动。他进一步提出,人类认知可类比为 System 1(快思考,reactive policy) 与 System 2(慢思考,model-based policy) 的协同:初学开车时需高度专注、逐帧决策(System 2),熟练后则内化为肌肉记忆(System 1)。
Reinforcement learning is a very primitive, a very basic, model-free learning algorithm.
If you have a strong world model, you can simulate what happens next — and that gives you planning capability.
状态、表征与抽象:从物理细节到任务导向的建模
在世界模型框架中,“状态”(state)被定义为:能够以最小信息量充分描述系统当前全部必要信息的抽象单元。关键在于,状态并非对物理世界的全量重建,而是任务驱动的、足够充分的表征。例如,在一个房间里与话筒互动时,我们只需知道“话筒能稳放在桌上”,而无需建模桌面每一点的纹理、空气分子运动或光照分布——这些细节对当前任务而言是冗余的。
这种建模方式与表征学习(representation learning)高度相关:理想表征应具备层次化、渐进抽象的特性——从低层像素、分子运动,逐步抽象为流体力学中的 Navier-Stokes 方程、宏观变量等更高阶的语义单元。这种抽象不是凭空而来,而是通过统计规律与任务目标共同筛选出的有效压缩。
语言本身正是人类演化出的最成功的抽象系统:它高度凝练、已被实践验证,是“存在的抽象”。而当前构建世界模型的目标,是超越语言句法与逻辑的限制,发展一种潜在的、可行动的、非语言的 latent representation——它能支持预测、推理与决策,而非仅限于文本生成。这也解释了为何大语言模型(LLM)虽能做 chain-of-thought(CoT),但其本质仍是阶段性的产物:它缺乏真正的世界模型,因此在可控性(controllability)与安全性(safety)上存在根本缺陷。
Language is an existing abstraction. What we’re trying to build is a new one — beyond language.
LLM is fundamentally flawed as a world model — it’s controllable only through post-hoc alignment, not through internal simulation of consequences.
世界模型:统一目标下的多元路径
当前“世界模型”尚无统一技术定义,因其本质是一个目标而非算法——无论你使用大语言模型、视频扩散模型(如 Sora、Genie)、高斯扩散还是脉冲神经网络,所有研究方向都在向同一个目标收敛:构建一个能支持预测、规划与决策的内部世界表征。
这导致了表面上的“路线之争”,实则更多是视角差异。例如,视频扩散模型可能侧重于高保真时空预测,而控制理论背景的研究者更关注动作-状态闭环的可操作性。但长远看,这些路径终将融合:真正的世界模型必须同时具备结构化表征能力与行动导向的预测能力。
这也意味着,当前依赖微调(fine-tuning)与人工规则对齐(alignment)的安全机制,只是权宜之计。真正的安全应来自模型自身的前向预测能力——例如机器人持刀时,若能模拟“刀柄转向→挥动→撞击人体”的后果,即可在推理阶段主动规避危险动作,而非依赖海量数据中“见过多少事故案例”。
We’re all walking toward the same road — the road to world models.
The arguments today about definitions will look silly in a year or two — because we all know what we’re building.
世界模型的多元路径与本质差异
当前众多公司——如 Sora、Bytedance 的 Genie、Runway、Luma 等——虽纷纷将自身定位为“世界模型公司”,但其实际工作重心仍停留在构建世界模拟器(world simulator):即以生成高质量、高一致性、可交互控制的视频为核心目标。这类系统强调视觉保真度、长期连贯性与用户可控性(例如 Genie 中向前/后退两步的指令执行),本质上是以渲染为中心的生成模型,而非真正意义上的智能体认知架构。
相比之下,李飞飞团队在 World Labs 中推动的方向更接近一种强 3D 表征的前端接口。其关键在于:显式(explicit)的三维几何结构必须外显于参数之外,而非隐藏在隐空间中。这种表征方式使系统能100% 确保空间操作的安全性与可预测性,而生成式世界模拟器虽可通过长上下文增强记忆能力,却无法从根本上规避幻觉与逻辑错误。
“你需要有一个非常非常具象化的3D的一个一个,你你你可以叫它表征,它也是某种表征,但它是说你这个东西不是一个抽象的概念……它得要有 explicit 的 3D 的这种这种形式在那儿。”
“AutoDesk 给他们投了两亿美美元……AutoDesk 是一个做3D这种 CAD 或者 whatever design 这样一个公司。”
语言模型作为世界模型的局限性
我们所追求的并非模拟器,而是预测性大脑(predictive brain)——即一种能真正理解物理世界、具备长期记忆、推理与规划能力、且完全可控安全的智能系统。核心问题在于:语言模型在建模世界时存在根本性缺陷。
以视觉为例:人类仅需轻微转头(如5–10度),即可自然感知数百帧的连续动态;而若用语言模型处理视频,需将每一帧拉平为 token 序列(如 256 tokens/帧 × 128 帧 = 32,768 tokens),再交由 Transformer 处理。这种做法不仅极度冗余,更违背了世界表征的全局状态结构。Transformer 的归纳偏置——即对所有 token 平等注意力——使其难以建模连续空间信号的内在结构。
因此,语言模型本质上是一种通信工具,其行为模式更像一个“带意图的搜索引擎”:用户带着目的提问,模型返回答案。而真实世界中的世界模型(如人脑)则在后台持续运行,甚至在意识介入前已做出决策(如 Libet 实验所揭示的神经前兆)。这种无意识的背景推理与预测能力,是当前语言模型所缺失的。
“语言能带给你的东西实在是太少了……语言还会有其他的问题,就是它是一个本质上是一个 communication tool。”
“L M更像是一个,在我看来,更像是一个 search engine 的眼神……你永远带着目的,你永远呃抛出一个问题想得到一个答案。”
从生成模型到世界模型的范式跃迁
尽管视频生成模型(如基于 DiT 的系统)仍需依赖语言模型进行 prompt 重写与条件注入,但其建模目标已发生根本转变:从语言模型的 p(y)(建模标签空间的概率分布)转向生成模型的 p(x|y)(建模数据空间中给定条件下的现象分布)。这一转变意味着:智能体不再受限于预定义标签集(如 1000 类分类),而是要理解世界中哪些现象更可能真实存在——例如为何四条腿的猫比三条腿的更常见。
这种转变带来了数量级更高的信息密度与认知深度:生成模型迫使系统学习物理约束、因果规律与统计先验,而不仅是语义匹配。因此,虽然视频生成模型尚非终极世界模型,但它确实比纯语言模型更贴近真实世界的建模需求。
“你现在 model 的东西已经是 x,x 是你的数据本身,你的 y 变成了你的一个条件……这件事情已经很不一样了。”
“你需要知道为什么在这个世界上,一只四条腿的猫要比一只三条腿的猫更常见……这个事情就很很不一样了。”
世界模型:不止于语言模型的感知闭环
当前的语言模型(LM)虽然强大,但仅靠语言模型无法构建真正意义上的世界模型——它本质上仍是一个“带着屏幕、可语音交互的 ChatGPT”,缺乏与物理世界的持续交互能力。真正的世界模型需要一种always-on 的感知系统,例如可穿戴设备:它持续采集心跳、睡眠、行为等高频数据,但这些原始数据本身对用户毫无意义;关键在于系统需具备智能决策能力,能将数据转化为 actionable insight,比如提醒“你最近压力过大”或“过去几天睡眠质量差,建议调整作息”。这虽是极简版的世界模型(信息维度单一、垂直),却揭示了未来方向:若能实现全天候、全模态、无限 token 流的感知输入,并与多模态大模型结合,将极大拓展其决策深度与广度。
它需要有一个智能决策,告诉我说,哎,你好像 under too much stress,你现在压力太大了,你需要缓一缓。
我很想要这个东西,因为我想知道我几点喝了一杯咖啡,是不是这杯咖啡喝早了一小时,导致我晚上可能睡眠没那么好了。
机器人:下游应用的潜力与上游瓶颈
机器人是世界模型最理想的下游应用场景之一——任何上游关于世界模型、表征学习或预测能力的进展,都将直接赋能机器人系统。例如,视觉-语言-动作(VLA)模型、视频扩散模型(如 action-conditioned video diffusion)正被用于改进机器人的动作规划能力。然而,当前机器人仍面临根本性瓶颈:“大脑”不足。即便能登台表演的机器人,离“走进千家万户、背老人上下楼、照顾饮食起居”的通用目的机器人仍有巨大鸿沟。业内共识是:能干活的机器人仍是荒漠。更值得警惕的是,公众看到的春晚机器人与研究者私下交流的真相常大相径庭——后者更愿坦承当前系统的缺陷与不可行之处,尤其当问题触及“现有模型根本无法解决”的层面时。
能干活的机器人都是荒漠。
创业动因:逃离学术与工业的‘氧气困境’
谢赛宁的创业决定并非突兀跳跃,而是对学术与工业生态双重困境的回应。在学术界,他担忧陷入“中等论文陷阱”——发不少好论文,却因资源限制难以将想法推向真正突破;而在工业界,尤其是大厂,纯粹的、开放的、前沿探索型研究正被系统性挤压。当前主流大厂实验室(如 Meta FAIR、Google GDM)虽名义上做研究,实则高度封闭:不开放、不署名、不发表、不合作,且与产品部门存在明显隔阂——核心模型训练部门陷入“军备竞赛”,资源向榜单排名倾斜,彻底抽走了研究所需的氧气。他曾在 Gemini 实验室中是唯一“脚踩两只船”的双聘研究者,更印证了学术探索在工业体系中的边缘地位。
你有没有想过加入任何的 lab?你没有办法忍受这种没有氧气的感受。
如果你真的想要做这种完全前沿的探索,你想要去定义问题的话,可能还是得在一个自己的 startup 做,才会成立这件事情。
价值链条如何扭曲研究方向
当前AI领域的价值链条呈现出清晰的层级结构:Bit → Lesson → AGI → LM(大语言模型),这一叙事逻辑主导了整个行业的目标设定与资源分配。它催生了一套以榜单为核心的 benchmark 体系——例如 LLM Arena 或其他公开排行榜——而这些榜单直接决定了资源的分配优先级。当研究目标被简化为“在榜单上争第一”,资源自然会向能快速提升指标的方向倾斜,研究者的自主判断逐渐被组织目标所取代。
这种机制导致许多真正关键但短期难以见效的问题被系统性忽视。以视频理解为例:尽管它对构建世界模型至关重要,且学界业界并非无人具备能力或意愿深入探索,但现实中,相关人才往往被分配到“视频生成”或“video captioning”这类更贴近当前榜单逻辑的团队中,被迫用间接方式参与价值链条。即便团队成员深知当前方法存在根本缺陷——即缺乏基于 world model 的视频理解框架——他们仍缺乏空间进行真正探索。
我在 Google 期间参与的 RE 论文工作历时近一年才完成(中间因学生健康问题出现中断),发表后反而收到多位 Google 研究人员的正面反馈:“你说得对,我也试过两周,但 manager 直接叫停了——因为接下来有 product cycle one、two、three,我必须交付。” 这一现象揭示了一个核心矛盾:在强竞争与产品驱动的环境下,企业已丧失定义问题的能力。曾以探索精神著称的 OpenAI,如今也难逃范式内卷;而真正的出路,或许在于逃离硅谷叙事,重建以研究者友好为前提的组织形态。
“你如果想要做一个好的产品,你首先得要热爱生活。你得知道这个生活里面的人,他们在做什么事情,他到底需不需要这个东西?”
“这个世界是需要这样的 world model 的,LM 不能解决所有的问题。”
隐形世界的现实需求与数据盲区
在硅谷主导的 LM 叙事之外,存在着一个庞大却“不可见”的隐形世界:农场、医院、工厂、机场……这些实体场景中的用户并非不需要 AI,而是现有语言模型无法直接解决其物理世界中的真实问题。他们焦虑于“AI 浪潮来了,我是否还有机会上牌桌”,而这种焦虑正催生出对世界模型(world model)的迫切需求——一种能理解物理规律、因果关系与多模态信号的系统。
这一需求的根源不在实验室,而在真实生活与工业现场。侯小迪与 Manus 的张涛都向我强调:“问题的定义者是生活里的人,不是研究员。” 真正的 AI 系统若要普惠全人类,就不能是头部公司自上而下的“能力强加”,而必须从一线需求出发,由用户定义问题。这恰恰是当前 LM 范式所忽略的:问题定义权被隐性剥夺,真实世界的数据也处于“不可见”状态。
例如,YouTube 上的数据高度 aligned 于人类娱乐偏好与价值观,但工业场景中,一架飞机引擎可能配备千余个传感器,持续生成高维、连续、带噪声的信号流——这些数据不会上传至公开平台,却对构建“飞机引擎世界模型”至关重要:它可帮助识别设计缺陷、预测故障点,解决大量 long-tail 问题。类似地,世界模型不应仅限于视觉模态,而需整合多模态、连续、高维、非结构化信号,其训练数据必须来自真实世界“淘金”,而非仅依赖互联网爬取。
“世界是模型是什么,我们可以有一个定义,在这部分上,我跟他的定义其实非常非常吻合。”
“它跟 LM fundamental 不一样,但它至少是一个 transformer 或者 ChatGPT level 的事情。”
构建新范式的组织定位与挑战
我们正在尝试构建的组织,既非纯粹研究实验室(如早期 FAIR),也非封闭商业导向的前沿实验室(如 XAI、GDM、Meta AI),而是介于二者之间——可能60%~70% 倾向于 New Lab 的落地导向模式,同时保留20%~30% 的自由探索空间。这种结构旨在平衡两大张力:短期落地可行性与长期范式突破可能性。
当前 LLM 范式已趋于确定性,竞争本质是“商业输赢”的零和博弈;而我们试图跳脱该范式,提前布局下一个 AI 革命——我们称之为“世界模型革命”。其核心产品不是某个具体应用,而是一次基础性研究突破:一个可预训练的通用世界模型,其上可衍生出视频生成、动作规划、机器人控制等垂类任务。这需要海量异构数据、跨行业深度协作,以及对“问题定义权”的重新交还。
作为 co-founder 与 Chief Science Officer,我的定位始终是“science”,而非 CEO。这种身份张力带来焦虑,却也赋予一种无知者无畏的冲劲:我不懂商业,但正因如此,才敢于质疑既有逻辑。Ilya 作为典型研究者选择创业,恰恰说明:未来 AI 革命的胜负手,仍是基础研究突破——而我们的使命,就是让这种突破不再被短期指标绑架。
(注:本节未设引语,因核心观点已融入正文;若需保留,可替换为:“商业访谈录。”——此为原话,但语境中更像过渡句而非观点句,故未列入块引用。)
科研初心与组织定位:非CEO的首席科学家
作为 AMI Labs 的联合创始人兼首席科学家(Chief Science Officer),我始终将自己定位为一名科研者,而非管理者。我并不具备担任 CEO 所需的商业运营与大规模团队领导能力——这与 Yann LeCun 的路径有些相似:我们更愿做科学的“守夜人”,而非企业的“掌舵人”。AMI Labs 的核心使命并非追逐 IPO 或资本回报,而是吸引那些真正 mission-driven 的年轻人,共同探索 AI 的基础问题。公司目前已有来自 OpenAI、DeepMind 等机构的研究员加入,他们看重的不是短期收益,而是参与塑造 AI 历史进程的可能性。
“大家心里面也非常非常的纯净,就是想要做 research,并且大家觉得我们有机会能够去成为一个某种意义上的影响这个 AI 进程的人。”
当前行业存在一种倾向:过度强调“降低 ego”与“团队协作”,却忽视了个体成长所需的可见性(visibility)与自主性。我坚持认为,年轻研究者需要自己的“人物弧光”——即在项目中被看见、被信任、被赋予独立贡献的空间,才能成长为未来真正引领方向的 leading researcher。遗憾的是,如今学术界与工业界对青年人才的上升通道正变得越来越收窄。因此,AMI Labs 的招聘策略明确聚焦于:寻找那些已有扎实能力与良好声誉、 yet 尚未被广泛认知的潜力型人才。我并不迷信“已发 25 篇改变 AI 历史论文的大牛”,因为“一个人很难被闪电击中两次”;相比之下,我更愿投资那些仍在突破临界点前夜的“未发光者”。
反向 OpenAI:世界模型的分布式共建叙事
我们提出的愿景是构建一个 “反向 OpenAI” 的模型范式:传统 OpenAI 的路径是“先从互联网下载数据 → 训练大模型 → 推向市场”;而 AMI Labs 的路径是——世界模型无法直接从互联网下载,必须通过真实世界的广泛协作来共建。这要求我们走出封闭实验室,联合那些不愿被 AI 浪潮裹挟、但有真实数据与具体问题的实体(如制造业工厂、本地企业、非科技巨头),通过伙伴式联盟共同迭代世界模型。模型交付后产生价值,反馈数据反哺基础模型,形成闭环。
这一模式的灵感部分来自 Mastercard 的诞生史:当 Visa 由 Bank of America 独家主导并迅速盈利后,其他中小银行联合起来成立联盟,推出 Mastercard 以实现分庭抗礼。AMI Labs 不追求技术垄断,而是致力于打造一个去中心化、分布式、天然抵抗垄断的科研生态。公司第一天即设立四地办公室(巴黎总部、纽约、蒙特利尔、新加坡),正是为了支撑这一全球协作网络。
“我并不是说我们的这个公司真的要走这样的模式,但我觉得在某种意义上会有这样的相似之处。”
这种定位使 AMI Labs 既非传统学术实验室,也非封闭大模型公司,而是一个中间态实验体——它需要平衡开放性与商业化、理论探索与工程落地。我个人也处于一种“中间状态”:既非功成名就的老教授,也非能扎进深圳工厂的年轻创业者;但正因如此,我反而能成为连接学术界与产业界的桥梁。事实上,已有团队(如 Build to AI 的 ID)从大厂辞职,直接入驻深圳工厂采集真实数据——这提醒我们:真正的世界模型,必须扎根于世界的复杂性之中。
关于杨立昆:斗士的另一面
杨立昆(Yann LeCun)在公开场合是一个坚定的斗士——他激烈反对“LM(大语言模型)可通向人类级智能”的叙事,但他从不反对 LM 本身,也不反对 AI(甚至公开表示自己用 Gemini)。他的反对,本质上是反对一种过度简化的技术乌托邦叙事。然而,私下里的他,是我打心眼里敬佩与崇拜的人。我们此前并不算熟络,但他的思想深度、学术坚持与人格温度,都让我深感钦佩。这种“公开批判、私下尊重”的张力,恰恰体现了他作为科学家的真诚与独立——他捍卫的不是某个技术路线,而是整个 AI 领域的理性与多样性。
杨立昆:知行合一的科学斗士
杨立昆(Yann LeCun)在网络上的形象是一位坚定的“斗士”,尤其以反对“大语言模型(LM)是通向人类级智能的唯一路径”这一主流叙事而闻名——但他本人从不反对LM技术,甚至公开表示自己日常使用Gemini。他的反对并非技术立场,而是对当前AI发展范式的根本性质疑:他坚持认为,仅靠扩大参数规模与数据量的路径无法实现真正的智能。这种立场使他在舆论场上常处于争议中心,但熟悉他的人却普遍评价其为极其温和、真诚且富有感染力的长者。
在作者看来,杨立昆最令人敬佩的,是他能让人在面对技术困境时重获信心与宁静。每当作者对某些方向产生怀疑,总会主动找他讨论,而杨总能以清晰的逻辑与坚定的信念,帮助他人看清问题本质,将挑战重新定义为“通往光明的必经之路”。这种能力不仅源于其学术深度,更来自他一以贯之的Japa思想实践——即主张构建抽象表征空间中的世界模型,而非试图重建全部原始数据。杨本人正是这一理念的“知行合一”典范:他既不盲从潮流,也不固执己见;他坦承“我完全可以被移动,但必须基于事实,而非他人指令”。
这一原则在他任Meta首席AI科学家期间尤为鲜明:当公司高层要求他停止公开批评LLM路径时,他断然拒绝,强调“My integrity as a scientist cannot accept this”(作为一名科学家的正直,我无法接受这一点)。
原话:我完全可以被move啊,完全可以被移动,但我需要基于事实来被move。
原话:My integrity as a scientist cannot accept this
技术深度与管理哲学:帆船、白板与信任
杨立昆的学术风格极具高度技术性与工程可实现性。即便在讨论“世界模型”等宏大命题时,他也从不满足于空泛的高阶描述,而是坚持用公式推导、数学建模来阐明思想。至今他仍每周在NYU带组会,亲自走到白板前,逐行推导模型机制——这种“highly technical, very very very technical”的风格,构成了他学术影响力的底层逻辑。
在AMI Labs的组织架构中,杨担任Executive Chairman,其管理哲学被他本人比喻为“划帆船”:在风平浪静时充分信任团队成员自主推进;一旦出现偏差,则以“as early as possible”的原则及时校正。他虽自认不擅日常运营,亦无意担任CEO,但作者认为他恰恰具备一种智慧型领导力——既作为精神领袖凝聚使命共识,又在关键时刻担任“舵手”,确保航向不偏。
更难得的是,杨在个人气质上毫无“大佬包袱”:他会在会议中主动与人合影,私下里温和纯净,让人毫无畏惧感。在AMI,团队成员可以坦率表达对决策的质疑,无论职位高低——这种开放、平等的讨论文化,被作者视为创业初期最珍贵的“气场匹配”。
原话:我完全可以被move啊,完全可以被移动,但我需要基于事实来被move。
原话:My integrity as a scientist cannot accept this
创业初心:为使命而聚,为热爱而留
AMI Labs在成立初期即展现出强大的人才吸引力:初始团队约25人,其中多人放弃Meta、OpenAI等机构开出的数千万美元级股权/薪酬包(如Meta提供的1500万–2000万美元级offer),毅然加入。作者认为,这种选择并非出于对短期回报的忽视,而是源于对“唯一可行路径”的共同信念——即在当前AI工业浪潮中,只有AMI仍在专注探索真正通向自主智能的科学路径。
尽管融资目标瞄准10亿美元量级(估值维持30亿美元pre-money),团队仍强调资本的“极度宝贵性”,并刻意避免盲目扩张。他们更关注节奏的把控:既不求快,也不愿慢,力求在“Mission-driven”与“可持续增长”间取得平衡。
在选址上,团队刻意避开硅谷,认为其已被“large language model叙事”深度催眠;但同时保持开放——“哪里有人才,公司就在哪里”。未来若硅谷觉醒,也不排除设点。
原话:我觉觉得现在我有很多很多的朋友,他们在 Meta……但我也想对他们说,当你把这个猫做完之后,嗯,可以来我们这儿看看。
原话:Yeah, hopefully it's not too late。
杨立昆:斜杠世界的诗人与舵手
杨立昆(Yann LeCun)身上有一种罕见的“斜杠气质”——用凯明的话说,他是一个十六岁青春期一直延续到六十五岁的一个人。这种特质使他既不被单一身份束缚,也赋予他极强的跨域感知力与人文温度。他有四大爱好:造模型飞机、拍天文摄影(Zoom会议背景常是他后院拍摄的星云)、玩电子乐与爵士乐、以及驾驶帆船。这些爱好并非浅层兴趣,而是他理解世界的方式:天文摄影让他凝视宇宙秩序,爵士乐训练即兴与结构的张力,帆船则象征着在不确定风浪中掌舵前行的能力。正因如此,他构建的“世界模型”才可能超越技术参数,成为有格局、有温度、有叙事能力的认知框架。
“我希望,you know,这个这个这个这个大船的舵手是一个有格局、热爱生活的人。”
更有趣的是,当团队为新论文《Solaris》(《索拉里斯星》)命名时,杨不仅立刻认出这是莱姆的小说及塔可夫斯基1972年执导的经典电影(而非1975年或2002年版本),还精准区分了塔可夫斯基与索伦伯格两版电影的哲学差异。这说明:他不是“了解”文化,而是内化了文化中的思辨逻辑——正如他在AI研究中所追求的:不是拟合数据,而是理解人类记忆、苦难与投射的深层机制。电影中那片能读取潜意识的海洋,恰如一个隐喻:模型若不能映射人的内在,终将只是外部反射的空壳。
Underdog 的清醒与勇气
团队坦承:我们不是“含着金汤匙”的创业项目——尽管杨立昆声名卓著,但他们在硅谷与资本场中常处于“一半支持、一半反对”的边缘位置,远非众星捧月的英雄叙事。相比Luminous AI(AMI Labs)所能调动的资源,当前融资规模“差太远”,但团队并不以此为耻,反而拥抱“underdog”身份:“你们可以不相信我们,但那我们就Let’s see。”这种清醒的谦卑,恰恰是长期主义的起点。
创业与研究的差异,被类比为滑雪:前者讲求平衡,后者需要反本能的勇气——“你要无所畏惧地把自己的肩膀朝向山下”,因为一旦因恐惧而向后靠,立刻失控。这呼应了杨立昆一贯的信念:真正的进步往往来自对直觉的超越。而“人类的赞歌就是勇气的赞歌”这句名言,被团队视为创业精神的注脚。更关键的是,勇气并非孤勇:“你永远不会独行……会有很多的人帮你一起”,因为共同理想会吸引同频者聚拢,形成一种相互滋养的信念生态。
“你越不相信我,我越 happy。”
组建团队:在不确定性中锚定人
团队核心成员达六人,包括CEO、COO(前Meta南欧区VP)、VP of World Model(原Japa团队Director Mike)、CRO(Pascal冯,专注研究-产品对齐与创新),以及多位兼具学术深度与产业经验的联合创始人。这种非纯研究背景的多元组合,正是为应对AI落地的复杂挑战而设计——世界模型需要的不仅是算法天才,更是能将认知转化为系统的架构者。
在招募标准上,团队拒绝玄学,但坚持一个核心指标:是否真正拥有“带着问题入睡”的执着。正如凯明所言:“你一天起床要想这个问题,吃饭的时候要想,洗澡的时候要想……”这种热情不是任务驱动的KPI,而是对问题本身的本能追问。杨立昆的“施咒”能力,实则是用清晰愿景与高度自主权(agency & autonomy)唤醒人的内在动机——当一个人确认自己能主导执行路径、组建理想团队时,犹豫便让位于行动。
至于产品路径,团队明确:最终必走向To C,但必须先完成World Model的基石突破。短期规划仅聚焦一年,拒绝宏大叙事绑架探索节奏:“伟大不能被计划”,研究与创业 alike,都需要在动手中逼近真问题。
从质疑到信仰:Japa作为认知架构的演进
在谈及公司当前进展时,谢赛宁坦言团队已进入可实质性推进的阶段——有明确可做的问题,并有望在短期内产出 promising 的结果,但具体技术路径暂不便公开。他特别指出,外界对公司的认知存在偏差,尤其是对 Japa 的误解。他自己也经历了从“质疑 Japa 是又一个自监督学习算法”,到“理解其背后的数学原理与系统性逻辑”,最终认同 Japa 是一套完整的认知体系(cognitive architecture) 的三阶段转变。
他以近期论文《The Japa》为例,说明该框架对表征学习给出了严格数学刻画:若要求表征对下游任务无关(agnostic),则其分布必为各向同性高斯分布。这一发现让他意识到,Japa 并非工程技巧,而是具有深刻理论根基的路径。更关键的是,他在 2022 年的论文中已明确将 Japa 定义为一套认知架构,而非单一模型或算法——它需整合世界理解、预测、规划等能力,构成通向通用智能体的合理路径。
Japa 不是一个模型,Japa 不是一个具体的算法。Japa 是一个整套的 cognitive architecture,就是一套认知体系。
GPT 是一个非常非常广阔的海洋。在这个海洋里面,可以有好多好多的船在上面开……L M 也是其中的一部分。
打破人类中心主义:智能的连续性与松鼠级挑战
谢赛宁明确表示 AGI(通用人工智能)是一个伪命题,其逻辑可追溯至信息论与神经生物学:人类视觉系统虽有约两百万条神经纤维,但所能建模的视觉函数空间虽达 $2^{2,000,000}$ 量级,实际可处理的信息却趋近于零——人类智能本质上是高度特化的、受意识与神经带宽限制的产物。
他深受书籍《Are We Smart Enough to Know How Smart Animals Are?》启发,指出动物智能远超常识认知:黑猩猩具备理论心智(theory of mind),能推理他人意图(如实验中选择未被观察者食用的苹果);某些鸟类会“反欺骗”,在被目击埋藏食物后移位重埋;狗、海豚、乌鸦等均展现出镜像自我识别、工具使用甚至社会权谋行为。语言虽为人类独有,但不等于其他动物缺乏复杂交流系统。
他特别推崇 Rich Sutton 的观点:“打造一只松鼠的智能”才是真正的hard problem。一旦实现具备真实世界生存能力(如目标驱动、内在奖励、情绪、社群互动)的松鼠级智能体,后续如编程、太空探索等人类任务将变得“再容易不过”。这并非贬低人类成就,而是跳出人类中心视角,在宇宙尺度下重估智能的难度与价值。
一旦你有了一只松鼠的智能……后面的写 code、上火星、上月球,这件事情都是再容易不过的事情。
机器人:世界模型落地的终极试炼场
尽管目标是构建类人智能,团队刻意避免“人类自大”,转而聚焦四岁儿童即可完成的日常任务——这些看似简单的行为(如整理房间、分类衣物、应对突发状况)实则对世界模型提出了极高要求:鲁棒性、泛化性、因果推理与物理直觉缺一不可。
他尖锐指出当前机器人研发的结构性失衡:所有头部机器人公司(包括大厂与初创)均未系统性构建“机器人大脑”。DeepMind 虽在强化学习与控制上领先,但仍未解决认知架构层面的整合问题。谭杰亦承认,机器人发展极不均衡——四肢运动能力或已超越人类,但感知-推理-决策闭环远逊于儿童。真正的挑战不在硬件,而在构建能持续学习、适应开放环境的通用认知系统。
因此,机器人不仅是技术出口,更是检验世界模型是否“够用”的终极试炼场:若连一个十二岁孩童能胜任的家务都无法可靠完成,谈论 AGI 便毫无意义。
机器人发展的结构性失衡:四肢发达,大脑缺失
当前机器人技术的发展呈现出极不均衡、极不平衡的特征:硬件能力(如四肢运动、抓取、行走)已远超人类儿童水平,但认知与决策能力仍远落后于一个十二岁孩童——而后者本可独立完成全部家务。问题的核心在于:没有人真正构建机器人的“大脑”。无论是初创公司还是大厂团队,几乎都将资源集中于硬件迭代与仿真训练(如模仿学习),却回避了最根本的挑战——世界模型的预训练。
DeepMind虽常被提及,但其机器人方向也已全面转向基于Gemini的VLLA框架,本质上仍属于同一范式。正如Jim Fan所指出的,当前亟需一场预训练的下半场:输入应为连续、高维、带噪声的多模态信号(如视频、音频、触觉等),输出则是对物理世界动态的内部表征。这项任务尚属开放性研究问题,尚无清晰自监督方案,更无人系统性推进。
“谭杰,DeepMind,谭杰他也说,就是机器人发展是极不平均的,极不平衡的。他跟一个小孩的成长的轨迹是不一样的。”
“没有人构建机器人大脑,所有的机器人创业公司,包括在大厂的机器人公司,都没有去解决这件事情。”
“我不是天选之子,我只是普通人”:作为团队的电池
谢赛宁反复强调“you are not the chosen one, you are just the normal one”,这句话源自利物浦主帅克洛普的自我定位——与穆里尼奥“我是特殊的一个”形成对照。他将自己比作一块电池:不靠天赋闪耀,而靠持续输出热情与能量,去赋能他人。这种角色定位在科研与创业中尤为珍贵,却也充满张力:研究者常陷于“暗无天日的摸索”,快乐仅占极小比例(约5%–10%),长期易陷入沮丧。
但谢赛宁认为,AI浪潮带来了新的解压机制:公共讨论空间的扩大(如小红书、知乎)让孤独探索者不再封闭。更重要的是,他从杨立昆身上看到一种罕见的乐观底色——并非盲目乐观,而是源于穿越AI寒冬后的笃定:“总有一小撮人能看清科技进程,但他们只是少数。”杨坚信当前世界模型路径与当年深度学习复兴如出一辙:少数人看见路径,多数人忙于眼前任务。
“我天天都感到沮丧。我觉得这个已经变成了一个的,这也是researcher的一个宿命吧。”
“他经常说的一句话是:这件事情跟过去 deep learning、neural network 发生的事情一模一样。”
真实世界的启发:从华盛顿公园到AI伦理
谢赛宁坦言,NYU日常通勤中穿过华盛顿广场公园的十分钟步行,是他最解压的时刻:街头艺人、推婴儿车的母亲、下象棋的老人、发呆的年轻人……这些与AI无关的真实生活图景,让他意识到AI从业者与大众认知的鸿沟——多数人并不关心“世界模型”,他们只过自己的日子。但正因如此,研究者更需思考:当AI最终渗透进这些生活时,我们该做什么?是否负有某种社会责任?
他推荐了几部具有“AI预言性”的作品:老剧《疑犯追踪》(Person of Interest)探讨超级智能的善恶博弈;动画《万神殿》(Pantheon)由刘宇坤改编,揭示意识上传与数字永生的伦理困境;朴赞郁新片《别无选择》(The Roundup: No Other Choice)则直指AI对人性的异化。值得注意的是,这些作品几乎无一例外地指向黯淡结局——技术进步常伴随代价,而人类尚未准备好应对。
“我每天最解压的时光就是这大概五到十分钟的路啊,我会发现这个世界比我们想象的要大得多……他们可能不care这件事情,然后他们有自己的生活。”
“这些影视作品都没有去指向到一个很光明的未来。通常来讲,结局都是挺惨淡的。”
现实的预演与AI的异化
尽管作为AI从业者,有时会对某些影视作品产生强烈情绪反应,但谢赛宁认为,这些作品——尤其是那些老电影与科幻小说——其实构成了对现实的某种预演。它们虽常以黯淡结局收场,却深刻揭示了技术介入后人类社会结构、人际关系与心理状态的深层变化。他最近观看的朴赞郁电影《别无选择》(No Other Choice)便是一例:影片通篇未直接呈现AI本身,却通过人物行为与互动,展现AI到来后人类如何被悄然异化。这种“缺席的在场”恰恰构成了对当下AI伦理与社会影响的有力隐喻。
他进一步提到,如今在纽约,除传统如纽约电影节外,还出现了更具技术前沿性的Runway AI电影节,后者聚焦AI生成内容与创作范式革新。其中,今年获奖短片《全像素空间》(Total Pixel Space)尤为值得关注:它并未停留在技术奇观层面,而是借由视觉叙事探讨了世界模型(world model)的构建边界——即人类智能为何不能被简化为“纯粹通用智能”(purely general intelligence),其中蕴含对当前大模型路径的深刻反思。
“通常来讲,这些影视作品都没有去指向到一个很光明的未来。通常来讲,结局都是挺惨淡的。”
“它其实讲了很多我们刚刚讲到的关于世界模型,或者说为什么人的intelligence不是只是简简单单的,或者不是这purely general的这种intelligence的啊一些argument,我觉得很好玩。”
知识的重量与真诚的连接
当被问及影响深远的“人生之书”时,谢赛宁首先提及本科时期集体共读的经典——《哥德尔、艾舍尔、巴赫:集异璧之大成》(GEB)。这本书通过三位巨匠——一位数理逻辑学家、一位作曲家、一位画家——的思想交响,串联起形式系统、意识与自指等深层哲学命题。尽管当时“组团啃书”时大多一知半解,但随着成长,其中关于元数学、递归、自指与意识涌现的洞见逐渐显影,成为一代人的认知底色。他建议:若无时间通读全本,精读摘要或关键章节亦能获益良多。
另一本令他印象深刻的则是《禅与摩托车维修艺术》(The Motorcycle Repair Book)。他坦言并未完全读懂,但阅读体验却如一场“精神清空”——不是信息的填充,而是价值排序的重构。他由此引出一个核心信念:人与人之间真诚的交流,或许比任何具体目标(如创业或科研)更根本。这一信念甚至在商业实践中得到印证:一位投资人因另一位顶尖研究员(Stable Diffusion团队成员、现Black Forest CEO Robin Rombach)的强力推荐而决定投资,尽管双方仅一面之缘。这印证了学术声誉所构建的信任链(trust chain)——“大家通过你的一篇作品了解你……这种信任关系,甚至有时候会远超于你真正的personal的connection。”
“人与人之间的真诚的交流是重要的,也许其他都不重要……归根结底,我还是相信人与人之间的交流这件事情很重要。”
模型、数据与哲学误读
谈及C Dance,谢赛宁毫不吝啬赞美,称其为“非常非常强”的技术突破。若传闻属实——即其为200B参数、MoE架构的大规模扩散模型,且成功消化海量数据并完成精细的captioning与分布校准——则意味着其在数据工程层面(而非仅架构创新)实现了质的飞跃。他强调:“百分之九十……或者我说百分之九十五吧,都是一个data的问题”,架构只是表层,数据质量、多样性、与prompt的对齐程度才是决定性因素。
随后,他转向对当前AI话语体系中常见哲学误读的批判。他特别指出对维特根斯坦与费曼名言的滥用:前者“语言的边界就是世界的边界”需置于《逻辑哲学论》早期语境理解,且维氏后期已彻底推翻此观点,转而主张语言即“语言游戏”,意义源于实践;后者“凡我不能创造的,我就不理解”本意强调在真实世界中行动与改造,而非将反向传播的loss等同于“创造”。他认为,将这些思想简化为大模型或统一理论的背书,实为脱离语境的符号挪用,令人“PTSD”。
最后,当被问及“命运”与“世界是否是巨大世界模型”时,他幽默回应:世界当然是世界模型,但预测命运需地球乃至宇宙规模的算力——而答案,或许正如《银河系漫游指南》所言,是42。
“大家不要拿着维特根斯坦,然后哎使劲薅,然后把它作为一个语言的边界就是我世界的边界的……这句话拿来当做一个LM或者语言决定论的背书,我觉得这件事情完全是很离谱的。”