Hello,大家好,我是小俊。AI业界有两个姚顺宇,一个从 OpenAI 跳槽到了腾讯,一个从 Anthropic 跳槽到了 Google
DeepMind。前一位姚顺宇去年来过我们节目,那今年我们邀请了另外一位,这位姚顺宇毕业于清华和斯坦福大学,曾经的研究方向包括非厄米系统、量子物理和高能物理。毕业后从物理转战AI,二零二四年加入Anthropic,二零二五年跳槽到了Google
DeepMind,出任研究科学家,参与了Cloud三点七、四点五、Gemini三等模型的开发过程。
那除了这些重点模型的开发之外呢?他有一些很有趣的观点,比如说,AI的本质是简单的,预训练也是一种强化学习,不要迷信老登,AI个人英雄主义的时代已经过去了,AI从业者最重要的特质是靠谱,等等等。我们的节目录制于二零二六年三月,距离我们这次节目录制完,世界又发生了许多意想不到的变化,比如说 Meta 对于 Minus 的收购被撤销,Cursor 可能被 SpaceX 收购。
xAI将终止独立运营,并入Spacex,并且更名为Spacex AI等等等。那如果我们的谈话内容有一定的滞后性,还请大家能够多多包涵,因为AI的世界实在是变化太快,也太出乎意料了。那可能还要特别说明的一点是呢,技术细节会涉及到一些企业机密,有一些是嘉宾不方便分享的,所以也请大家能够多多包容。我们在最大的可能的范围内和大家一起来学习AI。
那接下来就是我对顺宇的访谈,期待二零二六年我们和AI共同进步。Anthropic作为一个公司来说,它能够实行这种就是比较 top down 的机制,嗯,是一个很独特的事儿。这对于其他模型公司很难吗?很难,比如说 OpenAI 就干不了,就是 Gemini 也比较难。大公司和和 startup
它打法本来就不一样,因为 startup 重要的是 make bet,嗯,就是我得我得赌一件事儿,嗯,是我觉得大家现在就是是每个人都是冲浪的人。
本质上是一个浪,而不是你那个冲浪的人。因为AI这个事儿本来也不太需要脑子啊,需要脑子真的不太需要脑子,你需要什么?我觉得这个这个行业就是最重要的特质,就是靠谱,就是做事儿细,然后对自己做的事儿负责任,这是最重要的特质。硅谷不是有两个姚顺宇吗?你要不要先给大家介绍一下你自己,然后给大家科普一下两个姚顺宇的区别?
啊,可以,对,就是呃,我叫姚顺宇,然后显然也有一个跟我呃几乎同名的朋友,然后呃,我们俩主要履历也有一些overlap,所以说可能看起来非常的难以区分。对,然后呃,我是我以前是做呃学物理的,然后我本科的时候在呃清华。啊,那时候做凝聚态理论,然后后来去斯坦福,呃,做呃理论高能物理,然后和量子信息啊、黑洞相关的一些方面。
然后呃,离开斯坦福之后去呃伯克利短暂的待了两个星期的postdoc博后,然后就离离职了,去了Anthropic。然后在Anthropic待了一年,呃,去年九月底十月初的时候,呃,加入了Gemini,对。然后,呃,如果大家非要区分的话,我觉得最大的区分就是那个顺宇他一开始就是一直都是做CS,就是计算机相关的。
然后我其实,呃,从某种意义上来说是个半道出家,对,就是我之前是做理论物理为主的,对。你们是不是好朋友?你们好像大学就认识,而且是一级的,对吧?他是一个什么样的人?你是一个什么样的人?评价一下他,你也评价一下自己。对对对,我们本科就认识,因为我们本科是一级的,然后在清华。但他一开始就是学计算机的嘛,所以他在那个姚班,就是计算机科学实验班。
然后啊,我是学物理,所以我在机科班。对,然后啊,后来他去了普林,我去斯坦福。然后这可能也是另一个有点令人费解的点,就是好像这个。普世世界里觉得斯坦福应该是学计算机的人该去的地方,然后觉得普林斯顿是学物理人该去的地方,但我俩正好反过来,所以说也可能在产生了一些费解的事情。对,然后我俩其实也还真的挺不一样,我觉得他是一个比我有趣的多的人。
我觉得我我从他身上也是,在过去也是能学习到了一些和我很不一样的点,比如说他可能花了很多时间去思考,比如在AI方面,他花了很多时间去思考,就是人和AI的交互呀,然后包括一些产品上的事情,然后我觉得其实对我来说,呃,是一个很不一样的朋友,然后我也从他那儿学到了很多东西。你们之前在硅谷的时候多久见一次面啊?
你们现在是不是还频繁打电话?多频繁?呃,我们在硅谷的时候见面确实挺频繁的。可能每每几个星期吧,但是好像见面主要是为了凑一块玩儿,玩啥?就是真的就是纯玩儿,就是可能出去散散步,扯扯有的没的,然后可能有时候吃个饭、打个牌啊之类的。对,对。然后他回去之后,其实我们也也是也还是经常会打电话。对,最近一次电话聊啥了?
好像就是前一两个星期。啊?你怎么知道的?呃,可能就是。会过几个月,然后然后就开叉up大家呃大家不最近的近况吧。对,他是不是多次想把你拉过去?呃,可能有这个意思吧,但是但是我觉得不关键不关键。你为什么不去?我觉得对我自己来说,我呃没想清楚吧。嗯,我觉得呃多半是我自己的原因。然后呃我也没有去任何。呃,中国的地方。
然后我觉得主要原因是因为,呃,在去年的九月或者八九月这个时候,我觉得,呃,那时候我离开离开Anthropic,然后离开之后决定要去哪儿的时候,最大的动机是,呃,我想学一些不一样的东西。呃,对我来说,我可能就没有去考虑,呃,没有没有更着重的去考虑说能够我去领导一个项目啊,或者领导一个project之类的。
我更多的是是那个时候更多的是优先去学习一些东西,所以那个时候选择去了宅门来对。我发现你们两个老被放在一起比较和讨论,对你来说是困扰更多还是享受更多啊?我没什么感觉,然后因因为我这个人也不太关注社交媒体,所以我其实真的没什么感觉。嗯嗯,因为那个顺宇他之前在去年的时候说AI进入了the second half,进入下半场,这个成为了一个非常有名的观点。
你觉得今天的AI在一个什么样的时期?你能给它一个定义吗?对我,我觉得对我来说,我可能嗯看的没有那么清楚什么叫做上半场,什么是叫做下半场,或者说这个定义一直以来对我并不是特别清楚。对我来说,确实现在AI进入到了一个阶段,就是呃,我觉得大家都已经开始不那么担心一件事儿AI是不是能够做得到,而是担心这件事儿是不是被良好定义。
对,我觉得这是一个很大的区别。比如说,我觉得一年之前,就是可能去年年初的时候,那时候,呃,我在Anthropic,然后大家可能担心的事情还是说,哎,OpenAI这个reasoning做的这么强,我们有没有机会能够追上?然后有多大的机会能够超越它?大家还很担心这个事儿。我觉得现在就是在任何这至少在Gemini、OpenAI和Anthropic这三家当中,我觉得没有哪一家会真的担心自己追不上。
嗯,然后我觉得可能现在对家大家更难的事情是是想明白要去做什么啊,这个是一个我觉得是一个是一个bet,是一个赌,但是也是呃,我觉得也是一个很需要人的inside的事情,对。那这也意味着模型的能力被拉平了,对不对?它变得同质化,变变得商品化,所以模型没有很大的区别,就是在在好坏上没有很大的区别。但是它需要分化。
呃,我觉得从用户的实际体验上来说,这三家的模型是能够感受到区别的。但是,呃,难的一点是,过去这个区别在纸面上也能看出来,在纸面上是纸面上是指就是比如说像公开的有很多这种板尺码这种呃测量的规范,然后比如说大家以前能够去看思维bench。对对对,能能看Speedbench,然后可能数学大家那时候会比像呃简单一点的AIME A I M E,然后难一点的像AM。
我那个时候感觉就是你从纸面上就能看出来,哎,这个模型好像reasoning强一点,那个模型好像coding强一点,那个模型这个强一点。现在就是纸面上大家其实都比较相近,然后你去看那个纸面上的消息,比如看Speed Bench,你会发现,哎,好像好的会比不好的可能高一个百分点或者两个百分点,但其实大家都在百分之八十附近,那个附近数字高一点低一点,其实呃。
是,主要是是noise,就主要是是噪声,而不是信号。对,但是从另一方面来说,大家使用上确实还是能体现出呃区别的。我觉得,嗯。就我个人了解到的信息而言,呃,Cloud目前仍然是呃比较通用的这种工具使用类的,是呃 Agent 表现最好的。然后在纯粹 Coding 的方面,可能最近呃 CodeX 稍微追上了一点啊,就把这个把这个中间的 Gap 变小了一点。
然后,呃,Gemini可能在纯的reasoning,然后和一些比较日常的使用环境下,可能目前还是比较好的。然后在,呃,在coding和agent上还处于一个比较在在接近的这个状态。嗯,对。哎,这些能力,他们是有意选择我优先发展哪个方向,还是说它就是好和坏的区别?就是它是能力问题还是意愿问题?我觉得呢,其实是有意愿的成分在的。
呃,尤其在过去的情况下,主要是意愿,就是当当大家能从纸面上就看出区别的时候,那时候意愿肯定是占大多数的,因为可能呃,像Cloud就一直更看重这种使用工具的能力,嗯,然后包括Coding。那可能OpenAI有一段时间非常看重reasoning,对,当然现在也开始看重coding。那那个时候肯定是意愿会占大多数,因为你花你更有意愿的话,就意味着你能花更多的精力去构建合适的基础设施、合适的infrastructure、构建合适的数据。
然后尤其数据,它是一个呃,从某种意义上来说很花时间、很花精力的事情。对,所以说那个时候肯定是意愿占主导。但是到现在这个时候呢,呃,我觉得两方面其实都有,因为。嗯,其实因为纸面上都看起来差不多,然后其实甚至你就做一些呃更内部的测试来说,这个数字也都变得呃差别没有那么大了。然后这时候更难的事情就是你该怎么去定义问题,定义你想要的行为。
嗯嗯,然后呃在这个事情没有定义的那么清楚的时候,模型的很多差异其实来自于一些。呃,其实是你想想不想象不到的事儿,对,想象不到的事指的是,呃,我觉得,当然想象不到的事就是你现在去问,其实我很难给你一个特别清楚答案,可能过一段时间之后回过头来看,我才能给一个清楚答案。但是我可以举一个呃想象不到的例子吧,啊,就是比如说。
比如说,退回往回退,可能一两一一年两年甚至三年的时候,那时候如果你比如说去网上,呃,取这些预训练的数据的话。啊,你看训练一个模型就会发现模型在写代码,那时候当然没有这种 A
轶这个的写代码,它都是写一段代码。那时候你会发现模型化写代码会写的很好,啊,但是可能那时候大家不知道为什么,但是这个里面意外的原因可能就是你从网上随便的去,如果不做任何的数据的筛选的话,自然的这个这个 code data 的质量就会比别的高一点。
因为你去看网页,你会发现 GitHub 的质量是显著比别的正常网页要高的。那在进入我们今天主题之前,我想先聊聊我们最近模型的一系列的近闻。嗯,就是你看最近大家都在讨论 Open Cloud。嗯,你作为一线的研究员,你对这个新的产品形态是怎么看的?你周围有哪些讨论?我觉得有趣的是。我感觉这个事情在业外的讨论好像比业内的讨论更激烈。
哦,业内没有人讨论?呃,业内有人讨论,但是呃,我觉得对业内的人来说,它并不是一个嗯特别令人惊讶的事。呃,我怎么说?就是可能在公司内部也有人已经做了类似的这种这种实验或者这种demo,只是可能并没有作为一个呃产品去很认真的宣发,然后把它打磨,然后发出去。对,然后当然事实情况就是你去看这个 Open
Cloud 最早版本的 GitHub 的那个 code,其实那个 code 也就呃,从某种意义上说写的也不是特别的干净。
但是我觉得它很重要的事儿是它呃,给大家展示了这种可能性。嗯,那可能展示这种可能性之后,未来呃。像大O呃Open Cloud作作者自己也加入楼盘,然后那可能就是这些呃模型的的实验室,或者说一些呃大一点创业公司会很快跟上,然后把这个东西打磨成一个真正可用的产品。嗯,对,所以我理解,其实,在Open Cloud发布之前,Google就已经有人在做这个事情了,只是还没有发布,因为大公司的流程比较长。
对我我我的我至少我个人呃所所得到印象是这样的,所看到是这样,对。所以这种类 Open Cloud 的这种产品形态背后,它本身说明了什么?在今年出的这个时间点上,我觉得其实。其实,嗯,我觉得技术上来说,其实并不能说明什么。就是说,OpenAI这个这个产品,当然它依赖于模型能做的很多事情,嗯,但是那些事情的能力其实并不是到今年年初才准备充足。
我觉得可能在去年,就是像Opus发布四点五,然后,呃,然后。呃,当然那时候 Opus 其实比比 OpenAI 和 Gemini 三在 To Use 的能力上都要强一些,所以我觉得在那个时间点,其实你做这个事儿,这个事儿就已经是可以展示出来了。然后其实它它一开始发布也没有立即就火,它就是发布了之后过一段时间才火起来。
嗯,所以说,呃,我觉得可能对我来说,技术上它并不是一个,呃,并不是一个,就是说那么令人惊讶的事。它是模型能力的自然溢出。对对对,我会这样觉得。但是我觉得它可能一个对于大家的惊喜是说,以前可能大家都没有意识到,嗯,它让大家意识到了这件事可以做。意识到什么?就意识到了这个,你可以哎让模型做很。就是就是你可以控制很多不一样的模型,然后做很多不一样的事情,然后把这个事情汇总汇总之后,做一个很长很长很长
long horizon 的这种这种工作。
我觉得可能呃以前呃大家并没有并没有广泛的对这个事儿产生共识,那这个事情呃给大家展示了这样一种可能性吧。你看,从去年出火的是Minus,今年出火的是Open Cloud,就是从Minus到Open Cloud变化是什么?是模型能力的变化,还是产品的变化?这也是一个我其实一直没理解的事儿。嗯,就是,呃。
Minus和Open Call之间的质的区别是什么?是一个我其实自己没看没太看明白的事情。说实话,OK啊,就是或者换句话说就是,可能Open
Call这个事儿火了,但是如果你要回头问我,说为什么Minus做不了这个事儿?我不明白Minus为什么做不了,嗯啊,可能只是他没做,对。哎,但是你看,不管是Minus还是Open Cloud,他们都选择了Minus卖给了Meta,Open Cloud卖给了Open AI。
这个现象说明说明什么呢?为什么他们都卖了?我觉得,呃,我自己的我自己的感受是一个东西如果要嗯长久的生存,还是需要考虑一些壁垒的。壁垒是模型,呃,我觉得,嗯,至少目前来说,很多壁垒都是在模型侧,但是未来会不会产生产品侧的壁垒,我觉得是说不说不说不定的,就因为大家。市场上就是这个都是老生常谈的话题,就是很多人就要谈论这个什么数据飞轮啊之类的事情。
呃,目前来说,我觉得没有哪一个场景真正的形成了数据飞轮,甚至AI纯粹原生的应用场景,我觉得目前除了A G I这个coding就写写代码之外,没有哪个场景是AI真正原生的场景变得非常成功。因为从某种意义上来说,Chatbot其实是搜索的一个延伸。Chatbot是搜索延伸,对它为什么不是独立于搜索的?它是因为因为你想,大家其实和Chatbot最多的交互是我有一个问题啊,就问这个Chatbot。
然后这个其实是搜索本来干的事儿,但是它带来的比搜索要远强的一个事情是,它变得非常 interactive,就是它有交互性,你可以追问,然后它甚至可以帮你总结出一些通过它获取的一些一些信息,帮你把它压缩成浓缩成回答你的问题的那个信息。对,这个是以前搜索给不了你的。嗯,对,但它呃。当然就不是完全一样的需求,但是从呃从需求从大的需求上来说是比较类似于搜索之前的需求。
MindS和Open Cloud我觉得都是现在最有名的壳,但是壳最后都卖给了模型,那是不是说明壳还是难以逃脱模型的掌心啊?这个逃逸速度不够不够快,是不是?我觉得,我觉得壳在目前这个情况下。活下来有有两种,我我我大概能想象的方式,一种想象的方式就是像你刚刚说的,逃得足够快啊,就是我增长速度足够快,以至于在模型公司反应过来的时候,我其实已经占领了大量的用户心智,然后。
在模型公司追你产品形态的时候,我又自己研发出了自己的模型。我觉得 Cursor 就是试图在走这条路。嗯啊,那 Cursor 其实,在这种 AI
原生场景下,几乎是我能想到的创业公司里增长的最快的。嗯啊,就算这样的公司,它现在也很有危机感。它有多有危机感?呃,反正我的感觉是。对Cursor来说,现在和Anthropic已经进入了一个非常微妙的关系,就是曾经他们是亲密无间的合作伙伴,Anthropic提供模型,Cursor提供产品。
后来Anthropic自己有了Claude,Claude现在变得非常成功,然后Cursor现在又自己试图做自己的模型,所以Cursor在努力的训它的Composer。所以说,呃,我觉得。呃,都不用说未来,其实现在就是他们已经处于一种比较竞争的关系了。那如果呃在竞争中输掉的话,我觉得是比较麻烦的,因为呃代码这个事情,coding这个事情,其实它本质上是一种服务于专业用户的专业需求,是一种工效率工具。
效率工具很容易出现的一个场景就是赢家通吃。我觉得这个是,不管对Cursor还是对Azure还是对任何也做做Coding的公司来说,可能都是他们比较担心的事。嗯啊,对。然后这是刚刚说的,就是一条路,就是就是对你涨得够快,你在你在别人还没想吃你的时候就疯狂涨,等他想吃你时候已经足够大啊。另一种方式就是这市场足够的小,小到模型公司根本懒得去管。
我觉得Mini Journey就是这一个例子。嗯,啊,就是这个这个市场小到可能,虽然你说咱们俩努力一把,能不能做Mini Journey那个事儿?可能花一些精力、花一些钱、花一些data是能做到的,但是足够小,以至于可能咱们俩就不是很会在那上面花时间了,看不上。对,我觉得那可能也是一种活下去的方式。
对,所以哪怕是Chris今天也没有逃逸出模型的手掌心,有谁成功逃逸了吗?呃,没这呢,我觉得大的就我目前还没看到,小的可能没这呢这个例子,当然肯定有别的例子,这是我还没看到。对,小的我觉得会有会有例子。哎,拉发的算吗?呃,我觉得他们有机会,他们有机会。对。反正就不能做那种通用的场景。我觉得,就是,我觉得这是Founder要自己要要决定的一件事儿,就是你要不要。
抱着万分之一的生存几率去赌一票大的,嗯,还是抱着百分之一的生存几率去先吃另一个小的事情。如果是你,你会怎么选?如果是我,我内心肯定是想吃一票大的,但是我呃,真诚的想是,我觉得第一步是不能一步登天的。所以,如果是我,我会选择去吃一个,先吃一个小的。但是,我会选择一个有想象空间的小的。你说,OpenAI为什么要收 Open Cloud Meta?
为什么要收 Minus?Google为什么谁也不收啊?Google也收了。Google买了Win Surf的人。OK,Win Surf OK。呃,我不理解,什么叫你不理解?说说实话,就是我我不理解,我我觉得。嗯,我觉得 Meta 买 Manus 这个事儿,呃,我觉得对他们来说最大的用处就是不,如果如果抛掉花了多少钱之外,最大的用处是获得了一批很好的在亚洲的的产品团队,在亚洲说明什么?
啊,因为呃,我觉得一方面就是。显然,大家都知道中国的AI人才储备还是很很丰富的。虽然可能目前从技术上纯技术上来说,中国的AI还没有真的追上美国,但是呃,显然AI中国是有很多好的人的。不管是从纯技术上还是从产品产品上,我觉得可能中国的本质上人才是比美国要更好的。对,所以对他来说,我觉得Manos成为了他在新加新加坡的一个一个锚点。
就他可以从那里吸引一些,比如说从中国的,或者是新加坡或者东亚的人才。然后,呃,我其实没有特别看明白这个产品本身对Meta来说有多重要,或者换句话说,就是为什么Meta不能自己干这个产品?但是,不管是MindS和还是OpenCL,它事实上就是诞生于外面的团队。为什么不是硅谷的这一帮研究员做出来的呢?你有没有反思过这个问题?
对我觉得,对,嗯,对我来说,这样这个问题其实,呃,我觉得一个一个公司一旦变大了之后,它的负担也变大了。就说,我可能作为一个一个研究员,然后我我们可以可以做一些很很呃看起来很有趣、很有很有特点的产品,但是我一旦把这个产品去公开给公众,那要负责的事情是非常多的。第一,你这个产品不可能说一上线,然后告诉所有用户。
你得再去买一台电脑干这个事儿,否则他就有可能会获得你电脑上所有的权限,然后把你系统搞崩。这就作为一个大公司来说,你不Google,Google是不可能提供这样的产品出去的,对吧?嗯,然后所以你产品要花上很多时间打磨,然后你要。确确认法律上它没有一些风险,然后用户上又不会损坏自己的品牌,然后呃你如果如果把它送出去了,你可能还要给他就是比较固定的一些资源去去serve这个这个模型或者serve这这这条产品的线,所以对对对大公司来说,我觉得还是有挺多负担的,但是对于个人来说无所谓啊,就是我反正是一个开源的项目。
我代码垃圾又如何?你帮我来一起写吧,对吧?对。但是我觉得,不管是 Manus 还是 Open
Cloud,它其实指了一个方向,就是可能这也是二零二六年的某种叙事的可能性。嗯,你对二零二六年怎么样思考和预期的呀?呃,我觉得其实有太多的可能性。然后对我来说,从呃从模型能力上来说,我觉得。呃,模型就是我有时候特别爱说这个口号,就是这我觉得模型做到呃,train with finite
context,use as infinite context,就是换句话说,就是你用有限的这个这个context length去训练它,但是可以在使用的时候用非常非常长,甚至接近于无限的context length。
我觉得这件事儿。呃,今年是是有机会能够做实现的。然后这件事情实现之后,我觉得会会解锁很多新的应应用,也会因为因为举一个最简单的例子就是。你有可能可以让这个模型跟你持续的交互,然后持续的获得你的信息,然后它在运行的过程中会持续的根据当前的场景和你的绘画,可能把那些它觉得不重要的信息扔掉。然后,呃,就成了就是大家梦想中的个人助手。
对,我觉得这个从技术上来说,我觉得这件事儿是会今年是无论如何是会实现。但是当然,当然,我觉得现在大家呃没有达成共识的是技术上怎么去实现这个事儿。嗯,呃,显然是有很多技术路线,但是现在我觉得更多的是属于在尝试哪条路线能够跑通的同时。可能有好几条路线都能跑通,那那我们到时候就就要去实验上去测,在呃常大用户常用的使用场景下哪条路线的的效率是最高的?
对我觉得现在更多处于这个阶段,而不是说大家没有想法的阶段,就大家有想法,但是要确定哪个想法是最后的想法。站在这个二零二六年的Q一,作为一个一线的研究员,你觉得模型的进步速度在放缓吗?我觉得完全没有,完全没有。我觉得完全没有。它的速度曲线对比二五年、二四年的变化是什么?嗯,这个很难很难量化了说,因为就是你得给一个标准,我才能量化来告诉你。
因为如果你给的标准是,比如说,我就看在某一个bench
park,比如说随便bench上,它每一个月涨多少个点,那这个事儿是肯定会变慢的。因为根据定义,这个完成马格最高就到百分之一百,嗯,所以你越接近那肯定是越跑的越慢,嗯,但是这可能并不代表用户体验这个模型的能力增长变。啊,因为可能从百分之五十到百分之六十,他可能感觉哎好了一点,但很有可能,比如说从百分之七十到百分之七十五,他发现好的比百分之五十到百分之六十那个还多,嗯啊,这是完全有可能。
如果是百分之八十到百分之九十,百分之九十到百分之百,这个感受会更显著。呃,那也不一定,因为可能过了,可能到百分之八十到百分之九十,用户就发现没有任何区别,甚至还变差了。你说完全没有变慢,你是基于什么标准?我觉得是基于呃,我个人作为一个研究员感觉,就是我觉得我我个人得到的感受是,这个模型学东西的能力越来越强了。
以前可能让模型学会干一件事情,需要动很多脑筋,哦,但现在可能不需要动那么那么那么多脑筋了。最重要的事儿,你是要把这个问题定义清楚,然后想清楚怎么去构建合适的数据。当然,数据现在数据就更宽泛,指向环境啊之类也都在的,呃,包括在内了。然后,呃,剩下的事情好像很多时候是是顺其自然的了。对,学习能力变强是为什么呀?
模型的学习能力变强了?我觉得可能一方面,呃。原因可能有很多分,但我觉得可能一方面也是因为呃,预训练其实在过去的几个月里,我觉得还是越来越强了的。预训练,对对,模型的预训练其实在过去几个月里还是变强了。嗯,我觉得这个可能是一个呃。从某种意义上来说,比较有争议的事儿,因为,呃,几个月以前,我觉得就是很多人已经在讨论预训练的这个scaling law是不是已经到头了。
嗯,啊,我的体验是没有,而且我的感觉是在未来的四个月也没有看到到头的迹象。对,嗯,觉得到头是为什么呢?我觉得,嗯,我我我显然不知道大家觉得到头的原因是什么,因为我自己没觉得到头。但是,我觉得我的猜测是。一个人觉得一个规律到头了,无非以下两种情况啊啊。一个情况是,他觉得这个规律的适用范围到头了,啊,就可能就是就可能从根本上讲,skin log就是没有办法无穷延展下去的,维持有可能是对的啊。
但是这是一种猜测,就是这个人可能觉得这个这个规律适用范围到到头了。另一种可能是,这个人觉得这个规律其中呢有一个条件不能满足了。比如说,他觉得数据就已经撞上墙了,那我完全没有把它延展下去了,这是另外一种可能性。但是其实还有第三种可能性,第三种可能性就是其实。嗯,他这个工作哪里有一个 bug,他自己没发现,所以他觉得到头了。
哦,对,呃,我觉得从我的观点,从我的观感上来说呢,我觉得呃。可能绝大多数撞到墙的人是因为第三种,是因为有 bug,嗯,是哪种 bug?我觉得呃, bug 是有很多种可能性的。比如说一种可能性是你 skin log 做的时候,一些科学的假设没有做对,比如说你选什么样的。token
horizon就是每每一个大小的模型选什么样的这个这个期待的训练的数据量,然后怎么这个数据量,呃是呃这个数据是从哪里选,然后呃有可能是这些比较科学的选择没有选清楚是一种可能性,但是我觉得还有一种可能性就是纯粹有个bug。
这个其实,在业界我觉得也不惊奇。很多时候,修好一个bug带来的进展是远大于一些很很神奇的技巧的。对哦,然后呃,当然还有另外的的情况。我觉得我就刚才给给了这种两种例子,反正是我见到过比较比较多的情况。那你们的 bug 怎么办?你们怎么解决 bug 问题的?我觉得,我感觉这更像是一个信念的问题。因为当你遇到一个 bug,你觉得它不能解除,你就会说这个到头了。
当你遇到个 bug,我觉得哦,这个肯定可以解决,那你就觉得这还没有到头,因为肯定每个人都要遇到 bug。对,我觉得,我觉得,呃,这可能就像你说的,就是其中有一些比较比较信念性的东西。但我对我来说,更重要的一件事是做事系统。就是你,当你一个一个事情和你预测的不一样的时候,你能不能系统性的排除各种可能性?
这个我觉得是是一个很重要的事儿。嗯。这个是我觉得咱们俩和冉涛贝做的比较好的事儿,就是尤其在预训练上面,就是说当某一个尺度上的行为可能和你想象中不一样的时候,大家能够去去设计合理的我们所谓的ablation实验,合理的这种实验能够看出来,测你的一些想象中的可能的因素是不是真的因素。我觉得这个这个做做问题的系统性才是才是关键。
嗯,对。你觉得,嗯,模型能力还能提高?那它的驱动力、数据、算力、算法,你觉得它的驱动力主要来源于哪个?呃。我觉得其实都有,但是,嗯,从某种意义上来说,数据和算力两个事儿其实是很强关联的一件事儿。数据和算力,嗯,对,因为呃,你算力上去了,自然就会需要更多的数据;,对,数据上去了,你就自然需要更多的算力,对。
然后,呃,算法上来说,我觉得。算法作用往往是有有一个相变的,就是算法有一个阶段是你完全没有搞清楚该怎么做,那个阶段就算法会非常非常关键,因为你没有完全没有搞清楚怎么做的时候,你可能就完全没有办法 scale
up,嗯,然后就可能就卡在那儿了。但是在某某一个点,你可能发现了算法当中最重要的这件事。那他可能一下就变成了从完全不能做变成了能做,然后之后算法的提升更多的是一种比较平滑的提升,就是它可能从某种程度上提高了你计算效率或者使用数据的效率。
对,然后呃,我觉得就举例吧,就是比如说。从语言模型的预训练来说,那可能这个算法上的这个跳的过程,就是发现,就是发展出transformer这个事情。嗯,但transformer发发发现之后,更多的都是慢慢就是平滑的,让它的效率,或者你使用data或者使用算力的效率变得越来越高了。对。所以现在的驱动力是算力和数据。
我觉得在现在比较清晰的框架里面。主要的驱动驱动力是算力和数据。清晰框架是指,比如说预训练和后训练,不管是基于强化学习的后训练,还是基于呃 supervised learning,就是监督学习的后训练。我觉得在这两个就是比较清晰的这种这种呃 paradigm 下,确实算力和数据是主要的驱动力。但是不可否认,可能有别的方向,可能驱动力失算啊。
你什么意思?举个简单的例子,比如说多模态生成。嗯,那个我觉得可能就是一个算法上来说没有太想清楚的事,对,所以那个还是一个科学问题,还没有解决。对,但是语言已经不是科学问题了,呃。自然语言的生成,我觉得目前这条技术方案撞到头之前,我觉得在科学上是比较清楚的,但是工程上也还有很多很多要很多要做的事儿。嗯嗯,你觉得预训练还能提高多少?
通过预训练提升模型能力,还有多少多长的路可以走?可以预期到?人就是这样,就是当你没有撞到头的时候,你其实不知道这个路有多长。我能我我能看到的就是现在还没撞到头,但我也不知道哪天会撞到头。如果真的让我去估计一个时间线的话,就像刚才说,我觉得四个月。接下来四个月是还是会继续有进展,但是 A I 这个方向没有人能预测四个月之后的事儿。
嗯,所以过去几个月你在看预训练和模型能力的时候,你还是很兴奋的。嗯,这是你周围的普遍的心态和状态吗?我觉得是的,我觉得是的。这是在 Google 一个小环境里面,还是说在整个硅谷的环境里?我觉得很难说,在整个硅谷,因为硅谷是个太大的地方。可能做产品人对产品很兴奋,对吧?做产品来说,对他们最兴奋的是可能有分靠,嗯哼。
但是对做模型的人来说,可能就是我们会对这种模型进展更更兴奋一些。嗯,对,我觉得,呃,就在在对于做模型的人来说,兴奋是一个共识吗?在过去四个月,我个人认为是的。哦,我个人认为是的,在至少在我能接触到的范围内,我觉得在Anthropic和Google,大家或呃,Gemini大家可能想的更多的是。我们 A I 会不断的进展下去,很快我们就要被替代掉。
替代掉掉之后,我们该干点啥?而不是模型撞到头了该怎么办?说到这个问题啊,为什么嗯,在过去几个月 coding 的发展速度是最快的?为什么是这个场景啊?我觉得 coding 这个场景。首先,coding这个事儿不只是过去几个月发展最快,我觉得coding这个事儿其实从呃从Cloud三点五New,或者外界有人管那个Cloud三点六,从那个之后一直都处于高速发展的状态。
嗯啊,然后我觉得那个是去年初还是前年底?那个是前年的十月份。前年十月份,OK。对。呃,应该是,嗯,有可能十月份或者十一月份,大概差不多那时候。从那个之后,我觉得一直都属于高速发展的状态。我觉得 coding 这个场景有两个最大的优势,第一个优势就是它的它的呃 reward signal,就是它的那个回馈的信号是很好定义的,因为呃。
比如说你去,比如说像像software engineer这种task,有时候经常情况就是我需要写一个code实现一个feature一个特一个特征,这个特征需要的是某些输入会得到某些输出,这就是一个很容易能够很很容易能够测试的事情,所以它的它的回馈信号非常清晰,你输入和这个输出能够对。那就说明你的实现是成功的,不对,那就说明不成功。
嗯,但这只是一个一个例子,就是在这种和写code相关里面有很多很多很多这样良好定义的回馈信号,然后,呃,另一个比较大的优势是。Coding 的数据有一个非常天然的基础,嗯,这个基础就是 GitHub,GitHub 上汇聚了过去几个几个
decade,这个几十年很多很多优质的程序员所写下的代码,嗯,然后从那些代码出发是可以构建出非常非常非常多环境,嗯,我觉得这两件事儿从模型的角度上来说是为什么 Coding 可以做的很好。
当然,我觉得从产品上来说,还有另外一方面的原因,就是呃,Coding这个这个产品的使用需求其实是从某种意义上说是比较比较单一的。它不像你去做一个像社交软件或者游戏,可能每一个人都有不一样的品味,然后你可能很难就是能够满足每一个人的需求。那可能就是就是需要推荐算法,但是 coding 这个事儿好的事情在于,优秀的程序员写代码其实风格是比较类似的。
什么风格?简洁、干净,对,就是好的代码是不脏,是有一个有一些共同的标准的。比如说像你说,就是这个代码简洁、结构清楚,啊,适于未来的开发,然后有合理的抽象,当然还有别的很多标很多标准。但是我觉得好的程序员往往是有呃有比较共识的标准的对这件事儿。所以这件事儿从产品上来说,其实让 coding 这个产品变得更简单了。
那你现在的工作百分之多少会用 Cloud Code 写代码?它能帮你提高工作多少倍啊?你问了一个我差点会被开除的问题。我 Google 不能用 Cloud Code。哦,好的。嗯,对,就是呃,我觉得对我来说。一个保守的估计,可能百分之九十的code是模型产生的,但是可能就是我需要花很多时间去去看这个code是不是写的合适、写的合理,是不是真的是我想让他写的。
然后,呃,我觉得有了AI辅助工具之后,可能。写code的这个事儿最重要的地方变成了你怎么去设计,你怎么去设计你这个code的逻辑,然后它需要和哪个哪一个呃文件相关联,然后需要做某哪些哪些事情,然后你需要给这个模型可能给一些合理的context,就是说哎,比如说这个code你可以做一个reference去看一眼,对,呃,真正去输出code,我觉得模型比人的能力强太多了。
啊,所以说对我来说,你要实际去数有多少行扣的是我自己手写的,有多少行扣的是模型写的。我觉得保守估计模型写的超过百分之九十,不保守的可能就是九十九或者一百。哎,剩下百分之十是是他不能写,还是为什么你没有让他写?呃。保守估计百分之九十,给我自己点面子。我觉得他不能写,而我能写的部分已经越来越越来越少,越来越少,越来越少了。
过去可能是什么样的是他不能写的?我觉得,呃,很早的时候就是可能。在一年半以前,那个时候市面上其实说白了就是只有Cloud一家能够能够真的写这种这种软件工程扣的,嗯啊,那个时候模型还是还是能体会到很多很多呃缺陷的,比如说他有时候可能写扣子就只关注这一个文件。他就不会很关注那种多个多个多个文件之间的关联。
然后,如果一个一个,比如说一个class,它的定义其实藏在很多层里头,或者说它其实没有直接被套在这个这这个直接的树里面,可能这个模型找就找不着。现在我觉得这个事儿已经越来越少了啊,真的越来越少了。作为一个 researcher,你的写程序的工作量能够是过去的多少倍?因为从写 code 的角度来说是比较能难量化这个事儿。
但是如果说从比如说我呃做实验,然后实现一些 idea 的效率上来说,我觉得可能比起一年甚至一年半以前,可能都是。二十甚至五十倍的这种加速,对,因为现在模型真的变得就是可以很离谱,就是你可以同时开好几个,然后你好几个idea,然后同时的去去试,甚至有些时候这个模型可以帮你监控一些实验啊,监控一些结果啊之类的,所以说还是真的是一个挺挺大的效率提升,对,但是呃。
如果从个人工作时间上来说,我觉得他好像让我工作时间变更长了。这是为什么?就是因为开发的速度变快了之后,就越试越想试,有越来越多的想法要去试。所以说,感觉以前你可能存在说,哎,你有一个东西,比如这个文件以前没见过,嗯,你看自己看你搞得不是很明白,你看你要去花时间去找那个人,让你一约那个人,可能就几个小时之后。
那现在就不是,你就看到这个文件,你不懂,拿去问一下Cloud或者Gemini,Gemini可能五秒钟就告诉你结果,你就接着干了。所以说,从工作时间上来说,我觉得好像工作时间反而变长了,而且工作工作的密度也变高了。好,Google已经不是那个Google了,是吗?不是那个养老的可以养老的Google,不是那个 work life balance 的 Google。
我感觉在战 AI 这个领域,没有谁可以养老。所以你现在早几晚几啊?我一般可能早上九点钟开始,然后晚上到公司吗?九点。我就早早上九点钟回,起可能先起来看一下邮件,然后看一看呃我前天晚上实验,然后到公司可能一般十点左右,然后,呃晚上呃如果我一个人在美国的时候,我可能就会待到可能十点十一点这样,然后当然我如果我我家人在我老婆在的话,我可能就会早一点回家,但是在家反正也是干。
所以我觉得,这个战AI这个领域没有谁是在躺着的,除非就是你已经完全对技术没有兴趣了,对自己没有追求了,嗯,那你躺着其实也没有人管你,嗯啊。但是我觉得大家还是比较self追问,就是还是自己想干。对,你觉得其他的领域会出现更多的这样的cloud code的时刻吗?coding之后会在哪里爆发?你问了一个好问题,我要是看清楚了,我可能已经出去创业了。
对,但是但是呃,确实就是除了 coding
之外,呃,我们已经能看到就是对很多别的方向已经产生大的影响,但只说那些方向可能并不是一个好的。这种市场上的方向,比如说,呃,好多现在的做就是基础科学的研究,比如做数学啊,做理论物理,嗯,好多人其实已经就大量的开始使用AI工具,因为过去你可能。像我们做AI研研究,其实很像,就是说你可能想到一个想法,你想跑一个数值,学物理的人又又又不不是很会写code的,光学明白怎么打开这个编译器,把code跑起来,可能半天已经过去了。
现在就没有这个烦恼了,就是你你现在想试,五分钟之后code写完了,你就可以开始试了。对,然后甚至像Gemini Deep Think发布之后。有很多基础科学的研究人员就把这种,比如说数学推导啊、数学证明啊,然后甚至就是呃去看这些不同的这种文章,然后归纳这些事,全都交给模型了。所以说,已经我觉得对除了 coding 之外的方向产生了影响。
当然,就是那些基础研究,你可能很难就是变成一个万众瞩目的事情。嗯,除非你就真的发现了一个以前人都没发现的很妙的理论,是吧?嗯,比如 AI 产生了爱因斯坦理论这样类级别的东西,那可能会变成万众瞩目。但是,呃,那个那个时刻可能还没到来。但是影响是已经在产生了。哇,A I好神奇啊!它为什么首先上来做的都是人类觉得最难的那部分工作?
我觉得这是一个特别好的问题,就是我觉得过去的,嗯,照我在我人生的阶段里,大家往往会觉得最智力上有挑战的工作,对。反而是那些比较理性的事情,比较客观的事情,嗯,比如说数学,比如说写代码,比如说做AI研究,嗯,还有科学研究,对,就是越是这些事儿,其实AI越容易做好,因为你一旦想清楚这个事儿怎么去评价,你就知道怎么训练。
对,人为什么比较难呢?我觉得你看人都是智力分配最高的那部分人做这些工作,对,但是可能未来就不是这样了。未来会怎么样啊?我觉得未来未来其实会发生了一个改变,就是那些AI,就是有很多AI其实没有那么容易做,但是反而是人可能做比较好的,比如说做产品经理。我说实话,觉得产做好做一个好的产品经理,是一个我现在想不明白、明白该怎么训练AI去做的事儿。
这是为什么?没有标准,没有标准,就是没有刻度。什么叫做一个好的产品?我其实想不太明白。没有一个很客观标准,你一定是做出来了之后给人用了,你才知道它好,呃,大家才会说它好。对,因为我觉得那那个就是一个回馈信号很不明确的事儿。那个我就不知道该怎么去训练AI做,对。程序员什么时候会被彻底取代吗?会有会有这一天吗?
嗯,我觉得这一天会来,但是他不会是一瞬间的来,就不会是程序员都还在,过了一个晚上,第二天程序员全被开除了,不会是这样的,他一定会是一个渐变的过程,但是大家现在已经看到这个渐变的过程了,因为有一些公司已经开始开始裁员了。对,我觉得,呃,从某种意义上来说,A
I是一个。从某种意义上来说,它当然是一个很好的东西,但是从某种意义上来说,它可能也是一个很很不幸的事儿,就是A I是一个很centralized的technology,它会让少部分人变得更强。
但会让大部分人失去他们的,他们的独特价值,对,所以说,我觉得对于程序传统的软件工程来说,呃,一最后变成结果可能就是现在千分之一的人干了过去所有人的工作。拿着现在一百倍的工资,那你对腾讯有什么建议?哎,我觉得,我觉得可能,呃。接收新事物吧,就是我觉得很重要。我觉得未未来程序员可能很重要的一件事儿,是怎么和AI去有效的协作。
嗯,做比如说有很多事情是AI可能做不做的不是那么好的事儿,比如说怎么去,呃,合理的设计一个一个事情的实现方案,然后怎么样设计让它可能跟这个公司未来的发展比较契合,那这些东西可能你很难去告诉一个模型让它理解这些事儿,那这些事儿可能还需要人去做,但是可能像具体的就是很具体的就是像过去很多程序员做的工作是。
你的经历告诉你实现这个方案,下周五之前给我。我觉得这样的工作未来可能就不会不会再存在了。那千分之一的程序员或者什么样的程序员,他们的特质是什么?首先,千分之一是个虚数,我真的不知道是会是千分之一还是万分之一还是十万分之一,嗯,也可能是百分之一。你不要那么悲观。呃,我我是一个著名的悲观主义者,所以说也不要太那什么。
对,然后呃,我觉得我觉得呃,未来好的程序员,首先他肯定是。从技术上来说,它一定是会是非常强,因为如果你技术上弱,那没有什么道理AI不能取代你。但技术强可能不会是唯一,就不会是一个必要条件,它可能是个充分条件。另一个事情,我觉得会很重要,就是你得能够理解你的这部分工作,在一个大的组织或者一个大的公司里。
该去怎么怎么怎么适配进去?嗯,这件事情可能也是一个重要。嗯,然后呃,当然还有可能别的很多事情,比如说这个人的规划能力是不是足够强?他规划能力强的话,他肯定可以同时把这个大的一个很复杂的事情拆解成很多相相对较小的事情,然后交给不同的AI去做,但是。现在看这三种能力是重要的,可能AI还不能完全做,不代表六个月之后不能。
可能六个月之后你过来问我,我发现最后一个事AI已经能干了,那就只剩两个事。再过六个月,可能剩下两个也能干了,那可能我就我的回答就会变得更悲观。所以说,没有人能预计六个月之后发生什么,我只能说从现在的观点来说。刚过去的那个春节,很多人关注另外一件事情是C Dance,C Dance会让Google焦虑吗?
我觉得其实,呃。有可能有,但是这个焦虑的情绪目前还没有传导到我这儿,可能让呃呃谷歌Gemini的负责多模态生成的团队会有一些压力,但是呃我如果你要问我的话,我觉得我可能不觉得他们有什么可焦虑的,就是我觉得并没有体现出什么范式上的改变。更多的是我觉得字节在呃,不管是这个产品的效果,还是可能在数据上啊之类的,呃,这些细节会做的非常非常好。
嗯,我觉得确实是呃,字节过去在多模态生成一直以来都有比较强的优势。但是我觉得,呃,至少我个人没有体会到它是一个一个范式上的变化,嗯,那可能,呃呃,就不足以说让大家非常的焦虑吧,对,但是肯定是有压力,对。C Dance它的产品能力来自于模型能力还是产品能力啊?呃,我没在,自己也干过,所以我也不知道具体的细节。
但是你要让我猜,我觉得可能模型还是占大头的。嗯,模型能力的好来自于什么?来自于数,因为算法可能没有本质创新。我觉得算法,呃,首先就是因为刚才多模态属于咱们说的,就是还属于科学问题。多模态的生成属于科学问题。对,多模态生成还属于一个比较科学的问题。所以说,多模态理解解决了吗?呃,比生成肯定是要。更系统有更系统的理解了,但是比起呃 text token 来说,肯定还是没有那么的。
那范式还没有那么固定,对我觉得生成上可能就是,呃,因为它是一个还没有范式上还没有固定的事儿,可能每家用的技术都会有一些大的或者小的区别。然后,嗯,现在更多的只是能看到说效果上来说,可能字节和谷歌必卖的属于在效果上来说做的比较好,大家。嗯,对,所以它可能也是来自于细节做的更更好。对我,我你如果要让我猜,我会猜数据。
数据啊,你要让我猜,我会猜数据。但是就我我也没在字节干过,所以也是我硬猜的。嗯。你怎么看从Google去字节的吴永辉啊?我何德何能评价永辉?我觉得,我觉得,呃,我我我当然过去没有和永球永辉一起工作过,所以我我其实真的不是很能给什么很好的评价,很客观的评价吧。就是说,但是我觉得我去了摘木奶之后,呃,看到的更多的是永辉好的一面,就是我觉得他是我。
通过去看他偷偷去看他以前教过的代码以及他带过的项目,我我的感觉是他是我见到的少数呃层级非常高,然后人也很很 senior,但是还有很强的技术能力,我觉得是非常非常少见。所以我觉得,我觉得我可能是。还没到能够评价永辉的这个这个水平呢,但是要让问我说的话,我觉得永辉是非常非常强的。嗯,你说站在二零二六年的这个Q一的拍一张快照,你觉得中美的模型能力差距是在放大还是缩小?
差多远?我觉得,呃,如果现在拍一张快照去看过去。一年的发展趋势,或者过去一年半的发展趋势吧。显然,这个中美之间的gap是越变越小了。但是最后这个gap会不会完全弥合,甚至中国超过去?那我觉得是一个呃不清楚的问题。我觉得对中国的AI的呃研究员来说,研究机构来说也是一个机会。然后呃,我觉得一个很真实的事儿就是,中国确实在实际的算力资源上来说是占很大劣势的。
但是这个很大的劣势,可能反而逼出了一些有趣的事儿,比如说中国的模型公司其实对distillation就蒸馏别人很在行。嗯,对。最近达瑞不是点名了三家公司蒸馏他?对,呃,我觉得其实可能是一个蒸馏这个事儿存在是一个一个心照不宣的事实,但是我觉得蒸馏它也有不同的方式。就是,也有应征和和聪明的征两种不一样的选择。
嗯,应征叫应征。嗯,应征就是最觉得最简简单的例子就是我从Cloud里面取出一堆它生成的Token,然后强行在上面做训练。这个如果干这样的事儿,我就觉得,首先商业上也不是很道德,然后智力上来说也比较愚蠢,因为干这个事儿的公司,其实本质上来说,它体现出来的一件事儿,就是他其实都不知道自己想干嘛,他能干的唯一件事就是抄别人,然后让自己的模型数据上能看好看一点。
对,但本身就说明他自己都不知道该干嘛,这是印证。但是其实蒸馏也有一些很有趣的科学问题,就是比如说我是不是有一种可能,就随便举个例子,就是有没有可能是我生成我自己生成数据的这个链条当中用到了别的模型作为辅助?或者说,我自己模型生成的答案用别的模型作为它的评价者,这个其实是一个我觉得商业上来说比较灰色的地带,但是从技术上来说,其实很有意思。
因为你想,其实从某种意义上来说,可能中国的实验室成为了做 multi agent 的训练的先驱。哦,而且是真正的多 multi agent,因为它如果从不同家的模型里用这种比较聪明的方案把它们融汇到一个训练系统里的话,啊,每一家模型它可能是是分布很不一样的,它的它的语言的分布是很不一样的。这个是就是是真正的毛线针的,它可能比起,比如说我用了好几个詹姆斯一块做,是一个技术上更有趣的事儿。
所以说,我觉得对我来说,聪明的针,我不知道这个商业上最后会不会变成一个很明确错或者很明确对的事儿,但是技术上其实很有意思啊。你这两种针分别说的是谁?能不能后期把名字毙掉?我我我首先没有在中国的lab干过,所以我不知道确切的事实。但是我的感觉就是,我应该是硬征了啊,然后可能曾经硬征过,但是后来可能慢慢也在努力向软征的方向转化。
我觉得比较明显,可能挣留的比较少的是自己。我觉得字节是我感觉到这个模型还是比较有特点的,对吧?嗯,特点体现在哪里啊?比如说这个模型,你说它有多聪明呢?我觉得豆包是肯定没有Gemini和Claude聪明的。但是豆包,首先,比如说豆包的语音生成非常非常强,哎,这个很难吗?在技术上,确实豆包是做的最好的。
因为我发现我生活上的问题,我只想问豆包,因为它很快。但是其他模型为什么不优化这个产品功能呢?我觉得还是跟它的用户群体有关系。在美国,我觉得大家的这个想法更专注于怎么能够提高工作效率。你生活没有一些困惑吗?我生活中有,呃,首先我个人确实是一个生活上比较无聊的人,所以我生活中没有很多有趣的困惑可以去问豆包。
我生活中更多的困惑都是技术上的困惑,问Gemini这种聪明的模型就是最好的。对我,我没有什么什么半夜去打豆包情感电台的需求。不只是情感,就是很多,比如说你做饭,嗯,你可能会遇到一个什么问题,你你可能其实需要一个呃,需要有人告诉你,但是你又没有不知道没有这样的人,嗯,那那些我觉得可能更多是数据上的问题,然后可能更更多的只是说美国的公司现在主要的,主要的优先级是在。
智能或者工作效率上,嗯,未来有天有天会不会变成这些日常的事情?我觉得是是有可能的。事实情况是,你如果去问这种日常话题,其实呃,你能发现,GPT每代一代到另外一代会做的也越来越好。嗯,其实我身边很多朋友,包括我自己,以前是也是,就是我以前在Anthropic的时候,可能写code会去问Claude,但我可能日常查个什么东西,我就会去问Gemini。
对,哎,你用过豆包没有?我其实只用过一两次。我发现你们都不怎么用,呃,是不是有鄙视链?有智力的鄙视链,没有没有没有,不至于不至于。就是我觉得,首先就是就跟在中国的人试图用美国的模型会有一些复杂的事儿一样,我在美国用中国的模型其实也是挺复杂的。第二呢,就是确实也没这个动机,尤其我觉得我可能生活中工作是工作,休闲的时候就是找不一样的工作。
所以对我来说,我的最好伙伴就是 Claude 和 Gemini,但是呃,可能对别人来说并不是这样,所以可能也只是我个人的问题。我自己用豆包的那一两次,是因为有人给我展示豆包手机,嗯,对。哎,你怎么看豆包手机?我觉得是一个很很很很好的想法。我我个人觉得效果上来说,其实做的呃也不错。当然,我不知道的是,呃,技术上来说,它的优化做得有多好。
就是说,它它,我觉得它实现一些,呃,任务的实实施,从效果上来说是没什么问题。但我不知道它会有多大消耗。如果这个消耗非常非常大,那可能是一个技术上需要解决的问题,因为你并不希望什么让你的模型去给你订了一张高铁票,结果我花的钱比高铁票还贵。这个肯定是一个不可以接受的事儿,对,所以说,嘿,可能技术上来说,呃,我个人不清楚它有它有多成熟,然后我觉得产品上来说,对大家来说还是一个挺不能说惊讶吧,但是让大家觉得挺兴奋的事儿,然后我觉得可能苹果以前也想干这样的事儿,只是苹果可能自家的模型一直不太行,苹果好像不是很在意它的AI战略,现在,我我觉得呢,苹果一定是在意AI战略的。
因为曾经 Siri 手机助手是苹果发布会里一个非常非常重要的闪光点,嗯,但是自己的模型没赶上趟。现在可能要和通过和扎米娜合作来试图做这样的事儿。至于现在他是不是重视,首先我也不知道。你要让我猜,我肯定觉得是重视。但你要让我解释他为什么从外界来看没那么重视,我的唯一猜测就是,如果你外界来看就显得很重视,还做不成,那就显得很蠢。
啊,晚尊啊,对,我在。哎,我们说一下豆包的模型啊。你刚才说豆包模型比较有特色,你们具具体一点?一个是它的语音做的很好,这是第一点。我觉得语音做的很好,是我能感觉到最有特色的事儿。就是我觉得语音这个效果可能是。客气的说,可能是全世界最好的之一;不客气的说,我觉得就是全世界最好的。嗯啊,所以这个很难吗?
呃。我自己没做到那个地步,过,所以我也不知道是不是难难。但是我觉得可能是一个很费功夫的事儿,不管从数据上还是各种优化上来说,它是个产品的事儿还是个模型的事儿?它一定会是模型的事儿,它有可能也包含一些产品的部分,但一定是一个模型的事儿。嗯啊对。然后呃,我觉得这是一方面。然后另一方面,另一方面我自己感受就不多了,因为我其实用的机会没那么多。
那可能就是更多的是来自于就是亲朋好友的反馈,也就是说,哎,这个抖吧这种关系就是 fun to talk,就是聊起来很有趣。对,但我觉得那个那个更多的是一些主观的反馈了。对,嗯,我觉得他的那个。一个是语音,然后一个是他生成的很快,也是一个很重要的。因为我很多模型它都在给你展示思维链,但是我就说那个生活上的琐事,我不想看他的思维链。
对这个事儿,我觉得技术上并不难,只是可能大家目前还没有花更多时间在这个上面。然后事实情况是,如果你去呃尝试呃Gemini三点一和Gemini三的话,你会发现Gemini三点一在完成同样一个一个问题的时候,已经会比以前快很多,然后废话少很多了。所以说,我觉得这个不是一个,嗯,在我看来,不是一个技术上的难点,嗯,它更多只是什么时候去重视去去做这个事儿。
我觉得可能就是现在,呃,现在美国的这几家还都处于在努力把智能的上限往前不断推进。而字节呢,呃,当然它也肯定是在推进上限的,但是我觉得它可能就是在用户的优化上也做的不错啊。嗯,最近还有一个话题就是中国的机器人很火,在春晚上,呃,我不知道你对这个有没有什么观察?看过一些表演,嗯,也在亚马逊上搜过一些价格,确实很惊讶,它居然这么便宜。
买了吗?没买,我买了也没什么用。但是确实,我我以前会,我不知道我以前脑海里觉得这种人形机器人,然后呃,当然就是软件层面其实没什么,但主要是硬件。我觉得硬件可能做的这么成熟。可能怎么也得是个什么大几百万美金啊这样的,但是好像我去看了一下,价格比这要便宜很多。嗯,我觉得这还是体现出中国在硬件这个产业链上还是很有优势的啊。
但是我呃,并不知道它作为一个。他他作为一个机器人硬件来说,我觉得确实是非常非常强。然后从软件上来说,没太看没没太看明白。我觉得机器人的模型也是一个目前非共识比较大的事情。对,怎么说?就是说他,我觉得机器人的模型可能更多的处于,嗯,feature
engineering的时代,就是你让你有一个给定的环境,给定的场景,你去优化这个场景,大家是知道怎么做的,嗯,但是做RL嘛,做强化学习,做强化学习,构建合适的虚拟环境还是虚拟的这种这种呃这种数据,然后你去做训练是可以提高的。
但是它没有很强的泛化性。嗯,我觉得这个是,就是有没有泛化性,其实是很多AI方向它的一个分水岭,就是一个确定的场景,一个很单一的场景能不能做好。这个事儿不是最近这几年才解决的,嗯,十几年前就能干,对吧?就是像像语言也是,语言在这个基于Transformer这种类似架构之前的时代里,并不是说完全做不了,对吧?
那时候你也可以训练很强的模型去做翻译,嗯,你可以训练一个很强的模型去做语义分析。但是你不能做的事儿是我可以水平的提高所有的能力,嗯,这个我觉得是一个分水岭。然后我觉得Language中国在在呃在Transformer和GPT之后跨过了那样一个阶段,跨过了一个就是可以水平的提高所有能力。然后你可能在一个点上的训练,它会把这样能力抽象的泛化到所有相关的事情上,但是呃。
机器人,我觉得没到那个阶段,嗯,更多的还是在那个阶段之前,就是我有一个单一的场景、单一的呃的,事情,然后我能够为这个事情去做优化。所以你怎么看硅谷的这些机器人团队啊?还包括Gemini内部也有很多机器人的人,嗯,你会怎么看那个方向?有点,这这算什么?这是你们子方向,还是你们的平行方向,还是什么?一,我觉得呃,过去是一个挺平行的方向,但是现在机器人,我觉得大家也在尝试,就是能不能利用语言模型作为一个基底模型,然后在那个上面去训练这种类似,比如像V
L A啊这种,特别是多模态模型。
对对对,然后嗯。所以,所以现在来说,就是和变成了和语言模型这个这条线比较相关的一条线。嗯呃,然后我觉得,我个人的感觉是,他们未来会变得很重要。但是,目前还没有找到自己的路。嗯啊,但是他们做的事儿真的很有意思,我非常推荐大家去看看机器人的实验室,比做语言模型的实验室要有趣的多。做语言模型的实验室感觉就是正常的办公室,但机器人他们是真的就是会有人去操控这个机器人,采集各种数据,然后去看这个机器人在在什么在货架里去取不一样的货品啊之类干成的事情,就是是很有意思的一件事儿。
你去的是哪家?呃,我去我在扎马奶自己的实验室,就不是扎马,就是那个 Google DeepMind 自己的实验室去去看过,然后还有那个 Dana,嗯,我也去看过。他们是一个叠衣服的机器人,对他们就是可能场景更单一一点,就是我叠叠衣服是一个机器人,可能做一些别的,像就比如说倒个水啊之类的这样。对你直观感觉,机器人进展相当于大语言模型哪一年?
还没有到GPT一的时刻,对不对?一定没到,我觉得一定是没到的。对,嗯,就是相当于大家还没有没有想明白怎么去scale up。我觉得对我来说,不管机器人还是多模态生成。都没到这个点。嗯,那接下来进入今天的主题啊,我们还是对你非常的感兴趣,然后聊一聊你是怎么从一个学物理的人进入AI的世界的。嗯,呃,你你从小在哪长大?
你是怎么长大的?啊,我我出生在宁夏,然后一个很小很小的城市,那是叫那个大武口。啊,看,就是你这困惑的表情,已经说明了这个城市有多小。这个这个城市过去的存在是因为一个煤矿,对,因为石炭井一个煤矿,然后有了这样一个城市。哦,对,所以我在那儿出生,但是我呃小学的时候跟我父母一块去了上海,然后所以我小学的后半段和初中、高中是在上海。
然后我上本科就去了北京,就是刚才所说的那些,就是上本科在北京,然后博士在美国。对,你想你从小就成绩很好是吗?你是物理竞赛保送,然后在清华和斯坦福读的是理论物理。对我不是物理竞赛保送的。哦,我觉得我小时候挺菜的。哦啊,首先我读的初中和小学都是。无名之辈,我我觉得我我当时读的初中好像就是竞赛。是,不是一个你该考虑的事儿,就处于这样一种这这么一个初衷里。
那个叫上南中学东校,又是一个大家听了很困惑、一脸一头雾水的学校。好,既然都说到这,那小学是哪个小学啊?小学叫啥来着?啊,我的 context manager 能力太强了,我已经不记得叫什么了,提示。嗯,可以,嗯嗯,对,然后对,就是就是那个初中,就是嗯,一个班里面一个小的环境是还是有一些想要好好干事的同学的,但是总体来说,那个初中我觉得是比较躺平的状态。
对,然后嗯。我觉得就是可能还学习还可以,还可以是吧?还可以就是当时的状态就是上海高中有所谓的那时候有所谓的四校,就是什么上海中学,然后华二啊,交大和复旦的附属中学。对,然后我当时的状态就是能上这四个学校,但上不了这个四四个学校里最好的班。但是我当时特别想搞竞赛,因为以前都没搞过竞赛。你初中开始搞竞赛?
我初中没搞。哦,我初中没搞过竞赛。你没搞过竞赛,为什么想搞竞赛?因为没搞过,所以想搞。怎么植入这概念?我这个人,我这个人的个性就是。总是爱干一些自己不太会的事儿,对。然后当时没搞过竞赛,但是知道有这么回事儿,所以觉得义务教育不是义务义务教育,就是上大学之前得干一把。所以,但是呢,那个成绩也没好到那个份儿上,所以,呃,去四校就是最好那四个学校是进不了搞竞赛那个班的。
那我当时就发现有一个稍微差点的学校,啊,那个学校就是格格致中学,哦,啊,稍微差一点的学校,但是那个学校有一个竞赛班。然后我感觉这个这个竞赛,不然按照现在的话说,就是
underdog。厉害了!用当时的话说,我感觉就是光脚的不怕穿鞋的。嗯,我觉得,嗯,可可可以一搞。嗯,所以就就其实当时那个那时候就是呃那那时候上海还有就是所谓的推优生的制度,就是你可以在高中考试前就去和某一个学校签约,然后你就提前像预定那个学校的名额,然后就直接去去他们那儿,然后就很自然去了,然后去搞了竞赛高中。
对,然后,所以你其实是在上海四校的普通班里面和这个格致中学的竞赛班里面义无反顾的选选了格致中学的竞赛班。呃,当然我也不能,我不能说我做选择的时候,这个上最好的四个高高中是那么板上钉钉的事儿。虽然后来的分儿确实是够了,那时候还没有中考,那时候还没中考呢。对对,但是当时就觉得。就算能上,我也应该去一个 underdog 地方赌一把。
为什么?因为想干这个事儿啊!你想干竞赛的目的是什么?我觉得当时最主要的事儿是想体验。我觉得没干过,一定要找机会干一下。为什么一定要干一下这个?啊?第一就是觉得它确实难吧?啊啊,就是确实有一种对难的兴奋感。对,嗯,就是确实,至少当当时没搞的时候,大家呃给我的印象就是感觉这个事儿比你不搞竞赛学的那些东西要有挑战性的多了。
嗯,感觉干这个事儿人确实强,不干。你也就只是这个平庸石头里最光滑的那一个,啊,所以我当然觉得要干,当然所以就去干,当然干了之后也实际上带来一些好处,就是我后来回想起来,如果当时没去搞竞赛,可能就进不了清华了。哦,啊,你是有加分还是什么?当时其实那个呃竞赛的保送生制度已经比较锐减了,就只有进国家集训队才能保送。
我那高中,反正我觉得我当当时没进进国家集训队这个水平的,所以就别说了。嗯,但是呢,就是我在考高三竞赛之前。阴差阳错的去清华参加了一个夏令营,然后阴差阳错的在夏令营的最后一天听说了他们在搞自主招生,嗯,但是主要是面向北京的学生,我就疯狂给招生办的老师发短信,说我要跟他们一块考。哦,他答应了,然后他就答应了我们去考。
你们还是你?就是就答应了我和我们这高中一块去的那几个人去考,就上海上海这去那个夏令营的那几个高中同学去考。哦,你有什么理由说服他?你给他发短信?我已经忘了个短信具体怎么说了,但这个短信大概说的意思就是,你你给北京的同学考,为什么不给上海的考?大家理直气壮,啊啊!你当时觉得他们开后门是吗?我也不是觉得他们开后门,就是觉得人家有这个机会,凭什么不给我们?
大家都在一条线上竞竞争嘛。就是你们当时是同学啊,哦啊,然后所以就就发了这个信息,然后还人家就真让我们去考了。几个人?呃,我记不太清了,可能有上海。去那个考场里,可能有七七八个人的样子。是你发的那个短信,呃,可能别可能别的高中也有别的学同学发,但我们高中是我发的。哦,就是都是上海高中去北京参加那个夏令营的同学,参加夏令营的同学,嗯,对对,然后就让我们考,然后。
就签了,这么好说话?对,所以我从那件事得到的人生最重要的道理就是,胆子要大。你不争取是永远得不到的,争取了也有可能得不到,但不争取就绝对得不到。哦,哎,你当时发那个短信的时候忐忑吗?你当时还高中哎?我已经不记得了。当时觉得自己自己这是个很大胆的事儿吗?没有,还好。我当时满脑子想的都是,现在就得争取,再不争取,明天就争取不到了。
我就当天就发了,就是我在听说的那天,就赶紧去疯狂发短信,疯狂发给谁发?发给招生办的那清华招生办老师。就发给了一个人还是多个人?不记得了,应该是一个老师。哦,对,他很快回了吗?嗯嗯嗯,我觉得清华就 say yes 了。呃,我不知道他们自己有没有讨论了,但是反正最后是说了是统一啊,然后就一起考试了。对,所以,我所以,我为什么我感觉我一直对清华还还是挺有感情的,就我感觉这个学校是。
是愿意给大家提供机会,嗯,给大家提供平等机会的,嗯,对。那个考试考怎么样?呃,我当时出来的时候觉得考挺崩的,因为有半道题没做出来。但是我后来发现别人没做出来更多,就果然就着了。对对,你们那波上海同学进了几个?啊,好像两个。自主招生是减分还是什么?是降到一本线。降到一本线。对。哦。嗯。然后后来你高考考的好吗?
后来高考果然没考到清华的分,啊,但是就是除了清北之外的学校都能上。哦,所以为什么网上都写你是保送的?我觉得就是大家不在那个没在那几年上过学的人很难理解清楚那几年到底发生了什么,因为在我的两届之前还是拿了省一等奖就能保送的,拿了省一等奖就能保送就能保送的哦。你们那时候呢?我们那时候就是拿了省一等奖进了省队,然后再代表省队去考国家的比赛,然后进了国家集训队才能保送。
我是进了省队去考的国家比赛,但我没考进国家集训队,对,所以说我那届我是没有保送省队名额的。哦,你搞竞赛搞得好吗?我觉得挺菜的,就是难道不是没有干到最好就是很菜吗?然后我显然没有干到最好啊,所以就是很菜。嗯,你家里人对你搞竞赛这个事情是什么态度啊?我觉得我爸妈最好的一点就是他们不太管我,他们可能曾经也试图管过我,后来发现管不住。
哦,怎么管不住?就是我也不听他们的。哦哦,我觉得可能大多数中国家庭都是孩子和父母商量,已经算是很好的了。我一般都是通知,你通知了啥?通知哦,我去自主招生了啊,然后包括中高考填志愿也是。我我爸妈甚至可能都没见过我成绩单。哦哦,他们比较佛是吗?他们,我觉得就是,当你没有办法理解别人在干什么的时候,别指手画脚就是最好的。
我觉得我爸妈这个道理懂得很好。嗯,那你是比较叛逆是吗?我觉得我是。比较,我我因为我我觉得我我个性是,我很care我想做的事儿。如果这件事儿是我自己想明白了要去做,你就是别拦我,嗯,然后我也一定会尽最大的努力做到最好。但如果这个事儿我不想干,逼我干也没用,我也不会干。对,你的胜负欲强吗?挺强的。哦,对,但我觉得我我更多的是在跟跟自己跟自己较劲吧。
不不是不太不太愿意和别人交心哦。对,当然就是如果
happen,就是如果正好是我觉得这事很重要,你也觉得这事很重要,那我肯定要干的比你好。好,那你到了清华就更神了,去学了量子物理,为啥呀?呃,对我当时做那个凝聚态理论,然后呃,为什么选这个专业?阴差阳错,嗯,现在回头回过头来说,当然能能编造出一些听起来很合理的理由,但是但是摸着良心,回到当初,我觉得就是阴差阳错,就是当时我们在机科班,然后机科班有一个非常好的传统,就是首先机科班它虽然在物理系,但它不限制学生干什么,所以机科班实际上三分之二的学生都不会做物理,哦,然后对于那,你为什么会进这个班?
呃,当时清华的物理系全都是极客班,现在可能不是了,反正当时是的。然后他另外一个好的传统是他鼓励学生在在实践中学习,嗯,所以他鼓励学生尽早的去进到科研的实验室里去。然后去和在科研中中学习,然后呃,我当时想很想做理论,然后,你会觉得这个难吗?感觉感觉就是你对难有一种着迷,可能也是一种病。之后可以再讲讲这个这个病带来的不良后果是。
好,好,对,然后然后那个对,然后我就想搞理论,然后呃,当时基课班或者我们叫学堂班有一个更小一点班,然后那个呃老师就推荐说,哎,高等研究院是个很好的地方,清华高等研究院就是杨振宁先生啊创立那个研究院是个很好地方,然后我就去那儿找老师。然后,正好有一个很那时候还很年轻的老师,叫叫王忠,是我本科的老师。嗯,那时候他也没几个学生。
然后我俩就聊,我当然啥也不懂,但他还挺耐心,还给我了给了我一些这个paper让我去读,然后读我就跟他讨论。后来又发现凝聚态理论,尤其当时做的那个方向,就是跟拓扑绝缘体,然后呃这些这些比较相关的方向,其实呃是一个很适合本科生上手的方向,就是它需要的背景知识不太多。嗯,他只需要你可能懂最最基本的,就是你得会量子力学,会统计力学,会固体物理,也就是其实非常非常容易学的基础设基础知识。
但是,他可能很考验你对这些知识理解的深度。所以,对于本科生来说,其实是一个特别特别好的方向,就是你能够很快的上手去做一些实际的项目。然后我们就一块儿做了一些呃工作,其中有可能在开放量子体系里面的那个工作,呃,现在看来还是一个挺重要的工作。对,然后,呃,从某种意义上来说,我觉得。现在回头来看,做那个工作,做做那那段时间的科研,其实和现在做AI特别特别像。
其实它更多的是你有一个想法,你有一个理解,然后你可以在在那个阶段,就是你可以做一个数值的实验,去验证你这个想法和理解是不是对的。你发现AI其实也这样,AI也是你有一个想法,你有一个理解,你去设计一些实验,验验证你的理解是不是对的。嗯,然后你设计一些模型上的训练的这个pipeline来把你的你的想法实施出来。
对,所以说其实这两个是很像。对,嗯嗯,你能不能讲讲你这个非厄米系统的研究啊?可以讲,我我尽量说人话,嗯,但是也有可能实际上说了鬼话,所以要是不想听的人可以跳过,划一下进度条,划一下进度,到时候可以在进度条上设置两个戳,对,然后呃,对,非厄米系统是这样,就是说。呃,量子力学一个最基本的假设是一个孤立系统,它的演化被幺正演化所描述。
腰正演化是个鬼话,对不起,呃,腰正演化的意思就是它是一个一个线性的过程,然后呃,这个线性过程它可以被一个算子叫做哈密顿量来描述,嗯,啊,哈密顿量从某种意义上来说,它有有点像这个体系的能量,那不完全是,就是有点类似于,所以它决定了这个体系随着时间的演化。然后,如果是一个孤立系统的话,这个哈密顿量会是一个厄米的矩阵。
厄米的矩阵就是你转置一下,然后做一下共轭,它和原来是一样的。但是呢,真实的系系统绝大多数都不是孤立系统。比如说,你我作为人,肯定要和外界有信息交互,有物质的交互。呃,材料也是一样,就是你一块材料放在那儿。除非你抽特别特别真空的,你总得和衬里有交互,你得和外界环境有交换,所以真实体系绝大多数时候都不是孤立系统。
然后孤立系统它就不会被一个幺正的过程去去描述,然后它所对应的哈密顿量也不会是一个厄米的哈密顿量。就是这个非厄米这个词的来源,它本质上是为了研究开放量子系统,就和外界有交换的量子系统它的行为。嗯,然后当时发现一个很困惑的事儿,是我们一开始是试图研究这个开放量子系统里的一些拓扑现象,然后就发现手算出来的这个理论的结果。
和数值死活也对不上,嗯啊,然后更确切的说,就是手算这个结果是假设了这个体系是一个周期的边界条件,比如它在一个环上,或者在一个这个轮胎的表面上,啊,然后数值的话就会因为就和实际的情况比较类似嘛,它就会算一个开放边界的,比如说一个方块。这个材料上的行为,就发现这两个结果死活也对不上,然后就试图理解这个事儿。
后来就发现,大家过去用来描述厄米系统的一个一个基本的的范式,就是所谓的这个布罗赫波。就假设物体的本征态都是一些一些波的线性组合,嗯,这个,算是一些呃正弦余弦波啊这种这种波的线性组合。这个这个这个假设,这个假设,呃,其实在非厄米非厄米系统里里面会会呃break down,就是会变成错的。事实情况就是,后来我们就发现,在非厄米系统里,其实它的这些能量的本正态都会有可能会聚集到这个体系的一边儿边儿去。
对,然后我们就系统地建立了这套这套描述的方法,然后呃,就是呃,建立一套体系去描述一个开放边界的非厄米系统,它的本正态该怎么去描述,进而描述了它的一些随时间演化和一些动力学。所以,呃,这个是当时这份这个这个工作,然后后来就有很多呃,因为因为它其实是一个一个范式上的更新嘛,所以后来就有很多呃很多follow up的工作,但是后来其实我换方向了,所以就没有太在这个方向继继续做了。
你为什么不也让他做?很难抓住一次范式的变化呢,是不是?很难抓住一次范式的变化,是的,是呢。这就是人性的弱点,就是我感觉我总爱挑战一些自己不会的事儿。尤其当时就我不知道我当时的感觉是在那个方向,可能那个工作从再过几年回头来看就会是这个方向最重要的工作。后面你再去做一些工作,可能确实会让你更有名,获得更多的引用,写更多好的期刊的文章,找到一个好的教职。
但是,感觉作为一个科学生涯来说,就没那么令人激动了。所以我当时就想换个东西做,换一个自己不太会的东西做。对,然后所以就读博士的时候就换了一个方向去做高能理论,高能理论对高能理论物理对哦,所以你本科和博士也是不一样的,也是不一样的,还不是从物理跳到了AI。其实你本科和博士看起来都是物理,其实也方向也已经发生了很大的变化。
对,是两个几乎没有任何联系的方向。哦,你这个很很神奇,还包括你选竞赛去去去那个格致中学也很神奇。对,这是你的什么人性?我觉得就是说难听了,就是爱折磨自己;说好听了是挑战自己。嗯,被折磨开心吗?我觉得,如果为了被折磨而被折磨,那这个人就是有心理疾病。但是如果一个人是为了学习更多的东西,丰富自己的经历和能力而被折磨,我觉得是值得的。
嗯啊,你本科那个老师王忠老师也是个underdog是吧?算吗?不算,人家做的挺好的,怎么可以这样说呢?在那个时候,你跟刚才说还是很年轻吗?没有没有,他他很年轻,但是他我对他的印象一直都是他是一个很 sharp 的人,就是很能能看问题,试图理解问题,理解很清楚的人。确实,可能不像很多老师那样是。就是很有名气在社会上,或者很光彩夺目。
至少那个时候不是,现在现在已经很有名气了。那时候还没有那么有名气,嗯。但是我觉得从能力还是能力上来说,我觉得他是是很强的。对,然后,呃,其实其实他他一开始是他读博士时候是和那个守成老师张守成老师,呃,学习,所以说,呃,能被守成老师挑中的人,基本都不会太差。嗯,他对于你博士换方向说过什么吗?没说过什么。
我觉得他是一个。他是一个不爱干涉别人的人,我不知道他内心是怎么想的,但是我觉得他是一个不爱干涉别人的人。哎,量子物理整个是一个什么样的世界观啊?他跟嗯,呃,我觉得我觉得最大的区别就是,我觉得是嗯,有很多和经典物理有很多很多不一样的地方,但是我觉得他们两个是一个对应的概念,是吧?经典物理和量子物理,呃,它俩是一个在不同能量和时间或者空间尺度下的理论,就是说。
本质上我们这个世界都是量子的,当然就我们现在也不知道比更小的尺度上会是什么,对吧?就更小尺度上有很多不一样的呃想法,比如说弦论是一个想法,然后可能其他想法就是全量子引力也是个想法之类的,对。但那些都没有办法验证,被验证的小尺度上的有效理论就是量子物理,最小的尺寸对,是一个就是被被实验上能够验证的,嗯,最小尺寸的。
有效理论就是量子,当然这里面包括量子力学和量子场论,然后经典物理是当你看所看的这个空间尺度和呃比较比较大的时候,这个量子物理会慢慢慢慢退化成经典物理。嗯,所以说它更多的是在不同尺度下的有不同的有效理论。对,这个这个事儿其实在物理上一个很很深刻的想法,就是所谓的重整化群。标准化群说的事儿就是说,呃,在一个描述一个系体系的理论,在不同的能量尺度下,可能看起来是完全不一样。
对,然后哪怕他们可能从根源上来说都是一个大一统理论,当然,但现在没有什什么真正的大一统理论了。嗯,就是如果存在的话,他们哪怕在根源上是同一个根儿,但是他们在不同尺度上可能看起来也是完全不一样。然后,所以经典物理和量呃量子物理更多是两个不同尺度下的描述。嗯,对。讲到量子物理,有几个词好像是相关的,比如说蝴蝶效应,嗯,比如说量子纠缠,嗯,你能不能讲一讲这些?
对,我觉得这个可能是大家能听得懂的。然后我也不懂物理,大家不要骂我,我也不懂量子物理。嗯,对,我觉得呃,量子纠缠确实是一个大家比较耳熟能详的量子物理比较独特的事情。量子纠缠就是很简单的,就是说我有两个粒子,比如它属于一个纠缠态,然后,呃,我可能它们实际上相隔很远,但实际上我可能对其中一个做一些测量或者微扰,它也会影响到另外一个的状态。
这个是真实存在的,是真实存在的,对。什么样的会有量子纠缠?什么样两个物体?有很多,呃。就是就是有很多实实际的情况,就是实际上当当你足够看的足够足够细,足够足够微观的时候,绝大多数的粒子可能都处于纠缠态。但是实际上来说,你可以比如说制造一个自旋和另外一个自旋,你先把它俩靠在一块儿,然后把它俩坍缩到一个纠缠态上,然后你可以把其中一个拉得很远,它俩就成了一个就是一个距离很远的纠缠态。
然后甚至好像,我记得几年以前还有人专门去做,就是把一个细菌和一个什么什么东西出,然后置备在一个量子纠缠态里。什么叫置备在一个量子纠缠态里?这个是可以人为操作。这是一个可以人为操作的事吗?为什么?怎么操作?呃,一般来说就是通过一些测量和和演化算符的作用,能够把它置备到这个状态上。但是这里面难的其实是实验上怎么实现这个过程,嗯,就是你可以想象,就是说你做一些量子测量和一些和一些所谓的量子门的操作,其实是呃比较难的,因为。
你和因为就又回到刚才这种,就是每一个体系它其实都不是孤立的。你可能这两个自选,你觉得哎,我这么直背一下,差不多到到到纠缠它了吗?那我再把它拉开不就完了?但是实际的问题是,这两个例子其实活在我们这个世界里。会不断有别的粒子状态一下,嗯,或者外面的热量扰动它一下,它一下这个状态就没有。所以难的是怎么具具体实验上去实施这个过程。
对,然后呃,纠缠的另外一个例子可能更好说弄一下。我其实应该提那个例子,就是薛定谔猫。啊,薛定谔的猫啊,对,那就是一个更。更呃更耳熟能详的例子,就是说他的状态其实是叠加了这个某一个放射源放呃发出粒子和猫死了。这是一个状态,另外状态是放射源没有发射粒子,猫活着,这两个东西的叠加状态。其实,比如说你去测量一下那个放射源,发射发现放射源放出粒子,你就知道猫死了,不管这猫和这放射源远离离多远。
对,所以那是这是纠缠,但是呃,蝴蝶效应是一个是是一个另外的事儿,然后蝴蝶效应这个事儿。呃,蝴蝶效应就是耳熟能详的部分,其实反而是经典物理,就是大家经典物理听听到的蝴蝶效应,就是那个著名例子,就是什么可能南美洲一个蝴蝶扑棱一下翅膀,半个月之后什么北美洲八刮了个台风。但是它从更数学的呃表述来说,它就是说在呃时间呃起始的时候,你如果做一个很少的很小的扰动。
然后你去测量这个扰动产生的影响在未来有多大,嗯,你会发现这个扰动的变化是指数级变大的,对,这是他数学上对经典蝴蝶效应的一个描述。但是之前大家比较费解的一件事儿就是,呃,这个事情在量子体系里怎么可能存在?因为量子体系刚刚说了,就孤立量子体系是一个幺正演化,它是一个很线性的过程。所以说,呃,从某种意义上来说,就是你如果一个状态就是一个矢量和另外一个矢量,开始的时候夹角不太大。
那经过一些演化之后,这个架构应该不不会变啊。然后,呃,所以怎么会存在这种就是初始状态变得离得很很差别很小,在未来哗变得就是指数级变大了?嗯,好像在量子力学上看是哎不太可能实现的事儿。但是刚刚又说了,其实我们的世界是在微观是量子,然后在宏观就变成经典了。那他俩一脉相承的,怎么可能这有那没有?啊,这是大家也都理解的事儿。
嗯,那当然,这个后来大家就有一些更好的理解,就是说,其实,呃,你讨论这个量子里面的宏观效应的时候,不应该讨论两个态之间的这个这个变化,而是应该讨论一些呃,就是所谓的local observable,就是局域的观测量的变化。那个其实是对应了经典物理里的你的看到的那些变化。嗯,那你读了四年的量子物理以后,你当时在想什么?
呃,你觉得物理对你的帮助是什么呀?在你大四要毕业的时候,我觉得本科期间读物理最大的帮助就是,第一,想问题要想清楚,就是读书不在于读得多,而在于读得深。嗯,你读得多。不代表你能够发现新的东西,但如果你对一件事儿有和别人不一样的见解,那个才是对这个社会来说更有价值的事。这一件事,然后另外一件事就是,别太相信理论,别太相信纯理论,因为得出这个结论,因为当时那个事儿发现的主要原因还是因为能做数值。
就是一开始是因为数值和理论对不上,才仔细了研究那个问题,然后发现了这个事儿。嗯,对。那你博士为什么去读了高能物理?也是一个理论啊。这也就回到了刚才这个话题,就是总爱挑战很难的事儿。有时候也是会带来一些不好的结果的。什么不好的结果?比如我就感觉,我我觉得我这个博士就是对我自己来说,学到很多东西,成长很大,但是,于这个世界来说,没有产生什么贡献。
就高能理论这个方向就是足够难,非常非常难。然后,嗯,但它不好的事情在于。它其实不是特别可以验证,嗯,没有什么客观的评价标准,因为呃,高能理论已经发展到了就是呃,实验完全追不上的这个阶段了。实验完全追不上你在理论讨论的那些,不管是能量尺度还是还是这种微观的尺度,对,所以说它是怎么进步的呀?它的进步依赖于什么呀?
如果不是实验,呃。小一个一个一个进步的来源是来自于数学上的自洽性,嗯,就比如说你提出一个一个框架来来描述这些事情,那你能和现有的已经呃被验证的更低能标下的理论相自洽?就比如说你你研究弦论,那可能自然大家问题就是弦论能不能在低能情况下回到量子场论?只要回到经典物理,那这个自下限是一个判定方法。我觉得这个是很很合理的,就是很科学的一件事儿。
当然,呃,也有一些不科学的因素,就是当这个领域完全没有实验、没有客观标准的时候,肯定不会只有一个框架出现,肯定不会只有一个自洽的框架出现。嗯,呃,这个时候谁做的好,谁做的不好,其实就。依赖于领域内一些老登的主观判断。你是被谁伤害了?是吗?我我也没有被谁伤害,只是我在那个领域待时间越长,就越觉得这件事儿蠢。
嗯,就是。人这一辈子也没多长,为什么要把自己的时间浪费浪费在伺候老灯身上?对,所以感觉是花了五年学了很多知识,买了一个大教训。这个教训是这个大教训就是要做实验,要哎,就是要有做有有比较客观评价标准的事。嗯,或者从从另一个角度来说,就是要做对这个世界能够产生影响的事。嗯,所以你其实你本科还是比较顺利的,对吧?
在量子物理这个研究领域,很快,嗯,你很快就有了非常好的学术成果,而且是范范式级的变化。但是你很快觉得没有吸引力了,嗯,所以你想到博士去挑战一个更难的事情,对。然后在博士期间其实是比较落寞的。呃,至少从结果来说是这样的。外界看不出来,外界看都是非常光鲜的履历啊。博士在斯坦福,对我觉得,我觉得从从实际的科研产出来说,我觉得没有人会会说我博士今天的文章不好。
但是摸着良心说,对这个世界有多大的影响?我觉得几乎没有零,没有影响,几乎为零。对,所以对我自己来说,我自己很不满意的啊。但是我觉得,呃,确实也没有不满意到说我会担心有人说我在混日子,确实也没在混日子啊。就是你还是能达到所有的外界标准的。对,这是怎么做到的呢?就是。我觉得这还真的是很多事情冷暖自知,对吧?
对,是的。我觉得,呃,达到外界标准或者达到一个小的圈子的评价标准,是像训练模型一样,就是一旦有了这么一个小的圈子,你知道他们的评价标准之后,做得好是很容易的。但是就是其实你哪怕不认可这个标准,你是可以达到的,嗯。但是你还是知道你是不认可的,因为有时候你哪怕不认可,你达到了,我也可以蒙蔽自己,嗯,就继续往前走,嗯。
但我后来就发现我蒙蔽不了自己。骗不了自己,嗯,对,是哪一年发现的?我觉得可能从博士最后的两年吧,就会有这样的感觉。但是那时候确实也没有想好,没有想清楚,如果不做这个,该去做什么。那可能就花一些时间去了,会去了解一些呃不一样的方向。比如说一开始我可能呃更更多的是是是去了解是量子计算或者量子信息这样的方向。
然后呃拿了Postdoc offer就是博后的offer之后,感觉这个事儿更紧急了,因为。离开在学校里的时候,你还可以一个学生的心态;离开学校之后,就是自己的 career,你得给自己找一条路。那当时就是觉得,可能量子计算和AI是两条,我觉得给年轻人给小灯机会比较多的。哦,对,哦,所以你博士后的方向是啥?
博后没有方向,就博后呃,其实就是理论物理这个方向。博后是一个很独立的职位,就是你自己想干啥干啥。哦,对,它更多的是。从某种意义上说,有点像搞慈善,就是谁谁搞慈善啊?就是有一些可能,不管是在意科研的国家组织还是个人组织,他可以给学校捐一笔钱,或者给学校批一笔钱,然后学校用这笔钱来招一些博士后,在一个系里面就做他的研究,然后把自己的研究广泛的告诉系里的别的人,觉得他更多的是一种。
一种社会氛围的,呃,这种这种工作,嗯,对。然后,所以其实没什么限制,就是你其实想干什么就干什么。但是我其实也没做到多时多长时间的博后,就我实际可能到伯克利待了两三个月,但官方来说就只能待两个星期。就官方来说是什么?就是我我其实,在入职之前已经去那儿,因为我反正人就在湾区嘛。哦,我觉得入职之前就去哪儿,但是我入职之后,其实只待了两个星期就辞职了。
哦,对对,这两个星期发生了什么?啊,这两星期啥也没发生。我本来都不准备入职的,但是伯克利的人就是太好,就是你没事儿,就是等事情定了再说,能来多久就来来多久。哦,你告诉他们你其实在跟Anthropic谈,对我告诉他们其实我觉得我可能会去做AI了。我要不就别入职了。嗯,但是伯克利不是不止伯克利,我觉得就是湾区这两个学校的老师都人很好,就他很照顾你,他就他就觉得你还没有完全谈定,那还是先把现在的工作先拿着。
哦,对。你觉得物理对你后来做AI有什么帮助吗?嗯,我觉得硬实力上其实没什么帮助,就是呃,纯工具性性的技能上来说,其实从物理到AI的呃的转化是非常非常少的。但是我觉得,可能非要问的话,我觉得可能主要的主要的,呃,不不能说能力吧,就是性格吧。可能是可能做物理人会更想刨根问底,嗯,更想理解一个事儿,然后更想做事很系统,因为我们习惯了这种很系统性的,不管是做实验的方式还是做理论的方式,所以我觉得这个可能是一个呃一个比较好的地方。
但是我也不觉得这个事儿是。做物理人独特的,嗯,就是为什么做计算机的人没有这个特性?我觉得我认识很多做计算机的人也有这个特性,那很多做化学化学的人有这个特性,学生物也也有这个特性,所以我不觉得他是做物理独特的,对。但是事实上就是可能比较有趣,就是这个领域里面确实有很多,尤其就是语言模型这种比较呃就large scale的这种AI,确实有很多物理出身的人然后做很成功,对,尤其是交给这个公司哦,对。
因为很多人在描述这一代A I的时候,都会说是黑盒。你能用科学的角度来理解一下这个黑盒吗?就人工智能的运作原理?我觉得,我觉得,呃,这世界上所有东西都是黑盒,嗯,就是哪怕像物理这种大家觉得很理解的东西,其实也并不是真的。有一个从他微观的行为一路演化到了宏观体现的这种理解,嗯,像不管是刚刚说的量子力学还是量场论,其实都是描述那个能标下的行为。
本质上,这个系统还是一个黑盒,你还是不知道它最微观的地方是怎么什么样的动力学。我觉得AI也是一样,就是黑盒不黑盒,其实都是一个相对的事儿。我们确实对语言模型没有理解到。神经科学手术刀级别,就是不是说我理解这个行为,能理解到说这个行为是由于哪一个牛脑哪一个人工神经元的哪一个激发产生的这个行为?嗯,没有,不会有这个没有到这个层面理解,除非就是在一些很很稀疏很小的。
这个网络里面,就是像招聘有这个所谓的 interpretability 就可解释性团队,他们可能会做一些类似的工作,但是在实际能够使用的语言模型里都没有达到这样的理解,但是也不代表我完全没有理解。比如说 scaling law,它就是一个描述了那个尺度下模型随着模型大小和数据是怎么在 perplexity 就是这个这个指标下变得越来越好的。
嗯,所以你说是完全没有理解吗?那如果说 scaling law 不算是理解的一个小部分的话,那是不是我们也说我们其实对这个世界也完全不理解?这个世界也是一完全黑盒?所以,scaling law是一种科学规律,它是一种经验规律,经验规律对,呃,但是呢,经验规律和科学规律它之间的界限是很模糊的,比如说。
呃,我们回头去看这种热力学的不不各种不一样的定律,第一定律、第二定律,什么克拉伯龙方程、乱七八糟这些东西,在当年被发现的时候,也都是经验规律。嗯,但是只是说后来,哎,随着时间的发展,我们慢慢知道了它的微观机制,那它可能变成了一个科学规律。对,我觉得可能像scaling law或者类似的这样的东西,它目前肯定还是很惊艳的。
但是未来,当技术它比较变得比较固定,然后大家开始越来越多的理解它微观的过程的时候,会不会变成一个科学规律?如果这个事儿这个定义是存在的话,我觉得呃是有可能的。对。能不能用科学的表达来解释一下所谓的智能涌现?呃,首先这个这个话就不太科学,所以自然也没有办法用科学的话来表达一个不科学的事儿。智能涌现吗?
对,就是我觉得智能涌现,呃,对我来说它更多的是一种。主观的感觉,而不是一种客观现象。嗯,就是当很多人说智能涌现的时候,他脑子里想的可能是以前的语言模型只能做某一个呃方向的事儿,比如只能翻译,只能做分析,只能做什么?但现在模型好像哎可以做所有的事儿。但是这个事儿啊,Gem,我觉得像是对我来说,它更多的是一个技术上的涌现,而不是一个行为上的涌现。
说是我们通过研究发现了该怎么去做这种大规模的的训练,然后能够呃水平的提升所有能力。嗯,我觉得这个是一个更更本质的事儿。至于智能涌现这个事儿,其实我觉得,嗯,每个人可能心里定义都不太一样。对,你的定义是?呃,对我来说就是没定义。对我来说。但这个唯一质的区别就是有没有发现发生一个技术上的改变,使得我们可以做 scale up,可以水平的提升所有的能力。
嗯,这个对我来说是一个是一个良好定义的事儿。你最后是在量子计算和AI之间选择了AI,这个是怎么发生的变化?对,我觉得还还是花了时间一些时间去去了解两个方向的瓶颈在哪儿。嗯,我觉得好处是他们都给年轻人机会,好处是都有都有机会。但是量子计算对你来说好像是离你的主线更近一些,在那个时间后,对不对?哎,这就是为什么要去了解一下细节,因为了解细节之后就发现不是的,是反过来的。
哦,因为量子力学哦不是量子力学,就是量子计算,我觉得它现在的主要瓶颈其实在实验上。并不是你怎么去设计那些算法或者设计那些算子,更多的是你怎么在实验上实现它。那个事儿反而是我不擅长了,反而是和和我过去很多呃我有兴趣的事儿其实是很比较不相关的。然后反而跟我相关的事儿是更更多像AI,就刚刚说的,就是AI其实它更多的是你有一个想法,然后你可以用一些数值去验证这个数值在AI里面可能就是训练一个模型或者怎么样。
对,然后这个反而和做物理很像。啊,他甚至是就是为什么我之前一直哎把这个和十八世纪的这个物理学做做比较,就是它热力学对更像那个时代的物理,就是那个时代就理论和实验不分家,没有什么理论物理学家、实验物理学家,你就是搞物理就是搞物理的,嗯,你自己可以做实验,然后也可以做理论的推测。我觉得AI就有点像那个时代。
所以,其实从理论物理跨越到实验物理的距离,比你直接跨到AI要远,要远哦,确实要远,而且从兴趣上来说也更远。你不喜欢实验物理?我觉得喜欢做实验。我觉得,嗯,确实不是我的兴趣所在,啊,虽然我不自己不愿意做,但是我确实很有兴趣知道别人实验做的怎么样。AI不用做实验吗?用,但是它是更多是像数值哦。对,它不太像那个,就是你实验室去搭一个光学平台,然后什么,你还就谁谁?
我觉得实验真的是一个,就可能因为是我不懂,我没有达到那个境界,所以我有些事儿在我看来挺玄妙的。比如说,就是大家都知道这个光学平台怎么搭,但有的人就能给你搭出来,有的人就是耗了六年都没搭出来。这个是动手能力,我就是没搞明白呀。我有时候觉得真是有点玄妙。嗯啊,嗯,所以还是数值数值实验对清晰很多。对对我来说,呃,做数值实验或者像AI就是训练模型啊,然后研究各种呃不一样的技巧,然后看某某些细节,这件事儿对我来说反而是。
嗯,是我能想明白他为什么要这么干。嗯啊,但是在搭台子这个事儿上,我就是。一头雾水,你做过是吧?我当然就是大家可能都做过基本的,就读物理的人肯定都呃都做过基本的实验培训。但是更多的就是有很多做实验的朋友,然后不管去看他们的实验室,然后看他们怎么做实验的,还是跟他们聊这些怎么设设计实验,我就感觉很多事儿我其实不太能够理解。
但是他们确实有的人就是做的好,有的人做的就是不好。所以你说现在从事AI研究,像十七世纪热力学研究,其实在表达,虽然,嗯,大家没有办法很清晰的从科学上去解释和理解这个事情,但是它没有,并不会阻止它发展。对,就是他更像是在为什么呢?比较那个时代热力学,就是那个时代大家其实不理解什么是热的微观理论,就大家不知道热是热是什么东西,就像现在不能理解。
对,就像现在大家不能理解这个 language model 里面那一个矩阵元是在干什么。嗯啊,其实大家也不理解,但是不妨碍你有一些好的经验定律。比如热力学的各种定律和现在的各种scaling law,哦啊,所以说,呃,从这个角度来说是是,就从这个从这个方向的角度来说是这这这个这个层面上来说它是类似,然后从研究人员的角度来说,就是刚才说的另外一个问题,就是它理论和实验其实不太分家,嗯,对。
那你是怎么去面试Anthropic的?你这个Anthropic的历程是怎么展开的?呃,我觉得其实主要还是因因为有前同事在Anthropic,前同事对,就是Anthropic其实有很多做呃做物理出身,尤其是做理论物理出身的人,为什么呀?就是他们从人的选择上为什么会选择这一波人?我觉得呃,当然就是很多嗯。
很多人可能会找一些原因说,哎,做物理人擅长这个或者擅长那个,但是。就我个人的视角来看,我觉得主要的原因还是 connection,就是联系哦,就是因为 Anthropic 的创始团队里面两呃,创始团队里面其实有三,当时有三三四个比较比较技术的人,然后其中有两个现在还还很在技术一线领导的人,他们俩都是做物理出身的,然后他们可能招的一些人也是做物理出身的,所以就这样一直延续下来。
但其实到了现在这个阶段,就在我之后,其实也几乎没怎么再招完全没有AI背景的人了。哦,对,所以说也是一个,我觉得也是一个一个时代的产物。对,然后,呃,我反正是当时我决定去做AI了,所以我就就试图去联系一些地方,然后。你只找了啊?多少pick吗?没有,我还找了OpenAI和Gemini,就Google的Gemini。
但G Google的Gemini,因为它那时候速度太慢了,所以就没就没有没有最后没有出现在考虑的范围内。但是速度太慢了,是指他们面试的速度慢啊?哦,但是后来显然后来张文磊这个事儿就获得了充足的提升,那后来动手就非常快。对,然后嗯,Anthropic就是。OpenAI呢?OpenAI也联系了,但是OpenAI呃,可能没有找到特别合适的适合人。
然后呃,Adobe是因为我当时联系了,后来就是呃,我的第一任man那个manager,我第一任经理,然后他以前也是做这个理论物理的哦。然后他当时就说我们在尝试做强化学习。尝试做这种大大规模强化学习,有很多科学问题要去理解。那个时候,二四年呃九月八九月的时候,那个时候其实强强化学习还没有像现在这么成熟。
嗯,那时候大多数人其实都不太知道怎么做,因为欧万其实还没发布呢。那时候,欧万只只是快发了,对对对对,就是就是只是只是大家都知道有,嗯,但是大家都还没看到结果。但是 Anthropic 当时其实不知道怎么做的,当时是大体上知道,嗯,但是有很多细节需要仔细去研究。然后,所以他就跟我说:“哎,有这么一个事儿,你要不要来面试一下?
”然后我觉得他觉得,哎,可能是一个好的机会。你当时怎么认知强化学习啊?没认知,你大概知道 pre train post train。对对对,我大概知道这个流程,但我其实不太知道具体的这种这种业工业级别的语言模型是怎么训练的,嗯,只能知道就是像学术界是怎么训练,嗯,对,然后呃,所以其实其实现在谈那时候的认知,其实在我现在看来就是没有认知,嗯,对,然后呃,更多的还是我倒是觉得这个事儿是一个。
不确定的事儿,嗯,然后是一个好的机会,嗯,所以我就去干了,嗯,当然也有些面试的准备和面试过程,对,怎么准备的?聊啥?我当时跟谁面的?呃,小北后来我的一些同事当时面的,然后面面试题也不太难,反正对。但是对对我来说,我也我当时也不知道怎么准备,然后我就去把我能找到的那些课自己能学的学了一遍,然后能做的作业做了一遍,然后。
自己的手搓了一套,就是那个Andre Capasi他有一个著名的那个项目,叫好像叫 Nano GPT还是叫什么?反正就是他有一个可以在一个 Google 这个 Colab Notebook 里面就能训的一个很小的 GPT 模型。然后我就手搓了一下那个,然后就去面了。嗯,对,然后很快拿到了 offer,然后就对,然后就拿到 offer。
然后你第一个方向就是大规模的强化学习,也当时其实是有两个组来,两个组来那阵儿啊来跟我聊,一个是做 evaluation,就是呃模型评测,然后另外一个是做强化学习,然后我是选择了强化学习。当时选择强化学习是因为它更加的不明朗,对,嗯嗯。对,然后那个时候其实,Anthropic也不像现在是一个大公司了。
那时候公司其实也很小,多少人?我去的时候,我们的那个大的team才只有十个人左右,不是十个人或者十一个人,反正。大team叫什么?呃,叫Horizon。哦,对,然后,呃,那个时候那个大 team 也就这个大 team 的平行 team 有什么?呃,那个大 team 其实后来几乎就是啊强化学习的方方面面都在这个 team 了。
哦,对,但那个时候很小。它的整个大组就是一个强化学习,整个大组。首先,这个创业公司你也很难说这个组的目标是什么,嗯,因为他可能曾经也有过很多不一样的目标,但只是那个阶段可能主要的目标是做强化学习,对。然后,当然底下也有做更呃更数据的组,更做环境和和infra和基础设施的组,也有更做这种呃research和和算法的组。
然后我去的那个组是比较偏research和算法的组。嗯,对,那种Anthropic多少人?啊,那个时候可能七八百的样子吧,总共。但是,嗯,对,这是整个的公司七八百,对。你一进去对这家公司的印象是什么呢?我觉得,我觉得我对养消费的印象其实还是挺就挺 consistent 的,嗯,就是我觉得进去之后,我觉得这家公司的印象就是执行力非常强,就是它它其实是一个比较 top down 的公司。
对,然后所以很多事情决定了之后就会全力去做。然后,呃,公司其实员工之间的的氛围也很好,就大家都呃不会藏着掖着。然后,尤其刚去时候很小嘛,所以就是大家都认识,所以就氛围很好。然后,呃,我觉得。如果是做只是做语言模型相关的事儿的话,其实现在回头来看,那是一个非常非常好的学习机会。就是你能够接触到这个模型训练的方方面面,然后都能找到对应的人去问。
对,那个时候的Anthropic已经有了,现在我们都知道他那个非常呃坚定的Bet吗?有的,有的。嗯,这个Bet来自于哪里?为什么会有这个Bet?呃。我我不知道它完全的来源在哪儿,我自己能看到的一个显然的来源就是前一代模型Claude三放了之后,嗯,Twitter上那时候可能还没叫X呢,Twitter上有很多人在讨论说。
那个Claude三好像写code比GPT四强哦。啊,那个年代GPT四还是一个和大家gap很大的模型,所以能有一件重要的事儿比GPT四强。就很厉害了,所以是试出来的。我觉得至少是其中一个原因,嗯,就是是是很快的对这个市场做了反馈,对,这也是我觉得这公司很强的一点,就是它 execution 执行力非常非常强。
一旦给他一个信号,让他觉得是很 reasonable,这公司该做的事儿,那就会扑上去。他没有那些呃大组织那种冗余,嗯,对。为什么他的 coding 会比 G P T 四要好?不能说哦,是有原因的,是有原因,是有原因的,对。但是是个随机的原因,不是一个我我这么选择,所以有了这个结果的原因,是一个纯技术原因。
但是确实我不我不能确定一开始是随机试找的,还是故意选择的。你要让我猜,我肯定会觉得是随机试找的。哦,纯技术的原因,对,是有某个人做了某个事情。呃,是确实有某一个团队做了某个事情,对,是自上而下的还是自下而上的?我觉得最开始可能是最自下而上的,但是后来就变成了一个自上而下的事儿啊,就是就是要快速捕捉到一些市场的,就是内部和市场的信号。
对对,我觉得这个是然后要赶快要扑上去。对对,我觉得这是Darrell非常非常强的一点,对他非常非常的reactive,反应非常快。哎,他的执行力来自于哪里?来自于Darrell这个人,来自于他的某种特特质。我感觉就是。嗯,Anthropic作为一个公司来说,它它能够实行这种就是比较Top Down的机制,嗯,是一个很独特的事儿。
为什么?因为呃,实行Top Down其实有有一个很难的点,嗯,就是你做技术的决策人,必须也得是公司本身的决策人,嗯。首先就是你技术上得能服众,那下面的研究员才会,你才能够就是信信服下面的研究员去做这个事儿。另一方面就是你得是公司的决策人,你得能为这个公司负这个责任。嗯,呃,Zowie有这个条件,就是说他的技术上的leader的领导人其实是公司的口方的。
那是是你指的是谁?不是Darrell?呃,就是呃,Javier像呃,就是Javier Kaplan和Sam啊,然后像他们俩就是公司口方的,嗯,然后他们自己做这个决定。那是人家的公司,所以他有权利做这个top down的事。那Darrell作为CEO,他会say yes和no吗?我不知道他们决策层的讨论里面,OK,大家有起到了什么样的作用?
我只能说,就技术leader是有决定权的。嗯,我只能说,对我当时的工作来说,我接触的最多的就是这玩意儿的。嗯啊。可是,这对于其他模型公司很难吗?很难,比如说 OpenAI 就干不了。伊利亚在的时候,难道不行吗?伊利亚在的时候有可能可以,但是伊利亚后来,一方面,嗯,我也不知道因为什么原因,他好像就是失去了这个做决策的能力。
然后就走了,所以就哦,其他公司呢?其他公司我觉得都比较难,就是Gemini也比较难。但是我觉得Gemini就是另外一套打法,不太一样。就是说,呃,我觉得就是大公司和和start up它打法本来就不一样,因为start up重要的是make bet,嗯,就是我得我得赌一件事儿,嗯,我如果想要赌,就意味着有风险,所以。
就意味着我能够去很快的做一些决策,然后很强力的推进一些决策。嗯,那可能在这种情况下,淘不到我觉得是一个很很有优势的事儿。所以我觉得啊,淘贝从组织上来说是比Open更有优势的。但是作为大公司来说,它可能就是另外一套想法,因为大公司的想法可能是我不仅能尽量减少做赌的成分。而是我能在方方面面都都有储备,然后任何一个事儿成了,我都能跟上,然后如果有事儿我自己做成了,我可能还能领先,这可能是大公司心态。
所以说,在Gemini、Google是一个很传统的就很bottom up的组织。就是公司层面可能有一些比较良好定义的框架来来看你的工作是好是坏,来引导你做一些公司需要的事儿,但是本质上还是你自己来决定自己做什么。嗯,所以你觉得 Anthropic 能 make bets 是因为它的独特的文化、组织和文化对?
呃。这个听起来其实应该是其他公司也能做的,但是却非常奇怪的发现,其他公司很难做,而Anthropic可以做到。对,我觉得还是需要技术的或者公司的leader有公信力吧。这个其实挺难的,我觉得。你说的还不是CEO有公信力,是技术的一号位有公信力。对我对我来说,我觉得技术的一号位有公信力很重要。嗯。对。
但是与此同时,CEO可能没有成为一个阻力。对,这个难吗?呃,这个我觉得就得看你这个co founding的这个team有没有足够的互相信任,嗯,这个也很关键。我觉得Anthropic这点也是在startup也很强的,就是他co founding team没有一个人离开公司。他们,如果你看他们过去的履历,那就是那是一群真正一起打过仗的人。
就过去,他们源自于,他们都是以前OpenAI的,OpenAI,嗯,对。然后,呃,像他们甚至好多人都是就是在一系列关键的文章上。的合著者,嗯,因为你像,呃,scaling law这个paper是Jared Kaplan,然后Sam,然后当然还有Wu,然后还有一些可能Tom Brown也在吧,我我不太不太记得Tom Brown在不在。
然后GPT三的paper就是Tom Brown在,然后Ben Ben Lin在,然后Jared和Sam也都在,Wu也都在,所以他们是一块儿。趴过战壕的人,嗯,我觉得呃,互相之间的信任还是很关键。嗯,有很多公司可能就是干着干着,连这个小集体都团结不住了,那你怎么能指望这个大公司能能团结住呢?你在说OpenAI是吧?
啊,你加入Anthropic公司正在做的最重要的项目是什么?你参与到那个大项目里面了吗?呃,对,就当时做就是为了做大,能做大尺度的强化学习,然后能够用它来提高呃coding的能力。嗯,这个就是当时最重要的事儿。嗯,然后我们当时做做这个这个组。呃,当时的研究的重心就是一个事儿,嗯,这也是这个组为什么后来就慢慢变大,然后变得越来越重要的原因。
然后,呃,最终带来的结果就是,就是大家一块儿创了这个三点七,Claude三点七这个模型,对。哎,你说内部叫有一个三点六,这个是啊,不是内部叫,就是外外外界的Cloud三点五,其实有两个版本,嗯,一个可能是六月的版本,另外一个十月版本,然后。你也可以看出啊,Anthropic这个公司曾经也是没啥产品能力的,居然管两个模型叫一个名字,所以后来外面人为了区分,管那个三点五后面那个版本叫三点六啊,所以Anthropic跟随着外面的这个习惯,就叫三点六了,管这个再新的模型叫什么三点七。
哦啊,所以就是你去看实际的这个公司的产品实现上,其实三点五、三点五New、三点七,怎么会有一个三点五New?这个是怎么想的?你这,我只能说那个时候的Anthropic可能真的是没有什么产品上的想法啊。所以你第一个项目是三点七还是三点五?三点七,三点七还是三点五New?三点五New其实我呃没参与,几乎没参与,因为它在三点五New就已经看到了coding的迹象,是吗?
你刚才刚开始的三点五New的时候已经看出Anthropic的模型在Agent Coding会比别的模型强了,这个是为什么?不能说。所以你进去的时候,刚刚好就是他们有,他们知道了这件事情,就是管理层也知道这个迹象。然后他们要 make bets 的时候,你这个运气很好啊。我觉得,我觉得对,我觉得我进去的时候是大家肯定已经看到这个事儿能做成且重要,嗯,但是不太清楚怎么去把它做成。
然后我我去的时候是跟大家一起去研究怎么把它做成。嗯,对,所以方法是大尺度的强化学习。对,这是从大的角度来说是,但是当然就是有很多技术细节是需要去研究的。这里没有什么弄号啊。有好多N D A的内容了,有有很多N D A是会写的这么详细的吗?呃,其实原则上来说,原则上来说,呃,员工是不能在在职期间和离职之后透露任何跟公司内部相关的信息的。
OK,当然实际上来说,就是大家可能心里都有一个度,就是说,呃,如果这个技术没有公开的话,肯定是不会公开去谈的。但是,我觉得虽然我不能公开去谈,但是我。我觉得把简单的事儿做的比谁都干净是最关键的。什么叫干净啊?你刚才也用过这个词,对,就是就是,我觉得有很多花里胡哨的技巧,比如说做强化学习,最简单的algorithm就是policy gradient。
但是不代表这是唯一导归的,它还有别的算法,比如说各种复杂的这种搜索算法之类的东西。但是,是不是这些复杂性是必须的?然后这些复杂性可能给你带来了一些呃一些 efficiencies,也就是效率上的提升,但它可能给你带来一些,比如说呃基建 infra 上的困难,那你怎么去 trade off 这些事儿?
这些事其实做研究需要去理解的,嗯,就是怎么去 balance 这种不同的因素,然后选到最好的那条最稳定的那条路。对,然后我觉得很多的能耗其实都是在这些这些细节里面,怎么去处理这方方面面细节里面。对,那那个时候怎么来描述coding很重要呢?我觉得他是他他认为是大语言模型的一个分支,一个重要的分支,还是什么呢?
我觉得每个人可能想法不一样。对我来说,呃,对我来说,它重要的原因有二。一个原因就是,一一个原因,当时Antorpe也一直在讲的事儿,就是说,Coding本身也是做语言模型研究的一部分。如果你能够把Coding做的很好,那可能会让你的研究效率有翻倍的提升。嗯,就是形成一个研究上的飞轮,飞轮了。哦,这是这是一方面原因。
对我来说,另一方面原因是因为Coding其实是模型使用工具和环境交互的一个很好的抽象。首先,这个抽象刚刚已经说说过的,就是这个抽象的好处在哪?比如说,这个回归信号清晰,然后然后数据充分,嗯,然后。其实你是很很难在别的场景下找到能同时有这两个特质的使用工具场景的,嗯,所以对我来说这是一个好处。像在这里面做的一些研究,可能是对更通用的那些使用工具和环境交互的能力的一些有有用的有用的lesson,有用的课。
嗯,对,呃,那时候Cursor是什么状态呀?那时候Cursor还是一个纯产品公司,呃,我觉得从某种意义上来说,好像在我去Anthropic之前的那段时间里,Cloud和Cursor都属于比较Underdog的状态。然后, somehow在三点五New就是三点六外界的三点六这一代的时候。首先是这个模型能力上去了,然后 Cursor 又发现这个模型真的能够做这种 agent coding 的工具了。
啊,它就是一个壳。对,但是这个壳包着这个模型,一下子让公众体会到了,不是公众,就是公公众是指就是软件工程那个圈子当时体会到了,哎,这事儿好像是真的是效率工具了。所以后来就是这个一下子就起来了。所以那时候他就Anthropic就意识到Cursor是未来的竞争对手。那就不知道该问达瑞了。啊,三点七是怎么做出来的?
嗯,这个是一个分水岭,对于Anthropic来说是一个分水岭式的模型。我觉得对于Anth Anthropic的后训练来说是有分水岭,就是在三点七之前后训练都是处于一个比较嗯。比较小规模,然后呃,可能就是修修补补模型的这种一个状态。大家不重视后训练是吗?也不是不重视,就是一开始大家其实很长时间大家都没有搞明白后训练该怎么 scale up。
哦啊!但是在那个阶段,呃,不管是 OpenAI 还是 Alphabet,还是包括像中国的 DeepSeek,他意识到了这个事儿该怎么去 scale up。该怎么 scale?就是就是你得找到呃合适的环境,这个环境。它的反馈信号足够的清晰,然后这个环境本身也是一个很强的数据源,然后在这个上面其实能让这个训练非常稳定,这事儿就能做成。
嗯,对。对,我记得那个时候,其实大家都不知道 OpenAI 的密保密项目是什么,就知道它叫草莓,叫 Strawberry。然后,嗯,大家觉得会带来一个新的范式,新的范式就是后训练强化学习。嗯,但是更多的就不知道了。对,其实,呃,其实我觉得我去 Anthropic 的时候,大家已经。比较清楚这个事儿该大概该怎怎么做,就是大概的这个方向是怎么做。
然后,呃,当然后来就是后来随着我对这个领域知道越来越多之后,我就发现其实那个时刻其实 OpenAI 做的方式和 Anthropic
其实还是差别挺大的。怎么说?啊,就是具体的这种算法呀和使用呃数据的方式其实不太一样的。虽然都叫后训练和强化学习啊,虽然都叫这个,但是当然就是我觉得那些不是不是本质区别,就是就是本大的方向来说他们是同一个,就是找了一些找一些这种很回归信号非常清楚、非常客观,然后呃数据本身又比较干净,然后对于模型来说是可学习的,然后在上面做稳定的强化学习训练。
大的方向来说都是这个方向,但具体实现其实是差别比较大。但后来事实也证明,就是具体实现其实每家方向都不一样,但是都能做成。嗯,对。而且当时 OpenAI 的目标也不是 coding。呃,当时我了解到的叙事是说,预训练作为第一个范式已经金矿快挖完了,所以我们现在开启第二个金矿,嗯,就是后训练和强化学习,然后来让 Skin Law 继续,嗯。
对,我觉得很长时间 OpenAI 都是这个这个想法,我不知道他们现在想法有没有变。嗯,呃,我觉得对我来说,我的想法经历过摇摆。在三转七那个时代,我其实觉得,我我当时也抱着这个预训练已经快 Party is over
这种感觉。然后就在你要入职的时候是吧?哦,就我入职刚入职,然后当时在做这种三点七相关的这种实验的时候,嗯,呃,我当我当时也也曾经抱过这个想法,但是后来随着了解越来越深入,我就觉得发现就是其实还有做的空间的啊,然后呃。
预训练它,预训练scaling law这个事儿,它也不是告诉您你要一直变大,嗯啊,它其实本质上是一个很系统的框架,能够告诉你做什么样的事儿是更有效的。对,嗯,然后呃,所以后来就发现,其实还有还有很多做事。然后事实情况是,后来Anthropic和Gemini的预训练也一直在不断的进展。我发现自己卡了很久,他现在又重视预训练了吗?
他他应该已经重视预训练挺久了,就是最近可能刚刚有点进展哦啊。所以预训练和后训练作为两个范式都没有达到它的那个平台期,我觉得都没有。但是你说要去预测到了多少,这个做不到。对,就我觉得,我觉得到达平台期有有两种。两种可能性,一种可能性是技术本身到达了,就是你明明还有想让模型要干的事儿,但是这俩技术就死活教不会了。
嗯。另一种可能性是你想干的事儿到平台期了。哦。我觉得现在就是后者。啊啊,就是我们现在知道了,哦,有一个Chat Bot,你可以教它干这个,然后又有一个Cody,你可以教它干这个。对。后面就不知道了。对,就不知道该教点它啥好。哦,嗯,就是说,这模型还是一个非常聪明的小孩儿。对,你其实可以教他很多东西。
对,但是我们人类作为老师,现在还不知道下一个东西该教什么。对,对,或者说该怎么去合理的教他用现在的这些范式。啊,嗯,说到三点七,还有什么逗号?呃,这是几几个月做出来的?这个最后零零总总,从从开始训练到发布,可能花了四五个月的样子吧。嗯,对,就是从你刚进去,就是从开始大家做为了这个事儿做做研究,那可能花了两三个月,然后后来开始训练。
到训练结束,中间磕磕绊绊,很多事情要处理啊。然后有很多新的基础设施,其实基础设施真的是很重要,很花时间。然后又可能花了可能两两个月这样子。你在其中做的重要的工作是什么?啊,我觉得我也没什么重要的。我觉得我我对我个人的贡献。我就我觉得我对个我个人对任何一个模型的贡献,我的我的陈述都是,我觉得我自己对那个事儿没那么重要。
我觉得我更多的是我很幸运有机会在那个时候加入了一个重要的项目,做了一些事。嗯嗯,因为从某种意义上来说,我觉得AI在现在最近这几年。这个事儿本身是一个不可阻挡的事儿,嗯,它不在于你这个人去干或者不干,你不干自也有别人一样能干出来的,嗯啊,所以我觉得在这个时代,其实。所有给个人贴金的事儿,其实都有点炒作的嫌疑啊。
但是确实,我觉得对我来说,我是很幸运能在那个阶段加入了一个重要的事儿,嗯,然后哎学习了一些知识,对,嗯,好的。那你在幸运的在那个阶段,在Anthropic这家公司的大尺度强化学习的这个团队里,嗯,做了什么?我觉得三点七那个时候,可能主要做的还是就是在R里做这个agent
coding。这件事儿,嗯,这件事儿怎么把它 scale up,或者怎么去准备各样各,就是怎么去制备各各种各样的环境和 data,然后包括算法上会遇到什么样的问题?
当时主要的研究都在这部分。这里面有什么 tips 吗?呃,嗯,现在来看没啥特别有用的tips。我觉得,我觉得,我觉得,呃,说到说技术的tips,其实这个事儿是一个大家很。一方面很愿意听,公司又不让你说,但实际又没啥用的事儿。为什么?因为很多算法设计其实并不鼓励独立算法,它是强非常强的依赖于你的基础设施。
举个简单的例子,就是有些公司它可能就大家经常讨论一个问题,就是说在强化学习时候,这个sample就是给你产生这些这些呃这些trace这些token的那一个那个那个机器,嗯,和trainer用来实际训练这个模型,然后改变这模型权重的这个机器,这两个机器可能会有不一样。当然不一样,有也有有一些原因,是因为数值上的不一样,有些原因是因为呃使用了这种异步的训练架构,所以说它自然就是就是从根本上来说就不一样。
嗯,那你不同公司可能这个不一样程度是不一样。所以你算法上设计也会不一样,有些公司它可能这个这两个 difference 这两个区别非常非常大,那你算法可能最大的部分就是在于怎么控制这个,然后怎么让这个训练稳定,可能对于训练的这个实际的效果啊之类的权重就会稍微小一点,嗯,但也有可能有的公司它的。基础设施建设就特别特别好,这两个差别没那么大,那你可能就可以花更多精力在这个训练的效果上。
嗯,所以说很多这种小的tips是一是其实是没有什么用的,就很多no hard其实是没什么用。我是因为因为我确实也发现了,就是很多呃。别的lab就不是在这三家lab里的人,可能很想知道,哎,Anthropic怎么做这个,或者Gemini怎么做那个。但其实我有时候不愿意回答一个主要原因,是因为我觉得本质上我回答这个问题也是在误导他。
就是现代的AI训练是一个大的系统,你其实要把要了解这个方这个系统的方方面面,才能有一个全局的认识。什么事儿是因为什么而变得有用了,而不是说这个事儿本身有用。嗯,对。从三点七到四点五又发生什么呢?呃,这个预训练和后训练都有,对。然后,呃,当然就是一个就是 scale up 上做的更多了。然后 data,不管是 data 还是训练的,呃,这个这个算力都都都更大的尺度。
但是我觉得从范式上来说就没有,呃,没有特别特别大的改变。嗯,对。到你离开 Anthropic 的时候,他已经多少了?接近两千人了吧?扩了一倍多啊!嗯,对,所以你在Anthropic时期刚好是他就最剧烈转变的一个时期啊!我可能就踩在了他还是个小公司的尾巴。啊,其实我觉得进去之后过了可能三四个月,这个公司就已经开始,哎,就人一下就变多了,文化有变化吗?
还是经历一些比较混沌的阶段吧,然后呃,可能尤其可能就是在我离开的那段,快离开那段时间,我觉得文化上还是经历了一些一些混混沌,因为从外面呃来了一些人,然后可能跟本本来的文化有一些冲突,对,然后哦,之前的文化是。我觉得之前就是简单,对,就很简单,就是他像更像是一个小作坊,嗯,大家都是朋友,然后大家都知道对方在干嘛,然后,呃,也没有人特别。
特别会就是做过多的这种个人宣传啊,还是怎么?就是做一些没有用的事,也没有人做没有用的事。大家都是有很多事要处理,然后公司那时候紧,可能紧迫感也更强一些吧。然后后来可能就觉得这样,呃,人多了嘛,这样的文化肯定会受到一些冲击的。对,带来了什么风气啊?呃,我觉得确实有一些人,我个人不是很喜欢。当然,不代表他们真的不好,就是我个人不是很喜欢,就是可能我不太喜欢在这个领域里面说很多话的人。
啊,就是那个,我觉得idea is cheap,想法是是是便宜的。很多想法其实很显然,所有人都知道难的是怎么把实现,怎么把它变成一个一个小的可实现的步骤,把它做出来。我觉得,呃,我不不太喜欢那些一天中很多时间花在在Slack,就是Slack是美国用的一个办公的这种软件,然后在Slack上花很多时间在那儿讲一些大道理,我觉得就是没啥用。
对,嗯,你后来为什么突然离职了?你是完成了什么阶段性的工作吗?当时?呃,酝酿了多久?我觉得可能酝酿了一两个月,一个多月吧,一个多月多一点。然后,对,对我觉得一个方面是,嗯,就是是我其实不是太别特别认同Darrell反华这个事儿。啊啊,我觉得他。作为一个公司的CEO来说,对他个人来说,他做什么样的观点,我觉得都无所谓。
但是作为一个公司的CEO来说,我觉得把这个观点推到这么极端的地步,是一个非常情绪化的体现,对。然后这是一个一个比较小的原因,但是大的方面有很多公司像刚才说的,公司的文化上有些冲击啊。然后包括我自己,可能也。想去学习些不不一样的事情,就说Anthropic它毕竟非常的专注,然后你可能做,如果你很想做和语言模型相关的方方面面,然后呃做这种呃使用工具啊,这种agentic,然后coding这种事儿,那在Anthropic其实很好能学到很多东西。
但是Anthropic有很多不做的事,嗯,比如说Anthropic完全没有人做这种多模态生成。你想学没地儿学,然后他这边可能也没有花太多的精力在这种更底层的工程的呃技术家基础设施上。对,所以所以可能想要学习,呃,更多的东西也是我当时离开的一个动力。嗯,对。访华占百分之多少比例?因为L R的个人原因,我在公开场合说百分之四十,但是这个数字反正就是听听就好。
嗯,这个数字就是告诉你它不是主要原因,但它确实是一个很大的原因。对,就没有控股,不是个控股原因。对,不是个控股原因,但是是一个 majority holder 的原因。对,嗯,你这个选择也很神奇,因为大多数人在一个他还是一个 on the dog 的时候加入,会更有感情,然后会愿意陪公司走更长时间。
但你反反而跳去了 Google,因为很多研究员一进去 Google,他会觉得 Google 给的。Scope不够,嗯,他所以他会反而想跳去像XAI或者Anthropic这样的更小一点的组织。你这个反行动好像也是反的,对,我觉得其实取决于你自己想要的是什么。嗯,如果你很想要的是我有一个很明确的,像你说的很明确的scope,然后这个事儿和我的最后产品的模型息息相关,我一定要把我其中的一个想法。
送到这个模型里去,嗯,那可能Google是一个很差的地方,嗯,因为毕竟有那么多的研究员,有那么多已经成熟的组织做这件事情是很很有很有很有很复杂的这个过程。但是我觉得Gemini很,如果你想要的是你有研究的自由,有探索的自由,然后想去能从更广泛的人类学习,我觉得这个世界上可能找不到第二个比Gemini更强的地方。
所以,所以就是我觉得本质上还是取决你要自己想要什么,嗯啊。但是我觉得很多人离职,不管从哪儿离职,换到另外一家之后,可能会觉得不开心的主要原因,是因为没想明白自己想要什么。比如说,你要是到了Google,你可能开始,如果说你刚开始想的是我有要有研究自由,然后学更多的动机是学习,然后你去了之后,我发现还是想要有产品impact,那你可能就会很难受。
哎,你不追求 impact 吗?你你在你也说这个现在这个 AI 是一个非常大的系统,然后是一个很大量的人协作的一个东西。你在里面追求什么?我觉得分阶段,就是我觉得在 Anthropic 经历了太多这个。和产品息息相关的事儿之后,我可能也想给自己换个脑子,去学习一些不一样的东西。但是你说有没有哪一天,我可能又换回这个脑子,又想去产生一些产品的影响,也是有可能的。
产品影响力怎么量化?这个内部都很清晰,是吗?不好量化,嗯,就是我觉得,因为发论文的时候,他还是有一座呃,这种作者主导作者。现在现在呢?嗯,其实没有办法量化,嗯啊,实际情况就是没有办法量化。这也是为什么我觉得在这个时代,其实谈每一个个人个体的影响是一个很很虚无缥缈的事情。我觉得本质上还是这个组织做了这样这样一件事儿,或者这个世界需要这样,所以产生产品impact是个主观感受。
呃,在模型侧主要是这样,在模型侧主要这样对。然后呃,当然实际上你可以,我觉得可以细节谈的是说你。自己做过哪些事情,具体的技术的贡献,然后他在技术上产生了什么效果,这个是可以客观的去谈论的。但是比较主观的事儿是,你说这个效果在最后的产品里占了多大的比重,这个没有人能说清楚。哦,对,哎,在三点七上你能描述一下吗?
我觉得什么样的技术性的工作对模型是产生影响?主主要还是跟 agent coding 的环境有关的。工作,然后有也有一些算法上,算法上主要是怎么让这个训练变得更更呃就更稳定。说实话,就是呃,但是我觉得算法上肯定是有一些提升,但是也没有达到特别理想的效果。说实话啊,比比前比之前的算法肯定是要好的。嗯,对,但是那个我觉得也不是我个人的贡献,嗯,我觉得也是大家集体的贡献。
啊,对我每次问你,你都会说这是集体的贡献,嗯,不是一个个人英雄主义的时代。对我觉得个人英雄主义时代,对于蓝鬼这种猫狗来说,可能过去了。什么时候是啊?就是在Transformer那个时刻,对,就是在那个技术还没到Scale Up那个点之前,那找到了那个技术的人可能是一个英雄,或者找到那个技术的一个小团队可能是个英雄。
嗯,找到那个技术之后,可能很长一段时间从模型测来说,都是我觉得更多的是集体主义。嗯,就是这个集体能不能一起工作,能不能为了一个目标。一起花自己的时间,花自己的精力,这个是最最重要的事儿,而不是每一个个人提供了什么样的东西。说集体主义的原因,是因为其实能力是来自于A
I是吗?我我说集体主义的原因,是因为我觉得A I这个方向本质上是简单,就是没有哪我觉得没有哪个除除了可能跳变那一下,嗯,那个idea可能是得有一些很深刻的洞见,嗯,在之后的那个过程中,很多想法其实是非常。
trivial就是非常愚愚蠢的,就是谁都能想,谁都能干啊,只是你运气好撞到这个机会就干了而已啊。对,包括你在描述Anthropic做coding,好像它也是某种随机性,但是你要抓住它。对对,嗯。但是就是我觉得做coding可能还比做模型测的这些技术上的东西可能还更稍微有点公司英雄主义,就是说你能不能足够快的。
赌这件事儿,嗯,那确实还是一个消费很强。那如果今天没有Anthropic做,可能别的公司也做了。我觉得是,就是是一个必然的事儿。所以它都是AI在涌现能力。对,我觉得就是看你能不能抓住那个能力,不管是公司还是个体。对对,我觉得就是在在这个可用的语言模型、大尺度语言模型出现之前。那个时候,很多事情是一个非必然,就是有没有一个人能够发明一个东西,一个语言模型能够大尺度做训练,嗯,然后以及GPT这个范式能不能被发现出来,那是有很多不确定性的。
嗯,但是,你说,比如那那个时候,你说如果没有Google Brain,那可能Transformer就不会被发现,可能要过很多很多年才会另外一个有钱又有人的组织发现。嗯,那可能就是一个很大的影响。但是进入那个阶段之后,尤其到现在已经反反过来,就是你任何一个组织想要停止AI进展,嗯,是做不到的。因为Anthropic有,就是Anthropic很担心AI安全。
那Anthropic有没有这个能力阻止AI发展?它没有。你阻止发,你停止发展,别人会发展,你的话语权还会变小。对,其实现在是,其实更多是这种这这样一种状态,是这个世界在推着我们前进,而不是我们在推着这个世界前进。哦,感觉未来我们会更加难以阻止耶。我觉得已经阻阻止不了了,就是我觉得。试图去阻止AI里的一件事儿发生,可能本身就不是一种正确的想法。
嗯,这也是就是刚才聊到,因为刚才聊到说Anthropic嘛,就是说Anthropic其中一个很重要的动因是所谓AI安全。我觉得他。在AI安全的事儿这样事儿,这是他创立的时候抖音对,现在跟他有什么关系?现在的关系比较复杂,就是说。一个一个一个自然的问题是,大家可能会问:一个做AI安全的公司为什么现在开始训前沿模型了?
嗯,Andre的呃的解释是说,我首先得拥有一个最前沿的模型,我才有话语权来推进我的AI安全。嗯,所以说他其实一直以来的想法是说,我要做这个世界上最好的模型,你大家不得不听我的来推进我的安全政策。但其实。从我个人角度来说,我觉得这个想法是非常幼稚的。就这个事儿,现在看来它是不会发现、不会发生的,更有可能发生就是大家都有很好的前沿模型。
而你没有办法阻止这个事任何事儿发生,对?你觉得可能对于对于这个事儿来说,现在更多关注、更多该想的事儿是,如果你真的想要避免A来AI带来一些危机,什么才是一个更自动化的事儿?嗯,对。举举举一个自动化的例子,就是比如说核武器,就是那核武器也是一个可以大家觉得哎,可能有毁灭世界力量的事儿。但核武器最后最后最终受到控制的方法就是 multi-party party control。
说这个世界上,大家有很很多个有核武器的国家,他们互相都有毁灭对方的能力,所以通过这样一种制衡才稳定住。我觉得,你要阻止AI干一些不好的事儿,可能最终是需要一种。类似的机制来实现的,而不是希望寄希望说一家公司制定一个法律来干一件事儿。嗯,对,而且他自己制定,他也只能管得了自己的。对,嗯,对。你刚刚也提到啊,Anthropic有个可解释性团队是吗?
这个它的可解释性到达哪一步了?呃,在一些比较简单然后比较稀松的的呃的神经网络里面,他们能够呃做一些有趣的研究,比如说哎,看看某一个呃。输出了或者输入的的文字或者或者图片,它的它内在的表示是长成什么样的?然后你可能把那个表示什么反一下之后,它可能输出一个什么样的东西?嗯,做一些这样的研究,他们。你刚才还提到一个观点,就是AI本质是简单的。
你这个能描述一下这句话?这是一个结论。对,我觉得这是这这甚至不是一个结论,就是这是我的一个statement,是我的一个陈述。嗯,它可对可错。哦,然后我对这个,这是你的观点。对,我对这个我对这个陈述的的解释是,它我觉得它本质上简单的点在于它能做实验。就是它和比如说本质是难的东西,比如说物理,呃,它的区别在于那个东西你没有那个能标下的实验数据,你就是理解不了那个能标下的理论,嗯,但是AI不被这个所棒的,目前。
你理解不了没关系,我也可以往前发展。而且就是我现在事实就是能够做任任何我能想到的实验,只是可能说我需要一些时间去把这个计算量提上来,或者把这个基础设施准备好,但是没有什么本质上的困难。对,所以我一直说,就是就是觉得A I就是没有给人感觉它它碰壁的原因,就是首先很多东西你都能试,其次现在不是说大家已经想空了脑袋,没有什么想法可以试了,更多的情况下是有太多的想法得一个个试,花时间,嗯,对。
感觉人好渺小啊!啊,在这个事业面前是的,所以说我觉得很快可能AI就会开始自己做实验了,然后就开始多快?四个月内?我觉得未来的六到十二个月,AI就会自己做实验。我觉得其实当然就是这话呃不太良好定义,对不起,我说了一个很很模糊的话,就是嗯。A I自己提高自己或者自己来加快自己的发展过程这件事儿,其实已经在发生了,对吧?
像我们刚才最最早的时候聊过,就是它已经开始是帮我们能够去实现一些一些我们想要的东西,然后很加快我们实验速度。但是我觉得未来六到十十二呃,sorry,它它目前还做不到的事情是什么?是说它能不能呃从头到尾的。把一件AI研究的事儿做完,就比如说,他不仅能写这个code,他还能跑这个实验,跑这个实验还能看到这个结果,看到这个结果还能分析这个结果,分析这个结果知道他哪儿做的不对,嗯,然后然后提出新的假设,设计新的。
代码,跑新的实验,这个这条链条目前还没有完整,但我觉得这条链条可能是下一步会慢慢变得完整的事儿。嗯,对。基于你的各种原因,在你离开决定离开Anthropic那一刻,嗯,你对这家公司未来的预期是什么呀?呃,我觉得我离开的时候,我对这公司其实挺悲观的。哦,但后来显然是我过度悲观了。为什么悲观?我当我当时悲观的原因是因为,呃,我觉得我我当时离开Anthropic的时候,Anthropic其实,呃,主要的收入来源都是API,就是卖卖卖token,然后。
这个是个差生意,是差生意,因为这个生意只有对一个公司是好生意,就是Google。嗯,因为这个这个生意最后就是得打价格战。啊,就是就一般处理就是要打价格战,打价格战你没有完整的这个链条是没有什么太多优势。啊,但是后来Anthropic显然在产品方面就是我觉得确实有是有很多巧思,做了很多好的事儿。不管现在是Claude也变得越来越好用了,然后Claude
Work啊,然后和各种各样的这种和工作和效率相关的事情都慢慢汇聚起来了。
所以感觉他现在反而变得比我当时觉得,你要问我 OpenAI 和 Anthropic 哪会先先死,但是就不会真的死,就是哪个会先变得没那么重要。我当时会觉得,哎,可能 Anthropic 会先变得没那么重要,但是后来首先 OpenAI 被 Google 敲了一拳,然后 Anthropic 自己又上道了,所以现在看来好像 Anthropic 更占优势一些。
你后悔过没有?嗯,不太后悔。我觉得对我个人来说。我个人的动机还是想要去换一个地方提高自己。嗯,我觉得对于这件,对于想做的这件事儿来说,这个选择没有什么错误。对,你也提到On Topic的产品有很多巧思,特别是今年就是像Co Work这些,对,这个来自于哪里啊?我觉得我没看到Co Work的发展过程,所以我不知道。
然后Cloud Code,我觉得。人,产品还可能还真的是有一些个人英雄主义的机会哦。啊,是是研究员还是产品经理?Boris,Boris,就是呃那个,我觉得Claude几乎至少这个事的开端吧,是他自己想要做这个事儿,提高自己或者同事的工作效率。哦,最后变成了一个对所有人都很重要的事。Waris是一个什么样的人?
我跟他没有太多的个人接触,我更多的只是看到他的工作在公司的时候。他是个researcher是吧?对,但他主要是在产品那边哦。对,所以On Dobby是专门产品部门的。啊,以前没有分的那么开,后来有单独的。嗯,对了啊,Anthropic感觉是很懂AI的产品啊。对,我觉得,我觉得。这是为什么?刚才刚开始说的时候,觉得这个产品经理可能还是目前挺难被AI取代的。
嗯嗯。好的产品经历,而且他好像不是上一代那种产品经历,他不是那种 feature 的摆放啊什么的,他好像是知道怎么跟 AI
协作的某种产品经历。对我觉得,呃,上一代产品经历可能他也不全是,就上代也也有些就是交互交互方式级别的变化,但每一次交互方式级别方变化其实就带来一很大的产品,比如说就是。可能这个抖音就是一个交互方式级别改变的产品,嗯,那它一下就带来了很大的,打开了新的方向,呃,然后我觉得可能Claude也是一个这样级别的产品。
对,嗯,呃,code和co work都是boris,我不知道co work是谁做的,OK,我已经离开了。I see,那说说你到了Google Deep Mind以后的工作吧,工作重心发生变化没有?呃,还是发生了一些变化的。然后,呃,我我反正我自己主要在站外就是做ML coding。然后和一些比较 long horizon 的事儿,就是这两个事儿,其实刚才都都大概提了一嘴。
就是 ML coding,其实它主要就是想要实现刚才说的这个完整的 AI 自己研究自己的这个历程。那当然,这个过程当中,呃,有很多实际的问题,有很多实际的细节要去解决。就是我觉得大的方向上来说,大家其实是比较有共识,是该怎么去做。但是还是回到细节,就是细节上有很多要处理,比如说怎么样去选取合适的data,怎么样去选选取合适的回馈信号,以及它又带来新的基础设施的挑战。
然后,呃,现在就是要把这些事情要慢慢磨、慢慢磨清楚。然后,呃,像Long Horizon就是刚才说的另外一件事,就是说想要能够实现说这个模型能够,呃,在还是那句口号:Train with finite, but use as infinite。就是你,我觉得想要把这个训练的长度一直一直一直变长,可能。
并不是单个这个训练的这个这个这个语段的长度一直变长,可能并不是一个很现实的方案。但是很现实的事儿是,你如何在有限的context下去做更长的工呃工作?其实你其实是想人,其实就是这个样子。人的 context 其实很短很短,你现在问我昨天晚上吃什么,我是一点也想不起来了。嗯,啊,你可难得想起来,我是一点也想不起来了,因因为因为什么?
因为它对我现在这个场景来说不关键,对吧?就是我现在知道昨天晚上吃什么又能怎么样?所以我选择把它忘掉。所以人本质上 context 是很短,但他能够选择性的遗忘。然后让他选择性的对去retrieve,就是去把这些重要的跟当前场景相关的信息再抓回来。嗯,对。所以说,我觉得那个可能也是一个对我来说的,呃。
很有趣的这种方向,这两件事儿其实是有点儿、有点儿相关,有点儿互补的。为什么?就说这两个事儿其实,呃,都在模型使用工具和和环境以及呃不同的模型、不同的人交互的这个大的范畴内。在这个范畴内,大家最过去完成的那个节点。就是agent coding,嗯,就是又是工具又和环境,环境就是这个虚拟机,呃,虚或者你自己的电脑这个做交互。
然后这个事儿其实它横向就会长出不同的使用场景。那作为AI
research,其实就是横向这个场景里的另外一个场景。啊,这个场景,它其实不仅横向上是一个新场景,它在纵向上也让这个这个事情的尺度变得更长。嗯,因为你可能完成一个一个代码的补全啊之类,是一个很很快的事儿,但你做一个完整的AI研究或者做一个这种计算机科学的研究,那是一个很很长的过程,对,所以说它其实就是像一个T
T字形一样,就是横向也有延展,然后纵向也有延展,嗯,对。
Long
Horizon是不是还是个科学问题啊?嗯,有科学问题,也有工程问题。我觉得它科学问题更多的是,呃,怎么把不同的方案尝试一下,以和以更以更科学的方式尝试之后,来呃找到一条最后我们要走的走的这个方案。这个有哪些方式啊?呃。我可能不谈太太说说太细的,但是粗的来说,从有一些方案是从呃pretrain的角度,从预训练角度来说,有一些方案就是类似于这种稀疏的attention,sparse
attention。
那这个,比如说DeepSeek也有一些工作,然后呃学界也有很多工作,然后从后训练的角度也有后训练的方案,比如说像呃外界,比如说你每天用什么Cursor啊这些,他们就是很强的context management管理这个context能力,比如说它可以让这个模型去选择,哎我把这个中间某一段我觉得不重要就扔掉了,然后那段重要就存在某个文件里,到时候再取回来。
这两种大的来说。这两种方案,呃,都有人在研究。当然,它具体的实施细节是不止我刚刚说的这些例子。刚刚说这些例子就是比较公开的例子。呃,是具体实施细节,当然,这么个公司还有自己的小秘密。当然,我觉得其实也就是一最终也都会都会大家都会互相知道啊。嗯。然后,呃,我个人是比较。花很多更更多更多的时间在后训练的这部分嗯的方案上,因为呃,当然首先因为我自己呃。
嗯,本来就没有花正式的工作时间在在预训练上。预训练对我来说更多是一个就是兴趣,我想学习的事。哦,但是我自己其实没有在那上面做太多的工作。然后,呃,另一方面是我觉得。后续的这个方案其实更符合我自己对这个事儿的理解。就我对这个事儿理解就是刚才一直在说的这件事,就是说能不能用短的context去训练,但是它能做长context的事儿。
预训练那些方案其实本质上还是需要你有长 context 训练,它需要数据里有。对,嗯,对对,所以说,所以它不太符合我对这个问题的哲学。哦,对,所以你现在看可以吗?用短的去训练长的,我觉得可可以是一定可以,但是我们不清楚哪个方案最有效。哦,Gemini 的长文本做的很好,好像为什么呀?有些技巧,有一些让我很惊讶的技巧。
哦,啊,这是预训练的事儿吧?长文本做的很好,一定是两边都有的。但是我只是说,对我来说,预训练那边那个技巧还是挺让我惊讶的。对,OpenAI 做的没有 Gemini 好,在长文本上啊,但是但是也有也有说法也不一样,就是有些人也说 Gemini 三这一代长文本反而变差了一点啊之类的,嗯,对。Again,你加入Gemini的时候,感觉大家对Gemini的预期不高?
没,我对Gemini当时预期已经挺高的了。你那是几几年几月?我是二,就是去年的九月底,那个是咱们俩放咱们俩三之前。你对他的预期高啊?其他人呢?我觉得业内的人当时对 Gemini 都还是印象不错的吧,就是我觉得,呃,之前一直觉得 Google 很有危机,在 OpenAI 的冲击之下,我觉得大家的感知可能在 Gemini 2.5 这一代,嗯,产生了变化。
哦,因为 2.5 是一个明显你能看出来 Google 开上道了,啊,就当然之前就是 Gemini 的呃 1.5。呃,也有一些就是呃小的事情,某一个具体的方面做已经算很强了,就是很明显他已经不是很落后,但是二点五是真的真的一代,就是我觉得开始有人开始用的模型。反正我自己其实也用过二点五,用的挺多的。你是看到二点五去的Gemini?
呃,我去Gemini跟这没关系哦,主要还是我知道Gemini它大概是一个什么样的氛围,就是有很多人在做不一样的研究啊。然后我也知道一些人其实呃做的研究很有意思。然后很很多Gemini工程师,我觉得技术是非常非常非常强的。我觉得我我是从从他们身上学到了非常非常多,嗯,对,然后呃对我来说那是原因,但是我觉得从大家的感知上来说,可能我觉得业内的人在看到Gemma二点五之后,就可能就已经意识到我说Gemma是要赶上来了。
对,那就你来说,是不是你加入了Gemini的一个信号?是吧?不是我加入他的一个信号。那你为什么加入Gemini?那就刚刚说的,就是主要是不是因为我当时想做事儿,其实我想要去有,但你知道Gemini人强对吧?对对,那个是因为就是他们来来找我的时候,肯定也会让我去去和他们的人去聊嘛。嗯嗯。那从聊的过程中,其实是能够其实能看出来状态怎么样的。
哦,是他们来找你。呃,对,但是我觉得最后就变成双向奔赴了。所以,当时 OpenAI 不是选择吗?如果你想从 Anthropic 立志,对, OpenAI 也是当时的选项。OpenAI 当时应该还是比 Gemini 从性能上要强吧,在那个时候。呃,但是呃,不过那个时候是不是各种那个内部的内斗内斗开始出现了?
我觉得。呃,对,就是 OpenAI 确实也是我当时一个选项,然后当然还包括像 XAI 这类的,然后我觉得 OpenAI 最后没有去的一个主要原因还是我对它的呃文化。至少当时来看,我对他的文化是有比较大的担心的。嗯,就是我觉得,呃,用用粗话来说,就是感觉他是做事的,他是做事儿的人,没有宅门奶多。嗯,也更没有俺消费也多。
对,嗯,这个我很care。嗯,对,所以一种文化和人的亲近感让你去了宅门的,对。在,然后你又赶上了到三的那个转折点,是吗?Gemini三应该对于他来说是一个很大的转折的一个时期,是吗?呃,我觉得从实际的效果来说,我觉得是两件事儿让Gemini。产生了一个大的转折,就变成了一个市场里举足轻轻重的的player的环玩家是纳罗伯纳和斩满三两件事连着,嗯,就是你我觉得如果只有斩满三,可能也不会有现在这么好的效果,因为当你的胜战率连百分之十都不到的时候,你这个模型好一点坏一点,其实。
等它传播出去就是太慢了,但是《纳罗普纳》做到了一件事:首先市场上这件事很爆,很爆款,然后大量的人去下载了咱们的app。然后,詹姆三又紧接着放,把这个部分留下来了。嗯,所以现在他变成了一个举足轻重的玩家。觉得可能就是没有詹姆打这么一拳,那其实OpenAI的位置很爽,就他胜战率已经高到你其实模型上干点啥,对他来说可能影响都没那么大。
嗯啊,甚至说实话,我觉得就是真正普通人用模型的时候,对于模型的这个这个能力的感知,其实其实很弱很弱的。绝大多数人甚至都不用O系列模型,绝大多数人都都用普通的展那个GPT的。嗯,对,所以说我觉得对于展板来说,这个一个拉到广大把量打起来,然后展板三又把人留回来,是一个很很关键的事儿。它有事实上抢走多少差GPT的用户?
呃,我不知道现在具体的比例,但是我的感觉是展板来可能市占会在百分之二十左右吧。啊哦!但是我确实没有仔细去检查过现在的数据。嗯,这是从呃事后归因来看,这两个因素共同促成了Gemini今天对于OpenAI的冲击。那你从内部视角,肯定能更前置的知道为什么就是发生了什么,Google。会有这样的变化,对我觉得,我觉得首先就是Google的这个技术储备一直是够的,嗯,人够,对人一直是一直是够的。
然后,呃,组织上来说,就是后来变得越来越清晰了。就是就是有一个更更好的框架来让大家干一起干这个事儿了,所以说可能会慢慢慢慢有些进展。对,然后呃,我觉得从某种意义上来说,我作为一个局外人,嗯,从某种意义上来说,我觉得Open是救了Google一一命。哦啊,就是。因为大家以前一直都担心说这个聊天机器人会不会完全把搜索取代掉?
对,如果这个事儿真的发生了,那Google其实很难受,是吧?但是好在呢,就是OpenAI先把这事做,然后让Google意识到了这个事儿很重要,但是它又没有把这个事儿做到底,又没有把这个事儿做到极致,又完全没有完全把Search搜索干掉,可能就吃掉了一些份额,结果让Google自己把聊天机器人也追上来了,那现在难受就是它了。
你要万一,比如说有一个公司,就假如说虚虚虚,在一个虚构世界,有一个公司不仅做了 Chatbot,而且还一路高歌猛进,越做越好,真的把你一把就把你搜搜索吃掉了,完全没有给你反击的机会,嗯,那就很难受了。那 Chatbot 没有吃掉搜索,是因为 Open 干的不好,还是为什么呢?还是因为这个形态干干干不掉搜索?
我觉得,呃,两方面其实都有。就是说,首先,嗯,目前的ChatGPT这种交互方式其实不会完全失掉搜索,嗯,因为。它比搜索强,就像刚刚呃最早时候说过,它比搜索强的一点是说它有很强的交互性,你可以追问,然后你可以把它可以帮你把一些很复杂的信息去浓缩,这是它很强的地方。所以这部分使用使用场景它确实会把搜索的人抢掉。
但是搜索里还有一些非常愚蠢场景,就是你有一个特别简单的事儿。你根本不想浪费这个时间在聊天机器人上,比如说我就是,我就搜买大米。我就一搜买就完了,就我非非我还非得去问差G P T,我还得非得问哪个好,然后他还在那儿转圈,这这转半天,然后给你一个链接,你在一点,再跑到网页再去买,对吧?没有那个必要,嗯,所以说从事实的使用上来说,它目前的形态并不足以把搜索完全吃掉,嗯,对。
然后呃,当然从另一个角度上来说,它可能在聊天机器人这个事情上也没有做到登峰造极。就他还真的让别人让Google把它给赶上了,那就是他自己。现在还不算赶上吧,在产品上,我觉得在产品上不算赶上,但是在模型上已经是赶上了,但是。要投资人投OpenAI,他们会说,他们下注的时候是认清楚OpenAI其实是一个产品公司的时候,它的护城河其实是产品和品牌。
嗯,那从今天来看的话,似乎Google还没有在这件事情上能够。赶呃赶嗯,不能是超越OpenAI吧,赶上OpenAI吧。对,就是我觉得,呃,这其实是,反正这都是我作为一个局外人观察者的视角来说,就是你今天是点评家,就观察者的角度来说,我觉得Google传统上在产品就是有点慢。是一直都比较慢啊啊!然后,所以你说O P I会不会在产品上有优势?
我觉得是有可能的。对,然后你说,谷歌特别擅长的一件事儿是什么?是找到一个。最为简单的产品形态,大家都长一个样,他就疯狂给你卷技术,你就卷不过他。嗯,哦,对,所以那个事儿是不破山长的,因为搜索引擎就是这样的一个事儿,搜索就是一个典型的,就是大家都是一个框一个键,但他就是比你搜的快,搜的比你准,你一点拿他一点办法也没有。
嗯,所以这就为什么就是。我感觉就是一直以来,Google都处于一个做的很好,但华尔街都不太认可的状态。大家总觉得这个公司壁垒在到底在哪儿?也没有什么产生产品的小私,也没有什么留存的机制,但是他他就活到了现在。哎,所以他技术好的原因是啥?我觉得还是这人好吗?我觉得还是氛围吧,就是说是一个是一个特别特别重视,以前就是特别重视工程师,后来就是特别特别重视研究的这样一个氛围。
所以它很适合那种通过技术能力溢出的产品能力,嗯,的产品。对,如果从这个角度来看的话,那你觉得OpenAI的位置是稳固的吗?现在,我觉得现在谁的位置都不稳固。嗯,对,我觉得就是AI的形态还有还有很长的路要走。嗯,没有到什么终局之战这个这个这个地方的感觉呢。对,感觉国内已经有点这意思了。对,我不理解,就是为什么不理解?
我很费解,就是那国内觉得我们在争夺一个 super app, super app 就是此消彼长的呀。我觉得 condition on 聊天机器人这个事儿就是 super app,嗯,那可能可以争夺一下,但是问题是。你这个形态是不是 Super App 那个形态?会被别人就是哪天出了一个完全不一样的形态,然后你你的功能变成了那个东西一个子集,这也是很有可能的,是吗?
我觉得没有什么,我觉得我看不出什么不可能。为啥 ChatGPT 不是那个终极形态?但是这么多年我们也就看到这个了。对,就是都是一个对话框。我觉得在这个事儿上,我确实没有什么没有什么理性或者量化的标准来来说明,更多的是你觉得这个事儿很蠢,就是这个模型明明有那么多的能力,但居然用的方法是插的bot,就是不太make sense了。
所以需要一个产品经理来解放一下模型的能力。人类到现在只通过插爆去跟 AI 沟通,让你觉得很蠢是吧?很蠢,就是那应该用什么去跟 AI 沟通?没想明白,要想明白我就干了。哎,你没有告诉我 Google 内部到底发生了什么变化,然后有了外界看到的它模型能力的突飞猛进。对,就是刚才说,就一个,我觉得组上更清楚了。
然后,呃,组上一旦清楚的话,组织变化了吗?呃,对,尤其像预训练现在变得非常非常清楚,就是谁负责什么事情,然后每一个点、每一个这个节点上谁是负责人,这些事情都很清楚。以前是混沌的吗?以前最早的时候很乱,我我没有最早时候在那待过,但是就是同事根据同事或者我以前认识的人的描述,以前还是更混乱一些的。嗯,对。
对,然后现在就是至少运行链也是变得非常非常清楚,然后加上没呃这个这个Google一直有的这种就是比较比较强的技术背景,然后它做事也比较系统,所以觉得运行链在Google是一个非常非常可控的事儿,可预测的事儿。你你能够,你能知道下一代不会差,然后可能你还会知道它会有多好。对,通过Anthropic这种自上而下的管理,它也。
嗯,不错。那Google是这种自下而上的,它依然是自下而上的,是吗?它比以前肯定要更自上而下了。哦,比起最早的时候,但是它比嗯,乔比来说还是更自下而上了一些。就好像不同的文化都可以,是吗?对,就是对模型的训练,就是就是我觉得大公司有大公司的打法,大厂有大厂的打法。所以大公司是你刚刚也说它是一个完全不一样的趋势,它是一个不一样的呃方法。
Google是什么方法?现在我觉得Google更多的是说是像这种比较确定性的事儿,比如说像预训练已经是一个比较确定性的范式了,那可能Google就会更想把它做成一个工程项目。然后工程,Google的工程管理能力又很强,所以说它就能慢慢把它做好。嗯,什么叫工程项目?工程项目的意思就是你其实是,呃,其实是非常非常非常top
down的一个组织,然后很清楚我们下一阶段要做的是什么事情,然后去去做这个事情中间需要有哪几个节点被处理掉。
然后,哪怕是做研究,也是说,就是有一个很清晰的框架,告诉你怎么去去验证你的结果是好是坏,evaluate你的结果是好是坏。嗯,对,所以这个是是Google很强的事情。在过去的任何的一个大的工程项目上,所以说,所以说预训练其实我觉得就是现在进入到咕噜咕的舒舒舒适区里了,嗯啊,然后后后训练当然就是有很更多的不确定性,那可能后训练现在来说还是更bottom up一点,就大家可以更广广泛的试,对。
你说 pretraining 也是一种 RL,为什么这么说?就就是我觉得就是你很难从纯技术的角度说 pretraining 就预训练和或者说这个监督学习 SFT 和 RL 的本质区别是什么?因为预训练和 SFT,当然预训练和 SFT 本质也没啥区别,就是你无非就是把你拿到的那些数据当成你的
ground truth,嗯,然后你就把把那个当成你的 expert,把那个当成你的专家输出,然后你朝那个专家输出的的分布上靠。
强化学习可能就是更宽广的一个级别,一个级,它就是说我。首先就是这个,这个本来输出的东西也不是一个给定的专家,是我自己产生的一些东西。然后我里面又有好的结果,也有不好的结果。然后好的结果往上靠,不好的结果要远离它之类的这样的东西。所以说,从某种意义上来说,pretraining和SFT是强化学习的一个子集。
但是呢,这两件事确实在现在这个时代是有区别的。它我觉得对我来说,它的最大区别在数据上。就是pretraining的数据,更多的还是要distribution够好,就是分布足够的广,或者足够符合你想要覆盖住的那些范围。但是数据的质量并不需要非常非常高。但是后训练就反过来,就是说它分布上来说可能要远窄,但是它在有的那些数据质量上会要求非常非常高。
嗯,对,所以我觉得目前来说,对我来说,它俩最本质区别还是在数据分布上的区别,而不是在呃算法或者训练范式上的区别。那像不同的lab,它是怎么分这个组的呀?预训练和后训练有不同吗?还是都一样?呃,Anthropic和Google比较类似,两个都是就是预训练是预训练一个组,然后后训练是后训练一个组,嗯。OpenAI可能比较比较混沌哦,最早的时候,呃,我一开始的时候,它是分三个组。
就是他,他有预训练,然后他还有强化学习,就是strawberry草莓组,然后他还有一个pos训练组,然后我的我我没在那干过,但我的理解是他的pos训练其实是就不是他的他的那个rl组就strawberry和他的pos训练,其实这是别的公司的pos训练和产品哦,然后他可能是以一种不一样的方式给它切了,他把后训练当产品做。
就是他的一部分后训练,其实是和产品是在做产品哦。他是不是名字没改过来呢?也不完全是因为呃,绝大多数公司的产品其实不太训模型了,它更多的是把这个需要的需要的呃。这个特指模型特指告诉训练模型的团队,嗯,但是他好像就是他的post训练,既从某种意义上说自己又是产品,但自己又能训模型。这是不是他对于产品的理解?
就是需要有可能训练模型的人来做产品?对对对,有可能,有可能是件好事。对,但是他后来又也这个组织变化很多次,就我现在也不知道他们组织成啥样了。哦,你们最近发了几个模型?然后我看到你也都参与其中,呃,Gemini三、Deep Think、Gemini三点一Pro。呃,那我觉得可能。只能说是有幸参与,哦,对,感觉就是感觉都是集体工作。
哎,你为什么现在都变成了明星人物,然后每次都被拎出来单独写一下?我不明白,我觉得其实不太好。每次看到之后,我都感觉明明天该怎么去办公室见同事呢?会有异样吗?在办公室就还好,我觉得同事可能。可能还是人比较好,就是他们可能不是特别看重这些事儿啊。但但说实话,我是觉得我参与过的任何一个项目,不管是在Google还是在,没有我都会发生。
都一样会发生,效果也不不不会变差。嗯啊,我我这是我觉得大家现在就是每个人都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。嗯,浪是AI吗?对,就是AI这个这个事情本身是是这个浪,它会往前走,不管你冲不冲这个浪,这个浪都会拍到岸上。嗯。只是说有人可能就冲了这个浪,有人就可能晚了一点,没赶上那个浪尖儿。
嗯,对。好,你有幸的参与了这两个工作的什么?呃,主要可能就是一些有一些那个就是算法上设计的小的细节,然后又会一块儿讨论啊,然后呃有一些呃有一些数据上的东西,但是数据上的东西我觉得可能对之后的工作会影响更大一些。嗯,对。这几个模型有范式变化吗?嗯,我觉得没有哪个,没有哪个变化大到了从不知道怎么做单程度的。
强化学习到大尺度强化学习那个级别的变化,没有哪个变化大到这个地步,肯定都是会有一些小小的变化。这几个小小的变化,你们讲一讲,就这几个新的模型,不能讲哦。好,很不幸,对不起。最近我感觉模型已经发麻了,国内一堆模型,国外也是很多模型,Open I你们。嗯,国内GLM自己DeepSeek一直期待还没发,Kimmy,你能不能给大家划划重点啊?
我觉得呃。从某种意义上来说,都没那么值得关注。哎,大家在争什么?现在感觉群魔乱斗。我觉得有一些争的事情呢,其实现在看来已经现在在这个时代已经没那么重要了,就是因为过去带来的惯性是大家会争各个 benchmark
的第一名,嗯,证明自己模型的基本能力很强,嗯,这个事情呢,其实到现在已经到了,就是公众关注那些 benchmark 都有点打打打打满了,嗯,其实你想最早大家关注这个 three bench。
随便是大家都打了八十多,幸亏没有人超过八十三,因为最近OpenAI刚放一个post说超过八十三那个有的的题目都是不良好定义的,幸亏没人超过,谁超过谁尴尬反正啊,然后。大家以前 reasoning 就是打完 Amy 打 IMO 打完 IMO 打什么想不说哎 RKGI 啊这些半芝麻,然后 RKGI,嗯,在战战马三之前大家最高的都忘那时候可能十几这样子吧,然后大家觉得哇登天难,然后。
张大三给变成三十多了,然后Cloud四点四点五还是四点六变成四点六应该是变成六十多了,然后咱们来的算DeepSeek一下打到八十多,所以这个也打满,所以现在就是。感觉,光靠打这种公众认知的模型能力,其实已经没啥太大的意思了。嗯,好,然后呃。所以从这个角度上说,我就就是本质上就是没有什么太多的重点,嗯啊,虽然大家发的很快,嗯,发的快也说明其实这道题对大家所有人来说特别简单了,大家都知道know
how了,没有什么秘密了,已经。
对对,就是还是说还是这个,就还是那个冲浪理论嘛,就还是这个浪在往前走,对,嗯,那大家下一个可能在寻找的目标是什么呀?那下一个范式级的变化是什么?还会有吗?呃,我觉得我我刚才自己聊的那两个事儿是我觉得M L Coding和Long Horizon对,然后这两个是我觉得,我觉得呃。是是,我觉得是一个可能没有到范式级变化,但是我觉得是呃,对于Google来说会很有价值的事情。
嗯,因为首先,M模型是因为Google首先自己是一个AI research大户。然后他自己又是AI researcher最全栈的,就是他不仅有这些训练模型这些这些部分,他还有涉及硬件的部分,从硬件接到模型的部分。这一整套东西如果能被被加速,会或者或者说被更好的管理,那可能对这个公司来说很有价值。嗯,Longeriden就不说了,就所有人都知道,就所有人都很都都都觉得很重要。
对,所以说我觉得那个可能是对我来说不能说是范式级别,绝对是不到范式级别,但是是一个我觉得是很有价值,需要去在未来几个月之内能够呃能够看到曙光的事。然后嗯。我觉得范式级可能就还是那些非更非确定性的东西,就是什么多模态生成,那个我觉得可能会有一个英雄吧,或者会有一个英雄集体吧。然后,嗯,对,像那种可能会有一些。
呃,还有聊比较多的 continual learning,嗯,世界模型呢?我觉得 continual learning 和这种 long horizon,刚刚说 long horizon 没有本质的区别,嗯,因为。呃,因为大家以前觉得这两事儿差别很大,是因为 continuation
learning 会改变模型的一些权重,然后你做这种,比如说像开放开开开源,大家做很多这种这种 context management,是不会改变变模型权重的。
但其实你想,这两事儿没有本质区别,因为 context 里那些词自己的 kv 不也是一种权重吗?所以说,你觉得这两个方案就是最后谁能谁能更有用,在长久来说更就更有用?我觉得是不清楚的。但是他们本质上都是为了做刚才Long Horizon这种这种类型的事情。嗯,然后呃,世界模型一万个人有一万个世界模型。
啥意思?就是定义不清晰。就是就是,首先我不知道什么叫做一个世界模型。嗯,其次就是每个人。在说他们做的世界模型的时候,可能也在说不一样的事儿。嗯,比如说咱们俩做的世界模型,可能就和比如说像小飞飞、李飞飞他们做的世界模型就不是一个事儿。嗯,对,呃,描述一下区别是?呃,我不是特别了解像外面像李飞飞啊他们这些 lab 做的事情到底是怎么样的,但是,呃,咱们俩的世界模型更多的是一种呃。
是一种end to end的这种级别的训练,他想要的结果是说,我因为比如视频生成是大家能够给定一个描述,然后生成一个视频,但他想要的,想要结果是我不仅能够生成一个视频,我是能生成一生成一个场景。什么叫一个场景?场景就是说我生生成了这个这个时刻的状态。然后我还可以再给他一个一个condition,一个条件。
这个条件是我在这个状态下做了一样什么样的什么动这样的动作。嗯,然后他下一个时刻状态会变成我上一个时刻状态和动作的函数。啊,然后它是按turn的去训练这样的能力的,对,所以说这个可能是一种方案。然后我我首先也不知道大家最后想要的到底是什么结果,然后我也不知道大家呃对自己世界模型的定义到底是什么,所以我觉得更多还是一种探索状态。
嗯,刚才我们一直没有聊到一个组织是XAI,嗯,我们刚才聊了Anthropic,聊了OpenAI,聊了DeepMind,呃,XAI呢?XAI我是聊不明白。作作为点评嘉宾说一下,我我我,他们怎么最近这么动荡?我觉得他们一直都挺动荡,那为什么最近这么动荡,我也不知道。嗯,嗯,然后,呃,我我其实我跟XI接触的没有那么多,然后,呃,我接触的一些人现在也走了,嗯,其实我也不知道他们发生了啥。
哎,对了。你刚才说Anthropic的时候,他你说技术的一号位能能被Make Dax是非常重要的。那在Google这样的一号位是谁呀?这个英雄是谁呀?我觉得英雄在可能在不同的阶段是不一样的人,嗯,但是英雄的背后都有一个人,就是
Sergey。啊,就是Google的那个co-founder,对对,就是我觉得最终很多很多大的决定可能不是由他来决定怎么做,但是最后拍那个板得他来拍,嗯,对,现在也是,嗯,Dimitis呢?
呃,我觉得可能更多的在一线出现的是口瑞。对,哦,就是是呃,Dimens CTO,然后他他现在也是那个Google的SVP,哦,对,Dimens在负责什么?呃,我觉得Dimens可能管了更多那种就是偏science的事情,就比如说那个药物的迭代,Isomorphic Lab啊那些事情,对对对。哦,对,Gemini他管的不多。
呃,至少从我的视角来说,我看到的更多的是Corey。OK,但是有可能就是那那公司那个管理层的事儿,其实有可能很多是我看不到的部分。嗯,那就我就不清楚了。你刚才也提到AI是整个是一个系统嘛,嗯,你对于怎么系统性的做AI有什么认知吗?现在经过了你这两年的工作,有几方面吧。一方面是从从整个系统来说,它需要一种比较科学的态度。
就是你要清楚的,像Skino,就是你要清楚的理解自己做了什么样的预设,嗯,然后我在做一个改变的时候,其实有哪些因素是和它相关联,哪些关因素是不相关联的,对。然后这是从组织情况下来说,从人的情况下来说,其实需要人很 reliable,就是需要很很负责任的人。其实每一个系统,就每一个评价框架,都是很容易被 hack 的。
所以你总可以做一些事儿,让你的指标看起来很好,很好看。但是一个可一个值得信赖或者是踏实的人,他其实是会。想自己做的这件事儿,如果效果好的话,是不是真的?比如说在大的时装上效果好,是不是我中间漏了哪些因素?对,所以说其实其实把事做系统听起来是一一句话,但真正做起来是很复杂的事,就是有很多细节,有很多阻力,会因为它其实违不违违背人性的。
哦,因为每个人个人的人性可能都是为了让我自己做的东西能够体现的更好,但是对于一个公司或者说一个组织来说,最有利的事儿是把整个公司的系统系统性做的非常非常扎实、非常严谨。这个能不能举一点例子啊?好像有点抽象。呃,对,它确实有点抽象啊。所以这也是你说没有那么多的个人英雄主义的。一个表现,对,就是人要变成一个更可信、可靠的一个,它是一个系统的组件。
我可以举一个一个可能也是比较鬼话的例子,就是就是呃,比如说做强化学习,你可能可以做一个算法出来,效果比别人好。但是,可能最更关键问题是,你要去问,比如说,在真正的大大的尺度下,我是不是能够保持稳定性是一一样好的?嗯,然后以及我比别人的东西效果好,是不是因为我用了不一样的data?以及我是不是用了更多的training的flop,是不是用了更多的sampling的flop?
然后我具体在真的这个生产的这个最后这个大的跑跑的这个production
run里面,到底哪个才是我的限制因素?然后我该看去哪个指标?这个些可能都是需要研究员自己对于这个系统怎么运作有一个好的理解,然后以及对公司负责任。才能才能做到,对,否则就是你很容易做到一件事儿,就是你可能比如说你在考虑training的时候是比别人好的,但你考虑training加sampling时候比别人差了,你总可以选择你只受training哦,但这就很很糟糕哦,对,所以这个就是既需要你个人负责任,又需要说组织所建立的这个体系里,能够能尽量的发现这些这些呃有益的或者不益的这种各种边界的。
事情,但是你作为个体的话,你不知道怎么样是对全局最好的呀。呃,其实是需要。我觉得,如果一个研究员做不到对全局去考虑的话,他就不是一个好的研究员,在现在这个时代。嗯,就是这个和我觉得这个和你就是在学术界做的research是很不一样的事儿,因为在学术界做research本质上是一个人吃饱全家不愁的状态,就是我为我的项目负责,嗯,对吧?
我为我的可重复性负责,但是在一个公司里,你其实更多的时候是我得为这个公司负责。对,这是两种完全不一样的心态。那你这种自觉性从哪里来的?不知道,我觉得我可能就是拉不下脸,拉不下脸是对,就是你对一个公司负责人是你和这个公司的契约的一部分。哦啊,其实我觉得没什么道理不这么做。哦,这么做是没有原因的。嗯,所以个人英雄主义会破坏这种整体性。
嗯,我觉得如果只是为了个人英雄主义而做事的话,很有可能是会破坏整体性的。当然,实际可能你能力很强,然后你真的成了一个英雄,那也是有可能。嗯,因为你也经历了两个组织了,你觉得什么样的组织更能够激发智能,在这个时代?呃,我觉得。其实这是一个很、很、很有争议的事儿。就说,呃,因为刚才也聊了,就是不同组织可能有些比较比较自上而下,有些比较自自下而上。
那一个自然问题说,比如说这两种组织哪个更能够激发创新?过去的观点就是自下而上是激发创新的必要条件,因为就是你得每个人有自由嘛,自由自由才能有创新。嗯,但是完全自下而上,你发现其实也不行,因为那就乱。那就是Google之前的样子是吗?呃,对,至少在我印象里,就是在我了了解到的印象里是这样,就是他就是乱,就是大家甚至都不知道我做这个事儿有什么用,那可能也也不好,所以就可能要需要有一个人或者有一个小的集体能够把这两件事稍微融合一些,嗯,对,对,这个为什么我觉得?
其实这个一个组织运行的好不好,呃,看起来是组织的问题,但其实归根结底是技术leader的问题。嗯,就是这个技术leader有没有特质能够把这个组织运行的很稳定,因为因为最好的那个状态往往都是最不稳定的一个状态,就很容易往。不好的那个方向,他做的,嗯,对,所以得有一个leader来控制这个事儿。那你觉得都是技术leader来做这个事情,而不是CEO来做这个事情?
呃,那当然,每个公司的CEO可能有不一样的职责,但是得有一个leader,我觉得至少得有一个leader,他能有两个特质,嗯,才能去做这个事儿。一个特质就是说,他自己有救火的能力,说不是说他光嘴上说要做什么要做什么要做什么,而是说有一件事儿真的遇到困难了,他能自己下场去带人把这个困难解决掉。嗯,当然绝大多数时候可能一个leader是不会有时间去做这个事儿,但他至少有这个能力。
因为第二个重要特质就是他得,他得能够能够理解别人,就哪怕一件事儿可能是他不做的事儿,但他能能够理解到为什么别人做那事儿重要,能够容得下别人,那可能是另外一个特特质。嗯,对。你觉得Google的TPU在哪些方面表现的比GPU更好?劣势是什么?我觉得,呃,从纯硬件的角度来说,很难说哪种硬件真的好或或者坏,尤其是在这种大规模商用的情况下,因为本质上来说,GPU和TPU,呃,在使用上来说最大的区别,就抛掉硬件的区别来说,使用上来说最大的区别就是GPU它有比较好的开源生态,嗯,TPU没有。
但这个事儿其实,在大规模商用的时候,并不是一个问题。因为,比如说,Google自己用TPU,那自然会花时间去搭这个这个基础基础设施。而基础设施就是是一个,你可能比如说,你只跑一千张卡,那可能是一个很大的负担;但你跑一个几十万张卡的集群,那搭一个基础设施也不是一个多大的事儿。然后从实际,所以就是从实从实际上这种大规模商用来说,没有哪个孰优孰劣。
但是这两个确实,呃,有一些设计理念上的区别。就比如说G P U,至少呃,我可能后后来这几代G P U没没怎么用过,像比如像Hopper那代G P U,H系列G P U,它的它的设计是说,我一个Pod里面可能没有多少多少张卡,就比如说就八张卡。然后这八张卡之间可以两两互联,NVLink非常快,所以这一个Pod几乎就是没什么没有什么communication的的bound。
嗯,但是TPU它可能就反过来,它就是说我抛弃了卡与卡之间两两互联。但是我能尽量的把尽量多的卡放在一个大的这个架子里面,那它就是有这种这种这种这个三维托雷斯这种设计。所以他就一张卡就只有在三个方向连三个最精灵的,但是他整个集群可以连上一个大头儿子。嗯,然后如果你的你的compiler或者你的那个sharding的的的逻辑写的足够好的话,你是可以利用这样的东西,其实就等效来说,你会获得更大的呃储存空间,然后也会减少很多通信的bound。
对,嗯,劣势是什么呀?呃,我觉得一个劣势就是它肯定是比起GPU来说,至少在在小的scale上来说,比起GPU是更更加呃更加固定的一种结构吧。所以说它的它的易用性或者它的通用性可能没有那么强。嗯,对。最近硅谷有很多new lab出现,你怎么看这个趋势?为什么他们都出去从这些模型大厂跳出去成立new lab?
我看不太懂。呃,我我的感觉是,绝大多数的new lab都会死啊。然后那个。呃,我我觉得就是可能有一些 lab 是真的有好的人的,然后像有些 lab 可能确实也开始在做一些事儿,比如说像星评码事情,他还是在 deliver 一些新的东西的。然后,但有些 new lab 就是,请请帮我把名字低调。好,比如说,我就完全不知道他们到底要干嘛。
然后这俩人其实已经远离这个专业好久了。我觉得二六年国内会非常的看重 C 段的趋势。谁成为那个 super app?你怎么看?你觉得这个这个好像在硅谷没有人讲这个事儿。对,就是因为美国 enterprise 就是这个就是公司,然后或者说效率软件这个市场太大。而且利润也太高,所以说对于美国来说,其实C端之前就只有叉点GPT一家做,然后其实也没啥油水,没有什么利润。
所以说,就是现在大家可能重心都会先放在这种效率软件或者 enterprise 上,嗯嗯,然后,所以中美的叙事已经发生差异化了。我觉得,呃,不只是 AI,也就是过去的整个互联网都是都不一样。就是中国很强的,就是 C 端,就是它能够想出一些哎非常非常复杂的产品的的性质或者结构,然后用一种很你觉得很间接、很不自然的方式。
把这个利润滚起来,比如说什么叫很间接?就比如说像像抖音这种东西。他并不是说我你看视频,我看一个视频收你两毛钱,对吧?还是说你可以免费看视频,但是我可以偷偷加广告,我可以偷偷做直播,我可以偷偷做电商。啊,但是这个做效率软件没这个事儿,做效率软件非常直接,就是我让你帮你写code,我成本一个月一百五卖你两百我挣五十,就是非常直接的事儿。
嗯,对,我觉得美国在过去的体体现就是在这种很直接的产品上能够把技术做到极致。嗯,但是一直没有哪个产品让我觉得就是复杂到说让你离不开它。你又感觉不到他在挣你的钱,但他实际上挣了你的钱,对。哎,你这么说,我突然觉得 Meta 就应该超自节奏。对,但我觉得 Meta 没自节强,因为 Meta
它也找不到自己的生态位,然后然后美国又没有一个做这件事情的公司,就豆包这个生态位还没有人找到,那 Meta 就抄豆包呗,它也不需要那么强的模型能力。
对,但我觉得还是美国做产品,本质上做 C 端产品的人不行。啊,比中国来说差远了。啊,对,呃,这是过去十年的积累,是吗?对,对。嗯,因为过去十年在美国的这个正反馈都来自于做to B的很多 enterprises的事情,对,或者就是在美国这地方挣钱太容易。啊,嗯,挣钱太容易的时候,你就不会费脑筋去想怎么挣钱。
哎,不是很多来都要找你聊聊吗?有什么好玩的人?呃,不,很多国内的人来科技公司来,对我觉得,我觉得都挺好玩的。然后,确实发现国内的人做产品可能还是。想法更复杂一些,更复杂一些,对,就是想的更这个想的这个回路更长一些啊。跟美国还是风格不太一样。美国是,我觉得美国就刚才说了嘛,就是做个什么就拿这个卖钱了,对啊,就是简单啊,就是这个事儿就是需要这个能力,有了这个能力之后,就是要比别人便宜,我就能挣的比你多,嗯。
哪我一点办法也没有。嗯,好,中国呢?中国感觉都是这种什么,一开始不挣钱,但一旦他开始挣钱,你就拦不住他。啊,就是他,就是他是真的能形成那个B那个那个自己的那个那个圈的。你就是他真的把那个圈转起来的时候,你再想往里插就插不进去了。哦,哎,你觉得美国公司现在看懂字节跳动没有?我的感觉是没有,还没有,他都这么大了。
哦,你说就是是不是重视啊?那肯定是重视的。就大家肯定都知道,字节是一家被严重低估,从从它的市值上来说是被严重低估的公司,这是我觉得大家很明确的事儿。然后,呃,我觉得也很明确,就是说在在消费者市场这一端,其实我觉得没有哪个美国公司能和字节竞争的啊。但是他毕竟是家中国公司,至少从公众的公众意识上来说,他毕竟是家中国公司。
嗯,对。你看懂他了吗?我不觉得大家看懂他。但是你看Meta其实也在主动的从自自家挖人嘛。嗯。你在AI行业有什么偶像吗?或者欣赏的人?虽然你在AI行业很短,没没没啥,就是我感觉。我感觉,我我我来这行业的时候,个人英雄主义时代已经过去了,所以也没有什么英雄。有时候你甚至觉得旧时代英雄有点蠢。啊,对,所以说真的没有什么。
你觉得谁比较聪明?这个还是不说了吧,No comment。嗯,对,我觉得,我觉得和和和做物理说还是不一样。我觉得做物理说还是存在这些,我觉得真的比我聪明太多的人啊。比如说我,我读博的时候,我那个年轻的老板,就是我觉得他,Doctor Stanford,他我觉得他就比我聪明太多了。啊,我觉得他可能也是看到他,我才觉得自己在那个领域也没什么没什么用啊,有他了还要我干嘛呢?
对吧?得跑到AI来降维打击一下是吧?也没降维打击,但是反正就感觉AI这个事儿本来也不太需要脑子。啊,不太需要脑子,真的不太需要脑子。那需要什么?我觉得这个这个行业就是最重要的特质就是靠谱,就是做事儿细,然后对自己做的事儿负责任,这是最重要的特质。你说那些东西有多需要脑子?我觉得。都是一些本科生就能干的活。
可是你说A I没有个人英雄主义,现在一个A I研究员的价格炒的多高啊,跟球星转会一样。我不知道是好事还是坏事。对我个人来说,我当然很高兴,然后我受益于这个,对吧?但是,但是,嗯,实际上来说,我我并不知道这个事儿是不是。是不是一件好事?你觉得为什么价格会变得这么高?我觉得可能一方面是大家觉得这个事儿很稀缺吧。
当然,它实际上可能确实也没那么充足,就是因为训练一个人虽然这个事儿没那么难,但是你训练一个人是需要一个环境的,就是你得有那个机会去接触这件事儿,你才能学会这件事儿。你没有那个机会,你就是再聪明也没用。那可能过去能撞到这个机会的人没有那么多。所以说,在市场上来说,可能是比较稀缺。从这个角度上来说,嗯,但是我觉得另一方面也是,可能对人的炒炒作有点过分了,对。
非常喜欢神话个体。现在,对我觉得真的就是再说一次,这是个集体主义的事儿。那很多人也会很好奇,因为呃,可能很多公司也想招AI的人。那你觉得最重要的还是要靠谱?这个有什么衡量指标呢?就怎么能够快速的判断一个人靠不靠谱,做事信不信?每个人都有一些自己衡量的方法,然后我当然也有一些自己的trick,就是我我以前反正有有出一道面试题。
然后那个,我可以大概讲一下这个,这个这个应该不涉密,所以我也可以应该可以讲。嗯,很多面试其实很简单,就是说我需要这个人在二十四小时之内。然后完成一个强化学习的项目,从从零到一,就是他要自己去选用什么样什么样的模型。我告诉他他有的资源是什么样的,然后他自己选用什么样的模型,用什么样的数据,用什么样的算法,然后把这个模型训出来。
二十四小时之内,就是我给他,让他二十四小时去完成这个事儿。嗯,然后二十四小时结束之后,他会跟我有一个小时的讨论。然后,这个事儿呢,其实,在AI时代没有那么难。呃,过没有AI的时候,这个是不可能的,没有人能24小时之内把它做出来。但有AI之后,其实特别简单,因为AI能帮你全套做。但为什么还要做这个事儿呢?
有两个原因,有很多原因。其中,呃,设计成这样的两个原因,一个原因是因为我觉得在这个时代去还去考察别人,比如说代码写的好不好,其实没用,因为绝大多数人都不用自己写代码。然后,呃,它更重要的是,它能不能有效的利利用AI?那这个事儿一个方面是考察这个问题,嗯。第二方面是这个事儿其实有一个陷阱,就是如果你全盘让AI做了,但是你最后没有试图好好理解AI为你做了什么,那在那一个小时的讨论里面会露馅,那是一个那个是一个会挂人的地方。
对,所以说那个考验的另一件事就是说,你有没有真的和AI形成了协作,还是说你就全权扔给他?那个是我,我觉得我个人看重的事儿。嗯,那个其实也是他,就是这个人是不是做事靠谱的的一部分。当然,这个就这个这个题目的设计本身也有一些一些比较阴暗的巧思,就是说为什么设计成二十四小时?就是为了看这个人有多看重这个机会,可能熬夜对。
如果他足够熬夜,他就能撑住这二十四个小时;如果他撑不住,那只能说他可能对这个机会也没有那么看重。哎,那对于比你更年轻的人,你觉得他们现在来AI还是一个很……很蓝海就是很有机会的地方嘛?我觉得纯做语言模型已经不是一个蓝海了。嗯,我觉得晚了,就是末班车已经发车了。然后末班车已经发车,末班那那班是哪一班啊?
我感觉我入行就是那个末班车啊啊!然后可能有确实在我入行之后,当然还有有些新的人,但我觉得他们就没有机会能接触那么好的机会了,就是能在一个还没没那么小、没有那么大的团体里做一件事情,他们可能就很少能遇到这样的机会了。对,然后但是我觉得就是AI它是一个很很大的方向,语言模型只是其中的很小很小一很小一个部分,嗯,还有很多别的事情啊,比如刚刚说的多模态生成,那可能还有很多机会。
呃,机器人那可能更机会更多,对吧?然后包括更夸张的,就是有比如说你能不能用AI去帮助一些真正的科学问题,比如说帮助做这个做量子调调量子调控啊之类的,那可能就是更更蓝海,那都是blue sky的事儿了,对。所以说,呃,我觉得对于。足够年轻的人来说,可能做现在最热火的事儿,并不是一个正确的选择。嗯,做现在没有人做到的事儿,可能更多的是一个好的选择。
对,你自己未来会怎么发展?你会在谷歌很久吗?呃,我觉得应该不会。这么公开的说吗?我觉得应该不会。我我觉得我还是会尝试。去挑战自己的,嗯,对,然后要折磨自己,对,要折磨自己,对,但是我就是可能需要找到一个值得折磨我自己的事儿啊啊,哎,如果A I不是本质的难的话,你会不会做的觉得无聊啊?你对你的挑战在哪儿啊?
我觉得。它虽然不难,但是你知道和不知道还是有一个gap的。嗯啊,就是你从完全没不知道这其中细节,到慢慢理解这其中的细节,理解它怎么运作的之类的这些事情,我觉得还是需要花时间花力气的。然后当然你理解之后,我觉得对这个事儿也是会对你未来做,比如不管你是做产品相关,还是说往往别的AI的方向去发展,我觉得都是都是长期来说会有帮助的。
对你未来想在哪里去发展?我觉得都有可能,没想好该怎么折磨自己。呃,你应该不会再跳去另外一个公大公司了吧?应该不太会了。嗯,你觉得你在 Anthropic 上学的和在 Google Gemini 学的有什么不一样?我觉得还是挺不一样。我觉得在 Anthropic 就是你可以把一个事儿了解很,把一条线就是 language model 这条线的方方面面的了解的很很很透。
嗯,他给你这样的机会。然后在Google,它更多的是一种横向,就是它有很多不不同的方面,不很多不一样的人,然后也能见到不一样的视角,也能见到不一样的研究方向。嗯,对,就是你都可以看见。对,Anthropic是因为它bat的足够的坚定,所以你能理解的更纵向。对。嗯,你有想过用AI去解决物理问题吗?你们那个有人在干物理,嗯,有人在干,所以我觉得不需要我去干。
你对这个没有本质的兴趣?我觉得这个事儿就是,首先,我觉得目前对我来说不是最高优先级。我觉得,如果哪天我觉得我把我手上最高优先级的事解决了,然后我又没有找到别的事儿干,我可能会去干这个事儿。你现在最高优先级是什么?我现在最高优先级是就是把我刚刚说的这两个事情能够,ML Coding和Long Horizon,把它至少推进到一个。
就是和同事能够把它进推进到一个比较,我觉得比较比较稳定的状态吧。啊,那个我觉得是我的最高 priority,但是可能之后也会有别的 priority。但是,呃,自用 AI 做物理,我觉得是一个。已经有很多人在试这做的事儿,然后多一个我不多少一个我不少,不如就让别人先干。你有特别崇拜的物理学家吗?也没有。
有,有,但是有点多,不知从何说起。物理学家有,人工智能科学家没有。嗯,但这个跟人的成长经历有关吧?嗯,就我觉得就是一个成年人是很难真的崇拜一个人的。那一个儿童可能会了,哦啊,呃,崇拜过谁呀?我觉得就物理学家其实还是有很多,就真的。挺,挺强的。当然就是大家都说的那种,什么一百年前那种人就不说了,就什么什么爱因斯坦、爱因斯坦这些就不说了。
然后包括大家后来都知道什么像弗兰克·杨,就是杨振宁啊这些也都不说了。然后像我之前做土拨鼠。体系的时候,其实有一个,他后来也拿过奖,就是那个好蛋,就是你会发现这些人他他有些异常的远见,就是他在他那个时代显得格格不入,但是你看好蛋最开始做。好在model和这些分数量子或或者相相相关的事儿的时候,离最后大家搞明白这些透出物态过了好好几十年。
嗯,在那个时候,他能够觉得这事儿重要,然后一直在自己在推进这事儿,我觉得这是一个很很不容易的。当然,我觉得你要非要在人工智能找一个类似的人,我觉得可能Jeff Hinton是。就是在大家都觉得这事儿可有可无或者不那么确定的时候,他一直在这个方向做。嗯,那我觉得这可能是一个英雄级别的人物。嗯,在他之后呢?
呃,A M A I 在他之后,我觉得,嗯,我觉得可能也有一些英雄的集体,就是比如像 Transformer 就诺呃诺姆沙泽尔和那些啊呃那个啊试一试啊尼克他们,那可能是一个英雄集体。嗯,对。你讲过一个特别让我印象很深的话。我在这个行业又没有什么导师,又没有什么旧友,我小喷水喷水。这可能就是不做AI的好处吧?
不做AI出身的好处吧?对,就是真的没有什么负担,就是没有哪个老的。是你的亲属,所以你觉得他傻,他就是傻,就可以直接说他傻,没有无所谓的啊。你以前也这样吗?我觉得我做学生的时候还挺收敛的,哦,但我后来发现收敛。没用,对自己也没好处,对别人也没好处,还是更直接的表达自己的想法是最关键的。我觉得直接表达自己的想法是一个短期一定会有人恨你,但长期大家会会欣赏的事情。
哦,你最近听谁说话特别蠢?把这个名字毙掉,谢谢。我亏你一直挺蠢的,而且蠢的始终如一。哦,啊,他有没有可能是那个对的人呢?我觉得他说的话,用Poly的话来说,就是not even wrong,因为不良好定义,你很难说他说的是对是错。对,就是有一天可能有一个不一样的范式发发生了,他就可以跳出来说:“哎,我当年说过这个,这个,这,这个。
”但是你就发现,可能如果范式是另一种状态,他也能说一样的话。这就是我为什么很讨厌这种。很很为一个很很很模糊的人的原因哦,因为一个事儿模糊就是没有意义的,对。你为什么觉得他说话很模糊,没有正确的定义?就是是一种模棱两可。如果他有正确定义的话,我可以解释他为什么有正确定义;但他没有正确定义的话,我没有办法解释他为什么没有正确定义,因为他真的没有正确定义。
我觉得起码就是还是一个很良好定义的事儿,就是他他要他是要做,嗯,然后他的方式可能更偏这种更更传统的这种这种 neural network model 的方式。而不是更 end to end 的这种方式,我觉得至少它是良好定义的。至于它是对是错,那我觉得是未来会检验的事情。对,嗯,就觉得大多数老登其实都还好。
就是我觉得,我觉得人年纪大了不一定会变成老登的。哦,人年纪大了会变成两种状态,一种状态叫做德高望重。哦,就是他会可能少指手画脚,还会花自己的力气去培养年轻人。另一种人就是老登,就自己也不懂还爱指手画脚,嗯,所以人老了不一定会变成老登。哎,你是受了谁的刺激?我也不知道我受了谁的刺激,但我确实见过不少老登。
您从什么时候变化的?嗯,就是说话非常直接开始。不收敛了,就是你过去都是这么想的,但是你不说。我觉得我过去可能也也会比较直接,但是没有这么直接。但做了A I之后就更直接。这个没有没有束缚是吧?一是没有束缚,二是这个领域足够客观。哦,就是。你其实不用太担心,因为自己的观点而惹到什么人。只要你的观点就是是自洽了,就是你有一套自己观点的理论,你不是说随便喷人那个,那肯定是会惹到别人。
嗯,但是你也是有一套自己的自己的理解,我觉得其实大家是会尊重你的。因为最终你在这个领域做的怎么样是有客观的评价标准的。嗯,好,我们每个嘉宾都会推荐一本人生之书,要这本书真的对你产生过重要的影响。你要说的这本书是什么?这是今天最难的一个问题。我感觉你还是高看了我的文化程度,我真的没有什么人生指数,说实话,嗯,真的没有什么。
好,最近读了一本书,最近上课上次那个季超说的是线条小狗,最近读的书就是就是唐川的自传,唐川修书的自传啊,旅人,对,然后。你你要非要说就是可能有印象的书,首先我这人确实不爱读书,我感觉就是我这人文化水平比较低,然后我读的书除了就是专业性的书之外,所有的书感觉都是闲书,嗯啊,像什么汤川的自传,其实本质上也是本闲书,但是就是我觉得写的挺有趣的,就是。
你能看到一个,一个后来看起来如此成功的科学家,在他年轻的时候有一种挣扎感,很真实,对。然后,呃,可能就还有一些什么闲书,像小说这有本小说我很喜欢,呃,那个来自新世界,是一个日本的小说。对我觉得你要非要让我推荐闲书的话,我可以推荐那个。对,哎,你最近有看什么电影?什么电视剧?玩什么游戏?什么都没有。一个全球范围内你喜欢的食物,寿司吧。
一个全球范围内你喜欢的地点,全球范围内喜欢的地点,我觉得现在你要非让我选,我可能会选夏威夷,因为我很喜欢海。对,但是也很难说,因为之后我可能去了更多海的地方,就另有新欢了。一个少有人知道,但是可能需要知道的知识点。嗯,别相信老灯算吗?你有迷信过吗?嗯,我本质上没有迷信过,但是我觉得有些时候可以靠迷信来安慰自己。
我说你有迷信过老灯吗?哦,迷信老灯啊?啊,从来没有吗?真的没有好,但是我以前可能没有这么恨老登,后来就变得越来越恨老登。为什么?可能就是当你自己有越来越多判断的时候。那些蠢的人就显得更蠢,那他们也没有伤害你啊,为什么会恨他呢?我觉得就是厌蠢症,每个人都有厌蠢症。哎,你的MBTI是什么?不知道。为什么这些年会有一个对于?
就是年轻人对于年龄大的人这么不友好的一个词出现,它的来源在哪里?不少没有没有没有没有研究过,可以问问Jamie奶,让他deep sir deep sir research一下,看看老邓这个词是哪来的。那你心目中影响AI进程的几篇论文?Sequence to Sequence是一篇,然后那个我觉得是Language Model在Feature Engineering时代的的高峰,嗯,然后呃。
scaling law是一篇,就是主要看他们他们在在Open AI的那篇scaling law,这也是一篇,是一篇把这种体系化的研究方式。引进到这个领域的一篇,当然最后实实实际上,Skynet的做的方法可能他那样并不是正确的,就是但是是第一篇把这个这个想法引进来的,我觉得这很关键。嗯,对,基于你当下的认知,一个关键的重要的bet是什么?
Largerizer,Largerizer。我们工作室叫语言级世界工作室。第一次听到这个名字的时候,你在想什么?我觉得这个名字有点正常的太平庸了。可以,嗯,对,其实其实,我觉得我觉得这个这个名字是一个,可能放在十十年以前是一个很。很独特的视角。那现在主要大家共识太多了。我觉得十年以前确实就是,哎,可能现在不止十年。
对不起,我感觉我年纪也大了,可能不止十年了。就是可能在就是什么一四一五那个年代,大家都会觉得视觉是最重要的事儿。在那个时候,我觉得意识到语言是承载智能的重要载体的人,可能是一个不一样的事情。对,不过我觉得我们这个名字不是在A I的语境里面讲的。嗯嗯嗯,那就值得深思了。从这里, shouting
out so the clouds can hear every heartbeat drawing the map we steer. We'll explore the new world from here, step by step, turning doubt to cheer.
We're the start of the story. This world will hear. We'll explore the new world from here.好了,今天的节目就是这样。
这里是商业访谈录,是一档由语言及世界工作室出品的深度访谈节目。你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是语言及世界 Language is World。我们希望和你一起从这里探索新的世界。friends at our side in an open sky. If
tomorrow's still unclear, we'll draw arrows till the path appears. We'll explore.寻找新的世界从这里, shouting out so the clouds can't hear every heartbeat
drawing the map we steer. We'll look for the new world from here, step by step turn the doubt to cheer. We're the start of the story. This world will
hear. We'll look for the new world from here.