Hello,大家好,我是小俊。前面在福利和广密的节目中,我们深入的揭示了AI的进化,从第一幕Chat走向了第二幕Agent,可以说Agent是二零二六年的高频词。那关于 Agent,我一直非常希望能够深入到技术的原理层,给大家做一次有关 Agent 的技术讲解,能够让我们一起非常清晰的了解技术的脉络。

今天我邀请的是俄亥俄州立大学计算机系教授,也是创业公司 New Cognition 的创始人苏煜。苏煜是少数见证过 Agent 演化史的学者,研究方向是 Language Agent。我们从更长周期复盘了 Agent 的技术演进史,尤其是最近三年 Language Agent 的快速进化。此外,苏煜也是 2025 年斯隆研究奖的得主。

那接下来是我们对 Agent 的技术综述。祝大家五一假期学习快乐,期待二零二六年,我们和AI共同进步。这一个阶段一个很好的总结,实际上是一本书,叫做它也是这个AI这整个领域的一个呃非常重要的一本书,叫做《Artificial Intelligence: A Modern Approach》。这应该是很多很多人的这对于AI的入门书籍,也是我的AI的入门书籍。

就 ChatGPT moment,它是标志着这个 LLM 这个范式的变化,而 OpenClaw 这个 moment,它是标志着 agent 这种,尤其是各种高度自动化的,或者是这种 personal 这个 agent 的这个范式的变化。这些东西都是在快速的 converge,最后 at the end of the day,大家想要的就是一个 universal digital agent。

我之所以会提到就是这些 boundary 都在消弭,其实也是跟 coding 有关系的。Hello,苏老师,因为最近 Open Cloud 非常热啊,我很想借着这个机会来聊聊一个叫 Agent 的综述,因为你在这个领域已经非常长时间了。那我们今天就来做一个技术话题的播客,能不能还是请你先做一个简单的自我介绍,并且讲讲你的过往的经历?

呃,小军好,大家好,非常开心今天来这边跟大家聊一聊。好,我叫苏煜,是湖南人,然后是在。清华计算机读的本科之后,来美国这边读的PhD,后来去了Ohio State OSU当老师,然后是开启了一个叫做OSU NLP Group。对于比较关注Agent的或者LM的人来说,可能大家应该会见过比较多我们组的工作,啊,包括这个。

呃,Agent这边,尤其是在 computer use Agent,就是用电脑的这些 Agent 上面,我们可能做过像很多很早期的工作,像 Mind to Web,呃,像 CACT,然后 LM Planner,然后在更加广义的 LM 上做过像 MMMU,就是这个 multi-model LM,可能用的算是最广的 benchmark。

然后去年的话,我是搬来了硅谷这边,呃,开始了一家新的公司,叫做 New Cognition。主要是做 agent 相关的 research,呃,就是研究啊,得先叠个甲,就是可能难以避免就会讲很多的中英混杂,但会尽量就如果我知道怎么翻译的话,会尽量的翻译一下。嗯,在我们讲最近的这些像 Open Claw 之前啊,我们还是想能把这个 agent 聊得更纵深一点。

就你能不能给我们讲讲整个 AI agent 的一个历史,它是怎么一步步发展到现在的?它又是一个过去多少年的一个时间轴呀?好的,好的。就Agent这个事情,我觉得肯定不是一个新的话题,它是就贯穿AI的始终的,就是从AI最开始的时候,其实大家就在讨论Agent的问题。一个简单的定义的话,我觉得可以是这个样子。

因为 agent 的定义,它是这个每个人都有自己的定义,是这个真的很大的一个问题。但对于我来说,我觉得 agent 首先它应该是 entity,就是它是一个实体,它有它的 boundary,而不是一个这个发散的没有 boundary 的东西,就是它是一个有界的,对吧?然后呢,它是需要在外界环境,在某一种环境当中去工作。

第三个要素是,它在这个环境工作,并不是在那儿随机的游荡,对吧?它是要去进行叫做 goal-directed activities,就是它是有目的性的,它带有目的性的去进行各种各样的活动,以达成这些目的。所以我觉得,如果满足这三个要素的话,就可以称作一个 agent。其实你如果想的话,在这个概念,它其实是对于所有的动物,它都符合这个定义。

所以,这个所有的动物它都是agent,尤其是人,它可能是这个有最先进的智能的这样的agent。那所以,在AI刚开始发展的时候,为一九四零年到一九六零年那个阶段,AI的这个同盟时期吧。那所以那个时候大家想要做的就是去怎么去构建这样的人造的artificial的intelligence,能去模仿人的这样的agent的行为。

从那个最开始的时候,其实agent它这个概念就是一直在的。但它没有特别的成为显学,因为大家就发现,你要做一个这样的一个完备的agent是非常非常难的一件事情。就是对于当时的技术条件来说,是过度的去追求这样的一个终极的目标是没有太大意义的,而且对于领域的发展是比较 counterproductive,比较有反效果的。

所以后来这个这个AI这个领域就进行了比较大的分化嘛,就分化成各种子领域。最近就包括这种计算机视觉啊,这个自然语言处理啊,这个逻辑相关的这种呃reasoning啊,这些都是从那个时候分出来的。当然最近这个又有一个这个叫分久必合,合久必分。就最近这所以这些领域又有一个这个重新重新归拢的一个趋势,当然那个就是后话了。

但我们可以聊一聊,就是最早的这些 agent,我觉得可能应该算是我叫做 logical

agent,就是这种基于逻辑的智能体。那个大概是在一九五零年代到一九九零年代,是这个AI整个领域的主旋律,对吧?可能大家还记得,像这种专家系统。你就是你有一个一定的逻辑语言,比如说一阶谓词逻辑,然后你可以去采访各领域的专家,把他们的这些知识写成这个逻辑语言能表达的形式,然后你再有一个基于逻辑的一个叫做

inference engine,就是这种推理的引擎,然后有一个新的问题来了之后,你就可以去进行基于你已有的这些知识去进行逻辑的推演,然后看能不能得到一个答案。

对啊,这个就是早年这个A I最早形态的这个能work的agent,基于逻辑的agents。结果大家也知道,就是这个大家发现这一套方法它是。有很大的局限性的,这是直接导致了这个当时最大的一次AI Winter吧,就是八零年代到九零年代那一波AI Winter,就是专家系统它不能deliver它的promise。

通过这个为引的话,其实我们可以再谈一谈,就是agent它到底要做成一件什么事情,什么样是一个好的agent?我觉得agent的核心问题是。他生活在一个很复杂的世界里面,那最复杂就是我们的现实世界。我们要这个agent呢,他要学会怎么去适应,并且利用这个世界的复杂性,以达成他的目的。它的目的可以是像人一样是生存和繁衍,也可以是可能更局部的目的,比如说怎么挣钱,怎么去呃明天能吃一顿饱饭,对吧?

那为了达成这样的目标,它需要我觉得至少两项广义上的能力,我叫做一项是memory。第二项是 autonomy,这些都是广义上的。它 memory 的或者就记忆的话,它包括知识的表达 knowledge

representation。包括你怎么获取知识、怎么更新知识、怎么遗忘知识,而这个知识也是广义上的,它包括这种 semantic knowledge,就语义的知识,也包括 episodic memory,就这种呃我们日常记忆的呃 memory,当然也可可以是 procedural

的,就是这种更加像过程性的,比如说怎么学会骑自行车这样的 memory。

但这一整块儿可以,我们都可以叫做 memory,因为对于人来说,他们储存的方式是没有本质区别的。这些东西都是存在我们的这个叫做神经突触里面的,就是人所有学到的东西,它都是 memory。而另一块儿,那一大块能力,就 agent 需要的就是 autonomy,就是这种呃自主性、自动化。它包括

perception,就是怎么去感知这个世界,包括 reasoning,怎么去基于你的感知,基于你已有的知识去做推理。

包括你这个 decision making,就基于你的推理,怎么去做各种呃重要的决策,然后到最后的 action,就你的这些决策怎么去反映到这个外外界环境里面。那显然,这个 autonomy 它跟 memory 也是就是一体两面的关系嘛。你的 memory 是你的 autonomy 的这个整个的基础。

那这一套框架就基本上我们可以用来去讨论所有的 agent,包括人 human agent。那你像早期的这些基于逻辑的 agents,它在这个两个方面都是非常受限的。它的 memory,它的记忆,它有的就只是一个有限级的一个叫做 logical

statement。就这种基于逻辑的一些呃一些陈述,它的这个记忆的它这个 memory 它这个 knowledge 的这个表达能力 expressiveness 也因此是非常受限的。

它就是被它的这个逻辑语言的这个表达能力给 bound 住的。就世界上绝大部分的东西都是没法用这些简单的逻辑来表达的。虽然后来大家就是尝试了各种像这种呃高阶逻辑、模糊逻辑、fuzzy logic,或者是这种 probabilistic logic,但那个是只解决了很少部分的问题。然后它的

autonomy,它就它所有能做的事情就是 take a question,然后用这种基于逻辑的这个 inference engine 去做一些推理,得到一个答案。

这是它全部的这个 autonomy。那因为它的表达能力受限的话,它的 autonomy 是非常受限的。那最大的问题其实对于这个早期的这些专家系统来说,后来大家发现是这个 knowledge acquisition 的这个 bottleneck,就你要去获得这些知识太难了。那当时主要就是依靠这些工程师去给这些领域专家去做采访,然后想办法把这些采访的内容,就是怎么能去写成这些逻辑语言的形式。

那个过程是非常痛苦,而且非常低效,并且非常这个就是能达到效果也非常有限的,所以这个就是最早期的这这个Agent的形态。嗯,六十年代到八十年代,对,到九十年代吧。这一个阶段,一个很好的总结,实际上是一本书,叫做《它也是这个AI这整个领域的一个呃非常重要的一本书》,叫做《Artificial Intelligence: A Modern Approach》。

这应该是很多很多人的这对于AI的入门书籍,也是我的AI的入门书籍。它是呃Stuart Russell和这个Peter Norvig写的,第一版好像是九五年的时候发布的,大概就很好的总结了到那个时间为止所有的这些AI的发展。其中就是Stuart Russell他其实就跟我提过,就是。虽然大家觉得这个好像是一本AI的书,但实际上它本质上是一本关于Agent的书。

它的书的第一章就是来讲什么是一个intelligent agent。只是现在大家有点儿遗忘了这个事情,所以就 Stuart 啊,他就会非常强调,就是实际上这个 Agent 它并不是一个新的概念,就是整个 AI

领域一直是关心的这个问题。OK,所以这个大概就大概cover到了可能九零到两千年代,大概是九零年到两千年那个时候,其实其他种类的agent也开始有了比较大的发展,像robotics那边就机器人那边有一些比较重要的发展,然后包括这种基于neural

network就基于神经网络的机器学习的方法有了比较重要的发展,比如说这个。

Back propagation,我记得好像是不是八五年的时候,这个开始开始出现变变得变得比较 popular,但到大概是到两千年之后,觉得 agent 是有了一些比较实质的一些变化。大概是分两部分,一部分是比较 high profile 的,可能是这个这种 neural

agents,就基于神经网络的 agent,尤其是在这个深度强化学习的这个这个 literature 里面,就 deep reinforcement learning。

这个方面有很多的代表作,你比如说这个Alpha Go,对吧?然后包括各种这些,主要是用来玩游戏的,就是各种的游戏。当时大家都试试过了那些Atari

Game,就那些比较简单的像街机一样的游戏。然后到这个像这个Dota到星际啊,都是一些我喜欢玩的游戏。反正他到时候大家都用AI把他们给解决了一遍。但你如果看就是这种 deep RL 的这些 agent,然后你从从这个 memory 和这个 autonomy

的角度来分析他们的话,你会发现其实还是很受限的。

一般他们就是一个它的主体,这些 agent 主体就是一个很小的一个神经网络,可能几十 million 或者顶多到一百 million parameter。就是一大概一亿parameter这个量级,就是绝大部分都比这个要小很多。在当时还是非常大,在今天标准来说就是非常非常小。然后他们要做的这些网络要做的事情也非常的单一。

就是玩这一个游戏或者这一类的游戏,那它的输入实际上就是这个游戏的画面,然后输出就是在这个游戏里面你可以做的各种的各种的动作 actions。它的这个 memory,它所要学会、所要存的东西,也就是只是关于这个游戏的各种各种规则和这个各种需 perception 需要的东西,action 需要的东西。

然后它的 autonomy 那也是非常简单,你你有一个画面作为输入,你可能还有一点点历史这些 history,然后你去跑一下你的这个,你是一个前馈的神经网络 feed forward neural net,你跑一个 pass forward pass,就从输入变成一个输出,你再去 take that action,你的环境就会发生变化,然后你再去重复这个过程。

它其实里面就没有太多的复杂的这些这些 perception 啊,也基本没有 reasoning,或者说它的 reasoning 推理是非常隐式的,它就是在你这个神经网络的一次这个 forward pass 的这个过程中。他当然是做了一些推理,这是一个隐式的,而且这个 compute 非常受限的一个推理。

就是他对于不管多么复杂的情况,他所能用到的这个计算量,这个 compute 就是一个 forward pass,对吧?而人显然不是这样的,就是我们对于不同的情况,它的复杂度的不同,我们就会我们的这个推理的这个计算量显然是不同的。这个是这种 neural agent,就是它在这个 memory 这个

autonomy 上都是还是虽然比以前的这些 logical agent 的已经要强很多了,但还是相对来说非常受限。

它的通用性有提高吗?相对于 logical agent?我觉得它的通用性的提高可能体现在两个方面,一个方面是我们会开始有你去训练同样的一个 neural network,它可以去玩不同的游戏,比如说你这 Atari 系列,它就有可能几百个不同的游戏,啊或者几千个,它都可以去玩。另一方面是你在用相同的一套方法。

去玩各种不同的游戏,你可能用去玩 Atari 的这个方法,这个网络的架构和去玩这这个 AlphaGo,它的架构可能也差不太多。所以这个主要是体现在这两个方面,但是如果你说的泛化性指的是像人一样,就是你随便扔到一个什么样的。环境里面,然后他就自己就可以学会,呃,能做得很好。那那种泛化性是呃,而且是是非常的这种 sample efficient,就是你不需要多少的这些训练的数据量。

这个是 Deep RL 另外的一大问题,就是它的这个 sample efficiency 至少当时来说是非常糟糕的。你可能就一个简单的游戏,就要可能几百万的这个这玩几百万盘才能学会。为什么这个时候大家会把游戏当做一个训练agent的一个呃环境,或者说一个boundary?我没有去真的做过那种agent,所以我的答案可能不一定非常的完备。

如果让我来。猜的话,我觉得可能 Demis Demis 就是 Deep Google DeepMind 的这个这个负责人,他是对于游戏非常情有独钟的。然后他也是 Deep RL 的代表人物嘛,就所以这肯定可能有这种个人偏好的部分。当然也有很多这种非常实际的一些原因,比如说刚刚我们聊到这个 Deep RL 它的 Sample Inefficiency 的问题,那游戏这种高度可重复的这些虚拟的环境。

它就是天然就适合去解决,或者至少提供一一个这个解法,就是对这个 data abundance 的问题。那还有其他的一些原因吧,比如说你这个。你就是输入输出的这个高度受限和简单性,实际上也是很适合当时的这些技术的。所以这个是牛惹Agent主要的发展是在两千年,尤其是啊二零一零年之后的这段时间嘛。然后另一方面。

那Neural Agent的这个时候,它是我们说它就是输入输出都比较的单一嘛,它的Scope比较小。那另一方面,去试着去扩大这个Scope的输入输出的宽度的这个Effort叫做Semantic Parsing。中文可能叫做语义解析,这个是主要是 NLP 就 Natural Language Processing 这边的人在做的。

啊,它的本质上要做事情就是把任何的人说的话能转化成一种叫做 Formal Meaning Representation,其实就是能转化成一种机器能读懂的一个语义的表达。那这个例子可以是,嗯,背后可以是一个知识图谱啊,你可以是一个数据库啊,你可以是一个网站呢,就是各种。如果用户说了一个呃什么东西的话,你希望能把它自动的转成这,在这个相应的环境里面,机器能够读懂的形式。

这个也是主要的,能追溯到更早,就两千年以前。但是主要的发展,一个也是可能是在两千年之后。它其实就跟 neural agent 其实上就有很互补的关系嘛。neural agent 它关注的是怎么做深,就是怎么去能通过大量的 data 去学会说这个在这个受限的环境里面怎么把这个事情给做好。而 semantic parsing 关注的是怎么去做的更广,而且是能去。

解决像这种 communication,包括这种语言的 perception、 understanding 这些问题,其实它也涉及到这个 action 的问题。就如果你能把这些语言转换成机器能读懂的形式的话,那它也就包括就是你能去命令机器去做各种各样的事情。所以它这个 semantic parsing 也一定程度上是去扩大了这个呃 agent 它的这个 action space。

我 PhD 阶段主要是做 semantic parsing 的,所以我对那块会比较了解。而当时其实有很多就是后来在 LLM 在 agent 这边就是做的有起到比较大作用的人,其实这个都是 semantic parsing 出身。像Perce Perceley就是呃Stanford,然后Luke

Zettlemoyer是这个在University of Washington,他在Meta团队做了Roberta,包括以前之前在AI2做了Almo,Almo是在这个GPT之前的这个language model,就是嗯GPT应该是在很大程度上是受到这些工作的启发的。

然后跟年轻一代,比如说港大的于涛,包括我们这边,就我跟那个 OSU 另外的这个盛欢老师,就我们其实都是做 semantic parsing 出身的,但现在都是在可能在 L M 在 agent

这边有一些比较大的作用。所以这个我觉得可能也许是就跟这两个问题之间有一些很深的联系,也是有一些关系的。对,所以这个大概是到二零二零年以前,大概是这些neural agent啊、semantic parsing啊,就比较蓬勃发展的时期。

大概到二零二零年以后,然后尤其是二零二二年就 ChatGPT 出来之后,这个 landscape 就完全不一样了。这一些新一代的 agents。就我个人认为是应该叫做 language agent,就语言驱动的智能体。就我们包括这个二四年的时候,我跟杨迪、姚舜宇和那个于涛,我们还专门做了一个 tutorial 来定义这个事情,来讲为什么这个应该叫做 language agent。

因为这一代 agent 它基于 LLM,它最大的不同是在于。它可以用 language 作为一个 scaffold,作为一个脚手架来去做它的所有事情,包括它的 perception,就这种 language understanding,这样使得这个人跟这个 agent 它交互的形式就灵活得多了,right?

然后包括用 language 作为 reasoning。就现在,我可以这个就所谓的 chain of thoughts,就对于不同的 task,我不需要用同样的这些这些 compute 了。如果这个任务比较复杂,我就可以多产生一些 token。那每产生一个 token,它都是一个 forward pass,它就都是 a certain amount of compute。

Right,那这实际上就达到了一个 adaptive computing,就是这一个有弹性的这种自适应的推理的这样的一个一个效果。而这个 language 就语言也是就它能做这个事情的这个脚手架嘛?嗯,它是一个拐杖或者是一个工具手段。对,我觉得脚手架还是比较,虽然这个中文听起来比较奇怪,但是还确实是一个这个比较贴切的一个脚手架,嗯,对,scaffold。

然后同时也包括 action 语言,基本上是这一个非常全能的一个行动去 take action 的一个媒介嘛。语言也包括这些 formal language,包括这些 machine,呃 language,那你就基本上可以在有些低质的 world 里面做各种各样的事情。对,所以它在从

autonomy 的角度,这个语言这个 language model 就极大的去扩大了这个 agent 的这个 autonomy 的程度。

那你从 memory 的角度,就是这个大模型、大语言模型的训练过程,它也是一个塑造 memory

的过程。而且是一个以语言为脚手架,因为它的这个训练数据主要是语言嘛。以语言为脚手架去形成一个,通过一个压缩的手段(compression)去形成一个对于这个世界的一个表示的过程,right?哦,我觉得at least在早年的时候,大家还没有太理解这个事情,还会觉得说这个language

model它就是比如说所谓的stochastic parents。

就是这种随机鹦鹉,就是只是在去模仿人类的这些语言啊,去做一些 statistical prediction。但实际上,现在我们越来越理解说,就是它实际上在大语言模型训练的过程,它是一个。压缩就是,然后是从这个语言这些surface form压缩成一个mini representation,一个对于这个世界的这个呃model,一个representation的过程。

这个representation它当然也是直接驱动了这个刚刚我们聊的所有这些autonomy的各个方面。所以这是为什么我们认为这个应该叫做language agent,因为language它的defining feature。那这个 language agent

这个发展,那就说来话长了。其实最近,就我们经常说,就现在 AI 是在 we living and compress the timeline。

就是现在每一年甚至每一个月,这个AI的这个发展是以前可能你要十年才能达到的这种发展,所以我觉得这点还挺有意思的,因为它其实跟人类的这个或者是整个自然界的这个演化历史是有一些微妙的相似之处的。我们大概这个地球上的生物经过了可能呃几亿年到十几亿年的这个演化,就从最早的这个呃有机物开始出现为界的话。但这么长的时间,比如说你可能花了十亿年甚至更长的时间才有这种真核细胞生物的出现。

但如果你再放到可能那个哺乳动物的出现,就从真核动细胞生物到哺乳动物中间可能又经过了十亿年,就哺乳动物可能是可能两亿年还是四亿年之前才出现。但你如果看这个。人类的这个进化,对这个像 Homo sapiens,就 Homo 这这个 genus 就这个金木冈部科属种这个属 Homo 这个属,它是呃没记错的话,可能是两百多万年前开始出现的。

然后 Homo sapiens 呢,它这个时间就更短,就是这个我们这个智人这个种,那就时间更短。本身 Homo sapiens 它的这个进化史,在整个进化史来说,就已经是沧海一粟,就非常小的一个一个阶段。但是呢, Homo sapiens 的进化史,如果你分在语言出现之前和语言出现之后。这个进化的速度的话,它又是一个翻天覆地的变化。

你想,这个成系统性的这个符号化的表达,可能是十万年前大家开始出现,就我们开始会看到有一些这些洞穴里面的各种壁画呀,嗯,包括一些有意义的宗教的符号啊,可能大概那个时候开始出现。然后真正成体系的这种 written language,就是书面语言,可能也就五六千年的历史。但尤其是最近的五六千年,实际上是这个人类整个文明大爆炸式的发展的时候,对吧?

所以 language 在这里面是起到极其重要的作用的。到回头之后,我们聊到这个,可能聊到一些像世界模型啊,到到底我们要需不需要语言啊这些的时候,可以进一步的去细聊。但是就是在人类的演化里面,这个语言是起到一个。爆炸式的加速剂的这样的一个作用,而现在在Agent的演化,在AI的演化过程中,好像又是一个一个类似的一个效果。

所以我之前哦,二三年的时候,我写过一篇我的第一篇博客啊。当时我觉得就是这个有很多这些念头,有点这种不吐不快的一个感觉。所以当时写的第一篇博客叫做《Language Agents: A Critical Evolutionary Step for Artificial Intelligence》。就我觉得就是从进化的、从 evolution 的角度来看,这可能是是一个非常标志性的一个节点。

我有一个问题啊,嗯,就是语义解析和 language agent 它们本质区别是什么呀?因为 language 它就是已经存续很久的一个媒介,为什么之前大家没有想到要把它应用在 AI 的训练里呢?或者 agent 的训练里呢?我觉得可能这么说不是特别准确,就把 language 用在 AI 或者 agent 的训练这个事情,它是一直在发生的。

从某种意义上来说,就 natural language processing,就 NLP 整个领域就是要做这个事情,对吧?只是在 LLM 出来之前。大家能做的事情相对来说比较有限,因为你那个 foundation 不在那边,所以比如说当时做 semantic parsing,那可能每次就是做某一个特定的环境,比如说一一系列特定的数据库或者某一个特定的这个知识图谱。

大概或者是某一个特定的网站,大概这样子。那 L M 出现之后,它相当于是提供了一个非常强的 prior,就非常强的先验,它内置的这样的一个基于语言的世界模型。使得你可以去产生这样的language agent,可以放到任何一个环境里面,它可以开始至少是reasonable的去产生一些行为。那个是它本质的不同,对,你也讲到,就是呃,过去三年的发展速度可能比过去几十年还要快。

你能讲讲 language agent 在过去三年是怎么演化的?嗯,好的,好的。当然,我这这一段历史就有意思的工作太多了,我肯定是不能去那一一覆盖到,但我可以肯定会比较 biased 的,因为我对就是。就我做的这些相关的Agent工作会更了解一些,就因为我做的更多还是啊这种像Computer Use Agents,嗯,所以我可能会结合就我自个人的一些经历来讲一讲。

我觉得最早这边比较有代表性的,我觉得应该还是算是这个 Chain of Thought,就 COT 这个 paper,那个大概是二零二二年初出现的。因为你像刚刚我们聊到这语言,它是包括这种 COT 能带来这种 adaptive computing,呃,这种 adaptive reasoning,这个是一个呃非常本质的一个不同,然后。

我觉得顺宇是做 React 那个是可能二二年末,可能十月份左右出来的。那个实际上就是把 COT 就是给给扩展到这样的一个,因为 COT 当时做的时候,主要还是一些偏这种做数学题啊这些 reasoning 的。这些环境,然后 React 实际上就是把 COT 扩展到一个有外部环境的这样更像 Agent 的一个 setting。

那你就是有一个外界环境,然后你有一个 Agent,每一步这个 Agent 会去。会去 perceive,会去感知这个环境的状态,然后去做一个 C O T 类型的一个 reasoning,去做一个决定下一步的 action,然后再去 take the action,去改变这个环境的状态。啊,所以React的本质上是这样子的,就是想法很简单,但实际上就影响力是啊,还是相当深远的。

我觉得这也是这个Agent里面很多这些工作的特点,就是你可能去看它的整个的这个技术本身,会觉得啊,这个东西好简单,但在这个正确的时间点,能有这个正确的insight去想到并且做出来这个对应的工作,其实不容易的。然后那个时候是我开始当老师第二年、第三年的样子,啊,在OSU,然后也是我们组开始从semantic parsing往agent转向的时候。

我们做的第一个工作叫做 L L M Planner,也是二二年底的时候,就差不多是跟 Chat G P T 同一时间出来的,应该算是最早的用 L L M 来做这种 robot planning,就是这种 embodied agent planning 的这个工作之一。然后到在同一时间,我们其实开始做了另外的工作,就是 mind to web。

Mind2Web应该是第一个基于LLM的Web Agent或者Computer User

Agent,因为ChatGPT是二二年十一月发布嘛,然后我们大概是在二二年十月份开始做这个工作。啊,到二三年初的时候去发布的,但在这个之间,就大概就我们可以按年份来算,就是二二年就还属于这个最早的时候,所以就可能有代表性的工作大概就是那几个,包括那个 robotics 那边还有一个叫做 C can

的工作是 Google 那边出来的。

那个是应该算是公认的这个 L M for robot planning 的第一个有代表性的工作,然后到二三年的时候,二月份有一个很重要的工作叫做 TwoFormer。是第一个用这个L M来做two use的工作,那个是Meta出来的,Luke Zettomayer,就我们之前提到做semantic parsing的,呃,老师也是这个工作的这个主要的leader之一。

虽然agent那个时候还没有形成一个很火的概念,但是这个工作当时已经产生了非常大的影响。当时我人还在微软兼职,当时这个paper是微软的CTO Satya在全公司传阅的一个工作。我觉得萨蒂亚也敏锐地看到了,就是这个工作虽然它看起来简单,但它会有非常强的这种

implications,尤其是对于像微软的这样的一个偏 enterprise 的这个这个 business 来说,当这些大模型能开始用各种现成的 tool 的时候。

它的意义就完全不一样了,所以这是 two former,在大概是二三年初,二三年二月份的时候吧,之后就开始出现一些早期的更像现在 agent 的形态的东西了。比如说二三年三月的时候,出了一个很有名的一个一个开源的项目,叫做 Auto GPT。哦,不知道现在还有多少人记得。啊,在当时,它的火爆程度就跟 OpenClaw 现在的火爆程度差不太多。

当时是很快的就冲到了十万。然后现在可能是有十八万的这样的一个 GitHub stars,就是跟这个 Open Claw 现在的这个 GitHub star 也是没有差太远的,但在那个时间,呃,这个是闻所未闻。GitHub 历史上就是这个 star 数涨得最快的 repo

没有之一。而他做的事情就很简单,就是把这个这个 L M 就包成了一个 Agent 的一个外壳,然后好像看上去它就能去做呃任何的事情。

当然,实际上就是它能做成的事情非常非常少。当然,跟 Open Claw 现在可能也有一些类似。那个时候还有,其实像类似 OpenGPT 的这样的火爆的 Agent 的 Ripple,还有其他几个,比如说另外一个有代表性的,好像叫做 AI Engineer,呃,号称是第一个这样的全自动的 AI Engineer。

它有意思的点是,最后它是发展成了一个公司,叫做 Lovable。所以现在 Viper Coding 这个算是有代表性的公司之一。然后时间到二三年下半年的时候,呃,有意思的点是,早期的这些工作全是 text-based,就只只是基于文本的。但到二三年下半年,就年终的时候吧,GPT-4o 开始出现了,这是第一个真的能打的一个多模态的模型。

然后也是这个Agent的全面,像这种多模态转向的这个时间点,当时我们是先release的MindWeb,呃,那个是就是text only的,然后在GPT 4o出来之后,我们就开始做这个多模态的或者是基于视觉的这种Agent。其实同期做了两个工作吧,一个是MMMU,是这个第一个这种呃multi-modal LM的benchmark,啊,现在也是算是这块最标准的benchmark。

然后在做 MMMU 的同时,我们开始做另一位工作,叫做 CACT,就是这样的 multi-model 的 web agent,啊,也是基于 GPU forward。那个时候GPT Four甚至都没有A P I,所以我们自己hack的一个工具就是把它的这个基于网页的这个界面给它包装成了一个A P I,支持的我们可以去做这个M M M U和C X的这些实验,反正当时还挺有意思的。

然后C X之后就是这些,有些Computer User Agent就绝大部分应该基本都是呃Vision Based的了。或者至少是 hybrid,同期还有几个工作比较有代表性的,比如说这个 CMU 就 Graham Newbig 他们团队做的 Web Arena,那是二三年七月份吧,反正就比 Mind Web 可能晚一个月的样子。

那是也是做 Web Agents,啊,但是是。MindWeb 它的这个想做的更多是这个我们叫做 generalist agent,就是你去任何的一个网站,你要它去做什么事情,它都可以去帮你去做。而 WebArena 还是稍微更传统一点,它更像是那种 RL 的

environment,所以它就做了几个网站的这种呃 full replica,就是这种这种 simulate 的几个网站,然后让这个 agent 在这里面去做事情。

这个其实也挺好的,就是因为,呃,如果真的要去真的这种 live website 上面去做,你就会有各种各样的问题,包括这些网站会变的问题,包括这些 legal 的问题。所以,这 web arena 其实提供的这样的一个更加可复现的一个环境,啊,所以影响力也是很大的。然后到二四年的时候,你看早期的这些 agent 它都其实主要是 web based。

到二四年的时候,开始出现就更像desktop啊和mobile这些环境的agent,比如说于涛他们组做的OS World,算是这里面非常有代表性的。那是可能是二四年三四月份的时候,那主要是desktop,然后同时呃我们没有讲太多的,实际上是另外的一很重要的agent的一支,就是这些coding agent。

你像 Sweet Bench 可能也是大概嗯二三年,没记错的话,可能二三年下半年左右出来的,然后那个是就引领了这整个 coding agent 的这个发展。但是我没有特别仔细的去 track 就那边的这个时间线,所以可能就聊的会少一点。但到二四年像 OS World,然后包括这个,比如二四年下半年的时候,我们做了一个比较有代表性的工作,叫做 U Ground。

那实际上它这个名字呃比较奇怪,但实际上它推的事情就是说,这些 agent 它应该 use computers like humans do。就是它应该像人一样去用电脑,人的 embodiment 是什么样的 agent 就应该是什么样的。那人的 embodiment 是怎么样?就是每一步我们就是去做一个 visual perception,就我们去看一下这个当前的屏幕,对吧?

然后再去做一些 reasoning,在这个屏幕上去 take some action,而且是这种 pixel level 的,比如说就点击这个地方,或者是在那个地方去 type something,这样的些 action。这个 embodiment 它跟之前的这个 computer user

agent 的 embodiment 是很不一样的,因为之前的 agent 还是会去用像这些 HTML 就这种 text based representation。

那在之后,在 U ground 之后,这个你像 Cloud Compute Use 啊,你像这个 Open AI 的 Operator 啊,他们其实采用的 Embodiment 都是像 U ground 一样的 Embodiment,就是 Visual Perception 加 Pixel

Level Actions,包括现在就是最近这个 Cloud Co Work、 Cloud Code,他们开始出现这个支持这种 Desktop 这个 Compute Use 的功能,或者包括 Cloud in Browser in Chrome,他们其实都是这样的一个 Embodiment。

Cloud computer use其实也是那个时间点出来的,大概就是二四年十月份的样子。然后到二五年的话,你像OpenAI就开始出operator,包括ChatGPT agents。然后可能二五年上半年,在Cursor的这个影响下,这个Anthropic也开始出来call the

code。然后到二五年下半年的时候,因为这个基模的这个 coding 能力的发展,这个 Claude Code 开始以极其恐怖的速度大爆发。

就是尤其是如果你是在硅谷这边,因为当时我刚好搬来了硅谷这边。嗯,就能明显的感觉到,就是,嗯,大概是 Opus 4.5 出来之后,这个大家的对于这个整个 coding 的感知和这个实践都发生了翻天覆地的变化,而那个变化可能就是在那么一两个月之间就发生了,就基本上已经不自己写代码了,对。当然,这个要去 diffuse,它要扩散到这个其他的的地方,就硅谷之外,它还需要花一点时间。

但是这个速度是非常恐怖的。然后你到其实 Open Claw 出来也就是二五年底十一月份这样子,当然它真正火爆好像是要到今年二月份的时候吧。大概这个 Language Agent 就是蜻蜓点水的一个一个总结一个时间线,我觉得大概就是这样。嗯,之前你们把 language agent 又分为了 web agent、 computer use agent、 coding agent 是这么划分的吗?

但好像现在到了这个时间点,大家对于 coding agent 的感知是最强的,它的火爆的程度也是最强的。我觉得是也不是,早期的时候我们是有一些划分,但我一直觉得这种划分是比较临时性的。对,你会分它是 browser use 还是 desktop use 还是 mobile use,

right?然后你还会分它是不是故意,它是不是基于这种图形界面的,还是它是基于这个 text-based representation 的,或者是它是 coding 然后 two use 就 coding 加 two use 的。

但 at the end of the day,就是最后这些东西都是在快速的 converge。最后 at the end of the day,大家想要的就是一个 universal digital agent。我就是一个可以在这个 digital world 里面做人能做到所有事情,甚至做得更好的这样的一个 agent。

然后这些它是 browser 还是 desktop 还是 mobile,它是这个 GUI 还是 CLI 还是 text。这些API还是coding,其实只是a means to an end,它只是一种手段,而且是一个正在这个boundary正在快速消弭的这些手段。嗯,到今天你觉得它消弭到什么程度了?

然后以及你怎么认知 coding 啊?我觉得这两个问题其实还真是很相关的。其实一方面,这方面不得不佩服 Dario 就 Anthropic 的 CEO,就他在这两上把握的非常准。Coding 它是非常 fundamental,它就是这个至少对于Digital

world来说,而且我觉得不仅限于Digital world,它是这个最根本性的这个fabric,这个building layer,就是你所有东西都能用code来表达,at the end of the day。

另一方面是,我之所以会提到就是这些boundary都在消弭,其实也是跟coding有关系的。就我觉得是coding会来主导去打破这些boundary。你像比如说,简单来说,你说GUI,你是要GUI还是要这个这个text base这些CLI啊,或者是API啊?那你完全可以用coding的形式去把它们变成等价的,因为你GUI本身其实是就是通过code render而来的嘛。

对,这个大概就是讲到这个程度吧。再往深的讲,当然之后如果我们想要聊这个,GUI和CLI到底有什么区别,这个我们也可以再展开聊一聊。我在想,你刚才说就是你们之前做过一个tutorial,把当前的agent叫做language agent,那今天它会叫coding agent,那么就是今天的定义会发生变化吗?

啊,不会。首先,就programming language它本身就是language,就language它。从来不是只是说自然语言,它是一切符号化的东西。那包括编程语言,包括这些 diagram,就是图表化的语言,包括手势,这些都是 language,是很多所有这些基本都是自然语言的一个衍生物,derivative。

所以,呃,language其实包括了coding作为一个language的,对这个应该基本不会有异议的。coding它就是叫programming

language。所以有点像,就是自然语言是人类的脚手架,coding是机器的脚手架嘛?就是他们的表达形式,他们的表达是不一样的。可以这么说,但最后。我其实倾向于就不会去有太强的这个区分,因为你最后这个所有的 language

它其实要达到的目的都是一样的嘛,就是一个去描述和去操纵这个世界的一种工具,包括沟通的工具。

那它不管它是这个 physical world 还是 digital world,而且 coding 其实也不会仅限于 digital world。当然, programming language 它作为一个 formal language,就是一个呃,它当然是有它的一些独特的性质。但我觉得从 agent 的角度来说,可能这些性质它并不是一个特别本质的区别。

所以,我我一般可能不会特别刻意的去区分这两个东西。嗯,哎,苏老师,你是怎么进入 agent 这个研究领域的呀?像之前讲到这个 semantic parsing 到这 agent 的这个转变,对那个时代的那个转变,实际上也就是我个人的研究的这个转变。当然是可能因为我做 semantic parsing

这个背景,所以导致就是算是可能最早去转做 agent 的这个这个 research 部部之一,嗯,所以做的一些比较早期的工作。

我觉得再往深去究的话。可能跟我个人的兴趣也是挺有关系的。为什么我会去做 semantic parsing?因为 semantic parsing 它是一个在当时的,即使是在 NLP 来说,就 NLP 它当时它就也不算是这个人工智能这些子领域里面最火的方向,呃,或者显学,因为那个时候可能还是 computer vision 啊, machine learning 啊,就是这种是更加显学一点。

但我在 NLP 里面,我还偏偏选了 semantic parsing。前面那个 person 自其实在 NLP,我觉得当时也可以是说上是一个 niche area,就是一个比较小众的领域。最后,甚至我知道,就是有一些 NLP 的老师,他会跟他的这个学生说:“你做什么 topic 都可以,但不要去做 semantic parsing。

”就是因为那个确实做的人会比较少,就你就会导致一系列的问题,就是可能你的 paper 更难被接受啊,可能你这个 citation 也会比较少啊。但是我当时还是选择做 semantic parsing,因为当时候有一个比较扒着我的问题。就是我发现好像大家在这个有点要成为电脑的或者这种digital world的slave叫奴隶的这种感觉。

你像这些软件、这些网站变得越来越复杂,你可能你要去甚至复杂到一个程度,就是对于一般的人来说,你要去上课。才能去学会用一个软件,就是你要去专门上这个Excel的培训班,要花好几个月,然后你要去,甚至像更复杂的系统,像这种所谓的,呃,我喜欢用的例子是那个AWS Console。就是这个A W

S上面它有几百个不同的功能,然后可以组成可能几千个不同的工作流,然后你要去学会这个用这些东西成为一个A W S expert,它你可能要花几年的时间。

就好像人在开始变成电脑的奴隶,啊,我觉得这个事情好像不应该是这个样子的。就是我当时我 P H D defense 的时候,就还有一句,我觉得现在想想可能有点比较中二的一一个一个宣言,叫做 Let machines understand human thinking, don't let humans

think like machines.就是让机器去理解人的语言,理解人的这个想法,而不是让人去像机器一样思考。

但当时这个后者就是已经在持续发生的事情,随着这个。Digital world进一步的这种高度的specialization的发生,就高度的这些分工、这些特异化,就导致人要随之去变得这种特异化,那产生的这个这样的一个很大的问题。所以这是为什么我会去做 semantic

processing?那其实也是为什么在这个 L M 出现之后,或者是在它 ChatGPT 出现之前,为什么我会开始做这种 language agents?

它本质上都是要去实现这样的一个目标。啊,只是现在就是你用的这些技术用的手段稍有不同。刚才我们也提到,现在 Open Cloud 非常的火爆,就 Open Cloud 有带来什么新的范式的变化吗?它有把 Agent

更往前推一步吗?先聊这个还挺好的,因为它跟我们刚刚聊的事情实际上承接的还挺相关的。我觉得,在就我现在回顾的话,其实 Open Cloud Moment 它和这个 Chat G P T Moment。

是有非常多相似的地方的,你看 ChatGPT Moment 它是它是怎么样的?它是底层的技术其实已经。开始变得 ready,就底层的技术,就 L R M 这个事情,其实已经在 Chat G P T 出来之前,其实已经发展了好几年了。就是从这个大概一八年 Bert 出来,到这个后来的像什么 Almo

一九年,然后到可能 G P T One 可能也是一九年,到 G P T Two G P T Three。

GPT Three其实是Chat GPT的前身了,就是这个L M其实它已经发展的比较ready了。然后Open A I在Chat GPT做的事情是把这个模型底层模型去fine tune了一下,就让它变得更像一个chat bot。然后把这个Chatbot给直接release给这个general

public,让他们来来试,它底层的技术实际上是没有太大的变化的,更多是一个交互形式的变化,但这个交互形式的变化反而是这个整个事情的这个导火索一样,因为大家突然发现,原来这个LM已经这么厉害了,就是你去随便跟他说什么,他好像都能似是而非的给你一个回答。

right啊,那一下就导致了这个所谓的ChatGPT moment,而这个其实当时OpenAI他们自己也是非常的surprised,就是就是那些那些就是做这个单纯的研究员们也没有想到说,我把这个东西变成一个Chatbot,就大家就一下子这么喜欢。但实际上,这个 ChatGPT 的成功其实导致了后来

OpenAI 内部的一些问题,比如说伊利亚他这个主导的这些 fundamental research 和那个偏 applied 这个 ChatGPT 那边的一些摩擦,后来可能甚至导致的这个后来这个 OpenAI 的这个 Sam Altman 的这个整个公变的这这样的一个这个事情。

不过那个就是后话了。那 OpenClaw 它其实也是类似的。就agent,在Open Claw之前,其实已经有了很大的发展了。就是技术上,它已经是变得ready了,包括coding的发展,包括其他agent的这些设计范式的一些发展。就大部分做agent的人去看Open Claw的这个code base的话,可能会有一种nothing is new here,就这地方没有什么创新的这种感觉。

但实际上,它是一个也是一个交互形式的一个深刻的一个变化。之前大家做 agent 都会比较的比较的克制,因为呃 agent 这个事情,它就是像能像人一样去做各种各样的事情的话,那它是很危险的,它是能去产生各种各样就是 harmful 的行为。Right,所以大家去给这些Agent的,不管是给他的这个Scope呀,还是给他的这个各种Permission啊,都会很小心,尤其是学术界的人,对吧?

或者是大公司的人,对吧?大家都得很小心这个负面的影响。而 Open Claw 其实一方面是它的这个交互形式的变化,比如说它这个让你可以在 WhatsApp 啊,像这些即时通讯软件里面去跟它进行交互,然后它有一个自己独立的一个环境,所以它是二十四小时 always on,就这种形态上的变化。另一方面,实际上也是这个用现在大家喜欢讲的一个词,就是它是。

Ulo it,哎,他就不管这些 permission,这些 safety,反正所有东西都给我打开,然后你知道这些 agent 想干嘛就干嘛,然后把这个 release 出去,因为它是开源的嘛。如果你是做一个闭源的东西,然后要这样的一些 permission,这样 Ulo 的话,那会出大问题的。但因为它是开源的,所以它实际上是这些问题会相对小一点。

然后大家就去给他各种各样的 permission,之后发现哦,原来这个 agent 已经这么厉害了,已经可以做这么多不同的事情了。所以它跟 ChatGPT Moment 在这些方面来说是非常类似的。而且我相信,就再过两年来看,它的这个影响力可能也会是一个类似的规模。就 ChatGPT

moment,它是标志着这个 LLM 这个范式的变化,而 OpenClaw 这个 moment,它是标志着 agents 这种,尤其是各种高度自动化的,或者是这种 personal 这个 agent 的这个范式的变化。

它会带来什么后续反应?后续反应其实现在已经非常明显了。虽然它这个爆火也才一一两个月的时间,但已经是我觉得很深刻的去改变了各个科技公司的行为,包括他们的整个的技术路线。你像。Ansarpi这边这个 Cloud Code 这个去各种抄 Open Claw 里面的各种

feature,但我觉得可能抄也不准确,就是没有 Open Claw,我觉得 Cloud Code 里面也会自然而然的去加上这些 feature,只是这个更像是一个催化剂的一个作用。

然后包括这个 OpenAI 它的整个全面的转向,就是去砍掉各种各种实验性的东西,然后去 focus 在 agent,focus 在 productivity coding,包括 NVIDIA,呃,老黄还说这个现在每一个企业都要有一个 class strategy。来,包括国内的这个各个大厂在这个方面的动作都是非常快的,然后这个也势必会很快的辐射到普罗大众吧。

然后可能就是最近的各种一定程度上,就最近看到各种裁员的新闻,就是跟大家对于整个这个 agent 的能力的 perception 是,我觉得是有一些很大的关系的。我自己有一个感觉,不知道对不对啊?我感觉在中国 Open Claw

的火热程度要比美国更高。嗯,我觉得这感觉是对的,但美国这边也很火,但只是它的火主要限于开发者群体,就或者说就是离技术离 tech 比较近的这些人,所以大家还是在研究怎么把这个事情可以做的更深,而中国可能就属于,我觉得这也是这个两边舆论的或者是这种科技辐射形式的一个一贯的一个比较明显的一个

pattern 的不同。

中国就更加出圈,我觉得可能更加全民化一点,对吧?就是街头巷尾,包括什么各地政府,各都开始推,突然一下子都是开始聊 Open

Claw,可能就是说它的叙事是不太一样的。那美国这边仍然是一个。主要是一个开源项目的这样的一个叙事,那在中国可能这个叙事已经有点,我不知道,可能你感触更深一点。我觉得可能已经变成了一个时代性的这样的一个产业的机会,甚至说大一点是这种个人的翻身的工具,甚至可能有一种就是如果不学就要被时代淘汰的那种焦虑的感觉,是不是?

美国没有吗?至少就是在 tech 圈之外,我觉得这个辐射是远远没有中国这么大的。当然,这个也有人会调侃说,就是只要我学得慢,就不用再学了。这个,这可能 Open Claw 也会是那个样子。我还听说,就是国内会有那种家里面这个儿女就工作比较忙,没有时间,然后家里的老人就拿着电脑去,比如说去这些 event 去找人去帮忙装 Open Claw,还是确实挺挺有意思的。

就我觉得这可能跟中国的这个技术基因也是有关系的。就除了这种舆论这个模式的不同,就中国一向是在就前端技术的应用上,就应用层它动作是很快的,对吧?像像 Eric Schmidt,就是 Google 的前

CEO,他其实专门聊过这一点,就是这个是一个很有意思的洞察啊。就美国在应用层一般就慢很多。而这其实我觉得在AI时代是一个很大的优势,因为现在我们面临的情况是,就是基础模型它的intelligence,它的智能其实已经超过了一个临界点,就是对于很多的有用的事情来说,it's good enough。

有很多的事情以前没有人做,是因为它的摩擦太高了。你要去做这些这些事情太麻烦了,然后就导致它的经济效益,它这个经济账是算不过来的。但现在这个AI的能力其实已经使得他们可以极大的去降低这些摩擦,所以很多事情就已经超过了这个从不值得做变成值得做的这个阈值。对吧?那他就有了商业价值了。但我们现在缺的是有这些人有足够的洞察,有足够的这个执行力去发现这些价值,去抓住这些价值。

啊,我觉得这这点上,我觉得可能中国是有很大的优势的。当然,这个过程肯定会有一些浪费啊。比如说,有些人可能那个先花钱去装了 Open

Claw,发现啊没什么用,然后又花钱找人卸载,对吧?但是对于社会整体来说,我觉得仍然是一个很积极的发展。对,但最后我觉得,可能对于Agent作为一个Agent的一个researcher,就一个研究者来说,我觉得就是从这个Open Claw

Moment到这个我们刚刚讲的这个对社会的深刻影响要真的发生,我们还是有很多工作要做的。

就我们要让这些Agent变得真正的好用、容易用,因为你现在用Open Claw它的门槛还是很高的,大部分人可能是很难从这里面找到价值的。我们需要让这个每个有独特想法和洞察的人都能把这个真的转换成可以产生价值的 agents。所以我觉得这可能说的有点大呀,但我确实,尤其是看最近各种这些裁员的新闻的时候,我觉得还是很有感触的。

因为现在这个技术进步太快了,如果我们一不小心,你可能确实 job displacement

就是这种失业的速度,可能会远超这个新的工作机会产生的速度,那社会可能是会出现比较大的问题的。所以,作为Agent的研究员来说,我觉得我们是需要去,呃,让这些Agent变得真正的好用、容易用,让每个人都能去把他的想法变成实践,啊,这样其实可以去一定程度上去推动这种技术的民主化,而不是说就是让这个核心的技术,因为它门槛比较高,所以就只能被少数的巨头去垄断这个样子。

所以我觉得肯定是这是普通的人的机会吧,然后当然也是 AI researcher 的责任。你刚才说中国一直在应用端在技术平权上可能更能代表它的技术基因,那你觉得在这种大模型的产品上,它依然还是需要是一个模型公司来做产品吗?依然是拥有模型的公司在产品端能够更有优势,对吗?因为今天OpenClaw这种做应用的公司,最后也都被模型公司给吞掉了,当然是收购啊。

嗯,这是个好问题。我觉得不近人,就如果说你要做的是一个,这可能跟我个人的理念有一些关系。就如果你要做的是一个非常通用的一个东西,就是你想成为这个整个 digital world 整个电子世界的唯一入口,这种通用超级通用的 agent,那这个东西它是更适合模型公司来做的。但是,我不觉得那个是唯一的机会,因为。

这个世界是非常复杂的,这个世界不是一个世界,它是由可能几百万个小世界组成的。每一个小世界要做到真正的产生价值,它需要的是 specialization,需要是这样去去 specialize to become expert,成为专家级的这种 agent。这是可能,这种大模型公司是很难做的,因为他们天然。

会去想做平台性的东西,想做统一的东西,而不想去做这种需要specialize的东西。这跟他们的组织架构啊,跟他们的这个商业模式啊,都是会有一些相冲的地方。就它不是一个选择的问题,就是可能就是即使他们选择去做这个,可能也做不好,因为它很多东西经济上来说,并不是他们有比较优势的东西。包括非模型厂商,包括普通人,都还是有很大的机会的。

嗯,对,这可能也是跟我们这个公司就 New Cognition 这边的这个哲学啊和目标是是比较相关。那说说你的创业吧?你为什么现在选择你是on leave了是吧?从高校然后开始了一家新的创业公司,嗯。对对,公司叫做 NeoCognition,Neo就是 N E O,就是 New Cortex,这个是新就New的意思。

然后我们的定位是一个Agent Research Lab,就是所有跟智能体跟Agent相关的问题,如果我们觉得是有意思,或者是可能跟最终解决Agent这个问题有关系的话,就我们可能都会有兴趣去做。所以这个是比较长期的scope,但短期来说,中长期来说,可能们是更多的是关注刚刚我们提到的一个关键词,叫做。

specialization,或者specialized intelligence,而不是general intelligence,就不是通用智能。因为现在现在AI它就是到了一个阶段,是我们的通用智能很强了。尤其是在digital world里面,你让他随便给他一个什么,你就给这个cloud

code啊,你给这个I don't know probabilistic computer,最近也那个不错的,或者Open Claw,你随便给他一个问题,然后他可能都能去自己去琢磨琢磨,然后可能大概有一个百分之六七十的概率,也许他能跟你做对了。

Right,就是如果它不是一个高度专业性问题,然后它有这个必要的信息的话,那其实我们现在缺的是 specialized intelligence,就是你要去,当你这种通用智能变得廉价,变成这个这个标配的时候,那它的 differentiation 实际上是来自于 specialization。就像我之前提到说,这个世界实际上是由几百万个小世界组成的。

你每一个职业,每个懂妹,每个profession,到每一个公司。甚至到每一个环境,比如我们每一个软件、每一个网站,它其实都是自己的一个小世界,而这些世界加起来的 entropy 是几乎无限的,就你不可能有一个,呃, a single agent,就是一个单一的一个 agent 或一个单一的模型,它能去 capture 到所有的这些 entropy。

所以你势必会有一个,是有一个适应一个adaptation和一个specialization的过程。那怎么去更好的去model去抓住去学会这个specialization这个过程,嗯,是我们我们研究的重点。嗯,你倾向于认为有哪些小世界呀?你们会重点去做哪些方向呢?我们比较horizontal,所以就不会说就是只会去focus在某几个vertical这个样子。

但自然来说的话,我觉得会偏enterprise一些,就是因为enterprise里面会对于这个深度,对于这个agent的这个能力的深度会有更高的要求。所以现在不是大家会鼓吹一个词叫做“SaaS Apocalypse”,哎,就是这种软件整个软件的这个末日论的这样一个说法,说这些你认同吗?SaaS的,我觉得是也不是吧?

就是软件的这个估值逻辑确实是在变化的,就是它的这个margin是在被迅速的压缩的,这是为什么他们股价下跌这么厉害?但很多软件还是有很大的存在的价值的,就我不觉得是我们真的会去用Agent去替代或者重写所有的软件。那个事情是不太会发生的,当然它不代表就是软件这个作为这个business它还有那么大的一个一个margin,所以那个是现在主要的一个变化。

另一方面,我觉得一一方面当然是有这些AI native的公司在试着去取代这些SaaS公司软件公司,但另一方面,这些软件公司其实也是在非常积极的去自救。就是他要去去Agent的话,要去把它,其实是本质上是想把它从,因为软件它本质上是一个tool,是一个工具。而现在大家想要的是结果,是

labor,是这个像 AI employee,所以现在这些软件公司就是在试着转型,从一个 tool 转成一个 labor market。

就他在他的平台上,以他的软件为平台,可以去直接交付结果。就是谁赢谁输,就是AI native,包括这些frontier model company会赢,还是这些saas company会赢,或者是最后达成一个equilibrium,呃,这个还不好说。但因为这个事情是也就是今年才开始发生。你们最近是不是刚完成了一笔融资?

这个融资规模是多大呀?美国市场现在好融钱吗?这也是个好问题。那我可以先聊聊,就是我们自己,我们是融了我们的seed round,就种子轮啊,融了四千万美金吧,应该算是比较大的一个种子轮。然后我觉得美国市场现在就今年初可能跟去年底又很不一样,就有个人的这些 limited view。就我觉得融资好像现在呈现一个非常严重的两极分化或者马太效应,就是你这个头部的这些不管融资的规模还是估值越来越大。

但这个 on average,这些公司是融资越来越难,而头部这些越来越大,这也体现在多个方面。一个是这些,你看到最近很多这些 new labs,大家可能一上来就融几千万到几亿美金。到这个,还有十亿美金的,对,十亿美金。到这个growth stage,就包括Open AI这个Anthropic,他们的融资额加起来可能就占了这整个市场的融资额的,I don't know,可能百分之三十到百分之五十。

Right,包括这些 VC firms,其实很多也是在两极分化嘛。它就是大家都说,就是这些中间的这些 VC firms,实际上是现在是会是比较 struggle。那你要么就变成一个 mega fund,像 A 16 Z 啊这样,或者 Light Speed,然后他们也很多会去去投它 growth stage,要么你就变成一个 boutique firm。

这个高度,这种vertical的,呃,一些你通过关系,通过你的deep knowledge,嗯,可以有一个edge的地方,还挺有意思的吧。好融吗?过程中你们弄了几个月?我们是去年七八月份才就是创立的公司嘛,然后到今年三月份,呃,就将将六个月。应该还说还算还算顺利吧,嗯,相较于大部分人来说,可能我们还算比较幸运的。

但因为因为我们在这个,尤其是Agent方面,就是做过比较多的工作,反正大家还相对来说比较认可吧。投资人现在看的是哪些呀?看你过往的工作。过往的工作是一方面,当然这个过往的工作也分不同的类型。比如说,如果是这个在 Frontier Lab,然后有比较长时间的核心的贡献,它的这个估值逻辑又很不一样。然后也看你的这个 thesis 到底是什么。

因为现在这个 space 太 chaotic 了,太混乱了。你要所有的故事,就是阳阳光之下没有新鲜事。你可能所有的故事大家都听过很多遍了。你到底能怎么样去找到这个 differentiation?啊,然后能同时这个differentiation既能让人觉得是credible,呃,而且是feasible,就是你这个这个事情是有可能做成的。

然后你这个团队是这个one of the best to do that,啊,同时这个做成之后还是有很大的商业价值的。再然后,这个 OpenAI 和 Anthropic 它轻易不能去 copy 的,所以你会需要有很多的这些因素。嗯,我相信很多投资人都问过你这个问题啊,就是你做的事情为什么大厂不能做呀?

为什么一定要做一个创业公司去做呢?也就是你说的,为什么 OpenAI 不能 copy?我觉得,它根本原因是在于你要做的事情有多难。就以前我们,因为我们组做很多的这些 benchmark,就是我做 benchmark 的时候,包括你比如说去那个上次那个 GPT 五点四 release 的时候,可能他们用了二十来个 benchmark,有三个可能都是我们组的学生做的。

就是我做 benchmark 的时候,就喜欢强调一点,叫做。Construct validity或者叫做 ecological validity,就你的 benchmark 它 evaluate 的事情,应该跟你最后你想要这个 AI system 达到的效果,就产生实际价值的那个事情,应该要高度正相关的。

那如果你能保证这一点的话呢,你这个 benchmark 就会有很大的价值,以及有有很长时间的这个生命周期。那我觉得做公司也是一样的,就你要选择一个赛道。如果这个被解决,不管是被你解决,还是被其他被 OpenAI、Anthropic

解决,它都会给这个整个人类社会带来一个根本性的变化。它上限非常高。那如果是这样的一个赛道的话,它势必就不会只有一两家 player,因为它几乎是一个无线上限的这样一个 space,那它就可以容纳更多的 player。

像我们现在想做的事情,比如说这种我们叫做 specialized intelligence,或者是这种 expert agent,就我们希望能把这些通用的 agent 能能去有一套这种学习的方法,可以让它去快速的 specialize 成为各个领域的专家。那这个事情,首先一非常非常难,至少现在没有任何人能大爆票说这个我知道该怎么解决。

二就是如果能真的做到的话,它的这个呃对社会的影响,它的经济价值会非常非常高。所以在这些前提下,那这个竞争的话,它就不是那么值得担心的事情了,因为它这价值这么高,就潜力这么大,但是这个 uncertainty 又那么高,就其实就势必会导致它会有不同的技术路线去实现这个事情。而没有人能打保票说哪一个技术路线是对的,也有点像这个 robotics 吧,对吧?

因为 robotics 现在现状就之所以大家能有那么多的 startup 融那么多的钱,那么高的估值,很多甚至都完全没有任何的交付的这个情况下,就是因为一这个 space 它的想象空间非常非常大,二它的 uncertainty 非常高。没有人能打包票说,不管他是做 V L A 也好,做这个 Word Model 也好,做这个其他就是以硬件为主导的一些技术路线也好,没有人能打包票说我这个就是对的。

所以,其在这两个因素的这个驱动下,就是大家就会去 play some crazy bets。那我觉得现在这个我们我们这边这个 agent 的这边的话,也是一个类似的一个情况嘛。你们现在选择什么样技术路线?我当然现在还没法说呃特别多的细节,但可以在一个比较 high level 聊一聊。就我们刚刚其实聊到了这个一个词很多次,就叫做 world model。

就Word Model,它是一个非常非常重要但又非常非常广的一个概念。当然,现在大家提到Word Model,相信你在很多的访谈里面也聊到过这个话题。但大家就肯定会倾向于是说,你就是一个Vision-based Model,尤其是关于一个Physical World的一个Model,然后它可以主要去做这种Next Frame Prediction。

做 video prediction, right,或者是去做一些 3D reconstruction 三维的重建,或者是在这个过程中学到可能一些 latent variables,像 Japa 一样的 model,然后用这个来不是去做 reconstruction,而是去做

planning,做一些其他的 prediction, right,但它整体上来说,大家都是比较 vision focused。

因为主要是来推这些的人,也是主要以 computer vision 的人为主嘛。但是这个是很重要的工作,也是现在 obviously 就是 L M 缺欠缺的能力这个方面的这些 bets 是非常值得的。但另外一方面来说,就 word model 它不仅仅是限于那个样子的。word model 是我觉得是一定程度上是整个 human intelligence 最重要的概念。

就我对 world model 的这个定义,可能比这个大部分人都要来的要广。你想象,就是举个简单的例子,比如说我们大学刚毕业的时候去了一个公司实习。第一天开始工作,完全不知道这个工作的内容是什么样的,这个公司是怎么样的。但我可以很快的在这个 learning on the job,就是在这个工作的过程中去持续的学习。

我学习了很多很多的内容,我学习了公司的组织架构是怎么样的,它表面上的这个 org chart 是怎么样的,包括它实际的 org chart 是怎么样的,到底谁说了话管事儿,right?到底我做什么事情要去去找谁来批准,包括我这个我这个工作需要的各种软件。它是怎么用的?在这个软件上做这个事情会有什么样的结果?

包括我要去做的各种工作流(workflows),包括我这个跟人与人之间的整个这个mental model,叫所谓theory of mind,所有的这些其实都是world model的一部分,就是你这个工作、你这个公司它形成的这样的一个小世界,一个micro

world。而我们持续学习的过程,去从这个一个intern变成一个专家的过程,就是去构建a model of this micro world的过程。

对吧?嗯,但这个 model 它显然不是一个 video model,但 vision 当然是里面很重要的一部分,但显然也有更多的部分,它是天然就是符号化的,symbolic 的,甚至有一些就是非符号化也非 vision 的部分,但它最后归根结底就是我们持续学习。学到东西是这样的一个 specialized word model,而这个也是现在 agent 它的学习最欠缺的部分。

这是为什么?你现在用很多的 agents,虽然它好像乍一用觉得非常的强大,让它做一个什么事儿,它都能做的似是而非,right?可能百分之六七十的概率能做对,可能但百分之三四十那个就不知道因为什么原因就失败了。但是人不是这样的,如果我们是真的成为了某一个事情的专家的话,那我们就基本上是百分之百能做对。

这个是因为我们有这样的一个specialization的过程,我们学会了对于这个工作、对于这个领域的所有的这些ins and outs。Right,然后在我们成为专家的这个过程里面,我们会变得更加的 reliable,做事情的成功率更高,而且这个稳定性更高。同时,我们也会变得更加的快,也会变得更加的 cost effective。

这个恰恰是现在 agent 面临最大的这些挑战,在它又不 reliable。也不 efficient,还特别的贵,就要消耗 frontier model 特别多 tokens,所以这是为什么我觉得这样的一个 learning to specialize by learning the world model of work 是现在可能最大的机会之一。

我可以粗糙的理解,比如说你会做一个公司的HR,做一个公司的财务,做一个公司的法务,就是做这种在公司角色中承担不一样的角色的人吗?嗯,可以。当然,这个产生这些specialized agent,就是这些specialized agent本身。或者这叫做 expert agent

好了,它本身不是我们的目标,我们的目标是要去研究出来这一套学习的方法,continual learning 的方法,使得我们可以给定任何的 domain,给定任何的职业,给定任何的环境,它可以去学出来这样的一个 expert agent。

就现在的 agent 的训练范式不足以训练出来这种 expert agent,呃,不足以。你现在 agent 就主要两个训练范式嘛,一个是这个模型厂做的,那个是这个以 RL 为主吧,就 RL post training,啊,包括可能会去做很多的这些 synthetic environments,RL gyms。

但你想,就R L它能做到的这种持续学习的效果和人的这种持续学习显然是天壤之别。它不管是学习的速度上也好,它的准确性也好,它的这个学习的内容和这个范畴也好,都是很不一样的。然后,另外一种学习的方式,那可能就像这个 Open Cloud 里面一样,或者 Cloud Code 里面,就是这种 Skills 这些一样,更学术化一点,可能叫做 Nonparametric Learning。

叫你去一些做一些非参数化的一些学习,现在主要就是以写 M D files 为主了。就是你这些什么 SO 到 MD,Skill 到 MD,然后现在在逐渐的演变到就是呃到这个 Hardness Level。最近会有一些工作,什么 Meta Hardness、 Auto Hardness,就是想用这种非符号化的学习方法去重写这些或者去提高这些 Hardness。

我一直对 Non-parametric 是很有热情的,我相信这个 Non-parametric Learning 它还有很大的空间。但就是它光靠 nonparametric,它的这个上限也会是比较有限的。我觉得这这现在的这两个范式都还没有很好的去解决这个问题吧。嗯,最近也有另外一个词很热,就是

continual learning,或者叫 online learning,这个会是你定义的新的学习方式吗?

我觉得可能这个事情是这样子的。Continual learning 它是一个含义特别广的词,普通人会有很不一样的用法。但其实,比如说最早的时候,我们都说 continual learning 的时候,是一个很受限的一个用法,就是说我一个模型,我知道我已经学会了一些 task,然后我现在想让它去学一些新的 task,新的人物,我怎么能在学会新的任务的前提下,不要去忘掉已有的任务?

那也是最经典的这个 machine learning 里面 continual learning 的 setting。但现在这个用法就五花八门了。你的 personalization 是一种 continual learning,你这个 recursive self improvement

就是你怎么去用这一代的模型去更好的去 develop 下一代的模型,包括这个 Open Claw 那样子的也是一种 continual learning,包括 RL 这个 post training 也是一种 continual learning。

现在用法就非常多样化了。但我觉得可能对于我个人而言,我更关心的是,你说 continual learning 或者持续学习,你到底学了什么?你学习的目标是什么?那对我来说,现在这个 literature 里面的这个最大的 gap 就是,我认为这个学习的目标应应该是一个 word

model。就你的持续学习的目的是为了去更好的学会一个广义的 word model,所以这是可能就是把这两个很火热的词联系到一起的方式,叫 word model 和 continual learning。

我觉得,嗯,它本质上是一件事情。这些概念和 human intelligence 有什么关系吗?和人类智能?对,有非常深的关系。那刚刚我们举了一个这种一个 human intern 怎么变成 expert 的这个过程,那我们可以讲的更深入一点,就是从这种呃神经层面,从这种 neurobiological 的层面,这个事情到底是怎么发生的?

那这也是其实我们公司这个名字的来源。它里面最重要的就学习,对于人类来说最重要的部分是叫做 neocortex,就是这种新皮层,right?这它大概占据了我们大脑的百分之七十。但就 neocortex

这个东西很有意思。它是从进化上来说,它是非常晚出现的,它就是在哺乳动物里面才出现,可能大概两亿多年以前,啊,而且早期哺乳动物的 neocortex 是非常非常小的,然后一可能一直到比如说大猩猩之类的容量才开始急剧的增大,然后到人的时候,这个就是比较登峰造极了,就是这个 neocortex

占这个整个大脑的比例。

那它这个时间进化时间这么短,就意味着它其实就是 neocortex 它到底是在做什么?它到底起一个什么作用?这个事情实际上是这个对于研究人脑来说可能最重要的课题。但直到现在,我们也没有完全去呃解决这个事情,但我们可以有一些有意思的 hypothesis 或一些 theory,嗯,和一些事实。有一个事实是,因为它进化的它是这样的一个这么新的一个进化,就导致它其实没有那么长的时间。

去做太复杂的,或者太高度特异化的事情,它不像我们大脑的其他部分。就是如果看其他部分,什么脑干啊这些、海马体啊这些、小脑啊这些东西,它都是进化了很长很长时间,就远在哺乳动物之前。就是它们都是高度特异化的,但 neocortex 不是 neocortex,它进化的时间短,但是呢,它同时要做的事情又特别多。

就我们所有的跟智能有关的东西,我们都会去导到 new cortex,对啊,你从视觉、语言、听觉、逻辑推理,所有这些事情 planning,它就天然的会。导致可能从进化来说最有效的方法,就是你去找到一个 general enough learning machinery,然后一个结构可以去承载这样的 learning machinery,然后再把它重复很多遍。

Right,那这样的可能你就在演化上就不需要花太多的时间,然后你在这个DNA的这个encoding上,你也不需要花太多的这个space,因为你DNA也没有那么大的space嘛。那从neocortex的这个解剖结构来说,它其实也确实是这样子的。就你会发现,虽然功能上这个 neocortex

有很多的分区,比如视觉区、听觉区、这个感知区这样子,但它们从解剖结构来说都是高度相似的,它都会有一个叫单元结构,叫做 cortical column。

这种皮质柱,你大概你这个人脑就是有一个这样的一个皮质柱,它大概分这么几层的这种细胞的结构,这些细胞大概都是这样的一个连接的结构。然后你再把这个皮质柱重复大概十五万次,对吧?这一个人脑大概由十五万个这样的皮质柱组成。那好像在这个方面就解释得通了。那剩下的问题就是这个单个的皮质柱到底在做什么?为什么它这样的一个相同的结构,它可以去特异化成这个不同的功能?

right?它的这个结构上是怎么样的?从和它的这个 learning machinery 是怎么样的?它这个方面当然有很多 theory。但我觉得,对于我个人来说,最有意思也是最 convincing 的 theory,实际上是说,这个一个 cortical column,它就是在学它的整个的这个结构的设计,就是为学习 word model。

做准备的,但是广义上的word model这个方面,就是有一本比较新的书是Jeff Hawkins写的,叫做《A Thousand Brains of Intelligence》,中文可能翻译叫做“千脑智能”。它它还是一个比较新的一个theory,但我觉得是在这个方面可能算是走得最远的之一。他就说,这个每一个皮质柱,它就是在学这个 world model。

然后你这个 world model,它不限于这种 physical world,就包括你的所有这些语言,所有这些数学系统,包括这些我们人造出来各种抽象的概念,什么是民主,什么是法治,啊,这些东西它都是这个 world model 的一部分。嗯,然后你每一个皮质柱里面可能有几百个这些小小的word

model,然后这个十五万个皮质柱里面,它就可能每一个concept它都是在不同的皮质柱里面有多个word model,然后最后这些word model就主导的这整个perception reasoning,呃,这个decision making的过程。

当然这边我们可能没法讲得太深了,但这样的word model这个概念。对于我们人的这种持续学习中间是有非常非常深,甚至可能就是同样一件事情非常深的一个联系。即使我们不 buy 就是这个 Jeff Hawkins 这个理论,但是人的这个持续学习学习出来这个所谓的 cognitive maps 或者

conceptual framework 这个事情实际上是 very well established。

但是这个是现在我们做 agent 的或者做 AI 的持续学习,我们还远远没有解决的事情。这也是为什么我们叫做 neo cortex。其实就我们叫 neo cognition,就 neo 就是从 neo cortex 来的。我前段时间跟谢赛宁也聊了一期,就是 World Model,他的整体的观点都比较反 LLM 嘛。

当然,他也觉得语言需要,但他整体的观点是还觉得需要有更多的表征。那你觉得 World Model 需不需要 language?你怎么看 World Model 和语言的关系?OK,这个是一个可以聊的非常学术的一个话题。呃,可以看看这个从什么角度切入会比较好。几个角度吧。第一是呃,我觉得包括这个 Chris Manning,他最近其实做做了一个 podcast,他也在聊这个问题。

就是我跟他在这个方面是观点是很相近的。就 language vision 非常重要。这个在 neocortex 里面,这个视觉区域是最大的啊,而且是远远大过其他地方。但最后。尤其是在人类社会里面,你要产生价值,它最大的来源还是language。之前我们其实聊到过,这些language它在人的这个evolution的过程里面,它起的很大的一个作用,对吧?

就Chris Many有一个说法是说,这个。人和猩猩,就我们的这个智能和这个 civilization 有这么天翻地覆的不同,但并不是因为我们比猩猩的这个视力或者是这个 visual perception 更加的敏锐,对吧?嗯,其实我们我们的视力大概率是不如大猩猩的,甚至不如世界上的很多很多的动物。

就我们的视力不是最好的,听力不是最好的,这个感知不是最好的,运动能力不是最好的,但我们的语言是独一无二的。而这是这个导致我们这些文明和这些 intelligence 正不同的根本原因。再讲的更深一点的话。有一本书,另外一本书很有意思,呃,是这个 Terence Deacon 写的,但这本书可能比较老了,可能是一九九几年的,啊,叫做《The Symbolic Species》。

论证的是为什么符号就symbolic symbols对于人这么重要,或者是对于整个homo genus这么重要?他那本书主要想讲的是从这个homo genus的这个祖先transform到这个homo genus这个过程是怎么发生的?他认为这个过程实际上是一个symbol就符号和人大脑coevolution的过程,是,我们开始先有了这种符号的这种abstract的representation。

这反过来又去产生了进化的压力,去让我们的大脑去随之产生这个相应的变化,使得它能去更好的去去服务,去产生这种符号化的表达。而这个事情它很可怕,因为它是一个相当于自己开了一局新的游戏这种感觉,你知道吧?就是大家其他人还在那儿这个慢悠悠的进化呢,就其他的物种,然后突然这个 Homo, genus 这一边它开启了一个叫做 symbolic 的一个新赛道,这个新赛道它是自循环的,它产生的一个。

新的一个进化压力,这个进化压力是更偏这种 cultural 的。他是说,OK,现在我们这个部族已经有了积攒下来的这些符号化的一些东西。比如说,我可以用语言,用 verbal

language,就我一个原始人,我跑到了一个很远的地方,然后我再发现,哎,这个地方有一些很重要的信息,比如说这个地方有危险,有有这个大老虎,然后我可以回去,然后告诉其他所有人不要去那个地方,或者是这个地方有很好吃的食物,那你们应该要记住这个地方,要经常去那个地方。

那这个是语言,就是导致它可以去跨越这种时空的界限。去传递信息,并且这个时空既是当下的时空,就是这个空间,然后包括当下的时间,也是代际间的时间。就你可以口口相传,把这些信息都给传下去,这就产生了一个很大的一个,并且非常快速的一个进化压力。就是如果你不能,你的下一代不能去很好的去适应这个语言的环境的话。

你就没有那么大的生存优势,你就会被淘汰。那这个就是真的是这在进化上新开了一一个赛道,然后导致了我们现在这个这个 Homo 一路到 Homo sapiens 的这个进化的这个快速通道。所以,语言它远远不是,或者是以语言为代表的这整个符号化的表达,它远远不是说只是我作为一种 communication 的工具那么简单。

里面可能我们还能继续展开讲讲,就也有一些,即使在现代来说,就是最近的研究上也有一些很有意思的东西。你比如说有一个很有名的研究是MIT的,记得是叫,那他last name有点不太记得了,但是他first name是F,就是他是一个这种神经学这个cognitive science这边一个很有名的老师,然后他做了一系列的工作,就是在论证一个事情,叫做。

The dissociation of language and thoughts,就是说,你通过你可以做一些 f m r r i 啊之类的一些扫描。然后发现,在人脑里面,就是你自然的会觉得,就是语言和这个思维它是高度相关的嘛,就是语言是思维的载体,但它可能通过一些研究发现,好像可能并不是这样子的,就是因为你像语言的话,就是在人脑里面有两个主要的区域。

一个叫做 Vernik Area 维尼克区,另外一个叫做 Broca's Area 叫做布洛卡区,就一个负责 language comprehension,一个一个负责 language

production,就是一个输入一个输出。然后他会发现说:“哎,其实即使在我们就要让一些人去做一些很复杂的这些需要reasoning的一些thought process的这些task的时候,这些语言区域也并不会被点亮,就并不会这个有很强的反应。

就是他这样去论证说,可能这个language它可能没有那么重要。这个可能也是大家会用的一个argument,就是language它跟这个thought它都是可以分开的。但是另外一方面来说。”可能,就是你对于这种individual

thought,就我自己在想一些事情,它这个language可能没有那么重要,因为我其实已经就我整个学习的过程,人的学习的过程实际上就是把这些东西去internalize的过程。

去内化的过程,就把它一开始需要language作为脚手架的这些知识、这些内容,给它内化到一些这个神经跟神经之间的直接连接,就你不需要通过language。这是人的这个学习的一个很重要的一个过程,这也是更远一点讲,这实际上就是我们睡觉的时候就会做梦啊,然后包括这个海马体在这个过程这种 short

term memory 到 long term memory 之间的转换这个过程起的关键作用,里面都是很相关的。

所以 it's okay,就是这个 language 和 thought 确实是可以分开的。但它不代表说,在你形成就你达到这个内化的这个过程中,language没有起至关重要的作用。就是你在你这个人的这个学习过程中,不即使你作为一个个体的学习过程中,这个language它实际上是起了很重要的脚手架的这个作用的。

之后你才内化形成的这些representation。另外一个方面就是,如果我们跳开这个个体的层面,我们考虑整个 human civilization,任何你能想到的、尖端的,甚至非尖端的这些工业、这些 industry、这些

domain,每一个都是符号化的。的符号化的这种language、diagram、programming language这些东西是现代文明存在的根基,就是你任何你要去在这个现代文明里面去产生价值的东西。

都很难离开符号化的表达,所以我之前在推特上说过一句话,然后这个 Chris Many 是呃高度赞同的,就是说这个你可能就是 individual thought doesn't need the language,但是 civilization needs

language。嗯,所以这种可能就我们把视角放得更远一点,不管是放到 civilization 的层面,还是放到这个进化演化的层面,在这个 language 和这个 symbolization in general 都是至关重要的。

所以你还是坚定认为语言对于不管是大语言模型还是 world model 来说都很重要。对,这也是为什么我们部分原因就是为什么我们要叫做 language agent,就即使之后有一天,可能底层的这个模型它不是一个 LLM。是可能是一个 some kind of word model in the

future,但是这样的一个以 language 为根本的去理解世界、去做推理、去跟世界交互的这个能力是。

我觉得是不可能消失的。你们定义现在的 agent 叫 language agent,是不是说明未来的 agent 它就叫 agents?language agent

可能也是一个过渡的阶段。有可能,但它过度不代表它会消失,而是说它会演化到一个阶段,就是大家已经习以为常了。这个大家已经接受,就是language它就是一个,就是agent应该有的一种能力,一种根本的能力,所以这个词就变得redundant。

所以我就叫他 Agent 就好了。最近有很多关于未来人机交互以及 Agent 和 Computer use、Agent 和 Computer 交互方式的讨论,你怎么看呀?对,这个肯定是我想的比较多的一个问题,因为像之前聊这个 language agent history

的时候,我们也聊过,就我们很多的工作其实都是在去研究这 agent 它到底应该怎么样去跟 digital world 交互,它是应该用 text based,还是应该用这种 vision based,像偏 GUI 的,还是其他的方式。

然后最近其实有很多的讨论,就是说,这个未来是GUI还是所谓的CLI,就是这种命令行接口。一方面,我是觉得这个其实这些都只是 a means to an end,就是你最后我们想要的就是一个 universal digital agent。但是我们也还是可以聊一聊,就是对于这个 specific 问题之后会怎么发展。

那它可能有几个方面吧。第一方面是故意会不会消失?那我觉得这个答案是一个很明显的 no。故意不会消失,因为人还需要故意,因为我们整个设计,整个这个进化出来,它就是一个visual animal,哎,就我们的这个我们的大脑就是它是这样的编码的,it's wide的单位。包括你就会看到有很多的这种H C I,就是人机交互的这些study,就会去测出来。

如果你你是去这么去visualize这个同样的这个事情,这个人的这个大脑的这个反应速度、理解速度会快零点几秒,大概是这样子。所以固语它这个东西是不会消失的,而且它也有很多其他,就是包括做 validation 啊,去做去 win trust 呀,去做 auditing 啊,各方面的这些实际的好处。另外一个方面可能就是,那 agent 到底要不要固语, right?

那可能 yes, GUI will stay,但是 agent 并不需要 GUI,我们可能就用命令行,用这个 API 就好了。这里面其实可能就有几个可能延伸出去的方向。第一个是从实际的角度,你若是 being

pragmatic。那这个GUI显然是短期不会消失的,短期甚至是长期是会一直需要用GUI的,因为就是这种图形化接口作为这个整个digital world的这个叫所谓的de facto interface,就是它是事事实上的这个interface,所以就是所有绝大部分百分之九十九的这个digital

world里面的东西都是有已经有GUI可以通过GUI去交互的。

而且这个故意它并不是只是交互,它在这个整个设计的过程中,它已经去 encode 了很多的这些相关的 knowledge。Constraints, business logic。然后,如果你的agent能够去很好的使用固语的话,它就可以去所谓的piggyback on all of these accumulated knowledge。

而不是说你再去再重新做一套CLI,做一套API来去把这个重新造一遍这些轮子,right?所以如果你做的好够力的话,那才能可以immediately reach all corners of human society。尤其是在这些比较偏 long tail 的这些场景,因为你对于那些软件公司啊什么,他们可能有这些技术能力去把他们这些东西都重写一遍,变成 CLI 之类的。

但你对于这个 long tail 来说,是不太可能的。而且,即使对于 Agent 来说,其实因为 text 它本身是一维的。对吧?它是一种一维的表示,但你就会有很多东西,它一维的表示它就不是 optimal 的,它不是最高效的。那 visual 它是二维甚至更高维的,所以你很多东西实际上你就是用这个

visual 会表示,尤其更复杂的东西或者更复杂的一些关系,用 visual 表示是更加高效的,这是另外一个方面。

然后最后,我觉得可能是要算一笔,就是这种经济账和这个人性的账。我觉得这个也是很有意思的一个地方。我不知道还有多少人记得一个可以叫做一个社会实验吧,叫做 Semantic Web。那个是呃,Tim Berners-Lee,就是互联网之父,他在做了这个互联网之后,很快开启的一个一项新的实验,就是要把整个互联网用不与这个明确的语义 Semantics。

他用的方式是一种基于逻辑的一个表达。他当时做的一整套的一些表达层面的东西和推理层面的东西,包括一整套新的基于一阶。逻辑的一个叫做 description logic 这种一些谓词逻,呃,这种描述逻辑的一套推理的方法。OK,一切都很美好,但推了二十几年,最后整个的这个 adoption 还是非常的低。

因为这是跟人性和跟这个社会怎么运转是有关系的。这个社会不是那么work的,不是说,哦,我出来说我这有一套新的标准,啊,它有这些好处,整个世界都会去听你的,然后去把他们的东西重写一遍,除非是你有这个非常强的各个层面的这种motivation,这些incentives。但这个是很难在全世界层面存在的。那,你像故意的 adoption,它实际上是有这样的 incentive,因为它是适合人的,对吧?

因为人需要故意,所以大家都采用了故意。但你现在,比如说,我就先出来一个标准叫

MCP。后来我出来一个标准,就是让大家都重新去写CLI,然后你指望所有的行业都在未来几年去adopt这个事情。这是几乎不可能的,right?就这个是人类社会,它不是那么work的,而且这也涉及到另外的一些。你像比如说,现在还有那么多的这些大型银行啊,各种关键的基础设施,还是基于几十年前的Cable

System,它这个事情不会变化的那么快的。

另外一点是。其实它你也可以算一笔经济账,很多东西即使说你能论证说你这一个东西,比如C L I,它对于Agent来说它是全局最优的。就如果你是所有东西都能C L化,它就是会更好。即使是那样,它也不代表它是对于所有的局部都是最优的。你在很多的地方,就是它的局部最优解就是它已有的这个solution,它is good enough。

它不需要去换成CLI,所以我觉得大大概我的想法是这几个方面吧。所以我不觉得说,就是不管是从这个故意会不会消失也好,从Agent要不要故意也好,以及这个经济、人类社会怎么运转,这个人性是怎么样的也好,我不觉得说这个这个CLI会全面的取代故意。你觉得Agent到今天为止它发展到什么阶段?它的关键瓶颈是什么呀?

你觉得二零二六年Agent大家会核心解决的问题是什么呀?是 self learning 是 memory 还是什么?其实如果就我们总结我们这个现在讨论的这些内容的话,你会发现这些东西它都是同一个东西,就是我们讨论的这个 memory,我们讨论的 self learning, continual

learning,我们讨论的 world model,我们讨论的这个 specialization, specialized intelligence, how to become expert agents。

但如果是基于我们刚才的讨论的话,其实所有这些东西都是同一件事情,对吧?你这 self learning 和 continual learning,它是它是一回事儿。然后这个 world model 是它要学习的内容,specialization and becoming expert agent 是要它它要达到的结果,right?

然后他最后达成了这样的结果之后,他会带来很多的好处,是现在的 agent 那个最缺乏的东西,比如说 reliability 就这种可靠性,比如说这个呃 speed 这个速度,比如说它这个 cost effectiveness 就它这个成本,还有其他的一些好处。对,所以我觉得可能这个是一个比较好的一个一个 summary。

最后,条条大路通罗马。你对二零二六年的Agent发展还会有什么预期吗?年初OpenClaw已经这么火了。觉得从技术上或者从这个 frontier 来说,大家会就是这个 continual learning,对,就 continual learning self learning,它会是这个主旋律吧。

然后至于 continual learning 的方式,是不是像我说的这种基于 word model 的 continual learning,那这可能是 one of the bets,但可能我会看到有很多不一样的 bets,这也是这个有意思的地方。然后。啊,跟这个其实息息相关的,就是整个 Agent 的这一套技术能有多快的方式去辐射到社会的更多角落。

刚刚提到那些问题,这种 reliability, speed, cost,包括就整体上导致它进入门槛很高。包括为什么现在这些公司,就包括 OpenAI, Anthropic 都要采用这个所谓的 pilot tier 模式,去招那么多的 forward deploy 的 engineers 去驻扎到这个客户那边去帮他们 build agent,其实都是之之前提到这些问题的一个一个结果。

你觉得现在这些大厂,不管是美国的大厂还是中国的大厂,他们bat的东西在Agent上有什么不一样吗?他们都在bat什么呀?我觉得曾经不太一样,但现在都在高度的趋统一了。呃,一方面是就Anthropic现在是一家独大,然后又给大家打了个样本,所以在这个大家都在至少在在很多方面可能是在抄作业。这是今年跟去年的一个很大的不一样,对吧?

去年还是在 bet 不一样的东西,去年或者去年年底之前,这一点是远远没有那么明朗的,但我觉得还是会有一些新的 bets 出来,像叫 Anthropic。OpenAI、Anthropic,当然现在是所有东西都要做啊,只要是跟productivity相关的,他们都会做。然后OpenAI现在也是在往这边收数,Google的话。

我其实有点看不清楚Google。其实一方面好像它模型能力挺强的,然后他们又有最好的这种已有的这个生态位这个ecosystem。另一方面,他们好像这个总体上的这个adoption,至少这个从声势上来说,好像又总觉得缺了一些东西。所以可能里面有一些更深层次的东西我没有看清楚,缺应用吧。然后也有一些有意思的,你像比如XAI。

之前老马一直在,其实他是,尤其是 compute use agent。当然,现在其实 compute use agent 这个范畴已经变了,它已经远远不是就是只是故意了,就是其实现在做 CLI、做这个 to use 这些其实都可以,大家都渐渐都把它划归到 compute use 的范畴了。所以,这 computer user agent 现在在慢慢变成一个就是 general 民主的 agent。

但是老马之前实际上是在对故意 agent 是一个事情,可能现在也是就是非常有热情的,这是 one of his big bets。所以他不是专门成立了一一个 org 叫做 Microsoft,就是是这个 Microsoft 的反义词,然后其实就是要去做 computer user agent,然后去呃取代所有的这些 software,去做所有的 knowledge work。

他当应该是投入了很大的,当然最近因为这个,呃,XAI内部的动荡,反正这边应该也挺受影响的。但是它技术路线上来说,我觉得它可能倾向于会就是用类似于特斯拉的路线,因为特斯拉F S D它其实有一个proven path,就是一个比较偏小的模型,视觉这种video为主,去直接做end to end

modeling,至少是一a different bet啊,不知道它这个能不能成功,the good luck,但至少是一个比较有意思的bet,然后。

也有一些其他有意思的BAT,比如说我知道那个Jeff Bezos,呃,最近在大卫地开了一个新的公司,他还是又重新返回这个operate的位置,他做Co CEO,叫做Project Prometheus。叫普罗米修斯,其实他们更加低调一点,但他们应该是可能融了六到七 billion 美金,就六七十亿美金这样子。

然后他们可能要做的是,其实也有也有很大的 compute use agent 的部分,当然他最后可能想做成的事情是这个是偏 manufacturing。这种物流啊,这种基建呢,这个这种呃工厂啊,这个in

general,因为那个是Bassels比较擅长的部分嘛。然后你像国内其实也有很多这个很好的工作,哎,像这个Bydance那边这个UI Tools系列,然后包括到后来到豆包手机是好像是叫这个名字,然后秦宇佳那边就是做的挺多事情的。

就包括智谱那边,智谱其实做agent是尤其这种computer use agent是开始的挺早的,这种AutoGLM系列,就我们之间可能还算是有一些渊源,因为我跟唐杰唐老师也认识很多年了,之前经常会去清华做报告什么的。然后当时还是二三年,可能夏天的时候,这个我们当时做刚做完 Mind Web,然后就去去清华讲了一下,然后大家都很感兴趣,然后就开始了一些 Agent 上面的合作。

然后当时一起做了一个 work,叫做 Agent Bench,也是算是 Agent 最早的 Benchmark 之一。然后后来他们可能那个就 Agent 这一块也做的越越多了。但现在 Open Claw 之后,应该就我觉得大家应该都有自己的 Claw Strategy 了吧。现在的Agent呢,我觉得它的做任务时候可靠性还是就不稳定嘛,特别是一些长程任务。

你觉得怎么能够提高它的稳定性、可靠性,甚至说安全?对,Again,就是我觉得这些其实都是一个Word Modeling的问题,或者是一个这个能力上的问题,就是因为他对这些事情不熟,因为他没有学过。他即使做过,他也没有一个有效的方式把它给像人一样去学会成为一个 part of my expertise,所以它才会导致这些不稳定,导致这些这个就甚至是某一些安全问题。

因为你想一个,就对于人来说也是,intern就更容易去犯这些安全方面的错误。但你一个老师傅就不会,对吧?就因为我已经学会了,我已经知道了,就是做做这些事情容易有安全风险,做哪些事情是安全的。但是security稍微有点不一样,security是更加这种worst case scenario,就是它需要更专门的方法。

但很多safety的问题实际上是对于agent来说是归根结底是一个能力问题。嗯,为什么现在越来越多的 researcher 都选择自己创业来继续做自己的 research,而不选择在学校,也不选择在像 OpenAI 这样的组织?好问题。呃,当这是我个人观点啊,我不代表其他的这个老师。从我个人来说,我当时非常喜欢学校。

像这个之前,就是为什么我会在学校当那么多年老师?那之前我是在微软有全职工作的,当时的收入可能就比学校的工资要高三四倍了,更别说现在的这个 gap 了。但我还是很果断的,就是去学校了,因为对于我来说就没有什么需要犹豫的,就是。我是一个可能兴趣很多的人,就是会有各种各样的奇怪的想法,可能同时间有十个东西我想做。

那我在微软或者在Open A I其他地方,那可能我也能做,但我只能做一个事情或者两个事情,但我想要同时做十个事情。那这个学校就是这个最好的去做这些。Weird ideas,哎,这个相较于就是钱来说,呃,收入上来说,我觉得是对我要重要的多的事情,所以其实就没有什么好犹豫的。其实从学校到自己创业,我觉得还本质上是相同的原因,就是你像我们这一代可能是有点算是算最早做Agent的这波人。

然后就经历了这个完整的周期,是早期的时候,它更像是一个 proof of concept 的阶段。就是早期验证的阶段,那很多时候它就是你去,你有一个 idea,你去通过精巧的低成本的方式把这个 idea 给证明出来了,然后去售给大家,然后就去产生了你的这个对整个领域的发展就是起到了比较不错的作用。但到从二五年,我觉得开始的话,我们已经度过了那个阶段了。

那大部分真的有意思的,尤其是Agent相关的idea,它需要的资源就。这资源既包括这个钱上的资源,就是你要去,呃,你的G P U的资源啊,你要去用大量的这些A P I的这个资源,到你这种人上的资源,就是你要有这个足够强的团队,能去快速的去试错、去执行,它跟学校的这个基因是不太匹配的。我觉得是很重要的原因吧,就是为什么在这个时间点,其实就有很多的老师就出来自己创业,或者是去做一些别的事情。

你现在创业半年,你自己感觉怎么样?感觉还不错,呃,当然是跟学校的这个节奏和这个做事情的内容和方式是,确实是根本性的不同。但我这个人可能属于比较喜欢学新东西的。可能这个稍微扯得有点远。我最喜欢的事情是去,之前我们聊过这种word model或者conceptual framework。我喜欢做的事情是去不断的去build out我的conceptual framework。

就是可能这也是我个人的一个长处,就我其实并不是说那种啊想事情非常快的人,或者记性特别好的人,但我是属于那种就是能去学很多很多的东西,然后把这些东西给串起来,看到他们之间的联系。所以在这个Star Love这边就给了我一个新的这个也充满了各种新的stimuli的一个一个环境,然后去去去扩充我的这种conceptual framework,所以我觉得还挺好的。

嗯,为什么你说学术界和你创业有根本性的不同?可能因为我们New Cognition它还是一个research lab性质,所以就相对来说还好一点。但如果你是一个正常的startup的话,那你的这个整个incentive structure。就是会完全不一样。你要去快速的做市场的验证,你要去怎么去

please customers,去 please investors,去这个找到 product market fit,并且快速的去 scale。

所以它本质上是一个,one,它是要去一个做深做尖,产生一个外置的一个过程,然后你要去 deal with 的这些 population 的这个 persona 也是非常不一样的。那你在学术界的话,这些 constraints 会少非常多吧?尤其是如果你没有太大的 funding

上的压力,就是你有足够的 funding 做你想做的 research 的话,那这个你的 day to day 是会非常不一样的。

当然,我觉得还是有很多互通的地方。这可能是这个有时候,也许一些这种教授就是出来做 startup,还是会有很多这个可以迁移的一些一些技能、一些 skills。我们经常会开玩笑说,你这个 assistant professor,这个你从第一天就是 manager,嘛,你要管你这整个 lab 的这个拉钱、拉人,这个人的成长。

这个工作的产出,各种一系列事情,这些在某种程度上确实是跟start up去管一个start

up是类似的。你刚才说你属于关联性比较强的人,这跟你自己的成长环境和成长经历有关系吗?我觉得有,那这个是可以有意思的聊一聊。就我从小不是一个那种典型的就是学习好的孩子。呃,其实是相当非典型的,就我是属于那种,会凌晨三点钟从家里偷偷溜出来去网吧玩游戏的那种人,就是甚至这那网吧那个时候一般还没有开门,然后会去敲网吧的后门,然后这个这个老板睡觉的地方,让他给我开门,然后让我去去玩,然后玩到七点再去上学的那种。

然后就从小就是这些这些玩的方面,可能哪样都没耽误吧,但可能有一件事情是。我觉得对我影响比较大,就坚持的很好的就是读书,从小就非常喜欢读书。嗯,读这个任何就我们家里有的书,只要它是纸质的东西,我就会拿起来读,不管是这个历史也好,甚至政治的东西也好,或者故事会也好,言情小说也好,啊,都喜欢读。然后他在读书这个过程中就会,在读书它本身就是一个构造世界的过程,对吧?

就你通过文字去在脑海中构造出的那么一个一个的世界,并且去构造出来这个各个世界之间的关联。觉得那个事情是对我影响很大的。当然,为什么我喜欢读书,这个我已经想不起来了。但读书这个事情对我的学习和人格的养成,我觉得是非常重要的。然后,这个可能也是因为这种比较奇特的成长经历吧。对我确实玩上面没耽误,但可能学习最后也没耽误。

就是反正就从小学一路到高考啊、大学啊,就成绩都还挺好的。我当时是高考的时候是,就我可能是属于这种性格,平时有点这个不是特别的一门心思的扑在学习上,到需要的时候就真上的那种,就是一旦知道有一个比较明确的一个考验在那儿,那可能就会在我认为需要的这个时间点上开始就全力的去准备。所以最后可能不管是这个中考啊,还是到这个,比如说当时湖南省这个自主招生,那个好像是。

清华自主招生第一届还是第二届?当时是应该是,虽然我是一个很小的、小的县城出身的,这个教育资源其实说不上多好,但当时应该是这个自主招生,然后可能我们全校就最后也就一共也就分了两个名额。然后跟你像长沙的那些名校比就差很远,但我最后可能也是发挥的还挺好的,就是准备的也比较充分,然后可能是那个全省前几名的这个样子,然后是所以就清华是相当于是有自主招生这种降三十分录取那样,就是最高的那一档。

啊,当然,其实最后没用上,但他给我这个可能高考的时候就是起了很大的一个心理上的作用,就好像觉得有有这种呃back

up的感觉,所以这个对心态平衡,嗯,所以当时高考应该也是湖南省前十去的清华。然后就拿了奖学金,这个对我很重要,因为这个我们家庭条件并不算特别好,所以这个奖学金是这个有很大的帮助。然后这个过程可能就养成了这样的一种性格吧,就是一方面是就是有事儿的时候可以拼,呃,另一方面是从这个人性的底色来说,可能是属于那种。

不知道该怎么形容,就我要用我自己形容的话,可能会叫做,呃,魂不吝,不觉得说这些东西它会,它有那么大的所谓,就好像我要为因为要什么东西,我就那个吃也吃不好,睡也睡不好,就一定要得到,就很多事情我觉得就没有那么所谓。然后另外一方面呢,我又知道说,如果我真的想要一个事情,I put my mind to it, I put my effort to it。

大概率是能够做到的,所以大概就有这样一个奇妙的一个一个结合,这样的一个,我觉得性格确实是对我影响非常深,也体现在我整个做研究的过程啊,P H D的过程啊,包括做老师的这个过程,甚至可能包括现在这个创业的过程里面。所以创业失败了会干嘛?如果创业失败了,就再去换个地方做research吧。嗯,我听就是也做 New Lab 的人说,其实美国你们去创业的安全垫还挺高的,对吧?

这可能是确实是美国一个对退出方式比较退出的方式有很多,而且 VC 和大厂之间就有很多的关系,VC 可能投了你,他也会想办法帮你找后路。Hopefully 这个这个我不确定,但 Hopefully。做这个事情其实也没有太想什么后路不后路这些事情,这可能也跟我这种混不吝这个性格有点关系。我觉得这个是在这个时间点应该做的事情,是正确的事情,那就做吧,就也不用去想这个后路或者怎么样的。

你纠结了多久呀?可以说从来没有纠结,就我一直很知道,就是我是会去做一个 startup 的,因为我觉得就 agent 的这个事情。真的要去做到一定程度了之后,就是它的这个 research 和 production 是分不开的。就比如说,现在我们的一个就之前讲的这所有这些 continual

learning 啊,这个 specialization,一个底层逻辑是,我相信这个最大的 learning signal,接下来这个 agent 的 learning signal 来自于 continual learning from deployment。

你需要去这些真实环境里面去学习,持续学习。那你这个前提是你得有 deployments,你才有 learning, right?那你在学校是很难做这样的 deployment 的啊,所以我一直知道,就是我是会开始做 agent research 之后,就是早晚会去做 startup,这只是时间点和技术方向的这个选择。

因为我们其实确实做 agent 比较早嘛,那可能很早就几年前,可能我们就能出来做一个 startup,那可能是 one of the very first agent

startups,但是没有去选择在那个时间点做,就不说不上是纠结,而是这是在一直想的一个问题,就是到底什么时候做,到底做什么。我是到这个,就我一直之前一直觉得没有 ready,这个从整体的这个大环境的这个技术根基没有 ready,到我自己的对整个这个 agent 的这个事情的想法也没有 ready。

但只是就可能就直到这个二五年年初年中的样子,我觉得是终于看到了底层技术也开始变得 ready。你包括这些 L M,就各方面 to use 啊, coding 跟能力的提高啊, multi model 啊,你到这个就我对 agent 这个整个事情它的现状是什么,它的 bottleneck 到底在哪儿?

呃,我觉得是有了一个更深刻的认知。所以就出来做了这个事情。嗯,基于你这么长时间在Agent的研究历史,你能对Agent未来的发展提出几个预测呀?好问题,你觉得是技术上的预测,还是这个对社会影响上的预测?我觉得技术上来说,我相信 continual learning 是会被解决的,而且是未来几年的时间。

嗯,然后这会导致这个agent非常广泛的应用渗透到社会的各个角落,那会根本性的改变。很多行业的这种生产关系,那这样的改变到底是一个可控的改变,还是一个不可控的改变?这实际上是我们现在每一个人的,尤其是在做这些AI research的人的责任。现在最大的一个,我觉得大家的一个

concern,就有些人可能会担心说,这个所谓的 existential risks,就是这些 AI 它会 hit singularity,它会这个快速的自我迭代,然后远超人类智能,然后去消灭或者取代人类。

我觉得这个是。在可预见的未来,我是看不到这个可能性,因为其实那个那个事情,它很大程度上,它不是只是intelligence问题。它是更高层面的一个一个能力的缺失,是这种所谓的inate goals这种intention。这种生存压力的这个缺失,至少在现在,我们没有看到有是往AI里面注入这些这些原生的目标、这些原生的intention的这个可能的方式。

那他们现在所有的目的都是人来赋予的,但是AI确实会带来很大的实际。上的对社会的影响,那最大的质疑可能就确实就是 job displacement,就是这种生产力结构的变化。如果你真的是这个这个 AI agent 能大规模的去取代这个人类的,尤其是这些 knowledge worker

的工作。然后你又不能,一方面你不能产生足够多的这个新的岗位去承载这个displaced workforce,另一方面,你又没有去产生好的。

这种收益分配的机制、再分配的机制去给社会兜底,而这个大部分收益都是由几家,比如说头部的公司或者是借资本去获得的话,那这个是会对社会产生极大的影响。这个是我认为是真正的Concern。那作为AI researcher来说,我觉得我们每一个人都是有责任的。那这个怎么能去尽到自己的这个就一份力量去?这可能说的稍微有点矫情,但是是我觉得是确实是这个一个非常真实的一个一个感受吧。

只是怎么能去尽到自己的一份力量去防止这个事情的发生,或者减小它的影响,这是每个人都需要思考的问题。就从我的角度来说,我觉得可能很重要的一件我们可以做的事情是,怎么去 democratize access to frontier agent

capabilities。就是让Agent这个事情,就尤其是powerful的这种expert level Agent这个事情变得不是门槛很高,你需要有这种头部公司的那种资本、那种资源才能做的事情,而是说每一个人他如果有好的想法。

他有他的这个独特的洞察,他能去有这个非常 accessible 的这个技术的手段,去迅速把它转化成对应的 agents,并且去 make money out of it。觉得这样子的一个技术的民主化,嗯,是我们需要努力的方向。嗯,那我最后还有几个快问快答,一个全球范围内你喜欢的食物,喜欢的食物,火锅吧。

基于所有读过的书,推荐两本必读书。我觉得一本肯定是很明确的,就是有本书叫做《A Brief History of Intelligence》,但可能现在已经有点变成这个这个每个人都会提的书了。其实这本书是他在刚出的时候,二三年刚出的时候我就买了,当时就马上读完,然后去推荐给就我实验室的所有学生,说你们都应该要读这本书。

啊,这个是把AI和这个evolution和这个neuroscience结合的最好的,但又最通俗易懂的书。其实甚至包括这个,我其实有我自己的一些research的工作,都是直接受这本书的影响。比如说,它这个书里面有一个章节叫做Mice in the Imaginary,还有一个章节叫做这种Learning by Trial and Error。

然后 mice in the imaginary world 其实上就是说这个老鼠怎么用这个想象力对这个世界建模,然后来指导它的决策。然后后面我们写的一个 paper 就叫做 LLMs in the imaginary world,然后是去 learning tools through simulated trial and error,实际上是受这呃上面一些呃观点的直接影响。

第二本书的话,但我最近是比较喜欢这个。A Thousand Brains那本书,因为这我觉得是看到的对于这个人脑到底是怎么work的一个非常大胆的一个theory。虽然它这里面这个各种 evidence 还非常的早期,非常的粗浅,但我觉得至少是因为我是很喜欢生物,很喜欢读,就你可能从这个访谈过程也能看出来,就很喜欢去了解这些生物相关的东西的人。

在我基于我现在的这些阅读的话,我觉得这本书的这个 theory 是非常 make sense 的。你心目中影响AI进程的几篇论文是哪些?你说主要focus在这个近期,比如说近十年的,还是这个整个历史?你要整个历史的话,你像第第一篇那个牛朗的那个论文,好像是一一九四几年,是一个。不太记得他们的名字了。

当时他们是想用这个,想用一个 computation 的 model 来去。当时是在 neuroscience 那边开始有了对于这个单个 neuron 的一些工作机制的一些理解,然后他想用一个 computational 的方法去 capture 这个过程,那这直接导致后面的这个所有的这些 neural network 或者是整个的这种。

biologically inspired这些呃AI的发展,所以那个我觉得是是非常根本的。当然,你像图灵老爷子的这些工作就不说了。你像 back propagation,Hinton 他们的工作,虽然可能不一定是这个 formulation 最早的工作,但毫无疑问是把它这个大众化 popularize 的工作,当然是有非常深的影响。

然后到 Alex Net, right,这是这个整个 neural network 的文艺复兴。到这个 VGG。是一三年,就AlexNet是一二一二年,Word2Vec是一三年,是重新把Neural Network引入了Language

Processing。在那个之前,就是大家整个NLP对于Neural Network是可以说是一个嗤之以鼻的状态,然后那一三年也是我就PhD就我开始做AI做这个相关的工作的时候,所以对我的影响其实非常深的。

然后你到这个一八年Bert也是一个有很深远的影响的工作,虽然现在因为GPT的发展,就大家对于Bert很多年轻一代可能不知道了,但那个其实上是真正第一个大规模的work的这样的一个foundation model for language,然后去引领的整个language processing这个工作范式的变化。

到一七年,Transformer of course,这个everyone

knows的。到一四年,这个attention就现在这个Transformer它并不是这个凭空冒出来的嘛?就Transformer里面的这些主要的机制其实都是之前的paper来的。你像这个一四年就attention这种selective

attention机制是一四年的两篇paper,一篇这种sequence sequence modeling,一篇是那个。

N.Y.U.他们那边做的这个这种做machine translation的,从那边来的,然后后来transformer这边变成了这种full self attention。然后包括你这个 transformer 里面这些 shortcut connection,这些 residual

connection,那当然是从 resnet 来的,或者 resnet 它也是从之前的更早的一些 paper,一些 highway network 那些来的,这这些都是 connected。

到然后你再到这个 GPT 系列,对吧?这个 ChatGPT 对这个整个领域甚至是超过 AI 领域的这个深远的影响,然后导致了整个这个产业的这个新的格局。当然,你像其他像像 chain of thought呀, two former 啊,他们都是有各自的影响吧。大概就是这些一下子想到的,一下子想到了好多。

基于你当下的认知,一个关键的重要的 bet 是什么?重要的 bet 那就是。All the way continual learning, all the way world modeling。你听过我的博客没有?你听过哪些?听过挺多的,对,尤其是以前我时间还更多一点的时候,经常听的。最近这时间更少一点。

创业之前,最近赛宁的这听过部分,这七个小时确实有点长,一直听了两次都没还是没有听完。嗯,这个嗯,之前我记得有杨志林的,对吧?然后有这个顺宇的。然后还有一些更偏创业相关的。我们的工作室叫做语言及世界工作室。当你第一次听到这个名字的时候,你会想一些什么呀?我想这个就是 that's the

truth,这个就是嗯,就你能看出来,就是我对于语言、对于世界,这个都是对啊,这 that's my belief。

所以这个名字起的非常好。不知道这一段你要不要录进去?就是我个人的经历,完全没有这个对大家,尤其对小朋友有不良引导的意思。这种玩游戏翘课什么,或者或者是这种高强度的玩游戏,并不是一件值得提倡的事情。We'll explore the new world from here. Shouting out

so the clouds can't hear. Every heartbeat drawing the map we steer. We'll explore the new world from here. Step by step, turn the doubt to cheer.

We're the start of the story. This world will hear. We'll explore the new world from here.好了,今天的节目就是这样。

这里是商业访谈录,是一档由语言及世界工作室出品的深度访谈节目。你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是语言及世界 Language is World。我们希望和你一起从这里探索新的世界。Just friends at our side in an open sky. If

tomorrow's still unclear, we'll draw arrows till the path appears.