啊,还有一个有意思的点是,今年 OpenAI 其实发了三个 Benchmark,GDP Well,还有 Paper Benchmark,还有一个是 Sweep Lancer。提出 Benchmark 的时候,Report 的这个哪个模型做的最好,都是 Anthropic 的模型做的最好。所以我对

OpenAI 的这个研究员有很大的这个尊敬,就是他们把 Marketing 和 Research 能够分开。

所以我觉得这个还是他们还是非常非常的 Solid。我觉得 OpenAI。谷歌内部有个部门叫做 Google Labs,也就是呃 Nano Banana呀和 Notebook LM 的发源地。他们非常注重 creative 的这种体验。Notebook LM 不只是有工程师 PM,还有 editor。

主编和作家来加入整个产品体验的一个开发,包括最后 demo 的呈现。然后你看,现在的 None Banana 也是会招收一些非常擅长在网上创作爆火的帖子、爆火的作品的人。就是当时我们在啊办活动的时候,他们的产品负责人和他 PM 都来了。一个 PM 就说啊,我们今天就加班到凌晨两三点,我们要为 the project name really fun。

他说,那我们就想一个什么样的水果吧。他又看了一下自己昨天做的美甲,发现他美甲上是是两个香蕉。然后他说,Why not we just call it 啊,banana banana?哎,对,或者或者说你在大厂待得这么舒服,为什么出来折腾?我觉得首先创业可能不能assume说这个AGI已经实现了,现在模型本质上还是有多少数据有多少智能。

我们可能关注比较多的是强化学习这个领域,哈,有有好多公司在做 orchestrator 方向的一些一些优化,然后最底层的 data connector 层,其实也有非常优秀的公司能够把这些数企业的数据和智能体中间建一个桥梁,然后再一个是中间的工具层。这工具层是 Precure

能够在的一个一个层。那我们看到的一个机会是说, RL 能不能应用到工具层,使得工具不再是一个静态的工具,而工具自己本身是有状态的,工具本身自己能知道自己曾经在哪里跌倒过。

欢迎收听晚点聊,我是曼奇。本期是一百三十七期 Agent 和工具链节目的两位嘉宾返场。Henry和Lomi,他们近期刚刚和普林斯顿AI加速创新中心的联合主任王孟迪教授一起成立了一家新的早期VC,MOE Capital。这次一起的有两位,之前在 Google Deep Mind 和 Google 云

Vertex AI 平台工作了七年,刚刚创业成立 Agent 工具层公司 Precur 的联合创始人戴韩俊和 Basili Wang。

我想请他们分享岁末年初在硅谷观察到的 AI 水温,OpenAI、Google 等一系列新模型进展背后的故事,和围绕当今 Agent 创业的新机会。这是今年以来晚点聊关于 Agent

的第八期节目,我们正式进入本期的讨论吧。韩俊、Bethley,你们可以和我们的听友简单打个招呼,自我介绍一下。大家好,我叫戴韩俊,然后啊,我们现在是 Precure AI,就是我们自己创立的小公司的 co-founder。

在这之前,我是在 Google DeepMind 强化学习团队做相关的研究。然后,同时也是在 Gemini 的强化学习团队,嗯,就 Gemini 几个版本做了一些微小的工作。大家好,我是 Bethany,我是 Precure AI 的联合创始人之一。之前呢,在谷歌云 Vertex AI

它的机器学习平台,负责 Gemini 模型的强化训练以及知识蒸馏、Lower 微调以及 Evaluation,所以做的是一个整个面对所有 Google Cloud 的 Enterprise 的一个 Customization 平台。

Precure AI,我们在 build 的是叫 trainable tool,也就是为 agent 打造可训练的工具。工具的使用能力是智能体和现实世界交互的一个重要的方式。我们的愿景是,工具不再是一个静态的形式。而是说,在工具里面如何嵌入智能,并且这个智能在工具被调用的时候,尤其是工具执行任务失败的时候。

这个工具本身如何从失败中进行学习和自我迭代,变得更好?就正好补一句,就是我和 Bethany 之前在谷歌,嗯,这段时间也合作了挺久。我俩也是算是在一个在 research 这边,一个在嗯 product engineer 这边,在恰好就是 infra 和企业端也是都都有很多合作,也是正好在这个过程中看到很多这个过程的变迁。

对,以后很期待,就是跟大家讨论。韩俊、Bethley,你们可以和我们的听友简单打个招呼,自我介绍一下。大家好,我是 Naomi。上次和 Henry 一起分享了 Agent Tooling 上面的看到的一些机会啊,还有一些标的。然后这次我们有一个 announcement,就是我跟 Henry,还有另外一位 co GP 王梦迪教授,然后最近出来去成立了一家新的基金,叫做 M E 资本。

然后我们呢是一家立足于硅谷,专注于早期人工智能投资的一支新锐基金。嗯, M E 这个名字其实有两层含义,就第一层它是技术层面的。它其实就是 mixture of

experts,啊,这也是当前大模型领域非常主流的架构之一,啊,然后我们也以此为喻,希望以深度研究为基础,做出集中而坚定的投资布局。啊,第二个比较 unique 的就是我们人的层面,因为我们是跟一群来自 OpenAI、Anthropic、XAI、Google DeepMind 的一些 top 的

AI labs 年轻的研究员共同去呃建筑的这样一个活跃的社区。

然后我们不仅一起进行早期投资,然后他们也会呃就是参与我们的投资的决策的 process。然后,同时也会在投后全力支持我们被投公司的成长。我们现在正在积极投资,呃,AI 的基础设施应用,AI for Science

相关的方向。如果呢,你是正在做这些领域的创业者,非常欢迎你们来找我们聊聊。然后也特别开心,今天请到了两位嘉宾,是我们非常有 conviction 的投资的公司 Precur 的创始团队韩军和 Bethany。

嗯,大家好,我是 Henry 啊,我是呃 MOE Capital 的联合创始人。之前的话做过 research 啊,也做过 startup,然后现在是在和我们的 MOE 的 expert 一起做早期 AI 的投资啊,很高兴今天呢和大家一起聊一聊 AI

最新的进展。因为这次邀请到的四位,你们都是在硅谷的一线从业者,有大厂投资或者创业的经历,所以也是想从你们的亲身体验和观察来聊一聊近期的一些进展,尤其是你们最关注和你们自己在做的 agent 与强化学习方向的创业机会,以及一些商业化应用的趋势。

接下来 Agent 需要什么样的大模型和模型能力的演化方向?我们可以先聊你们自己亲身经历的一些行业动向,包括最近美国核心的 AI Lab 有很多新模型的发布。我知道 Henry 和 Naomi 你们刚去参加了 Gemini 3 的一个庆祝派对,我挺好奇 Google Gemini 团队在这个活动上讲了一些什么,他们在庆祝什么。

那我们可以先聊些你们自己参与的行业动向,包括最近也有很多呃美国那边核心的 AI Lab 的新模型的发布。我知道呃 Henry 和 Naomi 你们刚去参加了 Gemini 三的一个庆祝派对,对吧?你我我挺好奇,就是在这个活动上他们讲了些什么,庆祝了什么?嗯,大家可能知道,最近谷歌发布了 Gemini 3 Pro 以后,然后士气非常的高涨啊,股价这个也有很好的这个增长。

然后昨天的话呢,是在他们旧金山租了一个画廊。然后做了一个 Gemini 3 的一个 launch 的呃庆祝一个 party,这个 party 上面呢,他们主要是邀请了很多就是 Gemini 3 的用户,主要是一些近期这个硅谷最火的 startup 的他们这些创始人。最近的话呢,AI Studio 是他们相当于面向开发者的一个入口。

应该是有爆炸式的一个增长,所以他们最近也成立了一个,刚一周前成立了一个新的 team,由这个 Logan Q Patrick 来立的啊。这个 Logan Q Patrick 之前在 OpenAI 来立的他们的 Developer Experience 开发者体验,然后之后跳槽到 Google

Deep Mind,最近所有的 Google Deep Mind 的发布啊,很多时候都是他来 interview 啊采访 Dennis 啊 Hassabis 或者这个 Jeff Dean 或者其他的这个核心团队成员,所以相当于是 Google Deep Mind 现在对外的一个这个发言人。

对,所以它现在是来立的这个最重要的开发者的一个门户 AI Studio,所以可以看到之后应该他们是会有很多的这个市场动作的。比较巧的是,是不是刚好同一天,GPT 五六二就发了?哎,这个是为了应对呃 Gemini 3 的竞争吗?有一种解读是说,就觉得它这个更新的特别快嘛。五点一其实呃发了也没有特别久。

我们听说的消息是,嗯,之前他们的五点二 fix 了在就是之前一个版本 pretraining 时候的一些问题,然后使得这个就能力上啊都有很大的长进。第二个肯定也是之前包括可能大家听说这个 Open 自己也有自己的 code

red。然后也是,我觉得也算是一个应对的策略吧。然后我看了一下他们这次就是发的一些这个 benchmark,相比于五点一的一些进展,它在一个是 G D P V O,这应该是他们自己做的一个测评,是针对四十四类知识型工作的。

然后之前 G B T 五点一可能是只有百分之三十八点八的几率,它是和人的顶级专家同样或者更好的水平。然后五点二是到了百分之七十点九,这个是上升的特别快的。然后另外一个。Benchmark 它上升特别快,是 Arc AGI Two,之前只有十七点六,然后现在是五十二点九。这个呃 Benchmark

我我理解它那些题就是抽象推理什么的,它看着特别像中国考公的题目,就可能给你几个模式,然后让你推测就是下一个模式之类的。

就你们会怎么看?就是它在这些呃 Benchmark 上提升的非常明显啊。首先啊,看这些 Benchmark number 的时候,嗯,其实有一个隐含的一个。Dimension 是它的 token 或者 cost,就是现在大家就知道这个 scaling law 啊,然后或者是是 like test time scaling,就是说你在用的时候,你让它多想一会儿,然后它的结果就会好一点啊。

包括这件事情,其实就像很早之前这个大家做暴力搜索,你这搜索时间越长,你可能找到结果越好。所以就是光看这一个 number。这个本身它刷到多高,包括像 AIME 刷到一百分,这个本身可能意义不是特别大。但是像 AGI Benchmark,它上面是有一个横轴是 cost。然后大家会看到这个,其实在这个方面,他们十五点二的表现也是特别棒,就是在相当于是同样的 cost 下面,我的这个分数能够提高了很多。

然后或者说同样达到这样的 performance,之前可能需要几十块钱或多少钱,然后现在可能这个嗯效率也增加很多。其实这点非常 interesting,是因为。嗯,GPT五点二的定价其实是要相对来说比算是比较高的,但是它overall做这些task反而它的这个cost的降低了,所以其实它的就是对于token的这个利用效率能看到是。

就是比之前的版本要高很多。其实,嗯,如果大家有仔细去看,像比如说一些开源模型的,它的 thinking trace。这个你会发现很多他的这个 thinking 就是感觉效率不是很高,一直在自说自话,然后可能就是会走很多弯路。其实,在这个里面确实有很大的优化空间。我觉得这个是在就 GPT 五点二在这方面做的特别棒。

然后另外一个是 GPT 五,这个这确实是一个他们一个做一个更现实的,就是在这个生生产生活场景中的一个 benchmark 哈。当然,嗯,其实也就在前两天,DataBricks 也发布了一个叫 Office QA 的 benchmark。嗯,当然,这期这个验证码有有多少人用?它可信度还是就是或者它的权威性可能还有待考证哈。

但是他提到了一个GDP eval里面可能不是特别realistic的一个场景,是说他们会假设,首先它的问题分布可能不一定是。真正客户关心的那些问题。第二个可能是,就是你在回答问题的时候,真正的企业场景里面,你甚至不知道从哪个文档开始找起。所以这部分它的这个 setting

可能也会相对来说透一些。那当然,这个是这个是 DataBricks 的这个说辞,就是说他们的这个 benchmark 会更 realistic,然后更难一点。

当然,这是即使在他们的 benchmark 上面,嗯,就大家看到就是 GPT 五点二还是会比之前的版本要好一些。所以 overall 就是,嗯,可能 GPT 五这个 benchmark 本身的 number 可能不能过度解读。但是从另外一个方面也是看到这个 GPT 5.2 在真正的这种生产生活中,这种 task 上有有一个明显的进步。

我想补充一下,就是这个 GPT Well,我觉得是一个很有意思的 benchmark。啊,因为昨天他们发布这个 GPT 五点二的这个当天呢,刚好也是 OpenAI 这个十周年啊,所以相当于是一个十周年模型的献礼。然后这个让我想起来,就是 OpenAI 二零一八年的这个呃章程里面写的,他们对于 A G I 的定义,就是一个能够高度自动化,然后能够比人类更强的执行大部分有经济价值的工作的这个 A I。

是他们对 A G I 的定义啊,那么其实就是刚好,我觉得到了二零二五年,他们其实回到了他们二零一八年这个定义上面啊,这是他们我觉得他们推出这个 G D P G D P Well 这个原因,他们做这个 benchmark 的时候,专门就是选了这个 G D P 里面超过百分之五的这些有重要意义的 sector 啊,比如说像这个。

制造业,比如说这个啊房地产等等,然后他找这些重要行业里面做了一个四十四个职业,然后一共一千三百个二一千三百二十个任务的这么一个数据集,然后来做这个事情。所以可以看到,就是真正开始 measure,就是他们之前二零一八年这个章程里面说的这个 A G I 这个定义了之后的话,我觉得应该也会。更加的务实一些啊!

不过虽然它这个在很多 benchmark 都变好,但是我觉得很有意思的一个点是,大家还是会来测试它这个模型能不能数对,在一个单词里面有多少个字母 r。因为这个 Old One 的这个代号是 Strawberry,然后当时开始能数对,但是现在到了 Garlic 是个五点二的内部代号,它还是就是概率性能数对,有的时候能数对 Garlic 里面有一个 R,有的时候会说零个,有的时候会说两个。

所以就是说,这个 A G I 其实我觉得还是有一个 long way to go 啊。还有一个有意思的点是,今年 OpenAI 其实发了三个 benchmark,G D P Well 还有 Paper Bench,啊,是一个 end-to-end 的去复原 AI 领域的论文的一个

benchmark,还有一个是 Free Lancer,啊,就是 Free Bench 的一个 Free Lancer 版本。

提出 benchmark 时候,report 的这个哪个模型做的最好?都是在 Topping 的模型做的最好,所以我对 OpenAI 的这个研究员有很大的这个尊敬,就是他们把 marketing 和 research 能够分开,所以我觉得这个还是他们还是非常非常的 solid。我觉得 OpenAI。

就是他自己提了三个标准,然后至少在最开始去测的时候,反而不是自己是最好的。对的,这个也增强了说服力啊,我觉得。回到就是你们说的这个 GDP WDL 的这个标准,它是想针对真实场景嘛?包括他这次也展示了很多用例,比如说财务报表,比如说 HR 去做的一些资料等等。然后我作为用户来看的话,就是我会有一个比较自然的问题是:这是不是又是基础模型可能会吃掉独立 Agent 的应用的一个表现了?

就好像你在 OpenAI

里面,就你已经可以在一些挺专业的场景。你直接去跟他交互,他就能给你一个挺完整的交付的工作。想问一下那个韩俊和Bethel,因为你们呃就是服务这些agent的场景,或者说这些公司的啊,你们会怎么去想这个趋势啊?对,我觉得你说的非常好。就是这这东西可能有两个方面,第一方面是刚刚像你说的这一些曾经需要用

agent,也就是呃 code scaffold,也就包含代码以及这个模型本身的一些东西。

它会不会这个能力被蒸馏到模型本身里边去了,也就是被基础模型本身就给吸纳了?这个确实我们有看到这样的趋势,这是一方面。那这个原因是因为各大 lab 其实在在 curate 他们。模型训练的数据集的时候也是非常注意,非常注意它的一个是行业的覆盖率,就是像像刚才 Henry 说的,这四十四个行业是一个非常平衡的一个覆盖率。

然后其次是覆盖每一个行业,其实都会有不各种各样的工具。那么各种各样的工具需要用一个 mock

的方式,让模型让基础模型有跟这些工具做交互的体验。而这些体验一旦积累的多了起来之后,这个基础模型慢慢的就更会去学会直接跟这些工具进行进行交互,而不需要一些呃剩余的代码的辅助来跟这些工具进行交互。所以你会看到,就相当于是基础模型慢慢的把这些能力都内化了,像找到了一个自己在自己的 shortcut

一样,就是自己能够做这些事情啊,不需要外界再写很多 agent 的代码来做这些事情。

所以,嗯,这是第一方面,基础模型有没有更好的能力?嗯,在训练数据更多的时候,啊,覆盖更多的行业,覆盖更多的 task。然后另一方面,其实是硬币的另一面,就是说始终是有这么一个 gap 在,就是说基础模型能覆盖这么多一个广谱的能力,但是依然有一个非常我们说长尾,并且是 heavy tail

的一个。呃,distribution这些工作流是每一个企业它自己独有的,而这些工作流可能不一定能够被这个基础模型覆盖的非常非常周全,所以我们也是观察到这个gap是始终存在的。

虽然基础模型的覆盖面不断的在增加,但是因为每一个公司他们有自己的独特的工作流,并且这些工作流通常是公司独有的,不愿意把这个数据公开出来的一个东西。也就导致基础模型很难在这一些数据上被训练,所以这始终有一个 gap,需要用一些额外的能力去去进行覆盖。还有另外一个方面就是,其实这个嗯模型和 Agent 也是一个相互成就的过程,像这个。

嗯,Cursor 这个应用场景这是一个爆爆火的这样一个场景。其实呃,它的这个 coding agent 包括说啊,要去帮你实现这个新的功能,帮你 debug,就这些能力,其实就是各大模型厂商也会去针对性的去训练啊,相当于是甚至是作为一个服务 Cursor 的这样一个角色,去去让这个 Cursor 这个 agent 或者就其他一些 coding agent 表现更好。

所以其实,在某种程度上,这个相当于是啊,如果这个 agent 它拥有这个场景。然后人们可能还是会在这个嗯 cursor 这个场景下去继续去使用这样一些 agent,然后这个模型的能力的提升或者在 coding 这个 debugging 或者 multi step 这些方面提升,反而是去会去成就这样一个下游的这个 agent 的应用。

另外一方面就是这个 boundary between 所谓的模型和这个 agent 可能也不是那么的清晰。包括像虽然像现在这个,你比如说 ChatGPT 这个这个应用本身就可以是已经算是一个 agent。然后,嗯,包括这个 API 以后,就是无非是你把这个 API,就后面它可能做的事情是把这个工具连上,把这个。

比如说搜索工具啊、文件读取工具啊,这这些东西连上之后,它本身就是一个可能 agent。其实你在这个 API 它包装的后面,其实可能已经是一个巨大的。啊,能够 deliver 事情的一个东西,所以可能以后,嗯,就大家能接触到的,可能这个帮助也会越来越模糊。然后我我也想聊一下,就是最近要就更火的另一个模型,就是这个呃 Gemini 3 Pro。

我想先问一下你们,就是你们在硅谷的感受是,这个 GPT 5.2 出来和 Gemini 3 Pro 出来的时候,它这个声量上会有明显的区别吗?比如说开发者的讨论啊,然后或者市场关注啊,我觉得 Gemini 3 Pro 发布的时候声量应该是更大了,因为它当发布之前可能就已经有一个很长的一个逐渐建立大家对这个事情的预期的一个过程啊,可能在发布前一两个月,当时我们就已经有就是。

我我感觉 OpenAI 的朋友说,最近比较紧张,因为听说 Google 那边就是下一个模型的这个 release 会很强。嗯,当时就是大家预期很高,然后最后出来的效果确实也不错。我觉得这是一个非常重要的一个时间节点,就是象征 Google 就是在在全面的就是达到可能 SOTA。因为之前的话就是那过去两年里面,我觉得 Google 做了很多很好的工作。

啊,但比如说它可能是一些不同方面的一些呃亮点,比如说可能去年一开始一点五的时候,然后第一次比如说把 long context 做到 one million,后面的话就是一直这个 cost efficient 做的非常好,在呃 Pareto frontier, Google

的模型一般就是有很多啊,然后还有的话就是去年年底的时候发布了 reasoning with budgets,效果也不错,然后 Google 的 multi model understanding 一直也不错。

今年的话呢,Nano Banana的效果也是非常的惊艳,但 Gemini 3 Pro 感觉是把这些就是不同的 component 按在一起,然后就是整个的 across different dimensions 能够达到这个 SOTA

的水平,所以应该是一个。比较重要的一个时间节点,我的感受也是类似,就包括我们 Azrafic 朋友也是,当时感觉特别紧张,就是说这个他们内部也是觉得 Gemini,所以大家对 Gemini 3 的期望真的很高,然后在这么高的期望下还能满足大家的期望,我觉得这一点上已经很不容易了。

就是大家已经 set 一个非常高的这个 baseline 之后啊,当然有一些是我觉得作为这个能够作为呃像病毒式传播或者能够让大家惊艳的很多的,在这些方面, Gemini 3 其实下了很大的功夫,包括像生成网页这件事情,这件事情就是市面上也有很多这样。的这个成功的产品,然后 Gemini 这这个自己就原生这个能力就能够去做到这样生成的网页,它的包括审美和可用性,可能甚至比。

啊,已有的这些嗯产品可能更好,这件事情本身就是非常容易去造成这样的传播。然后像我们刚刚在讨论 GPT 五点二的时候,都是在这个非常实用性的 Office 啊或者这里面这个白领的工作,这这件事情可能虽然它确实很有用,但是在这个传播方面或者造热度方面,可能确实不如像造一个非常能够直接能够做一个交互式的应用啊这样一件事情来的更吸引眼球。

所以这个可能本身不是一个 fair comparison,但是也代表说 Gemini 在这方面真的是非常惊艳。其实 Google 内部也紧张。就是紧张的是,我们是不是discussed了太多了?然后我们是不是太强了,以至于让我们的竞争对手紧张起来了?所以他们的紧张是因为自己可能让竞争对手进行了一次非常紧张的一个过程。

对,所以也会有这样的情绪。然后刚才韩军说的这个传播的途径,其实确实挺重要的。能看到,特别是谷歌内部有个部门叫做Google Labs。也就是呃,banana呀和 notebook LM 的发源地,他们非常注重 creative 的这种体验。notebook LM 不只是有工程师 PM,还有 editor 主编和作家来加入整个产品体验的一个开发,包括最后 demo 的呈现。

然后你看,现在的Nana Banana也是会招收一些非常擅长在网上创作爆火的帖子、爆火的作品的人,所以他们能够抓住什么能够病毒式的传播,所以他们会。非常有意思的去特意的去招这样的人来加入自己的团队,也是这一个声量的一个思考。这个分享挺有意思。这个 Google Labs 它和 Deep Mind 它是分开的部门,对吧?

它是个更偏产品的部门。对,它更偏向产品。嗯,它的 Head 的话其实也管着一部分 Deep Mind 的人,所以有非常多的合作。嗯,其实也是非常多产品驱动的一个呃训练数据的补充。这个 Head 是什么背景啊?就他以前是做什么了?产品背景非常强。他其实最早是做 NBU Next Billion User,所以他非常习惯在很难打开的市场能够打开一片天,非常佩服。

叫 Josh Woodward。哦,这个人我看他和那个呃哈萨比斯一起,就是在 Gemini 3 发布之后,他们一起去做了一个播客的分享。嗯,对他现在也是 Gemini App 的。这个 next billion users 是以前 Google 为了就说我已经有了很多用户,然后我怎么有更多用户专门设立的一个组织是吗?

是的,它是一些非常有意思的产品,包括呃,比如说在印度之类的市场,怎么去打开 the next billion of users for Google。我有一个好奇的小问题啊,就是呃,banana,它其实是 Gemini 二点五 Flash Image 这个模型的,算是一个代号或者昵称吧?它为什么要叫这个名字?

为什么要叫小香蕉?哦,我知道,我知道,就是当时我们在啊办活动的时候,他们的产品负责人和他 PM 都来了,一个 PM 就说啊,我们今天就加班到凌晨两三点,我们要为 the project name really fun。他说,那我们就想一个什么样的水果吧?他又看了一下自己。昨天做的美甲,发现他美甲上是是两个香蕉,然后他说 Why not we just call it 啊 Nana Nana?

然后所以他们就取了这个名字。然后当时我们还,我当时觉得原来这个起名都这么 random 的嘛。然后我还特意拍了他那个美甲的照片。然后呃,曼奇你可以贴在就是这个你播客的那个 transcript 里面哦,可以可以,好好好,我们看看这个原版的小香蕉是什么样子。哎,说实话,这个名字对我来说非常难练啊,因为我是 n 和 l 是分不清楚的,我觉得这个名字实在是太灾难。

就这次可能啊,Gemini 3的成功,大家可能觉得和他们 pretraining 上面有一些突破是有一定关联的。可能大家都还记得,就是去年 Ilya Sutskever 在 NeurIPS 的那个 Test of Time Award 那个 talk。它里面讲的是,就是 pretraining as

we know it will end,就是我们所知道的 pretraining 会结束,啊,一个时代可能就会结束了,因为我们可能数据啊各方面就是不能再 scale 了。

啊,但是他当时那篇得奖的 paper co-author,也就是 Google 的 Oriol,他在 Gemini 3 发布以后,然后自己发了个推特,说讲了讲他眼中的这个 Gemini 3 的这个魔法在哪里。其中就提到就是 pretraining time

这次还是有很多的突破,并且他提到了一个词,就是 no wall insight,就是不光是说我们这次有一些改进,然后我们把改进用完了,不是这样的,而是说我们这次有改进,并且我们还有很多改进还没有就是。

其实未来还还有机会去接着去做,所以他其实是对这方面接着有突破是非常,呃,有信心的。所以我觉得这个是一个,嗯,很有意思的一个点。然后另外的话就是,可能大家认为就是 TPU 对于 Google 的 pretraining 啊,或者说 large scale large scale training

也是一个 plus 啊,因为就是当你把这个 large scale training scale 到一定程度的时候,你这个问题就变成从一个啊 compute bound 的问题变成一个 network bound 的问题。

然后 TPU 的话,它一开始设计的时候就是以这个 mesh 结构,然后作为基础设计的,而不是像 GPU 一样,它本来是一个一张 standalone 的卡。然后它后面才 evolved 出这个网络结构,所以在大规模 training 上面,TPU 对于 GPU 上面也有一定的优势。就这点,其实我还挺想补充一下刚才你说的,呃,就是谷歌这次回归吧。

我觉得谷歌虽然它的 decision 过程比较慢,但它一直是非常善于长期布局的一个公司。让我比较一直 impressed 的是它的布局所导致的一些 co design。可能在现在迎来了一个爆发吧。这个 code design 包括 TPU 和 model infra 的一个 code design。

那么 TPU 能够一路优化到非常非常底层,包括自己的 kernel,包括 kernel 上面的 library,然后这些 library 再到就是 JAX 这些,再到上面模型的呃大模型的 infrastructure。就是一路能够去联合优化,从通过组合组之间的合作,嗯,我觉得这个其实是非常大的一个 super power。

现在大家看到各大公司,包括 OpenAI 也在 design 自己的 one P 硬件,其实也是希望能够有一个完全属于自己可掌控的一个硬件和模型 infrastructure 的一个 co design。然后第二个 code design 是模型和应用的 code

design,特别是譬如企业这边,呃, Google Workspace 其实是非常久有这个布局的,包括 Google Workspace 是一个跟 Slack 差不多的一套 Workspace,包括 Calendar,包括邮件,包括那个呃 Doc 之类的,对,跟飞书差不多。

我解释一下,因为 Slack 有的人他不知道你说的是飞书啊。对对对,没错没错,对,它是整一套办公的环境。所以就导致其实有非常多的办公类型数据和办公类型的应用场景。那这个数据其实也是能够 feedback 到那个模型本身的。这我们看最近 Google Cloud 的 Agent Space 的 launch。

那么其实本身这些 Agent Space 的所收集到的数据,其实也是能够返回到基础模型本身的训练和能力中。然后最后一个是 data 数据和 hardware surface 的一个 co-design,这个我们能看到,其实 Google 的 surface 非常多,包括其实有些 surface

大家可能都不注意,Google 有车的 surface,有之前的 Assistant 的 surface,然后有 Home 的 surface。

就是谷歌那个智能家居的 Surface,也有现在 Project Astra,就是那个眼镜的 Surface,在包括 Pixel 手机的 Surface,这些 Surface 能够 collect 到非常不一样的数据,然后这些数据有返回到模型的一些呃训练数据里边,所以我觉得这一个整一套

ecosystem 的 co-design 这么打通之后,布局很远,可能之前这个布局一直没有迎来一个爆发点,但是只是恰巧现在这个爆发点来临了而已。

嗯,对,我觉得你说的这个点挺好,这个总结也挺好,就是它有好几层的呃,co底赞,就是各个部分的协作吧。你刚刚说的就是一个是从最开始的从芯片,然后到infra到模型到应用这样一个垂直的链条,它其实都是自己掌握的。然后还有就是它企业的应用,然后它有很多硬件,然后和模型的团队之间也有很多这种。一起的协同,嗯,这个确实可能是大公司布局这么多年、积累这么多年的优势。

我觉得在国内的话,其实像字节和阿里也都在往这个方向发展,OpenAI 其实也在往这个方向发展。比如说,Sam Altman 最近也是放话出来啊,说什么我很期待我们的自己的芯片,嗯,对他们的芯片设计还是非常非常酷的,呃,主打低功耗。然后,甚至做了自己的一整套,从编译一直往上做的一整套 stack,所以非常非常期待这个之后在他们的 One P 硬件上面训练出来的一些新模型。

包括这是新一代谷歌新一代TPU吧,这是在性能上就是相较于前几代还是有挺大的飞跃。然后这一点是值得特别期待,包括我们自己的公司也是在和谷歌的TPU团队有一些合作。当然,就是一方面能拿到这些TPU也是优势吧,但另外一方面是确实在这个谷歌的在这方面生态布局上,我们能够。就得到一些 benefit,所以他现在其实是对外,就是把这个 TPU 也是用到他自己投资或者孵化扶持的这些创业公司上。

对对,其实对外一直有啊,甚至对外用 TPU 的版本还比内部要先进一些。就说当新的 TPU 最新的 TPU 造出来之后,其实有非常多的公司会去买这些 TPU,然后甚至是预定将要出来的 TPU。然后当有一些剩下来之后呢,然后我们内部会有一些啊模型训练啊能够用得上这一些 TPU。然后我们就是 Perker

呢,因为跟谷歌的渊源非常深嘛,嗯,所以会有一些非常多的合作,包括我们跟他们最新的 RL 框架是一个叫 Tunix。

是一个 RL on TPU 的一个第一个框架,因为这这些合作,所以我们会有一些 strategic 的一些 research 上的 TPU grant,在这边为 TPU 打一个广告啊,就它确实是延展性和稳定性都非常好,尤其是要做大规模的模型的训练的话,那要去扩展到 multi pod 的话,相对来说对于开发者来说比较透明,所以因为它的一层一层的抽象都做得非常好,而且比较的稳。

就是你们用 TPU 的话,就是它这个配套的软件是怎样的呀?因为其实英伟达之前它有一个很强的壁垒,就是 CUDA 这一块嘛。因为你们之前都在 Google 工作了很久,所以你们用的很顺手。那如果我呃,是一个开发者,我可能之前我没有在 Google 工作过,我以前一直用 GPU,我如果要来用 TPU 的话,它会好用吗?

嗯,TPU 这个其实现在几个主流的框架,包括 PyTorch 啊、Jax 啊,其实都有支持。然后它依赖的是底层的叫 XLA 的一个相当于编译器一样的东西去。啊,当然这个代码可能会比较晦涩,就但大多数人可能不需要去呃一直到这个底层去去 configure 这个 TPU,所以如果你熟悉 Python 熟悉 Jax,其实大差不差应该都可以能够用起来。

然后再包括像现在这些主流的框架,也都包括像强化学习的框架也会比较成熟,像比较 popular 的两个 inference 框架 VLM。和 S G Long,他们都对 T P U 有支持,所以甚至大家都不需要知道背后他在用 T P U,你直接一键就能够把你的模型给 host 起来,然后去做 inference。

所以其实这个这层在逐渐变得透明,然后大家的这个关注会相对来说更少一点。当然,Jax 可能还是会更 native 一些,然后包括它的做这种沙林啊,或者这种。所以,如果像 Google 了,可能一般会比较熟悉 Jax 这样的编程语言啊,或者说这种编程框架吧。对,所以这可能是一些小的 difference,但是也不是那么重要的 difference。

Jax 是类似于 CUDA 这一层吗?呃,不是,它是类似于嗯 Pytorch 吧。可能算是这一层。呃,Pytorch 我理解是不是要比 CUDA 要更上一层?对,所以像你你用 Jax 也可以跑在 GPU 上,你用 Pytorch 也可以跑在 TPU 上,所以他们是这两个是 decoupled。当然,可能背后是是需要一些 non-trivial 的一些工作去把他们这个切换弄得非常无缝哈。

但是理论上只是。对,可以互换的,像 XAI 之前很长一段时间应该是在 Jax 啊这个 framework 下,但是底层呢是 Elon Musk 买了很多 GPU 嘛。对,就是他们是这样一个架构。当然,这个就是确实有很多,嗯,不是很 trivial 的一些改动。然后,xai

的早期成员有很多是谷歌的之前的员工,所以就是大家这这这个是可能在一般的 startup 可能没有这样的机会能够去说,哎,有什么问题,哎,直接问到谷歌里面的人,然后把这个 jax 的问题啊,或者是 xla 的问题去 fix。

但这这这个生态也是在逐渐变得成熟。这个 Jax 和 PyTorch 其实是一层是吗?呃,严格说其实也不是,Jax 可能更就是 Jax 有点像是囊派。嗯,你可以认为在就囊派可能比较在像 CPU 这种上面是做一些数值运算,然后 Jax 可以是一个更抽象的一个层,它在比如说 GPU、TPU 上面都可以跑。

然后 Jax 再往上面一层呢,就大概会有很多神经网络的框架。然后比如说啊,Flex啊,然后当然这命名规则也非常有意思啊,都喜欢把最后一个 letter 变成 X。就是神经网络你要训练的话,有配套的像呃,你比如说这个存呃,你你训练好的模型的权重,那这个有专门的包叫 OptX,也是一个 X 结尾的一个东西。

然后像 Google 的话,这个也有专门做 RL 的包叫 RLX。就是围绕这样 build 的一些更高层的一些抽象,对这些东西可能加起来算是像 Pytorch 这样,但 Pytorch 本身它自己已经带了这个,就是很多东西,像很多东西都集成到包,像最近 Torch 有 Pytorch 有个叫 Torch Forge 的东西。

也会往 Pytorch 这个整个框架里面去塞,使得它已经自带了像强化学习啊或者这样一些东西。那 TPU 这个软件系统里面,它更类似于库大的东西是什么?那个库叫 Palos。那个东西也是呃,大部分是开源,当然有一些部分是就在底层,在底层是没有开源,但是一般来说也改不到那个里面去了。对,你们觉得这个对英伟达的这个生态有冲击吗?

我个人不不构成投资意见。哦,我觉得可能,呃,我觉得肯定还是有一些冲击的吧。但是就是,我觉得 TPU 它,我我通过我跟一些 startup 聊过,有一些 startup 其实它是做 TPU 相关生态的一些 optimization。然后他们有说,就是 TPU 的应用成本还是高的。呃,可能它对针对 user 还是对谷歌生态比较了解,或者是 technical 呃比较 native 的这些 user。

一个是因为一些大的 CSP 它不会做大规模的部署。第二是一些系统的 TCO 打字,呃,下一代可能领先比较大,然后 data center 适配打字的障碍,呃,就几乎为零。嗯,但如果你要换 T P U 的话,可能得重新来。啊,第三就是 Jax 现在用的人可能还是相对较少,但是它肯定谷谷歌也在加大这个投入嘛。

目前来说,还是库代比较王道吧。但我觉得,就是大的客户肯定会把 TPU 当做一个 bargaining power,一个 bargaining chip。嗯,就对于谷歌来说,就是让别人用 GCP 里面的 TPU 和直接卖 TPU 系统,啊,中间也会有一个 balance。大客户肯定会愿意多一点供应商嘛。

现在啊,英伟达的护城河主要就是在于库达,然后但越来越多的大公司团队啊,有能力从更底层的指令集做改动的时候,以及模型的更新速度慢下来之后。那大家对于易用性和快速 G T M 的要求没那么高了,那库大的护城河可能也会下来,谷歌肯定也会对 Jax

投入更多的资源啊。我觉得谷歌这边可能就是保证怎么出货,可能是是一个问题吧啊,就是要要去将前端和后端封装的产能,然后要把系统跑通,然后要平衡好和不同联发科的关系。

这里面肯定有很多需要 figure out 的东西,所以我觉得肯定还是有一点点负向,但是就是多少负向就是不好说啊。我觉得这是一个很好的输入信息,而且其实你刚才也讲了一些条件,就包括模型进化的速度,它肯定也会影响底层算力的格局的变化。所以投资意见就是买博通和台积电。呃,我觉得可以考虑啊,正好博通跌了,对吧?

我之前听说一个小道消息。说是这个啊,老黄每年给这个谷歌付很多钱,啊,这个付钱的形式大概是就谷歌云去买呃,Media GPU的这个 discount,然后交换就是谷歌不要对那么快的对外大力推广他们的这个TPU。就是大概两三年前,国内有一批GPU创业热潮的时候,那个时候我们也去找就是美国的英伟达的一些人交流过,当时英伟达美国的工程师就说,老黄在内部是最警惕的对手,就是Google的TPU。

关于这个 Google 强势回归,我自己其实比较关注它组织层面,就这么大的一个公司,然后它要跟上这样一个一度大家认为它已经落后了的。趋势,它是怎么在协作、在组织层面调整?这个我想先请韩俊讲讲,因为你其实有经历,就是二三年之后,Google的一个变化比较大的就是 Google Brain 和 Deep Mind 的合并。

那在那之前,其实外界也会并购,说 Google 是不是这个双中心,然后会不知道这个重点是什么。然后后面确实从外界来看,就是它合并之后,它最后的成果是确实更好了。你可以讲讲你自己的体验是什么?对我们当时确实在嗯合并之前,像谷歌大脑和 Deep Mind 各自有各自的模型训练团队,然后各自也有推出了各自的自己的模型啊。

我觉得合并这件事情总体上对 Google 整个效率而言,或者这个人才的就是集中或者利用率来说,我觉得肯定是一个好事啊。我觉得 Gemini 这个名字来由也是相当于是这两个 Org 的这个双子的这个合并,这种其实是一个挺好的名字。对啊。就玩过星际争霸的朋友,可能更对这个名字可能会更熟悉一点。这个过程肯定是有一个磨合的过程,因为一开始两边用的这个 infra 可能都不太一样。

当然,你可以想象有很多嗯 politics 的问题,这个。因为 infra,毕竟,嗯,用这个也能用,用那个也能用,所以肯定也是你开始会有一些混乱。但我觉得,当你技术路线明确的时候,我觉得这个其实大厂的这个优势就会体现出来。大家一起朝着这一个方向去努力,然后在这样一个明确的这个方向情况下,大家就能各司其职。

确实是后面就会越来越顺利。因为其实 Google Brain,我理解它是更偏前沿研究的,就可能。以前它可能会更发散一些,然后 Deep Mind 的可能它会是更自上而下一些。它现在如果大家合在一起之后,它偏什么方向?对,挺有意思的,因为就是我在嗯毕业去谷歌大脑之前,我其实在啊伦敦的Gemini待过一阵,就当然当然是实习哈,然后给我感觉确实这两个。

呃,研究部门有有自己的风格啊。Gemini就像你说的,我觉得确实会是一个更 top down 一些,会有会有这样的一个组织。当然不是说它没有自由度啊,但是可能更有一个目的性的这样一个,比如说它做这个 Alpha Fold,比如说打星际争霸,我觉得都是一个需要有组织、有纪律。然后甚至 daily

stand up 或者这样一些形式能够推进项目,我觉得这种模式还是挺适合去做这样的,嗯,语言模型啊这样的推进。

然后像嗯,谷歌大脑在给我个人的感觉是,当然 Google Brain 也是一个非常大的一个组织了,就是它也有。比如说跟产品和跟 YouTube、跟 Search 或者更结合的更紧密的,然后也有一些就是可能更发散,可能做的事情 Google 也不一定能直接赚钱,就是所以它的 Spectrum 可能也会更广。

然后我觉得大多数时候也是,也是有很多这种自下而上的,可能有有有有一些是做了自嗨的,就可能和后面想想,包括我自己也做了不少这样的工作,可能是一些嗯没有太大用,但是我觉得这种自由度是一个,最后我觉得还是一个取舍吧。我觉得自由度是能够激发这个,我觉得 research 是需要一个冗余,需要一点浪费。需要一个这样的环境,能让你去,然后去做一些新的探索、突破。

但是训练语言模型可能不是一个那么纯粹的 research,因为它需要 outcome,需要短时间的 delivery。然后,但同时呢,它也是一个 research,因为这个事情确实。啊,不是所有,这可能大家都不知道这个东西。应该具体的就是这么做就一定能 work,或者这么做一定不 work。所以,嗯,在这个情况下,我觉得对,就是可能不同的组织优势就会就会有一些体现出来。

但是,但是大家可能外面也能看到,就是说,在包括这个 publication policy 啊,或者这些方面,其实各个大厂自己也会有一些收紧。然后,包括这是这是什么能够什么能够发表,什么不能够发表,其实这些都是嗯,在这个高度竞争的环境下,其实确实会。比之前,特别是在这个谷歌大脑的时候,觉得还是有很多。

现在看来,可能当时那些paper就可能现在就不允许发了这种情况。哦,就当时可能会分享给业界的一些论文,现在可能就是自己收着,自己先留着。呃,会有更多的考量。吧,或者至少说,呃,这个东西不一定是现在发,可能以后发。哎,在这种更高度竞争的环境之下,呃,研究员的成就感会怎么变化呀?因为我觉得以前如果你有一个好的成果,你发论文,然后其他同行能看见,大家可以讨论,我理解这应该是研究员的一种满足感、自我认同感的来源啊。

那如果现在就是好像要做这种无名工程,跟以前到西柏坡去开发原子弹的那种感觉似的。的大家的心态会有什么变化吗?嗯,我觉得有有些可能比较纯粹的研究员,可能就不是那么 care。像我之前的老板,我觉得他是一个比较纯粹的,这个研究过程其实还是一个追寻自我的一个突破的一个过程。这个也不是说不能分享,至少在谷歌内部那么多人 researcher,我觉得还是可以,还是可以分享。

就是就可能不是那么就是直接能够分享的,直接一个人甩到外面,但是这不妨碍他的啊从分享或者从这个探索未知的这个角度的满足程度。然后第二个就是,呃,毕竟这个薪水这边是还是有有这样的回报的。然后,如果你的研究成果能够应用到,比如说 Gemini 或者一些模型里面去,它带来的 impact

可能会更大。就相对于之前自己单点的做一些 research,只有你自己这个 domain 的人 care,那现在这个工作就能够让所有的全世界的人都能用到。

我觉得这种程度,其实嗯,不妨是另外一种程度的满足吧。其实我我觉得刚才讨论的就是最近这些核心 AI lab 的进展之后,我自己的一个感受,包括市场里其实弥漫的一种氛围,都是觉得超级大厂它能做的事儿是挺多的,就他们看起来特别强。那创业公司的机会是什么?对吧?包括你们现在自己也在创业,我觉得可以回到这个开头讲讲。

现在其实 Google 的势头很好嘛,然后里面都是在核心的部门,在 DeepMind,在它的就是面向开发者的 Vertex。这个云平台,你们为什么要自己出来创业啊?包括你们看到的,就是更小的、更新的公司,它在这个大的生态里面,它有些什么机会了?我可以讲一下整体创业的来说的一个 landscape,以及就是呃,主要是垂直和 horizontal 这种水平的创业,我们我们大概看到的一些一些东西。

对,在垂类的创业其实还是机会非常非常多,呃,并且是跟大模型能力相辅相成的。就譬如说,我们有些朋友在做生物领域的一些创业,非常酷啊,能够加速一些生物的新药研发,包括一些呃临床试验的实验设计。之类之类的工作,嗯,这些其实是非常需要一个我不能说是T型profile,可能是派型profile的一个人才,就是他既需要一些生物领域的知识,又需要一些那个computer science领域的知识。

然后到这些呢,其实,在创业这边能够更很有效的调动一些呃产业界,包括药厂。然后以及学界,嗯,比如斯坦福大学呀之类的那些 labs 也非常 heavily involved。然后再包括这些创业者本身的一些能力。然后为什么说这些跟基础模型的发展相辅相成呢?因为你可以看到,包括 Gemini,包括 Anthropic 的模型,最近在补非常多的生物 life science 方面的一些数据。

那这个我觉得是跟这些垂类创业是相辅相成,并且互相利好的。那基础模型的在这个领域更好,然后垂类能够作为最后一公里的一些呃 delivery,能能够让大家能用上这个落地,所以这这个是垂类领域的一些机会,嗯,然后水平就是平台类领域的机会的话,我们其实也看到一个供不应求的一个状态,嗯,原因是。现在,如果和企业沟通的话,你会发现企业非常的 ambitious,或者用一个贬义词,就是企业非常的锋猛。

因为他们最担心的是,尤其是那些一线的企业,他们最担心的是在自己在自己所在的领域,从世界第一掉到了世界第二,甚至更糟。Given this的啊,其实企业的用途还是相对复杂的。我们可能关注比较多的是强化学习这个领域,哈,有有好多公司在做 orchestrator

方向的一些一些优化。那么,包括怎么把一个呃语言模型,就是所谓的智能体里边那个核心的模型,在这一系列的工具上做一些数据的补充,使得它能够非常非常擅长用这一系列的工具,或者说,是干脆在这个企业的数据和企业的私有的一些 use case 上面。

就单独的给这个企业训练,所以这一些用强化学习把这个智能体在企业落地,通过这个 orchestrator 层,又有非常多的公司在做一些事情。然后最底层的 data connector 层其实也有非常优秀的公司,包括呃,可能之前也我们提到过

Composio,那么能够把这些数企业的数据和智能体中间建一个桥梁,这些公司其实由于比如说 Composio 这样的公司,其实在 developer 在开发者中间非常受欢迎,他们把社区运营的也非常非常好。

所以这个我觉得是嗯创业公司的一个超能力,能够把大家调动起来吧。然后再一个是中间的工具层,这工具层是 Precure 能够在的一个一个层。那我们看到的一个机会是说,OK,现在 RL 在呃 Orchestrator 层其实有非常多的一些探索,RL 能不能应用到工具层,使得工具不再是一个静态的工具,而工具自己本身是有状态的,工具本身自己能。

知道自己曾经在哪里跌倒过,然后把这些 failure trajectory 能够作为企业的核心资产,不断的在这个工具层进行一个积累,进行一个工具的再训练,从而让一把工具能够在不同的企业中演化出非常不同的一个最终的状态。这一个自演化、自训练的一个过程是 Precure

比较注重的一个方面,所以刚才增上所是在水平层的机会,我刚刚说了调度,刚刚说了数据,刚刚说了工具的中间层,就是这可能是我呃这边的一些总结。

所以你对你们其实做的还是偏水平的,对吧?就你们是可以服务很多场景的。对对,确实这是一个很好的问题,这是呃也是投资人都会问每个创业者的问题。你是指就是大厂之外你能做什么是吗?你是指投资人会问这个吗?哎,对,或者或者说你在大厂待了这么舒服,为什么出来折腾?我觉得首先创业可能不能 assume 说这个 A I 已经实现了,要不然这个就是很多事情就就觉得好像就没有必要做了,或者说啊几年之后就没有必要做了。

就是我觉得在作为创业公司,可能是要 balance 的,一个是就是立足当下,就是有很多还是有很多没解决问题,然后还要还是要就是有一些 futurism,就是说你觉得这个事情在接下来一两年应该应该会发生是什么样,或者接下来一两一两年重点是什么?我觉得像嗯,现在模型我觉得还不算 A G I,是因为本质上还是有多少数据有多少智能。

那这个像 Gemini 这些语言这么厉害,那就是因为只加了很多语言的数据啊,就可以大家都能想象到啊,就是也不是可能就 magically happen 的一件事情。然后像 Anthropic 这个 coding 能力强,或者他们就专做是侧重这个方面,也是。肯定是啊,对这方面有些嗯特别的这个 focus。

现在我们也看到其他很多就是比较成功的创业公司,特别是像 Voice 这边。这个这也是一个非常要有意思的一个赛道,就是你像 Gemini,其实作为多模态的模型,它本身也是可以理解语音啊,或者生成语音,甚至,但是仍然能看到这些啊 startup

在这个语音这边,其实不不只是一个玩家,而我觉得至少我们在能看到的有很多,像嗯不具体点名了,但是他们能够做的 differentiation 是说比这个现在的大模型可能更快,然后 latency 啊,然后包括这质量上。

因为毕竟他只做这个事情,然后其他的这就是现在的这些大模型呢,你要 care 很多的底面层,所以光语音这件事情可能不足以喂饱这一个 Gemini,所以这可能是一个小厂在 A G I 实现之前,就是有很大的机会能够去专注的。然后还有就是像刚才你提到的自我演化这这一项能力,其实现在的模型还是,啊,我们相对来说嗯不是那么的呃直接的一件事情,因为。

嗯,包括模型怎么去继续训练啊,然后包括模型的所谓的 memory 这个记忆啊,然后还是有很多在嗯研究方面或者在工程层面都是有很多没有解决的问题。所以我觉得,作为创业者来讲,我觉得我也希望,就包括我们自己也希望,就是在一些这种没有解决的问题上面去继续发力,去哪怕就是相当于是做一些研究,但是能够很快能够落地的这样一类研究。

在这个方向还是有很多的机会。自我演化这个和大家现在讨论比较多的持续学习是相关的吗?对,我觉得就是持续学习其实是一个方法,就是说这个模型能够在你的应用场景里面怎么能够越用越好。就像之前这个广告系统啊,或者推荐系统啊,就这种是我觉得算是一个比较典型的这种持续学习的代表。就是你抖音每刷一个或者每划掉一个,它都能够贡献到这个整个系统里面,使得这是在线的这个系统就一直在更新。

所以现在的语言模型还是没有,暂时没有能做到这个程度。之前有一个相关一些是 Cursor,他们号称自己做到了这个 online RL,就是在线强化学习。对,使得你每次在用 Cursor 的时候,你的就是自动补全,你有没有接受,这些都会是及时的一个反馈信息,然后能够塞回。这是他们 claim

的,这具体做到什么程度不是很清楚,但是这我觉得也是一个,就是大家能看到大家在往这个持续学习或者在线学习,或者怎么让嗯模型发布之后,能让他一直在。

就是自动的变好这件事情,因为你自己就是做强化学习的嘛。就你刚才说持续学习是一个方法,你指的是自我演化的实现的一个手段之一,对吧?那现在大家就主要是通过强化学习来实现。嗯,不止远远不止这些,而且用强化学习来说,其实不是那么稳定,或者就因为你在这个在线部署的过程中,你其实不是很清楚它的反馈是什么,然后这个反馈是不是靠谱,以及强化学习本身它并不是一个非常稳定的一个算法,它需要很多的工程,包括算法上的一些实现去让它变得稳定。

所以这个嗯有理论上的可能性,但是并不是那么非常可靠,暂时。像记忆系统啊,也是一种实现这个 lifelong learning 一种方式,但可能现在大家做的比较多的,可能还是基于 rag 啊,或者是这种 rag 变形的一些方式,去把过去的做过的一些事情放到某一个所谓的 agent memory,或者叫一个。

存储的里面去,然后像可能就是大家也看到像 Chat ChatGPT,其实也有类似的这样的一个记忆功能,这也算是一些初步的尝试吧。但是我觉得啊,自我演化应该远远不止这些。你刚才说的这些尝试方向,其实它都没有到预训练的阶段,对吧?它都是模型训好之后后面加的一些东西。对对,像刚刚说到就是如果记忆外挂,特别是外挂的那种记忆的话,甚至没有改变模型本身的参数。

所以这些可能是在 Agent System 啊,或者这之后在在上面做的一些脚手架。我觉得短期内会是有一些效果,但是觉得这个呃,我个人看来可能不是一个最终的解决方案,因为你们要做的就是 Trainable 的 Tools。就是可训练的工具,你们大概想怎么去实现这个东西了?就 Precure 做的这个可训练的给 Agent 用的工具,大概是一个什么样的产品或者说服务形态?

然后它给你们的用户带来的价值是什么?Precure 我们做的就是为 Agent 打造可训练的工具。其实,为什么选择工具层?是因为工具的使用能力是一个 agent 智能体和现实世界交互的一个很重要的方式。那 Percol 我们的愿景是,这个工具层不再是一个静态的形式。而是一个会随着工具的使用越变越好的一个形式。

所谓的越变越好,可能是在覆盖面上越变越广,也可能是在工具的质量,就是涉及到模型质量。因为工具里面其实很多时候你可以带一个智能体,带一个模型,啊,我们叫 sub agent 的质量能越变越好。而这个越变越好的过程,我们的愿景是它不是一个人为干预的过程,而是一个自发的过程。对我们来说,工具里面如何能够嵌入智能啊?

这个智能在工具在现实生活中被调用,尤其是执行任务失败的时候。工具怎么能从这个失败的经历、经历、经验中进行学习,自我迭代变得更好?这是我们在做研究和做产品方面的一个方向。所以你们提供的这个服务,它是一个整个工具层的系统,对吧?它并不是说我打造单点的工具,或者说我打造单点的工具是在整个这个服务中的一个部分。

你说的特别对,打造单点的过工具是在整个工具层这一个 stateful 的 platform 中的一个行为。所以我们能想象以后是工具制造工具,然后工具自我能够进行优化,这个是一个平。台的整个发展方向,那你们自己在开发的一些工具,具体来说是一些什么方面的工具啊?我们开发的工具其实相对来说比较契合现在的一个趋势吧,是一个 code driven 的 tool,也就是和代码紧密结合的一个工具啊。

这可能大家最近也了解到 Anthropic 有发布一些这方面的工作,包括 programmatic tool,他们叫 PTC。这个思想其实,在二四年的时候就在学术界有有一些发展。包括一个 CodeX 这篇 paper 是一个这方面的代表作吧。今年工业界,也就是前几个月,工业界慢慢开始 pick up 这个串的。

它的好处是能够使得工具的调用更加的 reliable,更加的稳定,呃,并且更少的占 context,更不容易 pollute agent 的 context。那 agent context pollution 其实是在 long trajectory、 long horizon task 里面 agent failure 的一个主要原因。

所以这个是 developer 包括 big lab 在这方面引领的一个趋势吧。所以我们 Perq 的工具很大程度上是契合于这个趋势。其实我们其实在这个趋势之前,我们有 anticipate 这个这趋势,因为这也是我们在之前自己做 agent、自己做研究的时候所看到的、观察到的一些现象。所以在这个趋势出现之前,我们就会就在往那边去靠。

那也很开心,就是慢慢的这个正正在成为一个主流。呃,具体的产品的形态也很期待,在我们发布的时候和听众朋友们一起分享。那在发布之前,如果说听众朋友们中有 agent 开发者或者模型开发者,对这方面比较感兴趣或者希望讨论的话,我们也非常开心做一个 thought partner,大家一起来做一个讨论。总体来说,我们的用户是面向 developer,但其实在我们心中更大的一个用户群其实是 agent。

也就是说,我们公司是一个 two agent 的公司。我不知道有没有听说过,就是之前有 two C two B,然后现在又有 two A two agent。那我们其实是属于 two agent

的公司,因为之后可能,之后我们的愿景,我们能预见的愿景是说。不是有那么多人来用这么多工具,而是主力军是造人能够用 Web Coding 或者用其他的方式造出来的千千万万个 Agent 作为我们的主体用户,所以我们的在产品设计的很多优化,其实是为了 Agent Friendly,为了服务 Agents

做的。

你们虽然产品没有正式的发布,但你们肯定已经有一些早期的用户在用你们的东西了。就他们会有些什么反馈吗?就给他们带来一些什么好处了?对,最最直接的好处就是让他们这个 agent 变得更可靠。然后包括在嗯之前他们这个如果没有这样一个突破的情况下,他可能很难去啊达到某种程度的

coverage。特别是在它数据量大的时候,然后我们的 tool 就是一个作为他们 agent 的一个非常趁手的一个工具,让它能够去呃 achieve high coverage,在 latency 方面能够显著的比他们现在已有的东西要低很多。

还有一些场景是它的,嗯,整个正确率会提高不少。然后很很多情况甚至是我们自己客户。他自己做的一个 evaluation,我们甚至自己不知道他做的怎样一个一个 evaluation,所以对我们来说是一个 blind 的

evaluation。然后在他们自己的测试下,这个东西能够,比如说比他们自己的现在的工具能够好个百分之十二,大概是这样一些比较能够直接 deliver value to to 他们 agent。

然后他们也不需要说把他们现在的 agent 呢换掉怎么着,因为我们这个呢是做的这样一个工具层,所以是很天然的能够契合到,比如说他们已经在用的 Microsoft Copilot agent 啊,或者是这样一些 agent

平台。像这些平台的话,对我们来说更多的是一个合作的一个共赢的一个生态环境,所以这也是我们期望能够看到的,所以也是我们最近在和包括谷歌或者其他的一些在生态上面做了一些 partnership。

所以它在体验上,就是我在已有的各种 agent 或者说 agent 的平台上加入你们这个东西之后,它带来呃更稳定,然后更低的延迟,更高的正确率。然后我听下来,我感觉你们的客户。呃,有一类我想应该是 agent 的开发者,或者说直接要做一个 agent 的企业;还有一类就是这种比较大的 agent 的平台,是吗?

比如说像 Google 或者微软这些大公司也会是你们的。的客户或者合作伙伴,嗯,合作伙伴上是包括除了谷歌和微软之外,其实还有好多其他的公司在这边就不能点名了,就是好多其他的公司在开发自己的 agents 平台。一个全家桶式的一站式的服务,对。然后我们可以研究,就是你刚才说的,你觉得创业的一些垂直和水平的机会,包括现在围绕 RL,就是强化学习,其实在美国是有很多新的创业的。

这个我也想请 Henry 和 Lomi 来补充一下,因为你们投资可以看到这个公司会更多嘛。就是比如说 RL 这个生态的一些呃创业,你们看到有些什么比较好玩的项目,或者说你们会去怎么总结这个市场的一些不同的机会?我可以呃大概讲一讲,就是现在 VC。看的比较多的就是关于 R L 相关几个方向,嗯,然后 Henry 可以讲一讲可能一些具体的公司啊,和我们和我们里面呃得到一些 insights。

首先就是我觉得模型的增长,它其实就是一个榨汁的过程,好像之前数据的过就是数据的这个果汁就榨的差不多了,然后现在新的榨汁对象就是 RL 里面的 interaction 和 reward 的环境。那第一个就是大家看的比较多的,就叫 RL environment,就是 RL 环境的基础设施,有点像一个训练场的感觉吧,就是说让 AI 进行实战演习的一个数字模拟器。

啊,比如说要训练 AI 操作企业软件或者处理复杂的流程,就需要和一个和这个真实世界几乎一样的一个虚拟环境啊。然后这个环境必须能够比较精准的打分啊、评判,然后投这个方向其实就是投未来所有 AI 智能体的练习基地和考试中心。然后我们在这个方向也投了一家公司,叫做 Preference Model。嗯,第二层的话就是啊, L S Service 就是啊, L 级服务就是有点像一个。

训练班吧,就是绝大多数公司其实它是不具备一个 RL 自研的能力的,所以这个方向的公司就是把一些复杂的技术打包成一些比较易用的企业服务,让客户能呃用自家的数据,像这个训练员员工一样去训练出这个专属的 AI 专员,去处理一些比如说啊像销售啊、客服呀、合规等一些具体业务。然后它主要解决的是这个呃 RL 技术呃落地比较难,然后门槛比较高的问题。

然后第三种就是有点像投特种兵啊,然后这个就是 RL,呃,垂直应用的 RL 应用,就是在一些啊高门槛呀、高价值啊,就是一些比较复杂的领域,比如说药物研发啊、金融交易,或者是啊 science discovery,就是一些通用大模型可能是不够用,爱的是数据层面,或者是或者是 intelligence 层面,然后专注这些赛道的一些团队呢,就是会把 RL 的技术和现在行业的深度相结合。

就直接做出能够呃取代一些专家,创造这种智能突破的产品。投这个方向,就比如说像 Periodic Labs,就属于这个方向的一个公司,就是投 AI 在关键行业里创造核心价值的革命性应用。哎,那像 Precur 的话,它比较呃偏向这其中的哪一种了?因为其实你们也是用强化学习来做这个 trainable 的 tool 的嘛。

我感觉他是有点介于 as a service 和这个 RL 的应用之间,是吗?他现在其实还有一个一重身份,就是这个 forward deploy engineer,对吧?我觉得一开始的话,可能是更偏向这个 RLs service。啊,但是后面的话,随着这个整个 infra 的逐渐的成熟和 precur 产品的成熟,我相信它后来应该是一个标准化的一个啊产品。

这个 Thinking Machines Lab 他们发的 Tinker 这个东西,是不是也是 RL as a service?啊,它更多的像是啊。啊,Infera as a service啊,因为它的这个Tinker API它实际上是提供几个啊low level的这个training

primitive啊,包括你做这个forward backward pass,然后做optimization啊,所以它呃还是需要就是懂怎么去做AI的人来使用这个API才能完成相应的功。

然后 as a service 话,就是可能它是更一步到位的,对吧?就你们刚刚说的那些不太会做 RL 的企业,它可能就能用这个东西。嗯,哎,那你们可以讲讲,就是在美国看到的一些就这方面发展势头还不错的一些公司是什么?我觉得可以给大家举个例子,因为我们在这里说就是 RL

这些环境啊,大家可能感觉。有可能会感觉比较抽象,RL环境的话啊,一个很大的一类的话呢,就是之前啊,其实在很多年前,就是有各种各样的这个游戏,比如说大家可能听说的比较多的叫 Atari,像就是 AI 玩游戏,然后用 RL 来做 training,啊,这个其实就是已经很多年了。

然后最近的话呢,我们看到一些公司他们会就是做更加有经济化的价值的环境,比如说。嗯,其实,在去年的时候啊,当时我们就是碰到一家公司,然后当时这个公司的两个 founder 也是住在我们那里,然后他们就是。需要在一个周末的时间里面,然后去做出一个 Atlassian 的这个 Jira,就是这个任务管理工具的一个复制品。

那他之所以要做 Jira 的复制品呢,是因为 Jira 是大部分工程团队他们会使用的一个工具,所以他们想去训练这个 AI 能够知道就是如何去使用 Jira 和 Jira 进行交互,然后这样能够帮助这个 AI agent 能够更加方便的自动化软件工程中的一些任务。所以,但但是 Gemini 其实用过人都知道,它是一个非常非常复杂的一个软件。

所以当时他们的话,就是相当于是用 coding agent 的方式,然后非常快速的去啊做一个复杂商业软件的一个复制品。这是当时一开始做啊,我觉得 RL 环境的第一波。当然,现在的话就是做这个方向的公司越来越多了,所以这个门槛也水涨船高。啊,做一个像 Gemini 这种软件的复制品,这种简单的 go to market 可能已经不够,就是产生一个竞争的这个优势了。

所以现在会有越来越多的公司啊,包括就是我们这个投资的 preference model,他们会去做一些更加有门槛的一些环境啊,比如说这个网络安全攻防的这样的环境,那你其实是需要一些对于网络安全这个啊领域里面有一些专业知识。才能去把这个环境做好,同时也需要有一些对于啊强化学习也有一些专业知识。这样的话,你这个环境包括你这个 API 设计的才会方便这个研究者来使用。

有专门的公司做那种针对物理世界里的 AI,呃,去训练的 RL 的环境吗?比如说举升啊,什么车自动驾驶这种。哦,这个也非常非常多。啊,对,然后自动驾驶其实有一大波,然后在机器人啊,然后现在也是有很大一波。这个展开说,可能就非常非常多。我想问一下,这些公司的估值或者说他们的融资额一般在什么水平啊?啊,其实之前自动驾驶有一波的,就是应该是已经有一波可能都被收购了。

我知道之前,啊,好像应该是有一家做自动驾驶虚拟环境的公司,然后被 Waymo 收购了以后,在内部的 team 就叫做 Sim City,就是去一个模拟一个城市,然后让 Waymo 在里面跑。其实世界模型它会算这个大的范畴吗?当然,世界模型这个词儿本身很模糊呀。生成模型其实很大一部分是也有 simulator 的成分。

这个 simulator 的定义一直挺广泛的,包括刚才说的 Waymo。Waymo 它专门有 team 做专门做 simulation,目的是能够生成各种各样的数据,然后去 augment

这些模型的训练,尤其是在那些现实生活中边角的数据,包括撞车之类的数据量相对小的事情。环境和我之前也做过,我们之前做的是啊,我们不叫那么 fancy 的 term 嘛,那个时候那个叫那时候叫仿真,其实就是也它本身也是一个生成模型,它是零售界的一个模型。

它只不过里边的 token 是 SKU,就是人购买的一个东西。那么用来模模拟的是人的购买的并发行为,以及人购买的跟一些时间跟一些 context 一些交互。所以在那个时候没有世界模型这么这么大的词,那时候我们就叫一个 generative model for retail, or

like。就是一个模拟器,所以呃,我觉得仿真这个概念不算新,但是世界模型这个本身能够能力更强,然后能够呃渲染出更更丰富的一些东西,所以在最近其实也是我觉得非常看好这个。

啊,这个领域,韩俊,你当时为什么要做那个项目?就是去模拟这个购物的环境。你们一般在 DeepMind 是你们自己想做什么,你们自己去提吗?还是就是有什么 Google 相关的场景这样下来啊?对对,我觉得对我们来说,嗯,像我的研究方向可能就更偏就。像啊,强化学习的一些底层的,包括像采样和优化的一些算法。

在 Gemini 之前,我在 Titan 最多的 paper 还是就是如何用强化学习去做一些这个离散世界的优化。所以这个是 naturally 和当时 Bethany team 的 topic 比较大。然后也是就是其实是相当于是有这个契机,正好和嗯 Bethany

这边认识,然后开始。是一系列合作吧,嗯,就那个项目本身而言,对我们而言,可能是一个生成模型的一个应用,可能也是一个是也是 align with 我们的嗯一个 research interest,然后第二就是。

像我们组的话,在蒂曼这边,当时开始的时候还是在谷歌大脑,不知道就是在在之前的这个啊,谷歌的这个研究机构里面。所以那个那个可能会组织上会更松散一些,然后自由度会更大一些。所以就是也鼓励你去,包括你做发 paper 啊,或者你去和其他的不同的这个部门去做合作啊。其实一个更开放的一个氛围。对,回到就说这个 Agent 的开发者需要什么样的模型啊?

因为你们现在肯定自己测的模型也比较多,然后你们接触的就是有这个需求的客户或者说开发者也比较多。就可以请两位来来讲一讲,就从你们的实践来看的话,你们觉得现在模型它能做什么,然后不足是什么?呃,可能性能是一方面,但除了性能,可能第一个要考虑的是它的生态。这也是我们离开 Google 之后,觉得能够发现到一个很大的一个 gap。

包括很多企业,你是在云上面,那这个云本身在这个云里面有什么模型?比如说像 Google 云里面就没有 OpenAI 的模型可以用,你在 Azure 云里面就没有 Gemini 可以用。所以这些是可能有点像屁股决定脑袋。你在这个领域里面,不管 Gemini 多好,可能你暂时用不上,就是用不上,因为企业的数据不会走出它的云。

所以这是一个 hard constraint,所以在这个相当于是这个框架下面再去考虑。所以现在对企业客户来说,就是模型性能的好坏并不足以让你去换一个云,是吗?就他们对云的粘性肯定是要强得多的。对,就是 by definition,这个就是粘性,这个是它实在是没有办法去就或者说这个 migration 成本也太高了,不太现实的一件事情。

那或者说模型强到什么程度,有可能会有这种迁移了?我觉得 depend on 这个数据的迁移有多困难。通常你去看,比如说一些大公司在谷歌云上的一个数据订单,这是非常大的一个数字,非常大的一个天文数字,这个就能想见他们历年的数据有多少多少。在这上面要把这些数据迁出去,通常是涉及到。一年到两年,甚至更多的一个时间,而且数据迁移本身是一个很危险的一个操作。

对于一个企业的CTO来说,他可能会相对来说更保守一些,尤其是对于数据这一方面,嗯,可能不会那么频繁的迁徙。所以从这个角度的话,微软其实对OpenAI还是非常重要的,因为他自己肯定是没有云的嘛,就目前是没有。我们的客户里面其实有蛮多在Azure上面的。呃,尤其是中大型企业,他们在 Azure

上面非常大的一个粘性和信任,所以我觉得这个是微软的一个非常大的一个先发优势啊,包括搭载这 OpenAI 的模型。

对,但是就微软最近其实也是在非常发力的去招各大云的人,包括各大 labs 的人来帮助他把整个云生态、整个人工智能的生态做好。对,当然这个 Anthropic

是在三个云上都有的,所以我觉得他们的模型其实还是占到这个稍微中立一点的这个光。对,这是第一点,就是要先看这个客户本身他的数据在什么云上。对,第二点可能还是账号跟模型的本身的能力不是那么相关的,就是这个不同企业他自己也有很多云厂商给的折扣,或者折扣,或者是 credit。

像我们的话,也是得到非常多谷歌的支持,所以就是天然的这个 Gemini 可能只要它不要太差,嗯,那我觉得这是最有发言可能, Gemini 还是第一个选择。然后像其他很多呃客户,他们自己可能不一定是这种 credit 型,但他可能是在比如说这个云上面去买啊第三方的服务。那这种服务本身也是,就是相当于他作为企业,他不是花自己现金,而是花谷歌给他的这个代金券一样的感觉。

就是还是从生态角度来讲,这个这个方面也是要考虑的一个很大的问题。所以这两个问题可能就是已经是一些大家暂时不会用,比如说第三方或者是开源模型,或者就是有很大一部分可能企业的这种 use case 会被这两个问题所先 dominate。但就抛开这两个问题之后,我们再来聊这个性能啊,或者 cost 啊,或者这各种各样的 trade。

那抛开这两个前置的条件之后,因为现在有很多模型嘛,开源的、闭源的,你们自己包括你们接触的其他的开发者,就是做 Agent 的这些开发者,你觉得大家他比较呃受欢迎的模型是什么呀?以及为什么这些会比较受欢迎?各自的优势是什么?对,个人感觉是像 Claude

的模型,在很长一段时间还是相当受欢迎的,因为它的编程能力其实不光是就是光写代码这件事情,它作为 agent 的这个大脑或者核心,它在这方面其实能够有很强的能力。

包括嗯,可能大家也注意到,嗯,Anthropic 最近啊放了一个 blog 讲他们的 programmatic tool call,但这个 idea 本身其实不行啊,就是这个嗯,之前也有学术的文章叫 code act。也是说,把生成代码作为一个 agent 做 action 的一个方式。那这个东西就是让这个 transformer 模型有天生的在这种场景里面带来的一个可靠性。

所以这个其实 transformer 模型还是在啊 agentic 这边的 usage 会比较。多这个是持续到现在吗?因为其实之后 Google 还有 OpenAI 在 coding 上都是强化了很多的,它现在这个呃优势还这么稳固吗?我我觉得你这是很好的问题,其实分两方面看,一个是模型本身的 coding 能力,然后第二个是模型在让 agent。

的生态方面是有没有发力?其实从这点来看,Anthropic从十月开始,就是从今年的十月开始,其实是在 Agent 生态上有发力的。你能看到它现在发布不少的博客,它的阅读受众都是 Agent Developer,包括最近刚发的那个用代码去 call MCP Tool Advanced to call

这个,其实这就是刚才韩俊说的那个 Agent 用写代码的方式去 take action,而不只是,而不是依赖 MCP,只依赖 MCP 本身去 take action。

就是这方面其实对于 developer 的影响,developer 开发范式的影响是非常非常大的。所以我们也有观察到那个 Anthropic 最近在这一方面去哪里。所以,几个 question 这个 coding 的能力,一方面是模型本身产生代码的能力,那另一方面是它跟一个 agent 生态的集成,使得它的用它来实现的 agents 在在执行过程中跟用能够用写代码去解决一些 action 的问题。

所以这两个其实是相辅相成的,后者更多是工程问题,前者更多的是呃呃研究问题。对,而且我觉得他们的团队是真的在这个 agent 上面自己应该写了很多,自己也用很多。像一开始这个 MCP,当然这个 MCP 有自己问题,但是不可否认,它是已经带领了一波潮流,以及导致其他的模型也需要去在类似的 MCP 这种类型的数据上去训练,然后能够支持 MCP。

到最近 MCP donate 给这个 Open Source Foundation 之后,就是他一直在沿着这个路线,包括像刚刚提到的 Programmatic Tooling,也是暂时好像没有其他的模型厂商有有这样的原生的支持。但如果这个东西 turns out 是一个非常重要的东西,我觉得后面模型厂商其他模型厂商肯定也要跟上来去。

这个生态,再包括像这个 Cloud Code,而且它已经不只是一个给程序员用的写代码的东西。然后其实很多人,比如说用它来去做一个那个 N8N 的工作流之类的,就是其实会比你自己手捏工作流要方便和快很多。然后包括他自己也可以去做网页啊,或者写 PPT 啊,就是其实这个 Coding 能力就是远不只是在只是在 Coding 上面,是在 Agent 这方面就是用的非非常多。

对,所以这是我觉得看到的一个显著的一个 pattern 吧。然后第二个是我觉得在 latency 方面,其实呃有很多嗯大家会在做这方面的考量。当然,那就是这种模型能做长思考啊,或者这种你想半天然后能够解决一个数学题,这个确实能体现它的这个模型的智力或者能力。但是在很多 A 阶场景中,可能要的不一定是这种类型的模型。

就当当然,大家可能既要又要,就既要这个模型有这样 quality,但同时也要有在响应时间内就能够把这个事情做完。所以,我能看到,甚至只有一些啊开发者们,他们会想办法去把这个模型的这个 thinking 模式给关掉。但是呢,用别的 prompt 方式去让模型生成一点 thinking

的东西,但也不要生成那么多,使得他自己手工呢能够去怎么说呢 achieve 一个 balance between 这模型的 quality 和它的 latency。

所以,在这个 agent 场景中,我觉得第二个。就是也很重要的一个考量,就是这个响应的速度,对延迟。然后在这方面,像这个 Flash,比如说 Gemini Flash 系列模型啊,然后 OpenAI 的 Mini 系列模型啊,Sonnet 或者再小一些模型,可能都会,就不是它因为这个到底有多好,但是是说在这个响应时间内,它就是最好的。

你们自己的 Agent

开发的核心的模型用的是什么呀?都都会尝试,然后也是呃,我们在自己在各大云上也有部署,所以就是。三家模型其实,嗯,对我们来说没有太大的,就是除了刚刚提到的,在客户或者云这边有一些限制的话,除了这个东西的话,对我们来说其实没有太大的粘性。对,那像国内的模型,你们会用吗?因为国内这边其实很多模型是开源的,我不知道是不是这样,对开发者来说,在成本啊各方面,它呃比较友好,所以也是大家会去考。

对对对,这个也是,我觉得这个是,特别是我觉得特别佩服这些我们做模型开源的这些厂商。然后像美国这边,Unfortunately,暂时像 Llama 已经不做了。然后就可能大家听过,就是美国有自己要做号称美国 DeepSeek 的这样一个公司,但现在不知道做到什么程度。Reflection 是吧?Reflection 说要做美国 DeepSeek。

对对对对,所以这这是我觉得国内模型真的做的特别棒的地方。但是有一些还是不是关于模型的本身的能力的考量。啊,是特别是有一些企业,它可能就不让你用这个来自于中国的模型之类的。我觉得可能一个考量是它的这个模型本身自带的意识形态,就包括这个所谓的 human alignment。可能在不同的这个价值体系里面,大家可能有不同的这个维度的考量。

其实我们自己也挺不想看到的一个靠这种意识形态来去做一些隔离的这样一些做法。但 unfortunately,这个现实是就是这样的,所以才给了 reflection。不好意思这么说,但确实是给了他们的这样在做一个美国离析的这样一个机会。那如果说客户不是特别介意这方面的情形下,呃,你们就是自己试的这些国内的开源模型,你们觉得它的表现怎么样?

你们觉得有优势的、有优点的是一些什么模型?然后体现在什么方面啊?嗯,对我,我觉得其实千问系列模型做的还是挺。因为一方面它的其实有不同的 size 的这些这些选择,然后其实是给了这个特别是 startup 一些能够去 pick and choose,然后做各种 ablation

的一个机会。第二个就是它的 reasoning 能力导致它其实,在在一些 A 阵场景里面,其实能够去看到它的天生的一些优势。

当然,它的可能有一些在某些 benchmark 上可能表现特别好,但但可能有一些不一定能 transfer 到真实的应用场景里面。但是我觉得作为开源模型,在这方面已经做的非常不错啊。当然,这是在就还是刚刚聊到问题,就是 intelligence per token 这件事情上,我觉得可能还是有一些能够继续去 improve 的地方吧。

就说他完成一个任务,有的时候可能呃一些开源模型,他会自说自话,推理的消耗特别多。对,可能有一些是不一定是非常必要消耗,但是可能是就这个东西本身可能也很难 balance,就是你你需要更智能的东西去动态的调整这些,相当于是 thinking budget。啊,这样一件事情,那有什么模型你们用了之后觉得比较有槽点的吗?

因为我觉得这也是从开发者的角度,接下来模型可以什么地方提升吗?对我我我我想说的槽点可能还是 Google 自家的开源模型,我觉得确实可能诚意不够。你说的是那个 Gemini 系列,是吗?G E M M A 对 Gemini 系列可能确实,嗯,一个是它自己其实是一个多模态的模型。嗯,但是在这样一个规模下的多模态,可能它就很难去 balance 了。

一个是因为对于多模态模型而言,其实对于模型的这个 capacity 啊,或者都是一个很大的 challenge。所以,特别是呃用的时候,可能偶尔能看到它输出一些乱码,或者这些可能稍微有一些低低级的一些错误,也也会时有发生。这点上可能不是特别令人满意吧。像 Google 已经有这么强的闭源的整个模型和生态,它也同时在做开源,对它的意义是什么?

嗯,一个是呃,类似于 OpenAI 做开源的意义吧,就是不要一直在被大家说 Close AI 了,就是终于我们也有自己的这个 Open 的模型了,对吧?然后我觉得对 Google 来说,其实,嗯,能赢得开发者的信任和赢得开发者的口碑,我觉得这件事情本身可能是一个比较有意义的事情。然后。就是我觉得开源精神本身还是一个值得提倡的事情。

嗯,当然这个有有一些开源是比较假的开源,确实也可能比较真诚的开源,像 DeepSeek 啊。当时嗯,就是正好上周吧,还是在 New York,然后有人说这个飞机上,飞机上因为呃一般没有 WiFi 或者你 WiFi 要花钱嘛,那大家能干的事情也就看 paper。然后飞机上这个有人统计大概三分之一的人都在看 DeepSeek 的。

当时在发的那个 paper,然后确实里面干货满满,对,然后你能看到他们在强化学习中间把这个如何把 prepped 很多 off policy 的一些行为,让它这个训练更稳定,我觉得这些是真的是一些干货,就是可能对于很多 lab 里面的人来说不是新鲜事情,但是就是真的能把这些事情公开的。去坦诚的去大家一起交流,我觉得这件事情就非常值得去尊敬。

你说飞往这个绿皮的飞机上三分之一人都在看的 GPT6 的 paper 是具体是哪篇啊?就是那个嗯,Diffic V3.2,就是它的正式版的那个,最最近刚发的嗯,对对对,然后包括他提到的中间的 architecture 上的改进啊,然后强化学习上面做的一些这个踩的坑啊,然后我觉得都是一些嗯,就可能对于一部分来说不是新的东西嘛,但是这个能够广而告之,我觉得就是一个就值得非常值得大家学习的东西。

就如果你们现在去看一个新的模型的话,你们会去比较关注哪些它公开的 benchmark 上的表现?为什么是这一些 benchmark?对于我们来说,其实 benchmark 上有几方面我们还挺看重的。第一方面是 long trajectory 能能力,就是比如说这些多步的

task,就你嗯,大家看最近发布的一些新的数据集,包括 Sweetbench Pro,呃,包括 Mind to Web,嗯,就 Sweetbench Pro 是一个写代码的数据集,然后 Mind to Web 是一个 web navigation 的一个数据集。

他们都强调的是,这不再是两到三步的推理就能解决的问题,而是可能甚至长到十几步或者更长的一个一个。事情,那为什么 long horizon long trajectory 就对我们来说重要?是因为对我们来说,其实现实生活中很多事情,嗯,包括我们做的拓本身,它很多事情其实是分好多步的。那么这个步 horizon 一旦长了之后,一个是对强化学习本身,对模型训练的那强化学习本身,它是一个考验。

然后第二个是,嗯,因为每一步它的输入和输出都会占用在 context 里面嘛。所以累积起来之后,你越到后面,你原来原有的 context 就越长。所以对于模型的长文本理解、长文本推理能力,其实本身是一个考验。按照长文本推理,大家很常用的,比如说 Needle in the haystack 的这些 benchmark,其实它并不一定是一个很好的 representation。

因为它的这个 task 相对来说还是相对的单一和简单,嗯,但是在这种 agents 的 long transaction 里面,它是真的你要看之前的 transaction 里面发生了什么,然后去 plan 下一步,然后去呃 take action。这个是不只是一个 find needle in

the haystack 的一个 stack,而更呃一个 task,而更多的是一个对之前的事情的理解和对之后的一个事情的预判和推理。

就是这个能力是完全要是呃更上一个等级。所以这是为什么我们比较注重这种 multi step 和 long long horizon long trajectory 的 task 的原因。嗯,还有一个是,嗯,这个模型对于环境本身的一个把控吧。最近有个数据集叫 Top

Bench,我不知道大家是不是知道,就是 Top Bench 它的第二代是,嗯,叫 Top Square Bench,嗯,就是 Top 的二次方。

这个是那个 Sierra 发布的那个呃 benchmark,然后是一个 conversational 的一个数据集。它主打就是它的第二代主打的是说,我作为一个 agent,我不只是作为一个人的 assistant,然后辅助你或者什么的,而是它做了一个 user simulator,然后这个 user

是能够根据 agent 跟你说的东西,他自己来调整他的回复,然后他自己来做一个创造了一个多轮,就是 naturally 的长的多轮的一个一个形态。

所以这也是一个比较考验,比如说我作为一个 agent,我对环境不甚了解的情况下,我对这个 user 其实拿捏不准、不太不甚了解的时候,我的反应是什么样子的?我个人会比较偏那种邪修一点,那些 benchmark 我觉得如果存在的时间久了之后,就可能越来越不会去关注它,因为这个很容易就可能 leak

information,然后包括可能刷多了之后,这个东西其实很容易被 hill climb,然后所以一方面如果是新出来的 benchmark,我觉得还是值得去啊,至少去看一眼,参考一下。

然后第二的,就是可能每个人自己都会有一些不太寻常的那种 check,嗯,比如说像那个,就之前,嗯,我然后来去了欧文,嗯,叫 Sebastian,嗯,这个他自己有一个,呃, check 是让这个模型去生成代码画一个 unicorn。然后他就看能看到这个变化过程,从 GPT 3 开始画出来 Unicon

就是两个方框加上一个很奇怪的正方形,到现在 GPT 5.2 画出来能够上色,能够带一个真的角这样的一个 Unicon,就能想象到可能正常人或者这个模型应该不会专门针对这种类型的任务去训练,所以。

这种这种类型的测试就会变得特别有意思。他如果有发布这么一个好玩的小东西,他又是这个行业里可能比较知名的人嘛,那我感觉后面的人也会去优化一下画独角兽的这个能力,有可能啊,就一些做模型的人。对,当然画图这个是一个稍微通用一些的能力,比如说像这个给你一个 PNG,你帮我画成啊 SVG,像类似这种能力,其实一个是还挺实用的,第二个就是就这种其实确实会被训练进。

是,但是啊,还有一些,比如说像我自己,我们这是之前在啊 DeepMind 的时候嘛,我们做过一个研究工作,是想证明这个。神经网络这种大拉直难怪这种 model 是不是一个呃 universal Turing machine?反正就是一个没有太大用处,但是是一个比较 geeky 的一个测试,就验证它是否是一个这种有有这样一个能力。

然后考察的方式呢,也是说我构造一个非常狭的一个一个 dictionary as input,但这个 dictionary 可能很长。然后你相当于是构造了一个电路板,需要让这个模型能够去复刻你的电路板。就这这样一件事情是既没有用,然后就是就没有实际生活中谁会用做做这样的探索去完成它实际任务。所以就一般来说,这个模型这个大家不会去针对这种任务去训练。

所以就是就这个能力本身也能 tell

something,要把我这个。这个模型自己在这些方面的quality,当然这个不是一个非常正经的evaluation啊,只是一个有一种自己压箱底的一个考题,然后如果考到这个人,这个人又正好能回答出来,哎,你就会觉得这个人特别聪明,就有点这种感觉。对对,我觉得这有点像就是那种呃比较知名的公开的

benchmark,它很像一些考试或者说一些证书,然后你可以去考,对吧?

但另一方面,大家在去招一些人才的时候,可能你自己会有一些珍藏的面试题,那个考试的分儿也是写在简历上的。但你见到真人之后,你肯定有一些你要问他的问题,然后你看这个人到底怎么样。对对对,你说的非常对。我觉得现在有一句话就是说,这个 benchmark 刷得多高,全凭良心,对吧?就是。其实各个 lab 就是都有很多办法能够去把很多 benchmark 刷高,有一些会更容易刷一些,有一些会更难刷一些。

我觉得对于一些 long horizon 的一些这个 benchmark,比如说要像 C benchmark 的话,我觉得刷起来可能会比一些 benchmark 更难。但是其实都可都有办法可以刷上去。但是我觉得现在所有的这个 frontier lab

应该都还是。啊,非常有操守的,就是因为他们也知道这个刷上去了以后,这个 behavior 和 benchmarks 不 match 的话也会被骂,所以就是目前我觉得这方面就是大家还是比较有底线。

对,然后一说到就是推荐的一个 benchmark,有一个比较有意思的叫做墨西哥卷饼测试,它是测试这个 multi model 生成的这个。一个 benchmark,英文叫做 the generative burrito test。大家如果吃过这个墨西哥卷饼,这个 burrito 的话,它就是一个呃玉米饼,然后里面包了各种各样的馅儿,里面有这个豆子呀、奶油啊、奶酪啊、鸡肉啊,然后这个。

番茄啊,然后他这个测试的这个 prompt 呢,就是说一个吃了一半的这个墨西哥卷饼,然后里面有刚才我说的这些馅儿,然后你听起来觉得这个真实世界里面应该有很多这样的 training data,所以这个模型来生成这样的图片的话,应该不是很难。但是事实上就是直到这个 Nano 把他的 Pro,好像就是之前这些模型就一直生成不对这个事情。

这个有一个网站,到时候可以发给曼奇放在评论区,它里面就有对比各个模型生成这个墨西哥卷饼的效果,所以我觉得它也是个非常有意思的一个对于 multi model image 的一个 benchmark。所以总结一下,你觉得现在就是大家最看重的一个还是它的呃 coding,还有它推理能力,然后能不能作为一个 agent 的核心的模型这一方面,cloud 是做的比较好的。

然后另一个是使用的效率,包括它的延迟,包括它呃 per intelligence,就是它单位的这个算力消耗带来的智能,在具体的,就是比如说你们希望这个模型接下来往什么方向去发展上面。你们可以讲一讲吗?就是你们作为 agent 的打造者,你觉得这个你们希望这个模型之后它什么能力能变得更好?一个是希望能有更多的 agent 能力比较强的开源模型吧。

我们自己 post train 一些模型,那这些都是基于那个已有的开源模型。之所以 post train 是因为我们要需要改变一些模型的行为,而如果不 train 的话,就我们能够做的事情不是特别特别多,在我们在满足咱们产品的需求上。对,所以如果能有一个开源模型,并且这个开源模型在训练中加入了大量的

agent trace,能够在 agent 场景下做的不错的话,那我觉得对于开发者来说是一个非常利好的一个消息。

嗯,我觉得一个就很显然的,还是在多模态这边会去肯定会有更多惊艳的表现。一个是这个更更接近人类的这个。啊,认知的水准,然后我觉得也是 Gemini 在这个方面做的可能会相对来说稍微领先一点的一些地方,同时是多模态的结合,其实它能够。就可能不只是跟在这个模态本身上去有 improve,而且能够 help

其他的模态这样一个机会,然后包括你的现实世界中的很多数据也是一个多模态形式存在的,所以如果能利用上这些数据的话,其实嗯,就很多已经在用了。

我觉得这个一个是是一个 natural 的一个嗯,继续去 double down 的一个方向。Anthropic 其实它是没有怎么做多模态的。然后,Google,我觉得大家现在认为它的多模态能力是最强的,甚至可能超过Open I四O之前所展现的一些能力。所以,如果说多模态会变成一个很重要的优化方向的话,这是不是也会影响就是接下来在这个Agent的市场里面这些模型的竞争力?

嗯,我觉得其实会的,包括像在企业端很多的数据,它可能也不一定是原生的非常干净的一个文本,它。比如说,这扫描上来的 PDF 啊,那包括现在其实很多 startup 在做这样一个 PDF 转成一个正规数据的这样一个,包括刚刚提到的呃 Office QA,我觉得还是一个挺现实的、挺真实的一个 benchmark。

他们他们的那个 motivation 是说,现在的模型在这个多模态方面直接去理解一个 PDF 还太难,所以呢,他们用上了 DataBricks 的 parser,然后呢,直接能够让这个模型能够涨多少点。但是它的目的是卖一下自己的 parser 哈,但但也确实从另外一方面就是说到这个,其实在很多现实这应用场景里面。

还是有很多这种非常脏乱的这种数据,不是原生的模型,可能在这方面还是有一些提升的空间嘛。所以如果这个能力能继续提升的话,在真正的这个啊 A 端场景,我觉得还是有特别大的一个用处啊。包括像之前可能 Elon Musk 也是在网上口嗨吧,说要让这个 Grok。直接去跟 L O L 这个团队去竞技,就是就是例如电竞这种,我觉得这个其实也是很考验这个。

它多模态能力啊,当然也同时也它对他们 latency 也是个巨大的考验,但这个就是从侧面也就是说,这其实多模态是一个对 agent

来说也是一个非常重要的一个环节。而且你说这个多模态,你是更侧重于多模态理解这一块,对吧?就是对图片或者说各种模态的语义的理解,呃,包括这种混合模态,我放在一起去理解。对对对,像刚刚提到,就是确实在呃 enterprise 或者一些场景里面,可能更多的是理解,然后你生成一些。

可能爆表或者这样一个情况,但是生成方面同样是我觉得在可能之前看到的一些例子,比如说啊,我们给一张空白的考卷作为输入,然后让模型去把这个题解出来之后,把这个答案写在那个考卷上作为图片输出。啊,像这个它就是非常考验这个它的理解能力和生成能力,以及同时把这个 reasoning 能力也嵌在里面。我觉得这是一个非常啊有意思的一个 example。

为什么 Google 在这个混合模态上会做的特别好啊?其实 Gemini 3 它就是一个混合模态的一个模型。然后最近也有一种就是观点啊,就是认为呃你想在这个多模态上做特别好,就是你得核心的大语言模型的基础做的特别好。然后再往后延伸的话,可能你接下来在巨深,因为巨深一个比较主流方向 V L A 嘛,它其实还是以这个 language model 为一个核心的,你也得这个大语言模型的基础特别好。

这个判断其实其实它是进一步强化了大厂特别强的这么一个方向,我觉得啊,嗯,你们你们自己看到的趋势是怎样?对对,确实,我觉得 Gemini 从 Day One 开始就是往这个方向去 push 的。其实一个 first principle 人类就是这样一个多模态的生物,所以嗯,就是为了能够全面的去达到 AGI level,觉得这是一个可能必经之路吧。

啊,第二方面也是说,因为这个不确实不同模态,特别是视频啊或者这些对资源的消耗和这个模型的这。这是考验,包括你在不同模态之间,如果你模型的 capacity 不够的话,就像我刚刚提到的,可能 Gem Gemma 三其实确实没有这样一个就是 size 或者这个精细的,能够做到说在不同模态之间都都能够游刃有余。

就这件事情其实非常。就不是特别的,就是是 trivial。然后另外,就哪怕像这个作为语言模型,你生成语言的时候,能不能这个语言 consistent,也是一个就是很长一段时间都不是那么百分之百能够可靠的东西。比如说我跟你说中文,你回答我英文,更别说这个多个模态之间你要去互相去理解了。对,所以这些是确实在起步阶段,特别是在在数据啊或者这些东西上面都会有一些很大挑战。

所以这是你刚刚说的第一点,就是你觉得多模态的优化肯定是一个比较明确的方向。除了这个之外,还还有什么吗?大家都可以补充一下啊。我觉得还有一个比较自然的就是在 long horizon 这边,一个 task 需要多步或者需要更多步这种情况。觉得从这个大家训练模型的范式,包括像之前的可能一步作为 RLHF rollout 一次,然后最后给个 reward,到后来跟 agentic native。

到现在你能看到,现在 open source 的 community 也是不断有这种 agentic RL 的这种 infra 出现,其实也都是在服务于这样一个新的范式。然后觉得这个接下来一个模型能够去做很多步,然后。像刚刚Henry提到的,像Plan Head,然后中间有很多,就是包括像Gemini也有自己的这种这种parallel thinking,或者不同的一些啊范式出来。

我觉得这个是其实都是为了这个在模型啊更长久的去嗯做一些更难的task方面去做的一个。努力,我觉得这些是现在可能需要你去搞一个 agent,嗯,framework 去不断迭代、反思怎么怎么着之后,就会变成它自己的一个原生的能力去做这样一件事情。我觉得这个是也是一个非常 natural 的,我们看到的一个一个 trend。

如果模型自己就能做这种比较复杂的多步的任务,那现在很多 agent 的厂商声称了自己的一个优化的空间,或者说,嗯,它的竞争优势就是在于我去围绕模型做一些 context。呃,或者说你叫 environment engineering 这一层会不会空间就变少了?我就可能会从就是另一个角度来看这个问题,就是刚才所说的就是模型和下游 agent 生态的一个相辅相成、互相成就。

就举个例子,譬如说,这也是为什么很多 agent framework 还是比较 strategic 的一个一个原因。就譬如说,谷歌发布了一个 agent framework,就是我们比如说 agent A D K,就是 agent development kit

这个东西。然后假设它有记忆支持功能,就比如说它有一个原生的 memory 模块,那么开发者在用这个 framework 的时候,他用的越多。

就会有越多符合这个 framework 的 data,然后这个数据被收来之后,其实再去返回到大模型本身的训练就是非常非常有用的,因为这就是实际使用的 pattern。如果一个东西在实际生活中它就是这么被用的话,那么我在训练的时候也相应的补上它以后在 inference

时候会遇到的场景。这个情况下,就是说 agent framework 能够带动下游的生态,下游的生态又反过来给那个上游的模型提供更多的训练数据。

所以这个其实是一个 positive 的一个 reinforcement loop。对,然后就就就你刚刚所说的,就会不会挤压下游一个呃 agent 的一个生存空间?那我觉得可能是一个更深刻的问题,就是说现在这是不是一个增量的市场?就是说我们 agent 就是模型变好了之后,我能够服务的一个范围的扩大 versus 模型本身能力吃掉的那一部分的市场,就是这个 delta 是不是一个在增加的一个过程?

我觉得现在从企业方面的反应和大家从 Agent 身上真的能得到的实实在在的价值来看,我对这方面还是相对比较有信心的。就是这个市场的增长可能还是会相对来说更快一些。嗯,好,那今天非常感谢几位做客晚点聊,一个是分享了就最近这些模型的新的进展,同时也分享了就 Precur

你们做的这个新的创业项目的一些思考,以及可能会怎么帮助到开发者去更好的做 Agent,以及企业客户去在他的场景里做一个自己可以用起来的智能体的应用。

那今天节目就到这里,感谢大家的收听,各位拜拜,拜拜,拜拜,谢谢大家,谢谢大家,拜拜。本期结尾的连点呈现推荐第一百三十七期节目,同样是 Henry 和 Naomi 做嘉宾的一期。我们当时梳理了 Agent 工具链的机会,在二零二五年十月这一个月里, OpenAI、 Google、 Anthropic 就接连面向开发者发布了 Agent 工具链的新产品和服务。

今年, LangChain、 Eleven Labs 等提供 Agent 需要的一些共通能力的公司也都有大额融资和估值的上升。OpenAI 还以十一亿美元收购了做 A/B test 和 evaluation,也就是评估的公司 StatSig。从更长的维度看,一百三十七期中,我们梳理了 Agent

的工具链的六次进化和一些目前的焦点领域,包括高质量的工具调用、Agent 之间的通信、Agent 的记忆方案、评估和可靠性,还有语音。

而今天这期节目中的 Precur。整体思路就是用强化学习等方法,让 agent 能更聪明、稳定的使用工具,最终交付更准确和可靠的成果。Precure还有更多公司的实践,都是繁荣的 agent,或者说大模型生态里基础层的一些创新创业的机会。虽然在国内,infra 的创业向来是比较弱势的环节,因为大公司倾向于自己来做更多基础层的工作,但是对一开始就面向全球化市场的一些中国的创业者。

或者是在大公司里做相关工作的一线的研究者和产品人员,关于 Agent Infra 的很多讨论,可能也是有意义和有启发的。本期节目就到这里,感谢收听。如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法,这也会成为我们节目的一部分,让整个讨论更完整。你也可以把我们的节目分享给对这个话题感兴趣的朋友,推荐更多你想听的主题和嘉宾。

你可以从小宇宙、苹果 Podcast 等渠道关注“晚点聊 Late Talk”,也欢迎关注我们的公众号“晚点 Late Post”。下期再见。