OpenAI 与 Google 的 Benchmark 战略与模型演进

近期 OpenAI 发布了多个新 Benchmark,包括 GDP Eval、Arc AGI-2 和 Sweep Lancer,而 Anthropic 的模型在这些测试中普遍表现最佳——这一现象反映出 OpenAI 研究团队在 Research 与 Marketing 的明确切割,值得高度尊重。这种克制与专业性,使得其技术演进路径更具公信力。与此同时,Google 在 Gemini 3 Pro 发布后士气高涨,不仅股价上涨,还在旧金山租用画廊举办庆祝派对,邀请硅谷热门初创公司创始人参与,凸显其对生态影响力的重视。

值得注意的是,Gemini 3 与 GPT-5.2 的发布时间几乎重合,虽无直接证据表明是策略性对位,但两者在能力提升上均展现出显著进展。以 GPT-5.2 为例,其在 GDP Eval(覆盖 44 类知识型任务)中超越人类顶级专家的概率从 38.8%(GPT-5.1)跃升至 70.9%;在更具抽象推理挑战的 Arc AGI-2 上,得分也从 17.6 提高到 52.9。这些提升不仅体现在绝对分数上,更关键的是在 相同推理成本(token / cost)下效率显著优化——这意味着模型不再仅靠堆算力刷分,而是在推理路径设计上实现了质的飞跃。

“光看这一个 number 本身它刷到多高……可能意义不是特别大。但像 AGI Benchmark,它上面是有一个横轴是 cost。大家会看到……在同样的 cost 下,我的这个分数能够提高了很多。”

“GPT 5.2 的定价其实是要相对来说比算是比较高的,但是它 overall 做这些 task 反而它的 cost 降低了,所以其实它的就是对于 token 的这个利用效率能看到是比之前的版本要高很多。”

Google Labs 的产品哲学:创意与工程的深度协同

与 OpenAI 的学术严谨风格不同,Google 内部的 Google Labs(Nano Banana 与 Notebook LM 的发源地)展现出鲜明的创意驱动特征。其产品开发不仅包含工程师和产品经理,还引入 编辑(editor)、作家等内容创作者,深度参与从产品设计到最终 demo 呈现的全流程。这种跨职能协作模式,使得技术产品更具叙事张力与用户共鸣。例如,Nano Banana 的命名灵感竟来自 PM 的美甲图案——“Why not we just call it banana banana?”——这种看似随意的创意迸发,实则是其鼓励探索与趣味性的文化缩影。

这种文化也延伸至人才招募策略:Google Labs 明确倾向吸纳擅长制造网络爆款内容的创作者,将“病毒式传播能力”视为产品竞争力的一部分。这与传统大厂强调稳定性与流程规范的思路形成对比,也解释了为何其在生成式 AI 产品落地(如 Notebook LM 的播客摘要、Gemini 的多模态演示)中常能率先建立用户心智。

“一个 PM 就说啊,我们今天就加班到凌晨两三点,我们要为 the project name really fun。他说,那我们就想一个什么样的水果吧。他又看了一下自己昨天做的美甲,发现他美甲上是是两个香蕉。然后他说,Why not we just call it banana banana?”

Agent 创业新机会:从静态工具到可训练工具的跃迁

在 Agent 技术栈中,当前创业机会集中在三层:最底层的数据连接层(打通企业数据与智能体)、中间的工具层(Precure 所聚焦的方向),以及上层的编排器(orchestrator)。其中,工具层最具颠覆潜力——传统工具是静态接口,而 Precure 正在构建 trainable tool(可训练工具),使其具备状态记忆与自我迭代能力。

其核心理念是:当工具执行失败时,它应能从中学习并优化后续行为,而非仅依赖外部重试或人工干预。这需要将强化学习(RL)能力嵌入工具本身,使其在调用过程中持续积累经验。创始人戴韩俊(前 Google DeepMind 强化学习研究员)与 Bethany(前 Vertex AI 平台负责人)的组合,恰好覆盖了从底层研究到企业级落地的全链条经验。

“工具不再是一个静态的形式。而是说,在工具里面如何嵌入智能,并且这个智能在工具被调用的时候,尤其是工具执行任务失败的时候。这个工具本身如何从失败中进行学习和自我迭代,变得更好?”

GPT-5.2 与 GDP Well:从 benchmark 到 AGI 实践

GPT-5.2 的发布恰逢 OpenAI 成立十周年,其内部代号为 Garlic,而此前的 Strawberry(GPT-4o)已具备初步的数字母能力,但 Garlic 仍存在不稳定性——例如在单词 “Garlic” 中包含几个字母 r 的问题上,模型有时答对、有时答错、有时漏数。这一细节揭示了当前模型在基础认知能力上仍存在明显短板。

与此同时,OpenAI 推出了名为 GDP Well 的新 benchmark,旨在更贴近真实生产场景。该 benchmark 源自 OpenAI 2018 年章程中对 AGI 的定义:“一个能高度自动化、并比人类更强地执行大部分有经济价值工作的 AI”。为验证这一目标,团队从 GDP 中筛选出 超过 5% 的关键行业(如制造业、房地产等),覆盖 44 个职业、共 1320 项任务,构成一个高度务实的评估体系。

值得注意的是,OpenAI 在同一时期还发布了另外两个 benchmark:Paper Bench(端到端复原 AI 论文)与 Free Lancer(自由职业任务评估)。有趣的是,在这些 benchmark 的初始测试中,OpenAI 自家模型并非全部领先,反而是其他 top 模型表现更优——这种“自测不自夸”的做法极大增强了其评估结果的公信力与专业性。

“这个 benchmark 本身的 number 可能不能过度解读。但是从另外一个方面也是看到这个 GPT 5.2 在真正的这种生产生活中,这种 task 上有一个明显的进步。”

“真正开始 measure,就是他们之前二零一八年这个章程里面说的这个 AGI 这个定义了之后的话,我觉得应该也会更加的务实一些!”

基础模型 vs Agent:能力内化与长尾鸿沟

随着基础模型能力持续增强,一个关键趋势正在显现:许多原本需依赖 Agent(如 code scaffold)完成的任务,正被基础模型自身吸收与内化。原因在于各大实验室在构建训练数据集时,高度注重行业覆盖率工具交互多样性——通过 mock 工具接口,让模型在训练中积累与现实工具交互的经验,从而逐步形成“无需额外代码即可调用工具”的能力路径。

然而,这并不意味着 Agent 将被彻底取代。现实中的工作流存在显著的 “长尾分布”:每个企业都有其独特、私有、难以公开的数据与流程,这些场景难以被通用基础模型充分覆盖。因此,基础模型与 Agent 之间始终存在一个不可忽视的 gap,需通过定制化能力补充。

更进一步,二者实为相互成就关系。例如 Cursor 等 coding agent 的爆火,反过来推动模型厂商在 coding、debug、multi-step reasoning 等方向进行针对性优化——模型能力提升赋能 Agent,而 Agent 的真实反馈又反哺模型迭代。这种正向循环使得模型与 Agent 的边界日益模糊:ChatGPT 本身已是具备工具调用能力的轻量级 Agent;而 API 封装后的系统,也可能已是一个高度集成的交付引擎

“虽然基础模型的覆盖面不断的在增加,但是因为每一个公司他们有自己的独特的工作流,并且这些工作流通常是公司独有的,不愿意把这个数据公开出来的一个东西。也就导致基础模型很难在这一些数据上被训练,所以这始终有一个 gap,需要用一些额外的能力去进行覆盖。”

Gemini 3 Pro:Google 的全面 SOTA 突破与传播策略

相比 GPT-5.2 的务实路线,Gemini 3 Pro 的发布在声量与传播效应上更为显著。其背后是 Google 长期技术积累的整合:从 2023 年起,Gemini 系列已在 long context(百万 token)、cost efficiency、reasoning with budgets、multi-modal understanding 等多个维度持续突破;而 Gemini 3 Pro 的关键意义在于——首次将这些能力整合为一个 across-dimensions 的 SOTA 模型

尤其值得强调的是其产品化与传播策略。Google Labs(独立于 DeepMind 的产品导向部门)在此过程中发挥了关键作用:该团队不仅由具备强产品背景的 Josh Woodward 领导(他曾主导 Google 的 “Next Billion Users” 战略),还主动吸纳擅长病毒式内容创作的创作者,确保 demo 与传播具备强感染力。例如,Gemini 原生生成网页的能力,在审美与可用性上甚至超越部分成熟产品,极易引发用户自发传播。

有趣的是,Google 内部也曾陷入“过度谨慎”的焦虑:担心技术领先引发竞争对手紧张,甚至在发布前反复评估是否“discussed too much”。这种内部张力恰恰反向印证了 Gemini 3 Pro 的战略分量——它不仅是技术里程碑,更是 Google 重夺 AI 领导权的关键宣言

“Gemini 3 Pro 感觉是把这些就是不同的 component 按在一起,然后就是整个的 across different dimensions 能够达到这个 SOTA 的水平,所以应该是一个比较重要的一个时间节点。”

“Google 内部也紧张。就是紧张的是,我们是不是 discussed 了太多了?然后我们是不是太强了,以至于让我们的竞争对手紧张起来了?”

Gemini 3 的命名趣闻与技术突破

在 Gemini App 的开发过程中,项目曾用名“banana”实为 Gemini 2.5 Flash Image 的内部代号。据亲历者回忆,该名称源于一次临时头脑风暴:产品负责人与 PM 团队加班至凌晨,为项目取一个“有趣”的名字。其中一位 PM 看到自己指甲上画着两个小香蕉,灵机一动提议“Why not we just call it Nana Nana?”——于是“小香蕉”(banana)就此诞生。这一看似随意的命名背后,折射出团队在高压开发中保持创意与轻松氛围的文化。

更关键的是,Gemini 3 的成功被认为与pretraining 阶段的实质性突破密切相关。2023 年 NeurIPS 上,Ilya Sutskever 曾预言“pretraining as we know it will end”,暗示传统预训练范式将达瓶颈。但 Google 的 Oriol(其 co-author)在 Gemini 3 发布后发文指出,此次训练周期仍存在显著进步,并首次提出 “no wall insight” 概念:团队不仅用尽了当前改进,更意识到未来仍有大量优化空间未被探索。这表明 Google 对模型 scaling 的理解已从经验驱动转向系统性洞察。

‘Why not we just call it Nana Nana?’

‘这次有改进,并且我们还有很多改进还没有用完……未来还有机会接着去做。’

Google 的多层 co-design 生态优势

Gemini 3 的爆发并非偶然,而是 Google 长期垂直 co-design 布局的集中体现。其一为硬件-基础设施-模型-应用的全栈协同:从 TPU 芯片设计出发,向下优化至底层 kernel 与库(如 XLA 编译器),向上延伸至 JAX 框架、大模型基础设施(如 Agent Space),形成高度耦合的优化链条。这种深度整合使 Google 在大规模训练中具备独特优势——TPU 原生支持 mesh 架构,在扩展至千卡级时比 GPU 更早从 compute-bound 转向 network-bound,网络效率更高。

其二为企业应用与模型的闭环反馈:Google Workspace(类飞书/Slack 的办公套件)积累了海量真实办公场景数据,这些数据持续反哺模型训练。近期推出的 Agent Space 更是直接构建了“应用生成→用户交互→数据回流→模型迭代”的正循环。

其三为多硬件 surface 的数据协同:从 Pixel 手机、Google Home、Project Astra 眼镜到车载系统,Google 拥有业界最广的硬件触点网络。不同场景下采集的异构数据(语音、视觉、交互行为)共同丰富了训练数据分布,使模型具备更强泛化能力。

‘它一直是非常善于长期布局的一个公司……布局所导致的一些 co-design,可能在现在迎来了一个爆发。’

‘这整一套 ecosystem 的 co-design 这么打通之后,布局很远,可能之前一直没迎来爆发点,只是恰巧现在爆发点来临了。’

TPU 生态成熟度与开发者体验

尽管 TPU 早期面临生态壁垒,但如今其软件栈已高度成熟。主流框架(PyTorch、JAX)均提供 TPU 支持,底层通过 XLA 编译器实现硬件抽象。对开发者而言,若熟悉 Python 或 JAX,迁移成本极低——上层 API 已高度透明,甚至可一键部署模型至 TPU 进行推理,无需感知底层硬件。JAX 虽为 Google 原生框架,但与 PyTorch 同属模型开发层(非 CUDA 那样的底层接口),二者可互换运行于不同硬件。

更高层生态亦快速完善:围绕 JAX 形成了以“X”结尾的工具链体系,如 OptX(权重管理)、RLX(强化学习)、Flex(神经网络构建)。Google 还推出了首个 TPU 原生 RL 框架 Tunix,并面向外部创业公司开放 TPU 资源(甚至提供比内部更先进的版本),通过 strategic research grants 支持前沿探索。

值得注意的是,Google 的 TPU 团队与外部生态深度绑定:初创公司可直接向 Google 工程师反馈问题(如 JAX/XLA 定制优化),这种“即问即答”的支持能力是多数创业公司难以复制的。随着生态持续成熟,TPU 正从“小众选择”转向可规模化落地的生产级基础设施

‘Jax 可以是一个更抽象的一个层,它在比如说 GPU、TPU 上面都可以跑。’

‘TPU 确实是延展性和稳定性都非常好,尤其是要做大规模的模型训练……对开发者来说比较透明。’

TPU 生态与英伟达护城河的再评估

尽管 TPU 在谷歌内部已深度集成,其软件栈以 Jax 为核心,辅以开源库 Palos(部分底层未开源但难以直接修改),但其外部生态仍处于早期阶段。当前 TPU 的应用成本依然偏高,主要服务于对谷歌生态高度熟悉或技术原生的用户;大规模部署仍受限于 CSP(云服务提供商)的谨慎态度系统级 TCO(总拥有成本)未显著优于 GPU,以及 数据中心适配门槛。尤其当企业考虑从 NVIDIA 生态迁移时,需重新构建训练与推理管线,迁移成本不容忽视。

不过,大客户正将 TPU 视为提升议价能力的 bargaining chip——既推动谷歌扩大 GCP 中 TPU 的使用,又促使谷歌权衡直接对外销售 TPU 系统的可行性。从长期看,随着模型进化速度放缓、企业对 易用性与快速 GTM(Go-to-Market) 的依赖降低,CUDA 的护城河效应可能减弱。谷歌则会持续加大对 Jax 的投入,但其出货能力、前后端封装产能、与不同芯片厂商(如联发科)的协同仍是挑战。因此,TPU 对英伟达构成一定冲击,但短期影响有限。

原话:“老黄在内部是最警惕的对手,就是 Google 的 TPU。”

原话:“现在看来,可能当时那些 paper 就可能现在就不允许发了。”

Google Brain × Deep Mind 合并:组织协同与研究范式转型

2023 年 Google Brain 与 Deep Mind 的合并,标志着谷歌 AI 研究体系从“双中心”走向统一。此前两团队在基础设施、模型路线与文化风格上存在差异:Deep Mind 更偏自上而下、目标驱动(如 AlphaFold、星际争霸项目),强调纪律性与 daily stand-up;Google Brain 则更发散、自由度高,既贴近产品(Search、YouTube),也支持高风险、低短期回报的探索性研究。

合并虽经历初期磨合与组织政治挑战,但一旦技术路线明确,大厂的执行力优势便显现——团队能围绕统一目标协同分工。值得注意的是,在高度竞争环境下,论文发表政策趋于收紧:过去可公开分享的研究成果,如今可能延迟发布,甚至内部沉淀为“无名工程”。这种转变引发对研究员成就感的重新思考:一方面,成果若能落地于 Gemini 等产品,其影响力远超单一学术圈;另一方面,纯粹的研究者仍能从内部共享与自我突破中获得满足。

原话:“训练语言模型可能不是一个那么纯粹的 research,因为它需要 outcome,需要短时间的 delivery。”

原话:“自由度是能够激发 research 的,我觉得 research 是需要一个冗余,需要一点浪费。”

创业者的破局点:垂直落地 × 水平工具层的结构性机会

尽管大厂势头强劲(如 Google 在 Gemini、Vertex 等方向持续加码),创业者仍有明确突破口:垂直领域(如生物医药)与水平平台层(尤其是强化学习驱动的 Agent 工具链)。

在垂直赛道,创业者凭借 domain + AI 的复合能力(T 型或 π 型人才),高效整合药企、学界资源,加速新药研发与临床试验设计。这与基础模型(如 Gemini、Claude)持续补强生命科学数据形成正向循环——模型能力提升赋能垂类应用,垂类落地反哺模型进化。

在水平平台层,机会集中在三层: - Orchestrator 层:多家公司优化 Agent 的工具调用逻辑,结合企业私有数据微调模型; - Data Connector 层:如 Composio,构建企业数据与 Agent 间的桥梁,社区运营出色; - 工具层Precure 等团队聚焦 RL 在工具层的创新应用——让工具具备状态记忆与自我演化能力,将失败轨迹转化为企业核心资产,实现工具的持续再训练与场景定制化。

创业者的核心优势在于:快速迭代、社区驱动、专注细分场景,这正是大厂难以兼顾的。

原话:“RL 能不能应用到工具层,使得工具不再是一个静态的工具,而工具本身是有状态的。”

原话:“创业可能不能 assume 说这个 AI 已经实现了,要不然很多事情就就觉得好像就没有必要做了。”

RL基础设施的三层投资逻辑

强化学习(RL)创业方向可划分为三个层级,每一层对应不同的技术定位与商业价值。

第一层是RL环境基础设施,即为AI智能体提供“训练场”式数字模拟器。这类环境需高度还原真实业务场景(如企业软件操作、复杂流程处理),并具备精准的评分与反馈机制。其本质是构建未来所有AI智能体的练习基地与考试中心。团队已投资的 Preference Model 即属此类——它聚焦于构建高保真、可评估的模拟环境,尤其在网络安全攻防等专业领域,需结合领域知识与RL技术,形成较高技术门槛。

第二层是RL as a Service,即降低RL落地门槛的企业级服务。绝大多数企业缺乏自研RL能力,因此该层公司通过封装复杂技术,提供开箱即用的工具链,使客户能以“训练员工”的方式,基于自有数据定制专属AI专员,用于销售、客服、合规等具体业务场景。其核心价值在于解决RL工程化难、部署门槛高的问题

第三层是垂直领域RL应用,即“特种兵”式高价值落地。在药物研发、金融交易、科学发现等高门槛、高回报领域,通用大模型往往力有不逮,需将RL与行业深度知识结合,直接产出可替代专家、实现智能突破的产品。例如 Periodic Labs 即属此类,专注用RL驱动关键行业的核心创新。

“这个方向其实就是投未来所有 AI 智能体的练习基地和考试中心。”

“投这个方向,就比如说像 Periodic Labs,就属于这个方向的一个公司,就是投 AI 在关键行业里创造核心价值的革命性应用。”

RL环境的演进与现实挑战

RL环境的构建已从早期的“玩具级”模拟(如Atari游戏)走向高经济价值、高复杂度的真实系统复刻。例如,曾有初创团队在48小时内用coding agent快速复刻了Jira——并非为替代产品,而是为训练AI agent理解并操作这一广泛使用的工程协作工具,从而提升其在软件工程自动化中的实用性。

如今,单纯复刻商业软件已难构成竞争壁垒。领先玩家正转向构建专业壁垒更高的模拟环境,如网络安全攻防、物理世界机器人控制等。这些环境需融合领域专家知识与RL系统设计能力,确保API对研究者友好、对训练高效。

值得注意的是,仿真(simulation)并非新概念,其历史可追溯至零售行为建模(以SKU为token的生成模型),但当前“世界模型”一词更强调其生成能力的丰富性与泛化性。Waymo的“Sim City”团队即为典型案例:通过大规模仿真生成稀疏事件(如极端碰撞场景),用于增强自动驾驶模型的鲁棒性。

“做一个像 Gemini 这种软件的复制品,这种简单的 go to market 可能已经不够,就是产生一个竞争的这个优势了。”

模型选择:生态优先于性能

在评估Agent开发所需模型时,云生态绑定已成为首要约束条件。企业数据通常被锁定在特定云平台(如Google Cloud、Azure),而主流模型(如OpenAI、Gemini)的可用性高度依赖所在云的开放策略——例如Azure上无法直接调用Gemini,GCP亦难接入OpenAI模型。这种“屁股决定脑袋”的现实,使模型迁移成本远高于性能权衡。

因此,企业是否采用某模型,首先取决于其所在云的原生支持与商业激励(如云厂商提供的credits或折扣)。微软凭借Azure的强粘性与OpenAI的深度整合,形成显著先发优势;Anthropic则因模型部署于三大主流云,展现出一定中立性。

抛开生态因素后,模型性能与Agent适配性才成为关键考量。目前,Claude系列模型仍广受开发者青睐,尤其因其在编程任务中的高可靠性——这不仅源于其代码生成能力,更在于其对“programmatic tool calling”(以生成代码作为agent action)的天然支持,大幅提升了agent执行的稳定性。尽管Google与OpenAI近年持续强化coding能力,但Claude在agent场景中的工程友好性与鲁棒性仍具持续竞争力。

“所以现在对企业客户来说,就是模型性能的好坏并不足以让你去换一个云,是吗?就他们对云的粘性肯定是要强得多的。”

Agent 生态中的代码生成能力:从 MCP 到 Programmatic Tooling

将生成代码作为 agent 执行 action 的一种方式,本质上赋予了 transformer 模型在 agentic 场景下的原生可靠性。当前,transformer 模型在 agent 应用中的使用仍以 coding 为核心路径,而这一趋势并未因 Google 与 OpenAI 在 coding 能力上的持续强化而动摇。Anthropic 自今年十月起已在 Agent 生态上显著发力:其技术博客明确面向 Agent Developer 受众,并发布了如用代码调用 MCP Tool 的实践案例——这标志着 agent 不再仅依赖 MCP 工具本身,而是通过自主编写代码来触发 action,从而深刻影响开发范式。

这种能力可拆解为两个维度:模型本身的代码生成能力(研究问题)与模型在 agent 生态中的工程集成能力(工程问题)。后者尤其关键,因为 agent 的实际表现高度依赖其能否灵活调用编程能力完成复杂任务。Anthropic 已展现出领先实践:从 MCP 的开源捐赠(移交至 Open Source Foundation),到持续演进的 Programmatic Tooling,再到 Cloud Code 的多场景拓展(如 N8N 工作流、网页生成、PPT 编写),其 coding 能力早已超越传统程序员工具范畴,真正成为 agent 的通用执行接口

‘这个 Coding 能力就是远不只是在 Coding 上面,是在 Agent 这方面就是用的非非常多。’ ‘它已经带领了一波潮流,以及导致其他的模型也需要去在类似的 MCP 这种类型的数据上去训练,然后能够支持 MCP。’

延迟敏感场景下的模型选择:质量 vs. 响应速度的权衡

在 agent 实际部署中,响应延迟已成为与推理质量同等重要的考量因素。尽管长思考能力(如多步数学推理)能体现模型智力水平,但在多数 A 阶段场景中,开发者更倾向在可接受延迟内完成任务。实践中,许多工程师会主动关闭模型的“思考模式”,转而通过 prompt 工程引导其生成适度推理内容,以在质量与延迟之间取得平衡

这一权衡直接推动了轻量级模型的崛起:Gemini Flash、OpenAI Mini 系列、以及 Sonnet 的小型变体,因其在低延迟下的稳定表现,成为 agent 开发中的高频选择。团队普遍采取多模型并行测试策略,在各大云平台部署三家主流模型,实际使用中除特定客户或合规限制外,并无明显模型粘性

‘在很多 A 阶场景中,可能要的不一定是这种类型的模型……大家可能既要又要,就既要这个模型有这样 quality,但同时也要有在响应时间内就能够把这个事情做完。’

开源模型的崛起与现实挑战:中美生态差异与开发者视角

国内开源模型(如通义千问系列)在开发者群体中广受认可,核心优势在于多尺寸模型选择(便于 startup 进行 ablation 实验)、强 reasoning 能力(在 A 阶段任务中展现天然优势),以及成本友好性。然而,其仍存在提升空间:部分模型在完成任务时存在过度推理问题(即“自说自话”消耗过多 token),反映出当前对“thinking budget”的动态调控机制尚不成熟。

相较之下,Google 的 Gemini 开源系列(GEMMA)则被指“诚意不足”:作为多模态模型,在同等规模下难以平衡多模态能力与单模态性能,偶发低级错误(如输出乱码),影响开发者信任。其开源动机更多是应对“Closed AI”批评、赢得开发者口碑,而非深度技术共享。

值得强调的是,国内开源生态(如 DeepSeek)展现出更高诚意:其论文干货密集(如 off-policy 强化学习稳定性优化),甚至在纽约航班上被三分之一乘客研读。这种坦诚的技术交流文化,正成为行业标杆。

‘国内模型真的做的特别棒的地方……特别是有一些企业,它可能就不让你用这个来自于中国的模型之类的。’ ‘如果你们现在去看一个新的模型的话,你们会去比较关注哪些它公开的 benchmark 上的表现?……我们还挺看重 long trajectory 能力。’

长轨迹推理 benchmark:从 Needle-in-Haystack 到 Multi-Step Agent Tasks

当前 benchmark 评估正从单一短推理转向长轨迹(long trajectory)任务,因其更贴近真实 agent 场景。例如: - SweetBench Pro(代码生成)与 Mind to Web(网页导航)强调多步任务规划(可达十余步),考验模型在长上下文中理解历史交互、预判后续动作的能力; - TopBench / TopSquareBench(由 Sierra 发布)则引入 user simulator,构建动态多轮对话环境,评估 agent 在信息不完整时的环境把控力。

传统 benchmark(如 Needle-in-the-Haystack)因任务过于简单、缺乏上下文耦合性,已难以反映 agent 的真实能力。而长轨迹任务要求模型不仅“找到针”,更要理解整捆稻草的逻辑链条,并据此生成合理行动序列——这标志着评估标准进入新阶段。

‘在 agents 的 long transaction 里面,它是真的你要看之前的 transaction 里面发生了什么,然后去 plan 下一步,然后去 take action。’

超越标准Benchmark:个性化测试与真实能力评估

当前前沿模型评估正从标准化 benchmark 向更具创造性的个性化测试演进。标准 benchmark(如 C-benchmark)虽具参考价值,但长期使用易导致信息泄露与刷分现象,“benchmark 刷得多高,全凭良心”。因此,许多从业者更倾向设计非主流但高信息量的压箱底考题,例如让模型生成代码绘制“独角兽”(unicorn),观察其从早期 GPT-3 的两个方框+一个怪异正方形,进步到 GPT-5.2 可上色、带真实角的演变过程——这类任务未被显式训练,却能真实反映模型的泛化与推理能力。

类似地,DeepMind 曾设计一个“电路板复刻”测试:输入一个长字典(编码电路结构),要求模型复现该电路。该任务无实用价值,却能揭示模型是否具备类通用图灵机的抽象建模能力。这类测试的价值在于,它们模拟了人类认知中“非显式训练却可迁移”的能力,是评估模型质量的隐性指标

“这个能力本身也能 tell something,要把我这个模型自己在这些方面的 quality……如果考到这个人,这个人又正好能回答出来,哎,你就会觉得这个人特别聪明。”

“benchmark 刷得多高,全凭良心……目前我觉得所有 frontier lab 应该都还是非常有操守的。”

多模态能力:Agent 竞争力的核心分水岭

多模态能力正成为大模型在 Agent 场景中拉开差距的关键维度。一个典型案例是“墨西哥卷饼测试”(Generative Burrito Test):给定“吃了一半的墨西哥卷饼”描述(含豆子、奶酪、鸡肉等多馅料),模型需生成合理图像。尽管训练数据看似丰富,但早期模型(包括 Gemini Pro)长期生成错误(如馅料错位、缺失),直到近期才逐步改善。该测试揭示了多模态对齐与细粒度理解的深层挑战。

现实场景中,多模态能力更体现为对非结构化数据的理解:如 PDF 扫描件、Office 文档、混合图文内容等。许多 startup(如 Office QA)尝试通过外部 parser(如 Databricks)预处理数据以提升模型表现,侧面反映当前模型在原始多模态输入解析上的不足。而多模态能力的突破,不仅关乎生成(如在空白考卷上手写解题步骤),更在于理解-推理-生成的闭环整合

“为什么 Google 在这个混合模态上会做的特别好?其实 Gemini 3 就是一个混合模态的模型……人类就是一个多模态的生物,所以为了达到 AGI level,这是一个必经之路。”

“如果模型自己就能做这种比较复杂的多步的任务,那现在很多 agent 的厂商声称的优化空间……会不会空间就变少了?”

Agent 原生训练范式:从外挂框架到模型内生能力

Agent 能力的演进正推动模型训练范式从后训练(post-train)适配转向原生内嵌。当前多数团队依赖开源模型进行 post-train 以定制行为,但若开源模型本身在训练中已集成大量 agent trace(如规划、工具调用、多步推理轨迹),将极大降低工程成本并提升性能上限。

与此同时,long-horizon 任务能力成为新焦点:从早期 RLHF 的单步 reward,发展到 agentic RL 的多步 rollout,再到 Gemini 的 parallel thinking、OpenAI 的 Plan-Execute 框架等,模型正被训练为能自主完成复杂长链任务的主体。这不仅要求模型具备更强的状态记忆与上下文一致性(如避免中英混答),还需解决多模态间语义对齐、资源消耗控制等挑战。

“模型和下游 agent 生态是一个相辅相成、互相成就的关系……这也是为什么很多 agent framework 还是比较 strategic 的一个原因。”

Agent Framework 与大模型的正向循环

当前大模型能力的快速提升,确实引发了对 Agent 生态中下游厂商生存空间的担忧:当模型本身已能高效完成复杂多步任务时,围绕模型做 context 或 environment engineering 的优化空间是否会收窄?但更关键的视角在于,模型与下游 Agent 生态之间存在相辅相成、互相成就的关系。以 Google 发布的 Agent Development Kit(ADK)为例,其内置的原生 memory 模块等战略级设计,使得开发者在高频使用过程中,会自然生成大量符合该框架的真实使用数据。这些数据回流至大模型训练流程后,能显著提升模型对实际使用场景的覆盖与适应性——因为训练数据越贴近真实行为模式,推理时的表现就越稳定可靠。这种机制形成了一个清晰的正向强化循环(positive reinforcement loop):Agent framework 推动生态发展,生态又反哺模型进化

如果一个东西在实际生活中它就是这么被用的话,那么我在训练的时候也相应的补上它以后在 inference 时候会遇到的场景。

这个情况下,就是说 agent framework 能够带动下游的生态,下游的生态又反过来给那个上游的模型提供更多的训练数据。

Agent 市场:增量扩张还是存量替代?

尽管模型能力的跃升可能挤压部分传统 Agent 开发者的优化空间,但更值得深思的问题是:当前 Agent 市场是否处于一个持续扩大的增量阶段?换言之,模型能力提升带来的服务边界扩展(例如覆盖更多企业场景、更复杂的业务流程),是否远大于其对原有 Agent 功能的替代效应?从企业端的实际反馈与已落地的价值来看,答案倾向于“增量扩张”:企业正从 Agent 中获得可量化的效率提升与新能力,而非仅是成本替代。因此,尽管底层模型能力趋近饱和,但 Agent 生态仍处于快速成长期,市场增长速度大概率会快于模型能力迭代带来的替代效应

从企业方面的反应和大家从 Agent 身上真的能得到的实实在在的价值来看,我对这方面还是相对比较有信心的。就是这个市场的增长可能还是会相对来说更快一些。

Agent 工具链的创业机会与全球视野

Agent 基础设施(Infra)正经历系统性演进:仅在 2025 年 10 月,OpenAI、Google、Anthropic 就密集发布面向开发者的新工具链;LangChain、Eleven Labs 等通用能力提供商也获得大额融资;OpenAI 更以 11 亿美元收购评估公司 StatSig,凸显评估与可靠性已成为核心竞争高地。结合第 137 期节目梳理的 Agent 工具链六次进化路径,当前焦点集中在:高质量工具调用、Agent 间通信、记忆方案、评估体系、语音交互等方向。而像 Precure 这类公司,通过强化学习等方法提升 Agent 的工具调用稳定性与结果准确性,正是在夯实这一基础设施层。尽管国内 Agent Infra 创业面临大厂自建体系的挑战,但对瞄准全球化市场的中国创业者或一线研究者而言,围绕 Agent Infra 的深度实践与创新讨论,仍蕴含重要启发价值

Precure 还有更多公司的实践,都是繁荣的 agent,或者说大模型生态里基础层的一些创新创业的机会。