146: Gemini 3翻盘背后、Agent需要什么大模型、RL创业机会，与前 Google 创业者、硅谷投资人聊湾区动向

OpenAI 与 Google 的 Benchmark 战略与模型演进

近期 OpenAI 发布了多个新 Benchmark，包括 GDP Eval、Arc AGI-2 和 Sweep Lancer，而 Anthropic 的模型在这些测试中普遍表现最佳——这一现象反映出 OpenAI 研究团队在 Research 与 Marketing 的明确切割，值得高度尊重。这种克制与专业性，使得其技术演进路径更具公信力。与此同时，Google 在 Gemini 3 Pro 发布后士气高涨，不仅股价上涨，还在旧金山租用画廊举办庆祝派对，邀请硅谷热门初创公司创始人参与，凸显其对生态影响力的重视。

值得注意的是，Gemini 3 与 GPT-5.2 的发布时间几乎重合，虽无直接证据表明是策略性对位，但两者在能力提升上均展现出显著进展。以 GPT-5.2 为例，其在 GDP Eval（覆盖 44 类知识型任务）中超越人类顶级专家的概率从 38.8%（GPT-5.1）跃升至 70.9%；在更具抽象推理挑战的 Arc AGI-2 上，得分也从 17.6 提高到 52.9。这些提升不仅体现在绝对分数上，更关键的是在 相同推理成本（token / cost）下效率显著优化——这意味着模型不再仅靠堆算力刷分，而是在推理路径设计上实现了质的飞跃。

“光看这一个 number 本身它刷到多高……可能意义不是特别大。但像 AGI Benchmark，它上面是有一个横轴是 cost。大家会看到……在同样的 cost 下，我的这个分数能够提高了很多。”

“GPT 5.2 的定价其实是要相对来说比算是比较高的，但是它 overall 做这些 task 反而它的 cost 降低了，所以其实它的就是对于 token 的这个利用效率能看到是比之前的版本要高很多。”

Google Labs 的产品哲学：创意与工程的深度协同

与 OpenAI 的学术严谨风格不同，Google 内部的 Google Labs（Nano Banana 与 Notebook LM 的发源地）展现出鲜明的创意驱动特征。其产品开发不仅包含工程师和产品经理，还引入 编辑（editor）、作家等内容创作者，深度参与从产品设计到最终 demo 呈现的全流程。这种跨职能协作模式，使得技术产品更具叙事张力与用户共鸣。例如，Nano Banana 的命名灵感竟来自 PM 的美甲图案——“Why not we just call it banana banana？”——这种看似随意的创意迸发，实则是其鼓励探索与趣味性的文化缩影。

这种文化也延伸至人才招募策略：Google Labs 明确倾向吸纳擅长制造网络爆款内容的创作者，将“病毒式传播能力”视为产品竞争力的一部分。这与传统大厂强调稳定性与流程规范的思路形成对比，也解释了为何其在生成式 AI 产品落地（如 Notebook LM 的播客摘要、Gemini 的多模态演示）中常能率先建立用户心智。

“一个 PM 就说啊，我们今天就加班到凌晨两三点，我们要为 the project name really fun。他说，那我们就想一个什么样的水果吧。他又看了一下自己昨天做的美甲，发现他美甲上是是两个香蕉。然后他说，Why not we just call it banana banana？”

Agent 创业新机会：从静态工具到可训练工具的跃迁

在 Agent 技术栈中，当前创业机会集中在三层：最底层的数据连接层（打通企业数据与智能体）、中间的工具层（Precure 所聚焦的方向），以及上层的编排器（orchestrator）。其中，工具层最具颠覆潜力——传统工具是静态接口，而 Precure 正在构建 trainable tool（可训练工具），使其具备状态记忆与自我迭代能力。

其核心理念是：当工具执行失败时，它应能从中学习并优化后续行为，而非仅依赖外部重试或人工干预。这需要将强化学习（RL）能力嵌入工具本身，使其在调用过程中持续积累经验。创始人戴韩俊（前 Google DeepMind 强化学习研究员）与 Bethany（前 Vertex AI 平台负责人）的组合，恰好覆盖了从底层研究到企业级落地的全链条经验。

“工具不再是一个静态的形式。而是说，在工具里面如何嵌入智能，并且这个智能在工具被调用的时候，尤其是工具执行任务失败的时候。这个工具本身如何从失败中进行学习和自我迭代，变得更好？”

GPT-5.2 与 GDP Well：从 benchmark 到 AGI 实践

GPT-5.2 的发布恰逢 OpenAI 成立十周年，其内部代号为 Garlic，而此前的 Strawberry（GPT-4o）已具备初步的数字母能力，但 Garlic 仍存在不稳定性——例如在单词 “Garlic” 中包含几个字母 r 的问题上，模型有时答对、有时答错、有时漏数。这一细节揭示了当前模型在基础认知能力上仍存在明显短板。

与此同时，OpenAI 推出了名为 GDP Well 的新 benchmark，旨在更贴近真实生产场景。该 benchmark 源自 OpenAI 2018 年章程中对 AGI 的定义：“一个能高度自动化、并比人类更强地执行大部分有经济价值工作的 AI”。为验证这一目标，团队从 GDP 中筛选出 超过 5% 的关键行业（如制造业、房地产等），覆盖 44 个职业、共 1320 项任务，构成一个高度务实的评估体系。

值得注意的是，OpenAI 在同一时期还发布了另外两个 benchmark：Paper Bench（端到端复原 AI 论文）与 Free Lancer（自由职业任务评估）。有趣的是，在这些 benchmark 的初始测试中，OpenAI 自家模型并非全部领先，反而是其他 top 模型表现更优——这种“自测不自夸”的做法极大增强了其评估结果的公信力与专业性。

“这个 benchmark 本身的 number 可能不能过度解读。但是从另外一个方面也是看到这个 GPT 5.2 在真正的这种生产生活中，这种 task 上有一个明显的进步。”

“真正开始 measure，就是他们之前二零一八年这个章程里面说的这个 AGI 这个定义了之后的话，我觉得应该也会更加的务实一些！”

基础模型 vs Agent：能力内化与长尾鸿沟

随着基础模型能力持续增强，一个关键趋势正在显现：许多原本需依赖 Agent（如 code scaffold）完成的任务，正被基础模型自身吸收与内化。原因在于各大实验室在构建训练数据集时，高度注重行业覆盖率与工具交互多样性——通过 mock 工具接口，让模型在训练中积累与现实工具交互的经验，从而逐步形成“无需额外代码即可调用工具”的能力路径。

然而，这并不意味着 Agent 将被彻底取代。现实中的工作流存在显著的 “长尾分布”：每个企业都有其独特、私有、难以公开的数据与流程，这些场景难以被通用基础模型充分覆盖。因此，基础模型与 Agent 之间始终存在一个不可忽视的 gap，需通过定制化能力补充。

更进一步，二者实为相互成就关系。例如 Cursor 等 coding agent 的爆火，反过来推动模型厂商在 coding、debug、multi-step reasoning 等方向进行针对性优化——模型能力提升赋能 Agent，而 Agent 的真实反馈又反哺模型迭代。这种正向循环使得模型与 Agent 的边界日益模糊：ChatGPT 本身已是具备工具调用能力的轻量级 Agent；而 API 封装后的系统，也可能已是一个高度集成的交付引擎。

“虽然基础模型的覆盖面不断的在增加，但是因为每一个公司他们有自己的独特的工作流，并且这些工作流通常是公司独有的，不愿意把这个数据公开出来的一个东西。也就导致基础模型很难在这一些数据上被训练，所以这始终有一个 gap，需要用一些额外的能力去进行覆盖。”

Gemini 3 Pro：Google 的全面 SOTA 突破与传播策略

相比 GPT-5.2 的务实路线，Gemini 3 Pro 的发布在声量与传播效应上更为显著。其背后是 Google 长期技术积累的整合：从 2023 年起，Gemini 系列已在 long context（百万 token）、cost efficiency、reasoning with budgets、multi-modal understanding 等多个维度持续突破；而 Gemini 3 Pro 的关键意义在于——首次将这些能力整合为一个 across-dimensions 的 SOTA 模型。

尤其值得强调的是其产品化与传播策略。Google Labs（独立于 DeepMind 的产品导向部门）在此过程中发挥了关键作用：该团队不仅由具备强产品背景的 Josh Woodward 领导（他曾主导 Google 的 “Next Billion Users” 战略），还主动吸纳擅长病毒式内容创作的创作者，确保 demo 与传播具备强感染力。例如，Gemini 原生生成网页的能力，在审美与可用性上甚至超越部分成熟产品，极易引发用户自发传播。

有趣的是，Google 内部也曾陷入“过度谨慎”的焦虑：担心技术领先引发竞争对手紧张，甚至在发布前反复评估是否“discussed too much”。这种内部张力恰恰反向印证了 Gemini 3 Pro 的战略分量——它不仅是技术里程碑，更是 Google 重夺 AI 领导权的关键宣言。

“Gemini 3 Pro 感觉是把这些就是不同的 component 按在一起，然后就是整个的 across different dimensions 能够达到这个 SOTA 的水平，所以应该是一个比较重要的一个时间节点。”

“Google 内部也紧张。就是紧张的是，我们是不是 discussed 了太多了？然后我们是不是太强了，以至于让我们的竞争对手紧张起来了？”

Gemini 3 的命名趣闻与技术突破

在 Gemini App 的开发过程中，项目曾用名“banana”实为 Gemini 2.5 Flash Image 的内部代号。据亲历者回忆，该名称源于一次临时头脑风暴：产品负责人与 PM 团队加班至凌晨，为项目取一个“有趣”的名字。其中一位 PM 看到自己指甲上画着两个小香蕉，灵机一动提议“Why not we just call it Nana Nana?”——于是“小香蕉”（banana）就此诞生。这一看似随意的命名背后，折射出团队在高压开发中保持创意与轻松氛围的文化。

更关键的是，Gemini 3 的成功被认为与pretraining 阶段的实质性突破密切相关。2023 年 NeurIPS 上，Ilya Sutskever 曾预言“pretraining as we know it will end”，暗示传统预训练范式将达瓶颈。但 Google 的 Oriol（其 co-author）在 Gemini 3 发布后发文指出，此次训练周期仍存在显著进步，并首次提出 “no wall insight” 概念：团队不仅用尽了当前改进，更意识到未来仍有大量优化空间未被探索。这表明 Google 对模型 scaling 的理解已从经验驱动转向系统性洞察。

‘Why not we just call it Nana Nana？’

‘这次有改进，并且我们还有很多改进还没有用完……未来还有机会接着去做。’

Google 的多层 co-design 生态优势

Gemini 3 的爆发并非偶然，而是 Google 长期垂直 co-design 布局的集中体现。其一为硬件-基础设施-模型-应用的全栈协同：从 TPU 芯片设计出发，向下优化至底层 kernel 与库（如 XLA 编译器），向上延伸至 JAX 框架、大模型基础设施（如 Agent Space），形成高度耦合的优化链条。这种深度整合使 Google 在大规模训练中具备独特优势——TPU 原生支持 mesh 架构，在扩展至千卡级时比 GPU 更早从 compute-bound 转向 network-bound，网络效率更高。

其二为企业应用与模型的闭环反馈：Google Workspace（类飞书/Slack 的办公套件）积累了海量真实办公场景数据，这些数据持续反哺模型训练。近期推出的 Agent Space 更是直接构建了“应用生成→用户交互→数据回流→模型迭代”的正循环。

其三为多硬件 surface 的数据协同：从 Pixel 手机、Google Home、Project Astra 眼镜到车载系统，Google 拥有业界最广的硬件触点网络。不同场景下采集的异构数据（语音、视觉、交互行为）共同丰富了训练数据分布，使模型具备更强泛化能力。

‘它一直是非常善于长期布局的一个公司……布局所导致的一些 co-design，可能在现在迎来了一个爆发。’

‘这整一套 ecosystem 的 co-design 这么打通之后，布局很远，可能之前一直没迎来爆发点，只是恰巧现在爆发点来临了。’

TPU 生态成熟度与开发者体验

尽管 TPU 早期面临生态壁垒，但如今其软件栈已高度成熟。主流框架（PyTorch、JAX）均提供 TPU 支持，底层通过 XLA 编译器实现硬件抽象。对开发者而言，若熟悉 Python 或 JAX，迁移成本极低——上层 API 已高度透明，甚至可一键部署模型至 TPU 进行推理，无需感知底层硬件。JAX 虽为 Google 原生框架，但与 PyTorch 同属模型开发层（非 CUDA 那样的底层接口），二者可互换运行于不同硬件。

更高层生态亦快速完善：围绕 JAX 形成了以“X”结尾的工具链体系，如 OptX（权重管理）、RLX（强化学习）、Flex（神经网络构建）。Google 还推出了首个 TPU 原生 RL 框架 Tunix，并面向外部创业公司开放 TPU 资源（甚至提供比内部更先进的版本），通过 strategic research grants 支持前沿探索。

值得注意的是，Google 的 TPU 团队与外部生态深度绑定：初创公司可直接向 Google 工程师反馈问题（如 JAX/XLA 定制优化），这种“即问即答”的支持能力是多数创业公司难以复制的。随着生态持续成熟，TPU 正从“小众选择”转向可规模化落地的生产级基础设施。

‘Jax 可以是一个更抽象的一个层，它在比如说 GPU、TPU 上面都可以跑。’

‘TPU 确实是延展性和稳定性都非常好，尤其是要做大规模的模型训练……对开发者来说比较透明。’

TPU 生态与英伟达护城河的再评估

尽管 TPU 在谷歌内部已深度集成，其软件栈以 Jax 为核心，辅以开源库 Palos（部分底层未开源但难以直接修改），但其外部生态仍处于早期阶段。当前 TPU 的应用成本依然偏高，主要服务于对谷歌生态高度熟悉或技术原生的用户；大规模部署仍受限于 CSP（云服务提供商）的谨慎态度、系统级 TCO（总拥有成本）未显著优于 GPU，以及 数据中心适配门槛。尤其当企业考虑从 NVIDIA 生态迁移时，需重新构建训练与推理管线，迁移成本不容忽视。

不过，大客户正将 TPU 视为提升议价能力的 bargaining chip——既推动谷歌扩大 GCP 中 TPU 的使用，又促使谷歌权衡直接对外销售 TPU 系统的可行性。从长期看，随着模型进化速度放缓、企业对 易用性与快速 GTM（Go-to-Market） 的依赖降低，CUDA 的护城河效应可能减弱。谷歌则会持续加大对 Jax 的投入，但其出货能力、前后端封装产能、与不同芯片厂商（如联发科）的协同仍是挑战。因此，TPU 对英伟达构成一定冲击，但短期影响有限。

原话：“老黄在内部是最警惕的对手，就是 Google 的 TPU。”

原话：“现在看来，可能当时那些 paper 就可能现在就不允许发了。”

Google Brain × Deep Mind 合并：组织协同与研究范式转型

2023 年 Google Brain 与 Deep Mind 的合并，标志着谷歌 AI 研究体系从“双中心”走向统一。此前两团队在基础设施、模型路线与文化风格上存在差异：Deep Mind 更偏自上而下、目标驱动（如 AlphaFold、星际争霸项目），强调纪律性与 daily stand-up；Google Brain 则更发散、自由度高，既贴近产品（Search、YouTube），也支持高风险、低短期回报的探索性研究。

合并虽经历初期磨合与组织政治挑战，但一旦技术路线明确，大厂的执行力优势便显现——团队能围绕统一目标协同分工。值得注意的是，在高度竞争环境下，论文发表政策趋于收紧：过去可公开分享的研究成果，如今可能延迟发布，甚至内部沉淀为“无名工程”。这种转变引发对研究员成就感的重新思考：一方面，成果若能落地于 Gemini 等产品，其影响力远超单一学术圈；另一方面，纯粹的研究者仍能从内部共享与自我突破中获得满足。

原话：“训练语言模型可能不是一个那么纯粹的 research，因为它需要 outcome，需要短时间的 delivery。”

原话：“自由度是能够激发 research 的，我觉得 research 是需要一个冗余，需要一点浪费。”

创业者的破局点：垂直落地 × 水平工具层的结构性机会

尽管大厂势头强劲（如 Google 在 Gemini、Vertex 等方向持续加码），创业者仍有明确突破口：垂直领域（如生物医药）与水平平台层（尤其是强化学习驱动的 Agent 工具链）。

在垂直赛道，创业者凭借 domain + AI 的复合能力（T 型或 π 型人才），高效整合药企、学界资源，加速新药研发与临床试验设计。这与基础模型（如 Gemini、Claude）持续补强生命科学数据形成正向循环——模型能力提升赋能垂类应用，垂类落地反哺模型进化。

在水平平台层，机会集中在三层： - Orchestrator 层：多家公司优化 Agent 的工具调用逻辑，结合企业私有数据微调模型； - Data Connector 层：如 Composio，构建企业数据与 Agent 间的桥梁，社区运营出色； - 工具层：Precure 等团队聚焦 RL 在工具层的创新应用——让工具具备状态记忆与自我演化能力，将失败轨迹转化为企业核心资产，实现工具的持续再训练与场景定制化。

创业者的核心优势在于：快速迭代、社区驱动、专注细分场景，这正是大厂难以兼顾的。

原话：“RL 能不能应用到工具层，使得工具不再是一个静态的工具，而工具本身是有状态的。”

原话：“创业可能不能 assume 说这个 AI 已经实现了，要不然很多事情就就觉得好像就没有必要做了。”

RL基础设施的三层投资逻辑

强化学习（RL）创业方向可划分为三个层级，每一层对应不同的技术定位与商业价值。

第一层是RL环境基础设施，即为AI智能体提供“训练场”式数字模拟器。这类环境需高度还原真实业务场景（如企业软件操作、复杂流程处理），并具备精准的评分与反馈机制。其本质是构建未来所有AI智能体的练习基地与考试中心。团队已投资的 Preference Model 即属此类——它聚焦于构建高保真、可评估的模拟环境，尤其在网络安全攻防等专业领域，需结合领域知识与RL技术，形成较高技术门槛。

第二层是RL as a Service，即降低RL落地门槛的企业级服务。绝大多数企业缺乏自研RL能力，因此该层公司通过封装复杂技术，提供开箱即用的工具链，使客户能以“训练员工”的方式，基于自有数据定制专属AI专员，用于销售、客服、合规等具体业务场景。其核心价值在于解决RL工程化难、部署门槛高的问题。

第三层是垂直领域RL应用，即“特种兵”式高价值落地。在药物研发、金融交易、科学发现等高门槛、高回报领域，通用大模型往往力有不逮，需将RL与行业深度知识结合，直接产出可替代专家、实现智能突破的产品。例如 Periodic Labs 即属此类，专注用RL驱动关键行业的核心创新。

“这个方向其实就是投未来所有 AI 智能体的练习基地和考试中心。”

“投这个方向，就比如说像 Periodic Labs，就属于这个方向的一个公司，就是投 AI 在关键行业里创造核心价值的革命性应用。”

RL环境的演进与现实挑战

RL环境的构建已从早期的“玩具级”模拟（如Atari游戏）走向高经济价值、高复杂度的真实系统复刻。例如，曾有初创团队在48小时内用coding agent快速复刻了Jira——并非为替代产品，而是为训练AI agent理解并操作这一广泛使用的工程协作工具，从而提升其在软件工程自动化中的实用性。

如今，单纯复刻商业软件已难构成竞争壁垒。领先玩家正转向构建专业壁垒更高的模拟环境，如网络安全攻防、物理世界机器人控制等。这些环境需融合领域专家知识与RL系统设计能力，确保API对研究者友好、对训练高效。

值得注意的是，仿真（simulation）并非新概念，其历史可追溯至零售行为建模（以SKU为token的生成模型），但当前“世界模型”一词更强调其生成能力的丰富性与泛化性。Waymo的“Sim City”团队即为典型案例：通过大规模仿真生成稀疏事件（如极端碰撞场景），用于增强自动驾驶模型的鲁棒性。

“做一个像 Gemini 这种软件的复制品，这种简单的 go to market 可能已经不够，就是产生一个竞争的这个优势了。”

模型选择：生态优先于性能

在评估Agent开发所需模型时，云生态绑定已成为首要约束条件。企业数据通常被锁定在特定云平台（如Google Cloud、Azure），而主流模型（如OpenAI、Gemini）的可用性高度依赖所在云的开放策略——例如Azure上无法直接调用Gemini，GCP亦难接入OpenAI模型。这种“屁股决定脑袋”的现实，使模型迁移成本远高于性能权衡。

因此，企业是否采用某模型，首先取决于其所在云的原生支持与商业激励（如云厂商提供的credits或折扣）。微软凭借Azure的强粘性与OpenAI的深度整合，形成显著先发优势；Anthropic则因模型部署于三大主流云，展现出一定中立性。

抛开生态因素后，模型性能与Agent适配性才成为关键考量。目前，Claude系列模型仍广受开发者青睐，尤其因其在编程任务中的高可靠性——这不仅源于其代码生成能力，更在于其对“programmatic tool calling”（以生成代码作为agent action）的天然支持，大幅提升了agent执行的稳定性。尽管Google与OpenAI近年持续强化coding能力，但Claude在agent场景中的工程友好性与鲁棒性仍具持续竞争力。

“所以现在对企业客户来说，就是模型性能的好坏并不足以让你去换一个云，是吗？就他们对云的粘性肯定是要强得多的。”

Agent 生态中的代码生成能力：从 MCP 到 Programmatic Tooling

将生成代码作为 agent 执行 action 的一种方式，本质上赋予了 transformer 模型在 agentic 场景下的原生可靠性。当前，transformer 模型在 agent 应用中的使用仍以 coding 为核心路径，而这一趋势并未因 Google 与 OpenAI 在 coding 能力上的持续强化而动摇。Anthropic 自今年十月起已在 Agent 生态上显著发力：其技术博客明确面向 Agent Developer 受众，并发布了如用代码调用 MCP Tool 的实践案例——这标志着 agent 不再仅依赖 MCP 工具本身，而是通过自主编写代码来触发 action，从而深刻影响开发范式。

这种能力可拆解为两个维度：模型本身的代码生成能力（研究问题）与模型在 agent 生态中的工程集成能力（工程问题）。后者尤其关键，因为 agent 的实际表现高度依赖其能否灵活调用编程能力完成复杂任务。Anthropic 已展现出领先实践：从 MCP 的开源捐赠（移交至 Open Source Foundation），到持续演进的 Programmatic Tooling，再到 Cloud Code 的多场景拓展（如 N8N 工作流、网页生成、PPT 编写），其 coding 能力早已超越传统程序员工具范畴，真正成为 agent 的通用执行接口。

‘这个 Coding 能力就是远不只是在 Coding 上面，是在 Agent 这方面就是用的非非常多。’ ‘它已经带领了一波潮流，以及导致其他的模型也需要去在类似的 MCP 这种类型的数据上去训练，然后能够支持 MCP。’

延迟敏感场景下的模型选择：质量 vs. 响应速度的权衡

在 agent 实际部署中，响应延迟已成为与推理质量同等重要的考量因素。尽管长思考能力（如多步数学推理）能体现模型智力水平，但在多数 A 阶段场景中，开发者更倾向在可接受延迟内完成任务。实践中，许多工程师会主动关闭模型的“思考模式”，转而通过 prompt 工程引导其生成适度推理内容，以在质量与延迟之间取得平衡。

这一权衡直接推动了轻量级模型的崛起：Gemini Flash、OpenAI Mini 系列、以及 Sonnet 的小型变体，因其在低延迟下的稳定表现，成为 agent 开发中的高频选择。团队普遍采取多模型并行测试策略，在各大云平台部署三家主流模型，实际使用中除特定客户或合规限制外，并无明显模型粘性。

‘在很多 A 阶场景中，可能要的不一定是这种类型的模型……大家可能既要又要，就既要这个模型有这样 quality，但同时也要有在响应时间内就能够把这个事情做完。’

开源模型的崛起与现实挑战：中美生态差异与开发者视角

国内开源模型（如通义千问系列）在开发者群体中广受认可，核心优势在于多尺寸模型选择（便于 startup 进行 ablation 实验）、强 reasoning 能力（在 A 阶段任务中展现天然优势），以及成本友好性。然而，其仍存在提升空间：部分模型在完成任务时存在过度推理问题（即“自说自话”消耗过多 token），反映出当前对“thinking budget”的动态调控机制尚不成熟。

相较之下，Google 的 Gemini 开源系列（GEMMA）则被指“诚意不足”：作为多模态模型，在同等规模下难以平衡多模态能力与单模态性能，偶发低级错误（如输出乱码），影响开发者信任。其开源动机更多是应对“Closed AI”批评、赢得开发者口碑，而非深度技术共享。

值得强调的是，国内开源生态（如 DeepSeek）展现出更高诚意：其论文干货密集（如 off-policy 强化学习稳定性优化），甚至在纽约航班上被三分之一乘客研读。这种坦诚的技术交流文化，正成为行业标杆。

‘国内模型真的做的特别棒的地方……特别是有一些企业，它可能就不让你用这个来自于中国的模型之类的。’ ‘如果你们现在去看一个新的模型的话，你们会去比较关注哪些它公开的 benchmark 上的表现？……我们还挺看重 long trajectory 能力。’

长轨迹推理 benchmark：从 Needle-in-Haystack 到 Multi-Step Agent Tasks

当前 benchmark 评估正从单一短推理转向长轨迹（long trajectory）任务，因其更贴近真实 agent 场景。例如： - SweetBench Pro（代码生成）与 Mind to Web（网页导航）强调多步任务规划（可达十余步），考验模型在长上下文中理解历史交互、预判后续动作的能力； - TopBench / TopSquareBench（由 Sierra 发布）则引入 user simulator，构建动态多轮对话环境，评估 agent 在信息不完整时的环境把控力。

传统 benchmark（如 Needle-in-the-Haystack）因任务过于简单、缺乏上下文耦合性，已难以反映 agent 的真实能力。而长轨迹任务要求模型不仅“找到针”，更要理解整捆稻草的逻辑链条，并据此生成合理行动序列——这标志着评估标准进入新阶段。

‘在 agents 的 long transaction 里面，它是真的你要看之前的 transaction 里面发生了什么，然后去 plan 下一步，然后去 take action。’

超越标准Benchmark：个性化测试与真实能力评估

当前前沿模型评估正从标准化 benchmark 向更具创造性的个性化测试演进。标准 benchmark（如 C-benchmark）虽具参考价值，但长期使用易导致信息泄露与刷分现象，“benchmark 刷得多高，全凭良心”。因此，许多从业者更倾向设计非主流但高信息量的压箱底考题，例如让模型生成代码绘制“独角兽”（unicorn），观察其从早期 GPT-3 的两个方框+一个怪异正方形，进步到 GPT-5.2 可上色、带真实角的演变过程——这类任务未被显式训练，却能真实反映模型的泛化与推理能力。

类似地，DeepMind 曾设计一个“电路板复刻”测试：输入一个长字典（编码电路结构），要求模型复现该电路。该任务无实用价值，却能揭示模型是否具备类通用图灵机的抽象建模能力。这类测试的价值在于，它们模拟了人类认知中“非显式训练却可迁移”的能力，是评估模型质量的隐性指标。

“这个能力本身也能 tell something，要把我这个模型自己在这些方面的 quality……如果考到这个人，这个人又正好能回答出来，哎，你就会觉得这个人特别聪明。”

“benchmark 刷得多高，全凭良心……目前我觉得所有 frontier lab 应该都还是非常有操守的。”

多模态能力：Agent 竞争力的核心分水岭

多模态能力正成为大模型在 Agent 场景中拉开差距的关键维度。一个典型案例是“墨西哥卷饼测试”（Generative Burrito Test）：给定“吃了一半的墨西哥卷饼”描述（含豆子、奶酪、鸡肉等多馅料），模型需生成合理图像。尽管训练数据看似丰富，但早期模型（包括 Gemini Pro）长期生成错误（如馅料错位、缺失），直到近期才逐步改善。该测试揭示了多模态对齐与细粒度理解的深层挑战。

现实场景中，多模态能力更体现为对非结构化数据的理解：如 PDF 扫描件、Office 文档、混合图文内容等。许多 startup（如 Office QA）尝试通过外部 parser（如 Databricks）预处理数据以提升模型表现，侧面反映当前模型在原始多模态输入解析上的不足。而多模态能力的突破，不仅关乎生成（如在空白考卷上手写解题步骤），更在于理解-推理-生成的闭环整合。

“为什么 Google 在这个混合模态上会做的特别好？其实 Gemini 3 就是一个混合模态的模型……人类就是一个多模态的生物，所以为了达到 AGI level，这是一个必经之路。”

“如果模型自己就能做这种比较复杂的多步的任务，那现在很多 agent 的厂商声称的优化空间……会不会空间就变少了？”

Agent 原生训练范式：从外挂框架到模型内生能力

Agent 能力的演进正推动模型训练范式从后训练（post-train）适配转向原生内嵌。当前多数团队依赖开源模型进行 post-train 以定制行为，但若开源模型本身在训练中已集成大量 agent trace（如规划、工具调用、多步推理轨迹），将极大降低工程成本并提升性能上限。

与此同时，long-horizon 任务能力成为新焦点：从早期 RLHF 的单步 reward，发展到 agentic RL 的多步 rollout，再到 Gemini 的 parallel thinking、OpenAI 的 Plan-Execute 框架等，模型正被训练为能自主完成复杂长链任务的主体。这不仅要求模型具备更强的状态记忆与上下文一致性（如避免中英混答），还需解决多模态间语义对齐、资源消耗控制等挑战。

“模型和下游 agent 生态是一个相辅相成、互相成就的关系……这也是为什么很多 agent framework 还是比较 strategic 的一个原因。”

Agent Framework 与大模型的正向循环

当前大模型能力的快速提升，确实引发了对 Agent 生态中下游厂商生存空间的担忧：当模型本身已能高效完成复杂多步任务时，围绕模型做 context 或 environment engineering 的优化空间是否会收窄？但更关键的视角在于，模型与下游 Agent 生态之间存在相辅相成、互相成就的关系。以 Google 发布的 Agent Development Kit（ADK）为例，其内置的原生 memory 模块等战略级设计，使得开发者在高频使用过程中，会自然生成大量符合该框架的真实使用数据。这些数据回流至大模型训练流程后，能显著提升模型对实际使用场景的覆盖与适应性——因为训练数据越贴近真实行为模式，推理时的表现就越稳定可靠。这种机制形成了一个清晰的正向强化循环（positive reinforcement loop）：Agent framework 推动生态发展，生态又反哺模型进化。

如果一个东西在实际生活中它就是这么被用的话，那么我在训练的时候也相应的补上它以后在 inference 时候会遇到的场景。

这个情况下，就是说 agent framework 能够带动下游的生态，下游的生态又反过来给那个上游的模型提供更多的训练数据。

Agent 市场：增量扩张还是存量替代？

尽管模型能力的跃升可能挤压部分传统 Agent 开发者的优化空间，但更值得深思的问题是：当前 Agent 市场是否处于一个持续扩大的增量阶段？换言之，模型能力提升带来的服务边界扩展（例如覆盖更多企业场景、更复杂的业务流程），是否远大于其对原有 Agent 功能的替代效应？从企业端的实际反馈与已落地的价值来看，答案倾向于“增量扩张”：企业正从 Agent 中获得可量化的效率提升与新能力，而非仅是成本替代。因此，尽管底层模型能力趋近饱和，但 Agent 生态仍处于快速成长期，市场增长速度大概率会快于模型能力迭代带来的替代效应。

从企业方面的反应和大家从 Agent 身上真的能得到的实实在在的价值来看，我对这方面还是相对比较有信心的。就是这个市场的增长可能还是会相对来说更快一些。

Agent 工具链的创业机会与全球视野

Agent 基础设施（Infra）正经历系统性演进：仅在 2025 年 10 月，OpenAI、Google、Anthropic 就密集发布面向开发者的新工具链；LangChain、Eleven Labs 等通用能力提供商也获得大额融资；OpenAI 更以 11 亿美元收购评估公司 StatSig，凸显评估与可靠性已成为核心竞争高地。结合第 137 期节目梳理的 Agent 工具链六次进化路径，当前焦点集中在：高质量工具调用、Agent 间通信、记忆方案、评估体系、语音交互等方向。而像 Precure 这类公司，通过强化学习等方法提升 Agent 的工具调用稳定性与结果准确性，正是在夯实这一基础设施层。尽管国内 Agent Infra 创业面临大厂自建体系的挑战，但对瞄准全球化市场的中国创业者或一线研究者而言，围绕 Agent Infra 的深度实践与创新讨论，仍蕴含重要启发价值。

Precure 还有更多公司的实践，都是繁荣的 agent，或者说大模型生态里基础层的一些创新创业的机会。