139. 【Agent的综述】和苏煜聊Agent技术史、OpenClaw Moment、边界的消弭和社会的辐射

Agent：从AI的隐线到显学

AI 中的 Agent（智能体） 概念并非近年新生事物，而是贯穿整个 AI 发展史的核心线索。早在 1940–1960 年代 AI 萌芽期，研究者便试图构建能模仿人类行为的“人造智能体”——即具备边界明确的实体性、在特定环境中工作、并开展目标导向活动（goal-directed activities） 的系统。正如苏煜所言，这一定义甚至可延伸至所有动物，而人类则是其中智能程度最高的 Agent。早期 Agent 研究以 logical agent（逻辑智能体） 为主流，典型代表是 1950–1990 年代的专家系统：通过一阶谓词逻辑建模专家知识，再由推理引擎完成问题求解。然而，这类系统受限于知识表达能力极低（仅能表达有限逻辑命题）与自主性薄弱（仅能被动响应输入、执行固定推理流程），最终因难以规模化获取高质量知识（即“知识获取瓶颈”）而引发第一次 AI Winter。值得注意的是，Russell 与 Norvig 的经典教材《Artificial Intelligence: A Modern Approach》虽被广泛视为 AI 通识读物，实则以 Intelligent Agent 为全书逻辑起点——其第一章即明确定义何为智能体，印证了 Agent 实为 AI 领域的“元问题”。

它也是这个AI这整个领域的一个非常重要的一本书，叫做《Artificial Intelligence: A Modern Approach》。

Stuart Russell他其实就跟我提过，就是虽然大家觉得这个好像是一本AI的书，但实际上它本质上是一本关于Agent的书。

Agent能力的双支柱：记忆与自主性

一个真正有效的 Agent，需具备两大广义能力：memory（记忆） 与 autonomy（自主性）。其中，记忆不仅涵盖语义知识（semantic knowledge）、事件记忆（episodic memory），还包括程序性知识（procedural memory），本质上是系统对世界建模与经验沉淀的总和；而自主性则体现为从感知（perception）→ 推理（reasoning）→ 决策（decision making）→ 行动（action） 的完整闭环。早期逻辑 Agent 在这两方面均存在根本缺陷：其记忆被严格限定于有限逻辑语句，表达力远不足以刻画现实世界的复杂性；其自主性则退化为“输入问题→逻辑推理→输出答案”的单一模式，缺乏环境交互与动态适应能力。这一局限直至神经网络与深度学习兴起才逐步突破——例如基于深度强化学习（deep RL）的 neural agent（如 AlphaGo），虽在特定任务（如游戏）中展现出强大性能，但其主体通常仅含数千万至一亿参数的神经网络，任务泛化与环境适应能力仍显不足。这些演进揭示出：Agent 的进化史，实为记忆表达能力与自主决策能力协同跃迁的历史。

我之所以会提到就是这些 boundary 都在消弭，其实也是跟 coding 有关系的。

这些东西都是在快速的 converge，最后 at the end of the day，大家想要的就是一个 universal digital agent。

从 ChatGPT Moment 到 OpenClaw Moment

当前 Agent 技术的爆发，可置于两个关键范式转折点的脉络中理解：ChatGPT Moment 标志着大语言模型（LLM）作为通用语言理解与生成范式的成熟；而 OpenClaw Moment 则预示着以高度自动化、个性化为特征的 Language Agent 范式正式登场——它不再仅是 LLM 的简单调用，而是将 LLM 作为“大脑”，嵌入感知、规划、工具调用、环境交互等完整闭环中。苏煜团队长期深耕 Language Agent，其早期工作如 Mind-to-Web、CACT、LM Planner 等，聚焦于让 Agent 通过自然语言指令操控计算机系统；同时在多模态基准 MMMU 上的探索，也推动了跨模态理解能力的提升。2025 年斯隆研究奖的获得，更印证了该方向的前沿性与影响力。随着 LLM 能力逼近人类水平，Agent 的边界正在消弭：它不再局限于单一任务或封闭环境，而是向通用数字智能体（universal digital agent）演进。这一趋势不仅重塑技术架构，更将深刻影响社会生产与协作方式。

Hello，苏老师，因为最近 Open Cloud 非常热啊，我很想借着这个机会来聊聊一个叫 Agent 的综述，因为你在这个领域已经非常长时间了。

Neural Agent 的局限与突破

在深度强化学习（Deep RL）驱动的 Neural Agent 中，尽管相较于早期逻辑型智能体已有显著进步，其memory（记忆）与autonomy（自主性）仍存在根本性限制。这类 agent 的主体通常是一个仅含几千万至一亿参数的小型神经网络——在当时已属庞大，但以今日标准来看则极为有限。其任务高度单一：输入为游戏画面，输出为对应动作序列；记忆内容仅限于特定游戏的规则与感知-动作映射；推理过程完全隐式，且计算量被压缩为单次前馈前向传播（forward pass）。这种设计无法支持显式推理，也无法根据任务复杂度动态调整计算资源，与人类灵活、可伸缩的推理机制形成鲜明对比。

然而，Neural Agent 的通用性确有提升，主要体现在两个维度：一是同一模型可适配多种任务，如 Atari 系列中数百甚至上千款游戏；二是方法论的统一性，Atari、AlphaGo 等任务在架构上高度相似，体现出一种“可迁移”的范式雏形。但若以人类级泛化能力（sample-efficient 地适应任意新环境）为标准，Deep RL 仍显乏力——其sample inefficiency（样本效率低下）是核心瓶颈：训练一个简单游戏可能需数百万次交互。正因如此，游戏作为训练环境被广泛采用：其高度可重复、数据易得、输入输出边界清晰，恰好缓解了 Deep RL 对海量数据的需求。

原话："它其实里面就没有太多的复杂的这些 perception 啊，也基本没有 reasoning，或者说它的 reasoning 推理是非常隐式的，它就是在你这个神经网络的一次这个 forward pass 的这个过程中。"

原话："你可能就一个简单的游戏，就要可能几百万的这玩几百万盘才能学会。"

语义解析：拓宽 Agent 的语义边界

与 Neural Agent 追求“深度”（即在受限环境中通过大量数据优化行为）不同，另一条技术路径——语义解析（Semantic Parsing）——致力于拓展 Agent 的“广度”，尤其在语言理解与交互方面。其核心目标是将自然语言映射为形式化语义表示（Formal Meaning Representation），如知识图谱、数据库查询或网页操作指令，从而让机器能“读懂”并执行人类意图。该方向虽可追溯至2000年前，但真正蓬勃发展于2000年后，尤其在 NLP 社区中成为主流。

语义解析与 Neural Agent 实为互补：前者侧重语言感知与动作生成的泛化能力，后者侧重行为策略的优化深度。值得注意的是，许多后来推动 LLM 与 Agent 发展的关键人物（如 Perceley、Luke Zettlemoyer）均出身于语义解析领域；而当前活跃于大模型与智能体一线的研究者（如港大的于涛、OSU 的盛欢）也多有相关背景。这暗示了语言建模与智能体设计之间深刻的内在关联。

原话："neural agent 它关注的是怎么做深，就是怎么去能通过大量的 data 去学会说这个在这个受限的环境里面怎么把这个事情给做好。而 semantic parsing 关注的是怎么去做的更广，而且是能去解决像这种 communication，包括这种语言的 perception、understanding 这些问题……"

原话："它其实就跟 neural agent 其实上就有很互补的关系嘛……它也一定程度上是去扩大了这个呃 agent 它的这个 action space。"

语言智能体：以语言为脚手架的范式跃迁

自 2022 年 ChatGPT 问世后，Agent 的发展进入全新阶段——Language Agent（语言驱动智能体）。其本质在于以大语言模型（LLM）为核心，将语言作为scaffold（脚手架），贯穿感知、推理与行动全过程：

感知：语言成为理解世界的主要媒介，大幅增强人机交互灵活性；
推理：通过 chain-of-thought 等机制实现自适应计算（adaptive computing）——任务越复杂，生成的 token 越多，推理步长随之扩展；
行动：语言（含形式化语言）成为控制环境的通用接口，使 agent 可在低结构化世界中执行多样化操作。

从 memory 角度看，LLM 的训练过程本身即是对世界的压缩性建模：海量语言数据被压缩为一个紧凑的、可驱动行为的世界表征（world representation）。早期“随机鹦鹉”的批评已让位于更深刻的认知——语言模型实为一种以语言为媒介的世界模型构建机制。

这一范式与人类演化史高度呼应：语言的出现极大加速了生物进化；如今，语言作为 AI 智能体的“加速器”，正推动技术进入指数级跃迁期。

原话："它可以用 language 作为一个 scaffold，作为一个脚手架来去做它的所有事情，包括它的 perception……"

原话："language 在这里面是起到极其重要的作用的……语言是起到一个爆炸式的加速剂的这样的一个作用，而现在在 Agent 的演化，在 AI 的演化过程中，好像又是一个一个类似的一个效果。"

语言作为文明与AI演化的加速器

人类文明在约六千年间经历了爆炸式发展，而语言在其中扮演了至关重要的角色——它不仅是信息传递的媒介，更是认知跃迁与知识积累的加速器。正如苏煜所指出的，语言在人类演化中起到了“爆炸式的加速剂”的作用；而当下，Language Agents的出现，似乎正复现这一历史节点，成为AI演化的关键转折点。

在2023年，他撰写首篇博客《Language Agents: A Critical Evolutionary Step for Artificial Intelligence》，明确提出：从进化视角看，Language Agents标志着AI进入一个全新的阶段。这一观点并非空穴来风——语言作为AI训练媒介其实早已存在，NLP领域长期致力于语义解析等任务；但受限于基础模型能力，此前工作多局限于特定环境（如单一数据库、知识图谱或网站）。直到大语言模型（LLM）出现，才提供了强大的先验与内置的“基于语言的世界模型”，使Agent能泛化至任意环境并产生合理行为。这一转变，是质的飞跃。

“语言是起到一个爆炸式的加速剂的作用，而现在在Agent的演化，在AI的演化过程中，好像又是一个类似的一个效果。”

“LLM出现之后，它相当于是提供了一个非常强的 prior，它内置的这样的一个基于语言的世界模型。”

三年演进：从Chain of Thought到多模态Agent

回顾过去三年Language Agent的发展脉络，可清晰划分为几个关键阶段。2022年初，Chain of Thought（CoT）的提出首次赋予模型自适应推理能力；同年末，ReAct将CoT拓展至外部环境交互场景，构建了“感知—推理—行动”的闭环，成为现代Agent架构的雏形。

2022年底，多个代表性工作密集涌现：Google的CICAN被视为LLM用于机器人规划的首个标志性成果；苏煜团队同期推出LLM Planner，是最早将LLM应用于具身规划的工作之一；紧随其后，Mind2Web成为首个基于LLM的Web/计算机使用Agent（发布于2023年初，开发始于2022年10月）。同期，Meta的TwoFormer（2023年2月）首次实现LLM驱动的双任务（two-use）系统，其影响力巨大——微软CTO Satya Nadella曾将其在全公司内部传阅，因其预示了LLM对企业级工具链整合的深远意义。

2023年3月，AutoGPT以极快速度获得GitHub十万Star，成为现象级开源项目，其火爆程度堪比近年的OpenClaw；同期还有OpenGPT、AI Engineer（后成立Lovable公司）等项目，虽技术粗糙，却极大推动了社区对Agent形态的探索热情。

2023年下半年是重要分水岭：随着GPT-4o发布，多模态能力真正落地。苏煜团队在text-only版Mind2Web之后，迅速转向视觉驱动Agent，同步推出MMMU（首个多模态LLM基准）与CACT（首个基于GPT-4o的视觉Web Agent）。当时GPT-4尚无公开API，团队甚至自行“hack”网页界面构建API支持实验。

同期，CMU团队的WebArena（2023年7月）提供可复现的仿真Web环境，弥补真实网站测试的法律与稳定性缺陷，成为评估Agent的重要基础设施。

“React的本质上是这样子的……想法很简单，但在正确的技术点上，有正确的insight去想到并做出，其实不容易。”

“GPT-4o开始出现了，这是第一个真的能打的一个多模态的模型。也是这个Agent的全面，像这种多模态转向的这个时间点。”

从Web到Desktop：Embodiment的范式迁移

2024年，Agent生态进一步拓展至桌面与移动环境。于涛团队的OS World成为首个面向桌面操作系统的通用Agent基准，标志着Agent从网页走向更贴近人类日常使用的计算界面。

与此同时，Coding Agent（如SweetBench）在2023年下半年兴起，推动自动化编程领域快速发展。而苏煜团队在2024年推出的U Ground，则提出关键理念：Agent应像人类一样使用计算机——即以像素级视觉感知（visual perception）为输入，执行像素级动作（如点击、输入），而非依赖HTML等文本抽象层。

这一具身化（embodiment）范式迅速成为主流：后续如Cloud Compute Use、OpenAI Operator、Cloud Code、Cloud in Browser等系统均采用U Ground所确立的“视觉+像素动作”交互模式，实现了真正意义上的“人机同构”操作逻辑。

2025年，随着基座模型coding能力的爆发式提升，Claude Code等工具进入高速迭代期；OpenAI发布Operator与ChatGPT Agents，Anthropic跟进Call the Code，Cursor则持续引领开发者生态演进——Agent正从实验性项目走向生产力基础设施。

“人的 embodiment 是什么样的 agent 就应该是什么样的……每一步我们就是去做一个 visual perception，然后再去做一些 reasoning，在这个屏幕上去 take some action，而且是这种 pixel level 的。”

OpenClaw Moment：Agent范式的转折点

OpenClaw 的出现标志着 Agent 技术进入高度自动化、个人化的新阶段，其核心特征在于：它拥有独立运行的环境，可 24 小时持续运行（always on）；同时，作为一个开源项目，它默认开放权限（Ulo it），不设严格的 permission 和 safety 限制，允许 agent 自主尝试各类任务。这种“先发布、再迭代”的策略，使得社区能快速反馈并发现其能力边界——正如 ChatGPT Moment 催化了 LLM 范式的普及，OpenClaw Moment 正在推动 Agent 范式的集体觉醒。

原话："ChatGPT moment，它是标志着这个 LLM 这个范式的变化，而 OpenClaw 这个 moment，它是标志着 agents 这种，尤其是各种高度自动化的，或者是这种 personal 这个 agent 的这个范式的变化。"

原话："我相信，就再过两年来看，它的这个影响力可能也会是一个类似的规模。"

这一波浪潮已深刻影响科技巨头的战略转向：Ansarpi 推出 Cloud Code，OpenAI 全面聚焦 Agent 与生产力编码，NVIDIA 提出“每个企业都需要一个 class strategy”，国内大厂亦迅速跟进。值得注意的是，OpenClaw 的催化作用远超“抄袭”范畴——它加速了技术路线的收敛，但并非唯一驱动力；即便没有它，相关功能也会自然演进，只是节奏被显著提前。

中美技术辐射差异：从开发者圈层到全民叙事

中美对 OpenClaw 的反应呈现出鲜明对比：在美国，热潮主要局限于开发者和技术亲近群体，叙事聚焦于开源协作与技术深化；而在中国，其传播已显著“出圈”——地方政府、媒体、大众舆论广泛参与，形成一种时代性产业机遇甚至“个人翻身工具”的集体认知，甚至伴随“不学就要被淘汰”的焦虑感。

原话："我感觉在中国 Open Claw 的火热程度要比美国更高……中国就更加出圈，我觉得可能更加全民化一点……街头巷尾，包括什么各地政府，都开始聊 Open Claw。"

原话："家里面这个儿女就工作比较忙，没有时间，然后家里的老人就拿着电脑去……找人去帮忙装 Open Claw。"

这种差异根植于两国技术应用生态的传统：中国在前沿技术的应用层往往反应更快，正如 Google 前 CEO Eric Schmidt 所指出的——美国在应用层普遍滞后。AI 时代，基础模型的智能已越过“够用”临界点，大量因摩擦成本过高而长期未被开发的场景，如今因 AI 大幅降本增效而具备商业可行性。中国在应用洞察与落地执行力上的优势，使其更易抓住这一波价值释放窗口。尽管存在试错浪费（如装了又卸载），但社会整体仍处于积极的技术扩散进程中。

从通用智能到专业智能：Agent 的未来在 specialization

当前通用 Agent（如 OpenClaw）虽已具备“数字世界通用入口”的潜力，但其局限性在于：世界由数百万个高度异构的‘小世界’构成——每个职业、公司、软件系统都有其独特语境与熵值，单一通用模型无法捕获全部复杂性。因此，真正的价值创造将来自 specialization（专业化）而非 generalization（通用化）。

原话："这个世界是非常复杂的，这个世界不是一个世界，它是由可能几百万个小世界组成的。每一个小世界要做到真正的产生价值，它需要的是 specialization……"

新创公司 NeoCognition（新皮层）正聚焦于此：不追求打造超级通用 Agent，而是深耕 enterprise 等高专业门槛场景，探索如何让 Agent 更好地适应特定环境、掌握领域知识。这不仅是技术路径选择，更是对经济规律的回应——模型公司天然倾向平台化、统一化，而 specialization 需要深度垂直投入，其经济模型与组织逻辑与之相悖。

与此同时，SaaS 行业正面临转型压力：软件正从“工具”向“结果交付”演进，即从提供功能转向输出 AI employee 式的劳动服务。SaaS 公司与 AI-native 公司的竞合关系尚无定论，但可以明确的是：Agent 的民主化（让普通人也能构建高价值 Agent）是避免技术垄断、缓解就业冲击的关键。作为研究者，我们亟需降低使用门槛，让每个有洞察的人都能将想法转化为可落地的 Agent——这不仅是商业机会，更是社会责任。

融资两极分化与VC生态重构

当前Agent领域融资呈现严重的马太效应：头部公司（如OpenAI、Anthropic）动辄融资数亿甚至十亿美元，其累计融资额可能占据整个市场30%至50%；而大量中腰部公司则面临融资难度显著上升的困境。这一趋势也反映在VC机构的分化上——传统中小型VC正面临生存压力，要么向mega fund转型（如a16z、LightSpeed），聚焦growth阶段投资；要么转向boutique firm模式，依靠垂直领域深度、强关系网络与独特认知构建差异化优势。

“你到底能怎么样去找到这个 differentiation？……同时这个differentiation既能让人觉得是credible，而且是feasible，就是你这个事情是有可能做成的。”

“投资人现在看的是哪些呀？看你过往的工作……如果是这个在 Frontier Lab，然后有比较长时间的核心的贡献，它的这个估值逻辑又很不一样。”

世界模型：从视觉预测到符号化认知构建

当前主流的“world model”研究多聚焦于vision-based方向（如视频预测、3D重建、latent变量建模），但其本质仍局限于感知层面。作者提出更广义的world model定义：它不仅包括物理世界的视觉表征，更涵盖组织架构、权责流程、软件工具使用逻辑、人际协作模型（theory of mind）等符号化、非符号化的微观世界知识体系。人类从实习生成长为专家的过程，正是不断构建这一specialized world model的过程。

“这个 model 它显然不是一个 video model，但 vision 当然是里面很重要的一部分，但显然也有更多的部分，它是天然就是符号化的，symbolic 的，甚至有一些就是非符号化也非 vision 的部分……最后归根结底就是我们持续学习。学到东西是这样的一个 specialized world model。”

“你现在用很多的 agents，虽然它好像乍一用觉得非常的强大……但百分之三四十那个就不知道因为什么原因就失败了。但是人不是这样的，如果我们是真的成为了某一个事情的专家的话，那我们就基本上是百分之百能做对。”

Expert Agent 的学习范式困境与突破路径

当前Agent训练主要依赖两种范式：一是RL post-training（如Synthetic Environments + RL Gym），二是Nonparametric Learning（如Skill/MD文件、Hardness Level建模）。然而二者均难以复现人类的continual learning能力——在学习速度、准确性、知识广度与迁移能力上存在巨大鸿沟。作者认为，真正的突破在于发展一套能支持domain-agnostic的specialization学习机制，使Agent能在给定职业、环境或任务后，自主构建其专属的world model，从而实现高可靠性、高效率、低成本的expert behavior。

当前continual learning一词已被泛化使用：早期指“避免灾难性遗忘”的任务增量学习；如今则涵盖在线学习、持续适应等更广泛场景。但无论定义如何演变，构建可泛化、可积累、可符号化的world model学习机制，仍是实现Agent expertization的核心挑战与最大机会所在。

持续学习的定义演变与核心问题

"Continual learning"（持续学习）一词的含义极为宽泛，其用法随时间不断扩展。最初，它在机器学习领域中特指一种受限设定：模型在学习新任务时，需避免对已习得任务造成灾难性遗忘（catastrophic forgetting）。如今，这一概念已高度泛化——个性化（personalization）、递归自改进（recursive self-improvement）、OpenClaw 架构、以及强化学习中的后训练（post-training），都被纳入持续学习的范畴。然而，苏煜指出，当前文献中最大的gap在于：我们尚未清晰定义持续学习的终极目标。他主张，持续学习的终极目标应是构建一个广义的 world model（世界模型），即模型需不断整合新知识，以形成对现实世界、抽象系统乃至社会结构的统一表征。这一视角将“持续学习”与“世界模型”两个热门议题本质性地统一起来。

“我认为这个学习的目标应该是一个 world model。就你的持续学习的目的是为了去更好的学会一个广义的 word model，所以这是可能就是把这两个很火热的词联系到一起的方式，叫 word model 和 continual learning。”

“它本质上是一件事情。”

新皮层：持续学习的生物原型

从神经生物学角度看，人类持续学习能力的物理基础在于新皮层（neocortex）——它占大脑体积约70%，进化上仅在约两亿年前哺乳动物出现时才初具雏形，且在灵长类尤其是人类中急剧扩张。新皮层的进化时间短、功能却极其广泛（涵盖视觉、语言、听觉、推理、规划等），这暗示其并非依赖高度特异化的结构，而是采用一种通用学习机制（general learning machinery）：皮质柱（cortical column）。

人脑约含15万个皮质柱，尽管功能分区（如视觉区、听觉区）各异，但其解剖结构高度一致——均具备分层细胞排列与柱状连接模式。这一结构特征支持了“每个皮质柱都在构建局部 world model”的理论。Jeff Hawkins 在《千脑智能》中系统提出：每个皮质柱内可运行数百个小型 world model，覆盖物理世界、语言系统乃至抽象社会概念（如民主、法治）；这些模型并行协作，最终主导感知、推理与决策。即便不全盘接受该理论，人类持续学习所形成的认知地图（cognitive maps）与概念框架（conceptual frameworks）已被广泛证实——而当前 AI 的持续学习研究仍远未触及这一层次。

“它这个时间进化时间这么短，就意味着它其实就是 neocortex 它到底是在做什么？它到底起一个什么作用？这个事情实际上是这个对于研究人脑来说可能最重要的课题。”

语言：符号化世界的加速器

语言在人类智能演化中扮演着远超“交流工具”的角色。Chris Manning 与 Terence Deacon 的研究共同揭示：人类文明的跃迁并非源于感知或运动能力的增强，而源于符号系统（尤其是语言）的出现。Deacon 在《The Symbolic Species》中提出，符号与大脑是 coevolution（协同演化）关系：早期符号表征的出现，反向驱动大脑结构向支持符号处理的方向演化，从而开启一条文化驱动的快速进化通道。语言使信息突破时空限制——个体可将经验跨空间传递、跨代际传承，形成累积性文化进化。

值得注意的是，MIT 神经科学家（如 Evelina Fedorenko）的 fMRI 研究表明：复杂推理任务中，语言相关脑区（布洛卡区、维尼克区）未必激活，暗示语言与思维可分离。但这并不削弱语言的核心地位——语言是认知内化的“脚手架”：人类学习本质是将外部语言符号逐步内化为神经层面的直接连接，最终脱离语言依赖。因此，世界模型的构建既需语言作为初始表征工具，又需超越语言达成更深层的非语言表征。

“而这是这个导致我们这些文明和这些 intelligence 正不同的根本原因。”

“它远远不是说只是我作为一种 communication 的工具那么简单。”

语言与思维：个体内化与文明基石

语言与思维是否可分，是理解Agent本质的重要前提。从个体学习过程看，语言确可与最终形成的思维表示分离——人类学习本质上是将依赖语言作为脚手架的知识，内化为神经层面的直接连接，从而在执行时无需语言中介。这一过程与睡眠中海马体驱动的短时记忆向长时记忆转化高度相关。因此，个体的深层Thought可以脱离语言存在。

但不可否认的是，语言在学习的构建阶段起到了不可替代的脚手架作用。没有语言，个体难以系统性地组织、传递与修正认知结构。若跳出个体视角，上升至文明层面，语言的重要性则更为根本：现代文明的每一项成就——无论尖端科技还是传统工业——都建立在符号化表达之上，包括自然语言、数学符号、编程语言、图表等。正如作者在推特所言：

individual thought doesn't need the language, but civilization needs language.

这一观点延伸至演化视角，进一步印证：语言与符号化能力是智能系统参与并塑造复杂社会的必要条件。因此，即便未来底层模型不再是大语言模型（LLM），只要Agent仍需理解世界、推理与交互，以语言为媒介的认知架构仍将是核心范式。所谓“language agent”，实为通向通用智能体的必经阶段；当语言成为Agent的默认能力，“language”一词终将变得冗余，仅称“Agent”即可。

交互界面之争：GUI、CLI与社会现实的约束

关于Agent应采用GUI（图形界面）还是CLI（命令行界面）的讨论，本质是工具选择问题，而非技术优劣的绝对判断。首先，GUI不会消失——人类作为视觉动物，其大脑对二维/多维视觉信息的处理速度与效率远超一维文本。大量人机交互（HCI）研究证实，视觉呈现可使理解延迟缩短零点几秒，这对信任建立、验证审计、错误排查等场景至关重要。

其次，Agent是否必须使用GUI？未必。但能否有效使用GUI，却可能是短期乃至长期的关键能力。原因在于：当前数字世界事实上的标准接口是GUI，99%的现有软件都通过GUI暴露功能；更重要的是，GUI中已编码了大量业务逻辑、约束与领域知识。一个能操作GUI的Agent，可“搭便车”（piggyback）于人类数十年积累的软件生态，避免重复造轮子，尤其在长尾场景中优势显著——多数中小企业并无能力为每套系统重写CLI/API。

从更深层看，技术采纳不仅取决于技术最优性，更取决于社会动力学与经济激励。以Tim Berners-Lee提出的Semantic Web为例：尽管其逻辑表达与推理机制高度严谨，但因缺乏广泛采纳的动机与路径，二十年来落地甚微。反观GUI的成功，正因其契合人类认知本能，形成正向反馈。因此，CLI全面取代GUI的设想，忽视了现实世界的路径依赖与局部最优惯性。即便CLI在某些理想模型中更优，现实世界中“够用就好”的既有方案仍具强大生命力。

Agent的瓶颈与未来：统一于持续学习与世界建模

当前Agent发展的关键瓶颈，实为同一问题的多面体现：持续学习（continual learning）、自我学习（self-learning）、长期记忆（memory）、世界模型（world model）构建、专业化能力（specialized intelligence）——这些并非孤立模块，而是同一核心挑战的不同投射。世界模型是学习的内容，持续学习是过程，专业化是目标，而可靠性、速度、成本效益等则是其自然衍生的系统级优势。

展望2026年，持续学习将成为主旋律。技术路径上，基于word model（而非仅LLM）的持续学习或成主流之一，但生态中必然涌现多种技术路线的探索与竞争。与此同时，Agent技术的社会辐射速度，将取决于能否系统性解决上述瓶颈。当前大厂普遍采用“前哨部署工程师”（forward-deployed engineers）的Pilot模式，正是因Agent尚无法自主适配复杂、异构的企业环境——这正是可靠性、成本与易用性不足的直接体现。

至于中美大厂策略：曾有差异，如今高度趋同。Anthropic凭借Claude系列确立范式后，OpenAI、Google等均转向“全栈覆盖”策略，凡与生产力相关的方向皆不放过。未来真正的分化，或将出现在世界模型的构建哲学与持续学习的工程实现路径上——这将是决定Agent能否真正嵌入人类知识生产循环的关键。

Agent生态的趋同与多元 bets

当前 Agent 领域正经历显著的趋同趋势：Anthropic 凭借其领先实践成为行业标杆，大量团队在技术路径与产品设计上“抄作业”，这与去年尚在多路径探索的状态形成鲜明对比。OpenAI 与 Anthropic 已全面转向生产力相关产品线，而 Google 虽拥有强大的模型能力与成熟生态，却在市场声量与实际 adoption 上略显乏力，核心问题可能在于缺乏杀手级应用。与此同时，XAI 的马斯克将“computer user agent”作为其重要押注之一——这一概念已从早期的“GUI agent”扩展为涵盖 CLI、系统调用等操作的广义智能体，正逐步走向民主化与通用化。XAI 为此专门成立与 Microsoft 对立的组织，意图以类似特斯拉 FSD 的小模型、端到端视频建模路线实现突破，尽管面临内部动荡，其技术路径仍具启发性。

OpenAI、Anthropic，当然现在是所有东西都要做啊，只要是跟 productivity 相关的，他们都会做。

所以 computer user agent 现在在慢慢变成一个就是 general 民主的 agent。

创业浪潮：从学术自由到资源驱动

越来越多研究者选择离开学术界或大厂投身创业，其深层动因在于：Agent 已进入资源密集型阶段。早期（2023–2024）多为轻量级 proof-of-concept，靠巧妙设计即可推动领域发展；而如今，真正有潜力的 Agent 项目亟需大量 GPU、API 调用与强执行力团队——这与高校“小而散”的科研基因天然错配。即便如 Jeff Bezos 新设的 Project Prometheus（融资 60–70 亿美金），也聚焦于制造与物流场景下的 compute user agent，印证了该方向的高资源门槛。

国内亦不例外：字节 UI Tools、豆包手机、智谱 AutoGLM 系列均在 agent 领域早有布局；作者与唐杰团队曾合作推出早期 benchmark Agent Bench，见证了智谱从学术研究到工程落地的演进。OpenClaw 之后，各团队已形成差异化 Claw Strategy，但任务可靠性与长程稳定性仍是共性瓶颈——本质上是能力问题：agent 缺乏对现实世界的“经验内化”，如同实习生易出错，而老师傅则因已构建安全操作心智模型而更可靠。

我是一个可能兴趣很多的人……我想要同时做十个事情。那这个学校就是这个最好的去做这些 weird ideas。

现在 really interesting 的 Agent idea，它需要的资源……跟学校的这个基因是不太匹配的。

个人成长：关联思维与非典型路径

作者将自身研究风格归因于强关联性思维，其根源可追溯至非典型的成长经历：少年时曾凌晨溜进网吧打游戏，却始终保持着对阅读的热爱——“任何纸质文字都读”，从历史到言情小说不一而足。这种广泛输入帮助他构建了跨领域的 conceptual framework，而非依赖天赋或记忆力。高考时虽非“书呆子”，但面对关键挑战（如清华自主招生）能全力投入，最终以湖南省前十成绩进入清华，并因奖学金缓解经济压力。

这种“魂不吝”（不执念于得失）与“一旦决定就全力投入”的矛盾统一，贯穿其 PhD、教职与创业全过程。即便创业失败，他亦坦然回归研究——美国研究者创业的安全垫较高，使其能更从容地承担风险。当前 New Cognition 作为研究型实验室，仍保留部分学术自由度，使其持续扩充认知框架，应对新刺激与不确定性。

我最喜欢的事情是去不断的去 build out my conceptual framework……我其实是属于那种能去学很多很多的东西，然后把这些东西给串起来，看到他们之间的联系。

性格与选择：不设后路的行动哲学

在苏煜看来，“I put my mind to it, I put my effort to it” 这一信念深刻塑造了他的人生轨迹——无论是博士阶段的研究、教职工作，还是如今的创业尝试，都体现出一种高度自主、目标导向的行动逻辑。他坦言，创业失败后的Plan B是回到学术界继续做研究，并指出美国创业生态中存在相对较高的安全垫：VC与大厂之间常有协同机制，甚至会为被投项目预留退出路径。但他本人并不依赖这种“后路”，而是秉持一种近乎“混不吝”的态度：只要认定是当下该做且正确的事，就直接去做，无需反复权衡退路。

“我觉得这个是在这个时间点应该做的事情，是正确的事情，那就做吧，就也不用去想这个后路或者怎么样的。”

“我听就是也做 New Lab 的人说，其实美国你们去创业的安全垫还挺高的，对吧？”

Agent研究与创业：从技术成熟度到时机判断

苏煜强调，Agent研究与实际部署密不可分，其核心学习信号（learning signal）将越来越多地来自“continual learning from deployment”——即在真实环境中持续学习。而高校环境难以支撑大规模真实部署，因此他早早就预见到：一旦深入Agent研究，创业将是自然演进路径，只是时间点问题。

他解释，尽管几年前技术已初具雏形，可能成为“最早一批Agent创业公司”，但他选择等待两个关键条件成熟：一是底层技术根基（如LLM能力、多模态、代码生成等）真正到位；二是自己对Agent整体瓶颈与现状形成更系统、深刻的理解。直到2025年年中，他才认为时机成熟，最终决定创业。

“你纠结了多久呀？可以说从来没有纠结，就我一直很知道，就是我是会去做一个 startup 的，因为我觉得就 agent 的这个事情。”

社会影响与责任：AI民主化是关键解方

谈及Agent未来，苏煜认为continual learning 将在未来几年被解决，从而推动Agent广泛渗透社会各领域，引发生产关系的根本性变革。他明确区分了两种担忧：“存在性风险”（existential risks）——如AI奇点、自我迭代超越人类——在他看来在可预见未来几乎不可能，因其本质并非智能问题，而是缺乏“原生目标”（innate goals/intention）与生存压力；而真正值得警惕的是“就业替代”与“收益分配失衡”：若AI大规模取代知识型岗位，却未能创造足够新岗位，也未建立有效的再分配机制，将导致剧烈社会冲击。

作为研究者，他认为应对之道在于推动技术民主化（democratize access to frontier agent capabilities）：让 powerful 的 expert-level Agent 不再是头部公司专属，而是让每个有想法的人都能低成本接入、快速构建并从中获益。

“最大的质疑可能就确实就是 job displacement，就是这种生产力结构的变化……这个是会对社会产生极大的影响。这个是我认为是真正的 Concern。”

“只是怎么能去尽到自己的一份力量去防止这个事情的发生，或者减小它的影响，这是每个人都需要思考的问题。”

工作室命名与信念表达

播客中提到，主创团队的工作室名为“语言及世界工作室”，这一名称直接呼应了主创者对语言与世界关系的深层信念。正如其英文名 Language is World 所体现的，这不仅是对语言学视角的强调，更是一种世界观的宣言——语言是理解世界的基本媒介。在解释命名缘由时，主创者坦言：“that's the truth，this is that's my belief”，表明该名称承载着其个人学术与实践立场的凝练表达。这种命名方式既具哲学意味，又富有诗意，为后续关于Agent技术、社会辐射等议题的探讨奠定了认知框架。

We'll explore the new world from here. Shouting out so the clouds can't hear. Every heartbeat drawing the map we steer.

对青少年成长的审慎提醒

在分享个人经历时，主创者特别强调：其成长过程中涉及的游戏行为（如翘课、高强度游戏）并不值得提倡，并明确表示此类内容无意对年轻听众产生不良引导。这种坦诚的自我澄清，体现了播客对社会责任的自觉——在讲述技术与探索的同时，始终将价值观的正向引导置于内容伦理的首位。这种态度也折射出当前AI/Agent教育中一个关键张力：如何在鼓励探索精神与防范行为偏差之间取得平衡。

We're the start of the story. This world will hear.

节目收尾与愿景延伸

节目最后回归其品牌标识语：“Just friends at our side in an open sky. If tomorrow's still unclear, we'll draw arrows till the path appears.”，以诗意语言重申了开放协作、渐进探索的核心精神。作为《商业访谈录》系列之一，本集由“语言及世界工作室”出品，旨在推动公众对Agent技术史、边界消弭及社会影响的深度理解。听众可通过其微信公众号 Language is World 获取更多内容，持续参与这场关于技术与人文交叉地带的公共对话。