Agent:从AI的隐线到显学
AI 中的 Agent(智能体) 概念并非近年新生事物,而是贯穿整个 AI 发展史的核心线索。早在 1940–1960 年代 AI 萌芽期,研究者便试图构建能模仿人类行为的“人造智能体”——即具备边界明确的实体性、在特定环境中工作、并开展目标导向活动(goal-directed activities) 的系统。正如苏煜所言,这一定义甚至可延伸至所有动物,而人类则是其中智能程度最高的 Agent。早期 Agent 研究以 logical agent(逻辑智能体) 为主流,典型代表是 1950–1990 年代的专家系统:通过一阶谓词逻辑建模专家知识,再由推理引擎完成问题求解。然而,这类系统受限于知识表达能力极低(仅能表达有限逻辑命题)与自主性薄弱(仅能被动响应输入、执行固定推理流程),最终因难以规模化获取高质量知识(即“知识获取瓶颈”)而引发第一次 AI Winter。值得注意的是,Russell 与 Norvig 的经典教材《Artificial Intelligence: A Modern Approach》虽被广泛视为 AI 通识读物,实则以 Intelligent Agent 为全书逻辑起点——其第一章即明确定义何为智能体,印证了 Agent 实为 AI 领域的“元问题”。
它也是这个AI这整个领域的一个非常重要的一本书,叫做《Artificial Intelligence: A Modern Approach》。
Stuart Russell他其实就跟我提过,就是虽然大家觉得这个好像是一本AI的书,但实际上它本质上是一本关于Agent的书。
Agent能力的双支柱:记忆与自主性
一个真正有效的 Agent,需具备两大广义能力:memory(记忆) 与 autonomy(自主性)。其中,记忆不仅涵盖语义知识(semantic knowledge)、事件记忆(episodic memory),还包括程序性知识(procedural memory),本质上是系统对世界建模与经验沉淀的总和;而自主性则体现为从感知(perception)→ 推理(reasoning)→ 决策(decision making)→ 行动(action) 的完整闭环。早期逻辑 Agent 在这两方面均存在根本缺陷:其记忆被严格限定于有限逻辑语句,表达力远不足以刻画现实世界的复杂性;其自主性则退化为“输入问题→逻辑推理→输出答案”的单一模式,缺乏环境交互与动态适应能力。这一局限直至神经网络与深度学习兴起才逐步突破——例如基于深度强化学习(deep RL)的 neural agent(如 AlphaGo),虽在特定任务(如游戏)中展现出强大性能,但其主体通常仅含数千万至一亿参数的神经网络,任务泛化与环境适应能力仍显不足。这些演进揭示出:Agent 的进化史,实为记忆表达能力与自主决策能力协同跃迁的历史。
我之所以会提到就是这些 boundary 都在消弭,其实也是跟 coding 有关系的。
这些东西都是在快速的 converge,最后 at the end of the day,大家想要的就是一个 universal digital agent。
从 ChatGPT Moment 到 OpenClaw Moment
当前 Agent 技术的爆发,可置于两个关键范式转折点的脉络中理解:ChatGPT Moment 标志着大语言模型(LLM)作为通用语言理解与生成范式的成熟;而 OpenClaw Moment 则预示着以高度自动化、个性化为特征的 Language Agent 范式正式登场——它不再仅是 LLM 的简单调用,而是将 LLM 作为“大脑”,嵌入感知、规划、工具调用、环境交互等完整闭环中。苏煜团队长期深耕 Language Agent,其早期工作如 Mind-to-Web、CACT、LM Planner 等,聚焦于让 Agent 通过自然语言指令操控计算机系统;同时在多模态基准 MMMU 上的探索,也推动了跨模态理解能力的提升。2025 年斯隆研究奖的获得,更印证了该方向的前沿性与影响力。随着 LLM 能力逼近人类水平,Agent 的边界正在消弭:它不再局限于单一任务或封闭环境,而是向通用数字智能体(universal digital agent)演进。这一趋势不仅重塑技术架构,更将深刻影响社会生产与协作方式。
Hello,苏老师,因为最近 Open Cloud 非常热啊,我很想借着这个机会来聊聊一个叫 Agent 的综述,因为你在这个领域已经非常长时间了。
Neural Agent 的局限与突破
在深度强化学习(Deep RL)驱动的 Neural Agent 中,尽管相较于早期逻辑型智能体已有显著进步,其memory(记忆)与autonomy(自主性)仍存在根本性限制。这类 agent 的主体通常是一个仅含几千万至一亿参数的小型神经网络——在当时已属庞大,但以今日标准来看则极为有限。其任务高度单一:输入为游戏画面,输出为对应动作序列;记忆内容仅限于特定游戏的规则与感知-动作映射;推理过程完全隐式,且计算量被压缩为单次前馈前向传播(forward pass)。这种设计无法支持显式推理,也无法根据任务复杂度动态调整计算资源,与人类灵活、可伸缩的推理机制形成鲜明对比。
然而,Neural Agent 的通用性确有提升,主要体现在两个维度:一是同一模型可适配多种任务,如 Atari 系列中数百甚至上千款游戏;二是方法论的统一性,Atari、AlphaGo 等任务在架构上高度相似,体现出一种“可迁移”的范式雏形。但若以人类级泛化能力(sample-efficient 地适应任意新环境)为标准,Deep RL 仍显乏力——其sample inefficiency(样本效率低下)是核心瓶颈:训练一个简单游戏可能需数百万次交互。正因如此,游戏作为训练环境被广泛采用:其高度可重复、数据易得、输入输出边界清晰,恰好缓解了 Deep RL 对海量数据的需求。
原话:"它其实里面就没有太多的复杂的这些 perception 啊,也基本没有 reasoning,或者说它的 reasoning 推理是非常隐式的,它就是在你这个神经网络的一次这个 forward pass 的这个过程中。"
原话:"你可能就一个简单的游戏,就要可能几百万的这玩几百万盘才能学会。"
语义解析:拓宽 Agent 的语义边界
与 Neural Agent 追求“深度”(即在受限环境中通过大量数据优化行为)不同,另一条技术路径——语义解析(Semantic Parsing)——致力于拓展 Agent 的“广度”,尤其在语言理解与交互方面。其核心目标是将自然语言映射为形式化语义表示(Formal Meaning Representation),如知识图谱、数据库查询或网页操作指令,从而让机器能“读懂”并执行人类意图。该方向虽可追溯至2000年前,但真正蓬勃发展于2000年后,尤其在 NLP 社区中成为主流。
语义解析与 Neural Agent 实为互补:前者侧重语言感知与动作生成的泛化能力,后者侧重行为策略的优化深度。值得注意的是,许多后来推动 LLM 与 Agent 发展的关键人物(如 Perceley、Luke Zettlemoyer)均出身于语义解析领域;而当前活跃于大模型与智能体一线的研究者(如港大的于涛、OSU 的盛欢)也多有相关背景。这暗示了语言建模与智能体设计之间深刻的内在关联。
原话:"neural agent 它关注的是怎么做深,就是怎么去能通过大量的 data 去学会说这个在这个受限的环境里面怎么把这个事情给做好。而 semantic parsing 关注的是怎么去做的更广,而且是能去解决像这种 communication,包括这种语言的 perception、understanding 这些问题……"
原话:"它其实就跟 neural agent 其实上就有很互补的关系嘛……它也一定程度上是去扩大了这个呃 agent 它的这个 action space。"
语言智能体:以语言为脚手架的范式跃迁
自 2022 年 ChatGPT 问世后,Agent 的发展进入全新阶段——Language Agent(语言驱动智能体)。其本质在于以大语言模型(LLM)为核心,将语言作为scaffold(脚手架),贯穿感知、推理与行动全过程:
- 感知:语言成为理解世界的主要媒介,大幅增强人机交互灵活性;
- 推理:通过 chain-of-thought 等机制实现自适应计算(adaptive computing)——任务越复杂,生成的 token 越多,推理步长随之扩展;
- 行动:语言(含形式化语言)成为控制环境的通用接口,使 agent 可在低结构化世界中执行多样化操作。
从 memory 角度看,LLM 的训练过程本身即是对世界的压缩性建模:海量语言数据被压缩为一个紧凑的、可驱动行为的世界表征(world representation)。早期“随机鹦鹉”的批评已让位于更深刻的认知——语言模型实为一种以语言为媒介的世界模型构建机制。
这一范式与人类演化史高度呼应:语言的出现极大加速了生物进化;如今,语言作为 AI 智能体的“加速器”,正推动技术进入指数级跃迁期。
原话:"它可以用 language 作为一个 scaffold,作为一个脚手架来去做它的所有事情,包括它的 perception……"
原话:"language 在这里面是起到极其重要的作用的……语言是起到一个爆炸式的加速剂的这样的一个作用,而现在在 Agent 的演化,在 AI 的演化过程中,好像又是一个一个类似的一个效果。"
语言作为文明与AI演化的加速器
人类文明在约六千年间经历了爆炸式发展,而语言在其中扮演了至关重要的角色——它不仅是信息传递的媒介,更是认知跃迁与知识积累的加速器。正如苏煜所指出的,语言在人类演化中起到了“爆炸式的加速剂”的作用;而当下,Language Agents的出现,似乎正复现这一历史节点,成为AI演化的关键转折点。
在2023年,他撰写首篇博客《Language Agents: A Critical Evolutionary Step for Artificial Intelligence》,明确提出:从进化视角看,Language Agents标志着AI进入一个全新的阶段。这一观点并非空穴来风——语言作为AI训练媒介其实早已存在,NLP领域长期致力于语义解析等任务;但受限于基础模型能力,此前工作多局限于特定环境(如单一数据库、知识图谱或网站)。直到大语言模型(LLM)出现,才提供了强大的先验与内置的“基于语言的世界模型”,使Agent能泛化至任意环境并产生合理行为。这一转变,是质的飞跃。
“语言是起到一个爆炸式的加速剂的作用,而现在在Agent的演化,在AI的演化过程中,好像又是一个类似的一个效果。”
“LLM出现之后,它相当于是提供了一个非常强的 prior,它内置的这样的一个基于语言的世界模型。”
三年演进:从Chain of Thought到多模态Agent
回顾过去三年Language Agent的发展脉络,可清晰划分为几个关键阶段。2022年初,Chain of Thought(CoT)的提出首次赋予模型自适应推理能力;同年末,ReAct将CoT拓展至外部环境交互场景,构建了“感知—推理—行动”的闭环,成为现代Agent架构的雏形。
2022年底,多个代表性工作密集涌现:Google的CICAN被视为LLM用于机器人规划的首个标志性成果;苏煜团队同期推出LLM Planner,是最早将LLM应用于具身规划的工作之一;紧随其后,Mind2Web成为首个基于LLM的Web/计算机使用Agent(发布于2023年初,开发始于2022年10月)。同期,Meta的TwoFormer(2023年2月)首次实现LLM驱动的双任务(two-use)系统,其影响力巨大——微软CTO Satya Nadella曾将其在全公司内部传阅,因其预示了LLM对企业级工具链整合的深远意义。
2023年3月,AutoGPT以极快速度获得GitHub十万Star,成为现象级开源项目,其火爆程度堪比近年的OpenClaw;同期还有OpenGPT、AI Engineer(后成立Lovable公司)等项目,虽技术粗糙,却极大推动了社区对Agent形态的探索热情。
2023年下半年是重要分水岭:随着GPT-4o发布,多模态能力真正落地。苏煜团队在text-only版Mind2Web之后,迅速转向视觉驱动Agent,同步推出MMMU(首个多模态LLM基准)与CACT(首个基于GPT-4o的视觉Web Agent)。当时GPT-4尚无公开API,团队甚至自行“hack”网页界面构建API支持实验。
同期,CMU团队的WebArena(2023年7月)提供可复现的仿真Web环境,弥补真实网站测试的法律与稳定性缺陷,成为评估Agent的重要基础设施。
“React的本质上是这样子的……想法很简单,但在正确的技术点上,有正确的insight去想到并做出,其实不容易。”
“GPT-4o开始出现了,这是第一个真的能打的一个多模态的模型。也是这个Agent的全面,像这种多模态转向的这个时间点。”
从Web到Desktop:Embodiment的范式迁移
2024年,Agent生态进一步拓展至桌面与移动环境。于涛团队的OS World成为首个面向桌面操作系统的通用Agent基准,标志着Agent从网页走向更贴近人类日常使用的计算界面。
与此同时,Coding Agent(如SweetBench)在2023年下半年兴起,推动自动化编程领域快速发展。而苏煜团队在2024年推出的U Ground,则提出关键理念:Agent应像人类一样使用计算机——即以像素级视觉感知(visual perception)为输入,执行像素级动作(如点击、输入),而非依赖HTML等文本抽象层。
这一具身化(embodiment)范式迅速成为主流:后续如Cloud Compute Use、OpenAI Operator、Cloud Code、Cloud in Browser等系统均采用U Ground所确立的“视觉+像素动作”交互模式,实现了真正意义上的“人机同构”操作逻辑。
2025年,随着基座模型coding能力的爆发式提升,Claude Code等工具进入高速迭代期;OpenAI发布Operator与ChatGPT Agents,Anthropic跟进Call the Code,Cursor则持续引领开发者生态演进——Agent正从实验性项目走向生产力基础设施。
“人的 embodiment 是什么样的 agent 就应该是什么样的……每一步我们就是去做一个 visual perception,然后再去做一些 reasoning,在这个屏幕上去 take some action,而且是这种 pixel level 的。”
OpenClaw Moment:Agent范式的转折点
OpenClaw 的出现标志着 Agent 技术进入高度自动化、个人化的新阶段,其核心特征在于:它拥有独立运行的环境,可 24 小时持续运行(always on);同时,作为一个开源项目,它默认开放权限(Ulo it),不设严格的 permission 和 safety 限制,允许 agent 自主尝试各类任务。这种“先发布、再迭代”的策略,使得社区能快速反馈并发现其能力边界——正如 ChatGPT Moment 催化了 LLM 范式的普及,OpenClaw Moment 正在推动 Agent 范式的集体觉醒。
原话:"ChatGPT moment,它是标志着这个 LLM 这个范式的变化,而 OpenClaw 这个 moment,它是标志着 agents 这种,尤其是各种高度自动化的,或者是这种 personal 这个 agent 的这个范式的变化。"
原话:"我相信,就再过两年来看,它的这个影响力可能也会是一个类似的规模。"
这一波浪潮已深刻影响科技巨头的战略转向:Ansarpi 推出 Cloud Code,OpenAI 全面聚焦 Agent 与生产力编码,NVIDIA 提出“每个企业都需要一个 class strategy”,国内大厂亦迅速跟进。值得注意的是,OpenClaw 的催化作用远超“抄袭”范畴——它加速了技术路线的收敛,但并非唯一驱动力;即便没有它,相关功能也会自然演进,只是节奏被显著提前。
中美技术辐射差异:从开发者圈层到全民叙事
中美对 OpenClaw 的反应呈现出鲜明对比:在美国,热潮主要局限于开发者和技术亲近群体,叙事聚焦于开源协作与技术深化;而在中国,其传播已显著“出圈”——地方政府、媒体、大众舆论广泛参与,形成一种时代性产业机遇甚至“个人翻身工具”的集体认知,甚至伴随“不学就要被淘汰”的焦虑感。
原话:"我感觉在中国 Open Claw 的火热程度要比美国更高……中国就更加出圈,我觉得可能更加全民化一点……街头巷尾,包括什么各地政府,都开始聊 Open Claw。"
原话:"家里面这个儿女就工作比较忙,没有时间,然后家里的老人就拿着电脑去……找人去帮忙装 Open Claw。"
这种差异根植于两国技术应用生态的传统:中国在前沿技术的应用层往往反应更快,正如 Google 前 CEO Eric Schmidt 所指出的——美国在应用层普遍滞后。AI 时代,基础模型的智能已越过“够用”临界点,大量因摩擦成本过高而长期未被开发的场景,如今因 AI 大幅降本增效而具备商业可行性。中国在应用洞察与落地执行力上的优势,使其更易抓住这一波价值释放窗口。尽管存在试错浪费(如装了又卸载),但社会整体仍处于积极的技术扩散进程中。
从通用智能到专业智能:Agent 的未来在 specialization
当前通用 Agent(如 OpenClaw)虽已具备“数字世界通用入口”的潜力,但其局限性在于:世界由数百万个高度异构的‘小世界’构成——每个职业、公司、软件系统都有其独特语境与熵值,单一通用模型无法捕获全部复杂性。因此,真正的价值创造将来自 specialization(专业化)而非 generalization(通用化)。
原话:"这个世界是非常复杂的,这个世界不是一个世界,它是由可能几百万个小世界组成的。每一个小世界要做到真正的产生价值,它需要的是 specialization……"
新创公司 NeoCognition(新皮层)正聚焦于此:不追求打造超级通用 Agent,而是深耕 enterprise 等高专业门槛场景,探索如何让 Agent 更好地适应特定环境、掌握领域知识。这不仅是技术路径选择,更是对经济规律的回应——模型公司天然倾向平台化、统一化,而 specialization 需要深度垂直投入,其经济模型与组织逻辑与之相悖。
与此同时,SaaS 行业正面临转型压力:软件正从“工具”向“结果交付”演进,即从提供功能转向输出 AI employee 式的劳动服务。SaaS 公司与 AI-native 公司的竞合关系尚无定论,但可以明确的是:Agent 的民主化(让普通人也能构建高价值 Agent)是避免技术垄断、缓解就业冲击的关键。作为研究者,我们亟需降低使用门槛,让每个有洞察的人都能将想法转化为可落地的 Agent——这不仅是商业机会,更是社会责任。
融资两极分化与VC生态重构
当前Agent领域融资呈现严重的马太效应:头部公司(如OpenAI、Anthropic)动辄融资数亿甚至十亿美元,其累计融资额可能占据整个市场30%至50%;而大量中腰部公司则面临融资难度显著上升的困境。这一趋势也反映在VC机构的分化上——传统中小型VC正面临生存压力,要么向mega fund转型(如a16z、LightSpeed),聚焦growth阶段投资;要么转向boutique firm模式,依靠垂直领域深度、强关系网络与独特认知构建差异化优势。
“你到底能怎么样去找到这个 differentiation?……同时这个differentiation既能让人觉得是credible,而且是feasible,就是你这个事情是有可能做成的。”
“投资人现在看的是哪些呀?看你过往的工作……如果是这个在 Frontier Lab,然后有比较长时间的核心的贡献,它的这个估值逻辑又很不一样。”
世界模型:从视觉预测到符号化认知构建
当前主流的“world model”研究多聚焦于vision-based方向(如视频预测、3D重建、latent变量建模),但其本质仍局限于感知层面。作者提出更广义的world model定义:它不仅包括物理世界的视觉表征,更涵盖组织架构、权责流程、软件工具使用逻辑、人际协作模型(theory of mind)等符号化、非符号化的微观世界知识体系。人类从实习生成长为专家的过程,正是不断构建这一specialized world model的过程。
“这个 model 它显然不是一个 video model,但 vision 当然是里面很重要的一部分,但显然也有更多的部分,它是天然就是符号化的,symbolic 的,甚至有一些就是非符号化也非 vision 的部分……最后归根结底就是我们持续学习。学到东西是这样的一个 specialized world model。”
“你现在用很多的 agents,虽然它好像乍一用觉得非常的强大……但百分之三四十那个就不知道因为什么原因就失败了。但是人不是这样的,如果我们是真的成为了某一个事情的专家的话,那我们就基本上是百分之百能做对。”
Expert Agent 的学习范式困境与突破路径
当前Agent训练主要依赖两种范式:一是RL post-training(如Synthetic Environments + RL Gym),二是Nonparametric Learning(如Skill/MD文件、Hardness Level建模)。然而二者均难以复现人类的continual learning能力——在学习速度、准确性、知识广度与迁移能力上存在巨大鸿沟。作者认为,真正的突破在于发展一套能支持domain-agnostic的specialization学习机制,使Agent能在给定职业、环境或任务后,自主构建其专属的world model,从而实现高可靠性、高效率、低成本的expert behavior。
当前continual learning一词已被泛化使用:早期指“避免灾难性遗忘”的任务增量学习;如今则涵盖在线学习、持续适应等更广泛场景。但无论定义如何演变,构建可泛化、可积累、可符号化的world model学习机制,仍是实现Agent expertization的核心挑战与最大机会所在。
持续学习的定义演变与核心问题
"Continual learning"(持续学习)一词的含义极为宽泛,其用法随时间不断扩展。最初,它在机器学习领域中特指一种受限设定:模型在学习新任务时,需避免对已习得任务造成灾难性遗忘(catastrophic forgetting)。如今,这一概念已高度泛化——个性化(personalization)、递归自改进(recursive self-improvement)、OpenClaw 架构、以及强化学习中的后训练(post-training),都被纳入持续学习的范畴。然而,苏煜指出,当前文献中最大的gap在于:我们尚未清晰定义持续学习的终极目标。他主张,持续学习的终极目标应是构建一个广义的 world model(世界模型),即模型需不断整合新知识,以形成对现实世界、抽象系统乃至社会结构的统一表征。这一视角将“持续学习”与“世界模型”两个热门议题本质性地统一起来。
“我认为这个学习的目标应该是一个 world model。就你的持续学习的目的是为了去更好的学会一个广义的 word model,所以这是可能就是把这两个很火热的词联系到一起的方式,叫 word model 和 continual learning。”
“它本质上是一件事情。”
新皮层:持续学习的生物原型
从神经生物学角度看,人类持续学习能力的物理基础在于新皮层(neocortex)——它占大脑体积约70%,进化上仅在约两亿年前哺乳动物出现时才初具雏形,且在灵长类尤其是人类中急剧扩张。新皮层的进化时间短、功能却极其广泛(涵盖视觉、语言、听觉、推理、规划等),这暗示其并非依赖高度特异化的结构,而是采用一种通用学习机制(general learning machinery):皮质柱(cortical column)。
人脑约含15万个皮质柱,尽管功能分区(如视觉区、听觉区)各异,但其解剖结构高度一致——均具备分层细胞排列与柱状连接模式。这一结构特征支持了“每个皮质柱都在构建局部 world model”的理论。Jeff Hawkins 在《千脑智能》中系统提出:每个皮质柱内可运行数百个小型 world model,覆盖物理世界、语言系统乃至抽象社会概念(如民主、法治);这些模型并行协作,最终主导感知、推理与决策。即便不全盘接受该理论,人类持续学习所形成的认知地图(cognitive maps)与概念框架(conceptual frameworks)已被广泛证实——而当前 AI 的持续学习研究仍远未触及这一层次。
“它这个时间进化时间这么短,就意味着它其实就是 neocortex 它到底是在做什么?它到底起一个什么作用?这个事情实际上是这个对于研究人脑来说可能最重要的课题。”
语言:符号化世界的加速器
语言在人类智能演化中扮演着远超“交流工具”的角色。Chris Manning 与 Terence Deacon 的研究共同揭示:人类文明的跃迁并非源于感知或运动能力的增强,而源于符号系统(尤其是语言)的出现。Deacon 在《The Symbolic Species》中提出,符号与大脑是 coevolution(协同演化)关系:早期符号表征的出现,反向驱动大脑结构向支持符号处理的方向演化,从而开启一条文化驱动的快速进化通道。语言使信息突破时空限制——个体可将经验跨空间传递、跨代际传承,形成累积性文化进化。
值得注意的是,MIT 神经科学家(如 Evelina Fedorenko)的 fMRI 研究表明:复杂推理任务中,语言相关脑区(布洛卡区、维尼克区)未必激活,暗示语言与思维可分离。但这并不削弱语言的核心地位——语言是认知内化的“脚手架”:人类学习本质是将外部语言符号逐步内化为神经层面的直接连接,最终脱离语言依赖。因此,世界模型的构建既需语言作为初始表征工具,又需超越语言达成更深层的非语言表征。
“而这是这个导致我们这些文明和这些 intelligence 正不同的根本原因。”
“它远远不是说只是我作为一种 communication 的工具那么简单。”
语言与思维:个体内化与文明基石
语言与思维是否可分,是理解Agent本质的重要前提。从个体学习过程看,语言确可与最终形成的思维表示分离——人类学习本质上是将依赖语言作为脚手架的知识,内化为神经层面的直接连接,从而在执行时无需语言中介。这一过程与睡眠中海马体驱动的短时记忆向长时记忆转化高度相关。因此,个体的深层Thought可以脱离语言存在。
但不可否认的是,语言在学习的构建阶段起到了不可替代的脚手架作用。没有语言,个体难以系统性地组织、传递与修正认知结构。若跳出个体视角,上升至文明层面,语言的重要性则更为根本:现代文明的每一项成就——无论尖端科技还是传统工业——都建立在符号化表达之上,包括自然语言、数学符号、编程语言、图表等。正如作者在推特所言:
individual thought doesn't need the language, but civilization needs language.
这一观点延伸至演化视角,进一步印证:语言与符号化能力是智能系统参与并塑造复杂社会的必要条件。因此,即便未来底层模型不再是大语言模型(LLM),只要Agent仍需理解世界、推理与交互,以语言为媒介的认知架构仍将是核心范式。所谓“language agent”,实为通向通用智能体的必经阶段;当语言成为Agent的默认能力,“language”一词终将变得冗余,仅称“Agent”即可。
交互界面之争:GUI、CLI与社会现实的约束
关于Agent应采用GUI(图形界面)还是CLI(命令行界面)的讨论,本质是工具选择问题,而非技术优劣的绝对判断。首先,GUI不会消失——人类作为视觉动物,其大脑对二维/多维视觉信息的处理速度与效率远超一维文本。大量人机交互(HCI)研究证实,视觉呈现可使理解延迟缩短零点几秒,这对信任建立、验证审计、错误排查等场景至关重要。
其次,Agent是否必须使用GUI?未必。但能否有效使用GUI,却可能是短期乃至长期的关键能力。原因在于:当前数字世界事实上的标准接口是GUI,99%的现有软件都通过GUI暴露功能;更重要的是,GUI中已编码了大量业务逻辑、约束与领域知识。一个能操作GUI的Agent,可“搭便车”(piggyback)于人类数十年积累的软件生态,避免重复造轮子,尤其在长尾场景中优势显著——多数中小企业并无能力为每套系统重写CLI/API。
从更深层看,技术采纳不仅取决于技术最优性,更取决于社会动力学与经济激励。以Tim Berners-Lee提出的Semantic Web为例:尽管其逻辑表达与推理机制高度严谨,但因缺乏广泛采纳的动机与路径,二十年来落地甚微。反观GUI的成功,正因其契合人类认知本能,形成正向反馈。因此,CLI全面取代GUI的设想,忽视了现实世界的路径依赖与局部最优惯性。即便CLI在某些理想模型中更优,现实世界中“够用就好”的既有方案仍具强大生命力。
Agent的瓶颈与未来:统一于持续学习与世界建模
当前Agent发展的关键瓶颈,实为同一问题的多面体现:持续学习(continual learning)、自我学习(self-learning)、长期记忆(memory)、世界模型(world model)构建、专业化能力(specialized intelligence)——这些并非孤立模块,而是同一核心挑战的不同投射。世界模型是学习的内容,持续学习是过程,专业化是目标,而可靠性、速度、成本效益等则是其自然衍生的系统级优势。
展望2026年,持续学习将成为主旋律。技术路径上,基于word model(而非仅LLM)的持续学习或成主流之一,但生态中必然涌现多种技术路线的探索与竞争。与此同时,Agent技术的社会辐射速度,将取决于能否系统性解决上述瓶颈。当前大厂普遍采用“前哨部署工程师”(forward-deployed engineers)的Pilot模式,正是因Agent尚无法自主适配复杂、异构的企业环境——这正是可靠性、成本与易用性不足的直接体现。
至于中美大厂策略:曾有差异,如今高度趋同。Anthropic凭借Claude系列确立范式后,OpenAI、Google等均转向“全栈覆盖”策略,凡与生产力相关的方向皆不放过。未来真正的分化,或将出现在世界模型的构建哲学与持续学习的工程实现路径上——这将是决定Agent能否真正嵌入人类知识生产循环的关键。
Agent生态的趋同与多元 bets
当前 Agent 领域正经历显著的趋同趋势:Anthropic 凭借其领先实践成为行业标杆,大量团队在技术路径与产品设计上“抄作业”,这与去年尚在多路径探索的状态形成鲜明对比。OpenAI 与 Anthropic 已全面转向生产力相关产品线,而 Google 虽拥有强大的模型能力与成熟生态,却在市场声量与实际 adoption 上略显乏力,核心问题可能在于缺乏杀手级应用。与此同时,XAI 的马斯克将“computer user agent”作为其重要押注之一——这一概念已从早期的“GUI agent”扩展为涵盖 CLI、系统调用等操作的广义智能体,正逐步走向民主化与通用化。XAI 为此专门成立与 Microsoft 对立的组织,意图以类似特斯拉 FSD 的小模型、端到端视频建模路线实现突破,尽管面临内部动荡,其技术路径仍具启发性。
OpenAI、Anthropic,当然现在是所有东西都要做啊,只要是跟 productivity 相关的,他们都会做。
所以 computer user agent 现在在慢慢变成一个就是 general 民主的 agent。
创业浪潮:从学术自由到资源驱动
越来越多研究者选择离开学术界或大厂投身创业,其深层动因在于:Agent 已进入资源密集型阶段。早期(2023–2024)多为轻量级 proof-of-concept,靠巧妙设计即可推动领域发展;而如今,真正有潜力的 Agent 项目亟需大量 GPU、API 调用与强执行力团队——这与高校“小而散”的科研基因天然错配。即便如 Jeff Bezos 新设的 Project Prometheus(融资 60–70 亿美金),也聚焦于制造与物流场景下的 compute user agent,印证了该方向的高资源门槛。
国内亦不例外:字节 UI Tools、豆包手机、智谱 AutoGLM 系列均在 agent 领域早有布局;作者与唐杰团队曾合作推出早期 benchmark Agent Bench,见证了智谱从学术研究到工程落地的演进。OpenClaw 之后,各团队已形成差异化 Claw Strategy,但任务可靠性与长程稳定性仍是共性瓶颈——本质上是能力问题:agent 缺乏对现实世界的“经验内化”,如同实习生易出错,而老师傅则因已构建安全操作心智模型而更可靠。
我是一个可能兴趣很多的人……我想要同时做十个事情。那这个学校就是这个最好的去做这些 weird ideas。
现在 really interesting 的 Agent idea,它需要的资源……跟学校的这个基因是不太匹配的。
个人成长:关联思维与非典型路径
作者将自身研究风格归因于强关联性思维,其根源可追溯至非典型的成长经历:少年时曾凌晨溜进网吧打游戏,却始终保持着对阅读的热爱——“任何纸质文字都读”,从历史到言情小说不一而足。这种广泛输入帮助他构建了跨领域的 conceptual framework,而非依赖天赋或记忆力。高考时虽非“书呆子”,但面对关键挑战(如清华自主招生)能全力投入,最终以湖南省前十成绩进入清华,并因奖学金缓解经济压力。
这种“魂不吝”(不执念于得失)与“一旦决定就全力投入”的矛盾统一,贯穿其 PhD、教职与创业全过程。即便创业失败,他亦坦然回归研究——美国研究者创业的安全垫较高,使其能更从容地承担风险。当前 New Cognition 作为研究型实验室,仍保留部分学术自由度,使其持续扩充认知框架,应对新刺激与不确定性。
我最喜欢的事情是去不断的去 build out my conceptual framework……我其实是属于那种能去学很多很多的东西,然后把这些东西给串起来,看到他们之间的联系。
性格与选择:不设后路的行动哲学
在苏煜看来,“I put my mind to it, I put my effort to it” 这一信念深刻塑造了他的人生轨迹——无论是博士阶段的研究、教职工作,还是如今的创业尝试,都体现出一种高度自主、目标导向的行动逻辑。他坦言,创业失败后的Plan B是回到学术界继续做研究,并指出美国创业生态中存在相对较高的安全垫:VC与大厂之间常有协同机制,甚至会为被投项目预留退出路径。但他本人并不依赖这种“后路”,而是秉持一种近乎“混不吝”的态度:只要认定是当下该做且正确的事,就直接去做,无需反复权衡退路。
“我觉得这个是在这个时间点应该做的事情,是正确的事情,那就做吧,就也不用去想这个后路或者怎么样的。”
“我听就是也做 New Lab 的人说,其实美国你们去创业的安全垫还挺高的,对吧?”
Agent研究与创业:从技术成熟度到时机判断
苏煜强调,Agent研究与实际部署密不可分,其核心学习信号(learning signal)将越来越多地来自“continual learning from deployment”——即在真实环境中持续学习。而高校环境难以支撑大规模真实部署,因此他早早就预见到:一旦深入Agent研究,创业将是自然演进路径,只是时间点问题。
他解释,尽管几年前技术已初具雏形,可能成为“最早一批Agent创业公司”,但他选择等待两个关键条件成熟:一是底层技术根基(如LLM能力、多模态、代码生成等)真正到位;二是自己对Agent整体瓶颈与现状形成更系统、深刻的理解。直到2025年年中,他才认为时机成熟,最终决定创业。
“你纠结了多久呀?可以说从来没有纠结,就我一直很知道,就是我是会去做一个 startup 的,因为我觉得就 agent 的这个事情。”
社会影响与责任:AI民主化是关键解方
谈及Agent未来,苏煜认为continual learning 将在未来几年被解决,从而推动Agent广泛渗透社会各领域,引发生产关系的根本性变革。他明确区分了两种担忧:“存在性风险”(existential risks)——如AI奇点、自我迭代超越人类——在他看来在可预见未来几乎不可能,因其本质并非智能问题,而是缺乏“原生目标”(innate goals/intention)与生存压力;而真正值得警惕的是“就业替代”与“收益分配失衡”:若AI大规模取代知识型岗位,却未能创造足够新岗位,也未建立有效的再分配机制,将导致剧烈社会冲击。
作为研究者,他认为应对之道在于推动技术民主化(democratize access to frontier agent capabilities):让 powerful 的 expert-level Agent 不再是头部公司专属,而是让每个有想法的人都能低成本接入、快速构建并从中获益。
“最大的质疑可能就确实就是 job displacement,就是这种生产力结构的变化……这个是会对社会产生极大的影响。这个是我认为是真正的 Concern。”
“只是怎么能去尽到自己的一份力量去防止这个事情的发生,或者减小它的影响,这是每个人都需要思考的问题。”
工作室命名与信念表达
播客中提到,主创团队的工作室名为“语言及世界工作室”,这一名称直接呼应了主创者对语言与世界关系的深层信念。正如其英文名 Language is World 所体现的,这不仅是对语言学视角的强调,更是一种世界观的宣言——语言是理解世界的基本媒介。在解释命名缘由时,主创者坦言:“that's the truth,this is that's my belief”,表明该名称承载着其个人学术与实践立场的凝练表达。这种命名方式既具哲学意味,又富有诗意,为后续关于Agent技术、社会辐射等议题的探讨奠定了认知框架。
We'll explore the new world from here. Shouting out so the clouds can't hear. Every heartbeat drawing the map we steer.
对青少年成长的审慎提醒
在分享个人经历时,主创者特别强调:其成长过程中涉及的游戏行为(如翘课、高强度游戏)并不值得提倡,并明确表示此类内容无意对年轻听众产生不良引导。这种坦诚的自我澄清,体现了播客对社会责任的自觉——在讲述技术与探索的同时,始终将价值观的正向引导置于内容伦理的首位。这种态度也折射出当前AI/Agent教育中一个关键张力:如何在鼓励探索精神与防范行为偏差之间取得平衡。
We're the start of the story. This world will hear.
节目收尾与愿景延伸
节目最后回归其品牌标识语:“Just friends at our side in an open sky. If tomorrow's still unclear, we'll draw arrows till the path appears.”,以诗意语言重申了开放协作、渐进探索的核心精神。作为《商业访谈录》系列之一,本集由“语言及世界工作室”出品,旨在推动公众对Agent技术史、边界消弭及社会影响的深度理解。听众可通过其微信公众号 Language is World 获取更多内容,持续参与这场关于技术与人文交叉地带的公共对话。