AI下一步是走向生成认知 | Enactive Cognition | 表征主义 | 示能性 | 经验 | 强化学习 | 持续学习 | 行动-感知不可分割 | 意向弧 | 最大握力 | 自创

萨顿批判表征主义：AI缺乏真正的理解

强化学习之父、2017年图灵奖得主理查德·萨顿（Richard S. Sutton）与巴纳夫谢·拉菲在论文《走向生成式人工智能》中，对当前主流AI范式进行了根本性反思。他们指出，现在的AI之所以没有真正的理解，是因为从一开始就走在了一条错误的道路上，即被动表征主义路线。表征主义认为认知是信息处理过程：外部信息进入大脑形成内部表征（世界副本），再基于此推理决策。例如，计算机视觉通过识别猫的尖耳圆眼等特征构建内部表征，大语言模型通过海量文本构建知识表征。然而，这种范式下，智能的高低取决于内部表征能否完美复刻外部世界细节，但这只是模仿统计模式，而非真正的通用智能。

“如果它们没有理解能力，如果它们只是在模仿人类的行为，那无论我们把模型做多大，都永远不可能达到真正的通用智能。”

萨顿主张AI必须转向生成认知（Enactive Cognition），让Agent通过与环境的主动互动、具身行动和自我评估来生成经验。这一转向并非哲学文字游戏，而是决定AI未来方向的核心问题。若AI仅停留在被动接收数据，便无法像生物在物理世界中进化出的认知那样，具备真正的适应能力。

生成认知的哲学根基：从示能性到具身

生成认知反对将认知视为对客观世界的内部复制，认为意义是Agent在行动中创造出来的，对世界的理解是能与世界进行有效互动的能力。这一思想源于现象学：胡塞尔认为感知是主体与生活经验的直接相遇；海德格尔提出“在世存在”，强调意义存在于互动情境中；梅洛-庞蒂则将身体视为体验世界的媒介。在心理学领域，詹姆斯·吉布森的生态心理学提出了关键概念“示能性”（Affordance），即感知的不是物理特征，而是环境提供的行动可能性（如地面提供行走、杯子提供抓握）。1991年，《具身心智》一书正式确立生成主义框架，奥雷根和诺埃进一步提出传感器运动偶联理论，认为感知就是掌握行动如何改变感官输入的规律。萨顿提炼出生成认知的四大支柱：经验、行动-感知不可分割性、自主性和具身性。

支柱一：经验是动态互动而非静态数据

在生成认知中，真正的经验是Agent与环境持续互动的实时过程，而非训练数据集。世界是动态的可能性空间，罗德尼·布鲁克斯的名言“世界本身就是它最好的模型”指出，最准确的信息存在于世界本身，Agent只需保持互动并实时获取所需信息。生成认知的经验具有三个特点：

技能性：技能塑造感知，如熟练自行车手看到的不是障碍物，而是可骑行的路线。
规范性：行动有成功失败之分，标准从互动中自然产生，Agent据此调整行为。
具身性：经验通过身体获得，身体能力决定经验范围。

主流AI缺乏真正经验。专家系统依赖静态规则，缺乏常识；深度学习依赖人类标注的静态数据，如同“看一万本游泳书却不会游泳”。监督学习是一次性的，而真正的经验是持续不断的终身学习。强化学习最接近此观点，Agent主动探索环境生成数据。萨顿在《欢迎来到经验时代》中强调：“未来的AI数据不再是一种静态的资源，而是Agentic能力的产物。”持续学习（终身学习）旨在解决灾难性遗忘，契合萨顿的“大世界假说”，即Agent必须持续适应无限复杂的世界。

支柱二：行动与感知的不可分割性

生成认知核心观点是行动与感知相互建构、不可分割，反对传统“感知-处理-行动”的线性流程。奥雷根和诺埃的传感器运动偶联理论指出，感知本身就是一种行动，我们通过掌握运动带来的感官变化规律来感知世界。例如，视觉稳定性源于眼球和头部运动带来的图像变化规律；听觉定位依赖头部转动改变双耳声音差异；触觉纹理识别需手部运动产生振动模式。诺埃指出：“你看到一个物体，就意味着你知道如果你做出某种动作，你的感官输入会发生什么样的变化。”

梅洛-庞蒂提出两个概念深化此观点： 1. 意向弧：理解与行动的正反馈循环，行动越精细揭示环境细节越多，进而加深理解（如学车过程）。 2. 最大握力：Agent趋向最优感知-行动状态的本能反应（如眯眼看清小字），偏离时感到紧张，回归时感到放松。

主流AI割裂了二者，如Sora等视频生成模型仅学习统计规律，无法在规律打破（如红灯故障）时主动干预或探索。纯观察系统只能延续数据模式，而生成式系统能通过行动检验、修改甚至创造模式，在不确定性中行动。历史案例如1987年Pengi系统，通过紧密耦合的感知-行动循环实现复杂行为，无需内部世界模型，印证了行动-感知耦合的重要性。

主动视觉与行动-感知耦合

生成认知挑战了传统视觉作为被动图像编码的观点，提出主动视觉概念，指出视觉本质是主动移动眼睛和身体以获取任务相关信息的信息采集工具。罗德尼·布鲁克斯在1991年《无表征智能》中提出，智能并非来自内部符号操作，而是从智能体与环境的持续互动中涌现出来的。他开发的机器人没有中央处理器或统一世界模型，仅由分层独立的传感器-运动器组成，却能实现行走、避障等复杂行为。后续框架如预测编码和主动推理，将感知和行动统一于最小化预测误差或自由能的目标下。萨顿2022年提出的STOMP框架让智能体学习最大化感知特定方面的子任务，形成行动与感知相互促进的反馈循环，这与梅洛-庞蒂的意向弧概念高度一致。马查等人则让环境表征与行为策略在互动中共同进化，吉布森的示能性理论也被引入强化学习，使智能体能学习情境下的可行行动。

自主性与自创生

生成认知的第三个支柱是自主性，其基础是自创（Autopoiesis），即系统能自我生产和维持组织结构，如活细胞维持自身生存。对于复杂生物，自主性表现为由生存目标塑造的规范性：成功有助于维持自身组织，失败则破坏它。这种规范性是内在的，如饿了吃饭、遇险逃跑。相比之下，当前AI缺乏真正自主性：监督学习和大语言模型无自我评估能力，成功标准仅为匹配人类标注数据；早期规划系统（如GPS）目标由人类预设，评估为二进制的是/否，无法动态调整目标；现代控制系统虽能持续评估偏差，但目标仍由人类设定，缺乏内在价值判断。例如自动驾驶不会因救人而偏离既定目标。

“强化学习 Agent 没有自己的内在目标它只是在最大化人类给它的奖励信号这就导致了著名的“奖励对齐问题””

强化学习在自主性上取得进展，通过奖励评估长期行动轨迹，接近生物的规范性，但奖励函数仍由人类设计。为解决此问题，研究者探索主动推理（最小化预期惊讶）、内在动机（奖励学习新技能）及目标发现（从经验中生成新目标），试图赋予AI更内在的自主性，但距离基于自创生的完全自主性仍有差距。

具身性与意义生成

生成认知的第四个支柱是具身性，它不是智能的可选配件，而是必要前提。传感器-运动耦合根植于具体身体：人类五指对掌能力创造了“可抓握”的示能性；双眼视觉决定深度感知；身高腿长影响视野与移动速度。示能性是环境与身体共同创造的，同一物体对不同身体意义不同：15厘米台阶对成年人是“可攀登”，对婴儿是“不可攀登”，对汽车是“障碍物”，对蚂蚁是“山”。因此，身体是意义生成的器官，而非单纯执行工具。

智能体类型	身体特征	对15cm台阶的感知/意义
成年人	正常身高、双腿	可攀登
婴儿	身高较矮、步态不稳	不可攀登
汽车	刚性轮式底盘	障碍物
蚂蚁	极小体型、多足	一座山

自主性基于自创，而自创必须在身体中实现，身体是智能体与环境的边界。当前主流AI（大模型、多模态模型）是完全离身的，仅处理人类过滤后的信息，未真正体验重力、疼痛或时间流逝。机器人领域虽探索软机器人学（形态计算）和身体与控制共同进化，但多数系统仍采用感知、规划、控制分离的模块化设计，且在仿真环境中训练，缺乏真实世界的摩擦力与不确定性，导致现实表现笨拙。

AI与生成认知的差距

萨顿指出，强化学习与生成认知在结构上共鸣，因二者均强调智能体与环境的互动及反馈驱动适应。但当前强化学习存在三大差距：

评估标准外部化：奖励函数由人类设计，智能体缺乏内在规范性。
行动与感知分离：多数系统先处理观测得到状态表征，再选择动作，感知先于行动。
具身性被边缘化：具身性常被视为工程约束而非认知构成要素，仿真研究忽略身体影响。

萨顿认为，强化学习的下一步需深度融合生成认知思想，从外部奖励走向内在自我评估，从任务驱动走向持续生存适应，从优化策略走向具身经验生成。生成认知并非提供现成算法，而是提供重新思考AI本质的框架：智能是智能体在环境中持续行动、感知、学习和自我维持的过程。未来需解决如何量化行动-感知不可分割性、设计衡量技能性互动的基准测试、定义人工系统的“自我维持”及“具身性”等挑战，推动AI从“离身、被动、表征”道路转向“具身、主动、生成”道路。

“智能是一个过程是一个智能体在环境中持续行动、感知、学习和自我维持的过程”

AI下一步是走向生成认知 | Enactive Cognition | 表征主义 | 示能性 | 经验 | 强化学习 | 持续学习 | 行动-感知不可分割 | 意向弧 | 最大握力 | 自创 | 具身