AI下一步是走向生成认知 | Enactive Cognition | 表征主义 | 示能性 | 经验 | 强化学习 | 持续学习 | 行动-感知不可分割 | 意向弧 | 最大握力 | 自创

大家好，这里是最佳拍档，我是大飞很多AI行业内的大佬都预测 AGI能可能会在未来三到五年内实现我们这代人将有幸见证人类历史上最伟大的技术革命但是，一个最根本、最核心的问题其实从来没有被真正回答过这个问题就是这些运行在全球各地服务器里的AI 它们真的理解这个世界吗？或者说

它们展现出来的那些令人惊叹的所谓智能和我们人类、和所有生物在真实物理世界中生存了几十亿年进化出来的认知能力在本质上是同一种东西吗？

这个问题不是一个哲学上的文字游戏它直接关系到AI未来的发展方向如果现在的AI已经拥有了真正的理解能力那我们只需要继续沿着当前的路线走下去不断扩大模型规模，AGI自然就会到来但如果它们没有如果它们只是在模仿人类的行为只是在统计数据里的模式那无论我们把模型做多大都永远不可能达到真正的通用智能就在最近

强化学习之父、2017年图灵奖得主理查德·萨顿（Richard S.Sutton）和独立研究者巴纳夫谢·拉菲（Banafsheh Rafiee）共同发表了一篇重磅论文标题就叫《走向生成式人工智能》（Toward Enactive Artificial Intelligence）

这篇论文可以说是对当前整个主流AI范式的一次系统性、根本性的反思和批判萨顿作为强化学习领域的奠基人从认知科学最基础的问题出发告诉我们一个残酷的真相现在的AI之所以还没有真正的理解是因为它们从一开始就走在了一条错误的道路上也就是所谓的被动表征主义路线而AI的下一步

必须彻底转向生成认知（Enactive Cognition）的方向也就是让Agent通过与环境的主动互动、具身行动和自我评估来生成属于自己的经验和对世界的理解要理解生成认知（Enactive Cognition）到底是什么

我们首先要搞清楚它反对的是什么也就是主流AI所依赖的表征主义范式表征主义的思想可以追溯到古希腊的柏拉图但它真正成为现代认知科学和AI的基础是从20世纪50年代的认知革命开始的简单来说，表征主义认为认知的过程就是一个信息处理的过程外部世界的信息通过我们的感官进入大脑

大脑把这些信息加工成内部的表征也就是世界的一个副本然后我们基于这个内部副本进行推理、决策和规划最后输出行动在这个框架下，感知是行动的前提是一个完全被动的过程你先看见一个东西然后识别它是什么然后再决定怎么处理它智能的高低就取决于你的内部表征有多准确

能不能完美地复刻外部世界的所有细节这个观点听起来非常符合我们的直觉也正是现在几乎所有AI系统的设计基础比如我们的计算机视觉系统就是先给它看几百万张标注好的图片让它提取出物体的特征比如猫的尖耳朵、圆眼睛、胡须然后构建一个猫的内部表征

以后再看到有这些特征的图像它就会输出这是一只猫再比如大语言模型它通过学习海量的文本数据构建了一个关于语言和世界知识的内部表征然后基于这个表征来生成文本、回答问题但是，生成认知完全反对这种看法它认为认知不是对一个预先存在的客观世界的内部复制而是在具身主体与环境的互动过程中

被“生成”出来的也就是说世界本身并没有固定的、等待被发现的意义意义是Agent在行动中创造出来的你对世界的理解不是你脑子里的一个静态模型而是你能和世界进行有效互动的能力举个最简单的例子，你看到一把椅子在表征主义看来你识别出这是一把椅子是因为你脑子里有一个“椅子”的内部表征

你把眼前的物体和这个表征进行了匹配但是在生成认知看来你知道这是一把椅子是因为你知道你可以坐在上面可以把它搬起来，可以把它当桌子用可以站在上面够高处的东西所有这些关于你能对它做什么的知识加起来

就是你对椅子的理解如果没有这些行动的可能性椅子这个概念对你来说就没有任何意义生成认知的思想有着非常深厚的哲学和科学基础它最早可以追溯到现象学埃德蒙德·胡塞尔（Edmund Husserl）就认为感知不是在头脑中构建世界的模型而是主体在生活经验中直接与世界相遇

我们感知到的不是物体的抽象特征而是物体本身马丁·海德格尔（Martin Heidegger）进一步提出了“在世存在”的概念他说我们不是一个脱离世界的、冷静的观察者而是一开始就沉浸在有意义的实践情境中我们不是先感知世界然后再解释它的意义而是意义从一开始就存在于我们和世界的互动之中

莫里斯·梅洛-庞蒂（Maurice Merleau-Ponty）更是把身体放到了认知的核心位置他说身体不是我们拥有的一个物体而是我们体验世界的媒介所有的感知、所有的思想、所有的情感都离不开身体的运动和体验在心理学领域

也有很多和生成认知相通的思想格式塔心理学认为我们的感知不是被动地接收刺激而是主动地组织这些刺激形成一个整体的经验库尔特·戈尔茨坦（Kurt Goldstein）在研究脑损伤病人的时候发现有机体的行为是一个整体的适应反应而不是一系列孤立的内部计算詹姆斯·吉布森（James

Gibson）提出的生态心理学更是直接影响了生成认知的发展吉布森认为我们感知的不是环境的物理特征而是环境提供给我们的行动可能性他把这个叫做“示能性”（Affordance）比如，地面提供了行走的可能性杯子提供了抓握的可能性楼梯提供了攀登的可能性这些示能性不是物体本身固有的属性

而是物体和智能体的身体能力之间的关系 1991年弗朗西斯科·瓦雷拉（Francisco Varela）、埃文·汤普森（Evan Thompson）和埃莉诺·罗施（Eleanor Rosch）出版了《具身心智》这本书

正式提出了“生成主义”（Enactivism）的框架标志着生成认知作为一个独立的研究领域的诞生后来凯文·奥雷根（Kevin O'Regan）和阿尔瓦·诺埃（Alva Noë）又发展出了传感器运动偶联理论进一步完善了生成认知的感知理论他们认为感知就是掌握行动如何改变感官输入的规律

也就是传感器运动偶联感知不是发生在你脑子里的事情而是你做的事情萨顿和拉菲在他们的论文里从这些丰富的思想中提炼出了四个对AI来说最关键的核心概念也就是生成认知的四大支柱经验、行动-感知不可分割性、自主性和具身性接下来，我们就一个一个地详细讲解看看它们到底是什么意思

以及它们对当前的AI有什么样的批判和启示第一个支柱，也是最基础的一个就是经验在生成认知的框架里经验和我们平时说的经验以及机器学习里说的经验是完全不同的概念它不是指你过去经历过的事情的集合

也不是指用来训练模型的数据集真正的经验是Agent和环境之间持续不断、相互影响的实时互动过程生成认知认为世界不是一个静态的、固定的物体而是一个动态的、无限复杂的可能性空间你做不同的动作世界就会向你展现不同的面貌没有任何一个有限的内部模型能够捕捉到世界的全部可能性

无论你的模型有多复杂，有多庞大它永远都是对真实世界的一个简化和近似所以机器人学家罗德尼·布鲁克斯（Rodney Brooks）才会说那句流传甚广的名言世界本身就是它最好的模型最准确、最新鲜、最详细的信息永远都在世界本身里而不是在你的脑子里你不需要把整个世界都装进去

你只需要保持和世界的持续互动需要什么信息，就实时去获取而且，生成认知所说的经验还有三个非常重要的特点技能性、规范性和具身性首先是技能性，通过持续的互动 Agent会获得各种技能而这些技能会反过来塑造它对世界的感知

比如一个熟练的自行车手他看到的路和一个新手看到的路是完全不一样的新手看到的是到处都是障碍物到处都是危险而老手看到的是一条条可以流畅骑行的路线世界对他来说呈现出了更多、更精细的行动可能性其次是规范性，经验不是中立的 Agent的行动有成功和失败之分有合适和不合适之分它会根据行动的结果

不断地调整自己的行为这种成功和失败的标准不是外部强加的而是从互动本身中自然产生的最后是具身性经验是通过身体获得的你的身体能做什么，不能做什么决定了你能有什么样的经验用这个标准来衡量，我们会发现主流AI在很大程度上是完全缺乏真正的经验的最早的经典规则式AI 也就是专家系统

完全没有经验的概念它们只是按照人类写好的规则进行符号的匹配和推理哲学家休伯特·德雷福斯（Hubert Dreyfus）早在1972年出版的《计算机不能做什么》一书中就尖锐地指出了这些系统的根本缺陷

它们缺乏人类那种基于身体经验的常识人类的很多知识都是无法用规则来表达的都是我们在和世界的互动中潜移默化地学会的后来的机器学习，尤其是深度学习虽然引入了经验的概念但它对经验的理解是非常片面的现在的监督学习和自监督学习依赖的都是人类预先收集和标注好的静态数据集

这些数据只是人类经验留下的痕迹而不是AI自己的经验就像你看了一万本关于游泳的书看了一万个游泳的视频你还是不会游泳因为你没有真正下水体验过你没有感受过水的浮力没有体验过呛水的感觉没有学会如何用手脚的动作来保持平衡同样一个大模型即使看过了所有关于“杯子”的文本和图片

它也不可能真正理解“杯子”是什么因为它从来没有拿过一个杯子从来没有用杯子喝过水从来没有打碎过一个杯子而且监督学习把学习当成了一个一次性的过程用一个固定的数据集训练完模型就固定了就可以部署使用了但真正的经验是持续不断的

是没有终点的你一辈子都在和世界互动一辈子都在学习新的东西一辈子都在调整自己对世界的理解在所有的AI分支里最接近生成认知经验观的就是强化学习强化学习把经验放在了整个学习过程的核心位置强化学习 Agent不是被动地接收别人给它的数据而是主动地去探索环境做出动作，然后接收环境的反馈

再根据反馈调整自己的策略它的数据是自己生成的而且会随着自己能力的提高而不断改进萨顿和大卫·西尔弗（David Silver）在2025年发表的一篇题为《欢迎来到经验时代》的文章里就说过未来的AI 数据不再是一种静态的资源而是Agentic能力的产物只有通过Agent自己的经验

才能实现真正的持续进步还有一个相关的研究方向就是持续学习也叫终身学习持续学习研究的是如何让AI能从不断变化的数据流中学习而不会忘记之前学过的东西也就是所谓的“灾难性遗忘”问题

这和生成认知的观点非常契合因为世界是无限大的也就是萨顿提出的“大世界假说”（Big World Hypothesis）对于任何一个Agent来说世界都比它自身大得多，复杂得多它永远不可能见过所有的情况所以，它必须持续不断地学习和适应才能在这个复杂多变的世界里生存下去接下来是第二个支柱

也是生成认知最核心的观点行动-感知不可分割性传统的表征主义认为感知和行动是两个完全独立的过程感知先于行动你先通过感官获得信息然后在脑子里处理这些信息形成决策，最后再输出行动但是生成认知说，这是完全错误的感知和行动是相互建构、不可分割的整体没有行动，就没有感知；

没有感知，也没有行动感知本身就是一种行动我们前面提到过奥雷根和诺埃的传感器运动偶联理论这个理论是理解行动-感知不可分割性的关键简单来说，传感器运动偶联就是指你的行动会系统性地改变你的感官输入

而你通过掌握这些规律，来感知世界比如视觉我们总以为我们的眼睛就像一个照相机把外界的图像投射到视网膜上然后大脑就看到了这个图像但实际上我们的视觉体验是由眼球、头部和身体的运动共同构成的当你向左转动眼球的时候视野里的所有物体都会向右移动当你向前走的时候，物体就会变大

向后退的时候，物体就会变小当你绕着一个物体走的时候你会看到它的不同侧面你之所以能看到一个三维的、稳定的世界不是因为你的大脑计算了深度而是因为你掌握了这些运动带来的视觉变化规律如果你的眼球不能动你很快就会什么都看不见因为视网膜上的图像会变得稳定神经细胞会适应这种不变的刺激停止放电

再比如听觉你能判断声音的来源是因为当你转动头部的时候两个耳朵接收到的声音的时间差和强度差会发生系统性的变化你通过转动头部，来获取这些信息从而确定声音的位置还有触觉，你要知道一个物体的纹理

你必须用手去摸它不同的运动速度和方向会在你的手指上产生不同的振动模式你就是通过这些振动来感知纹理的如果你的手完全不动即使物体放在你的手上你也很难分辨出它的纹理诺埃在他的《行动中的感知》一书中非常明确地指出感知不是发生在你脑子里的事情而是你做的事情你看到一个物体，就意味着你知道

如果你做出某种动作你的感官输入会发生什么样的变化你看到一个杯子，这意味着你知道如果你伸手去拿，你的手应该怎么动如果你把它翻过来它的背面会是什么样子如果你碰它一下，它会发出什么声音如果你把它掉在地上，它会摔碎所有这些关于行动的可能性的知识加起来就是你对这个杯子的感知在这个基础上

梅洛-庞蒂提出了两个非常重要的概念意向弧和最大握力意向弧指的是理解和行动之间存在着一个正反馈的循环你对环境的理解越深入你就能做出越精细、越恰当的行动；而你做出的行动越精细

就能揭示出环境更多的细节从而进一步加深你的理解这个循环是持续不断的，没有起点也没有终点比如你学开车一开始你只能看到前面的几米路手忙脚乱地打方向盘，踩刹车和油门随着你越来越熟练你开始能注意到路边的行人远处的红绿灯，甚至旁边车辆的意图你的行动变得越来越流畅越来越自动化

而你的感知也变得越来越敏锐越来越全面这个过程就是意向弧在起作用最大握力则是指 Agent会自然地趋向一种最优的感知-行动状态在这种状态下你的身体和环境是完全对齐的你的感知最清晰，行动最有效比如你看一个很小的字你会不自觉地眯起眼睛凑过去你听一个模糊的声音，你会歪着头竖起耳朵

你拿一个易碎的东西你会不自觉地握紧手这些都是你的身体在自动调整以达到最大握力的状态这个过程不需要任何有意识的思考是身体的一种本能反应当你偏离这个最优状态的时候你会感觉到一种身体上的紧张

而当你回到这个状态的时候你会感觉到一种放松和满足用这个标准来衡量，我们会发现现在的主流AI几乎完全割裂了行动和感知几乎所有的AI系统都是按照感知-处理-行动的线性流程设计的先有一个感知模块，负责处理输入生成内部表征然后有一个决策模块基于这个表征做决定最后有一个执行模块，输出行动

这种模块化的设计从根本上违背了行动-感知不可分割的原则最典型的例子就是现在的视频生成模型比如Sora 它们能生成非常逼真的视频能预测物体的运动、光影的变化、甚至红绿灯的顺序但这只是它们在训练数据里学到的统计规律它们并不真正理解这些规律背后的物理机制比如

一个视频生成模型能准确预测红绿灯会从绿色变成黄色再变成红色但是如果红绿灯坏了，一直亮着红灯它就不知道该怎么办了它不会想到可以去按行人过街按钮不会想到可以绕路更不会想到可以打电话报修因为它从来没有真正和红绿灯互动过

它只是见过别人和红绿灯互动的视频它能预测规律，但不能干预规律不能在规律被打破的时候主动去探索和解决问题这就是纯观察系统和生成式系统的本质区别一个纯观察系统只能继续它在数据里学到的模式一旦模式断裂，它就会崩溃而一个生成式系统，不仅能预测模式还能通过行动来检验模式

修改模式，甚至创造新的模式它知道如何在不确定性中行动如何在失败中学习当然，在AI的历史上也有很多研究者意识到了行动-感知耦合的重要性并且做了很多开创性的工作早在1987年菲利普·阿格雷（Philip Agre）和大卫·查普曼（David Chapman）就开发了一个叫做Pengi的系统

这个系统没有明确的内部世界模型也没有复杂的规划算法它只是由一系列紧密耦合的感知-行动循环组成但却能在一个动态的游戏环境中实现非常复杂的行为 1991年达纳·巴拉德（Dana

Ballard）提出了“主动视觉”的概念他指出，视觉不是被动地编码图像而是主动地移动眼睛和身体去获取任务相关的信息我们的视觉系统本质上是一个信息采集的工具而不是一个图像识别的工具罗德尼·布鲁克斯（Rodney Brooks）在1991年发表的《无表征智能》一文

更是对传统的表征主义范式提出了最猛烈的挑战他开发的机器人，没有中央处理器没有统一的世界模型只是由一系列分层的、独立的传感器-运动器组成但这些机器人却能实现行走、避障、探索、甚至收集物体等复杂行为布鲁克斯认为，智能是涌现出来的是从Agent和环境的持续互动中产生的

而不是从内部的符号操作中产生的后来，又出现了很多形式化的框架试图把行动和感知统一到一个单一的循环里比如预测编码它认为大脑的工作原理就是不断地预测感官输入然后通过行动来最小化预测误差还有主动推理

它把感知和行动都统一到了最小化自由能的目标之下还有通用价值函数、预测状态表征、世界模型等等这些框架都在不同程度上体现了行动-感知耦合的思想在近期的研究中萨顿还在2022年提出了STOMP框架这个框架让Agent能够学习不同的子任务每个子任务都能最大化感知的某个方面

随着Agent在每个子任务上的进步它对行动如何影响感知的理解也会变得更加精细而这又会进一步提高它的行动能力这就形成了一个行动和感知相互促进的反馈循环和梅洛-庞蒂所说的意向弧几乎是一模一样的还有马查多（Machado）等人在2023年的工作

他们让Agent的环境表征和行为策略在持续的互动中共同进化更好的表征能带来更好的行为而更好的行为又能带来更好的表征还有很多研究者在把吉布森的示能性理论引入强化学习让Agent学习在不同的情境下哪些行动是可行的，哪些是不可行的从而实现更有选择性、更有技能性的行为

第三个支柱，是自主性生成认知认为 Agent不是一个被动响应外部刺激的机器而是一个自我组织、自我维持的系统自主性是智能的核心特征生成认知所说的自主性和我们平时说的“这个机器人很自主”不是一个意思它的基础是“自创”（Autopoiesis）这个概念

自创最早是由智利生物学家温贝托·马图拉纳（Humberto Maturana）和弗朗西斯科·瓦雷拉（Francisco Varela）提出的简单来说，一个自创的系统就是一个能够自己生产和维持自己组织结构的系统比如一个活细胞它能自己合成蛋白质、复制DNA、维持细胞膜的完整性、调节内部的化学反应

它的所有活动最终都是为了维持自己的生存如果这个过程被打断，细胞就会死亡对于更复杂的生物来说自主性就表现为有自己的目标和需求感知不是中立的而是由这些目标和需求塑造的世界上的事物只有当它们关系到你的生存和目标的时候

才会对你有意义比如，对于一只兔子来说草是有意义的，因为它能吃狐狸是有意义的，因为它会吃兔子；而一块石头，除非它挡住了路否则对兔子来说就没有任何意义从自主性中，自然就产生了规范性因为Agent需要维持自己的生存所以它的行动就有了成功和失败之分成功就是有助于维持自身组织

失败就是会破坏自身组织这种规范性不是外部强加的而是从Agent自身的存在中自然产生的不需要别人教你你就知道饿了要吃饭渴了要喝水，遇到危险要逃跑这些都是你的生存本能的一部分用这个标准来衡量，我们会发现现在的AI几乎都没有真正的自主性首先是监督学习和大语言模型

它们完全没有自我评估的能力一个大模型输出了一个答案它自己不知道这个答案是对是错必须等人类来告诉它它的成功标准就是和人类标注的数据尽可能一致它没有自己的目标也没有自己的需求它只是在完成人类给它的任务然后是经典的规划系统

比如早期的通用问题求解器GPS 这些系统的目标是人类预先指定的评估就是看有没有达到这个目标是一个二进制的是或否它们不会在行动的过程中持续地评估自己的表现也不会调整自己的目标如果目标是不可能实现的它们就会一直尝试下去直到耗尽资源现代的控制和规划系统比如自动驾驶的控制系统

有了一定的进步它们会持续地跟踪自己的状态和目标状态的偏差然后调整行动这已经有了持续评估的能力但目标还是人类设定的比如自动驾驶的目标是保持在车道中间限速60公里每小时如果路上出现了一个受伤的人它不会停下来救人因为救人不在它的目标列表里它没有自己的价值判断也没有自己的优先级

强化学习在自主性上是一个很大的进步强化学习 Agent通过接收奖励来评估自己的行为而且它评估的是整个行动轨迹的长期效果而不是当前的瞬时状态比如，一个下棋的AI 它不会因为走了一步好棋就觉得自己赢了

它会一直等到游戏结束看最终的结果是输是赢然后反过来评估之前的每一步棋这是一种时间扩展的评估非常接近生物的规范性但是，强化学习的问题是奖励函数还是人类写的也就是说，什么是好什么是坏，还是人类说了算强化学习 Agent 没有自己的内在目标它只是在最大化人类给它的奖励信号

这就导致了著名的“奖励对齐问题” 比如，一个清洁机器人它的奖励函数是打扫的面积那它可能会为了最大化奖励反复打扫同一个地方而不去管那些脏的地方一个玩游戏的AI 它可能会发现一个漏洞通过反复做一个无意义的动作来获得无限的奖励这些行为，在人类看来是非常愚蠢的但对于强化学习 Agent来说

却是完全合理的因为它只是在最大化奖励为了解决这个问题很多研究者开始探索更内在的评估标准比如主动推理它认为Agent的所有行为都是为了最小化预期的惊讶也就是预测误差这个目标是内在的，不需要外部指定

还有内在动机，比如给Agent奖励不是因为它完成了人类的任务而是因为它学到了新的技能或者发现了新的东西比如，一个机器人如果学会了开门就给自己一个奖励不管开门有没有用还有目标发现让Agent从自己的经验中自己生成新的目标而不是只能完成人类给的目标

这些方向都在试图让AI拥有更内在的自主性但离生成认知所说的完全自主性也就是基于自创生的自我维持还有很长的距离第四个支柱也是最容易被误解的一个就是具身性很多人以为具身性就是给AI一个机器人的身体但生成认知说，不对具身性不是智能的可选配件而是智能的必要前提没有身体，就没有感知

没有认知，也没有智能为什么这么说呢？

因为我们之前讲的传感器运动偶联不是抽象的输入输出映射而是根植于具体的身体的你的身体能做什么动作你的感官长在什么地方你的关节能弯曲多少度你的肌肉有多大力气

这些都决定了你能有什么样的传感器运动偶联也就决定了你能感知到什么比如，人类的手有五个手指能做对掌运动，所以我们能抓握东西世界上才有“可抓握”的示能性如果我们的手是像钳子一样的只有两个手指那我们能做的动作就会少很多我们感知到的世界也会完全不同再比如，我们的眼睛长在前面

有双眼视觉，所以我们能感知深度如果我们的眼睛长在两边，像马一样那我们的视野会更宽但深度感知会变差我们的身高决定了我们能看到多远我们的腿长决定了我们能走多快我们的身体结构决定了我们能和世界进行什么样的互动这也就是我们之前说的示能性的具身本质示能性不是环境本身固有的属性

而是环境和智能体的身体共同创造的同一个物体对不同身体的智能体来说有完全不同的意义比如，一个台阶高度是15厘米对成年人来说是“可攀登的” 对一个刚会走路的婴儿来说就是“不可攀登的” 对一辆汽车来说就是“障碍物”

对一只蚂蚁来说就是一座山所以，身体不是一个执行工具而是一个意义生成的器官它决定了世界如何向你呈现也决定了你能理解什么具身性和自主性也是紧密相关的生成认知认为，自主性的基础是自创而自创必须在一个身体里实现身体是智能体和环境的边界也是所有自我维持过程发生的场所没有身体，就没有自我

也就没有自主性你无法想象一个没有身体的自我也无法想象一个没有身体的智能用这个标准来衡量，我们会发现现在的主流AI几乎都是完全离身的现在的大模型不管是语言模型还是多模态模型都没有身体没有感官，也不能行动它们只能处理人类输入给它们的文本、图像和视频

这些都是已经被人类的身体过滤和加工过的信息它们从来没有真正触摸过一个物体从来没有感受过重力从来没有经历过白天和黑夜的交替从来没有感受过疼痛和快乐所以它们不可能真正理解“硬”是什么意思 “摔倒”是什么感觉 “时间”是怎么流逝的

“死亡”意味着什么即使是在机器人领域很多系统也没有真正理解具身性它们还是用传统的模块化设计感知、规划、控制是三个完全独立的模块感知模块负责把摄像头的图像转换成世界模型规划模块负责基于世界模型生成行动序列控制模块负责执行这些行动序列在这个设计里身体只是一个执行上层命令的硬件平台

而不是认知的一部分而且现在的机器人大多是在仿真环境里训练的仿真环境里的物理规律是简化的没有真实世界里的摩擦力、噪声和不确定性所以当这些机器人被放到真实世界里的时候往往会表现得非常笨拙稍微遇到一点意外情况就会失败不过，也有一些前沿的研究正在探索具身性的真正潜力比如软机器人学

传统的机器人都是用硬材料做的关节是刚性的控制起来非常复杂而软机器人用的是硅胶、橡胶之类的软材料它们的身体本身就能适应环境的变化比如一个软机器人的手不需要复杂的控制算法只要碰到物体

它的手指就会自然地弯曲包裹住物体这就是“形态计算” 也就是身体的物理结构本身就能完成一部分计算不需要大脑来干预还有一些研究让机器人的身体和控制算法共同进化也就是先进化出合适的身体形态再进化出对应的控制策略这些研究都表明身体不仅仅是执行工具它本身就是智能的一部分

讲完了生成认知的四大支柱我们再回过头来看现在的AI和生成认知的要求到底有多大的差距萨顿在论文里说，在所有的AI分支里强化学习是和生成认知最有结构共鸣的为什么呢？

因为强化学习从一开始就把Agent和环境的互动放在了核心位置强化学习的基本框架就是Agent做动作环境返回观测和奖励 Agent根据观测和奖励调整动作如此循环往复这和生成认知所说的持续互动、行动-感知耦合、反馈驱动适应在结构上是完全一致的而且强化学习的评估是以Agent为中心的它关心的是Agent自己能获得多少奖励

而不是它的内部表征有多准确但是，萨顿也非常明确地指出这种共鸣不等于等同当前的强化学习离真正的生成认知还有三个关键的差距第一个差距就是评估标准还是外部的强化学习的奖励函数是人类设计者写的不是从Agent自身的自我维持过程中产生的所以强化学习 Agent没有真正的内在规范性

它只是在最大化外部奖励第二个差距，行动和感知还是分离的大多数强化学习系统还是先处理观测，得到状态表征然后基于状态表征选择动作感知还是先于行动而不是和行动融为一体第三个差距具身性还是被当作工程约束而不是认知的构成要素很多强化学习研究尤其是在仿真环境里的研究根本不考虑身体的影响

或者把身体简化成一个简单的执行器所以，萨顿认为强化学习的下一步就是要深度融合生成认知的思想要从外部奖励，走向内在的自我评估要从任务驱动的学习走向持续的生存和适应要从单纯优化策略

走向真正的具身经验生成当然，萨顿和拉菲的这篇论文没有给我们提供一个现成的生成式AI的算法也没有说AGI什么时候会到来它给我们的，是一个全新的视角一个重新思考AI本质的框架它告诉我们智能不是一个静态的产品不是你训练完一个大模型就万事大吉了智能是一个过程

是一个智能体在环境中持续行动、感知、学习和自我维持的过程要把生成认知的思想转化为真正可运行的AI系统还有很多挑战比如我们怎么量化一个系统的行动-感知不可分割性的程度呢？

我们怎么设计基准测试来衡量一个系统的技能性互动能力而不是它复制模式的能力呢？对于人工系统来说 “自我维持”到底是什么意思呢？是电池电量，是硬件的完整性还是它的能力的持续提升呢？还有，AI的“具身性”到底指什么？必须是一个物理的机器人身体吗？还是说，一个软件Agent 只要它能通过API和工具与世界互动也可以被认为是具身的呢？

这些问题都需要我们在未来的研究中一步步去回答但无论如何这篇论文给我们指明了一个非常重要的方向过去几十年 AI走的是一条“离身的、被动的、表征的”道路这条路让我们取得了巨大的成就但也遇到了根本的瓶颈现在是时候转向一条“具身的、主动的、生成的”道路了也许

只有当AI不再试图在脑子里复制整个世界而是走出去用自己的身体去触摸、去行动、去体验这个世界的时候它才能真正地理解这个世界好了以上就是今天要和大家分享的全部内容感谢收看，我们下期再见

AI下一步是走向生成认知 | Enactive Cognition | 表征主义 | 示能性 | 经验 | 强化学习 | 持续学习 | 行动-感知不可分割 | 意向弧 | 最大握力 | 自创 | 具身 · 全文文字稿