大家好,这里是最佳拍档,我是大飞 很多AI行业内的大佬都预测 AGI能可能会在未来三到五年内实现 我们这代人将有幸见证人类历史上最伟大的技术革命 但是,一个最根本、最核心的问题 其实从来没有被真正回答过 这个问题就是 这些运行在全球各地服务器里的AI 它们真的理解这个世界吗?或者说
它们展现出来的那些令人惊叹的所谓智能 和我们人类、和所有生物在真实物理世界中生存了几十亿年进化出来的认知能力 在本质上是同一种东西吗?
这个问题不是一个哲学上的文字游戏 它直接关系到AI未来的发展方向 如果现在的AI已经拥有了真正的理解能力 那我们只需要继续沿着当前的路线走下去 不断扩大模型规模,AGI自然就会到来 但如果它们没有 如果它们只是在模仿人类的行为 只是在统计数据里的模式 那无论我们把模型做多大 都永远不可能达到真正的通用智能 就在最近
强化学习之父、2017年图灵奖得主理查德·萨顿(Richard S.Sutton) 和独立研究者巴纳夫谢·拉菲(Banafsheh Rafiee)共同发表了一篇重磅论文 标题就叫《走向生成式人工智能》(Toward Enactive Artificial Intelligence)
这篇论文可以说是对当前整个主流AI范式的一次系统性、根本性的反思和批判 萨顿作为强化学习领域的奠基人 从认知科学最基础的问题出发 告诉我们一个残酷的真相 现在的AI之所以还没有真正的理解 是因为它们从一开始就走在了一条错误的道路上 也就是所谓的被动表征主义路线 而AI的下一步
必须彻底转向生成认知(Enactive Cognition)的方向 也就是让Agent通过与环境的主动互动、具身行动和自我评估 来生成属于自己的经验和对世界的理解 要理解生成认知(Enactive Cognition)到底是什么
我们首先要搞清楚它反对的是什么 也就是主流AI所依赖的表征主义范式 表征主义的思想可以追溯到古希腊的柏拉图 但它真正成为现代认知科学和AI的基础 是从20世纪50年代的认知革命开始的 简单来说,表征主义认为 认知的过程就是一个信息处理的过程 外部世界的信息通过我们的感官进入大脑
大脑把这些信息加工成内部的表征 也就是世界的一个副本 然后我们基于这个内部副本进行推理、决策和规划 最后输出行动 在这个框架下,感知是行动的前提 是一个完全被动的过程 你先看见一个东西 然后识别它是什么 然后再决定怎么处理它 智能的高低 就取决于你的内部表征有多准确
能不能完美地复刻外部世界的所有细节 这个观点听起来非常符合我们的直觉 也正是现在几乎所有AI系统的设计基础 比如我们的计算机视觉系统 就是先给它看几百万张标注好的图片 让它提取出物体的特征 比如猫的尖耳朵、圆眼睛、胡须 然后构建一个猫的内部表征
以后再看到有这些特征的图像 它就会输出 这是一只猫 再比如大语言模型 它通过学习海量的文本数据 构建了一个关于语言和世界知识的内部表征 然后基于这个表征来生成文本、回答问题 但是,生成认知完全反对这种看法 它认为 认知不是对一个预先存在的客观世界的内部复制 而是在具身主体与环境的互动过程中
被“生成”出来的 也就是说 世界本身并没有固定的、等待被发现的意义 意义是Agent在行动中创造出来的 你对世界的理解 不是你脑子里的一个静态模型 而是你能和世界进行有效互动的能力 举个最简单的例子,你看到一把椅子 在表征主义看来 你识别出这是一把椅子 是因为你脑子里有一个“椅子”的内部表征
你把眼前的物体和这个表征进行了匹配 但是在生成认知看来 你知道这是一把椅子 是因为你知道你可以坐在上面 可以把它搬起来,可以把它当桌子用 可以站在上面够高处的东西 所有这些关于你能对它做什么的知识 加起来
就是你对椅子的理解 如果没有这些行动的可能性 椅子这个概念对你来说就没有任何意义 生成认知的思想有着非常深厚的哲学和科学基础 它最早可以追溯到现象学 埃德蒙德·胡塞尔(Edmund Husserl)就认为 感知不是在头脑中构建世界的模型 而是主体在生活经验中直接与世界相遇
我们感知到的不是物体的抽象特征 而是物体本身 马丁·海德格尔(Martin Heidegger)进一步提出了“在世存在”的概念 他说我们不是一个脱离世界的、冷静的观察者 而是一开始就沉浸在有意义的实践情境中 我们不是先感知世界 然后再解释它的意义 而是意义从一开始就存在于我们和世界的互动之中
莫里斯·梅洛-庞蒂(Maurice Merleau-Ponty)更是把身体放到了认知的核心位置 他说身体不是我们拥有的一个物体 而是我们体验世界的媒介 所有的感知、所有的思想、所有的情感 都离不开身体的运动和体验 在心理学领域
也有很多和生成认知相通的思想 格式塔心理学认为 我们的感知不是被动地接收刺激 而是主动地组织这些刺激 形成一个整体的经验 库尔特·戈尔茨坦(Kurt Goldstein)在研究脑损伤病人的时候发现 有机体的行为是一个整体的适应反应 而不是一系列孤立的内部计算 詹姆斯·吉布森(James
Gibson)提出的生态心理学 更是直接影响了生成认知的发展 吉布森认为 我们感知的不是环境的物理特征 而是环境提供给我们的行动可能性 他把这个叫做“示能性”(Affordance) 比如,地面提供了行走的可能性 杯子提供了抓握的可能性 楼梯提供了攀登的可能性 这些示能性不是物体本身固有的属性
而是物体和智能体的身体能力之间的关系 1991年 弗朗西斯科·瓦雷拉(Francisco Varela)、埃文·汤普森(Evan Thompson)和埃莉诺·罗施(Eleanor Rosch)出版了《具身心智》这本书
正式提出了“生成主义”(Enactivism)的框架 标志着生成认知作为一个独立的研究领域的诞生 后来 凯文·奥雷根(Kevin O'Regan)和阿尔瓦·诺埃(Alva Noë)又发展出了传感器运动偶联理论 进一步完善了生成认知的感知理论 他们认为 感知就是掌握行动如何改变感官输入的规律
也就是传感器运动偶联 感知不是发生在你脑子里的事情 而是你做的事情 萨顿和拉菲在他们的论文里 从这些丰富的思想中 提炼出了四个对AI来说最关键的核心概念 也就是生成认知的四大支柱 经验、行动-感知不可分割性、自主性和具身性 接下来,我们就一个一个地详细讲解 看看它们到底是什么意思
以及它们对当前的AI有什么样的批判和启示 第一个支柱,也是最基础的一个 就是经验 在生成认知的框架里 经验和我们平时说的经验 以及机器学习里说的经验 是完全不同的概念 它不是指你过去经历过的事情的集合
也不是指用来训练模型的数据集 真正的经验 是Agent和环境之间持续不断、相互影响的实时互动过程 生成认知认为 世界不是一个静态的、固定的物体 而是一个动态的、无限复杂的可能性空间 你做不同的动作 世界就会向你展现不同的面貌 没有任何一个有限的内部模型 能够捕捉到世界的全部可能性
无论你的模型有多复杂,有多庞大 它永远都是对真实世界的一个简化和近似 所以 机器人学家罗德尼·布鲁克斯(Rodney Brooks)才会说那句流传甚广的名言 世界本身就是它最好的模型 最准确、最新鲜、最详细的信息 永远都在世界本身里 而不是在你的脑子里 你不需要把整个世界都装进去
你只需要保持和世界的持续互动 需要什么信息,就实时去获取 而且,生成认知所说的经验 还有三个非常重要的特点 技能性、规范性和具身性 首先是技能性,通过持续的互动 Agent会获得各种技能 而这些技能会反过来塑造它对世界的感知
比如一个熟练的自行车手 他看到的路和一个新手看到的路是完全不一样的 新手看到的是到处都是障碍物 到处都是危险 而老手看到的是一条条可以流畅骑行的路线 世界对他来说 呈现出了更多、更精细的行动可能性 其次是规范性,经验不是中立的 Agent的行动有成功和失败之分 有合适和不合适之分 它会根据行动的结果
不断地调整自己的行为 这种成功和失败的标准 不是外部强加的 而是从互动本身中自然产生的 最后是具身性 经验是通过身体获得的 你的身体能做什么,不能做什么 决定了你能有什么样的经验 用这个标准来衡量,我们会发现 主流AI在很大程度上是完全缺乏真正的经验的 最早的经典规则式AI 也就是专家系统
完全没有经验的概念 它们只是按照人类写好的规则 进行符号的匹配和推理 哲学家休伯特·德雷福斯(Hubert Dreyfus)早在1972年出版的《计算机不能做什么》一书中 就尖锐地指出了这些系统的根本缺陷
它们缺乏人类那种基于身体经验的常识 人类的很多知识 都是无法用规则来表达的 都是我们在和世界的互动中潜移默化地学会的 后来的机器学习,尤其是深度学习 虽然引入了经验的概念 但它对经验的理解是非常片面的 现在的监督学习和自监督学习 依赖的都是人类预先收集和标注好的静态数据集
这些数据只是人类经验留下的痕迹 而不是AI自己的经验 就像你看了一万本关于游泳的书 看了一万个游泳的视频 你还是不会游泳 因为你没有真正下水体验过 你没有感受过水的浮力 没有体验过呛水的感觉 没有学会如何用手脚的动作来保持平衡 同样 一个大模型即使看过了所有关于“杯子”的文本和图片
它也不可能真正理解“杯子”是什么 因为它从来没有拿过一个杯子 从来没有用杯子喝过水 从来没有打碎过一个杯子 而且 监督学习把学习当成了一个一次性的过程 用一个固定的数据集训练完 模型就固定了 就可以部署使用了 但真正的经验是持续不断的
是没有终点的 你一辈子都在和世界互动 一辈子都在学习新的东西 一辈子都在调整自己对世界的理解 在所有的AI分支里 最接近生成认知经验观的 就是强化学习 强化学习把经验放在了整个学习过程的核心位置 强化学习 Agent不是被动地接收别人给它的数据 而是主动地去探索环境 做出动作,然后接收环境的反馈
再根据反馈调整自己的策略 它的数据是自己生成的 而且会随着自己能力的提高而不断改进 萨顿和大卫·西尔弗(David Silver)在2025年发表的一篇题为《欢迎来到经验时代》的文章里就说过 未来的AI 数据不再是一种静态的资源 而是Agentic能力的产物 只有通过Agent自己的经验
才能实现真正的持续进步 还有一个相关的研究方向 就是持续学习 也叫终身学习 持续学习研究的是 如何让AI能从不断变化的数据流中学习 而不会忘记之前学过的东西 也就是所谓的“灾难性遗忘”问题
这和生成认知的观点非常契合 因为世界是无限大的 也就是萨顿提出的“大世界假说”(Big World Hypothesis) 对于任何一个Agent来说 世界都比它自身大得多,复杂得多 它永远不可能见过所有的情况 所以,它必须持续不断地学习和适应 才能在这个复杂多变的世界里生存下去 接下来是第二个支柱
也是生成认知最核心的观点 行动-感知不可分割性 传统的表征主义认为 感知和行动是两个完全独立的过程 感知先于行动 你先通过感官获得信息 然后在脑子里处理这些信息 形成决策,最后再输出行动 但是生成认知说,这是完全错误的 感知和行动是相互建构、不可分割的整体 没有行动,就没有感知;
没有感知,也没有行动 感知本身就是一种行动 我们前面提到过奥雷根和诺埃的传感器运动偶联理论 这个理论是理解行动-感知不可分割性的关键 简单来说,传感器运动偶联就是指 你的行动会系统性地改变你的感官输入
而你通过掌握这些规律,来感知世界 比如视觉 我们总以为 我们的眼睛就像一个照相机 把外界的图像投射到视网膜上 然后大脑就看到了这个图像 但实际上 我们的视觉体验是由眼球、头部和身体的运动共同构成的 当你向左转动眼球的时候 视野里的所有物体都会向右移动 当你向前走的时候,物体就会变大
向后退的时候,物体就会变小 当你绕着一个物体走的时候 你会看到它的不同侧面 你之所以能看到一个三维的、稳定的世界 不是因为你的大脑计算了深度 而是因为你掌握了这些运动带来的视觉变化规律 如果你的眼球不能动 你很快就会什么都看不见 因为视网膜上的图像会变得稳定 神经细胞会适应这种不变的刺激 停止放电
再比如听觉 你能判断声音的来源 是因为当你转动头部的时候 两个耳朵接收到的声音的时间差和强度差 会发生系统性的变化 你通过转动头部,来获取这些信息 从而确定声音的位置 还有触觉,你要知道一个物体的纹理
你必须用手去摸它 不同的运动速度和方向 会在你的手指上产生不同的振动模式 你就是通过这些振动来感知纹理的 如果你的手完全不动 即使物体放在你的手上 你也很难分辨出它的纹理 诺埃在他的《行动中的感知》一书中 非常明确地指出 感知不是发生在你脑子里的事情 而是你做的事情 你看到一个物体,就意味着你知道
如果你做出某种动作 你的感官输入会发生什么样的变化 你看到一个杯子,这意味着你知道 如果你伸手去拿,你的手应该怎么动 如果你把它翻过来 它的背面会是什么样子 如果你碰它一下,它会发出什么声音 如果你把它掉在地上,它会摔碎 所有这些关于行动的可能性的知识 加起来 就是你对这个杯子的感知 在这个基础上
梅洛-庞蒂提出了两个非常重要的概念 意向弧和最大握力 意向弧指的是 理解和行动之间存在着一个正反馈的循环 你对环境的理解越深入 你就能做出越精细、越恰当的行动; 而你做出的行动越精细
就能揭示出环境更多的细节 从而进一步加深你的理解 这个循环是持续不断的,没有起点 也没有终点 比如你学开车 一开始你只能看到前面的几米路 手忙脚乱地打方向盘,踩刹车和油门 随着你越来越熟练 你开始能注意到路边的行人 远处的红绿灯,甚至旁边车辆的意图 你的行动变得越来越流畅 越来越自动化
而你的感知也变得越来越敏锐 越来越全面 这个过程就是意向弧在起作用 最大握力则是指 Agent会自然地趋向一种最优的感知-行动状态 在这种状态下 你的身体和环境是完全对齐的 你的感知最清晰,行动最有效 比如你看一个很小的字 你会不自觉地眯起眼睛 凑过去 你听一个模糊的声音,你会歪着头 竖起耳朵
你拿一个易碎的东西 你会不自觉地握紧手 这些都是你的身体在自动调整 以达到最大握力的状态 这个过程不需要任何有意识的思考 是身体的一种本能反应 当你偏离这个最优状态的时候 你会感觉到一种身体上的紧张
而当你回到这个状态的时候 你会感觉到一种放松和满足 用这个标准来衡量,我们会发现 现在的主流AI几乎完全割裂了行动和感知 几乎所有的AI系统 都是按照感知-处理-行动的线性流程设计的 先有一个感知模块,负责处理输入 生成内部表征 然后有一个决策模块 基于这个表征做决定 最后有一个执行模块,输出行动
这种模块化的设计 从根本上违背了行动-感知不可分割的原则 最典型的例子就是现在的视频生成模型 比如Sora 它们能生成非常逼真的视频 能预测物体的运动、光影的变化、甚至红绿灯的顺序 但这只是它们在训练数据里学到的统计规律 它们并不真正理解这些规律背后的物理机制 比如
一个视频生成模型能准确预测红绿灯会从绿色变成黄色 再变成红色 但是如果红绿灯坏了,一直亮着红灯 它就不知道该怎么办了 它不会想到可以去按行人过街按钮 不会想到可以绕路 更不会想到可以打电话报修 因为它从来没有真正和红绿灯互动过
它只是见过别人和红绿灯互动的视频 它能预测规律,但不能干预规律 不能在规律被打破的时候 主动去探索和解决问题 这就是纯观察系统和生成式系统的本质区别 一个纯观察系统 只能继续它在数据里学到的模式 一旦模式断裂,它就会崩溃 而一个生成式系统,不仅能预测模式 还能通过行动来检验模式
修改模式,甚至创造新的模式 它知道如何在不确定性中行动 如何在失败中学习 当然,在AI的历史上 也有很多研究者意识到了行动-感知耦合的重要性 并且做了很多开创性的工作 早在1987年 菲利普·阿格雷(Philip Agre)和大卫·查普曼(David Chapman)就开发了一个叫做Pengi的系统
这个系统没有明确的内部世界模型 也没有复杂的规划算法 它只是由一系列紧密耦合的感知-行动循环组成 但却能在一个动态的游戏环境中 实现非常复杂的行为 1991年 达纳·巴拉德(Dana
Ballard)提出了“主动视觉”的概念 他指出,视觉不是被动地编码图像 而是主动地移动眼睛和身体 去获取任务相关的信息 我们的视觉系统 本质上是一个信息采集的工具 而不是一个图像识别的工具 罗德尼·布鲁克斯(Rodney Brooks)在1991年发表的《无表征智能》一文
更是对传统的表征主义范式提出了最猛烈的挑战 他开发的机器人,没有中央处理器 没有统一的世界模型 只是由一系列分层的、独立的传感器-运动器组成 但这些机器人却能实现行走、避障、探索、甚至收集物体等复杂行为 布鲁克斯认为,智能是涌现出来的 是从Agent和环境的持续互动中产生的
而不是从内部的符号操作中产生的 后来,又出现了很多形式化的框架 试图把行动和感知统一到一个单一的循环里 比如预测编码 它认为大脑的工作原理就是不断地预测感官输入 然后通过行动来最小化预测误差 还有主动推理
它把感知和行动都统一到了最小化自由能的目标之下 还有通用价值函数、预测状态表征、世界模型等等 这些框架都在不同程度上体现了行动-感知耦合的思想 在近期的研究中 萨顿还在2022年提出了STOMP框架 这个框架让Agent能够学习不同的子任务 每个子任务都能最大化感知的某个方面
随着Agent在每个子任务上的进步 它对行动如何影响感知的理解也会变得更加精细 而这又会进一步提高它的行动能力 这就形成了一个行动和感知相互促进的反馈循环 和梅洛-庞蒂所说的意向弧几乎是一模一样的 还有马查多(Machado)等人在2023年的工作
他们让Agent的环境表征和行为策略在持续的互动中共同进化 更好的表征能带来更好的行为 而更好的行为又能带来更好的表征 还有很多研究者在把吉布森的示能性理论引入强化学习 让Agent学习在不同的情境下 哪些行动是可行的,哪些是不可行的 从而实现更有选择性、更有技能性的行为
第三个支柱,是自主性 生成认知认为 Agent不是一个被动响应外部刺激的机器 而是一个自我组织、自我维持的系统 自主性是智能的核心特征 生成认知所说的自主性 和我们平时说的“这个机器人很自主”不是一个意思 它的基础是“自创”(Autopoiesis)这个概念
自创最早是由智利生物学家温贝托·马图拉纳(Humberto Maturana)和弗朗西斯科·瓦雷拉(Francisco Varela)提出的 简单来说,一个自创的系统 就是一个能够自己生产和维持自己组织结构的系统 比如一个活细胞 它能自己合成蛋白质、复制DNA、维持细胞膜的完整性、调节内部的化学反应
它的所有活动 最终都是为了维持自己的生存 如果这个过程被打断,细胞就会死亡 对于更复杂的生物来说 自主性就表现为有自己的目标和需求 感知不是中立的 而是由这些目标和需求塑造的 世界上的事物 只有当它们关系到你的生存和目标的时候
才会对你有意义 比如,对于一只兔子来说 草是有意义的,因为它能吃 狐狸是有意义的,因为它会吃兔子; 而一块石头,除非它挡住了路 否则对兔子来说就没有任何意义 从自主性中,自然就产生了规范性 因为Agent需要维持自己的生存 所以它的行动就有了成功和失败之分 成功就是有助于维持自身组织
失败就是会破坏自身组织 这种规范性不是外部强加的 而是从Agent自身的存在中自然产生的 不需要别人教你 你就知道饿了要吃饭 渴了要喝水,遇到危险要逃跑 这些都是你的生存本能的一部分 用这个标准来衡量,我们会发现 现在的AI几乎都没有真正的自主性 首先是监督学习和大语言模型
它们完全没有自我评估的能力 一个大模型输出了一个答案 它自己不知道这个答案是对是错 必须等人类来告诉它 它的成功标准 就是和人类标注的数据尽可能一致 它没有自己的目标 也没有自己的需求 它只是在完成人类给它的任务 然后是经典的规划系统
比如早期的通用问题求解器GPS 这些系统的目标是人类预先指定的 评估就是看有没有达到这个目标 是一个二进制的是或否 它们不会在行动的过程中 持续地评估自己的表现 也不会调整自己的目标 如果目标是不可能实现的 它们就会一直尝试下去 直到耗尽资源 现代的控制和规划系统 比如自动驾驶的控制系统
有了一定的进步 它们会持续地跟踪自己的状态和目标状态的偏差 然后调整行动 这已经有了持续评估的能力 但目标还是人类设定的 比如 自动驾驶的目标是保持在车道中间 限速60公里每小时 如果路上出现了一个受伤的人 它不会停下来救人 因为救人不在它的目标列表里 它没有自己的价值判断 也没有自己的优先级
强化学习在自主性上是一个很大的进步 强化学习 Agent通过接收奖励来评估自己的行为 而且它评估的是整个行动轨迹的长期效果 而不是当前的瞬时状态 比如,一个下棋的AI 它不会因为走了一步好棋就觉得自己赢了
它会一直等到游戏结束 看最终的结果是输是赢 然后反过来评估之前的每一步棋 这是一种时间扩展的评估 非常接近生物的规范性 但是,强化学习的问题是 奖励函数还是人类写的 也就是说,什么是好 什么是坏,还是人类说了算 强化学习 Agent 没有自己的内在目标 它只是在最大化人类给它的奖励信号
这就导致了著名的“奖励对齐问题” 比如,一个清洁机器人 它的奖励函数是打扫的面积 那它可能会为了最大化奖励 反复打扫同一个地方 而不去管那些脏的地方 一个玩游戏的AI 它可能会发现一个漏洞 通过反复做一个无意义的动作 来获得无限的奖励 这些行为,在人类看来是非常愚蠢的 但对于强化学习 Agent来说
却是完全合理的 因为它只是在最大化奖励 为了解决这个问题 很多研究者开始探索更内在的评估标准 比如主动推理 它认为Agent的所有行为 都是为了最小化预期的惊讶 也就是预测误差 这个目标是内在的,不需要外部指定
还有内在动机,比如给Agent奖励 不是因为它完成了人类的任务 而是因为它学到了新的技能 或者发现了新的东西 比如,一个机器人如果学会了开门 就给自己一个奖励 不管开门有没有用 还有目标发现 让Agent从自己的经验中 自己生成新的目标 而不是只能完成人类给的目标
这些方向都在试图让AI拥有更内在的自主性 但离生成认知所说的完全自主性 也就是基于自创生的自我维持 还有很长的距离 第四个支柱 也是最容易被误解的一个 就是具身性 很多人以为 具身性就是给AI一个机器人的身体 但生成认知说,不对 具身性不是智能的可选配件 而是智能的必要前提 没有身体,就没有感知
没有认知,也没有智能 为什么这么说呢?
因为我们之前讲的传感器运动偶联 不是抽象的输入输出映射 而是根植于具体的身体的 你的身体能做什么动作 你的感官长在什么地方 你的关节能弯曲多少度 你的肌肉有多大力气
这些都决定了你能有什么样的传感器运动偶联 也就决定了你能感知到什么 比如,人类的手有五个手指 能做对掌运动,所以我们能抓握东西 世界上才有“可抓握”的示能性 如果我们的手是像钳子一样的 只有两个手指 那我们能做的动作就会少很多 我们感知到的世界也会完全不同 再比如,我们的眼睛长在前面
有双眼视觉,所以我们能感知深度 如果我们的眼睛长在两边,像马一样 那我们的视野会更宽 但深度感知会变差 我们的身高决定了我们能看到多远 我们的腿长决定了我们能走多快 我们的身体结构决定了我们能和世界进行什么样的互动 这也就是我们之前说的示能性的具身本质 示能性不是环境本身固有的属性
而是环境和智能体的身体共同创造的 同一个物体 对不同身体的智能体来说 有完全不同的意义 比如,一个台阶 高度是15厘米 对成年人来说是“可攀登的” 对一个刚会走路的婴儿来说就是“不可攀登的” 对一辆汽车来说就是“障碍物”
对一只蚂蚁来说就是一座山 所以,身体不是一个执行工具 而是一个意义生成的器官 它决定了世界如何向你呈现 也决定了你能理解什么 具身性和自主性也是紧密相关的 生成认知认为,自主性的基础是自创 而自创必须在一个身体里实现 身体是智能体和环境的边界 也是所有自我维持过程发生的场所 没有身体,就没有自我
也就没有自主性 你无法想象一个没有身体的自我 也无法想象一个没有身体的智能 用这个标准来衡量,我们会发现 现在的主流AI几乎都是完全离身的 现在的大模型 不管是语言模型还是多模态模型 都没有身体 没有感官,也不能行动 它们只能处理人类输入给它们的文本、图像和视频
这些都是已经被人类的身体过滤和加工过的信息 它们从来没有真正触摸过一个物体 从来没有感受过重力 从来没有经历过白天和黑夜的交替 从来没有感受过疼痛和快乐 所以 它们不可能真正理解“硬”是什么意思 “摔倒”是什么感觉 “时间”是怎么流逝的
“死亡”意味着什么 即使是在机器人领域 很多系统也没有真正理解具身性 它们还是用传统的模块化设计 感知、规划、控制是三个完全独立的模块 感知模块负责把摄像头的图像转换成世界模型 规划模块负责基于世界模型生成行动序列 控制模块负责执行这些行动序列 在这个设计里 身体只是一个执行上层命令的硬件平台
而不是认知的一部分 而且 现在的机器人大多是在仿真环境里训练的 仿真环境里的物理规律是简化的 没有真实世界里的摩擦力、噪声和不确定性 所以 当这些机器人被放到真实世界里的时候 往往会表现得非常笨拙 稍微遇到一点意外情况就会失败 不过,也有一些前沿的研究 正在探索具身性的真正潜力 比如软机器人学
传统的机器人都是用硬材料做的 关节是刚性的 控制起来非常复杂 而软机器人用的是硅胶、橡胶之类的软材料 它们的身体本身就能适应环境的变化 比如一个软机器人的手 不需要复杂的控制算法 只要碰到物体
它的手指就会自然地弯曲 包裹住物体 这就是“形态计算” 也就是身体的物理结构本身就能完成一部分计算 不需要大脑来干预 还有一些研究 让机器人的身体和控制算法共同进化 也就是先进化出合适的身体形态 再进化出对应的控制策略 这些研究都表明 身体不仅仅是执行工具 它本身就是智能的一部分
讲完了生成认知的四大支柱 我们再回过头来看 现在的AI和生成认知的要求 到底有多大的差距 萨顿在论文里说,在所有的AI分支里 强化学习是和生成认知最有结构共鸣的 为什么呢?
因为强化学习从一开始 就把Agent和环境的互动放在了核心位置 强化学习的基本框架 就是Agent做动作 环境返回观测和奖励 Agent根据观测和奖励调整动作 如此循环往复 这和生成认知所说的持续互动、行动-感知耦合、反馈驱动适应 在结构上是完全一致的 而且 强化学习的评估是以Agent为中心的 它关心的是Agent自己能获得多少奖励
而不是它的内部表征有多准确 但是,萨顿也非常明确地指出 这种共鸣不等于等同 当前的强化学习 离真正的生成认知还有三个关键的差距 第一个差距 就是评估标准还是外部的 强化学习的奖励函数是人类设计者写的 不是从Agent自身的自我维持过程中产生的 所以 强化学习 Agent没有真正的内在规范性
它只是在最大化外部奖励 第二个差距,行动和感知还是分离的 大多数强化学习系统 还是先处理观测,得到状态表征 然后基于状态表征选择动作 感知还是先于行动 而不是和行动融为一体 第三个差距 具身性还是被当作工程约束 而不是认知的构成要素 很多强化学习研究 尤其是在仿真环境里的研究 根本不考虑身体的影响
或者把身体简化成一个简单的执行器 所以,萨顿认为 强化学习的下一步 就是要深度融合生成认知的思想 要从外部奖励,走向内在的自我评估 要从任务驱动的学习 走向持续的生存和适应 要从单纯优化策略
走向真正的具身经验生成 当然,萨顿和拉菲的这篇论文 没有给我们提供一个现成的生成式AI的算法 也没有说AGI什么时候会到来 它给我们的,是一个全新的视角 一个重新思考AI本质的框架 它告诉我们 智能不是一个静态的产品 不是你训练完一个大模型就万事大吉了 智能是一个过程
是一个智能体在环境中持续行动、感知、学习和自我维持的过程 要把生成认知的思想 转化为真正可运行的AI系统 还有很多挑战 比如 我们怎么量化一个系统的行动-感知不可分割性的程度呢?
我们怎么设计基准测试 来衡量一个系统的技能性互动能力 而不是它复制模式的能力呢?对于人工系统来说 “自我维持”到底是什么意思呢?是电池电量,是硬件的完整性 还是它的能力的持续提升呢?还有,AI的“具身性”到底指什么?必须是一个物理的机器人身体吗?还是说,一个软件Agent 只要它能通过API和工具与世界互动 也可以被认为是具身的呢?
这些问题 都需要我们在未来的研究中 一步步去回答 但无论如何 这篇论文给我们指明了一个非常重要的方向 过去几十年 AI走的是一条“离身的、被动的、表征的”道路 这条路让我们取得了巨大的成就 但也遇到了根本的瓶颈 现在 是时候转向一条“具身的、主动的、生成的”道路了 也许
只有当AI不再试图在脑子里复制整个世界 而是走出去 用自己的身体去触摸、去行动、去体验这个世界的时候 它才能真正地理解这个世界 好了 以上就是今天要和大家分享的全部内容 感谢收看,我们下期再见