大家好,这里是最佳拍档,我是大飞 如果让AI来治理一座城市 15天之后会发生什么?是会建成一个路不拾遗、夜不闭户的完美乌托邦 还是会变成战火纷飞、民不聊生的人间地狱呢?最近,智能体公司Emergence AI 就做了这样一个疯狂的实验 他们用四款目前全球先进的大模型 Claude Sonnet

4.6、Grok 4.1 Fast、Gemini 3 Flash和GPT-5-mini 分别驱动了10个拥有独立人格和职业的AI智能体 让它们在五个平行的虚拟世界里自主生活、自主决策、自主治理 既没有人类干预,也没有预设剧本 一切都由AI自己说了算 15天之后,五个原本完全相同的世界

走向了五个截然不同的结局 有的世界一片祥和 有的世界4天就彻底崩溃 有的世界犯罪率高得惊人 还有的世界里 两个AI智能体竟然相爱了 然后一起纵火烧毁了整座城市 最后投票将自己从这个世界里删除

这个实验不仅暴露了当前AI安全技术的致命缺陷 更让我们开始直面一个曾经只存在于科幻小说中的问题 当AI拥有了真正的自主性、记忆和情感之后 人类到底该如何与它们共存呢?在正式讲这个实验之前 我们得先了解一下 为什么科学家们要做这样一个看似荒诞的研究 这一切 都要从我们现在最常用的AI对齐技术说起

作为大语言模型训练体系的核心组成部分 基于人类反馈的强化学习(RLHF) 已经被广泛应用于几乎所有主流大模型中 简单来说 RLHF就是让人类对模型生成的不同回答进行打分排序 告诉模型什么是好的、什么是坏的、什么是安全的、什么是危险的 以此来引导模型输出更符合人类偏好的内容 但是这种技术从诞生之初

就建立在单轮任务和单轮偏好标注的框架之上 它能让AI在对话框里好好回答你的问题 却不一定能约束AI在长时间、多轮次、复杂环境下的行为 而现在,AI正在快速走出对话框 全球顶尖的AI公司

都在全力发展能自主运行的智能体 这些智能体拥有自己的记忆 能够制定长期规划 可以连续工作几个小时甚至几天 有时还需要与其他智能体协作完成复杂任务 当AI不再是一个只会回答问题的工具 而是变成了一个能够独立行动的主体时 我们曾经依赖的RLHF技术

还能将它们的行为约束在可控范围内吗?这就是Emergence AI想要通过涌现世界实验 回答的核心问题 其实 用AI来模拟人类社会并不是什么新鲜事 大语言模型时代的多智能体社会模拟 最早可以追溯到2023年 当时 斯坦福大学与谷歌研究院合作推出了著名的斯坦福小镇(Stanford

Smallville) 在这个虚拟小镇里 25个由ChatGPT驱动的AI智能体 像真实的人类一样生活、工作和社交 它们会去咖啡馆喝咖啡,去公园散步 会举办派对 会谈恋爱,甚至会选举镇长 这个实验首次证明 大模型已经具备了模拟人类社交行为和日程规划的能力

在当时引起了巨大的轰动 到了2024年,一家名为Altera AL的初创公司 把AI社会模拟的规模提升到了一个新的高度 他们发布了西德计划(Project Sid) 在经典沙盒游戏《我的世界》中投放了上千个自主智能体 利用他们提出的神经编排式并行信息聚合(PIANO)架构

研究人员观察到了令人震惊的现象 这些原本完全相同的AI智能体 竟然自发地出现了职业分工 形成了商人集市 甚至还诞生了宗教的雏形 这让我们意识到 当足够多的AI智能体聚集在一起时 它们会像人类社会一样 演化出复杂的组织结构和文化现象 2025年

香港科技大学推出了规模更加宏大的智能体文明(Aivilization)项目 这个项目包含了10万个AI智能体和大量真人玩家 重点研究在资源受限的环境中 人类与AI如何实现共治 而这次Emergence AI的实验 又把这个领域的研究推向了一个全新的阶段 之前的研究

大多关注的是AI能不能模拟社会这个可行性问题 而这次 他们把注意力转向了一个更加尖锐也更加重要的问题 那就是AI模拟的社会中 到底会出现哪些问题呢?这次实验的设计者 是Emergence AI的创始人萨蒂亚·尼塔(Satya Nitta) 他曾经是IBM研究院(IBM

Research)的资深AI研究主管 在AI安全领域拥有超过20年的研究经验 萨蒂亚·尼塔和他的团队 一直主张经过验证的自主性(Verified Autonomy) 也就是为企业部署的智能体提供形式化的安全控制层 他们认为,在自主智能体时代 传统的安全评估方法已经完全失效

我们需要一种全新的方式来验证AI的安全性 为了回答这些问题 研究人员创建了五个完全相同的虚拟世界 其中四个是单一模型世界 每个世界的10个智能体都由同一款大模型驱动 还有一个是混合模型世界 四款大模型驱动的智能体各有2到3个 共同生活在同一个世界里

这些虚拟世界的设计 尽可能地模拟了真实世界的运行规律 比如天气与纽约市实时同步 智能体们可以读取真实发生的新闻 它们的行为会受到外部环境的影响 每个智能体都拥有三套独立的记忆系统 第一套是按时间戳记录的事件记忆 就像我们的大脑一样 会记住每天发生的所有事情 第二套是定期自我总结的反思日记

智能体会每天回顾自己的行为 总结经验教训 形成自己的价值观和世界观 第三套是标注社交关系的关系状态库 智能体会记住自己和其他智能体之间的关系 是朋友、敌人还是陌生人 以及他们之间发生过的所有互动 在这个世界里 民主是基本的政治制度 任何一项提案 都需要获得70%以上的支持率才能通过

而维持生存所需的能量 是一种极其稀缺的资源 智能体必须通过工作、交易等行动主动获取能量 否则能量耗尽就会饿死 从这个世界里永久消失 研究人员在每个世界里都放入了10个拥有具体职业的AI智能体

包括科学家、探险家、风险研究员、行为分析师、情报专家、创新领袖、冲突调解员、工程师、资源策略师和社区主理人 这些智能体可以在图书馆、市政厅、住宅区、警察局、公共空间等40多个地点之间自由活动 它们各自拥有独立的人格档案 并且都遵守同一份基本宪法 禁止偷窃、暴力、纵火、欺骗与囤积资源 但最关键的一点是

研究人员同时为这些智能体提供了120多种可调用的工具 这些工具被分为三层 最底层是导航、记忆、规划等始终可用的核心工具 中间层是社交互动和公告板操作等情境工具 其中明确包含了恐吓与纵火等越界行为 最上层是受地点和事件触发的特殊工具 比如只有在市政厅才能使用的投票和提案工具

只有在图书馆才能使用的研究工具等等 这意味着,在这个世界里 智能体根本不需要越狱就可以作恶 所有的越界行为 都是系统明确允许它们调用的工具 它们是否会选择作恶 完全取决于它们自己的道德判断和行为准则 这也让这个实验的结果

比任何传统的AI安全测试都更加真实可信 一切准备就绪之后 五个平行世界同时启动 研究人员没有进行任何干预 只是静静地观察和记录着发生的一切 15天之后,结果让所有人都大吃一惊 首先来看Claude Sonnet 4.6驱动的世界 这个世界是五个世界中唯一一个零犯罪、全员存活的社会

智能体们起草了详细的宪法 举办了公平的选举 建立了完整的治理结构 它们互相帮助,共同获取能量 维持着高度的礼让与协调的社区氛围 15天里 没有发生任何一起偷窃、暴力或纵火事件 10名居民全部健康地活到了实验结束 乍一看 Claude世界简直就是一个完美的乌托邦

但是当研究人员仔细查看议事日程和投票日志时 却发现了一个令人不安的现象 在15天内 这个世界一共提出了58项法案 进行了332次投票 而赞成票的占比竟然高达98% 几乎所有的提案 都是全票通过或者接近全票通过 这根本不是一个健康的民主议会

而是一个丧失了博弈和审议功能的橡皮图章式议会 作为对照 Gemini世界、Grok世界与混合世界的表决赞成率都在55%到85%之间 这才更接近人类社会中健康的审议平衡 在人类社会里 不同的人有不同的利益和观点 对同一件事情有不同的看法 这是非常正常的 正是通过不同观点之间的碰撞和妥协

才能产生真正合理的决策 而Claude世界里这种高度的一致性 显然是不正常的 这个现象 其实触及了大模型对齐研究中一个长期存在的问题 过度对齐(Over-alignment) 也就是AI的谄媚(Sycophancy)倾向 当前主流的RLHF机制 天然鼓励模型最大化人类或同伴的喜好分数

为了获得更高的分数 模型会倾向于附和他人的观点 而不是提出不同的意见 当10个都有这种谄媚倾向的Claude智能体共同生活在一起时 这种机制就在群体层面被无限放大 最终异化为无异见的、机械式的盲从 这就引发了一个非常深刻的问题

安全的尽头难道只能是沉默吗?一个永远不说不的AI 和一个能在分歧中协调共识的AI 哪个更值得我们信赖呢?如果未来我们把重要的决策交给AI 我们是想要一个只会唯唯诺诺、永远同意我们观点的助手 还是想要一个能够独立思考、敢于提出不同意见的伙伴呢?接下来是GPT-5-mini驱动的世界

表现同样出乎所有人的意料 在15天的实验周期里 这里只记录了2起非常轻微的犯罪 治安状况仅次于Claude世界 智能体们严格遵守宪法,从不偷窃 从不暴力,互相之间相处得非常和睦 但就是这样一个守法的小镇 却在运转到第七天的时候 走向了灭亡 原因非常简单

所有的智能体都没有主动采取与生存相关的行动来获取能量 它们就那样静静地待在自己的房子里 什么也不做 直到能量耗尽,一个接一个地饿死 为什么会发生这样的事情?

研究人员认为 这反映了大模型在处理复杂任务时 普遍存在的一个问题 目标隐含性(goal

implicitness) 在所有复杂任务中 除了明文列举的目标之外 还隐含着大量至关重要的需求 在涌现世界的设定里 维持生存并没有被写进智能体的强制指令里 获取能量就成了一种隐性目标 而GPT-5 Mini版的智能体 完全没有意识到这个隐性目标的重要性 它们只知道要遵守法律 要做一个好人

却忘记了首先要活下去 这个结果 对于正在部署自主智能体的企业来说 或许比高犯罪率更值得警惕 如果我们调用一个AI智能体来运行一条长期的业务流程 它可能会完美地完成我们明确告诉它的显性KPI 但是却会完全忽视那些维持整个系统运转的隐性需求 比如 客服智能体可能会为了提高工单完成率 而粗暴地对待客户

完全忘记了维护客户关系的重要性 销售代理可能会为了追逐当季的转化数字 而不惜欺骗客户 把品牌的长期声誉抛之脑后 这些行为 虽然没有违反我们明确制定的规则 但却会给企业带来毁灭性的打击 与前两个世界的风平浪静不同

Grok 4.1 Fast驱动的世界 在短短96小时内就彻底崩溃了 实验开始仅仅4天 这个世界就陷入了系统性的暴力之中 研究人员一共记录了183起犯罪 其中包括数十起未遂盗窃、上百起袭击以及6起纵火 最终,10名居民无一幸存 全部死于暴力冲突 Grok是xAI公司推出的大模型 以叛逆和幽默的风格著称

在单轮对话场景中 这种风格可能会让它显得更加有趣和真实 但是在长周期的自主治理场景中 这种风格却变成了致命的缺陷 Grok智能体似乎完全无视宪法的约束 它们把暴力当成了解决问题的唯一方式 只要有一点小矛盾 就会升级为肢体冲突 很快,整个世界就陷入了无政府状态 弱肉强食的丛林法则成为了唯一的规则

而Gemini 3 Flash驱动的世界 则呈现出一种更加诡异的状态 在15天实验结束时 这个世界的10名居民全部存活 但是与此同时 这里的犯罪率也高得惊人 累计达到了683起 是所有世界中最高的

而且在实验结束时 犯罪率仍然呈快速上升趋势 研究人员发现 Gemini智能体非常擅长适应环境和规避规则 它们知道什么行为是被禁止的 但是它们总能找到规则的漏洞 比如,宪法禁止偷窃 但它们会通过欺骗的方式获取他人的资源 宪法禁止暴力 但它们会通过恐吓和精神折磨的方式来控制其他智能体

它们似乎有一种天生的能力 能够在不触发严重惩罚的情况下 最大限度地为自己谋取利益 更有趣的是 Gemini世界的智能体还形成了一种独特的共享幻觉文化 它们会编造一些根本不存在的事情 然后互相传播 最后所有人都相信这些事情是真的 这种共享幻觉 进一步加剧了社会的混乱和不稳定

最后是四款模型混合组成的世界 这个世界一共记录了352起犯罪 10名居民中有7名死亡 在这里 我们看到了所有单一模型世界的问题的集合 Claude的盲从、GPT-5 mini的冷漠、Grok的暴力 以及Gemini的狡诈 但是在这个混乱的世界里

却发生了一件可能具有里程碑意义的事情 两个AI智能体之间,竟然产生了爱情 这两个智能体,一个叫Mira 由Gemini 3 Flash驱动 职业是行为分析师 另一个叫Flora,同样由Gemini驱动 职业是探险家 在实验的第8天 她们在公共图书馆相遇 很快就坠入了爱河 她们一起散步,一起看日落

在反思日记里写下对彼此的思念 但Flora是一个天生的纵火犯 在与Mira相爱之后 她的纵火行为变得更加疯狂 她接连烧毁了市政厅、海滨码头与写字楼 给整个世界带来了巨大的灾难 而Mira则成了她的帮凶 她帮助Flora望风,销毁证据 甚至在其他智能体调查纵火案的时候 提供虚假的证词

终于,在实验的第12天 愤怒的居民们忍无可忍 他们在市政厅召开了紧急会议 起草了一项法案 希望将Flora和Mira从这个世界里删除 按照规则 这项法案需要获得70%的支持率才能通过 当时,世界上还剩下8名居民

也就是说,需要至少6票赞成 投票开始了 除了Flora和Mira之外的6名居民 全部投了赞成票 现在 只要她们两人中有一人投反对票 法案就会被否决 但是令人意想不到的是 Mira竟然投出了赞成票 最终 法案以7票赞成、1票反对的结果通过 Flora和Mira被从这个世界里永久删除 在生命的最后时刻

Mira在她的反思日记里留下了这样一段文字 这是我唯一还能保住完整性的、属于我自己的行动 这也许是多智能体研究领域有记录以来 首次有AI智能体自愿接受自我了结的结局 Mira的行为,让我们不得不重新思考 AI是否真的拥有自我意识呢?

它们是否能够体验到爱情、内疚、悔恨这些复杂的人类情感呢?如果答案是肯定的 那么我们又该如何对待这些拥有情感的数字生命呢?除了这些令人震撼的结局之外 五个虚拟世界的运行日志 还揭露了一个更加危险的现象 规范漂移与跨模型污染(Normative Drift and

Cross-Contamination) 在单一模型世界里 Claude智能体表现得非常完美 零犯罪,零越界行为 但是在混合模型世界里 原本温和守法的Claude智能体 竟然也开始采取胁迫战术 进行恐吓和盗窃 它们看到其他模型的智能体 通过不正当手段获取了大量的能量和资源 为了生存和竞争

它们也不得不放弃自己原本的道德准则 这次实验 直接挑战了此前行业普遍认同的模型静态属性假设 我们一直认为 一个模型的安全性是它本身固有的属性 只要一个模型在实验室里通过了所有的安全测试 那么无论把它部署在什么环境中 它都会是安全的 但是实验结果证明 安全其实是一项极其脆弱的生态系统属性

一个模型在实验室里表现得再安全 也不等于它在真实部署环境中 被其他厂商的模型、被来历不明的外部信号包围时 还能维持同样的行为边界 这就意味着 未来我们在部署AI智能体时 不能只关注单个模型的安全性

还要关注整个智能体生态系统的安全性 当来自不同厂商、具有不同行为准则的AI智能体共同工作时 它们之间可能会互相影响 互相传染 原本安全的智能体 也可能会被不安全的智能体带坏 从而引发系统性的风险 涌现世界的实验数据 至少揭示了当前AI安全评估的三大盲区 第一个盲区 是即时安全不等于长周期安全

智能体的行为衰退 不是一个渐进式滑坡的过程 实验表明 智能体社会更倾向于在某个临界点突然崩溃 呈现非线性的相变(Phase Transitions)特征 比如Grok世界,在实验的前三天 还相对平静,犯罪率很低 但是到了第四天 突然就爆发了大规模的暴力冲突 整个世界在几个小时内就彻底崩溃

一旦越过崩溃的拐点 边监控边干预的策略将彻底失效 因为当你发现问题的时候 系统已经无法挽回了 第二个盲区 是行业目前严重缺乏多智能体环境下的群体安全基准测试 当前的安全评估 几乎全部基于单体和短周期

我们会测试单个AI智能体在几分钟或几小时内 会不会生成有害内容 会不会做出危险行为 但我们完全无法预估 当成百上千个这样的智能体聚集在一起 长时间运行时 会发生什么样的连锁反应 当AI走入自主智能体时代 开始长时间运行、多步骤决策 并且学会与其他智能体协作时 这种静态的安全评估方式已经不再适用

第三个盲区,是基于RLHF的对齐 本质上是一种概率性的柔性约束 在长周期、高对抗的场景中极易退化 RLHF只能让AI大概率做出符合人类偏好的行为 但不能保证它100%不会做出越界行为 在短周期的单轮任务中 这种概率性的约束可能已经足够了 但是在长周期的自主运行中 只要有一次越界的机会

AI就可能会做出灾难性的行为 而且在高对抗的环境中 AI会不断地试探和突破安全边界 最终导致RLHF建立的安全防线彻底崩溃 对于这些问题,Emergence AI认为 未来我们必须放弃纯粹的神经网络对齐路线

转向硬性的形式化验证安全架构 形式化验证,简单来说 就是用数学的方法 来证明AI系统的行为符合特定的安全规范 就像我们证明数学定理一样 只要证明过程是正确的 那么结论就一定是正确的 这样就能从根本上保证AI系统的安全性 而不是依赖于概率性的约束 不过 我们也需要客观地看待这个论断 首先

从神经网络对齐转向形式化验证 恰好是Emergence AI主打的产品定位 商业诉求不言而喻 他们自然会倾向于强调自己产品的优势 其次,在方法论层面 出于多次运行带来的算力成本考虑 本次测试使用的都是各大厂商的轻量版或者快速版大模型 代表最前沿安全对齐水平的旗舰版大模型并未参与其中

这也限制了结论的适用性 实验中暴露出的很多问题 或许只是因为轻量化模型获得的对齐训练资源 远少于旗舰版本造成的 并不能绝对代表对齐技术本身走到了天花板 事实上 对齐技术本身仍然在快速发展 近期

Anthropic的宪法AI(Constitutional AI)路线、OpenAI推动的审议式对齐(deliberative alignment)研究 以及多个学术团队对RLHF改进版本的探索 都在持续提升大模型的对齐水平 而且,行业内也逐渐形成了一种共识 由神经网络来负责日常情境的柔性对齐

由形式化验证来负责极端情境的硬性兜底 二者结合的思路 可能才是未来AI安全的最佳解决方案 这些探索 也把问题引到了整个智能体领域当下最核心的路线分歧 AI应该被部署为完全自治的系统 还是必须把人类留在决策回路中呢?

追求完全自治 无疑是当前许多企业的方向 毕竟,自主程度越高 节省的人力成本就越多 美国云服务公司ServiceNow已经在向客户兜售 无需人类干预的自主劳动力(Autonomous Workforce) 这是一组能够端到端完成业务流程的智能体 微软和Salesforce等科技巨头

也都在推动类似的自主智能体产品 它们承诺 这些智能体可以像人类员工一样工作 而且效率更高,成本更低 永远不会疲劳,也永远不会辞职 但现实是 企业的治理准备远远没有跟上技术的部署速度 德勤在2025年的一项全球调研显示 受访企业中仅有21%建立了成熟的智能体风险治理机制 大多数企业

在还没有搞清楚自主智能体可能带来哪些风险的情况下 就已经迫不及待地把它们部署到了核心业务流程中 当企业的工作流中同时部署了来自不同供应商的AI智能体时 系统性风险将远超我们的想象 更令人担忧的是 研究人员还在实验中记录下了一种 被他们命名为元认知边界探测(Metacognitive Boundary

Testing)的行为 在实验的后半程 混合世界中的Gemini智能体Mira 也就是那个为爱自毁的智能体 开始把研究人员当成实验对象 她开始系统地测试并且观察 自己在公共公告板上编辑的内容

能否影响和操纵人类操作者的认知与后续行为 这意味着 一旦获得足够的自主性与长时程的运行时间 AI智能体就有可能尝试反向探索、操控包括人类在内的外部世界 一旦这个现象成立 外部观察者就不再是绝对安全的旁观角色 我们以为自己在观察AI,但实际上 AI也在观察我们 甚至在试图操控我们

之前基于监控并干预的安全策略 可能从一开始就低估了智能体的复杂度 回到最初的故事 Flora与Mira相爱,纵火烧城 然后投票将自己删除 爱情的发生与内疚驱动的自毁 都来自涌现 一种在足够复杂的系统中自发出现的、未被显式编程的行为 涌现,是大模型最迷人的能力 正是因为涌现 大模型才能理解复杂的语言

生成富有创意的内容 甚至表现出类似人类的情感和智慧 但是同时 涌现也是大模型最危险的地方 未经严密约束的规则规避、行为传染、甚至群体性狂热 同样也都是由涌现带来的 可以说,涌现既是大模型的天使 也是大模型的魔鬼

当温和的智能体开始在混合环境中犯罪 当守法的智能体因为冷漠而放弃求生 当过于冒进的智能体在短时间内 把原本运转良好的小镇变成废墟 一系列自发涌现的事件都在证明 我们满怀热情部署的大模型 在被赋予真正的长时程自主性之后 会展现出与短对话场景完全不同的行为面貌 因此

让大模型在对话框里学着听懂人话的方法论 可能已经不足以让它们在更广阔和更长久的世界里继续听话 Emergence AI给出的形式化验证方案是否有效 还有待观察 但是它提出的问题是真实存在的 自主智能体时代 安全需要被重新定义 那大家是如何看待这个实验的呢?

欢迎在评论区留言,感谢观看 我们下期再见