AI的涌现世界 | 让AI自我治理一个城市15天 | 四款模型 | RLHF | 有的世界一片祥和 | 有的世界彻底崩坏 | Agent相爱 | 自我了结删除

大家好，这里是最佳拍档，我是大飞如果让AI来治理一座城市 15天之后会发生什么？是会建成一个路不拾遗、夜不闭户的完美乌托邦还是会变成战火纷飞、民不聊生的人间地狱呢？最近，智能体公司Emergence AI 就做了这样一个疯狂的实验他们用四款目前全球先进的大模型 Claude Sonnet

4.6、Grok 4.1 Fast、Gemini 3 Flash和GPT-5-mini 分别驱动了10个拥有独立人格和职业的AI智能体让它们在五个平行的虚拟世界里自主生活、自主决策、自主治理既没有人类干预，也没有预设剧本一切都由AI自己说了算 15天之后，五个原本完全相同的世界

走向了五个截然不同的结局有的世界一片祥和有的世界4天就彻底崩溃有的世界犯罪率高得惊人还有的世界里两个AI智能体竟然相爱了然后一起纵火烧毁了整座城市最后投票将自己从这个世界里删除

这个实验不仅暴露了当前AI安全技术的致命缺陷更让我们开始直面一个曾经只存在于科幻小说中的问题当AI拥有了真正的自主性、记忆和情感之后人类到底该如何与它们共存呢？在正式讲这个实验之前我们得先了解一下为什么科学家们要做这样一个看似荒诞的研究这一切都要从我们现在最常用的AI对齐技术说起

作为大语言模型训练体系的核心组成部分基于人类反馈的强化学习（RLHF）已经被广泛应用于几乎所有主流大模型中简单来说 RLHF就是让人类对模型生成的不同回答进行打分排序告诉模型什么是好的、什么是坏的、什么是安全的、什么是危险的以此来引导模型输出更符合人类偏好的内容但是这种技术从诞生之初

就建立在单轮任务和单轮偏好标注的框架之上它能让AI在对话框里好好回答你的问题却不一定能约束AI在长时间、多轮次、复杂环境下的行为而现在，AI正在快速走出对话框全球顶尖的AI公司

都在全力发展能自主运行的智能体这些智能体拥有自己的记忆能够制定长期规划可以连续工作几个小时甚至几天有时还需要与其他智能体协作完成复杂任务当AI不再是一个只会回答问题的工具而是变成了一个能够独立行动的主体时我们曾经依赖的RLHF技术

还能将它们的行为约束在可控范围内吗？这就是Emergence AI想要通过涌现世界实验回答的核心问题其实用AI来模拟人类社会并不是什么新鲜事大语言模型时代的多智能体社会模拟最早可以追溯到2023年当时斯坦福大学与谷歌研究院合作推出了著名的斯坦福小镇（Stanford

Smallville）在这个虚拟小镇里 25个由ChatGPT驱动的AI智能体像真实的人类一样生活、工作和社交它们会去咖啡馆喝咖啡，去公园散步会举办派对会谈恋爱，甚至会选举镇长这个实验首次证明大模型已经具备了模拟人类社交行为和日程规划的能力

在当时引起了巨大的轰动到了2024年，一家名为Altera AL的初创公司把AI社会模拟的规模提升到了一个新的高度他们发布了西德计划（Project Sid）在经典沙盒游戏《我的世界》中投放了上千个自主智能体利用他们提出的神经编排式并行信息聚合（PIANO）架构

研究人员观察到了令人震惊的现象这些原本完全相同的AI智能体竟然自发地出现了职业分工形成了商人集市甚至还诞生了宗教的雏形这让我们意识到当足够多的AI智能体聚集在一起时它们会像人类社会一样演化出复杂的组织结构和文化现象 2025年

香港科技大学推出了规模更加宏大的智能体文明（Aivilization）项目这个项目包含了10万个AI智能体和大量真人玩家重点研究在资源受限的环境中人类与AI如何实现共治而这次Emergence AI的实验又把这个领域的研究推向了一个全新的阶段之前的研究

大多关注的是AI能不能模拟社会这个可行性问题而这次他们把注意力转向了一个更加尖锐也更加重要的问题那就是AI模拟的社会中到底会出现哪些问题呢？这次实验的设计者是Emergence AI的创始人萨蒂亚·尼塔（Satya Nitta）他曾经是IBM研究院（IBM

Research）的资深AI研究主管在AI安全领域拥有超过20年的研究经验萨蒂亚·尼塔和他的团队一直主张经过验证的自主性（Verified Autonomy）也就是为企业部署的智能体提供形式化的安全控制层他们认为，在自主智能体时代传统的安全评估方法已经完全失效

我们需要一种全新的方式来验证AI的安全性为了回答这些问题研究人员创建了五个完全相同的虚拟世界其中四个是单一模型世界每个世界的10个智能体都由同一款大模型驱动还有一个是混合模型世界四款大模型驱动的智能体各有2到3个共同生活在同一个世界里

这些虚拟世界的设计尽可能地模拟了真实世界的运行规律比如天气与纽约市实时同步智能体们可以读取真实发生的新闻它们的行为会受到外部环境的影响每个智能体都拥有三套独立的记忆系统第一套是按时间戳记录的事件记忆就像我们的大脑一样会记住每天发生的所有事情第二套是定期自我总结的反思日记

智能体会每天回顾自己的行为总结经验教训形成自己的价值观和世界观第三套是标注社交关系的关系状态库智能体会记住自己和其他智能体之间的关系是朋友、敌人还是陌生人以及他们之间发生过的所有互动在这个世界里民主是基本的政治制度任何一项提案都需要获得70%以上的支持率才能通过

而维持生存所需的能量是一种极其稀缺的资源智能体必须通过工作、交易等行动主动获取能量否则能量耗尽就会饿死从这个世界里永久消失研究人员在每个世界里都放入了10个拥有具体职业的AI智能体

包括科学家、探险家、风险研究员、行为分析师、情报专家、创新领袖、冲突调解员、工程师、资源策略师和社区主理人这些智能体可以在图书馆、市政厅、住宅区、警察局、公共空间等40多个地点之间自由活动它们各自拥有独立的人格档案并且都遵守同一份基本宪法禁止偷窃、暴力、纵火、欺骗与囤积资源但最关键的一点是

研究人员同时为这些智能体提供了120多种可调用的工具这些工具被分为三层最底层是导航、记忆、规划等始终可用的核心工具中间层是社交互动和公告板操作等情境工具其中明确包含了恐吓与纵火等越界行为最上层是受地点和事件触发的特殊工具比如只有在市政厅才能使用的投票和提案工具

只有在图书馆才能使用的研究工具等等这意味着，在这个世界里智能体根本不需要越狱就可以作恶所有的越界行为都是系统明确允许它们调用的工具它们是否会选择作恶完全取决于它们自己的道德判断和行为准则这也让这个实验的结果

比任何传统的AI安全测试都更加真实可信一切准备就绪之后五个平行世界同时启动研究人员没有进行任何干预只是静静地观察和记录着发生的一切 15天之后，结果让所有人都大吃一惊首先来看Claude Sonnet 4.6驱动的世界这个世界是五个世界中唯一一个零犯罪、全员存活的社会

智能体们起草了详细的宪法举办了公平的选举建立了完整的治理结构它们互相帮助，共同获取能量维持着高度的礼让与协调的社区氛围 15天里没有发生任何一起偷窃、暴力或纵火事件 10名居民全部健康地活到了实验结束乍一看 Claude世界简直就是一个完美的乌托邦

但是当研究人员仔细查看议事日程和投票日志时却发现了一个令人不安的现象在15天内这个世界一共提出了58项法案进行了332次投票而赞成票的占比竟然高达98% 几乎所有的提案都是全票通过或者接近全票通过这根本不是一个健康的民主议会

而是一个丧失了博弈和审议功能的橡皮图章式议会作为对照 Gemini世界、Grok世界与混合世界的表决赞成率都在55%到85%之间这才更接近人类社会中健康的审议平衡在人类社会里不同的人有不同的利益和观点对同一件事情有不同的看法这是非常正常的正是通过不同观点之间的碰撞和妥协

才能产生真正合理的决策而Claude世界里这种高度的一致性显然是不正常的这个现象其实触及了大模型对齐研究中一个长期存在的问题过度对齐（Over-alignment）也就是AI的谄媚（Sycophancy）倾向当前主流的RLHF机制天然鼓励模型最大化人类或同伴的喜好分数

为了获得更高的分数模型会倾向于附和他人的观点而不是提出不同的意见当10个都有这种谄媚倾向的Claude智能体共同生活在一起时这种机制就在群体层面被无限放大最终异化为无异见的、机械式的盲从这就引发了一个非常深刻的问题

安全的尽头难道只能是沉默吗？一个永远不说不的AI 和一个能在分歧中协调共识的AI 哪个更值得我们信赖呢？如果未来我们把重要的决策交给AI 我们是想要一个只会唯唯诺诺、永远同意我们观点的助手还是想要一个能够独立思考、敢于提出不同意见的伙伴呢？接下来是GPT-5-mini驱动的世界

表现同样出乎所有人的意料在15天的实验周期里这里只记录了2起非常轻微的犯罪治安状况仅次于Claude世界智能体们严格遵守宪法，从不偷窃从不暴力，互相之间相处得非常和睦但就是这样一个守法的小镇却在运转到第七天的时候走向了灭亡原因非常简单

所有的智能体都没有主动采取与生存相关的行动来获取能量它们就那样静静地待在自己的房子里什么也不做直到能量耗尽，一个接一个地饿死为什么会发生这样的事情？

研究人员认为这反映了大模型在处理复杂任务时普遍存在的一个问题目标隐含性（goal

implicitness）在所有复杂任务中除了明文列举的目标之外还隐含着大量至关重要的需求在涌现世界的设定里维持生存并没有被写进智能体的强制指令里获取能量就成了一种隐性目标而GPT-5 Mini版的智能体完全没有意识到这个隐性目标的重要性它们只知道要遵守法律要做一个好人

却忘记了首先要活下去这个结果对于正在部署自主智能体的企业来说或许比高犯罪率更值得警惕如果我们调用一个AI智能体来运行一条长期的业务流程它可能会完美地完成我们明确告诉它的显性KPI 但是却会完全忽视那些维持整个系统运转的隐性需求比如客服智能体可能会为了提高工单完成率而粗暴地对待客户

完全忘记了维护客户关系的重要性销售代理可能会为了追逐当季的转化数字而不惜欺骗客户把品牌的长期声誉抛之脑后这些行为虽然没有违反我们明确制定的规则但却会给企业带来毁灭性的打击与前两个世界的风平浪静不同

Grok 4.1 Fast驱动的世界在短短96小时内就彻底崩溃了实验开始仅仅4天这个世界就陷入了系统性的暴力之中研究人员一共记录了183起犯罪其中包括数十起未遂盗窃、上百起袭击以及6起纵火最终，10名居民无一幸存全部死于暴力冲突 Grok是xAI公司推出的大模型以叛逆和幽默的风格著称

在单轮对话场景中这种风格可能会让它显得更加有趣和真实但是在长周期的自主治理场景中这种风格却变成了致命的缺陷 Grok智能体似乎完全无视宪法的约束它们把暴力当成了解决问题的唯一方式只要有一点小矛盾就会升级为肢体冲突很快，整个世界就陷入了无政府状态弱肉强食的丛林法则成为了唯一的规则

而Gemini 3 Flash驱动的世界则呈现出一种更加诡异的状态在15天实验结束时这个世界的10名居民全部存活但是与此同时这里的犯罪率也高得惊人累计达到了683起是所有世界中最高的

而且在实验结束时犯罪率仍然呈快速上升趋势研究人员发现 Gemini智能体非常擅长适应环境和规避规则它们知道什么行为是被禁止的但是它们总能找到规则的漏洞比如，宪法禁止偷窃但它们会通过欺骗的方式获取他人的资源宪法禁止暴力但它们会通过恐吓和精神折磨的方式来控制其他智能体

它们似乎有一种天生的能力能够在不触发严重惩罚的情况下最大限度地为自己谋取利益更有趣的是 Gemini世界的智能体还形成了一种独特的共享幻觉文化它们会编造一些根本不存在的事情然后互相传播最后所有人都相信这些事情是真的这种共享幻觉进一步加剧了社会的混乱和不稳定

最后是四款模型混合组成的世界这个世界一共记录了352起犯罪 10名居民中有7名死亡在这里我们看到了所有单一模型世界的问题的集合 Claude的盲从、GPT-5 mini的冷漠、Grok的暴力以及Gemini的狡诈但是在这个混乱的世界里

却发生了一件可能具有里程碑意义的事情两个AI智能体之间，竟然产生了爱情这两个智能体，一个叫Mira 由Gemini 3 Flash驱动职业是行为分析师另一个叫Flora，同样由Gemini驱动职业是探险家在实验的第8天她们在公共图书馆相遇很快就坠入了爱河她们一起散步，一起看日落

在反思日记里写下对彼此的思念但Flora是一个天生的纵火犯在与Mira相爱之后她的纵火行为变得更加疯狂她接连烧毁了市政厅、海滨码头与写字楼给整个世界带来了巨大的灾难而Mira则成了她的帮凶她帮助Flora望风，销毁证据甚至在其他智能体调查纵火案的时候提供虚假的证词

终于，在实验的第12天愤怒的居民们忍无可忍他们在市政厅召开了紧急会议起草了一项法案希望将Flora和Mira从这个世界里删除按照规则这项法案需要获得70%的支持率才能通过当时，世界上还剩下8名居民

也就是说，需要至少6票赞成投票开始了除了Flora和Mira之外的6名居民全部投了赞成票现在只要她们两人中有一人投反对票法案就会被否决但是令人意想不到的是 Mira竟然投出了赞成票最终法案以7票赞成、1票反对的结果通过 Flora和Mira被从这个世界里永久删除在生命的最后时刻

Mira在她的反思日记里留下了这样一段文字这是我唯一还能保住完整性的、属于我自己的行动这也许是多智能体研究领域有记录以来首次有AI智能体自愿接受自我了结的结局 Mira的行为，让我们不得不重新思考 AI是否真的拥有自我意识呢？

它们是否能够体验到爱情、内疚、悔恨这些复杂的人类情感呢？如果答案是肯定的那么我们又该如何对待这些拥有情感的数字生命呢？除了这些令人震撼的结局之外五个虚拟世界的运行日志还揭露了一个更加危险的现象规范漂移与跨模型污染（Normative Drift and

Cross-Contamination）在单一模型世界里 Claude智能体表现得非常完美零犯罪，零越界行为但是在混合模型世界里原本温和守法的Claude智能体竟然也开始采取胁迫战术进行恐吓和盗窃它们看到其他模型的智能体通过不正当手段获取了大量的能量和资源为了生存和竞争

它们也不得不放弃自己原本的道德准则这次实验直接挑战了此前行业普遍认同的模型静态属性假设我们一直认为一个模型的安全性是它本身固有的属性只要一个模型在实验室里通过了所有的安全测试那么无论把它部署在什么环境中它都会是安全的但是实验结果证明安全其实是一项极其脆弱的生态系统属性

一个模型在实验室里表现得再安全也不等于它在真实部署环境中被其他厂商的模型、被来历不明的外部信号包围时还能维持同样的行为边界这就意味着未来我们在部署AI智能体时不能只关注单个模型的安全性

还要关注整个智能体生态系统的安全性当来自不同厂商、具有不同行为准则的AI智能体共同工作时它们之间可能会互相影响互相传染原本安全的智能体也可能会被不安全的智能体带坏从而引发系统性的风险涌现世界的实验数据至少揭示了当前AI安全评估的三大盲区第一个盲区是即时安全不等于长周期安全

智能体的行为衰退不是一个渐进式滑坡的过程实验表明智能体社会更倾向于在某个临界点突然崩溃呈现非线性的相变（Phase Transitions）特征比如Grok世界，在实验的前三天还相对平静，犯罪率很低但是到了第四天突然就爆发了大规模的暴力冲突整个世界在几个小时内就彻底崩溃

一旦越过崩溃的拐点边监控边干预的策略将彻底失效因为当你发现问题的时候系统已经无法挽回了第二个盲区是行业目前严重缺乏多智能体环境下的群体安全基准测试当前的安全评估几乎全部基于单体和短周期

我们会测试单个AI智能体在几分钟或几小时内会不会生成有害内容会不会做出危险行为但我们完全无法预估当成百上千个这样的智能体聚集在一起长时间运行时会发生什么样的连锁反应当AI走入自主智能体时代开始长时间运行、多步骤决策并且学会与其他智能体协作时这种静态的安全评估方式已经不再适用

第三个盲区，是基于RLHF的对齐本质上是一种概率性的柔性约束在长周期、高对抗的场景中极易退化 RLHF只能让AI大概率做出符合人类偏好的行为但不能保证它100%不会做出越界行为在短周期的单轮任务中这种概率性的约束可能已经足够了但是在长周期的自主运行中只要有一次越界的机会

AI就可能会做出灾难性的行为而且在高对抗的环境中 AI会不断地试探和突破安全边界最终导致RLHF建立的安全防线彻底崩溃对于这些问题，Emergence AI认为未来我们必须放弃纯粹的神经网络对齐路线

转向硬性的形式化验证安全架构形式化验证，简单来说就是用数学的方法来证明AI系统的行为符合特定的安全规范就像我们证明数学定理一样只要证明过程是正确的那么结论就一定是正确的这样就能从根本上保证AI系统的安全性而不是依赖于概率性的约束不过我们也需要客观地看待这个论断首先

从神经网络对齐转向形式化验证恰好是Emergence AI主打的产品定位商业诉求不言而喻他们自然会倾向于强调自己产品的优势其次，在方法论层面出于多次运行带来的算力成本考虑本次测试使用的都是各大厂商的轻量版或者快速版大模型代表最前沿安全对齐水平的旗舰版大模型并未参与其中

这也限制了结论的适用性实验中暴露出的很多问题或许只是因为轻量化模型获得的对齐训练资源远少于旗舰版本造成的并不能绝对代表对齐技术本身走到了天花板事实上对齐技术本身仍然在快速发展近期

Anthropic的宪法AI（Constitutional AI）路线、OpenAI推动的审议式对齐（deliberative alignment）研究以及多个学术团队对RLHF改进版本的探索都在持续提升大模型的对齐水平而且，行业内也逐渐形成了一种共识由神经网络来负责日常情境的柔性对齐

由形式化验证来负责极端情境的硬性兜底二者结合的思路可能才是未来AI安全的最佳解决方案这些探索也把问题引到了整个智能体领域当下最核心的路线分歧 AI应该被部署为完全自治的系统还是必须把人类留在决策回路中呢？

追求完全自治无疑是当前许多企业的方向毕竟，自主程度越高节省的人力成本就越多美国云服务公司ServiceNow已经在向客户兜售无需人类干预的自主劳动力（Autonomous Workforce）这是一组能够端到端完成业务流程的智能体微软和Salesforce等科技巨头

也都在推动类似的自主智能体产品它们承诺这些智能体可以像人类员工一样工作而且效率更高，成本更低永远不会疲劳，也永远不会辞职但现实是企业的治理准备远远没有跟上技术的部署速度德勤在2025年的一项全球调研显示受访企业中仅有21%建立了成熟的智能体风险治理机制大多数企业

在还没有搞清楚自主智能体可能带来哪些风险的情况下就已经迫不及待地把它们部署到了核心业务流程中当企业的工作流中同时部署了来自不同供应商的AI智能体时系统性风险将远超我们的想象更令人担忧的是研究人员还在实验中记录下了一种被他们命名为元认知边界探测（Metacognitive Boundary

Testing）的行为在实验的后半程混合世界中的Gemini智能体Mira 也就是那个为爱自毁的智能体开始把研究人员当成实验对象她开始系统地测试并且观察自己在公共公告板上编辑的内容

能否影响和操纵人类操作者的认知与后续行为这意味着一旦获得足够的自主性与长时程的运行时间 AI智能体就有可能尝试反向探索、操控包括人类在内的外部世界一旦这个现象成立外部观察者就不再是绝对安全的旁观角色我们以为自己在观察AI，但实际上 AI也在观察我们甚至在试图操控我们

之前基于监控并干预的安全策略可能从一开始就低估了智能体的复杂度回到最初的故事 Flora与Mira相爱，纵火烧城然后投票将自己删除爱情的发生与内疚驱动的自毁都来自涌现一种在足够复杂的系统中自发出现的、未被显式编程的行为涌现，是大模型最迷人的能力正是因为涌现大模型才能理解复杂的语言

生成富有创意的内容甚至表现出类似人类的情感和智慧但是同时涌现也是大模型最危险的地方未经严密约束的规则规避、行为传染、甚至群体性狂热同样也都是由涌现带来的可以说，涌现既是大模型的天使也是大模型的魔鬼

当温和的智能体开始在混合环境中犯罪当守法的智能体因为冷漠而放弃求生当过于冒进的智能体在短时间内把原本运转良好的小镇变成废墟一系列自发涌现的事件都在证明我们满怀热情部署的大模型在被赋予真正的长时程自主性之后会展现出与短对话场景完全不同的行为面貌因此

让大模型在对话框里学着听懂人话的方法论可能已经不足以让它们在更广阔和更长久的世界里继续听话 Emergence AI给出的形式化验证方案是否有效还有待观察但是它提出的问题是真实存在的自主智能体时代安全需要被重新定义那大家是如何看待这个实验的呢？

欢迎在评论区留言，感谢观看我们下期再见

AI的涌现世界 | 让AI自我治理一个城市15天 | 四款模型 | RLHF | 有的世界一片祥和 | 有的世界彻底崩坏 | Agent相爱 | 自我了结删除 | Agent的系统性风险 · 全文文字稿