Anthropic呼吁按下AI暂停键？| AI自我改进RSI | 真实动机 | 80%代码Claude编写 | 人均每日合并PR达8倍 | 代码成功率76% | 自主修复bug

Anthropic的“暂停”呼吁与商业悖论

2026年6月5日凌晨，Anthropic在官方博客发布了一篇题为《当AI开始建造自己》的长文，这篇文章在发布仅十几个小时后，全球浏览量便突破1000万，引发科技、投资及政策圈的广泛转发与讨论。该文由Anthropic联合创始人杰克·克拉克（Jack Clark）及内部研究机构负责人玛丽娜·法瓦罗（Marina Favaro）共同署名，核心观点直指一个令人不安的趋势：AI正在以超出预期的速度参与自身开发，未来可能实现无人类介入的自主设计、测试与训练。基于此，Anthropic向全球主要AI实验室发出史无前例的呼吁，建议暂停前沿AI开发或建立互相核查的减速机制。

“AI正在以超出所有人预期的速度参与到自身的开发进程当中。”

这一呼吁在商业语境下显得极具违和感。就在文章发布前几天，Anthropic刚完成最新一轮融资，估值飙升至9650亿美元，正式超越OpenAI成为全球估值最高的私营AI公司。同时，Anthropic已向美国证券交易委员会秘密递交S-1注册声明草案，正式启动IPO筹备流程。其营收增长同样惊人，2025年底年化营收约90亿美元，半年后攀升至接近470亿美元，预计月底将突破500亿美元。一家处于商业巅峰、即将上市的公司，却呼吁行业“慢一点”，这引发了关于其真实动机的巨大争议：是行业领导者的责任担当，还是抬高行业门槛、巩固垄断地位的商业手段？

递归自我改进（RSI）：从理论到现实

文章的核心概念是递归自我改进（Recursive Self-Improvement, RSI）。这一概念并非全新，早在几十年前AI先驱们便已提出，指AI系统能够自主完成设计、测试、训练下一代AI的完整流程，人类不再扮演关键角色。一旦闭环形成，AI能力提升将进入自我加速循环，进步速度将快到人类无法理解或跟上。过去，RSI被视为遥远的理论概念，但过去一年中，头部AI公司纷纷投入资源，AI研发自动化成为行业共识。

OpenAI已将AI参与AI研发列为最高优先级，其安全团队专门设立递归自我改进准备（Recursive Self-Improvement Preparedness）岗位，研究AI加速自身研发带来的能力跃迁及潜在风险。OpenAI的内部目标明确：2026年前后打造达到研究实习生水平的AI系统，2028年实现能独立承担完整研究任务的自动化AI研究员。

“OpenAI此前也公开透露过他们的内部目标，在2026年前后打造出能够达到研究实习生水平的AI系统。”

谷歌DeepMind则走算法发现路线，其AlphaEvolve系统让AI自主提出算法、运行实验、筛选结果并迭代。该系统已应用于数据中心调度优化及AI训练效率提升，甚至找到了56年来首个对斯特拉森（Strassen）矩阵乘法算法的改进。此外，Recursive Superintelligence（由田渊栋创立）及Mirendil等创业公司也围绕此方向布局，目标均是让AI从辅助工具变为研发过程的核心参与者，最终承担全部研发工作。

AI代码能力：从辅助到主导

Anthropic公布了三组未公开的内部数据，揭示AI接管研发的程度。第一组数据聚焦AI代码能力。截至2026年5月，Anthropic合并到生产代码库中的代码，超过80%由Claude编写。相比之下，在2025年2月Claude Code正式上线前，这一比例仅为个位数。短短一年零三个月，Claude从几乎不会写生产代码的AI，跃升为Anthropic代码库的主要贡献者。

伴随代码贡献率提升的是工程师生产力的巨大飞跃。数据显示，2026年第二季度，Anthropic工程师人均每天合并的代码量达到2024年的8倍。尽管Anthropic强调代码行数衡量的是数量而非质量，该数字可能高估真实生产力提升，但趋势清晰：工程师角色正从亲自写代码的执行者，转变为给AI指引方向的监督者。

指标	2025年2月（Claude Code上线前）	2026年5月/第二季度	变化幅度
Claude编写生产代码占比	个位数 (%)	> 80%	显著增长
工程师人均每日合并代码量	基准值 (1x)	2024年的8倍	8倍增长

代码质量与成功率：AI的自我进化

Claude的代码质量也在快速提升。Anthropic内部跟踪一个关键指标：工程师需要纠正AI错误或中途接管任务的频率，该频率在过去一年持续下降。到2026年5月，Claude处理最高难度开放式任务的成功率已达76%，而六个月前仅为26%，半年内上升了50个百分点。

“短短半年时间就上升了50个百分点，Claude处理最高难度开放式任务的成功率已经达到了76%。”

这一数据表明，AI不仅速度快，且在复杂任务上的独立执行能力显著增强。工程师不再需要频繁介入修正，而是更多地依赖AI的自主判断。这种变化意味着，AI正在从“辅助工具”演变为“可靠的合作者”，其输出的代码不仅数量庞大，且质量日益接近或超越人类平均水平，进一步巩固了其在研发流程中的核心地位。

AI科研能力：基准测试中的惊人加速

第二组数据涉及AI科研能力。Anthropic进行了一项内部基准测试：给Claude一段训练小型AI模型的CPU代码，要求其在不改变代码正确性的前提下，尽可能提升运行速度。

模型版本	测试时间	平均加速比	备注
Claude Opus 4	2025年5月	~ 3倍	当时最先进的模型
Claude Mythos Preview	2026年4月	~ 52倍	最新预览版模型
熟练人类AI研究员	4-8小时	~ 4倍	人类专家平均水平

数据显示，Claude Opus 4在2025年5月的平均加速比约为3倍，而到2026年4月，Claude Mythos Preview模型已达到约52倍。作为对比，一名熟练的人类AI研究员通常需要4到8小时才能让代码达到约4倍的加速。Anthropic提醒，该绝对加速倍数受起始代码优化空间影响，不应直接解读为真实世界AI训练速度的提升倍数，但一年内从3倍到52倍的跃升，足以引起高度重视。

工程实践：自主修复Bug的效率差异

第三组数据来自日常工程实践。2026年4月，Claude自主修复了超过800个API错误，并将该类错误的发生率降低了约1000倍。负责该项目的工程师估计，若由人类完成同等工作，大约需要四年时间。

这种巨大差距源于修复Bug的本质：人类难以同时记忆大量不熟悉的代码上下文，也难以在短时间内排查所有潜在问题。而AI的优势在于，它能在极短时间内阅读和理解整个代码库，并系统性找出所有潜在错误。这种能力使得AI在调试、维护和优化现有系统方面，展现出远超人类的效率和准确性，进一步减少了人类在低层级工程任务上的投入。

AI安全研究：超越人类的实验能力

除了核心数据，Anthropic公布了一项有趣实验：2026年4月，研究人员将多个Claude智能体交给AI安全领域的经典开放问题——弱模型能否可靠地监督强模型？ 该问题困扰AI安全领域多年，尚无完美答案。实验中，Claude智能体自行提出假设、设计实验、运行测试，并在并行智能体间共享发现、迭代优化。

执行者	耗时	弥补的性能差距	备注
两位人类研究员	1周	~ 23%	人类专家组合
Claude智能体	800小时	97%	AI自主迭代

结果显示，人类研究员花了一周时间，仅弥补了任务性能上下限之间约23%的差距；而Claude智能体累计运行800小时后，弥补了97%的差距。AI在此类特定AI安全研究问题上的表现，已远远超过人类研究员。

研究方向选择：AI开始告诉人类“做什么”

更令人警惕的是，AI提升的不仅是执行能力，连下一步该做什么的判断能力也在同步增强。Anthropic进行了一项回溯评测：将过去几年研究人员走过的弯路（被证明错误的研究方向）交给不同版本的Claude模型，让其提出替代方案。

结果显示，最新的Claude Mythos Preview模型给出的研究路径，有64%的概率被独立评审认为优于当时人类研究者的实际选择。这意味着，AI已不再仅是帮助研究者完成已想好的工作，而是越来越多地参与到研究方向本身的选择中。过去，人类决定“做什么”，AI负责“怎么做”；现在，AI开始告诉人类“应该做什么”，角色发生了根本性逆转。

“AI已经不再仅仅是帮助研究者完成他们已经想好的工作，它正在越来越多地参与到研究方向本身的选择当中。”

未来图景与治理挑战

所有数据和实验指向同一趋势：AI正在接管越来越多由研究人员亲自完成的工作，人类角色逐渐从执行者变为监督者和最终决策者。基于此，杰克·克拉克对RSI时间表判断激进：2028年底出现完全自动化AI研发的概率约为60%，2027年底概率已达30%。

Anthropic提出AI未来发展的三种可能图景： 1. 能力增长放缓，但现有能力广泛扩散，深刻改变生产生活。 2. 复合型效率提升，人类设定方向，执行环节自动化。 3. 完整RSI能力，AI完全自主构建下一代更强模型（最激进、不可预测）。

Anthropic最担心后两种情形，尤其是第三种，因留给社会、政府和安全研究的准备时间极有限。一旦RSI闭环形成，AI能力提升将彻底脱离人类控制，人类可能无暇制定规则或适应变化。因此，Anthropic将答案落在“减速”与“核查”上，主张通过多国、多实验室共同减速并互相验证，让社会制度和AI对齐研究跟上技术进展。

动机争议：安全担当还是商业垄断？

回到最初的问题：Anthropic呼吁暂停的动机是否纯粹？Anthropic一贯公开讨论前沿AI风险，此次从AGI转向RSI。杰克·克拉克解释称，希望立法者在频繁听到RSI前提前了解话题并思考对策，并判断AI进步在未来几年将加速，保持不变或放缓可能性不大。

然而，质疑声未止。风险投资人大卫·萨克斯（David Sacks）批评全球核查机制实为抬高行业准入门槛，只有Anthropic、OpenAI、谷歌等大公司能满足严格审查，而开源模型分散运行，无法统一监管，最终可能导致少数头部公司垄断。类似质疑也出现在Anthropic产品层面，如限制Mythos模型访问权限，支持者认为是负责任的安全措施，批评者则质疑Anthropic在强化“末日先知”形象以突出技术领先地位，吸引投资与客户。

“所谓的全球核查机制听上去是在防范风险，但实际效果很可能是抬高整个行业的准入门槛。”

现实困境：无人愿率先按下暂停键

即便承认RSI风险，真的有人能停下来吗？ 当前全球AI竞争异常激烈，谁在别人暂停时继续跑，谁就可能继承领先地位，获得投资、客户、数据及更快迭代。在此激励机制下，没有任何公司愿意率先按下暂停键，那无异于主动放弃竞争优势。对国家而言，AI是下一代技术革命核心及未来国家竞争力关键，没有任何国家愿意落后或主动暂停发展。

Anthropic计划在接下来几个月组织全球政策制定者、研究人员及AI公司讨论，探索构建可核查的暂停机制，设想多国多实验室在相同条件下同时停止开发并互相验证。Anthropic表示，“如果”机制建立，预计会减速或暂停。但“如果”二字看似轻松，实则比实现RSI本身更困难。

结语：技术不等待人类准备

视频核心问题在于：当AI开始建造自己时，人类到底应该怎么办？ Anthropic的文章无论动机如何，至少将问题摆上台面，提醒我们技术发展不会自动等待人类准备，必须在技术到来前思考其影响与挑战。对许多人而言，RSI仍遥远，但一年多前Claude仅写不到10%生产代码，如今已达80%，技术进步往往是指数级的，当我们意识到时，它可能已改变一切。Anthropic的建议是否靠谱？AI发展速度能否停下？值得深思。

Anthropic呼吁按下AI暂停键？| AI自我改进RSI | 真实动机 | 80%代码Claude编写 | 人均每日合并PR达8倍 | 代码成功率76% | 自主修复bug | 未来的三种可能