平滑指数曲线与信任崩塌的起源

Anthropic的创立并非单纯的技术路线分歧,而是信任的彻底崩塌。达里奥·阿莫代伊(Dario Amodei)指出,虽然双方在安全问题上存在合理分歧,但真正导致OpenAI内部决裂的是价值观与诚实度的不一致。达里奥早在OpenAI时期就提出了Scaling Laws(缩放定律),这一反直觉的科学判断后来成为行业共识,证明了模型能力会随规模快速上升。正因为比常人更早相信这一趋势,创始团队对平滑指数曲线(smooth exponential)带来的风险感到更深的恐惧——这种曲线长期风平浪静,却在某一点突然爆发,导致局势失控。

“你开始觉得没法信任对方,觉得对方的价值观和对外宣称的不一致,觉得对方不够诚实。”

这种恐惧促使他们离开,并保留了七位共同创始人的结构,以此作为高速成长中合法性与价值核心的自我证明。然而,当公司规模逼近万亿美元估值时,仅靠创始团队的完整性是否足以维持这种信任,成为了一个悬而未决的结构性难题。Anthropic的处境由此变得微妙:能力越强,越需要外界信任;但自身却反复警告人类不应天真地相信强大的AI系统。

宪法式AI与“专业的温暖”

在产品层面,Anthropic通过宪法式AI(Constitutional AI)确立了其安全与治理框架。丹妮拉·阿莫代伊(Daniela Amodei)提出Claude的目标人格是“专业的温暖”(professional warmth),旨在避免AI陷入情感依附或沦为冷冰冰的工具,而是成为有分寸感的专业伙伴。这一设计本质上是对社交媒体式“注意力最大化”模式的拒绝,转而追求可亲但有边界的协作关系。

达里奥将“好模型”的标准细化为多个难以校准的维度,拒绝无意说谎、防止幻觉、不提供作恶信息。早期的Claude 2曾因安全调校过紧而显得像“过度关心的保姆”,这揭示了安全尺度的艰难平衡:太松有风险,太紧则荒谬不堪用。支撑这一理念的是参考《世界人权宣言》及跨宗教共识提炼出的公开原则,让模型进行自我约束而非单纯依赖人类标注。这种治理选择不仅定义了产品语气,更确立了Anthropic不追求用户停留时长,而是聚焦于高价值商业工具的战略基调。

SaaS末日与就业结构的深层重构

Anthropic的商业赌注集中在Claude Code等编程与企业服务领域,而非消费级娱乐产品。鲍里斯·切尔尼(Boris Cherny)描述AI编程已彻底翻转工程流程,工程师从“写代码者”转变为任务拆解者、代码审核者与AI Agent的指挥者。他个人在过去六个月中100%的代码由Claude编写,团队也几乎完全依赖AI完成代码工作。

这一转变引发了市场的剧烈反应,软件股市值蒸发,交易员称之为“SaaS末日”(SaaS apocalypse)。市场恐慌的核心在于,AI不仅加速开发,更可能让客户不再需要传统软件,从而重新分配软件产业的价值。以下是Anthropic展示的关键性能与增长数据,证明了其作为工作基础设施的快速扩张:

指标/项目 数据/描述 备注
API调用量年增长率 接近 17倍 开发者大会披露
单季度年化增长率 达到 80倍 过去12个月推出8个前沿模型
Claude Code使用率 鲍里斯个人 100% 代码由AI生成 团队几乎全部代码由AI完成
SaaS市值蒸发 2850亿美元 发布Claude Cowork后一夜蒸发

达里奥警告,当AI自动化比例从90%逼近100%时,问题不再是任务自动化,而是整份工作的经济价值归零。他预测AI可能在1-5年内消除一半入门白领职位,并主张通过全民基本收入(UBI)累进税制来缓冲失业冲击,强调这是“先承认代价,再讨论社会分摊”的严肃议题,而非恐慌式营销。

国防合作、Mythos与治理红线

Anthropic在国防领域的合作引发了最尖锐的道德争议。达里奥基于地缘政治现实主义,认为民主国家必须掌握AI以应对威权主义挑战,并将芯片出口管制类比为防止核扩散。Anthropic与Palantir合作,并获得了价值2亿美元的国防部合约,但划定了不用于大规模监控和自主武器的红线。

然而,AI辅助目标锁定带来了灰色地带。美方官员透露,大语言模型帮助美军将每日可处理目标从1000个提升至5000个。尽管达里奥强调“最终决定权在人类”,但主持人指出,在伊朗女子学校袭击事件中,AI可能加速了杀戮效率。达里奥辩称技术供应商无法逐案判断军事行动的合法性,政策决策应归于军方。

此外,新模型Mythos能发现数千个网络安全漏洞,被内部人员称为“超级武器”,需持“枪证”使用。Anthropic通过玻璃翼计划(Project Glasswing)选择性向政府机构提供,而非全面开放。达里奥的逻辑是“猫鼠游戏”:好人需要更强工具防守,坏人终将获取同类技术。这种论证虽看似合理,却实质上为权力集中治理边界的人为划定提供了辩护,留下了关于人在回路(human-in-the-loop)是否真能制约AI加速决策的深刻疑问。

国防/安全相关数据 数值/状态 背景/影响
国防部合约金额 2亿美元 2025年与OpenAI、xAI、Google等共同获得
美军目标处理量提升 1000 -> 5000 个/天 通过Palantir Maven系统与Claude辅助
伊朗袭击死亡人数 150+ 多数为儿童,AI是否介入存在争议
Mythos漏洞发现数 数千个 可暴露主流操作系统缺陷,被视作“超级武器”
合作限制红线 禁止用于大规模监控、自主武器 不与ICE、CBP合作,不用于加沙行动

Mythos发布与商业代价的权衡

达里奥在访谈中坦承,不发布Mythos模型对Anthropic造成了显著的商业伤害。该模型不仅大幅加速了公司内部的研究、生产流程及下一代模型的开发,若对外发布,更能帮助外部世界实现同等效率提升。这种未量化的商业代价,清晰地表明了Anthropic试图证明其并非依赖恐慌营销,而是愿意牺牲短期收益以换取长期安全信誉的决心。 这一决策促使达里奥更坚定地支持“发布前测试与审计”(pre-release testing and auditing),这被视为整场访谈中最重要的治理转折点。

“当模型的能力还只是聊天、写作、写代码的时候,安全测试还可以被包装成企业的负责任行为;但是当模型可能影响银行、国家机密、操作系统和关键基础设施的时候,发布前的审计就不再是企业自律,而是接近国家安全级别的流程了。”

随着AI能力从基础应用延伸至关键基础设施,安全测试的性质发生了根本性变化。达里奥认为,AI治理的核心问题已从“公司是否善良”转向“权力来源是否错位”。私人部门拥有速度、人才、算力和商业动机,而政府拥有合法性、强制力和公共责任,但技术理解往往滞后。这种“既害怕公司拥有技术,又害怕政府拥有技术”的矛盾心态,揭示了当前AI治理结构的深层不稳定性。

政策摇摆与内部治理机制

达里奥批评了美国政策在AI监管上的钟摆式摇摆。白宫最初撤销前任的AI行政命令,偏向放手让硅谷自行发展;但随着Mythos国家安全含义的浮现,舆论又转向管控最强AI甚至国有化的极端声音。达里奥主张走温和、稳定的中间路线,强调“我们不恐慌,我们也不否认”的态度。 这种立场并非空洞口号,而是建立在Anthropic独特的内部治理机制之上。达里奥每两周会在公司内部进行一小时不限主题的交流,向三千名员工阐述他对行业、外部世界及压力的看法。这种内部沟通被视为治理的基础,确保了公司在国防合作、Mythos争议及就业冲击等敏感议题上保持对外表述的一致性。

Anthropic将自己定位为“幸运的第二出场者”,因为社交媒体已经示范了儿童福利、心理健康和选举完整性等方面的严重后果。达里奥指出,如果AI真的引发重大灾难,被禁止或封锁是应得的结果。 这一认知将“负责任”从价值宣言转化为事实承认:科技公司不能等到伤害发生后才声称初衷良好。这种自我认知解释了为何Anthropic在争议中仍能维持相对统一的叙事,但也凸显了其面临的巨大外部信任赤字。

信任赤字与制度制衡

面对“为何要信任Anthropic”的核心质疑,达里奥采取了罕见的非防御姿态。他承认,如果不了解Anthropic,从不信任开始是理性的,硅谷已失去世界信任,必须通过实际行动重新赢回,而非依靠口号。 这一回应承认了信任赤字的真实性,并将问题从“说服大家我们是好人”转向“如何在大家不该轻易相信任何AI巨头的前提下,建立可检验的外部制衡机制”。达里奥引用《原子弹秘史》,表明自己更认同利奥·齐拉特(Leo Szilard)而非罗伯特·奥本海默(J. Robert Oppenheimer)。他认为不能依靠英雄式人物带领世界穿越风险,奥本海默是一个失败案例,真正需要的是多个强大主体之间的制衡机制(checks and balances)。

在文明崩溃风险方面,达里奥曾提出10%-25%的概率,并指出Anthropic一半的工作都在降低风险,但风险无法降至零。他用航空公司做比喻:“你可以做一家比别人安全十倍的航空公司,但你没法保证飞机永远不会坠毁。” 当主持人追问25%的坠机概率是否令人接受时,达里奥诚实回应:“没错,25%太高了,我们的目标是把它大幅降下来。”这种诚实虽未提供安心感,却比轻飘飘的承诺更具说服力。

悖论本质:安全派的约束

访谈最终指向一个更残酷的问题:当最理解风险的人也在加速建造风险,我们该如何评判他们?Anthropic给出的答案包括:选择与价值观冲突较少的商业模式,将Claude设计为有边界的专业伙伴,对军事用途划定红线,对Mythos做有限释放,并推动发布前审计。这些做法比普通科技公司的“我们会负责”更具体,但仍显不足。 随着Claude Code重写工程定义、Claude Cowork重估SaaS行业、AI辅助目标锁定进入战争决策链,以及Mythos将模型能力推向网络超级武器语境,AI已成为就业、国防、网络安全和国家权力的共同基础设施。安全不能仅靠公司品格,而需制度保障。

Anthropic的悖论并非“一边警告危险一边追求成长”,而是“AI时代最有权力的安全派,也依然需要被安全地约束”。我们需要的不是信任创始人的良心,而是建立一套“哪怕再有良心的人,也不能单方面决定世界走向的制度”。这一结论超越了个人道德层面,直指AI治理的制度性核心。