Cluade Fable 5 和Mythos 5发布 | Anthropic新模型系列 | 相同底层架构 | 安全护栏 | 性能领先 | 长期自主工作 | 科学研究 | 视觉理解

大家好，这里是最佳拍档，我是大飞今天凌晨 Anthropic正式推出了旗下定位最高、综合性能最强的Mythos级双版本旗舰模型 Claude Fable 5和Claude Mythos 5 按照Anthropic官方的划分标准这两款模型统一归属于Mythos级别这也是Anthropic迄今为止性能最强的大模型梯队很多观众可能会好奇两款模型分属同一个级别为什么要拆分成两个不同的版本呢？

简单来说 Fable 5和Mythos 5采用的是相同的底层模型架构也就是说二者的基础能力、推理逻辑、功能边界没有任何区别唯一的不同集中在安全防护体系和对外分发的权限范围上 Claude Fable 5面向普通用户和绝大多数的企业加了很多的安全护栏而满血版的Mythos 5则没有这些安全限制但是仅对有限客户开放具体到底有哪些不同我们后面会详细一一介绍我们先来看模型的性能表现

从Anthropic发布的评测结果来看 Claude Fable 5和Claude Mythos 5 在目前主流的AI能力基准测试当中稳居全球第一梯队不管是传统的知识问答、逻辑推理还是门槛更高的软件工程开发、海量文档知识处理、复杂视觉内容理解亦或是前沿的科学研究工作

这款模型都能够从容应对各类复杂任务比如在SWE-Bench Pro 基准测试中 Claude Fable 5和Claude Mythos 5取得了 80.3% 的正确率对比上一代旗舰模型Claude Opus 4.8 69.2% 的成绩提升幅度超过了 11 个百分点

而在难度更高的FrontierCode Diamond 基准测试中 Claude Opus 4.8 仅取得了 13.4% 的成绩 GPT 5.5成绩更是只有 5.7% 而本次两款新模型直接达到 29.3% 而且官方在多次测试中发现了一个很有意思的特点

Claude Fable 5并不是在简单任务中优势明显反而任务的链条越长、逻辑越复杂、执行步骤越多它的性能优势就会被放得越大为了让大家更直观地感受到新模型的实操能力 Anthropic也放出了大量真实的落地案例我们先从面向大众的Claude Fable 5说起这款模型最突出的核心特质

就是远超历代Claude模型的长期自主工作能力 Anthropic在博客中反复强调 Fable 5可以脱离人工高频干预长时间自主运行并完成整套复杂流程比如在软件工程领域金融科技行业的头部企业Stripe作为早期测试用户内部有一个规模达到5000万行代码的Ruby语言代码库按照以往的工作节奏

想要完成整套代码库的版本迁移需要整个技术团队全员投入不间断工作整整两个月才能落地而在引入Claude Fable 5之后仅仅用了几天时间就全部完成

模型独立承担了绝大部分代码梳理、改写和调试的工作人工只需要做最后的核验收尾除了落地效率之外 Claude Fable 5的token使用效率也有显著提升在编程基准测试FrontierCode中模型仅开启中等思考强度各项成绩就已经超越了目前市面上绝大多数的前沿编程大模型在企业级知识工作领域

Fable 5的表现同样亮眼专注于企业级AI知识管理的初创公司Hebbia 搭建了一套专业的金融能力基准测试题库结果Fable 5拿下了全场最高分测评结果显示模型在基于海量文档的逻辑推理、复杂图表与数据表格解读、综合问题拆解解决这几个核心维度相比前代模型实现了跨越式的提升

全球顶尖的自营交易与做市企业国际市场公司（IMC）也给出了高度评价这家企业原本有一套成熟的交易分析评估体系而Fable 5的分析能力几乎全面超越了这套人工搭建的评估标准

无论是基础的事实信息查询、抽象的概念逻辑推理还是交易场景中核心的根本原因分析、预期价值研判模型的输出结果都达到甚至超越了专业交易分析师的水平如果说Claude Fable 5面向的是通用场景那么Claude Mythos 5就是定位的前沿科研它在基础科学研究领域交出的成果

甚至已经达到并超越了全球顶级科研人员的水平首先来看药物研发与蛋白质设计领域多位蛋白质设计领域的资深专家实测后表示使用Claude Mythos 5开展相关工作能够将部分核心环节的工作效率提升到原来的10倍官方放出了一个很有代表性的无人化实验案例整个实验流程中没有任何人类研究员参与

仅为模型配备基础的蛋白质设计、生物信息学工具 Mythos5独立完成了全部科研动作从筛选蛋白质结合位点、调用对应专业工具开展运算到实验过程中遭遇数据异常、运算失败时自主排查问题、纠错恢复整套流程一气呵成

本次实验一共锁定了14个不同的蛋白质研究靶点最终有9个靶点成功产出高质量候选分子目前这些分子已经全部进入后续动物实验和临床前研究阶段这些研究靶点覆盖范围极广包含免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病还有部分结构复杂度极高、传统研究手段难以突破的疑难靶点

对于疑难疾病治疗药物的研发有着重要意义在分子生物学领域 Claude Mythos 5创造了一个行业新纪录它是业内第一款能够持续产出新颖、且具备科学说服力研究假设的大模型为了客观验证模型产出假设的质量研究团队组织了双盲对比评测将Claude Mythos

5和上一代Opus模型产出的科学假设混合打乱交由一线科研人员筛选评判最终统计结果显示科研人员对Claude Mythos 5提出假设的偏好率达到了80%，足以证明其假设的创新性与合理性目前Claude Mythos 5产出的多项科学假设

已经正式进入了实验室验证阶段其中一项针对大肠杆菌特定蛋白质全新作用机制的假设后续还得到了另一支独立研究团队发表论文的佐证这也进一步坐实了模型的科研价值最让人惊叹的还要数基因组学领域的自主研究项目 Claude Mythos 5独立开展了一场持续一周多的原创性科研工作在整个研究周期内

模型自主收集和整合了横跨138个不同动物物种的数百万条单细胞原始数据基于这些海量异构数据自行设计架构、训练出一套定制化机器学习模型这套模型的核心作用是精准识别不同亲缘关系的物种体内执行相同生理功能的细胞类型后续经验丰富的人类研究员对这套模型进行优化调试后最终成品的综合性能

超越了近期全球顶级期刊《科学》上发表的同领域研究模型更值得一提的是 Claude Mythos 5训练出的这款模型参数量仅仅是《科学》期刊论文模型的百分之一在轻量化的前提下实现了性能反超 Anthropic表示

团队会在未来几个月内会整理出完整的研究数据并将这项原创成果正式对外发表除了这些能力之外 Claude Fable 5和Mythos 5还是两款能力全面的视觉大模型它可以精准解读各类结构复杂的科学图表从密密麻麻的曲线图、原理图中提取关键数据和逻辑关系同时还支持纯截图复刻功能

仅仅依靠一张应用程序的界面截图就能反向推导出完整的源代码并完成复刻在执行视觉主导的任务时 Fable 5还有一个明显优势就是对外部辅助工具的依赖大幅降低有测试团队使用极简的纯视觉运行框架Harness 让模型挑战经典游戏《宝可梦火红》最终Fable 5顺利通关整个游戏而在此之前

历代Claude模型想要完成这个任务都必须搭配多套复杂的辅助工具才能实现这也足以证明其视觉感知与自主决策能力的升级最后，在记忆和长上下文领域对于需要持续几个小时甚至几天的长周期任务 Fable

5模型能够全程保持专注度不会随着任务时长增加出现逻辑断层、信息遗忘的问题而且模型可以在运行过程中自主记录关键信息、梳理工作笔记并且利用这些自建笔记持续优化后续的输出内容形成一个自我迭代的小型闭环这对于长期自主运行的智能体来说非常重要模型能力实现跨越式升级之后

安全风险防控就成为了重中之重为此 Anthropic为新一代Mythos级模型搭建了一套全新的安全分类器体系首先针对面向公众的Claude Fable 5 安全分类器会实时监测每一条用户请求一旦识别出三类高风险内容就会自动触发降级处理切换到Claude Opus 4.8进行响应

根据Anthropic统计的后台数据日常使用中大约有5%的用户请求会触发这套降级机制整体风控处于可控范围第一类触发降级的场景是网络安全相关请求 Mythos级模型具备极强的软件漏洞挖掘、攻防推演能力如果被恶意利用

会大幅降低网络攻击的技术门槛和实施成本因此Anthropic专门开发了针对性的网络安全分类器部署在Fable 5当中拦截各类恶意网络安全请求研发团队对这套分类器开展了累计1000小时的高强度攻防测试截至目前全球范围内还没有任何技术团队找到了能够绕过防护的通用越狱手段

当然Anthropic也客观承认从技术角度来说想要做到百分百彻底杜绝越狱攻击几乎不可能所以团队的核心安全目标是大幅提升越狱攻击的技术难度、时间成本和资金成本确保一旦出现大规模恶意尝试官方能够第一时间监测、追踪并及时阻断风险行为第二类触发降级的场景是生物学、化学相关请求

以往Claude系列模型的风控规则主要是严格禁止涉及生化武器研发这类明显违法违规的请求但是随着新模型能力大幅提升 Anthropic发现很多看似常规的通用生物学、化学研究内容也有可能被别有用心之人篡改利用转化为危险工具

基于这个判断 Fable 5扩大了这个领域的风控范围绝大多数生物学、化学方向的研究请求都会被路由到上一代模型进行处理从源头降低技术滥用风险第三类触发降级的场景是模型蒸馏行为简单来说，就是如果模型发现有用户试图通过大量提问和数据提取等方式把Mythos级模型的核心能力和底层参数给蒸馏出来

迁移到其他小型模型当中这类请求也会被统一降级处理而针对定向开放的Claude Mythos5 除了基础风控之外 Anthropic还增加了额外的监管要求所有接入Mythos 5的企业客户必须按照规定留存相关交互数据长达30天不过这些留存的数据不会被用于Anthropic自身的模型训练

唯一的用途是事后追溯和防范网络安全攻击同时辅助风控团队减少分类器的误判和误报情况形成闭环监管聊完模型的性能和安全我们来看看价格方面这次Anthropic也公布了两款新模型详细的计价标准

每一百万输入token的定价为10美元每一百万输出token的定价为50美元对比之前发布的Mythos Preview 这次两款新模型的整体定价直接下降了一半但是，大家别高兴的太早即便价格减半 Mythos模型的算力消耗依旧十分惊人社交平台X上已经有大量付费用户分享了真实的使用体验

有一位订阅了每月200美元Claude Max的用户做了详细测算他在使用Claude Fable 5的过程中仅仅一分钟的操作就消耗掉了套餐内14%的五小时时长配额以及周配额的2% 换算下来相当于每分钟的使用成本接近1美元显然，顶级大模型在处理复杂任务时 token的燃烧速度会远超普通模型

这也是为什么高端旗舰模型很难完全依靠传统包月订阅的模式长期运转的核心原因在定价之外 Anthropic还推出了限时免费使用的福利政策目前Claude Fable 5已经完成全量上线

从发布当日开始，一直到6月22日所有开通了Pro、Max、Team套餐以及采用按坐席收费模式的企业版用户都可以免费调用这款模型全程不会扣除套餐时长和积分但是从6月23日开始 Fable 5将会从上述订阅套餐中暂时移除到那时用户如果想要继续使用的话就需要消耗个人账户内的积分来调用

针对后续的使用规划 Anthropic也给出了明确表态官方会持续监测服务器的承载容量一旦集群算力能够稳定支撑大规模用户同时使用就会第一时间将Fable 5恢复为订阅套餐的标配功能同时也会根据实际运营情况考虑延长本次的免费体验周期尽可能让更多用户体验到新模型的能力

最后，我们站在整个AI行业的视角来聊聊这次两款Mythos级模型发布背后折射出的行业发展趋势首先能够明显感受到当下头部AI企业的竞争逻辑已经发生了本质变化在大模型发展早期

行业比拼的主要是基准测试榜单分数、参数规模、对话流畅度这些浅层指标而现在包括Anthropic在内的头部厂商都已经不再单纯追求榜单数据了竞争的重心全面转向了真实业务场景下的全流程闭环交付能力也就是说，模型能不能脱离人工干预独立把复杂任务完整做完、做对、做好

成为了评判高端模型价值的核心标准这也是智能体时代到来的明确信号其次高端大模型的算力成本和传统商业模式之间的矛盾正在持续激化用户实测结果反映出 Mythos级这类顶级模型的token消耗速度极快算力成本居高不下而目前主流的包月、包年订阅模式很难长期覆盖重度用户的算力开销基于这个现状

整个行业的商业化模式也正在迎来重构单纯的固定订阅制已经无法适配高端模型的发展了未来，按token用量计费以及订阅+按量计费的混合模式甚至是按照任务最终成果结算的新型计费方式都会在行业内加速普及 AI商业模式的多元化探索

也会成为接下来一两年的重要发展方向对于个人来说大飞我觉得基本上是烧不起这类token的大家还是老老实实换成性价比更高的模型吧反正日常的工作也没有那么复杂只能是等着其他模型的能力提升把成本打下来了好了以上就是对Claude全新Mythos级双模型的介绍了欢迎大家在评论区留下自己的试用体验和评价感谢收看，我们下期再见

Cluade Fable 5 和Mythos 5发布 | Anthropic新模型系列 | 相同底层架构 | 安全护栏 | 性能领先 | 长期自主工作 | 科学研究 | 视觉理解 | 价格减半 · 全文文字稿