大家好,这里是最佳拍档,我是大飞 今天凌晨 Anthropic正式推出了旗下定位最高、综合性能最强的Mythos级双版本旗舰模型 Claude Fable 5和Claude Mythos 5 按照Anthropic官方的划分标准 这两款模型统一归属于Mythos级别 这也是Anthropic迄今为止性能最强的大模型梯队 很多观众可能会好奇 两款模型分属同一个级别 为什么要拆分成两个不同的版本呢?

简单来说 Fable 5和Mythos 5采用的是相同的底层模型架构 也就是说 二者的基础能力、推理逻辑、功能边界没有任何区别 唯一的不同集中在安全防护体系和对外分发的权限范围上 Claude Fable 5面向普通用户和绝大多数的企业 加了很多的安全护栏 而满血版的Mythos 5则没有这些安全限制 但是仅对有限客户开放 具体到底有哪些不同 我们后面会详细一一介绍 我们先来看模型的性能表现

从Anthropic发布的评测结果来看 Claude Fable 5和Claude Mythos 5 在目前主流的AI能力基准测试当中 稳居全球第一梯队 不管是传统的知识问答、逻辑推理 还是门槛更高的软件工程开发、海量文档知识处理、复杂视觉内容理解 亦或是前沿的科学研究工作

这款模型都能够从容应对各类复杂任务 比如在SWE-Bench Pro 基准测试中 Claude Fable 5和Claude Mythos 5取得了 80.3% 的正确率 对比上一代旗舰模型Claude Opus 4.8 69.2% 的成绩 提升幅度超过了 11 个百分点

而在难度更高的FrontierCode Diamond 基准测试中 Claude Opus 4.8 仅取得了 13.4% 的成绩 GPT 5.5成绩更是只有 5.7% 而本次两款新模型直接达到 29.3% 而且官方在多次测试中发现了一个很有意思的特点

Claude Fable 5并不是在简单任务中优势明显 反而任务的链条越长、逻辑越复杂、执行步骤越多 它的性能优势就会被放得越大 为了让大家更直观地感受到新模型的实操能力 Anthropic也放出了大量真实的落地案例 我们先从面向大众的Claude Fable 5说起 这款模型最突出的核心特质

就是远超历代Claude模型的长期自主工作能力 Anthropic在博客中反复强调 Fable 5可以脱离人工高频干预 长时间自主运行并完成整套复杂流程 比如在软件工程领域 金融科技行业的头部企业Stripe作为早期测试用户 内部有一个规模达到5000万行代码的Ruby语言代码库 按照以往的工作节奏

想要完成整套代码库的版本迁移 需要整个技术团队全员投入 不间断工作整整两个月才能落地 而在引入Claude Fable 5之后 仅仅用了几天时间就全部完成

模型独立承担了绝大部分代码梳理、改写和调试的工作 人工只需要做最后的核验收尾 除了落地效率之外 Claude Fable 5的token使用效率也有显著提升 在编程基准测试FrontierCode中 模型仅开启中等思考强度 各项成绩就已经超越了目前市面上绝大多数的前沿编程大模型 在企业级知识工作领域

Fable 5的表现同样亮眼 专注于企业级AI知识管理的初创公司Hebbia 搭建了一套专业的金融能力基准测试题库 结果Fable 5拿下了全场最高分 测评结果显示 模型在基于海量文档的逻辑推理、复杂图表与数据表格解读、综合问题拆解解决这几个核心维度 相比前代模型实现了跨越式的提升

全球顶尖的自营交易与做市企业国际市场公司(IMC)也给出了高度评价 这家企业原本有一套成熟的交易分析评估体系 而Fable 5的分析能力几乎全面超越了这套人工搭建的评估标准

无论是基础的事实信息查询、抽象的概念逻辑推理 还是交易场景中核心的根本原因分析、预期价值研判 模型的输出结果都达到甚至超越了专业交易分析师的水平 如果说Claude Fable 5面向的是通用场景 那么Claude Mythos 5就是定位的前沿科研 它在基础科学研究领域交出的成果

甚至已经达到并超越了全球顶级科研人员的水平 首先来看药物研发与蛋白质设计领域 多位蛋白质设计领域的资深专家实测后表示 使用Claude Mythos 5开展相关工作 能够将部分核心环节的工作效率 提升到原来的10倍 官方放出了一个很有代表性的无人化实验案例 整个实验流程中没有任何人类研究员参与

仅为模型配备基础的蛋白质设计、生物信息学工具 Mythos5独立完成了全部科研动作 从筛选蛋白质结合位点、调用对应专业工具开展运算 到实验过程中遭遇数据异常、运算失败时自主排查问题、纠错恢复 整套流程一气呵成

本次实验一共锁定了14个不同的蛋白质研究靶点 最终有9个靶点成功产出高质量候选分子 目前这些分子已经全部进入后续动物实验和临床前研究阶段 这些研究靶点覆盖范围极广 包含免疫检查点、生长因子与受体信号传导、神经退行性疾病、肌肉疾病 还有部分结构复杂度极高、传统研究手段难以突破的疑难靶点

对于疑难疾病治疗药物的研发有着重要意义 在分子生物学领域 Claude Mythos 5创造了一个行业新纪录 它是业内第一款能够持续产出新颖、且具备科学说服力研究假设的大模型 为了客观验证模型产出假设的质量 研究团队组织了双盲对比评测 将Claude Mythos

5和上一代Opus模型产出的科学假设混合打乱 交由一线科研人员筛选评判 最终统计结果显示 科研人员对Claude Mythos 5提出假设的偏好率 达到了80%, 足以证明其假设的创新性与合理性 目前Claude Mythos 5产出的多项科学假设

已经正式进入了实验室验证阶段 其中一项针对大肠杆菌特定蛋白质全新作用机制的假设 后续还得到了另一支独立研究团队发表论文的佐证 这也进一步坐实了模型的科研价值 最让人惊叹的还要数基因组学领域的自主研究项目 Claude Mythos 5独立开展了一场持续一周多的原创性科研工作 在整个研究周期内

模型自主收集和整合了 横跨138个不同动物物种的数百万条单细胞原始数据 基于这些海量异构数据 自行设计架构、训练出一套定制化机器学习模型 这套模型的核心作用 是精准识别不同亲缘关系的物种体内 执行相同生理功能的细胞类型 后续经验丰富的人类研究员对这套模型进行优化调试后 最终成品的综合性能

超越了近期全球顶级期刊《科学》上发表的同领域研究模型 更值得一提的是 Claude Mythos 5训练出的这款模型 参数量仅仅是《科学》期刊论文模型的百分之一 在轻量化的前提下实现了性能反超 Anthropic表示

团队会在未来几个月内会整理出完整的研究数据 并将这项原创成果正式对外发表 除了这些能力之外 Claude Fable 5和Mythos 5还是两款能力全面的视觉大模型 它可以精准解读各类结构复杂的科学图表 从密密麻麻的曲线图、原理图中提取关键数据和逻辑关系 同时还支持纯截图复刻功能

仅仅依靠一张应用程序的界面截图 就能反向推导出完整的源代码并完成复刻 在执行视觉主导的任务时 Fable 5还有一个明显优势 就是对外部辅助工具的依赖大幅降低 有测试团队使用极简的纯视觉运行框架Harness 让模型挑战经典游戏《宝可梦 火红》 最终Fable 5顺利通关整个游戏 而在此之前

历代Claude模型想要完成这个任务 都必须搭配多套复杂的辅助工具才能实现 这也足以证明其视觉感知与自主决策能力的升级 最后,在记忆和长上下文领域 对于需要持续几个小时甚至几天的长周期任务 Fable

5模型能够全程保持专注度 不会随着任务时长增加出现逻辑断层、信息遗忘的问题 而且模型可以在运行过程中自主记录关键信息、梳理工作笔记 并且利用这些自建笔记 持续优化后续的输出内容 形成一个自我迭代的小型闭环 这对于长期自主运行的智能体来说非常重要 模型能力实现跨越式升级之后

安全风险防控就成为了重中之重 为此 Anthropic为新一代Mythos级模型搭建了一套全新的安全分类器体系 首先针对面向公众的Claude Fable 5 安全分类器会实时监测每一条用户请求 一旦识别出三类高风险内容 就会自动触发降级处理 切换到Claude Opus 4.8进行响应

根据Anthropic统计的后台数据 日常使用中大约有5%的用户请求 会触发这套降级机制 整体风控处于可控范围 第一类触发降级的场景是网络安全相关请求 Mythos级模型具备极强的软件漏洞挖掘、攻防推演能力 如果被恶意利用

会大幅降低网络攻击的技术门槛和实施成本 因此Anthropic专门开发了针对性的网络安全分类器 部署在Fable 5当中 拦截各类恶意网络安全请求 研发团队对这套分类器 开展了累计1000小时的高强度攻防测试 截至目前 全球范围内还没有任何技术团队 找到了能够绕过防护的通用越狱手段

当然Anthropic也客观承认 从技术角度来说 想要做到百分百彻底杜绝越狱攻击几乎不可能 所以团队的核心安全目标 是大幅提升越狱攻击的技术难度、时间成本和资金成本 确保一旦出现大规模恶意尝试 官方能够第一时间监测、追踪并及时阻断风险行为 第二类触发降级的场景是生物学、化学相关请求

以往Claude系列模型的风控规则 主要是严格禁止涉及生化武器研发这类明显违法违规的请求 但是随着新模型能力大幅提升 Anthropic发现很多看似常规的通用生物学、化学研究内容 也有可能被别有用心之人篡改利用 转化为危险工具

基于这个判断 Fable 5扩大了这个领域的风控范围 绝大多数生物学、化学方向的研究请求 都会被路由到上一代模型进行处理 从源头降低技术滥用风险 第三类触发降级的场景是模型蒸馏行为 简单来说,就是如果模型发现有用户 试图通过大量提问和数据提取等方式 把Mythos级模型的核心能力和底层参数给蒸馏出来

迁移到其他小型模型当中 这类请求也会被统一降级处理 而针对定向开放的Claude Mythos5 除了基础风控之外 Anthropic还增加了额外的监管要求 所有接入Mythos 5的企业客户 必须按照规定留存相关交互数据长达30天 不过这些留存的数据 不会被用于Anthropic自身的模型训练

唯一的用途是事后追溯和防范网络安全攻击 同时辅助风控团队减少分类器的误判和误报情况 形成闭环监管 聊完模型的性能和安全 我们来看看价格方面 这次Anthropic也公布了两款新模型详细的计价标准

每一百万输入token的定价为10美元 每一百万输出token的定价为50美元 对比之前发布的Mythos Preview 这次两款新模型的整体定价直接下降了一半 但是,大家别高兴的太早 即便价格减半 Mythos模型的算力消耗依旧十分惊人 社交平台X上已经有大量付费用户分享了真实的使用体验

有一位订阅了每月200美元Claude Max的用户做了详细测算 他在使用Claude Fable 5的过程中 仅仅一分钟的操作 就消耗掉了套餐内14%的五小时时长配额 以及周配额的2% 换算下来 相当于每分钟的使用成本接近1美元 显然,顶级大模型在处理复杂任务时 token的燃烧速度会远超普通模型

这也是为什么 高端旗舰模型很难完全依靠传统包月订阅的模式长期运转的核心原因 在定价之外 Anthropic还推出了限时免费使用的福利政策 目前Claude Fable 5已经完成全量上线

从发布当日开始,一直到6月22日 所有开通了Pro、Max、Team套餐 以及采用按坐席收费模式的企业版用户 都可以免费调用这款模型 全程不会扣除套餐时长和积分 但是从6月23日开始 Fable 5将会从上述订阅套餐中暂时移除 到那时用户如果想要继续使用的话 就需要消耗个人账户内的积分来调用

针对后续的使用规划 Anthropic也给出了明确表态 官方会持续监测服务器的承载容量 一旦集群算力能够稳定支撑大规模用户同时使用 就会第一时间将Fable 5恢复为订阅套餐的标配功能 同时也会根据实际运营情况 考虑延长本次的免费体验周期 尽可能让更多用户体验到新模型的能力

最后,我们站在整个AI行业的视角 来聊聊这次两款Mythos级模型发布背后 折射出的行业发展趋势 首先能够明显感受到 当下头部AI企业的竞争逻辑已经发生了本质变化 在大模型发展早期

行业比拼的主要是基准测试榜单分数、参数规模、对话流畅度这些浅层指标 而现在 包括Anthropic在内的头部厂商 都已经不再单纯追求榜单数据了 竞争的重心全面转向了真实业务场景下的全流程闭环交付能力 也就是说,模型能不能脱离人工干预 独立把复杂任务完整做完、做对、做好

成为了评判高端模型价值的核心标准 这也是智能体时代到来的明确信号 其次 高端大模型的算力成本和传统商业模式之间的矛盾正在持续激化 用户实测结果反映出 Mythos级这类顶级模型的token消耗速度极快 算力成本居高不下 而目前主流的包月、包年订阅模式 很难长期覆盖重度用户的算力开销 基于这个现状

整个行业的商业化模式也正在迎来重构 单纯的固定订阅制已经无法适配高端模型的发展了 未来,按token用量计费 以及订阅+按量计费的混合模式 甚至是按照任务最终成果结算的新型计费方式 都会在行业内加速普及 AI商业模式的多元化探索

也会成为接下来一两年的重要发展方向 对于个人来说 大飞我觉得基本上是烧不起这类token的 大家还是老老实实换成性价比更高的模型吧 反正日常的工作也没有那么复杂 只能是等着其他模型的能力提升 把成本打下来了 好了 以上就是对Claude全新Mythos级双模型的介绍了 欢迎大家在评论区留下自己的试用体验和评价 感谢收看,我们下期再见