Artificial Analysis

打开 X 主页 ↗ Star on GitHub

单项商业尽职调查任务的 AA-Briefcase 输出样本显示，各模型质量差异显著。Claude Fable 5（目前不可用）生成的市场图谱清晰且结构化，数据附有脚注并标注了不确定性；GPT-5.5 (xhigh) 生成的文档相对详尽，但存在排版问题；Gemini 3.1 Pro 生成的图表内容非常匮乏，且缺乏补充分析。

2026-06-18 · ArtificialAnlys · 打开 ↗

更多详情与分析，请参阅我们的发布文章：https://artificialanalysis.ai/articles/aa-briefcase 完整结果见官网： https://artificialanalysis.ai/evaluations/aa-briefcase

2026-06-18 · ArtificialAnlys · 打开 ↗

发布 AA-Briefcase：定义智能体知识工作新时代的基准。 AA-Briefcase 是我们推出的全新基准，旨在测试模型在行业专家构建的复杂项目中处理长程（long-horizon）知识工作任务的能力。评估基于为期数周的项目，每个项目包含大量关联任务及数千个输入源文件。我们在

2026-06-18 · ArtificialAnlys · 打开 ↗

AI 医疗记录审查平台 Wisedocs 推出了全新的长上下文文档评估基准——医疗长上下文推理 (MLCR)。该基准基于其利用前沿模型处理医疗数据的经验，旨在测试模型在处理真实医疗与保险案例时的推理能力，即便在上下文规模扩大且文档噪声增加的情况下也能保持评估效力。MLCR 包含多个难度等级，并设有私有保留测试集，其问题设计灵感源自实际应用，涵盖了复杂的医疗推理、幻觉检测以及单次查询中的并行问题。我们很高兴能与 @Wisedocsai 合作，很快就会在 Artificial Analysis 上线这一基准测试！

2026-06-18 · ArtificialAnlys · 打开 ↗

方法论说明：本次数据采用智能指数 v4.1 版本。针对智能体评估，缓存 token 的计费已从全额输入价格改为缓存读写费率，从而更真实地反映高缓存依赖场景下的实际成本。若模型将请求路由至备用模型，运行成本将按实际提供服务的模型费率计算。因此，Fable 5 在图中显示为“Claude Fable 5 (含备用模型)”。未来，我们还将拆分具有备用或拒绝行为模型的智能评分，以展示主模型自身的得分贡献。判断智能提升是否物有所值：请看“智能 vs 成本” 👇

2026-06-17 · ArtificialAnlys · 打开 ↗

Claude 现推出四个价格档位，最高档的价格正好是原最高档的两倍。 Fable 5 是首个定位高于 Opus 的档位，将所有 token 类型的旗舰定价翻了一番。Anthropic 的产品线定价跨度达 10 倍（每百万输入/输出 token 的美元价格）： ➤ Haiku 4.5 → $1 / $5 ➤ Sonnet 4.6 → $3 / $15 ➤ Opus 4.8 → $5 / $25 ➤ Fable 5 → $10 / $50 这也是 Anthropic 首次上调旗舰定价：价格曾从 Claude 3 Opus 到 Opus 4.1 期间维持在 $15/$75，随后在 Opus 4.5 时降至 $5/$25，并一直沿用至 Opus 4.8。

2026-06-17 · ArtificialAnlys · 打开 ↗

运行 Claude Fable 5 的 Artificial Analysis 智能指数基准测试耗资约 6200 美元——这是我们测试过的最昂贵的模型 🧵 核心要点： ➤ 智能指数：60 分，领先于 Claude Opus 4.8 (56) 和 GPT-5.5 (55) ➤ 运行成本：6200 美元，是排名第二的 Opus 4.8 ($3700) 的 1.7 倍，是 GPT-5.5 ($2900) 的 2.2 倍 ➤ 标价：每百万输入/输出 token 为 10/50 美元，是 Opus 4.8 的 2 倍。在 2026 年发布的所有模型中，仅 OpenAI 的特殊 Pro 版 (GPT-5.5 Pro, $30/$180) 价格更高 ➤ 缓存定价（对长时 Agent 编程任务至关重要）也翻了一倍：缓存读取为 $1/M，写入为 $12.50/M；而 Opus 4.8 分别为 $0.50/$6.25 ➤ 目前运行智能指数成本最高的前三名模型均为 Claude 模型

2026-06-17 · ArtificialAnlys · 打开 ↗

Artificial Analysis 正式走出浏览器。我们在旧金山街头投放了数字广告牌，展示我们在智能、语音、图像和视频领域的基准测试结果。敬请留意！👀

2026-06-17 · ArtificialAnlys · 打开 ↗

结果背景：CritPt 难度极大。它专注于由全球 60 多名研究人员共同参与、由阿贡国家实验室和 UIUC 开发的前沿物理问题，答案与评分标准均处于保密状态。模型由 Artificial Analysis 进行独立基准测试。即便得分最高的模型 GPT-5.5 Pro，解题率也不足三分之一。开源权重模型能够接近领先的闭源模型，标志着开源模型在科学推理方面取得了实质性进展。

2026-06-17 · ArtificialAnlys · 打开 ↗

Z ai 发布 GLM-5.2 的一个核心亮点是 CritPt 指标。该基准测试包含未发表的研究级物理问题，GLM-5.2 在此测试中与 Claude Opus 4.8 持平，且远超其他开源权重模型。核心要点： ➤ Z ai 的 GLM-5.2（满负荷推理模式）大幅领先开源模型：排名第二的 DeepSeek V4 Pro 得分为 12.9%。 ➤ GLM-5.2 与 Claude Opus 4.8 (20.9%) 持平，并击败了包括 GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 在内的多个闭源模型。 ➤ 仅有闭源模型得分更高，其中 GPT-5.5 Pro 以 30.6% 位居榜首。 ➤ 实现 4.5 倍的代际飞跃：十周前 GLM-5.1 在 CritPt 上的得分仅为 4.6%。

2026-06-17 · ArtificialAnlys · 打开 ↗

Soniox v5 Real-Time 现已可通过 Soniox 控制台使用，每 1,000 分钟音频仅需 2 美元。 https://twitter.com/ArtificialAnlys/status/2067257893402157138/photo/1

2026-06-17 · ArtificialAnlys · 打开 ↗

完整结果：https://artificialanalysis.ai/speech-to-text/streaming 测试方法：https://artificialanalysis.ai/speech-to-text/methodology

2026-06-17 · ArtificialAnlys · 打开 ↗

在首次部分转录方面，Soniox v5 Real-Time 在语音结束后的 0.05 秒内实现了 4.7% 的词错率 (WER)。其准确度仅次于 Cartesia Ink-2 外部端点 (4.3%, 0.07s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.13s)，但速度快于两者。 https://twitter.com/ArtificialAnlys/status/2067257890575204543/photo/1

2026-06-17 · ArtificialAnlys · 打开 ↗

Soniox 发布了 Soniox v5 Real-Time：一款在准确率与延迟之间达到帕累托最优（Pareto frontier）的低延迟流式语音转文本（STT）模型，且在所有测试的闭源模型中价格最低。 Soniox v5 Real-Time 是 @soniox_ai 最新的流式 STT 模型，继上周发布的非流式模型 Soniox v5 Async 之后推出。在 AA-WER Streaming 基准测试中，它处于帕累托前沿的中部：比最准确的模型（Cartesia Ink-2、ElevenLabs Scribe v2 Realtime）更快，比最快的模型（Deepgram Flux、Nova-3）更准确，且价格低于所有这些模型。 **AA-WER Streaming 概述** AA-WER Streaming 将词错率（WER）与延迟成对报告，测量起点为 Silero VAD 检测到的语音结束点，所用音频与我们的非流式 STT 基准测试 AA-WER v2.0 相同（约 8 小时）。我们分别在两个时间点报告数据：首次最终转录（First Final，侧重准确率）和首次部分转录（First Partial，侧重速度）。 **核心结论** ➤ **首次最终转录**：Soniox v5 Real-Time 在语音结束后的 0.05 秒内实现了 4.5% 的 WER，比更快的 Deepgram Flux (7.4%, 0.02s) 和 Deepgram Nova-3 Realtime (6.7%, 0.06s) 更准确；同时比更准确的 Cartesia Ink-2 (3.7%, 0.09s) 和 ElevenLabs Scribe v2 Realtime (3.6%, 0.14s) 更快。 ➤ **首次部分转录**：该模型在语音结束后的 0.05 秒内实现了 4.7% 的 WER，仅次于 Cartesia Ink-2 (4.3%, 0.07s) 和 ElevenLabs Scribe。

2026-06-17 · ArtificialAnlys · 打开 ↗

Artificial Analysis 智能指数 v4.1 各项评估指标详解 https://t.co/SZsP4kiQlL

2026-06-17 · ArtificialAnlys · 打开 ↗

点击 https://artificialanalysis.ai/models/glm-5-2，对比 GLM-5.2 与其他领先模型。

2026-06-17 · ArtificialAnlys · 打开 ↗

Z ai’s GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sits on the Pareto frontier of Intelligence vs Cost per Task @Zai_org’s GLM-5.2 is the same size as GLM-5.1 (744B total / 40B active parameters) but scores 11 poi

2026-06-17 · ArtificialAnlys · 打开 ↗

想看更多此类视频，请订阅我们的 YouTube 频道：https://consent.youtube.com/ml?continue=https://www.youtube.com/channel/UCPbUnn64yfExNFR0_tS3nsA?cbrd%3D1&gl=NL&hl=nl&cm=2&pc=yt&src=1&escs=AZ8E49Bt4jMvXCv7pwZ3cBvKKmHSZ24o3Ww9lbIPlciArLPYf_f3-gUJrnn7pc5cyNcuZWBCe3DQ5cHa1O3Whw58AOp5X4jff2JH

2026-06-17 · ArtificialAnlys · 打开 ↗

继昨日发布 Intelligence Index v4.1 后，我们团队的 Daniel 在下方视频中简要介绍了主要更新： 1. 三项评估指标升级：Terminal-Bench 2.1、τ³-Bench Banking 和 GDPval-AA v2 2. 单项任务的成本、耗时与 Token 数：了解指数及各项评估中任务的成本、耗时与 Token 消耗，以及这些指标与智能水平之间的权衡关系。 3. 缓存输入 Token 报告：新增模型缓存 Token 使用量及其对成本影响的报告。

2026-06-17 · ArtificialAnlys · 打开 ↗

为庆祝 Artificial Analysis Intelligence Index v4.1 发布，我们将于 6 月 29 日在旧金山汇聚 AI 前沿的研究员、工程师与开发者。诚邀您参加这场主题演讲之夜，共同探讨 AI 评估、模型智能，以及成本、速度与性能之间的权衡。申请报名 👇 https://t.co/mGGsi8oZAs

2026-06-16 · ArtificialAnlys · 打开 ↗

更多详情与分析，请访问 Artificial Analysis：https://artificialanalysis.ai/ 我们的完整方法论一向公开。在全新的 Intelligence Index v4.1 中，了解各项评估的运行、评分及权重分配方式：https://artificialanalysis.ai/methodology/intelligence-benchmarking

2026-06-16 · ArtificialAnlys · 打开 ↗

Full Intelligence Index v4.1 weights: ➤ GDPval-AA v2: 20% ➤ Terminal-Bench 2.1: 16% ➤ τ³-Bench Banking: 14% ➤ Humanity's Last Exam: 12% ➤ AA-Omniscience Accuracy: 8% ➤ SciCode: 8% ➤ GPQA: 6% ➤ AA-LCR: 6% ➤ CritPt: 6% ➤ AA-Omniscience Non-Hallucination: 4% Full per-mode

2026-06-16 · ArtificialAnlys · 打开 ↗

发布 Artificial Analysis 智能指数 v4.1：转向智能体（Agentic）工作负载，包含升级的基准测试及全新的单项任务指标。 Artificial Analysis 智能指数是我们用于评估模型智能和追踪 AI 进展的综合指标。v4

2026-06-16 · ArtificialAnlys · 打开 ↗

我们的智能前沿图表今天首次出现倒退。 https://twitter.com/ArtificialAnlys/status/2065618560714740177/photo/1

2026-06-13 · ArtificialAnlys · 打开 ↗

https://twitter.com/ArtificialAnlys/status/2065611721637871941/photo/1

2026-06-13 · ArtificialAnlys · 打开 ↗

Artificial Analysis 昨晚在旧金山举办了“编程智能体基准测试”活动，演讲嘉宾来自 Cognition、Cursor 和 NVIDIA。感谢所有来自旧金山 AI 社区的参与者！特别感谢演讲嘉宾带来的精彩分享与圆桌讨论： • Silas Alberti (@silasalberti)，Cognition 研究高级副总裁 • Nate Schmidt，Cursor 评估与行为专家 • Venkat Srinivasan，NVIDIA 研究科学家 • George Cameron (@grmcameron)，Artificial Analysis 联合创始人特别感谢 Alessio (@FanaHOVA) 和 Kernel Labs (@KernelLabs_ai) 提供场地支持。

2026-06-12 · ArtificialAnlys · 打开 ↗

更多关于 AA-AgentPerf 的详情，请参阅我们的公告：https://artificialanalysis.ai/articles/aa-agentperf?utm_source=x

2026-06-12 · ArtificialAnlys · 打开 ↗

查看初步结果，并持续关注未来几周内陆续发布的更多数据：https://artificialanalysis.ai/benchmarks/hardware

2026-06-12 · ArtificialAnlys · 打开 ↗

随着硬件与配置组合测试的深入，我们将能够展示各组合在不同性能目标 (SLO) 下的最优表现。目前，我们已针对 DeepSeek V4 Pro 完成了单用户 20 tokens/s 和 60 tokens/s 的 SLO 测试，很快也将扩展至 180 tokens/s。

2026-06-12 · ArtificialAnlys · 打开 ↗

今天，我们发布了全新智能体推理基准测试 AA-AgentPerf 的

2026-06-12 · ArtificialAnlys · 打开 ↗

查看全新更新的 Artificial Analysis 编程智能体指数，涵盖每种测试框架与模型组合的各项评分、Token 使用量及成本：https://artificialanalysis.ai/agents/coding-agents 深入了解 Datacurve 推出的 DeepSWE：https://deepswe.datacurve.ai/ 加入我们的 Discord 社区参与讨论：https://discord.com/invite/dkR4wVfty

2026-06-12 · ArtificialAnlys · 打开 ↗

SWE-Bench Pro 的表现与其他评测迥异。搭载 GPT-5.5 (xhigh) 的 Codex 在其他评测中得分可达 64 至 84，但在该项仅得 31；而搭载 Opus 4.8 (max) 的 Claude Code 得分为 70，不仅是其最高分之一，还比 Opus 4.7 (max) 提升了 25 分。其继任者 DeepSWE 是该评测集中最难的一项：顶尖智能体的得分在 50 到 60 分左右，而领先的开源权重模型得分则低于 20。

2026-06-12 · ArtificialAnlys · 打开 ↗

我们更新了 Artificial Analysis 编程智能体指数，将 SWE-Bench Pro 替换为 Datacurve 的 DeepSWE 基准测试。此次调整使搭载 GPT-5.5 (xhigh) 的 Codex 超越了搭载 Opus 4.8 (max) 的 Claude Code，而 Claude Code 中新发布的 Claude Fable 5 (max) 则直接登顶。 DeepSWE 由 @datacurve 开发，其任务均为原创，而非改编自公开的 GitHub issue 或 PR，因此模型在训练阶段从未见过答案。这一点至关重要，因为原有的

2026-06-12 · ArtificialAnlys · 打开 ↗

立即在 Artificial Analysis 图像竞技场为 Ideogram 4.0 投票！https://artificialanalysis.ai/image/arena

2026-06-11 · ArtificialAnlys · 打开 ↗

文生图提示词 [6/6] (Ideogram 4.0 画质)：四位蒸汽朋克动漫角色：一位戴着高礼帽与护目镜、手持机械指南针的女性；一位穿着皮质风衣、正在调试蒸汽动力手臂的男性；一位正在摆弄小机器人的女孩；以及一位站在带有黄铜装饰的飞艇旁的飞行员。

2026-06-11 · ArtificialAnlys · 打开 ↗

文生图提示词 [5/6] (Ideogram 4.0 画质)：喜马拉雅雪峰之上，雪人正与一群小熊猫打雪仗。一只雪豹在附近的岩架上观战，西藏经幡在山风中飘扬。 https://t.co/LPGUlB9a5H

2026-06-11 · ArtificialAnlys · 打开 ↗

文生图提示词 [4/6] (Ideogram 4.0 质量)：笨拙的机器人在卡通厨房里尝试烹饪 https://twitter.com/ArtificialAnlys/status/2065136201733226974/photo/1

2026-06-11 · ArtificialAnlys · 打开 ↗

文生图提示词 [3/6] (Ideogram 4.0 质量)：东京夜晚繁忙的街道，霓虹灯招牌和广告牌上均以不同的字体和颜色显示着“Arcadia”字样。 https://twitter.com/ArtificialAnlys/status/2065136093494952444/photo/1

2026-06-11 · ArtificialAnlys · 打开 ↗

Ideogram 4.0 是 Ideogram 首个开源权重版本，并在我们的开源权重文生图排行榜中位列第 8。 Ideogram 4.0 是 @ideogram_ai 的最新发布。除了官方 API，Ideogram 还将以开源权重和商业许可的形式发布 4.0 版本。该模型可生成 2K x 2K（约 400 万像素）的图像，具备强大的多语言文本渲染、边界框布局控制和透明背景功能。Ideogram 4.0 使用结构化 JSON 提示词来指定构图和场景元素，并配有提示词增强器，可将自然语言提示词扩展为该结构化格式。请注意，提示词增强器仅通过 Ideogram 专有 API 提供，但可免费使用。我们对通过 Ideogram API 提供的高质量模型进行了基准测试，其在开源权重文生图领域排名第 8，在文生图领域排名第 31，超越了 Seedream 3.0 和 Luma UNI 1 等闭源模型。虽然 Ideogram 4.0 在设计、布局和文本渲染类别中名列前茅，但在涵盖卡通、动漫和写实主义等全场景的综合基准测试中排名较低。由于该模型风格化特征更强，在我们的基准测试中表现通常稍逊。Ideogram 表示，向公众开放的开源权重模型与原模型本质相同，仅增加了额外的安全训练和量化，因此预计质量会有细微差异。 Ideogram 4.0 可通过三个 API 层级...

2026-06-11 · ArtificialAnlys · 打开 ↗

阅读完整报告，深入了解当前防护与审核模型的检测质量、延迟，以及召回率与过度拒绝之间的权衡，并获取针对不同使用场景的选择指南： https://artificialanalysis.ai/articles/guardrail-safety-benchmark

2026-06-11 · ArtificialAnlys · 打开 ↗

护栏模型是对每次筛选调用征收的“税”。它不增加任何用户所需的功能，只会带来延迟和成本，因此只有在兼顾准确性与运行效率时，部署护栏模型才具价值。三个模型定义了“质量-延迟”的最优边界：英伟达的 Nemotron 3.5 Content Safety 侧重低延迟（~25ms，平均 F1 84%）；阿里巴巴的 Qwen3Guard 8B 性能进阶（~43ms，F1 87%）；Ai2 的 WildGuard 则在检测质量上领先（~69ms，F1 89%）。开启推理功能的模型均未处于该边界，它们在不提升检测质量的情况下，白白增加了数百毫秒的延迟。

2026-06-11 · ArtificialAnlys · 打开 ↗

护栏模型在拦截有害内容与确保安全内容顺畅通过之间存在内在权衡，且其默认行为差异很大。Meta 的 Llama Guard 和 Google 的 ShieldGemma 倾向于低干扰，几乎允许所有安全内容通过，但会漏掉更多有害内容。NVIDIA 的 Nemotron 内容安全模型则处于另一端，拦截能力更强，但也会过度拒绝安全内容。WildGuard 和 Qwen3Guard 8B 通过兼顾两者，实现了高召回率与高特异性的结合，在平均 F1 分数上表现领先。哪种模型更合适取决于产品需求。宽松型模型适用于低干扰场景（如消费者聊天、社交、创意工具），在这些场景中，过度拒绝的代价高于偶尔漏掉。严格型模型则最适合高风险场景（如临床、儿童安全、受监管系统），在这些场景中，漏掉一个有害内容的代价远高于误报。许多近期的护栏模型还可以通过策略或提示词进行引导，从而根据需求调整平衡点，而非受限于默认行为。

2026-06-11 · ArtificialAnlys · 打开 ↗

用户和企业正赋予 AI 模型与智能体更多自主权，因此筛选输入输出的“护栏”机制变得愈发关键。然而，评估这些护栏的基准测试却未能跟上模型智能进化的步伐。通过与 @nvidia 合作，我们利用三个公开数据集对护栏及审核模型进行了独立基准测试，衡量了检测质量、延迟，以及在拦截违规内容与避免误杀安全内容之间的权衡。目前尚无表现完美的模型，也缺乏统一的评判标准。我们认为这只是应对评估难题的初步尝试，随着模型承担更多现实任务，这一问题的重要性将日益凸显。

2026-06-11 · ArtificialAnlys · 打开 ↗

更多详情及基准测试请见 Artificial Analysis：https://artificialanalysis.ai/models/claude-fable-5

2026-06-10 · ArtificialAnlys · 打开 ↗

全面智能评估详解 https://twitter.com/ArtificialAnlys/status/2064500157736202447/photo/1

2026-06-10 · ArtificialAnlys · 打开 ↗

Claude Fable 5 在 Humanity’s Last Exam (HLE) 中得分 53%，领先次优模型 Claude Opus 4.8 (max) 7 个百分点以上。在 9% 的 HLE 任务中，Claude Fable 5 会回退至 Claude Opus 4.8，总运行成本约为 2200 美元（含回退成本）。https://twitter.com/ArtificialAnlys/status/2064500152430383489/photo/1

2026-06-10 · ArtificialAnlys · 打开 ↗

Claude Fable 5 今日发布，位列 Artificial Analysis 智能指数榜

2026-06-10 · ArtificialAnlys · 打开 ↗

前往 Artificial Analysis 图像排行榜，亲自体验 HiDream-O1-Image-1.5：文生图：https://artificialanalysis.ai/image/leaderboard/text-to-image 或在 Image Arena 中参与投票：https://artificialanalysis.ai/image/arena

2026-06-09 · ArtificialAnlys · 打开 ↗

提示词 [5/6]：用贝壳拼出“Ocean”这个词。 https://twitter.com/ArtificialAnlys/status/2064465254592176338/photo/1

2026-06-09 · ArtificialAnlys · 打开 ↗

提示词 [6/6]：维多利亚风格温室中一场华丽的蒸汽朋克主题婚礼，宾客身着华服，蛋糕顶端饰有旋转的齿轮。https://twitter.com/ArtificialAnlys/status/2064465257272349017/photo/1

2026-06-09 · ArtificialAnlys · 打开 ↗

Prism is open source · ⭐ Star on GitHub · about