← 精选
各项评估明细:https://twitter.com/ArtificialAnlys/status/2049505510567588114/photo/1
2026-04-29 · ArtificialAnlys · 打开 ↗
在此对比 Granite 4.1 全系列与其它领先模型:https://artificialanalysis.ai/models/granite-4-1-30b
2026-04-29 · ArtificialAnlys · 打开 ↗
IBM 发布了
2026-04-29 · ArtificialAnlys · 打开 ↗
MiMo V2.5 Pro 各项评估结果详情:https://twitter.com/ArtificialAnlys/status/2047799225392705553/photo/1
2026-04-24 · ArtificialAnlys · 打开 ↗
更多详情及基准测试请见 Artificial Analysis:https://artificialanalysis.ai/models/mimo-v2-5-pro
2026-04-24 · ArtificialAnlys · 打开 ↗
小米 MiMo V2.5 Pro 在 Artificial Analysis 智能指数中排名第 54 位,与目前顶尖的开源权重模型 Moonshot Kimi K2.6 并列。MiMo V2.5 Pro 的权重预计很快就会发布,届时它将成为首个与之并驾齐驱的开源权重模型,且表现略优于 DeepSeek V4 Pro。 小米 MiMo V2.5 Pro 较其上一代旗舰模型 MiMo
2026-04-24 · ArtificialAnlys · 打开 ↗
不同投入等级的变体为平衡智能与成本提供了清晰的阶梯。运行我们的 Index 时,GPT-5.5 (xhigh) 的成本比前代高出约 20%,但比 Claude Opus 4.7 (max) 便宜 30%。
2026-04-23 · ArtificialAnlys · 打开 ↗
DeepSeek V4 Pro 与 V4 Flash 的各项基准测试结果:https://twitter.com/ArtificialAnlys/status/2047735174092530162/photo/1
2026-04-24 · ArtificialAnlys · 打开 ↗
Artificial Analysis 对 DeepSeek V4 Pro 和 Flash 的更多基准测试与分析: https://artificialanalysis.ai/
2026-04-24 · ArtificialAnlys · 打开 ↗
随着 DeepSeek V4 Pro 和 V4 Flash 的发布,DeepSeek 重新回到了领先开源权重模型的行列。在 Artificial Analysis 智能指数中,V4 Pro 位列第二,仅次于 Kimi K2.6。 @deepseek_ai 发布了 DeepSeek V4 Pro 和 V4 Flash。V4 是 DeepSeek 自 V3 以来推出的首个新架构。V4 引入了全新架构,其中 V4 Pro 总参数量为 1.6T(激活 49B),V4 Flash 总参数量为 284B(激活 13B
2026-04-24 · ArtificialAnlys · 打开 ↗
提示词 [4/6]:将标牌改为“SYDNEY”,但保持完全相同的主题和风格。(图像编辑)
2026-04-23 · ArtificialAnlys · 打开 ↗
提示词 [3/6]:拥挤早高峰列车上的通勤者,细腻动漫风。(文生图) https://twitter.com/ArtificialAnlys/status/2047184069499449480/photo/1
2026-04-23 · ArtificialAnlys · 打开 ↗
更多详情及基准测试,请参阅 Artificial Analysis:https://artificialanalysis.ai/models/mimo-v2-5-pro
2026-04-24 · ArtificialAnlys · 打开 ↗
Ling 2.6 Flash 在 GDPval 上的表现较 Ling-flash-2.0 有显著提升,Elo 分数从 425 跃升至 784。https://twitter.com/ArtificialAnlys/status/2046819351228244063/photo/1
2026-04-22 · ArtificialAnlys · 打开 ↗
在 https://artificialanalysis.ai/models/deepseek-v4-pro 对比 DeepSeek V4 系列与其他领先模型。
2026-04-24 · ArtificialAnlys · 打开 ↗
DeepSeek V4 Pro is the #1 open weights model on GDPval-AA, our agentic real-world work tasks evaluation @deepseek_ai has released V4 Pro (1.6T total / 49B active) and V4 Flash (284B total / 13B active). V4 is DeepSeek's first new size since V3, with all intermediate models (V3.1
2026-04-24 · ArtificialAnlys · 打开 ↗
Ling 2.6 Flash 智能性价比极高,运行 Artificial Analysis 智能指数仅需约 23 美元,每百万输入/输出 token 的价格仅为 0.10/0.30 美元。
2026-04-22 · ArtificialAnlys · 打开 ↗
OpenAI 在我们的五项核心评估中位居第一,并在三项评估中仅次于 Gemini 3.1 Pro Preview。
2026-04-23 · ArtificialAnlys · 打开 ↗
更多基准测试及与其他领先模型的深度对比,请见 Artificial Analysis:https://artificialanalysis.ai/models/gpt-5-5
2026-04-23 · ArtificialAnlys · 打开 ↗
GPT-5.5 让 OpenAI 重回 AI 领域的绝对领先地位。OpenAI 的新模型在 Artificial Analysis 智能指数中领先 3 分,打破了此前与 Anthropic 和 Google 三方持平的局面。 OpenAI 提供了预发布测试权限,涵盖五种推理强度等级:极高 (xhigh)、高 (high)、中 (medium)、低 (low) 及非推理 (non-reasoning)。 ➤ **OpenAI 在五项核心评估中夺冠**:GPT-5.5 (极高强度) 在 Terminal-Bench Hard、GDPval-AA 以及我们新推出的 APEX-Agents-AA 中表现领先。在 CritPt 和 AA-LCR 评估中,该模型仅落后于其他
2026-04-23 · ArtificialAnlys · 打开 ↗
前往 Artificial Analysis 图像排行榜亲自体验 GPT Image 2:https://artificialanalysis.ai/image/leaderboard/text-to-image 或在 Image Arena 中投票:https://artificialanalysis.ai/image/arena
2026-04-23 · ArtificialAnlys · 打开 ↗
提示词 [6/6]:将产品旋转180°,清晰展示背面标签。(图像编辑)
2026-04-23 · ArtificialAnlys · 打开 ↗
GPT Image 2 (high) 在我们的文生图排行榜上首登榜首,在 Artificial Analysis 图像竞技场中超越了 Nano Banana 2、FLUX.2 [max] 和 Seedream 4.0。 OpenAI 最新的图像模型在指令遵循度、写实度和文本渲染方面实现了飞跃。在处理极其复杂的提示词时,其优势最为显著,尤其是在以往没有任何模型能完成的任务上。 在图像编辑排行榜上,GPT Image 2 的进步并不明显,表现与 GPT Image 1.5 基本持平。我们的图像编辑排行榜测试的是对单张输入图像进行修改的任务(例如:更改文本、移除物体、添加人物)。 GPT Image 2 (high) 的 API 定价为每 1000 张图 211 美元,价格高于 Google 的 Nano Banana 2(每 1000 张图 67 美元)。 该模型已通过 OpenAI 开发者 API 和 ChatGPT 提供。 请看下方 GPT Image 2 (high) 与 Artificial Analysis 图像竞技场中其他领先模型的对比 🧵
2026-04-23 · ArtificialAnlys · 打开 ↗
得益于幻觉率的大幅降低,Opus 4.7 在 Artificial Analysis 全知指数中位列第二。Opus 4.7 通过在面对未知问题时更频繁地选择拒绝回答,将幻觉率从 61%(Opus 4.6 Adaptive)降至 36%,同时准确率基本保持不变。
2026-04-18 · ArtificialAnlys · 打开 ↗
Opus 4.7(自适应推理,全力模式)运行 Artificial Analysis 智能指数的成本约为 4,406 美元,比 Opus 4.6(约 4,970 美元)低约 11%,尽管其得分还高出 4 分。这主要归功于输出 token 使用量的减少,即便考虑到 Opus 4.7 采用了新的分词器。
2026-04-18 · ArtificialAnlys · 打开 ↗
欲了解 Ling 2.6 Flash 的更多详情及基准测试,请访问 Artificial Analysis:https://artificialanalysis.ai/models/ling-2-6-flash 想深入探讨?欢迎在 Discord 社区与我们交流:https://discord.com/invite/ATfzv9v9
2026-04-22 · ArtificialAnlys · 打开 ↗
以下是 Ling 2.6 Flash 的完整评估结果:https://twitter.com/ArtificialAnlys/status/2046819353438667226/photo/1
2026-04-22 · ArtificialAnlys · 打开 ↗
蚂蚁集团的 Ling 2.6 Flash 在 Artificial Analysis 智能指数中获得 26 分,较 Ling-flash-2.0 提升了 10 分。它是近期少数专注于非推理能力、并致力于实现高“智能/成本比”的开源权重模型之一。 Ling 2.6 Flash 是蚂蚁集团 @TheInclusionAI 实验室推出的非推理模型。蚂蚁的模型家族包含三个系列:Ling(非推理)、Ring(推理)和 Ming(多模态)。Ling-flash-2.0 是上一代 Flash 级别的非推理模型。Ling 2.6 Flash 预计在发布后不久即开源权重,但截至目前,Hugging Face 上尚未发布。 核心要点: ➤ Ling 2.6 Flash 总参数量为 104B,激活参数量为 7.4B。其智能水平(26分)接近 GPT-5.4 nano(非推理,24分)和 Gemma 4 26B A4B(非推理,27分),后两者的激活参数量与其相当。然而,它仍落后于 GLM-5.
2026-04-22 · ArtificialAnlys · 打开 ↗
[提示词 2]:一名登山者在山顶高举双臂的卡通描绘。 https://twitter.com/ArtificialAnlys/status/2045242935198020052/photo/1
2026-04-17 · ArtificialAnlys · 打开 ↗
[提示词 1/5]:一名戴着防护面罩和手套的焊工在昏暗的车间里作业,火花四溅。 https://twitter.com/ArtificialAnlys/status/2045242932509520071/photo/1
2026-04-17 · ArtificialAnlys · 打开 ↗
Kimi K2.6 完整评测结果如下:https://twitter.com/ArtificialAnlys/status/2046424240841515179/photo/1
2026-04-21 · ArtificialAnlys · 打开 ↗
查看 Artificial Analysis 获取 Kimi K2.6 的更多详情与基准测试:https://artificialanalysis.ai/models/kimi-k2-6 想深入探讨?欢迎加入我们的 Discord 社区进行讨论:https://discord.com/invite/ATfzv9v9
2026-04-21 · ArtificialAnlys · 打开 ↗
Kimi K2.6 的 Token 使用量显著高于 Kimi K2.5。https://twitter.com/ArtificialAnlys/status/2046424235887952150/photo/1
2026-04-21 · ArtificialAnlys · 打开 ↗
Kimi K2.5 在 AA-Omniscience 指数中获得 6 分,主要得益于其较低的幻觉率。https://twitter.com/ArtificialAnlys/status/2046424237720920076/photo/1
2026-04-21 · ArtificialAnlys · 打开 ↗
Moonshot 的 Kimi K2.6 成为新的领先开源权重模型。在 Artificial Analysis 智能指数中位列第四(54 分),仅次于 Anthropic、Google 和 OpenAI(均为 57 分)。 核心要点: ➤ 智能体任务性能提升:Kimi K2.6 在 GDPval-AA 评估中的 Elo 分数达到 1520,较 Kimi K2.5 的 1309 显著提升。GDPval-AA 是衡量通用智能体性能的核心指标,用于评估准备演示文稿和分析等知识型工作任务。模型通过我们开源的参考智能体框架 Stirrup,在智能体循环中获得代码执行和网页浏览工具。这延续了 Kimi K2.6 在工具使用方面的优势,在 $\tau^2$-Bench Telecom 上保持了 96% 的得分,跻身该领域的顶尖模型行列。 ➤ 低幻觉率:Kimi K2.6 在 AA-Omniscience 指数(衡量准确性和幻觉率的知识评估指标)中得分为 6。这主要归功于其较低的幻觉率(从 Kimi K2.5 的 65% 降至 39%),表明模型在不确定时更倾向于拒绝回答而非编造知识。Kimi K2.6 的低幻觉率使其表现与 Claude Opus 4.7 (36%) 和 MiniMax-M2.7 (34%) 等模型相当。 ➤ 高 Token 使用
2026-04-21 · ArtificialAnlys · 打开 ↗
Opus 4.7 与 Opus 4.6(自适应推理,最大效能)、Opus 4.5(推理)及其他顶尖前沿模型的完整结果对比详解:https://twitter.com/ArtificialAnlys/status/2045292587851067703/photo/1
2026-04-18 · ArtificialAnlys · 打开 ↗
在此对比 Opus 4.7 与其他领先模型: https://artificialanalysis.ai/models/claude-opus-4-7
2026-04-18 · ArtificialAnlys · 打开 ↗
Claude Opus 4.7 与 GPT-5.4 及 Gemini 3.1 Pro 并列 Artificial Analysis 智能指数榜首,并在我们的通用智能体能力主要基准 GDPval-AA 中处于领先地位。 Claude Opus 4.7 在 Artificial Analysis 智能指数中得分为 57 分,较 Opus 4.6(自适应推理,最大努力模式,53 分)提升了 4 分。 这造就了 Artificial Analysis 历史上最大规模的平局:目前三大顶尖实验室的模型并列第一。 Anthropic 在现实世界智能体工作方面表现领先,在衡量 44 个职业和 9 个主要行业的 GDPval-AA 基准中排名第一。Google 在知识与科学推理方面领先,在 HLE、GPQA Diamond、SciCode、IFBench 和 AA-Omniscience 中夺冠。OpenAI 在长程编码与科学推理方面领先,在 TerminalBench Hard、CritPt 和 AA-LCR 中夺冠。 我们的智能指数校准了 +/- 1 分的 95% 置信区间,并将数值四舍五入至整数。Claude Opus 4.7 的精确得分为 57.3,位列第一,但我们建议将其视为与 Gemini 3.1 Pro (57.2) 和 GPT-5.4 (56.8) 并列第一。 以下所有结果和结论均基于 Opus 4.7 在“最大努力模式”(自适应推理,最大努力)下的评估,这与我们报告 Opus 4.6 的方式一致。 核心结论: ➤ Opus 4.7 是 GDPval-AA 的新领跑者,该指标是我们衡量知识工作任务中通用智能体性能的主要标准。Opus 4.7 得分为 1,753 Elo,领先最接近的模型约 79 Elo 分。
2026-04-18 · ArtificialAnlys · 打开 ↗
[提示词 5]:一张震撼的画面:一名登山者正在垂直峭壁上攀爬,下方是广袤崎岖的荒野,凸显出登山者的专注与坚毅。 https://twitter.com/ArtificialAnlys/status/2045242943779557442/photo/1
2026-04-17 · ArtificialAnlys · 打开 ↗
前往 Artificial Analysis 视频竞技场,亲自体验 ImagineArt 2.0: https://artificialanalysis.ai/image/arena 图像竞技场排行榜: https://artificialanalysis.ai/image/leaderboard/text-to-image
2026-04-17 · ArtificialAnlys · 打开 ↗
ImagineArt 2.0 在我们的文生图排行榜上首秀即位列第 9,其生成质量足以媲美 xAI 的 grok-imagine-image 和 Google 的 Imagen 4 Ultra! @ImagineArt_X 的 2.0 版本是 ImagineArt 最新的自研图像模型。ImagineArt 是一款广受欢迎的 AI 创意工作室应用,让用户能一站式使用多种图像和视频模型。 ImagineArt 2.0 目前已可在 ImagineArt Image Studio 应用中选择使用,面向开发者的 API 也即将推出。 请查看下方 ImagineArt 2.0 与 Artificial Analysis 图像竞技场中其他领先模型的对比 🧵
2026-04-17 · ArtificialAnlys · 打开 ↗
查看 Artificial Analysis 语音排行榜上的顶尖模型:https://artificialanalysis.ai/text-to-speech/leaderboard 在 Speech Arena 为模型投票:https://artificialanalysis.ai/text-to-speech/arena 在 Speech Explorer 中探索 Fish Audio S2 Pro 的样本音频:https://artificialanalysis.ai/text-to-speech/speech-explorer
2026-04-17 · ArtificialAnlys · 打开 ↗
Fish Audio S2 Pro 提示词示例:“我已核实您在 LAX 的租车预订。您的车型已获准免费升级为全尺寸轿车,明早 8 点即可取车。” https://twitter.com/ArtificialAnlys/status/2045179333309022646/video/1
2026-04-17 · ArtificialAnlys · 打开 ↗
Fish Audio S2 Pro 在 Fish Audio 平台上运行,生成速度为每秒 51 个字符,价格为每百万字符 15 美元。
2026-04-17 · ArtificialAnlys · 打开 ↗
Fish Audio S2 Pro 成为 Artificial Analysis Speech Arena 排行榜上新的开源权重模型冠军,正不断缩小开源模型与闭源模型之间的差距。 Fish Audio S2 Pro 是 Fish Audio 推出的最新 TTS 模型,支持多发言人、多轮对话生成,并可通过自然语言标签(如 [耳语]、[笑声]、[兴奋语气]、[专业播音语气])实现行内韵律与情感控制。该模型基于 80 多种语言、超过 1000 万小时的音频训练而成。权重与微调代码已在 Hugging Face 发布,API 也已上线其平台。 核心要点: ➤ 质量:Fish Audio S2 Pro 的 Elo 分数为 1,165,总排名第 6,在开源权重模型中排名第 1,领先于 Step Audio EditX (1,105) 和 Kokoro 82M v1.0 (1,057)。 ➤ 价格:通过 Fish Audio 平台使用 API 的价格为 15 美元/百万字符;用户也可通过 Hugging Face 的权重进行自托管。 ➤ 速度:Fish Audio S2 Pro 的处理速度为 51 字符/秒。作为对比,在 Replicate 上托管的 Kokoro 82M v1.0 处理速度为 290 字符/秒。 查看更多详情及样本 ⬇️
2026-04-17 · ArtificialAnlys · 打开 ↗
Anthropic 今日发布了 Claude Opus 4.7,该模型在衡量真实世界智能体工作任务表现的 GDPval-AA 基准测试中位列第一。 Opus 4.7 在发布时的“max”模式下,GDPval-AA 得分为 1753,超越了 GPT-5.4 xhigh。 这是一次重大升级,使 Opus 重新夺回了 GDPval-AA 排行榜榜首,超越了 Sonnet。在 GDPval 任务集的正面交锋中,其对比 OpenAI GPT-5.4 的隐含胜率约为 60%。 我们在模型发布前协助了 @AnthropicAI 进行测试,感谢他们在发布公告和系统卡中引用了我们关于 GDPval-AA 和 AA-Omniscience 的评估结果。 我们正在积极进行 Artificial Analysis Intelligence Index 的其余评估,并将尽快公布完整结果!
2026-04-16 · ArtificialAnlys · 打开 ↗
更多详情请查看 GDPval-AA 排行榜页面:https://artificialanalysis.ai/evaluations/gdpval-aa
2026-04-16 · ArtificialAnlys · 打开 ↗
查看 Artificial Analysis 语音排行榜上的顶尖模型:https://artificialanalysis.ai/text-to-speech/leaderboard 在 Speech Arena 中为模型投票:https://artificialanalysis.ai/text-to-speech/arena 在 Speech Explorer 中试听 Gemini 3.1 Flash TTS 的音频样本:https://artificialanalysis.ai/text-to-speech/speech-explorer
2026-04-15 · ArtificialAnlys · 打开 ↗
Gemini 3.1 Flash TTS 每秒处理 27.4 个字符,价格为 36.6 美元/百万字符。对比来看,Inworld TTS 1.5 Max 每秒处理 138 个字符,价格为 10 美元/百万字符;Eleven v3 每秒处理 38.8 个字符,价格为 171.88 美元/百万字符。
2026-04-15 · ArtificialAnlys · 打开 ↗
Google 的新款 Gemini 3.1 Flash TTS 在 Artificial Analysis Speech Arena 排行榜上排名第二,领先于 ElevenLabs 的 Eleven v3,仅次于 Inworld TTS 1.5 Max。 Gemini 3.1 Flash TTS 是 Google TTS 模型的一次重大飞跃,语音样本的自然度显著提升。目前,该模型在 Speech Arena 上的 Elo 分数仅落后榜首 4 分,是榜首梯队中差距最小的模型。 核心要点: ➤ 质量:基于 1700 多次竞技场表现,Gemini 3.1 Flash TTS 的 Elo 分数为 1,211,仅落后榜首(Inworld TTS 1.5 Max,1,215 分)4 分,领先 Eleven v3(1,179 分)32 分。 ➤ 价格:标准定价为 36.6 美元/百万字符,比 Inworld TTS 1.5 Max(10 美元/百万字符)贵 3.7 倍,但比 Eleven v3(172 美元/百万字符)便宜 4.7 倍。预计批量定价会更低。 ➤ 速度:生成速度为 27.4 字符/秒,而 Inworld TTS 1.5 Max 为 138 字符/秒,Eleven v3 为 38.8 字符/秒。 ➤ 提示词功能:支持通过文本提示词生成语音。Google 的提示策略指南涵盖了角色设定、场景、风格、节奏和口音等要素。 查看更多详情并试听样本 ⬇️
2026-04-15 · ArtificialAnlys · 打开 ↗
Prism is open source · ⭐ Star on GitHub · about