Z ai 发布 GLM-5.2 的一个核心亮点是 CritPt 指标。该基准测试包含未发表的研究级物理问题,GLM-5.2 在此测试中与 Claude Opus 4.8 持平,且远超其他开源权重模型。
核心要点:
➤ Z ai 的 GLM-5.2(满负荷推理模式)大幅领先开源模型:排名第二的 DeepSeek V4 Pro 得分为 12.9%。
➤ GLM-5.2 与 Claude Opus 4.8 (20.9%) 持平,并击败了包括 GPT-5.5、Gemini 3.1 Pro 和 Claude Opus 4.7 在内的多个闭源模型。
➤ 仅有闭源模型得分更高,其中 GPT-5.5 Pro 以 30.6% 位居榜首。
➤ 实现 4.5 倍的代际飞跃:十周前 GLM-5.1 在 CritPt 上的得分仅为 4.6%。
Z ai’s GLM-5.2 is the new leading open weights model on the Artificial Analysis Intelligence Index scoring 51 and it sits on the Pareto frontier of Intelligence vs Cost per Task
@Zai_org’s GLM-5.2 is the same size as GLM-5.1 (744B total / 40B active parameters) but scores 11 poi
Claude Fable 5 在 Humanity’s Last Exam (HLE) 中得分 53%,领先次优模型 Claude Opus 4.8 (max) 7 个百分点以上。在 9% 的 HLE 任务中,Claude Fable 5 会回退至 Claude Opus 4.8,总运行成本约为 2200 美元(含回退成本)。https://twitter.com/ArtificialAnlys/status/2064500152430383489/photo/1