模型定位:Mythos 5的“大众版”与安全防护
本次评测的核心对象是Anthropic最新发布的Claude Haiku 5(字幕中误读为Fable,实指Haiku系列或特定内部代号,此处依字幕语境理解为Mythos 5的常规访问版本)。作者指出,该模型被定位为Mythos 5的“normie”(普通/大众)版本。两者基于相同的底层模型架构,但存在关键差异:Mythos 5主要面向一小部分网络防御者和基础设施提供商,并移除了部分安全限制;而Haiku 5则保留了完整的安全护栏,旨在防止恶意用途。这种区分意味着Haiku 5是公众可访问的、经过严格安全过滤的顶级模型版本。
"Fable 5 is kind of the normie version of Mythos 5 if you will."
这种架构上的同源但权限不同,使得Haiku 5在保持极高能力的同时,确保了公共使用的安全性。作者强调,虽然Mythos 5在特定领域可能更强大,但Haiku 5作为公开模型,其能力已经足以被称为“目前公开可访问的最佳模型”之一。
定价策略与基准测试表现
在定价方面,Anthropic采取了相对亲民的策略。根据公告,Claude Haiku 5的输入token价格为每百万10美元,输出token为每百万50美元。作者对此表示惊讶,认为考虑到其宣称的能力,这个价格甚至低于100美元的预期,属于“相当不错的交易”。尽管价格不菲,但相较于市场预估,它提供了极高的性价比。
在性能基准测试方面,Haiku 5展现了显著的跃升。作者特别指出,从之前的顶级模型Claude Opus 4.8到Mythos/Haiku 5,能力之间存在“显著的巨大飞跃”。在各项基准测试中,Haiku 5几乎在所有方面都击败了之前的所有模型,甚至在中等努力程度(medium effort)下也在前沿模型中得分最高。这种性能的提升让作者对后续的浏览器OS测试充满期待。
| 模型名称 | 输入价格 (每百万token) | 输出价格 (每百万token) | 基准测试表现对比 |
|---|---|---|---|
| Claude Opus 4.8 | 信息不足 | 信息不足 | 基准测试中的前代最高水平 |
| Claude Haiku 5 | $10 | $50 | 显著超越Opus 4.8,多项基准领先 |
| Claude Mythos 5 | 信息不足 | 信息不足 | 底层架构相同,安全限制更少 |
功能演示:从3D设计到生物制药
除了基准测试数据,公告中还展示了多个具体应用场景,进一步印证了其能力的广泛性。作者特别提到了3D CAD设计能力的提升。此前在测试其他模型设计OpenCAD外壳时,结果往往是一场“灾难”,但Haiku 5生成的灯塔模型虽然简单,却显示出“显著更高的胜任力”。这表明模型在空间理解和复杂几何生成方面有了质的飞跃。
此外,公告还罕见地强调了模型在药物设计、生物学和分子生物学领域的应用潜力。作者认为,这些领域代表了AI“造福人类”的核心潜力,如寻找现有疾病的新疗法。虽然作者自谦对这些领域缺乏专业知识,但他对模型在这些复杂科学任务上的表现持高度乐观态度。音乐生成演示也展示了其在创意领域的多模态能力。
初步测试:浏览器OS与API限制
为了验证实际性能,作者启动了浏览器OS测试。然而,初次尝试因Prompt设置问题(要求10个白帽工具)导致模型错误切换至Opus 4.8,致使该次测试结果无效。作者特别说明了测试环境:使用的是每月200美元的最高额度计划,测试从空白状态开始,旨在观察模型在真实交互中的表现及API消耗情况。
"I would hope that we use all of this up and then have to transition to API."
在修正Prompt后,Haiku 5成功启动了浏览器OS测试。结果显示,模型能够识别并加载Nebula OS界面,背景美观且UI风格常见。尽管未能完全复现之前GTA克隆的复杂结果,但成功加载操作系统界面本身证明了其在自主执行复杂任务方面的能力。作者表示,后续将继续深入测试其自主性,并记录API使用情况,以评估其在高负载下的稳定性和成本效益。
浏览器操作系统交互与基础应用测试
视频首先展示了Claude Fable 5在模拟浏览器操作系统中的表现。测试者尝试了一系列基础窗口管理操作,包括右键菜单(未响应,但符合指令遵循逻辑)、最小化到任务栏、重新打开、全屏显示以及关闭窗口。模型展现了良好的指令遵循能力,尽管缺少右键菜单功能,但其对窗口状态切换的处理流畅自然。界面设计方面,Dock栏风格获得认可,但测试者指出图标悬停时缺乏缩放效果,且时钟、日期和位置信息的布局较为标准。
在应用运行测试中,模型成功启动了名为“Hyperdrift”的小游戏。测试者通过W键和方向键控制飞船穿越小行星带,模型生成的游戏逻辑虽然对玩家极具挑战性,但运行稳定。随后,测试者尝试了“Vault 3D”游戏,模型成功绘制了3D场景、小地图,并引导角色找到翡翠门。尽管视觉渲染风格被形容为“funky”,但模型在3D空间理解和任务达成上的表现令人印象深刻。在终端测试中,模型执行了“help”命令并展示了银河系视觉效果,但在执行“5 * 9”计算时出现错误,显示为“45”,这表明其在基础算术逻辑上仍存在缺陷。
图形处理缺陷与OpenRouter路由验证
在Paint应用程序测试中,Fable 5暴露出一个显著的图形渲染缺陷。测试者保存PNG文件时发现,透明背景未能随窗口放大而动态调整,而是保持静态的左上角位置。测试者表示,这种低级错误在顶级模型中并不常见,显示出其在处理动态UI元素时的局限性。尽管可以应用自定义颜色,但渐变效果依然保留,说明模型对图层属性的理解存在偏差。
为了验证这些结果是否确实来自Fable 5,测试者通过OpenRouter平台重新运行了GTA克隆游戏的生成任务。由于OpenRouter可能在检测到错误时自动切换至Opus 4.8模型,测试者对结果的归属持保留态度。然而,生成的GTA克隆游戏质量极高,证明Fable 5具备强大的代码生成能力。测试者指出,虽然无法100%确认OpenRouter未发生模型切换,但高水准的输出结果暗示了Fable 5在复杂游戏逻辑生成上的潜力。
C++滑板游戏生成:突破性的性能表现
测试的高潮部分是在Clawed Code环境中,使用Fable 5以“Max”努力程度生成一个自包含的C++滑板模拟游戏。测试者特意禁止使用Raylib库,以考验模型的基础图形渲染能力。结果令人震惊,模型生成了包含网格碰撞器(mesh colliders)的建筑和复杂的物理交互。测试者形容这一结果为“新范式”,并指出其流畅度甚至超越了人类玩家的操作极限。
生成的游戏细节丰富,包括救生员塔、摩天轮、沙滩毛巾、行走的冲浪者以及带有文字标识的商店。滑板倾斜效果和移动流畅度令人难以置信,测试者甚至开玩笑说如果将此游戏以99美分上架Steam,将极具竞争力。与之前浏览器OS中“中规中矩”的表现相比,Fable 5在创造性代码生成和复杂物理模拟方面展现了截然不同的能力层级。测试者认为,这一结果可能代表了AI生成游戏的新高度,甚至调侃模型未来可能具备制作GTA 6的能力。
广告动画测试与赞助商环节
在最后的广告动画测试中,测试者向Fable 5提供了一组特定资产文件夹和详细的提示词,要求生成一个带有脚本朗读功能的SVG动画广告。测试旨在评估模型在多媒体内容生成和复杂指令遵循方面的综合能力。虽然视频片段在此处插入赞助商OxyLabs的广告,但测试本身展示了Fable 5在处理多模态资产和动画逻辑上的尝试。OxyLabs作为赞助商,提供了用于AI代理的网页抓取API和搜索API,强调其在处理JavaScript密集型网站和全球代理网络方面的优势,为AI应用提供实时数据支持。
3D FPS游戏生成:Pygame引擎下的细节与风格
视频测试者向Claude Fable 5提出了一个具有挑战性的编程任务:使用Python和Pygame引擎生成一个3D第一人称射击(FPS)游戏,要求采用Wolfenstein和Doom Classic风格的真透视3D渲染,且明确禁止使用某些特定库。这一测试旨在检验模型在代码实现逻辑和视觉风格把控上的能力。生成的游戏虽然受限于Python引擎的性能,但整体表现超出了预期,呈现出一种独特的Synthwave(合成波)美学风格。尽管提示词中并未指定这种风格,但模型自主生成的视觉效果既干净又具有辨识度,测试者评价其感觉“近乎无菌,但这是好的方面”。
在游戏的具体功能实现上,Claude Fable 5展现了出色的细节处理能力。游戏包含了自动装填机制、小地图显示、武器后坐力反馈以及弹药轨迹效果。测试者特别指出,敌对角色的生成逻辑非常自然,它们从入口通道涌出的动画细节令人印象深刻,这体现了模型在程序化动画生成上的高水平。此外,游戏还包含了音效和区域清除的提示音,增强了沉浸感。虽然画面在视觉上不算极其华丽,但其代码结构的整洁性和功能的完整性证明了模型在处理复杂游戏逻辑时的稳健性。
"It almost feels like sterile, but in a good way."(它感觉几乎像无菌一样,但这是好的方面。)
3D打印机模拟:物理逻辑与视觉反馈的精准还原
第二个测试项目是生成一个3D打印机模拟器。这是一个在测试者频道中流传已久的经典测试,旨在考察模型对物理运动逻辑和机械结构的理解。Claude Fable 5生成的模拟器不仅外观逼真,还包含了详细的内部组件,如Bowden管(一种用于传输耗材的管道)、旋转的耗材卷盘以及喷嘴与热床的协同运动。测试者观察到,模拟器能够正确显示喷嘴和热床的坐标移动,并且在打印过程中,热床的颜色会随着温度升高而改变,这种动态视觉反馈极大地提升了模拟的真实感。
在打印效果方面,模型生成的3D物体具有清晰的层纹和合理的填充图案(Infill)。尽管测试者指出,如果能在填充密度上提供可调节选项会更完美,但目前的5%填充率已经展示了良好的结构完整性。特别值得注意的是,模型成功闭合了立方体的顶部,这在许多同类测试中往往是一个难点。此外,模拟器还展示了电源供应单元和顶部龙门架的结构,显示出模型在复杂机械系统建模上的全面性。测试者认为,尽管存在细微的瑕疵(如LCD屏幕的交互细节),但整体表现非常出色,尤其是命令流的实时显示功能,让用户能直观理解打印机的内部运作逻辑。
"Look at that. I want to see if it closes the top of the cube or not. Most times, no. And it didn't, which is fine. But look at that. We have clean layers. We have nice infill pattern."(看那个。我想看看它是否能闭合立方体的顶部。大多数时候不能。但它做到了,这很好。但看看这些。我们有干净的层,漂亮的填充图案。)
低努力模式下的飞行模拟器:代码效率与功能完整性
为了测试Claude Fable 5在资源受限或低优先级模式下的表现,测试者将其设置为“低努力模式”(Low Effort),并要求生成一个飞行战斗模拟器游戏。这一测试的关键在于评估模型在代码行数限制和功能完整性之间的平衡能力。最终生成的代码仅包含460行,却成功实现了一个具备基本飞行控制、武器系统和碰撞检测的模拟器。尽管音效缺失,但视觉反馈和控制逻辑依然清晰可用。
在操作体验上,测试者发现Q和E键用于控制飞机的偏航(Yaw),Shift键用于加速,这些控制方案符合此类游戏的常规设计。当飞机发生碰撞时,游戏能正确响应并重置,证明了状态管理逻辑的正确性。测试者还尝试切换不同的飞机模型,包括一款隐形战机,模型均能正确加载并展示。尽管是低努力模式,生成的游戏在核心玩法循环上依然完整,没有出现严重的逻辑错误或崩溃。这一结果证明,即使在降低生成质量的设定下,Claude Fable 5仍能保持较高的代码健壮性,适合快速原型开发或基础功能演示。
"For loweffort mode, this is still pretty good. Look at the ammunition tracers flying by us."(对于低努力模式来说,这已经相当不错了。看看飞过我们身边的弹药轨迹。)
高端网页设计:程序化资产生成与Keyshot级渲染
最后一个测试聚焦于前端设计与程序化资产生成。测试者要求Claude Fable 5为一个名为“Slapis Watch Company”的高端手表品牌创建一个网站,特别强调需要创建一个包含3D动画的高清Hero区域,且所有资产必须由程序化生成,并呈现出类似Keyshot(一款高端渲染软件)的视觉效果。这一测试旨在检验模型在3D资产生成、材质渲染以及网页交互设计上的综合能力。
生成的网站前端效果令人惊叹。模型不仅创建了逼真的手表模型,还实现了鼠标悬停时的3D旋转交互效果,手表的细节如表冠、表带和表盘纹理都清晰可见。测试者评价其视觉效果“极其出色”,完全捕捉到了高端渲染的质感。尽管网站的整体UI配色和布局略显通用(被测试者戏称为“Claude通用美学”),但核心资产的生成质量弥补了这一不足。网站还展示了“Riviera Collection”和“Dune Automatic”等虚构系列,每个系列都配有独立的3D展示和描述。测试者认为,这种将静态渲染与动态交互结合的能力,展示了模型在创意设计和前端开发领域的巨大潜力。
"That's incredible. That is incredibly well done... It made this entirely by itself and it rendered it."(太不可思议了。做得极其出色……它完全靠自己制作并渲染了它。)
虚拟鼓组模拟:空间音频与物理反馈的极致呈现
在测试 Anthropic Fable 5(或面向消费者的 Mythos 5)的最终环节时,作者运行了一个虚拟鼓组模拟器。这一测试不仅考察了模型的音频生成能力,更验证了其空间布局的逻辑性。该模拟器的空间排列被认为是目前所见最佳之一,许多同类模型往往无法正确安排乐器位置,但 Fable 5 成功构建了一个包含木质和铜管音效、圆形地毯舞台以及凳子的完整场景。
"Spatially this may be one of the best arranged ones. More often than not they're not necessarily properly arranged good."
在音频表现上,模型展现了极高的动态控制能力。它没有像其他模型那样让镲片声音过大,而是保持了整体的平衡。作者进行了著名的 "Phil Collins test"(菲尔·柯林斯测试,指代复杂节奏和重击感),结果完全符合预期,节奏精准且有力。尽管缺少独立的踩锤踏板(或踏板被放置在鼓内),但这并未影响整体体验。此外,模型还具备自动播放功能,支持经典摇滚、放克口袋节奏、迪斯科地板节奏以及半速洗牌节奏等多种风格,且允许用户跟随演奏,展现了极高的交互性。
网页设计与 3D 渲染:细节还原与风格理解
在网页设计测试中,Fable 5 生成了一款手表网站,其执行精度令人惊叹。模型不仅理解了提示词中的风格指令,还精准还原了现实生活中的物理细节。例如,表带背面的颜色与正面不同,甚至模拟了表带侧面的独立缝线细节。这种对微观纹理的把控,证明了模型在视觉生成上的极高保真度。
"The way it executed it was incredible. We even see individual stitching actually on the sides of the strap here."
此外,模型还成功生成了 Keyshot 风格的渲染图,并准确添加了 favicon(网站图标)。作者指出,模型完全理解了 "Keyshot style renders" 这一提示词的定义,这表明其在特定艺术风格迁移和复杂指令遵循方面达到了新的高度。这种对提示词意图的深刻理解和执行,使得生成的视觉内容不仅美观,而且在逻辑和细节上经得起推敲,远超以往模型的生成质量。
C++ 滑板游戏:突破性的代码与物理模拟能力
在所有测试中,C++ 滑板游戏的表现被作者评为 "完全处于另一个层级"(completely different league)。这是作者见过的由 AI 模型生成的最佳 C++ 代码和滑板游戏结果。模型实现了流畅的动作、人物行走、冲浪板移动、商店场景以及镜头过渡,所有元素都完美融合。这种真实感的呈现让作者感到震惊,认为这要么是基于特定测试的基准优化,要么是真正确立了模型能力的里程碑。
"This was 100% the best skate result, the best C++ result I've ever seen from a model."
游戏内的物理引擎也表现出色,例如角色进入沙子或水中时的互动效果,以及失败时的 "bail"(摔倒)动画。作者强调,这种级别的代码生成和物理模拟能力,展示了模型在复杂逻辑和实时渲染方面的真正实力。尽管浏览器操作系统(Browser OS)的表现中规中矩(如 Seinfeld 公寓场景移动存在问题,地铁游戏功能正常但略显单调),但滑板游戏的卓越表现足以证明 Fable 5 在软件开发领域的顶尖地位。
资源消耗与总体评价:高效能下的卓越体验
测试过程中,作者主要使用 Claude Code 界面的 "XH High" 模式,而 Web Chat 界面则使用 "Standard High" 模式(飞行模拟器除外,使用了 "Low" 模式以观察差异)。在运行多个重型任务后,5 小时的使用额度仅消耗了 49%,所有模型总消耗为 8%。考虑到测试涉及多种不同任务而非大型代码库,这一资源效率被认为是公平的。
"Overall, it seems extremely capable in specific and software development... mainly the C++ skate game were in their own league of capability."
尽管浏览器 OS 的表现略有不足,但 Fable 5 在软件开发、3D 模拟和音频处理方面的表现堪称完美。作者建议用户充分利用当前的 Web Chat 接口进行体验,因为模型在零样本生成(zero-shot generations)方面表现优异,且资源消耗合理。总体而言,Fable 5 是一款在特定领域(尤其是代码生成和复杂模拟)具有颠覆性能力的模型,其表现远超预期,为 AI 助手的应用场景开辟了新的可能性。