模型发布背景与开源许可
视频开篇展示了Xiaomi MiMo V2.5 Pro的最新动态,这是一个近期发布的开源视觉语言模型。尽管该模型在几天前就已引起关注,但直到最近其权重才在HuggingFace上正式公开,采用MIT许可证,允许任何人自由运行和修改。博主指出,虽然大多数普通用户缺乏运行该模型所需的硬件资源,但开源意味着技术透明度的提升。值得注意的是,官方同时发布了V2.5版本,其模型规模比Pro版本小三分之一,而V2.5 Pro则是原生的Omni(全模态)模型,博主计划后续单独对V2.5进行评测,但本次将聚焦于性能潜力更大的Pro版本。
"They did just recently release the weights for this on HuggingFace. So now if we click this hugging face hyperlink... this model in its entirety is now hosted open source with an MIT license for anyone interested in actually running this themselves."
技术规格与架构细节
MiMo V2.5 Pro在技术参数上表现强劲,总参数量超过1万亿(1 Trillion),但采用了混合专家(MoE)架构,实际活跃参数量仅为420亿。这种架构设计旨在平衡性能与效率。模型还引入了混合注意力机制和MTP(Multi-Token Prediction)技术,后者理论上能显著加快Token生成速度,从而提升推理效率。此外,该模型支持100万(1 Million)的上下文长度,这是一个非常健康的数值,尽管博主表示本次测试不会专门针对长上下文进行极限压力测试,但这反映了当前大模型发展的趋势。
"It is a mixture of experts model with 42 billion active... it has hybrid attention architecture and MTP... hypothetically it will be able to run a bit faster being that it has that MTP which speeds up the token generation speed."
基准测试数据与定价分析
官方发布的基准测试图表显示,MiMo V2.5 Pro在多项指标上表现优异,甚至能与闭源的最先进模型相媲美。虽然图表中对比的Opus 4.6和GPT-54可能并非最新变体,但在测试当时它们代表了当时的顶尖水平。博主强调,尽管基准测试数据令人印象深刻,但他更倾向于通过实际测试来验证模型的真实能力。在定价方面,基于最大上下文长度计算,输入价格为每百万Token 2美元,输出价格为每百万Token 6美元。考虑到其潜在的性能表现,这使其成为闭源昂贵模型的一个更具性价比的替代方案。
| 模型/指标 | 数值/描述 |
|---|---|
| 总参数量 | > 1 Trillion (1万亿) |
| 活跃参数 | 42 Billion (420亿) |
| 上下文长度 | 1 Million (100万) |
| 最大输出长度 | 128K |
| 输入价格 | $2 / 1M tokens |
| 输出价格 | $6 / 1M tokens |
BrowserOS测试:启动与初步观察
为了全面评估模型能力,博主使用了经典的BrowserOS测试V2.5,要求模型创建5个应用中的2个功能完整的3D游戏,其中一个需为GTA克隆版,另一个需具备更换壁纸等特殊功能。测试开始后,模型经历了长达663.4秒(约11分钟)的思考时间,随后开始编写脚本。最终生成的界面虽然视觉效果奇特,甚至带有令人不适的闪烁效果,但博主认为这体现了模型的创造性。界面右下角显示了正确的本地时间(凌晨4点多),且右键菜单功能正常,允许用户关闭名为"Nebula"的视觉效果。
"After 663.4 seconds of thinking, it has begun to write the script... That's 11 minutes and 3 seconds. Well, this better be a good result."
功能验证:计算器与终端
在BrowserOS测试的功能验证环节,博主首先检查了基础应用。尽管GTA克隆应用因大量错误未能正常运行,但计算器应用表现完美,成功计算了"4+4"。此外,Neoetch(系统状态监控)应用也正常工作,显示系统内存占用为9.5MB,表明这是一个资源受限的环境,这可能解释了为何Neon City应用无法运行。博主对终端的黄绿色主题配色表示赞赏,认为这种风格化的设计提升了用户体验。整体而言,基础工具类应用的稳定性优于复杂的3D游戏应用。
"We do have a working calculator... Neoetch... we have 9.5 megabytes of memory... So perhaps a more resource constrained system, which could be the reason that the Neon City app is not working."
测试总结与展望
尽管BrowserOS测试中的3D游戏部分未能完全达到预期,但MiMo V2.5 Pro在基础功能实现、代码生成速度(尽管思考时间较长)以及视觉理解方面仍展现了强大的潜力。博主提到,之前测试V2 Pro时,其在Ship Combat Simulator中的水效和模型质量曾给他留下深刻印象,因此对V2.5 Pro的表现持乐观态度。虽然本次测试未涉及长上下文极限测试,但模型的技术规格和基准测试数据表明,它有望成为当前性能最强的开源模型之一。博主表示将考虑后续对V2.5版本进行对比评测,以进一步厘清不同版本间的性能差异。
"It does have the potential based off of some of the things I'm seeing to be the most performant open-source model currently existing, which is quite exciting."