Step 3.7 Flash 发布背景与本地部署配置
本次评测的对象是 Stepfun AI 新发布的开源模型 Step 3.7 Flash,它是此前备受好评的 Step 3.5 Flash 的继任者。为了全面评估其性能,评测者采用了 双环境测试策略:一方面在 Open Router 平台上运行以体验未经重度量化的原始能力,另一方面在本地硬件上进行部署测试。本地测试平台选用了 Apple Mac Studio M3 Ultra,该设备拥有 256GB 统一内存,足以支撑大模型的本地运行需求。这种配置选择旨在验证该模型在 中等规模 下的实际表现,尽管评测者指出对于本地 AI 而言,其“合理规模”仍是一个相对概念。
"For today's testing, we are actually going to be running this on an Apple Mac Studio M3 Ultra with 256 gigs of unified memory."
Stepfun AI 在发布时提供了极其丰富的 量化版本选项,涵盖了从高精度到低精度的多种需求。这种开箱即用的多样性极大地降低了本地部署的门槛,包括 FP8 和 NVFP4 版本,以及针对 GGUF 格式的 3-bit、4-bit、8-bit 和 16-bit 版本。评测者对这种提供全面本地运行支持的发布方式表示赞赏,认为这解决了用户在选择量化精度时的痛点。
核心架构特性与多模态能力解析
Step 3.7 Flash 是一款 原生多模态(Native Multimodal) 的稀疏视觉语言模型。其技术规格显示,该模型总参数量高达 1980 亿,但通过稀疏架构,其 活跃参数量仅为 110 亿,这解释了其在推理速度上的优势。此外,模型内置了一个 18 亿参数的视觉编码器,专门用于处理图像理解任务,支持 256K 的上下文长度。评测者特别注意到,该模型具备 自主控制 Android 手机 的能力,这一特性引发了评测者的浓厚兴趣,因为这与评测者此前在 GitHub 上开源的基于 ADB 和 Qwen 3VL 模型的安卓控制项目有异曲同工之妙,预示着 自主智能体(Agentic AI) 在移动端操作的巨大潜力。
"This model is natively multimodal. So, it can actually understand images. You can send it a picture of something... and it will do that."
在基准测试方面,官方数据显示 Step 3.7 Flash 在 Agentic Coding 任务中表现强劲,能够与 Deepseek V4 Flash 和最新发布的 Gemini 3.5 Flash 等顶尖模型竞争。然而,评测者更关注其与前代产品 Step 3.5 Flash 的对比提升。从官方提供的对比图表来看,Step 3.7 Flash 在所有关键指标上均实现了 显著跃升。此外,该模型引入了 可选择的推理层级(Selectable Reasoning Levels),旨在解决前代模型推理过程过于冗长的问题,尽管评测者在初步体验中发现推理过程依然耗时较长。
BrowserOS v2.5 基准测试实战:3D 游戏生成
评测的核心环节是运行 BrowserOS Test v2.5,该测试要求模型在浏览器环境中生成两个功能性的 3D 游戏,其中必须包含一个 GTA 风格的克隆游戏。测试过程中,模型首先进行了长达 17,000 个 Token 的推理过程,随后开始生成代码。得益于 M3 Ultra 的强大性能,尽管模型规模较大,但推理速度依然保持在 每秒 50 个 Token 以上,这对于本地运行如此复杂的任务而言是一个令人印象深刻的速度表现。
生成的代码最终产出了一个约 1300 行 的 BrowserOS 界面。初步观察显示,界面加载基本正常,右下角显示了 正确的本地时间,且支持 右键菜单 操作,这令评测者感到满意。然而,在功能细节上仍存在瑕疵:
- 窗口缩放:无法调整窗口大小。
- 游戏控制:在 GTA 克隆游戏中,W 键 的功能被反转,且 摄像机视角 完全无法跟随车辆移动,导致操作体验极差,被评测者形容为“完全反转”且“令人困惑”。
- 其他应用:生成的 记事本(Notepad) 功能极其基础,但字体渲染尚可;壁纸选择了一款 海象(Walrus) 图片,而非当前流行的渐变风格,评测者认为这是一种对过去的致敬。
性能数据汇总与初步结论
基于本次测试,Step 3.7 Flash 在本地环境下的表现呈现出 速度与复杂性并存 的特点。虽然其在代码生成的整体结构上能够完成任务,但在具体交互逻辑(如游戏控制)上仍有改进空间。以下是本次测试中的关键性能与配置数据汇总:
| 测试项目/指标 | 具体数值/描述 | 备注 |
|---|---|---|
| 硬件平台 | Apple Mac Studio M3 Ultra | 256GB 统一内存 |
| 模型总参数量 | 198 Billion (1980 亿) | 稀疏架构 |
| 活跃参数量 | 11 Billion (110 亿) | 决定推理速度 |
| 视觉编码器参数 | 1.8 Billion (18 亿) | 用于图像理解 |
| 上下文长度 | 256K | 支持长文本 |
| 量化版本选项 | FP8, NVFP4, GGUF (3/4/8/16 bit) | 官方提供 |
| 推理速度 | > 50 tokens/sec | 在 M3 Ultra 上 |
| BrowserOS 推理 Token 数 | ~17,000 tokens | 仅推理阶段 |
| 生成代码行数 | ~1,300 行 | 包含两个 3D 游戏 |
| 竞品对比 | Deepseek V4 Flash, Gemini 3.5 Flash | Agentic Coding 基准 |
评测者指出,尽管游戏控制存在 Bug,但模型能够生成如此复杂的多应用界面已属不易。下一步将深入测试其其他功能,以验证其在不同场景下的稳定性。
基础应用交互与跨应用拖拽特性测试
视频首先对三个基础应用进行了功能性验证。壁纸应用虽然存在无法恢复基础颜色的问题,但刷新桌面功能正常。3D游戏《Sky Drift 3D》完全依赖鼠标控制,运行状态并非100%完美,但基本可用。计算器应用(abacus icon calculator)在处理“50”这一数值时表现良好,尽管整体体验略显粗糙(jank),但核心功能完整。该模型的一个显著亮点在于其特殊的跨应用兼容性(app cross compatibility)功能,这在同类模型中极为罕见。用户可以将计算器的数值拖拽至记事本,将3D游戏的高分拖拽至记事本保存,甚至可以将记事本中的文本拖拽回计算器进行计算。这一功能虽然在实际操作中偶有瑕疵,但概念极具创新性,展示了模型在理解应用间数据交互方面的潜力。
“So, our special feature is like app cross compatibility. That's a I've never seen that as a special feature ever.”
静态场景生成与即时调试能力
接下来,测试进入更具挑战性的场景生成环节。用户输入提示词要求生成一个“美丽的静态地铁场景”,并计划后续将其转化为第一人称射击游戏(FPS)。在初步预览中,Mac Finder显示页面存在异常。通过打开开发者控制台,发现模型生成的代码缺失import map。用户将错误信息反馈给模型,模型成功识别并修复了该问题,未出现过度思考或引入新错误的情况。刷新后,场景成功加载,包含地铁列车、瓷砖或大理石材质、支撑柱、出口标志(Exit)、长椅、垃圾桶等细节。尽管初期因点击位置错误导致导航看似失效,但实际是交互逻辑问题,场景渲染质量令人满意,甚至优于某些大型本地模型(如Quen 327B)的表现。
“I think the bar is basically like the Quen 327B test in terms of a local model, but I'm going to say this is in its own right. It's not bad.”
动态游戏转化与物理效果评估
在静态场景基础上,用户进一步要求将其转化为包含僵尸敌人、弹药追踪器、枪口闪光和音效的FPS游戏。生成的《Subway FPS》展示了令人印象深刻的细节:武器具有后坐力,枪口闪光效果逼真,僵尸敌人的行走动画自然,整体沉浸感较强。尽管弹药机制存在逻辑缺陷(如弹药飞行方向异常),但模型在视觉和听觉反馈上的深度处理超越了预期。随后,测试环境切换至Open Code,并改用Q8量化版本的模型,以确保在C++滑板游戏测试中获得更公平、更高能力的表现。虽然Q8量化导致处理速度显著变慢,但模型在计划模式下成功生成了包含加州木板路美学风格的滑板游戏代码,并自动安装所需的特定依赖项,展现了良好的系统级知识。
“I have to say the the tattered effect or look of these zombieoid humanoid enemies. Look at the actual walking movement and things like this. I'm actually impressed with this.”
复杂代码生成与系统级知识展现
在滑板游戏生成过程中,模型经历了长时间的编译错误修复和逻辑调整,最终输出了可运行的代码。尽管木板路的水体渲染位置存在偏差(画在码头而非正确位置),但水体效果本身具有一定的视觉吸引力。模型在处理复杂C++项目时,不仅完成了代码编写,还展现了针对Mac OS的特定知识,能够自主解决依赖问题。这一过程证明了该模型在处理长上下文(128k context length)和复杂逻辑调试方面的能力。虽然最终结果并非完美无缺(如滑板模拟器般的怪异感),但其自我修复能力和对特定操作系统的理解,使其在本地小模型中展现出独特的竞争力。
“It demonstrated some interesting Mac OS specific knowledge. It installed some specific dependencies by itself that it needed to.”
多模态代码生成与UI复刻测试
本次测试首先尝试了多模态编程任务,使用Q8量化版本并在本地运行,同时启用了视觉理解功能。测试目标是让模型根据一张由Nano Banana生成的前端界面截图,复刻该网站。在性能方面,模型保持了约40 tokens/秒的生成速度,对于Q8量化模型而言表现尚可。值得注意的是,模型的推理过程非常简洁,未出现过度思考的情况,实际生成代码部分的token数不到1,000个,效率较高。
在结果评估中,模型尝试使用SVG图形来复刻界面中的复杂元素,虽然未能完全还原,但比直接插入不匹配的库存图片更具创意。然而,在色彩还原上存在偏差,例如顶部背景应为深蓝色,模型却处理不当。尽管如此,模型在数据提取方面表现出色,它从UI截图中准确识别并复现了难以辨认的具体数值(如3,63和589等),这显示了其强大的视觉信息捕捉能力。整体而言,生成的仪表盘界面布局合理,基本完成了复刻任务,但在细节色彩上仍有改进空间。
3D游戏生成与云端对比实验
随后,测试转向了更具挑战性的3D游戏生成,尝试让模型生成一个飞行战斗模拟器。本地Q8模型生成的结果令人失望,代码存在明显错误,无法正常运行。为了排除本地配置错误的可能性,测试者通过OpenRouter调用了由Step Fun官方提供的FP8量化版本进行相同测试。结果显示,云端FP8版本的生成质量与本地Q8版本相当,均未能生成可用的3D游戏代码。
这一对比实验揭示了当前模型在复杂3D逻辑生成方面的局限性。尽管在Reddit社区曾有人分享使用4-bit量化模型生成简单飞行游戏的成功案例,但本次测试表明,Q8及FP8量化版本在处理此类高复杂度3D任务时表现不佳。测试者对此表示担忧,认为结果“非常糟糕且不合理”,并指出这并非本地环境配置问题,而是模型本身在该特定任务上的能力瓶颈。这一发现为后续测试设定了较低的预期,并促使测试者转向其他类型的创意任务以缓解挫败感。
创意写作与3D打印模拟评估
在创意写作环节,测试者提供了一张AI生成的悬疑小说封面图,要求模型生成书名和故事摘要。模型生成的内容完全偏离了悬疑基调,转而构建了一个关于神经疾病、记忆缺失和婚姻秘密的复杂剧情。虽然测试者认为这种“跳出框架”的创意构思出乎意料,但其叙事风格过于戏剧化,甚至让测试者感到荒谬而发笑,未能准确捕捉封面图所暗示的紧张氛围。
最后,测试进行了3D打印机模拟任务。模型成功生成了一个Core XY结构的3D打印机模型,构建平台加热变色的细节处理得当,增加了真实感。虽然喷嘴和打印件的组装位置并非完全精确,但模型展示了打印线条逐渐生长的动态过程,整体效果优于预期。这一结果在一定程度上缓解了之前3D游戏测试带来的负面情绪,证明了模型在特定机械结构模拟方面仍具备可用性,尽管在细节精度上仍有提升空间。
| 测试项目 | 模型配置 | 关键表现/数据 | 评价 |
|---|---|---|---|
| UI复刻 | Q8量化 (本地) | 速度: ~40 t/s; 代码生成 < 1000 tokens | 色彩有误,但数据提取准确,整体可用 |
| 飞行游戏 | Q8量化 (本地) | 代码错误,无法运行 | 表现糟糕,不符合预期 |
| 飞行游戏 | FP8量化 (云端) | 表现与本地Q8相当 | 确认非本地配置问题,模型能力瓶颈 |
| 悬疑小说 | Q8量化 (本地) | 剧情偏离悬疑,过于戏剧化 | 创意过度,未匹配封面氛围 |
| 3D打印机 | Q8量化 (本地) | 结构正确,加热细节逼真 | 组装精度一般,但动态效果良好 |
4-bit量化表现超出预期:基础编程与视觉还原
本次测试的核心发现令人意外:4-bit量化版本的表现甚至优于本地8-bit及Open Router提供的8-bit版本。这种反直觉的现象表明该模型在低比特量化下具有极佳的稳定性。在基础环境测试中,4-bit版本成功加载了GTA游戏,并展现了合理的警察逻辑行为;在地铁站场景测试中,模型不仅解决了初始错误,还有效修复了代码问题。此外,在“Or Game”测试中,虽然弹药机制失效,但模型生成的僵尸敌人及其符合风格的着装和行走动画展现了良好的上下文理解能力。这些基于4-bit量化的结果证明,该模型在压缩后仍能保持较高的功能完整性。
“I think from today's testing is the model seemed more impressive at that 4-bit quant than either of the demonstrations I saw with the local 8bit or the 8bit from Open Router, which is really kind of weird.”
8-bit本地量化与视觉能力:依赖管理与细节捕捉
切换至本地8-bit量化版本进行Skateboard游戏测试时,模型展现了优秀的系统依赖管理能力。尽管生成过程耗时较长,但它准确识别了系统需求,并利用Brew在Mac上安装了必要的依赖项,显示出对Mac特定环境的深刻理解。虽然结果仍有Bug,但为后续开发提供了良好的基础。在视觉任务方面,网站照片转网页生成测试中,模型从模糊的参考图中精准提取了具体的美元金额,这一细节处理能力令人印象深刻,暗示其视觉能力值得进一步深入调查。
创意写作与综合对比:优势与劣势并存
在创意写作领域,Steve的PC角色扮演体验被评为顶级水准,模型展现了极高的创造力和娱乐性。然而,其他测试则喜忧参半:3D打印机模拟结构搭建尚可,但鼓组测试因声音无法工作而令人失望。值得注意的是,Open Router提供的8-bit浏览器OS版本表现甚至不如本地的4-bit版本,这进一步佐证了量化策略对性能影响的复杂性。总体而言,该模型在创意生成方面表现卓越,但在功能性代码执行上仍有波动,适合用于DJX Spark或Stricks Halo等128GB统一内存设备,因其体积适中且潜力巨大。
“The drum kit was a big disappointment because unfortunately the sounds didn't work, so we couldn't really get to play it and that kind of just ruins that.”