Kimi K2.7 Code 发布概况与核心优势
Kimi K2.7 Code 作为 Kimi 家族的最新开源模型,其权重已立即发布在 Hugging Face 上,这一举动令人兴奋。基于过往经验及新迭代的预期,该模型极有可能成为当前最强或最强的开源权重模型之一。与上一代 K2.6 系列相比,K2.7 Code 最显著的提升在于Token 效率的大幅优化。官方数据显示,该模型在保持同等或更高性能的前提下,思考 Token 的使用量减少了约 30%。这种效率飞跃类似于 GPT-5.5 相比 GPT-5.4 的表现,对于降低计算成本和提升推理速度具有重要意义。
"This is arguably... likely going to be one of the strongest if not the strongest currently available open weight model."
技术规格、定价与基准测试数据
在技术架构方面,Kimi K2.7 Code 是一个拥有 1 万亿参数的混合专家(MoE)模型,其中活跃参数为 320 亿,支持 256K 的上下文长度,并具备视觉能力,允许用户通过图片进行交互测试。尽管官方提供的基准测试数据有限,主要展示的是其自有基准结果,但该模型在特定基准下的表现显示出从 K2.6 到 K2.7 的显著能力跃升。在定价策略上,K2.7 Code 保持了与上一代相同的费率,具体数据如下表所示:
| 模型版本 | 输入 Token 价格 (每百万) | 输出 Token 价格 (每百万) | 备注 |
|---|---|---|---|
| Kimi K2.7 Code | $0.95 | $4.00 | 与 K2.6 价格一致 |
此外,通过 X 平台发布的图表进一步证实了 Token 用量的减少,其中灰色代表 K2.6,蓝色代表 K2.7 Code,直观展示了蓝色区域(K2.7)在各项测试中更低的 Token 消耗。
Neon OS 桌面环境构建实测
为了验证模型的实际编码能力,测试者通过 Kimi Coding 计划,在 Build Mode(构建模式)下直接指令模型自主构建一个名为 Neon OS 的浏览器操作系统桌面环境。测试过程并未使用 Plan Mode,而是让模型直接生成代码并运行。构建结果展示了一个简洁的桌面,包含时钟、开始栏、用户账户图标等基础元素。测试者逐一检查了内置应用的功能性:
- 记事本 (Notepad):点击保存后,文件仅保存在本地内存中,并未真正保存为系统文本文件,但测试者接受了这一限制。
- 画图工具 (Paint):支持调整大小,但画布在窗口缩放时未同步缩放,这是一个细微的 UI 瑕疵。
- 设置 (Settings):背景为经典的“太平洋西北地区”风格壁纸。
- 浏览器:能正常访问 Wikipedia 和 Space Defender 3D 游戏,尽管游戏操作略显生硬。
- 计算器:能够正确执行如
64 * 9566 + 10等复杂运算。 - 文件管理:无法创建新文件夹,但文件搜索功能正常,且具备滚动美学效果。
"It's like seeing an old friend."
复杂应用与游戏引擎表现
在更复杂的测试中,模型成功加载了终端帮助功能,并尝试运行名为 Neon City Crime 的 3D 游戏。尽管游戏名称直白,但其表现揭示了模型在处理复杂 3D 逻辑时的局限性:
- 车辆物理:游戏中车辆速度极慢,仅为 2 英里/小时,步行速度比开车更快。
- 碰撞检测:车辆无法与行人发生碰撞,物理引擎较为简单。
- 场景元素:尽管存在上述缺陷,但模型成功生成了车辆模型、建筑物、定义好的道路以及移动的行人,整体场景结构完整。
测试者指出,部分 .exe 图标未能正确加载,且存在大量伪造的文件类型,但整体视觉效果和基础功能架构展示了 K2.7 Code 在自主构建复杂交互式环境方面的强大能力。尽管在物理模拟和细节优化上仍有不足,但其快速构建完整桌面生态的能力证明了其在代码生成领域的领先地位。
静态场景生成与初步评估
测试首先从Plan Mode下的静态场景构建开始,要求模型使用 JavaScript 创建一个逼真的地铁场景。模型在生成代码后,通过无头浏览器运行并检查 JavaScript 错误,随后利用多模态能力对生成的截图进行视觉验证。尽管在截图与视觉检查的流水线中遇到了一些技术阻碍,但生成的代码本身质量良好,场景成功加载。观察发现,场景细节丰富,包括墙面瓷砖、列车上的涂鸦、漂浮粒子效果以及灯光系统。地面标识如“West Fourth Street”绘制清晰,整体构图合理,但场景亮度偏低,这可能为后续的动态化测试埋下伏笔。
“Okay, it does. Good brightness. Okay, this is very clean. Look at the ground is like Oh, that's the train.”
在初步评估中,作者指出场景虽然视觉效果不错,但缺乏交互性,无法进入列车内部,且列车车厢之间存在物理分隔,这符合现实逻辑但也限制了早期的探索体验。场景中的材质表现良好,但整体色调较暗,作者认为这并不影响基础结构的完整性,反而可能有助于后续第一人称视角(FPS)模式的沉浸感营造。
动态化改造与物理引擎测试
在静态场景验证通过后,测试进入第二阶段:将场景转换为传统风格的第一人称射击游戏(FPS)。模型成功生成了可运行的 FPS 代码,移动流畅度较高,并包含了一个定义明确的武器模型。在战斗表现方面,敌人具有极高的生命值,击败敌人后产生的粒子特效质量上乘。令人惊喜的是,子弹击中环境后会在墙壁上留下真实的弹孔,这种细节处理极大地提升了游戏的真实感和视觉反馈。
“The movement's actually fairly smooth. We do have a very defined weapon model.”
物理碰撞系统的实现是本次测试的另一大亮点。模型为场景中的静态元素添加了Mesh Colliders(网格碰撞体),导致玩家无法穿透列车或柱子,这种物理阻挡机制的准确实现表明模型对 3D 空间逻辑有较好的理解。尽管敌人的人工智能逻辑存在一定缺陷,导致战斗难度略显不合理,但整体而言,从静态场景到动态 FPS 的转换结果坚实且令人满意,保留了原始场景的暗色调氛围,未出现不必要的视觉偏差。
多模态图像重建与复杂交互
第三阶段测试聚焦于模型的多模态能力,任务是基于 14 张不同角度的 3D 打印笔记本电脑照片,重建一个精确的 3JS 模型,并实现键盘交互功能。模型在思维链(Chain of Thought)中表现出一种被称为“穴居人语言”的简化表达风格,例如使用“since file large”等简略短语。在生成过程中,模型遇到了自动质量检查(QA)环节的严重卡顿,导致流程长时间挂起,这可能与系统特定的配置有关。
“I'm noticing some quote unquote like caveman speak in the chain of thought here.”
尽管生成过程受阻,最终模型仍输出了可交互的 3D 模型。屏幕上的终端功能正常,键盘输入响应准确。模型实现了开合盖动画,这是此前测试中较少见的功能。然而,模型存在明显的渲染缺陷,包括严重的Z-fighting(深度冲突)现象,导致纹理闪烁。此外,键帽侧面的文字渲染方式异常,RGB 灯光切换功能未生效。虽然模型成功还原了 3D 打印的纹理质感,但在开合盖动画的流畅度和整体渲染稳定性上,表现不如之前的 MiniMax M3 模型,且因自动 QA 检查失败,测试未能完全闭环。
C++ 滑板游戏基准测试
最后,测试切换至Plan Mode下的 C++ 滑板游戏构建,旨在评估模型在复杂逻辑和特定美学风格(加州木板路风格)下的代码生成能力。这一测试作为自我包含的基准测试,旨在验证模型在处理独立游戏逻辑时的完整性和准确性。虽然字幕片段在此处中断,但明确指出了测试目标是加州木板路美学(California Boardwalk aesthetic)的滑板游戏,这为后续的性能对比和代码质量评估提供了具体的场景参照。
“We're going to give it the self-contained C++ skateboarding game test.”
此部分测试旨在通过一个具体的、具有特定视觉和逻辑要求的项目,来衡量 Kimi K2.7 在复杂游戏开发领域的潜力。与之前的 JS 场景和 3D 重建不同,C++ 测试更侧重于底层逻辑、物理模拟和性能优化,是评估模型是否具备“最佳开源编码模型”潜力的关键一环。
滑板游戏开发:迭代困境与初步成果
在Kimi K2.7 Code的滑板游戏测试中,开发者设定了禁止使用Raylib的限制,其余创意如“是否可玩”或“平衡逻辑”完全交由模型自主决定。然而,代码生成过程遭遇了严重的文件编辑失败问题。模型在尝试修改现有文件时,因无法精确匹配旧字符串(包括空格等细节)而反复报错,导致不得不从头重写代码。这一过程极其令人沮丧,模型连续三次尝试重写文件,才最终呈现出初步结果。
“The big problem is it's already done this. This is the second time that it had tried rewriting it from scratch. And now it's happening again. So this is onto its third time trying to do this, which is a bit frustrating.”
尽管过程曲折,最终生成的滑板游戏在视觉和交互上表现出一定的潜力。角色在滑板上的踩踏动作(pumping)模拟得相当逼真,这是现实中滑板运动的核心机制。此外,踢翻(kickflip)动画效果良好,甚至能触发计分机制。场景中NPC数量丰富,且具备基本的肢体动画。然而,视觉呈现存在瑕疵,例如血溅效果似乎是从滑板而非角色身上产生,显得颇为诡异;同时,游戏地图中的木板路(boardwalk)区域完全不可见,仅显示为蓝色水面。总体而言,虽然代码编辑过程混乱,但最终产物在非Raylib环境下仍属可接受范围。
3D拉力赛车游戏:C++原生开发的性能评估
鉴于滑板游戏的开发波折,开发者直接从Build Mode启动了一个全新的C++测试,要求生成一款具有复古拉力赛风格的3D赛车游戏。该测试包含第一人称视角、随转向转动的方向盘、低多边形图形等特征。由于直接从构建模式启动,模型可能会默认使用Raylib,但这不影响对C++生成能力的评估。最终,代码编译通过,尽管视觉效果初看并不惊艳。
“This is not necessarily simple, but something I'm going to notice is it actually moving up and down as it goes over the terrain at least a bit. That's something that is in line with what one would want with a rally game.”
尽管画面简陋,但开发者认为该结果并非完全糟糕。赛车在通过地形时确实有上下颠簸的物理反馈,符合拉力赛游戏的预期;树木场景和方向盘的联动也正常运作。开发者指出,如果在单HTML脚本中使用Three.js,效果会更好,但作为原生C++测试,其表现与前一代最先进模型的水平相当。这一测试证明了Kimi K2.7在复杂C++项目生成上的基础能力,尽管在视觉精致度上仍有提升空间。
高端手表网站设计:与Claude Opus 5的对比分析
第三个测试聚焦于前端设计,要求生成一个高端手表公司的网站,包含3D资产生成和类似Keyshot渲染效果的电影级镜头平移。开发者将此结果与之前使用Claude Opus 5生成的同类项目进行对比。Kimi K2.7生成的网站加载后,呈现出具有织物纹理表带的3D手表,镜头围绕手表进行平移,桌面具有独特的艺术线条,秒针和小时标记清晰可见(尽管部分标记方向略有偏差),表盘上印有“slapis”字样。
“The gap between the two is not insane when you consider that this model is 12.5 times cheaper per million output tokens than Fable.”
虽然用户无法完全控制视角,但整体视觉效果令人印象深刻。开发者强调,尽管Claude Opus 5的结果代表了当时的最先进水平,但Kimi K2.7在成本效益上具有巨大优势。数据显示,Kimi K2.7每百万输出令牌的价格仅为Claude Opus 5的1/12.5。在视觉差距并非巨大的前提下,这种极高的性价比使得Kimi K2.7在高端前端生成任务中展现出强大的竞争力,证明了其在复杂3D场景描述和前端代码生成上的成熟度。
3D资产渲染与多模态编码的初步惊艳
视频制作者首先展示了一项基于3D资产的渲染测试结果,该测试涉及316L不锈钢蓝宝石水晶材质的模拟,且明确声明无摄影、无库存素材。测试中包含了两种不同风格的腕表旋转渲染图,其中一款为售价$5,400的Ember Gold款式,表盘印有“slapus”字样。尽管部分图像元素(如卡片上的位置放置)略显歪斜,但整体从3D资产角度评估,结果令人印象深刻。制作者表示对此结果极度满意,甚至开玩笑考虑创立“Slapust”手表公司。这一测试的灵感部分来源于制作者以极低价格购入的空表壳,并计划搭配自定义机芯和表盘,这种低成本高回报的创意实现过程激发了他对AI多模态编码能力的进一步探索。
“I'm actually more impressed with this than I was anticipating... this overall in terms of judging it from 3D assets, I'm impressed. I'm extremely happy with this result.”
像素级游戏复刻:软体物理与交互的困境
随后,测试进入更具挑战性的像素级游戏复刻环节。制作者提供了一张AI生成的“拆迁德比”(Demolition Derby)游戏照片,要求模型创建具有软体碰撞物理且外观尽可能一致的可玩游戏。模型在Plan Mode下进行了规划并询问了控制细节,但在浏览器检查中频繁失败。初步结果显示,UI界面还原精准,但存在重力过大导致车辆吸附地面、摩擦力异常以及雾气干扰等问题。尽管制作者通过后续提示词要求移除雾气并优化视觉效果,模型虽改善了车辆模型和去雾效果,但车辆移动功能仍未修复,且未检测到生命值下降机制。经过多次尝试和长时间运行,模型未能实现预期的软体物理变形和流畅移动,制作者最终判定该测试为失败,认为其进展缓慢且未达预期。
“It did a spot-on job of the UI there... unfortunately, the cars are still not moving... I'm going to call this a fail. It's taken far too long.”
杰瑞公寓3D重建与3D打印模拟的复杂挑战
在另一项通过OpenRouter进行的测试中,制作者要求模型根据《宋飞正传》(Seinfeld)中杰瑞公寓的参考照片,创建一个精确的Three.js 3D模型。虽然没有任何模型能完美复刻原始平面图,但本次测试在资产质量上表现优异:绿色沙发、冰箱上的物品、书架以及绿色自行车等元素均被准确还原,其中书架和自行车的形态被评价为见过最好的之一。尽管墙壁布局略显怪异,但整体场景构成(包括卧室和浴室区域)在资产细节上相当出色。此外,制作者还进行了一项3D打印机模拟测试,要求模型支持STL文件上传并模拟打印过程。虽然渲染效果逼真,但处理336层打印过程导致速度极慢,且底座绘制存在瑕疵。尽管STL上传功能基本可用,但整体性能与效率仍面临严峻挑战,显示出当前模型在处理高复杂度3D逻辑时的局限性。
“This is actually one of the better bookshelves I've seen before... this is almost such a realistic 3D printer sim that it's incredibly slow because it's doing 336 layers.”
多模态编码与创意生成的惊喜表现
在针对 Kimi K2.7 Code 的多模态编码测试中,模型展现了令人意外的创意能力。首先,在将静态图像转换为动态 SVG 动画的任务中,模型成功捕捉了场景的整体范围,特别是人物面部表情的还原度较高。虽然背景粒子动画较为柔和,但整体效果并未出现严重偏差,模型在视觉元素的动态化重构上具备基础能力。其次,在生成“Slappis 手表收藏”网站前端时,模型不仅完成了代码编写,还自主创建了所需的资产文件,最终呈现的前端界面质量相当不错,显示出其在复杂 UI 构建方面的潜力。
"It did capture their facial expressions quite well, too."
此外,在涉及 3D 打印逻辑的测试中,尽管 3D 打印机本身的模型渲染存在瑕疵,但模型成功实现了上传 STL 文件并执行切片打印的核心逻辑。虽然打印速度较慢,未能展示更高层级的细节,但底层逻辑的正确性值得肯定,这通常是以往需要更高级模型才能完成的任务。在 C++ 滑板游戏测试中,相比前代 Kimi K2.6,K2.7 在滑板动画、NPC 行为及地图布局上均有显著提升。模型在遇到失败时表现出一定的韧性,经过两次重写尝试后,最终在第三次成功分块输出并运行代码,证明了其在复杂逻辑调试与自我修正方面的进步。
游戏模拟测试中的性能短板
尽管在多模态和基础逻辑上有所进步,Kimi K2.7 Code 在实时游戏模拟领域仍暴露出明显不足。在飞行战斗模拟器测试中,虽然模型生成的代码允许玩家进行基本的飞行操作,但3D 模型过于简化,整体体验未达预期。测试者指出,即使是通过 Open Router 运行且缺乏专用 Agent 框架加持,结果仍显得平庸,模型在复杂游戏引擎构建上的表现略显吃力。
"The flight combat simulator and the sport bike racing game were not very good. They should have been better."
在摩托车模拟游戏测试中,问题更为严重。虽然赛道和树木的绘制尚可,但核心交互逻辑完全失效,车辆物理反馈和场景互动出现严重错误,导致测试无法继续进行。同样,在鼓组模拟器测试中,尽管给予了充足的处理时间,模型生成的代码完全无法运行,未能实现基本的乐器交互功能。这些案例表明,K2.7 在处理高实时性、复杂物理交互的游戏场景时,仍存在较大的稳定性与逻辑完整性问题。
综合评估与前代对比分析
综合来看,Kimi K2.7 Code 相较于 Kimi K2.6 是一个明确的改进版本,特别是在多模态理解、前端资产生成及复杂代码的迭代修正能力上。然而,测试者坦言,由于刚刚测试过性能极强的 Fable 模型,心理预期基准被大幅拉高,导致 K2.7 的表现显得略微“未熟透”(undercooked)。在对比测试中,K2.7 虽然在滑板游戏和网站生成上超越了前代,但在飞行、摩托车及鼓组模拟等硬核游戏开发任务中,未能达到专业级模型的水准。
"It is a definite improvement over its predecessor... though I will say I'm going to be interested to see what folks experience with using this."
值得注意的是,测试者承认在 Fable 之后立即测试 K2.7 可能不够公平,因为前者的表现极大地提升了评估标准。尽管如此,K2.7 在代码生成的鲁棒性(如滑板游戏的多次重试成功)和多模态创意执行(如动态 SVG 和网站前端)上的进步是客观存在的。对于需要处理静态资产、前端开发及基础逻辑构建的场景,K2.7 是一个可靠的工具;但在面对高复杂度实时游戏模拟时,用户仍需保持谨慎,期待社区进一步的实测反馈以验证其真实上限。
性能显著提升与视频总结
本次测试结果显示,Kimi K2.7 Code 模型在性能上实现了极其显著的进步,相较于前代版本 K2.6 有了质的飞跃。这一发现令人印象深刻,也标志着该模型在代码生成与处理能力上的重大突破。作为对全新发布的 Kimi K2.7 Code 模型的首次全面评测与测试,今天的视频内容至此已接近尾声。我们通过对该模型的深入分析与实际测试,验证了其在当前开源编码模型领域的强劲竞争力。
"extremely big improvement over the previous Kimmy K2.6 test. So, that was cool to see as well."
互动邀请与致谢
在视频的最后,我们诚挚邀请观众在评论区留下任何关于 Kimi K2.7 Code 模型的问题或见解。这种互动不仅有助于我们了解用户的需求,也能促进社区内对前沿 AI 技术的深入探讨。感谢所有观众的支持与观看,希望本次评测能为关注开源编码模型发展的读者提供有价值的参考。通过这一系列的测试与分析,我们旨在为读者呈现一个全面、客观的模型性能视图,帮助大家在众多选择中做出更明智的决策。
"If you have any questions, please feel free to leave them in the comments. And thanks for watching."