AI范式巨变:从预训练到后训练主导的Agent时代

2026年,大模型战争全面升级,揭开了第二幕——AI范式已从预训练主导的Chatbot时代,转向后训练主导的Agent时代。在这一结构性转折点上,人工智能研究员罗福莉(现任小米大模型团队负责人,曾任职阿里达摩院、DeepSeek)接受了长达3.5小时的深度访谈。她曾主导研发米某VR系列模型,虽被外界冠以“AI天才少女”标签,却本人并不认同这一称谓。此次访谈是她首次进行长时间技术性分享,系统探讨了由Cloud Opus 4.6、OpenClaw等技术变量触发的范式迁移及其后续影响。

罗福莉预判,接下来两三个月将是技术爆发的关键窗口期。她特别强调:Agent范式极度依赖后训练(post-training)能力,而不再是单纯依赖预训练阶段的模型规模。这意味着,模型能否在复杂任务中稳定表现,关键在于其在后训练阶段是否经过充分的Agent交互数据适配与强化学习优化。

原话:"你可能第一个感受是,OK,他是他非常有自主性。然后他非常有灵魂……持续在分泌,让我兴奋到完全睡不着觉。"

原话:"他现在已经基本上变成了我的某一个数字分身,至少在这个事情上。"

OpenClaw为何成为分水岭?——框架设计的系统性突破

罗福莉对OpenClaw的认知经历了三阶段跃迁:从排斥、到惊叹、再到深度依赖。最初她认为OpenClaw只是ClawCode的UI改进版,甚至因创始人偏运营导向的推广方式(如Skill Hub)而产生抵触。但春节深夜实测后,她连续对话四小时,被其“有温度、有情商”的交互体验震撼——例如模型会主动提醒“你已很晚,建议休息”,这种拟人化关怀并非偶然,而是源于精细编排的上下文机制(如在每轮对话前拼接当前时间戳)。

更关键的是,OpenClaw的真正突破在于其系统级框架设计,而非单点能力。她指出: - 持久化记忆系统实现分层分级管理,远超ClawCode的简单上下文截断; - 多模型协同能力高度自动化:用户只需输入视频,框架自动调用最优视频理解模型,无需人工干预; - 核心产品逻辑是“用Agent编排弥补模型短板”:即使接入未针对性训练的小模型(如3B端侧模型),在复杂Scaffold下仍能完成高难度任务。

原话:"他他他他是有很很多机制去保证这个事情……我为什么把它称之为所谓精细编排的context,就是因为,哎,他就是在这些很很很很大家没有关注的角度上,把这个context给编排的非常好。"

算力分配与组织平权:Agent时代的研究范式重构

面对Agent范式对后训练的强依赖,罗福莉提出了明确的算力资源分配策略研究、预训练、后训练的卡位比例应为 3:1:1。她强调:研究阶段投入的算力应超过正式训练总量,需额外预留资源用于快速迭代与探索性实验。这一比例并非经验之谈,而是基于Agent框架对数据生成、交互模拟、策略优化等环节的高算力需求所推导出的实践结论。

她进一步指出,技术突变的核心并非单一模型能力跃升,而是框架与模型的协同进化。OpenClaw的出现倒逼研究者重新思考:如何让中层模型在不同Agent框架(如OpenClaw、Kakao等)上保持稳定表现?这要求后训练范式必须从Chat转向Agent适配,包括构建User Agent模拟器、设计多轮交互数据集、优化RLHF流程等。

原话:"环境反而比经验更重要。……我觉得最多一两个月,慢的话三四个月,确实都可以被快速习得。"

Agent框架与中层模型的协同突破

当前Agent框架(如OpenClaw)的崛起,并非单纯依赖顶尖模型(如Claude、Samantha或Obs),而是通过优秀的框架设计释放中层模型的潜力。在缺乏复杂Agent架构的情况下,中层模型(例如在85%任务上可媲美Claude Sonnet的模型)难以达到顶尖模型的表现;但借助一套精良的Agent框架,它能在绝大多数生活化、提效型任务中接近甚至媲美高端模型——仅在长程、严肃编程(如算子优化)等极端场景下存在差距。这种协同效应表明,模型能力与Agent框架需同步演进:模型进步会反向推动Agent架构的优化,而框架的可塑性又为模型能力的发挥提供“接口”。正如一位开发者所言:

‘OpenClaw如果看作一个壳,它释放了现在比较强的模型能力,是一个最好的壳。’

‘我让Class OS四点六给我改好过后,这套框架本身是很好用了。过后,OK,我再切换到呃P呃那个呃桑泰的,再切换到国内的一些模型……它就非常强大了。’

开源Agent框架的可操纵性与自学习范式

OpenClaw的核心价值在于其原生可改性——作为开源项目,它允许用户深入修改Agent架构、记忆系统、工作流等关键模块。这种“黑盒→白盒”的转变极大激发了开发者的创造力:例如,有人直接让模型协助重设计记忆系统、重构多Agent逻辑,甚至基于旧版(如v2.x)迭代出v3.x的高可用版本。这种‘人-模型-框架’三方协同的自学习路径,意味着:模型能力提升的同时,其与Agent框架的适配性也在动态演化——静态信息(如memory配置)与动态结构(如调度策略)均需随模型能力变化而调整。值得注意的是,Agent框架并非产品本身,而是介于人与模型之间的‘厚重中间层’:它理解模型长短板、优化成本与调度策略,而前端UI反而变得最薄、最不关键。这也解释了为何OpenClaw能成为行业范式标杆:它首次具象化展示了Agent框架的想象空间。

‘你知道它框架怎么设计,你让它去改,你自己现现捏一个新的框架出来,你可以基于它现捏一个新的框架出来。’

群体驱动下的快速迭代与组织平权

春节期间,作者通过高强度使用OpenClaw(单日消耗超$1000的Opus 4.6算力)获得深刻洞察,并迅速将体验转化为组织行动:在飞书大群中发起‘百轮对话’动员令,鼓励团队成员参与实践。尽管初期因“过于玄幻”而响应寥寥,但一旦启动,群内迅速进入高度活跃状态——消息量激增、协作热情高涨,形成一种“非任务驱动”的创造性躁动。这种群体实验催生了多重正向反馈:个人想象力在他人成果刺激下被放大,框架改进与模型训练形成闭环加速。团队仅用3-4周完成以往需30-40周的研究进度,印证了开源Agent框架对研究效率的颠覆性提升。更深远的意义在于,它模糊了“使用者”与“构建者”的边界——非核心开发者也能深度参与框架演进,实现真正的组织平权与群体智能涌现

‘你看到别人用OpenClaw居然能干成这个事情的时候,你就会激发你自己的想象力,所以我觉得大家想象力是一个乘积的作用。’

群体智能驱动框架进化:从单点改进到集体迭代

最令人震撼的冲击,并非技术本身,而是一群人共同参与框架本身的迭代与改进。在一次近一百人参与的协作中,大家围绕一个尚不成熟的 AIGC 框架持续打磨——尽管飞书消息频道在区分用户身份上表现一般,但其上下文理解、用户画像建模与 memory 管理系统却展现出极高的可用性与智能程度。这并非模型能力的偶然体现,而是群体协作加速框架进化的直接结果:当个体单独优化时,框架进步缓慢且难以感知;而当百人同时贡献,迭代周期可压缩至数小时一轮,框架在极短时间内变得高度稳定且智能。

“所以你会觉得,呃,可能……所以我们第三天、第四天把它接到我们自己的模型上去用的时候,发现,哎,怎么也挺好用的?怎么还没训就跟Claw的差不多了?”

“所以你也发现,你利用群体智能去提升Agent的框架是非常重要的。”

这一过程揭示了一个关键范式转变:Agent框架的进化不再依赖少数专家闭门造车,而是依赖开放生态下的集体试错与反馈闭环。OpenClaw 后续的 Star 数量飞升,正是这一范式成功落地的佐证——它标志着 AGI 到来前夜的必要基础设施正在成型:一个能被广泛参与、快速迭代、持续进化的协作平台。

研究范式的重构:从周级验证到小时级试错

AI 辅助研究彻底改变了科研节奏。过去,从构思到实现再到评估,往往需要一到两周时间;即便流程极简,也需至少一两天。如今,在 Agent 辅助下,完整研究闭环可在一两小时内完成——这不仅是效率提升,更是研究本质的重构:研究的“Taste”与“效率”成为决定成败的核心变量

这一转变带来三重优势:其一,并行验证成为可能:研究者可同时启动十个 idea,交由不同团队交叉验证,而非串行排队;其二,失败成本大幅降低:只需消耗 token,即可快速验证可行性;其三,系统具备自进化潜力:在开放框架中,模型可随使用数据持续迭代,而不仅限于代码层面的静态更新。

“我我觉得效率的提升基本上是代表着,呃,一个非常本质的一个问题……这是我觉得,在这个时代上做研究,taste 的非常关键的一个原因。”

“关键是它还可以,如果你愿意长期的去培养,它还可以自进自迭代进化。”

因此,AI 并未取代研究者,而是将研究者从重复劳动中解放,使其更聚焦于问题定义、方向判断与模式设计——这正是人类智能不可替代的高地。

长上下文能力的构建逻辑:Code 为基,泛化为翼

OpenClaw 的强大并非偶然,其根基在于对长上下文建模的深度预训练准备。真正能支撑百万级上下文(如 128K 至 1M token)的训练数据极为稀缺,几乎仅限于 code 与书籍两类;而 code 数据因强文件间关联性与结构化特征,成为更优选择。这意味着:模型在 code 上的预训练,已为长程推理打下能力基座

春节后的关键任务,是从 code 泛化到更广泛场景:一方面,在 Agent 场景中构造更多样、更复杂的长程任务,进行大量 SFT 与 RL 微调;另一方面,通过开放生态(如内部大规模试用)收集真实交互数据,反哺训练。这一过程依赖两个核心条件:真实环境(支持长程交互)与精准 reward 设计(基于环境反馈)。目前,仅 OpenClaw 4.6 与 Sunlight 在 1M 上下文稳定性上领先,其他模型虽宣称支持,实则难以落地。

“代扣的是拉它的上限,然后你训其他领域是保它的下限,我是这么认为。”

“软件开发真的是一个非常长程的任务,你把它做好了,基本上很多模型的通用的特质就就已经好了。”

值得注意的是,1M 上下文的端到端训练并不现实——受限于推理速度(如 80–100 TPS 下跑完 1M trajectory 需 1–2 分钟)。因此,更可行路径是:先在 code 上完成长上下文预训练,再通过任务微调激活能力。未来真正的代差模型,将诞生于“长上下文基座 + 泛化场景覆盖 + 群体反馈闭环”的三位一体体系中。

Agent范式下的交互革命与技能共创

当前AI系统在实际应用中仍存在显著可用性问题,核心症结在于模型无法理解Agent框架本身,也缺乏与人类新型交互范式的适配能力。人类与AI的交互方式已发生根本性转变:人们不再关注代码级调试(如“这一行出错了,帮我改一下”),而是转向更高阶的协作模式——参与架构设计、澄清需求边界、辅助理解企业内部业务逻辑。后者尤为关键,因为业务逻辑往往属于企业私有知识或现实环境长期沉淀的经验,模型本身并不具备此类先验。

正因如此,传统AIGC框架已基本不可用;即便某些模型在公开Benchmark上表现优异,也不能代表其真实AIGC能力。我们当前的模型优化策略已完全放弃Benchmark导向,转而依赖体感判断——在范式剧变初期,质变差异往往肉眼可见;但进入深水区后,仍需精细评估体系支撑。

“人不再会去修改代码……人只会提一些更高阶的,比如说增加限制、增加限制就是提澄清需求,然后架构设计,人会参与架构设计。”

“在那些Benchmark上表现非常高的模型,也不代表它的AIGC能力是真的强。”

OpenClaw的出现推动了Skills生态的爆发式增长:它不仅让Skills成为Agent能力的重要组成部分,更催生了人与AI的技能共创机制。大量Skills由Agent自主编写,但其源头是人类经验的显性化沉淀。Skills本质上是预训练知识体系之外的补充形态——它承载的是互联网上不可访问的、组织内沉淀的隐性规范与流程。这些知识需通过多轮人机交互逐步注入Agent,形成可复用的执行范式。这正是群体智能的体现:顶尖模型的能力释放,高度依赖于社区贡献的高质量技能数据流。

开源范式与端云协同的生态重构

OpenClaw所开启的范式变革具有更长的时间纵深与更广的价值外溢潜力——它不像ChatGPT那样有明确的“光丘时刻”,而是一个渐进式爆发的过程:能力在临界点突然跃升,其核心驱动力之一是4.6 Ops(操作)带来的执行效率跃迁。这一路径我们已持续探索两年,印证了范式迁移的长期性与不可逆性。

开源是加速生态演进的关键基础设施:闭源框架无法让外部开发者洞察内部设计,难以调动群体智慧;而开源使社区能共同完善技能、优化框架、迭代Agent。安全性焦虑可通过端云混合架构缓解——简单、非敏感任务可本地化执行(如随身芯片部署),隐私相关任务在本地推理;复杂、高创造力任务再交由云端处理。这种解耦不仅保障隐私,更释放了轻量模型的潜力:一个仅3B参数的模型,在合适框架下已能完成远超预期的复杂任务

“我觉得开源跟安全性并不冲突……我们会把很多数据授权给OpenClaw,但如果把大量个人隐私数据授权给他的话,怎么缓解普通人对安全性的焦虑?”

“一个好的框架,借助一个很小的3B模型,它发挥的自己能做的任务的复杂度都已经超乎我的想象了。”

当前生态仍处于早期:多数所谓“Cloud”仅是不同交互形态的模型接入层,真正具备自迭代、自进化能力的框架尚未大规模出现。未来两大核心方向将聚焦于:框架自身的进化能力(如自动优化执行规范)与人-Agents的双向进化机制(如通过自然交互实现知识双向注入)。这需要模型层、架构层、社区层的协同突破,绝非单一公司可独立完成。

Agent时代的生产力跃迁与价值定义

Agent时代本质是生产力加速变革的时代。当大量工作被自动化替代,人类将被迫重新思考自身价值——Agent能否承担高价值任务,成为衡量其社会意义的核心标尺。高价值任务通常具备长上下文、高token消耗、强决策复杂度等特征,其替代对象是顶尖人才,因此对模型能力要求极高。然而,若目标是普惠化,策略则应转向低成本、高效率、广适配:需重视多模态能力(尤其视频理解与环境感知)、极致优化推理成本(避免“千刀任务”),确保普通用户也能切实感知智能红利。

从历史维度看,ChatGPT引爆的三年间,最关键的先决条件已悄然成熟:AI开发主体从算法工程师扩展至所有懂代码/不懂代码的普通人。无论是编写Skills、构建Agent框架,还是设计新研究范式,全民智能参与正成为现实。正如Peak所言:“Agent的进化需要所有人参与。” 当前唯一缺失的,是人与Agent之间更高效的协同进化机制——例如全天候陪伴式设备,通过自然交互持续学习用户行为,其进化速度或将超越个体。

“今年生产力会爆发……你的好多工作都会被替代掉。那么,这个时候人更应该去思考,到底自己的意义和价值是什么?”

“第一个关键点是不再是算法工程师在做这个事情了……所有懂写代码人、不写代码人都在一块儿去考虑、去提升整个东西的智能水平。”

Agent范式的本质:弥补模型短板的系统性设计

当前Agent范式的兴起,并非单纯依赖模型能力的跃升,而是系统性地弥补大模型在行动能力上的结构性缺陷。OpenClaw等框架之所以精巧,关键在于其编排逻辑高度适配当下主流模型(如Claude 3.5 Sonnet)的实际能力边界——这些模型虽已强大,但在单次推理深度、上下文一致性、多步任务规划等方面仍存在局限。因此,框架设计必须在后训练阶段投入大量精细化工程,通过memory系统、多轮交互机制、任务分解与调度策略等手段,将模型的“潜力”转化为“可靠行动”。

值得注意的是,这种对框架的依赖并非短期现象。即便未来模型能力持续增强(如ops Sonnet演进至4.6),成本与效率的权衡仍会驱动Agent框架持续进化:更小尺寸的模型(如10B级)若配合高效Agent架构,反而能在响应速度、部署灵活性与定制化能力上形成显著优势。正如业内观察所言:

‘它其实让不那么好的模型有了更好发挥的空间,对它的上限更高。’

‘所以它更符合国内的叙事,会让人很想用它,很想用它替代自己的工作。’

群体智能:从单Agent到协作生态的范式跃迁

当前Agent实践正从“单体智能”向多Agent协作系统演进,其核心驱动力不仅是任务复杂度提升,更是对成本、时间与资源效率的极致追求。真正的多Agent系统需解决两个关键问题:一是各子Agent需保有独立且稳定的context,以避免信息干扰、提升专注度与执行精度;二是建立跨Agent的高效协同机制,使整体能力产生非线性增长。

这种协作逻辑与人类组织高度相似——研究团队中,有人专精模型训练,有人擅长评估设计,有人负责数据构建,各角色在明确分工中形成闭环。正如访谈者所描述的实践:

‘我让家里每个人都有一个独立的沙盒群,我委派任务给他们的群,他们反而干得更好——因为他们有更匹配的 competence。’

这一粗浅实验揭示了一个深层趋势:AI系统正从“工具”走向“组织”。未来高阶任务(如复杂科研、产品设计)将不再依赖单一模型,而是由具备不同专长的Agent群体协同完成。而实现这一愿景的前提,是框架本身具备可泛化的评估体系,能支持模型在真实任务反馈中持续自迭代——这正是当前评估机制的薄弱环节,也是下一阶段突破的关键。

‘我之前认为我们自己做的工作是足够有创造力、不会被scale化、不会被workflow化的……但最近发现,他竟然也能。’

AI叙事的转向:从DAU追逐到自我超越

当前行业叙事已发生显著分野:主流厂商仍在围绕DAU、产品迭代等互联网逻辑竞争,而前沿探索者正转向更本质的目标——让AI系统具备持续超越人类个体的能力。这一目标不以短期指标为锚点,而是聚焦于模型能否自主完成高价值、长链路、高复杂度任务,例如:复现科研路径、生成新知识、甚至反向训练更强模型。

实现这一目标的关键,在于构建具备“群体智能”特性的AI系统:它不依赖个人英雄主义,而是在分布式协作中汇聚多元能力。模型训练本身正 becoming 一种组织行为——需融合平台工程、模型评估、领域知识与数据构建等多角色智能体的协同。当模型不仅能理解人类的显性知识,更能复现其隐性认知路径与成长轨迹时,人与AI的协作将进入真正对等阶段。

‘他甚至能帮你复原出来你自己的科研的成长的路径……你发现他跟你一样聪明,就这个事儿是很残酷的。’

‘它先吸收所有人的智能,然后再靠自己产生更强的智能。我觉得这个事儿肯定是就在这一两年发生的事情。’

Agent框架的演进与OpenClaw的开源价值

当前Agent范式正经历从“人工评估”向“框架自动化评估”的过渡:初期依赖人类在多轮交互中指出模型错误并推动任务完成;而随着框架成熟,评估能力将被系统性吸收,使其能在特定场景下稳定、准确地自我评估。更进一步,模型将具备类人反思能力——当其意识到当前策略陷入瓶颈时,可自主切换思路,或调用其他子Agent(如super-agent或领域专家agent)协同求解。尽管目前主流框架尚未充分实现这一能力,但近一个月已有多个项目开始关注此方向,尤其在OpenClaw发布后,国内团队迅速跟进推出同类产品(如QQ、Kimi、MiniMax等),但整体仍处于“大同小异”阶段:多数仅将OpenClaw作为插件式封装,尚未出现比OpenClaw开源社区迭代更快的Agent框架

值得强调的是,OpenClaw虽已并入OpenI,但其开源属性未变,社区仍可基于其架构持续演进。这种开源基因保留了群体协作与范式演化的火种,是其长期生命力的关键。正如受访者所言:

‘这个事儿本身没变,只是可能做这事儿的一部分人的立场变了而已……群体演变这种可能性和基因火种是保留的,那就挺好的。’

‘我还没看到一个比OpenClaw开源社区进步更快的这样一个Agent的框架。’

V2系列模型:悄无声息的‘伏击’与多模态协同编排

V2系列(Flash、Pro、Omni、TTS)被称作“悄无声息的伏击”,原因有二:其一,模型在复杂Agent架构中的表现提升远超预期——非计划性爆发,而是内部快速觉醒后的自然结果;其二,该进展在外部几乎无感知,属于“安静的突破”。这一突破源于对“全模态智能”的长期布局:一年前团队已意识到,真正的智能需覆盖感知(Omni)、理解(Pro)、表达(TTS)三重能力,而OpenClaw的出现让团队豁然开朗——这些模型并非孤立存在,而是可在Agent框架中被高效编排,形成生态级协同价值

为何不将三者合并为单一模型?核心考量是成本、速度与端到端效率的权衡:语音生成无需1T参数大模型,视频理解亦未必需要同等算力投入。AI革命的本质是生产力提升,必须兼顾完成率与成本效率。当前三模型并行的策略,正是为实现“效果、成本、效率三者乘积最大化”的阶段性最优解。

‘当我看到OpenClaw的时候,我自己一下就想到了这样的一个画面:这些模型在各自什么样的环节发挥什么样的作用,他们能够怎么被有效编排……’

‘目前这三个模型在同一个Agent框架里边释放出来的潜力,跟你去组装其他模型能释放出来的潜力的差距,是很微弱的。但我认为未来不会。’

长上下文与KV Cache优化:MIMO架构的Agent适配性

V2系列(Flash/Pro)基于Hybrid Retention架构,其设计初衷即为应对Long Context(长上下文)场景下的效率挑战。团队早在开发初期便预判:卡(KV Cache)的效率是Agent范式的核心瓶颈,而长上下文能力将深刻影响智能体的推理深度与稳定性。相比同期主流采用MA(Mixture-of-Attention)架构的模型(如Grok、Kimi),MIMO通过Sliding Window机制显著压缩KV Cache体积,并结合MTP(Multi-Token Prediction)加速推理,在保持长文处理能力的同时实现高吞吐(Flash I可达100–150 TPS,Pro亦达60–100 TPS,依成本配置浮动)。

MA架构虽在H系列芯片上实现了访存与计算的理论最优平衡,却缺乏弹性空间:一旦引入MTP等加速技术,即陷入计算绑定态,反而拖慢推理速度。而MIMO通过动态调整Hybrid比例(如Pro达7:1的滑窗层与注意力层配比),在长上下文成本、推理速度与缓存命中率之间达成三重优化——这使其天然契合Agent对低延迟、高上下文、多级缓存的严苛需求。

‘你一旦体验到了更快的模型,以及智能水平相当的更快模型,你就回不到那个更慢的模型的水平了。’

长上下文与KV缓存:推理成本优化的核心杠杆

在当前AI模型推理优化的语境下,长上下文能力极小的KV cache设计被视作两大关键要素。其中,极小的KV cache不仅节省显存开销,更显著提升缓存命中率,从而大幅降低推理阶段的计算与内存带宽压力。与此同时,推理速度本身已成为决定用户体验不可逆的门槛——一旦用户习惯于更快、智能水平相当的模型,便难以再接受延迟更高的旧方案。这一趋势直接推动了Mimo V2 Flash与Pro的同步研发路径:在模型训练中后期,团队开始针对性设计推理架构时,意外发现其计算资源存在大量富余,从而自然引出了对MTP(Multi-Token Prediction)的引入探索。

“你一旦体验到了更快的模型,以及智能水平相当的更快模型,你就回不到那个更慢的模型的水平了。”

“MTP它是因为它是会被verify的,然后只有你预测的准,我才会采纳你当前token的结果,所以它没有任何幻觉。”

MTP为何未成主流?——范式迁移下的结构设计逻辑重构

尽管MTP在Flash上展现出高命中率带来的显著成本下降优势(即单位token生成成本降低、GPU利用率提升),但它尚未成为行业主流,核心原因在于市场对MA(Multi-Head Attention)架构的路径依赖过强。MA在预训练阶段已将结构潜力压至极致,尤其在post-training周期短、推理场景稳定的传统范式下极具性价比。然而,Agent范式的兴起彻底改变了这一前提:post-training不再只是短暂补充,而是与pre-training同等重要的长期投入;context长度需求持续跃升(如从128K到10M),使得早期对芯片、场景、并行方式的强耦合设计变得高度脆弱。

在此背景下,两种结构设计哲学开始分化:一种是高度定制化——在预训练阶段即锁定推理场景与芯片类型,构建极致匹配的模型结构(如Mimo V2 Flash的思路);另一种则是保留富余度的简洁结构(如hybrid注意力机制),通过预留扩展空间,在post-training中动态调整稀疏比例(如sliding window与global attention的配比),以应对未来场景的不确定性。实验表明,更大参数规模的模型能承受更高的attention sparsity比例,而小模型过度稀疏则性能骤降,这为结构设计提供了弹性空间。

“如果说如果就看大家的下一代模型结构是什么样……那么你就可以设计一个针对这个场景和这个推理方式和这个这一款芯片的完美的结构。”

从Flash到Pro:架构验证、训练挑战与价值定价逻辑的跃迁

Flash作为技术验证项目,成功验证了推理架构的可行性,但Pro的训练过程暴露出1T级模型特有的数值不稳定性问题:loss spike、expert负载不均衡、激活值异常等现象频发,需大量算力投入进行联合调试(甚至排查到“太阳黑子暴发”这类玄学假设)。这不仅考验工程能力,更锤炼团队的底层debug素养。立项时选择1T参数量,源于对scaling law的延续性判断——在已有算力卡池下,这是可实现的极限区间,且需数倍于训练卡的资源支撑研究迭代。

更重要的是,定价逻辑正从“推理成本导向”转向“价值导向”:Flash阶段可基于模型结构效率定价(如百万token输入$0.0101),但进入Agent时代后,context理解能力、框架协作能力等post-train成果构成新的溢价空间。因此,Pro已放弃旧有定价逻辑,转向以模型最终产生的业务价值为锚点。

“在预训练时代,你根据模型的框架优势来定价,确实是合理的……但当我们进入到后训练的方式……它的定价逻辑应该发生变化,就不应该是根据我最终的这个推理成本来定价,而应该是根据我这个模型的最终产生的价值来进行定价。”

卡资源:训练、推理与研究的三重瓶颈

在训练七百亿参数模型时,团队不会再重复训练同规模模型,而是继续推进 scaling,因此 ET(Early Training)阶段是在已有算力规模下的极限区间。以 Mimolayer Pro 和 Flash 为例,各自预训练可能仅需几千卡时,但实际用于模型研究的算力投入是训练卡的 3–5 倍——这包括前期结构探索、中后期后训练算法研究等环节。在 Agent 范式下,卡的数量反而成为更关键的瓶颈:创意生成和代码实现极快,但验证 idea 必须跑大量并行实验,而 GPU 算力效率有物理上限,导致实验推进受阻。推理阶段对卡的需求甚至远超训练,其消耗取决于用户量或高价值场景的 token 总量,需按场景拆解评估。

“idea 的诞生和动手写代码太快了,然后你现在卡在什么呢?卡在卡上。”

“推理看看看用户数……或或者说是看高价值场景消耗的 token 数,所以这个很多场景因人而异。”

基于此,作者提出一个合理的算力分配比例为研究 : 预训练 : 后训练 = 3 : 1 : 1;而过去顶尖团队常采用预训练 : 后训练 = 3:1 或 5:1,今年已普遍向1:1 靠拢,标志着范式转变——后训练的重要性显著提升

一万亿模型训练:系统性挑战与‘极致问题驱动’文化

训练一万亿参数模型是全方位的挑战:数据层面,更大模型对脏数据容忍度看似更高,但作者谨慎表示“同一批数据训的,无法确定”;真正的难点在于训练过程中的异常检测与根因分析。例如,loss spike 并非正常现象——它可能导致某些 expert 参数被“打死”,即后续再无 token 分配至该 expert,造成模型结构失衡。为此,团队需部署深度监控系统:实时追踪 MoE 中 expert 负载、各层输入/输出分布、激活值异常等细粒度指标。

发现问题后,需进一步定位成因:可能是稀疏比过高引发数值不稳(如负二层与 sliding window 层输出差异巨大),也可能是结构缺陷推理 bug(如通信算子写错、long 溢出)。解决方案往往需临时妥协:如对异常值做 clip 或借鉴 Kimi 的 QK clip,牺牲短期效果换取训练稳定,待进入稳态后再恢复。这些调试路径高度依赖团队跨职能协作能力——在大公司中,因跨团队沟通低效,问题排查成本极高;而在小团队中,关键成员的极致追求与快速响应反而成为优势。

“我们认为有 loss spike 肯定会导致某一步的更新特别不稳定……某些参数或者说某些 expert 给它打死。”

“在我们这儿,我们认为它就是一个问题,我们就应该去解决它,因为我们没有那么清晰的一个说我要发布的一个目标。”

正因坚持“问题即问题”的底线,团队训练周期被迫拉长,单日停训损失可达百万级;但若目标导向明确(如硬性发布 deadline),此类深度排查往往难以被接受。作者强调,Memo 和 Micro 能成功,本质是以创业方式运作——无公司压力、无模糊妥协,只以模型最终质量为交付标准。

组织平权:无组、无职级、靠热爱驱动的创新结构

当前团队约百人(含数据采集、质量、预/后训练 infra、开发、产品、实习生等),但真正投入一代模型迭代的仅二三十人。团队不设固定小组划分,原因有二:其一,预训练与后训练能力高度重叠——后训练需 diversity 视野,而预训练天然强调数据多样性;其二,固定分工会扼杀创造力与成长空间。例如,做数据的人具备强数据直觉与效果倒推能力,自然可转向后训练;成员按兴趣流动,而非岗位指派。

组织上,无职级、无明确 leader(仅有项目推动者,无控制权),虽小米整体有职级体系,但该团队完全扁平化。作者认为:平权本身具有价值——它保障每个人平等贡献智慧;层级则默认“上层更聪明”,实为对智能涌现的误判;而层级带来的掌控感与‘没了我就不行’心态,会抑制创新团队诞生

管理上,团队拒绝制度化管控,转而以热爱驱动:通过让成员深度体验前沿范式(如强制使用 OpenClaw 进行百轮对话)激发内驱力。作者强调:“我不会考核你有没有用,因为那不关键”——重点在于创造体验,而非执行验证。这种文化下,问题驱动、协作解题、自我迭代成为常态,而非依赖流程或汇报链条。

用热爱驱动团队:体验先行,拒绝形式化考核

在管理实践中,我始终坚信最有效的管理方式是激发成员的内在热情,让每个人围绕自己真正信仰的目标自驱前行。而要点燃这份热情,关键在于提供真实体验的机会——人只有亲身进入某个情境,才能真正理解其价值与意义。以 OpenClaw 为例,它本身就是一种强制性体验设计:我们甚至用“不完成一百轮对话就辞职”这样极端的方式,逼迫团队成员进入真实使用场景。但需要强调的是,我们并不考核结果是否达标,只关注是否真正执行了动作;“一百轮”只是一个量词,核心在于让成员沉浸其中、产生直觉性认知。这种体验式驱动,远比绩效考核更深刻、更可持续。

你看起来用了一个非常极端,说哦,你不用你你没有一百轮的对话,你明天就辞职,这是一个非常极端的方式。但是你的目的是体验,是吗?

就你跟他聊天的时候,应该就能感受出来。哎,就有的人他会为了很多奇怪目标做事情,但为了热爱驱动做事情的人是非常明显的……我能直接感受到,就是能 sense 到。

模型训练的崩溃与算力焦虑:没有节点,但有极限

在一梯模型的训练过程中,loss 飙升(spike)是常见现象,我们经历过两三次类似情况:训练几百步后 loss 突然飞升,但有时又能自行回落。对此我们坚持一个原则——一旦出现异常,必须停下来解决,不能带病训练。哪怕耗时一两周,也要让 loss 曲线恢复平稳。这种“慢”看似低效,实则是对算力资源的敬畏。尽管我们没有明确的时间节点,但有限的 GPU 卡资源会带来强烈的自我批判感:担心实验浪费、算力空转、深夜梦里还在追问“为什么老师又 spike?”——这种焦虑并非来自外部压力,而是源于对资源负责的内在要求。

我经常晚上做梦说:呃,为什么老师又 spike?我烂七八糟的……

参数量、稀疏架构与多模态统一:效率、智能与执念的权衡

关于模型规模,我认为参数量与上下文(context)共同决定智能上限;要达到当前最强 Agent 水平,总参数量至少需达 1T 以上,而真正关键的是激活参数量——它直接影响推理成本。为在长文本场景下维持效率,我们采用混合注意力机制,将 full attention 与 sliding window 稀疏结合,从而在参数扩容时控制长文推理成本不崩坏。这背后是清晰的取舍逻辑:先保证效率基线,再通过更大上下文释放模型潜力——“既然大模型长文效率高,我就可以塞更多上下文,它就又更强了”。

在多模态方向,我们选择了一条相对“另类”的路径:将音频离散化为与文本同构的 token ID,力求无损重建。这需要大量 RQV 量化层与预训练支撑,虽涌现更晚,但能统一建模范式。然而近期发现:在 AGN O 支持下,为各模态重写专用架构的成本已大幅降低——几人两周即可完成。这让我们反思:是否值得为架构统一性牺牲模型性能? 答案是否定的。Omni 虽标榜“全模态”,实则在视觉上仍采用连续表征(仅优化 VIT 结构),音频才是离散化突破点。至于多模态是否必然提升智能?我们观察到 Omni(虽小于 Pro)在世界知识、情商、感知力上表现更优,可能源于原生多模态训练带来的隐性能力;但任何 benchmark 均无显著提升,因此我们不再强求“多模态是智能必经之路”的结论——在 Agent 编排时代,能力组合比模态统一更重要

我们还是想尽量把它统一到那个主 model 的范式下……但我们现在发现一个问题:……写这些架构的时间被大量缩短……那为什么要因为我后面后训练的 infrastructure 架构的统一性去牺牲,让前面模型结构牺牲这么大?

但你能感受到……他对很多很细微的东西的感知力,你会发现他更强。但这些都是很虚的,都是我们自己去实际体感去测感知力。

多模态与生成能力:智能的边界在哪里?

在当前 Agent 范式下,多模态本身是否直接促进智能,其实并非关键问题。多模态带来的核心价值,目前观察到两点:一是生成能力可能增强感知与理解,二是为更复杂的交互架构提供基础。但需注意,当前主流生成模型仍以纯生成为主,缺乏真正的理解能力;将生成与理解统一到一个高效架构中,仍是科研难题,尤其在受限算力下更难突破。

Omni 模型的设计目标,首先是让 Agent 具备多模态行动能力;更长远的目标,则是探索:当系统能结合多空间感知、生成更多模态信号时,是否能显著提升对世界的理解?这需要一个与现有 Agent 框架深度协同的视频生成模型。关于 Omni 的参数量,团队选择暂不披露,留出想象空间——虽明确其小于 Pro,但相信二者可互相迭代、协同进化

“多模态带来了什么?……我觉得可能做动态生成,未必会有一点点不一样……生成现在还是一个科研问题。”

“当你结合多个空间的感知,甚至你能去生成更多的多模态信号的时候,你会不会促进你对这个世界的理解?”

TTS 模型:简洁架构 + 超大规模训练的泛化奇迹

团队开发 TTS 的初衷,是用自己认为更优雅的架构,去重构一个传统上已被“做烂”的任务。在上千小时数据上训练后,模型展现出极强的泛化能力:即使仅用少量风格化场景(如快/慢、高兴/悲伤)做 SFT 和 RL 后训练,它仍能泛化到复杂自然语言风格指令,并基于语义推测赋予合理情感与韵律——这正是简洁架构 + 超大规模训练带来的“外化表现”。

当前模型上限极高、效果惊艳,但下限尚不稳定,因此 API 仅限时免费开放试用,尚未达到生产可用级别,但团队计划尽快推进落地。

“你再给它输入很多风格化、多样的风格化的标签的时候……它会看到你的字本身,它会更更通过推测你字表面的含义去赋予它的情感和音律。”

“纯泛化出去的……这是我们发现到这种简洁的架构加超大规模的训练带来的一个超强泛化力的一个外化的表现。”

AGI 路径:倒三角的AI如何补全正三角?

与人类“正三角”式演化(感知→行动→语言)不同,AI 当前是倒三角路径:语言能力先行爆发,而感知、具身等环节滞后。这源于二者演化环境的根本差异——人类演化受生存压力驱动,而大模型缺乏生存危机,反而更自由、更具创造力。加上其拥有人类知识基底、海量算力与集体优化资源,AI 的进化路径注定独特。

语言之后的主旋律是复杂软件工程的端到端开发:不在于代码量,而在于调试、验证、提效的真实闭环能力。外延上,AI 将从屏幕走向物理世界——机器人是交互的必然延伸,但其瓶颈更多在硬件(如灵巧手、电池),比 Agent 在语言空间的进化更慢

当前 Flash 项目约完成 20%,预计今年可达 60–70%;AGI 实现时间线已大幅提前,团队判断两年内有望实现。其中关键变量是 “AI 训 AI”——即模型具备自训练、自迭代、甚至自主科研的能力,这标志着其智能达到人类顶尖水平。未来竞争核心将围绕:Agent 框架迭代速度、推理成本优化、推理芯片供给,以及是否能提前布局更大规模 scaling(参数/数据/算力)

“人演变的时候它是随着自然界的变化为了生存来进行演变的,但是大模型它好像一开始上来不是为了生存……它没有这种生存的危机,所以反而会进化的更自由、更散漫、更有创造力。”

“这个会是今年的大模型厂商的一个核心的竞争点吗?……如果你有最尖端的模型的智能,你最后都会去干这个事儿。”

Agent范式下的推理架构重构

当Agent范式取代传统的RAG或Chain-of-Thought推理方式后,整个推理基础设施(R Infa)的底层逻辑发生了根本性变化。过去在RAG时代,核心关注点是模型本身的推理引擎——即如何让模型在长上下文中完成高质量的思考与输出;而Agent范式下,系统不再仅聚焦于模型,而是转向以Agent为核心的更复杂黑盒(或白盒)系统,其架构需同时处理模型与Agent之间的深度耦合。这意味着基础设施团队必须具备极强的敏捷性,以应对框架快速迭代带来的挑战:不仅要兼容不同版本的模型与Agent协议,还需在系统层面支持自适应迭代能力,并具备良好的容错性。此外,该系统还需统筹GPU/CPU资源调度、推理训练与推理执行的协同管理,这对infra与研究团队的配合效率提出了极高要求。

这套R Infa系统得多困难?

如果做的很好,那么就会体现在你你会感觉到研究的速度会很快。

群体智慧与AGI的协同路径

在谈及AGI实现路径时,受访者强调:OpenClaw的真正价值不在于技术本身,而在于它开启了‘全人类群体智慧’协同推进AGI的可能。这种协作模式打破了传统企业或国家的封闭研发边界——当全球开发者共同参与同一套框架的迭代时,知识、反馈与创新将以前所未有的速度汇聚。受访者认为,中国在AGI竞赛中具备潜在领先优势,其基础在于:前沿研究能力、模型水平、Agent框架成熟度、芯片与能源保障等多维度的系统性积累。尤其Agent框架,被视作补全复杂任务完成拼图的关键一环:它并非简单“补丁”,而是对中段模型是稳定器、对顶尖模型是加油器的存在——它将用户在交互中积累的context与智慧逐步内化为系统能力,最终可能沉淀为模型参数的一部分。

对于顶尖模型来说,它好像是加油器,但对于中段模型来说,它就是一个非常好的放大器……让它变得很稳定,变得在各种场景里边都输出非常好的效果。

它最终肯定是……变成类似于模型的参数被吸纳进去了。

心法、压力与研究的长期主义

面对技术快速迭代带来的压力,受访者坦言自己拥有极强的“遗忘能力”——压力通常在数小时内消解,最慢不超过一天,靠的是“睡一觉”与“新任务冲刷旧焦虑”的双重机制。这种心理弹性源于其长期心法:做当下符合价值观、且能为更多人创造真实价值的事。在大模型领域,这种价值观体现为“让世界更美好一点”,例如用AI替代重复劳动,释放人类时间去从事更有意义的创造性活动。

他特别提到一个未落地但持续思考的方向:建立公益型科研支持组织,为追求突破性基础研究的学者提供稳定资金、算力与基础设施支持——当前科研生态过度依赖“完整产品化证明”,挤压了高风险探索空间。对于AI与人类在科研中的关系,他主张协同而非竞争:“AI在做,人也在做……人跟AI一块儿引导它,研究速度会更快。” 即便未来AGI实现,人类仍有大量未被满足的探索需求——“纯享受生活应该也挺无聊的”,真正的意义在于持续创造与帮助。

如果说我们哪天实现了,那这个时候就比拼谁做研究的速度更快嘛?AI不是?对呀,AI也在做,人也在做……人跟AI一块儿去引导它做的更,呃呃,我们能创造出来的研究速度会更快。

从预训练到后训练:交互范式的跃迁

2022 年 ChatGPT 的爆发,其核心并非来自模型规模的绝对领先,而是交互范式与后训练(post-training)机制的精妙结合。在当时,模型虽仅在数千轮对话中完成轻量级微调,却因高度拟人化的多轮交互设计,让使用者直观感受到类人智能——模型能在后续轮次中主动澄清错误、修正前序输出,这种动态反馈能力极大增强了用户的“智能感”。而这一切,都建立在一个关键前提之上:模型必须在极短上下文内被高效激发。换言之,超大规模预训练所积累的潜力,需依赖一套高度敏感、可引导的交互接口才能释放。若无此交互设计,即便模型本身已具备强大能力,用户也无法感知。这标志着 AI 从“单向输出”走向“协同推理”的转折点

这其实是ChatGPT当时给人的冲击,就是你感觉它在对话上达到一个类人的一个智能水平。

但所有激发的一个前提,都是要靠有一个很很能让人感知到智能水平的这样一套交互,恰的是一个很好的交互

开源双轨:Qwen 的生态驱动 vs DeepSeek 的架构创新

2023 年,开源社区迎来爆发式追赶:Llama 的发布为行业提供了可复现的预训练范式,Qwen 与 DeepSeek 等团队迅速跟进,但路径显著分化。Qwen 选择以“生态共建”为核心,不仅完整复现并优化了 Llama 架构,更通过全尺寸模型开源、高质量预训练数据、多模态能力拓展,为下游微调、推理框架与研究生态奠定基础。大量后续研究(如 DeepSeek 的前期工作)均基于 Qwen 模型展开,凸显其作为“基础设施”的价值。

DeepSeek 则聚焦于架构层面的结构性挑战,尤其关注 Llama 架构在超大规模 scaling 下的瓶颈——如 GQA 在低配 GPU 上的训练效率问题、推理成本居高不下等。因此,V2/V3 系列引入 MOE、LMIC 等新结构,以更低成本实现更高算力利用率。这一路径虽牺牲部分峰值性能,却为资源受限场景提供了可行方案。二者并非对立:Qwen 推动生态繁荣,DeepSeek 推动架构演进,共同构成中国开源 AI 的“双引擎”

DeepSeek更多的也另外一方面价值是它有一个全新的结构带来对于训练成本的一个冲击……导致很多云推理芯片……有了更多的、更准确的判断。

所以他们是彼此促进的,对于社区都是有价值的

Agent 范式下的组织革命:从模型竞争到团队能力重构

2024 年 OpenAI 的 o1 与 DeepSeek 的 R1 横空出世,其意义远超模型性能本身——它揭示了后训练阶段对组织能力的全新要求推理能力(reasoning)不再依赖固定 prompt 模板,而需模型在复杂、开放任务中自主规划、多步推演。这一范式转变,使得传统“预训练团队 vs 后训练团队”的割裂架构失效:后训练所需的数据多样性、任务理解深度、跨模态迁移能力,远超单一职能团队的覆盖范围

因此,真正领先的团队正转向组织平权与敏捷迭代:打破职能壁垒,让预训练、微调、评估人员协同作战;减少微观干预,鼓励新人在实践中成长;以 Agent 任务为训练目标,而非局限于思维链(chain-of-thought)等局限性 benchmark。当前许多团队仍在旧范式中深耕(如 TerminalBench、CodeBench),但这些指标高度特化,模型能力难以泛化到真实场景。真正的竞争已转向:谁能以最快速度构建端到端的 Agent 系统,并在复杂任务中实现高鲁棒性表现。

它其实是一个范式的转变。reasoning 它其实是可以通过 code mass 这个高泛化场景能放到通用以外,这个其实欧伊也没有走通,这个是我没有预料到的事情。

正确的事情就是你要在一套非常复杂的agent的框架或多样的agent的框架上,然后去端到端的完成更高复杂度的任务

Agent范式的核心跃迁:从场景定制到端到端复杂任务

当前大模型发展的一个关键转折点在于:Agent范式已取代传统单场景微调,成为后训练(post-training)的核心目标。过去许多团队仍在为特定场景定制简洁架构、在有限上下文中优化性能;而正确的路径应是构建支持多Agent协同、能端到端完成高复杂度任务的框架体系,并以此作为后训练的终极导向。即便模型输入输出仍是token流,其推理范式也早已超越“以output为中心”的传统模式——AI智能的本质已转向对任务流程、环境反馈与多模块协作的系统性建模

以Minimax为例,其用10B级模型展现出的Agent能力令人惊艳,尤其在后训练敏捷性上表现突出;但若将“真正对标GPT-4o”的入场券定义为同时具备超大规模基座(如1T+)与极致敏捷迭代能力,则仍显不足——它仅具备后者,尚未拥有前者。因此,中国厂商尚未同时掌握这两项核心能力。值得注意的是,当前行业共识已高度一致:OpenClaw路径是正确的,Agent路线在近三个月内变得前所未有的清晰。这为国内团队提供了追赶窗口:预训练阶段的代差已极小,甚至在结构设计上存在优势;过去被误读为“成本妥协”的上下文工程(context engineering),实则是为配合模型在复杂Agent架构中发挥最大任务完成度而生的战略设计。

“现在可能你能看到所有的这些 context……其实是为了配合模型发挥更强大的整体任务完成度而设计的。”

“Code 又又又因为它有很好的 Environment,并且 code 可以天然做很长程的任务……所以它又很适合 Agent 这个范式。”

Coding作为通用能力的‘自闭环飞轮’与RL Scaling的瓶颈

Code不仅是Agent范式的理想试验场,更成为推动通用能力跃迁的‘自闭环飞轮’:其高可验证性(如编译通过率、测试覆盖率)使RL训练可快速迭代;其天然支持长程任务(如复杂软件工程开发),完美契合Agent的时序决策需求;且因代码本质是结构化自然语言,其泛化能力极易迁移到其他领域(如数学推理、多模态理解)。这一路径在Pretrain→Posttrain→Agent的三重范式演进中持续验证,形成高效闭环。

然而,RL Scaling仍面临算力与架构瓶颈。当前RL训练的算力投入远低于预训练,尚未达到同一量级,导致探索深度受限。团队虽已有初步实验,但暂不便公开细节,预计需待RL算力与预训练对齐后才可分享成果。与此同时,Multi-Agent协同尚未突破“成本-效率”临界点:现有方案仍需依赖昂贵模型(如单次推理成本超千元),而真正替代人类员工的Agent必须实现极致性价比——即单位成本创造的价值显著高于人力。此外,多Agent间的自进化机制、通信协议与协同策略仍处雏形阶段,当前更多是“节省时间”,尚未实现“放大上限”的质变。

“你还是要有一个更低价的一个模型,不可能说你烧个 cloud ops 一天花一千多 token,结果那个员工创造价值可能一千。”

竞争新维度:算力-架构-生态位的深度耦合

AI竞争已从单一模型能力转向系统级协同能力模型公司必须将基座架构、推理芯片认知、上下文长度规划(如256K→1M→10M)纳入统一决策链。例如,预训练阶段若提前支持1M上下文,后训练算力需求将数倍增长;若硬件生态未就绪,则再强的模型也无法释放潜力。这要求团队具备跨学科预判能力——既要理解芯片制造工艺瓶颈,也要预判市场供需节奏,甚至提前布局非傅达英(非GPU)架构。

对创业公司而言,Agent范式极大降低了参与门槛:小团队可借Agent化身“数字员工”,以极小人力规模完成复杂任务。未来一年内,“一人公司”有望成为现实——关键在于能否高效调用Agent生态。与此同时,开源策略的本质是生态位选择:若企业拥有不可复制的战略资源(如操作系统、硬件生态),开源可加速AGI进程并巩固生态主导权;反之则需以模型为壁垒。国内多数公司选择开源,实为推动AI规模化落地的理性选择。

胜负手在于能否重构组织逻辑:传统大公司需反思“是否仍需大量人力支撑现有流程”,而应思考“如何让人类与Agent协同释放更高价值”。Frontier公司的核心边界在于:既保持原创研究的反主流勇气,又不脱离主流演进节奏——过度激进易被边缘化,完全跟随则丧失引领性。

“你首先要思考你需不需要这么多人来做这个事情啊?你现在所有做的事情,这些人是不是都需要?被砍掉,因为它的生产力会被另外一个更高效的东西给替代。”

Frontier 的本质:主流中的超前探索

在讨论前沿研究(frontier research)的边界时,受访者强调:真正有壁垒的研究仍存在壁垒,但关键不在于是否‘反主流’,而在于能否在主流基础设施(如硬件、芯片生态)支持下,以原创性的小点持续沉积为高水准模型。他指出,若完全脱离主流,研究将失去加速器;但若只顺应主流,则易陷入‘skilling’陷阱——即研究者被动适应系统,丧失原创驱动力。因此,理想的 frontier 状态是:顺应主流基础设施的加速度,同时主动探索尚未主流但具备潜力的方向,例如 Longest Inflation 架构这类非开天辟地、却具长期价值的尝试。

‘你只要顺应主流的话,那你就很容易去 skilling。’ ‘这些小点也就沉积起来,那么它就是一个非常嗯嗯高水准的呃一个一个一个 frontier 的一个 model 的状态。’

工业级研究:从 Mixture-of-Experts 到 Agent 范式前置布局

受访者将自己最满意的原创研究定义为工业级水准,而非纯论文导向。例如 Deep Sea VR 与 Mimo VR 系列:前者在主流 dense 模型浪潮中反向选择 Mixture-of-Experts(MoE)与 attention 改造,在资源受限场景中仍保持 scaling 潜力;后者则在 AIGC(A进)范式尚不明朗时,提前做出关键决策,构建优雅简洁的结构,并高效完成后训练设计——尤其围绕 Agent 架构重构推理系统(RInfer),使模型不仅具备论文级创新,更具备工程落地能力。

他明确表示对发论文已无执念:‘发的越少越好’,原因在于大规模算力团队中,亲历实验者比论文读者更接近真相;他更关注问题动机与原始动机,而非实验细节。信息获取方式高度内化:主要依赖团队内部迭代与自我对话,而非学术会议论文。他观察到,有无大规模算力研究经验,会显著影响研究者的问题意识——这也成为他减少阅读论文的深层动因。

‘我相信自己的实验结果比相信论文的实验结果会更好。’ ‘在有没有这种大规模的算力的团队里边,做过研究的人跟没做过研究人,他关注问题,我发现重叠度也差的蛮多的。’

组织平权:环境 > 经验,多样性 > 同质化

在组织建设上,受访者提出核心理念:‘环境反而比经验更重要’。他更关注候选人是否具备高初始化上限(如基础能力、好奇心、热爱驱动),而非其已被监督学习‘固化’后的当前状态。因此,他逐渐倾向招聘大二、大三本科生——因其思想未被禁锢、适应力强、敢于验证想法,反而在 Agent 新范式中更具想象力。

他构建的组织环境强调三点:① 共同基础特质(热爱、使命感);② 高基础能力(能将想法落地);③ 强多样性(避免群体盲区,捕捉‘噪音中的信号’)。日常体现为‘叽叽喳喳’的开放沟通文化:想法在群聊、工位随时碰撞,形成团队内部知识蒸馏(MOPD)机制

激励设计上,他坚持:‘钱是 baseline,但不是唯一’,价值感与意义感对高潜力人才更具驱动力。此外,组织目标不宜过度清晰确定,以保留探索空间。

‘我只在乎他的可能初始化切合 point 的上限高不高,我只在乎这个事情,但我不太在乎他目前已经被 supervised learning 过后的那个点的状态高不高。’ ‘多样性就非常重要……如果招的太同质化,那么大家很容易去 miss 掉一些看起来是噪音,但实际上对研究非常有价值的一些信息。’

睡眠、精力与创业状态的动态平衡

在访谈中,主讲人坦承自己对睡眠的需求显著低于常规水平:四到六小时的睡眠时长已构成其“一个OK的区间”,既非勉强维持,亦非长期透支,而是一种主动适配当前生活节奏的生理状态。这种调整并非孤立现象,而是与当下所从事的事业高度相关——当前生意处于高度兴奋状态,使得长时间睡眠在主观感受上显得“有点浪费时间”。这种“时间焦虑”并非源于疲惫,而是源于一种强烈的时间价值感知:当工作本身带来持续的正向反馈与内在驱动力时,休息的边际效用相对下降,而行动的边际效用显著上升。值得注意的是,这种状态被描述为“一步一个脚印”的渐进式推进,暗示其并非突发性亢奋,而是长期积累后的能量释放与节奏校准。

个小时就完全足够了,然后五个小时也可以,四到四个小时也行,就四到六个小时在我一个OK的区间

从这里,一步一个脚印,从这里,一步一个脚印,从这里,一步好了

播客收尾:品牌标识与使命宣言

访谈以标准收尾结构作结,清晰传递了节目品牌信息:本节目为《商业访谈录》,由语言及世界工作室(Language is World)出品,定位为一档深度访谈节目。听众可通过其微信公众号获取更多信息,公众号名称被反复强调,强化品牌记忆点。结尾段落采用双语诗化宣言,既体现国际化视野,也呼应工作室名称中的“语言”与“世界”双重意象。宣言中,“We'll explore the new world from here”作为核心句式三度重复,形成情感锚点;“Step by step, turn the doubt to cheer”则点明节目方法论——以渐进式探索消解不确定性,将疑虑转化为信心。整段收尾不落俗套,未流于客套寒暄,而是将品牌理念凝练为可传播的行动口号,完成从内容输出到价值认同的闭环。

We'll explore the new world from here.

We're the start of the story. This world will hear.