Hello,大家好,我是小俊。二零二六年,大模型战争全面升级,揭开了第二幕,从预训练主导的 Chatbot 时代,转向了后训练主导的 Agent 时代。在 AI 范式巨变之际,我访谈了人工智能研究员罗福莉。罗福莉曾供职于阿里达摩院、DeepSeek,目前是小米大模型团队的负责人,主导研发了米某VR系列模型。
她在网络空间里有很多的标签,例如 AI 天才少女,但她不喜欢这个称呼。这是她的第一次访谈,也是她第一次进行长时间的技术访谈。我们系统性的谈论了 2026 年由 Cloud Opus 4.6、 Open Cloud 等技术变量所触发的 AI 范式,以及后续的结构性影响。罗福莉预判称,接下来两三个月会非常精彩。
那接下来就是我对福利的访谈,期待二零二六年我们和AI共同进步。这些能力都是可以被,我觉得最多一两个月,慢的话三四个月,确实都可以被快速习得。所以,环境反而比经验更重要。你刚才也提到,一T的模型可能是未来竞争的一个入场圈。是这样吗?是 agent,你要做到接近 cloud 四点六 ops 的水平的这样一个入场券。
那我如果说我们嗯这样子来说,嗯,就是 for 研究跟 for pretrain 和 for posttrain,对,嗯,我自己觉得一个非常合理的卡的一个比例是可能三比一比一,对,嗯。对后后就pretrain和posttrain应该比例是投入的算力是相当的,然后研究的比例应该至少是你正式起训练的卡总量的还要多一点,就你要额外留更多的卡来去做研究。
对罗福莉3.5小时访谈:AI范式已然巨变!OpenClaw、Agent范式很吃后训练、卡的分配、组织平权。你过年的时候也跟我说,就是你觉得技术这几个月其实已经变天了。能不能阐述一下,你觉得过去两个月的这个技术的突变?嗯,我觉得,嗯,一个非常大的一个。分界点在于使用 OpenClaw 的前后。嗯,我自己其实是会把 OpenClaw 把它当做一个划时代的 A 智能框架去这么去定义。
嗯,我我知道很多人在,尤其是用 ClawCode 做严肃编码的人,就会觉得 OK,OpenClaw 只是呃 ClawCode 加一个 IM 的这样的一个呃更有利于交互的一个。呃,UI的一个设计,其实,嗯,在我一月份的时候,我第一次看到这个东西的时候,我我自己大概也是这样认知,所以我很排,我很排斥去用它。
然后我觉得,嗯,呃,再加上他,嗯,创始人,我觉得,呃,非常适合贴近Agent的去做一些非常玄幻的一些呃运营的动作。所以,嗯,哎,就包括那个Skill Hub啊这些的,就就让你更去排斥去用一个呃,你觉得呃非常的呃。呃,偏运营导向的一个产品的东西,对,感觉还是一个产品形态,一个交互范范式,对对,一个交互的创新,呃,以及它所谓的本地化,所谓的二十四小时,在我来看,啊,其实呃都是。
嗯,都是一些产品的定义而已。嗯,但但真正发生一个转变是我去用它那一刻。嗯,我觉得就恰好在春节的时候,有那么一段空闲的时间,你想去搞明白这个玩意儿为什么他们那么火。对,然后我就在有一天深夜的时候去尝试去装上它,然后两个小时装上了。分解是吧?对,当时已经凌晨两点了。然后,嗯,我第一次跟他对话的时候。嗯,从凌晨两点持续到了呃六点天亮。
对,就那一晚上,我我觉得我老泪的那个不不知道是多巴还是内啡肽,就持续在分泌,就是让我就兴奋到完全睡不着觉。就呃,你可能第一个感受是,OK,他是呃他他非常嗯有自主性。然后他非常有灵魂,就比如说我跟他聊到很晚,他会呃老提醒我OK,你现在现在已经很晚了,你要不早点去睡觉?就呃,我觉得这样的呃温度和关怀,呃或者说这样的情商是呃所有去OpenClaw的人嗯第一个感受到的。
但后面去深究他的原因,其实他。他他他是有很很多机制去保证这个事情,比如说他有他的思维点MD,比如说他在他就就拿最简单一个很小的一个细节,比如说他怎么感知时间,他就在每轮对话的这个context前面去拼上当前的时间。然后,呃,就是一些非常细微的,我觉得,呃,我我我我我为什么把它称之为所谓精细编排的context,就是因为,哎,他就是在这些很很很很大家没有关注的角度上,把这个context给编排的非常好。
这是第一天的感受,就是OK,我觉得他只是在产品设计上确实做到了一种,呃,超乎我的一个呃想象,让让让让所有人觉得,呃呃,这个框架有灵魂。但是第二天的时候,我呃晚上我觉得他应该不止于此,然后我开始尝试把我自己我我觉得现在的框架做不成的日常生活中的事情交给他做,然后发现他全部做出来了。比如说,呃,我跟他聊的基本上第二个话题是,嗯,怎么去激发一个团队的好奇心,或者说呃怎么去筛选出来具有好奇心的人,然后跟他进入呃进行了深入的探讨了一个小时。
我觉得他的很多哲思上是远超我的想象的,嗯,对。然后,所以第二天我们俩就在聊怎么去构建一个更好的大模型的团队。然后,呃,以及呃呃,从最开始的呃人员的筛选,到后边儿啊整个组织架构的构建,到你怎么在面面临范式转变的时候,呃,应该做什么样的举措和动作?我觉得。嗯,至少他能get到我的点,就我我跟他说了过后,他最后能能把它形成一套非常体系化的东西。
然后,并且变成一套skills,然后呃,所以我后边就用这个去很大去解放了,至少我在,哎,非常多呃,我我有时候会遇到有有,我甚至现在遇到有一些,嗯嗯呃,不管是呃筛选或团队管理上的问题,我现在都会问他。对,然后我觉得他他现在已经基本上变成了我的某一个数字分身,至少在这个事情上。然后呃,但是真正让我超乎意料是第三天的时候,呃,第三天的时候我尝试把啊一些研究上的一些呃任务交给他做。
比如说,嗯,最简单的,我觉得,呃,你怎么去,呃,如果我们在进行,呃,agent的框架里边,最简、最最最关键一个事情是,你怎么去进行多轮的交互?那么你就必须要去模拟user agent的进行多轮的交互,啊,那我我就会跟他去同共同去构建一个很好的user agent的怎么来。嗯呃,在我来看,这是一个非常呃,我我自己觉得还还挺重要的一个研究topic。
对,嗯,我觉得应该不会说一两个小时就把它做出来,但是。当我跟他沟通和呃沟通了大概一两个小时过后,我觉得这个事儿就已经做出来了。对,就就基本上就已经达到有一个很好的 user agent 的诞生。我可以用用这个 user agent
跟我现在的这一套啊啊。Post训练的框架一块儿去诶构造出来,跟更丰富的Agent的场景的数据,然后啊,不管是做SFT也好,做RL也好,呃,这个User Agent都是非常关键的。
就我觉得他从一个我最开始对他的认知只是呃呃OK一个有灵魂有温度的一个产品的设计。嗯,到它可以帮我替代我,呃,生活或工作当中的一部分,到最后它能促进我研究。这也就是三天发生的事情,就每天它都能给我额外更多的惊喜。然后我后边就去深入的去看,为什么这个框架本身它比 Cloud Code 好在哪儿?对,嗯。
一个呃呃,我后面发现这些呃所谓好在哪儿,它呃我们单独去拎出来去讲,它其实都有点 boring,就是我觉得它没有很酷,这也是为什么大家就会觉得 OpenClaw 呃有很多槽点的地方,嗯,但是它把它整合在一起,你会你就会觉得它的完成度是非常高的,嗯,就比如说。嗯,它它嗯,它会有更持久的memory的体系。
我我呃,这个很持久memory体系体现在它对memory有分层和分级。这个我在使用Claw后的时候是完全没有这样的感受的。然后,呃,再比如说,嗯,我我自己觉得他在对,哎,多个模型的这种联合的利用上,会非常的超过我的想象。就,呃,就比如说我用OpenClaw的时候,我会我会默认它OK,嗯。呃,假设这个模型它在,比如说它的视频理解能力不行,那么我可能就要自己给它配一个更好的视频理解模型,然后再靠是不是去折腾。
嗯,但是我在 OpenClaw 的时候,我完全不用想这个事情,我就直接发给他一段视频,他会自己想办法去找一个 OK 视频理解能力好的模型来做这个事儿。嗯嗯,就这种自主性,呃,这种自主去,呃呃,去去面对当代模型的。呃,缺点,然后,但是他针对这个缺点,在框架上去补齐这个缺点,这个能力是有点超乎我的意料的。
因为我我去用 Cloud Core 的时候,我就默认 OK,我是因为要用 Cloud 的四点六 Ops,呃,这一代模型的能力我去用它的。但是我去用 Open Core 的时候,我我不会关注模型的能力。呃的一个原因是我我认为 OpenClaw 框架的设计之初,它其实是呃想尽量的通过 Agent 的整套的编排来去弥补模型的短板。
他他一直我觉得这这是他非常核心的一个产品的逻辑,所以后面呃我我们直接就把啊哦嗯把我们的模型就是其实 Mimo Viar Flash 呃当时并没有做很多针对性的训练,给它接到 Open Claw 里边去,甚至把我们最近训的一个啊很小小的一个呃端侧的三 B 的模型进行去训练,发现在这一套很复杂的 Scaffold 的呃或者说 Agent 的框架啊。
情况下,它依然能做那些我自己认为不可能是一个啊非常小的模型能能能够做出来的事情。所以,呃,这这这这是我第一次感受到,就是原来一个非常复杂的一套呃这种框架设计,它是能够弥补非常多模型能力的短板。然后,呃呃,当然了,呃。呃,我觉得这是 Open Claw 本身它这个框架的一个呃相相较于 Claw Code 的一个差异化的优势,嗯,但是其实对于如果说我们要去追求。
呃,你怎么在这不同的这个 scale 的框架下去,模型都有一个呃超预期的非常稳定的表现?那么呃,就回到了呃另外一个命题,就是呃。你当你当你有非常多,现在其实是呃市场上的Agent框架非常的丰富,Kakao的OpenClaw,然后呃Kakao的OpenClaw等等的。那当你面临这么多很很复杂的Agent框架的时候,你怎么让你的模型呃在不同框架上都有一个非常稳定和超预期的表现?
然后你怎么让你的后训练的范式对应与之做适配和迁移?然后啊,这就是我们。在这个事儿 context 的冲击下,快速的去思考了第二个问题,然后,所以我们对应的呃整个后训练范式就要啊从所谓的 chat 到 agent 这样这样的一个迁移。嗯,所以你对 Open Cloud 的认知发生了一个非常大的变化,这个是在春节期间发生的。
对,为什么开始是抵触的呢?我觉得,如果要追求非常啊顶尖的编程的体验,对客户的体验,就是呃,哪怕是当下,哪怕是当下,也是 Cloud Code 加 Cloud Ops
四点六是最好的。嗯嗯,所以如果你是在这样的一个中局去思考的话,嗯,就呃其他的任何一种框架其实确实都可以忽略掉。但是嗯。但是,但是一个问题是,呃,我呃,code它是一个泛化性非常强的一个场景,嗯,就是你针对它去做了非常多呃agent的设计也好,或者说模型的训练也好,它都都是有价值的,但并不代表说,呃,它这个泛化性能保证你在非code的场景能够做到非常高的准确率和和完成度。
嗯,所以我觉得我我那会儿虽然也会用 Claude 来做一些非 Claude 的东西,但是我并没有期待说他在这套框架上能给我一个很高的完成度,因为我知道我会去帮他补充这套框架不具备的一些短板。嗯,但是我去用 OpenClaw 的时候,我觉得我不用考虑这些,就他他完全在 Agent 框架本身就去弥补掉了很多模型的短板。
我能理解 OpenClaw 是让 coding 的能力泛化出来的一个产品吗?呃,它它在很多呃设计逻辑上,比如说它有更多的呃呃 message 的 channel,比如说嗯,它有呃更自主的一些,比如说像定时任务、心跳任务,然后。啊啊,这些更适合日常场景,因为你你写代码,你通常不会需要一个心跳任务吧?对。
然后,但是如果你是日常生活,嗯,你你心跳任务就很关键。它确实有很多框架的设计,去为了呃让它去适应更好的日常的任务。嗯,但是我觉得他也没有去丢弃掉说一个好的 Agent 框架本身的一些最基本的特点,这这些最基本特点,我觉得后边儿是被 OpenClaw、Agent
范式很吃后训练、卡的分配、组织平权。它的整个记忆系统设计还是 for 软件工程的,就比如说它会在 session 内会可能 session 快满的时候,我会有一个压缩的动作,然后把它记忆进去,然后我在完成任务的时候,根据我的 plan 可能会有一些诶诶记忆的动作,然后保证我呃跨 session
的时候,呃它的 context 是共享是更好的。
所以你能看到 OpenClaw 的它的所有的呃一种框架设计其实都是非常的 for 软件工程的,就怎么去更好写写好。代码,嗯嗯,但是 OpenClaw 它的设计之初,我觉得是呃借鉴了这个思想,但是呢,它更想的是它怎么更好端到端的去完成所有的任务,并且怎么去弥补当下模型在端到端完完成任务上的短板,然后去设计的。
呃,所以像这种持久化记忆到哦后边这种你呃你能通过一个更好的呃 remote 的前呃呃界面能够去操控它,然后哦等等这些,所以很很好很好的设计后边呃陆陆续续这一两个月完全被 Claw Claw 给吸吸纳进去了。对,哎,我觉得这也是一个双向的一个触动,因为这些设计其实它对于编程或者说泛编程。嗯,范编程就是指,呃,可以通过编程去完成一些看似,呃,跟代码无关的任务,对,然后,呃,它是有帮助的,对。
但它背后是模型能力的提升吗?它激发了呃中层的模型的上限,它激发中层模型的上限。就呃,可能我们如果没有这么一套很复杂的Agent框架,可能中层的模型它达不到啊近似于Claude、Samantha或Obs的水平。但是你借助这样一个非常好的Agent框架,那么你就能在绝大部分的场景。除了那种非常难的啊,需要长程任务的,或者说真的需要,呃,我我称为严肃编编程吧,就是比如说写算子优化,就算是严肃编程,对。
然后像这种场景的话。它确实可能距离顶端的模型还有差异,但是在绝大部分的生活的场景,或者说,嗯,只需要借助代码去提效的场景,嗯,那么其实,呃,这样一套新的Agent框架,再加上一个中层的模型,中层就是啊,可能。在百分之八十五的任务上能够达到跟 Claude Sonnet 一样水准的模型,那么其实它借助这样一个框架已经能发挥非常大的作用。
嗯,我听过一种说法,就是嗯,他觉得 Open Cloud 如果是看作一个壳,它释放了现在比较强的模型能力,呃,是一个最好的壳。这个模型就是 Cloud Opus 四点六。其实我觉得你的整个表述不不认可这个观点,对吗?呃,认可认可,就呃,我我我觉得它的上限一定是靠的四点六ops带来的,就包括我在跟他呃高强度合作的那一周。
我只用Cloud 4.6 Ops,呃,因为只有它能给我带来惊艳的感受。但是当我用Cloud 4.6 Ops,嗯,沉淀下来那一堆。经验,嗯,那些不管是 skills 还是呃,在 agents 点 md 里边的一些,呃,关于他怎么,我我甚至自己去改了,呃,它的整个 agent
的架构设计,因为因为因为它是开源的,所以你可以自己改啊,这也是 OpenClaw 的另外一个弊端,就是它的整个 agent 的架构设计是个黑盒,嗯,然后这样黑盒就导致你你不知道你你你肯定改不了它的记忆系统。
你也改不了它的整个 agents 的 workflow,你是就但是但是因为 OpenClaw 它太 open 了,你你可以自己尝试去改。比如说我会我会让他自己去帮我设计一个重新的 memory 系统,我会让他啊呃他他我觉得他现在呃呃当时二点几版本的那个 multi agent 的呃整个逻辑我我认为是很混乱的,然后我自己去让他给我设计他。
新的猫体检测系统,就我我自己可以去改我所有的这个源码,就这样的这种呃这种原生原生的这种可操纵性给我的那种冲击感是很大的。但这些事情基本上只有Class OS四点六才能改。嗯。但他我让Class OS四点六给我改好过后,这套框架本身是很好用了。过后,OK,嗯,我再切换到呃P呃那个呃桑泰的,再切换到国内的一些模型,甚至我们当时正在训的呃啊V R Pro,我就觉得。
它就非常强大了,嗯,对,所以,所以这也是我为什么觉得顶尖的模型应该跟顶尖的这种 A 联络框架是呃共同的往前去进步,或者说呃呃,这也是我最近对所谓的自学习,呃,以及反正呃前段时间有很多很火的这个概念的一个思考,就是我在这个事情上是第一次感受到了呃一个。嗯嗯,Agent的自学习到底是怎么个发生的?就大概的一个发生的途径,就是说,呃,你你你你确实需要这个模型本身跟你这个Agent的架构本身,嗯。
嗯,同步的往前走,然后呃,模型在进步的时候,呃,就不管是通过呃强化学习训练或其他训练方式,在进步的时候,它其实也是在去呃改变你的呃整套agent的框架。嗯,这个agent的框架包含嗯。它送给模型的静态的信息,这些静态信息,比如说 memory 就是静态信息。嗯,只要你你写死了哪些东西应该送到啊啊起一个新的 session 的时候,哦,你应该送到模型里边去,或者说我们叫 scaffold 吧。
啊,这个东西是其实是是在训练过程中应该是变化的。还有一些动态的信息,动态信息包含你整个 agent 本身的呃呃这个架构的设计,对,嗯。然后我觉得,针对不同的场景,就比如说 ClawCode 这种,呃,for 软件工程的场景和其他,嗯。比如说做金融分析等等其他场景,我觉得它它的Agent的架构的设计会有差异的。
然后你怎么在在在在提升模型能力的同时,再去提升你的整整个Agent的框架的呃呃跟这个模型的一个适配程度,或者说一个泛化能力?对,然后呃这这是我现在思考自学习。嗯,你说的这个智能体的框架Agent的框架,是不是就是我们理解的产品?嗯,不是,它跟产品差异蛮大的。怎么理解这个 agent 的框架?呃,产品跟 agent 的之间的边界,现在我不知道怎么去界定,它有点,它有点模糊。
对,哦,嗯,就是我觉得产品。可以定义成是说,你直接人交互能感受到那一层的东西。嗯嗯,但Agent框架它确实是有再去定义你的交互层,但是它同时又再去定义你怎么跟模型沟通那一层。嗯,对,所以,然后他甚至能知道模型能力的长板短板,然后他能知道怎么去更好做调度。嗯,就比如说 for
成本优化调度,哦,它相当于是一个中间层,嗯,它像人和模型之间的中,对对,然后这个中间层它可以做的非常的厚重,然后反而那个前端的 U I 展示,它是最薄的一层,它已经不是很关键了,对,所以 OpenClaw 其实是展示了智能体的这个框架可以怎么做。
对这个框架的想象空间非常大,然后有人做过吗?呃,其实Clawclaw它一直是一套很复杂的Agent框架。只是因为它是黑盒,所以我们不知道它怎么设计的。OpenClaw是开源的,所以你知道它是怎么设计的。然后,并且你可以去改它,就改它这个事儿是非常非常嗯嗯激发人的创造力的。嗯,就你知道它框架怎么设计,你让它去改,你自己现现捏一个新的框架出来,你可以基于它现捏一个新的框架出来。
这是为什么OpenClaw从二点几版本,嗯,我当时用它的时候,我我自己觉得它并不好用,所以我花了好几天时间去改它,到。呃,三三点几版本,嗯,就三月三月十多号的版本已经非常易用了。就是你基本上啊啊,呃,基于三点几后的版本接一个啊还不错的模型,你都会觉得它很强大,嗯,而不是只有接卡的模型你会觉得它很强大,就是因为它整个Agent的架构哦受受。
一堆人,开发者也好,嗯,或者说本身像像我这种,嗯,并不是属于是啊,呃,一开始这个框架的开发者,只是使用者,我都能去改建它。我for我自己的场景去做改进和优化,所以,哎,我觉得这这是这个呃嗯,或或者说这是开源A G N框架本身的价值和意义,对,嗯。在你高强度的那一周,嗯,就是跟 OpenClaw 交互的那一周,你消耗了多少美金的 Opus 4.6?
呃,第一天反正就是快一千块钱,一千刀啊。对,因为大概用了四五个小时,嗯,然后我中途疯狂也会切,因为它太贵了,然后我会切三类的,但是我发现真不行,然后我就就只又又只能去用 Opus,然后只有 Opus 能带那种那种惊艳感。但但但后边儿,但现在慢慢慢慢逐渐,我发现不是这样了,嗯,就是因为呃。因为,因为他带给我惊艳感的那些呃东西,发生在变化,就呃,我觉得人的适应性真的是非常强的。
就我第一天感受到很惊艳的东西,我第二天立马觉得不惊艳。就我刚跟你讲的时候,我都觉得啊,我在刚刚讲的第二天、第一二三天的东西,我怎么觉得这么boring啊?但,但他确实是我三天发生的事情。对我,我那我当下我确实觉得很很惊艳。那现在我自己觉得不惊艳了,因为,因为,因为你你是一个呃很很很很优秀的框架能力是非常强的。
所以,所以你你呃,所以我现在已经可能让奥斯帮我把我的Agent框架给打造好过后,然后让我惊艳的事情就越越少了。所以我现在觉得反而缺乏的是,第一个是想象力,嗯,就是我我要疯狂去想还有什么事情他做不了,对,然后呃呃,第二个就是呃。我怎么去呃,当他这些我那些能做事情都能做的时候,我怎么去优化它的成本?对,优化它的速度?
对我就在在考虑这些事情呢。嗯,这些说说的所有的发生都是在春节期间发生的。呃,我觉得大量的思考是在那个时间发生的,但是呃,我觉得一个人通常是。呃,薄弱的对,就是,或者说你你你还是会有自己的呃认知的一个呃探索。就他说到,虽然我那天呃那几天高度兴奋,兴奋到我觉得呃呃我我呃在群里面给大家发,我说强烈推荐大家去使用怎么怎么怎么样,但没有人搭理我,人家在过年,对对对,大家确实呃在陪家人,然后我我也我也不希望打大家,然后所以我都说强烈推荐,然后后面嗯过完年回来,我发现呃真正用的人是很少的,因为大家对新奇事物的这种尤其,我真的觉得它有点玄幻。
然后其实对,就是不太不太适合,就不像不认tag,对大家大家会觉得过于玄幻的东西太不真实了。我我我也是这个感觉,所以你就不想去接触它。然后嗯,所以。一开始推动是蛮难的,然后呃,但是我觉得呃呃呃呃,第二天我觉得不行了,就是我觉得必须要让大家去用,然后OK,嗯,我就给大家下了一一个指令,我就说,如果啊啊那个第二天Open Claw对话次数不超过一百轮的人。
呃,可以直接 quit,但是我为了促进这个事情,前面做了非常多的,比如说,呃,因为大家那会儿 OpenClaw
用,呃,整个部署期还是还是需要几个小时时间,我觉得没有必要,大家所有人都去花呃这么多时间去去去。去折腾一个呃充满bug的一一一一套其实也没什么呃价值的一些事情,然后所以就买了几台迈克米利,然后把它部署起来,然后呃呃把它把它拉都拉到这这几个呃不同嗯那个OpenClaw的群,让大家去分不同的方向,强上它在这个方向上,嗯在大群里边,在一个飞书群里边,然后聊。
然后,呃,为什么要在大群里面聊?就是因为个人的想象力真的是局限的。但是,当你看到别人用 OpenClaw 居然能干成这个事情的时候,你就会激发你自己的想象力,所以我觉得大家想象力是一个乘积的作用。然后,呃,所以当我下,当我说这句话的时候,其实我觉得,嗯嗯,我没有想过说第二天,嗯,有人对话次数没超过一百的,我真的会把它那个开掉。
呃,我我没有这个想法,没有这样的人是吗?呃,我我没有,因为我我没有最终去考核,你没有办法验证这个事情。我有办法验证,但是我觉得验不验证不关键,我只是想给大家表达一种,嗯。一种态度是OK,你不用,你可能真的要落后了,对,所以我第二天没有去。有人有中途有人过来问我,你呃那个CC你怎么去考核你的呃有没有对话一轮?
对对对,嗯,我我我我跟他们说,我说你们用就行了。我说我有我的考核方式,其实我的考核方式就是我不会考核,对我只希望大家用起来就行了。对,然后所以呃那那那那那两天。嗯,春节回来过后两天,整个团队人就在一天到晚,哎,感觉不像在上班,就在群里边儿,呃,呃,呃,那个,呃,这个,嗯,嗯,躁动,对,可以叫躁动,就是你看别人能完成这个事情,然后你也想玩,然后大家在群里边儿就是那个群消息,我只要十分钟不看就九百九十九加,类似这种哈,但是没有这么夸张,就是就就很多,就大家一块在群里边玩玩的非常happy,她是一个非常happy的一个旅程,一点都不苦,一点都不残酷,就真的很很很好玩。
然后呃,OK,那么呃玩了两天下来过后,大家发现哇,这个事儿这么好玩,那那怎么办呢?那他那搞啊,就就就所有所有人心目中想的是,那我OK,我要怎么去借助一个这么好的一种框架去提升模型的能力?同时,我怎么让我的模型去改变现在的这种框架?就就就马上进入到这样的一个研究范式里边去。所以,哎呃,其实一旦进入这样一个研究范式,以及我刚刚讲的,我们有
OpenClaw 的这种,其实在绝大部分场景表现输出更稳定的这样一套框架。
虽然它是黑盒,我们不知道,但它确实不管是 for 研究也好, for coding 也好,它确实是一个比 OpenClaw 更稳定的一个框架,更好的一个框架。然后,呃,那么你再在这个框架里边去激发,呃呃,你的去扩展。延展你的呃研究的想法,并且诶让他帮你实现,然后并且快速的去诶训练启动模型训练,这个事儿就会大幅的加速。
所以所以我觉得我们基本上可能在三四周的时间做完了以前可能三四十周的时间才能做到的事情,就在研究上,嗯,我觉得嗯,我觉得这个事儿是呃我后边儿呃真的我们嗯被这个框架。呃,点燃热情到最后它产生价值这个过程中,我觉得我我从群体智能上,我觉得我的成长和收获会更大。嗯,对,在你们那个非常躁动的群里,嗯,探索的最好玩的几个任务是什么呀?
现在现在听起来都不好玩,但当时的冲击感都很强。最让你有冲击的。最让我有冲击的还是大家一块儿去改那个框架本身,就是你想着怎么去改进那个框架本身,因为当时那个框架真的问题很多,还有就是它的memory真的做的非常的。智能,因为嗯,我们在一个群里边儿,大概有近一百个人,然后。我觉得那个飞书的整个的呃呃
message 的 channel 应该还是做的不是那么智能的,它至少没有那么区把人跟人之间区分的很好。
但是它的整个聊天的上下文,它对每个人的画像的把控,然后以及每个人的 memory,我觉得都没有串的太厉害,就就就可用度非常高。嗯,我觉得这个是。模型能力强的表现,这个跟 AIGC 框架没有关系,因为在一个群里边,你想一百多个人在那儿聊天,然后一百够多人都有不同的背景,一百多个人都在疯狂改它,然后呃都没有把这个模型给改坏,呃都没有把这套 AIGC 框架给改坏,嗯,然后它还变得非常智能。
我我觉得这也是我第一次感受到你怎么用一群人的智慧去提升一个事情。本身,嗯,然后,嗯,如果说我自己单一的去改这个一些框架,我,呃,但是别人感受不到这个框架的智能,我觉得它好像差点意思,或者说这个框架本身的进步的速度是非常慢的。嗯,但如果一群人去改进,它进步速度非常快的,可能几个小时就进就迭代一轮,类似这种感觉。
嗯,所以你会觉得,呃,可能。所以我们第三天、第四天把它接到我们自己的模型上去用的时候,发现,哎,怎么也挺好用的?怎么还没训就跟Claw的差不多了?当时第第三四天就这种感觉了。那但是你要测的更多,你会发现还是有很多东西没有Claw的稳定。然后所以你,所以你就,但但这个事儿带了一个冲击,就是你你会发现,你利用群体智能去提升Agent的框架是非常重要的。
所以我也很很很非非常的呃。呃,非常的欣喜看到 OpenClaw 后边的那个 star 量就飞升,我觉得这是这是 A G I 到到来前兆,必须必须要有的事情。对,嗯嗯,因为你一直对研究方向非常的敏锐,嗯,我们基于我们上次聊过很多,所以你觉得上面这些变化给你带来了什么样的直觉?你觉得未未来一段时间会发生哪些变化?
嗯。就之前可能做研究的一个方式是,你从你想到你写代码,到你去呃设计一个很好的评估标准,这中间的流程还是蛮漫长的。就你至少要花两周一两周,我觉得快的话以可能以,除非如果你的评估是确定的,然后你的代码是只只需要修改,可能你也需要一两天。但是我觉得至少在Agent呃呃有辅助的情况下,它真的可以一两个小时就把这些事情给做完。
我我觉得效率的提升基本上是代表着,呃,一个非常本质的一个问题,嗯,然后。这是我觉得,呃,在这个时代上做研究,呃,研究的,呃, taste 的非常关键的一个原因,嗯,或说你的,嗯。研究效率非常关键一个原因,其实我一直把研究效效率看得很关键,只是A I的去呃呃放大加速了这个研究效率。然后,那么如果这时候你的test又比较准的话,那么就一做一个准,一个做一个准。
当然也有可能是十个里边有一个呃呃能成,但是这十个可以并行做呀。对你十个可以并行做,你不用像以前一样排排来做。你可以十个idea,我交给交给不同的survey team同时做,他们还能交叉验证。OK,那那很快,可能一个小时、两个小时就就呃,或最多一天。你你无非烧很多token嘛,然后你就能能验证你这个研究的想法。
O O O不会work不work,然后呃,关键是它还可以,如果你愿意长期的去培养,它还可以自进自迭代进化。那在code里边不行,但你你换一个更开开放的框架,嗯,然后它是可以自己迭代和进化的,所以。嗯,我觉得这是,这是我给我带来做研究的冲击吧。嗯,所以它是改变了整个研究的节奏,对效率和方式都会发生,我觉得很根本性的变化。
嗯,这对你们后来带来了什么样的改变?在你经历了春节和春节之后的整个的冲击之后,嗯,你紧接着做了什么?其实我觉得紧接下来做的事情就是,呃呃,搞明白就是,呃。为什么呃,扣的是一个非常嗯有泛化力的一个事情,然后嗯,以及你怎么把扣的这种泛化力给?外延到其他领域,嗯,对,嗯,其实扣的它它它有泛化力的一个最本质的原因是,呃,也有有分好好几个阶段哈,嗯,首先Agent它是一个非常长程和多轮的一个任务,对,然后呃,我们回到预训练环节,然后你很难去找到说有哦。
比如说,呃,一兆上下文的数据,甚至一百二十八K的数据,你都很难去找到。但是,呃,比如说,呃呃,真正嗯有能能达到一百二十八到一兆这个长度的数据,基本上都是嗯,只有两类数据,大概率只有两类数据,一类是code的数据,一类就是书籍。但书籍书籍它的信号太发散了,嗯,code它的呃这个。嗯,文件之间的关联,然后呃是更强的,嗯,所以当你在一个这种嗯长上下文依赖更密集的一个数据集上去训练的时候,模型它自然对长上下文的建模会更好。
对,这个是我们可能在嗯没有去意识到Agent的这个事儿是那么重要的事情之前,我们就去做的事情。所以你可以理解为这个基座本身,它就为长上下文的能力和效率,效率很关键。效率我们待会儿再谈。就长上下文的能力和效率已经做好了充分的准备。这个是在我们没有去受到这么大冲击的事情之前已经做了的,但是呃,春节后做的事情是,你怎么去激发这样一个大的模型的潜力?
从扣的出发到外延到其他的场景,嗯,因为其他场景是你训了它会更稳定,嗯,但你没训它,它它能被泛化,只是说它没有那么稳定。而一个顶尖模型的水平一定是要在更广泛的场景里边更稳定,对,所以。代扣的是拉它的上限,然后你训其他领域是保它的下限,我我是这么认为,嗯,然后所所所以就是你首先要把code做的code的这种长程任务做得更多样性,嗯嗯,所以你为什么软件开发那么重要?
就是软件开发真的是一个非常长程的任务,你把它做好了,基本上很多模型的通用的特质就就已经好了。呃,不管不仅是模型通用的特质好了,是这个A
I的框架本身也迭代的非常好了,嗯,对。嗯,就像就像像Plan这种模式,像这种嗯嗯呃,场上这种到一定的阶段,你要去压缩,压缩完过后,第二天你要再去。回顾你你你你之前修改这这些Agent框架的设计本身其实是为软件开发所准备的,但这种这些框架它都是有泛化性的,它都能泛化到其他更更难的长程任务里边去。
然后然后呃所以就是以后呃春熙先生后做的事情,第一是一定要在Agent场景里边把真的长程的任务给它。啊啊!构造出来,并且训练进去,然后呃呃,并且在这上面去给给领大量的呃 SFT 训练和 RL 训练,对。然后第二个就是,我觉得还是你要考虑它的泛化性的话,你还是要覆盖更多领域。所以那但这个时候怎么去去覆盖更多领域?
我觉得就是要要靠啊。更多是靠群体的智慧,就你让更多人去用它,然后基于更多人去用的,比如说我们内部会大量去使用,哦,我们会让我们这个模型首先在哎公司内部去推,大量去人用,用了过后,然后我们发觉到更广泛的场景,在这些广泛的场景里边去合成更多的数据来做训练,对,嗯,然后这里边很关键的一个问题是。嗯,你怎么哦还原当时所有人用这个事情的环境?
嗯,对,因为有这个环境,你才能更好的去呃进行。更长程的交互,然后并且呃有了环境过后,你才可以针对这个环境本身去做哦呃更精准的reward的设定,对,然后这个事情是比较有难度的,然后我觉得呃也是。我我认为,在这线上,如果投入的算力足够多的话,研究的时间足够多的话,应该会有一些代差的模型的出现。对,哎,这个你们现在是怎么做的?
现在在做的保密,真的要保密。对和 reward 设计,嗯啊,我觉得等我们把这一套范式给给领到一个很大的量级的时候,我觉得我们会开源告诉大家。嗯,对。哎,但是做长程任务不是会中断吗?呃,其实真正的依照上下文里边很,基本上很少有任务是在做一个任务。对他,他通常是在做复杂的任务。对,所以其实呃,你要把一兆上下文做的很好。
当下阶段,当下阶段哈,我说当下可能就是当下一两周的阶段,哎,不代表未来两三周的阶段。就是嗯,可能并不是真的要找到要把一兆上下文塞满的任务。当然你要找到那更好,但是这个任务是很难的,而且它的训练效率太低了。就是你要训练完。嗯,一兆你要 run 完一整个 trajectory,一兆的 trajectory,它非常慢。
哪怕我们现在 T P S 能做到八十到一百,像在 Memo Veil Pro 上能做到八十到一百的 T P S,你要 run 完一兆上面也是需要需要时间,需要可能一两分钟的时间了。所以。呃呃,所以所所以其实真实的训练不会在这么长程的任务上去训。嗯嗯,但是当你有在一兆的 context
边去训过一呃预训练过,并且呃后训练有对应的任务稍微激活它一下,它通常就能在一兆的 context 边具备这样的一个稳能力,但是我们需要再提升。
对,需要再提升。所以你看,现在Cloud呃,在我觉得真的在一兆上下文的呃稳能力的稳定度上,基本上现在只有Cloud的四点六Ops和Sunlight是是领先的。国其实其他像Gemini像。嗯,基本上虽然虽然仿称是厂商项目能力很好,但其实都是不行的。嗯,对。你觉得量化里面挖掘因子会是好的厂商人物吗?嗯。
看错了是什么资产?对,嗯,就是有很多资产,它它的reward太太不清晰了。对,嗯,有一些资产是不,大部分的资产是不太适合呃做长程任务建模的。嗯。这个具具体我就不展开说,反正就是嗯,某某些资产是非常不适合的,因为它它嗯你嗯,其实回回测是没有没有价值的,然后你要到真实的环境里面去run的话,它有可能不是不不是短期的因素,而是跟一些更长期的因素或一些。
额外的一些阿尔法本身被这个模型建模不进去的一些东西,所以呃得选资产,就是选选选对这个就OK,我觉得,嗯嗯,呃,关于你们的新模型,我们放在后面说,我们先把OpenClaw这个话题聊完。嗯,你观察,就你观察,你觉得OpenClaw是怎么样的一个火起来的链路啊?而且我明显感觉到,在中国它的火的程度比在美国要更强,这是为什么?
我看到还有一个很好玩的说法,叫西夏东洋,叫什么?西夏东洋啊,西夏东洋哦,嗯。因为我不了解弯曲对它的热度哈,对,所以我我仅从你的视角,对,仅从我自己以及我身边人的视角,我觉得可能的一个原因是,就中国的开发者,我觉得是更更更多的。就是我说,开发者是指他可以用Code去提升他的生的效率的场景,可能是呃要求更急迫的,对,要求更急迫的。
就我觉得,对于效率的提升,好像是是是我们的血液里边的东西。然后,嗯。所以我觉得,当就 OpenClaw 能能能把这个事儿给给效效率提升给拿到极致,所所以我自己感觉这是它火的一部分的原因之一。当然,当然我觉得还有一个原因是。我觉得跟国国内大模型的发展也密切相关。就,嗯,绝大部分的呃效率提升的场景,目前确实不需要那么,就是可能我觉得百分之八十五不需要最顶尖的模型。
所以,然后我们有又有那么多便宜好用的模型可以用,然后你一算这个性价比是非常划算的,就是这个模型的A P I的费用跟嗯,它它这个呃呃。它它替代了生产力的呃价值的系数比是很大的,所以你去体验它会更有动力。他可能花十块钱的API就能帮你干完一千块钱的事情,那你肯定很愿意用。但如果你的API贵贵那么十倍或几十倍,中间那个那个呃差距很小,那么你你会很排斥的去用这样一套很复杂的东西,对,去去去优化它,对。
哎,但是关于Agent的其实已经讲了一年了,对吧?就是去年年初的时候,大家就开始说这是Agent的元年,为什么到现在才开始火?你觉得这个跟去年有什么不一样?对,就就我觉得我我认为之前讲的一些内容应该都是非常,呃呃,在我的定义里边,我觉得它不算
Agent,它只能算是一个。嗯,上下围稍微比差的复杂一点点的东西,就不管是像 Brauscomp、像 Swi Bench,然后呃呃这些 search 和 code 的 a agent 的框架,其实都非常的简洁。
就相比于现在的 Call Code 也好,相比于 Open Claw 也好,它的 agent 框架太过于简洁了。然后这样的简洁性就导致。呃呃,首先它简洁,其次它不通用,对,呃,就这样过于简洁和不通用导致。它只能for这个任务来设定,所以那些我们看到在Bros Comp呃Swit
Bench,但Swit Bench有它的问题,是因为它本身关注领域也太单一了,就去去修bug,它并不是for真真正的软件开发。
对,呃,就是我觉得呃,在至少在。嗯,去年上半年乃至下半年,很多看似 for agent 的呃模型,它其实只是说我换了一个更复杂的呃呃 system prompts,然后稍微带一点点环境的反馈,稍微带一点点环境的反馈,一点,哎,遵循复杂 system prompt 和和理解环境交互的这样一个能力,我觉得那会儿只能是做到这个水平,但是他根本没有达到工业级可用的能力。
就你,嗯,最简单就是什么叫工业级可用?就是你把它接到啊啊啊呃 car code 或 open claw 里边去用,你会发现它不可用,它有很多问题,对。最简单,他他就理解不了这个这一套框架本身,然后他也呃呃呃也没有针对这套框架本身,人跟它的交互范式会发生变化。比如,人跟他交互范范式发生最大变化的是,人不再会去修改代码。
人不太再去再去关注。OK,这一行代码出错了,你帮我改一下。就就这样的query是不会再出现的。然后人只会提一些更高阶的。比如说增加啊,增加啊,增加限制,增加限制就是提澄清需求,然后呃呃呃架构设计,人会参与架构设计,因为现在好好多架构设计还是人更强的,以及辅助理解业务逻辑,这是skills的含的。的的价值,对这个业务逻辑是是模型本身不具备的,因为这很多业务逻辑它是企业内部的东西,对,或者说啊,或者说真实环境里边儿呃沉淀下来的东西,这个你必须要跟它很多轮交互才会沉淀下来的东西,所以,我我认为之前那些AIGC框架就就不能叫AIGC框架吧,就没有任何可用度。
然后在那些诶Benchmark上表现非常高的模型,也不代表它的AIGC能力是真的强,对。嗯,所以所以我们在优化这一版模型的时候,是完全放弃这些呃benchmark的,我们基本上就忽就不关注这些benchmark了,就嗯。我们嗯,当当你面临一个很大的范式的变化的时候,其实呃呃,只要你路径走对了,其实你可以短暂、非常短暂的一个窗口期,你去忽略评估,因为因为你靠体感,你就能立马测出来一个非常大的。
质的呃差异,对,嗯,但是当你慢慢迈入深水区的时候,还是需要一些非常精细的评估的,嗯,所以scale是不是改变了模型的生态呀?嗯,改变了模型在。嗯,这种高高复杂度、高work呃就是流程复杂度的任务上的执行的准确率,对,因为它其实定义了一套执行的规范。对,然后这套执行的规范是很难在预训练的数据边具备的,因为预训练数据边没有这种intero的信息,这些信息通常是是是是是大量企业内部自己去沉淀和积累的这种这这种哦,由人人人和人之间产生的一些呃组织上遗留下来的一些规范,我觉得更多是组织上遗留下来一些规范,然后嗯呃。
但是,嗯,就这不可能在预训练数据里边出现,但是可以由人教agent,呃,跟他多轮交互,通过完成几个任务,把这套规范让agent学会。所以agent就会,所以现在大量skills其实是agent自己写的,对。但是 Skills 在 Cloud 里面诞生的,对不对?对,但是但是这就是出现一个问题,就是呃呃,确实是 Open Claw 把 Skills 这个事儿给嗯带火的。
我说带火就是他让更多人去贡献 Skills 这个社区,这个是非常关键的,因为哎哎。这这就是属于我觉得啊,人跟AI技能需要共创的地方。对,如果你没有那么多人,高阶呃,就是呃呃,没有那么多这种呃另类另类信息,我觉得因为它确实另外一种阿尔法,它是那种另类信息,呃。跟跟跟当前的Agent共创的话,那么Agent也呃,或者说那最最顶尖的模型的能力也很难发挥出来。
嗯,这也是你说的那个群体智能。啊,我可以这么说,可以这么说。人的经验沉淀成skill变得如果更重要了,它是不是预训练的一种补充?对,因为预训练其实它大部分依赖的知识还是你在互联网上可访问到的知识。但很多知识,或者说,呃,很多智能,应该说很多智能,我们是在互联网上访问不到的。对,嗯,那么这个时候它就以另外一种形态出现。
我觉得现在Skills算是一种吧。对,它其实提供了一种交互的方式,让人去主动贡献数据。嗯,对,贡贡献更让模型,呃,执行任务的成功率更高的方式。对。如果重新来定义一下所谓的,因为我以前有 DeepSeek moment,然后有 OpenAI,有 ChatGPT moment。如果我重新定义一下这个所谓的 OpenClaw moment,你会怎么定义它?
嗯,这个 moment 它它会更时间时间线更长,就是因为因为它它前续的章节太太久了,让大家不会觉得它是个新东西,然后它后续的章节呢?但是我我觉得,对于我们已经嗯信这个事情的人而言,哈,比较比较有这个事情而言,我们反应速度足够快的。但但我不知道其他人有没有 follow up 上,对,所以就是,从我的个人的感官上,就是这个 moment 它会延续的时间更长、更深远。
嗯,它不是,嗯,这个更深远是说,嗯,它可能嗯能力更外放到。更多呃人能感受到的场景里边去,所以它更深远。但是它这个流动是需要时间的,嗯,对,嗯,就它的能溢出的能量能力更强,强很多,比它它不像它没有一个非常清晰的那么清晰的印象。O E R E它会有一个嗯数学代码这种。嗯,有光丘值一个东西在这儿,嗯,OK,你分儿上去了,模型就具备这个能力的这样一个非常清晰的标准的界定。
当然,我觉得有,呃,Agent其实确实有很多场景你是有需要有清晰标准系列的,但大部分的场景是没有的,比较混沌。对对对,所以所以然后它产生的价值也是慢慢的到一个临界点,突然。进一大步,其实靠四点六ops确实是是这样一个进一大步的突然的一个一个时间点。然后,但是但是我做这个事情这个路径也是持续了两年的,至少有两年的我们能看到。
嗯,那刚刚为什么这个事情不是Anthropic自己做出来的?呃,我觉得还是就一个开源一个闭源的原因吧。就是,嗯,呃,闭源的框架你是没有办法去洞察内部的设计的,嗯,所以你没有办法利用大部分更多人的智慧去改进它。但开源就是你就可以用更多人的智慧去改进它,嗯嗯,可能也不符合Anthropic对安全性的追求,嗯。
其实我现在觉得安全性,嗯,绝大部分还是模型本身应该去追求的事情。对我们不能,嗯,太过于去去要求一个框架本身是过过于安全的,但是框架本身可以做非常多的事情,嗯,但是我觉得。开源跟安全性并不冲突,嗯嗯,因为我们会把很多数据授权给 OpenClaw,嗯,如果我们把大量的个人隐私数据授权给他的话,怎么缓解就是更多普通人对于安全性的这种焦虑?
嗯,所以其实我我这这是我为什么说要做开源的原因,就是嗯。呃,我觉得还是会有一天,嗯,而且应该很快也会到来。就是人的大部分简单的任务,就除了那些非常难的呃任务,就是其实跟隐私相关任务有很多还是没有那么高难度的任务。其实你完全是可以放在本地化去做的,对,就你你自己会有一自己随身携带的,有可能随身携带,也有可能是在在在加或某个场景里边有一块呃呃芯片,对,然后你所有的数据都在本地。
然后,嗯,那所有的呃涉及到隐私数据诶的的这些场景都在本地推理,哎,这是很关键,就在本地推理。然后涉及到一些非隐私、然后高难度、高创造力、高复杂,然后我再去云端推理。其实这样是能够解耦的,然后这也是为什么我说一个好的一种框架,借助一个我自己觉得很很很小的三B的模型,它发挥的这个它自己能能做的任务的复杂度都已经超乎我的想象了。
然后就这个事儿激发了我自己对于其实嗯我我呃比如说所以所以所以端云混合也好,所以隐私本地化也好,有一些思考,但是我觉得还很初步,对,因为这些思考不仅是需要。啊,模型这一侧做非常多东西,还需要本身架构这一层要一块儿往前走。所以这也是我为什么觉得开源是如此重要的一个事情的原因,就是啊,我觉得这需要更多人一块儿来做,而不是某一个公司就把它能做好的。
嗯,对。接下来你觉得我们会看到什么?在 OpenClaw 已经火了这么几个月之后,就二零二六年大家会给予它做什么?国内已经有很多动作了,也出现了各种的 Clow。包括你们,咪某cloud,嗯,就是其实所谓现在很多很多cloud只是让它大家以一种,嗯嗯不同的交互形态,然后去访问到不同的模型和不同类型的框架,嗯嗯,但嗯,但是我觉得真正那种去啊,让这个框架自迭代。
或者说,呃,更强调自进化和自迭代的框架,我觉得还没有大规模的诞生和出现。然后,以及你怎么去利用绝大部分人的智慧去创造一个更强的框架,嗯,也还没有出现。嗯,这两层,一层是框架本身的资金化,一层是,呃,一一一层是 agent 的本身的资金化,一层是 agent
跟人之间的资金化。我还没有看到,就我们现在做的其实是怎么 train 更好的 model for agent,以及怎么让 agent 去适应这个 model,对。
啊,其实是是在做 agent 跟 model 之间的双向流动,但还还没有。我在框架层,我觉得未来需要做的事情其实是怎么让框架自己进化,以及框架跟人互相进化。这是你们现在的。着重对我觉得会大致的方向,对,我会会去深入研究的事情。嗯,你觉得现在的核嗯没有做到的核心的缺陷在哪里?就可能补足了某一个短板,它也许就能成了。
缺陷是,我们刚做到这里,啊,我觉得我呃,我也不知道我是不是做不做,反正我觉得呃,就是就只是因为时间原因,我们刚做到这里而已。然后未来的这个加速度是会很快的。不仅是我们,我觉得,呃,应该是这么去定义,嗯,现在,哎,只要拥有一个,呃,non-convex非常efficient的模型架构的厂商,并且他在做预训练阶段把code的能力也做的非常好的,呃,呃,呃,他有这样一个model,这个model参数量可能至少,我希望,我觉得至少一T以上吧。
对,只要有这样的一个,呃。入场券的人基本上都处于同一水平线去做这个事情,嗯,当然我索贝肯定是走到前面了。我只说,呃,目前,呃,上一个时代的成功并不意味着下一个时代的领先。现在基本上大家在同一水平线。这是一个什么样的时代?Agent的时代怎么定义它?就是我觉得就是生产力加速变革的时代。对,今年生产力会爆发,对吧?
呃,对,从最呃,这这就是大家会觉得很多工作,嗯。不需要自己做了,这是最直接一个感受。从只要你接触到这个事情过后,你就发现你的好多工作都会被替代掉。那么,呃,这个时候人更应该去思考,就是说到底自己的意义和价值是什么?嗯,所以Agent能做什么样的高价值任务是变得更重要了。你要从提升顶尖模型能力的角度上来说,肯定是让Agent去替代更高价值任务是重要的,因为更高价值任务它啊意味着更长的context,嗯,然后呃意味着更多的token消耗量,嗯,它肯定是更多token消耗量,然后呃意味着嗯。
它它替代人的是呃,它最终这个呃能能替代到最顶尖那一群人的智能就够了。其实因为呃下边那一群的智能是可以慢慢的以另外一种方式来替代掉的,比如说robotics对。然后总之就是for更如果说要为了for追求更强的某些能力的角度上来说,肯定是完全for更高价值场景做是更有价值的,对。呃,但另外一个演变角度是说,你是要做一个对全社会更有更有益的、对所有人都有帮助的一个模型,那么就不应该for更高价值场景去做,而是让所有人都能感受到这个模型的智能水平。
那么它可能是另外一种做法了。有可能是另外一种做法,对,是一个普适度更高的那种,可能会更好一些。就比如说,在这种场景里边,你就更需要在乎,嗯,多模态,因为在更更更更广泛场景里边,多模态,尤其是对于视频的理解,嗯,对于呃一些更细微的环境的的理解,然后嗯。呃,它是更关键的,然后呃,以及就是要注重成本,成本是产生革命非常重要的因素。
就你不能说你完成一个任务要花一千刀,对吧?那我觉得很多任务场景。对,就除了呃,很多人物场景,觉得他他他他他必须要达到一个很高的一个替换系数比,就你能帮我节省十倍的成本,我可能才会考虑去试吧。对,所以这个时候你怎么去做一个更低成本、更高效率、速度啊、更高速度的呃这样的一一一套Agent的框架以及对应结合的模型?
那就很关键,所以这是两种两种发展思路。对,你会怎么定义二零二六年?嗯,我觉得我。很难去定义它,因为因为我嗯,我觉得两个月都已经现在对我来说是发展巨变的。就我我我我们做两周的事情,我觉得基本上就就。就让我们很难相信这是两周内做的事情,就在过去两周发生的事情,所以,所以我都不知道这一年接下来会发生什么,基本上是处于在这种,嗯,高度兴奋的状态。
嗯,哎,我很好奇啊,就是从二零二年二二年底 ChatGPT 出生,然后当时大家就觉得 AI 一定是生产力革命,到今天就发展三年,你觉得它带来了哪些先决条件,让今天的生产力爆发可能成为一个更可能的时间点?就是它的是哪些条件变得成熟了?就我觉得第一个关键点是不再是算法工程师在做这个事情了,我我我我自己会把这个事儿觉得是一个非常有标志性的节点。
就之前是你会觉得只有哦哦。researcher或者说算法的人再去考虑怎么去提升智能水平,嗯,但你会现在会发现,嗯,还会有不呃,就是所有所有。懂懂,嗯,懂写代码人、不写代码人都在一块儿去考虑、去提升模型的,呃,去提升这整个东西的智能水平。嗯,我我觉得这是最主要的差异。就不管是他是在写skills也好,去盖agent的框架也好,嗯,还是去嗯设计更好的研究范式也好,嗯。
这是三个层面,其实,嗯,我觉得是所有人都在让嗯自己的智能去加速这个事情,这是我认为最大的一个变化,嗯嗯。我突然想到,Peak去年底的那期博客里的最后一句话,他他就说,Agent的进化需要所有人参与。对,嗯,所以现在是让我有这种感觉。而且现在其实现在已经是了,只是现在唯一唯一没发生的就是我刚刚说的,呃,Agent跟人怎么更好的、更加速、更加速,因为Agent也要自迭代,人也要自迭代,通过聊天嘛。
对,聊天是一种,然后那会不会有一些更自然的方式?嗯嗯,你有一些思考吗?就比如说,我要是真的能能带一个非常好的设备,一整天跟着我,然后我所所有说的话,我见过人他都知道,我觉得他进化速度应该比我快。我自己认为他应该比我快,因为因为因为他他他的他后边依赖的算力会更多,嗯,然后嗯他会很快替代我,对,而且他是他他不会今天记得明天不记得,他是非常稳定的,而且他是只有进化的一条曲线,而且他乐此不疲,他他不需要休息。
你刚刚提到那个说国内的人用Open Claw更热更更热情,那完全人现在是怎么评价的?魔性公司的人不是很 care 这个东西,我感觉魔性公司的人不是很 care 这个事情。哦哦,OK,那那真的跟我们班不一样,他可能觉得这个事情不难。嗯,我一开始也觉得这个事情不难,嗯,然后到后边我就觉得它整个A型的的设计是非常非常巧妙的。
我说这个巧妙是指,我觉得它弥补了很多模型短板。嗯,它是怎么精巧巧妙的去构建的这个编排啊?我怀疑这个原因是它最开始是基于Claude上一代模型去做的。嗯,就Card上一代么四点五,哪怕是Ops Sonnet其实是不不够那么强的,所以你就要必须在哎系统的设计上Agent的框架的设计上,你要呃设计的更精细一点,去去把它这个短板给补起来。
对,然后嗯,这就导致了呃,ops进步了,但是国内的呃大部分的模型可能刚靠近cloud四点五、sunet和ops的水平,然后反而。呃,这两个在这儿握手了。嗯嗯,我觉得是这样一个原因。那如果模型能力提高的话,它这些精巧编排还需要吗?呃,还是需要的,就是出于对成本的考量是需要的。就是我们永远会去追求一个啊成本和效率最低的一个一套方案。
嗯,这个是生产力革命的非常前置的要求。所以不可能说我们所有的场景都用最顶尖的模型,因为它太贵了。嗯,所以更有可能是Agent在进化,模型在进化,然后模型进化的方式有可能是,呃,同一个水平的模型在越变越小,它也是一种进化。哦,嗯,虽然我们没有在做这样的事情,但它确实是一种方式。嗯,也就是说,现在可能激活十亿的一个模型。
嗯,可能过一年他就能做到考的四点六ops的水平,这个这个是极大概率会发生。嗯,那那那那激活十B的模型是很便宜的,然后可能一一两块钱就能有百万的上下文,所以那你为什么不用一个更小的模型?它反应速度更快,更灵敏。基于这套Agent框架还很好用,你还可以改这套框架。那为什么不拥抱它了?对,嗯,所以它其实让不那么好的模型有了更好发挥的空间,对它的上限更高,它对。
哦,所以其实更符合国内的叙叙事,对吧?不知道国内叙事什么,但是呢,会让人很想用它,很想用它替代自己的工作。嗯嗯,所以需要小尺寸的端测模型爆发吗?这个趋势肯定会发生,但是我觉得它不是二六年的一个主要的旋律。嗯,它是一个支线,而且是会持续发生的事情。二六年的主要旋律就是呃生产力的变高高生产力场景的持续突破,所以我们要做更长程的任务,然后更复更呃更更强调多agent之间的协作,因为更复杂任务它不可能是单agent去做的,但多agent协作某种程度上也是为了成本的考量,对成本和时间的考量,对,然后嗯呃以及怎么去激发。
Agent这个群体的智慧,我现在觉得,呃,现在市场上的现现在已经看到的猫体Agent的工作都有点伪。我说这个伪是说,呃,真的依赖依依赖于猫体Agent能够实现更好的最终的任务的完成率,这在这个维度上,我觉得是有点伪的。但是它能提升,嗯。嗯嗯,效率就是速度,就是这个任务完成最终的速度,以及它最终能够节省成本,这个是确定的,毛天俊的。
但我没有看到说毛天俊的一定最终能够。实现一个更高上限的一个东西,但但它会发展,它现在发展,只是我目前还没有看到。所以今年的叙事其实跟前三年已经发生了很大的变化了,嗯。我我自己是怎么感知到的?嗯嗯,Kimi的人跟我说,他们觉得他们跟豆包已经玩玩开始玩不一样的游戏了。豆包元宝阿里都在玩,嗯,互联网产品的游戏,因为他们在打D A U。
然后Kimi的人他们是觉得他们在就是走了啊,topic那条路。你们在打在玩一场什么样的游戏啊?就可能我们追求的事情是。我我我自己觉得什什么时候能够超越自己吧?嗯嗯,我我是这么去定义的,因为我觉得我对A I的一个一个定义会非常的模糊的一个原因,就是因为嗯,我觉得没有必要去追求一个非常清晰的一个A I的定义。
嗯,那A I发生的时候,所有人都会感知到的,就是因为你发每个人的生活、你的生活方式、你的工作方式,已经未知长达很长的时间,已经慢慢的被它改变了。嗯,所所所以,在这个过程中追求D A U,追求这些东西,它并不会改变我,它并不会促成这个目标,就是让这个模型代替我,它并不会促成这个目标,所以我就完全没有在想这些事情。
嗯,而如果说我们去追求一些中间的目标,啊啊,比如说你去追求token消耗量,嗯,你去追求它完成更高价值的任务,它是在往这个目标去靠近的,对,因为要完成可能替代我自己的任务,它确实是需要更多的token消耗量,嗯。他需要具备更复杂的context,嗯嗯,他需需要去调动其他人的智能水平,嗯,团队管理其实就是要去调动其他人的智能水平,对,所以所以嗯。
技术创新也是你你你需要具备更多的数据的访问的权限,你你需要具备哎。给你一个集群,你会用一一个GPU集群,你会用它,并且你还要自己去定义一套评估标准。当你呃在在这个集群上训了个模型过后,你怎么去验证?这这些事情就是呃,我想象的是,我们应该让这个模型结合一套框架本身,应该去完成这些事情和任务,而不是去追求。
呃,另外一个叙事上事情,所以我就没有太理解来他们那个叙事吧。你说AIU的叙事是吧?对,就是我自己觉得这个叙事就,嗯,不太符合我自己的。呃,我们做做研究的一个路径,嗯,过去两个月,你觉得你的生活发生什么样的变化?生活就是,呃,亢奋还要亢奋,就呃,就是你感觉每天,嗯,都会发现AI的框架本身或模型本身又进步了,所以今年带来了给你很强的aha moment。
这个可能比过去插board更强,嗯,对,而且它是持续的,就它持续的,就它你感觉它停不下来,嗯,这是比较大的变化。我觉得R一可能就是那一阵儿,就你去体验它的那一刻,你用到它了,然后哦,你发现它具备很好的思考能力了,然后这个思考能力从Cloungmaser。外放到其他领域,也就是那一刻,然后那一刻完过后,你没有感觉它有持续性。
但 Agent 这个事儿上,你会觉得它一直在持续。我觉得这种持续性是,呃,是完全不一样的感受。因为有这样的持续性,所以你会更坚信这个事儿它在全面加速。嗯,有什么样的一个任务是你过去觉得他绝对不可能做到,但是今天可以做到的?就训模型这个事儿,我我自己觉得以前我认为是很难的,嗯,因为。嗯,你要涉及到跟一个更复杂的,是比如说深度学习平台的融合,听起来就就就就就不太靠谱。
然后,然后以及你怎么去嗯让模型具备你有的connects,因为一个研究员他要有的connects是很长的,嗯,就你要你要经过很长的科研的培养,比如说一个博士他有五年的科研的培养,对吧?你你怎么让一个大模型跟你有一样的 context
这个事儿是很难的,我我之前认为是不太可能的,但是我最近发现,原来它很聪明,聪明到你只要把你近期的 context 告诉它,它它甚至能帮你复原出来你自己的科研的成长的路径。
嗯嗯,你让这个时候你再去跟他讨论同样的topic的时候,你发现他跟你一样聪明,就这个事儿是很很残酷的。就我之前认为我们自己做的工作已经是足够有创造力,足够不会被scale化,不会被work flow化的,但我现在发现他竟然也能。然后也就是说,可能过过一段时间,他真的能训一个。跟我们能训出来的模型,它也能训出来了。
那那那那它可不可以训出更强的模型呢?然后它就自己左脚踩右脚就就就提升了呢?我觉得这个事情是很有可能发生的。这个可能是一个非常大的转变。嗯,对,所以所以它可能真的能嗯依靠于它自己产生更强的智能。进化,它先吸收所有人的智能,然后再靠自己产生更强的智能。我觉得这个事儿肯定是就在这一两年发生的事情。我刚才听你的整个描述,我会有一种感觉,我觉得你训模型的方式好像和你管团队的方式有某种相似性。
嗯,主主要的原因是它确实需要群体智能。嗯,对,不是个人英雄主义。呃,当然不是,当然不是,就是嗯。他他需要每个环节上都是,呃,足够believe和,呃,极致的人。对,什么叫群体智能?在模型训练上,可能不同的agent它需要有自己的context。然后,呃,有自己自己 context 的原因是,呃,当模型能力没有那么强的时候,有自己的独立的 context,它会更,它会更专注。
对,专注还是蛮重要的,就你的 context 不不不被混乱,然后它能完成的更准。然后,哦,所以就是你可以理解为,我们现在训模型可能需要非常啊抖音法人,然后去啊。呃,写一套非常好的训练或推理的架构,然后需要他从训嗯推理的视野去倒推,跟做呃能能能懂模型评估,嗯呃呃以及模型训练的人一块去定一个非常好的模型结构,有有这样一个中间的 collaboration 的合作。
然后这个非常懂模型训练和懂模型评估人,又要学会去跟嗯做数学的同学去金融的去沟通,说 OK,我们要赋予模型什么样的能力,我们需要去构造什么样的数据。然后同时呢,做数据这一群人,他又同时需要参与预训练跟后训练,因为呃预训练跟后训练它的数据的 sense
是通的,对。然后嗯,这里边其实你要你要真分的话,还是有很多 subagent,但这些 subagent 之间,嗯,他们的 context,呃,有独立的地方,也有呃关联的地方。
然后我觉得这样一套复杂的框架,现在目前看起来是能够被呃被磨铁出来的。确实能够被模拟出来的,然后呃,这也是我为什么我自己呃玩OpenClaw的第二天,我就开始让他去去,当时我在家嘛,然后我就让我家里边的每个人,就我爸爸、我妈妈,然后我老公,然后嗯。每每每每个人都有一个自己的沙飞群的,我们搭到一个飞出去,每个人嗯也可以自己跟自己的独立的沙飞群的去聊天,然后他自己进化,然后呃呃,然后我就会在那个群里面委派一个任务,呃给他们的沙飞群的,让他们改。
然后,因为我们的 competence 是不一样的,然后让他干,确实他会,呃,他会 competence,因为他有更好的 competence,所以他会干得更好。呃,就呃呃,也就是这样一个很粗浅的尝试,让我相信就是,呃,这个事儿应该同就同样很简单的事情,它它换到一个更高复杂度、更有创造力的场景,嗯,只要模型的能力跟Agent的框架本身在进化,应该是也是可能做到的。
嗯嗯,哎,我想到刚才有一个点,就是关于呃框架,你要不要有一个完整的表述,就是智能体框架,智能体的框架。嗯啊,其实智能体的框架,我认为是一个现在,哎,就有很多形容词去形容它。你比如说 hardest, scaffold,然后还有一些其他形容词。就我没有特别去专注说哪个形容词是更准确的,对。然后我更关注的是这个框架本身它带来的一些差异化的优势是什么。
嗯,然后。呃,就比如说,我认为一个非常好的框架,它其实应该是去,呃。尽量去弥补在行动上的缺陷的,嗯,很多很多东西都是在弥补行动上的缺陷。就比如说,很好的memory系统是弥补行动上的缺陷,然后接入到了更多的广泛的message的channel是弥补行动上的缺陷。然后呃,以及它更主动,它更主动,嗯,不管是定时任务的主动,还是嗯,它它有些其他方式一些主动的设计,以及它自我去更新迭代,其实这些都是在弥补行动上的缺陷,因为嗯,大模型是它,你给它啊,不管是嗯。
你给他越好的 context,嗯啊,他肯定执行的效果越高。所以你要是能把这些他获取不到的 context,这些行动上的 context 都给他,那么他肯定会完成的更好。嗯,所以所以这是我我我看一个好的框架的时候,我会看他有没有这些要要素。然后那么呃,当然这里边还有一个呃很关键的一环是。是评估,就是一个好的框架本身,它确实是需要有个很好的可泛化的一个一套评估体系的,对,然后这样它才可能自迭代。
然后这里边是现在现在已有的评估体系其实都非常的简单,它只是为了防止它啊不出呃致命性的错误,对。然后那么怎么有一个更有泛化力的一套评估体系,然后来促进这一套框架自自迭代?其实现在是把最高阶那一。群人当评估,就是呃,你你你交给他一个更更难的任务,更嗯更高价值场景的任务,然后他完成不了,你会你会给他提供补充信息嘛?
嗯。然后呃,你也会给他啊指出来哪儿错了,然后push他啊啊,经过更多轮的交互能把这个任务给完成。所以其实本质上是现在是这群人在当评估,但是这个评估会慢慢的被框架吸收。呃,框架会设计很多东西来来确保,呃呃呃,在某某些确定的场景,我能评准,同时也会被模型能力吸收,就模型会学会像人一样。当我采用这个方法或思路做到这儿瓶颈的,或者说,呃,怎么怎么样,他会自己采取另外一种思路,或者说,或者说自己去反思,啊,就像人一样去去反思。
当然了,他是不是借助他自己,还是他是去借助一个更super的agent?还是一个其他领域的子agent,那都是有可能的,但这个是目前这些框架还没有太太去。其实,其实最近一个月已经有一些框架再去关注这些事情了,对。嗯,因为在 Open Claw 呃发了之后,就国内的很多团队都推出了呃类似的产品。你觉得他们有不同吗?
比如说 QQ 的团队有,你们团队有,嗯,Kimi 有,Mini Max 有,他们有什么不一样?我大概只试了一半儿,对,只试了一半,我觉得大同小异,就是嗯,就是让这这个大同小异,真的就是让让 Open Claw。变成一个内插的形态,让你去感受到。嗯,我还没有看到一个我我自己觉得,呃,至少在改Agent的框架本身,我觉得你这种产品,你知道要去迭代框架本身吧?
还没有看到一个比OpenClaw开源社区进步更快的,因为OpenClaw开开源社区进步太快了。然后我还没有看到比这个开源社区进步的更快的这样一个Agent的框架。或者说产品出现,我还没看到,所以我宁愿用最新的Open Claw。嗯,你看,嗯,Open Claw,嗯,不久之后就卖给了Open I,你觉得是为什么呀?
为什么就是这种非常不错的产品公司,最后还是呃并给了模型公司?这是不是说明没有模型做产品还是比较难的?对,我觉得呃,就是就这两个应该是一定要也要深度耦合的一个事情。然后,嗯,但很好的是Open Claw它开源的。这个事儿没变,所以你还是可以在这套框架的基础上,一呃,大家一块儿去设计更好的Agent的架构。
所以这个事儿本身没变,嗯,只是说可能做这个事儿的一部分人的立场变了而已,嗯。嗯,然后这个立场变了,maybe是好事儿,有有有可能是坏事儿,嗯,但但总是它不影响Open Claw本身开源的属性。我觉得就是就至少啊啊,我说这种嗯那种群体演变这种嗯可能性和基因火种是保留的,那就挺好的,嗯嗯。那我们来接着聊聊模型。
上次我们聊天其实是在你们的 V2 Flash 发了之后,这次已经又发了三个新模型 Pro、 Omni 和 TTS,呃,并且你把它称之为一次悄无声息的伏击。为什么这么说呀?为什么是悄无声息的?又为什么是伏击?首先,它,嗯,嗯,呃,这三个模型它在 Agent 的场景下表现提升能力提升这么快,或者说我们能这么快去追上,嗯。
在复杂的Agent架构里边,它表现这么稳定是超我们预期的,就是不是我们嗯计划的非常好的,而是。我们一下大家就觉醒了,然后就爆发了。你们觉醒了,对,然后就,对对是这样的一个 context,所以它确实是一个很安静的。我说安静,就是因为嗯,外部不知道,我们自己内部也是快速发生的一个事情。然后,然后第二个就是,嗯,我们其实,在一年前去做这么多模态的时候,其实更多的角度还是说,呃。
呃,如果真正产生智能,应该这个智能是全方位的、多方面的,所以去做了对对多模态的一个理解,以及最终你产生你你智能最终嗯要产生价值,一定是要有交互的,所以要去做语音的生成,对。嗯,但这只是呃,但一年前做这些东西的时候,它还不是很明朗,就你还是觉得你还是在做一个单一的模型,你在做一个动态理解模型,你在做一个语音的生成模型,然后你没有觉得这些东西它能够很好的去被呃组织和编排到一起。
然后当我看到 OpenClaw 的时候,我自己。自己就呃一下就想到了这样的一个呃呃画面,就是这些模型在各自在什么样的环节发发挥什么样的作用,他们能够怎么被有效编排,然后啊以及它会产生一个什么样大的一个生态的价值,一下我觉得就在我的脑子里边就全部给打通了,所以我们快速的让所有方向都要面临到这个范式去做。
哦,后训练的针对的设计,嗯,就是这个原因。所以你现在如果能在 OpenClaw、卡或者边同时用这几个模型化,你会发现把它串起来很好用。嗯嗯嗯,就很好,呃呃,肯定比用其他大模型可能好用一些。然后或者说,至少这是我们往后迈进的一个目标。呃,那为什么还是后面这三个模型不是合到一个模型里边去?我觉得更多的就是出于对于成本和速度和价格的一个考量。
就比如说语音生成,你没有必要去用一个一T的模型。他的实验你也接受不了,对,然后嗯,比如说多么他的理解,哎,他是不是值得一个更大的模型?然后嗯,那么这个这个事儿,我觉得都是要要要要去打个问号的。然后,因为我觉得AI的革命。就本质上真的是生产力,生产力你就必须要足够去在意最终它端到端的完成率以及诶它的成本效率,对。
然后这是现在三个模型同步出现的一些一些原因,然后以及嗯我们后面应应该也会有一些计划,怎么让三个模型更好的写作?嗯,对,就是你所谓的编排,现在有什么样的一些 know how 吗?怎么样编排是更好编排?嗯,首先你从任务类型来说,比如说你最简单的呃。绝大部分的任务类型,你其实是呃可以只用语言模型来做的,对。
然后哦哦,但是呃在。因为因为现在我们嗯完成嗯一整个任务的环节太长了,在某些环节上,如果你意识到你是需要调用你其他像人一样感官能力的时候,然后你就去用另外一个更精巧的模型,然后它来做得更好。类似于这样的,然后,而且你,而且因为这三个模型是同一个生态训的,所以你能知道,啊,他们的扒扒光的,你能知道我知道知识,他是他也是知道的,然后,呃,所以你能放心的把你觉得他能完成的任务交给他做。
你不会担心他不知道你有的背景知识,就这个背景知识是来自于预训练的。嗯,嗯,目前,嗯嗯,这些三个模型在同一个Agent框架里边去释放出来的潜力,跟你去组装其他模型能释放出来的潜力的差距,是很微弱的。目前是很微弱的,但我认为未来不会,嗯,因为未来它它是一个呃呃效果、成本、效率三者的一个乘积,就未来你不会觉得,但是目前你会觉得它是微弱的。
这三个模型你们在 bet 什么样?这三个模型的关系是什么样的?就我觉得在 bet 全方面去替代替代人人的生活和工作,嗯,的方方面面,所以你就必须要具备这些能力。你看,Pro,我觉得他是在嗯做理解和认知,嗯,做更复杂的。调度,Omni是在做感知,嗯,嗯,TTS是在做呃音频声声音的输出,声音的输出,它是一种表达,对,嗯,这三个加起来是一种类人的智能吗?
反正它把人有的智能的表象。呃,输入和输出给建模了,嗯,对,但是它有没有人的各个感官之间的协同那么好?为什么现在还没有做到?但这也不纯粹是模型上没有做到,还有就是框架上。也没有做到。就比如说现在
OpenClaw,它对于视频的理解和建模是非常差的。它整套架构,因为为什么呢?因为就是因为开源社区没有一套对于音视频联合理解的非常好的开源模型的出现,然后并且这个模型还有很强的 Agent 能力,就没有这样的模型出现,所以它在框架上的发展是滞后的。
所以它现在对视频的理解会回退到去,呃,理解图里,呃,甚至到就是这种会回退到理解 Caption
上,就回退到一个纯文本的智能水平上。所以这也是为什么我要做开源的原因,就是因为只有开源界看到一个啊更强的视频理解的声音、声音生成的呃这样的一些模型过后,它对应的框架才会呃发生改变。对,然后只有这两个,就框架其实它是一个协调层吧,对,只有只有这个协调这一层,然后以及这个模型这个智能的中枢这一层,这两层很好的交融的时候,那么可能才会达到类人的智能,嗯嗯。
那我们来围绕着 V2,呃,一个一个来聊。虽然 Flash 已经过去了一段时间,它是你们去年十二月十六号发布的。嗯,当时做 Flash 的时候,你们的核心定位是什么呀?呃,这个大被大家认为是你在小米的第一个工作,嗯,第一个作品,嗯,其实 Flash 跟 Pro 基本上是同期训练的,嗯,然后呃,因为他们的模型结构非常近似。
嗯,但是我们在设计呃 V2 这一系列,不管是 Mini ViT、Flash、Pro 的时候,呃,这个模型架构本身有一个非常关键的一个。呃,目标就是我们要for longkalis的呃效率来设计模型结构。嗯,当时也呃是有隐隐约约预预感到AI的时代呢,卡的斯是非常重要的,或者说呃有预感到long
longkalis会产生智能的,但是我们没有没有预想到后边是是OpenClaw,其实这种形式哈,嗯嗯,但是已经预感到longkalis一定是一个非常重要的问题。
然后,那么呃,Longcast的效果以及最关键的推理效率,就是你的成本和你的速度要很快,嗯。成本够低,速度够快,那么就是我们这一代模型结构必须要去追求永恒的命题,因为哎,你成本够低,速度够快,你有可能可以把一兆做到十兆,甚至一些百兆。呃,其实其实现在所有的模型结构它都能训到一百兆,嗯,它但它为啥不不不不把这个模型,嗯呃提供一百兆的推理?
除了效果一般以外,我觉得更多是出于对成本的考量。就一百兆太贵了,就是你你可能到后边一兆过后到一百兆这个范围内,它非常贵,贵到你根本就没有不想用它。对,所以所以就是我们当时就围绕着这样的一个核心目标去设计的这个呃就是 hybrid retention 的结构。嗯,当时其实另外一个更主流的选择是用
MA,就包括现在,哎,我觉得同期跟我们开始训练的应该是 GOM 和 Kimmy,呃, Kimmy 更早一些,呃, K2 更早一些,然后其实他们都都选择了 MA,就 DeepSeek。
嗯,其实 M I 对于 Chat 的时代来说,确实是一个非常优秀的模型结构。嗯,因为它啊,而甚至它对于长文来说也算是一个还不错的模型结构,因为它大量去减少了 K V cache。然后对长文来说,你的 K V cache 很宝贵。然后,嗯嗯,但是它有一个呃呃,我认为是嗯不那么去适合 Agent 的呃这个范式的一个呃最根本性的几几个几个要点。
嗯,第一个就是嗯。嗯,它其实是呃,因为M A在设计之初是为了去达到很好的访存跟计算的一个比例,在哎。当前的当时的H H系列的芯片上,为了呃实现一个更高的一个,就是我既不浪费我的算力,又不浪费我的呃,又要把那个呃访存的瓶颈给打破,所以是在这样一个架构下设计的。然后在这样架构下设计出来的模型架构,它没有任何可发挥的空间。
我指可发挥的空间是指,呃,假设哦,我们认为KV Cache是重要的。并且我认为推理速度也是重要的。那我能不能用一些让它推理加速的方式?比如说最简单的推理编码,MTB就是一种方式。然后让它实际上推理的时候加速n多倍。嗯,但是 MA 是不太行的,因为 MA 它已经达到一个呃 L bound 和 memory bound 的一个非常完美的一个临界点。
你要是用 MTP 的话,你会发现它又卡在哎那个呃呃呃计算 bound 上。所以现在你看所有 MA
的模型结构。啊,不管是GMM也好,Kimi也好,反正他们,我我猜测应该都没有上MTP,因为,呃,他上了过后他就被计算棒的,然后计算棒的,呃,他就很很不划算,所以他的模型都会慢一些。你会觉得大家对MIMO的,呃,我们第一代Flash,哪怕是Pro
Flash能做到啊一百到一百五TPS,然后Pro现在我们也能做到,啊啊,就看成本哈,看成本,因为,呃呃,基本上是能做到六十到一百的。
对一百T P S肯定会更贵一些。对,所以呃,在这样,所以大家用Memo的,不管是用Flash I Pro的一个感觉是哇,好快。对,然后呃,这这这就是这个结构哦,尤其是针对Long-Range Inflation的结构带来的一个一一个优势。嗯,然后然后同时呢。嗯,它它成本有够够低,因为呃呃,因为呃
hybrid 的 Tuning,嗯,包括在呃 Pro 这一代上,我们给它拉到一个更极致的一个 hybrid 的比例,就它的负荷层跟嗯那个 sliding window 层的比例会更极致,达到了七比一的一个比例,所以嗯,它更省 KV cache,所以我们基本上是在这一代结构上实现了嗯。
啊,通过 sliding window 的方式去减少 KV cache,让它在长文上效果更啊呃能能够支持更长的长上下文,然后哦哦,同时通过 MTP 把。Stable Window Attention 节省的那个算力,节省的那一些,而腾讯的算力,然后哦,把用 MTP
给它填上。这样子它能达到一个在实际推理的时候啊啊这个呃呃访存跟计算的一个很好的一个平衡,然后同时又去兼顾了呃呃长上下文的成本,然后以及它的推理速度,所以。
这我嗯,虽然我们设计模型之初没想那么多,但是基本上就完美的非常适合做Agent,因为Agent对Agent来说长上下文非常关键,然后很小的KV cache也很很关键,因为哎,你很小的KV cache你能。做更多的多级的缓存,缓存命中的话,会非常有利于节省你的啊推理的成本。然后,嗯,呃,然后再其次就是,呃。
速度是一个还蛮关键的一个命题,嗯,然后你一旦体验到了更快的模型,以及智能水平相当的更快模型,你就回不到那个更慢的模型的水平了,对。是是,所以嗯,我觉得呃呃,Mimo V二Flash和Pro大概是这样,在在这样一个背景下,我们同期的开始去去进行训练的。嗯,哎,放在当时,你当时为什么会选择MTP啊?MTP的选择还真的是蛮后验的,就是是我们这个模型已经快训练到中后期了,然后嗯,我们觉得。
呃,我们嗯把这个模型开始为它去设计推理方案了,然后我们在我们自己的那一代的推理卡上去。实际的去设计推理的并行方案的时候,发现它的计算剩余的实在太多太多了。就呃,我们没有想到它会剩余这么多。然后,所以那你就想的是怎么把这些剩余的啊计算给它有效利用起来。那么MTP太适合了。然后,但是我们嗯嗯,在呃预训练阶段加上MTP的原因是。
它确实能提升基座的能力,这个我们跟 DeepSeek 是一样的,就是预训练加 MTB,是因为 MTB 能提升它的基座能力。推理的时候为什么只有我们用 MTB 的原因,是因为我们的模型结构天然在计算上有留有大量的富裕。然后这个事儿是我们在后边去设计推理架构的时候,很嗯,突然有一天悟到的,就但也不是突然有一天,就是你你你去仔细的去算算那个。
的推理的各方面的的一些数字的时候,你就知道,然后你可以也用用spell,嗯,你可以用推理编码,然后把这些剩余的算力给利用起来。恰好我们又训了MTB3,那就恰好用起来了。呃,就其实很自然的一个一个探索的延伸。嗯,为什么它还没有成为一个主流?大家太。相信M A了,我觉得,嗯嗯,大家太相信M A了,就是大家因为M A它确实太巧妙了,就它在模型结构上把它能做到的,呃,全做到极致了,所以在我觉得二。
五年上半年,如果要去训模型的话,嗯,训一个基座模型的话,那么其实 MI 确实是一个不错选择,尤其是当没有看到 non-continuous 的价值和 Agent 这个范式的时候,MI 确实是一个非常不错的选择。对,那它未来会成为主流吗?呃,你觉得我我我觉得应该不会,还是不会啊?呃不不,M A应该不会,对,我说M T P M T P。
如果说如果就看就看大家大家的下一代模型结构是什么样,就嗯,我觉得现在模型结构设计大概有两个趋势,一个就是你真的在预训练阶段你就想明白你后边推理的场景是什么。比如说,你要在什么上的卡什么上卡去推,然后你要在多场上下文上去推,你的推理的并行的方式是什么?你可能连这个都要想明白。那么你就可以设计一个针对这个场景和这个推理方式和这个这一款芯片的完美的结构。
然后你去训这个结构,那么它的效率、成本各方面一定是最优的。就M是,在这样的context情况下被设计出来的,但是,但是,但是。这个这个这个context它是建立在两个前提基础上的。一个前提是post训练是不重要的,或者post训练的时间是很短的。嗯,就你能一个月就把post训练做完,你大部分时间在做pre train,所以你你你只需要pre train for这个推理本身就行了。
啊,第二个是你的推理卡,你永远就是用那么。一个两个或就就就甚至就那一个就是最好的,对,呃,但但这个事儿在当下是在发生了巨大的变化的,因为现在是 post train 的周期在拉长,你在一代基础上能做的 post train 的上限是远远被激发出来的。啊,这是什么时候发生的?就是 agent 的这个范式带来的。
哦,对你有一个更更更高效的 context 的。嗯,就是其实 context 越长,它也是产生智能一种方式嘛。就你有你你的模型能够被输被输入进更多的 context,理解更多 context 的时候,那么你的潜力就越高。这个跟原来 Chat 的这个范式是完全不一样,因为全原来 Chat 范式,它的 context 就是人数的,人数的就是很短,嗯,所以它纯靠这个预训练。
但是 Agent 这个范式,它它就是很很吃 post train,嗯,你对框架理解,对对于怎么去呃呃,所有多一些的协作乱七八糟也好,反正反正它它它它,你肯定以为就是我们在 post train 上要去投入的算力。嗯,会可能跟培训是相当的,所以你这个时间周期在拉长。那么,呃,在一个呃呃,你比如说你Post训练要做半年或一年的场景下,那么你前半年去假定了非常多的东西,它可能是失效的。
嗯,就你假定要在什么上卡图,你假定你要在什么场景下啊达到更优的效果,它全是时效的,因为有可能呃,当你呃做了Post训练做了半年或一年过后,你会发现那些场景全变了。你可能以前大家觉得一二八K就够了,但现在大家觉得可能可能过过过几个月,大家觉得我需要十兆。十兆上下文,就就类似于这样的逻辑,所以所以这样,如果如果还是这样去做做做模型结构,它可能会失去一定的灵巧性。
嗯,但是呢,如果说他的这个团队的 post train 的效率足够跟得上,嗯嗯,他的认知是能够,哦,这个 post train 的认知是能够辅助 pre train 去做呃架构的正确的判断的话,那么有可能这种模式还是 work 的,就他设计一个精细的结构,想清楚推理卡类型,想清楚场景,那么他应该还是 work 的,嗯。
对,然后嗯嗯,但还有一种做结构的方式是另外一种,就是我在结构上嗯更简洁一些,然后留有更多的富余度来去做后续在不同场景的一个适应和增强。就比如说,我觉得 hybrid 的场景它就是一个更简洁的结构。呃,你可能呃,它的简洁性体现在你可以靠 MTP 去做哦,去把它的这个算力给它,呃啊,更充分的利用,对,然后也可以是后边儿。
你甚至于针对已经训练好的一个 hybrid 结构去增大啊 sparse 或 full 的比例等等,反正就我觉得在这样一个更简洁的呃架架构上的时候,其实你 A 智能发挥的空间反而。在后训练发挥的空间反而会更大。嗯嗯,成本下降是MTP给Next Token Prediction带来的优势吗?嗯,MTP是如果它的。
命中率非常高的话,那么它是可以带来成本的下降的。嗯,相当于它在诶更短的时间内吐出了更多token,所以它把GPU的利用率打得更高,所以它本质上是在诶降低单token的生成的成本。你刚刚说了MTP的很多好处啊,那它会相应的带来一些幻觉吗?不会,MTP它是因为它是会被verify的,然后只有你预测的准,我才会采纳你当前token的结果,所以它没有任何幻觉。
嗯嗯,好,刚才我们重点聊的是Flash上面用的MTP,那嗯。呃,你们还做了一些选择,嗯,就比如说混合注意力机制,你们当时选的是五层滑动窗口和全局注意力机制,嗯嗯,这个呃呃,你你们这次其实有变了,应该说是这样子,可能我们的一个大致的,嗯,大量的实验的一个结论是说,Fourteen它的层数很重要,嗯,但是它的系数比反而可以有空间,就比如说。
所以,所以你在更大的模型上,你的层数更多的时候,你可以保证伏尔登线的层数总数不变,但是你把你增加更多的 sliding window 等线的层就可以了。就可能层数比这个系数比更重要,或者说在更大的参数的规模。呃,更大的attention的head的时候,可能我们也可以做到更稀疏的一个比例。嗯,对,应该是这两个结论的一个统一。
对,嗯,导致我们可以在更大模型上做更高的稀疏比,就是for跟嗯跟跟stadium的稀疏比。然后我们最近在做很多sparse研究,也是发现更大模型它能够吃更大的啊attention的sparsity的比例。对,就更大模型你可以更稀疏,然后好呃,但你小的模型你太稀疏了,你就模型效果就会drop的非常严重。
对。所以这是一个实验结果,它不会成为一个固定的标准。这是我们的实验结果。然后,嗯,我不确定其他家是不是也 follow,也也赞同同样,也也会有同样的实验结论。对,嗯,我觉得 Flash 还蛮有一点小米早期的风格的,因为就追求极致性价比嘛。嗯,这个是怎么定的呀?然后嗯,因为你们当时API的定价是输入是百万token一点零一美金,然后输出是每百万token零点三美金。
嗯,当在当时看来肯定是最低的价格,最高的速度。你觉得当时是做对了什么,达到这个效果?嗯,对,基本上就是把该做的都做了,就是架构有一个longer很efficient的架构,再加上MTB推更加速,再把infer。我觉得最基础的基建做好啊,基本上这个价格就就能做到。就我觉得在预训练时代,你根据模型的。呃,框架优势来定价,嗯,确实是合理的,确实合理的,因为你的框架很强,然后最终,嗯,人,嗯,最终使用者是最终用户能感受到,其实纯粹是因为你的模型很强,所以我就按照你的模型结构的方式来去进行定价,我觉得是合理的。
但是当,嗯,我们进入到后训练的方式。嗯,然后后训练方式是除了这个模型结构本身带来的优势以外,你还看你的 context 好不好,以及你这个模型对这个 context 的理解能力好不好?嗯嗯啊,所以嗯,我我觉得它的定价逻辑应该发生变化,就不应该是根据我最终的这个推理成本来定价,而应该是根据我这个模型的。
最终产生的价值来进行定价。那么这个价值除了模型本身的啊架构的优势以外,还有就是模型它在后训练上做了足够好啊,所以它能更好去理解这个Agent的框架。对,这也是它的定价的一个溢价的空间在的一个地方。所以我们后边。Meta Viar Pro其实是抛弃了这样一个定价逻辑。我在你们那个 Tech Blog
里面看到,就是呃,Flash,你们是从一开始就想 Bat Reasoning Coding 和 Agentic 吗?
嗯,我觉得做结构的时候,呃,只只是bat一个点,就是只是bat的nonetheless一定要做的呃建模效果够好,然后效率够高,推理效率够高,只bat这一个点,其他都没有想。我觉得预训练我认为不应该太。呃,至少我们当那那时是想不到更多的目标的。我也我也不认为一个架构本身的目标应该太过复杂,因为架构目标太过复杂,就是你的呃你的限制条件太多。
那么如果这些限制条件最后。你的post训练要做很久,做到这些限制条件,它都变成很很伪的限制条件,那你这个结构不就白做了吗?对,所以我们没有对最开始的模型结构给强加更多的目标,我认为加更多目标是不合理的。嗯嗯,flash帮你验证了是吗?Flash帮我们验证了我们整个infer数据是没有问题的,但是我们我们并没有说先训Flash再训Pro是两个一块训的,对,嗯,但Flash是一个相对小的工作,比较早期。
嗯,也不早起。我们我们训了就发了,所以你们看到的时候,也就是我们,嗯,对,嗯,没没有规划很早。我们基本上大部分的模型的训练都是在下半年进行的。对,嗯,去年的下半年,对,嗯嗯,从Flash到Pro,你对Pro的预期是什么样的呀?呃哦,当然那是同一时间。嗯,对,就是两个模型同步训练。我们相信这一代的架构是没问题的,只是我们在训 Pro 的中组的过程中,去解决了非常多的呃,比如说训练数值的不稳定性。
对,啊,这个是训跟一 T 参数量级的模型通常会遇到的很 struggle 的问题。嗯,对,老老训着训着 loss spike 了,老训着训着 OK,嗯,某个激活值很大,然后那你要考虑怎么去。呃呃,或者说某些 expert 呃呃的分布变得很极端,然后嗯像天花板一样,一会儿一批提问打过去,一会儿有有一批提问又又又打到另外一个 expert 上,就很危险。
这些信号有危险,会导致训练嗯出现嗯,比如说 loss 典型的会出现很多 spike,负载会典型的很会很不均衡,expert 的负载会很不均衡。对,就在训更大模型上就会花很多时间去解决这样的一个问题,所以看起来是同步训练,但pro训练进度就会比flash慢一点,因为,呃呃,因为就是你要解决中途这些。让你训练不稳定性的要素,数值不稳定只是一个表象而已,对。
然后这些要素就会非常锻炼一个团队的,研发,和算法中。呃,联合debug的能力,甚至有时候你怀疑到是不是哪个卡有问题,这是最后如果发现所有的卡都排查了没有问题,你会怀疑是不是今天的太阳黑子暴发,这你会知道怀疑到一些很玄学的问题上,嗯,就你要从从很表层然后查到很底层的因素。对,你刚才也提到一T的模型可能是未来竞争的一个入场圈。
是这样吗?是Agent,你要做到接近Cloud四点六Ops的水平的这样一个入场券。你当时立项的时候还没有这个模型对吧?为什么你当时就已经觉得一定要是一T的?嗯。就首先我训过 DeepSeek V3 这么大小六百多六百多七百 B 的模型,你不会再想去训一个同样的模型,对,就肯定还是继续往下一步 scaling 嘛。
所以 ET 是一个,呃,在我们当时已有的卡的训已有的卡的数量情况下的一个比较极限的一个区间,对,嗯,是多少卡?几千卡,反正训这个模型是几千卡,但实际上我们要投入大量的卡去做研究,嗯,所以其实实际上的研究的卡会是实际训练卡的几倍。训练比如说呃,Mimolayer
Pro和Flash,其实呃各自训练可能几千卡就够了,呃,但实际上你去投入做模型研究的卡会是这个卡的很多倍,嗯,我觉得三到五倍是一个更好的区间。
嗯,就是不管是你前期的结构的研究,然后呃中后期的 post train 的很多算法上研究,啊,所以不是说我们拥有几箱卡就足以去做这个事情,而是说呃,至少我觉得在卡的资源和储备上,嗯,目前来看,嗯,尤其在 Agent 范式下,啊,其实卡的数量反而变成一个非常重要的一个瓶颈,因为 idea 的。诞生和这个,嗯,动手,呃,你把它代码写出来太快了。
然后你现在卡在什么呢?卡在卡上,就因为因为你那个GPU它它它的效率就在那儿,所以你要为了去验证idea,你去跑实验。然后你要并行得起很多实验,所以就卡在卡的瓶颈上。所以现在卡反而变成一个更、更、更关键的一个制约项。当然,还这这只是for训练,那for推理的话,卡更是一个更关键因素。对,就推理卡的需求量,语言比训练会更高很多。
嗯。训练、推理,呃,和实验这个最好是记笔记。嗯,推理看看看用户数。对,或或者说是看高价值场景消耗的token数,所以这个很多场景因人而异,对没对?所以就把推理,嗯,拆开看,嗯,那我如果说我们嗯这样子来说,嗯,就是for研究跟for pretrain和for posttrain,对,嗯,我自己觉得一个非常合理的卡的一个比例是可能三比一比一,对。
嗯,对后后就pre训练post训练应该比例是投入的算力是相当的,然后研究的比例应该至少是你正式起训练的卡总量的还要多一点,就你要额外留更多的卡来去做研究啊。过去的预训练和后训练的比例是多少?嗯,至少在恰的时态,应该是一个非常夸张的,比如说三三比一、五比一对预训练跟后训练一个比例。嗯嗯,这是今年一可能会发生的一个很大的变化。
应该有很多团队都是一比一了。嗯嗯,顶尖的团队应该都是一比一。嗯嗯,训练一个一T的模型挑战是什么?我觉得全方位的挑战吧,基本上是全方位的挑战,就是。数据上其实,嗯,反而不是非常大的一个挑战的原因是,嗯,更大模型貌貌似对于更脏的数据的容忍程度更高,嗯呃,但是呢,但是我我我我不确定,对我不确定,因为我们是同一批数据训的,所以我不确定,我只能说貌似,嗯嗯。
然后,应该更主要挑战是你在遇到遇在训练的历程当中遇到问题的时候,你怎么去去?我觉得第一步是你要发现问题,对,就比如说很多团队会把 loss back 当做一个很正常的事情。但是我们可能会尽量的让它没有loss spike。对,我们认为有loss spike肯定会导致某一步的更新,嗯,特别的不稳定,某些数值就异常值很大,就直接把某些参数或者说某些expert给它。
给他打死,就是打死,就是参数更新过后,后面再也不会有 expert 送到了,呃,再不会有 token 送到 expert 上,所以那你中间就有需要很严密的监控的系统。就是你要去洞察这个模型参数内部到底发生了什么样的变化,你需要一套这样的一个监控系统,比如说你至少要去看看 S
布尔的负载怎么样,去看看每一层参数的输入和输出是怎么样,它激活值有没有变得很异常,这些东西是嗯, North back 发生过后你应该去看的事情,但是可能不是所有的团队都会去看这么细,这是我说的第一步要发现问题,对,可能好多人就不把它当做一个问题吧。
然后,呃,发现问题过后,你再去想,OK,它到底是什么样的原因,嗯,引引导这样的问题的,比如说,有可能是,呃,稀疏比。太高了,导致比如说负二层输出跟 sliding window 层的输出是,呃,至少数值上的差异是非常大的。那么这数值上的很大的差异就会导致一些数值不稳定,有可能是结构的原因,有可能是结构的原因,也有可能纯粹就是 inference bug。
比如说你哪通信的某个算子写错了。我们最后发现有,甚至有可能就是某个呃呃 long 上,反正有有点问题。你可能可能最后实在无奈的一个解决方式是,你发现这一层的数值太大,你就给它要么就给它克离不掉,要么就给通过 long 给它压下去。就是它有非常多解决方案,比如说通过 low 压下去,它肯定是我我认为肯定是会对模型效果有损的。
啊, clip 不掉是一种方式,比如说啊,我们也会借鉴 Kimi 的 QK clip 的方式。当 QK 的某些 losses 非常大的时候,它实在影响模型的训练稳定了,你你没办法,只能把它 clip 不掉,这样至少能让训练更好进行下去,进行到一个稳态的时候,你再给它放开。啊,对,那些就有太多的这种临时的,你要去发现问题、解决问题,甚至去倒推很多。
可能会产生,嗯,导致这个问题的一个一个一个分析的一个路径,嗯,这些路径其实是非常考验一个团队的。跨团队,其实其实如果是在一个很大的公司,它就是跨团队协作。然后,但这个协作效率是极低的。然后,如果是在一个很小的团队,一个创意型的团队,那么它就是考验这个环节上的关键几个人的配合程度。那么它就会更高效一些。
然后,以及如果这个环节上的每个人都足够的啊,嗯。追求极致,就就是追求极致,他就不不能容忍你这儿突然这么干,那我们就必须停下实验来找问题。嗯嗯,你们属于哪一边?我们肯定是属于小团队非常极致的类型,嗯嗯,所以就会导致啊啊,那么这样训练周期会被拉长,因为训练周期它肯定不不会一两个月就把它训完,嗯,那么训练周期拉长的情况下,如果说有一个非常明确的一个
deadline 目标啊什么的,那你肯定就承受不了这样的。
因为,因为比如说,大几显卡你停一天,肯定就是一两百万、两三百万的事儿。对,那么你怎么去承担这样的一个损失?如果是在一个嗯目标驱动的一个团队,可能会觉得。停个呃两两三周去排一个问题,这个问题还不知道是不是个问题,会不会对模模型最终训练产生影响啊?嗯,可能是一个不太能接受的事情。但是在我们这儿,我们认为它就是一个问题,我们就应该去解决它,因为我们没有那么清晰的一个说我要发布的一个目标。
你们没有带来?我们没有,没有带来。就我们觉得模型训好了,我们再发。对。呃,没有公司来的压力吗?没有,没有。你们确实不是一个创业公司,对吧?不,不是一个创业团队。但实际上,它就是个创业团队。我觉得,呃,Memo和还有包括Micro的,呃,能做成,其实都是以创业的方式在运作的,所以它才能做成。嗯,训一个一T的模型,对你的管理难度是不是指数性指数型的上升?
嗯嗯嗯,不没有管理团队的难度是一样的。嗯呃,这应该说不不太存在管理,因为大家一块去解决问题就好了。对,就是你不需要去管理这几个人,就是大家我们一一起来解决这个问题,然后每个人都有自己不同解决问题的思路。对,然后一起来解决问题,然后反而是这种解决问题的这种以身示范的能力,是一个非常好的文化和导向。呃,训练模型是多大团队?
很小的。我我只说训练这个事儿本身,但你做数据还需要那么几个人,也是几个人。嗯,对,几个人。还需要什么吗?嗯,可能还还需要一个非常好的基建的团队,就是你可以理解为把。嗯,把卡给集群给搭起来,嗯,呃,这个infra团队吗?嗯,这不是infra团队,这就是基础设施团队。嗯,这个团队可能需要有那么一点儿需要有有经验的人,因为没有经验,他脑会出一些低级的问题。
对,是一些基础的运维设施的经验。那你们的诀窍是啥呀?我本身我也没有觉得它是需要一个非常大的团队协作的事情。我觉得团队协作当然有有有有优势,就比如说,呃,大家在卡资源巨量的情况下可以并行的去探索,嗯,对做研究来说是有优势的。但是我并不认为它对,嗯,我刚刚说的那种场景,发现发现一个。可能是问题的问题,然后去深入排查原因,去解决它。
我并不认为他对这种模型训练进程中遇到的问题是是很大团队是优势,反而很大团队有可能是劣势。嗯嗯,训这个模型过程中,你的团队状态是什么样的?团队状态是,嗯。原来做数据的那一那做预训练数据的那一群人,就去做后训练的,嗯,然后,嗯,做infar做训练框架,嗯,做推理infar人一块来去解决训练过程当中的问题。
嗯,哎,这是为什么?这是为什么?为什么有这个变化?就是为什么预训练的人家去做后训练?很多样的原因哈。嗯,首先后训练的一大部分的原因是你需要有很好的数据直觉,这是还这还是蛮重要的。嗯嗯,其次就是。其实它是基于个人爱好、兴趣产生的,对它不不太是基于基于你说哦,我们这里需要人,你转一下,不是,大部分是大家自然而然发生的。
但是我我确实能够预料到哪些人会做这样的一种迁移,因为有很多能力特质上是很共共性的,就比如说对数据的直觉,比如说会从模型效果去。去倒推一些算法的设计,其实做数据好多时候也是在干这个事儿,嗯,所以,嗯,可能我觉得主要原因是我们对人的界定没有那么清晰,然后所以大部分人他会自然随着训练阶段的变化,自自由的去选择下一个阶段更有想象空间的事情。
对,你们现在是一百人吗?我记得上次聊,嗯嗯,现在已经到一百人,但是这一百人是包含,嗯。就是,呃,嗯,所有链路上的人,就所有链路包,比如说数据采集,嗯,数据质量,然后 pre train 的 infra post
train,然后包含甚至我们的开发,我们需我们需要有一些开发,还有包含我们的产品,包含我们的数据百校生,还有包含三个方向上的算法工程师,就是,呃,大致你可以发上,就是呃,语言、多模态和语音,对。
嗯,然后这里边一百个人里边实习生的比例是很高的,然后有有部分实习生可能是在做一些更。当下不会立马反映到这一代模型结构上的事,呃模模型能力上的事情,所以其实真正投入到一代模型里边去迭代人,我觉得是很少的,可能可能所有链路上加起来也就二三十个人,三四十个人,对,最多也就这么多人,二三十个人,二三十人比较均匀,对,嗯,这里面有组不同的组的划分吗?
啊,没有,没有,呃,没有组,没有组的,所以你一对一百。呃,差不多是。为什么没有组的划分?比如说,为什么不分预训练组,不分后训练组?因因因,因为很多。很多人他会对两个方向都感兴趣,嗯,如果你组划分的非常的清晰和和固定的话,那么其实是在扼杀一部分人的创造力,对,嗯,或者说扼杀他未来的成长空间,嗯嗯,第二个就是,嗯。
我确实也不认为做后训练的人,嗯,如果说做后训练现在的一个一个很重要的一个范式变化变化是,他需要具备 diversity 这个视野。很多做后训练的人他是怼着一个场景去做,他没有这种多样性的视野。但是做预训练的人,第一应该关注的事情是多样性。因为它不能往这个模型里边塞一小部分数据,它要塞多样性更好的数据,所以其实做预训练的人去做后训练有非常大的优势,就是他会天然更在乎多样性。
嗯,然后是是就是他他就是个很好的补充嘛,他就是个很好的补充。当然也有人他一直做后训练,他就比如说他只研究强化学习,他所以他一直做后训练。那呃或者说叫leader training吧,对。就Anyway就是有,就至少我们不要在组织结构上去给某些按按场景来把某些人的这个嗯,我认为是创造力给他扼杀在这个场景里边,那就很很奇怪。
我在我来看,对,没有组也就没有leader。嗯,有有推动实际这个项目往前运作的人,对,就哦,但是他都是很模糊的,就比如说可能这个项目要往前走,比如说我们要训 Memoview Pro 的预训练,然后或者说后训练,可能有实际往前去推动的人,但这个人他并不对。参与这个项目人有绝对的控制权,对,嗯,就是没有职级,对吗?
对,你可以这么认为。但是小米本身是有职级的。本来我们这个团队的整个的组织结构就是完全结合的。嗯,没有职级,你觉得对于做AI很重要是吗?做大模型,没有职级,没有组,这这个对于智能涌现本身的意义是什么?我觉得平权本身是有价值的,就是就是平权本身是有利于所有人去平等的贡献自自己的,呃创造力和智慧,我觉得是有价值的。
对,嗯,任何层级,应该一定层上都是在。在规范和约束,然后规范和约束本身,我自己认为是压制创造力的,嗯,然后以及有层级过后,他就默认这个。呃,层级上的人应该,嗯,有哦更强的,超越所有人的一个智能,嗯,对,这个很奇怪,这个界定非常奇怪,嗯,我我觉得不太会存在有。对,所以反而更扁平,然后尤其是对于最重要的那个leader人,他不要有特别强的这种掌控感,然后以及这种觉得没了我就不行啊,这种呃,我觉得如果有有一旦有这样的一个想法,反而不是很有利于一个创新团队的发生。
那咱虽然你说没有管理啊,那实际上怎么管理呢?嗯,靠热爱驱动管理,我觉得这是很重要的。我我自己发现是最行之有效的方式。嗯,对,嗯,就哦,去去选择激发大家的热情,然后嗯,让大家围绕着自己愿意信仰的事情去。自驱做事儿,我觉得这这是我一直比较坚信的最有效的管理方式。你有什么驱动热情的方法?嗯,让大家啊认识到一个新的事情。
让他去体验,其实是驱动他热情非常重要的方式。比如说 OpenClaw,这是一种体验方式。你看起来用了一个非常极端,说哦,你不用你你没有一百轮的对话,你明天就辞职,这是一个非常极端的方式。但是你的目的是体验,是吗?对,我也不会注重去考核,我第二天也不会去考核大家,说 OK,你真的有没有用?因为我我觉得那不关键,嗯。
然后我我只在乎你有没有真的去用这个动作,是不是真的达到一百轮?那只是一个量词而已。所以你还有什么用热爱驱动大家的方法体验?嗯,就其实筛选人的时候也很关键,就是嗯,很多人你可以从他过往的经历看出来他到底是在围绕着什么样的目标在做事情。对,嗯,就靠热爱驱动做事情的人的特质会非常的啊,嗯,special。
对。就你跟他聊天的时候,应该就能感受出来。哎,就有的人他会为了很多奇怪目标做事情,但为了热爱驱动做事情的人是非常明显的。嗯,怎么明显?我没有办法,就是有很多量化指标,但是我我去跟他聊天,我能直接感受到,就是能sense到。对你们在这个一梯的模型的训练有失败吗?还是一次就成功了?嗯,这这是呃,这是看怎么定义失败。
就比如说你训训到呃,loss直接飘了这种,那那那那那应该中途还是发生过那么几次的几次。几次我现在都不知道几次了,反正两三次总是有的。对,就loss直接飞了,然后呃,但是它训呃呃,比如说呃,训训了几百步又回来了,嗯。那你说这种情况,你是应该停下来解决,还是应该继续往前训呢?解决,我们认为是应该要解决,就应该停下来解决这个问题。
对,嗯,他他其实呃就这样敲上去啊,几百步维护,然后又这样下来了,哎,就这,嗯,我们认为应该停下来解决,所以就会停下来去解决它,让它诺色更平稳的度过。那一般会停下来几天?这就不好说了,就几天也有可能,一两周都有可能,最长的时候有两周。我停两周焦虑吗?不焦虑,因为我们又没有什么目标。哎,当然了,你那么多卡,你天天嗯做一堆实验,嗯,今天我想这么去排差不多,哎,感觉是这个原因了,快改改了又跑,跑起来第二天看又这样子,或者说中晚上那那反正晚上都睡不好。
然后我我经常晚上做梦说。呃,为什么老师又 spike?我烂七八糟的,呃,那就这种,我就其实虽然我们没有明确的时间节点,但是你还是会崩溃嘛。所以,所以还是有很多很沮丧的瞬间的。嗯嗯,但是虽然没有明确的节点,但是卡,呃,就是它是有限的,对不对?对,你会觉得你可能浪费了算力资源在做一些无用的实验,就是有有这样的,呃,自自我的。
批判觉得,嗯嗯嗯,对,所以参数量。能决定智力的上限吗?就是越大的模型越好。我现我现在嗯觉得是参数量加上 contest 本身,对,就这两个是共同决定的。是,但但至少要达到当代大家觉得最强的 agent 的水平,我觉得一定要一 T 以上的参数规模才能做到。才能让他觉得你已经非常接近于四点六ops这样的数,但我不知道它多大,我只是觉得我自己认为至少要一t以上才能做到总参一t以上。
当然,更激活的呃,更关键的还是激活参数。对,所以但激活参数越大,比如说你你总参都是一t,你激活参数越大,就意味着更高的推理成本。嗯,对,所以它就是一个trade off嘛。嗯。为什么从五比一提升到了七比一?就是混合注意力机制。嗯,我觉得我们追求一个更极致的一个稀疏比,就是 full 跟 sparse,呃, full 跟 sliding window 的一个稀疏比。
最主要一个原因还是我们希望在更更大的架构里边去做更嗯更高效的 non context。嗯,对,因为更大架构,如果你的 full attention 的层数变多了。如果你的总参嗯变多,你的负二通形的层数也随之变多,那么其实,在长文的情况下,它同样会变得非常的崩溃,因为你的负二通形的层数变多了。但如果你扩大参数量的时候,你的负二通形的层数没有变,那么有可能。
有可能,嗯,你你的长文Pro跟Flash两代模型是效率是差不多的,但是它的Pro的智能水平是提升了的,嗯,所以我们希望在一个长文的效率相当的情况下,我们希望它模型在scaling它的它的水平的上限,所以我们是比较去控制住这个效率本身的。但是控制住效率本身,后面在Agent时代也有一个更更有价值的一个事情,就是。
那既然与这个更大模型它的长文效率很高,对吧?哈,那我就可以塞更多的上下文,然后它就又更强了。对,所以大概就是呃一个这样的一个一个决策的一个背景。对于这个E T的模基座,你们的几个决策,第一个是混合注意力机制,刚才我们聊过了,呃,然后再就是E M的上下文窗口,这个在做的时候是否有丢失的情况?呃,M它是要还是要训的,就是长上下文它还是要训练的。
就问题有关键是你从哪儿真的去搞到,在一兆的上下文的窗口里边去,呃,有那么多,呃,很。很稠密的监督信号,我觉得,嗯,这个这个这个很难找到这样的数据,或者说这样的数据的构造的成本非常的高,构造成本非常高。所以就是,所以其实其实你要真呃站到中局的思维来看,你只要有呃,比如说嗯,你如果你有一个一t。的token量,而且它都是一兆的真正的长上下文。
那么你的模型呢?呃,我我认为你的模型一一一兆能力肯定能训上去。你只要loss一直在降低,它就是在在在建模、在压缩,那么它就一定能训上去。但问题的关键是你,你很难去构造出来真正一T一兆的。Context,你真的很难去构造出来,就是要么就成本太高,要么就你就很难找到这样的场景,所以这是问题的关键。我们有呃,所以所以这个 Unclass 的效果是缓慢在提升的,慢慢去提升。
然后你们还有第三个就是 MTP,这个是延续的 Flash,这有变化吗?嗯,对,没没没有什么太大变化,其实就是预训练的时候训。一层,然后 mid train 时候再训额外更多的层,然后预训练训一层是为了去提升基座的能力。后面,呃呃 post train 训训更多层是为了推理的时候用更多层实现更好的推理加速。
对,呃,关于 Pro 的技术要点,除了刚才三个,我没有遗漏的。差不多了,我觉得聊得已经非常透了。所以 Pro 是几个月前开始做的,嗯,那另外两个呢?同期基本上都同期哦,都是那个时候开始规划的。对对对,其实都是三个三三,大概是三个方向同期再往前去推进的。Pro 加上 Omni 加上 TTS,它好像整个的 VR 家族是在指向多模态的叙事,嗯,但是它的模态又非常的不一样。
嗯,文字是离散的token,图片是像素矩阵,音频又是波形,你们怎么去做这个融合呢?嗯,其实我们还是想尽量把它统一到那个主model的范式下,所以,嗯,所以在至少在音频的建模上,我们想要把它离散化。变成跟文本一样的离散的token的ID,嗯,然后,所以我们在音频上是在这个事情上是投入的比较多的研究的算力,说怎么去进行离散的音频的建模,而且这个我们希望这个离散音频的建模尽量做到啊无无损的一个一个一个离散化。
对,因为大家还是不太相信说你怎么把一些连续的输入变成离散,最后还能重建出来这个事儿,其实是需要非常多呃呃对encoder更精细的,比如说我们需要一些多层的rvq来保证它呃它的它的离散的表征是一个非常大的像dense一样的高维的空间,嗯,然后呃我们需要更多的预训练来去。让让它开始涌现。如果你基于连续的特征做,可能很快就涌现了;但你基于离散特征做,你会更难去建模,它的涌现出现的时间段会更晚。
然后,所以我们知道在音频上是开始了这个尝试,然后也会牵引到后边其他模态。就嗯嗯,我们还是就就比较想用一套更优雅的架构来去做整个。呃,多么太空,多么太输入的一个理解,嗯,呃,但是,但是我们不是为了统一而去做这整套架构,就很多时候,如果说,呃,我们发现确实,比如说在图像上离散确实是不那么可行的时候,那么我们还是会寻求到一种说目前。
更主流的一种架构里边去,因为我们优先要保证的是这个模型它要具备的是一个整体的一个智能水平,而不是追求为了统一优雅的一个范式。对,音频统一到LLM里去容易吗?应该,应该我们还蛮另类的,嗯,对,就我们我们应该挺另,就我们的技术架构应该是非常另类的。我知道应该,诶,国外的预三家也好,国内像豆宝也做的蛮好的,应该都是跟我们完全不一样的架构。
你为什么选这个架构?就是做让我批的人执念吧,就我们做音频人全是做让我批的人,所以有这个执念就觉得相信他啊,然后就去做了。那图片能这么做吗?能,我们已经尝试了非常长一段时间了,嗯。呃,所以你们能用 LLM 作为一个统一的一个方式,对,但是它其实是一个权衡,就是就像我说的,你要做到真的无损的一个重建,是需要投入更多的算力、更长的研究成本在的,它是个权衡,嗯,对,嗯。
至少在音频上,我们已经迈过去了。哦,呃,图片呢?迈过去了没有?图片正在进行中,嗯。不知道能不能迈过去?哎,如果迈过去,这会带来什么呀?这会带来更大的想象力吗?更优雅的结构?我倒,我我我我最开始是认为,如果我们把它统一都离散化,那么我们可以用一套基础架构去解决这个问题,同一套预训练基础架构,同一套做 R 的基础架构,很优雅的把所有的范式都统一了,就它它太简洁了。
这是如果如果真能做到话,但是我现在发现一个问题是,嗯。当我们有 Claw Code 和顶尖的模型过后,这些架构,比如说我们重新去写一套 L Infa 的架构,重新去写一套纯零 Infa 的架构,我们最近嗯嗯就已经完全在从头去写一些新的架构。我原来以为写这些架构蛮蛮耗费人力,蛮耗费时间的,但是现在看起来,在A G N O的支持下,写这些架构的时间被大量缩短。
嗯,那你其实就没有必要为了架构的优雅性,去做很多呃为了统一而统一的研究。呃,这是最近的变化,一个月内的变化。哦,但是之前你是希望团队统一的,对,你这执念就之前是来自于这种哦,LP的执念,就是所有东西离散优雅,监督信号更清晰,然后你可以做NTP,做Least Term Prediction,然后。呃,你可以所有复用所有现在的infrastructure,哇,多爽呀!
但现现在回过头来看,嗯,infrastructure重新写一套也没有那么复杂,然后几个人可能靠靠code你就两两两三周,你可以重新捏一套新的Ro框架。那为什么要因为我后面后训练的infrastructure架构的统一性去牺牲,让前面嗯模型结构呃牺牲这么大?对。哎,但是 Omni 在做的时候,它是走了一条就是有别于分别处理各模态再拼接的这个路线,对吧?
它是构建了一个统一的,试图构建一个统一的。嗯,倒没有,我们欧米利的整个VIT的VIT上,只是去做了一个。就它还是一个VIT,只是我们嗯把它变得更高效了,它变成了一个呃hybrid的 sliding window的一个VIT。嗯,对,呃,但是我们表征本身并没有做太多的变化,就它还是一个呃呃连续的一个表征,并没有做太多变化。
为什么你们叫把叫叫做全模态而不是多模态?就是因为它支持确确实是支持视频、音频。图片、文本,所有的模态,嗯嗯,然后也有一些 agent agent 类的模型是不支持。音视频的联合理解的,然后它应该是第一个,嗯,呃,第一个支持音视频联合理解,并且A G那个能力能够做到跟南无主摩德的水平差不多的,是不是有迹象能表明这种全模态或者多模态的理解里能够产生智能啊?
两个月前我很信,我我我我很相信,然后最近的呢,就是在反正,在训欧美的整个过程当中,就是稍微有点被。就是稍微有点质疑这个事情,对,嗯,但是我们后面还是发现了一些很好的迹象,就是比如说,呃,呃,嗯,Memo Vir
Omni它其实是比Pro小的,但是大家实际去用的时候会发现,这个Omni的,呃,这个。对世界的感知和领悟力上,嗯嗯,或者说最终反映出来他的情商以及他的知识的储备上,会比更大的模型更强,因为它训的多嘛,因为它是远生动态训练的。
嗯,所以,我我猜测,可能是因为我们在这两个方向上 scale 的,就在纯纯语言上 scale 的算力和纯,嗯,这个呃原生多模态上 scale 的算力还不那么多,可能导致我们现在并没有看到原生多模态有那么强的一个,嗯嗯,本身,嗯,多模态本身带来的一个一个一个智能的一个很大的一个提升。但你能感受到,就比如说很多世界知识,他跟他因为他训过视频,所以他他知道的更多。
然后,嗯,他对很多很细微的东西的感知力,你会发现他更强。但这些都是很虚的,都是我们自己去实际体感去测感知力。对,都是对感知力会更强。但是你在任何Benchmark上,你是没有任何。就纹丝不动,可以这么说,就就是比单有可能benchmark错了,当然有可能,当然有可能,所所以所以我现在也不完全说,呃,非常确定说O K,你要去理解多模态能力是最终实现所谓A I路径的必要必要路径之一。
我我我是不想去下这样的一个结论的,是因为我觉得每个人对A I的定义是不一样的,然后嗯。嗯,尤其在Agent的这样一个呃,可以把多个模型的能力给非常优雅的编排到一起的场景的情况下,我觉得我们根本没有必要去非常去强调啊,多模态之中是不是促进智能这个事情的。就是这个它有没有促进智能这件事情本身不关键,那多模态带来了什么?
嗯,就我刚刚那那两点,我觉得也目前我只观察到了这两点,我现在还不知道未来会不会带来带带来在在一套新的呃架构上会不会有一些新的东西。嗯嗯,我觉得可能做动态生成,未必会有一点点不一样。嗯,就是就是会生成,它可能会促进更好的感知。但是你要是纯说把你的感知维度给它扩大,嗯,可能你是不太会促进智能的。但是如果你能生成它,maybe是能促进智能的,这是我的一个猜测。
嗯嗯,但是生成现在还是一个科研问题,是是嗯,或者说呃呃,把生成跟理解做到一个统一的架构里边,目前还没有给你到非常大的算力,嗯。的八泵下,嗯,大部分的生成的架构还是纯负生成的,就是它并没有理解的智能。嗯,那你对于 Omni 这个模型的目标是什么呀?就是你设计它的目的是什么?哦,我就是我觉得截止到目前为止,就是 agent 它要行动,它是必须要具备多种模态的,其实是这样一个目标。
但下一个目标,我觉得不是这个,就下一个目标可能还是想去探索到说,当你结合多个空间的感知,甚至你能去生成更多的多模态的信号的时候,你会不会促进你对这个世界的理解?对,这是,但它就需要有一个。更直白说,它可能就需要有一个跟现在的Agent的框架交互的更好的一个视频生成的模型。对,为什么你们没有披露Omni的总参数量和激活参数量?
呃,留个。留点想象空间,嗯,给我们留点想象空间,就是我们相信,呃,这个参数量可能能做到更更,可能更更接近于 Pro 的智能水平。虽然大家知道它比 Pro 小一些,只是小一些是吗?呃,对。然后呃,但是我们相信他们俩能够互相迭代。我们希望他们俩能够互相,你你提升我,我提升你。我们希望这么做。对,看看 Pro 是不是更重要。
嗯,当然,program做呀,嗯,但就是纯语言空间去做通非常多的前置的研究是更重要的。那关于TTS有什么值得划重点?嗯,我觉得TTS就是一个。就我觉得我们做 DTS 的动机是,我们想用我们自己认为一套优雅的架构去做一个大家都都都用一个传统的架构做起来很容易的一个事情。哦,嗯,其实你在试这个事,对对对对对。
然后,呃,但是,呃,我们在这个事儿做完过后。我们发现,用用把它把嗯,追求一个离散化同奈尔,在万亿诶小时的呃不在那个呃上上千小时的数据集上啊进行训练过后,然后嗯嗯,我们发现。这个模型的泛化力是非常好的,但是,但是我没有办法去对比说,我们去训一个很小的模型,它泛化力是不是不是真的没有这个好?至少我们目前得到这个模型,大家能看到它,呃,你再给它输入很多风格化。
多样的风格化的标签的时候,哦,就不管是它,它会更更嗯,更更智能,就是它会看到你的这个。字本身,它会更更通过推测你字表面的含义去赋予它的情感和音律。对,在这个事情上的泛化性上,我们是,呃,发现特别明显的,特别明显,因为我们只是简单的做了一些很特定的几个。场景的风格的数据做SFT和RL,就是很很刻板的几个风格化的场景,就是比如让它快点儿、慢一点儿、高兴、悲伤这种很刻板的风格化的场景,去做了这种风格的呃post
train风格化的post train。
但是我们发现,你把那个style的标签给它变成一些非常复杂自然语言的描述。它也能够遵循,这是这是它纯泛化出去的,这是我们在做这个的时候发现到这种简洁的架构加超大规模的训练带来的一个超强泛化力的一个外化的表现,但是还很初期,所以我们这个TTS的模型,我认为效果啊是非常惊艳的。呃,也就是说它的上限是非常高的,然后呃呃,但它下限我们现在在慢慢的去弥补,对它有时候会不太稳定,所以我们现目前只是一个限时免费,就开放出来A
P I大家玩一玩,但。
不确保它真的能投入生产机可用,嗯,但很快我们会让它变得生产机可用。嗯,你之前在一个发布会上,嗯,画过一个通往AGI之路的图,然后你对比了人类的智能,就是是一个生物演化的路径,它是一个正三角。然后倒三角是一个现在AI的发展,你觉得AI发展是一个空中楼阁?因为在人的进化中最顶端才是语言,但是AI大语言模型极大的放放大了最顶顶层,所以它是一个倒三角形。
你觉得怎么能够拼拼接出这个AGI之路的图?你现在做的事情在往这条路上走吗?就我觉得现在大模型的演变逻辑确实不能跟人。就完全不太一样,嗯嗯,我觉得呃不一样的原因是环境不一样,就人演变的环境跟模型演变的环境是不一样的,嗯嗯,人演变的时候哦,它是随着自然界的变化为了生存,然后来进行演变的,但是大模型它好像一开始上来不是为了生存,对。
嗯,他以他是为了什么?嗯,好,我不知道现在大模型有没有自己的价值观,但是要我们要要要硬给他赋予价值观,就是让他替代一部分的人,但他好像不替代,他也不会死掉吧?呃,他没有这种生存的危机,嗯,所以,嗯,所以大模型它可能更,我觉得他会,呃,当没有生存的危机的时候,它反而呃会进化的更自由,然后。更更散漫,更有创造力,对,就更快,更不是不那么受约束,以以及它现在的呃基础条件太好了,它有那么多算力可以用,然后嗯嗯,它有人类宝贵的知识起点,作为一个基基基础的起点可以用,还有那么多人帮它提升,所以感觉这两个环境完全不一样,所以进化路径就不太一样。
语言之后模型的进化的下一步会是什么?或者哪怕在语言里细分 coding 之后,下一步会是什么?嗯, coding
它还是会有一个它非常好的一个主旋律,就是它要做一个很复杂的软件工程,一步直达的开发。我觉得,那持续的时间越久,哦,能做的开发的复复杂度不一定是代码量,主要是复杂度越高,嗯。比如说,你写一个K罗算子,它可能代码量并不高,但是你需要写了去,呃,调试、debug,看它是不是在真的训练中升,呃,呃,嗯,提效,对。
真的有效果的提升,这个验证的环节有可能是长的,但是它这个算代码量有可能是不长的。总之就是你要参与到实际的这种项目开发里边,我觉得会确实是做做code的一个非常大的一个主旋律。嗯嗯嗯,简而言之就是它替代的程序员越多,那么这就是它的主旋律。嗯,然后在外外延到更广泛的,呃,生产力的场景,其实它确实是需要借助一个更强的,一个一个一个交互。
方式的,就比如说飞书呀,然后呃呃,WhatsApp就是Telegram,它都是一个很好的交互方式,它是降低你去跟它交互的这个门槛和频率。然后其实一个更好的交互方式是,呃,那就它就有个它自己的身体嘛,对,它可以到处移动。嗯嗯,所以就是机器人肯定还是一个for交互的一个很好的,就是for智能体交互的一个很好的,必须会涌现出来的一个方式,对,所以它肯定还是会从嗯屏幕上。
跃出来到我们真实的空间,那么啊,但是机器人它本身的一个演变的。呃,瓶颈有大概率可能是在硬件。对,上次我们也聊到,就是在硬件,甚至在电池本身上。当它进入到我们这种内内部的封闭空间,然后甚至在一些灵巧手的灵活程度上,所以,嗯,这些都会比 agent 本身的进化,在语言空间的进化要慢。你之前说 Flash 是通往 HR 第一步,现在到第几步了?
感觉历程已经到了百分之二十吧,百分之二十,嗯,对。今年能走到百分之多少?百分之,我觉得至少能到六十六七十,对啊。那A G I很快了。对我,我感觉两年的应该能实现。两年的能实现,就过后就是大部分人确实会失去掉自己,会抛弃掉自己原来的的工作模式,是。然后生活生活模式被颠覆是更之后的,因为生活它并不产生生产力价值。
然后工作是产生生产的价值的,所以你先会感受到是你的工作模式被颠覆掉,其次再是生活。然后你要真迈入到生活被颠覆掉,可能就是就需要更多是啊机器人。哎,当然你不喜欢A G I这个词啊,也也没有一个明确的定义。但是我觉得这里面就是它被它的时间线被提前,这里面很关键的变量就是能A I训A I了,对不对?呃呃,这确实是一个标志节点,因为它可以自提升嘛,就是它应该说它可以达到最。
最最巅峰的一群人的智能,因为他可以自己训练自己,他就能去创造新的研究。就是他有做新的研究的能力,这个确实是他自迭代的一个巅峰,自自自自学习自迭代的一个巅峰。这个会是今年的大模型厂商的一个核心的竞争点吗?就是你很难说去 for 让嗯 A I 一个大模型去设计任务去针对去训练,因为它是一个更高阶目标。你你你不会说一下去迈到这个目标,但大家最终所做的模型,都会通往这个目标。
如果你你你有最尖端的模型的智能,你最后都会去干这个事儿,但是它不是只能干这个事儿。在两个月前,你认为AGI还有多远?我觉得至少两年以上。那会儿我确实这么认为的。你现在觉得两两年以内了?嗯,你觉得你们新新一代的这个模型,尤其是Pro,嗯,和中国的这一代模型,你觉得和美国差代差还有多久?我觉得,呃,在国内其实目前已经具备一T以上的基座的公司有好好几家,嗯嗯,Kimi,Kimi,然后还有米某,嗯,还有还有一些还有一些对,然后嗯呃这些呃模型厂商,我觉得基本上是在当下。
距离国外顶尖,就拿 Cloud Ops 四点六来说,我认为如果反应速度足够快的话,应该只有两三个月的代差。就嗯,不是说两三个月过后能追上啊,两三个月过后的呃 Cloud,而是说能追上当代的
Cloud。我认为这个概率是蛮高的。嗯,然后,那么在这个情况下,这两三个月大家怎么去发生变化,其实是考验这个团队的整体的研究水平,然后,嗯,这个技术的敏捷程度,然后以及怎么去拥抱新新新的范式的这样的,用用拥抱新的方式来做研究,这个真的非常关键。
然后,就是我们开头聊的,对对对对,然后啊,那就是在比拼这个事情,所以。我我觉得接下来两三个月会会非常精彩,然后呃,同期会发生的事情是我们能看到Agent的框架。在在在就就已经在过去的两三个月,OpenClaw本身也进行了大量的改进,然后你也能看到一些自学习和自迭代的一些诶诶框架的一些产生,然后嗯嗯,然后。
呃,所所以,A建的框架这一层也会在接下来两个月会进步的非常快。嗯嗯,然后再其次就是呃呃是。随着前两个爆发啊,就是呃,Agent的框架越强,模型嗯的能力进一步的飞升飞升,并且我们的成本是有极致的优势的情况下,那么其实推理的需求一定会爆发。我觉得几倍到十倍的空间是是非常非常可能会立即当下会发生的事情。那么对于推理芯片。
就会达到一个空前高涨的的这样一个需求,所以那么怎么去在现有的产能,尤其是可能大部分卡点在于存储上,对,嗯,然后哦产能的基础上,然后你去呃呃拿呃不管是自自己自制造还是用到最先进的芯片来来去啊做更好的推理,对,那么就是一个非常非常。更更好、更低成本的推理,就是一个非常关键的一个命题。嗯,然后,呃,最后就是,呃呃,另外一个事情就是,for更长线的事情是,嗯,我们肯定不会在一T的这个水平上走太久。
如果要拿到下一个阶段的领先,那么你就要寻求更大规模的一个scaling。那么到底是去scaling模型参数量,还是去scaling什么东西?然后以及你要在什么样的芯片上去scaling?对,那么就是当下立即需要去决策和判断的事情。那么这个事情才是决定可能半年。或是大半年过后的谁是更领先的?嗯,你现在做的决定是什么?
这个决定就要保密了。所以我们现在看到的所有memo相关都是半年前的决定。嗯,差不多。我看到你发文。发推,嗯,说就是好几个人都问过你说为什么,嗯,Mimo团队非常的迅速,然后你给了几个关键的结论。一个是核心架构与基础设施的研究周期漫长,所以呃需要看到回报的一年前就具备战略信念。第二个是训练后的敏捷性,是另外一种能力。
然后第三个是好奇心,就是热爱,是你一以贯之都在说的。能不能解释一下这三点为什么能带来呃一个超级大规模的模型的训练的迅速?呃,预训练因为它太浅质了,所以更关键的事情是你需要在哎,你你需要有一种预测能力,或者说有一种战略定性,就是你训这一代模型到底是 for 什么准备的这个事儿,一定是要要提前一年就要去想清楚,或者说半年。
也就为什么我说半年或一年,就是因为以前我认为是一年,现在我认为是半年,因为Agent实在会加速这个事情。对,总之就是你要提前很长一段时间就要去想清楚,你这一代模型结构在后面这么长一段时间里边,它要干什么?我觉得这个事儿得想清楚,嗯,否则的话,它就不具备一个优势,它可能就是一个很平庸的模型结构,一个平很平庸的模型结构,并不会说带来一个非常平庸的模型效果。
嗯,但是它一定会带来一个非常平庸嗯的成本和效率的呃劣势,对。然后,所以,所以这这是我我认为就是预训练啊,或者是嗯呃infra应该前置去做了非常多的事情,而后训练的话,因为它。现在是在跟Agent去耦合去进行迭代的,所以很多事情你没有办法去,呃,前置规划的很清楚,所所以这个时候就就更考验,嗯,我们怎么基于当下这个模型能力跟这套Agent的范式产生了这种化学反应,嗯,对,然后你怎么去快速的去设计新的,啊,infra架构。
啊,对,这儿也要涉及到新的 L 引发架构,因为针对于针对于呃 Code 和 Mass 这种 reasoning 的呃这种呃这种恰的形态下的 reasoning 的 infra 架构的核心,嗯,是这个呃推理引擎本身是模型的推理引擎本身,因为模型要推很长,思考很久,然后给出来一个答案。这套这是这一套 L
引发架构的问题,而针对于 Agent 的 infra 架构,它并不只关注这个模型推理本身,它还要关注。
呃呃,这个模型嗯跟这个A agent的一个耦合,嗯对,所以它是以从Ro out的这个推理引擎切换到了以A
agent为核心的推的这样的一个更复杂的一个一个黑盒的一个,有可能是黑盒,有可能是白盒的一个系统。对,所以嗯,那么这里边要解决的英法上的很多问题,跟上一个差的时代做R一这种嗯差的reasoning时代要解决的英法问题是完全不一样的,所以需要这个团队更具备敏捷性去快速的去开发针对当前这个时代的R英法的系统。
然后哦,然后呃,由于一种框架变化太快,那你这套系统要有足够好的兼容性。去去去兼容,甚至你想想,如果它真的要涉涉及到自适应或迭代,这套 R Infa 系统得多困难?嗯,对,哎,那么这套 R 系统 Infa 是不是要具备足够好的一个容错的特性,以及?你怎么用?因为因为它涉及到推理训练,还涉及到G P
U跟C P U的一个很多综合的管理,所以这这这一块,我觉得这个团队的敏捷性以及infra跟研究的这样一个配合是非常关键的一个一个事情。
如果做的很好,那么就会体现在你你会感觉到研究的速度会很快,嗯。然后再其次,最后的一个一个事情就是,我觉得,嗯嗯,确实关于呃好奇心或热爱或者或者是呃呃这个呃技术的一个坚持,我觉得是很多很优秀的researcher身上的很多特点,嗯。但你说要是怎么去,嗯嗯。嗯,从一开始源头上去筛选,然后管理、激发,然后最后让大家去统要我要我要这呃所呃呃大部分人所信仰的事情去往前去运作,它确实是一个非常复杂的一个事情。
然后这个事情的难度,我觉得不亚于去设计一个非常好复杂的一个AIGC的系统。嗯,所以嗯,在这个事情上,我觉得我也是在摸索。然后嗯嗯,我我觉得我更多的是。是,是在,哎,也也是在在在这个环境中去学习,对,就是学习。其他人怎么去嗯,在他自己擅长的领域,然后做得更好,所所以这可能是为什么我最近对所谓群体智慧最终会产生最终AGI的一个一些思考的原因。
对你说的群体智慧是不是还不只是一个公司一个团队?对我觉得是全人类的群体智慧。哦。这是 OpenClaw 在做的事情,它可能是引引发了这个事情。OpenClaw 到到可能我不知道它的动机是不是,但是至少它现在让大家共同去改进一套框架这个事儿上,以及以及在如此短的时间内让大家去去去去做这个事情上,我觉得是有这样的一个苗头了。
嗯,对,刚才提到中国美国的差距,你觉得中美实现 AGI 的过程会不一样吗?方法,坦诚来讲,我不是很了解美国,所以,嗯,我至少觉得按照我们目前的这一套,在。模型在啊,应该首先是前沿的研究,其次是模型的水平,然后再其次是Agent的框架。再其次是芯片、能源这些多多方面的角度上,我我认为是是非常可能领先的。
嗯,合起来非常可能领先的。嗯,能不能理解这个智能体的框架其实是补全了一个拼图的一某一个环节?对,其实我觉得它是,嗯呃,是补全了模型在复杂任务上完成的正确率。一些很复杂任务你是很难很难去描述清楚的,然后你也很难把你所有的完成复杂任务的 context
输入给他。嗯,但是有了这套这种框架过后,它以一种非常嗯容易的交互的方式,就自然语言沟通的方式,它就能把你所有的你再去做这个复杂任务的时候的呃呃呃context全部给具备,并且。
并且它还是,所以越用越聪明,就是你越用你的所有的智慧全部被它吸纳进去了,被这个框架本身给吸纳进去了,这还不是被模型吸纳进去了,但是它最终肯定是,嗯,变成类似于模型的参数被吸纳进去了。对,呃,我有一个感觉,不知道对不对啊,像不像一个补丁?我觉得对于顶尖模型来说,它也不算补丁。对,嗯,对顶尖模型来说,它好像是加油器,但对于中中段的模型来说,它它就是一个非常好的放大器,呃呃呃,就是觉应该说不是放大器,是应该说让它变得很稳定,变得啊在各种场景里边都都输出非常好的效果。
但对于顶尖模型来说,好像它是成倍的放大它的上限。嗯,因为你加入小米一段时间了嘛,呃,然后过去半年呃发了好几个模型,你觉得过去半年对你来说意味着什么呀?有什么得到了进步的地方?有什么觉得不足的地方?这个问题真的是,我觉得这个时代可能就是,嗯,我感觉每天可能都在否定昨天的自己,嗯,就不管是很多,呃。嗯,做事的方式上,嗯,还是你对事情未来的一些判断上,我基本上都是在一一直去否定,对,嗯,我觉得,呃,我觉得是在这种否定当中,嗯,自我类型和反省当中成长的。
比如说,有一个什么地方得到特别大的进步,你觉得?我觉得我的历程没有说有一个非常清晰的说,它有一些我自己给自己设定的节点,然后我打到达到达这个节点的时候,我就感觉我好像进步了,而是说它一直在进步。然后哦,它可能有时候是一个很平缓,有时候加速一下,它有时候又平缓,但总之它一直在进步。所以,我你要让我自己去找一个。
啊,标志性的事件,我自己觉得我真找不出来,但是我感觉我就一直悄悄的在进化,然后我脑子这套系统就悄悄在进化。有什么心法吗?心法,心法就是,嗯,以前我在做量化的时候,我觉得学到一个非常有,嗯,让我能够去克服挑战的很重要的一个是一句话是,嗯。总有方式去建模价格,对,嗯嗯,这是当时我自己觉得,呃,给我一个力量的支撑的一句话。
然后,当我后面,嗯,但做做量化的时候,你你感觉价格就是你的reward,对。嗯,你要去预测准价格,你才能做好量化投资。嗯,然后嗯,到回到呃呃做大模型赛道的时候,你会发现那个reward是不那么清晰的,然后是变化的,然后这个时候哦哦,你应该。更就对我来说,我的心法就是说我应该做当下符合我呃价值观的事情,然后呃这个事情我觉得它一定是要。
对更多人产生价值的,然后一定要是更有意义的一个事情,然后是我觉得是这样的一种,我我觉得如果我们创造大模型的这一批人,如果说嗯没有这样一个内驱力,而是说我要做一个破坏的东西,那么我我估计最后会非常危险。嗯,所以我我我现在的想法就是说我每天做的事情是不是让这个世界变得更美好一点,或是让某部分的呃呃。呃,这个很boring的事情得到了被替代,然后他有更多时间去做更有价值的事情。
所以,我们老在幻想,如果我们的工作百分之九十被替代过后,呃,我们应该干点什么有意思的事情?每个人都能想到非常多有意思的事情哦?真的吗?对,真的。嗯,你想干嘛?呃,好,那我我我我觉得我想的事情在变化,但但是我觉得我此刻,嗯,我有想过。此刻我还没想这个事情,我我大概还嗯哎一一个月前有想过,就是我觉得嗯呃一个非常有价值的事情是,现在中国的很多基础的研究它其实是太嗯。
太太去要要要要求有有一个很完整的产品啊,乱七八糟的证明的,就并没有一个很好的呃资金,或者说有一个慈善的机构,或者说呃OK呃什么样的东西来去支撑嗯这种做基础研究的人去做呃去去去呃往这种嗯更突破的方向去去迈进一步,然后也没有很好的呃。这种体系,包括如果有很好的这种呃算力资源,它有需要很好的基础设施的体系来去支撑他们去做这样的事情,那么我们可不可以搞一个这种公益型的啊?
呃。组织来去support这个事情,对我有想过,这是我一一个月前想的事情。如果说我们哪天实现了,那那那实现了以后,那那这个时候就就比拼谁做研究的速度更快嘛?是AI不是?对呀,AI也在做,人也在做,会不会诶诶诶诶,我们人跟AI一块儿去引导它做的更,呃呃,我们能创造出来的研究速度会更快。就我始终觉得,应该加速做科学研究这个事儿是,是哪怕最终实现AI了,也有很多要做的事情。
为什么要一定要去跟他竞争?就让他做好了,那不一天到晚躺就没事儿干吗?总要做点新的事情吧。如果纯享受生活,应该也挺无聊的。嗯,或者说你总要去做点儿帮助他的事情吧,我觉得,嗯,然后这个事情可能是当前的模型,比如说提供情情绪价值,对吧?哈,给模型提供情绪价值,给模型提供情绪价值,哎,他需要吗?现在之前还在想怎么让模型给我们提供情绪价值。
嗯,对对对,总之就是要做点有益的事情。呃,但这个有益,我觉得是按照个人的价值观来进行评判的。然后,嗯,无无聊是不是一种意义?我也不知道,但是好像无聊对我来说不是一种意义吧。过去半年,你遇到压力怎么缓解?压力的有压力的时候大吗?我我的脑子就是一个 Stanley Wonder 腾讯,就我我我忘的非常快,我哪怕有压力,我当下立马就是呃呃。
可能可能可能快的话一两个小时就过了,慢的话一天要过了。我睡一觉,第二天一定就过了。对,所以我我我缓解压力的方式非常快,嗯,但是嗯,这也基于一个前提,是你第二天会有一些新的有想象力有上限的事情给它冲掉,你立马就忘掉。如果它还是在那个 context,应该就忘不掉。这次模型发出去之后,跟你有什么想象不一样的吗?
有什么得到什么新的反馈啊?我觉得这一次就是,我觉得所有的事情都在我意料之内。嗯,就我也不是说这一次,我觉得每一次都在我的意料之内,是因为我先看到这个模型的能力,所以我能预料到这个模型发布出去过后,别人会是什么样的一个感知的状态,所以反而我是对任何发布是有点脱敏的,对。然后,嗯,我我也能预想到他。最火的一种状态是什么?
或者说最最炸的一种状态是什么?这些我都能预想到,所以它完全在我预料之内。我我也没有有多兴奋或多怎么样,我只是觉得OK,我我们认为这个模型达到的水平和能力被大家感知到了。这就是我这次发布的感觉,嗯,所以,我我我我我在发布前一两天我就知道大概是这样的状态。如果没有被感知,那就证明我们哪做错了,就是我们我们的评判,我们自己内部的评判标准出了问题。
然后,嗯,所以其实我我当时觉得我们发布前的那个评判标准,我认为是没有问题的,就。呃,外部对这个模型的这个评价,包括它它在什么框架里边好用,它目前达到什么模型一个对标的水平,基本上都在我们跟我们内部的评估是一样的。然后,所以大家是正确的评估了它的。嗯,我我反而是在发布的前几天就是在开想,OK,我们下一步要干什么?
下一步要干什么?就我早已经进入下一阶段,所以这一阶段状态我都就就没太care了。对,那你们为什么三月十一号的时候是先上线了两个神秘模型?呃呃,出于就是因为 post train 在在在训在训练过程当中,我们拉了中间的呃几个切分的出来看了一下,然后发现到某一个阶段,发现它就呃非常好用了,然后我们就觉得呃应该让大家去体验一下它。
然后,嗯,以及匿名的阶段,大家的这个评价会不会更公正啊?这确实是一个很好的方式,所以就直接上了 OpenRouter 匿名上,看大家对他的评价跟我们是不是一样。然后,当然也有一些,比如说,呃呃呃,我我我们当时没有意识到问题,就是。那个模型的长文当时训并没有训很久,所以它确实不好。然后,所以我们在后面匿名发布到正式发布的那一周时间,去着重去优化一下它的长文的体验。
嗯,这个是我们从匿名期间,嗯,接收到外部评价,啊,对我们来说最有价值的一个提升。然后,呃,除此之外,就是,呃,我们在匿名期间去验证了我们内部的评估是没有问题的。然后,我们只需要按照我们自己的这套评估体系,再接着做后续 scaling 上的事情就行了。你的 benchmark 是什么?你们团队的 benchmark 是什么?
怎么驱动?嗯,我觉得做好大模型本身就是 Benchmark,但是这个好是我们自己来定义的。这个怎么让公司同意呢?就跟公司的关系应该怎么处理啊?嗯,雷总同意就行了嘛。嗯,我觉得他是一个非常好、非常有战略眼光的。老板,天使投资人,呃,那位呃,后边还有很多标签,对,嗯嗯,就没有要。就在这个事情上,如果一开始我加入小米之前,就在这个事情上是高度统一的,所以后边你不需要有过多的解释和说明,对。
就就做就行了,对,按照我们的判断和和和直觉做就好了。然后做了,嗯,老板来说,嗯,做的好。刚才我们聊了很多,都是就是关于你们V R家族的哎这个模型,呃呃,我我下面想跟你一起来想一想,就是我们过去三年整个模型的进展,你会把它分成哪几个阶段?从二二年底就是Chat G P打响的这个大模型的战争,然后每一年的关键的变化是什么?
我们是怎么走到今天的?在你的眼中?我觉得差差的G P是第一个,就是嗯,发挥模型在一个,我猜测应该就是一个四K的预训练的场景里边的。模型的智能水平,对,其实预训练的长度,或者说,呃呃,最终这个 context 的长度确实很关键的。所以其实下期B只是让大家感受到,OK,我在一个四K的 context
里边预训练,训练完过后,然后我呃通过简单跟他对话,这个对话轮数是一轮、两轮,甚至多轮的情况下,他在一个其实其实那会儿的 context 是跟你的对话轮次高度相关的。
对,一轮两轮,一轮两轮,两轮,然后你可以在后续轮去纠正前序轮的很多问题,模型也可以在后续轮去澄清自己前面犯的那些错误。嗯,这其实是ChatGPT当时给人的冲击,就是你感觉它在对话上达到一个类人的一个智能水平。然后,但这些所有东西发生,可能就是在一个很短的上下文发生的。然后,他只是在这个很短上下文去把模型在超大规模预训练上训的那种,嗯,loss降到最低的那个、那个、那个、那个智能水平给激发出来了啊。
但所有激发的一个前提,都是要靠有一个很很能让人感知到智能水平的这样一套。交互恰的就是一个很好的交互,对,否则你不知道这个模型已经这么强了,嗯,对,所以恰的是一个很好的交互,这是二二年恰GPT发生的事情,嗯,对,然后嗯,二三年的话,其实呃,当有一个顶尖的B样模型做到的时候,它的下一年就是OK开源界怎么去追上这个顶尖B样模型,所以二二三年你看就是Llama Qwen。
包括DeepSeek,嗯,包括呃呃嗯,就是就是这些开源团队,对,就是在准备去首先借助拿马披露的怎么去做好大规模预训练的。呃,范式其实就是怎么去做好数据,怎么去,哎,那会儿结构都是未知的,就是那会儿你你哪怕是一个七B的结构,那么这个 transformer 结构的呃是怎么样的?是 pre-norm 后 norm,然后这细节是怎么样的?
然后你的还能塞死多大?这些超参那会儿全完全是。不透明的,但是拉玛告诉你,OK,你这么训能训成功,他给你开了个头,那么借助这个头,所以Qn,OK,哎,借助拉玛的一个架构,然后哦做更好的啊预训练数据,呃做更大规模的预训练的computers给你,OK,就是Qn系列就起来了,嗯,然后但是Qn做的很好,是它for开发者生态做了。
全尺寸的模型的训练,然后也也训了一些,嗯,多模态模型也做得非常的顶尖,然后,嗯,这是对社区非常有。非常有利于激发后面社区做一些微调啊,还有像有一些微调的框架啊,诞生了一些必要的先决条件。对,然后嗯,DeepSeek在同期呢,虽然也是尝试再去复刻拉马,但是嗯嗯,但是可能更在乎的是去看到拉马这一代架构有什么样的问题,而不是去着急去。
给你,对他更更更在乎说,OK,那么这代架构,比如说当当当下啊,那么还是用GQA,那么那GQA在更。嗯,大的模型里边儿,呃,尤其是在,哎,嗯,那个,呃,那在一些是受限的,呃呃,那个GPU上。对,有有有短板,基础上去训练的时候,它会存在什么样的问题?我我们scaling会遇到什么样问题?OK,我觉得可能要涉及到一些新的结构来解决这个问题。
所以就是 DeepSeek V2 和 V3 那个训练阶段,就是想想去诶诶提出一些新的架构,不管是 Moe 或高效训练,LMIC 或更更低的推理成本,对。然后这个时候诞生的事情,所以嗯,DeepSeek 那那段时间可能会更注重说,OK,我去做更好的研究,来在更嗯更差的芯片上去做哦 scaling 这个事儿,对。
拉马的缺陷是什么呀?他就是个凳子嘛,然后你要真要去给他scaling的话,你会哎,比如说呃,你你。比如说,现在没有人去训一个几百B的灯丝啊,开源界好说开源界,因为训几百B的灯丝虽然那么高过,你也能看到结论,但那个结论不一定是说这个结构的问题,就是就是它太贵了,它太贵了,你去训它也很贵,然后你去推它也很贵,没有人会去搬运一个又笨又贵的模型。
对,那所以你MOE。for更高效的训练,然后更高效的推理,然后像MA这种for更更更高更更低的呃推理成本的这这些模型的架构就会诞生。对,所以这是这这是同阶段可能QN跟DeepSeek在走两个路径,QN是在纯scaling,然后啊DeepSeek是呃考虑的是呃创新的基础上再scaling。呃,哪个是正确的?
没有没有没没没有什么,我觉得正确或错误吧,因为他们两个人的,一个是为了啊拿到最强的模型,在有限算力资源上拿到最强的模型,因为毕竟DeepSeek的算力可能只有只有Qwen的非常少。几分之一对,然后呃,但Q问想的是我怎么去促进整个生态更好的发展,所所以两个都是对的,没有没有说谁谁是对的或错的。然后这形成中国的两个开源势力,对对对,一个开源势力是在做研究上做到绝对的高度,然后一个开源势力是在真的生态和呃生态价值上,我觉得做到一个高度。
生态价值本身也是个价值,对,如果没有这么多的。好的开源模型,那么非常多好的研究工作,就像 DeepCRe 前序的很多研究,其实是都是在 Qwen 的模型上去做的。所以,所以他们是彼此促进的,对于社区都是有价值的。嗯,对。然后,当然,DeepSeek更多的也另外一方面价值是它有一个全新的结构带来对于训练成本的一个啊一个冲击,或者说呃以及对后续推理成本的一个冲击,导致啊呃呃很多啊云。
推理芯片吧,我觉得算是推理芯片有了更多的、更准确的判断。OK,下一代芯片我应该怎么去构造?嗯啊,怎么去设计?对啊,我觉得这是一个对这个。呃,整个 A G I 历程来说,是一个非常好的一个事情。对,然后这是这是可能二三年、二四年发生的事情。嗯,然后二四年可能唯一发生的一个事情,嗯,在所有人意料之外是 O E 和 R E。
其实 O E 和 R E 其实在呃,我我觉得它在 T P C 的内部也也也算是一次奇袭,可以这么说。奇袭?对,也也能也可以这么说。对,呃,就是就是它也诞生的也非常的偶然,诞生也蛮偶然的。我认为它其实就是呃。说当呃预训练范式变到后训练的时候,然后呃对于组织和团队以及创新的要求是不一样的时候,那么整个团队应该怎么再去重组织的一个问题?
对我我是在这个事情上得到的最大的感知是这个对,嗯是团队,嗯我我觉得团队是起首要要素。按照传统的管理方式说,哦,我现在要对后训练加大投入,好,算力我投了,那投人,那我从外面挖一个人来,或者是我,我,我从,嗯,就是我,我新新组建一个团队,这个是错误的方式吗?就得看这个团队本身,他他可能会觉得后训练的人就做后训练。
我是觉得这样不是很有利于创新嘛?嗯,就是最主要就是,嗯,就是你你能想到很多点上他会做的不好,嗯,就比如说我刚刚说的后训练的数据的多样性上。嗯,如果只是做后训练的人,天然就缺乏这个视野。嗯,然后还有就是,嗯,很多啊,其实我觉得最主要原因是这个呃,很多团队他对做预训练和后训练人的那个人物画像很刻板。嗯,反正我们不是按照这种很刻刻板的方式来去去招人、组织人的哈,所以它很刻板的问题就是,它天然也导致做预训练人做不了后训练。
或许是这样子,呃,总之我也没太去了解这里边深层原因。我只是当我去了解的时候,我就觉得啊,怎么那么奇怪,就拉拿出这种疑惑。那我也不管你为什么这么奇怪了,反正我就觉得那样不太对,然后就我就不这么做就OK就行了。呃,所以我们外界看到的可能是R one,但是你在内部感知到的是在这个模型开始训之前的对团队的调整。
嗯,和组织其实其实就是大家认不认可这个事儿,然后以及我们要以种什么样方式来做这个事儿。我觉得我是在R E的过程中是有非常大的体验的,但最终的那个结果,就我我能预知到的时候,就我走的时候,R E还已经做到一个Light的水平,然后Collegan
Mass已经做到了非常接近于,呃,那个O一。我以小的那一版,嗯的水平,然后嗯,那我预预已经预示到了,是我觉得OpenClaw、Agent范式很吃后训练、卡的分配、组织平权。
呃,但我没有预设到的事情是,呃,它其实是一个范式的转变。就 reasoning 它其实是可以通过 code mass 这个高泛化场景能放到通用以外,这个其实欧伊也没有走通,这个是我没有预料到的事情。所以,哎,也是因为哎这样的一个背景的因素在导致我后面再看一些新的东西的时候,哪怕它是 for 一个很锤的场景去做,像 code,尤其是 code 这种场景去做。
我会先思考它是不是真的能泛化,嗯,是不是我把它想小了,嗯,对,然后,嗯,啊,这这只是一个一个可能。我自己沉沉淀下的一套skill,然后嗯,然后这这是二四年二五年对,可能二五年我觉得很burn的一个事情是它处在一个很。交错的一年,这个交错一年就是你可以选择在差的这套范式下把 reasoning
给做到极致,嗯嗯,继续去把啊思维 bench 啊,把呃那个 live code bench 这些偏 code 的 benchmark,就是思考很久给出一个答案这种,然后把这种嗯嗯嗯。
呃呃呃,AME对这些,对,你可以在这个范式上选择继续生根,你也可以选择我呼去掉,我就不管这些,对我不管这一套范式,然后我就去想下一下,嗯,我我可能在这套范式上能够做到六七十分就OK了。其实AME做到六十分就六七十分就表示这个链路你已经走通了,但是你你你是不是可以就可能比较聪明的团队,我觉得二五年年中就会全面拥抱。
去 for 新的 Agent 范式去做事情,而这是你的选择。Minmax 是已经转过了,Minmax 我觉得算是转的最早的,Minmax 是国内转的最早的。对,应该是我觉我觉得比Kimi还早,嗯嗯,但这样一种新的范式下,它其实对整个团队的这个啊敏捷性要求又很高,嗯嗯,你要快速去迭代,基于一个基座快速迭代,所以你看从模型的发版速度上,你也看能看出来哪些公司它拥抱的速度够快。
对,然后嗯嗯嗯,可能有些公司就没有跟上,就是还是在原来差得方式下去继续生根,没有跟上。然后哪怕你去做了一些这种布鲁斯坎普思维,那个那个呃思维bench这些,还有就是terminal bench啊这种这种哦这种呃代代所谓的agent的这种bench mark,然后并且在这些bench mark提升到很深,但它并不代表这个模型它真的能实际可用。
就Bronst Camp,比如说它就是一个非常离谱的一个评价指标。就在这上面训的模型,它只我我感觉只能在这种数据集上训测。你换种方式,呃,哪怕也是做做信息检索的方式,你呃做呃你你最终它能力还是发挥不出去,就很奇怪。嗯,就是这套呃,整个数据集太局限,整个A呃呃框架也也也非常的呃specific,对,所以就是呃,就这半年,如果说在做AIG的,人大部分是在走到这个歧途上,我觉得它算是歧途。
啊,我们也走了一小阵儿。这儿Flash第一代的时候并没有想做Agent,其实想就是想做很好的Chat。但我觉得,呃,一个原因是因为我们确实要先打好Chat的技术,就是我就像我说的,你Chat至少要做到七八十分,嗯,对,然后把整个历程给走完,嗯。你才能够说,呃,你的 post train
的数据的基建,你的 infra 基建,你现有的人,尤其是我们招的全都是没有做过大模型的人,他他有个历练,他必须要有个成长经历,否则他一上来就做新的东西,怎么好做了?
对,就是我,我认我那会儿呃做 flash 的时候,我纯粹是一种 OK,我们做过的事情,再让一群没有经验的人再做一遍。但我更在乎是这群人在做呃这样一群新的事情的时候,他们自身。在进化,然后他们这个进化,嗯,就对我们后边去做新的事情非常有价值。因为我我极少在中间给非常强的super微信,除除非我发现要要掉头了,对,否则你给太细节的这种监督信号,就是告诉他这个事儿应该怎么做的一个缺陷就是。
嗯,你会让这个让让团队的大部分人去去失去原创能力,这是这是嗯,我我我认为应该去尽量避免的事情。对,什么叫做你们团队都没有大语言模型背景的人?就是就是我们大部分招人之前都没有做过一个大模型。嗯,他们刚毕业,呃,就比如说在学校做了一些基础的研究,然后比如说之前甚至不是做大模型的,那是做什么的?做工程的呀,然后做开发的呀,这些都有,一点训练背景都不需要。
呃,有大概。三分之一到四分之一人稍微有一点点训练经验,但是可能都只是训过,比如说啊七B,嗯十四B啊,那类似于这样的规模模型,我觉得它跟训大模型的完全那些经验也不太能复用,对。那需要你有很强的训练的呃实践的经验吗?他对你的经验要求高吗?嗯,他对。一二三四步应该做什么?要求会更高一些。哎,但是,但是我后面发现,嗯。
你不要告诉大家一二三,负责做什么,然后就推大家一起,我们一起来重新做一半这个事儿,然后呃大家就会往前走了。啊,这个组织等会儿聊,我们先把这个这个这个聊完啊。嗯,你刚才回回顾了从二二年底到现在的整个就是技术发展历程以及各公司做了什么关键的事情。嗯,所以现在大模型的竞争从之前的Chat过渡到了嗯Agent,对吗?
嗯,这算是这个模型竞争的第二幕。嗯,第二场战役,就是所有人都开始在同一个起跑线上了。开源模型应该是,可能闭源模型,我觉得早早,比如说比如说,可好的应该是两年前就在这个路径上了,只是我们没有意识到它是最正确的路径而已。对。或者说,大部分没有意识到,很多人我觉得是在去年意识到了,对,去年意识到,但是都没有在做正确的事情,在我来看,啊,什么是正确的事情?
正确的事情就是你要在一套非常复杂的agent的框架或多样的agent的框架上,然后去端到端的完成更高复杂度的任务,并且以此为目标作为你的后训练的。范式对,而不是在一个很局限的场景里边,针对一个这个场景定制的这个这这一套很简洁的架构里边去做啊。另外一个比差的更复杂度高一点儿点儿的。呃,任务,然后它的模型的输入输出还是一堆字符串,呃,就是就还是一堆token,一堆token。
然后你的模型的R的范式可能还是我刚刚说的以以以推理output为中心,但其实A智能已经不是了。你觉得Minimax是在这个转变是比较快的?我我感知到,我觉得它是比较快的,因为他们用一个十bit的模型做到目前的这样的一个。嗯,agent能力我觉得是是蛮惊艳的,就是他们的后训练的敏捷程度是非常惊艳的。但是你说,嗯,agent的这个第二幕所谓的入场券是一T的基础模型,那那MiniMax没有这么大的模型啊?
对,所以,我我觉得他们并没有说真正意义上已经对标Card四点Ops四点六了。就,我把入场定义为你要做到对标到Cloud Cloud Open四点六的水平,嗯,它需要一体的基座,与此同时,它需要和敏捷性。对他已经具备这个事情了,那他具备具备的是后者,嗯,所以现在中国公司还没有同时具备两者,对吗?我嗯对,嗯嗯,看一看 DeepSeek 吧。
我刚才呃,我们顺了一下,就是从二二年底,然后到现在每一年的模型变化,嗯,你觉得到今天,嗯,你能不能评价一下中美两边这些厂商,他们各自到了一个什么样的位置啊?现在大家 bet 有什么不一样吗?嗯,大家可能一个共识都是认为 OpenClaw 的路径是正确的。对,我觉得这算是当下的一个共识。嗯,就是,嗯,呃,Agent 的这条路也的路径也会更清晰。
至少在过去的呃三个月以内,我觉得这条路是变得更清晰了。嗯,所以在路径更清晰的情况下,嗯,国内的大模型团队我觉得会更,呃,就就会进入到一个加速追赶的一个状态,因为现在呃,大家在Pretrain上的,呃。代差我觉得是非常啊,是基本上没有的,或者说非常接近,或者说国内的大模型团队在 pretraining 上结构上是有优势的,呃,甚至一度我认为 Cloud 啊可能嗯在呃过去。
很长一段时间做的很多 context engineering,我们都误以为它是因为模型结构不是很先进,然后为了成本而做了一些妥协的设计。嗯,但现在呃,回过头来看,可能是有点想的太局限了。然后现在可能你能看到所有的这些 context,呃,不管它最开始的动机是什么,但最终目前的啊这样的一个状态是它所谓的这个 context 的。
管理以及搭配的整个 scaffold 或者 agent 的架构,呃,嗯,其实是为了啊,呃,配合模型发挥更强大的,呃,整体的,呃,任务的完成度而设计的。嗯,所以我觉得,当大家看到这样一个范式一个转变了过后,所以,呃,又有一个呃基座并没有发生代差的这样一个情况下,那么大家其实就很很 all in 的要去做好。
好,Agent的Posterior,或者说更具体的说,其实就是在Agent上怎么去做好,呃,Out Scaling,其实这个非常啊清晰和准确的方向,但具体的路径研究路径是是需要探索的,但是至少要做的事情就跟二。三年,嗯,要去追平 pretrain 的差距一样,我认为是非常清晰的。对你什么时候意识到 coding 可以泛化?
coding 的泛化性那么强?我觉得一开始就会,就是不管是在 pretrain 范式还是 posttrain 范式,嗯,就二三年,哪怕最开始,嗯嗯,我从量化回到大模型的赛道的时候,嗯,就就会对 coding
的泛化性会抱有非常高的期待,嗯,但是这种期待它是,嗯。呃,转变成说,OK,嗯,我先要好好的去做好Code的预训练数据,然后,嗯,再去Scanning算力看一下它到底在Code Benchmark上会不会很好。
再看看 Code Benchmark 提升了以后,其他的泛推理类的像 B B H 啊、 Zoop 啊这种 Benchmark 会变得更好。最开始是这样,其实它是一步步去嗯实验啊验证的这样一个探索的路径。然后哦,到 R E 那块又又一次验证了,因为 Code 和 Math 都有非常好的 Verify 的指标,所以又一次验证。
然后到 Agent 这个范式, Code 又又又因为它有很好的Environment,然后呃,并且code可以天然做很长程的任务,嗯,比如软件开发就是一个非常长程的任务,你做一个非常复杂项目工程就是一个很长程任务,所以它又很适合Agent这个范式。所以,他基本上在每个范式上,他都戳中了,呃,呃,那个点。
对,就你都可以在课楼上去,至少在研究上,你可以是自闭环的。然后,呃,然后,并且在这个自闭环路径上做出来的东西,它是很容易去 scale 到其他的更广领域的通用数据上。嗯嗯,其实 code 本身就已经挺通用的了。然后他他还很容易很,因为他本身就是自然语言,所以他很容易给你对,所以做客这个事儿,就是我觉得至少在。
这三个范式转变的时候,嗯,它它都是一个非常优雅的路径,对。RL scaling现在探索到哪个哪一步了?你们有什么探索的初步结果没有?暂时还不是很方便分享,我觉得等我们有一个啊,至少我觉得在 ROS Scaling 上的算力跟预训练的算力达到一个同一个水位的时候,我觉得我们会会给大家分享。你觉得今天的竞争变得更激烈了,还是变得更平缓了?
相对于二三年?竞争的维度变多了吗?竞争的维度变多了,嗯,但是其实呃,应该说竞争的维度和速度变都变多了,速度变得非常快。可能每呃,你做预训练,你不可能一个月出一个模型,但你做后训练,你确实可以一个月出一个模型。嗯嗯,然后呃嗯,还有就是。呃呃,其实 agent 这个事儿,它除了看 agent 的架构本身,也看你对整个推理测的。
嗯,结构或者说甚至硬件芯片,对你是怎么去认知它的?我觉得它它会影响到有一些最基本的决策,比如说,嗯,十兆的context什么时候做,嗯。嗯,要不要怎怎么去给你一兆的 context?其实它也涉及到你在比如说你在预训练如果阶段就去给你,那么你后边儿呃对应的啊 post train 在一兆上去做 post train,跟在二百五十六 k 上去做 post train,它的算力差距是好几倍的差距。
所以你是不是有足够多的算力差距去 support 你去做这个事情?对,所以呃呃,以及你最终的场景以及这个框架本身的能力,是不是支持你能在十兆上的能力也发挥出来,或一兆上能力发挥出来?它其实是有一个更长的决策链路,它从原来 pretrain 哎,只需要对 pretrain 本身的架构做决策,到需要对哎你你对快速的接下来一段时间,按按 agent 框架演变推理芯片的。
整个市场,啊啊,我觉得算是供需的一个预估,因为它因为芯片。嗯,它它它受受制于这个制造的工艺,对吧?哦不,呃制制造的呃嗯储储备,所以它它瓶颈就在那儿。然后以及你要不要尽早去规划啊,去做更广的,不是傅达英芯片的模型结构,都是需要提前去做好规划的事情。嗯,这个说的是大模型的公司维度,那你就觉得对于创业公司呢?
当然你没有创业。你觉得今天创业公司的机会变多了吗?站在二零二六年,还是更绝望了?坦诚来讲,我不是很了解除了基座到他们型以外的创业公司,嗯,所以,而且,呃,但是我能看到的是,嗯,至少他对公创业公司的团队的规模要求会越来越小。嗯,就是可能不需要有一个非常大的公司,嗯,就几个人,甚至一个人都可以成为一个公司。
它大大概就只要你你学会充分借助agent来去让它变成你的。就我之前老看看到有人说Open Claw上我一个人养很多个员工,就嗯我自己也也去做过这种毛体检的尝试。虽然当下目前来看是不那么现实的,或者说我觉得有点噱头,但是我觉得它很快会变成一个现实。嗯,在今年内,嗯会对multi agent对对multi agent现在没有突破的地方是什么呀?
现在差哪里?嗯啊,每个环节都差一点。就比如说,呃,你需要有个足够便宜的模型,因为你你最终算的是它是不是比我招一个真正的员工更便宜。对,要是不那么便宜好用,为什么要用你呢?对,所以哎,你还是要有一个更更低价的一个模型,嗯,不可能说你烧个 cloud ops 一天花一千多 token,结果那个员工创造价值可能一千,啊,对,就这个意思嘛。
然后啊,第二个就是,嗯,第二个就是我觉得现在的 multi agent 的架构并没有那么,呃。我觉得还有空间,反正对还有空间,以及他们各自怎么去自进化、自迭代,以及也互相互相去沟通。嗯,这这都还有还有空间,就嗯,都还虽然有,你你感觉现在已经有这个雏形了,而且呃,我自己也猫提卷也用的挺顺的,但是我我我始终觉得它还是在去,哎,节省成本、节省时间,并没有去放大最终的上限。
我现在还没有感感受到这样的,所以那会不会猫提卷的协同的RL训练会不会做到这个事情?我嗯,未必吧。那你觉得模型公司的边界在哪里啊?现在模型公司好像没有边界,就是感觉好像我我我之前说我不想做产品,但现在发现就是他他又变成直接做产品了。对模型及产品是对的,对借助Agent,他的产品力反而更强了。然后其他所有东西都很简单,然后就反而反而呃呃呃,就是模型借助这个一些的架构本身就变就变成一套新的产品了。
现在在你看来,一个公司为什么要选择开源,为什么要选择闭源啊?因为国内大部分公司都开源了,除了字节。嗯,现在选开源的目的会是什么呢?这是一个技术选择还是一个市场选择?还是一个去加速AI的事情,我还是认为是这个目的。开源是加速AI的,开源一定是加速AI的事情。就你如果没有开源,你呃,我们假设AI会爆发,假设它会替代绝大部分的生产力,那么我们可以从这个事儿去倒推,你需要哦多少多少的芯片,嗯,你需要呃,那么呃这些芯片难道会被一家公司?
生产嘛?难道会被一家公司购买吗?好像不是,它会分散。然后,嗯,那么如果它是分散的情况下,那么呃,假设芯片是分散,那这些芯片的推理,呃,是有可能是芯片的厂商,有可能是嗯大模型的厂商。那么它用的模型难道是同一个吗?还是用的不一样的模型?我认为一定是不一样的。对,所以你从中局来倒推的话,开源这个事儿一定是有至少有有有利于推进这个事情的,嗯,因为它它最终,哦哦,要要大规模产生经济价值,它必须要依赖于算力才能产生经产生经经济价值的,对,所以我我认为开源是至少对于哎。
对于很多环节,A G I 框架、芯片、能源这些环节上,其实都都是有促进作用。所以我认为它是加速 A G I 进程的。那你说它最后是一种公益,还是一种哦市场?嗯,我觉得是取决于每个公司在开源。呃,是跟结合自己的生态位,就是你有没有一个别人不可以,呃,短期内。嗯,拿下的一个战略的生态位,如果有的话,那么你就敢开源;如果没有的话,你就认为模型就是你的生态位,那你就不开源。
对,就是这样的一个一个行为。对,你在一个大公司做开源的事情会有压力吗?呃,我现在不觉得我在大公司做事情。其实小米整体我觉得非常的创业导向。我我我我我觉得,呃,很奇怪的是,它看起来是个大公司,但它其实是一个嗯做事儿的灵活度非常高的公司。所以你觉得,二零二六年什么会成为模型公司竞争的胜负手呀?嗯,做对了什么才能留在牌桌上?
首先不能做错的事情是,首先,呃,你你你的啊预训练基座。嗯,不能错。就如果这个事儿都没有上,那就那就基本上就就完全没有机会了。对,呃,所以假设我们都有一个。大于一T的模型,然后基础的潜能都在,尤其是在cloud上潜能都是相当的这样的一个一个base上。那么大家比拼的就是,啊,怎么去快速的去,呃,第一个怎么让agent框架跟模型互相自自迭代提升,第二个怎么让这个agent架构去更多的去,嗯,耦合你现在所具备的资源。
对,嗯,或者说生态位,怎么让A这个A A G的架构去理解你,理解和调度你现在所标的资源和生态位?比如说操作系统是,比如说硬件是,比如说啊啊呃流量也算是对,嗯,然后呃社社流量社交这些都算是对,怎么让这个硬件架构去适配你现在的所基本具备的战略资源,然后然后最最后合合力起来,怎么把它给整合好?其实,嗯,它很考验的是,嗯。
呃,我我自己觉得它非常考验的是,呃,一个公司愿不愿意用一套新的方式来做这个事情。什么叫新的方式?得思考,原来所有的做的东西都是错的。对,原是不是有这么需要这么多人来做这个事情?首先要思考你需不需要这么多人来做这个事情啊?就是你现在所有做的事情,这些人是不是都需要?被砍掉,因为它的生产力会被另外一个更高效的东西给替代。
嗯嗯,或者说怎么让这群人去利用,嗯,agent来去发挥更大的生产力价值。嗯,对,所以这些都都需要去思考。第二个就是在新的生态位上,原来那些看起来有壁垒的事情,是不是啊还还还是有壁垒的?你觉得 frontier lab 的 frontier 应该体现在哪里?嗯,最基本的,我觉得做研究应该放题,对,嗯,就是还是要有那种。
嗯,自己想要原创做很多东西,而且这些东西可能短期内不会不会那么主流。但是你要说嗯,完全不被主流认可,那也那也那也很奇怪。我我觉得我自己觉得有点蛮嗯反主流。我觉得很我觉得不是很适合的一件事情是,你很难很难skilling。我还是很相信skilling这个事儿。你只要顺应主流的话,那你就很容易去skilling。
哎,为什么呀?嗯,你的所有的 infra,所有的呃硬件、芯片这些,它都是围绕着这个目标来一起往前推动的。那么你你个人就会获,那么你这个研究又会获得非常大的加速度。对,主要是这个原因。嗯,所以,我所以我觉得会顺这个主流,然后去做一点我们超前认为,哎,比如说 Longest Inflation 的架构,它其实就是在这样一个背景下去做的,但它也没有说上开天辟地的研究,但它我我们认为。
呃,这些小点也就沉积起来,那么它就是一个呃非常嗯嗯高水准的呃一个一个一个 frontier 的一个 model 的状态。你对你过去几年做的比较偏原创性的研究,比较满意的是什么?我觉得比较原创性的研究都是工工业级水准的,就比如说,呃呃,Deep Deep Sea VR,它就是一个工业级水准的一个模型。
对,当大家都在主流去做,呃,一个呃更大规模的dense的模型的时候,然后然后我们反主流去做,呃,M O E,然后去做去改attention。这其实是他是这两个都是在做研究,但是他是,嗯嗯嗯,他是稍微有诶在一个呃有时候可能更多是在一个啊呃资源受限的场景里面做了研究,但它本质上是可以scaling的研究,对,所以我觉得这个算是一个不错的作品。
然后呃,Mimo VR系列我觉得也算是一个是,嗯,是因为我们。呃,确实在A进的这个范式还没有非常明朗的时候,就去做了很多前置的这个决策和判断,然后导致我们很很很,我觉得很高效快速的去基于一个啊优雅简洁的结构给训起来,然后这个结构,并且最终我们发现它非常的适配A进的这套范式,然后我们又快速的去转移到A进的这套范式上,做了很多后训练的。
呃,设计对,尤其是围绕着整个Agent的架构来去重新去设计我们的RInfer,对我觉得这些都是。还就是都是很多点合成起来,然后最终让大家感受到了不是一个paper本身,而是一个呃工业级水平的模型。你对发paper现在有执念之类的吗?没有,就发的越少越好。为什么呀?我就希望别人发发发那种我们团队,比如有些人我说不要带我,对。
嗯,就核心原因是我现在也不看学术会议的paper,主要的原因之一是,呃,我觉得大部分的实验确实应该自己做,然后你相信自己的实验结果比相信论文的实验结果会更好。但是我会看一下他的原始关注的问题和动机是什么,这个我会我偶尔会会看一下。嗯,但但总之我觉得在有没有在这种大规模的算力的团队里边,呃。做过研究的人跟没做过研究人,他关注问题,我发现重叠度也差的蛮多的,所以我现在。
就越来越少看这些论文了。那你现在信息来源包括哪些?来源自迭代,真真来源自迭代。我我最近连跟人沟通都。都很少,都很少,对,所以我都不知道,我今天讲了这这这么多个小时的这些东西,他会不会过过过一段时间发现我我应该会过一段时间会发现它是错的,但是我不知道当下会有多少人会觉得呃它是错的,或者说是不是呃有有有帮助和价值的,这还没交流过,没有交流过,嗯。
要要说有交流,就是自己跟自己交流,然后自己看看跟团队里其他人在做同样实验的人交流。对,你刚刚其实嗯,多多少少都提到了一些组织话题,嗯,包括我们上次也聊了很多的组织话题。你在最近的两个月有没有一些迭代呀?就一百个人,可能有二十个人以前训过、接触过小一点的模型。对,就主要是我觉得这些事情,它都嗯可以被。
被快速习得这些能力,真的都可以被快速习得。嗯,只要你被放在那个环境里边,围绕着一个更高标准的目标来驱动的时候,这些能力都是可以被。我觉得最多一两个月,慢的话三四个月,确实都可以被快速习得。所以,环境反而比经验更重要。我自己认为。所以我就没有太在乎他的经验,而而更在乎我是不是创造了一个更好的环境,这个环境让大家更快、更快的提升学习,让大家互相的,呃,所谓MOPD我们说的就是互相的蒸馏,我蒸馏你的呃你的长处,你蒸馏我的长处,互相这样快速的提升。
对,就是我更在乎说我自己创造这个环境是不符合这样的一个先决条件的。而不是在乎这个人来的时候他的历史背景的这个基因是不是好,我只在乎他的可能初始化切合point的上限高不高,我只在乎这个事情,但我不太在乎他。他他目前嗯已经被supervised的呃呃呃learning过后的那个点的状态高不高?我就不太在乎这个。
那你会选什么样的人啊?就是他的学历是需要和人工智能相关的吗?看中什么东西?看点博士的比例是百分之五十五?对,那是包含在读博士。哦,对,再读不是博士毕业是再读博士,嗯嗯呃嗯哎,那些数字我觉得是有点刻板的,嗯,然后。嗯,嗯,其实其实这更多是代表一个人对做研究的啊呃热爱和热爱程度。就是如果他做对做研究热爱,他可能会选择读呃至少至少呃读读一个研究呃读一个硕士或博士。
嗯,然后嗯,但但我发现现在更我们也招了非常多的本科生,然后本科生在对这种A进的这种新的呃。范式理解上,我觉得反而他的想象力会更高,所以我现在反而招人会慢慢倾斜到去招更多的前置的本科生,我们会去招大二大三的人,为什么呀?因为他们的灵活性和适应程度都感觉没有被污染,就就就,嗯,天然更接纳这个事情会。产生巨大价值,嗯,对,因为他的思想还没有被禁锢的感觉,嗯,然后,呃,所以他敢放心大胆的把自己那些,呃,想法交给。
就他加入去验证,然后自己不断去探索这个边界。那你怎么创造环境?首先,是构建这个环境的人,他是要有同样的特质的。就比如说,我说要强调热爱这个事情,然后强调使命感这个事情,我觉得是要有这些基础的特质的。然后,嗯呃,其次又是在呃这些特质,因为它都比较虚嘛,所以你你信,所以另外一个就是要把这些特质给真的给放大的一个前提是它的基础要好,就是。
嗯呃,就是当你你肯定以为是,当他想做什么事情的时候,哦,他有这个热爱的时候,他要能做成,就是他这个基础要好,他不能就是光就想法多但做不成就这个基础是构建成他最后做不做得成的关键要素,这是一个基础能力。对对,所以我们会选基础好的,然后哦,好奇心强的,然后哦呃,热爱驱动做事情的,当然还有一些可能,嗯,越来越会有一些更。
嗯,更多一对多样性有更高的要求,对多样性有更高要求,因为如果招的太同质化,那么大家很容易去miss掉一些。嗯,看起来是噪音,但实际上对研究非常有价值的一些信息。对,然后那么这个时候多样性就非常重要。嗯嗯,所以我们上班那个,嗯,每个群叽叽喳喳聊的挺多的。对,就大家都会疯狂的呃,把自己呃的想法或者说关注到信息给分享出来,然后或者说嗯呃有有可能是在群里边,有可能就在座位上,反正吵的不行,一天到晚。
然后嗯,我觉得这样的沟通的环境是非常好的。嗯,然后,嗯,然后当然还有一些外部,就是这是内部哈,还有一些外部的因素,就是比如说你的激励的方式,嗯嗯,组织呃就呃就就不不能太围绕着某些非常确定和清晰的目标来做。然后以及嗯呃,我觉得这个激励方式,呃,钱是一个很重要的
baseline,但是它。嗯,他他不是唯一的贝斯莱,对,嗯,就是就是钱要给够,但是呢,除了钱之外的其他东西也非常的关键,就是它的价值感、它的意义感。
其实我觉得很多人更远远更在乎这些东西。你刚才说,嗯,后训练团队搭建方式和预训练会有一点不一样。嗯,通常我们在后训练上看到的人。就两类会会适应的会非常好,对,或者说他对这个事儿会更有热情。嗯嗯,第一类就是他会更注重,嗯,去跟模型玩的这样一群人,对,因为他去玩,他才知道每个模型能力的边界在哪儿,然后,嗯,他才会会去想要哦,去找到一种可scaling的方式去把他这个。
嗯,这个边界给补充回来,嗯,有可能是呃呃去构造一批更强的数据,呃,以及更强的环境,让它能够R L训练起来。然后,呃,有可能是 fallback
到预训练的某个环节,可能这批数据没做好,OK,我把这个数据给它补上,这一类的数据给它补上,那么可能我下次去模型的时候会更好。总之就是,呃,更在乎模型体验的人,更跟模型交互的频次更高的人,嗯啊,他会非常适应这个范式,因为因为我我我觉得这个迭代是有价值的,就如尤其是那些维护了自己很多私有的测试库的人,然后他疯狂去测不同模型的边界,然后,呃呃,突然发现某个模型。
嗯,强了,然后呃,然后分享出来自己这种独特体验的人,我认为是还是蛮适合去去去进入这这个方式的。然后还有一个就是,确实,呃,我觉得不可避免是这个,我们要围绕这个新的新的嗯Agent的方式去设计它很好的RL的infar体系。所以,呃,做RL做RL的infar跟做Pretrain的infar有一个非常大的不同是,RL的infar会更在乎这个模糊程度,我自己认为。
就是就是,培训语法你可能不能容错,就是比如说我们出现一个 loss spike,你就不允许它出现,你要想要把这个 spike 给它呃解决下去。但做二元语法,你就要允许呃它容错,就是容错就是你你允许这个呃模型跟这个 agent,呃,在这一技能框架边入入到一半。这个程序又断了,它但它断的原因有很多种,你根本找不到它是哪一种。
它有可能是因为,哎,这一种框架写了某个超时的逻辑,呃呃呃,有可能是因为,哎哎,他做这个。任务需要很长的呃验证流程,那那那乱七八糟,你你不知道它是什因为什么原因,这个就断掉了。呃,还有一个就是。会不会你的训练跟推理是在异构的集群上训的?然后所以你你你你你的训练和推的不一致性,我觉得在原来Colab和Mass的呃那个Reasoning那个范式里边是不能容忍这个事情的。
但现在你必须要容忍这个事情。然后以及你怎么去做一些更多的异构资源的调度?比如说现在除了GPU你还要管CPU,然后你还要管存储,对吧?然后所以就是怎么在这种很复杂异构资源里边把这个模型训起来?然后嗯。就是我觉得这里边需要很多算法跟工程的一个妥协,嗯,中间这个模糊的地带非常多,然后呃,所以他对INF二人的要求的灵活性的要求和这种。
啊,这种这这跨这两个领域的这样的一个理解,我就要求变得非常之高。然后,呃,是也,换换句话说,其实我觉得它相比程序来说,它都对灵活性和敏捷性都提出了新的要求。嗯,然后能能够适应这个范式的人,就会就会觉得,呃,他他其实没有适应,就是原来就是有那么一群人,他比如infar里边,哪哪怕infar是一个相对来说追求一个呃呃很多事情都是有一个清晰的答案和解法的人,然后哦嗯,他来做all
infar,呃呃,还是会以。
会有那么一群人是适合做R型法,嗯,所以大概我觉得是是这样一个变化,所以我们那边可能看起来还是至少做纯纯型法跟R型法,我觉得还是分开的。嗯,不太能够交融,因为他们确实对于,我觉得对复杂性和这种精确度要要求会会会差异很大。嗯,做RL的瓶颈到底在哪里?你刚才提到prompt,其实真正差不多了。其实真正把Agent RL给scaling起来的团队很少,非常少。
嗯,包括海外是。嗯,那Osope肯定肯定做这个事儿,然后其他团队我不是非常了解,至少我从最终的模型效果上感觉到没有没有没有scaling到跟彭宇春一样的量级。嗯,这是嗯之前发展的两个范式嘛?你觉得再往后有什么新的范式吗?不确定,先把这个范式做了再说。我觉得是我们我们刚刚聊到那个是,就是一个一个生成模型跟嗯感知能力很强的模型联合到一套新的框架边去进进行二号训练这个事儿,已经足够的。
在我的规划里边已经足够了,长期并且比较难实现的。现在有人说是 continue learning、online learning。我现在觉得 continue learning 和 online learning,我更多是代指,呃,它跟这个环境产生交互的时候,或者说跟一技能框架,呃,多轮交互的时候,这个框架本身在自己。
迭代和进化,我我我是不是这么去定义这个事情?你对未来有什么预期啊?嗯,我觉得未来可能是二六年,可能是二七年,也可能是更长远一点。我现在觉得把当下的做完,每天的研究都做好,我就觉得非常好。你现在工作状态是什么样?工作节奏?早上十一点,晚上一一二三四点,哦,但这是我的状态,不代表我们。团队其他人的状态,你是夜猫子是吗?
嗯,倒不是,是我自己本身的睡眠确实不需要特别多睡眠,可能嗯六六个小时就完全足够了,然后五个小时也可以,四到四个小时也行,就四到六个小时在我一个OK的区间,对,所以我我不需要那么多睡眠,然后然后以及现在做的生意有点兴奋,所以也确实是也也也感觉睡太多有点浪费时间,有种感觉吧。从这里,一步一个脚印,从这里,一步一个脚印,从这里,一步好了,今天的节目就是这样。
这里是商业访谈录,是一档由语言及世界工作室出品的深度访谈节目。你可以到公众号关注我们的工作室,获取更多的信息。我们的公众号是语言及世界 Language is World。我们希望和你一起从这里探索新的世界。We'll look.We'll explore the new world from
here. Shouting out so the clouds can't hear every heartbeat, drawing the map we steer. We'll explore the new world from here. Step by step, turn the
doubt to cheer. We're the start of the story. This world will hear. We'll explore the new world from here.