范式变化这个词在AI圈子被用的有点叙事过载了。DeepSeek 它放弃了 V3 的 MA 架构,Kimi 的 K2 系列,然后 G2M5 系列依然是采用了 MA 架构。现在的这个偷啃浪费,有种拿着高压水枪浇花的美感。我们现在不是说是我们能不能做到,而是说我们不知道我们还有哪些需要做的。欢迎收听晚点聊,我是曼奇。

这是一期非常硬核的节目,我邀请了两位一线AI从业者和我一起详解DeepSeek V4的技术报告。一位是模型架构背景的刘易峰,UCLA在读博士;一位是Infra背景的赵晨阳,他已加入开源推理框架SG浪核心团队成立的商用公司Ridix Ark。如果一句话概括,DeepSeek V4是继续在R1的测试时扩展范式下,用一系列组合创新和工程优化,让百万上下文从理论进入了实用新阶段。

下面我们正式进入节目吧。Hello Hello,我是刘一峰,目前是UCLA的计算机博士生,之前在越战面和字节Seed参与过基础模型研发。我主要研究方向是大语言模型的预训练,包括优化器和模型架构,也有后训练研究经历。目前我一方面在开发新的大语言模型训练算法,另一方面也在尝试利用目前工业级别的呃模型的力量,参与组里面A型的相关的项目开发。

Hello,大家好,这个我和易峰是本科加博士同学啊,我姓赵,叫赵胜阳,我在美国硅谷这边一家叫RedXact的公司担任工程师。然后在SGL这个开源推理架构和生态项目里面做开发,我们这个项目大概部署在全球可能有超过四十万张GPU上做一个生产级别的推理,就算是这一代开源引擎当中规模很大的一个。我自己先前做强化学习系统很多,我也亲眼见证了DeepSeek R1在LMRL领域带来的巨大影响力。

可以说,某种意义上让这个领域得到了前所未有的重视。上一周,DeepSeek新代的模型V4发版,这个也是我们今天要讨论重点内容嘛。呃,我们团队做了相当多的工程优化,成功在DeepSeek V4发布的当天就把推理和强化学习两条链路都跑通了。这个待会儿聊到Infra的部分,我会展开讲一讲。然后今天的播客会由我和立峰同学一块儿来分享。

因为正好易峰的背景和之前的经验是比较偏算法和架构这块的,然后陈阳是比较偏infra这块的,这两方面V4都会有一些改进核心的东西。呃,两位的视角非常互补。就是正式来聊这个V4的进展之前,有几个我比较关心的问题啊。一个是V4发布之后,呃,你们作为就是一线的这种AI从业者,你们自己上手使用的体验是怎样的?

呃,作为就是用户使用端的角度,我也也在那个Arena AAI上面,就相当于是。把那个 DeepSeek V4 和其他模型进行对比,我感觉的话,无论是像数学推理啊,像代码编写,还是说它让我 follow 一个 agent 的指令执行,都要比 V3 要好得多,尤其是它幻觉来比 V3 要少得多。能力上,我觉得。

跟玉三家还是比较接近的,但是在代码层面,code的还是比其他模型要好得多。体感上,我觉得跟像 Kimi、K2.6 这些开源模型。还是比较接近的。你说和 Kimi 最近发的模型的感觉是接近的,那就可以说中国这些第一梯队的开源模型其实用起来体感都差不了太多。对,但是呢,代码方面就是说还是跟国外的预算价来说,它会有一定的差距。

哎,陈阳,你可以说说,就你用V4的感受,因为这次就是你在的这个SG浪的这个创业团队Radix Ark,你们也是做了Daily的Infra的适配,就做这个适配的过程中间,你有什么比较有意思的发现吗?啊,这个很好玩,就是。从工程角度,这个大概从DeepSeek V3开始,我们有一个戏称说,DeepSeek每年的发布都会为开源社区的研究和infra基本上是续命一年,会注入一个非常非常强大的活力。

比如去年DeepSeek提出这些,呃,large GP等等这些架构,我们可能前前后后。呃,扎扎实实的做了有一年的时间,才能把这些细节都在开源领域实现以后。然后呢,今年我预感也不会例外,因为今年他们这个报告上的infra细节非常的扎实。DeepSeekV4依旧是infra巨鲸嘛,这次的变化架构也是非常大,就是从。

DeepSeekV2到DeepSeekV3,我们觉得这个infra的变化比较渐进,它整体上是把MLA和DeepSeekMOE这两套架构给scale up了。然后到了这个DeepSeekV4,注意力本身有又有了新的巨大改变。这个SWA搭配着双压缩策略,然后其实也难度非常之大。我们在训练的这这个过程当中,也得为我们先前有的这个前缀缓存啊,还有投机采样的这些方法做一些非常多的优化。

这个最终我们拿到的效果也是很不错,在各家评测上处于领先地位。因为正好易峰你这几天也去参加这个ACL了嘛,然后就很多研究员也聚在一起,又赶上V4发布,就是在这个会场大家有一些什么讨论吗?刚好就是说,呃,DeepSeek在那个会议期间发布了,然后大家讨论比较感兴趣一个点是,DeepSeek它放弃了V三的MLA架构。

之前的话,那个DeepSeek提出的MLA架构,然后Kimi的K二系列,然后J2M五系列之类的开前沿开模型,依然是采用的MLA架构。今年的Acceler会场上有一些就是基于MLA架构的改进或者说雕花啥。比如像并行的 MLA 之类的这些改进,然后大家就会会讨论这些继续在 MLA 的范式上进行深挖或者说雕花的研究,到底还有没有意义?

另一方面,也在思考未来模型架构还有什么值得值得改进的方向,因为就是相当于是像几个月之前,大家都认为就是说现在比较先进的开源模型都会就相当于是它的模型架构都逐渐收敛了,比如说都收敛到 M A,然后在 M A 技术之上再进行一些小的改进。但 DeepSeek 它就相当于是它又放弃了 M A 架构,回到了传统的 M Q。

那个像MQA架构,就相当于是说明那个模型架构本身,它其实还是有非常大的改进空间的。嗯,MLA就是V二的时候他们提的。呃,如果这个要解释一下的话,就是MLA和MQA的这个简单的区别是什么?MQA就相当于是跟其实跟最原始的那个 multi head attention 其实差不多的。然后呢,呃,M A 就跟之前的价格完全不一样,它是将那个 KV 进行低秩压缩。

这样的话,就是我只需要存储就是比较就是压缩过后的那个 KV,然后在那个在 infer 的时候再把它 scale 上去。这样的话就相当于是能够节省 KV cache。嗯,所以就是在比较核心的注意力机制这一块,V4 相比于 V3。它又有了一个比较大的改进,嗯,对V4相比V3的话,就相当于是它引进了就是token wise的这样一些改进,这样一个非常大尺度压缩。

我猜测的话,可能是由于那个呃就是底层实现的原因,就说是那个如果把这些压缩合并到MA上,那可能实现起来就相当复杂了。可能就是因为这一点舍弃了MA这种比较复杂的结构。这次其实这个技术报告里有一个消失的东西了,就是训练成本。我是指相比于V三,因为V三的时候是直接提了说最后一次的训练成本是五百五十七万美元。

这次其实报告里面,包括他们自己的官方的博客里都没有特别明确的去讲这个数字。两位怎么看这个变化呀?嗯,我觉得首先这个做一个严谨的成熟公司啊,这个DeepSeek内部对成本的核算一定是算的非常清楚。我觉得他们不选择主动公开本身是一个信号,就是他们不再是一个需要靠成本叙事来定义自己的团队,转而希望用模型本身的能力说一来代表他们发声吧。

最终模型的最后那一次训练成本只是所有成本的冰山一角,就当时候的训练成本写的五百五十七万美元,它应该是最后一次。成本,但是呢,它有大量的前沿技术探索呀,然后包括像对比验证的实验成本,然后包括人力和数据成本,这些才是最终成本的主要部分。我因此我觉得就是说那个呃再公布成本这这个意义其实不算特别大,研发成本肯定是最后一次训练成本的呃几十倍吧。

就是你们怎么看这个V4?它是没有上多模态的能力的。我认为DeepSeek可能,呃,一方面它更专注于文本处理能力。毕竟,如果一个模型它想要处理多种能力的话,还是难度比较大的。另一方面,对于像国产模型适配呀,呃,国产显卡适配呀,包括包括本身它的结构已经很复杂了。如果说再融入多模态的这样一个结构来说,就是写音法其实很难写。

你为什么V四训练了这么长时间?而且他确实也是低泪了自己的预期的,因为大概在春节的时候,他们本来有计划想争取在春节的时候放。后来差不多应该算是晚了两个多月吧,所以这个具体的发布计划我们外界是很难知晓的。然后我可以从Infra角度去做一些推测。这个DeepSeek一次性引入了四个互相耦合的新feature,Infra巨鲸,然后MHC Miwan作为一个新的优化器,还有FP四训练。

这个像我之前提到过,任何一个功能的单独上线都是需要一个极大规模的debug的。四个一起上,这就是一个组合爆炸问题。然后,特别是Infra在如此大规模MoE上的稳定性,然后把FP四做这个Forward Backward的生产级别生产级别的这个稳定,其实在公开层面都是极为前沿的尝试。嗯,我还是一直非常喜欢DeepSeek嘛。

然后他们在发的时候引用了一句话,叫这个“率道而行,端然正己”啊,这这个非常有意思。我前面就读《道德经》嘛,这个《道德经》里面有一句话,我觉得可以用来讲讲他们这个状态。我觉得叫做为而不恃,功成弗居,创造万物却不占为己有,然后这个功业有成却不会自我夸耀。我觉得他们一直都是一个非常值得学习的团队。我补充一点,这次

DeepSeek 一个亮点是它原生支持国产芯片,这在 DeepSeek 之前的研究就是其实很少提到的。

也有可能是因为那个国产芯片底层算子或者接口量比较大,很多时候就需要从零开始编写。如果他们之前尝试过这样一个编写的话,可能也会就是进一步增加研发时间。其实我看这个报告原文啊,他只有一个地方提到了国产的芯片,就是在Infra讲并行一批方案的时候,他提到了说我们在华为升腾上做了技术验证,这个就是你说的原生支持国产芯片,这个是做推理对吧?

是的,训练是否用了其实不知道,只是外界有很多推测而已。对,就是他并没有写外界的推测,大部分人还是推测他还是用的英伟达的芯片。可以补充说一下,就是刚才陈阳提到“率道而行,断然正己”这句话嘛,然后他们引用的是荀子“非是二子”。在博客里面还写了前面两句话,是说“不诱于誉,不恐于谤”,不要去就听那个追捧,你也不要去恐惧大家对你的质疑。

这可能确实是,我觉得。从去年下半年,大家一直期待它发,然后到现在真的发,中间一段时间,这个团队会面临着一些内外压力,嗯。对这个高中的时候学《逍遥游》嘛,都讲这个举世誉之而不加劝,举世非之而不加沮。嗯,这是非常极高的境界。我可能补充,就是在在那个呃DeepSeek的作者致谢名单里面,我们可以看到,就是说他的离职人员其实不是特别多。

对,可能就是百分之五这样一个比例,就相比于就是其他公司的这样一个流动率来说,就是 DeepSeek

它的流动率是相当低的。我认为不忧于欲,不仅仅是整个公司它的一个那个相当于是一一个信仰之一,而且是那公司研发人员他们自己就是也是不忧于欲,就是专心做好自己的事情。我觉得R一的时候,它有一个非常大的舆论反响,是因为可能它有一个很好表达的一个变化,就是它用开源的方式验证了当时的一种新的范式,就是测试时的扩展,也就是二四年九月的时候,就OpenAI发O一的时候,大家看到的这样一种新的范式。

呃,是不是可以说,其实V四从训练的整个这种大的思路上,它不是一个范式的变化?它更多是你刚才说的,就我很多这种工程的创新,然后组合在一起,又能给它完成的很好的这样的一个进展。我觉得范式变化这个词在AI圈子被用的有点叙事过载了。就是范式这个东西,你定义成一种十年一遇,甚至更加稀疏,比如说就是什么牛顿啊、爱因斯坦这种人可以称得上一种科学范式,对吧?

然后回到AI上,我们觉得可能说Transformers scaling law,然后Ruhf或者Constitutional AI,然后Test Time Scaling这些算是范式。可以想见,这个R一在当年一年前啊,R一的范式意义就是这个,他在开源世界走通了long scale的这个reasoning吧。

然后V四自己也非常坦诚的承认说,其实也是follow了R一开上的范式,然后并且V四的这个定位也算是在范式下面解决了一些更艰难的问题吧。呃,所以呢,回过头来,我觉得每隔半年要说我们就要为这个AI找个新的范式,那只能说是AI的发展远远不成熟。我更想要讨论一个问题,就是说我们沿着现在这个L的范式继续优化吧,我们还有多少的空间可以做?

我们还有什么新的应用可能会诞生?然后我们做这一切事情,它的上限在哪?我的判断就是说,这个有非常非常大的空间可以做,而且每一步都会很艰难。像是V4这种系统级别耦合的工具,我还是觉得会是接下一两年的主旋律。我们会想尽很多办法,把这些所谓的one million token拆分成非常多的细散优化,然后结合起来做个整体能跑。

这件事情它很工程,而且商业价值也非常巨大。我再补充一下,与其就是从那个就是说方法论角度去解释这个范式变化,不如说是范式变化可以解释成就是说提出一个新的模型能力的领域,比如说在像之前的长文能力,像Kimi就是相当于是用长文能力,包括现在A agent能力啊、幻觉能力啊这些,我觉得就是提出这些新的能力这样一个领域,才是目前大语言模型需要不断去做的这些东西。

就我们现在不是说是我们能不能做到,而是说我们不知道我们还有哪些需要做的。从这一点上来说,我觉得就是V四带给我的远远没有像R一啊,甚至像Kimi最开始那个模型。那个提出的常温这种范式来说,就是非常大的震撼。就说关键的是要去找要解决哪些问题,要做什么?对,是不光是能不能做到啊?是的,只要提出了一个能力的领域,我觉得就是说,也就半年到一年的时间,基本上这个能力就会被现在的那个模型给刷爆。

那你现在有看到什么能力?它现在可能还没有那么被关注,但之后可能会很有潜力吗?比如说AI自己的意识,目前AI还是人类的一个工具。但是呢,AI是不是能够有自己的意识、自主行为能力是怎么样的?其实我觉得有个重要能力是减少推理的量。我的观点就是说,很多东西是不需要。嗯,over

reasoning的,然后这也是我对于现在这些模型,尽管大家对于解决 one million token 都非常在乎,然后我是觉得 one million token 应该拿去做更重要的事情。

所以你关心的是,其实是他现在是的已经在做的一些事儿,他其实可以用更高的效率做到。对,这是我认为三炮这个 agent community 需要奖励过来,就是我们怎么更高效的去利用上下文。我觉得现在大家对于上下文的铺张浪费已经被 infra 给惯坏了。就现在,大家可能觉得 one million

token 是一个非常自然的事情,但是我始终认为,infra固然可以支持让 one million token 唆得更快,但是我们可能能在 one million token 里面做更多的事情。

对,比如说现在可能我们是用 Claude,或者用 Open Claude,可以看看那个它吞吐的 token 量是一个非常恐怖的数量级。那回到 V4 啊,我们下面可以展开来详细的讨论一下,就 V4 的效果呀,然后它里面的你们刚才提到的很多这种新的东西,它是具体怎么来起作用的?我们可以先来看一下这个性能啊,就是因为。

按照惯例,每次发新的模型,大家也都会去更新一些 benchmark 嘛。这一次 V4 的 benchmark 有什么表现?你们觉得是比较值得关注的吗?V4 benchmark 里面有一段是我很喜欢的,就是他们其实做了一段像 Arena 一样的这个双盲测试。然后啊,我可以简单体现一下,就是说这些 benchmark 大概是有这么几种逻辑吧。

第一种就是,比如说我要测你,嗯,一个问题的正确性,我肯定就是一个 question,然后你给我一个 answer,然后我可以拿这个 answer somehow 去和正确答案做比较,然后按照某些规则给它一个分数。这种我们叫做 offline 的这个 benchmark

嘛。然后还有一种benchmark,我们是做online的,就是说因为语言模型的评估非常主观,然后刚好我们可以利用这种主观性来做评估。

例如,我们同样发一个问题给两个你不知道的具名模型,然后A模型给个答案,B模型给个答案,你自己pick是A模型好还是B模型好。而且就是有的时候可能大家用GPT也会发现GPT居然真的会干这个事情,就是它给你同一个问题下生成了两个框,然后让你自己pick A好还是B好。然后这也是一个很常见的分数嘛,我们管这个东西叫做这个,呃,traboot的这个对拼机制,要叫做arena或者叫竞技场。

我们看到DeepSeek V4的Tech Report里面也讲了一下,他们自己有做一个内部的online实验。就是在公司里面,有不同的工程师面临不同的任务,他们可以自行去选择用什么样的模型来完成他们的任务,并且给这些模型反馈。所以最后 overall 他们 complete 了很多模型,类似于

Cloud 4.5、4.6、OpenAI 的 GPT 5.5 等等,然后坦诚的发布了说 V4 的分数大概是在 Opus 4.5 左右,然后和 Opus 4.6 还有和 5.5 还是有区别。

然后他们有百分之九的工程师说不会将V4

Pro作为首选模型,我觉得这是一个非常坦诚的方法吧。然后这种内部采用的意愿,我个人认为非常的重要。就是先前这个晚点可能是两天前的报道也说过,就是硅谷顶尖的模型公司甚至可能也会用其他公司的模型来辅助编程,这是一个非常有趣的角度。我觉得这个还有一个非常。很有意思的问题,就是说,这个世界上只有极少数的公司在编程上面是有数据飞轮的,就是呃,任何一家公司如果想要在

coding 上面做出领先模型,都需要建立自己的这个编程数据数据飞轮嘛。

然后被使用是有这种数据的最佳方式,这个事情是全球的。同行都需要仔细思考的问题,这是我从报道当中解读出来一些。哎,我好奇问一下陈阳一个问题:首先,一个解释数据飞轮,中国主要是以开源模型为主,然后美国是以B M模型为主。开源模型就意味着,就是说很多时候用户使用会自己部署在自己的机器上,于是模型研发厂商。

他是拿不到这些数据的,这会不会导致了就是中国这种开源模型拿不到很多实际使用的数据?我觉得不是的,因为首先这些开源模型当它上了一个 trillion

之后的部署成本根本不是个人能负担的。这个就是个人是不可能有一台H两百或者像B两百或者说像国内的九一零B这样规模的显卡,对吧?成本实在非常的高。然后退回来就是大多数的,哪怕这模型开源,其实也是host在这个第三方的这些云上,然后通过API的方式大家来调用。

所以事实上无论如何都是走API,在第三方有这个trace。所以事实上这些trace,如果大家愿意用开源模型,肯定会拿到了。不过。很遗憾的是,我据我所知,国内也是大量的在用美国的这些闭源。OK,然后第二个问题就是刚刚也提到了这Arena,目前来说,Arena DeepSeek V4

Pro它排名大概是在二十三左右,然后比千问三点五Max和Mimo V二点五,然后包括像Gem五点一都要略逊不少,然后包括另一个第三方的机构就是Artificial Analysis。

它的 intelligence index DeepSeek V4 大概在五十二左右,然后同样也是比 Meow V2.5、 Kimi K2.6。我个人感觉,选择某款模型是需要有一定的 AI 信仰的,然后我愿意为了我的信仰选择这个。我觉得很多时候刷榜不是目的。这个也是我有一个很有趣的分享,就是我一直用 Claude 2,然后。

有一天,我们公司的这个 cloud 因为账单的原因,它被下线了。然后那天,我是用了 Codex,然后我的结论是。离开了cloud这个世界完全没有下雨,OK,所以我其实也很强的相信,就是这些模型已经在呃, somehow我的use case很难differentiate它们出来,然后,所以我觉得这些。

在一个极其微小的空间里面去排一个先后其实很难,但是我觉得非常可以预见的是,现在我们国内也有非常非常多优秀的顶尖模型,栖身于智能的最前线。所以你刚刚意思就是说,其实你那天从 Cloud 换成 Codex,你也并没有觉得差多少。是的,是的,就是说这个一方面,我觉得这个技术上这个技术流动非常快,然后另一方面这个也是。

从商业上来说,这个竞争也是激烈的不可思议啊!我今天也在跟人讨论这个问题,因为现在在硅谷的话,Anthropic和看起来它的势头非常的盛,对吧?它是有盖过OpenAI的这个趋势的。包括估值上,包括大家对这个产品的讨论上,就是有一个点在于说,Cloud Code你要一直保持现在这种领先的话,因为它还是一个相对封闭的体系嘛,它官方还是和自己的模型绑定在一起的,就是你背后要接的是Cloud的模型。

那如果说你要一直长期保持这个优势的话,那你就需要你自己的这个模型一直在。这个产品它需要的能力,比如说 coding,也包括这种交互啊,或者 agent 的框架上,你一直要是最 sota 的,你要一直在第一梯队。但这个事儿能不能一直这样持续啊?其实 GPT

五点五发了之后,我也是看了一些讨论啊。就有的人会认为五点五的编程能力又上了一个台阶啊,我就有很多朋友这么反馈,包括我认识的有一些公司的C level这种高管,他们也在考虑说。

要把下面接的模型从Cloud有些也要换成GPT啊,就To B的,就就从公司的角度,它可能也会比较快有变化。我觉得这个我们可以都可以之后再观察。那回到V4的话,就刚才提到一些现象,一方面就是说他们可能在一些Arena上仅看排名是落后于同期发的一些中国其他的模型的,同时从使用上其实大家也不是很能明显的感受到它这个区别,嗯。

嗯,这是性能。然后我觉得另一个大家比较关心的就是效率。然后效率上也是这次大家讨论比较多,觉得他们的效果做得比较好的,就是相比于V三啊,他们的单token的推理的flops是。只有V三点二的百分之二十七,然后那个KV Cache缓存占用是只有V三点二的百分之十,这个效率提升的程度是一个什么水平啊?陈阳,你可以讲讲这个可能和Infra关系比较大啊。

呃,首先DeepSeek V三的时候,当时DeepSeek团队有说过一件事情,即便V三把价格杀的,就是给市场来了重重的一刀。即便到了这种程度上,他们都仍旧有利可图。包括最近DeepSeek又发了一次大的降价,我不确定他们现在能不能还是处于一个嗯有marginal gain的一个状态。但是我还是觉得,这是一件非常不可思议的工程壮举。

嗯,就你说那篇文章是他们。在二五年二月搞了一个开源周,前面五天连发了五个Infra的开源成果,然后周六的时候发了一篇文章,讲了自己的。这个推理的成本啊啊,这个我印象不深了,但是我相信美股的股民印象尤深。OK,回到这个问题上来说,就是他们提到了这么几个数字嘛,这个类似于 flops仅占三点二的百分之二十七,KV cache仅占百分之十。

然后这个其实有一个比较重要的问题,就是说我们这里讨论的是压缩和稀疏带来的注意力改进,它得有一个前提,就是说上下文越长,这个效率优势才会越显著。如果你的实际测试场景只有几千token,那么V4相对V3.2的floats节省根本不会这么极致。然后包括很早的时候,就是有一些第三方机构去评测这个DeepSeek

V4的推理速度,可能拿着一个8k token输入、4k token输出的这个状态,这个其实不太能反映出来V4的一个架构优势的。

所以,critical way就是说,你的长下上下文越长,这个效率带来的优势会越发显著。然后,如果你就是几k token,可能这个其实没有什么很明显的提升。不过,换句话来说,几k token到现在是一个连system prompt都打不住的一个状态。所以,基本上我我能感受到,就大家日常用的这些编程或者说处理文字工作用到的这些token length都会有比较好的提升。

那是不是在 agent 上,它的体感也会很明显啊?因为其实 agent 要处理的上下文应该是挺长的。如果是个多步骤的复杂任务的话,嗯,是的,是的,这个就是说,现在这些动辄几亿、几千万 token 的这些 agent 会很有收益。但是有一个问题是什么?它是在相同 token 数量的情况下,它的 flops 和 kv cache 降低了。

但是其实就是有很多用户反映,就是它的 token 消耗量,就解决一个问题的 token 消耗量,比之前要大不少。如果说考虑这一点的话,其实它的整整体的那个效率提升并不是特别明显。当然还是比之前来说,总和加起来还是会有一定的效率提升。你说的这个点其实扣到了刚之前陈阳说的那个点,就是你觉得接下来一个要解决的问题,就是我同样的 token 数量,我我应该解决更多的问题,而不是把推理一直搞得很长。

那我也想问一下,就是为什么它解决同样的问题,它的token消耗还变多了呀?那首先,它可能在训练时候目标还是倾向于就是说我。只要完成这个任务,我得到的奖励越大,而不是说我完成这任务需要多少 token。然后还有的话就是说,是它的一些结构,比如像 token 外的注意力压缩,把它的信息压缩的,就是比较狠,也就导致了需要更多 token 去补足这些缺失的信息或者一些推理的过程。

我我之前在小红书发过一篇文章,我说现在的这个 token 浪费。有种拿着高压水枪浇花的美感,这本身是一件非常奇怪的事情,而且,呃,模型忠实的反映它受到了训练是什么样子的,可以想见,就是在它的训练当中有。部分的数据肯定是解决同一个问题比之前长了,所以导致这些在进入到了一个非常,我其实觉得这是一个不太好的loop里面,让解决一个问题所需要的token越来越长。

这个问题一直存在嘛?类似K一点五的报告里面有讲过,他们有一个这个叫做长度惩罚,呃,就是会对这个解决同一个问题用了更长回复的回答做一个惩罚。我倾向于这种技术肯定一直都是在用的,但是哪怕有了这种技术,我们也看到这个东西在不可逆的增长。那这可能背后体现出来,我们一些训练上面还是有很多值得思考的地方。接下来就是可以聊聊你们刚才提到了很多,就这种具体的进展的一些更细节的东西,就它是怎么在一起运转的,以及给整个业界带来哪些启发。

这个其实我们可以跟着他的这个技术报告来看,这个报告的脉络也非常清楚。就前面的引言,他自己也是解释了,他认为这是一个什么样的进展,是在测试时间这个范式。里面继续去优化它的效率,后面他就是在讲模型架构的设计,这是第二部分,然后第三部分是 infra。然后第四部分是预训练的过程,第五部分是后训练和评测。我们可以先说一下,就是V4架构上的一些整体的思路是什么。

V4整体上保留了DeepSeek MoE和MTP的这个两个主线策略嘛,然后在四个层面上做的改进是比较值得关注的。注意力上混还是说更加的混合稀疏,然后用了 M S T C 的残差,然后在优化器上面选择 shift 到了 Miwong 上面,然后 Infra 上面,呃,有两个关键词,一个是用了

Tylene,然后另一个是做了 F P four,然后这四个事情共同来说,他们让先前的一个 Median 上下文从一个理论可行变成一个成本可接受。

我觉得这次的激活比例就是这一波模型里面很能说明问题的。V4 Pro的这个总参数是1.6T吧,然后他们激活参数反正就五十左右,OK,四十九对,所以这个比例大概是百分之三,对吧?就是之前这个 Kimi K

二点六应该是比这个比例要稍微高一点的,然后他们应该再次往下探了这个极限。这个比例的下降其实反映出来大家一个很明确的工程信念:这个总参数越大,模型的知识容量会越高;然后激活参数越小,我们的推理成本会下降。

呃,MoE 的核心价值就是把这两个量解耦嘛,然后 V 四又把这种解耦推到了。一个更加极端的一个位置,呃,当然,嗯,激活比例并不是越低就越好,这个比例太低可能会带来负载不均、装训练不充分、然后路由抖动这些问题的。呃,DeepSeek V3 G的这个blog也讨论过了,他说这个。嗯,就是 routing 负载均衡是不是应该被纳入到这个训练损失里面?

呃,我个人觉得他们把百分之三的激活比例能够稳定训练到这种程度。再次印证了这个工程的极致能力。对我补充说一下,就你刚说那个激活比例比总参数的这个比例,在V三的时候是五点五左右,然后现在同期的这些模型里面,MiniMax M二点七是百分之四点三,GLM五点一是百分之五点三,Kimi K二点六也较低,是三点二,DeepSeek V四Pro是最低的,它就刚过百分之三,百分之三多一点。

哦,OK,呃,我觉得可能听众朋友来听这个感觉像是在雕花一样,但是我可以说这个东西它的这个难度是随着这个数量在指数上升的,可能比如说从百分之五到百分之四的难度是一个样子,然后从百分之四到百分之三是另一个是远远的强。我并不是说其他的团队可能做不到这个样子,但是他们的技术选型可能想要走的更极致,然后很多团队可能会选择一些比较。

稳扎稳打的方案,这些并没有对错呀,只是我惊叹于这个事情还是能够继续往极限走。我的话就是,我倒是想用它倒呃倒数来进行比较,比如说之前的话大概是一个五比一,或者说十比一、二十比一,然后现在V4已经提高了三十几,将近四十比一这样一个系数比。就是这对于算法和底层算是开发,然后提出了相当高的要求。就相当于是它四十比一的话,就是它有大量冗余的这个

expert,就需要保证各 expert 之间它训练程度的平衡。

以及token路由的平衡,这一方面就是说它需要各个专家都能够呃几乎差不多的训练;另一方面来说,infra也要保证,就是说这些路由能够非常顺畅的抵达各个专家,然后再合并起来。除此之外,另外一个创新就是说,它在前几层的me,它是用哈希路由的形式,而不是说用一个给那个相当是呃一般的me的路由的方式来进行token在各个专家之间分配。

从算法程度上,它是避免了前几层专家路由就高度集中在少数几个专家这样一个问题。不仅如此,就是说像Mewn啊,然后包括像混合稀疏这些,它其实是一之前就已经有大量实践的这样一些那个feature。然后像MHC啊,然后包括一些特定的infra,它是呃这次最新纳入实践的一些东西。但是呢,就是V4之前提出了很多技术,Ingrun是其中少数没有被应用到V4模型上的技术之一。

一方面呢,就是我们自己在实践中发现,Ingrun本身对能力的提高非常有限,就相当于是它要增加非常大的参数,但其实它能力提升非常有限,而且Ingrun对于Infra来说,它其实也是比较大的挑战。你可以稍微解释一下那个 Ingram,就是这个是二五年下半年的时候,DeepSeek 就单独发了一个呃论文去讲这个事儿啊。

然后包括 MHC 也是那个时候单独发了一个论文。然后 MHC 是用到了这个 V4 里的,但是 Ingram 没有用到 V4 里面啊。对,Ingram是比一般的呃 transformer,它相当于是把就是两个 token 或者多个 token 就是合起来作为一个新的 token 就是进行编码,然后再输入到对应的层数里面。

就一般的输入 input embedding,它只是针对单 token 进行编码,但是呢,Ingram 是对于连续的几个 token,它会有一个全新的编码,理论上可以提高像大海捞针这种能力,但是呢,就是说实际上来说,就是 Ingram 它的体现效果非常有限。Infra只是强调了这个信号加强的这样一个作用,至少在短期之内,一般的 Frontier Lab 的模型应该不会采用这个方案。

那我们可以按照就陈阳你说的耦合起来工程爆炸的这四个点,我们可以展开说一说。一个是这个注意力的变化,它现在是用了一个混合了C S A和H C A的这样一个新的注意力的机制。其实我们之前二零二五年到现在的好几期节目里都专门讨论了这个注意力机制的变化。然后DeepSeek一直走的都是这个稀疏注意力的改进。

嗯,你们可以简单的分享一下,就这次的改进具体是是有哪些提升,包括你们看到的就是它背后可能是一个什么样的思路。可能给大家的启发是什么?一个首先他们的注意是怎么用的,以及这个吸收注意力嘛。然后,有肯定有个对等的名词叫做这个线性注意力,这个就是一个非常容易掐架的话题了。这个简单来说,呃,V4的注意力是每一层都在跑一个滑动窗口注意力嘛,我们叫做这个

sliding window attention,然后还有一个长距注意力,可能是CSA或者HCA。

这个CSA是一个稀疏路线,然后在序列维度会做一个四比一的压缩,然后再做一个 top k 的选取。HCA 可能是一个更激进的方法,做这个一百二十八分之一的压缩,然后保持一个稠密注意力。然后他们这个任何一层选择CSA还是HCA是一个预定义的。呃,因此这个同一个场上下文从不同的层来看,这个有的是稀疏层,有的是从稠密层。

然后稀疏层会来锁定这些关键的token,然后稠密层,我个人认为它会提供一种语义上的概览。对于工程团队来说,我们也希望在实现这个混合方案上面。很会有很多的挑战。我们最后把这个复杂问题集中需要处理的是这个前缀缓存的一致性。我们开发了一套缓存架构,称之为 Shadow Redis。然后这套设计就是为了应对这个问题。

然后我们做了三个异构的 KV Cache 池。给这个SWA和C四C一二八都加了压缩状态,然后同时我们还要这个注意在prefill、decode、speculative

decoding这三个阶段都保持同步。可以听上去这些问题的复杂性相比V三阶段又上了一个台阶,而且这也不是MLA时代需要解决的问题。之前我可能听到过,应该也是晚点的播客吧,当时采访了松林,然后他讲DeepSeek内部是比较看好稀疏而不是线性的。

我是比较认为稀疏在工程上面是一个更容易控制的方案,然后和现在这些KV cache、prefix cache的基础设施都有比较好的亲和性。然后线性注意力的话,我目前没有听到有非常强大的模型,就是现在这个规模的 Frontier 模型能够验证的这套工具。对我补充一点,就是我看来的话,线性注意力它是能够很好的提高模型推理速度的,因此它其实被广泛应用在千问 3.5 的这种中小型的模型当中。

但是呢,像松林提出的GPT Delta Net之类的结构,它在隐藏状态更新的过程中,它每一步token的信息它都会不断压缩,因此在需要长程注意的任务,比如像推理啊,比如像数学推导这些任务上,它较于那个非线性注意力,我它的上限可能就比较低。因此,在更大的模型,像DeepSeek V4啊、Gemini 5.1这些模型当中。

目前来说,还是采用的稀疏注意力,或者说 scaling win window attention 这样一个呃结构。就是一个非常直观的例子,就是说,比如说第一个头坑到第一千零二十四个头坑,如果是线性注意力,它需要压缩一千零二十三次,对;但如果是一百二十八窗口的 sliding window attention,它只需要跳八次,这两个头坑就能够几乎无损的进行那个信息交流,对。

所以说,要冲上限的模型,它肯定是比较倾倾向于稀疏和滑动注意力的。然而,稀疏注意力对于训练Infra的性能要求较高,然后滑动注意力创实验相对简单,然后短程注意能力比较强。因此,我觉得在未来一段时间的话,那个呃,Scaling Window、Attention这种注意力的模型可能会越来越多。之前其实Kimi有可能有考虑过,就是在接下来的比较大的模型上用线性注意力的结构,就是混合了线性注意力的结构。

对。但是呢,为什么要用混合而不单纯用那个就全线性呢?就是因为这线性还是有一个信息压缩的问题,就必须得用全注意力来进行兜底。其实上次就是和杨松林聊那一期播客的时候,刚好是赶上Mini Max,它又换成全注意力了,嗯。它之前有一个版本,就就 MiniMax 二点零,它用的是一个,他们叫 Lightning Attention,就是一种混合了线性注意力的注意力啊。

但在二点一,它又改回全注意力了。我还有点印象哈,因为 MiniMax 二点零的知识是我做的。MiniMax 的 M 一应该是一个线性注意力模型,但是 M 二。二开头的模型都是这个全注意力的。当时我还和他们这个做算法的同事有过交流,就是为什么会 take it back?我们在我们 LMCs Org 的这个 blog 上面也讲过,我们称之为叫做 no free no free launch 啊。

这个欢迎大家可以去读一读当时的这个 blog。然后退回来就是说,我们最近有一个新的工作叫做 HighSparse,是在 S 堆上上面支持的一个 KV Cache Offload 的一个工作。简单来说,我们针对吸收注意力设计了一套特定的 KV Cache 卸载策略,我们能够把吸收注意力的。KV

cache预卸到这个host memory上面,然后在长上下文场景上面能够把吞吐量做到五倍以上,然后类似于V4这种把成本压缩到这个百分之二十七啊百分之十的这种模型,呃,要在生产环境上跑出商业价值,我个人认为我们这个Shadow

radix还有HighSparse这一套底层的同时推进,嗯,非常非常的有前景,然后这也是我们团队一直在做的事情。

嗯,那接下来可以聊一下,就是它架构里的另外就是你说的那四个变化里,另外两个,一个是MHC,还有一个是在这么大的规模上用了Mill的优化器。我们可以先从Mill开始聊吧,因为这个可能业界的实践会比较多,包括刚才也提到说Kimi其实也用了。这个优化器的开发者就是那个 Keller Jordan,他也是因为这个成果,他是在二四年十二月就被招入了 OpenAI。

他本来是一个个人开发者,今年在好几个场合上,包括在 GTC 上,杨志林也是一直在讲 Kimi 他们对 Beyond 的一个优化,那个版本是叫 Moonlight。这个易峰,你可以先讲讲啊,优化器它在模型训练里本来是起一个什么作用的?为什么现在一个趋势就是好像大家都用用比较多了?就是优化器的话,就相当于是就是呃,模型训练原理就是用梯度加下降或者类似的方式,然后让那个就是模型逐步。

趋向于它定义loss最小的那些地方嘛。最开始是大家都在用AdamW进行训练,它这个本质上就是说融合了动量以及它的更新量的归一化的这两个技术。动量能够让那个就是它的更新更加smooth,归一化的是让它每一步。Scale是比较统一的,它就能够进一步的稳定训练。但是呢,AdamW它是对于每一个元素进行的更新,它不涉及到整个矩阵的更新。

Mull的提出就是呃为了解决AdamW只针对单个参数进行的更新,它相当于是它对于二维的参数,比如像线性层。就是本质上是矩阵乘法,提出了效率更加高的一个优化,能够捕捉就是二维参数各个元素之间的信息。以前的那个工具的问题是,它忽略了元素之间的联系,就会导致有些元素就是已经训好了,那就是比如说同样一个矩阵里面,有些元素可能已经训到收敛了,但有些元素还没训到收敛。

训练时间更长,没有把整个矩阵看作一个整体去进行更优化,而使得整个矩阵各个元素之间它步调一致,它就优化更快。但是呢,在二四年底的时候,Katherine Jordan刚开始提出的时候,它是对于每一个不同的模组,比如像线性层啊、input embedding啊,去特意的去调它的learning rate,对于使用者来说就是不是特别友好。

但到那个二五年初的时候,Kimmy提的Moonlight。这样一个优化器就是改进的muon,使得muon它能够和AdamW进行结合,就是因为在一维的参数上它并不是矩阵,就是muon它必须要基于矩阵进行更新,而一维参数上它没有矩阵这一个概念,于是呢就还是用AdamW,包括现在也是一样的。但是呢,muon和AdamW的rate在Karrer

Jordan提出来的时候是并不知道它们两个比例的,而那个Moonlight的一个重要的那个贡献就是说把这个比例。

的系数基本给它确定了,就是零点二,然后这V4就进一步提那个就改进了,就是零点一八,然后使得就是说我只需要调一个的rate就可以适用整个模型,对这样的话,Infra才从一个理论上的创新,转身实际上的大规模应用。嗯,所以Kimi做了Moonlight这个改进之后,可以说业界也是广泛的使用了,是吗?对,就相当于我全局只需要调一个参数就够了。

但是呢,就是比较特别的是V四它不没有使用Moonlight提出零点二。它用了更精确的零点一八,哎,陈阳有什么补充吗?优化器需要你们Infra配合做什么吗?就大家从Adam W变成没有啊?其实这是一个相当大的问题,就是说在推理侧这是一个不需要关心问题,推理本来就不涉及到这个参数更新嘛,然后在训练侧这个是一定是要做到的,然后整个。

链条动起来会是一个非常庞大的工程,要从NVIDIA的Megatron或者是Megatron Bridge这一层开始改,然后一层层往下传。当然,这我说的是针对开源而言,这是对于闭源的这些训练引擎,他们的Mir怎么实现?这个我也啊,关于这个我倒是了了解一点点。对,就是相当于是Mull的话,因为它是相当是矩阵层面的这样一个优化,它涉及到大量的矩阵乘法。

如果说模型的某个矩阵比较大,那它会需要涉及到大量的就是拆分,它可能会需要分布式的训练。这个是AdamW是没有的。对,因为AtomW就是每个元素单独更新,就是元素可以无限拆分,这个是MuN特有的这样一个Infra的问题,所以在训练的过程中,它会涉及到大量的这个拆分啊、合并啊这些操作。然后还有一个就是说是,嗯,预训练和后训练的那个优化器基本上得保持一致。

对。就是说,就是预训练用AdamW,后训练也得用AdamW。预训练用mu,后训练也得用mu。Post training的它比预训练的结构上更加复杂,又导致了如果说后训练它要用mu的话,它可能会涉及到更多的结构上的修改,因为它可能在一个机器上装不下。现在开源的模型就近期更新的,是不是都用上密文了?大部分模型应该都改到密文了,但是应该还是有一部分用的 Atom W。

千问好像没有特别提及它的模型的优化器是什么。现在还没有改的,是因为觉得 Atom W 有它的好处,还是说还没来得及改?就我认为,可能大部分还是没来得及改吧。尤其是像后训练,它的 infra 其实是很难改的。如果说后训练就是它没改成功的话,就导致了预训练也就只能用 AdamW 先将就去训训。那我可以把这个东西作为一个判断模型团队自己的 infra 能力强弱的标志之一吗?

也可以这么说。嗯,这个挺有意思的啊。所以你觉得这基本上就是一个确定的趋势了?可能之后就变成行业的主流了。只不过在一个过渡阶段,有的人用了,有的人还没用。啊,是的,但是呢,就是需要注意点是,即便是用的 MiuN 的模型,它在像像输入的 embedding 和输出 embedding 这种模块来说,它还是得用 AdamW。

其实这个可以简单纠正一下,就刚才易峰提到这个 Atom W 可能不太需要做切分,这个东西不一定,因为它跟你的模型体量相关。就是说你的模型都上 Trillion 了,不可能在任何一个 node 上面 host 下来的。所以,呃,Milan 和 Atom W 肯定是要做非常复杂的并行策略的,而且 Milan 只会比 Atom W 还复杂。

呃,这个简单可以简单想想看 Milan 和 Atom W 的区别,就是说。AdamW是同时会维护这个呃momentum和这个vocabulary啊这个什么应该就是动量和速度两个state嘛,然后这些。都是我们先前用的给AdamW都是些Elementwise的算子,然后所以它用来做切分会相对简单一点。

就是你的Zero Stage怎么切,你的FSDP这些东西怎么做?怎么做 partial,然后你的 TP 怎么对齐,相对而言会简单一些。然后 Milan 的话,它把这个二层的 momentum 删掉了,所以 optimizer stage 就是从两倍调到了一倍,这个肯定能够节省相当大量的显存。不过代价就是说,它在 momentum 上面跑完一轮这个牛顿-舒尔曼。

迭代之后还要做正交化,然后这就不是一个逐元素的过程了。呃,相当于以前是可能一个一个元素去做pick,现在已经变成了一个更为复杂的矩阵计算,我们叫做一个gem。所以为了做这个gem,它是得拿到一个完整的二维权重的。所以说,如果你之前你的这些参数,它被切的很碎,比如说被TP或者被SGP给切碎了,那么你还得把它聚合回来,再来计算。

所以这里涉及到很多分布式的元语,然后这一系列讨论最终得出的效果就是说,我们可以看 Kimi 在 K2 里面,Kimi 我印象中他们老老实实就只在这个就是 data parallelism 这个层面去做模型的切分,他们不会去在这个张量并行上面去做张去做切分,然后以及刚才一封信也提到了嘛,这个 embedding layer、lom 还有 bias 这些层其实还是走的 AdamW。

所以,optimizer层现在到了一个非常混杂的一个状态,然后它的调度逻辑啊,它的这些呃给states做的checkpoint啊,还有做的这些。就是就是我们叫做 checkpoint resume 啊,都有远超以前的这个复杂度。然后我们又可能它不是那么一个简单的换掉 a 顿 w,就是你可以想象说,我们用了大量的人力,大量零范复杂度去置换出来了一个当量的显存和收敛效率。

然后这笔账值不值得,取决于每一个团队的工程水平。然后也取决于你有多少的显卡,你训练的模型规模有多大。但是一峰提到有个观点比较对,就是迷网优化其实检验一个团队工程优化上线的很好试金石,这个我非常的认可,嗯。这个专业名词听着非常的头疼,但事实上你可以想见,当我要报菜名的说出这么多名词的时候,每这里提到的每一个名词都是可能是一个 engineering day 的复杂度啊。

这是或者直白一点,就是每一个名词都对应着一篇文章。那这是优化器的这部分啊。然后关于 MHC 的话,就简单来说,这是一个什么改进了?它为什么要引入这个东西,解决什么问题的?对,就是 MHC 是之前是基于自己的 hyper connection 这样一个工作,它是扩展了层与层之间的信息流的宽度。以前的

transformer 它相当于是层与层之间,假设就是每一层之间它只有 d 维的信息流宽度,而 hyper connection 的话,就是我在 d 维之上再加了一个 channel 维,就是现在有 channel 乘以 d 这么大一个信息流宽度,现在就是 d 乘 c。

就相当于比以前的信息的宽度大了C倍,这样的话就能够更好让模型能力能进一步提升嘛。对它的信息流更大了,它的模型的就是推理啊什么的能力就会有显著的提升。但是呢,就是朴素的HyperConnection,它的数学原理就导致了它的梯度回传不太稳定,训练不太稳定。所以说,就是之前就是直接提出来过后,其实社区的反响不是特别大。

对,因为训不好。然后MHC的话,它加入了这个Sing Horn Crop的算法,就相当于是它限制了整个信息流的scale是一,横竖都是一。就相当于控制了,就是正向和反向传播,它不至于爆炸或消失。这个改进呢,我认为一方面就是需要对于这个前人hyperconnection这样的那个细致分析,然后另一方面呢,就是说它可能是基于一些内核指标,比如像它梯度的那个scale。

或者说它的激活值的这样大小,来发现一些现象,然后从现象去倒推我怎么样去解决这样一个问题,所以这算DeepSeek一个比较独特的判断也好,或者说它的什么选择也好,就是他们选择去改进这个事儿本身,在当时。可能也不是很多人在做,对,在现在所有的这种就是到这个规模百亿大左右的这种模型里面,是不是也只有Vc用了这个东西?

就这并不算一个特别主流的做法,对吧?相比于没有优化器,是的。那你怎么看?就他用了这个MHC带来的这个模型,比如说哪些方面的提升?直观的看法就是推理能力。就相当于是有了大幅度增长,就是说我不必等着那个信息从第一层慢慢慢慢的传到最后一层,而是说就是我的就是车道变宽了,推理能力有大幅的提升。这个是当时DeepSeek在MHC这个单独的论文里面,他们专门是做了,就是比如说呃控制变量的这种非常精确的比较嘛。

他们应该也没有精确的去比较,就是说这个它的呃。具体是不是能力提升?他是去比较他一些 benchmark。另外一个我想补充一点,就是说 MHC 它是从增加信息流宽度去进行增加层与层之间信息的互动。然后最近我也注意到 Kimi 提出 attention residual。它是像 DenseNet

一样,它层与层之间直接就是说,就是跨层进行互相连接,它不需要就是每一层每一层挨着这样连接,而是说第一层也可以。

直接去影响最后一层的信息,我认为这两个虽然说那个方法完全不一样,但是呢都是呃异曲同工的想到了我需要去在 layer wise 去进行那个信息流的这样一个改进。嗯,那这两种方法的区别和它未来的上限你怎么看?一个是。DeepSeek现在在用的MHC,这是它比较独特的一个做法。然后另一方面是你说的Kimmy,也是最近Kimmy提的Attention Residues。

这个,我认为对于我们资源比较有限来说,MHC它的实现起来,infra相较于Tensor C组还是相对比较简单的。对于我我来说的话,可能就是更加倾向于那个去搞MHC相关的,就包括我们一月份提出的Deep Delta Learning,就是类似的Hyper Connection技术去进行另一方面的那个呃归一化的处理。

在只增加极少的计算量的效果之上,就是说达到了非常好的那个 performance。Attention residuals 的话,它就是它对 infra 的要求更高。对,但是呢,因为它对于每层与层之间关系一个更加精确的这样一个描述,所以说我认为它的上限会比 hybrid connection 这一系列。

研究它的上限会更高。MHC这个事儿啊,因为它可能也是在训练这个过程的,它对你们比如说推理框架去做适配,或者说去做一些变化,会有影响吗?其实是很多的呀,啊,就是从推理的角度来说,MHC把残差的简单AR的变成了一个需要这个thinker归一化的。然后还要给Dream加个Mixing,这个操作会复杂许多。

嗯,然后呢,这个我们带来的直接挑战就是先前的算子对于这个MSC而言是不够高效的,所以我们需要为这个MSC给单独写一些新的Kernel,包括呃,我们最近也release了用Tilan去给MSC写的Split Split K Kernel。OK,这个东西在小Batch解码情况下能够显著提高GPU的利用率。

呃,我们不太需要在乎这个具体的 kernel 是什么东西,但是,呃,为了新的算法定制新的 kernel 的事情,在 V3 以前其实做的没有那么的频繁,然后这个时代我们也做的越来越多。不过可以,不过比较欣喜的是,现在我们也有了更多更好的工具,类似于 Tailan 能够更高效地去支持这个为新算法写新 kernel 吧。

OK,那到现在其实我们是盘点了,就是你说的那四个一起来的新东西里面的前三个有新的注意力机制,有那个优化器,他们有一些改进,然后还有MHC,这是DeepSeek比较独特的做法。然后第四个就是它在Infra上的两个关键词Tail浪和FP四啊,这个可以陈阳,你主要展开说一说吧,你这个你应该比较了解啊。嗯,这两个词啊,也 again 这个都是付出了无数 infra 工程师的辛勤劳动。

我可以简单先介绍一下这个 Tyler 啊,我喜欢叫做这个东西叫 Tyler,因为 Tyler 听就像是那种拳击大师的名字。我可以这么理解,就是说,呃,大家可以想就是。呃,infra解决的问题应该叫做给定同样的计算路径情况下,怎么样一个计算更快?然后写kernel大概就是说,呃,我们底层有非常多的这种核,就是这些核会结合一些硬件特性,然后呃。

嗯,然后虽然可能我们做的矩阵计算都是同一块,但是经过不同的核,它拿到效率是不一样的。举个简单例子,比如说我给一个这个四千零九十六乘四千零九十六的矩阵做一些计算,你可以把它按照一百二十八一百二十八的拆,那也可以把它按照二百五十二二百五十六的拆。然后不同的硬件,由于它的这个显存带宽之类不一样,所以有的硬件可能喜欢一百二十八,有的硬件可能喜欢二百五十六。

总之就是,嗯,kernel大概就是干这么一个事儿,就是让这些底层的矩阵计算变得越来越快。当然还有很多很多不同种的kernel。然后写kernel是依赖于很多语言的,然后这种语言我们称之为DSL,就是呃domain specific language。这里面我们一般拿这三种做个对比嘛,就是CUDA、Cython还有Tileon。

然后,CUDA是最有名的,我们一般称之为英伟达的护城河。英伟达是一家伟大的硬件公司,然后在硬件上的一层的软件,就是在CUDA这一层也是做的非常非常的优秀。CUDA呢,毫无疑问是性能最高,但是开发维护成本也最高的一套语言。然后 Triton是极大的降低了写Kernel的门槛,虽然还是很高,它比CUDA的门槛低了很多。

然后坏处就是它确定了很多表达能力以及它的极端性能。然后,呃,可能同一个 kernel,你用 Triton 写出来,可比起用 CUDA 写出来,CUDA 就会效率高不少,啊呀。然后 TensorFlow 的话,走的算是条中间路线,就是它比 Triton 更底层一些,然后表达力也更强,然后又比手写 CUDA 的开发效率更高。

然后 TensorFlow 也是这个这个国内发展起来一个优秀的开源项目嘛,嗯,然后。在这个V4的报告里面提到了Tiler的几个优势,我可以简单解读一下,就是把一些Kernel的启动开销压缩到了微秒级别,然后以及它为这个位级可重现给了很多的提升。这个位级可重现类似于我同样一个 prompt 输入给嗯

DeepSeek V4,如果我用泰浪的话,它的这它两次 forward 的推理出来的结果可能是更好重现的。

这对于推理工程师去 debug 是很有帮助的。就是可能科普一下,就是这些什么泰浪 Triton 和嗯 CUDA 的区别吧。然后我个人来看的话,泰浪的长期价值是为了这个是在这个新算法快速开发高性高性能 kernel 这件事情的编辑成本大大降低了。这个在DeepSeek提这个MHC的时候,他们就写了嘛。

这个他们已经为MHC写了一版泰浪的这个混合精度的kernel。然后,Tidal现在非常流行。我们团队S量这边的话,也是针对推理场景的small batch size decoding做了一个split K的Tidal版本。Tidal现在已经被前沿的lab当做算法的默认选择之一了。这也是可能最近一年半来,你说的这个前沿AI lab是就所有的美国的,也都算上全球的前沿AI lab。

嗯,对,大家对于这块的投入其实是很大的,因为很早以前,这个大家戏称这个做做编译器这一层是非常非常苦的,但是现在大家也看到了这一层的优势,是这一层的重要性。嗯,我觉得这个还挺感慨的,因为这是北大就杨志老师那边他们发起的一个开源项目,当然后面肯定也有很多社区的人一起来贡献和维护。然后它又是就你刚说DSL这个比较底层的语言,其实在五年前的时候。

那会儿我刚来晚点啊,有一个采访就是去采访鸿蒙的负责人,然后他就提到说,他们以前在华为就做鸿蒙的时候,他们想去招那种就是会汇编语言的人。在国内就非常非常难找啊,就找不到嗯,因为他们那个做的很早嘛,就差不多可能之前十年前吧,他们就有在想做这个事情啊。对这个,我可以说这个做编译器一直是一个非常伟大的事业,真的非常的苦,而且它并不是一个那么容易出名的事情,因为这个事情听上去它。

呃,很扎实。然后,嗯,它离商业层面很远,所以听,所以其实受到关注不多。然后这几年,我觉得它越来越受到关注。然后我前面也提到这个Taylang和CUDA Triton。然后可以这么说,就是严格来说,我看来这个Taylang和Triton是DSL,CUDA不是。CUDA太全面了,就以至于它不算很specific。

OK,然后Taylang和Triton做出的抽象,我个人理解都很不错。所以,简单来说就是,我觉得太难为了表达力放弃的底层控制,算是达到一个很好的。像这种开源的这种生态越来越多,它和库大之间的关系,未来长期会是怎么样了?就它是帮助说,比如说酷代这个生态更丰富、更完善了,还是说它也有可能和其他的国产的芯片啊,或者什么其他的芯片结合,他们可以一起来和英伟达形成一种竞争?

Hard to say,我觉得这是一个复杂的关系。这这个类似于各个模型厂商之间彼此会发这个技术报告。然后大家可能会彼此学习,但是另一方面就是大家多少也有些竞争。对我,我补充一点,就是我感觉就是说,像Python啊、C++啊,相比于C++,也就类似于C++,相比于汇编。或者说Python相比于C一样,就是一些不同的层级而已。

对,就CUDA还是要更底层一些,对吧?对,就是CUDA它就直接就是跟那个呃硬件进行交互嘛。那像 Tailon 的话,它可以用在就是别的芯片的厂商做的这层更底层的软件上吗?啊,事实上也是如此。很多硬件厂商也会主动去支持这些DSL,包括这个就是Triton中国这个生态圈也是有非常非常多的硬件厂商。长一块,嗯,厚实起来了。

你们怎么看?就是 DeepSeek 用了非常多的 Tile Long,当然你也说到这个是一个呃全球的 Lab 也都在做的事情啊。然后可以说他们在这个上面投入的是额外的要多一些嘛?因为我看 V 三点二里其实就提到了,我觉得这个未必,嗯,就是我只能说他们投入了很多,但是你说他们比其他人更多?我不确信,因为其他公司的这个披露出来的内部技术实现是相对有限的。

嗯,这是一个关键词。然后,一发另一个关键词,你前面提到你说是FP四啊。呃,我们其实先前提到过,这个 DeepSeekV3 是第一个把 FP8 这个做到一个很大量级的工作,到了 V4 是把 FP4

给做出来了。我很难想象,难道再往下走会进行更更激烈的优化、更激烈的压缩吗?呃,非常值得期待。然后,呃,我们可以对比一下 FP4、FP8,当然还有 BF16 这些词,嗯,只看最后一位嘛,四八十六就是它代表的是这个。

呃,浮点数的储存位宽,比如说 B F 十六就是用十六位来储存一个浮点数嘛,然后 F P

四就是同样的一个数字,我只用四位数来表达。然后,嗯,直观来说,这些迭代最大的区别就是数位在不断被减半,好处是我们的峰值算力肯定会得到很大的缓解。然后除此之外,给我们的显存容量和数据读取也带来很大的这个提升。嗯,可以想见就是,嗯,但是经常提算力、算力、算力,其实还有两个很关键的词:显存容量和数据读取带宽,也是大模型训练的一个显著瓶颈。

FP八的精度压缩到FP四,这个显然显存和带宽需求近似于是砍半了的,这个是可以带来很明显的提速。以前业界是很少有人在超大规模训练中直接使用FP四的。首先,这FP四的范围实在是非常的狭窄,很容易在训练过程当中出现梯度溢出或者归零。所以,呃,这个DeepSeek为了解决FP4的这个训练,无论是pretraining还是postrain,都用了非常多的工程上的巧思。

然后,这个我可以pick一个比较我自己最熟络的这个。东西叫做QAT,就是他们在这post training的时候做了所谓的量化感知训练,quantization aware

training,它是一种叫做训练时模拟量化、采样时真实量化的一种方案。嗯,我们可以理解这个强化学习是一个两阶段的循环,一个阶段是采样嘛,就是模型拿到了这个系统给予的这个输入,然后开始生成自己的回复,然后进行采样,然后之后采样得到东西进行打分,然后再把这些打分拿去训练,所以它就分为了一个采样阶段和训练阶段。

采样阶段就是我们称之为 roll out,然后呃,我们可以倒着来讲,在训练阶段的话,我们会做一个叫模拟量化的操作。训练时,我们在优化器维持FP三十二的主权重,然后在计算前先将其压缩到FP四的范围,然后再无损反量化回到FP八进行计算。这个呢就是我们说的伪量化,它进行了一步快速的、快速的量化,再反量化回来。

这个过程其实中间没有进行任何的前向计算,它只是就做做这么一个flipping的操作,让量化误差在这一步能够得到体现。做了这一步这个伪量化之后,我们再用 blockwise 的 scale 的 scale scale points 去把离群点给兜住。这样模型虽然没有在训练阶段这个真正的受到量化影响,但是它已经适应了这个低精度的损失。

然后回到这个采样阶段,我们会进行真实的 FP4 量化。到了这一步,我们会把前前面那个量化得到 FP4 的权重拿去真正的去做采样,然后。这样到了采样阶段,FP4的权重真正的斩断了访存瓶颈,让这个物理提速得到了真正的实现吧,然后。更值得欣喜的是,推理阶段的 FP4 的这种采样和我们之后的模型部署是一致的。

因为看现在 DeepSeek 发布的那个 checkpoint,它也是 FP4 的嘛,所以说训练过程中拿去采样的那个权重就是拿来发布的权重。它不是说我们拿 FP8 训练好了之后得到一个 FP8 的权重,再把它量化成 FP4,这样其实还是会有精度损失的。所以,呃,通过这种训练端的伪量化,然后采样时的真实量化的方案,其实。

这个强化学习的效率得到了很大的提升。然后,呃,我们可以举一个更有意思的例子,就是强化学习,经常我们会认为它在越大的模型和越长的越长的这个 token budget 的下面采样是越重的,采样可能会占到百分之七十以上的时间。然后在采样的时候,我们把位宽和显存读取压力大大降低,其实对采样速度有很好的提升。

呃,这个说的非常的具体啊。总之,我就可以 takeaway 就是这套这个伪量,这套训练时伪量化,然后采样是真实量化的方案,在 DeepSeek 的论文当中也有很强的体现。所以这个作为英法同行,这个可能是我们去年在十月份左右的一个重点。然后先前 Kimi 的 K2 其实也有用这套方案。我们 SDN 的 RU 团队去年就啃这块硬骨头。

我们做了两个工作,一个叫做 FP8 的全流程。强化学习就是训练的时候用FP八,然后推理时候用FP八,然后还有一个是INT四的QAT,INT四和FP四其实不太一样,但是可以想见,其实也是一些比较激进的压缩方案。然后,呃,基本上这个行业里面大家还是淌过同一条河的,这个背后的艰辛是很是难能可贵的。OK,然后。

实事求是的讲的话,在开源领域,我们团队的这个呃这个量化RL做的还是很领先。不过我们其实相比DeepSeek还是有一些这个差距。我们的这个Infra巨鲸的这个量化感知训练在采样还是做的W4A16,就是说这个呃。权重是这个四维,但是激活值是十六位。然后 DeepSeek 做到了更极限的 W4A4,就是所谓的权重是四维宽,但是激活值是八维宽。

然后在极致性能上面,他们当然走得更远,这也会是我们要继续攻坚克难的方向。我有一个问题是,如果 DeepSeek

它自己把推理框架给开源了,它和别的就官方的推理框架开源了,它和别的开源的这种框架的关系会是什么?OK,这个其实是一个开源,就是其实开源推理框架和闭源推理框架的一些哲学上的区别吧。哈,我觉得开源推理框架的一个重点是重口要调,比如说我们同样一套框架,可能DeepSeek的模型领先,我们要serve

DeepSeek,然后可能有小米的模型、MiniMax模型、Tiny的模型,我们要在这么多模型中中间都要支持上,这种就是。

整合性是非常非常重要的,这可能是我觉得开源的推理引擎和DeepSeek内部的推理引擎的重大区别。那进一步来说,就作为一个这种开源的要支持很多模型的这个框架,它最后给开发者或者说给你们的用户的这个价值是什么?嗯,我觉得最大价值就是本地部署的推理引擎对于很多这个公司是有直接需求的,开源推理引擎的性能提升也会反过来push就是闭源的推理引擎。

呃,训练上其实也是一样的,就是开源很多时候未必能做的比闭源领先。然后我觉得推理上面闭源和开源其实差距并不大,但是训练上面其实闭源的训练会比开源还是要领先不少的。我觉得开源有个很大的意义也是通过开源的方式让整个领域变得更加透明。我可以再分享一下,这个很长一段时间闭源的训练引擎是比开源的训练引擎强大很多。

然后以前RU也是一个负担非常非常重的事情。比如说,一个模型可能二月份上线,可能到了五六月份才会有开源的 R L O 框架能够把它 R L O 跑起来。这点上来说,呃,我也比较欣喜,这个我们团队这次其实也做到了一个,在发布当天就支持了这个 R L O 的。呃,全全链路就是,呃,逻辑上来说,这个RIO和推理是很相关的。

就是推理是做这个不带参数回传的forward嘛。我们做强化学习就care采样,采样完了再做参数回传。我还是觉得非常高兴,能够在如此巨大的MoE模型上面同时做好推理,同时做好RL,然后我们在训练侧和推理侧的一致性也做了,也做到了极致。我也可以预见,FP四已经算是正式走出了这个硬件厂商的PPT,成为了这个开源语言模型世界里面真正跑上超级模型的工业标准。

嗯,那像FP四的目前来说,是不是这么大模型上只有DeepSeek可以用了?就开源的可以看到技术细节的模型里面?啊,其实这个那个 GPT-OSs 其实也是的,但是大家的这个技术选择不完全一致。嗯,只能说 FP4 是一个全世界一起努力的方向。但至于说闭源模型是怎样的,就外界就不太清楚了,是吗?另外一个用的 FP4 是英伟达,因为它它自己应该是黄仁勋想推这个吧,就是他们推动的方向之一。

然后 Blackwell 卡也是支持这个 FP4,对。然后前面就是讲了这四个四个这个新的东西嘛。然后在这个报告的最后一部分,其实他们自己是讲了训练的过程。包括预训练的过程,包括后训练和测评这个部分,你们有看到什么觉得比较有意思的亮点吗?一个比较亮点就是那个它的 pre-training 的里面,就相当于是先分裂专家,然后就相当于是再进行那个 un-policy distillation。

在最近一段时间,就是 un-policy distillation 又开始,大家都在研究这个东西。但是呢,具体怎么做,其实各家还是有很大区别的。蒸馏这个做法在 DeepSeek V3 和 R1 上,它其实有一定实践,只不过它是把强的模型蒸馏到比较小的模型,比如像那个 R1 蒸馏出来的千万模型上。但是 V4 的蒸蒸馏呢,就相当于是它先训练一些小的专家,然后把这些小的专家的学习到的技能给它蒸馏起来。

就是节省它的参数量,就相当于是就是在训练过程中,专家越多,它容量越大了。但是呢,它那个专家越多,他的那个显存啊,就是他的参数量,他的要求也比较大。我们先让这些专家先学好,然后再把这些专家的一些精华给它提取出来,能够显著的提高最终的模型的能力。这个易峰其实讲的这个很很有意思的,就是他们做的这个叫多专家训练。

这个本质上这个是要解决一个所谓的多目标优化问题。可以想见,这个有句话说,这个同时优化的目标的个数。同时优化目标个数的多少是智力上限的体现。一个人能够同时操控的系统,它的参数越大,证明他的能力越强。呃,就像刚才易峰讲,这个联合训练就相当于是在一个多目标的这个我们称之为 loss surface 里面找一个帕洛夫最优,但是实际的公式里面,这个最优点是很难同时去找到的,因为。

这个梯度的走向很复杂,对冲突很严重。所以说,呃,像刚才易峰提到的嘛,就是如果你一味的去 push coding

的能力,可能你的数学就不好了。你把数学修好了,你可能这个对指令的遵循又不好了。所以现在的做法其实是所谓的先分裂再蒸馏嘛,就是在各个目标上都去找找局部的最优值,然后我们再让一个统一的学生模型去同时拟合多个这个教师模型的输出分布,有点像是我们学高数的时候叫数学实验有这门课讲过一个叫插值的东西。

我们把一个在复杂的这个 loose service 上面的联合优化问题,换成一个在已经收敛的一些离散点之间做插值,这个事情在工程上面听上去是一个更稳定可控的事情。然后,嗯,先前来说,这个在业界我们也有过很多类似的尝试呢。据说,这个早年领先的某开源模型也有过这个所谓的专家聚合阶段。然后他们的公开细节比较少。

然后Qwen的话,一直都是开源领域的元神啊。这个Qwen的post-training阶段就说过,他们有这个multi-stage的这个专家聚合阶段。然后学术界的话,一直都有这个所谓的模型聚合,还有模型的这个叫做模型span这种技术。呃,我觉得大概是从有GPT二的时候就有人在做这些事情。硅谷这边的话,前沿的闭源模型,我认为大概率也会有相同的思路,但是,呃,因为商业原因,大家的披露很有限。

然后,开源这个生态是这一波中国实验室给整个AI领域的实质贡献。嗯,测评的部分其实我们前面聊过了,你们有什么还要补充的吗?这个我经常是做一些锐利的批评啊。这个有有句话是这么讲的:这个我本科毕业的时候,有位NLP领域非常知名的研究者跟我说过一句一件事儿,他觉得我们不能去优化我们不能评测的东西。如果我们不能给我们想要优化的能力一个分数,我们根本就不知道我们的优化对不对。

We cannot optimize what we do not, what we cannot evaluate. 所以经常大家会讲一个词儿叫 benchmark,也会讲一个词儿叫 evaluation。我其实觉得我们最好把这东西叫做 evaluation,而不是 benchmark,因为 benchmark 指的是一个个具体的任务。

但是 benchmark 是经常会过时的,可能一个 benchmark 可能发布一年两年,它就 saturated 了,这大家都说它是一个 finished problem。但是 evaluation 这个事情永远都是存在,而且它是一个非常,一直都是个非常重要的事情。我最近也有一个很大的感觉,就是 evaluation 越来越难做,因为我们的场景越来越复杂。

举个具体的例子,经常 Claude 的更新了之后,就会有人去。批评说这个版本怎么更新之后变某某某方面变差了啊?我我是非常的好奇,对于 cloud code 这样的工具,大家是怎么去评估一个 feature 要不要更新的?举个例子,就是我们做 A I 这个行业,大家有万千种想法,然后每一个想法听着都有那么一些道理,但是。

直观上来讲,你是不可能把所有的所有的想法都做了。然后你说这个东西在变好,对你加的东西越多,可能这个东西就在变差。有个词儿叫做 less is more嘛,你这个东西加进去真的有没有变好?这个东西是需要量化来说明的。所以 evaluation 就是做这个量化,它尽量的不应该凭感觉走,否则我们的优化就会出问题。

所以,take back就是,我觉得这一版DeepSeek的这个benchmark一一一如既往做的很扎实,而且我从来坚定的认为我们要做好evaluation,而且evaluation只能做的越来越好才行,否则我们这个行业会变成一种这个早些年这个修炼气功的感觉。对,有我们会觉得这些这个气功大师让人觉得非常的费解,因为就是从我们的科学教育观来来讲,对吧?

这个东西有没有什么客观的标准说他这些是什么奇怪的功,真的能够给这个社会带来正向的指引,还是说他只是挑出几个例子说这个人的病好了?对我觉得现在就是,呃,不做好以外雷水,我们这个行业就会陷入这种这个自欺欺人的恶性循环。嗯,这点上来看的话。DeepSeek这次的这个evaluation嘛,他们测了什么呢?

多步任务的稳定性、长程对话、人格一致,还有什么工具调用的鲁棒性?这些可能在V4的报告里面提到了,而且我觉得这也是V4能不能进入第一梯队的真正问题所在。OK,嗯,所以Key Takeaway就是。Benchmarking会过时,然后任何一个benchmark都有被刷满的那一天。但是evaluation一直需要是一个公正的追求,否则我们这个行业是没法去盖的整个领域积极向上发展的。

对,我觉得这事儿是确实越来越难了。包括最近OpenS四点七更新之后,就很多人认为还是要用四点六啊。确实也是,现在有个词儿叫做Vibe Checking啊。或者叫 vibe benchmarking,就是说我已经感觉不出来模型的好坏了,我只能根据他我的有限次对话说,哎,以前这个任务4.5能做,为什么你4.7就做不好了?

我们已经进入了这个benchmark的可信危机。这些模型乍一看,这benchmark全都是90加,但是实际差异大家都说很大。所以说,我觉得这个generation的agent evaluation还没有达成共识,我们还需要更好的evaluation机制。易峰,你有什么要补充的吗?我觉得就是

benchmark 就相当于是在某一个具体任务上的这样一个能力,但是我认为的话,更重要的还是去发现和提出新的 ability demand,比如说 agentic 能力,比如像那个长程注意的能力 demand 比具体的某个 benchmark 重要程度更更高,因为就是你要一旦提出这个

benchmark 的话,我觉得就是刷满也就是半年到一年的时间。

V4在这方面应该也没有提什么新的领域的能力,对吧?这个是没有提的。是的,所以说就是说就是这是我觉得就是说还是不是那么特别令人震惊的一点之一吧。我觉得一个非常有意思的点是我们发现这几代模型它居然没有做degradation,就是。就是先前好过的任务,它再也没有差下去过。这点上其实还是很值得欣喜的。当然,我觉得可能一方面的另一个代价就是现在模型的

context length,嗯,达到一种令人发指的地步。

OK,我想起来这个讲 benchmarking

里面,他们提到那个多轮的这个。多轮工具调用,还有这个这个多轮人格一致性嘛?我们去年就是DeepSeekV3发的时候,当时我自己有篇paper,我们当时也是去年投了Academia。前几天应该也在巴西开会,但我没有去,就是也是讲这个评估一个语言模型在。GitHub上面去面对刁钻的 reviewer

去交一个 PR,然后把它 merge 的这个能力,这个其实它相对于以前叫什么打数学竞赛啊,还有这个解决,比如说修一个单测,像 Scrivener 这种修单测还是区别很大的。

这个可能跟现在的 Code 的 idea 很像,就 Code 比如说你让他去完成一个工程,你要交付了之后,你得希望把它 merge 进去,对吧?然后在 merge 之前,你还得和你的 reviewer 做很多轮的 rebarter。所以我感受中就是,至少我自己做过的奔驰版来说,我很欣喜,我们做的奔驰版能够得到更多的认证,而且即便今年这个奔驰版它已经被刷满了,无所谓,至少。

首先,这个 idea 这个我们拿到很好的分数,它这边 all the paper 嘛。然后另一个方面,我是非常欣喜见到这一年这个能力就能被刷满。那我们明年是不是可以期待一些更劲爆的东西?OK。呃,最近我自己比较关注的Benchmark叫做Cloud Bench,就是就就这个名字就是Open

Cloud Cloud Bench,它就是评估在这个Open Cloud这种应用场景下面用户的满意度是什么样子。

我觉得这。我我也比较希望到了明年,这种类似的benchmark,这种个人非严肃编程助手的benchmark也能被刷满。那我们肯定会有新的挑战,新的全新的应用能到来。对,接下来正好我们可以讨论一下,就是行业正在发生的一些更广泛的变化。因为最近的模型更新还是非常密集的。那从三月底到现在。呃,包括前面提到的小米的米某二点五、G

L M五点一、MiniMax二点七、K二点六、OBS四点七、G P T五点五,你们觉得这些所有的模型里面,可以总结出大家有哪些在努力的共性的方向?

我觉得话就是开源模型来说的话,它的方法和architecture实际上还是在某种程度上趋同。这是它基座,也就是 M A,但是它会对一些很多其其他的 augmentation

feature,但是基座基本上就相当是基于这个的架构去进行拓展。对,然后包括像优化器,大家都都在用Millon,然后之前的话可能就是AtomW啊,甚至还会有一些那个其他的MScrad呀这些优化器,但现在大家都陆续的转成Millon优化器,或者说那个就相当于在Millon优化器的基础上去进行微调。

那个Agent的能力,我觉得是那个这一波,就是所有不管是开源模型还是闭源模型。都在注重的趋势,因为就是像 OpenCLo呀、Claude 这些,就是让大家就发现了模型研究它未来商业化可能方向,给这些那个 agent 去提供那个 token。从而就相当是真正的能够实现这样一个盈利,而不是仅仅靠之前的会员服务盈利。

嗯,这个其实是一个很有意思的商业问题,就是你是要把它做成一个订阅制,还是要做成一个 token by token 的一个计费?我觉得现在其实我心里是 vote for 订阅制,我觉得订阅制是一个更好的商业模式。然后你完全可以这个先订阅,订阅满了了之后再让大家交交token的钱。但是实际上大部分的用户不会用到订订阅的定额,所以做订阅制其实反而是以更赚钱的事情。

对,但是现在很多公司它又抛弃了订阅制,转而是按token计费,可能订阅制也扛不住。就如果说订阅制它高了,没有用户买;订阅制低了的话,其实公司公司是亏的。嗯,这这是一个统一的商业问题。然后我不觉得现在哪家公司有给出一个很好的结论,就哪怕这个我们看。呃,可以吧?就是我觉得 Claude 这么成功一个商业产品,究竟盈利如何?

我们且待且且看。嗯,如果他今年底要 IPO 的话,那应该能看到财务数据啊。现在很多那种做视频生成的产品。就是偏AIGC应用的这些产品,比较类似于陈阳说的两种结合。然后,如果你用完用满这个额度之后,你就要额外买积分。然后,影视从业者就因为他们有刚需去用这个东西,他们还是比较接受的。所以,所以视频生成类的产品的客单价还真的挺高的,就比我想象中高很多啊。

我其实,在商业上面非常的喜欢他们视频这样的一个生态,但是坏消息是,视频生成模型的开开源的视频生成模型和闭源的差距确实很大。嗯,因为我发现好像没有什么人愿意开源视频生成模型,有可能这正正是说明了它还真的挺赚钱吧?啊,好像就到目前为止,呃,迄今就就就已经开源的,然后。大家认为比较先进的一个,应该也是千万,呃,是阿里那边开源的,就通义万相。

嗯,是的,我最近做这个语音模型也做的比较多,就是我们做这个语音生成的模型嘛。然后可以想见,就比如说现在开源的语音生成模型,相比于比如说 Gemini,相比 OpenAI 的那个 GPT 4 那个时代的模型,还是有不少差距的。我的一个推论就是,这些模型应该很赚钱。就是还有一个就是说是视频模型,它的用户粘性特别大,相比于语言模型来说,所以就是说视频模型可能更倾向于那个就是订阅制。

我的感觉啊,就是关注度和舆论是全部被 coding、被通用的这种 agent。吸引走的,因为这方面的竞争非常焦灼,而且都是最大的公司在竞争。但另一方面,确实可能视频是一个跟创业友好,或者说AIGC这个方向是个跟创业友好的方向啊,包括语音啊,像Eleven Labs这种公司,对吧?在好像在一个相对自己的空间里在存在着,这是相同的部分。

那你们观察到各家的差异是什么了?包括中美之间会有什么这种分化的趋势吗?首先,我们可以讨论一下国内的比较有代表性的这几家开源模型。然后,我觉得开源里面DeepSeek和Kimi的这个取向比较接近,他们做的工程和这个创新性比较极限吧,大的MoE,低的激活,长下长下下文,还有一些Recip的Cost。然后千问还有 MixMax,我觉得在 R U 训练端,然后在长上下文落地方面都有非常扎实的积累。

大家的发力点不太一样。Person to Person,我觉得这五家公司仍旧非常的有希望。啊哦,Sorry,这里可能漏掉了小米。然后当然小米可以,大家看到昨天这个模型 V V 二点五的 Pro 啦,然后在那个 Arena 上面的分数也是比 V 四要高的。嗯。哎,竞争时代非常激烈,看到这种百花齐放的局面,我至少还是非常开心的。

当然,坏处就是这些开源的模型也给了也给了我们开源这个推理引擎有很多的这个,就是我们的工作量也很大。嗯,你为什么没有提到街月和混元啊?Myself就是街月的话,在这个多模态上面,其实他们发力是很早的。然后,呃,我是觉得现在多模态是一个发上洒水的一个状态。所以,就像当刚才刚才易峰也提到了这个。呃,多模态要不要做原生多模态,这些事情是非常值得研究的。

然后混元的话,这个最近这个姚顺宇,这个我和一峰的学长嘛,他这个回去涨帅混元,看到混元发的可能是三百B的那个模型吧。然后当然肯定现在不是在这个一一个T的以上这个模型的牌桌上面,但是在三百B这个规模,我觉得做的也非常的扎实。现在是三点零的Preview,对,如果等到三点零,它可能上了Pro,它可能就进了微信端,那这个格局会很有意思。

这我觉得也不久之后应该可能就会看到美国模型,就是总体来说,就是它更多追求就是我开辟了一个新的领域,比如像我长向向文那个界面来,呃,就是谷歌团队提出的,然后多模态融合,然后包括像那个 agent 能力,它的性能跨时代的提高,就像最近很火的那个那个一米几二。就相当于它比之前的模型有的就是跨时代的提高,还有一点就是中国模型它更加侧重于性价比。

美国模型就是说大家都知道非常贵,但中国模型就是说是在同样的能力下,哎,收费比美国模型小一个数量级。我觉得这跟中国充足的技术人员储备是有很大关系。陈阳,你有什么要补充吗?比如你你观察到了中美?模型进化的这种差别,嗯,我在美国的话,我先前在 Amazon 的这个 AGISF Lab 工作过,我也和易峰都在 Seed 有过实习。

这个 Generation Long Horizon Agents 只有一个词惊叹,嗯,包括 Open Cloud,包括这个 Cloud Code 这两个产品吧,我觉得心里是很 admire。呃,Cloud这一代模型就从4.5之后,在多轮Agentic Coding上面的表现,相比于这个先前真的进步了非常非常多。

可以想见,这个RLHF或者RLAIF这一套我们先前Alignment的方法论,这么几年积累之后,加上巨量的高质量人类反馈数据,已经在美国这边形成了一个非常强大的数据闭环。中国团队这边的话,我觉得强项是这个架构创新的密度,还有令人咂舌的工程完成度。V四一个报告里面就是一次性把混合稀疏注意力M S C缪F P四,它让这么多事情全部都换掉并且跑通,这种决心和执行力是相当罕见的。

我觉得这个中美的路径风格上有所不同,但整个行业还是在。盘桓上升的美国的模型没有做的那么稀疏,就大家没有在追求这个啊?你觉得这不是个选择的问题,是实现的问题?对,而且就是美国这边算力比较多嘛,对它不需要做那么稀疏,因为稀疏它会牺牲一定上限。就大家的选择就是我就是去冲性能的,反正我这么贵也有人买啊,我就先做到那些之前模型可能做不到的事儿啊,然后我再想降成本的问题啊。

是的,因为理论上你性能能冲上去之后,就降成本这个事儿,我觉得它会相对确定一点啊。嗯,当然你也需要更多资源和支持啊。Harschly agree啊,对,就是可能很多人批评说这个中美现在是这个大搞太空竞赛,我觉得很遗憾,只有中美能搞太空竞赛,没有任何国家能够玩得起这一波。的AI比赛,你们觉得就是再过一两年来看的话,V4最可能被记住的是什么成果,或者说是它的什么思路和想法?

可能为为数不多能被记住,也就是token wise的这种极致压缩压缩,从算法层面来说。对,因为之前的话,大家就是可能KV开始更多的是就是相当于是单个token里面降维啊之类的,比如像LLM就是先降维再升维,对,都是涉及到单个token的这种压缩。然后token外侧的压缩的话,应该是V4首先被应用到这种工业级别的模型上,对,然后其他的话就是算法层面。

就是没有什么特别,就是说是让我非常惊艳的地方。哎,我和一峰的观点是比较类似的,就是长上下文、极致低激活比例,然后还有一个低单token成本这个组合,无论是这个architecture wise还是在这个infra wise,可能都是V4留下的持久遗产。然后具体的某一个技术,比如说MHC或者混合注意力,会不会按照现在的形式被采用下去?

可能就像MLV一样,那是可能是那个阶段的最优解,但是可能过了一两个一两个round,它可能会被更优雅的方案替代。当然,硬件肯定会反过来推动往上的一些替代吧。呃,我觉得 DeepSeek V4 它率先验证了这种工程配方,还是会成为后续许多开源大模型的默认起点。在这个意义上面,DeepSeek 一直是开源模型的参考基准。

嗯,然后最后一个问题就是想问一下两位,呃,接下来的一些行动啊,就比如说你们选择的一些研究方向,然后或者是陈阳这边,因为你已经创业了嘛,你肯定有很多具体的事儿得干的啊。有哪些可能是因为,比如说V四,又或者是其他最近发的这些模型啊,会有一些影响和改变的。对我来说的话,就是因为我现在也没在公司实习。如果说有机会去公司实习,我可能会。

比较想做CSA、HSA这种token wise的压缩,这种长文本,但在实验室里面的话,长文本是很难实验的。所以说,对我来说更倾向于就是去进一步去研究那个呃hyper connection相关的研研究,包括像keying的attention residual这种,就相当于是我感觉这又是另一波,就是说。

就是之前是从那个ResNet到DenseNet这样一波,我觉得话就是说,对于Transformer来说,它可能也是会有一个相同的这样一个趋势,就是提高层与层之间的信息流动。对,然后的话,我自己也在做优化器,就是说那个 DeepSeek V4 它采采用了就是不同的超参数,那么 Muon 它自己还能不能去进一步的改进?

或者说是米尔它的超参数如何去设定?就到底那个就是呃,凯尔·乔丹提出的五步牛顿数字更好,还是那个DeepSeek V4呃采用的十步牛顿数字更好?这个还是非常值得去进一步的探索。嗯,然后我的话,这个。嗯,就像我刚才提到了,我们有一个我今年我在,我在大概去年这个时候的一个工作,讲那个多轮的agent去给GitHub issue交PR这个事情。

呃,这算是我之前的一个 research 方向,就是研究这种 coding 下面的这种真实场景下的 coding 表现嘛。我可能最近不需要做这个 research,但是我要真实把它用起来,因为现在我自己维护开源的工具,会有很多人交 AI 生成的这个 PR。那我有没有什么 golden standard 能够内化到我自己的工作里面来?

我看到什么 PR,我知道这玩意靠谱;我看到什么 PR,适量着就会把它毙掉。这个是我需要去研究的,从研究里面汲取出来到我的工作当中来。然后还有一点是我最近做这个语音模型做的比较多,我觉得语音模型上面其实它的工程优化相比于语言模型差了非常多。然后包括很多事情其实可以在语音模型上面重现一次,我觉得都是可行的。

这个版本的DeepSeek的话,还是做到了很优秀的这个。P D分离呀,还有这个M T P这些工作,我会认为P D分离可能未必要在语音模型上实现,但是M T P对语音还是挺关键的。就像是现在可能你打开手机跟豆包对话,你会觉得豆包吐出第一个语音的速度还是很快的。很遗憾,在开源上面我们做的没有这么优秀,所以我觉得这里还是有一个很大的gap,我们可以去努力的。

嗯,OK,那今天非常感谢两位做客晚点聊,分享了你们在看到DeepSeek V4发布之后,包括最近这么密集的这么多模型更新之后,观察到的一些变化,尤其是我们非常详细的展开聊了DeepSeek这一次一下子端出来的四个新东西,然后在一点六T这么大的模型上都实现了。就包括它新的注意力机制,这个是改变了V二到V三的MLA主流的做法。

而现在Kimi和智普的GLM还是用的MLA的架构。然后第二个就是Mill优化器,而且DeepSeek也在之前的比较主流的版本上做了一些改进。然后第三个是 MHC,这是 DBC 自己提出来的一个让训练更稳定的方法。然后最后是在 Infra 层面的 Tile Long 还有 FP4 的使用。那今天的节目就到这里,各位拜拜。

本期节目就到这里,感谢收听。如果你对今天聊的话题有观察、好奇或疑问,欢迎在评论区分享想法。这也会成为我们节目的一部分,让整个讨论更完整。你也可以把我们的节目分享给对这个话题感兴趣的朋友,推荐更多你想听的主题和嘉宾。你可以从小宇宙、苹果Podcast等渠道关注“晚点聊Late Talk”,也欢迎关注我们的公众号“晚点Late Post”。

下期再见。