YC Paper Club的精英社区与硅谷AI人才聚合

YC Paper Club作为Y Combinator首次举办的学术与创业结合活动,旨在构建一个由顶尖创始人和研究人员组成的紧密社区。尽管申请人数超过一千人,但最终仅选拔约一百名成员,筛选过程极为严格。现场参与者背景极其亮眼,多数成员拥有超过100次引用,部分甚至达到10,000次引用,在融资方面,有人已筹集超过5,000万美元资金。这种高密度的智力与资本聚集,体现了该社区在AI领域的核心地位。

"We had over a thousand folks that applied to come in. It was a very hard selection."

活动的隐藏使命是“让Pioneer再次伟大”,重现Winter 16批次(140家公司中有10-15家成为独角兽)的辉煌。当时OpenAI初创团队(包括Sam Altman、Greg Brockman等)常在此与创业者交流,寻找研究方向。如今,硅谷AI人才分布发生了地理转移,约一半的AI人才集中在旧金山,另一半则位于帕洛阿尔托及以南地区。为了整合这些分散的资源,YC决定在Pioneer大楼举办活动,以解决“一石六鸟”的问题:聚集人才、促进交流、激活场地价值,并连接Google DeepMind、Tesla、xAI等周边巨头与初创企业。

推理(Inference):从成本问题到核心能力的范式转移

斯坦福研究生Tanishk作为首位演讲者,致力于推广对推理(Inference)重要性的认知。他回顾了自己从训练转向推理研究的历程,指出过去人们常误以为推理只是简单的矩阵乘法,无需复杂工程。然而,推理在大规模服务中占据主导地位,其成本远超训练成本。更关键的是,强化学习(RL)的计算需求正在超越预训练,而RL本质上是对推理过程的封装。

Tanishk提出了一个颠覆性的核心观点:推理不应仅被视为成本或便利因素,而应被视为一种核心能力(Capability)。他认为,如果算法性能随“思考量”增加而扩展,那么推理速度(每秒token数)直接决定了模型能交付的最高智能水平。这一观点将推理从后端的工程优化提升到了决定模型上限的战略高度,预示着未来数据中心将专门用于最大化推理效率,以释放模型的潜在智能。

"Inference today is seen as a sort of like cost or convenience lever. But in one two or 3 years inference is going to be seen as a capability."

快速推理的实证演示与算法对比

为了验证快速推理的价值,Tanishk展示了一个包含三种不同解码算法的实时对比演示。该演示旨在直观呈现不同算法在生成代码提示时的效率差异。虽然具体的基准测试数字未在片段中完全展开,但演示涵盖了以下三种关键技术路径:

算法/引擎类型 描述与特点 状态/备注
自回归解码 (Auto-regressive Decoding) 标准的VLM采样方法,逐个token生成 基准对照组
投机解码 (Speculative Decoding) 使用Tanishk团队提出的优化算法 主要对比对象
定制推理引擎 (Custom Inference Engine) 夏季项目手写的轻量级引擎,实现新算法 强调算法创新

"I'm going to be evangelizing inference for people today. Hopefully, you'll be inference enjoyers by the end."

这一演示不仅展示了技术实现的差异,更意在证明通过算法优化(如投机解码)可以显著提升推理效率,从而支持Tanishk关于“推理速度即智能上限”的论点。通过对比标准方法与优化后的方法,观众可以直观感受到推理加速带来的实际性能提升,为后续深入探讨具体算法细节奠定基础。

推测解码(Speculative Decoding)的核心机制与异步优势

推测解码是一种利用小模型加速大模型推理的技术,其核心在于用计算量(FLOPs)交换延迟(Latency)。该架构包含两个部分:位于上方的“小模型”(如 Tiny Llama)作为草稿生成器,以及下方的“大模型”(如 Big Llama)作为目标验证器。小模型的任务是自回归地逐个生成令牌(tokens),即通过多次前向传播来预测大模型接下来可能输出的内容。这种逐个生成的过程是必要的,因为自回归解码本质上是串行的。相比之下,大模型的角色是验证这些猜测,它只需对生成的一组令牌进行一次前向传播,即可并行计算这些令牌在大模型概率分布中的可能性。

"The sort of key asymmetry here, the reason that speculation works is that it is easier to verify than to generate."

这种机制之所以有效,是因为 Transformer 架构具有验证比生成更容易的特性。在大模型中,可以在一次前向传播中并行获取序列中多个令牌的概率,但生成过程必须逐个进行。因此,推测解码将缓慢的自回归解码任务交给快速的小模型,而大模型仅执行一次前向传播来验证小模型的输出。如果大模型认为某些令牌是合理生成的(即概率较高),则接受它们;否则,拒绝从第一个不合理令牌开始及其后的所有令牌。值得注意的是,在拒绝点,大模型可以免费采样一个额外的令牌(Bonus Token),无需额外的前向传播,这为后续优化提供了关键基础。

传统推测解码的瓶颈与 SSD 的并行化愿景

尽管推测解码能加速推理,但传统方法存在明显的顺序依赖瓶颈。在每一轮推理中,小模型的草稿生成必须在目标模型的验证之前完成,而下一轮的草稿生成又依赖于上一轮验证的结果(作为前缀)。这种逻辑依赖性限制了速度的无限提升,因为如果草稿生成时间过长且接受率过低,整体加速效果将大打折扣。推测解码的本质类似于计算机科学中的投机执行(Speculative Execution),如在 CPU 中预先计算可能需要的结果。如果预测正确,可以跳过等待时间从而降低延迟;如果预测错误,则需回滚。然而,在 LLM 中,不能无限增加草稿令牌数量,因为随着草稿长度增加,接受率通常会下降,导致计算开销超过收益。

SSD(Speculative Sampling Decoding)的目标非常明确:将这种固有的串行操作并行化。在常规设置中,草稿生成和验证在同一硬件上串行发生。SSD 试图让这两个过程同时发生,不再将它们 colocate(共置)。其核心思路是:当小模型发送一批草稿令牌(如蓝色令牌)后,大模型开始验证。在此期间,小模型立即开始预测最可能的验证结果,并基于这些预测提前生成下一轮的草稿。如果预测准确,当下次大模型请求草稿时,小模型已准备好结果,从而完全隐藏了草稿生成的延迟。这种并行化策略旨在打破顺序依赖,实现更高的吞吐量。

SSD 并行策略的执行逻辑与容错机制

SSD 的具体执行流程涉及预测性草稿生成。当小模型完成一轮草稿发送后,大模型开始进行耗时较长的前向传播验证。与此同时,小模型并不空闲,而是立即构思下一轮最可能的验证结果。一旦小模型确定了这些可能的结果,它便开始基于这些假设生成下一批草稿令牌,而此时大模型仍在处理上一轮的验证任务。这种重叠执行使得小模型的草稿生成时间被完全隐藏在大模型的验证延迟之下。如果小模型的预测正确,即大模型验证了这些预生成的令牌,那么系统可以立即进入下一轮,无需等待小模型重新生成,从而实现了显著的加速。

然而,这种并行化策略也带来了容错挑战。如果小模型的预测错误,即大模型拒绝了预生成的草稿,系统必须有一个备用策略(backup strategy)来处理这种情况。虽然 SSD 的高层理念简单——即并行化草稿和验证——但具体实现中涉及许多细微的细节,例如如何处理预测失败后的令牌回滚、如何平衡预测准确率与草稿长度等。这些细节决定了 SSD 在实际应用中的性能表现。通过这种并行化,SSD 试图在保持大模型生成质量的同时,最大化利用小模型的快速生成能力,从而在整体推理速度上取得突破。

SSD推测解码的并行化与预测机制

SSD(Speculative Sampling with Decoding)的核心创新在于将草稿生成(drafting)与验证(verification)两个阶段并行执行。传统推测解码中,验证是大模型的智能体现,难以预测,但SSD通过并行化隐藏了草稿生成的延迟。其算法设计的关键难点在于如何提前预测验证结果,即预测目标模型会接受多少个草稿token以及是否产生额外的bonus token。由于词汇表规模巨大(数万至数十万),直接预测极具挑战性,但通过利用草稿模型生成的token分布信息,可以实现较高准确率的预测。

"You can get it right about 80 to 90% of the time which is more than enough to get big speed ups."

具体而言,当草稿模型生成蓝色token时,那些未被采样的token即为潜在的验证bonus token候选者。系统利用草稿模型的token分布信息来预测目标模型的验证结果,并将这些预测结果作为不同序列在共享前缀上进行并行解码。这种机制不仅隐藏了草稿延迟,还因为验证过程耗时较长,为草稿生成争取了更多时间,从而增加了每轮预期的token数量,进一步提升了速度。

工程优化与缓存命中率权衡

在实现SSD时,处理缓存缺失(cache misses)是重要的工程挑战。一种直观的做法是在验证失败时回退到普通的即时推测解码,但这并非总是最优解。随着批量大小(batch size)的增加,部分序列的验证结果预测必然失败,因此需要更精细的策略来分配计算资源。例如,是否应将计算资源均匀分配给所有可能的prefix长度?答案是否定的。通过巧妙的资源分配,可以提高缓存命中率,即正确预测验证结果的时间比例。

这里存在一个非显而易见的权衡:缓存命中率与草稿质量的平衡。提高命中率可能需要简化预测逻辑,但这可能降低草稿本身的生成质量。论文详细探讨了这一权衡及其导航策略,旨在最大化整体吞吐量。这些优化措施使得SSD能够在保持高推理速度的同时,维持模型输出的质量,是工程实现中的关键细节。

SSD性能基准测试与对比

为了评估SSD的实际效果,研究团队对比了多种推理算法和引擎。基准测试涵盖了不同配置下的推理性能,主要关注延迟和吞吐量两个指标。蓝色代表作者团队开发的推理引擎,浅蓝色为基础推测解码实现,红色为SGlang(在所有尝试的引擎中,使用推测解码时最快),深蓝色为SSD。实验结果显示,推测解码不仅降低了延迟,在特定设置下也显著提升了吞吐量。

推理引擎/算法 颜色标识 主要特点/状态 性能表现概要
作者团队引擎 蓝色 自定义实现 结合SSD优化
基础推测解码 浅蓝色 Baseline 延迟降低,吞吐量提升
SGlang 红色 最快推测解码引擎 高性能基准
SSD 深蓝色 并行推测解码 显著提速,支持Llama 3 70B在4H100上达到300 tokens/s

"You get the privilege of watching a number go up... knowing in the corner that you know what it takes to sample at 300 tokens per second for llama 3 70B on 4H100s."

这一性能提升使得在大规模模型(如Llama 3 70B)上实现极高的采样速度成为可能,为实际应用提供了强大的算力支持。

Diffusion MPC:机器人控制的模型预测框架

在介绍完SSD后,演讲者Stannis引入了其在机器人控制领域的早期工作:Diffusion Model Predictive Control (MPC)。MPC(模型预测控制),也称为滚动时域控制,利用动态模型(或世界模型)和动作选择器(规划器)来构建智能体,通过最大化奖励函数解决各类任务。其优势在于测试时能适应新的奖励函数,动态模型易于学习且比直接策略生成更好的结果,动作提议的动态模型分解也便于适应新的动态环境。

"We have an action proposal which proposes a sequence of actions. We have a dynamics model which can evolve these actions and give you the future states."

Diffusion MPC的动机在于解决传统MPC的两个实际问题:一是动态模型需要足够准确以避免累积误差;二是规划算法需要足够强大。通过结合扩散模型,该方法旨在利用视频模型或世界模型在测试时模拟未来状态序列,从而优化动作选择。这一方法在玩具问题上展示了初步效果,为后续在真实机器人硬件上的扩展奠定了基础。

DMPC 的核心机制与多步规划优势

DMPC(Diffusion Model Predictive Control)的核心创新在于利用扩散模型同时学习多步动作提议多步动态模型。这一设计的主要优势在于显著减少累积误差,并极大地简化了规划算法。研究人员发现,即使使用非常简单的基于采样的规划器,DMPC 也能超越许多先前的方法。在推理部署时,算法流程极其简洁:首先采样动作提议,对其进行评分、排序,然后选择最优动作。与以往方法的关键区别在于,DMPC 采用了多步动作提议,这类似于扩散策略,但在更多样化的数据上训练能提供更广的动作空间覆盖;同时,多步动态模型允许系统在长视距下演化而无需承受大量的累积误差。这种强大的建模能力使得规划算法得以简化,从而高效解决复杂任务。

相关工作的层级分类与权衡

为了理清领域现状,演讲者构建了一个层级视图,将所有方法归纳为构建状态与动作联合分布的不同方式。主要流派包括:

  1. 因子化方法:如 Dyna 范式,学习动态模型并利用模型生成想象数据进行策略学习。
  2. MPC 方法:使用规划器选择动作,包括联合状态与动作的模型方法。
  3. 无模型方法:直接学习策略。

这些方法在多个维度上存在权衡,包括运行时规划能力对非专家数据的利用运行时速度以及单步与多步建模的区别。DMPC 属于 MPC 范畴,但通过引入扩散模型,它在保持 MPC 灵活性的同时,提升了建模的表达能力。

扩散模型在机器人领域的演进谱系

扩散模型在图像和视频生成中已取得巨大成功,近年来在机器人领域也展现出多种应用形态。演讲者展示了基于扩散的代理探索空间,主要包含四种范式:

  • Diffusion Policy:条件化所有观测值以生成未来动作,适用于复杂控制,但依赖专家演示,局限于行为克隆范式。
  • Diffuser:在玩具空间中联合建模观测与状态,具有隐式世界模型和基于模型的规划能力。
  • Decision Diffuser:条件化历史直接生成未来观测,并通过逆动态模型推导动作。其核心优势在于允许仅利用视频数据进行学习,缓解了机器人数据稀缺的瓶颈。
  • DMPC:首先提出未来动作提议,利用动态模型演化,最后通过规划器选择动作。DMPC 允许在运行时适应新的奖励函数新的动态特性,这是其他联合建模方法难以做到的。

实验结果与运行时适应能力

在固定奖励和单任务设置下,DMPC 取得了与当前最先进方法具有竞争力的结果。然而,其更具吸引力的特性在于运行时适应能力。实验展示了两个关键案例:

  1. 适应新奖励:模型仅在简单局部运动任务(如前进、跳跃)上训练,但在推理时通过改变奖励函数,能够表现出新颖的行为(如特定的跳跃模式)。
  2. 适应新动态:DMPC 能够适应新的动态特性,而类似的联合建模方法在此类场景下表现挣扎。

"We obtain very competitive results in fixed reward single task setups... DMPC can adapt to no rewards at runtime... DMPC can adapt to novel dynamics while this kind of joint modeling approaches struggle."

这些结果证明了 DMPC 不仅在标准基准上表现优异,更在灵活性和适应性上超越了传统方法,特别是在处理非专家数据和动态环境变化方面展现出巨大潜力。

DMPC 架构优势与组件效能验证

DMPC(Diffusion Model-based Model Predictive Control)的核心价值在于其动作提议(Action Proposal)与动力学模型(Dynamics Model)的解耦设计。这种架构允许在环境动力学发生剧烈变化时,仅通过适应新的动力学模型即可恢复性能,而无需重新训练动作提议模块。例如,当 Walker 机器人出现左脚踝断裂的故障时,其执行动作后的物理后果会发生改变。在这种场景下,DMPC 能够利用在新环境中收集的数据快速适应动力学模型,从而显著恢复因动力学变化而损失的性能。这一特性证明了因子化表示在处理非平稳环境时的鲁棒性。

为了验证 DMPC 设计的合理性,研究团队深入分析了各个组件对整体性能的贡献。实验结果表明,扩散动作提议(Diffusion Action Proposals)不仅提升了性能,还简化了规划过程。此外,多步扩散动作提议多步动力学建模也被证实是提升性能的关键因素。这些组件共同作用,使得 DMPC 在复杂控制任务中表现出优于传统方法的效果。正如演讲者所言:"We can simply just adapt the dynamics model on some play data collected in the new environment and we observe that we can recover a lot of the performance because of the changing dynamics."

世界模型的历史渊源与核心定义

世界模型(World Models)并非全新概念,而是对经典控制理论的现代包装。演讲者指出,这一思想早在 1990 年由 Richard S. Sutton 在论文中提出,其描述了一个黑盒模型:输入当前状态(Situation)和即将执行的动作(Action),输出对即时下一状态(Immediate Next Situation)的预测。尽管现代世界模型借助大型神经网络实现了更复杂的表征,但其核心逻辑——学习世界的动力学变化——与几十年前的理论一脉相承。演讲者幽默地表示:"I'm enjoying a cool little period in life where I started working on world models a couple years ago, kind of before they got really hot and now they're enjoying a moment in the sun."

在现代语境下,世界模型旨在通过神经网络预测系统随时间的变化。给定当前状态 $S$ 和动作 $A$,模型预测执行动作后的结果状态。这种能力使得智能体能够生成想象的结果(Imagined Outcomes),实现基于模型的控制器(Model-based Control),并具备量化惊喜(Surprise Quantification)的能力。演讲者强调:"This is not a new idea at all. It's really just kind of new advertising or packaging on an old idea."

观测空间建模与现实挑战

在实际应用中,智能体通常无法获取真实的系统状态,只能依赖传感器提供的观测值(Observations)。以四旋翼无人机为例,其观测输入包括运动学状态(位置、速度)以及前向摄像头图像。动作输入则可能是控制指令,如偏航(Yaw)或向左移动。世界模型的目标是预测执行该动作后传感器将接收到的新观测数据,包括高维的图像数据和激光雷达(LiDAR)数据。

这种建模方式面临巨大挑战:首先,动作序列可能非常长,导致误差累积;其次,优化景观中的最小值(Minimum)可能并不对应于期望的行为模式。这意味着,即使模型在预测观测值上表现良好,其内部学到的世界模型可能并不准确或有用。演讲者指出:"The really big thing is that the minimum in the optimization landscape for these kinds of models may not correspond to the desired behavior."

模型自由 vs. 基于模型的政策之争

当前,人工智能社区和初创公司正在激烈争论智能体是否应拥有内部世界模型。一方推崇模型自由(Model-free)方法,即直接将观测映射到最优动作,通常使用大型神经网络和复杂的训练技巧,不显式建模环境动力学。另一方则坚持基于模型(Model-based)方法,认为赋予智能体内部世界模型是更高级、更通用的能力。演讲者提到,Yann LeCun 筹集的 10.3 亿美元资金主要用于训练世界模型,这标志着该方向的重要性。演讲者总结道:"Are we going to have model free or model based policies? Are our agents going to have an internal model of the world or are they not? And this is sort of being fought out right now both in the research community and in like the startup community."

模型自由与基于模型策略的本质差异

强化学习领域存在两种截然不同的策略范式:模型自由(Model-free)基于模型(Model-based)。模型自由方法直接学习从观察到最优动作的映射,但其核心缺陷在于缺乏对执行动作后未来状态的显式表征。尽管有证据表明神经网络内部可能隐藏着难以解释的世界模型,但这些方法在处理分布外(out-of-distribution)数据时表现出明显的脆弱性。相比之下,基于模型的方法显式训练一个世界模型,并利用该模型在策略中显式预测潜在动作的结果。这种架构允许我们在部署到现实世界时量化建模误差,从而提供更强的安全性与可控性。然而,基于模型的方法也引入了额外的机制负担,即需要提出动作候选项并通过世界模型进行评估,这增加了计算复杂度。

玩具环境中的世界模型构建挑战

为了具体说明世界模型的运作方式,演讲者构建了一个简单的推箱子(Push-T)玩具环境。在该环境中,智能体(蓝色球)需要将物体推入绿色槽位,状态由图像、末端执行器的2D位置及2D动作组成。通过训练一个仅含数十万参数的轻量级架构,可以观察到模型对动作序列的预测结果。尽管由于模型规模较小导致预测轨迹略显抖动(wobbly),但这证明了在简单环境中训练世界模型的可行性。然而,训练此类模型面临巨大挑战:必须同时学习如何紧凑地表示高维输入(如图像或激光雷达数据),以及学习动作如何改变这种表示。这是一个表征与动态共学习(co-learning representation and dynamics)的过程。优化景观中存在许多局部极小值,例如平凡坍塌(trivial collapse),即模型简单地认为所有状态都相同,从而避免学习复杂的动态变化。

避免坍塌的现有技术与JEPPEr架构

为解决上述坍塌问题,现有世界模型方法通常依赖复杂的技巧或超参数调整。常见的解决方案包括:使用显式启发式方法强制潜在空间的健康分布、利用预训练的自编码器或扩散模型作为基础并添加动作条件,或使用仅在训练时可用的特权数据。演讲者指出,尽管方法众多,但大多属于这三类。在此背景下,JEPPEr(Joint Embedding Predictive Architecture)及其衍生的Lay World Model提供了一种更优雅的路径。JEPPEr的核心思想是使用图像编码器将观察结果编码为潜在向量,并训练一个动作条件预测模块,以预测执行动作后的下一个潜在嵌入(latent embedding),而非直接预测下一帧图像。所有关键计算均在潜在空间中完成,最后通过解码器还原为有用图像。这种方法旨在通过简化设计来避免复杂的坍塌陷阱。

SIGG正则化与高斯分布约束

Lay World Model 的核心创新在于引入了 SIGG 正则化项,旨在确保所有潜在嵌入在批次中保持健康的分布。演讲者详细解释了 SIGG 的含义:Sketching(对高维数据进行一维扫描)、Isotropic(各向同性,即沿任何方向切片分布一致)和 Gaussian(高斯分布)。通过这一正则化项,模型被约束为在潜在空间中维持高斯分布,从而有效避免了平凡坍塌。这种方法声称只需一个超参数一个损失项即可实现这一目标,相较于其他需要大量调优的“狂野西部”式方法,具有更高的简洁性和可配置性。演讲者认为,尽管 Lay World Model 声称做了不同的事情,但其本质仍是提供了一种新的避免坍塌的技巧,通过强制潜在空间的统计特性来稳定训练过程。

过度参数化与泛化能力的悖论解析

演讲者首先探讨了 Andrew 论文中提到的第一个“谜团”:过度参数化(Overparameterization)。按照传统的偏差-方差权衡理论,随着模型参数规模的扩大,模型应当更容易过拟合训练数据,导致泛化能力下降。然而,实践中的缩放定律(Scaling Laws)却显示,模型规模越大,泛化能力反而越强。尽管过去几年模型能力的巨大提升主要归功于参数规模的扩张,但我们仍不完全理解其改善泛化的内在机制。

Pack-based 框架为理解这一现象提供了有力的视角。首先,从经验风险(Empirical Risk)即训练损失的角度来看,增加参数数量使模型能更好地拟合数据,从而降低第一项损失。其次,Andrew 的研究指出,增加参数规模还能找到更具压缩性的解决方案。Lotfi 等人的工作表明,训练集编码所需的比特数与参数数量之间存在负相关关系。这意味着,随着模型变大,我们可以用更高效的编码方式来表示训练集,从而降低了理论界中的第二项界限。

"As you increase the number of parameters, it turns out that the volume of flat minima in parameter space exponentially increases."

平坦极小值(Flat Minima)的视角来看,随着参数增加,参数空间中平坦极小值的体积呈指数级增长,而尖锐极小值(Sharp Minima)的体积增长则缓慢得多。由于平坦极小值比尖锐极小值更具可压缩性,过度参数化不仅符合现有理论,还能在十亿参数规模的模型上提供有用的泛化界限。

良性过拟合与软归纳偏置的平衡

第二个谜团是良性过拟合(Benign Overfitting),即深度神经网络既能拟合完全随机的噪声,又能在结构化数据上实现良好的泛化。这引发了一个核心疑问:如果模型具备拟合随机数据的能力,它如何还能拥有允许泛化的归纳偏置(Inductive Bias)

Andrew 论文中的正则化多项式模型为此提供了直观解释。在随机数据上,模型拥有足够的参数来完全拟合数据;但在结构化数据上,正则化机制迫使模型使用低阶项,从而实现了灵活性与泛化能力的统一。对于神经网络而言,这种观点可以概括为:具有软归纳偏置的高度表达能力模型

我们可以将假设空间分为三类: 1. 灵活的假设空间:能拟合现有数据,但若无偏置极易过拟合。 2. 强归纳偏置空间:能解决过拟合,但无法捕捉现实世界的复杂细节。 3. 中间地带(理想状态):拥有高度表达的假设空间,同时具备偏向于可泛化解的偏置

在 Pack-Bay 框架下,这种偏置体现为偏向于更可压缩的模型。因此,深度学习的所谓“谜团”实际上与现有理论一致,通过软归纳偏置得到了部分解释。演讲者强调,若能在这些理论基础上找到正确的归纳偏置并对其进行优化,将带来显著收益。

"The only way that we get improvements in learning efficiency is through inductive biases."

鉴于 AI 与人类在样本效率(Sample Efficiency)上的巨大差距,解决归纳偏置问题可能是提升 AI 能力的关键赌注。目前,AI 在每瓦特智能(Intelligence per Watt)每样本智能(Intelligence per Sample)方面仍落后人类一到两个数量级。

预训练的演进与无限计算下的泛化极限

在简短的休息和茶歇后,演讲者引入了下一位演讲者 Ku Woo,他共同领导了一篇关于样本效率无限计算下泛化能力的论文。该研究的动机源于过去六七年预训练(Pre-training)在提升模型能力方面的惊人进展。

预训练能力的演进呈现出几个关键里程碑:

年份 模型/事件 关键能力突破 备注
2020 GPT-3 上下文学习(In-context Learning)的涌现 模型开始具备少样本学习能力
2022 Anthropic RLHF 对齐(Alignment)的兴起 模型行为更符合人类价值观
2024 OpenAI o1 / DeepSeek R1 推理(Reasoning)能力的涌现 模型展现出复杂的逻辑推理能力
近期 Mythos / GPT-5.5 持续的性能提升 更大规模的预训练带来持续改进

尽管预训练成本高昂,但研究界仍关注其潜力。演讲者提到,在 Chris 的实验室中,他们痴迷于这样一个问题:在数据量固定且计算资源无限的情况下,模型究竟能实现多少泛化?这篇即将介绍的论文正是对这一问题的初步回答。Ku Woo 将详细阐述这一研究,探讨在极端条件下模型能力的边界。

数据瓶颈下的计算效率悖论

在人工智能领域,提升计算效率的传统路径依赖于同时扩大模型参数量与训练数据量,这一规律被量化为 Chinchilla 缩放定律。然而,当前的困境在于数据供给的刚性约束。根据互联网数据的公开增长预测,人类生成的文本数据年增长率仅为约 3%,而用于预训练的 计算资源年增长率却高达 4 到 5 倍。这种增速的严重失衡导致单位数据点的计算投入逐年激增,迫使研究者必须重新思考在 数据受限但计算不受限 的极端场景下,应如何优化预训练策略。

"The problem with compute efficiency is that we're soon going to be constrained by data."

这一场景并非全新,它类似于 经典统计学 或早期基准测试(如 Penn Treebank)中的逻辑,即关注数据点数量对性能的影响,而非计算成本。本文的核心贡献在于将 现代缩放定律工具包 引入这一经典问题,旨在探索在数据瓶颈下,如何通过算法创新来降低 无限计算下的损失渐近线(asymptote),从而量化模型在理想状态下的最佳性能上限。

标准训练策略的过拟合陷阱

为了模拟数据受限环境,研究设定了严格的实验条件:仅使用 2 亿个 DCLM 预训练 token(来自通用网络数据)。在此约束下,实验通过不断增加模型参数量(X轴)并监测 DCLM 上的 ID 验证损失(Y轴),来评估不同预训练配方(recipes)的效果。最直观的策略是 标准配方(Standard Recipe),即对数据进行多次迭代(epoching),同时扩大模型规模,直到出现过拟合时进行早停(early stopping)。

实验结果显示,标准配方存在显著缺陷。随着模型参数量增加,过拟合速度加快,导致验证损失在达到某个临界点后不降反升。这意味着,即使愿意投入更多计算资源训练更大的过参数化模型,损失曲线无法收敛到一个稳定的低值,而是随着计算量的增加而恶化。这种策略在数据稀缺时完全失效,因为模型迅速记住了噪声而非泛化规律,导致 无法测量出有效的损失渐近线

激进正则化与集成学习的缩放定律

针对过拟合问题,研究首先尝试了 激进的正则化策略,特别是通过大幅提高权重衰减(weight decay)来实现。实验发现,当为每个参数量级最优调整学习率、权重衰减和迭代次数时,损失随参数量的增长遵循 极其清晰的幂律(power law)。具体而言,该幂律中模型参数 $n$ 的指数为 1,这符合数据约束理论的预测。更重要的是,该策略能拟合出一个明确的损失渐近线,在本实验中为 3.43,代表了在无限计算下最佳正则化模型的性能上限。

相比之下,集成学习(Ensembling) 展现了更优越的数据效率。研究将 3 亿参数的模型进行集成,例如 5 个 3 亿参数模型的集成相当于 15 亿总参数量。实验数据表明,集成学习同样遵循指数为 1 的幂律,且其 损失渐近线显著低于激进正则化策略。这意味着在数据受限场景下,通过集成多个小模型比单纯扩大单个模型并施加正则化更能逼近理论最佳性能。

策略类型 关键参数/配置 幂律指数 (n) 损失渐近线 (Asymptote) 性能评价
标准配方 (Standard) 多次迭代 + 早停 N/A (发散) 不可测量 过拟合严重,损失随计算量增加而上升
激进正则化 权重衰减约为最优预训练的 30 倍 1 3.43 遵循幂律,有明确性能上限,但上限较高
集成学习 (Ensembling) 300M 参数模型 x 5 个 (总 1.5B) 1 显著低于 3.43 数据效率极高,性能上限优于正则化

"The exponent on the model parameters n is one... the scaling law has an asymptote which is 3.43 in this case."

"The asymptote of ensembling is much lower than the asymptote of the regularized recipe."

算法范式的回归与未来方向

这一研究揭示了一个反直觉的结论:在数据极度稀缺且计算充裕的条件下,现代大模型训练中的“缩放定律”思维需要向经典机器学习范式回归。传统上,大模型训练追求通过增加数据来降低损失,但在数据封顶时,算法的结构选择(如集成 vs. 正则化)比单纯的规模扩张更为关键。激进正则化虽然能强行拟合出幂律,但其性能上限受限于正则化强度与模型容量的平衡;而集成学习通过组合多个独立假设,更有效地降低了方差,从而在数据受限环境中实现了更低的渐近损失。

实验中的 30 倍权重衰减是一个极端的超参数设置,远超常规预训练实践,这暗示了 数据约束改变了优化的几何结构。研究指出,未来在数据增长放缓的背景下,“无限计算增益” 的追求应从单纯扩大模型规模,转向探索能进一步降低损失渐近线的算法结构。集成学习在此场景下的优异表现,表明其可能成为数据受限时代的重要技术路线,尽管其推理成本较高,但在预训练阶段的数据效率优势不容忽视。

正则化与集成在数据受限下的性能优势

研究首先探讨了在计算资源无限但数据受限的理想条件下,不同训练策略的数据效率。实验结果显示,集成学习(Ensembling)在计算量匹配的比较中,表现优于传统的正则化配方。这意味着,如果目标是训练出性能最佳的15亿参数模型,在数据受限的情况下,训练多个小模型的集成比训练单个大模型更为有效。此外,研究还展示了正则化与集成优势的复合效应:正则化允许模型规模持续扩大,而集成则引入了通过训练更多模型来扩展计算的新维度。

为了量化这种复合优势,研究者提出了一种称为“联合缩放配方(Joint Scaling Recipe)”的假设性性能指标。该指标通过拟合两条缩放定律来量化,即对模型数量K和模型规模N分别取极限。具体而言,首先训练1.5亿、3亿等不同参数规模的模型集成,观察其损失函数的渐近值;随后,对这些渐近值拟合第二条缩放定律。这种双重极限的方法旨在模拟训练无限大集成和无限大模型时的理论性能。

"If your goal is just to train the best 1.5 billion parameter model it's better to train an ensemble of a bunch of small models when you're data constrained than to train one really large model."

数据缩放定律与5倍数据效率增益

为了验证上述配方在更大规模下的可扩展性,研究构建了数据缩放定律(Data Scaling Laws)。实验在四种不同的预训练Token数量下重复了之前的实验,最高达到17亿Token。对于每个Token数量切片,研究者量化了每种配方在拥有无限计算资源时的最佳性能。红色数据点代表实际模型(过拟合较快),而紫色和金色数据点则对应单极限或双极限的理论性能。这些数据缩放定律使得量化算法改进带来的“有效额外Token数量”成为可能。

实验结果表明,联合缩放配方相比标准配方提供了约5倍的数据效率提升。这一增益并非仅存在于理论极限中,在实际有限模型中同样显著。例如,训练一个由5个10亿参数模型组成的集成,即可获得约3.7倍的数据效率增益。值得注意的是,不同配方的数据缩放定律具有相似的指数和渐近值,这表明即使将预训练Token数量扩展至10万亿,这种数据效率增益也将保持恒定。

配方类型 数据效率增益 (相对于标准配方) 备注
标准配方 1x (基准) 常规训练方法
联合缩放配方 (理论极限) ~5x 无限模型与无限集成的双重极限
5个10亿参数模型集成 ~3.7x 有限模型下的实际增益

蒸馏技术与自蒸馏的意外突破

尽管上述配方需要大量的训练计算资源,但研究指出可以通过知识蒸馏(Distillation)显著降低推理计算需求。实验显示,可以将一个包含约24亿总参数的8模型集成,蒸馏为一个仅3亿参数的单密集模型。令人惊讶的是,蒸馏后的模型保留了约83%的损失改进优势。这证明了数据效率并不必然依赖巨大的推理计算量,通过在训练阶段摊销测试时间计算,可以获得极小且高效的数据高效模型。

更令人意外的是,自蒸馏(Self-distillation)甚至能进一步降低损失。研究从3亿参数模型的初始状态开始,将其蒸馏到一个新的3亿参数模型中,结果发现自蒸馏带来了巨大的损失改善,甚至超越了正则化配方的渐近值。这一反直觉的结果与先前将自蒸馏视为隐式训练两个模型集成的观点相联系。此外,尽管实验主要关注IID验证集损失,但在下游基准测试中,所有趋势均保持一致:模型缩放带来改进,集成效果更佳,且蒸馏能有效保留大部分优势。

模型配置 参数量 损失改进保留率 备注
8模型集成 ~2.4B 100% (基准) 原始集成模型
蒸馏后单模型 300M ~83% 从8模型集成蒸馏而来
自蒸馏模型 300M > 正则化渐近值 从同规模初始模型自蒸馏,超越正则化

下游基准验证与持续预训练扩展

研究最后验证了这些发现不仅适用于预训练阶段,同样适用于持续预训练(Continued Pre-training)等其他场景。在完全隔离的测试集上,研究者观察到所有趋势与标准配方高度一致。模型缩放依然提供性能提升,集成学习表现更优,且蒸馏技术能够有效保留这些增益。这表明,数据效率的提升策略具有广泛的适用性,不仅限于特定的预训练设置,还可以扩展到更复杂的下游任务和持续学习场景中。

"Pretty much all of the trends in this paper directly work on downstream benchmarks."

这一系列实验不仅证明了集成和正则化复合策略在数据受限条件下的优越性,还通过蒸馏技术解决了其推理成本高昂的问题。自蒸馏的发现进一步揭示了模型训练中的潜在优化空间,为未来高效大模型的开发提供了新的理论依据和实践路径。

数据受限下的算法效率突破

在模型训练资源受限的场景中,算法选择的重要性被显著放大。演讲者以训练一个 3B(30亿参数)模型 为例,设定了一个极具挑战性的约束条件:可用的数学相关数据令牌(tokens)仅为 40亿,而完整的数据语料库规模高达 730亿 tokens。在这种数据极度匮乏的情况下,传统的训练方式往往难以取得理想效果。然而,通过引入一系列数据效率优化技巧,如激进的重复采样(aggressive epoing)和模型集成(ensembling),研究团队发现仅使用40亿tokens的数据,其最终性能竟然能够匹配在完整730亿tokens数据上训练的效果。这一发现揭示了一个惊人的17倍数据效率提升,证明了在数据稀缺时,算法层面的创新可以弥补数据的不足。

"...if you're willing to do these data efficiency tricks like aggressive epoing and things like ensembling, you can match the performance of training on the full 73 billion tokens even using only 4 billion tokens which is roughly a 17x data efficiency win."

经典算法的回归与重新审视

这一成果的核心在于对经典机器学习与深度学习算法的重新评估与应用。在计算资源无限的时代,人们往往倾向于通过增加数据量和计算力来解决问题,但在数据受限且计算不受限的新算法范式下,必须重新思考技术栈的每一个环节。演讲者指出,诸如正则化(regularization)集成学习(ensembling)知识蒸馏(distillation)等概念并非新鲜事物,它们在机器学习和深度学习领域已存在多年。然而,在当前语境下,这些经典方法被赋予了新的意义。通过 revisiting(回顾)这些基础但强大的工具,研究者能够在有限的计算预算下挖掘出更大的潜力。这种策略不仅适用于当前的数据效率问题,也为未来在无限计算资源下开发全新的、更高效的算法思想提供了基础。研究团队还引入了渐近评估工具(asmmptotes)作为评估手段,旨在通过追踪算法的渐近行为,发现那些具有更低计算渐近复杂度的算法,从而为数据效率优化提供新的灵感。

YC Paper Club 的愿景与社区互动

演讲的最后部分转向了 YC Paper Club 的启动与社区建设。演讲者表达了参与这一活动的激动心情,称这是“梦想成真”,并强调 YC 是他生命中最重要的地方之一。他坦言自己目前拥有的想法远不足以支撑这个俱乐部的全部潜力,因此强烈呼吁观众加入 Slack 社区,共同贡献创意。演讲者设定了基本的社区规则,如保持尊重,但核心期望是积极参与。他希望通过这种开放的合作模式,让 Paper Club 成为一个充满活力的思想交流场所,而不仅仅是单向的知识传递。最后,他邀请大家去喝奶茶(boba tea),以轻松愉快的方式结束了演讲,并留下了论文二维码供感兴趣的人深入阅读细节,同时也提到了后续关于合成数据与数据效率相互作用的研究工作。

"This is like a dream come true. I'm in one of my favorite places that um was most important places of my life and now I get to talk about AI here."

模型/场景 数据令牌数量 (Tokens) 性能对比结果 效率提升倍数
完整数据训练 73,000,000,000 (730亿) 基准性能 1x
受限数据+优化算法 4,000,000,000 (40亿) 匹配基准性能 17x
关键算法/技术 类别 在数据受限场景下的作用
Aggressive Epoing 数据采样策略 通过重复利用有限数据提升模型收敛效果
Ensembling 模型集成 结合多个模型预测以提高整体性能和鲁棒性
Regularization 正则化技术 防止过拟合,提升泛化能力
Distillation 知识蒸馏 将大模型知识迁移至小模型,提升效率
Asmmptotes 评估工具 评估算法的渐近计算复杂度,指导算法选择