RLHF的规模化瓶颈与核心矛盾

当前主流的RLHF流程多为离线式(Offline RLHF),其核心缺陷在于数据利用效率极低。由于数据收集、奖励模型训练与策略优化是分离的,导致了严重的off-policy问题:即策略优化后的分布与数据收集时的分布已发生巨大变化,导致用“过时”的数据训练“新”策略。研究表明,单纯增加偏好数据量对RLHF性能的提升微乎其微,这引发了行业对RLHF规模化发展是否触及天花板的质疑。

算法演进:从离线到在线的渐进式设计

DeepMind团队通过四种算法的消融实验设计,展示了如何逐步解决效率与稳定性问题:

  1. 离线RLHF:基线算法,受限于off-policy问题。
  2. 周期性RLHF:通过将数据分周期重新执行完整流程来缓解off-policy,但计算开销随周期缩短而急剧增加,存在性能天花板。
  3. 在线RLHF:将周期性训练改为增量更新,每收集一个批次数据即及时更新参数,解决了计算瓶颈。针对在线学习中常见的性能崩塌(tanking)问题,团队提出了肯定性微调(Affirmative Nudge)——在策略梯度中加入一个微小的正数偏移量,为模型提供温和的正向强化,从而在低成本下维持训练稳定性。

信息导向探索:实现指数级增益的关键

这是实现数据效率质变的核心创新。团队引入了认知神经网络(ENN),通过集成网络(由不参与训练的先验网络和参与训练的差分网络组成)来建模奖励模型的认知不确定性

其核心逻辑在于信息导向的查询机制:算法不再盲目收集数据,而是计算回复对在集成网络上的方差。通过优先选择方差最大(即奖励模型认知不确定性最高)的回复对进行人类反馈,确保每一条标注都能提供最大的信息增益。实验结果显示,在Gemma 9B模型上,该方法仅需不到2万条标注即可达到传统离线RLHF需要20万条标注才能实现的性能,实现了超过10倍的数据效率增益;若外推至100万条标注规模,增益有望达到惊人的1000倍

实验结论与行业启示

通过对数坐标的观察,研究发现在线RLHF与信息导向探索的Scaling Law曲线斜率明显高于离线算法。这意味着两者的差异并非线性,随着数据规模扩大,其效率优势会指数级扩大

该研究提供了两个重要的行业启示: 1. RLHF的规模化瓶颈并不是天然的,而是方法论的局限。通过从“收集更多数据”转向“收集更好的数据”,可以突破对齐成本的限制。 2. 可视化方法论的重要性。使用对数坐标而非线性坐标,能更清晰地揭示不同算法在规模化行为上的本质区别。