RLHF的规模化瓶颈与核心矛盾

当前主流的RLHF流程多为离线式（Offline RLHF），其核心缺陷在于数据利用效率极低。由于数据收集、奖励模型训练与策略优化是分离的，导致了严重的off-policy问题：即策略优化后的分布与数据收集时的分布已发生巨大变化，导致用“过时”的数据训练“新”策略。研究表明，单纯增加偏好数据量对RLHF性能的提升微乎其微，这引发了行业对RLHF规模化发展是否触及天花板的质疑。

算法演进：从离线到在线的渐进式设计

DeepMind团队通过四种算法的消融实验设计，展示了如何逐步解决效率与稳定性问题：

离线RLHF：基线算法，受限于off-policy问题。
周期性RLHF：通过将数据分周期重新执行完整流程来缓解off-policy，但计算开销随周期缩短而急剧增加，存在性能天花板。
在线RLHF：将周期性训练改为增量更新，每收集一个批次数据即及时更新参数，解决了计算瓶颈。针对在线学习中常见的性能崩塌（tanking）问题，团队提出了肯定性微调（Affirmative Nudge）——在策略梯度中加入一个微小的正数偏移量，为模型提供温和的正向强化，从而在低成本下维持训练稳定性。

信息导向探索：实现指数级增益的关键

这是实现数据效率质变的核心创新。团队引入了认知神经网络（ENN），通过集成网络（由不参与训练的先验网络和参与训练的差分网络组成）来建模奖励模型的认知不确定性。

其核心逻辑在于信息导向的查询机制：算法不再盲目收集数据，而是计算回复对在集成网络上的方差。通过优先选择方差最大（即奖励模型认知不确定性最高）的回复对进行人类反馈，确保每一条标注都能提供最大的信息增益。实验结果显示，在Gemma 9B模型上，该方法仅需不到2万条标注即可达到传统离线RLHF需要20万条标注才能实现的性能，实现了超过10倍的数据效率增益；若外推至100万条标注规模，增益有望达到惊人的1000倍。

实验结论与行业启示

通过对数坐标的观察，研究发现在线RLHF与信息导向探索的Scaling Law曲线斜率明显高于离线算法。这意味着两者的差异并非线性，随着数据规模扩大，其效率优势会指数级扩大。

该研究提供了两个重要的行业启示： 1. RLHF的规模化瓶颈并不是天然的，而是方法论的局限。通过从“收集更多数据”转向“收集更好的数据”，可以突破对齐成本的限制。 2. 可视化方法论的重要性。使用对数坐标而非线性坐标，能更清晰地揭示不同算法在规模化行为上的本质区别。

突破RLHF的规模化瓶颈 | DeepMind团队论文 | 数据利用效率极低 | 四种RLHF算法 | off-policy | 在线RLHF | 认知神经网络ENN | 信息导向探索 | 肯定性微调

RLHF的规模化瓶颈与核心矛盾

算法演进：从离线到在线的渐进式设计

信息导向探索：实现指数级增益的关键

实验结论与行业启示

关键引用