Hugging Face于2025年4月25日开源了PipelineRL,这是一个实验性强化学习实现,旨在解决大规模语言模型强化学习中的一个基本挑战:推理吞吐量与在线数据收集之间的权衡。PipelineRL的关键创新是在强化学习训练过程中进行飞行权重更新。这允许PipelineRL实现持续高推理吞吐量,并最小化用于生成数据的模型权重与最新更新权重之间的延迟,从而实现大型语言模型的快速稳定训练。
在传统强化学习方法中,存在高吞吐量推理与在线数据收集之间的权衡。为了实现高吞吐量,推理服务器必须使用大批次大小,从而为多个策略优化步骤生成数据。然而,每个优化步骤都会增加当前策略与使用推理策略收集的数据之间的延迟,逐渐使收集的数据更偏离策略,降低训练效果。在线学习需要单个优化步骤的数据,但用多个GPU产生少量数据效率低下,因为这意味着每GPU批次大小较小。
PipelineRL通过飞行权重更新来缓解这一权衡。它在每个优化器步骤后更新推理服务器中的权重,而不停止推理。推理服务器仅在接收新权重所需的时间内暂停推理。飞行权重更新允许推理服务器持续保持最佳批次大小,同时确保数据保持在线或接近在线,从而提高GPU利用率和学习效果。
为展示PipelineRL的有效性和飞行权重更新的优势,研究团队在Open-Reasoner-Zero数据集上训练了7B和32B模型。学习曲线显示,PipelineRL在流行的推理测试基准AIME 2024和MATH 500上匹配或超越了Open-Reasoner的性能。值得注意的是,该强化学习实现比Open-Reasoner-Zero更简单。Open-Reasoner-Zero使用价值函数,而该实现是GRPO的简化版本。研究发现,稳定训练不需要信任区域重要性权重钳制,也不需要DAPO论文中的过长序列过滤或奖励塑造。对于损失归一化,仅使用批次中的序列数量。