NeoBeta - AI 科技资讯

Hugging Face于2025年4月25日开源了PipelineRL，这是一个实验性强化学习实现，旨在解决大规模语言模型强化学习中的一个基本挑战：推理吞吐量与在线数据收集之间的权衡。PipelineRL的关键创新是在强化学习训练过程中进行飞行权重更新。这允许PipelineRL实现持续高推理吞吐量，并最小化用于生成数据的模型权重与最新更新权重之间的延迟，从而实现大型语言模型的快速稳定训练。

在传统强化学习方法中，存在高吞吐量推理与在线数据收集之间的权衡。为了实现高吞吐量，推理服务器必须使用大批次大小，从而为多个策略优化步骤生成数据。然而，每个优化步骤都会增加当前策略与使用推理策略收集的数据之间的延迟，逐渐使收集的数据更偏离策略，降低训练效果。在线学习需要单个优化步骤的数据，但用多个GPU产生少量数据效率低下，因为这意味着每GPU批次大小较小。

PipelineRL通过飞行权重更新来缓解这一权衡。它在每个优化器步骤后更新推理服务器中的权重，而不停止推理。推理服务器仅在接收新权重所需的时间内暂停推理。飞行权重更新允许推理服务器持续保持最佳批次大小，同时确保数据保持在线或接近在线，从而提高GPU利用率和学习效果。

为展示PipelineRL的有效性和飞行权重更新的优势，研究团队在Open-Reasoner-Zero数据集上训练了7B和32B模型。学习曲线显示，PipelineRL在流行的推理测试基准AIME 2024和MATH 500上匹配或超越了Open-Reasoner的性能。值得注意的是，该强化学习实现比Open-Reasoner-Zero更简单。Open-Reasoner-Zero使用价值函数，而该实现是GRPO的简化版本。研究发现，稳定训练不需要信任区域重要性权重钳制，也不需要DAPO论文中的过长序列过滤或奖励塑造。对于损失归一化，仅使用批次中的序列数量。

背景阅读

强化学习在大型语言模型训练中扮演着关键角色，特别是在对齐和优化模型行为方面。传统强化学习方法如PPO和GRPO已被广泛应用于语言模型训练，例如在ChatGPT和Claude等模型中。然而，随着模型规模扩大，训练过程面临效率挑战，尤其是在推理吞吐量与数据收集之间需要权衡。推理吞吐量指模型生成响应的速度，而在线数据收集要求使用最新模型权重生成训练数据以确保有效性。传统方法中，高吞吐量需要大批次推理，但这会导致数据延迟，使训练数据偏离当前策略，降低学习效果。反之，小批次在线收集虽能保持数据相关性，但GPU利用率低，训练速度慢。PipelineRL的飞行权重更新技术试图解决这一矛盾，通过动态更新推理服务器权重来平衡吞吐与数据新鲜度。这一创新可能影响未来大规模语言模型训练的效率，特别是在需要快速迭代和稳定训练的强化学习场景中。相关技术背景包括OpenAI的PPO、Anthropic的RLHF以及Hugging Face在开源AI工具和模型方面的贡献。

Hugging Face开源PipelineRL，解决大模型强化学习吞吐与数据收集权衡

背景阅读

相关阅读

微软与Hugging Face深化合作，在Azure上简化开源模型部署

Hugging Face 推出高速 Whisper 转录推理端点

Meta 在 Hugging Face Hub 发布 Llama Guard 4 安全模型

评论 (0)