NeoBeta - AI 科技资讯

OpenAI的o1系列和DeepSeek-R1的成功证明了大规模强化学习在提升大型语言模型推理能力方面的潜力。然而，这些推理模型的核心训练方法在技术报告中往往未详细披露。标准偏好优化强化学习训练存在性能瓶颈、样本利用率低和跨域泛化困难等问题。快手Kwaipilot团队的研究人员提出了新型强化学习框架：两阶段历史重采样策略优化。该框架旨在从多个维度系统解决上述训练挑战。团队已公开发布详细技术报告，并开源了SRPO-Qwen-32B模型。这项工作首次在数学和代码领域同时实现DeepSeek-R1-Zero级别性能。SRPO基于与DeepSeek相同的Qwen2.5-32B基础模型，采用纯强化学习方法训练，在AIME24和LiveCodeBench基准测试中取得优异成绩，超越了DeepSeek-R1-Zero-32B。更值得注意的是，SRPO仅需R1-Zero十分之一的训练步骤即可达到这一性能水平。在初步探索中，Kwaipilot团队尝试了标准GRPO算法，但很快遇到瓶颈，无法达到目标性能。这些问题包括跨域优化冲突、训练效率降低和性能过早饱和。为解决数学和代码领域之间的响应长度冲突，Kwaipilot团队实施了两阶段训练范式。第一阶段专注于挑战性数学数据，以激发模型的推理能力。

背景阅读

强化学习在大型语言模型训练中的应用已成为AI领域的重要研究方向，旨在提升模型在复杂任务中的推理和决策能力。OpenAI的o1系列和DeepSeek-R1等模型通过大规模强化学习实现了显著的性能突破，但相关训练方法通常未完全公开。偏好优化强化学习是一种常见的训练技术，通过优化模型输出以符合人类偏好来提升性能，但在处理混合领域数据时面临效率低下和泛化困难等挑战。跨域训练涉及数学、代码等不同领域，这些领域的数据特性和推理模式差异较大，容易导致训练冲突和性能瓶颈。快手作为中国领先的科技公司，其AI团队在强化学习领域持续探索，SRPO框架的推出标志着在提升训练效率和跨域性能方面的新进展。开源模型和技术报告有助于推动社区研究和应用发展。

快手AI发布SRPO框架，训练效率提升10倍

背景阅读

相关阅读

DeepSeek-V3新论文发布：揭秘硬件感知协同设计实现低成本大模型训练

深度求索发布DeepSeek-Prover-V2，通过递归证明搜索推进神经定理证明

Hugging Face开源PipelineRL，解决大模型强化学习吞吐与数据收集权衡

评论 (0)