OpenAI的o1系列和DeepSeek-R1的成功证明了大规模强化学习在提升大型语言模型推理能力方面的潜力。然而,这些推理模型的核心训练方法在技术报告中往往未详细披露。标准偏好优化强化学习训练存在性能瓶颈、样本利用率低和跨域泛化困难等问题。快手Kwaipilot团队的研究人员提出了新型强化学习框架:两阶段历史重采样策略优化。该框架旨在从多个维度系统解决上述训练挑战。团队已公开发布详细技术报告,并开源了SRPO-Qwen-32B模型。这项工作首次在数学和代码领域同时实现DeepSeek-R1-Zero级别性能。SRPO基于与DeepSeek相同的Qwen2.5-32B基础模型,采用纯强化学习方法训练,在AIME24和LiveCodeBench基准测试中取得优异成绩,超越了DeepSeek-R1-Zero-32B。更值得注意的是,SRPO仅需R1-Zero十分之一的训练步骤即可达到这一性能水平。在初步探索中,Kwaipilot团队尝试了标准GRPO算法,但很快遇到瓶颈,无法达到目标性能。这些问题包括跨域优化冲突、训练效率降低和性能过早饱和。为解决数学和代码领域之间的响应长度冲突,Kwaipilot团队实施了两阶段训练范式。第一阶段专注于挑战性数学数据,以激发模型的推理能力。