深度求索AI是一家在大语言模型领域的重要参与者,最近发表了一篇研究论文,详细介绍了一种旨在提升通用奖励模型在推理阶段可扩展性的新技术。同时,公司暗示其下一代模型R2即将到来,在AI社区内引发了期待。论文题为“通用奖励模型的推理时缩放”,介绍了一种新方法,允许通用奖励模型通过动态生成原则和批评来优化奖励生成。这是通过拒绝微调和基于规则的在线强化学习实现的。这一发展出现在大语言模型缩放范式从预训练阶段转向后训练阶段,特别是推理阶段的时候,继OpenAI的o1等模型出现之后。这种方法利用增加的强化学习和更广泛的“思考时间”来持续提升模型性能。深度求索自己的R1系列模型进一步验证了纯强化学习训练的潜力,可以在大语言模型推理能力上实现显著飞跃。大语言模型的基本“下一个令牌预测”机制虽然提供了广泛知识,但往往缺乏深度规划和预测长期结果的能力,使它们容易做出短视决策。强化学习作为一个关键补充,为大语言模型提供了一个“内部世界模型”。这使它们能够模拟不同推理路径的潜在结果,评估这些路径的质量,并选择更优的解决方案,最终实现更系统的长期规划。大语言模型和强化学习之间的协同作用越来越被认为是提升解决复杂问题能力的关键。清华大学交叉信息研究院的助理教授吴翼在最近的一次播客中将大语言模型和强化学习的关系比作“乘法关系”。强化学习擅长决策,但本质上缺乏理解。理解的构建依赖于预训练模型,在此基础上强化学习可以进一步优化决策能力。这种“乘法关系”表明,只有在预训练阶段建立了强大的理解、记忆和逻辑推理基础时,强化学习才能充分发挥其潜力,创建一个完整的智能体。一篇题为“强化学习增强的大语言模型:综述”的综述论文概述了使用强化学习训练大语言模型的典型三步过程:奖励模型训练、基于偏好的微调和策略优化。集成强化学习允许大语言模型基于不同的偏好分数动态调整,超越单一预定义答案的限制。深度求索的SPCT技术旨在解决大语言模型强化学习的缩放挑战。尽管强化学习在后训练中作为提升大语言模型性能的突破取得了成功,但强化学习算法本身仍有显著的改进空间。