Nous Research 发布 NousCoder-14B:基于 Qwen3-14B 的强化学习编程模型

1 天前·来源:MarkTechPost
Nous ResearchAI编程模型强化学习代码生成LiveCodeBench

Nous Research 发布了 NousCoder-14B,这是一个基于 Qwen3-14B 通过强化学习后训练的竞争性编程模型。在 LiveCodeBench v6 基准测试中,该模型达到 67.87% 的 Pass@1 准确率,比 Qwen3-14B 基线高出 7.08 个百分点。模型权重已在 Hugging Face 上以 Apache 2.0 许可证发布。

Nous Research 发布了 NousCoder-14B,这是一个基于 Qwen3-14B 通过强化学习后训练的竞争性编程模型。在 LiveCodeBench v6 基准测试中,该模型达到 67.87% 的 Pass@1 准确率,比 Qwen3-14B 基线高出 7.08 个百分点。研究团队使用 48 块 B200 GPU 在 4 天内对模型进行了训练,训练数据包含 24k 个可验证的编程问题。模型权重已在 Hugging Face 上以 Apache 2.0 许可证发布。

LiveCodeBench v6 是一个针对竞争性编程评估的基准测试,测试集包含 454 个问题。训练集采用了与 Agentica 和 Together AI 的 DeepCoder-14B 项目相同的配方,结合了 TACO Verified、PrimeIntellect SYNTHETIC 1 和 2024 年 7 月 31 日前的 LiveCodeBench 问题。Pass@1 指标表示首次生成的程序通过所有测试的问题比例。

所有训练数据集都由可验证的代码生成问题组成,每个问题包含参考实现和多个测试用例。测试集是 LiveCodeBench v6,包含 2024 年 8 月 1 日至 2025 年 5 月 1 日期间的 454 个问题。每个问题都是一个完整的竞争性编程任务,具有描述、输入格式、输出格式和测试用例。

强化学习环境使用 Atropos 框架构建,NousCoder-14B 采用标准 LiveCodeBench 提示格式生成 Python 代码。每个 rollout 根据测试用例结果接收标量奖励:当生成的代码通过所有测试用例时奖励为 1,当代码输出错误答案、超过 15 秒时间限制或超过 4 GB 内存限制时奖励为 -1。团队使用 Modal 作为自动扩展的沙箱来安全执行不可信代码,每个 rollout 启动一个 Modal 容器来运行所有测试用例。

研究团队还实现了推理和验证的流水线处理,当推理工作者完成生成后,将结果发送给 Modal 验证器并立即开始新的生成。团队讨论了三种验证并行化策略,最终采用每个容器评估多个测试用例的方法,并优先关注最难的测试用例子集。NousCoder-14B 使用 Group Relative Policy Optimization 方法,无需单独的价值模型。

背景阅读

NousCoder-14B 的发布是 AI 编程模型领域的最新进展,延续了近年来基于大语言模型的代码生成技术的发展趋势。这类模型通常通过预训练和后训练相结合的方式,在大量代码数据上学习编程模式和逻辑推理能力。强化学习在代码生成中的应用日益增多,因为它能通过可验证的奖励信号(如测试用例通过率)直接优化模型输出质量,而无需依赖人工标注。LiveCodeBench 是一个专门针对竞争性编程设计的基准测试,模拟了实际编程竞赛中的严格约束,如时间、内存限制和隐藏测试用例,这使得它成为评估模型在复杂、动态编程任务上性能的重要工具。此前,Qwen3-14B 等模型已在代码生成任务上表现出色,但 NousCoder-14B 通过强化学习后训练进一步提升了性能,展示了后训练技术在优化特定领域 AI 模型方面的潜力。开源社区中,Hugging Face 已成为 AI 模型权重发布和共享的主要平台,Apache 2.0 许可证的采用促进了模型的广泛使用和进一步研究。

评论 (0)

登录后参与评论

加载评论中...