Nous Research 发布了 NousCoder-14B,这是一个基于 Qwen3-14B 通过强化学习后训练的竞争性编程模型。在 LiveCodeBench v6 基准测试中,该模型达到 67.87% 的 Pass@1 准确率,比 Qwen3-14B 基线高出 7.08 个百分点。研究团队使用 48 块 B200 GPU 在 4 天内对模型进行了训练,训练数据包含 24k 个可验证的编程问题。模型权重已在 Hugging Face 上以 Apache 2.0 许可证发布。
LiveCodeBench v6 是一个针对竞争性编程评估的基准测试,测试集包含 454 个问题。训练集采用了与 Agentica 和 Together AI 的 DeepCoder-14B 项目相同的配方,结合了 TACO Verified、PrimeIntellect SYNTHETIC 1 和 2024 年 7 月 31 日前的 LiveCodeBench 问题。Pass@1 指标表示首次生成的程序通过所有测试的问题比例。
所有训练数据集都由可验证的代码生成问题组成,每个问题包含参考实现和多个测试用例。测试集是 LiveCodeBench v6,包含 2024 年 8 月 1 日至 2025 年 5 月 1 日期间的 454 个问题。每个问题都是一个完整的竞争性编程任务,具有描述、输入格式、输出格式和测试用例。
强化学习环境使用 Atropos 框架构建,NousCoder-14B 采用标准 LiveCodeBench 提示格式生成 Python 代码。每个 rollout 根据测试用例结果接收标量奖励:当生成的代码通过所有测试用例时奖励为 1,当代码输出错误答案、超过 15 秒时间限制或超过 4 GB 内存限制时奖励为 -1。团队使用 Modal 作为自动扩展的沙箱来安全执行不可信代码,每个 rollout 启动一个 Modal 容器来运行所有测试用例。
研究团队还实现了推理和验证的流水线处理,当推理工作者完成生成后,将结果发送给 Modal 验证器并立即开始新的生成。团队讨论了三种验证并行化策略,最终采用每个容器评估多个测试用例的方法,并优先关注最难的测试用例子集。NousCoder-14B 使用 Group Relative Policy Optimization 方法,无需单独的价值模型。