NeoBeta - AI 科技资讯

Nous Research 发布了 NousCoder-14B，这是一个基于 Qwen3-14B 通过强化学习后训练的竞争性编程模型。在 LiveCodeBench v6 基准测试中，该模型达到 67.87% 的 Pass@1 准确率，比 Qwen3-14B 基线高出 7.08 个百分点。研究团队使用 48 块 B200 GPU 在 4 天内对模型进行了训练，训练数据包含 24k 个可验证的编程问题。模型权重已在 Hugging Face 上以 Apache 2.0 许可证发布。

LiveCodeBench v6 是一个针对竞争性编程评估的基准测试，测试集包含 454 个问题。训练集采用了与 Agentica 和 Together AI 的 DeepCoder-14B 项目相同的配方，结合了 TACO Verified、PrimeIntellect SYNTHETIC 1 和 2024 年 7 月 31 日前的 LiveCodeBench 问题。Pass@1 指标表示首次生成的程序通过所有测试的问题比例。

所有训练数据集都由可验证的代码生成问题组成，每个问题包含参考实现和多个测试用例。测试集是 LiveCodeBench v6，包含 2024 年 8 月 1 日至 2025 年 5 月 1 日期间的 454 个问题。每个问题都是一个完整的竞争性编程任务，具有描述、输入格式、输出格式和测试用例。

强化学习环境使用 Atropos 框架构建，NousCoder-14B 采用标准 LiveCodeBench 提示格式生成 Python 代码。每个 rollout 根据测试用例结果接收标量奖励：当生成的代码通过所有测试用例时奖励为 1，当代码输出错误答案、超过 15 秒时间限制或超过 4 GB 内存限制时奖励为 -1。团队使用 Modal 作为自动扩展的沙箱来安全执行不可信代码，每个 rollout 启动一个 Modal 容器来运行所有测试用例。

研究团队还实现了推理和验证的流水线处理，当推理工作者完成生成后，将结果发送给 Modal 验证器并立即开始新的生成。团队讨论了三种验证并行化策略，最终采用每个容器评估多个测试用例的方法，并优先关注最难的测试用例子集。NousCoder-14B 使用 Group Relative Policy Optimization 方法，无需单独的价值模型。

背景阅读

NousCoder-14B 的发布是 AI 编程模型领域的最新进展，延续了近年来基于大语言模型的代码生成技术的发展趋势。这类模型通常通过预训练和后训练相结合的方式，在大量代码数据上学习编程模式和逻辑推理能力。强化学习在代码生成中的应用日益增多，因为它能通过可验证的奖励信号（如测试用例通过率）直接优化模型输出质量，而无需依赖人工标注。LiveCodeBench 是一个专门针对竞争性编程设计的基准测试，模拟了实际编程竞赛中的严格约束，如时间、内存限制和隐藏测试用例，这使得它成为评估模型在复杂、动态编程任务上性能的重要工具。此前，Qwen3-14B 等模型已在代码生成任务上表现出色，但 NousCoder-14B 通过强化学习后训练进一步提升了性能，展示了后训练技术在优化特定领域 AI 模型方面的潜力。开源社区中，Hugging Face 已成为 AI 模型权重发布和共享的主要平台，Apache 2.0 许可证的采用促进了模型的广泛使用和进一步研究。

Nous Research 发布 NousCoder-14B：基于 Qwen3-14B 的强化学习编程模型

背景阅读

相关阅读

NVIDIA NIM 加速 Hugging Face 上大量 LLM 的部署

Hugging Face 发布 TextQuests 基准，评估 LLM 在文本游戏中的推理能力

Hugging Face 推出 Jupyter Agent：训练 LLM 在笔记本中执行代码推理

评论 (0)