深度求索发布DeepSeek-Prover-V2,通过递归证明搜索推进神经定理证明

7 小时前·来源:Synced
深度求索神经定理证明大语言模型Lean 4数学推理

深度求索AI发布了专为Lean 4环境设计的开源大语言模型DeepSeek-Prover-V2。该模型采用创新的递归定理证明流程,利用DeepSeek-V3生成高质量初始化数据,在神经定理证明中达到领先性能。同时,深度求索推出了新基准ProverBench,包含325个问题,用于更全面评估数学推理能力。

深度求索AI宣布发布DeepSeek-Prover-V2,这是一个专为Lean 4环境中的形式定理证明设计的开源大语言模型。该最新版本基于先前工作,引入了创新的递归定理证明流程,利用DeepSeek-V3生成自身高质量初始化数据。由此产生的模型在神经定理证明中实现了领先性能,并伴随着ProverBench的推出,这是一个用于评估数学推理能力的新基准。

DeepSeek-Prover-V2的一个关键创新在于其独特的冷启动训练过程。这个过程始于提示强大的DeepSeek-V3模型将复杂数学定理分解为一系列更易管理的子目标。同时,DeepSeek-V3在Lean 4中形式化这些高级证明步骤,有效创建了结构化子问题序列。为了处理每个子目标的计算密集型证明搜索,研究人员使用了一个较小的7B参数模型。一旦一个挑战性问题的所有分解步骤被成功证明,完整的逐步形式证明与DeepSeek-V3相应的思维链推理配对。这种方法允许模型从综合数据集中学习,该数据集整合了非正式的高级数学推理和严格的形式证明,为后续强化学习提供了强大的冷启动。

在合成冷启动数据的基础上,深度求索团队精选了一系列挑战性问题,这些问题是7B证明模型无法端到端解决的,但所有子目标已成功处理。通过组合这些子目标的形式证明,构建了原始问题的完整证明。这个形式证明然后与DeepSeek-V3概述引理分解的思维链链接,创建了非正式推理后形式化的统一训练示例。证明模型然后在这个合成数据上进行微调,接着是强化学习阶段。这个阶段利用二元正确或错误反馈作为奖励信号,进一步优化模型在非正式数学直觉和形式证明精确构建之间弥合差距的能力。

这个创新训练过程的成果是DeepSeek-Prover-V2–671B,一个拥有6710亿参数的模型。该模型取得了显著成果,在神经定理证明中展示了领先性能。它在MiniF2F-test上达到了88.9%的通过率,并成功解决了PutnamBench中658个问题中的49个。DeepSeek-Prover-V2为miniF2F数据集生成的证明可供公开下载,允许进一步审查和分析。

除了模型发布,深度求索AI还推出了ProverBench,这是一个包含325个问题的新基准数据集。该基准旨在更全面地评估不同难度级别的数学推理能力。ProverBench包括15个从最近AIME竞赛形式化的问题,提供高中竞赛级别的真实挑战。其余310个问题来自精选的教科书示例和教育教程,提供了跨越不同领域的多样化和教育性强的形式化数学问题集合。ProverBench旨在促进更全面的评估。

背景阅读

神经定理证明是人工智能领域的一个重要分支,旨在利用机器学习技术自动生成数学定理的形式化证明。传统上,定理证明依赖于逻辑推理和符号计算,但近年来,基于大语言模型的神经方法显示出巨大潜力。深度求索AI作为中国领先的AI研究机构,此前已发布多个开源模型,如DeepSeek-V3,专注于数学推理和代码生成。Lean 4是一种函数式编程语言和定理证明器,广泛用于形式化数学和计算机科学验证。在神经定理证明中,挑战在于将非正式的数学直觉转化为严格的形式证明,这需要模型具备高级推理和精确表达能力。DeepSeek-Prover-V2的发布代表了该领域的技术进展,通过递归证明搜索和合成数据生成,提高了模型的证明能力和效率。ProverBench的推出也为评估数学推理提供了新标准,有助于推动相关研究的发展。

评论 (0)

登录后参与评论

加载评论中...