Gemini Deep Think 高级版在国际数学奥林匹克竞赛中达到金牌标准

2 天前·来源:DeepMind Blog
Google DeepMindGemini数学推理IMOAI模型

Google DeepMind 的 Gemini Deep Think 高级版在国际数学奥林匹克竞赛中解决了六道题中的五道,获得 35 分,达到金牌水平。该模型在 4.5 小时内直接从自然语言问题描述生成严谨数学证明,相比去年有显著进步。这一成就标志着 AI 在高级数学推理方面的重要里程碑。

国际数学奥林匹克竞赛(IMO)是全球最具声望的年轻数学家竞赛,自 1959 年起每年举办。参赛国派出六名精英预科数学家,解决代数、组合数学、几何和数论中的六道难题。奖牌授予前一半参赛者,约 8% 获得金牌。

近年来,IMO 也成为 AI 系统的挑战,测试其高级数学问题解决和推理能力。去年,Google DeepMind 的 AlphaProof 和 AlphaGeometry 2 系统达到银牌标准,解决了六道题中的四道,获得 28 分。这一突破使用专业形式语言,显示 AI 开始接近精英人类数学推理。

今年,Google DeepMind 成为首批由 IMO 协调员使用与学生解决方案相同标准正式评分和认证模型结果的团队之一。Gemini Deep Think 高级版解决了六道 IMO 题中的五道,获得 35 分,达到金牌水平。解决方案可在网上找到。

这一成就相比去年的突破结果有显著进步。在 IMO 2024 中,AlphaGeometry 和 AlphaProof 需要专家先将问题从自然语言翻译成特定领域语言如 Lean,反之亦然用于证明,并需要两到三天计算时间。今年,高级 Gemini 模型在自然语言中端到端运行,直接从官方问题描述生成严谨数学证明,全部在 4.5 小时竞赛时间限制内完成。

今年结果通过 Gemini Deep Think 高级版实现,这是一种用于复杂问题的增强推理模式,融合了最新研究技术,包括并行思考。这种设置使模型能在给出最终答案前同时探索和组合多个可能解决方案,而非追求单一线性思维链。

为充分利用 Deep Think 的推理能力,该版本 Gemini 还通过新颖强化学习技术训练,以利用更多多步推理、问题解决和定理证明数据。Gemini 还获得了高质量数学问题解决方案的精选语料库访问权限,并在其指令中添加了关于如何应对 IMO 问题的一般提示和技巧。

Google DeepMind 将在向 Google AI Ultra 订阅者推出前,向一组可信测试者(包括数学家)提供此 Deep Think 模型版本。

背景阅读

国际数学奥林匹克竞赛(IMO)是面向高中生的顶级数学竞赛,自 1959 年举办以来,已成为衡量年轻数学才能的全球标准。竞赛包含六道难题,涵盖代数、组合数学、几何和数论等领域,要求参赛者在 4.5 小时内解决。奖牌根据分数分布授予,金牌通常授予前 8% 的参赛者。近年来,IMO 被用作 AI 系统高级推理能力的基准测试,因为解决这些问题需要复杂的逻辑推理、创造性思维和严谨证明。 在 AI 领域,数学推理一直是挑战性任务,因为它涉及抽象思维和形式逻辑。Google DeepMind 此前在 2024 年通过 AlphaProof 和 AlphaGeometry 2 系统达到银牌标准,使用形式语言如 Lean 进行问题翻译和证明。这一进展显示 AI 在数学领域的能力提升,但仍有局限性,如依赖专家翻译和较长计算时间。 Gemini 是 Google DeepMind 开发的多模态 AI 模型,旨在处理文本、代码、图像等多种输入。Deep Think 是 Gemini 的增强推理模式,专注于复杂问题解决,通过并行思考等技术提高推理效率。这一突破结合了强化学习和高质量数据训练,使模型能直接在自然语言中生成证明,减少对人类干预的依赖,标志着 AI 在数学推理方面的进一步成熟。

评论 (0)

登录后参与评论

加载评论中...