国际数学奥林匹克竞赛(IMO)是全球最具声望的年轻数学家竞赛,自 1959 年起每年举办。参赛国派出六名精英预科数学家,解决代数、组合数学、几何和数论中的六道难题。奖牌授予前一半参赛者,约 8% 获得金牌。
近年来,IMO 也成为 AI 系统的挑战,测试其高级数学问题解决和推理能力。去年,Google DeepMind 的 AlphaProof 和 AlphaGeometry 2 系统达到银牌标准,解决了六道题中的四道,获得 28 分。这一突破使用专业形式语言,显示 AI 开始接近精英人类数学推理。
今年,Google DeepMind 成为首批由 IMO 协调员使用与学生解决方案相同标准正式评分和认证模型结果的团队之一。Gemini Deep Think 高级版解决了六道 IMO 题中的五道,获得 35 分,达到金牌水平。解决方案可在网上找到。
这一成就相比去年的突破结果有显著进步。在 IMO 2024 中,AlphaGeometry 和 AlphaProof 需要专家先将问题从自然语言翻译成特定领域语言如 Lean,反之亦然用于证明,并需要两到三天计算时间。今年,高级 Gemini 模型在自然语言中端到端运行,直接从官方问题描述生成严谨数学证明,全部在 4.5 小时竞赛时间限制内完成。
今年结果通过 Gemini Deep Think 高级版实现,这是一种用于复杂问题的增强推理模式,融合了最新研究技术,包括并行思考。这种设置使模型能在给出最终答案前同时探索和组合多个可能解决方案,而非追求单一线性思维链。
为充分利用 Deep Think 的推理能力,该版本 Gemini 还通过新颖强化学习技术训练,以利用更多多步推理、问题解决和定理证明数据。Gemini 还获得了高质量数学问题解决方案的精选语料库访问权限,并在其指令中添加了关于如何应对 IMO 问题的一般提示和技巧。
Google DeepMind 将在向 Google AI Ultra 订阅者推出前,向一组可信测试者(包括数学家)提供此 Deep Think 模型版本。