清华等机构开发AI自问自答学习系统,提升模型推理能力

2026/1/13·来源:Wired
AI学习自我对弈推理能力清华大学编程

清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员开发了名为Absolute Zero Reasoner的系统。该系统让AI模型通过生成并解决Python编程问题来自我学习,无需人类直接指导。实验显示,该方法显著提升了开源模型Qwen的编码和推理技能,甚至超越了部分依赖人类标注数据的模型。

清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员开发了一个名为Absolute Zero Reasoner的系统。该系统使用大型语言模型生成具有挑战性但可解决的Python编程问题,然后由同一模型尝试解决这些问题,并通过运行代码来验证答案。系统根据成功和失败的结果来优化原始模型,增强其提出更好问题和解决问题的能力。

研究团队发现,该方法显著提升了7亿和140亿参数版本的开源语言模型Qwen的编码和推理技能。模型甚至在一些方面超越了依赖人类标注数据的模型。研究人员指出,这种AI学习方式有时被称为“自我对弈”,其概念可追溯到多年前,由AI先驱Jürgen Schmidhuber和法国Inria的计算机科学家Pierre-Yves Oudeyer等人探索过。

目前,该系统仅适用于易于验证的问题,如涉及数学或编程的任务。随着项目进展,未来可能应用于代理AI任务,如浏览网页或处理办公事务。早期迹象显示,Absolute Zero方法已在一些大型AI实验室中得到关注,例如Salesforce、斯坦福大学和北卡罗来纳大学教堂山分校的Agent0项目,以及Meta、伊利诺伊大学和卡内基梅隆大学研究人员提出的类似系统。

背景阅读

AI模型通常通过监督学习或强化学习进行训练,依赖大量人类标注数据或预设任务。然而,这种方法限制了模型的自主学习和推理能力。自我对弈是一种让AI通过自我生成问题和解决方案来学习的方法,灵感来源于人类的学习过程,即从模仿到自主探索。历史上,AI先驱如Jürgen Schmidhuber曾探索类似概念,用于游戏和优化问题。近年来,随着大型语言模型的发展,自我对弈在编程和数学推理等领域展现出潜力,可能推动AI向更通用的智能方向发展。开源模型如Qwen的参与,也反映了社区对提升模型自主性的关注。

评论 (0)

登录后参与评论

加载评论中...