清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员开发了一个名为Absolute Zero Reasoner的系统。该系统使用大型语言模型生成具有挑战性但可解决的Python编程问题,然后由同一模型尝试解决这些问题,并通过运行代码来验证答案。系统根据成功和失败的结果来优化原始模型,增强其提出更好问题和解决问题的能力。
研究团队发现,该方法显著提升了7亿和140亿参数版本的开源语言模型Qwen的编码和推理技能。模型甚至在一些方面超越了依赖人类标注数据的模型。研究人员指出,这种AI学习方式有时被称为“自我对弈”,其概念可追溯到多年前,由AI先驱Jürgen Schmidhuber和法国Inria的计算机科学家Pierre-Yves Oudeyer等人探索过。
目前,该系统仅适用于易于验证的问题,如涉及数学或编程的任务。随着项目进展,未来可能应用于代理AI任务,如浏览网页或处理办公事务。早期迹象显示,Absolute Zero方法已在一些大型AI实验室中得到关注,例如Salesforce、斯坦福大学和北卡罗来纳大学教堂山分校的Agent0项目,以及Meta、伊利诺伊大学和卡内基梅隆大学研究人员提出的类似系统。