谷歌研究人员开发了一种技术,使AI模型更容易学习通常导致大型语言模型产生幻觉或失效的复杂推理任务。这项技术被称为内部强化学习,它通过引导模型的内部激活来为输入问题开发高级分步解决方案,而不是通过下一个令牌预测来训练大型语言模型。最终,这可能为创建能够处理复杂推理和现实世界机器人任务而无需持续手动指导的自主智能体提供可扩展路径。
下一个令牌预测在大型语言模型的后训练中扮演关键角色,特别是对于需要长视野规划的复杂推理任务。然而,问题在于这些模型的架构。大型语言模型是自回归的,意味着它们一次生成一个令牌序列。当这些模型在训练期间探索新策略时,它们通过对下一个单个令牌或动作进行小的随机更改来实现。这暴露了一个更深层次的限制:下一个令牌预测迫使模型在错误的抽象级别上搜索解决方案,使得长视野推理效率低下,即使模型“知道”该做什么。这种逐令牌方法适用于基本语言建模,但在奖励稀疏的长视野任务中会失效。根据研究人员的说法,如果模型仅依赖随机令牌级采样,偶然找到正确的多步解决方案的概率极小,“大约为百万分之一”。问题不仅在于模型会混淆,还在于它们在错误的级别上混淆。论文合著者Yanick Schimpf在向VentureBeat提供的评论中指出,在一个20步的任务中,智能体可能迷失在单个步骤的微小细节中,或者可能失去对整体目标的跟踪。Schimpf表示:“我们认为,当面对具有某些抽象结构的问题时……[面向目标的探索]是你想要的。”通过在抽象级别首先解决问题,智能体承诺了一条路径,确保它不会“在其中一个推理步骤中迷失”并无法完成更广泛的工作流程。为了解决这个问题,该领域长期以来一直关注分层强化学习。分层强化学习试图通过将复杂问题分解为时间抽象动作的层次结构来解决问题,而不是将任务管理为一串令牌。然而,发现这些适当的子程序仍然是一个长期存在的挑战。当前的分层强化学习方法经常无法发现适当的策略,经常“收敛到退化选项”,这些选项不代表有意义的行为。即使是像GRPO这样的复杂现代方法也无法在复杂环境中有效工作,因为它们无法有效弥合低级执行和高级规划之间的差距。
为了克服这些限制,谷歌团队提出了内部强化学习。先进的自回归模型已经“知道”如何在内部执行复杂的多步任务,即使它们没有明确训练这样做。因为这些复杂行为隐藏在模型的残差流中,研究人员引入了一个“内部神经网络控制器”或元控制器。元控制器通过应用更改来引导模型的内部激活,而不是监控和更改输出令牌,从而控制模型的行为。