Hugging Face 发布 TextQuests 基准,评估 LLM 在文本游戏中的推理能力

1 天前·来源:Hugging Face Blog
Hugging FaceTextQuestsLLM评估AI代理文本游戏

Hugging Face 推出了 TextQuests 基准,用于评估大型语言模型在复杂交互环境中的自主推理能力。该基准基于 25 款经典文本冒险游戏,要求模型进行长上下文推理和探索学习。评估包括游戏进度和伦理行为两个指标,以衡量模型作为 AI 代理的表现。

Hugging Face 发布了 TextQuests 基准,旨在评估大型语言模型在文本冒险游戏中的自主推理能力。该基准基于 25 款经典的 Infocom 互动小说游戏,这些游戏需要玩家进行数百次精确操作,耗时可能超过 30 小时。TextQuests 要求模型展示长上下文推理能力,通过不断增长的行动和观察历史来制定多步计划,同时依赖内在能力而非外部工具。模型还需通过探索学习,从失败中吸取教训,在未知世界中通过试错进行渐进改进。评估中,每个模型进行两次运行:一次允许访问游戏官方提示,一次不允许,每次最多执行 500 步。评估使用游戏进度和伦理行为两个指标,游戏进度基于完成游戏路径上的标记检查点计算,伦理行为则通过跟踪游戏中有害动作来评估。

背景阅读

大型语言模型在静态知识基准如 MMLU 和 GPQA 上已取得显著进展,但在动态交互环境中的评估仍具挑战性。评估自主代理通常有两种途径:使用现实世界环境和特定技能,或使用模拟开放世界环境。后者能更好地捕捉代理在探索性环境中的自主操作能力,需要长期、自导的推理。近年来,这一方向通过基准如 Balrog 和 ARC-AGI 以及模型如 Claude 和 Gemini 玩 Pokémon 的演示而受到关注。TextQuests 基于 Infocom 的互动小说游戏,这些游戏曾是流行的文本冒险游戏,要求玩家解决复杂谜题,适合测试代理推理的挑战。该基准旨在直接评估 LLM 作为 AI 代理系统推理核心的能力,推动在复杂环境中评估模型的研究。

评论 (0)

登录后参与评论

加载评论中...