Hugging Face 发布 TextQuests 基准，评估 LLM 在文本游戏中的推理能力

1 天前·来源：Hugging Face Blog

Hugging FaceTextQuestsLLM评估AI代理文本游戏

Hugging Face 推出了 TextQuests 基准，用于评估大型语言模型在复杂交互环境中的自主推理能力。该基准基于 25 款经典文本冒险游戏，要求模型进行长上下文推理和探索学习。评估包括游戏进度和伦理行为两个指标，以衡量模型作为 AI 代理的表现。

Hugging Face 发布了 TextQuests 基准，旨在评估大型语言模型在文本冒险游戏中的自主推理能力。该基准基于 25 款经典的 Infocom 互动小说游戏，这些游戏需要玩家进行数百次精确操作，耗时可能超过 30 小时。TextQuests 要求模型展示长上下文推理能力，通过不断增长的行动和观察历史来制定多步计划，同时依赖内在能力而非外部工具。模型还需通过探索学习，从失败中吸取教训，在未知世界中通过试错进行渐进改进。评估中，每个模型进行两次运行：一次允许访问游戏官方提示，一次不允许，每次最多执行 500 步。评估使用游戏进度和伦理行为两个指标，游戏进度基于完成游戏路径上的标记检查点计算，伦理行为则通过跟踪游戏中有害动作来评估。

阅读原文

背景阅读

大型语言模型在静态知识基准如 MMLU 和 GPQA 上已取得显著进展，但在动态交互环境中的评估仍具挑战性。评估自主代理通常有两种途径：使用现实世界环境和特定技能，或使用模拟开放世界环境。后者能更好地捕捉代理在探索性环境中的自主操作能力，需要长期、自导的推理。近年来，这一方向通过基准如 Balrog 和 ARC-AGI 以及模型如 Claude 和 Gemini 玩 Pokémon 的演示而受到关注。TextQuests 基于 Infocom 的互动小说游戏，这些游戏曾是流行的文本冒险游戏，要求玩家解决复杂谜题，适合测试代理推理的挑战。该基准旨在直接评估 LLM 作为 AI 代理系统推理核心的能力，推动在复杂环境中评估模型的研究。

Hugging Face 发布 TextQuests 基准，评估 LLM 在文本游戏中的推理能力

背景阅读

相关阅读

Gaia2与ARE框架发布，赋能社区评估AI智能体

Hugging Face 推出 Jupyter Agent：训练 LLM 在笔记本中执行代码推理

英特尔与Hugging Face合作加速Qwen3-8B智能体推理

评论 (0)