Hugging Face 发布了 TextQuests 基准,旨在评估大型语言模型在文本冒险游戏中的自主推理能力。该基准基于 25 款经典的 Infocom 互动小说游戏,这些游戏需要玩家进行数百次精确操作,耗时可能超过 30 小时。TextQuests 要求模型展示长上下文推理能力,通过不断增长的行动和观察历史来制定多步计划,同时依赖内在能力而非外部工具。模型还需通过探索学习,从失败中吸取教训,在未知世界中通过试错进行渐进改进。评估中,每个模型进行两次运行:一次允许访问游戏官方提示,一次不允许,每次最多执行 500 步。评估使用游戏进度和伦理行为两个指标,游戏进度基于完成游戏路径上的标记检查点计算,伦理行为则通过跟踪游戏中有害动作来评估。