Meta发布了Gaia2,这是GAIA智能体基准测试的后续版本,旨在分析更复杂的AI助手行为。Gaia2与开放源代码的Meta Agents Research Environments框架一同发布,用于运行、调试和评估智能体。ARE框架模拟复杂的现实世界条件,并可定制以进一步研究智能体行为。Gaia2数据集在CC by 4.0许可下发布,ARE框架在MIT许可下发布。
Gaia2是一个读-写基准测试,专注于交互行为和复杂性管理。智能体现在不仅在搜索和检索方面被评估,还在模糊或时间敏感查询的指令遵循、受控故障的嘈杂环境中被评估,这比任何其他模拟环境更反映现实世界条件。测试包括多步骤指令遵循、跨源信息收集、歧义处理、适应性、时间推理、智能体间协作和噪声容忍等任务组。Gaia2使用1000个全新人类创建的场景,这些场景不需要专业知识,人类原则上应能获得100%准确率,便于模型开发者调试。
Gaia2通过ARE框架运行,这是一个执行环境,其中用户选择的智能体可以访问应用程序组合和相关预填充数据。对于Gaia2,创建了一个智能手机模拟界面,包括联系人、日历、消息、电子邮件和地图等应用程序。智能体通过API与这些应用程序交互,ARE框架模拟真实世界事件,如API故障、时间延迟和意外变化,以测试智能体的鲁棒性和适应性。