Hugging Face 发布了一篇博客文章,介绍了名为 FutureBench 的新基准测试,专门用于评估 AI 代理预测未来事件的能力。该基准测试旨在解决当前 AI 评估中存在的问题,并推动 AI 向更实用的方向发展。
当前大多数 AI 基准测试主要关注回答关于过去的问题,例如测试模型对现有知识的掌握或解决已存在的问题。然而,Hugging Face 认为更有价值的 AI 应该能够利用过去来预测未来的有趣方面,而不仅仅是复述旧事实。预测未来事件是一项复杂且全面的任务,需要复杂的推理、综合、概率权衡和真正的理解。
FutureBench 从真实世界的预测市场和新兴新闻中收集事件,创建基于实际未来结果的预测任务。该基准测试使用基于代理的方法,策划需要真正推理而非简单模式匹配的场景,例如地缘政治发展、市场动向或技术采用趋势。预测未来事件的设计使得数据污染成为不可能,因为无法在尚未存在的数据上进行训练。这创造了一个公平的竞争环境,成功取决于推理能力而非记忆。
最重要的是,关于未来的预测本质上是可验证的。我们可以等待并查看谁是正确的,从而创建客观的、有时间戳的模型性能衡量标准。FutureBench 旨在评估代理在预测未来事件方面的能力,要求 AI 代理综合信息并在比大多数其他基准测试更强的不确定性下进行推理。代理的预测质量直接反映了其搜索、综合和推理信息的能力。