Kaggle 今日推出了社区基准测试功能,允许全球 AI 社区设计、运行和分享自定义基准测试,用于评估 AI 模型。这是继去年 Kaggle 基准测试发布后的下一步举措,旨在提供可信赖和透明的评估访问,包括来自 Meta 的 MultiLoKo 和 Google 的 FACTS 套件等顶级研究组的评估。
AI 能力的快速发展使得模型性能评估变得困难。过去,静态数据集上的单一准确率分数足以确定模型质量,但现在,随着大语言模型演变为能够协作、编写代码和使用工具的推理代理,这些静态指标和简单评估已不再足够。Kaggle 社区基准测试为开发者提供了一种透明的方式来验证其特定用例,并弥合实验代码与生产就绪应用之间的差距。
基准测试从构建任务开始,任务范围包括评估多步推理、代码生成、测试工具使用或图像识别。创建任务后,用户可以将它们添加到基准测试中,以评估和排名所选模型在基准测试任务中的表现。基准测试提供免费访问 Google、Anthropic、DeepSeek 等实验室的先进模型,支持多模态输入、代码执行、工具使用和多轮对话等复杂交互测试,并确保结果的可复现性。这些功能由新的 kaggle-benchmarks SDK 提供支持。
Kaggle 社区基准测试旨在帮助塑造 AI 评估的未来,用户不再仅仅是测试模型,而是参与塑造下一代智能。