Kaggle 推出社区基准测试功能

5 天前·来源:Google AI Blog
KaggleAI评估基准测试社区驱动Google

Kaggle 今日发布了社区基准测试功能,允许全球 AI 社区设计、运行和分享自定义基准测试来评估 AI 模型。该功能提供免费访问 Google、Anthropic 等顶级实验室的先进模型,支持多模态输入和代码执行等复杂交互。用户可通过 kaggle-benchmarks SDK 快速创建任务和基准测试,实现可复现的模型评估。

Kaggle 今日推出了社区基准测试功能,允许全球 AI 社区设计、运行和分享自定义基准测试,用于评估 AI 模型。这是继去年 Kaggle 基准测试发布后的下一步举措,旨在提供可信赖和透明的评估访问,包括来自 Meta 的 MultiLoKo 和 Google 的 FACTS 套件等顶级研究组的评估。

AI 能力的快速发展使得模型性能评估变得困难。过去,静态数据集上的单一准确率分数足以确定模型质量,但现在,随着大语言模型演变为能够协作、编写代码和使用工具的推理代理,这些静态指标和简单评估已不再足够。Kaggle 社区基准测试为开发者提供了一种透明的方式来验证其特定用例,并弥合实验代码与生产就绪应用之间的差距。

基准测试从构建任务开始,任务范围包括评估多步推理、代码生成、测试工具使用或图像识别。创建任务后,用户可以将它们添加到基准测试中,以评估和排名所选模型在基准测试任务中的表现。基准测试提供免费访问 Google、Anthropic、DeepSeek 等实验室的先进模型,支持多模态输入、代码执行、工具使用和多轮对话等复杂交互测试,并确保结果的可复现性。这些功能由新的 kaggle-benchmarks SDK 提供支持。

Kaggle 社区基准测试旨在帮助塑造 AI 评估的未来,用户不再仅仅是测试模型,而是参与塑造下一代智能。

背景阅读

Kaggle 是 Google 旗下的一个数据科学和机器学习竞赛平台,成立于 2010 年,被广泛用于举办 AI 模型竞赛、数据分析和机器学习项目。近年来,随着 AI 模型的快速发展,尤其是大语言模型的兴起,传统的评估方法如静态数据集测试已难以全面衡量模型在复杂任务中的表现。例如,模型在推理、代码生成和多模态交互方面的能力需要更动态和透明的评估框架。Kaggle 去年推出了基准测试功能,整合了来自 Meta、Google 等研究机构的评估套件,以提供标准化的模型比较。社区基准测试的推出进一步扩展了这一功能,允许用户自定义评估任务,反映了 AI 行业对更灵活、用户驱动的评估工具的需求,以应对模型多样化和应用场景复杂化的挑战。

评论 (0)

登录后参与评论

加载评论中...