Artificial Analysis 全面改革 AI 智能指数,用真实世界测试取代传统基准

3 天前·来源:VentureBeat
AI基准测试Artificial AnalysisGDPval-AAAI评估

独立 AI 基准测试组织 Artificial Analysis 发布了其智能指数的重大更新。新版本移除了 MMLU-Pro 等传统基准,引入了 GDPval-AA 等真实世界任务评估。GPT-5.2 在新指数中排名第一,Claude Opus 4.5 和 Gemini 3 Pro 紧随其后。

Artificial Analysis 是一家独立的 AI 基准测试组织,其排名受到开发者和企业买家的密切关注。该组织于周一发布了其智能指数的重大更新,从根本上改变了行业衡量 AI 进展的方式。

新的智能指数 v4.0 包含了 10 项评估,涵盖智能体、编码、科学推理和通用知识。该组织移除了 MMLU-Pro、AIME 2025 和 LiveCodeBench 这三个长期被 AI 公司在营销材料中引用的基准测试。取而代之的是,新指数引入了旨在衡量 AI 系统是否能完成人们实际付费工作的评估。

基准测试的更新解决了 AI 评估中日益严重的危机:领先模型的能力已如此强大,传统测试无法再有效区分它们。新指数故意提高了难度曲线。根据 Artificial Analysis 的数据,顶级模型在新 v4.0 量表上的得分现在为 50 或以下,而旧版本为 73,这一重新校准旨在为未来改进留出空间。

新框架下的结果显示,OpenAI 的 GPT-5.2 在扩展推理努力下排名第一,紧随其后的是 Anthropic 的 Claude Opus 4.5 和 Google 的 Gemini 3 Pro。OpenAI 将 GPT-5.2 描述为“迄今为止最适合专业知识工作的模型系列”,而 Anthropic 的 Claude Opus 4.5 在评估软件编码能力的测试集 SWE-Bench Verified 上得分高于 GPT-5.2。

新指数中最重要的新增内容是 GDPval-AA,这是一项基于 OpenAI 的 GDPval 数据集的评估,测试 AI 模型在 44 个职业和 9 个主要行业中真实世界经济价值任务的表现。与要求模型解决抽象数学问题或多项选择题的传统基准不同,GDPval-AA 评估 AI 执行实际工作的能力,如撰写商业计划或分析财务数据。

背景阅读

AI 基准测试是评估和比较不同 AI 模型性能的关键工具,帮助开发者和企业选择适合的模型。传统基准如 MMLU-Pro 和 LiveCodeBench 主要测试模型在特定任务上的准确率,但随着 AI 技术的快速发展,这些测试逐渐饱和,顶级模型得分接近上限,难以区分优劣。近年来,行业开始转向更贴近实际应用的评估方法,强调模型在真实世界任务中的表现。例如,GDPval 数据集由 OpenAI 开发,旨在模拟经济中有价值的职业任务,推动 AI 评估从学术测试向实用能力转变。这种转变反映了 AI 领域从追求基准分数到关注实际应用价值的演进,有助于更准确地衡量模型的智能水平和商业潜力。

评论 (0)

登录后参与评论

加载评论中...