Artificial Analysis 是一家独立的 AI 基准测试组织,其排名受到开发者和企业买家的密切关注。该组织于周一发布了其智能指数的重大更新,从根本上改变了行业衡量 AI 进展的方式。
新的智能指数 v4.0 包含了 10 项评估,涵盖智能体、编码、科学推理和通用知识。该组织移除了 MMLU-Pro、AIME 2025 和 LiveCodeBench 这三个长期被 AI 公司在营销材料中引用的基准测试。取而代之的是,新指数引入了旨在衡量 AI 系统是否能完成人们实际付费工作的评估。
基准测试的更新解决了 AI 评估中日益严重的危机:领先模型的能力已如此强大,传统测试无法再有效区分它们。新指数故意提高了难度曲线。根据 Artificial Analysis 的数据,顶级模型在新 v4.0 量表上的得分现在为 50 或以下,而旧版本为 73,这一重新校准旨在为未来改进留出空间。
新框架下的结果显示,OpenAI 的 GPT-5.2 在扩展推理努力下排名第一,紧随其后的是 Anthropic 的 Claude Opus 4.5 和 Google 的 Gemini 3 Pro。OpenAI 将 GPT-5.2 描述为“迄今为止最适合专业知识工作的模型系列”,而 Anthropic 的 Claude Opus 4.5 在评估软件编码能力的测试集 SWE-Bench Verified 上得分高于 GPT-5.2。
新指数中最重要的新增内容是 GDPval-AA,这是一项基于 OpenAI 的 GDPval 数据集的评估,测试 AI 模型在 44 个职业和 9 个主要行业中真实世界经济价值任务的表现。与要求模型解决抽象数学问题或多项选择题的传统基准不同,GDPval-AA 评估 AI 执行实际工作的能力,如撰写商业计划或分析财务数据。