NeoBeta - AI 科技资讯

Artificial Analysis 是一家独立的 AI 基准测试组织，其排名受到开发者和企业买家的密切关注。该组织于周一发布了其智能指数的重大更新，从根本上改变了行业衡量 AI 进展的方式。

新的智能指数 v4.0 包含了 10 项评估，涵盖智能体、编码、科学推理和通用知识。该组织移除了 MMLU-Pro、AIME 2025 和 LiveCodeBench 这三个长期被 AI 公司在营销材料中引用的基准测试。取而代之的是，新指数引入了旨在衡量 AI 系统是否能完成人们实际付费工作的评估。

基准测试的更新解决了 AI 评估中日益严重的危机：领先模型的能力已如此强大，传统测试无法再有效区分它们。新指数故意提高了难度曲线。根据 Artificial Analysis 的数据，顶级模型在新 v4.0 量表上的得分现在为 50 或以下，而旧版本为 73，这一重新校准旨在为未来改进留出空间。

新框架下的结果显示，OpenAI 的 GPT-5.2 在扩展推理努力下排名第一，紧随其后的是 Anthropic 的 Claude Opus 4.5 和 Google 的 Gemini 3 Pro。OpenAI 将 GPT-5.2 描述为“迄今为止最适合专业知识工作的模型系列”，而 Anthropic 的 Claude Opus 4.5 在评估软件编码能力的测试集 SWE-Bench Verified 上得分高于 GPT-5.2。

新指数中最重要的新增内容是 GDPval-AA，这是一项基于 OpenAI 的 GDPval 数据集的评估，测试 AI 模型在 44 个职业和 9 个主要行业中真实世界经济价值任务的表现。与要求模型解决抽象数学问题或多项选择题的传统基准不同，GDPval-AA 评估 AI 执行实际工作的能力，如撰写商业计划或分析财务数据。

背景阅读

AI 基准测试是评估和比较不同 AI 模型性能的关键工具，帮助开发者和企业选择适合的模型。传统基准如 MMLU-Pro 和 LiveCodeBench 主要测试模型在特定任务上的准确率，但随着 AI 技术的快速发展，这些测试逐渐饱和，顶级模型得分接近上限，难以区分优劣。近年来，行业开始转向更贴近实际应用的评估方法，强调模型在真实世界任务中的表现。例如，GDPval 数据集由 OpenAI 开发，旨在模拟经济中有价值的职业任务，推动 AI 评估从学术测试向实用能力转变。这种转变反映了 AI 领域从追求基准分数到关注实际应用价值的演进，有助于更准确地衡量模型的智能水平和商业潜力。

Artificial Analysis 全面改革 AI 智能指数，用真实世界测试取代传统基准

背景阅读

相关阅读

Cloudflare 收购 Human Native 以构建 AI 训练数据新支付模式

陶哲轩称GPT-5.2 Pro解决埃尔德什问题，强调速度而非难度

研究警告AI模型趋同或导致人类创造力同质化

评论 (0)