Anthropic 分析 Claude 实际失败率后,将 AI 生产力预测减半

4 天前·来源:The Decoder
AnthropicClaudeAI生产力经济指数任务成功率

Anthropic 发布第四份经济指数报告,首次系统分析 Claude 在不同任务中的实际成功率。报告基于 2025 年 11 月的 100 万次 Claude.ai 对话和 API 记录,显示任务越复杂,失败率越高。这导致 Anthropic 将之前对美国劳动生产力增长的预测从 1.8 个百分点下调至约 1.0 到 1.2 个百分点。

Anthropic 发布了第四份经济指数报告,这是首次系统分析 Claude 在不同任务中的实际成功率。该分析基于 2025 年 11 月的 100 万次 Claude.ai 对话和 100 万次 API 记录,时间点恰好在 Opus 4.5 发布之前。报告的核心是五个新的经济原语,这些基本指标通过 Claude 分析匿名记录生成,捕捉任务复杂性、所需教育水平、用例、AI 自主水平和任务成功率。

数据显示,复杂任务提供更大的时间节省,但 Claude 失败率更高。根据报告,对于一小时以下的任务,Claude 在 API 请求中的成功率约为 60%,而对于五小时以上的任务,成功率降至约 45%。50% 的成功率阈值估计在 3.5 小时的工作量处。Claude.ai 的情况不同:随着任务变长,成功率下降得更慢。Anthropic 估计 Claude.ai 在约 19 小时前不会低于 50%,研究人员将此差距归因于对话的多轮性质,用户可以进行修正和迭代。

新的成功率数据迫使 Anthropic 修订了之前的预测。在之前的分析中,公司估计广泛采用 AI 可能将美国年度劳动生产力增长提高 1.8 个百分点。根据成功率调整后,该估计降至约 1.0 到 1.2 个百分点。考虑到瓶颈效应,即 AI 无法加速的工作中必不可少的任务,估计影响进一步降至 0.6 到 0.8 个百分点。Anthropic 指出,即使每年一个百分点,十年后美国生产力增长也将回到 1990 年代末和 2000 年代初的水平。公司还预计未来模型将实现更高的成功率。

报告的一个关键发现涉及对工作概况的影响。数据显示,Claude 倾向于用于需要更高教育的任务,平均 14.4 年,相当于副学士学位,而美国经济中所有任务的平均为 13.2 年。当 AI 接管这些任务时,人类留下技能较低的工作,产生净去技能化效应。Anthropic 提供了具体例子:旅行社将失去规划任务给 AI,主要处理票务和支付处理。另一方面,物业经理将经历技能提升,因为会计任务消失,留下合同谈判和利益相关者管理。

分析还揭示了用户输入的教育水平与 Claude 响应质量之间的紧密联系。Anthropic 测量了两个方面:理解用户提示需要多少年正规教育,以及理解 Claude 响应需要多少年。这些值之间的相关系数超过 0.92,无论是在国家层面还是美国各州之间。实际上,用户提出复杂、技术精确的请求会得到相应复杂的答案,而提出简单问题则得到简单答案。Claude 动态调整其响应水平以匹配输入水平。Anthropic 表示,这具有深远影响:教育水平较高的国家可能从 AI 中受益更多。

背景阅读

Anthropic 是一家专注于 AI 安全的公司,成立于 2021 年,由前 OpenAI 研究人员创立,旨在开发更安全、更可靠的 AI 系统。其旗舰产品 Claude 是一个大型语言模型,与 OpenAI 的 ChatGPT 竞争,强调对齐和可解释性。AI 生产力预测是 AI 经济学中的一个关键领域,涉及评估 AI 如何影响经济增长和劳动力市场。此前,许多研究乐观估计 AI 能显著提升生产力,但缺乏基于实际使用数据的系统分析。Anthropic 的经济指数报告通过量化 Claude 的任务成功率,提供了更现实的视角,这有助于调整行业预期和政策制定。背景还包括 AI 模型的演进,如 Opus 4.5 的发布,以及 AI 在去技能化和技能提升方面的社会影响讨论。

评论 (0)

登录后参与评论

加载评论中...