Anthropic 发布了第四份经济指数报告,这是首次系统分析 Claude 在不同任务中的实际成功率。该分析基于 2025 年 11 月的 100 万次 Claude.ai 对话和 100 万次 API 记录,时间点恰好在 Opus 4.5 发布之前。报告的核心是五个新的经济原语,这些基本指标通过 Claude 分析匿名记录生成,捕捉任务复杂性、所需教育水平、用例、AI 自主水平和任务成功率。
数据显示,复杂任务提供更大的时间节省,但 Claude 失败率更高。根据报告,对于一小时以下的任务,Claude 在 API 请求中的成功率约为 60%,而对于五小时以上的任务,成功率降至约 45%。50% 的成功率阈值估计在 3.5 小时的工作量处。Claude.ai 的情况不同:随着任务变长,成功率下降得更慢。Anthropic 估计 Claude.ai 在约 19 小时前不会低于 50%,研究人员将此差距归因于对话的多轮性质,用户可以进行修正和迭代。
新的成功率数据迫使 Anthropic 修订了之前的预测。在之前的分析中,公司估计广泛采用 AI 可能将美国年度劳动生产力增长提高 1.8 个百分点。根据成功率调整后,该估计降至约 1.0 到 1.2 个百分点。考虑到瓶颈效应,即 AI 无法加速的工作中必不可少的任务,估计影响进一步降至 0.6 到 0.8 个百分点。Anthropic 指出,即使每年一个百分点,十年后美国生产力增长也将回到 1990 年代末和 2000 年代初的水平。公司还预计未来模型将实现更高的成功率。
报告的一个关键发现涉及对工作概况的影响。数据显示,Claude 倾向于用于需要更高教育的任务,平均 14.4 年,相当于副学士学位,而美国经济中所有任务的平均为 13.2 年。当 AI 接管这些任务时,人类留下技能较低的工作,产生净去技能化效应。Anthropic 提供了具体例子:旅行社将失去规划任务给 AI,主要处理票务和支付处理。另一方面,物业经理将经历技能提升,因为会计任务消失,留下合同谈判和利益相关者管理。
分析还揭示了用户输入的教育水平与 Claude 响应质量之间的紧密联系。Anthropic 测量了两个方面:理解用户提示需要多少年正规教育,以及理解 Claude 响应需要多少年。这些值之间的相关系数超过 0.92,无论是在国家层面还是美国各州之间。实际上,用户提出复杂、技术精确的请求会得到相应复杂的答案,而提出简单问题则得到简单答案。Claude 动态调整其响应水平以匹配输入水平。Anthropic 表示,这具有深远影响:教育水平较高的国家可能从 AI 中受益更多。