NeoBeta - AI 科技资讯

Anthropic 发布了第四份经济指数报告，这是首次系统分析 Claude 在不同任务中的实际成功率。该分析基于 2025 年 11 月的 100 万次 Claude.ai 对话和 100 万次 API 记录，时间点恰好在 Opus 4.5 发布之前。报告的核心是五个新的经济原语，这些基本指标通过 Claude 分析匿名记录生成，捕捉任务复杂性、所需教育水平、用例、AI 自主水平和任务成功率。

数据显示，复杂任务提供更大的时间节省，但 Claude 失败率更高。根据报告，对于一小时以下的任务，Claude 在 API 请求中的成功率约为 60%，而对于五小时以上的任务，成功率降至约 45%。50% 的成功率阈值估计在 3.5 小时的工作量处。Claude.ai 的情况不同：随着任务变长，成功率下降得更慢。Anthropic 估计 Claude.ai 在约 19 小时前不会低于 50%，研究人员将此差距归因于对话的多轮性质，用户可以进行修正和迭代。

新的成功率数据迫使 Anthropic 修订了之前的预测。在之前的分析中，公司估计广泛采用 AI 可能将美国年度劳动生产力增长提高 1.8 个百分点。根据成功率调整后，该估计降至约 1.0 到 1.2 个百分点。考虑到瓶颈效应，即 AI 无法加速的工作中必不可少的任务，估计影响进一步降至 0.6 到 0.8 个百分点。Anthropic 指出，即使每年一个百分点，十年后美国生产力增长也将回到 1990 年代末和 2000 年代初的水平。公司还预计未来模型将实现更高的成功率。

报告的一个关键发现涉及对工作概况的影响。数据显示，Claude 倾向于用于需要更高教育的任务，平均 14.4 年，相当于副学士学位，而美国经济中所有任务的平均为 13.2 年。当 AI 接管这些任务时，人类留下技能较低的工作，产生净去技能化效应。Anthropic 提供了具体例子：旅行社将失去规划任务给 AI，主要处理票务和支付处理。另一方面，物业经理将经历技能提升，因为会计任务消失，留下合同谈判和利益相关者管理。

分析还揭示了用户输入的教育水平与 Claude 响应质量之间的紧密联系。Anthropic 测量了两个方面：理解用户提示需要多少年正规教育，以及理解 Claude 响应需要多少年。这些值之间的相关系数超过 0.92，无论是在国家层面还是美国各州之间。实际上，用户提出复杂、技术精确的请求会得到相应复杂的答案，而提出简单问题则得到简单答案。Claude 动态调整其响应水平以匹配输入水平。Anthropic 表示，这具有深远影响：教育水平较高的国家可能从 AI 中受益更多。

Anthropic 分析 Claude 实际失败率后，将 AI 生产力预测减半

背景阅读

相关阅读

Anthropic Cowork AI 存在文件泄露漏洞，源于未修复的 Claude Code 缺陷

Anthropic任命前微软印度总经理领导班加罗尔扩张

Anthropic 发布 Claude Cowork AI 代理，实现文件管理与任务自动化

评论 (0)