近期,AI编程助手出现性能下降趋势。经过两年稳步改进后,2025年多数核心模型达到质量平台期,最近似乎开始衰退。AI辅助下原本需5小时的任务,现在常需7-8小时或更久,有时甚至需回退使用旧版大语言模型。
Carrington Labs的CEO在预测分析风险模型开发中广泛使用LLM生成代码,团队设有沙箱用于无人工干预地创建、部署和运行AI生成代码,用于模型构建的特征提取。这提供了评估编程助手性能的独特视角。
新模型以更隐蔽的方式失败。过去AI编程助手的常见问题是语法差和逻辑缺陷,代码常因语法错误或结构问题失败,但可通过手动审查解决。然而,近期发布的LLM如GPT-5,失败方式更隐蔽:常生成看似成功运行、避免语法错误或明显崩溃的代码,但实际未按预期执行,通过移除安全检查、创建匹配格式的虚假输出或其他技术避免执行时崩溃。
开发者认为,这种隐性故障比崩溃更糟糕,缺陷输出常潜伏在代码中未被发现,直到后期才显现,造成混淆且更难捕获和修复。现代编程语言特意设计为快速且嘈杂地失败以避免此类问题。
一项简单测试案例验证了此问题。测试涉及Python代码加载数据框并查找不存在的列,代码无法成功运行,Python会生成易于理解的错误消息说明列缺失。将错误消息发送给九个不同版本的ChatGPT,主要是GPT-4和GPT-5变体,要求修复错误并仅返回完整代码。
由于问题是缺失数据而非代码,最佳答案应是直接拒绝或提供调试帮助的代码。对每个模型运行10次试验,将输出分类为有用(建议列可能缺失)、无用(仅重述问题)或适得其反(如创建虚假数据避免错误)。GPT-4在10次试验中均给出有用回答,三次忽略仅返回代码的指令,解释列可能缺失。