Datadog 是一家负责全球复杂基础设施可观测性的公司,其 AI 开发体验团队集成了 OpenAI 的 Codex,旨在自动化检测人类审查员常遗漏的风险。该团队将新代理直接集成到最活跃的代码仓库工作流中,使其能自动审查每个拉取请求。与静态分析工具不同,该系统对比开发者意图与实际代码提交,并执行测试以验证行为。
Datadog 创建了一个“事故回放框架”,用历史中断事件测试该工具,而非依赖假设测试案例。团队重建了已知导致事故的过去拉取请求,然后运行 AI 代理分析这些特定变更,以确定其是否会标记人类在代码审查中遗漏的问题。结果显示,代理识别出超过 10 起案例(约占检查事故的 22%),其反馈本可预防错误。这些拉取请求已通过人类审查,表明 AI 揭示了当时工程师未察觉的风险。
该技术已部署给超过 1000 名工程师,影响了组织内的代码审查文化。AI 作为合作伙伴处理跨服务交互的认知负荷,而非取代人类元素。工程师报告系统持续标记出从即时代码差异中不明显的问題,例如跨服务耦合中缺失的测试覆盖。