PSU与杜克大学研究LLM多智能体系统自动故障归因

1 天前·来源：Synced

LLM多智能体故障归因ICML 2025基准数据集自动调试

宾州州立大学和杜克大学的研究人员提出了自动故障归因新问题。他们构建了首个基准数据集Who&When，并开发了多种自动归因方法。该论文已被顶级机器学习会议ICML 2025接收为亮点报告。

近年来，LLM多智能体系统因其协作解决复杂问题的方式受到广泛关注。然而，这些系统在任务失败时，开发者难以确定是哪个智能体在何时导致了失败。宾州州立大学和杜克大学的研究人员，与Google DeepMind等机构合作，引入了自动故障归因这一新研究问题。他们构建了首个基准数据集Who&When，并开发和评估了多种自动归因方法。该论文已被ICML 2025接收为亮点报告，代码和数据集已开源。

阅读原文

背景阅读

LLM驱动的多智能体系统在许多领域展现出巨大潜力，但系统脆弱，单个智能体的错误、智能体间的误解或信息传递失误都可能导致整个任务失败。目前，当系统失败时，开发者通常依赖手动调试方法，如审查冗长的交互日志，这效率低下且依赖专业知识，阻碍了系统迭代和可靠性提升。自动故障归因旨在识别导致任务失败的智能体和关键错误步骤，以填补评估结果与系统改进之间的空白。这项研究首次形式化了该问题，并提供了基准数据集，为提升多智能体系统可靠性开辟了新路径。

PSU与杜克大学研究LLM多智能体系统自动故障归因

背景阅读

相关阅读

Gaia2与ARE框架发布，赋能社区评估AI智能体

Hugging Face 推出 Jupyter Agent：训练 LLM 在笔记本中执行代码推理

英特尔与Hugging Face合作加速Qwen3-8B智能体推理

评论 (0)