近年来,LLM多智能体系统因其协作解决复杂问题的方式受到广泛关注。然而,这些系统在任务失败时,开发者难以确定是哪个智能体在何时导致了失败。宾州州立大学和杜克大学的研究人员,与Google DeepMind等机构合作,引入了自动故障归因这一新研究问题。他们构建了首个基准数据集Who&When,并开发和评估了多种自动归因方法。该论文已被ICML 2025接收为亮点报告,代码和数据集已开源。
宾州州立大学和杜克大学的研究人员提出了自动故障归因新问题。他们构建了首个基准数据集Who&When,并开发了多种自动归因方法。该论文已被顶级机器学习会议ICML 2025接收为亮点报告。
近年来,LLM多智能体系统因其协作解决复杂问题的方式受到广泛关注。然而,这些系统在任务失败时,开发者难以确定是哪个智能体在何时导致了失败。宾州州立大学和杜克大学的研究人员,与Google DeepMind等机构合作,引入了自动故障归因这一新研究问题。他们构建了首个基准数据集Who&When,并开发和评估了多种自动归因方法。该论文已被ICML 2025接收为亮点报告,代码和数据集已开源。
LLM驱动的多智能体系统在许多领域展现出巨大潜力,但系统脆弱,单个智能体的错误、智能体间的误解或信息传递失误都可能导致整个任务失败。目前,当系统失败时,开发者通常依赖手动调试方法,如审查冗长的交互日志,这效率低下且依赖专业知识,阻碍了系统迭代和可靠性提升。自动故障归因旨在识别导致任务失败的智能体和关键错误步骤,以填补评估结果与系统改进之间的空白。这项研究首次形式化了该问题,并提供了基准数据集,为提升多智能体系统可靠性开辟了新路径。
Meta发布Gaia2智能体基准测试,用于评估复杂AI助手行为。Gaia2与ARE框架结合,模拟真实世界条件以测试智能体性能。该数据集和框架已开源,供社区使用和定制。
Hugging Face 发布了 Jupyter Agent,旨在训练大型语言模型在 Jupyter 笔记本环境中执行代码以解决数据科学任务。该项目基于 Qwen-3 Coder 模型构建演示,并利用 DABStep 基准评估模型性能。研究团队计划通过生成高质量训练数据和微调小模型来提升代理能力。
英特尔与Hugging Face合作,在英特尔酷睿Ultra处理器上加速Qwen3-8B智能体模型。通过使用OpenVINO.GenAI和推测解码技术,结合轻量级Qwen3-0.6B草稿模型,推理速度提升约1.3倍。进一步应用深度剪枝优化草稿模型,速度提升达到约1.4倍,并集成smolagents框架实现本地AI智能体快速运行。
登录后参与评论