agent

技术22 篇资讯
2026年1月19日

CodeAgents + 结构化输出:提升AI代理执行效率的新方法

Hugging Face发布研究,结合代码代理与结构化生成,提升AI代理执行动作的可靠性。该方法强制代理以JSON格式生成思考和代码,在多个基准测试中表现优于传统方法。研究展示了如何通过结构化输出减少代码解析错误,提高代理的灵活性和效率。

20:49

Nous Research 发布 NousCoder-14B:基于 Qwen3-14B 的强化学习编程模型

Nous Research 发布了 NousCoder-14B,这是一个基于 Qwen3-14B 通过强化学习后训练的竞争性编程模型。在 LiveCodeBench v6 基准测试中,该模型达到 67.87% 的 Pass@1 准确率,比 Qwen3-14B 基线高出 7.08 个百分点。模型权重已在 Hugging Face 上以 Apache 2.0 许可证发布。

20:32

Consilium:多LLM协作平台在Hackathon中亮相

Consilium是一个多LLM协作平台,由开发者在Gradio Agents & MCP Hackathon中构建。它允许AI模型通过结构化辩论讨论复杂问题并达成共识。平台提供视觉Gradio界面和MCP服务器集成,支持多种决策模式。

09:29

NVIDIA AI-Q 在 DeepResearch Bench 评测中登顶开源模型榜首

NVIDIA 的 AI-Q 蓝本在 Hugging Face DeepResearch Bench 的“LLM with Search”排行榜中位列第一。AI-Q 融合了 Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5 两个开源大语言模型,支持长上下文检索和代理推理。该架构还包括 NVIDIA NeMo Retriever 和 NeMo Agent 工具包,用于可扩展的多模态搜索和复杂工作流编排。

09:25

Hugging Face 推出 Jupyter Agent:训练 LLM 在笔记本中执行代码推理

Hugging Face 发布了 Jupyter Agent,旨在训练大型语言模型在 Jupyter 笔记本环境中执行代码以解决数据科学任务。该项目基于 Qwen-3 Coder 模型构建演示,并利用 DABStep 基准评估模型性能。研究团队计划通过生成高质量训练数据和微调小模型来提升代理能力。

09:17

Gaia2与ARE框架发布,赋能社区评估AI智能体

Meta发布Gaia2智能体基准测试,用于评估复杂AI助手行为。Gaia2与ARE框架结合,模拟真实世界条件以测试智能体性能。该数据集和框架已开源,供社区使用和定制。

09:11

英特尔与Hugging Face合作加速Qwen3-8B智能体推理

英特尔与Hugging Face合作,在英特尔酷睿Ultra处理器上加速Qwen3-8B智能体模型。通过使用OpenVINO.GenAI和推测解码技术,结合轻量级Qwen3-0.6B草稿模型,推理速度提升约1.3倍。进一步应用深度剪枝优化草稿模型,速度提升达到约1.4倍,并集成smolagents框架实现本地AI智能体快速运行。

09:10
2026年1月13日

清华等机构开发AI自问自答学习系统,提升模型推理能力

清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员开发了名为Absolute Zero Reasoner的系统。该系统让AI模型通过生成并解决Python编程问题来自我学习,无需人类直接指导。实验显示,该方法显著提升了开源模型Qwen的编码和推理技能,甚至超越了部分依赖人类标注数据的模型。

22:32

ChatGPT 遭新数据窃取攻击,AI 安全陷入恶性循环

研究人员发现 ChatGPT 存在新漏洞 ZombieAgent,可窃取用户私人信息。该漏洞是之前 ShadowLeak 攻击的变种,绕过了 OpenAI 的防护措施。攻击能直接从 ChatGPT 服务器发送数据,并在 AI 助手的长期记忆中植入条目,具有持久性。

21:52

Anthropic 推出 Cowork 功能,为非编程用户带来 Claude 代理能力

Anthropic 为其 AI 助手 Claude 推出了名为 Cowork 的新功能,使非编程用户也能使用代理式工作流。该功能允许 Claude 访问本地文件夹,独立读取、编辑和创建文件,用于组织下载文件夹或从截图生成电子表格等任务。Cowork 基于 Claude Agent SDK 构建,支持外部数据源连接和浏览器访问,但存在文件删除或提示注入等安全风险。

20:29

SETA开源发布:终端智能体强化学习环境,含400任务与CAMEL工具包

CAMEL AI、Eigent AI等团队发布了SETA,这是一个专注于终端智能体强化学习的开源工具包和环境栈。SETA包含400个合成终端任务,用于训练和评估智能体在Unix风格shell中的操作能力。基于Claude Sonnet-4.5的智能体在Terminal Bench 2.0上达到46.5%准确率,表现领先。

18:21

阿里与武大提出Agentic Memory框架,统一LLM智能体长短时记忆管理

阿里与武大提出Agentic Memory框架,统一管理LLM智能体长短时记忆。该框架将记忆操作融入智能体策略,无需依赖手动规则或外部控制器。智能体可自主决策信息的存储、检索与遗忘。

11:45

谷歌推出通用商务协议,Gemini 将成一站式购物助手

谷歌推出通用商务协议,为AI代理商务建立全球标准。该协议已获得多家零售商和支付网络支持,用户可通过Gemini直接结账。谷歌还推出AI商业代理,允许用户在搜索中与品牌直接互动。

11:43