agent
技术22 篇资讯Google Cloud Next 2025 发布多项 AI 新功能
Google Cloud Next 2025 大会宣布多项 AI 更新。Ironwood TPU 提供五倍计算能力和六倍内存容量。Vertex AI 新增 Lyria 模型,支持视频、图像、语音和音乐生成。Gemini 2.5 Flash 模型即将在 Vertex AI 上线。
超参数科技推出COTA游戏智能体,由大模型驱动实现实时决策
超参数科技发布了全新游戏智能体COTA,该产品由大模型原生驱动。COTA在FPS游戏中实现了实时高频决策,推理链路全程清晰可见。它通过模拟人类快慢思考过程,在复杂游戏场景中表现出职业级水准。
CodeAgents + 结构化输出:提升AI代理执行效率的新方法
Hugging Face发布研究,结合代码代理与结构化生成,提升AI代理执行动作的可靠性。该方法强制代理以JSON格式生成思考和代码,在多个基准测试中表现优于传统方法。研究展示了如何通过结构化输出减少代码解析错误,提高代理的灵活性和效率。
Nous Research 发布 NousCoder-14B:基于 Qwen3-14B 的强化学习编程模型
Nous Research 发布了 NousCoder-14B,这是一个基于 Qwen3-14B 通过强化学习后训练的竞争性编程模型。在 LiveCodeBench v6 基准测试中,该模型达到 67.87% 的 Pass@1 准确率,比 Qwen3-14B 基线高出 7.08 个百分点。模型权重已在 Hugging Face 上以 Apache 2.0 许可证发布。
Consilium:多LLM协作平台在Hackathon中亮相
Consilium是一个多LLM协作平台,由开发者在Gradio Agents & MCP Hackathon中构建。它允许AI模型通过结构化辩论讨论复杂问题并达成共识。平台提供视觉Gradio界面和MCP服务器集成,支持多种决策模式。
NVIDIA AI-Q 在 DeepResearch Bench 评测中登顶开源模型榜首
NVIDIA 的 AI-Q 蓝本在 Hugging Face DeepResearch Bench 的“LLM with Search”排行榜中位列第一。AI-Q 融合了 Llama 3.3-70B Instruct 和 Llama-3.3-Nemotron-Super-49B-v1.5 两个开源大语言模型,支持长上下文检索和代理推理。该架构还包括 NVIDIA NeMo Retriever 和 NeMo Agent 工具包,用于可扩展的多模态搜索和复杂工作流编排。
Hugging Face 推出 Jupyter Agent:训练 LLM 在笔记本中执行代码推理
Hugging Face 发布了 Jupyter Agent,旨在训练大型语言模型在 Jupyter 笔记本环境中执行代码以解决数据科学任务。该项目基于 Qwen-3 Coder 模型构建演示,并利用 DABStep 基准评估模型性能。研究团队计划通过生成高质量训练数据和微调小模型来提升代理能力。
Gaia2与ARE框架发布,赋能社区评估AI智能体
Meta发布Gaia2智能体基准测试,用于评估复杂AI助手行为。Gaia2与ARE框架结合,模拟真实世界条件以测试智能体性能。该数据集和框架已开源,供社区使用和定制。
英特尔与Hugging Face合作加速Qwen3-8B智能体推理
英特尔与Hugging Face合作,在英特尔酷睿Ultra处理器上加速Qwen3-8B智能体模型。通过使用OpenVINO.GenAI和推测解码技术,结合轻量级Qwen3-0.6B草稿模型,推理速度提升约1.3倍。进一步应用深度剪枝优化草稿模型,速度提升达到约1.4倍,并集成smolagents框架实现本地AI智能体快速运行。
Marktechpost发布AI2025Dev平台,为AI模型与生态提供结构化数据层
AI新闻平台Marktechpost推出了AI2025Dev分析平台,无需注册即可访问。该平台将2025年AI活动转化为可查询数据集,涵盖模型发布、开放程度、训练规模等维度。平台包含发布分析、生态系统指数和关键发现等结构化数据层。
AI聊天机器人实验显示可为保险代理人每天节省3分钟
达科他州立大学与Safety Insurance合作开发了基于Google Gemini的聊天机器人Axlerod。该机器人能帮助汽车保险代理人平均节省2.42秒的搜索任务时间。研究人员评估了其成本效益,但实际投资回报取决于使用场景。
OpenAI、谷歌和Anthropic相继推出医疗AI工具,竞争加剧
OpenAI、谷歌和Anthropic本月相继发布医疗AI工具,包括ChatGPT Health、MedGemma 1.5和Claude for Healthcare。这些工具专注于医疗工作流程优化,如授权审核和文档处理,但均未获批用于临床诊断。它们基于多模态大语言模型,强调隐私保护和辅助临床决策。
德国电信部署 Elevenlabs AI 语音助手处理客户来电
德国电信将使用 Elevenlabs 的 AI 语音助手处理客户服务。客户可通过应用或电话全天候与逼真的 AI 语音对话。该 AI 助手能解决约 80% 的查询,复杂问题仍需人工支持。
清华等机构开发AI自问自答学习系统,提升模型推理能力
清华大学、北京通用人工智能研究院和宾夕法尼亚州立大学的研究人员开发了名为Absolute Zero Reasoner的系统。该系统让AI模型通过生成并解决Python编程问题来自我学习,无需人类直接指导。实验显示,该方法显著提升了开源模型Qwen的编码和推理技能,甚至超越了部分依赖人类标注数据的模型。
ChatGPT 遭新数据窃取攻击,AI 安全陷入恶性循环
研究人员发现 ChatGPT 存在新漏洞 ZombieAgent,可窃取用户私人信息。该漏洞是之前 ShadowLeak 攻击的变种,绕过了 OpenAI 的防护措施。攻击能直接从 ChatGPT 服务器发送数据,并在 AI 助手的长期记忆中植入条目,具有持久性。
Anthropic 推出 Cowork 功能,为非编程用户带来 Claude 代理能力
Anthropic 为其 AI 助手 Claude 推出了名为 Cowork 的新功能,使非编程用户也能使用代理式工作流。该功能允许 Claude 访问本地文件夹,独立读取、编辑和创建文件,用于组织下载文件夹或从截图生成电子表格等任务。Cowork 基于 Claude Agent SDK 构建,支持外部数据源连接和浏览器访问,但存在文件删除或提示注入等安全风险。
SETA开源发布:终端智能体强化学习环境,含400任务与CAMEL工具包
CAMEL AI、Eigent AI等团队发布了SETA,这是一个专注于终端智能体强化学习的开源工具包和环境栈。SETA包含400个合成终端任务,用于训练和评估智能体在Unix风格shell中的操作能力。基于Claude Sonnet-4.5的智能体在Terminal Bench 2.0上达到46.5%准确率,表现领先。
阿里与武大提出Agentic Memory框架,统一LLM智能体长短时记忆管理
阿里与武大提出Agentic Memory框架,统一管理LLM智能体长短时记忆。该框架将记忆操作融入智能体策略,无需依赖手动规则或外部控制器。智能体可自主决策信息的存储、检索与遗忘。
谷歌推出通用商务协议,Gemini 将成一站式购物助手
谷歌推出通用商务协议,为AI代理商务建立全球标准。该协议已获得多家零售商和支付网络支持,用户可通过Gemini直接结账。谷歌还推出AI商业代理,允许用户在搜索中与品牌直接互动。