NeoBeta - AI 科技资讯

ServiceNow AI发布了AprielGuard，这是一个80亿参数的安全防护模型，专门为现代大型语言模型（LLM）系统设计。该模型旨在检测16类安全风险，包括毒性、仇恨、性内容、错误信息、自残和非法活动等。同时，AprielGuard能够识别多种对抗攻击，如提示注入、越狱、思维链破坏、上下文劫持、内存中毒和多代理利用序列。

AprielGuard支持三种输入格式：独立提示、多轮对话和代理工作流（包括工具调用、推理痕迹、内存和系统上下文）。模型输出包括安全分类、违反的分类列表、对抗攻击分类，以及可选的解释性推理。该模型提供推理和非推理两种模式，推理模式用于可解释分类，非推理模式适用于生产管道的低延迟分类。

AprielGuard的模型文件已在Hugging Face上发布，技术论文可在arXiv获取。该模型旨在解决传统安全分类器的局限性，传统方法通常只关注有限分类谱系，假设短输入，并评估单条用户消息。现代LLM部署涉及多轮对话、长上下文、结构化推理步骤和工具辅助工作流，AprielGuard通过统一模型和统一的安全与对抗分类法来应对这些挑战。

背景阅读

大型语言模型（LLM）已从纯文本助手演变为复杂的代理系统，能够执行多步推理、调用外部工具、检索内存和运行代码。随着这一演变，威胁环境也变得更加复杂，不仅包括传统的内容安全风险，还涉及多轮越狱、提示注入、内存劫持和工具操纵等对抗攻击。传统安全分类器通常专注于有限分类（如毒性或自残），并假设短输入和单条消息评估，难以适应现代LLM系统的多模态和动态特性。在AI安全领域，对抗鲁棒性已成为关键挑战，攻击者通过精心设计的提示来绕过模型的安全机制。例如，提示注入攻击试图操纵模型输出，而越狱攻击则旨在突破内容限制。ServiceNow AI开发的AprielGuard模型，通过整合安全与对抗分类法，提供了一种统一解决方案，以增强LLM系统在复杂工作流中的防护能力。该模型的发布反映了AI行业对安全性和鲁棒性的日益重视，特别是在企业级应用中。

AprielGuard：现代LLM系统的安全与对抗鲁棒性护栏模型

背景阅读

相关阅读

英国律师协会：现行法律足以应对AI时代

Anthropic 发布 Claude Cowork，AI 代理可管理本地文件系统

Claude Cowork发布数天后遭文件窃取提示注入攻击

评论 (0)