AprielGuard:现代LLM系统的安全与对抗鲁棒性护栏模型

2 天前·来源:Hugging Face Blog
AI安全LLM对抗鲁棒性ServiceNow AI

ServiceNow AI发布了AprielGuard,这是一个80亿参数的安全防护模型。该模型旨在检测16类安全风险和多种对抗攻击,适用于多轮对话和代理工作流。AprielGuard提供推理和非推理两种模式,已在Hugging Face和arXiv上公开。

ServiceNow AI发布了AprielGuard,这是一个80亿参数的安全防护模型,专门为现代大型语言模型(LLM)系统设计。该模型旨在检测16类安全风险,包括毒性、仇恨、性内容、错误信息、自残和非法活动等。同时,AprielGuard能够识别多种对抗攻击,如提示注入、越狱、思维链破坏、上下文劫持、内存中毒和多代理利用序列。

AprielGuard支持三种输入格式:独立提示、多轮对话和代理工作流(包括工具调用、推理痕迹、内存和系统上下文)。模型输出包括安全分类、违反的分类列表、对抗攻击分类,以及可选的解释性推理。该模型提供推理和非推理两种模式,推理模式用于可解释分类,非推理模式适用于生产管道的低延迟分类。

AprielGuard的模型文件已在Hugging Face上发布,技术论文可在arXiv获取。该模型旨在解决传统安全分类器的局限性,传统方法通常只关注有限分类谱系,假设短输入,并评估单条用户消息。现代LLM部署涉及多轮对话、长上下文、结构化推理步骤和工具辅助工作流,AprielGuard通过统一模型和统一的安全与对抗分类法来应对这些挑战。

背景阅读

大型语言模型(LLM)已从纯文本助手演变为复杂的代理系统,能够执行多步推理、调用外部工具、检索内存和运行代码。随着这一演变,威胁环境也变得更加复杂,不仅包括传统的内容安全风险,还涉及多轮越狱、提示注入、内存劫持和工具操纵等对抗攻击。传统安全分类器通常专注于有限分类(如毒性或自残),并假设短输入和单条消息评估,难以适应现代LLM系统的多模态和动态特性。 在AI安全领域,对抗鲁棒性已成为关键挑战,攻击者通过精心设计的提示来绕过模型的安全机制。例如,提示注入攻击试图操纵模型输出,而越狱攻击则旨在突破内容限制。ServiceNow AI开发的AprielGuard模型,通过整合安全与对抗分类法,提供了一种统一解决方案,以增强LLM系统在复杂工作流中的防护能力。该模型的发布反映了AI行业对安全性和鲁棒性的日益重视,特别是在企业级应用中。

评论 (0)

登录后参与评论

加载评论中...