ServiceNow AI发布了AprielGuard,这是一个80亿参数的安全防护模型,专门为现代大型语言模型(LLM)系统设计。该模型旨在检测16类安全风险,包括毒性、仇恨、性内容、错误信息、自残和非法活动等。同时,AprielGuard能够识别多种对抗攻击,如提示注入、越狱、思维链破坏、上下文劫持、内存中毒和多代理利用序列。
AprielGuard支持三种输入格式:独立提示、多轮对话和代理工作流(包括工具调用、推理痕迹、内存和系统上下文)。模型输出包括安全分类、违反的分类列表、对抗攻击分类,以及可选的解释性推理。该模型提供推理和非推理两种模式,推理模式用于可解释分类,非推理模式适用于生产管道的低延迟分类。
AprielGuard的模型文件已在Hugging Face上发布,技术论文可在arXiv获取。该模型旨在解决传统安全分类器的局限性,传统方法通常只关注有限分类谱系,假设短输入,并评估单条用户消息。现代LLM部署涉及多轮对话、长上下文、结构化推理步骤和工具辅助工作流,AprielGuard通过统一模型和统一的安全与对抗分类法来应对这些挑战。