Meta 在 Hugging Face Hub 发布了 Llama Guard 4,这是一个 120 亿参数的密集多模态安全模型,以及两个新的 Llama Prompt Guard 2 模型。Llama Guard 4 设计用于检测图像和文本中的不当内容,无论是作为输入还是模型生成的输出。它是一个从 Llama 4 Scout 模型修剪而来的密集模型,可以在单个 GPU 上运行,需要 24 GB 的 VRAM。该模型可以评估纯文本和图像加文本输入,适用于过滤大型语言模型的输入和输出。它支持多语言理解,并能分类 MLCommons 危险分类法中定义的 14 种危险类型,以及代码解释器滥用。模型检查点可在 Llama 4 集合中找到,并附带一个交互式笔记本以便用户轻松开始使用。Llama Guard 4 采用密集前馈早期融合架构,通过移除所有路由专家和路由器层,从预训练的共享专家权重初始化,无需额外预训练。训练数据包括最多 5 张图像的多图像训练数据和人类注释的多语言数据,文本与多模态数据比例为 3:1。性能方面,Llama Guard 4 在英语、多语言、单图像和多图像任务上相比 Llama Guard 3 有改进,例如英语 F1 分数提高 8%,多图像 F1 分数提高 17%。Llama Prompt Guard 2 系列引入了两个新分类器,参数分别为 8600 万和 2200 万,专注于检测提示注入和越狱攻击。