Meta 在 Hugging Face Hub 发布 Llama Guard 4 安全模型

7 小时前·来源:Hugging Face Blog
MetaLlama Guard 4AI安全多模态模型Hugging Face

Meta 发布了 Llama Guard 4,这是一个 120 亿参数的多模态安全模型。该模型旨在检测图像和文本中的不当内容,支持多语言输入。同时发布的还有两个新的 Llama Prompt Guard 2 模型,专注于检测提示注入和越狱攻击。

Meta 在 Hugging Face Hub 发布了 Llama Guard 4,这是一个 120 亿参数的密集多模态安全模型,以及两个新的 Llama Prompt Guard 2 模型。Llama Guard 4 设计用于检测图像和文本中的不当内容,无论是作为输入还是模型生成的输出。它是一个从 Llama 4 Scout 模型修剪而来的密集模型,可以在单个 GPU 上运行,需要 24 GB 的 VRAM。该模型可以评估纯文本和图像加文本输入,适用于过滤大型语言模型的输入和输出。它支持多语言理解,并能分类 MLCommons 危险分类法中定义的 14 种危险类型,以及代码解释器滥用。模型检查点可在 Llama 4 集合中找到,并附带一个交互式笔记本以便用户轻松开始使用。Llama Guard 4 采用密集前馈早期融合架构,通过移除所有路由专家和路由器层,从预训练的共享专家权重初始化,无需额外预训练。训练数据包括最多 5 张图像的多图像训练数据和人类注释的多语言数据,文本与多模态数据比例为 3:1。性能方面,Llama Guard 4 在英语、多语言、单图像和多图像任务上相比 Llama Guard 3 有改进,例如英语 F1 分数提高 8%,多图像 F1 分数提高 17%。Llama Prompt Guard 2 系列引入了两个新分类器,参数分别为 8600 万和 2200 万,专注于检测提示注入和越狱攻击。

背景阅读

Llama Guard 4 是 Meta 推出的最新安全模型,属于 Llama 系列的一部分,旨在应对 AI 模型在生产环境中可能生成不安全内容的风险。随着大型语言模型和视觉模型的广泛应用,用户可能通过越狱图像和文本提示来诱导模型产生有害、不当或侵犯隐私的输出。安全模型如 Llama Guard 4 通过评估输入和输出内容,帮助过滤这些不安全内容,确保 AI 系统的负责任部署。此前,Meta 已发布 Llama Guard 3 等模型,专注于文本安全,而 Llama Guard 4 扩展为多模态,支持图像和文本的联合分析。MLCommons 危险分类法为 AI 安全提供了标准化框架,定义了包括暴力犯罪、仇恨言论、隐私侵犯等在内的多种危险类型。多模态安全模型的发展反映了 AI 行业对伦理和安全问题的日益重视,特别是在生成式 AI 快速普及的背景下。

评论 (0)

登录后参与评论

加载评论中...