NeoBeta - AI 科技资讯

Meta 在 Hugging Face Hub 发布了 Llama Guard 4，这是一个 120 亿参数的密集多模态安全模型，以及两个新的 Llama Prompt Guard 2 模型。Llama Guard 4 设计用于检测图像和文本中的不当内容，无论是作为输入还是模型生成的输出。它是一个从 Llama 4 Scout 模型修剪而来的密集模型，可以在单个 GPU 上运行，需要 24 GB 的 VRAM。该模型可以评估纯文本和图像加文本输入，适用于过滤大型语言模型的输入和输出。它支持多语言理解，并能分类 MLCommons 危险分类法中定义的 14 种危险类型，以及代码解释器滥用。模型检查点可在 Llama 4 集合中找到，并附带一个交互式笔记本以便用户轻松开始使用。Llama Guard 4 采用密集前馈早期融合架构，通过移除所有路由专家和路由器层，从预训练的共享专家权重初始化，无需额外预训练。训练数据包括最多 5 张图像的多图像训练数据和人类注释的多语言数据，文本与多模态数据比例为 3:1。性能方面，Llama Guard 4 在英语、多语言、单图像和多图像任务上相比 Llama Guard 3 有改进，例如英语 F1 分数提高 8%，多图像 F1 分数提高 17%。Llama Prompt Guard 2 系列引入了两个新分类器，参数分别为 8600 万和 2200 万，专注于检测提示注入和越狱攻击。

背景阅读

Llama Guard 4 是 Meta 推出的最新安全模型，属于 Llama 系列的一部分，旨在应对 AI 模型在生产环境中可能生成不安全内容的风险。随着大型语言模型和视觉模型的广泛应用，用户可能通过越狱图像和文本提示来诱导模型产生有害、不当或侵犯隐私的输出。安全模型如 Llama Guard 4 通过评估输入和输出内容，帮助过滤这些不安全内容，确保 AI 系统的负责任部署。此前，Meta 已发布 Llama Guard 3 等模型，专注于文本安全，而 Llama Guard 4 扩展为多模态，支持图像和文本的联合分析。MLCommons 危险分类法为 AI 安全提供了标准化框架，定义了包括暴力犯罪、仇恨言论、隐私侵犯等在内的多种危险类型。多模态安全模型的发展反映了 AI 行业对伦理和安全问题的日益重视，特别是在生成式 AI 快速普及的背景下。

Meta 在 Hugging Face Hub 发布 Llama Guard 4 安全模型

背景阅读

相关阅读

谷歌发布白皮书详述Gemini 2.5安全防护策略

微软与Hugging Face深化合作，在Azure上简化开源模型部署

Hugging Face 推出高速 Whisper 转录推理端点

评论 (0)