Llama 4 Maverick 和 Scout 模型在 Hugging Face 发布

7 小时前·来源:Hugging Face Blog
MetaLlama 4大型语言模型混合专家架构多模态AI

Meta 在 Hugging Face 上发布了 Llama 4 Maverick 和 Scout 两款大型语言模型。这两款模型均采用混合专家架构,支持原生多模态处理,并已集成到 Hugging Face 生态系统中。Llama 4 Scout 设计为可在单 GPU 上部署,而 Maverick 提供 BF16 和 FP8 格式,适用于不同硬件需求。

Meta 在 Hugging Face Hub 上发布了 Llama 4 Maverick 和 Llama 4 Scout 两款大型语言模型。Llama 4 Maverick 总参数量约 4000 亿,活跃参数 170 亿,拥有 128 个专家;Llama 4 Scout 总参数量约 1090 亿,活跃参数 170 亿,使用 16 个专家。两款模型均采用混合专家架构,支持原生多模态处理,能够同时处理文本和图像输入。它们基于包含 200 种语言的数据训练,总 token 数达 40 万亿,并对包括阿拉伯语、西班牙语、德语和印地语在内的 12 种语言提供特定微调支持。

Llama 4 Scout 设计为可在单服务器级 GPU 上部署,支持动态 4 位或 8 位量化;Llama 4 Maverick 则提供 BF16 和 FP8 格式。两款模型已集成到 Hugging Face 生态系统中,包括 transformers 库和文本生成推理服务。transformers 库从版本 v4.51.0 开始支持 Llama 4 模型,提供加载、推理和微调功能,并支持多模态能力和下游库如 TRL。文本生成推理服务为两款模型提供优化部署,支持高吞吐量文本生成。

Hugging Face 还提供了量化支持,为 Scout 提供动态 int4 量化代码,以减少性能损失并支持小硬件部署;Maverick 包含 FP8 量化权重,适用于兼容硬件。所有 Llama 4 模型使用 Xet 存储后端,实现约 25% 的去重率,提高上传和下载速度。衍生模型如微调或量化版本的去重率可达约 40%,节省社区时间和带宽。模型权重可在 Hugging Face Hub 的 meta-llama 组织下访问,需在模型卡片上接受许可条款。

背景阅读

Llama 系列是 Meta 开发的大型语言模型家族,自 Llama 1 发布以来,已成为开源 AI 社区的重要力量。Llama 2 和 Llama 3 在性能和可访问性上取得显著进展,广泛应用于研究和商业场景。混合专家架构是一种高效模型设计,通过激活部分参数处理不同任务,降低计算成本,同时保持高性能。原生多模态能力允许模型直接处理多种数据类型,如文本和图像,无需额外转换步骤,提升应用灵活性。Hugging Face 作为领先的 AI 模型平台,提供模型托管、库集成和部署工具,支持开发者快速构建和部署 AI 应用。Llama 4 的发布进一步推动了开源 AI 模型的发展,为社区提供更强大的工具。

评论 (0)

登录后参与评论

加载评论中...