Meta 在 Hugging Face Hub 上发布了 Llama 4 Maverick 和 Llama 4 Scout 两款大型语言模型。Llama 4 Maverick 总参数量约 4000 亿,活跃参数 170 亿,拥有 128 个专家;Llama 4 Scout 总参数量约 1090 亿,活跃参数 170 亿,使用 16 个专家。两款模型均采用混合专家架构,支持原生多模态处理,能够同时处理文本和图像输入。它们基于包含 200 种语言的数据训练,总 token 数达 40 万亿,并对包括阿拉伯语、西班牙语、德语和印地语在内的 12 种语言提供特定微调支持。
Llama 4 Scout 设计为可在单服务器级 GPU 上部署,支持动态 4 位或 8 位量化;Llama 4 Maverick 则提供 BF16 和 FP8 格式。两款模型已集成到 Hugging Face 生态系统中,包括 transformers 库和文本生成推理服务。transformers 库从版本 v4.51.0 开始支持 Llama 4 模型,提供加载、推理和微调功能,并支持多模态能力和下游库如 TRL。文本生成推理服务为两款模型提供优化部署,支持高吞吐量文本生成。
Hugging Face 还提供了量化支持,为 Scout 提供动态 int4 量化代码,以减少性能损失并支持小硬件部署;Maverick 包含 FP8 量化权重,适用于兼容硬件。所有 Llama 4 模型使用 Xet 存储后端,实现约 25% 的去重率,提高上传和下载速度。衍生模型如微调或量化版本的去重率可达约 40%,节省社区时间和带宽。模型权重可在 Hugging Face Hub 的 meta-llama 组织下访问,需在模型卡片上接受许可条款。