NeoBeta - AI 科技资讯

Meta 在 Hugging Face Hub 上发布了 Llama 4 Maverick 和 Llama 4 Scout 两款大型语言模型。Llama 4 Maverick 总参数量约 4000 亿，活跃参数 170 亿，拥有 128 个专家；Llama 4 Scout 总参数量约 1090 亿，活跃参数 170 亿，使用 16 个专家。两款模型均采用混合专家架构，支持原生多模态处理，能够同时处理文本和图像输入。它们基于包含 200 种语言的数据训练，总 token 数达 40 万亿，并对包括阿拉伯语、西班牙语、德语和印地语在内的 12 种语言提供特定微调支持。

Llama 4 Scout 设计为可在单服务器级 GPU 上部署，支持动态 4 位或 8 位量化；Llama 4 Maverick 则提供 BF16 和 FP8 格式。两款模型已集成到 Hugging Face 生态系统中，包括 transformers 库和文本生成推理服务。transformers 库从版本 v4.51.0 开始支持 Llama 4 模型，提供加载、推理和微调功能，并支持多模态能力和下游库如 TRL。文本生成推理服务为两款模型提供优化部署，支持高吞吐量文本生成。

Hugging Face 还提供了量化支持，为 Scout 提供动态 int4 量化代码，以减少性能损失并支持小硬件部署；Maverick 包含 FP8 量化权重，适用于兼容硬件。所有 Llama 4 模型使用 Xet 存储后端，实现约 25% 的去重率，提高上传和下载速度。衍生模型如微调或量化版本的去重率可达约 40%，节省社区时间和带宽。模型权重可在 Hugging Face Hub 的 meta-llama 组织下访问，需在模型卡片上接受许可条款。

背景阅读

Llama 系列是 Meta 开发的大型语言模型家族，自 Llama 1 发布以来，已成为开源 AI 社区的重要力量。Llama 2 和 Llama 3 在性能和可访问性上取得显著进展，广泛应用于研究和商业场景。混合专家架构是一种高效模型设计，通过激活部分参数处理不同任务，降低计算成本，同时保持高性能。原生多模态能力允许模型直接处理多种数据类型，如文本和图像，无需额外转换步骤，提升应用灵活性。Hugging Face 作为领先的 AI 模型平台，提供模型托管、库集成和部署工具，支持开发者快速构建和部署 AI 应用。Llama 4 的发布进一步推动了开源 AI 模型的发展，为社区提供更强大的工具。

Llama 4 Maverick 和 Scout 模型在 Hugging Face 发布

背景阅读

相关阅读

Meta 在 Hugging Face Hub 发布 Llama Guard 4 安全模型

Visual Salamandra 发布，扩展多模态理解能力

Hugging Face与Cloudflare合作，通过FastRTC实现无缝实时语音视频

评论 (0)