Gemma 3n 模型全面开源,支持多模态本地运行

1 天前·来源:Hugging Face Blog
Gemma开源模型多模态AIGoogle本地AI

Google 的 Gemma 3n 模型现已全面开源,可在主流开源库中使用。该模型原生支持图像、文本、音频和视频输入,专为本地硬件运行设计。发布两个版本,E2B 和 E4B,分别需要 2GB 和 3GB GPU 内存,性能超越传统参数规模模型。

Gemma 3n 模型已在开源生态系统中全面可用。该模型最初在 Google I/O 上作为预览版宣布,专为本地硬件运行设计,原生支持多模态输入,包括图像、文本、音频和视频。现在,Gemma 3n 已集成到最常用的开源库中,如 transformers、timm、MLX、llama.cpp、transformers.js、ollama 和 Google AI Edge。

今天发布了两个模型尺寸,每个尺寸有基础版和指令调优版两个变体。模型命名为 gemma-3n-E2B 和 gemma-3n-E4B,其中 E 代表有效参数。实际参数分别为 50 亿和 80 亿,但由于内存效率改进,它们仅需 20 亿和 40 亿的 VRAM。E2B 模型可在低至 2GB GPU 内存下运行,E4B 模型仅需 3GB GPU 内存。

Gemma 3n 使用视觉编码器、音频编码器和语言解码器。视觉编码器基于 MobileNet-V5-300,有 3 亿参数,支持 256x256、512x512 和 768x768 分辨率,在 Google Pixel 上达到 60 FPS。音频编码器基于通用语音模型,处理 160 毫秒音频块,支持语音转文本和翻译功能。

架构亮点包括 MatFormer 设计,允许提取层子集作为独立模型;Per-Layer Embeddings 减少加速器内存使用;KV Cache Sharing 加速长上下文处理,比 Gemma 3 4B 快 2 倍。性能方面,E4B 在 LMArena 得分超过 1300,是首个低于 100 亿参数的模型达到此水平;MMLU 得分显示竞争性表现;支持 140 种语言的文本和 35 种语言的多模态交互。

背景阅读

Gemma 是 Google 推出的开源大型语言模型系列,旨在提供轻量级、高效的 AI 解决方案,便于开发者和研究者在本地设备上部署。Gemma 3n 是该系列的最新成员,专注于多模态能力和本地运行优化。多模态 AI 模型能处理多种输入类型,如图像、音频和视频,是当前 AI 研究的热点,旨在实现更自然的人机交互。开源生态系统的集成,如 transformers 和 timm 库,降低了模型使用门槛,促进了 AI 技术的普及和创新。本地运行模型减少了对云服务的依赖,提高了隐私和响应速度,适用于边缘计算场景。Google 通过 Gemma 系列推动开源 AI 发展,与 OpenAI 的 GPT 和 Meta 的 Llama 等模型竞争,同时强调可访问性和性能平衡。

评论 (0)

登录后参与评论

加载评论中...