Gemma 3n 模型已在开源生态系统中全面可用。该模型最初在 Google I/O 上作为预览版宣布,专为本地硬件运行设计,原生支持多模态输入,包括图像、文本、音频和视频。现在,Gemma 3n 已集成到最常用的开源库中,如 transformers、timm、MLX、llama.cpp、transformers.js、ollama 和 Google AI Edge。
今天发布了两个模型尺寸,每个尺寸有基础版和指令调优版两个变体。模型命名为 gemma-3n-E2B 和 gemma-3n-E4B,其中 E 代表有效参数。实际参数分别为 50 亿和 80 亿,但由于内存效率改进,它们仅需 20 亿和 40 亿的 VRAM。E2B 模型可在低至 2GB GPU 内存下运行,E4B 模型仅需 3GB GPU 内存。
Gemma 3n 使用视觉编码器、音频编码器和语言解码器。视觉编码器基于 MobileNet-V5-300,有 3 亿参数,支持 256x256、512x512 和 768x768 分辨率,在 Google Pixel 上达到 60 FPS。音频编码器基于通用语音模型,处理 160 毫秒音频块,支持语音转文本和翻译功能。
架构亮点包括 MatFormer 设计,允许提取层子集作为独立模型;Per-Layer Embeddings 减少加速器内存使用;KV Cache Sharing 加速长上下文处理,比 Gemma 3 4B 快 2 倍。性能方面,E4B 在 LMArena 得分超过 1300,是首个低于 100 亿参数的模型达到此水平;MMLU 得分显示竞争性表现;支持 140 种语言的文本和 35 种语言的多模态交互。