NeoBeta - AI 科技资讯

Gemma 3n 模型已在开源生态系统中全面可用。该模型最初在 Google I/O 上作为预览版宣布，专为本地硬件运行设计，原生支持多模态输入，包括图像、文本、音频和视频。现在，Gemma 3n 已集成到最常用的开源库中，如 transformers、timm、MLX、llama.cpp、transformers.js、ollama 和 Google AI Edge。

今天发布了两个模型尺寸，每个尺寸有基础版和指令调优版两个变体。模型命名为 gemma-3n-E2B 和 gemma-3n-E4B，其中 E 代表有效参数。实际参数分别为 50 亿和 80 亿，但由于内存效率改进，它们仅需 20 亿和 40 亿的 VRAM。E2B 模型可在低至 2GB GPU 内存下运行，E4B 模型仅需 3GB GPU 内存。

Gemma 3n 使用视觉编码器、音频编码器和语言解码器。视觉编码器基于 MobileNet-V5-300，有 3 亿参数，支持 256x256、512x512 和 768x768 分辨率，在 Google Pixel 上达到 60 FPS。音频编码器基于通用语音模型，处理 160 毫秒音频块，支持语音转文本和翻译功能。

架构亮点包括 MatFormer 设计，允许提取层子集作为独立模型；Per-Layer Embeddings 减少加速器内存使用；KV Cache Sharing 加速长上下文处理，比 Gemma 3 4B 快 2 倍。性能方面，E4B 在 LMArena 得分超过 1300，是首个低于 100 亿参数的模型达到此水平；MMLU 得分显示竞争性表现；支持 140 种语言的文本和 35 种语言的多模态交互。

背景阅读

Gemma 是 Google 推出的开源大型语言模型系列，旨在提供轻量级、高效的 AI 解决方案，便于开发者和研究者在本地设备上部署。Gemma 3n 是该系列的最新成员，专注于多模态能力和本地运行优化。多模态 AI 模型能处理多种输入类型，如图像、音频和视频，是当前 AI 研究的热点，旨在实现更自然的人机交互。开源生态系统的集成，如 transformers 和 timm 库，降低了模型使用门槛，促进了 AI 技术的普及和创新。本地运行模型减少了对云服务的依赖，提高了隐私和响应速度，适用于边缘计算场景。Google 通过 Gemma 系列推动开源 AI 发展，与 OpenAI 的 GPT 和 Meta 的 Llama 等模型竞争，同时强调可访问性和性能平衡。

Gemma 3n 模型全面开源，支持多模态本地运行

背景阅读

相关阅读

NVIDIA Llama Nemotron Nano VLM 模型登陆 Hugging Face Hub

谷歌发布EmbeddingGemma，高效多语言嵌入模型

OpenAI发布GPT OSS开源模型系列，包含117B和21B两个版本

评论 (0)