谷歌发布EmbeddingGemma,高效多语言嵌入模型

1 天前·来源:Hugging Face Blog
谷歌EmbeddingGemma嵌入模型多语言AIGemma

谷歌发布了EmbeddingGemma,这是一款高效的多语言嵌入模型。该模型拥有308M参数和2K上下文窗口,支持超过100种语言。在MTEB基准测试中,它是500M参数以下排名最高的纯文本多语言嵌入模型。

谷歌发布了EmbeddingGemma,这是一款高效的多语言嵌入模型,专为设备端使用设计。该模型参数量为308M,上下文窗口为2K,支持超过100种语言。在Massive Text Embedding Benchmark(MTEB)上,EmbeddingGemma是500M参数以下排名最高的纯文本多语言嵌入模型。

EmbeddingGemma基于Gemma3变换器架构,但修改为使用双向注意力而非因果注意力,使其从解码器转变为编码器。模型还包括一个平均池化层和两个密集层,最终输出768维向量。该模型采用Matryoshka Representation Learning(MRL)进行训练,量化后内存占用低于200MB。

该模型适用于移动RAG管道、代理等场景,并可通过Sentence Transformers、LangChain等框架使用。谷歌还展示了在Medical Instruction and Retrieval Dataset(MIRIAD)上微调的示例,微调后的模型在医学论文检索任务中表现出色。

背景阅读

文本嵌入模型是现代自然语言处理应用的核心技术,它将文本转换为密集向量,用于相似性搜索、聚类、分类和检索等任务。这些模型在推荐系统、语义搜索、检索增强生成和代码搜索工具中广泛应用。近年来,随着多语言需求的增长,高效的小型嵌入模型成为研究热点,旨在在保持性能的同时减少计算资源消耗。谷歌的Gemma系列模型是开源的轻量级语言模型,而EmbeddingGemma在此基础上针对嵌入任务进行了优化,结合了双向注意力和多语言支持,为设备端应用提供了新的解决方案。MTEB是评估文本嵌入模型性能的常用基准,涵盖多种任务和语言。

评论 (0)

登录后参与评论

加载评论中...