谷歌发布了TranslateGemma,这是一个开源的翻译模型系列,支持55种语言。该模型系列包括三个不同参数规模的版本:一个40亿参数的模型针对移动设备优化,一个120亿参数的模型设计用于消费级笔记本电脑,以及一个270亿参数的模型用于云服务器,可在单个H100 GPU或TPU上运行。谷歌使用MetricX指标评估翻译质量,该指标追踪翻译错误,分数越低表示错误越少。120亿参数的TranslateGemma得分为3.60,优于270亿参数基础模型的4.04。与自身120亿参数基础模型相比,错误率下降了约26%。这一改进在所有测试的55种语言对中均保持一致,低资源语言获益最大,例如英语-冰岛语的错误率下降超过30%,英语-斯瓦希里语改进约25%。性能提升源于两阶段训练过程:首先在人工翻译和合成生成的并行数据上进行微调,然后通过强化学习优化翻译质量,使用多个自动评估模型检查输出,无需人工参考翻译。训练数据中包括30%的通用指令数据,以保持模型的多功能性,使TranslateGemma也能作为聊天机器人使用。专业翻译人员的人工评估基本确认了自动化测量结果,但日语到英语翻译显示下降,谷歌归因于专有名词错误。模型保留了Gemma 3的多模态能力,能够翻译图像中的文本,即使在未针对此任务进行专门训练的情况下。在Vistra基准测试中,文本翻译的改进也延续到基于图像的翻译任务。