DeepMind 发布 Gemma Scope 2：开源工具套件助力 AI 安全研究

2 天前·来源：DeepMind Blog

DeepMindGemma可解释性AI安全开源工具

DeepMind 发布了 Gemma Scope 2，这是一个用于 Gemma 3 模型的开源可解释性工具套件。该工具套件结合稀疏自编码器和转码器，帮助研究人员深入理解语言模型的内部决策过程。Gemma Scope 2 旨在加速 AI 安全研究，应对越狱、幻觉和谄媚等问题。

DeepMind 发布了 Gemma Scope 2，这是一个用于 Gemma 3 模型的开源可解释性工具套件。该套件支持从 270M 到 27B 参数的所有 Gemma 3 模型尺寸。Gemma Scope 2 结合稀疏自编码器和转码器，允许研究人员查看模型内部，理解其思维过程和行为形成。开发 Gemma Scope 2 涉及存储约 110 PB 数据，并训练超过 1 万亿参数。DeepMind 表示，这是 AI 实验室迄今为止最大的开源可解释性工具发布。Gemma Scope 2 旨在帮助 AI 安全社区调试新兴模型行为，审计和调试 AI 代理，并加速针对越狱、幻觉和谄媚等问题的安全干预措施开发。一个交互式演示已通过 Neuronpedia 提供。

阅读原文

背景阅读

可解释性研究旨在理解 AI 模型的内部工作原理和学习算法。随着 AI 能力增强和复杂性提升，可解释性对于构建安全可靠的 AI 至关重要。DeepMind 去年推出了 Gemma Scope，这是一个用于 Gemma 2 模型的可解释性工具包，帮助研究人员在模型幻觉、识别模型已知秘密和训练更安全模型等关键安全领域进行研究。Gemma 是 DeepMind 的轻量级开源模型系列，Gemma 3 是其最新版本，参数范围从 270M 到 27B。稀疏自编码器和转码器是常用的可解释性技术，用于解码模型激活和表示。AI 安全社区一直关注越狱、幻觉和谄媚等问题，这些是大型语言模型中常见的风险行为。

DeepMind 发布 Gemma Scope 2：开源工具套件助力 AI 安全研究

背景阅读

相关阅读

AprielGuard：现代LLM系统的安全与对抗鲁棒性护栏模型

Claude Cowork发布数天后遭文件窃取提示注入攻击

Gemini 3 Flash：为速度而生的前沿智能模型

评论 (0)