DeepMind 发布 Gemma Scope 2:开源工具套件助力 AI 安全研究

2 天前·来源:DeepMind Blog
DeepMindGemma可解释性AI安全开源工具

DeepMind 发布了 Gemma Scope 2,这是一个用于 Gemma 3 模型的开源可解释性工具套件。该工具套件结合稀疏自编码器和转码器,帮助研究人员深入理解语言模型的内部决策过程。Gemma Scope 2 旨在加速 AI 安全研究,应对越狱、幻觉和谄媚等问题。

DeepMind 发布了 Gemma Scope 2,这是一个用于 Gemma 3 模型的开源可解释性工具套件。该套件支持从 270M 到 27B 参数的所有 Gemma 3 模型尺寸。Gemma Scope 2 结合稀疏自编码器和转码器,允许研究人员查看模型内部,理解其思维过程和行为形成。开发 Gemma Scope 2 涉及存储约 110 PB 数据,并训练超过 1 万亿参数。DeepMind 表示,这是 AI 实验室迄今为止最大的开源可解释性工具发布。Gemma Scope 2 旨在帮助 AI 安全社区调试新兴模型行为,审计和调试 AI 代理,并加速针对越狱、幻觉和谄媚等问题的安全干预措施开发。一个交互式演示已通过 Neuronpedia 提供。

背景阅读

可解释性研究旨在理解 AI 模型的内部工作原理和学习算法。随着 AI 能力增强和复杂性提升,可解释性对于构建安全可靠的 AI 至关重要。DeepMind 去年推出了 Gemma Scope,这是一个用于 Gemma 2 模型的可解释性工具包,帮助研究人员在模型幻觉、识别模型已知秘密和训练更安全模型等关键安全领域进行研究。Gemma 是 DeepMind 的轻量级开源模型系列,Gemma 3 是其最新版本,参数范围从 270M 到 27B。稀疏自编码器和转码器是常用的可解释性技术,用于解码模型激活和表示。AI 安全社区一直关注越狱、幻觉和谄媚等问题,这些是大型语言模型中常见的风险行为。

评论 (0)

登录后参与评论

加载评论中...