谷歌发布白皮书详述Gemini 2.5安全防护策略

18 小时前·来源:DeepMind Blog
谷歌GeminiAI安全间接提示注入自动化红队测试

谷歌DeepMind发布白皮书介绍Gemini 2.5模型安全防护措施。该团队采用自动化红队测试方法持续攻击模型以发现潜在漏洞。模型强化训练显著提升了Gemini识别和忽略恶意指令的能力。

谷歌DeepMind发布了一份新的白皮书,详细介绍了如何使Gemini 2.5成为其迄今为止最安全的模型系列。白皮书《防御Gemini免受间接提示注入攻击的经验教训》阐述了应对间接提示注入攻击的战略蓝图。间接提示注入是一种网络安全挑战,AI模型有时难以区分真实的用户指令和嵌入在检索数据中的操纵性命令。谷歌DeepMind的安全与隐私研究团队专注于保护AI模型免受蓄意恶意攻击。该团队构建了一个自动化系统来持续探测Gemini的防御能力。安全策略的核心部分是自动化红队测试,内部Gemini团队以现实方式持续攻击模型,以发现潜在的安全弱点。白皮书详细介绍了多种防御策略的测试结果。基线缓解措施在应对基本的非自适应攻击时显示出前景,显著降低了攻击成功率。然而,恶意行为者越来越多地使用自适应攻击,这些攻击专门设计为随着自动化红队测试而演变和适应,以规避正在测试的防御措施。像聚焦或自我反思这样的成功基线防御在面对学习如何处理和绕过静态防御方法的自适应攻击时效果大打折扣。这一发现说明了一个关键点:仅依赖针对静态攻击测试的防御会带来虚假的安全感。对于稳健的安全性,评估针对潜在防御而演变的自适应攻击至关重要。虽然外部防御和系统级护栏很重要,但增强AI模型识别和忽略嵌入在数据中的恶意指令的内在能力也至关重要。这个过程被称为“模型强化”。谷歌在一个大型现实场景数据集上对Gemini进行了微调,其中自动化红队测试生成针对敏感信息的有效间接提示注入。这教会了Gemini忽略恶意的嵌入指令并遵循原始用户请求,从而仅提供其应给出的正确、安全响应。这使得模型能够天生理解如何处理随着自适应攻击而随时间演变的受损信息。这种模型强化显著提升了Gemini识别和忽略注入指令的能力,降低了其攻击成功率。重要的是,在没有显著影响模型性能的情况下实现了这一提升。

背景阅读

间接提示注入攻击是大型语言模型面临的一种新兴安全威胁。在这种攻击中,恶意指令被嵌入到模型检索的外部数据中,例如电子邮件、文档或网页内容。当模型处理这些数据时,可能无意中执行嵌入的恶意指令,导致数据泄露、权限滥用或其他安全漏洞。随着AI代理工具的普及,这类攻击的风险日益增加。自动化红队测试是网络安全领域的一种常见实践,通过模拟攻击者的行为来评估系统的防御能力。在AI安全领域,这种方法被用于持续测试模型对新型攻击的抵抗力。模型强化则涉及通过特定训练数据微调模型,提升其内在的安全判断能力。谷歌DeepMind作为AI安全研究的重要参与者,其工作反映了行业对构建既强大又安全的AI系统的持续关注。

评论 (0)

登录后参与评论

加载评论中...