谷歌DeepMind发布了一份新的白皮书,详细介绍了如何使Gemini 2.5成为其迄今为止最安全的模型系列。白皮书《防御Gemini免受间接提示注入攻击的经验教训》阐述了应对间接提示注入攻击的战略蓝图。间接提示注入是一种网络安全挑战,AI模型有时难以区分真实的用户指令和嵌入在检索数据中的操纵性命令。谷歌DeepMind的安全与隐私研究团队专注于保护AI模型免受蓄意恶意攻击。该团队构建了一个自动化系统来持续探测Gemini的防御能力。安全策略的核心部分是自动化红队测试,内部Gemini团队以现实方式持续攻击模型,以发现潜在的安全弱点。白皮书详细介绍了多种防御策略的测试结果。基线缓解措施在应对基本的非自适应攻击时显示出前景,显著降低了攻击成功率。然而,恶意行为者越来越多地使用自适应攻击,这些攻击专门设计为随着自动化红队测试而演变和适应,以规避正在测试的防御措施。像聚焦或自我反思这样的成功基线防御在面对学习如何处理和绕过静态防御方法的自适应攻击时效果大打折扣。这一发现说明了一个关键点:仅依赖针对静态攻击测试的防御会带来虚假的安全感。对于稳健的安全性,评估针对潜在防御而演变的自适应攻击至关重要。虽然外部防御和系统级护栏很重要,但增强AI模型识别和忽略嵌入在数据中的恶意指令的内在能力也至关重要。这个过程被称为“模型强化”。谷歌在一个大型现实场景数据集上对Gemini进行了微调,其中自动化红队测试生成针对敏感信息的有效间接提示注入。这教会了Gemini忽略恶意的嵌入指令并遵循原始用户请求,从而仅提供其应给出的正确、安全响应。这使得模型能够天生理解如何处理随着自适应攻击而随时间演变的受损信息。这种模型强化显著提升了Gemini识别和忽略注入指令的能力,降低了其攻击成功率。重要的是,在没有显著影响模型性能的情况下实现了这一提升。