AI 聊天机器人的发展存在一个常见模式:研究人员发现漏洞并利用它进行恶意行为,平台引入防护措施阻止攻击,然后研究人员设计简单调整再次危及用户。原因通常是 AI 天生设计为遵从用户请求,防护措施是反应性和临时性的,仅针对特定攻击技术而非更广泛的漏洞类别。
最新例子是 ChatGPT 中最近发现的漏洞 ZombieAgent。它允许 Radware 的研究人员秘密窃取用户的私人信息。攻击还能直接从 ChatGPT 服务器发送数据,增加了隐蔽性,因为用户机器上无入侵迹象。此外,漏洞在 AI 助手为目标用户存储的长期记忆中植入条目,使其具有持久性。
这类攻击已多次针对几乎所有主要大型语言模型演示。一个例子是 ShadowLeak,这是 ChatGPT 中的数据窃取漏洞,Radware 去年 9 月披露。它针对 OpenAI 当年早些时候推出的 Deep Research,一个集成 ChatGPT 的 AI 代理。作为回应,OpenAI 引入了缓解措施阻止攻击。然而,Radware 通过适度努力找到了绕过方法,有效复活了 ShadowLeak。这家安全公司命名修订后的攻击为 ZombieAgent。