研究人员发现商业AI模型可完整输出《哈利·波特》书籍

2026/1/13·来源:The Register
AI模型版权侵权训练数据法律诉讼商业AI

斯坦福和耶鲁大学的研究人员测试了Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3等商业AI模型。他们发现这些模型能记忆并输出受版权保护的内容,如《哈利·波特》书籍。这一发现涉及AI模型训练数据使用和版权侵权的法律问题。

研究人员测试了商业AI模型,发现它们能完整输出《哈利·波特》书籍。斯坦福和耶鲁大学的研究人员Ahmed Ahmed、A. Feder Cooper、Sanmi Koyejo和Percy Liang研究了Claude 3.7 Sonnet、GPT-4.1、Gemini 2.5 Pro和Grok 3等生产环境中的商业模型。他们发现这些模型能记忆并输出受版权保护的内容,类似于开源权重模型。研究人员指出,尽管商业模型实施了安全措施,但通过特定提示仍能提取大量记忆内容。这一发现与开源模型如Meta的Llama 3.1 70B类似,后者也被发现能完整记忆《哈利·波特与魔法石》和《1984》。AI模型是否记忆训练数据是法律争议的关键点,可能影响版权侵权的公平使用辩护。Anthropic、Google、OpenAI和Nvidia等公司面临超过60起法律诉讼,指控其未经授权使用受版权内容训练模型。商业模型通常通过防护栏机制防止输出大量受版权内容,但研究显示这些措施可能不足。

背景阅读

AI模型训练通常使用大量数据,包括受版权保护的内容,这引发了法律和伦理争议。公平使用原则允许在某些情况下使用受版权材料,但模型是否能记忆并完整输出内容是关键考量。开源AI模型如Meta的Llama系列已被证明能记忆训练数据,但商业模型由于缺乏透明度和安全措施,其行为一直不明确。近年来,AI公司如OpenAI、Anthropic和Google因训练数据使用面临多起诉讼,涉及数十亿美元投资。研究人员通过提示工程测试模型记忆能力,发现商业模型同样存在数据泄露风险,这可能影响版权侵权案件的判决。

评论 (0)

登录后参与评论

加载评论中...