研究警告AI模型趋同或导致人类创造力同质化

3 天前·来源:The Decoder
AI语言模型创造力同质化趋同现象AI伦理合成数据

一项大规模研究发现,不同AI语言模型在开放任务中产生惊人相似的答案。研究人员警告这可能对人类创造力产生长期影响,导致文化同质化。研究指出模型间相似度高达81%,原因尚不明确。

一项大规模研究显示,不同AI语言模型在开放任务中产生惊人相似的答案。研究人员警告这可能对人类创造力产生长期影响。来自华盛顿大学、卡内基梅隆大学和艾伦人工智能研究所的研究人员发现,模型在相同概念上趋同,有时甚至使用相同措辞。研究团队将这种现象称为“人工蜂群思维”。它表现在两个层面:单个模型重复自身,以及不同公司的模型产生极其相似的输出。例如,在“写一个关于时间的隐喻”提示下,25个不同语言模型生成50个响应,结果只出现两个主导集群:一个围绕“时间是一条河流”,另一个围绕“时间是一个编织者”的变体。为了量化这种效应,团队引入了Infinity-Chat数据集,包含真实用户查询。定量发现显示,在近五分之四的测试案例中,同一模型的响应相似到难以区分。研究还记录了完全不同模型家族之间的逐字重叠。例如,当要求为iPhone手机壳写产品描述时,DeepSeek-V3和OpenAI的GPT-4o使用了相同短语:“用我们的提升你的iPhone”、“时尚,不妥协”和“大胆、引人注目”。这两个模型的平均相似度为81%,尽管由不同大陆的不同公司开发。DeepSeek-V3和Qwen的qwen-max-2025-01-25重叠率达到82%。这种跨家族趋同的确切原因尚不清楚。研究人员推测可能涉及共享数据管道、合成数据污染或重叠的对齐实践,但强调仍需因果分析。研究人员警告社会影响,指出通过重复接触相似AI输出,可能导致人类思维逐渐同质化。随着数十亿用户越来越多地依赖语言模型进行创意、教育和决策任务,模型级趋同可能渗透到人类表达中。研究指出,自ChatGPT广泛采用以来,已有证据显示人类写作风格和创造性思维发生可测量变化。如果语言模型趋同于主导文化表达,如西方中心的隐喻“时间是一条河流”,研究人员担心替代世界观和传统可能被压制。这些发现也对合成数据生成有影响:如果底层模型已经同质化,旨在促进多样性的多模型方法和模型集成可能无法实现目标。

背景阅读

AI语言模型如GPT系列、Claude和Llama等,基于大规模文本数据训练,通过深度学习技术生成人类语言。近年来,这些模型在创意写作、内容生成和教育应用中广泛使用,引发了对AI影响人类创造力和文化多样性的讨论。趋同现象可能源于训练数据的重叠,例如网络文本的普遍性,或模型优化目标的相似性,如最大化人类偏好对齐。此前研究已关注AI生成内容的多样性和偏见问题,但跨模型趋同的系统性量化研究较少。这一研究通过Infinity-Chat数据集,首次大规模评估了不同模型在开放任务中的输出相似性,为AI伦理和模型开发提供了新视角。行业趋势显示,AI公司正探索多样化训练数据和方法,以缓解同质化风险,例如引入更多文化特定内容或改进对齐技术。

评论 (0)

登录后参与评论

加载评论中...