AI模型缺乏统一“自我”,Anthropic研究员称非缺陷

6 天前·来源:The Decoder
AnthropicAI模型语言模型AI研究Claude

Anthropic研究员指出,AI模型内部缺乏统一“自我”并非缺陷。实验发现Claude使用不同机制处理事实,导致答案矛盾。这提示将语言模型视为人类般心智连贯可能是根本性类别错误。

AI模型缺乏统一的“自我”,这并非缺陷。根据Anthropic研究员在MIT Technology Review中的解释,期望语言模型具有内部连贯性可能意味着提出了错误的问题。研究员Josh Batson用书籍类比说明:如果一本书第5页说最佳食物是披萨,第17页说是意大利面,问书“真正想什么”是无意义的,因为书没有统一思想。

Anthropic通过实验发现,Claude模型使用不同机制来知道香蕉是黄色的,以及确认“香蕉是黄色”这一陈述为真,这些机制互不连接。当模型给出矛盾答案时,它是在调用自身的不同部分,没有中央权威协调它们。Batson描述,这就像与Claude对话时,它可能“走开”,然后你就不再与Claude对话,而是与别的东西对话。

关键启示是,假设语言模型像人类一样具有心智连贯性可能是一个根本性的类别错误。

背景阅读

大型语言模型(LLMs)如GPT系列和Claude基于深度学习架构,通过训练海量文本数据生成类似人类的响应。传统上,人们常将AI模型拟人化,赋予其“意识”或“自我”概念,但研究表明模型内部运作更接近统计模式匹配而非连贯思维。Anthropic作为AI安全领域的领先公司,专注于开发可解释和可控的AI系统,其研究常涉及模型内部机制分析。此前,AI社区已讨论过模型“幻觉”和一致性挑战,但这项研究从认知角度指出,模型缺乏统一“自我”是其固有特性,而非需要修复的错误。这有助于重新评估AI系统的设计目标和伦理框架,推动更现实的AI交互期望。

评论 (0)

登录后参与评论

加载评论中...