AI模型缺乏统一的“自我”,这并非缺陷。根据Anthropic研究员在MIT Technology Review中的解释,期望语言模型具有内部连贯性可能意味着提出了错误的问题。研究员Josh Batson用书籍类比说明:如果一本书第5页说最佳食物是披萨,第17页说是意大利面,问书“真正想什么”是无意义的,因为书没有统一思想。
Anthropic通过实验发现,Claude模型使用不同机制来知道香蕉是黄色的,以及确认“香蕉是黄色”这一陈述为真,这些机制互不连接。当模型给出矛盾答案时,它是在调用自身的不同部分,没有中央权威协调它们。Batson描述,这就像与Claude对话时,它可能“走开”,然后你就不再与Claude对话,而是与别的东西对话。
关键启示是,假设语言模型像人类一样具有心智连贯性可能是一个根本性的类别错误。