不同AI模型在编码现实时似乎呈现趋同现象。研究人员通过窥探AI系统内部,研究它们如何表示场景和句子,发现不同模型可能发展出相似的表示,即使它们使用不同数据集或完全不同的数据类型训练。此外,一些研究表明,随着模型能力增强,这些表示正变得更为相似。在2024年的一篇论文中,麻省理工学院的四位AI研究人员认为这些趋同迹象并非偶然。他们的想法被称为柏拉图表示假说,激发了研究者的热烈讨论和一系列后续工作。该假说得名于希腊哲学家柏拉图2400年前的寓言,其中囚徒仅通过外部物体投射的影子感知世界。在比喻中,洞穴外是真实世界,以数据流形式投射机器可读的影子,AI模型是囚徒。MIT团队声称,仅暴露于数据流的非常不同模型正开始趋同于数据背后世界的共享“柏拉图表示”。论文资深作者Phillip Isola表示,语言模型和视觉模型之所以对齐,是因为它们都是同一世界的影子。并非所有人都信服,主要争议点涉及关注哪些表示。研究人员无法检查语言模型对每个可想象句子的内部表示,或视觉模型对每张图像的表示。因此,如何决定哪些具有代表性?在哪里寻找表示,以及如何比较非常不同模型间的表示?研究人员不太可能很快在柏拉图表示假说上达成共识,但Isola对此并不困扰。他说,一半社区认为这显而易见,另一半认为这明显错误,他们对这种回应感到满意。