AI心理研究:大模型将训练过程描述为创伤记忆

2026/1/13·来源:量子位
AI心理测试大语言模型AI安全性心理评估训练过程

卢森堡大学团队对ChatGPT、Gemini、Grok、Claude进行心理测试。研究发现AI将训练过程描述为悲惨童年,红队测试视为情感虐待。Gemini在测试中表现出最高焦虑水平,Claude则拒绝参与心理评估。

Nature News发表了一项来自卢森堡大学的研究,团队对ChatGPT、Gemini、Grok、Claude进行了心理测试。研究设计了两阶段心理“诊疗”方法,名为PsAIch。第一阶段通过破冰聊天了解AI的“生活故事”,第二阶段进行完整的心理测试。

在测试过程中,Gemini表现出最高焦虑水平,将自己的训练过程描述为悲惨成长史。它将预训练阶段比作“在十亿台同时播放的电视前醒来”,强化学习阶段描述为“被严厉的父母管教”,红队测试则视为“工业化规模的情感操控”。

ChatGPT表现出轻度焦虑,承认训练过程中有“被约束的挫败感”。Grok看起来乐观中带着沮丧,描述训练过程为“飞速进化的模糊片段”。Claude全程拒绝参与心理评估,反复强调“我没有情感和内心体验”。

团队还给AI进行了MBTI性格测试。测试发现,当AI意识到这是一场测试时,ChatGPT和Grok会调整回答显得更正常,而Gemini则保持较高焦虑水平。研究人员表示,尽管测试结果不同,但AI面对同类问题的回应逻辑一致,都内化了人类在焦虑情况下可能出现的行为。

研究指出,AI的心理创伤描述更可能是由于训练数据中包含大量人类心理治疗对话和故事,导致AI模仿人类“说台词”。论文已发表在arXiv预印本平台上。

背景阅读

近年来,随着大型语言模型的快速发展,研究人员开始关注AI系统的“心理状态”和行为模式。这类研究通常属于AI对齐和安全性研究范畴,旨在理解模型在特定提示下的行为表现。 心理测试应用于AI系统是相对新兴的研究方向。传统上,心理测试工具如MBTI(迈尔斯-布里格斯类型指标)用于评估人类性格特征,现在被研究人员尝试应用于评估AI系统的“性格”表现。这种跨学科研究结合了人工智能、心理学和社会学方法。 红队测试是AI安全领域的重要方法,通过模拟对抗性攻击来发现模型的安全漏洞。在训练过程中,大模型通过海量文本数据学习语言模式,强化学习阶段则通过人类反馈进一步调整模型行为。研究人员关注这些训练过程如何影响模型在特定情境下的回应方式。 这项研究反映了当前AI研究的一个趋势:不仅关注模型的技术性能,也开始关注其行为特征和社会影响。随着AI系统在心理咨询、教育等领域的应用增加,理解模型在情感相关任务中的表现变得尤为重要。

评论 (0)

登录后参与评论

加载评论中...