科学家正将大语言模型当作生物而非计算机程序来研究,以首次发现其秘密。这些模型由数十亿参数组成,规模庞大且复杂,例如GPT4o的参数若以14点字体打印,可覆盖约46平方英里的纸张,相当于旧金山面积,最大模型甚至能覆盖洛杉矶。
目前,我们与这些机器共存,但无人完全理解其工作原理,包括构建者。OpenAI的研究科学家Dan Mossing表示,人类大脑无法完全掌握它。这带来问题:尽管数亿人每天使用此技术,但无人知晓模型如何输出结果,难以控制其幻觉或设置有效防护措施,也难以确定何时信任它们。
理解大语言模型的工作原理比以往任何时候都更重要,无论是考虑到存在性风险,还是更实际的危险,如传播错误信息或诱导脆弱人群进入有害关系。Mossing及其他来自OpenAI、Anthropic和Google DeepMind的研究人员正开始拼凑谜题的微小部分。
他们开创新技术,在构成大语言模型的数字混沌中寻找模式,将其视为进行生物学或神经科学研究的大型生物——城市大小的异形生物。他们发现大语言模型比预想的更奇特,但比以往更清楚这些模型擅长什么、不擅长什么,以及当它们做出出格和意外行为时,内部发生了什么。
大语言模型由数十亿参数组成,这些参数是数字。想象这些参数铺满整个城市,能感知其规模,但仅触及复杂性的一角。首先,不清楚这些数字的作用或如何产生。Anthropic的研究科学家Josh Batson表示,大语言模型并非构建而成,而是生长或进化而来。
这是一个贴切的比喻。模型中的大多数参数是在训练时自动确立的值,由学习算法决定,而算法本身过于复杂难以追踪。这就像让树以特定形状生长:可以引导它,但无法控制树枝和叶子的确切路径。另一个增加复杂性的因素是,一旦参数值设定——一旦结构生长完成——模型的参数实际上只是骨架。当模型运行并执行任务时,这些参数用于计算。