深度求索研究人员开发了一种技术,使大型语言模型的训练更加稳定。该方法使用数学约束来解决扩展网络架构中的一个已知问题。神经网络已使用残差连接约十年,以在深层架构中传递信息。这些连接类似于捷径:来自早期层的信息直接到达后期层,从而使训练更稳定。较新的方法如“超连接”扩展了这一原理,通过拓宽信息流并引入更复杂的连接模式。根据研究人员的说法,问题在于这些扩展虽然提升了性能,但在更大模型中会破坏训练稳定性。深度求索团队现在引入了“流形约束超连接”,这是一种旨在同时带来两种好处的解决方案。
在标准残差连接中,信号通过网络时基本保持不变。这一特性保持训练稳定——模型从中学习的误差可靠地流回所有层,调整保持在预期范围内。超连接的工作方式不同:信号通过可学习矩阵进行转换。这是有意的,因为它让网络学习更复杂的模式。问题出现在这些变化在许多层中累积时。每层可以进一步放大或削弱信号,而不是保持不变地传递信号。研究人员使用一个270亿参数模型记录了这个问题:在大约12,000个训练步骤时,超连接显示损失突然激增——模型从中学习的错误率。这种跳跃是训练变得不稳定和学习信号失控的警告信号。
根据团队的说法,原因在于信号通过网络时被放大的程度。研究人员用一个理想情况下应保持在1左右的指标来衡量这一点——意味着信号以相同的强度到达。然而,在超连接中,这个值峰值达到3,000。这意味着信号被放大了三千倍,这不可避免地导致问题。超连接还创建了显著的内存访问开销。由于信息流拓宽了约4倍,内存访问相应增加。
流形约束超连接的核心思想是通过数学方式约束可学习连接矩阵。研究人员使用具有特殊属性的矩阵:所有条目均为非负,且行和列的和恰好等于1。这在实践中意味着什么?当这样的矩阵应用于信号时,它创建输入值的加权混合。由于权重为正且和为1,信号被重新分配但不会不受控制地放大,即使许多这样的步骤连续发生。为了将任何矩阵转换为这种形式,研究人员使用称为Sinkhorn-Knopp算法的迭代过程。它在行和列归一化之间交替,直到两者和为1。实现使用20次这样的传递,实验表明这在准确性和计算成本之间取得了良好平衡。
结果是:信号放大从3,000降至约1.6——减少了三个数量级。信号保持接近其原始强度,训练保持稳定。研究人员在基于深度求索-V3架构的3、9和270亿参数模型上测试了流形约束超连接。27B模型显示出稳定的训练曲线,没有出现超连接中的崩溃。在基准测试中,流形约束超连接在大多数测试中优于基线和超连接。在测试复杂推理任务的BBH上,流形约束超连接达到51.0%,而超连接为48.9%。