NeoBeta - AI 科技资讯

深度求索研究人员开发了一种技术，使大型语言模型的训练更加稳定。该方法使用数学约束来解决扩展网络架构中的一个已知问题。神经网络已使用残差连接约十年，以在深层架构中传递信息。这些连接类似于捷径：来自早期层的信息直接到达后期层，从而使训练更稳定。较新的方法如“超连接”扩展了这一原理，通过拓宽信息流并引入更复杂的连接模式。根据研究人员的说法，问题在于这些扩展虽然提升了性能，但在更大模型中会破坏训练稳定性。深度求索团队现在引入了“流形约束超连接”，这是一种旨在同时带来两种好处的解决方案。

在标准残差连接中，信号通过网络时基本保持不变。这一特性保持训练稳定——模型从中学习的误差可靠地流回所有层，调整保持在预期范围内。超连接的工作方式不同：信号通过可学习矩阵进行转换。这是有意的，因为它让网络学习更复杂的模式。问题出现在这些变化在许多层中累积时。每层可以进一步放大或削弱信号，而不是保持不变地传递信号。研究人员使用一个270亿参数模型记录了这个问题：在大约12,000个训练步骤时，超连接显示损失突然激增——模型从中学习的错误率。这种跳跃是训练变得不稳定和学习信号失控的警告信号。

根据团队的说法，原因在于信号通过网络时被放大的程度。研究人员用一个理想情况下应保持在1左右的指标来衡量这一点——意味着信号以相同的强度到达。然而，在超连接中，这个值峰值达到3,000。这意味着信号被放大了三千倍，这不可避免地导致问题。超连接还创建了显著的内存访问开销。由于信息流拓宽了约4倍，内存访问相应增加。

流形约束超连接的核心思想是通过数学方式约束可学习连接矩阵。研究人员使用具有特殊属性的矩阵：所有条目均为非负，且行和列的和恰好等于1。这在实践中意味着什么？当这样的矩阵应用于信号时，它创建输入值的加权混合。由于权重为正且和为1，信号被重新分配但不会不受控制地放大，即使许多这样的步骤连续发生。为了将任何矩阵转换为这种形式，研究人员使用称为Sinkhorn-Knopp算法的迭代过程。它在行和列归一化之间交替，直到两者和为1。实现使用20次这样的传递，实验表明这在准确性和计算成本之间取得了良好平衡。

结果是：信号放大从3,000降至约1.6——减少了三个数量级。信号保持接近其原始强度，训练保持稳定。研究人员在基于深度求索-V3架构的3、9和270亿参数模型上测试了流形约束超连接。27B模型显示出稳定的训练曲线，没有出现超连接中的崩溃。在基准测试中，流形约束超连接在大多数测试中优于基线和超连接。在测试复杂推理任务的BBH上，流形约束超连接达到51.0%，而超连接为48.9%。

深度求索新技术平衡大模型信号流与学习能力

背景阅读

相关阅读

科学家将大语言模型视为外星生物进行研究

Sakana AI 通过模型「猎杀」实现趋同进化

KAN一作刘子鸣回国任教，清华官网认证

评论 (0)