英特尔发布AutoRound:面向大语言模型和视觉语言模型的先进量化工具

7 小时前·来源:Hugging Face Blog
英特尔AutoRound量化大语言模型视觉语言模型

英特尔推出了AutoRound,这是一种专为大语言模型和视觉语言模型设计的后训练量化方法。该工具通过有符号梯度下降优化权重舍入和裁剪范围,支持INT2至INT8的低比特量化,在保持高精度的同时减少模型大小和推理延迟。AutoRound兼容多种模型架构和设备,并提供快速量化能力,例如在A100 GPU上量化72B模型仅需37分钟。

英特尔发布了AutoRound,这是一种专为大语言模型和视觉语言模型设计的后训练量化工具。AutoRound采用有符号梯度下降方法,联合优化权重舍入和裁剪范围,以实现从INT2到INT8的低比特量化,在大多数场景下能最小化精度损失。例如,在INT2精度下,其相对准确性比主流基线方法高出最多2.1倍。该工具量化速度快且轻量级,在A100 GPU的轻量模式下,量化一个72B模型仅需37分钟。AutoRound支持混合比特调优、lm-head量化,并能导出为GPTQ、AWQ和GGUF格式。它兼容多种模型架构,包括Qwen、LLaMA和DeepSeek等流行大语言模型,以及超过10种视觉语言模型如Mistral-Small-3.1和Gemma3。设备支持涵盖CPU、英特尔GPU和CUDA。量化配置包括INT8、INT4、INT3、INT2和混合比特的仅权重量化。AutoRound仅需200个调优步骤和少量校准数据集(如128个样本)即可实现高精度,相比其他INT2方法更高效。

背景阅读

量化是机器学习中的一种技术,通过减少模型权重和激活值的比特精度来压缩模型大小并加速推理,这对于部署大型AI模型至关重要。随着大语言模型和视觉语言模型规模不断增长,高效量化成为降低计算和存储成本的关键。传统量化方法如GPTQ和AWQ已广泛应用,但低比特量化(如INT2或INT4)常面临精度损失挑战。英特尔开发的AutoRound作为一种后训练量化方法,专注于优化权重舍入和裁剪,以在低比特场景下保持高准确性。该工具的出现反映了行业对高效AI部署的需求,特别是在边缘计算和资源受限环境中。量化技术正成为AI模型优化的重要方向,帮助平衡性能与效率。

评论 (0)

登录后参与评论

加载评论中...