英特尔发布了AutoRound,这是一种专为大语言模型和视觉语言模型设计的后训练量化工具。AutoRound采用有符号梯度下降方法,联合优化权重舍入和裁剪范围,以实现从INT2到INT8的低比特量化,在大多数场景下能最小化精度损失。例如,在INT2精度下,其相对准确性比主流基线方法高出最多2.1倍。该工具量化速度快且轻量级,在A100 GPU的轻量模式下,量化一个72B模型仅需37分钟。AutoRound支持混合比特调优、lm-head量化,并能导出为GPTQ、AWQ和GGUF格式。它兼容多种模型架构,包括Qwen、LLaMA和DeepSeek等流行大语言模型,以及超过10种视觉语言模型如Mistral-Small-3.1和Gemma3。设备支持涵盖CPU、英特尔GPU和CUDA。量化配置包括INT8、INT4、INT3、INT2和混合比特的仅权重量化。AutoRound仅需200个调优步骤和少量校准数据集(如128个样本)即可实现高精度,相比其他INT2方法更高效。