NeoBeta - AI 科技资讯

英特尔发布了AutoRound，这是一种专为大语言模型和视觉语言模型设计的后训练量化工具。AutoRound采用有符号梯度下降方法，联合优化权重舍入和裁剪范围，以实现从INT2到INT8的低比特量化，在大多数场景下能最小化精度损失。例如，在INT2精度下，其相对准确性比主流基线方法高出最多2.1倍。该工具量化速度快且轻量级，在A100 GPU的轻量模式下，量化一个72B模型仅需37分钟。AutoRound支持混合比特调优、lm-head量化，并能导出为GPTQ、AWQ和GGUF格式。它兼容多种模型架构，包括Qwen、LLaMA和DeepSeek等流行大语言模型，以及超过10种视觉语言模型如Mistral-Small-3.1和Gemma3。设备支持涵盖CPU、英特尔GPU和CUDA。量化配置包括INT8、INT4、INT3、INT2和混合比特的仅权重量化。AutoRound仅需200个调优步骤和少量校准数据集（如128个样本）即可实现高精度，相比其他INT2方法更高效。

背景阅读

量化是机器学习中的一种技术，通过减少模型权重和激活值的比特精度来压缩模型大小并加速推理，这对于部署大型AI模型至关重要。随着大语言模型和视觉语言模型规模不断增长，高效量化成为降低计算和存储成本的关键。传统量化方法如GPTQ和AWQ已广泛应用，但低比特量化（如INT2或INT4）常面临精度损失挑战。英特尔开发的AutoRound作为一种后训练量化方法，专注于优化权重舍入和裁剪，以在低比特场景下保持高准确性。该工具的出现反映了行业对高效AI部署的需求，特别是在边缘计算和资源受限环境中。量化技术正成为AI模型优化的重要方向，帮助平衡性能与效率。

英特尔发布AutoRound：面向大语言模型和视觉语言模型的先进量化工具

背景阅读

相关阅读

微软发布Differential Transformer V2，提升AI模型解码效率

Falcon-Edge 系列发布：强大的 1.58 位三元语言模型

DeepSeek-V3新论文发布：揭秘硬件感知协同设计实现低成本大模型训练

评论 (0)