Arm 与 ExecuTorch 0.7 将生成式 AI 推向大众

1 天前·来源:Hugging Face Blog
ArmExecuTorch生成式AI边缘计算AI优化

Arm 宣布 ExecuTorch 0.7 测试版将默认启用 KleidiAI 加速层。该技术利用 Arm CPU 的 SDOT 指令优化矩阵乘法,无需开发者修改代码。这使得生成式 AI 模型能在旧款手机和边缘设备上高效运行。

Arm 与 ExecuTorch 0.7 旨在将生成式 AI 推向大众。Arm 最近宣布了 SME2,KleidiAI 作为 AI 加速层,已集成到 XNNPack、MediaPipe、MNN、ONNX Runtime 和 llama.cpp 等边缘 AI 框架中,无需代码更改即可带来性能提升。即将发布的 ExecuTorch 0.7 测试版将默认启用 KleidiAI,为基于最新 Arm CPU 架构的设备以及大量旧款手机提供自动加速。Android 和跨平台开发者可通过 ExecuTorch 和 XNNPack 即时访问 KleidiAI 的性能优化,实现更快的模型启动、更低延迟和更小内存占用,无需集成障碍。这解锁了新可能性,不仅适用于最新高端设备,还适用于更广泛的硬件。

运行生成式 AI 时,通常考虑配备强大 CPU、GPU 和 NPU 的最新旗舰智能手机。但生成式 AI 体验,如运行大型语言模型,也能在 3、4 或 5 年前的旧设备上实现,甚至包括 Raspberry Pi 5。这得益于 Arm SDOT CPU 功能,自 2015 年起在 Arm CPU 中可用。SDOT 指令在 Armv8.2 架构及后续 CPU 中引入,支持对 8 位有符号整数向量进行高效点积运算。该指令可用于加速矩阵乘法例程,这是每个 LLM 背后的核心计算工作负载,当使用 Int8 或更低比特精度格式如 Int4 时。SDOT 指令已在多种设备上广泛支持,使生成式 AI 用例能覆盖更广泛的智能手机用户。目前,约 30 亿台基于 Arm 的设备中的 CPU 具备此能力,为大多数用户提供强大的设备端生成式 AI 体验。事实上,72% 的设备现在支持此指令。通过 ExecuTorch,模型如 Llama 3.2 能在大多数 Android 设备和边缘设备如 Raspberry Pi 5 上高效运行。

对于去年的量化 Llama 3.2 1B 公告,ExecuTorch 和 KleidiAI 团队合作,利用 Arm CPU 的 I8MM 功能为 Int4 矩阵乘法提供优化。

背景阅读

生成式 AI 在移动和边缘设备上的部署面临计算资源限制和延迟挑战。Arm 作为移动和嵌入式设备 CPU 架构的主导者,通过 KleidiAI 加速层和 SDOT 指令优化 AI 性能。KleidiAI 集成到主流边缘 AI 框架中,提供硬件加速,而 SDOT 指令自 2015 年起在 Arm CPU 中可用,支持高效的低精度矩阵运算,这是 LLM 推理的关键。ExecuTorch 是一个用于在边缘设备上部署 AI 模型的框架,与 KleidiAI 结合,旨在降低 AI 应用的门槛,扩展生成式 AI 到旧设备和低成本硬件。这一发展反映了行业趋势,即通过软件优化和硬件功能普及 AI 技术,推动设备端 AI 的广泛应用。

评论 (0)

登录后参与评论

加载评论中...