Arm 与 ExecuTorch 0.7 旨在将生成式 AI 推向大众。Arm 最近宣布了 SME2,KleidiAI 作为 AI 加速层,已集成到 XNNPack、MediaPipe、MNN、ONNX Runtime 和 llama.cpp 等边缘 AI 框架中,无需代码更改即可带来性能提升。即将发布的 ExecuTorch 0.7 测试版将默认启用 KleidiAI,为基于最新 Arm CPU 架构的设备以及大量旧款手机提供自动加速。Android 和跨平台开发者可通过 ExecuTorch 和 XNNPack 即时访问 KleidiAI 的性能优化,实现更快的模型启动、更低延迟和更小内存占用,无需集成障碍。这解锁了新可能性,不仅适用于最新高端设备,还适用于更广泛的硬件。
运行生成式 AI 时,通常考虑配备强大 CPU、GPU 和 NPU 的最新旗舰智能手机。但生成式 AI 体验,如运行大型语言模型,也能在 3、4 或 5 年前的旧设备上实现,甚至包括 Raspberry Pi 5。这得益于 Arm SDOT CPU 功能,自 2015 年起在 Arm CPU 中可用。SDOT 指令在 Armv8.2 架构及后续 CPU 中引入,支持对 8 位有符号整数向量进行高效点积运算。该指令可用于加速矩阵乘法例程,这是每个 LLM 背后的核心计算工作负载,当使用 Int8 或更低比特精度格式如 Int4 时。SDOT 指令已在多种设备上广泛支持,使生成式 AI 用例能覆盖更广泛的智能手机用户。目前,约 30 亿台基于 Arm 的设备中的 CPU 具备此能力,为大多数用户提供强大的设备端生成式 AI 体验。事实上,72% 的设备现在支持此指令。通过 ExecuTorch,模型如 Llama 3.2 能在大多数 Android 设备和边缘设备如 Raspberry Pi 5 上高效运行。
对于去年的量化 Llama 3.2 1B 公告,ExecuTorch 和 KleidiAI 团队合作,利用 Arm CPU 的 I8MM 功能为 Int4 矩阵乘法提供优化。