NVIDIA NIM 加速 Hugging Face 上大量 LLM 的部署

1 天前·来源:Hugging Face Blog
NVIDIANIMLLM推理微服务Hugging Face

NVIDIA 宣布 NIM 推理微服务现可加速部署 Hugging Face 上的超过 10 万个大型语言模型。NIM 提供单一 Docker 容器,支持多种 LLM 格式和推理框架,自动优化性能。用户需具备 NVIDIA GPU、Docker 和相应账户,以简化模型部署流程。

NVIDIA AI 客户和生态系统合作伙伴利用 NVIDIA NIM 推理微服务,在 NVIDIA 加速基础设施上简化最新 AI 模型的部署,包括来自 NVIDIA、Meta、Mistral AI、Google 等数百家创新模型构建者的 LLM、多模态和领域特定模型。NVIDIA 现已解锁 Hugging Face 上的超过 10 万个 LLM,通过 NIM 实现快速、可靠的部署。

NIM 现在提供一个单一的 Docker 容器,用于部署由 NVIDIA 和社区领先推理框架支持的广泛 LLM,包括 NVIDIA TensorRT-LLM、vLLM 和 SGLang。当 LLM 提供给 NIM 容器时,它会执行多个步骤进行部署和性能优化,无需手动配置:模型分析阶段,NIM 自动识别模型格式,包括 Hugging Face 模型、TensorRT-LLM 检查点或预构建的 TensorRT-LLM 引擎,确保兼容性;架构和量化检测阶段,识别模型架构和量化格式;后端选择阶段,基于分析选择推理后端;性能设置阶段,应用预配置设置并启动推理服务器,减少手动调优工作。

单一的 NIM 容器支持常见的 LLM 权重格式,包括:Hugging Face Transformers 检查点,LLM 可以直接从 Hugging Face 仓库部署,使用 .safetensors 文件,无需复杂转换;GGUF 检查点,量化 GGUF 检查点可以从 HuggingFace 或本地下载文件直接部署;TensorRT-LLM 检查点,打包在 trtllm_ckpt 目录中的模型可以部署;TensorRT-LLM 引擎,来自 trtllm_engine 目录的预构建 TensorRT-LLM 引擎可用于 NVIDIA GPU 上的峰值性能。

要使用 NIM,需确保环境具备 NVIDIA GPU 和适当驱动程序、已安装 Docker、拥有 NVIDIA NGC 账户和 API 密钥用于 NIM Docker 镜像,以及 Hugging Face 账户和 API 令牌用于需要身份验证的模型。环境设置涉及设置环境变量和创建持久缓存目录。确保 nim_cache 目录具有正确的 Unix 权限,理想情况下由启动 Docker 容器的相同 Unix 用户拥有,以防止权限问题。命令使用 -u $(id -u) 来管理此过程。

背景阅读

大型语言模型(LLM)是人工智能领域的关键技术,广泛应用于自然语言处理、AI 代理和各类应用程序中。随着模型数量和多样性的增加,部署和优化这些模型变得复杂且耗时,尤其是在不同推理框架和硬件环境下。NVIDIA NIM 是 NVIDIA 推出的推理微服务,旨在简化 AI 模型的部署流程,通过提供标准化的容器化解决方案,支持多种模型格式和推理后端,如 TensorRT-LLM、vLLM 和 SGLang。Hugging Face 是一个流行的 AI 模型社区平台,托管了数十万个开源模型,包括 LLM、多模态模型等,成为开发者获取和共享模型的重要资源。NVIDIA 与 Hugging Face 的合作,结合 NIM 的自动化优化功能,有助于加速模型从开发到生产环境的部署,降低技术门槛,推动 AI 应用的普及和创新。

评论 (0)

登录后参与评论

加载评论中...