NVIDIA AI 客户和生态系统合作伙伴利用 NVIDIA NIM 推理微服务,在 NVIDIA 加速基础设施上简化最新 AI 模型的部署,包括来自 NVIDIA、Meta、Mistral AI、Google 等数百家创新模型构建者的 LLM、多模态和领域特定模型。NVIDIA 现已解锁 Hugging Face 上的超过 10 万个 LLM,通过 NIM 实现快速、可靠的部署。
NIM 现在提供一个单一的 Docker 容器,用于部署由 NVIDIA 和社区领先推理框架支持的广泛 LLM,包括 NVIDIA TensorRT-LLM、vLLM 和 SGLang。当 LLM 提供给 NIM 容器时,它会执行多个步骤进行部署和性能优化,无需手动配置:模型分析阶段,NIM 自动识别模型格式,包括 Hugging Face 模型、TensorRT-LLM 检查点或预构建的 TensorRT-LLM 引擎,确保兼容性;架构和量化检测阶段,识别模型架构和量化格式;后端选择阶段,基于分析选择推理后端;性能设置阶段,应用预配置设置并启动推理服务器,减少手动调优工作。
单一的 NIM 容器支持常见的 LLM 权重格式,包括:Hugging Face Transformers 检查点,LLM 可以直接从 Hugging Face 仓库部署,使用 .safetensors 文件,无需复杂转换;GGUF 检查点,量化 GGUF 检查点可以从 HuggingFace 或本地下载文件直接部署;TensorRT-LLM 检查点,打包在 trtllm_ckpt 目录中的模型可以部署;TensorRT-LLM 引擎,来自 trtllm_engine 目录的预构建 TensorRT-LLM 引擎可用于 NVIDIA GPU 上的峰值性能。
要使用 NIM,需确保环境具备 NVIDIA GPU 和适当驱动程序、已安装 Docker、拥有 NVIDIA NGC 账户和 API 密钥用于 NIM Docker 镜像,以及 Hugging Face 账户和 API 令牌用于需要身份验证的模型。环境设置涉及设置环境变量和创建持久缓存目录。确保 nim_cache 目录具有正确的 Unix 权限,理想情况下由启动 Docker 容器的相同 Unix 用户拥有,以防止权限问题。命令使用 -u $(id -u) 来管理此过程。