llama.cpp 服务器新增模型管理功能

2 天前·来源:Hugging Face Blog
llama.cpp模型管理本地部署AI服务器开源工具

llama.cpp 服务器引入了路由器模式,支持动态加载、卸载和切换多个模型。该功能采用多进程架构,确保模型间独立运行,避免相互影响。用户可通过命令行或 Web UI 轻松管理模型,无需重启服务器。

llama.cpp 服务器现在包含路由器模式,允许用户动态加载、卸载和切换多个模型,而无需重启服务器。llama.cpp 服务器是一个轻量级的、与 OpenAI 兼容的 HTTP 服务器,用于本地运行大型语言模型。这一功能是应社区请求而添加,旨在为 llama.cpp 带来类似 Ollama 的模型管理体验。它采用多进程架构,每个模型在独立的进程中运行,因此如果一个模型崩溃,其他模型不会受到影响。

要启动路由器模式,只需运行 llama-server 命令而不指定模型。服务器会自动从 llama.cpp 缓存或用户指定的目录中扫描 GGUF 文件。用户还可以通过 --models-dir 参数指向本地模型目录。

主要功能包括自动发现模型、按需加载、LRU 淘汰机制和请求路由。当达到最大加载模型数时,最久未使用的模型会被卸载。用户可以通过请求中的 model 字段指定处理请求的模型。

示例包括与特定模型聊天、列出可用模型以及手动加载或卸载模型。所有模型实例继承路由器的设置,如上下文长度和 GPU 卸载选项。用户还可以通过配置文件定义每个模型的特定设置。

内置 Web UI 也支持模型切换,用户可以从下拉菜单中选择模型,它会自动加载。这一功能旨在简化模型 A/B 测试、多租户部署或开发过程中的模型切换。

背景阅读

llama.cpp 是一个开源项目,专注于在本地硬件上高效运行大型语言模型,特别支持 GGUF 格式。它由 Georgi Gerganov 开发,最初用于运行 Meta 的 Llama 模型,现已扩展支持多种模型。llama.cpp 服务器是其工具之一,提供类似 OpenAI API 的接口,便于本地部署和测试 AI 模型。模型管理功能是社区长期需求,旨在解决多模型切换时的重启问题,提升开发效率。类似工具如 Ollama 已提供模型管理,llama.cpp 的更新使其更具竞争力。这一发展反映了本地 AI 部署趋势,强调轻量化和灵活性,适用于研究、开发和边缘计算场景。

评论 (0)

登录后参与评论

加载评论中...