llama.cpp 服务器现在包含路由器模式,允许用户动态加载、卸载和切换多个模型,而无需重启服务器。llama.cpp 服务器是一个轻量级的、与 OpenAI 兼容的 HTTP 服务器,用于本地运行大型语言模型。这一功能是应社区请求而添加,旨在为 llama.cpp 带来类似 Ollama 的模型管理体验。它采用多进程架构,每个模型在独立的进程中运行,因此如果一个模型崩溃,其他模型不会受到影响。
要启动路由器模式,只需运行 llama-server 命令而不指定模型。服务器会自动从 llama.cpp 缓存或用户指定的目录中扫描 GGUF 文件。用户还可以通过 --models-dir 参数指向本地模型目录。
主要功能包括自动发现模型、按需加载、LRU 淘汰机制和请求路由。当达到最大加载模型数时,最久未使用的模型会被卸载。用户可以通过请求中的 model 字段指定处理请求的模型。
示例包括与特定模型聊天、列出可用模型以及手动加载或卸载模型。所有模型实例继承路由器的设置,如上下文长度和 GPU 卸载选项。用户还可以通过配置文件定义每个模型的特定设置。
内置 Web UI 也支持模型切换,用户可以从下拉菜单中选择模型,它会自动加载。这一功能旨在简化模型 A/B 测试、多租户部署或开发过程中的模型切换。