NeoBeta - AI 科技资讯

llama.cpp 服务器现在包含路由器模式，允许用户动态加载、卸载和切换多个模型，而无需重启服务器。llama.cpp 服务器是一个轻量级的、与 OpenAI 兼容的 HTTP 服务器，用于本地运行大型语言模型。这一功能是应社区请求而添加，旨在为 llama.cpp 带来类似 Ollama 的模型管理体验。它采用多进程架构，每个模型在独立的进程中运行，因此如果一个模型崩溃，其他模型不会受到影响。

要启动路由器模式，只需运行 llama-server 命令而不指定模型。服务器会自动从 llama.cpp 缓存或用户指定的目录中扫描 GGUF 文件。用户还可以通过 --models-dir 参数指向本地模型目录。

主要功能包括自动发现模型、按需加载、LRU 淘汰机制和请求路由。当达到最大加载模型数时，最久未使用的模型会被卸载。用户可以通过请求中的 model 字段指定处理请求的模型。

示例包括与特定模型聊天、列出可用模型以及手动加载或卸载模型。所有模型实例继承路由器的设置，如上下文长度和 GPU 卸载选项。用户还可以通过配置文件定义每个模型的特定设置。

内置 Web UI 也支持模型切换，用户可以从下拉菜单中选择模型，它会自动加载。这一功能旨在简化模型 A/B 测试、多租户部署或开发过程中的模型切换。

背景阅读

llama.cpp 是一个开源项目，专注于在本地硬件上高效运行大型语言模型，特别支持 GGUF 格式。它由 Georgi Gerganov 开发，最初用于运行 Meta 的 Llama 模型，现已扩展支持多种模型。llama.cpp 服务器是其工具之一，提供类似 OpenAI API 的接口，便于本地部署和测试 AI 模型。模型管理功能是社区长期需求，旨在解决多模型切换时的重启问题，提升开发效率。类似工具如 Ollama 已提供模型管理，llama.cpp 的更新使其更具竞争力。这一发展反映了本地 AI 部署趋势，强调轻量化和灵活性，适用于研究、开发和边缘计算场景。

llama.cpp 服务器新增模型管理功能

背景阅读

相关阅读

Liquid AI 发布 LFM2.5：紧凑型 AI 模型家族，专为设备端智能体设计

普林斯顿Zlab发布LLM-Pruning Collection：基于JAX的大语言模型剪枝算法库

CUGA 登陆 Hugging Face：可配置 AI 智能体的民主化

评论 (0)