Hugging Face Transformers 库是处理前沿模型的标准工具,从实验性研究到自定义数据微调皆可胜任。其简洁性、灵活性和庞大的模型库使其成为快速开发的强大工具。当从开发环境转向生产环境时,推理性能变得至关重要,这正是 SGLang 的用武之地。SGLang 专为高吞吐量、低延迟推理设计,现已提供与 Transformers 的无缝后端集成。这意味着用户可以将 Transformers 的灵活性与 SGLang 的原始性能相结合。SGLang 现在支持 Hugging Face Transformers 作为后端,允许用户开箱即用地运行任何 Transformers 兼容的模型,并进行高性能推理。用户无需原生支持,SGLang 会在需要时自动回退到 Transformers,或者可以显式设置 impl="transformers"。通过新的 Transformers 后端集成,SGLang 现在可以自动回退使用其不原生支持的 Transformers 模型。这在实际中意味着:即时访问添加到 Transformers 的新模型,支持来自 Hugging Face Hub 的自定义模型,以及更少的工程开销。这解锁了更快的推理和优化的部署,同时不牺牲 Transformers 生态系统的简单性和多功能性。