Groq 成为 Hugging Face 推理服务提供商

1 天前·来源:Hugging Face Blog
GroqHugging FaceAI推理LPU开源模型

Groq 现已作为推理服务提供商加入 Hugging Face Hub。Groq 支持多种文本和对话模型,包括 Meta Llama 4 和 Qwen QWQ-32B 等开源模型。其核心技术是语言处理单元,旨在为大型语言模型提供低延迟和高吞吐量的推理服务。

Groq 已成为 Hugging Face Hub 支持的推理服务提供商,增强了在 Hub 模型页面上直接进行无服务器推理的广度和能力。推理服务提供商也无缝集成到客户端 SDK 中,使得使用各种模型变得非常容易。Groq 支持多种文本和对话模型,包括最新的开源模型,如 Meta 的 Llama 4 和 Qwen 的 QWQ-32B。Groq 技术的核心是语言处理单元,这是一种新型端到端处理单元系统,为具有顺序组件的大型语言模型等计算密集型应用提供最快的推理。LPU 旨在克服 GPU 在推理方面的限制,提供显著更低的延迟和更高的吞吐量,使其非常适合实时 AI 应用。Groq 为公开可用的模型提供快速的 AI 推理,提供一个 API,允许开发者轻松将这些模型集成到他们的应用中。它提供按需付费模式,用于访问广泛的公开可用 LLM。现在,您可以在 Hugging Face 上使用 Groq 的推理 API 作为推理服务提供商。在网站 UI 中,用户可以在账户设置中设置自己的 API 密钥,并按偏好排序提供商。模型页面展示第三方推理服务提供商,这些提供商与当前模型兼容,并按用户偏好排序。从客户端 SDK 中,例如使用 Python 的 huggingface_hub,可以通过 Hugging Face 令牌自动路由或使用自己的 Groq API 密钥来调用模型。

背景阅读

Hugging Face Hub 是一个流行的平台,用于托管和共享机器学习模型,特别是自然语言处理模型。它提供模型库、数据集和社区功能,支持开发者轻松访问和部署 AI 模型。推理服务提供商是 Hugging Face 生态系统的一部分,允许用户通过第三方服务运行模型推理,而无需自行部署基础设施。Groq 是一家专注于 AI 推理硬件的公司,其语言处理单元技术旨在优化大型语言模型的性能,提供比传统 GPU 更高效的推理解决方案。近年来,随着 AI 模型的规模扩大,推理速度和成本成为关键挑战,推动了专用硬件如 LPU 的发展。这一合作反映了 AI 行业向更高效、可扩展的推理服务发展的趋势。

评论 (0)

登录后参与评论

加载评论中...