谷歌云C4虚拟机与英特尔、Hugging Face合作,GPT OSS总拥有成本降低70%

1 天前·来源:Hugging Face Blog
谷歌云英特尔Hugging FaceGPT OSSAI推理

英特尔和Hugging Face合作,展示了升级到谷歌云最新C4虚拟机的实际价值。在英特尔至强6处理器上运行的C4虚拟机,相比上一代C3虚拟机,总拥有成本提升了1.7倍。该优化通过专家执行优化,减少了冗余计算,提高了CPU推理效率。

英特尔和Hugging Face合作,展示了升级到谷歌云最新C4虚拟机的实际价值。C4虚拟机运行在英特尔至强6处理器上,专门针对OpenAI GPT OSS大型语言模型的文本生成性能进行了基准测试。结果显示,相比上一代谷歌C3虚拟机实例,总拥有成本提升了1.7倍。谷歌云C4虚拟机实例还带来了每核每美元吞吐量提升1.4倍到1.7倍,以及每小时价格降低。GPT OSS是OpenAI发布的开源专家混合模型,该模型使用专门的专家子网络和门控网络来决定为给定输入使用哪些专家。英特尔和Hugging Face合作合并了专家执行优化,消除了每个专家处理所有令牌的冗余计算,使每个专家仅在其路由到的令牌上运行,减少了浮点运算浪费并提高了利用率。基准测试在受控、可重复的生成工作负载下进行,以隔离架构差异和专家混合模型执行效率。测试模型为GPT OSS 120B BF16,任务为文本生成,输入和输出长度均为1024个令牌,批量大小从1到64不等。测试硬件包括C3虚拟机使用第四代英特尔至强处理器,拥有172个虚拟CPU;C4虚拟机使用英特尔至强6处理器,拥有144个虚拟CPU。创建虚拟机实例的步骤包括在谷歌云控制台中选择C3或C4配置,设置机器类型、CPU平台和操作系统存储。

背景阅读

GPT OSS是OpenAI发布的开源专家混合模型,这是一种深度神经网络架构,通过使用专门的专家子网络和门控网络,能够高效扩展模型容量而不线性增加计算成本。专家混合模型允许不同专家学习不同技能,适应多样化的数据分布。即使参数规模很大,每个令牌也只激活一小部分专家,这使得CPU推理成为可能。英特尔和Hugging Face的合作优化了专家执行,减少了冗余计算,提高了推理效率。谷歌云C4虚拟机是基于英特尔至强6处理器的新一代实例,旨在提供更高的性能和成本效益。总拥有成本是衡量技术投资回报的关键指标,包括硬件、软件、维护和运营成本。这一合作展示了通过硬件升级和软件优化,如何在AI模型推理中实现显著的性能提升和成本节约。

评论 (0)

登录后参与评论

加载评论中...