英特尔和Hugging Face合作,展示了升级到谷歌云最新C4虚拟机的实际价值。C4虚拟机运行在英特尔至强6处理器上,专门针对OpenAI GPT OSS大型语言模型的文本生成性能进行了基准测试。结果显示,相比上一代谷歌C3虚拟机实例,总拥有成本提升了1.7倍。谷歌云C4虚拟机实例还带来了每核每美元吞吐量提升1.4倍到1.7倍,以及每小时价格降低。GPT OSS是OpenAI发布的开源专家混合模型,该模型使用专门的专家子网络和门控网络来决定为给定输入使用哪些专家。英特尔和Hugging Face合作合并了专家执行优化,消除了每个专家处理所有令牌的冗余计算,使每个专家仅在其路由到的令牌上运行,减少了浮点运算浪费并提高了利用率。基准测试在受控、可重复的生成工作负载下进行,以隔离架构差异和专家混合模型执行效率。测试模型为GPT OSS 120B BF16,任务为文本生成,输入和输出长度均为1024个令牌,批量大小从1到64不等。测试硬件包括C3虚拟机使用第四代英特尔至强处理器,拥有172个虚拟CPU;C4虚拟机使用英特尔至强6处理器,拥有144个虚拟CPU。创建虚拟机实例的步骤包括在谷歌云控制台中选择C3或C4配置,设置机器类型、CPU平台和操作系统存储。