Z.ai开源GLM-Image在复杂文本渲染上超越谷歌Nano Banana Pro

5 天前·来源:VentureBeat
Z.aiGLM-Image图像生成开源模型文本渲染

中国初创公司Z.ai发布了开源图像生成模型GLM-Image。该模型在复杂文本渲染基准测试中击败谷歌的Nano Banana Pro。GLM-Image采用混合架构,专为信息密集的视觉内容生成设计。

2026年AI领域的两大焦点是Anthropic的Claude Code使用量和赞誉度激增,以及谷歌去年底发布的Gemini 3 AI模型系列用户采用率大幅提升。后者包括Nano Banana Pro,这是一个强大、快速且灵活的图像生成模型,能快速准确地渲染复杂、文本密集的信息图,非常适合企业使用。然而,这些都是专有产品。开源竞争对手并未落后太远。本周,在精确、文本密集的图像生成器类别中,出现了一个新的开源替代品GLM-Image。这是来自最近上市的中国初创公司Z.ai的一个新的160亿参数开源模型。通过放弃行业标准的“纯扩散”架构,转而采用混合自回归加扩散设计,GLM-Image实现了之前被认为是封闭专有模型领域的性能:在生成文本密集、信息丰富的视觉内容方面达到最先进水平。在CVTG-2k基准测试中,GLM-Image的平均单词准确率为0.9116。相比之下,Nano Banana Pro的得分为0.7788。当文本区域数量增加时,Nano Banana Pro的准确率保持在70%左右,而GLM-Image即使有多个不同文本元素,准确率仍超过90%。对于企业用例,这种可靠性是关键区别。

背景阅读

图像生成模型是AI领域的重要分支,近年来发展迅速。早期模型如DALL-E和Stable Diffusion基于扩散架构,能生成高质量图像,但在处理复杂文本渲染时存在局限性。谷歌的Gemini系列模型,包括Nano Banana Pro,通过改进架构提升了文本生成能力,成为企业级应用的标杆。开源模型如Flux 2等也在追赶专有模型。GLM-Image的发布标志着开源模型在特定任务上的突破,其混合架构结合了自回归和扩散方法的优势,专注于信息密集视觉内容的生成,这可能推动AI图像生成技术的多样化和应用扩展。背景中,中国AI初创公司如Z.ai在开源贡献方面日益活跃,反映了全球AI生态的竞争与合作态势。

评论 (0)

登录后参与评论

加载评论中...