智谱AI的GLM-Image模型采用自回归语言模型与扩散解码器结合架构,参数量达160亿。该模型擅长生成包含文本和知识密集型内容的图像。架构分为两个专业模块:基于GLM-4语言模型的90亿参数自回归模块首先生成图像的语义表示,通过令牌逐级构建内容与布局结构;70亿参数的扩散解码器随后将其细化为1024至2048像素的高分辨率图像。
GLM-Image的核心创新在于使用语义令牌分解图像,而非传统的VQVAE令牌。语义令牌同时携带颜色信息和语义含义,能识别区域代表文本、人脸或背景。智谱AI表示,这种方法加速训练并提高输出可靠性。对于高分辨率生成,模型先创建约256个令牌的紧凑预览以锁定基本布局,再生成1024至4096个令牌的最终图像,避免直接生成高分辨率图像导致可控性下降。
在文本渲染方面,GLM-Image集成了Glyph-byT5模块,逐字符处理文本区域,显著改善文本外观,尤其对中文字符效果明显。由于语义令牌已包含足够语义信息,解码器无需单独的大型文本编码器,从而降低内存需求和计算量。训练完成后,智谱AI使用强化学习分别微调两个模块:自回归模块针对美学和内容准确性进行优化,评估图像是否匹配提示且文本可读;扩散解码器则专注于视觉质量训练,如纹理正确性和手部渲染准确性,团队为此构建了专门的评估模型。这种分模块训练方法允许独立调整内容与视觉方面,互不干扰。
对于图像编辑和风格迁移,GLM-Image同时处理语义令牌和原始图像数据。相比Qwen-Image-Edit模型,GLM-Image采用更高效的方法:缓存参考图像的中间结果并重复使用,而非完全交叉引用参考图像和目标图像,智谱AI称这节省计算资源而不影响性能。