智谱AI GLM-Image采用语义令牌区分人脸与字体

4 天前·来源:The Decoder
智谱AIGLM-Image图像生成语义令牌AI模型

智谱AI发布GLM-Image模型,结合自回归语言模型与扩散解码器。该模型使用语义令牌技术,提升图像生成中文本渲染和内容准确性。分模块训练方法独立优化美学内容和视觉质量。

智谱AI的GLM-Image模型采用自回归语言模型与扩散解码器结合架构,参数量达160亿。该模型擅长生成包含文本和知识密集型内容的图像。架构分为两个专业模块:基于GLM-4语言模型的90亿参数自回归模块首先生成图像的语义表示,通过令牌逐级构建内容与布局结构;70亿参数的扩散解码器随后将其细化为1024至2048像素的高分辨率图像。

GLM-Image的核心创新在于使用语义令牌分解图像,而非传统的VQVAE令牌。语义令牌同时携带颜色信息和语义含义,能识别区域代表文本、人脸或背景。智谱AI表示,这种方法加速训练并提高输出可靠性。对于高分辨率生成,模型先创建约256个令牌的紧凑预览以锁定基本布局,再生成1024至4096个令牌的最终图像,避免直接生成高分辨率图像导致可控性下降。

在文本渲染方面,GLM-Image集成了Glyph-byT5模块,逐字符处理文本区域,显著改善文本外观,尤其对中文字符效果明显。由于语义令牌已包含足够语义信息,解码器无需单独的大型文本编码器,从而降低内存需求和计算量。训练完成后,智谱AI使用强化学习分别微调两个模块:自回归模块针对美学和内容准确性进行优化,评估图像是否匹配提示且文本可读;扩散解码器则专注于视觉质量训练,如纹理正确性和手部渲染准确性,团队为此构建了专门的评估模型。这种分模块训练方法允许独立调整内容与视觉方面,互不干扰。

对于图像编辑和风格迁移,GLM-Image同时处理语义令牌和原始图像数据。相比Qwen-Image-Edit模型,GLM-Image采用更高效的方法:缓存参考图像的中间结果并重复使用,而非完全交叉引用参考图像和目标图像,智谱AI称这节省计算资源而不影响性能。

背景阅读

GLM-Image是智谱AI在图像生成领域的最新进展,基于其GLM系列语言模型技术。图像生成模型通常分为自回归和扩散两类:自回归模型如DALL-E通过序列预测生成图像,擅长内容控制但分辨率有限;扩散模型如Stable Diffusion通过去噪过程生成高分辨率图像,但可控性较弱。GLM-Image的创新在于结合两者优势,使用语义令牌作为中间表示,这类似于多模态模型中的统一表示方法,如Google的PaLM-E。语义令牌技术允许模型在训练中更高效地学习图像语义结构,提升对复杂内容如文本和人脸的区分能力。在行业背景下,智谱AI作为中国AI公司,其GLM系列模型与OpenAI的GPT、Anthropic的Claude等竞争,GLM-Image的发布展示了在图像生成领域的技术突破,特别是在中文文本渲染方面,这可能针对本地化需求优化。分模块训练方法反映了当前AI模型开发趋势,即通过模块化设计提高训练效率和模型可控性。

评论 (0)

登录后参与评论

加载评论中...