NeoBeta - AI 科技资讯

智谱AI的GLM-Image模型采用自回归语言模型与扩散解码器结合架构，参数量达160亿。该模型擅长生成包含文本和知识密集型内容的图像。架构分为两个专业模块：基于GLM-4语言模型的90亿参数自回归模块首先生成图像的语义表示，通过令牌逐级构建内容与布局结构；70亿参数的扩散解码器随后将其细化为1024至2048像素的高分辨率图像。

GLM-Image的核心创新在于使用语义令牌分解图像，而非传统的VQVAE令牌。语义令牌同时携带颜色信息和语义含义，能识别区域代表文本、人脸或背景。智谱AI表示，这种方法加速训练并提高输出可靠性。对于高分辨率生成，模型先创建约256个令牌的紧凑预览以锁定基本布局，再生成1024至4096个令牌的最终图像，避免直接生成高分辨率图像导致可控性下降。

在文本渲染方面，GLM-Image集成了Glyph-byT5模块，逐字符处理文本区域，显著改善文本外观，尤其对中文字符效果明显。由于语义令牌已包含足够语义信息，解码器无需单独的大型文本编码器，从而降低内存需求和计算量。训练完成后，智谱AI使用强化学习分别微调两个模块：自回归模块针对美学和内容准确性进行优化，评估图像是否匹配提示且文本可读；扩散解码器则专注于视觉质量训练，如纹理正确性和手部渲染准确性，团队为此构建了专门的评估模型。这种分模块训练方法允许独立调整内容与视觉方面，互不干扰。

对于图像编辑和风格迁移，GLM-Image同时处理语义令牌和原始图像数据。相比Qwen-Image-Edit模型，GLM-Image采用更高效的方法：缓存参考图像的中间结果并重复使用，而非完全交叉引用参考图像和目标图像，智谱AI称这节省计算资源而不影响性能。

背景阅读

GLM-Image是智谱AI在图像生成领域的最新进展，基于其GLM系列语言模型技术。图像生成模型通常分为自回归和扩散两类：自回归模型如DALL-E通过序列预测生成图像，擅长内容控制但分辨率有限；扩散模型如Stable Diffusion通过去噪过程生成高分辨率图像，但可控性较弱。GLM-Image的创新在于结合两者优势，使用语义令牌作为中间表示，这类似于多模态模型中的统一表示方法，如Google的PaLM-E。语义令牌技术允许模型在训练中更高效地学习图像语义结构，提升对复杂内容如文本和人脸的区分能力。在行业背景下，智谱AI作为中国AI公司，其GLM系列模型与OpenAI的GPT、Anthropic的Claude等竞争，GLM-Image的发布展示了在图像生成领域的技术突破，特别是在中文文本渲染方面，这可能针对本地化需求优化。分模块训练方法反映了当前AI模型开发趋势，即通过模块化设计提高训练效率和模型可控性。

智谱AI GLM-Image采用语义令牌区分人脸与字体

背景阅读

相关阅读

腾讯AngelSlim升级，推出首个多模态投机采样训练框架

Claude Code 更新引入懒加载工具搜索功能

Anthropic 发布 Claude Cowork AI 代理，实现文件管理与任务自动化

评论 (0)