智谱发布首个能生成汉字的开源文生图模型CogView4

36
2025-03-05

2025年3月4日,北京智谱华章科技有限公司宣布推出首个支持生成汉字的开源文生图模型——CogView4。该模型在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的SOTA(State of the Art),并遵循Apache2.0协议,是首个支持该协议的图像生成模型。


CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,并能生成任意分辨率的图像。它不仅能够生成高质量的图像,还能在画面中自然地融入汉字,满足广告、短视频等领域的创意需求。技术上,CogView4采用了具备双语能力的GLM-4encoder,通过中英双语图文训练,实现了双语提示词输入能力。



该模型还支持任意长度的提示词输入,能够生成任意分辨率的图像,极大地提升了创作自由度和训练效率。CogView4采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码支持不同分辨率的图像生成。此外,模型采用Flow-matching方案进行扩散生成建模,结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。


在架构设计上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计了独立的自适应LayerNorm层,以实现模态间的高效适配。模型采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练,确保生成的图像具有高美感并符合人类偏好。


CogView4还突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300token时,与固定512token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。


此外,CogView4支持Apache2.0协议,后续将陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也即将推出。

78465
文章来源于网络,如有侵权请联系本站删除
精选二手好课
更多>>
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
次卡|昆明海伦国际七田阳光早教课100节
早教课
¥9000
次卡|西安A索国际早教转课,还剩129节,赠送4节课!
早教课
¥9000
次卡|海口本人在高米早教课有100节,打包9000
早教课
¥9000
次卡|济南市中区欧亚大观金宝贝幼儿早教中心课程
早教课
¥9000
次卡|深圳小马快跑早教,200多一节课现在转让140一节
早教课
¥9400
次卡|北京转纽约国际早教,9800,75节课,可以上蓝色港湾店等很多店
早教课
¥9800
次卡|[new]泰州[右]NYC纽约国际泰州早教中心[右]年卡出售[hot]
早教课
¥9850
年卡|西安西安麦吉森林托育课程一个月➕15天
早教课
¥9999
73
AI资讯

智谱发布首个能生成汉字的开源文生图模型CogView4

收录于合集

2025年3月4日,北京智谱华章科技有限公司宣布推出首个支持生成汉字的开源文生图模型——CogView4。该模型在DPG-Bench基准测试中综合评分排名第一,成为开源文生图模型中的SOTA(State of the Art),并遵循Apache2.0协议,是首个支持该协议的图像生成模型。


CogView4具备强大的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,并能生成任意分辨率的图像。它不仅能够生成高质量的图像,还能在画面中自然地融入汉字,满足广告、短视频等领域的创意需求。技术上,CogView4采用了具备双语能力的GLM-4encoder,通过中英双语图文训练,实现了双语提示词输入能力。



该模型还支持任意长度的提示词输入,能够生成任意分辨率的图像,极大地提升了创作自由度和训练效率。CogView4采用了二维旋转位置编码(2D RoPE)来建模图像位置信息,并通过内插位置编码支持不同分辨率的图像生成。此外,模型采用Flow-matching方案进行扩散生成建模,结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。


在架构设计上,CogView4延续了上一代的Share-param DiT架构,并为文本和图像模态分别设计了独立的自适应LayerNorm层,以实现模态间的高效适配。模型采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练,确保生成的图像具有高美感并符合人类偏好。


CogView4还突破了传统固定token长度的限制,允许更高的token上限,并显著减少了训练过程中的文本token冗余。当训练caption的平均长度在200-300token时,与固定512token的传统方案相比,CogView4减少了约50%的token冗余,并在模型递进训练阶段实现了5%-30%的效率提升。


此外,CogView4支持Apache2.0协议,后续将陆续增加ControlNet、ComfyUI等生态支持,全套的微调工具包也即将推出。

78465
收录于合集
文章来源于网络,如有侵权请联系本站删除
二手好课
更多>>
次卡|宁波哈喽贝比早教课时托班
早教课
¥8800
次卡|泰安克莱沃(金色雨林)早教课。配合更名。 还余76节课。一口价8890转。
早教课
¥8890
次卡|昆明海伦国际七田阳光早教课100节
早教课
¥9000
次卡|西安A索国际早教转课,还剩129节,赠送4节课!
早教课
¥9000
次卡|海口本人在高米早教课有100节,打包9000
早教课
¥9000
次卡|济南市中区欧亚大观金宝贝幼儿早教中心课程
早教课
¥9000
次卡|深圳小马快跑早教,200多一节课现在转让140一节
早教课
¥9400
次卡|北京转纽约国际早教,9800,75节课,可以上蓝色港湾店等很多店
早教课
¥9800
次卡|[new]泰州[右]NYC纽约国际泰州早教中心[右]年卡出售[hot]
早教课
¥9850
年卡|西安西安麦吉森林托育课程一个月➕15天
早教课
¥9999