在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。
不仅如此,CogView4还具备极高的灵活性,支持生成任意宽高比的图片,同时接受任意长度的提示词输入,满足用户多样化的创作需求。更令人期待的是,后续还将开源对应的Controlnet、Comfyui支持及模型微调工具,为用户带来更加便捷、高效的创作体验。
在DPG-Bench基准测试中,CogView4凭借卓越的表现荣获综合评分第一,彰显了其在图像生成领域的强大实力。今年,图像模型领域终于迎来了新的突破,而CogView4无疑是这场变革中的佼佼者。
CogView4主要特点总结如下:
- 支持中英双语提示词输入,擅长理解和遵循中文提示词
- 首个能够在画面中生成汉字的开源文生图模型
- 支持生成任意宽高的图片以及任意长度提示词输入
相关链接
- 论文:https://arxiv.org/pdf/2403.05121
- 项目:github.com/THUDM/CogView4
- 模型:huggingface.co/THUDM/CogView4-6B
- 试用:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4
效果展示
推理要求与模型介绍
- 分辨率:宽度和高度必须介于512px和之间2048px,可被 整除32,并且确保最大像素数不超过2^21px。
- 精度:BF16 / FP32(不支持 FP16,因为它会导致溢出,从而导致图像完全变黑) 使用BF16精度为batchsize=4进行测试,内存使用情况如下表所示: