DPG-Bench榜首！智谱开源文生图模型CogView4：支持中英文输入和生成，免费商用授权！

作者：AIGC Studio

2025-03-11 10:00

在图像生成技术的浪潮中，智谱开源再次引领潮流，推出了全新的文生图模型——CogView4。这款模型不仅支持中英双语提示词输入，更擅长理解和遵循中文指令，让创意表达无界限。尤为值得一提的是，CogView4开创了先河，成为首个能在画面中直接生成汉字的开源文生图模型，让文字与图像的融合更加自然流畅。

在图像生成技术的浪潮中，智谱开源再次引领潮流，推出了全新的文生图模型——CogView4。这款模型不仅支持中英双语提示词输入，更擅长理解和遵循中文指令，让创意表达无界限。尤为值得一提的是，CogView4开创了先河，成为首个能在画面中直接生成汉字的开源文生图模型，让文字与图像的融合更加自然流畅。

不仅如此，CogView4还具备极高的灵活性，支持生成任意宽高比的图片，同时接受任意长度的提示词输入，满足用户多样化的创作需求。更令人期待的是，后续还将开源对应的Controlnet、Comfyui支持及模型微调工具，为用户带来更加便捷、高效的创作体验。

在DPG-Bench基准测试中，CogView4凭借卓越的表现荣获综合评分第一，彰显了其在图像生成领域的强大实力。今年，图像模型领域终于迎来了新的突破，而CogView4无疑是这场变革中的佼佼者。

CogView4主要特点总结如下：

支持中英双语提示词输入，擅长理解和遵循中文提示词
首个能够在画面中生成汉字的开源文生图模型
支持生成任意宽高的图片以及任意长度提示词输入

相关链接

论文：https://arxiv.org/pdf/2403.05121
项目：github.com/THUDM/CogView4
模型：huggingface.co/THUDM/CogView4-6B
试用：https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

效果展示

推理要求与模型介绍

分辨率：宽度和高度必须介于512px和之间2048px，可被整除32，并且确保最大像素数不超过2^21px。
精度：BF16 / FP32（不支持 FP16，因为它会导致溢出，从而导致图像完全变黑）使用BF16精度为batchsize=4进行测试，内存使用情况如下表所示：

模型指标

DFG-Bench

GenEval

T2I-CompBench

Chinese Text Accuracy Evaluation

相关标签：

数据模型图片

相关资讯

一条神奇的指令，DeepSeek直接文生图

一条神奇的指令，DeepSeek直接文生图

最近又发现一条神奇的提示词指令，借助Markdown的image标签可以直接在DeepSeek当前窗口得到我们想要的图片。效果预览我们先看看这条指令的效果：图片这是岳哥在DeepSeek官网直接生成的一辆高铁行驶在海面上生成的图片，可以在DeepSeek上直接预览和下载图片。提示词指令这条提示词指令具体如下：复制提示词解读这条这里分为3部分第一部分的描述性内容是告诉DeepSeek要生成AI图片，并且指出要如何生成第二部分的url则是具体的AI图片生成的指令，通过替换Prompt的内容来生成第三部分则是希望DeepSeek将AI绘画的提示词以中文的形式显示出来虽然是在DeepSeek当前窗口直接输出，但其实上这里还是借助了第三方AI绘画网站生成图片的功能。

夸克大模型应用为先加持夸克网盘深挖相册使用场景

夸克大模型应用为先加持夸克网盘深挖相册使用场景

2024年将是大模型应用落地的爆发年，这已经成为业界共识。夸克大模型自去年11月份发布以来，结合自身业务小步快跑，在夸克App上已经落地了多个应用。最近，夸克网盘结合春节场景和大模型技术，升级几项图片处理智能工具。夸克网盘即将上线的“春节图片故事”，是为用户春节期间拍摄上传的图片自动智能筛选生成合辑。该功能除了基于时间、地点两个维度筛选，还会基于人物智能筛选，并剔除掉过亮或过暗等不符合要求的图片。夸克网盘还会利用AI算法为图片合辑智能生成文案，比如鲜花影集的文案是“花与美妙人间”。此前，AI技术还被应用在夸克网盘相

特朗普遇刺照，用一张2100元？！文章标题、配图，AI免费给你来一打

特朗普遇刺照，用一张2100元？！文章标题、配图，AI免费给你来一打

机器之能报道编辑：Sia大模型替代编辑小助理，比萝卜快跑替代司机，靠谱得多。据说，自媒体使用特朗普遇刺照片作为配图，一张付费 2100 元！随便下一张图片给文章配图的日子，一去不复返咯。不过，创作者们的麻烦并未到此为止。写完一篇公众号文章，接下来的十几分钟最让人抓耳挠腮：标题铺位，黄金地段，寸土寸金。除了突出内容亮点，还要确保标题足够吸引人点开看，这可比写文章难多了！啥？酒香不怕巷子深？在红海的公众号圈子里，这条行不通。也别灰心！磨合一段时间，我们发现，大模型在解决这两个日常挑战上，还挺管用。-1-最短时间起一个合

资讯热榜

DeepSeek+Drawio一键生成20多种图表，90%都不知道的技巧（附保姆级教程）使用 VLLM 部署 DeepSeek：基于 Ubuntu 22.04 + RTX 4090 + Docker 的完整指南大模型系列：DeepSeek大模型与应用场景介绍 Ollama的配置修改与接口调用一条神奇的指令，DeepSeek直接文生图我用 Claude Sonnet 和 DeepSeek R1 开发一个同样的工具，看谁更厉害！ 3秒出结果！如何用DeepSeek把用户差评变成设计方案？从DeepSeek看IT行业的未来：如何通过智能搜索技术提升企业竞争力

标签云