DPG-Bench榜首!智谱开源文生图模型CogView4:支持中英文输入和生成,免费商用授权!

在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。 这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。 尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。

在图像生成技术的浪潮中,智谱开源再次引领潮流,推出了全新的文生图模型——CogView4。这款模型不仅支持中英双语提示词输入,更擅长理解和遵循中文指令,让创意表达无界限。尤为值得一提的是,CogView4开创了先河,成为首个能在画面中直接生成汉字的开源文生图模型,让文字与图像的融合更加自然流畅。

图片

不仅如此,CogView4还具备极高的灵活性,支持生成任意宽高比的图片,同时接受任意长度的提示词输入,满足用户多样化的创作需求。更令人期待的是,后续还将开源对应的Controlnet、Comfyui支持及模型微调工具,为用户带来更加便捷、高效的创作体验。

图片

在DPG-Bench基准测试中,CogView4凭借卓越的表现荣获综合评分第一,彰显了其在图像生成领域的强大实力。今年,图像模型领域终于迎来了新的突破,而CogView4无疑是这场变革中的佼佼者。

CogView4主要特点总结如下:

  • 支持中英双语提示词输入,擅长理解和遵循中文提示词
  • 首个能够在画面中生成汉字的开源文生图模型
  • 支持生成任意宽高的图片以及任意长度提示词输入

相关链接

  • 论文:https://arxiv.org/pdf/2403.05121
  • 项目:github.com/THUDM/CogView4
  • 模型:huggingface.co/THUDM/CogView4-6B
  • 试用:https://huggingface.co/spaces/THUDM-HF-SPACE/CogView4

图片

效果展示

图片

推理要求与模型介绍

  • 分辨率:宽度和高度必须介于512px和之间2048px,可被 整除32,并且确保最大像素数不超过2^21px。
  • 精度:BF16 / FP32(不支持 FP16,因为它会导致溢出,从而导致图像完全变黑) 使用BF16精度为batchsize=4进行测试,内存使用情况如下表所示:图片

模型指标

DFG-Bench

图片

GenEval

图片

T2I-CompBench

图片

Chinese Text Accuracy Evaluation

图片

相关资讯

一条神奇的指令,DeepSeek直接文生图

最近又发现一条神奇的提示词指令,借助Markdown的image标签可以直接在DeepSeek当前窗口得到我们想要的图片。 效果预览我们先看看这条指令的效果:图片这是岳哥在DeepSeek官网直接生成的一辆高铁行驶在海面上生成的图片,可以在DeepSeek上直接预览和下载图片。 提示词指令这条提示词指令具体如下:复制提示词解读这条这里分为3部分第一部分的描述性内容是告诉DeepSeek要生成AI图片,并且指出要如何生成第二部分的url则是具体的AI图片生成的指令,通过替换Prompt的内容来生成第三部分则是希望DeepSeek将AI绘画的提示词以中文的形式显示出来虽然是在DeepSeek当前窗口直接输出,但其实上这里还是借助了第三方AI绘画网站生成图片的功能。

夸克大模型应用为先加持夸克网盘深挖相册使用场景

2024年将是大模型应用落地的爆发年,这已经成为业界共识。夸克大模型自去年11月份发布以来,结合自身业务小步快跑,在夸克App上已经落地了多个应用。最近,夸克网盘结合春节场景和大模型技术,升级几项图片处理智能工具。夸克网盘即将上线的“春节图片故事”,是为用户春节期间拍摄上传的图片自动智能筛选生成合辑。该功能除了基于时间、地点两个维度筛选,还会基于人物智能筛选,并剔除掉过亮或过暗等不符合要求的图片。夸克网盘还会利用AI算法为图片合辑智能生成文案,比如鲜花影集的文案是“花与美妙人间”。此前,AI技术还被应用在夸克网盘相

特朗普遇刺照,用一张2100元?! 文章标题、配图,AI免费给你来一打

机器之能报道编辑:Sia大模型替代编辑小助理,比萝卜快跑替代司机,靠谱得多。据说,自媒体使用特朗普遇刺照片作为配图,一张付费 2100 元!随便下一张图片给文章配图的日子,一去不复返咯。不过,创作者们的麻烦并未到此为止。写完一篇公众号文章,接下来的十几分钟最让人抓耳挠腮:标题铺位,黄金地段,寸土寸金。除了突出内容亮点,还要确保标题足够吸引人点开看,这可比写文章难多了!啥?酒香不怕巷子深?在红海的公众号圈子里,这条行不通。也别灰心!磨合一段时间,我们发现,大模型在解决这两个日常挑战上,还挺管用。-1-最短时间起一个合