AIGC宇宙 AIGC宇宙

解决“佛跳墙、老婆饼”问题,联通开源首个完全在国产昇腾 AI 平台训练和推理的中文原生文生图模型“元景”

作者:汪淼
2025-01-08 06:01
同时通过引入海量中文图文对数据进行预训练,模型对中文专属名词,如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象,以及中文菜谱等英文模型无法理解的名词,都能够准确理解并生成对应的图片。

联通数据智能有限公司今日宣布开源首个完全在国产昇腾 AI 基础软硬件平台上实现训练和推理的中文原生文生图模型 —— 元景文生图模型

  • 在架构上,通过在 SDXL 架构中融合复合语言编码模块,实现了对中文长文本、多属性对应和中文特色词汇的精确语义理解,对应图像的生成效果得到了极大提升。

  • 在昇腾 AI 大规模算力集群上实现了中文原生文生图模型的训练和推理,并将模型和代码对业界开源,以推动文生图领域的国产化进程。

联通数据智能有限公司表示,当前的文生图主流模型以英文输入为主,中文原生的文生图模型研发则相对比较缓慢,这导致了模型对中文语义的理解能力不足,中文特色图片生成能力有限。

对此,元景文生图模型一方面将英文 CLIP 模型替换成中文 CLIP,使得模型中文短文本输入具有更好的理解能力;同时,引入复合语言编码架构,将基于 encoder-decoder 架构的语言模型引入了语言编码器部分,这使得模型能支持超过 CLIP 长度限制的长文本,实现更准确的中文语义理解和判断

元景中文文生图架构

元景中文文生图架构

通过引入复合语言编码模块,元景文生图模型实现了原生中文语义理解,避免了传统的利用翻译插件等作为中介调用英文文生图模型的方法所带来的中文信息损失。

同时通过引入海量中文图文对数据进行预训练,模型对中文专属名词,如鼠标-老鼠、仙鹤-吊车等英文模型易混淆的对象,以及中文菜谱等英文模型无法理解的名词,都能够准确理解并生成对应的图片。

提示词:鼠标、老鼠(在英文中均翻译成 mouse,易混淆)

▲ 提示词:鼠标、老鼠(在英文中均翻译成 mouse,易混淆)

提示词:仙鹤、吊车(在英文中均翻译成 crane,易混淆)

提示词:仙鹤、吊车(在英文中均翻译成 crane,易混淆)

提示词:佛跳墙、老婆饼(中文特色词汇)

提示词:佛跳墙、老婆饼(中文特色词汇)

提示词:一只身体毛发黑白相间的兔子正在草丛间啃胡萝卜

提示词:一只身体毛发黑白相间的兔子正在草丛间啃胡萝卜

提示词:在绿色的森林中,隐藏着一座白色的哥特式教堂,教堂的尖塔直指蓝色的天空,教堂周围是五彩斑斓的野花和浅黄色的草坪(中文长文本)

提示词:在绿色的森林中,隐藏着一座白色的哥特式教堂,教堂的尖塔直指蓝色的天空,教堂周围是五彩斑斓的野花和浅黄色的草坪(中文长文本)

中国联通在国产昇腾 AI 基础软硬件平台上实现了元景文生图模型从微调训练到推理的一体化适配。在微调训练方面,用户可使用自定义数据集,实现从其它平台至昇腾的平滑切换;在模型推理方面,接口与 Diffusers 对齐,支持单卡和多卡,单卡推理支持 UNet Cache 加速。

联通数据智能有限公司透露,目前,元景文生图模型已在联通内外部多个项目中成功应用。

目前,元景文生图模型已在 GitHub、Hugging Face、魔搭、始智等社区全面开源,AI在线附开源地址如下:

  • GitHub:https://github.com/UnicomAI/UniT2IXL.git

  • HuggingFace:https://huggingface.co/UnicomAI/UniT2IXL

  • 魔搭:https://www.modelscope.cn/UnicomAI/UniT2IXL.git

  • 始智:https://wisemodel.cn/models/UnicomAI/UniT2IXL

相关资讯

智谱开源文生图模型CogView4,支持中英双语提示词输入

智谱AI最新开源文生图模型CogView4正式亮相,CogView4不仅在参数数量上达到了6亿,还全面支持中文输入和中文文本到图像的生成,被称其为“首个能在画面中生成汉字的开源模型”。 CogView4以支持中英双语提示词输入为核心亮点,尤其擅长理解和遵循复杂的中文指令,成为中文内容创作者的福音。 作为首个能在图像中生成汉字的开源文生图模型,它填补了开源领域的一大空白。
3/4/2025 1:44:00 PM
AI在线

字节Seedream 3.0 文生图模型技术报告发布:多项性能大幅升级

字节跳动Seed团队正式发布了Seedream3.0文生图模型的技术报告。 这一模型在性能上实现了重大提升,是一个原生高分辨率、支持中英双语的图像生成基础模型,在分辨率、生图结构准确性等多方面取得突破,与上一版本相比优势显著。 Seedream3.0在不同维度上的表现。
4/16/2025 3:01:05 PM
AI在线

豆包深度思考和文生图3.0模型正式开放API 对企业客户开放

豆包大模型近日发布了系列更新,其中豆包1.5·深度思考模型和豆包文生图模型3.0正式通过火山引擎开放 API,供开发者和企业客户使用。 这两款模型在推理任务和通用任务的综合表现达到了业界前沿水平,并在视觉推理和图像生成方面取得了显著进展。 豆包1.5·深度思考模型在专业领域推理任务中表现出色,数学推理 AIME2024测试得分追平 OpenAI o3-mini-high,编程竞赛 Codeforces pass@8得分接近 OpenAI o1,科学推理 GPQA 得分接近 o3-mini-high,均达到或接近全球第一梯队。
4/17/2025 2:01:15 PM
AI在线