AIGC宇宙 AIGC宇宙

字节Seedream 3.0追平GPT-4o入文生图第一梯队!即梦、豆包全量上线,技术报告公开

作者:新闻助手
2025-04-16 02:54
文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称,字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型,进入全球第一梯队。 Seedream 3.0是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。 据Seedream 3.0技术报告,Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。

文生图领域权威的第三方榜单Artificial Analysis竞技场发布消息称,字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,稳定超越Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型,进入全球第一梯队。

截屏2025-04-16 10.25.01

Seedream 3.0是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。据Seedream 3.0技术报告,Seedream3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,无需后处理即可实现 2K 分辨率图像直出,适配多比例场景,同时针对小字体高保真生成、多行文本排版等业界难题,模型也取得了突破性的效果表现。

值得一提的是,Seedream 3.0在3秒左右即可快速生成1K分辨率的高品质内容,相比之下,业界同类模型生成该分辨率内容的耗时基本在10秒以上,而此前文生图SOTA模型GPT-4o平均耗时为77秒。

1280X1280 (3)

图注:Seedream3.0 技术报告中评测结果

豆包大模型团队推文介绍称,Seedream3.0研发始于2024年末,通过调研设计师等群体的实际需求,团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向,同时,也将挑战小字生成与复杂文本排版、2K高清直出、快速图片生成等难题作为核心目标。

针对2K分辨率、多尺寸图像直出能力实现,团队借助了Transformers 架构对变长输入序列的灵活处理能力,在从 512x512 到 2048x2048 的多种分辨率和不同长宽比上混合训练,让模型实现不经过额外深加工的高清直出,同时也支持多种分辨率输出。

为支持快速生成高品质图像,模型采用自研推理加速算法,依靠一致性噪声预测,叠加重要时间步采样,最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下,Seedream 3.0 生成1K分辨率图像仅需 3 秒。

1280X1280 (9)

图注:Seedream3.0输出图像细节丰富,蝴蝶绒毛根根分明

Seedream3.0还大幅提升了小字体高保真生成、多行文本语义排版表现,满足设计师对海报设计的需求。团队在预训练阶段,引入跨模态旋转位置编码,补足传统方法模态特征对齐短板,进一步加强了文字渲染能力。

Seedream3.0模型可完成小字生成、多行文本排版,并兼顾画面美感

图注:Seedream3.0模型可完成小字生成、多行文本排版,并兼顾画面美感

据Seedream团队介绍,相比此前2.0版本,Seedream 3.0 在数据和RLHF阶段也使用了全新方案。团队采用缺陷感知的训练策略,使有效数据集扩充超过20%,同时设计了精准的美感描述维度,并进一步拓展RLHF奖励模型,使Seedream 3.0 具备多维度质量判别能力,综合性能大幅提升。

Seedream3.0在美感等方面较2.0进一步提升

图注:Seedream3.0在美感等方面较2.0进一步提升

Seedream团队表示,“新模型在海报创作、生成效率、结构与美感等方面取得了明显进步,但在生成可用性、美感与结构、智能化方面仍有提升空间。”

据了解,未来,团队计划探索更高效的结构设计,包括构建效果更好、成本更低、生成更快的文生图模型,并进一步拓展模型对世界知识的理解,赋予模型交织生成等能力。同时,团队也计划探索数据、模型量级、奖励模型等维度的Scaling现象,将认知积累应用于下一代模型中。

Seedream 3.0 技术报告:https://arxiv.org/abs/2504.11346

Seedream 3.0 官方网页:https://team.doubao.com/zh/tech/seedream3_0

相关资讯

字节Seedream 3.0 文生图模型技术报告发布:多项性能大幅升级

字节跳动Seed团队正式发布了Seedream3.0文生图模型的技术报告。 这一模型在性能上实现了重大提升,是一个原生高分辨率、支持中英双语的图像生成基础模型,在分辨率、生图结构准确性等多方面取得突破,与上一版本相比优势显著。 Seedream3.0在不同维度上的表现。
4/16/2025 3:01:05 PM
AI在线

Mogao=Seedream 3.0?霸榜数天,神秘文生图模型曝光(附技术报告)

霸榜数天的神秘文生图模型 Mogao,什么来头? 这两天,不少业内人已在询问「这个魔法般模型」的出处。 有人对模型效果颇为认可,好奇如何体验。
4/16/2025 2:18:00 PM
机器之心

豆包文生图技术报告发布!数据处理、预训练、RLHF全流程公开

今天,豆包大模型团队正式发布文生图技术报告,首次公开 Seedream 2.0 图像生成模型技术细节,覆盖数据构建、预训练框架、 后训练 RLHF 全流程。 该报告针对 Seedream 2.0 原生中英双语理解、文字渲染、高美感、分辨率与画幅变换等特性的实现,进行了具体介绍。 本文将呈现其中精华内容,报告完整版可通过下方链接获取:技术展示页:: Seedream 2.0 于 2024 年 12 月初在豆包 APP 和即梦上线,已服务上亿 C 端用户,并成为国内许多专业设计师辅助创作的首选模型。
3/18/2025 8:00:00 AM
豆包大模型团队