中国首个 Sora 级模型 Vidu 发布：可生成最长 16 秒、最高 1080P 视频

2024-04-27 01:17

感谢生数科技今天出席中关村论坛未来人工智能先锋论坛，携手清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型 ——Vidu，被媒体和业内人士认为是国内首个 Sora 级别的视频大模型。根据官方描述，Vidu 模型融合 Diffusion 与 Transformer，开创性创建了 U-ViT，支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。官方宣传资料中演示了“画室中的一艘船驶向镜头”、其海浪、船的效果非常逼真。官方表示 Vidu 不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生

感谢生数科技今天出席中关村论坛未来人工智能先锋论坛，携手清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型 ——Vidu，被媒体和业内人士认为是国内首个 Sora 级别的视频大模型。

根据官方描述，Vidu 模型融合 Diffusion 与 Transformer，开创性创建了 U-ViT，支持一键生成长达 16 秒、分辨率高达 1080P 的高清视频内容。

官方宣传资料中演示了“画室中的一艘船驶向镜头”、其海浪、船的效果非常逼真。

中国首个 Sora 级模型 Vidu 发布：可生成最长 16 秒、最高 1080P 视频

官方表示 Vidu 不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。

Vidu 是自 Sora 发布之后，全球率先取得重大突破的视频大模型，性能全面对标国际顶尖水平，并在加速迭代提升中。

Vidu 的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。

其核心技术 U-ViT 架构由团队于 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个 Diffusion 与 Transformer 融合的架构。

2023 年 3 月，团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser，率先完成了 U-ViT 架构的大规模可扩展性验证。

中国首个 Sora 级模型 Vidu 发布：可生成最长 16 秒、最高 1080P 视频

IT之家附上参考地址

中国首个长时长、高一致性、高动态性视频大模型，Vidu 登场！

30 秒让照片动起来，首个国产纯自研视频大模型 Vidu 上线

感谢首个国产纯自研视频大模型 Vidu 上线，目前向用户开放了文生视频、图生视频两大核心功能，提供 4 秒和 8 秒两种时长选择，分辨率最高为 1080P。用户无需申请，使用邮箱注册即可体验。 AI在线附 Vidu 官网：www.vidu.studioVidu 模型于今年 4 月在 2024 中关村论坛首次亮相，由清华大学与生数科技联合发布，其核心技术 U-ViT 架构由团队在 2022 年 9 月提出，早于 Sora 采用的 DiT 架构，是全球首个 Diffusion 与 Transformer 融合的架构。▲

8/1/2024 4:44:43 PM

沛霖（实习）