AIGC宇宙 AIGC宇宙

阿里通义实验室推出新型数字人生成模型,音视频合成更真实!

作者:AI在线
2025-04-15 02:01
阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。 这一创新模型的核心在于其能够通过上传一段参考视频,实现对视频中人物的表情、声音和说话风格的精准模仿。 相较于传统的数字人制作流程,OmniTalker 显著降低了制作成本,同时提升了生成内容的真实感和互动体验,满足了广泛的应用需求。

阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。这一创新模型的核心在于其能够通过上传一段参考视频,实现对视频中人物的表情、声音和说话风格的精准模仿。相较于传统的数字人制作流程,OmniTalker 显著降低了制作成本,同时提升了生成内容的真实感和互动体验,满足了广泛的应用需求。

通义 Qwen (4)

OmniTalker 的使用十分简便,用户只需在平台上上传一段参考视频,就能生成与之同步的音频和视频内容。目前,该项目已在魔搭社区和 HuggingFace 等平台开放体验,并提供了多种模板供用户自由使用,完全免费。为了让人们更直观地感受到这一技术的强大,阿里通义实验室展示了几段示例视频,观众几乎无法分辨出视频中的人物是由 AI 生成的还是实拍的,这让人感到震撼。

image.png

该模型的研发背景源于近年来语言大模型的迅猛发展,虚拟主播和虚拟助手的应用越来越广泛。然而,以往的文本驱动数字人生成研究相对较少,且传统方法通常采用级联流水线的方式,容易导致音画不同步、说话风格不一致等问题。OmniTalker 通过引入双分支 DiT 架构,能够同时从文本和参考视频中生成同步的语音和视频,从而克服了这些技术瓶颈。

在模型结构方面,OmniTalker 的设计由三大核心部分构成。首先,模型能够提取音频特征和视觉特征,确保两者在时间上的完美同步;其次,采用多模态特征融合模块,提升了音频和视频的整合效果;最后,经过预训练的解码器能够高效将合成的音视频特征转换为原始格式,保证输出的高质量。

通过实验数据的对比,OmniTalker 在音频生成和视觉效果方面都表现出色,显示出更低的错误率和更高的声音相似度,进一步证明了其在零样本条件下的强大能力。

项目页:https://top.aibase.com/tool/omnitalker

论文:https://arxiv.org/abs/2504.02433v1

体验页:https://huggingface.co/spaces/Mrwrichard/OmniTalker

相关资讯

免费用!阿里通义大模型上新,超逼真音视频生成SOTA!

近日,阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker,只需上传一段参考视频,不仅能学会视频中人物的表情和声音,还能模仿说话风格。 相比传统的数字人生产流程,该方法能够有效降低制作成本,提高生成内容的真实感和互动体验,满足更广泛的应用需求。 目前该项目已在魔搭社区、HuggingFace 开放体验入口,并提供了十多个模板,所有人可以直接免费使用。
4/15/2025 1:28:00 PM
机器之心

阿里出品!用一篇文章帮你了解AI数字人行业

人工智能(AI)技术的进步不仅改变了我们生活的方方面面,还在各行各业中展现出了巨大的潜力。AI 数字人,作为人工智能技术的一个重要分支,正在逐渐成为众多行业关注的焦点。这些虚拟的数字角色不仅具有逼真的外观和行为,还能够以超乎想象的方式与人类交互,从而提供全新的服务体验和业务机会。本文整理了 AI 数字人相关的基础概念、趋势报告、热点案例、AI 数字人平台和开源项目,以及作为设计师我们能用这些 AI 能力产出哪些有意思的工作。 :一、AI 数字人基础概念 1. 什么是 AI 数字人? "数字人"是指利用先进的计算机图
3/30/2024 8:46:09 AM
团队阿里健康设计

5000字爆肝测评!五月 AI 资讯及实用测评合集

前言 想不想了解近期 AI 圈又发生了哪些劲爆大事件?赶紧来看这篇文章 get 第一手 AIGC 资讯和深度测评——没错,我们的AIGC 30天测评又和大家见面了。 如今各类 AIGC 工具平台百花齐放,我们的测评致力于持续追踪最新的 AI 技术进展,将 AI 圈内发生的重大事件与工具进行深度实测并汇总成文,定期发布带给同学们,希望可以帮助大家快速了解最新的 AIGC 趋势,并可以及时地将这些 AI 工具结合到工作、学习与生活中,运用 AIGC 将自己的生活变得更加丰富多彩! 此前,我们已经发布了第一期测评,如有需
6/5/2024 12:44:40 AM
团队新浪MDC