阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

2025-04-15 02:01

阿里通义实验室近日发布了一款名为 “OmniTalker” 的新型数字人视频生成大模型。这一创新模型的核心在于其能够通过上传一段参考视频，实现对视频中人物的表情、声音和说话风格的精准模仿。相较于传统的数字人制作流程，OmniTalker 显著降低了制作成本，同时提升了生成内容的真实感和互动体验，满足了广泛的应用需求。

通义 Qwen (4)

OmniTalker 的使用十分简便，用户只需在平台上上传一段参考视频，就能生成与之同步的音频和视频内容。目前，该项目已在魔搭社区和 HuggingFace 等平台开放体验，并提供了多种模板供用户自由使用，完全免费。为了让人们更直观地感受到这一技术的强大，阿里通义实验室展示了几段示例视频，观众几乎无法分辨出视频中的人物是由 AI 生成的还是实拍的，这让人感到震撼。

该模型的研发背景源于近年来语言大模型的迅猛发展，虚拟主播和虚拟助手的应用越来越广泛。然而，以往的文本驱动数字人生成研究相对较少，且传统方法通常采用级联流水线的方式，容易导致音画不同步、说话风格不一致等问题。OmniTalker 通过引入双分支 DiT 架构，能够同时从文本和参考视频中生成同步的语音和视频，从而克服了这些技术瓶颈。

在模型结构方面，OmniTalker 的设计由三大核心部分构成。首先，模型能够提取音频特征和视觉特征，确保两者在时间上的完美同步;其次，采用多模态特征融合模块，提升了音频和视频的整合效果;最后，经过预训练的解码器能够高效将合成的音视频特征转换为原始格式，保证输出的高质量。

通过实验数据的对比，OmniTalker 在音频生成和视觉效果方面都表现出色，显示出更低的错误率和更高的声音相似度，进一步证明了其在零样本条件下的强大能力。

项目页:https://top.aibase.com/tool/omnitalker

论文:https://arxiv.org/abs/2504.02433v1

体验页:https://huggingface.co/spaces/Mrwrichard/OmniTalker

免费用！阿里通义大模型上新，超逼真音视频生成SOTA！

近日，阿里通义实验室推出了全新数字人视频生成大模型 OmniTalker，只需上传一段参考视频，不仅能学会视频中人物的表情和声音，还能模仿说话风格。相比传统的数字人生产流程，该方法能够有效降低制作成本，提高生成内容的真实感和互动体验，满足更广泛的应用需求。目前该项目已在魔搭社区、HuggingFace 开放体验入口，并提供了十多个模板，所有人可以直接免费使用。

4/15/2025 1:28:00 PM

机器之心

人工智能（AI）技术的进步不仅改变了我们生活的方方面面，还在各行各业中展现出了巨大的潜力。AI 数字人，作为人工智能技术的一个重要分支，正在逐渐成为众多行业关注的焦点。这些虚拟的数字角色不仅具有逼真的外观和行为，还能够以超乎想象的方式与人类交互，从而提供全新的服务体验和业务机会。本文整理了 AI 数字人相关的基础概念、趋势报告、热点案例、AI 数字人平台和开源项目，以及作为设计师我们能用这些 AI 能力产出哪些有意思的工作。：一、AI 数字人基础概念 1. 什么是 AI 数字人？ "数字人"是指利用先进的计算机图

3/30/2024 8:46:09 AM

团队阿里健康设计

5000字爆肝测评！五月 AI 资讯及实用测评合集

前言想不想了解近期 AI 圈又发生了哪些劲爆大事件？赶紧来看这篇文章 get 第一手 AIGC 资讯和深度测评——没错，我们的AIGC 30天测评又和大家见面了。如今各类 AIGC 工具平台百花齐放，我们的测评致力于持续追踪最新的 AI 技术进展，将 AI 圈内发生的重大事件与工具进行深度实测并汇总成文，定期发布带给同学们，希望可以帮助大家快速了解最新的 AIGC 趋势，并可以及时地将这些 AI 工具结合到工作、学习与生活中，运用 AIGC 将自己的生活变得更加丰富多彩！此前，我们已经发布了第一期测评，如有需

6/5/2024 12:44:40 AM

团队新浪MDC

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 AI视频用哪个？6个知名的AI视频工具使用测评报告

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

阿里通义实验室推出新型数字人生成模型，音视频合成更真实！

相关资讯

免费用！阿里通义大模型上新，超逼真音视频生成SOTA！

阿里出品！用一篇文章帮你了解AI数字人行业

5000字爆肝测评！五月 AI 资讯及实用测评合集