字节跳动推出 OmniHuman：从单张照片生成逼真全身动态视频

作者：AI在线

2025-02-05 10:56

字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统，能够将单张照片转化为逼真的视频，展示人物的讲话、歌唱以及自然的动作。这一突破性技术有望彻底改变数字娱乐和通讯领域。 OmniHuman 能够生成全身视频，展现人物在讲话时的手势和动态，超越了以往仅能动画面部或上半身的 AI 模型。

字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统，能够将单张照片转化为逼真的视频，展示人物的讲话、歌唱以及自然的动作。这一突破性技术有望彻底改变数字娱乐和通讯领域。

OmniHuman 能够生成全身视频，展现人物在讲话时的手势和动态，超越了以往仅能动画面部或上半身的 AI 模型。这项技术的核心在于，它结合了文本、音频和人体动作等多种输入，通过一种称为 “全条件” 训练的创新方法，使得 AI 能够从更大、更丰富的数据集中学习。

研究团队指出，OmniHuman 经过超过18700小时的人类视频数据训练，表现出了显著的进步。通过引入多种条件信号（例如文本、音频和姿势），这项技术不仅提升了视频生成的质量，还有效减少了数据的浪费。

研究人员在一篇发表在 arXiv 的论文中提到，尽管近年来人类动画的端到端技术取得了显著进展，现有方法在扩大应用规模方面仍存在局限性。

OmniHuman 的应用潜力广泛，可以用于制作演讲视频、演示乐器演奏等。经过测试，该技术在多个质量基准上均优于现有系统，显示出其卓越的性能。这一发展出现在 AI 视频生成技术日益竞争激烈的背景下，谷歌、Meta 和微软等公司也在积极追逐类似技术。

然而，尽管 OmniHuman 为娱乐制作、教育内容创作及数字通讯带来了变革的可能，但也引发了关于合成媒体潜在误用的担忧。研究团队将在即将召开的计算机视觉会议上展示他们的研究成果，虽然具体的时间和会议尚未公布。

论文:https://arxiv.org/pdf/2502.01061

划重点:
🌟 OmniHuman 是一款新型 AI，能够将单张照片转化为逼真的全身视频。
📊 该技术经过18700小时的人类视频数据训练，结合多种输入信号以提升生成效果。
⚖️ 尽管具有广泛应用潜力，但也引发了关于合成媒体可能被滥用的担忧。

字节跳动推出 OmniHuman：从单张照片生成逼真全身动态视频

相关资讯

字节跳动 OmniHuman 多模态视频生成模型即将上线，图片 + 音频便可生成视频

字节跳动推出 OmniHuman-1：让一张照片变成会说话生动的虚拟人

字节最新OmniHuman数字人模型即将上线即梦

​字节跳动推出 OmniHuman：从单张照片生成逼真全身动态视频

相关资讯

字节跳动 OmniHuman 多模态视频生成模型即将上线，图片 + 音频便可生成视频

​字节跳动推出 OmniHuman-1：让一张照片变成会说话生动的虚拟人

字节最新OmniHuman数字人模型即将上线即梦

字节跳动推出 OmniHuman：从单张照片生成逼真全身动态视频

字节跳动推出 OmniHuman-1：让一张照片变成会说话生动的虚拟人