​字节跳动推出 OmniHuman-1:让一张照片变成会说话生动的虚拟人

想象一下,仅凭一张照片,就能在几秒钟内看到这个人说话、做动作,甚至进行表演,这就是字节跳动推出的 OmniHuman-1的魅力所在。 这款近期在网上走红的人工智能模型,可以通过生成高度逼真的视频,使静态图像焕发活力,配合音频片段,实现口型同步、全身肢体动作和丰富的面部表情。 与传统的深度伪造技术不同,OmniHuman-1不仅仅局限于人脸替换,而是能够完整地动画化整个身躯,包括自然的手势、姿态,以及与物体的互动。

想象一下,仅凭一张照片,就能在几秒钟内看到这个人说话、做动作,甚至进行表演,这就是字节跳动推出的 OmniHuman-1的魅力所在。这款近期在网上走红的人工智能模型,可以通过生成高度逼真的视频,使静态图像焕发活力,配合音频片段,实现口型同步、全身肢体动作和丰富的面部表情。

image.png

与传统的深度伪造技术不同,OmniHuman-1不仅仅局限于人脸替换,而是能够完整地动画化整个身躯,包括自然的手势、姿态,以及与物体的互动。无论是一个政客在发表演讲、一个历史人物被复活,还是一个虚拟角色在唱歌,该模型正在促使我们重新思考视频创作的方式。

OmniHuman-1的亮点在于其出色的逼真度和功能性。它不仅可以动画化人脸,还能提供令人印象深刻的口型同步和细腻的情感表达。无论是高分辨率的肖像照,还是低质量的快照,甚至是风格化的插图,OmniHuman-1都能够智能适应,实现流畅而可信的动态效果。

该技术的核心在于其创新的 “全条件” 训练策略,使用多种输入信号(如音频片段、文本提示和姿态参考)同时进行训练,使 AI 能够更准确地预测动作,特别是在涉及复杂的手势和情感表达时。字节跳动还利用了一个庞大的18700小时的人类视频数据集,极大地提升了生成内容的自然感。

然而,OmniHuman-1的出现也带来了诸多伦理和安全问题。例如,其高度真实的生成能力可能会被用于传播虚假信息、身份盗窃和数字伪装。此外,字节跳动在推出该技术时,必须采取强有力的监管措施,比如数字水印和内容真实性追踪,以防止滥用。各国政府和科技组织正在努力制定监管政策,以应对这一迅速发展的领域。

未来,OmniHuman-1在社交媒体、电影、游戏和虚拟影响力方面都有巨大的应用潜力。字节跳动的这一创新不仅推动了 AI 生成技术的发展,也在全球科技竞争中增添了新的变数。

项目:https://omnihuman-lab.github.io/

划重点:

🌟 OmniHuman-1是字节跳动推出的 AI 模型,可以将一张照片转化为生动的动态视频。  

🤖 该模型动画化的是整个人体,而不仅仅是人脸,具有自然的动作和情感表达。  

🔒 由于其可能带来的深度伪造风险,字节跳动在推出时需采取严格的监管措施。  

相关资讯

​字节跳动推出 OmniHuman:从单张照片生成逼真全身动态视频

字节跳动的研究团队近日开发出一款名为 OmniHuman 的人工智能系统,能够将单张照片转化为逼真的视频,展示人物的讲话、歌唱以及自然的动作。 这一突破性技术有望彻底改变数字娱乐和通讯领域。 OmniHuman 能够生成全身视频,展现人物在讲话时的手势和动态,超越了以往仅能动画面部或上半身的 AI 模型。

字节最新OmniHuman数字人模型即将上线即梦

近期,即梦AI在官方社交媒体上发布了一条新功能上线预告片。 视频显示,采用了全新的多模态视频生成模型OmniHuman,用户仅需输入一张图片和一段音频,就可以生成一条生动的AI视频,有望大幅提升AI短片的制作效率和质量。 图片来自即梦AI视频号内容截图OmniHuman技术主页信息显示,该模型为字节跳动自研的闭源模型,可支持肖像、半身以及全身等不同尺寸的图片输入,并根据输入的音频,在视频中让人物生成与之匹配的动作,包括演讲、唱歌、乐器演奏以及移动。

降低门槛,全平台应用,昇腾还会手把手地教你如何用AI

机器之心报道作者:泽南如何才能做到 AI 应用一次开发,全场景部署?昇腾给出了答案。如今的大多数 AI 应用程序都需要跑在多种类型的处理器上,覆盖数十个版本的操作系统,运行在从端侧到云计算集群的各种设备上。这样复杂的环境,对软件的适应性和模型的可裁剪、可伸缩性提出了极高要求。AI 开源框架也在顺应这股潮流,昇腾发布的 CANN、MindSpore、MindX 等工具,可以让开发者实现「统一端边云,全端自动部署」,开启了机器学习开发的新时代,一直被人们寄予厚望。昇腾的 AI 全栈软件平台。其中,基础架构作为连接硬件与