杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

2024-06-18 03:53

AI圈这遍地开花的大好局面，让吃瓜群众们甚是惊喜。这几天，大洋彼岸杀疯了！Luma 的热乎劲儿还没过去，昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。（查看详情请移步：Runway 版 Sora 发布：高保真、超强一致性，Gen-3 Alpha 震撼到网友了）更没想到的是，一觉醒来，Google DeepMind 也有了新消息，悄咪咪地发布了视频生成语音（V2A）技术的进展。虽然这一功能还未向公众开放，不过从官方放出的视频 Demo 来看，效果那是相当丝滑。同时，Google DeepMind 强

AI圈这遍地开花的大好局面，让吃瓜群众们甚是惊喜。

这几天，大洋彼岸杀疯了！

Luma 的热乎劲儿还没过去，昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。（查看详情请移步：Runway 版 Sora 发布：高保真、超强一致性，Gen-3 Alpha 震撼到网友了）

更没想到的是，一觉醒来，Google DeepMind 也有了新消息，悄咪咪地发布了视频生成语音（V2A）技术的进展。

虽然这一功能还未向公众开放，不过从官方放出的视频 Demo 来看，效果那是相当丝滑。同时，Google DeepMind 强调，所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。

音频提示: 紧张刺激的恐怖片配乐，脚步声在混凝土上回响。（Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete）杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

黑灯瞎火的废弃仓库中，一个黑衣人犹如鬼魅般缓行，再配上诡异的音乐和脚步声，恐怖气氛拉满。

音频提示: 狼在月光下的长嚎。（Wolf howling at the moon）杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

视频 Demo 一出，评论区清一水的追问：啥时候能用？

还有网友寄希望于开源社区当一回赛博菩萨，复制谷歌的这一技术。

其实，就在 Google DeepMind 官宣没多久，AI 音频领域的「扛把子」ElevenLabs 横插一脚，开源了一个上传视频自动配音的项目，可以为视频生成合适的音效。

链接：

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的竞争已呈白热化，大小厂的你追我赶将会创造更加公平的竞争环境，而一旦这些技术成熟，AI 视频领域将会有无限可能。

AI 视频告别无声电影

众所周知，视频生成模型正以惊人的速度发展。不过，无论是年初惊艳世人的 Sora，还是近期的可灵、Luma、Gen-3 Alpha，生成的全是「无声电影」，无一例外。

而 Google DeepMind 的视频生成音频 (V2A) 技术，使得同步的视听生成成为可能。它可以结合视频像素和自然语言文本提示，为屏幕上的动作生成丰富的配音。

从技术应用上来说，V2A 技术能够与 Veo 等视频生成模型结合，创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。

它还能为档案材料、无声电影等传统影像生成音轨，拓宽创作的可能。

音频提示: 可爱的幼年恐龙在丛林中啁啾，伴随着蛋壳的破裂声。（Cute baby dinosaur chirps, jungle ambience, egg cracking）杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！音频提示: 汽车打滑声、引擎轰鸣声，伴随着天使般的电子音乐。（cars skidding, car engine throttling, angelic electronic music）音频提示: 日落时分，草原上响起悠扬的口琴声。（a slow mellow harmonica plays as the sun goes down on the prairie）杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以选择定义「正向提示」来引导生成期望的声音，或者「负向提示」来避免不期望的声音。

这种灵活性让用户对音频输出有了更多的控制，可以快速尝试不同的音频输出，并选择最佳匹配。

音频提示：一艘宇宙飞船在浩瀚的太空中疾驰，星星在它周围划过，高速飞行，充满科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！音频提示：天籁般的大提琴氛围（Ethereal cello atmosphere）音频提示：一艘宇宙飞船在广袤的太空中高速穿梭，星星在它周围飞速掠过，具有科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

背后的工作原理

研究团队尝试了自回归和扩散方法，以发现最可扩展的 AI 架构。扩散方法在音频生成上给出了最真实和引人入胜的结果，用于同步视频和音频信息。

V2A 系统首先将视频输入编码成压缩表示，然后扩散模型从随机噪声中迭代细化音频。这个过程由视觉输入和给定的自然语言提示指导，生成与提示紧密对齐的同步、逼真音频。最终，音频输出被解码成音频波形，并与视频数据结合。

为了生成更高质量的音频并引导模型生成特定声音，研究团队在训练过程中添加了更多信息，包括 AI 生成的注释，详细描述声音和对话文本。

通过在视频、音频和额外注释上的训练，该技术学会将特定的音频事件与各种视觉场景关联起来，同时响应注释或文本中提供的信息。

谷歌方面强调，他们的技术与现有的视频到音频解决方案都不同，因为它可以理解原始像素，并且添加文本提示是可选的。此外，该系统不需要手动对生成的声音与视频进行对齐，极大地简化了创作流程。杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

不过，谷歌的这一技术也并非完美，他们仍在努力解决一些 bug。例如，视频输入的质量直接影响音频输出的质量，视频中的伪影或失真可能导致音频质量下降。

同时，他们也在优化唇形同步功能。

V2A 技术尝试从输入文本中生成语音，并将其与角色的口型动作进行同步，但若视频模型未针对文本内容进行相应的调整，就可能导致口型与语音不同步。他们正改进这一技术，以提升唇形同步的自然度。杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

音频提示：音乐，文本转录「这只火鸡看起来好极了，我好饿。」（Music, Transcript: “this turkey looks amazing, I’m so hungry”）

或许是由于深度伪造技术带来诸多社会问题，Google DeepMind 求生欲满满，一个劲承诺将负责任开发和部署 AI 技术，在向公众开放之前，V2A 技术将经过严格的安全评估和测试。

此外，他们还整合了 SynthID 工具包到 V2A 研究中，为所有 AI 生成的内容添加水印，以防止技术的滥用。

参考链接：

https://deepmind.google/discover/blog/generating-audio-for-video/

https://x.com/GoogleDeepMind/status/1802733643992850760

Runway 发布第三代视频生成模型，90 秒生成 10 秒片段

专为电影和图像内容创作者打造生成式 AI 工具的公司 Runway 发布了 Gen-3 Alpha 视频生成模型。IT之家附 Gen-3 Alpha 官方网站：表示，与其之前的旗舰视频模型 Gen-2 相比，该模型在生成速度和保真度方面有了“重大”改进，并且对生成视频的结构、风格和运动提供了细粒度的控制。Gen-3 将在未来几天内向 Runway 订阅用户提供，包括企业客户和 Runway 创意合作伙伴计划中的创作者。Runway 联合创始人 Anastasis Germanidis 表示，Gen-3 的视频生成

6/18/2024 10:10:02 AM

沛霖（实习）

Runway版Sora发布：高保真、超强一致性，Gen-3 Alpha震撼到网友了

虽然生成的视频只有10秒左右，但在清晰度、细节、角色一致性等方面看起来可以匹敌现有一切视频生成模型。刚刚，AI视频生成初创公司Runway推出了新的视频生成基础模型Gen-3 Alpha。该模型可以创建具有复杂场景变化、多种电影风格和详细艺术指导的高精细视频。Runway表示，Gen-3 Alpha是即将推出的一系列模型中的首个。系列模型是在为大规模多模态训练而构建的新基础设施上训练的。与Gen-2相比，Gen-3 Alpha在保真度、一致性和运动性方面有了重大改进，并朝着构建通用世界模型迈出了重要一步。在博客中，

6/18/2024 2:48:00 PM

机器之心

Runway 王者归来！发布新模型 Gen-3 Alpha，直接对标 Sora

大家好，这里是和你们一起探索 AI 的花生。自 OpenAI 发布 Sora，将文生视频拉高到一个新的高度后，各家 AI 视频工具都在努力升级模型、添加新功能，以期在这场竞赛中保住自己的一席之地，比如 Pika 已经推出了风格选择、视频配音、唇形一致等多种功能，Vidu、Kling 则是类 Sora 的新模型，在生成效果上已经十分接近 Sora。而曾经的领军产品 Runway 却始终都没有什么动静，因此很多人都在担心它未来的发展。最近 Runway 终于放出大招，发布了第三代模型 Gen-3 Alpha，它各方

6/20/2024 8:25:46 AM

夏花生

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

相关资讯

Runway 发布第三代视频生成模型，90 秒生成 10 秒片段

Runway版Sora发布：高保真、超强一致性，Gen-3 Alpha震撼到网友了

Runway 王者归来！发布新模型 Gen-3 Alpha，直接对标 Sora