别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

作者：AI好好用

2024-12-19 06:50

AI好好用报道编辑：杨文为了考住Veo2,也是难为人类了。总被 OpenAI 压着打的谷歌，终于扬眉吐气了！最近，谷歌连上几款大模型，个个备受好评。

AI好好用报道

编辑：杨文

为了考住Veo2,也是难为人类了。

总被 OpenAI 压着打的谷歌，终于扬眉吐气了！

最近，谷歌连上几款大模型，个个备受好评。

先是推出最强 AI 大模型 Gemini 2.0，接着又官宣了 AI 视频生成模型 Veo2，直接对着 OpenAI 的 Sora 贴脸开大。

据介绍，Veo2 能生成 2 分钟以上时长、4k 分辨率的视频，也能理解提示词中的相机控制指令，还能重建出符合真实世界的物理交互和人脸表情。

同时，在基于人类评估者的对比评估中整体表现远超对手。

（该图也侧面显示，在 AI 视频生成模型方面，中国真的冲到了第一梯队，成为谷歌也不容小觑的对手）

一众大佬也齐刷刷为其站台。

官方给出的演示视频也相当惊艳。

《权力与游戏》中的龙在高楼大厦间穿梭，这效果是不是吊打不少视觉特效师？

（视频来自X博主@shlomifruchter）

一只猫对着镜子中的自己咆哮，但它看到的却是自己像狮子一样在吼叫：

（Prompt:A cat roars while looking at its reflection in the mirror but instead sees itself as a lion roaring.）

谷歌 DeepMind 研究员 @babaeizadeh 还制作了一系列动画风格的土豆小人情景喜剧。

（Prompt:anime style footage of two potatoes having a sword fight. cinematic, fastpaced with a lot of shotcuts.)

不过，与几个月之前的 Sora 类似，Veo2 目前也尚未对公众开放。

这也意味着，社交平台上的 Veo2 生成视频，要么时官方精挑细选出来的，要么是科技博主们一手评测出来的。

此外，这些放出来的视频时长均为 8 秒，分辨率也不超过 720p。

Veo2 的实际效果究竟如何？

我们或许可以从科技博主的测评视频中找到一些端倪。

-1-

Veo2 也逃不过翻车的命运吗？

目前，已经有不少国外科技博主拿到了 Veo2 试用「门票」，并在社交平台上放出来各种测评视频。

从这些测评视频中，我们发现Veo2 确实进步一大截，但也存在不少老生常谈的问题。

并未完全理解物理世界

X 博主 @shlomifruchter 是谷歌 Deepmind Veo 的联合负责人。

他用 Veo2 生成了一系列将水果扔进水里的视频。

比如，把几颗饱满的蓝莓丢进水中，无论是蓝莓入水后的浮沉，还是泛起的水泡、溅起的水花，乍一看都没毛病，但一细究就会发现杯子的水位并没有上升。

（视频来自 X 博主 @shlomifruchter）

再比如铁球垂直砸入装满硬币的盒子，最初的「爆炸性」运动生成得很真实，但在「飞」走很多硬币后，盒子里又冒出了比开始还多的硬币。

（视频来自谷歌 DeepMind 成员.@hhm）

DeepMind 研究科学家 @MattMcGill_评论称，在没有感官反馈的情况下，视频生成模型很难像人类一样准确地模拟和修正物理现象，从而导致生成的视频中出现许多物理错误。

这就像在缺乏感官基础的梦境中，人可以漂浮着下楼梯，物体之间可以随意转换，时间可以变得非线性等。

并未严格遵循提示词

风投公司 a16z 合伙人 Justine Moore 也测试了几个 Prompt。

其中一个Prompt：giraffe librarian in a sweater and jeans putting books back on a shelf.（穿着毛衣和牛仔裤的长颈鹿图书管理员把书放回书架上。）

对于这个长颈鹿图书管理员的穿着，Veo2 领悟得很到位，但它并没有把书放回书架。

Justine Moore 在回复中表示，有 25% 到 50% 的情况下模型能够成功地完成任务或给出正确的结果。它在处理复杂任务、运动量大的场景以及分布外推理方面的能力有了显著提升，但仍有改进空间。

谷歌 DeepMind 成员@hhm 输入 Prompt: Bear writing the solution to 2x-1=0. But only the solution!（熊在写解方程 2x - 1 = 0 的解，但只写解！）

（视频来自 X 博主 @hhm）

黑板上确实呈现出正确的答案，只不过小熊并没有在写字，它只是拿着一块黑板而已。

手部细节生成异常

在某些细节方面，Veo2 也经不起推敲。

比如这个女孩在云端跳舞的视频，眼尖的观众会发现画面惊现三条胳膊。

还有下面这个一群人围坐在一起吃火锅的片段，右侧穿红衣服的女生一度出现 4 根手指，左下角的男生手部则不断扭曲虚化。

（Prompt：zoom out from hotpot to a group of friends eating.）

搞不定复杂的体育动作

对于 AI 来说，生成体操动作仍是一大难题。

这是因为 AI 需要能够捕捉到运动员在空中的旋转、翻转等动作，并且生成的视频要保持流畅和连贯。

同时运动员在翻转时可能出现身体部位的相互遮挡，这增加了模型生成视频时处理遮挡关系的难度。

下面这个 Veo2 生成的体操动作视频就是一个失败的案例：重力失灵、运动员腾空翻转时身体不正常扭曲等。

X 博主 @jerrod_lew 发布了一个 Veo2 生成的体育类视频合集，里面有多处诡异的情形。

网球拍击球的角度不正确，背后的力度看起来不够；跑步者的手突然反向运动，使得生成的动作不自然、不符合人体运动规律等。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

（视频来自 X 博主 @jerrod_lew）

还有这个机器人和人类踢足球的视频，人类和机器人的手臂会互相穿过；在无人触碰的情况下，球会自己旋转移动等。

（Prompt:Soccer of the future, mixing people and robots. This is a fragment from a 2024 cinematic movie.）

-2-

国外科技博主横评

不少博主还发布了 Veo 2 和其他视频生成模型对比的视频。

Prompt: A pair of hands skillfully slicing a ripe tomato on a wooden cutting board.
提示词：双手熟练地在木菜板上切成熟的西红柿。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

Prompt: An astronaut exploring an underwater alien shipwreck.

提示词：宇航员探索水下外星沉船。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

Prompt：A bartender making an old-fashioned cocktail.

提示词：调酒师正在调制老式鸡尾酒。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

Prompt: A video of a person sitting in a cafe with a coffee. After a bit, cuts to another viewpoint to reveal that a person nearby table is writing a letter to them.
提示词：一个人坐在咖啡馆喝咖啡的视频。过了一会儿，切到另一个视角，发现旁边桌子上的一个人正在给他们写信。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

Prompt: A sloth playing a game of Jenga made of a bunch of donuts.
提示词：一只树懒正在玩由一堆甜甜圈制成的 Jenga 游戏。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

Prompt: a tracking shot, follows an ice skater gliding across an ice rink that appears to be floating amidst the clouds.
提示词：跟踪镜头，一名滑冰者滑过溜冰场，溜冰场漂浮在云层中。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

Prompt: NYC drone footage. Hyperlapse during the night. Brooklyn bridge.
提示词：纽约无人机镜头，夜间延时摄影，布鲁克林大桥。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

X 博主 @blizaine 还用同一套提示词分别测试了 Veo 2、Sora、Runway、Luma、Pika、hailuoAI、可灵 1.5、混元。

别急着捧杀谷歌Veo2，毕竟曾被吹上天的Sora也翻了车

尽管在科技博主的一番测评下，Veo2 吊打其他对手，但我们还是想说，先别急着下结论，毕竟曾经的 Sora 也一度被捧上天，最后还是逃不掉翻车的命运。

文中视频链接：https://mp.weixin.qq.com/s/Gzfq7QpMLjvrJCYpQX9vHA

参考链接：

https://x.com/blizaine/status/1868850653759783033

https://x.com/doomie/status/1868735125003157841

https://x.com/emollick/status/1868897308529787248

https://x.com/jerrod_lew/status/1868771525660381410

https://x.com/DaBrusi/status/1869019445550825680

https://x.com/venturetwins/status/1869112033817641161

https://x.com/agrimgupta92/status/1868745017571131582

https://x.com/shlomifruchter/status/1868741814985044257

https://x.com/AngryTomtweets/status/1868954948282503533

世界首个 AI 程序员 Devin 视频竟造假？博主逐帧解析，Devin 代码任务完成很糟糕

【新智元导读】全球首个 AI 程序员 Devin 被爆视频造假？YouTube 博主近日揭露了背后明星初创公司 Cognition 的谎言，通过逐帧分析发现，Devin 并不能独立完成 Upwork 工作。全网爆火的世界首个 AI 程序员 Devin，如今被爆出视频竟是作假？最近，一位有 35 年软件工程师经验的 YouTube 博主去逐帧复现了，Devin 完成 Upwork 任务的宣传视频。却意外发现，AI 并不能像人类工程师一样完成任务，而且非常糟糕。他将 25 分钟「揭穿 Devin 的谎言」视频公开后，一

4/14/2024 12:47:11 PM

清源