港科大开源VideoVAE+,视频重建质量全面超越最新模型

港科大团队重磅开源 VideoVAE ,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。 论文地址:: 模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer,同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video,CogvideoX VAE,WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。 什么是 VideoVAE 模型VideoVAE 模型(Video Variational Autoencoder)是一种基于深度学习的生成模型,用于对视频数据进行压缩、重建和生成,讲视频从 RGB 像素空间投影到低维度的 latent 空间。

港科大团队重磅开源 VideoVAE+,提出了一种强大的跨模态的视频变分自编码器(Video VAE),通过提出新的时空分离的压缩机制和创新性引入文本指导,实现了对大幅运动视频的高效压缩与精准重建,同时保持很好的时间一致性和运动恢复。

图片

  • 论文地址:https://arxiv.org/abs/2412.17805
  • 代码已开源:https://github.com/VideoVerses/VideoVAEPlus

VideoVAE + 模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer,同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video,CogvideoX VAE,WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。

港科大开源VideoVAE+,视频重建质量全面超越最新模型

什么是 VideoVAE 模型

VideoVAE 模型(Video Variational Autoencoder)是一种基于深度学习的生成模型,用于对视频数据进行压缩、重建和生成,讲视频从 RGB 像素空间投影到低维度的 latent 空间。常用于结合 Diffusion 生成模型组成两阶段的模型结构:即先通过 VideoVAE 的编码器(Encoder)实现压缩数据维度,去除冗余信息,再在低维 latent 空间用 diffusion 模型进行 latent 生成,最后通过 VideoVAE 的解码器(Decoder)将 latent 解码到 RGB 视频,从而实现降低计算资源,更加高效的生成。

目前方法

一些方法直接采用图像 VAE 进行逐帧压缩,忽略了帧与帧之间的时间关联性,导致视频生成过程中出现严重的时序闪烁问题。此外,时间维度上的冗余信息未被充分压缩,使得后续的扩散模型训练效率低下,成本高昂。

另外,最近很多方法开始使用 VideoVAE,考虑时间维度,但仍存在诸多问题。包括细节模糊和失真(比如面部、手部、边缘和文本),以及重建大幅运动的视频时,出现运动卡顿(缺乏连贯及合理的时序过渡)和伪影等问题。

图片

图 1:该研究将该研究的方法和一众优秀工作包括 Open Sora Plan, Open Sora, CV-VAE, CogVideoX-VAE, Easy Animate-VAE 进行了视觉对比,VideoVAE + 能够准确重建大幅运动的视频,并且有效解决了运动卡顿,重建模糊,细节缺失等问题。

方法

为了解决上述问题,VideoVAE + 提出了一种新的 cross-modal Video VAE 架构,其设计的关键点包括:

1. 时空分离的压缩机制:提出一种时序感知的空间压缩方法,有效分离空间和时间信息处理,避免因时空耦合而导致的运动伪影。

2. 轻量级运动压缩模型:专门设计了一个模型用于时序压缩,高效捕获视频中的运动动态。

3. 文本信息融合:利用文本到视频数据集中的文本信息作为指导,提高视频细节的保留能力和时间稳定性。

4. 图像和视频的联合训练:通过在图像和视频数据上的联合训练,增强了模型在多任务上的重建性能和适应性。

图片

文章对比了三种时空建模方法:同步建模、顺序建模以及该研究提出的最优时空建模方案。

  • 方式 1 同时建模:通过将预训练的 2D 空间 VAE 扩展为 3D VAE 实现,进行时间和空间的同步压缩。然而,这种方法在捕捉时间动态时容易导致信息混淆,影响生成质量。
  • 方式 2 顺序建模:先通过空间编码器压缩空间维度,再用时间编码器压缩时间信息。但这种方式对时序细节的处理较为有限,容易出现时序一致性问题。
  • 该研究的方法:该研究结合两种方法的优势,提出最优的时空建模策略。

该研究的方案具体包括时序感知的空间自编码器(Temporal-aware Spatial AutoEncoder)和时序自编码器(Temporal Autoencoder):

在第一阶段,该研究将 2D 卷积扩展为核大小为 (1,3,3) 的 3D 卷积,并与同时建模类似,同时添加了额外的 3D 卷积层来建模时序维度,该研究将第一阶段的模型称为时序感知的空间自编码器。但与方式 1 同时建模不同的是,在第一阶段中,该研究仅压缩空间信息,而不压缩时序信息。

在第二阶段中,该研究引入了另一个时序自编码器(Temporal Autoencoder)来进一步编码和压缩时间维度信息,这作为第二阶段的压缩部分。该研究遵循方式 2 的时间编码器和解码器设计。通过这种方式该研究同时实现了更好的细节恢复能力和运动恢复能力。

同时,该研究提出引入跨模态信息,通过文本指导进一步增强视频生成的细节保留和时间一致性。

该技术的主要特点有:

1. 智能特征分块

将视频的视觉特征图分割成小块(patch),并将它们作为 token 进行处理,不同层采用多种尺寸(8×8、4×4、2×2、1×1),确保每层特征的细节追踪到位。

2. 跨模态注意力机制

首次在 Video VAE 任务上引入文本信息作为语义指导,让视觉 token(作为 Query)与文本嵌入(作为 Key 和 Value)计算跨模态注意力,提升细节重建质量。

3. 强大的文本嵌入器

采用先进的 Flan-T5 模型,将文字转化为语义向量,为视频生成提供坚实的语义基础。

其次,该研究采用了图像与视频的联合训练。模型能够同时接受图像和视频作为训练数据,既学习图像压缩能力,又提升视频压缩性能。在训练中该研究观察到,加入更多高质量的图像数据,能进一步增强视频自编码性能。

结果

该研究提供了 latent 在 16 channel 和 4 channel 两个版本的模型,以及在三个不同的数据集上对效果进行了全面评测。

该研究的 VideoVAE + 模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer,同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video,CogvideoX VAE, WF-VAE,CV-VAE,Open Sora,Open Sora Plan, Easy Animate-VAE。

图片

同时该研究提供了 Demo video 可以更直观地查看模型的视觉效果。

相关资讯

百分点认知智能实验室:基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术,命名实体识别(Named Entity Recognition, NER)是信息抽取的基础任务之一,其目标是抽取文本中具有基本语义的实体单元,在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集,一旦数据标注质量下降,模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立,越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议(NLPCC 2020)针对此业

关键点检测项目代码开源了!

作者:闫永强,算法工程师,Datawhale成员 本文通过自建手势数据集,利用YOLOv5s检测,然后通过开源数据集训练squeezenet进行手部关键点预测,最后通过指间的夹角算法来判断具体的手势,并显示出来。文章第四部分为用C 实现整体的ncnn推理(代码较长,可先马后看)一、YOLOV5训练手部检测训练及部署思路类似表情识别,需要将handpose数据集标签改成一类,只检测手部,简化流程,更易上手。此部分数据集来源格物钛  ,具体的效果如图:本教程所用训练环境:系统环境:Ubuntu16.04cuda版本:

5 个章节、25 条规范,全方位 Get 数据集选择与创建的「百科全书」

内容一览:如果你正在学习如何创建或选择一个合适的数据集,那么这篇文章会给你一些实用的建议,帮助你在选择和创建数据集时做出明智的决策。 关键词:机器学习 数据集