AIGC宇宙 AIGC宇宙

模态编码器|CLIP技术改进之EVA-CLIP

作者:Goldma
2025-04-07 05:30
上一篇看了EVA,趁热打铁,今天来看EVA-CLIP,同样是智源曹越团队的工作,主要研究主题是结合EVA改进CLIP。 研究动机:训练CLIP模型面临计算成本高和训练不稳定等挑战,尤其是在扩大模型规模时。 因此,这项工作的研究动机是提供一种高效且有效的解决方案,以促进更大规模CLIP模型的训练和发展。

模态编码器|CLIP技术改进之EVA-CLIP

上一篇看了EVA,趁热打铁,今天来看EVA-CLIP,同样是智源曹越团队的工作,主要研究主题是结合EVA改进CLIP。

研究动机:训练CLIP模型面临计算成本高和训练不稳定等挑战,尤其是在扩大模型规模时。因此,这项工作的研究动机是提供一种高效且有效的解决方案,以促进更大规模CLIP模型的训练和发展。

图片

01、方法介绍

图片

简单介绍下EVA-CLIP与CLIP相比做了哪些改进:

  • 初始化:为了改善特征表示并加速CLIP模型的收敛,采用预训练的EVA模型来初始化EVA-CLIP的图像编码器。具体来说,预训练的EVA模型已经在大规模图像数据集上进行了预训练,能够提供高质量的视觉特征表示。通过使用这些预训练的权重来初始化CLIP模型的图像编码器,可以显著提高模型的初始性能,并加快训练过程。
  • 优化器:训练大规模CLIP模型通常需要非常大的批量大小,这会带来高昂的计算成本和训练不稳定的问题。为此选择使用LAMB(Layer-wise Adaptive Moments optimizer for Batch training)优化器进行EVA-CLIP模型的训练。LAMB优化器专为大批量训练设计,其自适应的元素级更新和层级学习率提高了训练效率并加速了收敛速度。
  • 掩码策略:利用随机掩码策略FLIP技术提高训练CLIP模型的时间效率。具体来说,在训练期间随机掩码50%的图像标记,显著降低了时间复杂度,同时允许在不增加额外内存成本的情况下将批量大小增加2倍。
  • 内存和训练加速:使用DeepSpeed优化库、ZeRO阶段1优化器、梯度检查点和Flash Attention技术来节省内存并加速训练过程。

训练数据集

为了训练EVA-CLIP模型,构建了一个名为Merged-2B的数据集,该数据集由以下部分组成:

  • LAION-2B数据集:包含16亿个样本,这些样本来自互联网上的大量图像和文本对。
  • COYO-700M数据集:包含4亿个样本,这些样本经过清洗和过滤,质量较高。通过合并这两个数据集,得到了一个包含20亿样本的大型训练数据集,这为模型提供了丰富的训练材料。

02、实验结果

系统级比较

表1展示了EVA-CLIP在ImageNet变体和ObjectNet上的零样本top-1准确率。EVA-02-CLIP-E/14+在所有6个基准测试中平均准确率达到80.9%,性能下降最小(与ImageNet-1K top-1准确率的差距仅为1.1%)

图片

表2进一步展示了EVA-CLIP在27个零样本图像分类基准上的效果。EVA-02-CLIP-E/14+在所有27个基准上平均准确率达到77.5%。

图片

表3显示了EVA-CLIP在UCF-101和Kinetics-400、600、700视频识别基准上的效果。EVA-CLIP在这些基准上也表现出色

图片

表4报告了EVA-CLIP在Flickr30K和COCO数据集上的零样本图像和文本检索结果。EVA-CLIP在基础和大型模型尺寸上均优于竞争对手

图片

消融实验

表5展示了EVA-CLIP设计的消融研究,包括EVA初始化、LAMB优化器和50%图像标记掩码的效果

图片

表6展示了实现EVA-CLIP所需的内存和时间成本。结果显示,掩码50%的图像标记可以加速训练时间2倍,使用Flash Attention可以减少额外15%的训练时间

图片

03、总结

实验部分展示了EVA-CLIP在多个基准测试中的卓越性能,并通过消融研究验证了其设计的有效性。EVA-CLIP不仅在性能上取得了优异的结果,还在训练效率和资源利用上展现了显著的优势。这些实验结果进一步证明了EVA-CLIP方法在大规模CLIP训练中的可行性和优越性。

CLIP是开创性的工作,奠定了基础,EVA-CLIP通过改进架构和训练策略提升了性能,在当前多模态大模型中,也常被用来作为视觉编码器,对跨模态的发展有较大意义。

相关标签:

相关资讯

模态编码器|CLIP详细解读

下面来详细了解一下多模态大模型模态编码器部分。 今天首先来看下CLIP,OpenAI发表在2021年ICML上的一篇工作。 项目地址::在自然语言处理(NLP)领域,通过大规模的文本数据预训练模型(如GPT-3)已经取得了显著的成果,但在计算机视觉领域,预训练模型仍然依赖于人工标注的图像数据集,严重影响了其在未见类别上的泛化性和可用性(需要用额外的有标注数据)。
4/7/2025 3:30:00 AM
Goldma

模态编码器 | FLIP:通过图像掩码加速CLIP训练

来聊聊Meta AI团队(何恺明组)提出的一个高效的CLIP加速训练方法——FLIP。 看完MAE,很自然的一个想法就是将MAE用到CLIP里的图像编码器上,FLIP实现了这个想法,通过在训练过程中对图像进行随机掩码(masking),显著提升了训练效率。 动机也很简单,CLIP训练成本高,耗费大量时间和资源,高效省时的训练方法则成为研究重点。
4/11/2025 12:16:00 AM

模态编码器|EVA探索掩码视觉表征学习的极限

今天来看一篇经典的视觉表征学习的方法EVA,来自智源研究院发表在2023年CVPR的一篇工作。 项目地址::自然语言处理(NLP)领域通过扩展预训练语言模型(PLMs)取得了革命性的成功,作者希望将这种成功从语言领域转移到视觉领域,即扩展一个视觉中心的基础模型,以便于视觉和多模态下游任务。 另外,视觉模型预训练和扩展的方法主要依赖于监督或弱监督训练,需要数百万个(通常是不可公开访问的)标注数据。
4/7/2025 4:30:00 AM
Goldma