上一篇看了EVA,趁热打铁,今天来看EVA-CLIP,同样是智源曹越团队的工作,主要研究主题是结合EVA改进CLIP。
研究动机:训练CLIP模型面临计算成本高和训练不稳定等挑战,尤其是在扩大模型规模时。因此,这项工作的研究动机是提供一种高效且有效的解决方案,以促进更大规模CLIP模型的训练和发展。
01、方法介绍
简单介绍下EVA-CLIP与CLIP相比做了哪些改进:
- 初始化:为了改善特征表示并加速CLIP模型的收敛,采用预训练的EVA模型来初始化EVA-CLIP的图像编码器。具体来说,预训练的EVA模型已经在大规模图像数据集上进行了预训练,能够提供高质量的视觉特征表示。通过使用这些预训练的权重来初始化CLIP模型的图像编码器,可以显著提高模型的初始性能,并加快训练过程。
- 优化器:训练大规模CLIP模型通常需要非常大的批量大小,这会带来高昂的计算成本和训练不稳定的问题。为此选择使用LAMB(Layer-wise Adaptive Moments optimizer for Batch training)优化器进行EVA-CLIP模型的训练。LAMB优化器专为大批量训练设计,其自适应的元素级更新和层级学习率提高了训练效率并加速了收敛速度。
- 掩码策略:利用随机掩码策略FLIP技术提高训练CLIP模型的时间效率。具体来说,在训练期间随机掩码50%的图像标记,显著降低了时间复杂度,同时允许在不增加额外内存成本的情况下将批量大小增加2倍。
- 内存和训练加速:使用DeepSpeed优化库、ZeRO阶段1优化器、梯度检查点和Flash Attention技术来节省内存并加速训练过程。
训练数据集
为了训练EVA-CLIP模型,构建了一个名为Merged-2B的数据集,该数据集由以下部分组成:
- LAION-2B数据集:包含16亿个样本,这些样本来自互联网上的大量图像和文本对。
- COYO-700M数据集:包含4亿个样本,这些样本经过清洗和过滤,质量较高。通过合并这两个数据集,得到了一个包含20亿样本的大型训练数据集,这为模型提供了丰富的训练材料。
02、实验结果
系统级比较
表1展示了EVA-CLIP在ImageNet变体和ObjectNet上的零样本top-1准确率。EVA-02-CLIP-E/14+在所有6个基准测试中平均准确率达到80.9%,性能下降最小(与ImageNet-1K top-1准确率的差距仅为1.1%)
表2进一步展示了EVA-CLIP在27个零样本图像分类基准上的效果。EVA-02-CLIP-E/14+在所有27个基准上平均准确率达到77.5%。
表3显示了EVA-CLIP在UCF-101和Kinetics-400、600、700视频识别基准上的效果。EVA-CLIP在这些基准上也表现出色
表4报告了EVA-CLIP在Flickr30K和COCO数据集上的零样本图像和文本检索结果。EVA-CLIP在基础和大型模型尺寸上均优于竞争对手
消融实验
表5展示了EVA-CLIP设计的消融研究,包括EVA初始化、LAMB优化器和50%图像标记掩码的效果
表6展示了实现EVA-CLIP所需的内存和时间成本。结果显示,掩码50%的图像标记可以加速训练时间2倍,使用Flash Attention可以减少额外15%的训练时间
03、总结
实验部分展示了EVA-CLIP在多个基准测试中的卓越性能,并通过消融研究验证了其设计的有效性。EVA-CLIP不仅在性能上取得了优异的结果,还在训练效率和资源利用上展现了显著的优势。这些实验结果进一步证明了EVA-CLIP方法在大规模CLIP训练中的可行性和优越性。
CLIP是开创性的工作,奠定了基础,EVA-CLIP通过改进架构和训练策略提升了性能,在当前多模态大模型中,也常被用来作为视觉编码器,对跨模态的发展有较大意义。