终于把深度学习中的微调、提炼和迁移学习搞懂了!!!

大家好,我是小寒今天给大家分享深度学习中的三个重要知识点,微调、提炼和迁移学习在深度学习中,微调(Fine-tuning)、提炼(Distillation,即知识蒸馏)和迁移学习(Transfer Learning)是三种常见的模型优化技术,主要用于提高模型的泛化能力、减少训练时间以及优化资源利用率。 微调微调是指在一个已经训练好的模型(通常是预训练模型)的基础上,对部分或全部参数进行进一步训练,以适应特定的新任务。 通常,预训练模型是在大规模数据集(如ImageNet)上训练得到的,它能够学习到一些通用的特征。

大家好,我是小寒

今天给大家分享深度学习中的三个重要知识点,微调、提炼和迁移学习

在深度学习中,微调(Fine-tuning)、提炼(Distillation,即知识蒸馏)和迁移学习(Transfer Learning)是三种常见的模型优化技术,主要用于提高模型的泛化能力、减少训练时间以及优化资源利用率。

微调

微调是指在一个已经训练好的模型(通常是预训练模型)的基础上,对部分或全部参数进行进一步训练,以适应特定的新任务。

通常,预训练模型是在大规模数据集(如ImageNet)上训练得到的,它能够学习到一些通用的特征。微调则是在此基础上,通过对新的任务进行训练,进一步调整模型参数,使其更好地适应新任务。

工作原理

  1. 预训练首先,使用大规模的数据集(如ImageNet)预训练一个深度学习模型,获取模型的基本能力和通用特征。
  2. 冻结部分层(可选)一般来说,模型的底层(靠近输入层)提取的是通用特征,如边缘、纹理,而高层(靠近输出层)提取的是特定于任务的高级特征。因此,可以冻结底层权重,仅训练高层参数。
  3. 调整模型结构如果新任务的类别数与原任务不同,需要替换最后的全连接层或输出层。
  4. 训练使用新数据集进行训练,通常会使用较小的学习率,以免破坏已经学到的通用特征。

适用场景

  • 数据量较小:完全从零训练一个深度学习模型需要大量数据,而微调可以利用已有的知识,减少数据需求。
  • 任务相似性高:如果新任务与预训练任务相似(如猫狗分类与动物分类),微调能快速适应。

优点

  • 训练速度快,因为只需要微调部分参数,避免从头开始训练。
  • 可以利用大规模数据集的知识,提高模型在小数据集上的表现。

提炼(知识蒸馏)

提炼(知识蒸馏)是一种模型压缩技术,它将一个大型且复杂的模型(通常叫做教师模型)的知识转移到一个较小、较简洁的模型(叫做学生模型)中。

通过提炼(知识蒸馏),学生模型可以学习到教师模型的行为和预测模式,达到类似的效果,同时保持较小的模型尺寸和更快的推理速度。

图片图片

工作原理

  1. 教师模型训练首先训练一个大型且复杂的教师模型。
  2. 生成软标签教师模型对训练数据进行推理,产生软标签(soft labels),即模型对每个类别的预测概率。这些软标签包含了类别之间的关系(如 80% 猫,15% 狐狸,5% 狗),比硬标签(100% 猫)更有信息量。
  3. 学生模型训练学生模型通过最小化与教师模型输出(软标签)之间的差异来进行训练。学生模型在训练过程中不仅学习正确标签,也学习教师模型对样本的“理解”,从而能够更好地逼近教师模型的性能。

蒸馏损失

常见的损失函数是:

终于把深度学习中的微调、提炼和迁移学习搞懂了!!!

应用场景

  • 移动端部署当需要在计算资源受限的设备(如智能手机、嵌入式设备等)上部署深度学习模型时,可以通过提炼将大型模型压缩成较小的模型。
  • 加速推理小型学生模型在推理时通常比大型教师模型更高效,适用于需要低延迟响应的应用。

优点

  • 减少计算资源的消耗,降低模型的推理时间。
  • 可以在保持较高精度的同时,显著减小模型的存储空间。

迁移学习(Transfer Learning)

迁移学习是一种在一个任务中学习得到的知识用于另一个相关任务的技术。

简单来说,迁移学习利用已有的知识,从源领域(源任务)转移到目标领域(目标任务)。这通常在目标领域的数据不足时特别有用,能够避免从零开始训练模型。

迁移学习的类型

  1. 特征迁移直接使用预训练模型的低层特征,如 CNN 提取特征后,用 SVM、随机森林等进行分类。适用于计算机视觉任务,如使用 ResNet 作为特征提取器。
  2. 参数迁移(Fine-Tuning)迁移预训练模型的参数到新任务,并进行微调。例如,在 ImageNet 上训练的 ResNet,在医疗影像分类上微调。
  3. 跨领域迁移适用于不同数据分布的场景,如从英文 NLP 任务迁移到中文任务。常用方法包括对抗训练、自监督学习等。
  4. 跨任务迁移让模型同时学习多个任务,提高泛化能力。如在 NLP 领域,BERT 既能用于情感分析,也能用于问答任务。

优点

  • 能在目标任务中有效减少训练数据的需求,尤其是当目标任务数据不足时。
  • 加快训练速度,提升模型性能,特别是在目标任务数据量小的情况下。

总结

  • 微调(Fine-tuning):通过在预训练模型的基础上进行小范围的训练,适应新任务。
  • 提炼(Distillation,知识蒸馏):通过将大模型的知识转移到小模型,优化模型的效率和存储。
  • 迁移学习(Transfer Learning):将一个任务上学到的知识应用到另一个相关任务,解决数据不足的问题。

这三者在实际应用中常常结合使用,根据具体的任务需求选择合适的技术,可以显著提升深度学习模型的效果和效率。

相关资讯

厦大团队材料预测迁移学习范式登Nature子刊,发现高性能催化剂

编辑 | KX传统的材料发现依赖反复试验或偶然发现,效率低下且成本高昂。AI 在发现新型催化剂方面潜力巨大。然而,受到算法的选择,以及数据质量和数量的影响。在此,来自厦门大学、深圳大学、武汉大学、南京航空航天大学和英国利物浦大学的研究团队开发了一种迁移学习范式,结合了预训练模型、集成学习和主动学习,能够预测未被发现的钙钛矿氧化物,并增强该反应的通用性。通过筛选 16,050 种成分,鉴定和合成了 36 种新的钙钛矿氧化物,其中包括 13 种纯钙钛矿结构。Pr0.1Sr0.9Co0.5Fe0.5O3(PSCF)和 P

DeepSeek开源模型重塑法证审计,个人本地做RAG+微调,25年多试试

全球82亿人口,网民55.6亿,而ChatGPT坐拥3.5亿全球月活,渗透率算下来也有6%左右了。 但这还是DeepSeek-R1开源之前的故事。 1/20 开源以来,DeepSeek-R1属实又硬拉高了一大波全球 AI的渗透率,或者换句话说,是解锁了更多的应用场景。

谷歌内部文件泄漏:谷歌、OpenAI都没有护城河,大模型门槛正被开源踏破

「我们没有护城河,OpenAI 也没有。」在最近泄露的一份文件中,一位谷歌内部的研究人员表达了这样的观点。