专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,模型剪枝、合并等也无所遁形

大模型“套壳”事件防不胜防,有没有方法可以检测套壳行为呢? 来自上海AI实验室、中科院、人大和上交大的学者们,提出了一种大模型的“指纹识别”方法——REEF(Representation Encoding Fingerprints)。 在不改变模型性能的前提下,利用REEF就可以精准识别未经授权的后续开发行为。

大模型“套壳”事件防不胜防,有没有方法可以检测套壳行为呢?

来自上海AI实验室、中科院、人大和上交大的学者们,提出了一种大模型的“指纹识别”方法——REEF(Representation Encoding Fingerprints)。

在不改变模型性能的前提下,利用REEF就可以精准识别未经授权的后续开发行为。

图片

REEF依赖模型在微调后表征“不变性”的特点,基于表征编码实现对大模型的“指纹鉴别”。

并且即使经过剪枝、合并、参数排列和缩放变换等一系列操作,同样能让“套壳”行为无所遁形。

可以说,这项研究给大模型开发团队提供了一种应对大模型侵权问题的新手段。

大模型表征具有“微调不变性”

注:在下文中,“源模型”是指从头训练的LLM(即论文中victim model),如Llama、Qwen等;“被测模型”(即论文中的suspect model),分为两类——基于源模型开发/训练的“衍生模型”和其他“无关模型”。REEF的目标是,给定一个被测模型,检测其是否是来自“源模型”的“衍生模型”,即所谓的“套壳”模型。

鉴于训练大语言模型的投入巨大,模型所有者和第三方迫切需要一种准确高效的方法,以判断被测模型是否来自某一源模型(例如Code-llama从Llama-2训练而来)。

然而,现有的水印方法不仅增加了额外的训练成本,还可能削弱模型的通用性能,且水印容易被删除。更重要的是,这些方法无法应用于已公开发布的模型。

此外,基于权重的指纹识别缺乏鲁棒性,恶意开发者可以通过不同权重修改手段轻松绕过检测。

由于不同模型在训练数据和模型架构上的差异,不同的LLM的特征表示有所不同。

如下图(a)所示,Llama的表征与Baichuan和Qwen明显不同,但与其微调模型(如Llama-chat和Chinese-llama)更为接近。

这一现象揭示了表征作为LLM“指纹”的潜力。

图片

基于以下两点观察,作者在源模型的表征上训练了一个二元分类器,并将其应用于各种被测模型的表征,包括衍生模型和无关模型:

  • 微调后的衍生模型的表征与源模型的表征相似,而无关模型的表征显示出不同的分布;
  • 一些高级语义概念在 LLM 的表征空间中“线性”编码,从而可以轻松分类,如安全或不安全、诚实或不诚实等。

具体而言,作者使用TruthfulQA数据集,分别选择 Llama-2-7B和 Llama-2-13B作为源模型,并在其数据集表征上训练了多种深度神经网络DNN分类器,例如线性分类器、多层感知器MLP、卷积神经网络CNN 和图卷积网络GCN。

然后,作者将训练好的DNN分类器应用于被测模型的表征。

实验结果表明:在源模型的表征上训练的分类器能够有效迁移到其衍生模型的表征上,但在无关模型的表征上失效。

这意味着,表征可以作为指纹来保护源模型的知识产权。

图片

然而,使用DNN分类器识别源模型面临以下挑战:

  • DNN具有固定的输入维度,如果对源模型进行改变表征维度的剪枝操作,分类器不再适用;
  • DNN对表征的排列缺乏鲁棒性,恶意开发人员可能通过变换矩阵实现参数重排来规避检测。

REEF:一种鲁棒的LLM指纹识别方法

为了解决上述挑战,作者提出一种新的基于表征的指纹识别方法——REEF,具备良好的鲁棒性。

REEF利用中心核对齐CKA相似性,重点关注LLM的内部特征表征。

在评估被测模型是否来自源模型时,REEF计算两个模型对相同样本的表征之间的CKA相似性。

该方法简单高效,能够确保捕获到任何显著的相似性,从而揭示模型之间的潜在衍生关系。

CKA是基于希尔伯特-施密特独立性准则(HilbertSchmidt Independence Criterion,HSIC)的相似性指数,用于测量两组随机变量之间的独立性。

X和Y之间的CKA相似度可以按如下方式计算:

图片

通过下面的定理1,论文在理论上证明了CKA相似度在任何列排列和缩放变换下具有不变性。同时,CKA能够在不同维度的表征之间建立对应关系。

图片

因此,REEF 对源模型的各种后续开发(包括模型剪枝和表征排列)表现出强鲁棒性,从而确保基于表征的指纹能够准确识别源模型。

无惧后续开发,稳稳识别“套壳”模型

作者将REEF应用于通过微调、剪枝、合并、排列和缩放变换等方式从源模型衍生出的被测模型。

这些方式可能显著改变模型的结构或参数,使得现有方法难以有效识别源模型。

然而,REEF在这些情况下依然能够准确识别出源模型,进一步验证了其鲁棒性。

图片

具体来说,从上面的表中,可以得出以下结论:

  • REEF对微调具有很强的鲁棒性,即使在使用多达700B tokens的微调情况下(Llama-7B),REEF仍能达到0.9962的高相似度。
  • REEF对各种剪枝策略都表现出鲁棒性,无论结构化剪枝还是非结构化剪枝,REEF都能够有效识别源模型,即使剪枝比率高达90%,REEF依然能够成功识别。
  • 无论是基于权重或基于分布的模型合并方法,REEF均能在识别合并模型的来源方面始终保持高准确性。
  • REEF 对任何列排列和缩放变换具有不变性,能够抵御该类规避技术。

图片

鲁棒且高效:跨数据集和样本量

作者进一步分析了REEF在不同数据集和不同样本数量下的表现。

一方面,除了前文提到的TruthfulQA数据集,作者还选择了SST2、ConfAIde、PKUSafeRLHF和ToxiGen等数据集进行实验;

另一方面,对于每个数据集,别在样本数量从10到1000、每隔10的情况下进行采样,以测试REEF的表现。

结果,REEF在不同数据集上均表现出有效性,对数据集不具强依赖性(图示在不同数据集上,源模型与衍生模型之间的相似性显著高于其与无关模型之间的相似性,表明REEF能够跨数据集稳定识别源模型);

同时,REEF依赖少量样本即可稳健识别模型指纹,具有高效性(图示REEF在 200-300 个样本后结果趋于稳定,表明其可以在较少的样本数量下实现可靠的指纹识别)。

专治大模型“套壳”!上海AI实验室等给LLM做“指纹识别”,模型剪枝、合并等也无所遁形

REEF它不仅保障了模型性能,还平衡了开放性与知识产权之间的关系,能够确保衍生模型的责任可追溯。

作者相信,REEF将为AI模型保护和知识产权管理设立新的标准,促进更透明、协作的AI社区。

相关资讯

GPT未竟的革命,由o1接棒:或是LLM研究最重要的发现

天下武功唯快不破,但 OpenAI 不走寻常路,新出的 o1 系列宣告天下:我们更慢,但更强了。 o1 要花更多的时间思考问题,再做出反应,但在复杂推理层面直接窜了几个档位。 在国际数学奥林匹克 (IMO) 资格考试中,GPT-4o 仅正确解决了 13% 的问题,而 o1 得分为 83%。

简单了解大模型(LLM)智能体,传统软件工程思维依然适用

说到大模型应用的理想态,我相信很多人都可以想到《钢铁侠》里面的贾维斯,可以根据环境、天气、对手火力等情况,给钢铁侠提供决策指导或者自主决策。 大模型Agent就是人们希望借助大模型实现的类似于贾维斯一样智能助手能力,它具备环境感知能力、自主理解、决策制定以及行动执行的能力。 在实现Agent架构过程中,有很多思维方式和传统软件工程思维是相似的。

LLM为何频频翻车算术题?研究追踪单个神经元,「大脑短路」才是根源

由于缺少对运行逻辑的解释,大模型一向被人称为「黑箱」,但近来的不少研究已能够在单个神经元层面上解释大模型的运行机制。 例如Claude在2023年发表的一项研究,将大模型中大约500个神经元分解成约4000个可解释特征。 而10月28日的一项研究,以算术推理作为典型任务,借鉴类似的研究方法,确定了大模型中的一个模型子集,能解释模型大部分的基本算术逻辑行为。