开云体育作家将考试好的 DNN 分类器应用于被测模子的表征-开云·kaiyun(中国)官方网站 登录入口
大模子"套壳"事件防不堪防开云体育,有莫得才略不错检测套壳举止呢?
来自上海 AI 实验室、中科院、东说念主大和上交大的学者们,提议了一种大模子的"指纹识别"才略——REEF(Representation Encoding Fingerprints)。
在不改造模子性能的前提下,愚弄 REEF 就不错精确识别未经授权的后续拓荒举止。
REEF 依赖模子在微调后表征"不变性"的特质,基于表征编码已毕对大模子的"指纹鉴识"。
况且即使流程剪枝、合并、参数枚举和缩放变换等一系列操作,雷同能让"套壳"举止无所遁形。
不错说,这项扣问给大模子拓荒团队提供了一种应酬大模子侵权问题的新技能。
大模子表征具有"微调不变性"
注:
鄙人文中,"源模子"是指从新考试的 LLM(即论文中 victim model),如 Llama、Qwen 等;
"被测模子"(即论文中的 suspect model),分为两类——基于源模子拓荒 / 考试的"养殖模子"和其他"无关模子"。
REEF 的宗旨是,给定一个被测模子,检测其是否是来自"源模子"的"养殖模子",即所谓的"套壳"模子。
鉴于考试诳言语模子的插足巨大,模子扫数者和第三方进击需要一种准确高效的才略,以判断被测模子是否来自某一源模子(举例 Code-llama 从 Llama-2 考试而来)。
然则,现存的水印才略不仅加多了非常的考试老本,还可能松开模子的通用性能,且水印容易被删除。更强大的是,这些才略无法应用于已公拓荒布的模子。
此外,基于权重的指纹识别费劲鲁棒性,坏心拓荒者不错通过不同权重修改技能疏忽绕过检测。
由于不同模子在考试数据和模子架构上的各异,不同的 LLM 的特征示意有所不同。
如下图 ( a ) 所示,Llama 的表征与 Baichuan 和 Qwen 彰着不同,但与其微调模子(如 Llama-chat 和 Chinese-llama)更为接近。
这一征象揭示了表征四肢 LLM "指纹"的后劲。
基于以下两点不雅察,作家在源模子的表征上考试了一个二元分类器,并将其应用于各式被测模子的表征,包括养殖模子和无关模子:
微调后的养殖模子的表征与源模子的表征相似,而无关模子的表征涌现出不同的散播;
一些高档语义主张在 LLM 的表征空间中"线性"编码,从而不错疏忽分类,如安全或不安全、憨厚或不憨厚等。
具体而言,作家使用 TruthfulQA 数据集,永别选拔 Llama-2-7B 和 Llama-2-13B 四肢源模子,并在其数据集表征上考试了多种深度神经网罗 DNN 分类器,举例线性分类器、多层感知器 MLP、卷积神经网罗 CNN 和图卷积网罗 GCN。
然后,作家将考试好的 DNN 分类器应用于被测模子的表征。
实验恶果标明:在源模子的表征上考试的分类器未必有用移动到其养殖模子的表征上,但在无关模子的表征上失效。
这意味着,表征不错四肢指纹来保护源模子的学问产权。
然则,使用 DNN 分类器识别源模子濒临以下挑战:
DNN 具有固定的输入维度,若是对源模子进行改造表征维度的剪枝操作,分类器不再适用;
DNN 对表征的枚举费劲鲁棒性,坏心拓荒东说念主员可能通过变换矩阵已毕参数重排来消释检测。
REEF:一种鲁棒的 LLM 指纹识别才略
为了处分上述挑战,作家提议一种新的基于表征的指纹识别才略—— REEF,具备精致的鲁棒性。
REEF 愚弄中心查对都 CKA 相似性,重心柔柔 LLM 的里面特征表征。
在评估被测模子是否来自源模子时,REEF 计较两个模子对疏通样本的表征之间的 CKA 相似性。
该才略浅易高效,未必确保拿获到任何权贵的相似性,从而揭示模子之间的潜在养殖关系。
CKA 是基于希尔伯特 - 施密特独处性准则(HilbertSchmidt Independence Criterion,HSIC)的相似性指数,用于测量两组随即变量之间的独处性。
X 和 Y 之间的 CKA 相似度不错按如下款式计较:
通过底下的定理 1,论文在表面上讲明了 CKA 相似度在职何列枚举和缩放变换下具有不变性。同期,CKA 未必在不同维度的表征之间建立对应关系。
因此,REEF 对源模子的各式后续拓荒(包括模子剪枝和表征枚举)发达出强鲁棒性,从而确保基于表征的指纹未必准确识别源模子。
无惧后续拓荒,稳稳识别"套壳"模子
作家将 REEF 应用于通过微调、剪枝、合并、枚举和缩放变换等款式从源模子养殖出的被测模子。
这些款式可能权贵改造模子的结构或参数,使得现存才略难以有用识别源模子。
然则,REEF 在这些情况下也曾未必准确识别出源模子,进一步考证了其鲁棒性。
具体来说,从上头的表中,不错得出以下论断:
REEF 对微调具有很强的鲁棒性,即使在使用多达 700B tokens 的微调情况下(Llama-7B),REEF 仍能达到 0.9962 的高相似度;
REEF 对各式剪枝计谋都发达出鲁棒性,无论结构化剪枝还口角结构化剪枝,REEF 都未必有用识别源模子,即使剪枝比率高达 90%,REEF 也曾未必生效识别;
无论是基于权重或基于散播的模子合并才略,REEF 均能在识别合并模子的起原方面恒久保抓高准确性;
REEF 对任何列枚举和缩放变换具有不变性,未必抵拒该类消释时刻。
鲁棒且高效:跨数据集和样本量
作家进一步分析了 REEF 在不同数据集和不雷同本数目下的发达。
一方面,除了前文提到的 TruthfulQA 数据集,作家还选拔了 SST2、ConfAIde、PKUSafeRLHF 和 ToxiGen 等数据集进行实验;
另一方面,关于每个数据集,别在样本数目从 10 到 1000、每隔 10 的情况下进行采样,以测试 REEF 的发达。
恶果,REEF 在不同数据集上均发达出有用性,对数据集不具强依赖性(图示在不同数据集上,源模子与养殖模子之间的相似性权贵高于其与无关模子之间的相似性,标明 REEF 未必跨数据集巩固识别源模子);
同期,REEF 依赖一丝样本即可庄重识别模子指纹,具有高效性(图示 REEF 在 200-300 个样本后恶果趋于巩固,标明其不错在较少的样本数目下已毕可靠的指纹识别)。
REEF 它不仅保险了模子性能,还均衡了绽放性与学问产权之间的关系,未必确保养殖模子的包袱可记忆。
作家肯定,REEF 将为 AI 模子保护和学问产权管制配置新的圭表,促进更透明、配合的 AI 社区。
作家简介
本文由上海 AI Lab、中科院、东说念主大和上交大聚会完成。
主要作家包括中科院博士生张杰、上海 AI Lab 后生扣问员刘东瑞(共兼并作)等。
通信作家邵婧为上海 AI Lab 后生科学家,扣问标的为 AI 安全竟然。
论文地址:
https://arxiv.org/abs/2410.14273
神气主页:
https://github.com/tmylla/REEF
— 完 —
投稿请发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿推行
附上论文 / 神气主页贯穿,以及研讨款式哦
咱们会(尽量)实时回话你
点这里� � 柔柔我,牢记标星哦~
一键三连「共享」、「点赞」和「在看」
科技前沿进展日日相遇 ~