FedIPR: 联邦学习模型所属权验证

微众银行

2022-09-16 16:22 5427

深圳2022年9月16日 /美通社/ -- 针对联邦学习全局模型的版权保护问题，微众银行AI团队联合上海交通大学在人工智能学术期刊《IEEE模式分析与机器智能汇刊》（IEEE T-PAMI，IEEE Transactions on Pattern Analysis and Machine Intelligence，涉及人工智能、计算机视觉、模式识别等多个领域）上发表了题为“FedIPR: 联邦深度神经网络模型的所属权验证”（FedIPR: Ownership Verification for Federated Deep Neural Network Models）的论文。该论文从算法、协议、安全等多个角度出发，就联邦学习模型知识产权保护问题，分享了他们对模型知识产权保护的思考和工作，提出了名为“FedIPR”的联邦学习模型版权保护框架。

近年来，深度神经网络（DNN）等机器学习技术在诸多领域取得了巨大成功，许多科技公司都将神经网络模型部署在商业产品中，提高效益。训练先进的神经网络模型需要大规模数据集、庞大的计算资源和设计者的智慧，具体体现在如下三个领域：

一、深度学习模型应用的训练模型规模巨大。以 GPT-3 为例，其预训练所用的数据量达到 45TB，训练费用超过 1200 万美元，有着极高的经济成本。

二、深度学习模型在训练部署到工业应用场景过程中需要引入相关领域的先验知识。例如，其在智慧金融、智慧医疗领域的应用，需要引入金融、医疗等领域专有先验知识。因此，在模型设计过程，开发者需要引入专家的知识和经验来订制模型，这也体现了人脑力的知识产权。

三、深度学习模型的训练过程需要特定领域的海量数据作为训练资源，而数据本身具有价值和知识属性。

以上属性决定了经过训练的深度学习模型具有很高的商业价值和知识属性，必须将其纳入合法所有者（即创建它的一方）的知识产权。因此，从技术层面，行业也面临迫切保护深度神经网络（DNN）模型的知识产权，以防止其被非法复制、重新分发或滥用。

针对昂贵的模型，攻击者可以采用技术手段或者非技术手段进行窃取；但要确认盗用且声明模型所有权，则是完全从人工智能理论方法角度出发，模型的所有权认证技术需要保证不牺牲模型可用性前提下，提供可靠且稳健的知识产权保护方法。

相比于中心化场景的模型训练，联邦学习分布式训练涉及多个参与方，存在参与方被敌手攻击或者模型搭便车的情况，因此有更大的人工智能模型泄露风险，对联邦学习模型的所属权构成了潜在的侵犯风险。

传统的深度学习模型知识产权保护方法主要着眼于深度神经网络水印的算法实践和稳健性挑战，没有把模型水印实践到可信联邦学习方向的研究。微众银行AI团队提出的FedIPR框架考虑一种不完全信任的联邦学习系统，假定联邦学习各参与方能够按照联邦法则来进行模型更新和协同训练，但彼此不泄露私有本地数据和私密签名。在这种设定下，FedIPR阐述了一种新颖的联合深度神经网络（FedDNN）所有权验证方案（图1^[1]），该方案允许嵌入和验证所有权签名，以声明 FedDNN 模型的合法知识产权（IPR），以防模型被非法复制、重新分发或滥用。

图1

微众银行AI团队提出黑盒与白盒两阶段验证联邦学习模型所属权的框架分为两个阶段（图2）：

一、黑盒阶段，不需要访问模型参数和内部结构，只需输入特定样本进入模型API, 根据模型输出判定模型所属权，为模型所属权提供初步依据。

二、白盒验证阶段，执法机关根据上一阶段，打开模型参数和结构，验证模型参数中是否嵌入有实现给定的能证明所属权的“水印”。

图2

针对白盒模型验证场景，团队创新地提出了针对 batch normalization 层（图3）的仿射变换参数，进行水印嵌入，该嵌入方法具有强可用性和稳健性。

图3

FedIPR 框架创新性地解决了模型所有权验证在联邦学习中的两大挑战：

一、亟需解决多水印冲突问题。特别是对于基于特征的水印，对于不同的客户是否可以有一个通用的解决方案来嵌入他们的私人指定水印。如下图4所示，当不同客户端希望各自嵌入水印进全局联邦学习模型当中，多个水印可能彼此发生冲突。针对该挑战，FedIPR提出用秘密提取矩阵的方式，解决了多个水印在联邦学习模型之中互相冲突的挑战。

图4