1.本发明属于工业互联网的数据隐私保护领域,涉及一种工业互联网数据隐私保护方法。
背景技术:2.由于工业互联网的兴起,越来越多的工业设备被应用,随着而来会有大量的数据被收集并存放在各种数据库中。而机器学习需要大量的数据做“肥料”,因此面向工业互联网的机器学习应用激增。
3.工业互联网作为新一代信息技术与制造业深度融合的产物,通过对人、机、物的全面互联,构建起全要素、全产业链、全价值链全面连接的新型工业生产制造和服务体系,是数字化转型的实现途径,是实现新旧动能转换的关键力量。在工业应用场景中,很少有企业愿意共享其数据资源,这种情况主要受限于某些商业因素(市场竞争和管理策略)。即使对于个体参与用户,他们也依然担忧将本地数据集外包于服务提供商,这样所带来的隐私泄露风险可能会远远超出这种便捷的在线服务所带来的收益。
4.边缘计算通过将云扩展到网络边缘,满足各个应用的计算和存储需求。边缘节点通常收集物联网设备数据,并将其发送到云服务器,完成集中式机器学习任务。随着公司、工厂对数据安全和用户隐私造成损害的日益认识,数据隐私和安全已经成为一个主要的全球问题。
5.为了保护工业系统免受攻击,涌现出了各种安全措施,如加密通信、数据完整性校验和访问控制等方法,可以保护系统免受多种类型的攻击。然而,即使这些安全措施已经到位,攻击者仍然可以成功地对工业互联网发起攻击,如推理攻击和基于gan的攻击等。因此,有必要设计一种工业互联网数据隐私保护方法,以此来进一步保障工业系统的安全。
技术实现要素:6.有鉴于此,本发明的目的在于提供一种工业互联网的数据隐私保护方法,针对难以兼顾工业数据共享与隐私保护的双重需求问题,通过将差分隐私、边缘计算、paillier同态加密算法等相结合,协同打造安全的工业互联网,更好赋能工业互联网,推动产业升级。
7.为达到上述目的,本发明提供如下技术方案:
8.一种工业互联网数据隐私保护方法,具体包括以下步骤:
9.s1:在训练之前,云服务器初始化模型;所述云服务器包括参数服务器和盲化服务器;其中,参数服务器将预先收集的部分物联网设备的数据集用来训练初始模型;盲化服务器负责生成paillier同态加密密钥对和随机数;然后盲化服务器将其传输到每个边缘节点;
10.s2:初始化后,每个边缘节点开始从参数服务器下载初始模型;然后,根据每个工厂物联网设备的敏感度,边缘节点分配隐私预算并在添加高斯噪声后收集噪声数据集;
11.s3:每个边缘节点在局部训练神经网络模型;由于模型攻击者可以通过模型参数
推断训练数据,共谋攻击者也可以获得特定边缘节点的模型参数,因此每个边缘节点在将参数上传到参数服务器之前,需要进行加密处理。
12.s4:参数服务器收集所有边缘节点上传的模型参数后,对模型参数进行聚合并更新生成全局模型;然后,盲化服务器生成一组新的随机数,并将它们发送到每个边缘节点,以开始下一轮的训练。
13.进一步,步骤s1中,盲化服务器的具体操作为:盲化服务器生成随机数集合且随机数其中n表示边缘节点的个数,i表示当前迭代的轮次;盲化服务器生成paillier同态加密的密钥对{pk,sk},然后盲化服务器将随机数和同态加密的秘钥对传输到每个边缘节点,并将zi传递给参数服务器用于参数聚合。
14.进一步,步骤s2具体包括:初始化后,每个边缘节点根据工厂设备的数量为每个物联网设备分配一个隐私预算;然后物联网设备根据隐私预算和灵敏度δf生成高斯噪声,并将其添加到数据集中;
15.边缘节点根据物联网设备编号将隐私预算ε分配给每个物联网设备;统一为每个物联网设备分配隐私预算其中m为物联网设备数;物联网设备根据其灵敏度δf和生成高斯噪声,并将其添加到数据集中,以满足要求:
[0016][0017]
其中,i表示所有相邻的输入,表示所有可能的输出,pr[
·
]表示概率,表示一个随机化的机制。
[0018]
更进一步,步骤s2中,高斯机制采用的是松弛的(ε,δ)-dp机制;对于任意的δ∈(0,1),有高斯噪声y~n(0,σ2)满足(ε,δ)-dp;
[0019]
p[m(d)∈s]≤e
ε
p[m(d
′
)∈s]+δ
[0020]
其中,m(d)=f(d)+y,d表示数据集;σ表示高斯分布的标准差,ε表示隐私预算,δ表示松弛项,s表示随机化算法之后的一个可能的输出,p[
·
]表示概率。
[0021]
进一步,步骤s3中,每个边缘节点在局部训练神经网络模型,具体包括:每个边缘节点下载初始模型,并收集添加含有高斯噪声的物联网设备数据;当一个边缘节点接收到噪声数据时,它将从其本地数据集获得一小批数据并计算梯度;
[0022]
具体使用基于随机梯度下降(sgd)的反向传播(bp)算法对模型进行训练,算法表达式为:
[0023][0024]
其中,α表示学习率,e为误差函数,表示在第i轮中得到的模型参数向量;
[0025]
训练模型后,边缘节点首先使用pk加密模型参数;然后,它通过随机数来盲化密文;随机数的边缘节点和sk永远不会向任何实体(其他边缘节点和参数服务器)公开;最
后,边缘节点加密和盲化模型参数并将其上传至参数服务器。
[0026]
进一步,步骤s4具体包括:参数服务器收集所有边缘节点上传的模型参数后,对模型参数进行聚合并更新生成全局模型;
[0027][0028]
其中,表示全局模型参数;
[0029]
参数服务器可以通过paillier同态特性得到聚合全局模型然后所有的边缘节点都能下载全局模型;盲化服务器生成一组新的随机数(即盲因子)最后将它们传给每个边缘节点,进行下一轮迭代;此迭代过程将继续进行,直到达到迭代次数为止。
[0030]
本发明的有益效果在于:本发明通过合并差分隐私、paillier同态加密、边缘计算来增强工业互联网数据的隐私性和可信度,有效地改善了数据分布不均匀和计算能力差距大导致的训练效率低和模型精度的问题;提升了应对安全风险的能力,促进了工业互联网的繁荣与发展。
[0031]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0032]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0033]
图1为本发明涉及的工业互联网系统架构图;
[0034]
图2为本发明工业互联网数据隐私保护方法的模型训练流程图。
具体实施方式
[0035]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0036]
请参阅图1~图2,本发明针对图1所示的工业互联网系统架构(云-边-端架构)设计了一种工业互联网系数据隐私保护方法,解决工业互联网系统中机器学习的隐私保护问题,包括工厂设备、边缘节点、云平台等实体及各实体之间的数据传输。如图2所示,该方法具体包括以下步骤:
[0037]
步骤1:在训练之前,云服务器初始化模型;云服务器包括参数服务器和盲化服务器。
[0038]
参数服务器通过从部分设备那里收集数据集来训练初始模型。
[0039]
盲化服务器分别生成随机数集合且随机数其中n表示边缘节点的个数,i表示当前迭代的轮次。盲化服务器生成paillier同态加密的密钥对{pk,sk},然后盲化服务器将随机数和同态加密的秘钥对传输到每个边缘节点并将zi传递给参数服务器用于参数聚合。
[0040]
步骤2:初始化后,每个边缘节点根据工厂设备的数量为每个物联网设备分配一个隐私预算。然后物联网设备根据隐私预算和灵敏度δf生成高斯噪声,并将其添加到数据集中。
[0041]
高斯机制提供的是松弛的(ε,δ)-dp机制。对于任意的δ∈(0,1),有高斯噪声y~n(0,σ2)满足(ε,δ)-dp;
[0042]
p[m(d)∈s]≤e
ε
p[m(d
′
)∈s]+δ
[0043]
其中,m(d)=f(d)+y,d表示数据集;σ表示高斯分布的标准差,ε表示隐私预算,δ表示松弛项,s表示随机化算法之后的一个可能的输出,p[
·
]表示概率。
[0044]
根据差分隐私串行组合原理,给定数据集d以及一组关于d差分隐私算法a1(d),a2(d),
…
,am(d),算法ai(d)分别满足ε
i-dp且任意两个算法的随机过程相互独立,则这些算法组合起来的算法满足
[0045]
在本发明中,边缘节点根据物联网设备编号将隐私预算ε分配给每个物联网设备。为了便于计算,统一为每个设备分配隐私预算其中m为设备数。设备根据其灵敏度δf和生成高斯噪声,并将其添加到数据集中,以满足要求:
[0046][0047]
其中,i表示所有相邻的输入,表示所有可能的输出,pr[
·
]表示概率,表示一个随机化的机制。根据差分隐私串行组合原理,边缘节点的机制提供满足了ε
i-dp差分隐私,数据攻击者不能在方案中窃取隐私信息。
[0048]
步骤3:每个边缘节点在局部训练神经网络模型。每个边缘节点下载初始模型,并收集添加高斯噪声的物联网设备数据。当一个边缘节点接收到噪声数据时,它将从其本地数据集获得一小批数据并计算梯度。他们使用基于随机梯度下降(sgd)的反向传播(bp)算法对模型进行训练:
[0049][0050]
其中,α表示学习率,e为误差函数,表示在第i轮中得到的模型参数向量。训练模型后,边缘节点首先使用pk加密模型参数。然后,它通过随机数来盲化密文。随机数的边缘节点和sk永远不会向任何实体(其他边缘节点和参数服务器)公开。最后,边缘节点加密和盲化模型参数并将其上传至参数服务器。
[0051]
进步骤s4中,参数服务器收集所有边缘节点上传的模型参数后,对模型参数进行聚合并更新生成全局模型。
[0052][0053]
参数服务器可以通过paillier同态特性得到作为聚合全局模型然后所有的边缘节点都可以下载全局模型。致盲服务器生成一组新的随机数(即盲因子)最后将它们传给每个边缘节点,这意味着下一次迭代的开始。此迭代过程将继续进行,直到达到迭代次数为止,实现了模型参数的安全聚合。
[0054]
工业互联网设备上传的参数中,如果每一轮模型上传过程都是明文,那么就存在明显的安全风险,容易被攻击者拦截,导致模型信息泄漏和丢失。恶意参数服务器可以获取特定边缘节点的模型参数,然后通过gan攻击、模型逆向攻击等来推断其训练数据。但是,在本发明的方法中,服务器最终只能得到全局参数的密文。即使他发起了这样的攻击,他也无法获得特定边缘节点下的物联网设备的数据特征。在密文中,推理攻击的条件被破坏了,因此本发明可以抵抗推理攻击。
[0055]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
技术特征:1.一种工业互联网数据隐私保护方法,其特征在于,该方法具体包括以下步骤:s1:在训练之前,云服务器初始化模型;所述云服务器包括参数服务器和盲化服务器;其中,参数服务器将预先收集的部分物联网设备的数据集用来训练初始模型;盲化服务器负责生成paillier同态加密密钥对和随机数;然后盲化服务器将其传输到每个边缘节点;s2:初始化后,每个边缘节点开始从参数服务器下载初始模型;然后,根据每个工厂物联网设备的敏感度,边缘节点分配隐私预算并在添加高斯噪声后收集噪声数据集;s3:每个边缘节点在局部训练神经网络模型;s4:参数服务器收集所有边缘节点上传的模型参数后,对模型参数进行聚合并更新生成全局模型;然后,盲化服务器生成一组新的随机数,并将它们发送到每个边缘节点,以开始下一轮的训练。2.根据权利要求1所述的工业互联网数据隐私保护方法,其特征在于,步骤s1中,盲化服务器的具体操作为:盲化服务器生成随机数集合且随机数其中n表示边缘节点的个数,i表示当前迭代的轮次;盲化服务器生成paillier同态加密的密钥对{pk,sk},然后盲化服务器将随机数和同态加密的秘钥对传输到每个边缘节点,并将z
i
传递给参数服务器用于参数聚合。3.根据权利要求2所述的工业互联网数据隐私保护方法,其特征在于,步骤s2具体包括:初始化后,每个边缘节点根据工厂设备的数量为每个物联网设备分配一个隐私预算;然后物联网设备根据隐私预算和灵敏度δf生成高斯噪声,并将其添加到数据集中;边缘节点根据物联网设备编号将隐私预算ε分配给每个物联网设备;统一为每个物联网设备分配隐私预算其中m为物联网设备数;物联网设备根据其灵敏度δf和生成高斯噪声,并将其添加到数据集中,以满足要求:其中,i表示所有相邻的输入,表示所有可能的输出,pr[
·
]表示概率,表示一个随机化的机制。4.根据权利要求3所述的工业互联网数据隐私保护方法,其特征在于,步骤s2中,高斯机制采用的是松弛的(ε,δ)-dp机制;对于任意的δ∈(0,1),有高斯噪声y~n(0,σ2)满足(ε,δ)-dp;p[m(d)∈s]≤e
ε
p[m(d
′
)∈s]+δ其中,m(d)=f(d)+y,d表示数据集;σ表示高斯分布的标准差,ε表示隐私预算,δ表示松弛项,s表示随机化算法之后的一个可能的输出。5.根据权利要求4所述的工业互联网数据隐私保护方法,其特征在于,步骤s3中,每个边缘节点在局部训练神经网络模型,具体包括:每个边缘节点下载初始模型,并收集添加含有高斯噪声的物联网设备数据;当一个边缘节点接收到噪声数据时,它将从其本地数据集获得一小批数据并计算梯度;具体使用基于随机梯度下降的反向传播算法对模型进行训练,算法表达式为:
其中,α表示学习率,e为误差函数,表示在第i轮中得到的模型参数向量;训练模型后,边缘节点首先使用pk加密模型参数;然后,它通过随机数来盲化密文;随机数的边缘节点和sk永远不会向其他边缘节点和参数服务器公开;最后,边缘节点加密和盲化模型参数并将其上传至参数服务器。6.根据权利要求5所述的工业互联网数据隐私保护方法,其特征在于,步骤s4具体包括:参数服务器收集所有边缘节点上传的模型参数后,对模型参数进行聚合并更新生成全局模型;其中,表示全局模型参数;参数服务器通过paillier同态特性得到聚合全局模型然后所有的边缘节点都能下载全局模型;盲化服务器生成一组新的随机数最后将它们传给每个边缘节点,进行下一轮迭代;此迭代过程将继续进行,直到达到迭代次数为止。
技术总结本发明涉及一种工业互联网数据隐私保护方法,属于工业互联网的数据隐私保护领域。该方法包括:S1:云服务器初始化模型:参数服务器将预先收集的部分设备的数据集用来训练初始模型;盲化服务器生成Paillier同态加密密钥对和随机数,将其传输到每个边缘节点;S2:每个边缘节点从参数服务器下载初始模型,根据每个工厂设备的敏感度,边缘节点分配隐私预算并在添加高斯噪声后收集噪声数据集;S3:边缘节点训练神经网络模型;S4:参数服务器收集所有边缘节点上传的模型参数,并对其聚合更新生成全局模型;盲化服务器生成新的随机数并将其发送到每个边缘节点进行下一轮训练。本发明提高了训练效率和模型精度。练效率和模型精度。练效率和模型精度。
技术研发人员:王汝言 景忠源 吴大鹏 张普宁 杨志刚
受保护的技术使用者:重庆邮电大学
技术研发日:2022.07.25
技术公布日:2022/11/1