本发明涉及计算机,尤其涉及一种基于隐私保护的数据获取方法及装置。
背景技术:
1、a方持有数据,b方持有逻辑回归(logistic regression,lr)模型、筛选规则,b方根据lr模型对a方的数据进行分类,并在分类后的数据上根据筛选值筛选出数据,进而获得这些数据。a方的数据是敏感数据,不能全部暴露给b方,只能将符合具体数值的数据给b方。b方的lr模型、筛选值是商业机密,也不能暴露给a方。
2、目前没有相关技术可以完全解决以下问题:
3、1.筛选数据的过程中,b方的lr模型和筛选值不能暴露给a方;
4、2.b只能获得筛选出的数据,不能获得其他数据;
5、3.a方不能获知b筛选出了哪些数据并最终获得了哪些数据。
6、针对上述技术问题,本发明提出一种基于隐私保护的数据获取方法及装置。
技术实现思路
1、本发明的目的是针对现有技术的缺陷,提供了一种基于隐私保护的数据获取方法及装置。
2、为了实现以上目的,本发明采用以下技术方案:
3、一种基于隐私保护的数据获取方法,包括:
4、s11.模型持有方对lr模型进行随机切片,并存储经过随机切片后得到的第一数据;
5、s12.模型持有方接收数据持有方发送的对数据库经过随机切片后得到的第二数据,模型持有方将第一数据与第二数据进行计算,得到第一分类结果的切片数据;
6、s13.模型持有方基于规则模型对第一分类结果的切片数据进行处理,得到第一处理结果;
7、s14.模型持有方接收数据持有方发送的基于规则模型得到的第二处理结果,并对第一处理结果与第二处理结果进行计算,得到第三处理结果;
8、s15.模型持有方将第三处理结果与规则模型中的规则符号进行对比,若第三处理结果等于规则符号,则将第三处理结果对应的id放入集合中;
9、s16.模型持有方接收数据持有方发送的对数据库进行编码的编码数据库;
10、s17.模型持有方根据集合中的数据,并基于隐匿查询协议对编码数据库生成查询值和查询状态,并将查询值和查询状态发送给数据持有方;
11、s18.模型持有方接收数据持有方根据查询值和查询状态生成的响应结果;
12、s19.模型持有方根据响应结果获取所需的数据。
13、进一步的,所述步骤s11中具体为:
14、模型持有方对lr模型model1=(a1,a2,…,am)进行随机切片,得到随机切片后的结果aj=[aj]0+[aj]1;模型持有方自身存储[aj]1,发送[aj]0给数据持有方;其中,j∈1,2,…,m;model1表示lr模型;a1,a2,…,am表示模型的m个数据;aj表示模型的第j个数据。
15、进一步的,所述步骤s12中数据持有方发送的对数据库经过随机切片后得到的第二数据具体为:
16、数据持有方对数据库d=d1,d2,…,dn中的每一条数据di=(idi,fi1,fi2,…,fim)中的fi1,fi2,…,fim进行随机切片,得到随机切片后的结果fij=[fij]0+[fij]1数据持有方自身存储[fij]0,发送[fij]1给模型持有方;其中,i∈1,2,…,n,j∈1,2,…,m;d表示数据库;d1,d2,…,dn表示数据库中的n条数据;di表示第i条数据;idi表示第i条数据的id;fi1,fi2,…,fim表示第i条数据的m个内容;fij表示第i条数据的第j个内容。
17、进一步的,所述步骤s12中模型持有方将第一数据与第二数据进行计算,得到第一分类结果的切片数据,具体为:
18、模型持有方根据每一条数据[fij]1以及lr模型的[aj]1计算第一分类结果的切片数据,表示为:
19、
20、其中,表示随机切片间的乘法运算;[yi]1表示第一分类结果的切片数据;[aj]1表示模型持有方自身存储的lr模型随机切片后的第一数据;[fij]1表示数据持有方发送给模型持有方的对数据库d随机切片后的第二数据。
21、进一步的,所述步骤s13具体为:
22、模型持有方基于规则模型获取筛选内容content1,并基于筛选内容content1对第一分类结果的切片数据进行处理,得到第一处理结果,表示为:
23、lts([fij]1,[value1]1)=ri1
24、其中,ri1表示第一处理结果;lts()表示lts算法;value1表示规则模型中的规则值。
25、进一步的,所述步骤s14具体为:
26、数据持有方根据每一条数据[fij]0以及lr模型的[aj]0计算第二分类结果的切片数据,表示为:
27、
28、其中,[yi]0表示第二分类结果的切片数据;[aj]0表示模型持有方发送给数据持有方的lr模型随机切片后的数据;[fij]0表示数据持有方自身存储的数据;
29、模型持有方将规则值value1进行随机切片处理,表示为:
30、value1=[value1]0+[value1]1
31、模型持有方基于规则模型将筛选内容content1、规则符号sign1、规则值[value1]0发送给数据持有方;
32、数据持有方根据筛选内容content1对第二分类结果的切片数据进行处理,得到第二处理结果,表示为:
33、lts([fij]0,[value1]0)=ri0
34、其中,ri0表示第二处理结果;
35、数据持有方对第一处理结果与第二处理结果进行计算,表示为:
36、ri=ri0+ri1
37、其中,ri表示第三处理结果。
38、进一步的,所述步骤s16中数据持有方发送的对数据库进行编码的编码数据库,表示为:
39、ppd←pir.setup(1λ,d)
40、其中,ppd表示编码后的数据库;pir()表示隐匿查询协议;setup()编码;d表示数据库;λ表示安全参数。
41、进一步的,所述步骤s19中模型持有方根据响应结果获取所需的数据,表示为:
42、步骤s19中模型持有方根据响应结果获取所需的数据,表示为:
43、(q,st)←pir.query(ppd,id)
44、r←pir.respond(ppd,d,q)
45、d←pir.process(ppd,st,r)
46、其中,query表示查询算法,它的输入为编码后的数据库ppd和要查询的数据的id,它的输出为查询q和查询状态st;responde表示响应算法,它的输入为编码后的数据库ppd、数据库d以及查询q,输出为响应结果r;process表示处理算法,它的输入为编码后的数据库ppd、查询状态st,响应结果r,它的输出为所需的数据d。
47、相应的,还提供一种隐私保护的数据获取方法,包括:
48、s21.数据持有方对数据库进行随机切片,并存储经过随机切片后得到的第二数据;
49、s22.数据持有方接收模型持有方发送的对lr模型经过随机切片后得到的第一数据,数据持有方将第一数据与第二数据进行计算,得到第二分类结果的切片数据;
50、s23.数据持有方基于规则模型对第二分类结果的切片数据进行处理,得到第二处理结果;
51、s24.数据持有方接收模型持有方发送的基于规则模型得到的第一处理结果,以及数据持有方接收模型持有根据第一处理结果与第二处理结果进行计算得到的第三处理结果;
52、s25.数据持有方基于隐匿查询协议对数据库进行编码,得到编码数据库,并将编码数据库发送给模型持有方;
53、s26.数据持有方接收模型持有方根据第三处理结果以及编码数据库生成的查询值和查询状态;
54、s27.数据持有方根据查询值和查询状态生成的响应结果,并将相应结果发送给模型持有方,模型持有方根据响应结果获取所需的数据。
55、相应的,还提供一种基于隐私保护的数据获取装置,用于执行所述的一种基于隐私保护的数据获取方法,数据获取装置包括处理器,所述处理器内设置有:
56、切片模块,用于模型持有方对lr模型进行随机切片,并存储经过随机切片后得到的第一数据;
57、第一计算模块,用于模型持有方接收数据持有方发送的对数据库经过随机切片后得到的第二数据,模型持有方将第一数据与第二数据进行计算,得到第一分类结果的切片数据;
58、处理模块,用于模型持有方基于规则模型对第一分类结果的切片数据进行处理,得到第一处理结果;
59、第二计算模块,用于模型持有方接收数据持有方发送的基于规则模型得到的第二处理结果,并对第一处理结果与第二处理结果进行计算,得到第三处理结果;
60、对比模块,用于模型持有方将第三处理结果与规则模型中的规则符号进行对比,若第三处理结果等于规则符号,则将第三处理结果对应的id放入集合中;
61、编码模块,用于模型持有方接收数据持有方发送的对数据库进行编码的编码数据库;
62、查询模块,用于模型持有方根据集合中的数据,并基于隐匿查询协议对编码数据库生成查询值和查询状态,并将查询值和查询状态发送给数据持有方;
63、相应模块,用于模型持有方接收数据持有方根据查询值和查询状态生成的响应结果;
64、获取模块,用于模型持有方根据响应结果获取所需的数据。
65、与现有技术相比,本发明具有以下有益效果:
66、1、筛选数据的过程中,数据持有方是获得分类模型model的随机切片,而随机切片是随机值没有任何意义,从而保护了模型持有方的分类模型的隐私性。在筛选模型中,数据持有方只获得了筛选值的随机切片,没有获得完整的随机值,所以本方案也保护了随机值。
67、2、筛选数据的过程中,模型持有方只获得了筛选出来数据的id的集合s,以及所有数据的随机切片,而随机切片是一串随机数没有任何意义。在数据获取阶段,模型持有方只获得了集合s中的id所对应的数据,即筛选出的数据,没有获得其他数据。
68、3、集合s1,s2,…,sl始终是由模型持有方来维护,数据持有方不知道集合的任何信息,从而保证了数据持有方不能获知模型持有方筛选出了哪些数据。而隐匿查询协议保证了数据持有方不能获知模型持有方最终获取了哪些数据。
1.一种基于隐私保护的数据获取方法,其特征在于,包括:
2.根据权利要求1所述的一种基于隐私保护的数据获取方法,其特征在于,所述步骤s11中具体为:
3.根据权利要求2所述的一种基于隐私保护的数据获取方法,其特征在于,所述步骤s12中数据持有方发送的对数据库经过随机切片后得到的第二数据具体为:
4.根据权利要求3所述的一种基于隐私保护的数据获取方法,其特征在于,所述步骤s12中模型持有方将第一数据与第二数据进行计算,得到第一分类结果的切片数据,具体为:
5.根据权利要求4所述的一种基于隐私保护的数据获取方法,其特征在于,所述步骤s13具体为:
6.根据权利要求5所述的一种基于隐私保护的数据获取方法,其特征在于,所述步骤s14具体为:
7.根据权利要求6所述的一种基于隐私保护的数据获取方法,其特征在于,所述步骤s16中数据持有方发送的对数据库进行编码的编码数据库,表示为:
8.根据权利要求7所述的一种基于隐私保护的数据获取方法,其特征在于,所述步骤s19中模型持有方根据响应结果获取所需的数据,表示为:
9.一种隐私保护的数据获取方法,其特征在于,包括:
10.一种基于隐私保护的数据获取装置,用于执行权利要求1-8任一项所述的一种基于隐私保护的数据获取方法,数据获取装置包括处理器,其特征在于,所述处理器内设置有: