1.本发明涉及无线通信技术领域,具体但不限于涉及一种面向室内定位联邦学习的群智众筹激励方法。
背景技术:2.随着移动设备数量的激增和数据的爆炸式增长,以及设备计算能力和并行处理能力的进步,推动了室内定位系统(ips)在深度学习(dl)领域的的发展。传统的基于wifi指纹的室内定位技术需要繁琐的数据采集过程。群智众筹(mcs)是一种很有前途的解决方案,可以利用移动用户来收集和处理海量数据。典型的群智众筹系统主要是由云端平台和一群持有移动设备的用户,平台招募用户执行数据收集任务,招募的用户通过无线网络上传数据回云平台。但这将花费大量的时间,并有隐私泄露的风险。联邦学习,作为一种新的分布式学习范式,可以在不暴露原始数据的情况和避免大量数据的传输下,协同大量自愿参与的用户合作训练一个全局模型。联邦学习框架通常采用客户端-参数服务器架构,其中客户端训练由参数服务器公布的本地模型。一个典型的联合学习过程包含多个轮次迭代,每一轮中客户端从参数服务器更新机器学习模型,同时用本地数据对本地模型进行多轮次的训练后,将更新的模型上传到云服务器,从而聚合为新的全局机器学习模型。
3.尽管联邦学习具有巨大的潜力,但仍然面临一些技术挑战。联邦学习性能很大程度上依赖于局部模型更新的质量,如果没有足够的回报,用户不愿意参与联合学习训练并分享模型更新参数,因为模型训练消耗大量的资源,如计算、通信和电池电量,而这通常是资源稀缺的移动设备所不能接受的;同时,联合学习中的用户是独立的,可以决定何时、何地以及如何参与联合学习。因此,激励机制对于联邦学习系统来说是至关重要的。激励机制在p2p网络、机会网络、延迟容忍网络和无线频谱分配等方向中也存在大量研究工作,然而现有的激励机制无法直接应用联邦学习。联邦学习中激励机制研究的主要目标是在群智众筹平台的管理下,激励具有高性能设备的持有者(群智众筹者)训练模型,并积极参与联邦学习任务,提交高质量可靠的模型参数更新。
4.联邦学习激励机制的研究主要集中在:如何评估每个客户的贡献,以及如何招募和留住更多的客户。第一个挑战是从联邦学习平台的角度出发,不同的学习任务需要客户端根据不同的训练数据训练不同的机器学习模型,因此如何通过提供最小的奖励来获得更高的学习性能是一个挑战。第二个挑战来自于客户端的角度,即除非客户的关注、需求和目标都得到满足,否则无法充分衡量联合学习的激励机制的有效性。此外,客户端对其可用资源和数据质量具有隐私信息,导致参数服务器和客户端之间的信息不对称。因此,如何设计激励机制来激励客户,减少信息不对称的潜在不利影响具有实际意义。
5.虽然已有相关技术来解决上述问题,如通过衡量客户端的贡献设计合理的激励机制,从训练数据出发,评估不同客户在联邦学习中的贡献,并给予相应的奖励。但为了计算不同客户的贡献指数,需要对不同训练数据集组合的机器学习模型进行训练和评估。因此,将消耗大量的时间和精力,这实际应用中是不可能的。其次,激励机制大多以激励相容、个
人理性、公平约束和预算平衡等属性为目标,这也是联邦学习中激励机制研究的重点。其中,激励兼容性是指当所有参与方如实申报其贡献和成本类型是最优策略,换句话说,举报虚假信息不会给恶意玩家带来收益;个人理性是指保证所有参与者的非负收益。公平约束是指将预定义的公平函数如贡献公平、遗憾分配公平和期望公平最大化,从而使激励机制实现公平属性;预算平衡是指参与者支付的金额不超过全局服务器给出的预算。有鉴于此,需要提供一种新的结构或控制方法,以期解决上述至少部分问题。
技术实现要素:6.针对现有技术中的一个或多个问题,本发明提出了一种面向室内定位联邦学习的群智众筹激励方法,应用联邦学习框架训练室内定位模型,基于群智众筹招募用户方式,通过所设计的众筹者价值估计和众筹者选择雇佣机制,实现快速准确高效的室内定位。
7.实现本发明目的的技术解决方案为:
8.一种面向室内定位联邦学习的群智众筹激励方法,包括如下步骤:
9.步骤1、群智众筹平台确定室内定位场景,并向群智众筹参与者{1,2,...,n}公布协同训练室内定位模型的联邦学习任务;
10.步骤2、群智众筹参与者i∈{1,2,...,n}根据联邦学习任务、所持有的移动设备信息和本地数据集di,分别计算参与联邦学习任务的成本ci,决定是否参与联邦学习任务,并向群智众筹平台提交竞标价格bi=ci;
11.步骤3、依次选择所有众筹者i∈n,并给予平台可接受的最大支付报酬p
i,t
=c
max
,所有众筹者根据本地数据集di训练模型并上传模型参数,平台评估所有众筹者上传的模型,并计算得到众筹者声誉的ucb值的初始值;
12.步骤4、对所有众筹者i∈n声誉ucb值与竞标价格bi的比值进行排序,表示为在预算约束b下贪婪选择其中最大的k个众筹者加入中标者集合s参与联邦学习任务,并向其公布模型参数ω
glob
,支付报酬
13.步骤5、中标者j∈s通过本地数据集dj协同训练室内定位模型,并向群智众筹平台上传此次迭代t的本地训练模型参数ω
j,t
,群智众筹平台在每轮迭代t中计算本次迭代得到的模型的训练质量q
j,t
,计算其声誉值rj并聚合全局模型ω
glob
,同时更新所有众筹者i∈n的声誉ucb值转步骤4,将声誉ucb值用于下一轮次的cmab选择雇佣策略,直到达到最大预算b或达到最大迭代轮次t时结束
14.进一步的,本发明的面向室内定位联邦学习的群智众筹激励方法,步骤1中的室内定位任务包括具体定位范围、最大预算b及相应训练迭代轮次{1,2,...,t}。
15.进一步的,本发明的面向室内定位联邦学习的群智众筹激励方法,步骤5中本次迭代得到的模型ω
j,t
的训练质量q
j,t
的衡量指标包括:基于训练损失值的模型训练质量基于测试精度的模型训练质量和训练数据量ωj,其中,基于训练损失值的模型训练质量
通过与当前迭代轮次中所有中标者j∈s的平均训练损失值及中标者j上一轮的模型训练损失值比较而得到,数值越大表示该中标者的训练质量越高;基于测试精度的模型训练质量通过与当前迭代轮次中所有中标者j∈s的平均测试精度值及中标者j上一轮的模型测试精度值比较而得到,数值越大表示该中标者j的训练质量越高;训练数据量ωj数值越大表示该中标者i的训练质量越高。
16.进一步的,本发明的面向室内定位联邦学习的群智众筹激励方法,步骤5中本次迭代得到的模型ω
j,t
的训练质量q
j,t
的计算公式具体为:
[0017][0018][0019][0020]
其中,表示中标者j的模型训练损失值和测试精度的质量指标,ωj表示中标者j用于训练的数据量,分别表示平均测试损失值和平均测试精度,k表示每轮迭代选择众筹者的总数,loss
j,t-1
、acc
j,t-1
分别表示中标者j上次迭代产生的全局模型的测试损失值和测试精度,α1,α2,α3,α
11
,α
12
,α
21
,α
22
分别表示各个变量的权重值。
[0021]
进一步的,本发明的面向室内定位联邦学习的群智众筹激励方法,步骤5中计算并更新声誉价值r
j,t
具体包括:
[0022]
在第t轮联邦学习中,群智众筹平台根据中标者j∈s的历史模型训练质量{q
j,1
,q
j,2
,...,q
j,t
}和质量阈值σ
th
,将中标者j的模型训练分为可信行为a
j,t
与不可信行为b
j,t
,并分别赋予不同的权重值,同时根据迭代轮次的远近赋予不同权重值指数;
[0023]
采用中标者j∈s当前轮次的模型训练质量q
j,t
来表征中标者的不确定性,表示为u
j,t
=(1-q
j,t
);
[0024]
根据主观逻辑模型计算中标者j∈s的声誉价值r
j,t
,得到:
[0025][0026]uj,t
=(1-q
j,t
)
[0027][0028][0029]
其中,α表示不确定性对声誉影响程度的系数,e(
·
)将众筹者的模型训练质量转化众筹者的可信程度,较高的模型训练质量水平意味着较大的更新强度和曲线斜率,θ1,θ2为缩放参数,t-r为q
j,r
的指数项,表示当前迭代与该训练质量所在迭代的轮次差值。
[0030]
进一步的,本发明的面向室内定位联邦学习的群智众筹激励方法,对中标者j的模型训练分为可信行为a
j,t
与不可信行为b
j,t
并赋予权重值具体包括:
[0031]
当q
j,r
≥σ
th
时,中标者j的模型训练为可信行为a
j,t
,权重值更新表示为q
j,rt-r
;
[0032]
当q
j,r
≤σ
th
时,中标者j的模型训练为不可信行为b
j,t
,权重更新表示为(q
j,r-1)
t-r
;
[0033]
其中,t-r表示当前迭代与该训练质量所在迭代的轮次差值。
[0034]
进一步的,本发明的面向室内定位联邦学习的群智众筹激励方法,步骤5中根据声誉价值聚合全局模型ω
glob
的计算公式为:
[0035][0036]
其中,r
j,t
表示中标者j的声誉价值。
[0037]
进一步的,本发明的面向室内定位联邦学习的群智众筹激励方法,步骤5中所有众筹者i∈{1,2,...,n}声誉ucb值的计算具体包括:
[0038][0039][0040][0041][0042]
其中,r
i,t
表示众筹者i在t轮迭代的声誉价值,表示众筹者i在t轮迭代之后的声誉均值,δ
i,t
表示ucb算法中的加性因子,q
i,t
表示众筹者i的模型质量,n
i,t
表示众筹者i在t轮迭代之后中标次数。
[0043]
本发明采用以上技术方案与现有技术相比,具有以下技术效果:
[0044]
本发明的面向室内定位联邦学习的群智众筹激励方法,应用联邦学习框架,基于群智众筹的思想招募用户参与,考虑参与联邦学习的众筹者模型训练质量未知,根据众筹者长期模型训练质量设计众筹者声誉价值模型,采用强化学习cmab框架选择高声誉众筹者参与联邦学习模型训练过程,获得高精度室内定位模型,同时在群智众筹用户选择招募中引入反向拍卖框架,激励高声誉众筹参与者提供高质量数据和模型训练,在预算约束下最大化实现众筹平台效益最大化,在模型训练质量和模型训练收敛速度方面,相对于现有方法具有明显提升。
附图说明
[0045]
附图用来提供对本发明的进一步理解,与说明描述一起用于解释本发明的实施例,并不构成对本发明的限制。在附图中:
[0046]
图1示出了本发明的面向室内定位联邦学习的群智众筹激励方法中的激励框架示意图。
[0047]
图2示出了本发明的面向室内定位联邦学习的群智众筹激励方法中的基于联邦学习的模型训练示意图。
[0048]
图3示出了本发明的融合反向拍卖和cmab的激励算法流程图。
具体实施方式
[0049]
为了进一步理解本发明,下面结合实施例对本发明优选实施方案进行描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
[0050]
该部分的描述只针对典型的实施例,本发明并不仅局限于实施例描述的范围。不同实施例的组合、不同实施例中的一些技术特征进行相互替换,相同或相近的现有技术手段与实施例中的一些技术特征进行相互替换也在本发明描述和保护的范围内。
[0051]
本发明提出了一种面向室内定位联邦学习的群智众筹激励方法,群智众筹平台激励众筹者参与室内定位任务,根据众筹者历史室内定位模型训练质量衡量其声誉价值,并基于cmab算法选择高声誉众筹者参与联邦学习协同训练室内定位模型过程,实际应用当中,如图1所示,设计具体执行如下步骤a至步骤d:
[0052]
步骤a、群智众筹平台首先确定具体室内定位任务,包括具体定位范围、最大预算b及相应训练迭代轮次{1,2,...,t},同时向所有众筹者{1,2,...,n}公布关于室内定位模型训练任务,然后进入步骤b到d循环迭代,直到预算b耗尽或到达最大迭代轮次t;
[0053]
步骤b、根据平台公布的任务,群智众筹参与者i∈{1,2,...,n}根据所持有的移动设备信息和本地数据集di,计算相应参与联邦学习任务的成本ci,决定是否参与联邦学习任务,并根据成本ci向群智众筹平台提交竞标价格bi;
[0054]
步骤c、群智众筹平台收到参与者的竞标价格后,根据强化学习cmab的基于ucb算法选择中标者集合s参与联邦学习模型训练过程,向其公布深度学习模型ω
glob
,并支付相应的报酬pi,以激励众筹者参与下一轮竞标过程;
[0055]
步骤d、所有中标者j∈s通过本地数据集dj训练定位模型,向众筹平台上传此次迭代t本地训练模型ω
j,t
,众筹平台评估其在本次迭代t∈{1,2,...,t}的模型训练质量q
j,t
,并执行如下步骤d1至d3更新声誉价值r
j,t
和全局模型ω
glob
;
[0056]
步骤d1、分别针对各个中标者j∈s上传的本地模型ωj,基于测试集评估模型训练质量q
j,t
,如下式:
[0057][0058][0059][0060]
评估中标者j在每轮迭代t中的模型训练质量模型由三个指标组成,分别为基于测试损失值的模型训练质量基于测试精度的模型训练质量和训练数据量ωi,其中,表示中标者j的模型训练损失值和测试精度的质量指标,ωj表
示中标者j用于训练的数据量,分别表示平均测试损失值和平均测试精度,k表示每轮迭代选择众筹者的总数,loss
j,t-1
、acc
j,t-1
分别表示中标者j上次迭代产生的全局模型的测试损失值和测试精度,α1,α2,α3,α
11
,α
12
,α
21
,α
22
分别表示各个变量的权重值;
[0061]
步骤d2、为真实地表征众筹者模型训练质量,引入声誉价值r
j,t
聚合每个中标者j的历史训练质量。所述中标者声誉价值r
j,t
根据主观逻辑模型加权融合众筹历史模型训练质量{q
j,1
,q
j,2
,...,q
j,t
},在t轮联邦学习中,首先众筹平台根据中标者j∈s的历史模型训练质量{q
j,1
,q
j,2
,...,q
j,t
}和质量阈值σ
th
,将中标者j的模型训练分为可信行为a
j,t
与不可信行为b
j,t
两类,并分别赋予不同的权重值,同时根据迭代轮次的远近赋予不同权重值指数,具体地:可信行为a
j,t
,即q
j,r
≥σ
th
时,赋予权重更新表示为q
j,rt-r
;不可信行为b
i,t
,即q
j,r
≤σ
th
,赋予权重更新表示为(q
j,r-1)
t-r
,其中t-r表示当前迭代与该训练质量所在迭代的轮次差值;其次,众筹平台根据众筹者当前轮次的模型训练质量q
j,t
表征众筹者的不确定性,表示为u
i,t
=(1-q
j,t
);最后根据主观逻辑模型综合考虑中标者的声誉价值r
j,t
,如下式
[0062][0063]uj,t
=(1-q
j,t
)
[0064][0065][0066]
其中,α表示不确定性对声誉影响程度的系数,e(
·
)将众筹者的模型训练质量转化众筹者的可信程度,较高的模型训练质量水平意味着较大的更新强度和曲线斜率,θ1,θ2为缩放参数,t-r为q
j,r
的指数项,表示当前迭代与该训练质量所在迭代的轮次差值。
[0067]
步骤d3、根据声誉价值r
i,t
作为权重更新全局模型ω
glob
[0068][0069]
步骤d4、众筹平台计算得到所有众筹者i∈{1,2,...,n}声誉ucb值用于下一轮次的cmab选择雇佣策略,ucb值为置信区间上界值,ucb的思想遵循乐观原则,考虑了众筹者不确定性和当前轮次的模型训练质量,即给每个众筹者分配一个称为置信上限的值,如下式,
[0070][0071]
[0072][0073][0074]
其中,表示众筹者i在t轮迭代之后的声誉均值,δ
i,t
表示ucb算法中的加性因子,qi,t表示众筹者i的模型质量,n
i,t
表示众筹者i在t轮迭代之后中标次数。
[0075]
上述设计引入联邦学习的思想,可以很好的解决现有技术存在中的问题。现有的基于指纹定位的室内定位方法易于实现且精度高,在传统的指纹定位中,通常利用来自多个无线信标和接入点的rss指纹来估计室内环境中用户或设备的位置,主要依托包含用户终端和云定位服务器的云架构实现定位,其核心是能够发现指纹和位置之间映射关系的定位算法。指纹室内定位技术包括离线训练和在线定位2个阶段,离线训练阶段通过从室内场景中预先定义的各个参考点收集rss指纹构建位置指纹数据库,在线定位阶段将实时获取的rss指纹与位置指纹数据库中存储的指纹进行比对,得到相似度最高的指纹数据所对应的位置来确定目标位置。而随着室内位置相关数据的爆炸式增长以及设备计算能力的提高,利用深度学习的定位技术,具有广阔的应用空间。然而,随着各种室内位置服务应用和大量智能终端设备的广泛使用,室内定位服务用户请求更加频繁、室内定位环境部署更加快速、定位服务响应需要更加可靠及时、物联网环境下联合定位的数据融合更加复杂和为提高定位精度所带来的大量数据传输和计算,也给使用云架构的基于深度学习dl的室内定位技术提出了一些新的挑战。
[0076]
联邦学习主要包括云端模型学习和用户本地子模型学习2个关键部分,如图2所示。首先,各个客户端使用自己本地所具有的数据来对模型进行局部训练,将训练得到的梯度结果或者模型参数结果使用加密手段发送给服务端;其次,服务端在收到各客户端发来的训练结果后,进行安全聚合,最常见的聚合方式为联邦平均,其是将各客户端发来的结果做加权平均运算;然后,服务器将聚合后的结果发给各个客户端,各个客户端使用聚合结果对模型做出更新。随后进入到下一次迭代,客户端使用更新的模型再次进行局部训练。服务器端全局模型的更新可以形式化为:
[0077][0078]
其中,w代表云端模型参数,k为参与本地子模型训练的多个用户,经过若干训练周期后,更新的云端模型f
glob
()可以涵盖几乎所有参与者的本地模型,达到了更好的泛化能力。
[0079]
实际应用中,尽管联邦学习具有巨大的潜力,但仍然面临一些技术挑战。联邦学习性能很大程度上依赖于局部模型更新的质量,如果没有足够的回报,用户不愿意参与联合学习训练并分享模型更新参数,因为模型训练消耗大量的资源,如计算、通信和电池电量,而这通常是资源稀缺的移动设备所不能接受的;同时,联合学习中的用户是独立的,可以决定何时、何地以及如何参与联合学习。因此,激励机制对于联邦学习系统来说是至关重要的。激励机制在p2p网络、机会网络、延迟容忍网络和无线频谱分配等方向中也存在大量研
究工作,然而现有的激励机制无法直接应用联邦学习。联邦学习中激励机制研究的主要目标是在群智众筹平台的管理下,激励具有高性能设备的持有者(群智众筹者)训练模型,并积极参与联邦学习任务,提交高质量可靠的模型参数更新。
[0080]
根据群智众筹系统的体系结构,激励机制模型的主体就是参与者和服务器平台。报酬支付激励方式则可以根据不同的偏重点,选择是以参与者为中心还是以服务器为中心的激励机制。其中以服务器平台为中心的激励方式就是事先了解参与者的所有信息,包括位置、报价、数据质量等。然后从申请任务的所有参与者中选出能最大化任务效用和最小化花费代价的参与者子集,将最终的报酬奖励支付给该子集中的所有参与者。这种激励方式就是以服务器为中心的报酬支付模式,其中最主要的采用的方法就是拍卖模型。拍卖模型在报酬支付激励中的方式也包含多种方法,比如逆向拍卖、vcg拍卖、组合拍卖、双向拍卖等多种拍卖方式。在拍卖模型中,每个参与者都有一个自己的报价和一个任务的真实估价,其中报价是不低于真实估价的,以确保参与者能获得非负收益。服务器识别投标报价信息,确定报价最低的一部分,而不是所有的投标者,过多的参与者只会增加平台的支付成本。
[0081]
在拍卖中,成功获得感知任务申请的被称为赢家,最终由这一赢家集合完成任务并支付相应的报酬。其中逆向拍卖(reverse auction)也称为反向拍卖、荷兰式拍卖。传统的正向拍卖包含一位卖方和多位买方,而逆向拍卖则是有一个买方和多个卖方。
[0082]
采取反向拍卖激励众筹者参与联邦学习过程训练室内定位模型,将数据请求者看作买家,将众筹平台看做拍卖商,将众筹者看作卖家,交易物品则是众筹者提供的本地模型。在众筹平台公布联邦学习任务后,会根据自身情况上报任务所需成本。平台在收到众筹者的回应后会根据整个系统的优化目标来选择合适的用户执行联邦学习任务并支付相应的报酬。众筹者i向平台上报执行联邦学习的价格bi。由于真实的成本ci是众筹者i的私有信息,众筹者可能上报错误的成本价格以获取更大的收益,因此bi≠ci。在拍卖开始时,每个众筹者向平台提交自己的报价,然后平台选择众筹者i执行联邦学习任务,并获得支付报酬p
i,t
。
[0083]
在联邦学习系统中,不可靠的众筹者可能会有意或无意地提供低质量的模型更新参数,导致联邦学习任务的全局模型训练变差。对于有意的行为,众筹者可能会发送恶意更新以影响全局模型参数,从而导致当前的协作学习机制失效。因此,声誉值衡量是一个至关重要的挑战。通过节点积攒的声誉值或声誉积分判断一个节点是否可以信任。声誉可以定义为基于有关其过去行为的信息或观察到的对实体行为的期望,并且声誉可用于对另一个实体(对象或人)进行价值判断。尽管声誉在很大程度上影响着用户、服务和服务提供商之间的交互,但如今声誉系统的实施的实现远远不能令人满意。基于声誉值计算最终产生的价值是一个整体价值,用于建立声誉的信息主要取决于用户的反馈。但这种声誉机制很容易被恶意节点利用,并可能通过再次请求身份或更改id来抹除自己的恶意行径来影响系统的正常运行。声誉机制可以衡量一个社区、网络或应用程序的可信度。它是根据用户与网络的初始事务或交互计算的。可信度越高,用户就越值得信任。因此,在网络的数据选择中,任务的选择和感知到的数据更为有利,从而使用户的行为更加诚实。
[0084]
在反向拍卖模型下,首先,数据请求者向系统平台发送感知任务和相应的预算,平台将感知任务的执行周期划分为多个轮次并通过移动互联网将感知任务发布给系统中的用户。在收到平台发布的任务信息后,用户会根据自身情况向平台上报自己执行任务的价
格。之后,用户选择与报酬支付过程会一轮一轮地进行,直至达到预算限制。在每一轮中,平台首先根据系统的优化目标决定拍卖中的胜者(即选择合适的用户),被选中的用户将会移动到指定地点执行感知任务然后将感知数据返回给平台。平台向用户支付本轮执行任务的报酬。由于用户的感知质量是未知的,平台需要在线地持续学习用户的感知质量,并根据己学习到的信息进行决策。因此,平台为每个用户维护一个质量信息,在每一轮收到用户返回的感知数据后,平台更新己学习到的感知质量,并以此作为下一轮选择用户的依据。
[0085]
图3显示的融合反向拍卖和cmab的激励算法流程示意图,在激励机制设计中包含两个子问题,即众筹者选择问题与报酬支付问题。在联邦学习系统中,模型训练任务周期执行且众筹者的模型训练质量未知。因此,众筹平台需要同时进行众筹者模型训练质量学习和众筹者选择与报酬支付策略。针对众筹者选择问题,具体将模型训练质量未知的众筹者建模为一个在线的强化学习过程,并基于ucb的思想设计众筹者选择策略,从而平衡探索与利用阶段。在每一轮次的联邦学习迭代t中选择众筹者执行模型训练任务,并记录其众筹者声誉与被选择次数,记录为r
t
={r
1,t
,r
2,t
,...,r
n,t
,}和n
t
={n
1,t
,n
2,t
,...,n
n,t
}。
[0086]
报酬支付问题即是平台在每一轮选择用户后,如何合理地计算支付给该用户的报酬,使得用户能够自愿参与联邦学习并且诚实报价(即满足个体理性和诚实性)。事实上,也只有当用户诚实报价时,平台才能进行有效的用户选择。因此,用户选择问题和报酬支付问题是相互影响、共同作用的,选择模型训练较高、执行成本较低的用户执行任务能够最大化数据请求者的收益,在满足诚实性和个体理性的同时,向用户支付尽可能少的报酬能够节省预算,进行更多轮次的模型训练。在平台初始化阶段,通过依次选择用户的方式来初始化感知质量值。因此,将向被选择的支付的报酬设置为其可能产生的最大成本,即c
max
。在之后的每一轮,则支付给众筹者i的报酬计算为:
[0087]
上述技术方案所设计一种面向室内定位联邦学习的群智众筹激励方法,应用联邦学习框架,基于群智众筹的思想招募用户参与,考虑参与联邦学习中众筹者模型训练质量未知,根据众筹者长期模型训练质量设计众筹者声誉价值模型,采用强化学习cmab框架选择高声誉众筹者参与联邦学习模型训练过程,获得高精度室内定位模型,同时在群智众筹用户选择招募中引入反向拍卖框架,激励高声誉众筹参与者提供高质量数据和模型训练,在预算约束下最大化实现众筹平台效益最大化,在模型训练质量和模型训练收敛速度方面,相对于现有方法具有明显提升。
[0088]
这里本发明的描述和应用是说明性的,并非想将本发明的范围限制在上述实施例中。说明书中所涉及的效果或优点等相关描述可因具体条件参数的不确定或其它因素影响而可能在实际实验例中不能体现,效果或优点等相关描述不用于对发明范围进行限制。这里所披露的实施例的变形和改变是可能的,对于那些本领域的普通技术人员来说实施例的替换和等效的各种部件是公知的。本领域技术人员应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现。在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。
技术特征:1.一种面向室内定位联邦学习的群智众筹激励方法,其特征在于,包括如下步骤:步骤1、群智众筹平台确定室内定位场景,并向群智众筹参与者{1,2,...,n}公布协同训练室内定位模型的联邦学习任务;步骤2、群智众筹参与者i∈{1,2,...,n}根据联邦学习任务、所持有的移动设备信息和本地数据集d
i
,分别计算参与联邦学习任务的成本c
i
,决定是否参与联邦学习任务,并向群智众筹平台提交竞标价格b
i
=c
i
;步骤3、依次选择所有众筹者i∈n,并给予平台可接受的最大支付报酬p
i,t
=c
max
,所有众筹者根据本地数据集d
i
训练模型并上传模型参数,平台评估所有众筹者上传的模型,并计算得到众筹者声誉的ucb值的初始值;步骤4、对所有众筹者i∈n声誉ucb值与竞标价格b
i
的比值进行排序,表示为在预算约束b下贪婪选择其中最大的k个众筹者加入中标者集合s参与联邦学习任务,并向其公布模型参数ω
glob
,支付报酬步骤5、中标者j∈s通过本地数据集d
j
协同训练室内定位模型,并向群智众筹平台上传此次迭代t的本地训练模型参数ω
j,t
,群智众筹平台在每轮迭代t中计算本次迭代得到的模型的训练质量q
j,t
,计算其声誉值r
j
并聚合全局模型ω
glob
,同时更新所有众筹者i∈n的声誉ucb值转步骤4,将声誉ucb值用于下一轮次的cmab选择雇佣策略,直到达到最大预算b或达到最大迭代轮次t时结束。2.根据权利要求1所述的面向室内定位联邦学习的群智众筹激励方法,其特征在于,步骤1中的室内定位任务包括具体定位范围、最大预算b及相应训练迭代轮次{1,2,...,t}。3.根据权利要求1所述的面向室内定位联邦学习的群智众筹激励方法,其特征在于,步骤5中本次迭代得到的模型ω
j,t
的训练质量q
j,t
的衡量指标包括:基于训练损失值的模型训练质量基于测试精度的模型训练质量和训练数据量ω
j
,其中,基于训练损失值的模型训练质量通过与当前迭代轮次中所有中标者j∈s的平均训练损失值及中标者j上一轮的模型训练损失值比较而得到,数值越大表示该中标者的训练质量越高;基于测试精度的模型训练质量通过与当前迭代轮次中所有中标者j∈s的平均测试精度值及中标者j上一轮的模型测试精度值比较而得到,数值越大表示该中标者j的训练质量越高;训练数据量ω
j
数值越大表示该中标者i的训练质量越高。4.根据权利要求1或3所述的面向室内定位联邦学习的群智众筹激励方法,其特征在于,步骤5中本次迭代得到的模型ω
j,t
的训练质量q
j,t
的计算公式具体为:的计算公式具体为:
其中,表示中标者j的模型训练损失值和测试精度的质量指标,ω
j
表示中标者j用于训练的数据量,分别表示平均测试损失值和平均测试精度,k表示每轮迭代选择众筹者的总数,loss
j,t-1
、acc
j,t-1
分别表示中标者j上次迭代产生的全局模型的测试损失值和测试精度,α1,α2,α3,α
11
,α
12
,α
21
,α
22
分别表示各个变量的权重值。5.根据权利要求1所述的面向室内定位联邦学习的群智众筹激励方法,其特征在于,步骤5中计算并更新声誉价值r
j,t
具体包括:在第t轮联邦学习中,群智众筹平台根据中标者j∈s的历史模型训练质量{q
j,1
,q
j,2
,...,q
j,t
}和质量阈值σ
th
,将中标者j的模型训练分为可信行为a
j,t
与不可信行为b
j,t
,并分别赋予不同的权重值,同时根据迭代轮次的远近赋予不同权重值指数;采用中标者j∈s当前轮次的模型训练质量q
j,t
来表征中标者的不确定性,表示为u
j,t
=(1-q
j,t
);根据主观逻辑模型计算中标者j∈s的声誉价值r
j,t
,得到:u
j,t
=(1-q
j,t
))其中,α表示不确定性对声誉影响程度的系数,e(
·
)将众筹者的模型训练质量转化众筹者的可信程度,较高的模型训练质量水平意味着较大的更新强度和曲线斜率,θ1,θ2为缩放参数,t-r为q
j,r
的指数项,表示当前迭代与该训练质量所在迭代的轮次差值。6.根据权利要求5所述的面向室内定位联邦学习的群智众筹激励方法,其特征在于,对中标者j的模型训练分为可信行为a
j,t
与不可信行为b
j,t
并赋予权重值具体包括:当q
j,r
≥σ
th
时,中标者j的模型训练为可信行为a
j,t
,权重值更新表示为q
j,rt-r
;当q
j,r
≤σ
th
时,中标者j的模型训练为不可信行为b
j,t
,权重更新表示为(q
j,r-1)
t-r
;其中,t-r表示当前迭代与该训练质量所在迭代的轮次差值。7.根据权利要求1所述的面向室内定位联邦学习的群智众筹激励方法,其特征在于,步骤5中根据声誉价值聚合全局模型ω
glob
的计算公式为:其中,r
j,t
表示中标者j的声誉价值。8.根据权利要求1所述的面向室内定位联邦学习的群智众筹激励方法,其特征在于,步骤5中所有众筹者i∈{1,2,...,n}声誉ucb值的计算具体包括:
其中,r
i,t
表示众筹者i在t轮迭代的声誉价值,表示众筹者i在t轮迭代之后的声誉均值,δ
i,t
表示ucb算法中的加性因子,q
i,t
表示众筹者i的模型质量,n
i,t
表示众筹者i在t轮迭代之后中标次数。
技术总结本发明提供了一种面向室内定位联邦学习的群智众筹激励方法,应用联邦学习框架,基于群智众筹的思想招募用户参与,考虑参与联邦学习众筹者模型训练质量未知,根据众筹者长期模型训练质量设计众筹者声誉价值模型,采用强化学习CMAB框架选择高声誉众筹者参与联邦学习模型训练过程,获得高精度室内定位模型,同时在群智众筹用户选择招募中引入反向拍卖框架,激励高声誉众筹参与者提供高质量联邦学习定位模型训练,在预算约束下最大化实现众筹平台效益最大化,同时实现快速准确高效的室内定位,在室内定位模型精度和模型训练收敛速度方面,相对于现有方法具有明显提升。相对于现有方法具有明显提升。相对于现有方法具有明显提升。
技术研发人员:张晖 遆宁 赵海涛 朱洪波
受保护的技术使用者:南京邮电大学
技术研发日:2022.07.08
技术公布日:2022/11/1