本发明属于边缘服务,具体涉及一种基于多代理强化学习的服务迁移和资源分配联合优化方法。
背景技术:
1、近年来,随着5g技术的快速发展和用户设备ue的爆炸式增长,例如增强现实和在线互动游戏等计算密集型和延迟敏感型应用引起了人们的广泛关注,这些应用对ue的强大计算能力和密集的计算资源提出了较高的要求。然而,目前的ue大多受限于电池容量和大小限制使得其无法提供所需的计算能力,使得在移动设备上执行此类应用时无法提供令人满意的效果。
2、通过将任务上传到拥有足够计算资源的中心云进行处理上是一个不错的解决方式,但由于云计算中心和ue的地理隔离,他们会产生较高的通信延迟,从而可能超过任务的延迟需求。为了应对这一挑战,移动边缘计算mec成为了一种备受期待的新型计算范式,相较于传统的云计算,mec将计算密集型和延迟敏感性任务从资源受限的ue转移到附近的边缘服务器es,从而既减轻了终端和网络的负载,又显著的减少了端到端之间的通信时延,同时边缘服务器又有着相对于ue而言丰富的计算资源,能有效的满足不同应用的时延需求,从而提高服务质量qos。然而,无线网络中用户的移动性为长期服务的计算卸载带来了新的挑战。由于用户的移动性,不能简单地将任务卸载到边缘服务器,因为当用户移动到远离其服务所在es的另一个边缘节点时,会导致较高的通信延迟。因此,为了确保在不同边缘节点移动时的qos,需要在网络边缘采取有效的移动性管理方案。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种基于多代理强化学习的服务迁移和资源分配联合优化方法,用于解决上述技术问题。
2、为达到上述目的,本发明提供如下技术方案:
3、一种基于多代理强化学习的服务迁移和资源分配联合优化方法,包括:
4、获取iot环境中的用户信息u,判断用户服务上下文是否需要迁移;
5、若需要迁移,计算发生迁移时的优化响应时间和服务迁移成本;
6、基于优化响应时间和服务迁移成本生产联合优化问题;
7、基于多代理强化学习和凸优化方法,求解联合优化问题,得到服务迁移策略和最优资源分配策略。
8、进一步,获取iot环境中的用户信息u,判断用户服务上下文是否需要迁移,包括:
9、获取一个由m个边缘服务器组成的具有网络拓扑结构的iot系统中的iot用户信息u={u1,u2,...,un};其中,m个边缘服务器和基站紧密的部署在同一位置,基站及其与之连接的边缘服务器的集合为m={1,2,...,m};
10、获取用户信息u中包含的,在时隙t时用户ui的特定服务实例在各边缘服务器上的放置状态其中,的约束为:
11、
12、根据判断用户服务上下文是否需要迁移;其中,表示在时隙t中用户ui的特定服务实例放置在边缘服务器j,表示在时隙t中用户ui的特定服务实例未放置在边缘服务器j,表示在时隙t中用户ui的特定服务实例所在边缘服务器,若则表示用户ui的特定服务实例进行了迁移,则用户服务上下文需要迁移。
13、进一步,计算发生迁移时的优化响应时间和服务迁移成本,包括:
14、获取用户ui的服务上下文进行迁移时,用户ui的服务暂停时延特定状态上下文同步时延和服务恢复时延计算得到用户ui在时隙t的总迁移时延
15、
16、获取用户ui使用的服务k每时隙产生的需要处理的用户任务,传输至用户ui直接相关联边缘服务器时,用户ui的上行通信时延传输任务结果的下行通信时延以及用户ui直接相关联边缘服务器和边缘服务器j之间的传输时延和传输任务结果返回时延计算得到用户ui在时隙t的总通信时延
17、
18、获取在时隙t时用户ui的特定服务实例所在边缘服务器执行用户任务的计算时延
19、
20、其中,为边缘服务器j在时隙t为用户ui分配的计算资源,fj为边缘服务器j的最大可用计算资源,为在时隙t中处理服务k所产生任务需要的计算强度,为服务k在时隙t所产生的任务大小;
21、根据用户ui在时隙t的总迁移时延用户ui在时隙t的总通信时延和在时隙t时边缘服务器j执行用户任务的计算时延计算得到在t时隙执行用户任务的优化响应时间
22、
23、获取在时隙t中用户的服务迁移成本
24、
25、其中,l-1为服务k从边缘服务器迁移到边缘服务器所需经过的跳数,we为成本系数。
26、进一步,获取用户ui的服务上下文进行迁移时,用户ui的服务暂停时延特定状态上下文同步时延和服务恢复时延包括:
27、获取进行迁移时用户ui的服务暂停时延:
28、
29、其中,为用户ui的服务暂停时延,为暂停服务k所需的计算强度,为用户特定状态上下文的大小,为时隙t-1时用户ui的特定服务实例所在边缘服务器为用户ui分配的计算资源,为发生迁移前用户ui的特定服务实例所在边缘服务器的放置状态,为发生迁移后用户ui的特定服务实例所在边缘服务器的放置状态;
30、获取进行迁移时用户ui的特定状态上下文同步时延:
31、
32、其中,为用户ui的特定状态上下文同步时延,l={c,...,j}表示从边缘服务器c到边缘服务器j的最短路径所需经过的边缘服务器的跳数,bl,l+1为边缘服务器l与l+1之间的带宽;
33、获取进行迁移时用户ui的服务恢复时延:
34、
35、其中,为用户ui的服务恢复时延,表示恢复服务k所需的计算强度,为发生迁移后用户ui的特定服务实例所在边缘服务器为用户ui分配的计算资源。
36、进一步,获取用户ui使用的服务k每时隙产生的需要处理的用户任务,传输至用户ui直接相关联边缘服务器时,用户ui的上行通信时延传输任务结果的下行通信时延以及用户ui直接相关联边缘服务器和边缘服务器j之间的传输时延和传输任务结果返回时延包括:
37、获取用户任务传输至用户ui直接相关联边缘服务器时的上行通信时延
38、
39、其中,为用户任务传输至用户ui直接相关联边缘服务器时的上行通信时延为用户ui到边缘服务器的无线传输速率,为用户ui的用户实时位置,w为用户ui和与其直接相关联边缘服务器之间的无线信道带宽,为用户ui的发射功率,n0为高斯噪声功率谱密度,gt为边缘服务器j与用户ui之间的无线信道路径损益,β0表示d0=1m处的信道功率,表示边缘服务器j与用户ui之间的距离;
40、获取用户任务传输至用户ui直接相关联边缘服务器时的下行通信时延
41、
42、其中,为服务k在t时隙任务返回结果的大小;
43、获取用户任务传输到边缘服务器j时,用户ui直接相关联边缘服务器和边缘服务器j之间的传输时延和传输任务结果返回时延
44、
45、其中,bl,l+1为边缘服务器l与l+1之间的带宽。
46、进一步,基于优化响应时间和服务迁移成本生产联合优化问题,包括:
47、基于成本-性能权衡,根据优化响应时间和服务迁移成本获得性能和成本权衡公式:
48、
49、其中,t*为平均服务响应时延约束,μ为t时隙在平均响应时延约束内完成服务的基础奖励,wy是响应时延的权重,为由于服务迁移所产生的迁移成本;
50、根据性能和成本权衡公式,确定联合优化问题:
51、
52、其中,为边缘服务器j在时隙t为用户ui分配的计算资源,fj为边缘服务器j的最大可用计算资源,为在时隙t时用户ui的特定服务实例在边缘服务器j上的放置状态。
53、进一步,基于多代理强化学习和凸优化方法,求解联合优化问题,得到服务迁移策略和最优资源分配策略,包括:
54、根据网络拓扑结构的iot系统中边缘服务器的部署数据和iot用户的用户数据,构建多代理强化学习中的环境总状态,以及每个代理的状态、动作和奖励;
55、环境总状态st为任意时隙t的系统状态;
56、
57、其中,任意时隙t的系统状态st由iot中用户ui的实时状态构成的数组表示,数组包括服务k在时隙t所产生的任务大小处理服务k所产生任务需要的计算强度服务k的用户相关状态上下文大小用户实时位置以及用户ui的特定服务实例所在的边缘服务器
58、每个代理的状态为每个代理在t时隙能够观测到的状态
59、根据当前观测到的状态,每个代理在t时隙生成的动作为
60、其中,j表示把用户ui的特定服务实例迁移到的具体边缘服务器;
61、每个代理的奖励为总奖励为
62、根据环境总状态,以及每个代理的状态、动作和奖励,基于多代理强化学习方法,训练得到服务迁移策略模型;
63、根据服务迁移策略确定用户ui的特定服务实例的服务迁移策略;
64、确定服务迁移策略后,基于凸优化方法,确定资源分配策略,包括:
65、已知在t时隙给定服务迁移策略的情况下,只与有关,由于资源分配在时隙t内的每个边缘服务器j处以分布式方式进行,转换目标函数为:
66、
67、对目标函数进行一阶导和二阶导得到:
68、
69、其中,
70、根据目标函数的一阶导结果和二阶导结果,确定目标函数为凸函数;
71、基于目标函数为凸函数,根据拉格朗日函数求解确定迁移策略情况下的资源分配方案:
72、
73、通过kkt条件计算最优资源配置的最优解:
74、
75、其中,为最优资源分配策略。
76、本发明的有益效果在于:
77、本发明将服务迁移和资源分配相结合,同时考虑网络的拓扑结构和各边缘服务器的异构性;通过多代理强化学习和凸优化方法解决联合优化问题,可以在现实环境中更加实时和快速的提供合适的服务迁移和资源分配策略,以减小用户任务响应时间的同时降低系统的迁移成本。
78、本发明的其他优点、目标和特征将在随后的说明书中进行阐述,并且在某种程度上对本领域技术人员而言是显而易见的,或者本领域技术人员可以从本发明的实践中得到教导。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
79、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
1.一种基于多代理强化学习的服务迁移和资源分配联合优化方法,其特征在于,包括:
2.根据权利要求1所述的一种基于多代理强化学习的服务迁移和资源分配联合优化方法,其特征在于,获取iot环境中的用户信息u,判断用户服务上下文是否需要迁移,包括:
3.根据权利要求1所述的一种基于多代理强化学习的服务迁移和资源分配联合优化方法,其特征在于,计算发生迁移时的优化响应时间和服务迁移成本,包括:
4.根据权利要求3所述的一种基于多代理强化学习的服务迁移和资源分配联合优化方法,其特征在于,获取用户ui的服务上下文进行迁移时,用户ui的服务暂停时延特定状态上下文同步时延和服务恢复时延包括:
5.根据权利要求3所述的一种基于多代理强化学习的服务迁移和资源分配联合优化方法,其特征在于,获取用户ui使用的服务k每时隙产生的需要处理的用户任务,传输至用户ui直接相关联边缘服务器时,用户ui的上行通信时延传输任务结果的下行通信时延以及用户ui直接相关联边缘服务器和边缘服务器j之间的传输时延和传输任务结果返回时延包括:
6.根据权利要求1所述的一种基于多代理强化学习的服务迁移和资源分配联合优化方法,其特征在于,基于优化响应时间和服务迁移成本生产联合优化问题,包括:
7.根据权利要求1所述的一种基于多代理强化学习的服务迁移和资源分配联合优化方法,其特征在于,基于多代理强化学习和凸优化方法,求解联合优化问题,得到服务迁移策略和最优资源分配策略,包括: