一种基于联邦深度强化学习的低轨卫星通信网络路由方法

专利2025-07-29  15


本申请涉及卫星通信,特别是涉及一种基于联邦深度强化学习的低轨卫星通信网络路由方法。


背景技术:

1、随着卫星发射成本的降低,低轨(low earth orbit,leo)卫星网络已成为提供全球宽带接入的可行解决方案,与地面网络相比,低轨卫星网络具有全球无缝覆盖、不受地理和基础设施限制等诸多优势,但是低轨卫星网络也存在一些挑战,如低轨卫星相对地面运动速度较快,星间链路状态变化频繁、网络流量分布不均衡等,这使得传统的地面网络路由算法难以在低轨卫星网络中应用。因此,为了实现大规模低轨卫星网络的数据传输,设计一种高效的路由方法是关键和基础。

2、由于传统路由通常是基于固定的路由表,难以适应动态的网络环境和流量变化,无法灵活地调整路由策略,适应复杂多变的低轨卫星网络环境,从而导致资源浪费和性能下降。近年来,为解决上述问题,基于人工智能的路由方法受到广泛关注,借助深度强化学习(deep reinforcement learning,drl)算法具备的感知能力和决策能力,低轨卫星网络通过训练模型能够学习到最优的路由决策。然而,大多数现有研究在设计路由方法时没有考虑卫星决策时环境实时变化导致的距离偏移,在实际的低轨卫星网络中,根据计算能力和模型大小的不同,drl模型的在线推理时间一般在0.5ms到2ms之间波动。在实际的路由任务中,动作选择的在线推理时间不容忽视,不能将整个环境暂停至少0.5ms来为每个数据包选择一个动作,即在基于drl路由控制任务的动作选择过程中,网络环境是无法静止的。因此,将传统drl算法应用于实际卫星网络时,仍然存在时延不确定、丢包率高等问题,最终限制了低轨卫星网络的吞吐量。


技术实现思路

1、本申请的目的是提供一种基于联邦深度强化学习的低轨卫星通信网络路由方法,提高了低轨卫星网络的吞吐量。

2、为实现上述目的,本申请提供了如下方案:

3、本申请提供了一种基于联邦深度强化学习的低轨卫星通信网络路由方法,包括:

4、对目标低轨卫星网络中卫星进行分簇得到多个簇,并在分簇之后根据各卫星的卫星状态对各簇进行维护;每个簇中簇头作为低轨卫星服务端,簇成员作为低轨卫星客户端;

5、在每个簇中搭建联邦学习框架,基于所述联邦学习框架,采用各低轨卫星客户端的数据训练路由决策模型;在对所述低轨卫星客户端中本地模型进行训练时,将路由决策的过程构造为实时马尔可夫决策过程进行强化学习;实时马尔可夫决策过程中当前时刻的状态由上一时刻的状态和动作确定;各低轨卫星客户端对应的本地模型用于输出将数据进行转发的路由决策。

6、根据本申请提供的具体实施例,本申请公开了以下技术效果:

7、本申请提供了一种基于联邦深度强化学习的低轨卫星通信网络路由方法,通过实时马尔可夫决策过程的强化学习解决动态环境下实时网络环境决策的问题,降低决策时环境实时变化导致的距离偏移,从而降低时延和丢包率,提高了低轨卫星网络的吞吐量,另外,通过联邦学习提高模型训练的收敛速度,从而降低网络的通信开销。



技术特征:

1.一种基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,所述基于联邦深度强化学习的低轨卫星通信网络路由方法包括:

2.根据权利要求1所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,对目标低轨卫星网络中卫星进行分簇得到多个簇,具体包括:

3.根据权利要求2所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,采用分簇算法对所述逻辑拓扑模型中卫星节点进行分簇得到多个簇,并确定各簇的簇头以及簇成员,具体包括:

4.根据权利要求3所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,采用分簇算法对所述逻辑拓扑模型中卫星节点进行分簇得到多个簇,并确定各簇的簇头以及簇成员之后,所述基于联邦深度强化学习的低轨卫星通信网络路由方法还包括:当逻辑拓扑模型发生变化后进行簇维护;

5.根据权利要求1所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,采用各低轨卫星客户端的数据训练路由决策模型,具体包括:每隔设定时间,触发一次采用各低轨卫星客户端的数据训练路由决策模型的程序;

6.根据权利要求1所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,每个低轨卫星均包括一个接收队列和四个发送队列,所述接收队列用于存放接收的数据包,四个发送队列中每个发送队列均通过一个星间链路与一个低轨卫星进行数据传输,接收队列的数据包根据训练好的本地模型输出的路由决策转移到四个发送队列之一。

7.根据权利要求6所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,所述实时马尔可夫决策过程中要素包括状态、动作和奖励函数;

8.根据权利要求7所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,实时马尔可夫决策过程的动作值函数表示为:

9.根据权利要求1所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,对目标低轨卫星网络中卫星进行分簇得到多个簇,具体包括:

10.根据权利要求5所述的基于联邦深度强化学习的低轨卫星通信网络路由方法,其特征在于,所述全局模型和所述本地模型的结构均包括全连接层、注意力层和softmax层。


技术总结
本申请公开了一种基于联邦深度强化学习的低轨卫星通信网络路由方法,涉及卫星通信技术领域,该方法包括:对目标低轨卫星网络中卫星进行分簇得到多个簇,并在分簇之后根据卫星状态对各簇进行维护;每个簇中簇头作为低轨卫星服务端,簇成员作为低轨卫星客户端;在每个簇中搭建联邦学习框架,基于联邦学习框架,采用各低轨卫星客户端的数据训练路由决策模型;在对低轨卫星客户端中本地模型进行训练时,将路由决策的过程构造为实时马尔可夫决策过程进行强化学习;实时马尔可夫决策过程中当前时刻的状态由上一时刻的状态和动作确定;各低轨卫星客户端对应的本地模型用于输出将数据进行路由转发的路由决策。本申请提高了低轨卫星网络的吞吐量。

技术研发人员:张贤,廖海龙,李学华
受保护的技术使用者:北京信息科技大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-16373.html

最新回复(0)