一种海洋物联网中无人机协作数据收集与数据卸载方法

专利2024-11-17  49



1.本发明属于无线通信技术领域,涉及一种海洋物联网中无人机协作数据收集与数据卸载方法。


背景技术:

2.随着人类海洋活动的不断增加,海洋环境监测必不可少。大量的气象和水文数据导致对海上无线通信的需求增加。浮标因其成本低、布设灵活而被广泛部署于海洋中。随着技术的发展,浮标可以通过搭载各种传感器和通信设备以用于海洋环境监测,并且可以通过锂离子电池和太阳能等供电方式供电。然而,浮标的发射功率有限。传统的海上无线通信方式如陆上基站和卫星,存在覆盖范围有限、传输距离远等缺点,严重影响了信息传输的实时性和可靠性。对于当前的5g时代以及即将到来的6g时代,建设高效、动态的海上通信网络具有重要意义。因此,无人机协作无线通信系统(uwcs,uav-assisted wireless communication system)受到了广泛关注。无人机具有机动性强、操作灵活便捷等优点,可以进行按需部署,扩大覆盖范围。无人机可以更容易与目标设备建立视距链路和更强的通信链路,从而更好地应对多变的海洋环境。在海洋物联网中,针对浮标数量多、分布广等问题,无人机可以充当移动基站,从目标区域收集浮标采集的数据,并将数据卸载到陆上基站。此外,海洋物联网有限的频谱资源也对数据传输的可靠性和效率提出了挑战。noma技术被认为是5g时代最有前途的技术。与正交多址(oma,orthogonal multiple access)技术相比,noma通过允许多个用户在同一信道中同时接入,并依靠功率域复用和sic解码技术,在频谱资源有限的情况下大大提高了频谱效率。
3.传统uwcs优化问题通常被描述为一个混合整数非凸问题。它们通常可以分为几个子问题,并可以通过传统的优化技术和迭代算法来解决。然而,上述解决方案可能具有较高的计算复杂度。此外,浮标-无人机的关联以及noma同信道干扰是随无人机位置变化而变化。复杂的动态变化也给传统的凸优化技术带来了巨大的挑战。随着机器学习技术的发展,强化学习被认为是解决高动态环境的有效方法。drl算法,如深度q学习(dqn,deep q-learning)和深度确定性策略梯度(ddpg,deep deterministic policy gradient)等,通过引入深度神经网络,解决了强化学习无法解决的连续状态空间问题。然而,无人机的实际飞行动作空间是连续以及高维的,这可能会给传统的强化学习方法(如dqn等)带来维度灾难。此外,ddpg存在过估计的问题。td3算法可以有效解决上述维度灾难以及过估计问题。
4.综上所述,当前存在的问题是:1)海上频谱资源有限,浮标数量多。现有基于oma技术的数据收集方式无法满足大量浮标同时接入的需求,难以实现监测数据的高效收集。2)海上环境复杂,浮标分布广且发射功率有限,传统的数据传输方式难以为海洋监测提供高效可靠的数据传输手段。3)复杂多变的无人机轨迹以及动态变化的浮标-无人机关联关系,会导致传统优化技术以及drl算法面临维度灾难以及较高的计算复杂度。


技术实现要素:

5.为了解决上述问题,本发明提供本发明采用的技术方案是:一种海洋物联网中无人机协作数据收集与数据卸载方法,包括以下步骤:
6.将无人机总任务过程划分为数据收集阶段与数据卸载阶段,建立基于非正交多址接入的无人机协作数据收集与数据卸载的模型;基于无人机协作数据收集与数据卸载的模型,构建最小化无人机总任务完成时间的约束优化问题;
7.基于双延迟深度确定性策略梯度的无人机轨迹优化算法,确定无人机的轨迹;
8.基于无人机的轨迹,将最小化无人机总任务完成时间问题转化分解为最大化浮标和无人机总传输速率两个子问题,以确定无人机和浮标的发射功率以及浮标-无人机的关联关系;
9.基于启发式算法,最大化浮标传输速率,确定浮标的发射功率以及浮标-无人机的关联关系;
10.结合基于双延迟深度确定性策略梯度的无人机轨迹优化算法与启发式算法,对无人机轨迹、无人机、浮标的传输功率和浮标-无人机的关联关系进行优化,最小化无人机总任务完成时间,实现海洋物联网中无人机协作数据收集与数据卸载。
11.进一步地:所述将无人机总任务过程划分为数据收集阶段与数据卸载阶段,建立一个基于非正交多址接入((noma,non-orthogonal multiple access))人机协作数据收集与数据回传的模型,构建最小化无人机总任务完成时间的约束优化问题;包括以下步骤:
12.所述无人机总任务过程包括两个阶段;第一阶段是无人机利用noma技术从m个浮标收集数据,并且该阶段的时隙数为k
co
,在每个时隙中无人机最多可以从u个浮标收集数据,即u≤m;
13.第二阶段是无人机在完成第一阶段后将所有收集的数据卸载到陆上基站,并且该阶段的时隙数为k
of
;因此,总任务完成时间t
total
表示为:
14.t
total
=kδ=(k
co
+k
of

15.采用0-1整数随机变量表示数据收集过程浮标-无人机的关联关系,确定数据收集过程浮标-无人机的传输速率;
16.采用0-1整数随机变量表示数据卸载过程无人机-陆上基站的关联关系,确定数据卸载过程无人机-陆上基站的传输速率;
17.基于数据收集过程浮标-无人机的传输速率与数据卸载过程无人机-陆上基站的传输速率,建立最小化无人机总任务完成时间问题的优化模型。
18.进一步地:所述最小化无人机总任务完成时间问题的优化模型如下:
[0019][0020][0021]
其中,p
m,k
为第m个浮标在第k个时隙内的功率,pk为无人机在第k个时隙内的功率;c1和c2分别表示无人机和浮标的最大发射功率限制;c3和c4分别表示对浮标-无人机的关联关系α
m,k
以及无人机-陆上基站的关联关系βk的约束;c5限制了每个时隙内与无人机相关联的浮标的最大数量且最大数量为u;令cm表示需要从在第m个浮标收集的数据量,则c6确保无人机收集到的所有数据都能卸载到陆上基站;c7确保满足每个浮标的数据收集需求;c8和c9分别是无人机飞行速度vk的约束和加速度δk的约束;c10是在数据收集阶段sinr需要满足的sic解调约束,sic阈值为η
sic
;c11是数据卸载阶段的snr约束,snr阈值为
[0022]
进一步地,基于双延迟深度确定性策略梯度的无人机轨迹优化算法,确定无人机的轨迹过程如下:
[0023]
2a):初始化目标网络参数θ1′←
θ1,θ2′←
θ2,φ
′←
φ,以及经验回放缓冲区容量b,初始化环境,获取初始状态信息,设置时间变量k来表示无人机执行任务所花费的时间,设置终止标记l;
[0024]
2b):在每一个时隙k内,无人机根据当前状态sk选择动作ak,并获得当前奖励rk和下一个时隙的状态s


[0025]
2c):如果无人机的动作超出目标区域,则令位置惩罚量ρk=1,后取消无人机当前动作,并根据当前状态更新rk、s


[0026]
2d):数据收集阶段,保持βk=0;如果即无人机完成了数据收集,则令α
m,,k
=0,开始数据卸载阶段;
[0027]
2e):如果即无人机完成了数据卸载,则令l=1;
[0028]
2f):将转换信息(sk,ak,rk,s

,l)存储在经验回放缓冲区中,当b>2000时,从经验回放缓冲区中随机选择n个转换信息,构成一个子集,并将其输入演员和评论家网络;
[0029]
2g):演员网络根据s

计算相应的即
[0030][0031]
2h):根据计算目标值,并通过最小化损失函数来更新评论家网络;
[0032]
2i):通过确定性策略梯度更新演员网络,即
[0033][0034]
2j):通过软更新技术更新目标网络参数,即θi″←
τθi+(1-τ)θ
′i和φ
′←
τφ+(1-τ)φ


[0035]
2k):若l=0,则k=k+1,执行步骤2b;若k=k
max
或l=1,并且情节数episode《e
max
,则结束当前情节,令episode=episode+1,执行步骤2a。若episode=e
max
,则结束迭代,得到无人机的轨迹。
[0036]
进一步地:所述基于无人机的轨迹,将最小化无人机总任务完成时间问题转化分解为最大化浮标和无人机总传输速率两个子问题分别如下:
[0037]
最大化浮标总传输速率子问题为:
[0038][0039]
最大化无人机总传输速率子问题为:
[0040]
[0041]
问题p2b是一个标准凸问题,其最优解为p
max

[0042]
进一步地:所述基于启发式算法,最大化浮标传输速率,确定浮标的发射功率以及浮标-无人机的关联关系;
[0043]
s31:给定当前无人机的位置qk、sic阈值η
sic
、无人机最多可关联的浮标数量u;
[0044]
s32:对当前的信道增益g
m,k
进行降序排序,无人机选择信道增益最大的前u个浮标相关联,并组成初始noma组,则初始关联的浮标数量u
*
=u;
[0045]
s33:求解优化浮标的发射功率以最大化浮标的总传输速率问题以获得最优解p
m*
和最优值ck;
[0046]
s34:如果求解状态无最优解,则去除当前与无人机相关联的浮标中信道增益最差的浮标,并且u
*
←u*-1,然后重复33,直到u
*
=1;
[0047]
s35:如果求解状态有最优解,则结束循环,返回最优解p
m*
和最优值ck,确定浮标的发射功率以及浮标-无人机的关联关系。
[0048]
进一步地:所述结合深度强化学习中双延迟深度确定性策略梯度算法与启发式算法,对无人机轨迹、无人机、浮标的传输功率和浮标-无人机的关联关系进行优化,最小化无人机总任务完成时间,实现海洋物联网中无人机协作数据收集与数据卸载的过程如下:
[0049]
s41:在数据收集阶段,保持βk=0;如果即无人机完成了数据收集,则令α
m,k
=0;开始数据卸载阶段,并获取当前信道增益g
0,k
,令p=p
max
,若则令无人机-陆上基站的关联关系βk=1;
[0050]
s42:若则令βk=0,并获取当前信道增益g
m,k
;在给定无人机位置qk的情况下,通过执行启发式算法,更新p
m,k
,和α
m,k

[0051]
s43:在给定发射功率和关联关系的情况下,通过执行在每一个时隙k内,无人机根据当前状态sk选择动作ak,并获得当前奖励rk和下一个时隙的状态s

;如果无人机的动作超出目标区域,则令ρk=1,然后取消无人机当前动作,并根据当前状态更新,更新rk、s


[0052]
s44:执行s41,直至episode=e
max

[0053]
一种计算机可读存储介质,所述计算机可读存储介质中存储有包括计算机程序,其中,所述计算机程序运行时,执行所述的一种海洋物联网中无人机协作数据收集与数据卸载方法。
[0054]
本发明提供的一种海洋物联网中无人机协作数据收集与数据卸载方法,所提方案的智能体部署在陆上基站中,陆上基站保持与无人机的通信。在训练期间,无人机通过业务信道从多个浮标收集数据。同时,无人机通过控制信道接收浮标的状态信息,并将自身和浮标的状态信息反馈给陆上基站。陆上基站利用上述状态信息执行所提出的方案,并在每个时隙将执行结果发送给无人机。然后,无人机通过控制信道向浮标转发相关信号(例如浮标的发射功率、浮标-无人机关联关系)。能够在确保数据传输速率的基础上有效缩短无人机的任务完成时间,具有以下优点:1)无人机机动性强,易与目标建立视距链路,增强覆盖范围,同时通过noma技术,实现数据的高效可靠传输。2)通过深度强化学习算法与启发式算法相结合,解决混合整数非凸问题,与传统优化方法相比,降低了计算复杂度,有效缩短无人机的任务完成时间。
附图说明
[0055]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0056]
图1是本发明实施例提供的海洋物联网中无人机协作数据收集与数据卸载方法流程图;
[0057]
图2为本发明实施例的使用的网络场景图;
[0058]
图3为本发明实施例的tto算法的流程图;
[0059]
图4为本发明实施例的pcar算法的流程图;
[0060]
图5为本发明实施例的tto-pcar方案的流程图;
[0061]
图6为本发明实施例的算法的收敛性的对比分析图;
[0062]
图7为本发明实施例的sic阈值对无人机轨迹的影响的对比分析图;
[0063]
图8为本发明实施例的无人机轨迹的对比分析图;
[0064]
图9为本发明实施例的频谱带宽对无人机总任务完成时间的影响的对比分析图;
[0065]
图10为本发明实施例的频谱带宽对无人机轨迹的影响的对比分析图;
[0066]
图11为本发明实施例的浮标数量对无人机总任务完成时间的影响的对比分析图。
具体实施方式
[0067]
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合,下面将参考附图并结合实施例来详细说明本发明。
[0068]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0069]
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0070]
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0071]
在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。
[0072]
为了便于描述,在这里可以使用空间相对术语,如“在
……
之上”、“在
……
上方”、“在
……
上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在
……
上方”可以包括“在
……
上方”和“在
……
下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
[0073]
此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。
[0074]
图1是本发明实施例提供的海洋物联网中无人机协作数据收集与数据卸载方法流程图;
[0075]
一种海洋物联网中无人机协作数据收集与数据卸载方法,包括以下步骤:
[0076]
s1:将无人机总任务过程划分为数据收集阶段与数据卸载阶段,建立基于非正交多址接入的无人机协作数据收集与数据卸载的模型;基于无人机协作数据收集与数据卸载的模型,构建最小化无人机总任务完成时间的约束优化问题;
[0077]
s2:基于深度强化学习(drl,deep reinforcement learning)延迟深度确定性策略梯度算法(td3,twin-delayed deep deterministic algorithm),设计一个基于双延迟深度确定性策略梯度的无人机轨迹优化算法(tto,td3-based uav trajectory optimization algorithm),确定无人机的轨迹;图3为本发明实施例的tto算法的流程图;
[0078]
s3:基于无人机的轨迹,将最小化无人机总任务完成时间问题转化分解为最大化浮标和无人机总传输速率两个子问题,以确定无人机和浮标的发射功率以及浮标-无人机的关联关系;
[0079]
s4基于启发式算法(pcar,power control and buoy-ua v association relationship algorithm),最大化浮标传输速率,确定浮标的发射功率以及浮标-无人机的关联关系;
[0080]
s5:对结合深度强化学习中双延迟深度确定性策略梯度算法与启发式算法,((tto-pcar)对无人机轨迹、无人机、浮标的传输功率和浮标-无人机的关联关系进行优化,最小化无人机总任务完成时间,实现海洋物联网中无人机协作数据收集与数据卸载。
[0081]
步骤s1、s2、s3、s4、s5顺序执行;
[0082]
如图2所示,本发明适用的网络场景是无人机协作海洋物联网系统,其中采用noma作为多址技术。该系统主要由陆上基站、无人机和浮标组成的,包括1个陆上基站,1个无人机和m个浮标。每个浮标感知并存储水文气象数据,并由锂离子电池供电,以确保其有足够
的能量传输数据。
[0083]
无人机的总任务过程包括两个阶段:第一阶段为无人机利用noma技术从m个浮标收集数据,在每个时隙内,无人机最多可以与u个浮标相关联并收集数据,且u≤m;第二阶段为无人机在完成第一阶段任务后,将所收集到的数据全部卸载至陆上基站;
[0084]
进一步地,所述将无人机总任务过程划分为数据收集阶段与数据卸载阶段,建立基于非正交多址接入的无人机协作数据收集与数据卸载的模型;基于无人机协作数据收集与数据卸载的模型,构建最小化无人机总任务完成时间的约束优化问题具体包括:
[0085]
s11:将无人机总任务过程分为数据收集和数据卸载两个阶段:
[0086]
无人机的总任务时间表示为t
total
,分为k个时隙,时隙长度为δ,无人机总任务过程包括两个阶段:第一阶段是无人机利用noma技术从m个浮标(集合表示为m)收集数据,并且该阶段的时隙数为k
co
。在每个时隙中无人机最多可以从u个浮标收集数据,即u≤m。第二阶段是无人机在完成第一阶段后将所有收集的数据卸载到陆上基站,并且该阶段的时隙数为k
of

[0087]
因此,t
total
可以表示为:
[0088]
t
total
=kδ=(k
co
+k
of

ꢀꢀꢀ
(1)
[0089]
s12:采用0-1整数随机变量表示数据收集过程浮标-无人机的关联关系,确定数据收集过程浮标-无人机的传输速率,如果在第k个时隙内无人机与第m个浮标相关联,则浮标-无人机的关联关系α
m,k
=1。否则,α
m,k
=0。
[0090]
在上行noma系统中,信道增益较高的浮标通常先被解调,其干扰来自信道增益较差的浮标。因此,在第k个时隙中第m个浮标和无人机之间上行链路传输的同信道干扰为:
[0091][0092]
其中,mk={i|i∈m,h
m,k
>h
i,k
}是在第k个时隙内信道增益比第m个浮标差的浮标集合。k
co
为数据收集阶段的时隙集合。
[0093]
因此,第k个时隙内第m个浮标与无人机之间的信干噪比(sinr,signal to interference noise ratio)为:
[0094][0095]
其中,p
m,k
表示第k个时隙内第m个浮标的发射功率,则第k个时隙内第m个浮标的传输速率表示为:
[0096][0097]
为了成功解调接收信号,sinr需要满足的sic(successive interference cancellation)条件如下:
[0098][0099]
其中,η
sic
表示sic阈值;
[0100]
s13:采用0-1整数随机变量表示数据卸载过程无人机-陆上基站的关联关系,确定数据卸载过程无人机-陆上基站的传输速率。如果在第k个时隙内无人机与陆上基站相关联,则βk=1,否则,βk=0;
[0101]
令k
of
表示数据卸载阶段的时隙集合。则在第k个时隙内,无人机和陆上基站之间的snr需要满足以下条件:
[0102][0103]
其中,pk是无人机的发射功率。表示snr阈值。
[0104]
那么在第k个时隙,无人机和陆上基站之间的传输速率表示为:
[0105][0106]
s14:基于数据收集过程浮标-无人机的传输速率与数据卸载过程无人机-陆上基站的传输速率,建立最小化无人机总任务完成时间问题的优化模型。
[0107]
以最小化无人机总任务完成为目标,对无人机轨迹、无人机和浮标的发射功率、浮标-无人机的关联关系进行联合优化,所建立的优化模型如下:
[0108][0109]
其中,p
m,k
为第m个浮标在第k个时隙内的功率,pk为无人机在第k个时隙内的功率;
[0110]
c1和c2分别表示无人机和浮标的最大发射功率限制;
[0111]
c3和c4分别表示对浮标-无人机的关联关系α
m,k
以及无人机-陆上基站的关联关系βk的约束;
[0112]
c5限制了每个时隙内与无人机相关联的浮标的最大数量且最大数量为u;令cm表示需要从在第m个浮标收集的数据量,则c6确保无人机收集到的所有数据都能卸载到陆上基站;
[0113]
c7确保满足每个浮标的数据收集需求;
[0114]
c8和c9分别是无人机飞行速度vk的约束和加速度δk的约束;
[0115]
c10是在数据收集阶段sinr需要满足的sic解调约束,sic阈值为η
sic

[0116]
c11是数据卸载阶段的snr约束,snr阈值为
[0117]
进一步地,所述基于深度强化学习中双延迟深度确定性策略梯度算法,设计一个基于双延迟深度确定性策略梯度的无人机轨迹优化算法,确定无人机的轨迹具体包括的过程如下:
[0118]
s21:定义状态(state)、奖励(reward)和动作(action)。我们将状态空间定义如下:
[0119]
sk={αk,ck,xk,yk,βk,c
kuav
,ρk},
ꢀꢀꢀ
(9)
[0120]
其中,αk={α
1,k

2,k
,...,α
m,k
}表示第k个时隙中的浮标-无人机的关联关系的集合,ck={c
1,k
,c
2,k
,...,c
m,k
}表示第k个时隙中每个浮标的剩余数据量,并且}表示第k个时隙中每个浮标的剩余数据量,并且表示无人机的剩余数据量,并且ρk表示无人机的边界惩罚信息,用于判断在第k个时隙时无人机的位置是否超过目标区域。
[0121]
根据上述状态和环境信息,无人机的动作ak定义为:
[0122][0123]
其中,表示第k个时隙内无人机的飞行角度,并且vk∈[0,v
max
]。
[0124]
令k
max
表示最大总任务完成时隙数。如果无人机在k个时隙内完成任务,则k
*
=k
max-k,因此,我们将reward奖励函数设计为:
[0125][0126]
s22:设计基于双延迟深度确定性策略梯度算法(td3,twin-delayed deep deterministic algorithm)的无人机轨迹优化算法,确定无人机轨迹。
[0127]
为了获得更好的性能,在计算状态和奖励时,我们将b和cm的数量级减少n1个数量级,使其小于或等于k
max
的数量级。
[0128]
从状态的定义中可以看出,大多数状态变量与浮标有关。只有两个维度与无人机的位置相关,两个维度与陆上基站相关,一个维度与无人机的边界惩罚信息相关。因此,存在维度不平衡的问题。维度扩展技术可以有效地解决这一问题。我们扩展了上述状态的维
度。例如,我们将无人机的位置状态连接到由m个神经元组成的扩展网络,并将其维度扩展到m。此外,我们设置了终止标志l,用来表明无人机是否已完成任务。l用于目标值函数中,使得在无人机完成任务后,目标值函数的q值为0,即从而使评论家critic网络的性能更稳定。
[0129]
基于td3的无人机轨迹优化算法(tto)的具体步骤如下:
[0130]
2a)初始化目标网络参数θ1′←
θ1,θ2′←
θ2,φ
′←
φ,以及经验回放缓冲区容量b;初始化环境,获取初始状态信息。设置时间变量k来表示无人机执行任务所花费的时间。设置终止标记l;
[0131]
2b)在每一个时隙k内,无人机根据当前状态sk选择动作ak,并获得当前奖励rk和下一个时隙的状态s


[0132]
2c)如果无人机的动作超出目标区域,则令ρk=1。然后取消无人机当前动作,并根据当前状态更新rk、s


[0133]
2d)数据收集阶段,保持βk=0。如果即无人机完成了数据收集,则令α
m,k
=0,开始数据卸载阶段;
[0134]
2e)如果即无人机完成了数据卸载,则令l=1;
[0135]
2f)将转换信息(sk,ak,rk,s

,l)存储在经验回放缓冲区中,当b>2000时,从经验回放缓冲区中随机选择n个转换信息,构成一个子集mini-batch,并将其输入演员(actor)和评论家(critic)网络;
[0136]
2g)员网络根据s

计算相应的即
[0137]
2h)根据计算目标值。并通过最小化损失函数来更新评论家网络;
[0138]
2i)定性策略梯度更新演员网络,即
[0139]
2j)通过软更新技术更新目标网络参数,即θi″←
τθi+(1-τ)θi′
和φ
′←
τφ+(1-τ)φ


[0140]
2k)若l=0,则k=k+1,执行步骤2b。若k=k
max
或l=1,并且情节数episode《e
max
,则结束当前情节,令episode=episode+1,执行步骤2a,若episode=e
max
,则结束迭代。
[0141]
进一步,所述基于无人机的轨迹,将最小化无人机总任务完成时间问题转化分解为最大化浮标和无人机总传输速率两个子问题,以确定无人机和浮标的发射功率以及浮标-无人机的关联关系;设计一个启发式算法,最大化浮标传输速率,确定浮标的发射功率以及浮标-无人机的关联关系具体的过程如下:
[0142]
建立数据收集阶段浮标-无人机关联关系和浮标的发射功率优化子问题,固定无人机的轨迹,则问题p1可以写为:
[0143][0144]
问题p2是一个混合整数非凸问题。给定无人机任务完成时间以及浮标-无人机和无人机-陆上基站之间的关联关系,p2可以转化为在第k个时隙中最大化总传输数据量的问题,并且可以分为两部分。
[0145]
首先,在数据收集阶段,从问题p2可以看出,无人机和浮标之间的sinr不仅与浮标的发射功率有关,还与浮标-无人机关联关系有关。第k个时隙内与无人机相关联的u
*
个浮标的总传输数据大小表示为:
[0146][0147]
最大化浮标总传输速率子问题为:
[0148][0149]
由于与无人机关联的浮标之间存在同信道干扰,问题p2a仍然是非凸的。因此,我们将ck转换为以下形式:
[0150][0151]
因此,p2a是一个凸问题,可以通过标准的凸优化求解器(如cvxpy)来解决。
[0152]
所述基于启发式算法(pcar)确定浮标-无人机的关联关系和浮标的发射功率,确定浮标的发射功率以及浮标-无人机的关联关系;图4为本发明实施例的pcar算法的流程图;
[0153]
s31:给定当前无人机的位置qk、sic阈值η
sic
、无人机最多可关联的浮标数量u;
[0154]
s32:对当前的信道增益g
m,k
进行降序排序。无人机选择信道增益最大的前u个浮标相关联,并组成初始noma组。则初始关联的浮标数量u
*
=u;
[0155]
s33:求解问题p2a(优化浮标的发射功率以最大化浮标的总传输速率问题)以获得最优解p
m*
和最优值ck;
[0156]
s34:如果求解状态无最优解,则去除当前与无人机相关联的浮标中信道增益最差的浮标,并且u
*
←u*-1。然后重复2c,直到u
*
=1;
[0157]
s35:如果求解状态有最优解,则结束循环,返回最优解p
m*
和最优值ck;确定浮标的发射功率以及浮标-无人机的关联关系。
[0158]
(3)确定无人机-陆上基站的关联关系以及无人机的发射功率。固定无人机的轨
迹,在数据卸载阶段,在第k个时隙内无人机总传输数据量表示为:
[0159][0160]
则问题p2可以转化为以下形式:
[0161][0162]
问题p2b是一个标准凸问题,其最优解为p
max

[0163]
所述结合tto与启发式算法,对无人机轨迹、无人机、浮标的传输功率和浮标-无人机的关联关系进行优化,最小化无人机总任务完成时间,实现海洋物联网中无人机协作数据收集与数据卸载的过程如下,具体包括:图5为本发明实施例的tto-pcar方案的流程图;
[0164]
s41:在数据收集阶段,保持βk=0;,若即无人机完成了数据收集,则令α
m,k
=0,并获取当前信道增益g
0,k
,令p=p
max
,若则令无人机-陆上基站的关联关系βk=1;
[0165]
s42:若则令βk=0,并获取当前信道增益g
m,k
,在给定无人机位置qk的情况下,通过执行改进的启发式算法更新p
m,k
,和α
m,k

[0166]
s43:在给定发射功率和关联关系的情况下,通过执行在每一个时隙k内,无人机根据当前状态sk选择动作ak,并获得当前奖励rk和下一个时隙的状态s

;如果无人机的动作超出目标区域,则令ρk=1,然后取消无人机当前动作,并根据当前状态更新,更新rk、s

,更新qk;
[0167]
d)执行s41,直至算法tto的episode=e
max

[0168]
所提方案的智能体部署在陆上基站中,陆上基站保持与无人机的通信,在训练期间,无人机通过业务信道从多个浮标收集数据,同时,无人机通过控制信道接收浮标的状态信息,并将自身和浮标的状态信息反馈给陆上基站。陆上基站利用上述状态信息执行所提出的方案,并在每个时隙将执行结果发送给无人机。然后,无人机通过控制信道向浮标转发相关信号(例如浮标的发射功率、浮标-无人机关联关系)。
[0169]
一种计算机可读存储介质,所述计算机可读存储介质中存储有包括计算机程序,其中,所述计算机程序运行时,执行所述的一种海洋物联网中无人机协作数据收集与数据卸载方法。
[0170]
下面结合仿真对本发明的应用效果作详细的描述。
[0171]
1、仿真条件
[0172]
在仿真场景中,网络区域范围为1000m
×
1000m,10个浮标随机分布在区域内,无人机的飞行高度为100m,最大飞行速度为50m/s,最小飞行速度为0m/s,最大加速度为25m/s2,
无人机的最大发射功率为0.1w,浮标的最大发射功率为24dbm,陆上基站的位置为(0,0)m,无人机在每个时隙内最多与3个浮标相关联,时隙长度为1s。每个浮标的数据量范围为cm∈[10,20]mbits,频谱带宽为1mhz,噪声功率为-94dbm。sinr阈值为10db,snr阈值为3db。我们所提算法tto是基于pytorch,对于演员和评论网络,我们使用一个完全连接的神经网络,其有两个由400个神经元组成的隐藏层,学习速率为0.0001,经验回放缓冲区的容量为100000,子集为256,奖励折扣系数γ为0.99,其余参数为0.36,τ为0.005,最大总任务完成时隙数为300,数量级参数为6。
[0173]
2.仿真内容与结果分析
[0174]
通过与其他传输方法对比,展示所提方案的性能。
[0175]
对比方案1:基于费马点的无人机轨迹,该方案首先将每个用户视为三角形的顶点,形成多个三角形。然后将每个三角形的费马点作为无人机的悬停点。无人机依次在这些点上悬停以收集数据。
[0176]
对比方案2:基于圆的无人机轨迹,该方案首先找到所有用户的几何中心,并将其作为圆心,然后平均所有用户到圆心的距离,以确定无人机轨迹的半径。
[0177]
对比方案3:基于oma的无人机数据收集,该方案是指无人机利用oma技术进行数据收集。所提算法tto仍然用于确定无人机轨迹。
[0178]
对比方案4:基于dqn的drl方案,该方案在我们提出的方案中使用dqn来代替td3。
[0179]
仿真1:对比分析本发明所提算法的收敛性;
[0180]
从图6可以看出,所提方案在1000episodes后可以收敛,相比之下,对比方案3需要3000episodes才能收敛。此外,对比方案4在6000episodes后仍无法收敛。因此,我们提出的方案的性能明显优于其他两个方案。
[0181]
仿真2:对比分析sic阈值对所提方案的无人机轨迹的影响;
[0182]
图5中sic阈值分别为10db、12db和15db,且无人机的平均总任务完成时间基本相同,分别为33秒、36秒和37秒;然而,随着sic阈值的增加,无人机的轨迹更接近距离更远的浮标。这是因为当无人机使用noma技术进行数据收集时,距离更远的浮标的信道增益更差。因此,为了满足sic解码条件的约束,无人机将逐渐飞往尚未被收集数据且更远的浮标。
[0183]
仿真3:对比分析不同方案下的无人机轨迹;
[0184]
从图6可以看出,对比方案1和对比方案2下的无人机数据收集过程的轨迹是固定,这就导致数据卸载过程的无人机的轨迹更长;所提方案考虑到无人机数据收集阶段和数据卸载阶段的轨迹的耦合性来进行优化,因此数据卸载过程的时间相比于其他方案更短。所提方案的总飞行距离也明显低于其他两种方案。
[0185]
仿真4:对比分析频谱带宽对无人机总任务完成时间的影响;
[0186]
从图7可以看出,所提方案的总任务完成时间明显低于其他方案。特别是,所提方案在频谱带宽为1mhz时的数据收集时间为20秒,而对比方案3的数据收集时间为33秒,因此noma比oma在数据收集方面更有效。这是因为所设计的奖励函数与每个时隙中的总传输速率有关。
[0187]
仿真5:对比分析频谱带宽对所提方案的无人机轨迹的影响;
[0188]
从图8可以看出,无人机的飞行距离随着频谱带宽的增加而减小;这是因为浮标的传输速率随着频谱带宽的减少而降低,如果远离陆上基站的浮标中的数据尚未收集,则智
能体将选择使无人机更靠近上述浮标,以增加传输速率,从而获得更大的奖励。
[0189]
仿真6:对比分析浮标数量对无人机总任务完成时间的影响。
[0190]
对比方案1是通过找到悬停点来收集数据,并将问题归为旅行商问题,从而使无人机遍历悬停点。因此,对比方案1在无人机飞行上需要花费大量时间。虽然对比方案2可以在每个时隙收集数据,但它没有考虑不同浮标的数据收集需求,因为无人机只是基于圆圈飞行。所提方案根据不同浮标的数据收集需求来动态调整无人机轨迹。因此,所提方案的总任务完成时间明显低于对比方案1和对比方案2。
[0191]
图9为本发明实施例的频谱带宽对无人机总任务完成时间的影响的对比分析图;
[0192]
图10为本发明实施例的频谱带宽对无人机轨迹的影响的对比分析图;
[0193]
图11为本发明实施例的浮标数量对无人机总任务完成时间的影响的对比分析图。
[0194]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
[0195]
应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

技术特征:
1.一种海洋物联网中无人机协作数据收集与数据卸载方法,其特征在于:包括以下步骤:将无人机总任务过程划分为数据收集阶段与数据卸载阶段,建立基于非正交多址接入的无人机协作数据收集与数据卸载的模型;基于无人机协作数据收集与数据卸载的模型,构建最小化无人机总任务完成时间的约束优化问题;基于双延迟深度确定性策略梯度的无人机轨迹优化算法,确定无人机的轨迹;基于无人机的轨迹,将最小化无人机总任务完成时间问题转化分解为最大化浮标和无人机总传输速率两个子问题,以确定无人机和浮标的发射功率以及浮标-无人机的关联关系;基于启发式算法,最大化浮标传输速率,确定浮标的发射功率以及浮标-无人机的关联关系;结合基于双延迟深度确定性策略梯度的无人机轨迹优化算法与启发式算法,对无人机轨迹、无人机、浮标的传输功率和浮标-无人机的关联关系进行优化,最小化无人机总任务完成时间,实现海洋物联网中无人机协作数据收集与数据卸载。2.根据权利要求1所述的一种海洋物联网中无人机协作数据收集与数据卸载方法,其特征在于:所述将无人机总任务过程划分为数据收集阶段与数据卸载阶段,建立一个基于非正交多址接入的无人机协作数据收集与数据回传的模型,构建最小化无人机总任务完成时间的约束优化问题;包括以下步骤:所述无人机总任务过程包括两个阶段;第一阶段是无人机利用noma技术从m个浮标收集数据,并且该阶段的时隙数为k
co
,在每个时隙中无人机最多可以从u个浮标收集数据,即u≤m;第二阶段是无人机在完成第一阶段后将所有收集的数据卸载到陆上基站,并且该阶段的时隙数为k
of
;因此,总任务完成时间t
total
表示为:t
total
=kδ=(k
co
+k
of
)δ采用0-1整数随机变量表示数据收集过程浮标-无人机的关联关系,确定数据收集过程浮标-无人机的传输速率;采用0-1整数随机变量表示数据卸载过程无人机-陆上基站的关联关系,确定数据卸载过程无人机-陆上基站的传输速率;基于数据收集过程浮标-无人机的传输速率与数据卸载过程无人机-陆上基站的传输速率,建立最小化无人机总任务完成时间问题的优化模型。3.根据权利要求2所述的一种海洋物联网中无人机协作数据收集与数据卸载方法,其特征在于:所述最小化无人机总任务完成时间问题的优化模型如下:
其中,p
m,k
为第m个浮标在第k个时隙内的功率,p
k
为无人机在第k个时隙内的功率;c1和c2分别表示无人机和浮标的最大发射功率限制;c3和c4分别表示对浮标-无人机的关联关系α
m,k
以及无人机-陆上基站的关联关系β
k
的约束;c5限制了每个时隙内与无人机相关联的浮标的最大数量且最大数量为u;令c
m
表示需要从在第m个浮标收集的数据量,则c6确保无人机收集到的所有数据都能卸载到陆上基站;c7确保满足每个浮标的数据收集需求;c8和c9分别是无人机飞行速度v
k
的约束和加速度δ
k
的约束;c10是在数据收集阶段sinr需要满足的sic解调约束,sic阈值为η
sic
;c11是数据卸载阶段的snr约束,snr阈值为4.根据权利要求1所述的一种海洋物联网中无人机协作数据收集与数据卸载方法,其特征在于:所述基于双延迟深度确定性策略梯度的无人机轨迹优化算法,确定无人机的轨迹过程如下:2a):初始化目标网络参数θ1′←
θ1,θ2′←
θ2,φ
′←
φ,以及经验回放缓冲区容量b,初始化环境,获取初始状态信息,设置时间变量k来表示无人机执行任务所花费的时间,设置终止标记l;2b):在每一个时隙k内,无人机根据当前状态s
k
选择动作a
k
,并获得当前奖励r
k
和下一个时隙的状态s

;2c):如果无人机的动作超出目标区域,则令位置惩罚量ρ
k
=1,后取消无人机当前动作,
并根据当前状态更新r
k
、s

;2d):数据收集阶段,保持β
k
=0;如果即无人机完成了数据收集,则令α
m,,k
=0,开始数据卸载阶段;2e):如果即无人机完成了数据卸载,则令l=1;2f):将转换信息(s
k
,a
k
,r
k
,s

,l)存储在经验回放缓冲区中,当b>2000时,从经验回放缓冲区中随机选择n个转换信息,构成一个子集,并将其输入演员和评论家网络;2g):演员网络根据s

计算相应的即2h):根据计算目标值,并通过最小化损失函数来更新评论家网络;2i):通过确定性策略梯度更新演员网络,即2j):通过软更新技术更新目标网络参数,即θ
i
′←
τθ
i
+(1-τ)θ
i

和φ
′←
τφ+(1-τ)φ

;2k):若l=0,则k=k+1,执行步骤2b;若k=k
max
或l=1,并且情节数episode<e
max
,则结束当前情节,令episode=episode+1,执行步骤2a。若episode=e
max
,则结束迭代,得到无人机的轨迹。5.根据权利要求1所述的一种海洋物联网中无人机协作数据收集与数据卸载方法,其特征在于:所述基于无人机的轨迹,将最小化无人机总任务完成时间问题转化分解为最大化浮标和无人机总传输速率两个子问题分别如下:最大化浮标总传输速率子问题为:最大化无人机总传输速率子问题为:
问题p2b是一个标准凸问题,其最优解为p
max
。6.根据权利要求1所述的一种海洋物联网中无人机协作数据收集与数据卸载方法,其特征在于:所述基于启发式算法,最大化浮标传输速率,确定浮标的发射功率以及浮标-无人机的关联关系;s31:给定当前无人机的位置q
k
、sic阈值η
sic
、无人机最多可关联的浮标数量u;s32:对当前的信道增益g
m,k
进行降序排序,无人机选择信道增益最大的前u个浮标相关联,并组成初始noma组,则初始关联的浮标数量u
*
=u;s33:求解优化浮标的发射功率以最大化浮标的总传输速率问题以获得最优解p
m*
和最优值c
k
;s34:如果求解状态无最优解,则去除当前与无人机相关联的浮标中信道增益最差的浮标,并且u
*

u
*-1,然后重复33,直到u
*
=1;s35:如果求解状态有最优解,则结束循环,返回最优解p
m*
和最优值c
k
,确定浮标的发射功率以及浮标-无人机的关联关系。7.根据权利要求1所述的一种海洋物联网中无人机协作数据收集与数据卸载方法,其特征在于:所述结合深度强化学习中双延迟深度确定性策略梯度算法与启发式算法,对无人机轨迹、无人机、浮标的传输功率和浮标-无人机的关联关系进行优化,最小化无人机总任务完成时间,实现海洋物联网中无人机协作数据收集与数据卸载的过程如下:s41:在数据收集阶段,保持β
k
=0;如果即无人机完成了数据收集,则令α
m,k
=0;开始数据卸载阶段,并获取当前信道增益g
0,k
,令p=p
max
,若则令无人机-陆上基站的关联关系β
k
=1;s42:若则令β
k
=0,并获取当前信道增益g
m,k
;在给定无人机位置q
k
的情况下,通过执行启发式算法,更新p
m,k
,和α
m,k
;s43:在给定发射功率和关联关系的情况下,通过执行在每一个时隙k内,无人机根据当前状态s
k
选择动作a
k
,并获得当前奖励r
k
和下一个时隙的状态s

;如果无人机的动作超出目标区域,则令ρ
k
=1,然后取消无人机当前动作,并根据当前状态更新,更新r
k
、s

;s44:执行s41,直至episode=e
max
。8.一种计算机可读存储介质,所述计算机可读存储介质中存储有包括计算机程序,其中,所述计算机程序运行时,执行所述权利要求1-7任一项所述的一种海洋物联网中无人机协作数据收集与数据卸载方法。

技术总结
本发明一种海洋物联网中无人机协作数据收集与数据卸载方法,包括以下步骤:基于无人机协作数据收集与数据卸载的模型,构建最小化无人机总任务完成时间的约束优化问题;基于双延迟深度确定性策略梯度的无人机轨迹优化算法,确定无人机的轨迹;基于启发式算法,最大化浮标传输速率,确定浮标的发射功率以及浮标-无人机的关联关系;结合基于双延迟深度确定性策略梯度的无人机轨迹优化算法与启发式算法,对无人机轨迹、无人机、浮标的传输功率和浮标-无人机的关联关系进行优化,最小化无人机总任务完成时间,实现海洋物联网中无人机协作数据收集与数据卸载;与传统优化方法相比,降低了计算复杂度,有效缩短无人机的任务完成时间。有效缩短无人机的任务完成时间。有效缩短无人机的任务完成时间。


技术研发人员:吕玲 梁梓仪 戴燕鹏 林彬
受保护的技术使用者:大连海事大学
技术研发日:2022.06.29
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-10359.html

最新回复(0)