本发明属于人工智能协同控制,具体涉及基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法。
背景技术:
1、作为协同控制的一个重要分支,集群协同控制因其在实际多任务应用中的代表性和基础性而在过去十年中受到了广泛关注。在现有的大多数集群协同控制研究中,一种传统且普遍的设置是多智能体系统中的每个智能体(包括领导者)都是自主的。这种设置受益于人工智能的发展,解放了人类的参与。尽管提供了如此无可争议的优势,但完全自主的设置在某种程度上是理想的,因为在紧急情况下很难做出决策,从而可能导致严重后果。考虑到可能发生的紧急情况,通常会设置一名人类操作员来协助自主系统完成任务。因此,人在回路控制得到研究。但目前的人在回路控制方法大多都忽略了以最小能耗为目标的控制性能。
2、如何实现以最小能耗为目标的控制性能,就成为关键。在过去的几年中,最优跟踪控制引起了越来越多的关注。最优跟踪控制的方法已经从传统的反馈线性化和对象逆发展到当前的自适应动态规划和积分强化学习。然而,传统的反馈线性化方法和自适应动态规划都是基于显式公式,需要完全了解系统动力学,同时,这些方法没有考虑性能成本中的稳态部分。与自适应动态规划类似,积分强化学习是人工智能领域最有效的学习方法之一。积分强化学习是强化学习的改进,使用策略迭代技术,它是一种通过交替构建性能指标和控制策略来解决汉密尔顿-雅克比-贝尔曼方程的迭代方法,最终收敛到最优控制解。在积分强化学习过程中,性能指标和控制策略同时求解。然而,现有的积分强化学习所求得的控制策略均是基于时间周期采样的方式;而基于时间周期性采样机制会导致通信资源的浪费以及计算成本的增加。
3、除了控制性能外,通信安全也是多智能体系统控制方案常需要考虑的因素。多智能体系统使用通信网络使多智能体在效率、设计成本和简单性方面具有明显的优势。然而,这种好处是以增加对一系列网络物理攻击(如虚假数据注入攻击)的脆弱性为代价的。对手可以通过访问通信通道并向从智能体传输到控制中心的信息注入故障来传输虚假数据从而引发攻击。一般来说,攻击者拥有的能量有限,所有信息传输都无法中断,因此,攻击者常采用稀疏攻击。现有解决稀疏攻击方案的核心是设计安全状态估计方法,该方法使用系统测量和模型信息来推断系统的安全状态。安全状态估计方法主要遵循两种设计思路:一种方法是利用多个传感器测量同一输出,通过数据滤波得到可靠的输出数据;另一种设计思路是利用多个传感器测量不同的输出,根据不同的输出组合得到多组状态估计,从这些估计中得到一个可靠的估计。然而,如何在多智能体系统领域设计针对虚假数据注入攻击的安全控制方案仍未得到充分探索,特别是在解决诸如优化和有限资源等关键问题方面。一方面,虽然实现预定义指标是可取的,但最小化成本也至关重要。另一方面,考虑到每个人可用的资源有限,将计算和通信时间减少到合理范围是必要的。
4、因此,如何实现基于积分强化学习的人在回路最优控制,就成为研究重点。
技术实现思路
1、针对背景技术所存在的问题,本发明的目的在于提供一种基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法。该方法创新性地采用基于事件触发机制的积分强化学习方法,降低智能体之间信息交流频率,减轻智能体的负担,并解决了多智能体系统在虚假输入注入攻击下的最优控制问题;除此之外,通过整合人类智能和决策,当人类操作员向非自治领导者代理发送命令信号时,系统安全性得到极大提高。
2、为实现上述目的,本发明的技术方案如下:
3、基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,包括如下步骤:
4、s1、基于非线性多智能体系统,建立第i个跟随者的动态模型;
5、s2、给出领导者的动力学模型,并定义局部邻域一致误差;
6、s3、通过中值算子med[·]过滤得到未被攻击的数据,基于未被攻击的数据得到安全预选器,并设计状态观测器;
7、s4、构建最优性能指标函数,建立汉密尔顿-雅克比-贝尔曼方程;
8、s5、引入事件触发机制,构建事件触发汉密尔顿-雅克比-贝尔曼方程;
9、s6、采用积分强化学习算法求解事件触发汉密尔顿-雅克比-贝尔曼方程;
10、s7、使用评价神经网络来估计代价函数,得到所需的近似的事件触发最优控制器。
11、进一步地,步骤s1中,所述非线性多智能体系统包括一个领导者和若干个跟随者,则第i个跟随者的动态模型具体如下:
12、
13、其中,表示求导,xi(t)为第i个智能体在第t时刻的状态信息,ui(t)为第i个智能体在第t时刻的控制输入,fi(xi)为第i个跟随者的已知的内部函数,gi(xi)为第i个跟随者的已知的输入矩阵函数,yi(t)为经传输得到的测量信号,为攻击者注入的恶意攻击信号,pi为系统测量矩阵;xi为xi(t)的简写形式,xi=[xi,1,…,xi,n]t∈rn,ui(t)∈rm,fi(xi)∈rn,gi(xi)∈rn×m,r指的是实数域,n和m指的是矩阵的维度,pi是传感器输出的个数。
14、进一步地,步骤s2中,领导者的动力学模型为:
15、
16、其中,x0(t)∈rn表示第t时刻领导者的状态信息,y0(t)表示第t时刻领导者的输出,u0(t)为控制输入,是一个未知的有界变量;
17、定义局部邻域一致误差δi(t)为:
18、
19、其中,bi表示牵制增益,aij表示第i个智能体与第j个智能体之间的连接权重,xj(t)表示第t时刻第j个智能体的状态向量,ni表示第i个智能体的邻居智能体的集合。
20、进一步地,控制输入u0(t)的具体形式为,
21、
22、t1为第一时间阈值,t2为第二时间阈值。
23、进一步地,步骤s3中,将控制信号yi(t)中的元素按照从小到大的顺序排列,得到新的向量αi=[αi,1,…,αi,pi]t,αi,1≤…≤αi,pi,
24、则中值算子med[·]为,
25、
26、针对第i个智能体设计如下的安全预选器xi,1,p(t):
27、xi,1,p(t)=med[yi(t)](4)
28、利用未被攻击的输出数据xi,1(t),即系统的第一个状态,表示估计,对于第i个跟随者,设计如下的状态观测器来估计系统的状态:
29、
30、其中,和k0分别表示状态估计向量和给定的正增益。
31、进一步地,步骤s4的具体过程为,
32、构造与局部邻域一致误差δi和控制输入ui相关的性能指标函数vi(δi),具体形式为:
33、
34、其中,ui(·)表示效用函数,qii、rii和rij均为常数矩阵;
35、基于局部邻域一致误差,定义vi(δi)的哈密顿量:
36、
37、lij为拉普拉斯矩阵中的元素,l=d-a=[lij]∈rn×n,d为度矩阵,d=diag(d1,…,dn),表示度矩阵的对角元素,a为邻接矩阵,表示有向图的通信拓扑结构,a=[aij]∈rn×n,aij为邻接矩阵a中的元素,且lij=-aij;
38、表示漂移动力学模型,bij=0;
39、基于贝尔曼最优原理,最优代价函数vi*(δi)的具体形式为:
40、
41、并满足下面的哈密顿函数:
42、
43、其中,是最优代价函数vi*(δi)关于δi的偏导数,
44、则最优控制策略的表达式为:
45、
46、将代入哈密顿函数(6)中,可以得到汉密尔顿-雅克比-贝尔曼方程为,
47、
48、进一步地,常数矩阵qii、rii和rij均大于0。
49、进一步地,步骤s5的具体过程为,
50、设第μ次触发时刻为tμ,且满足tμ<tμ+1,其中,μ∈n,n为自然数集合,则可以得到触发时刻的序列在tμ时刻采样的状态表示为
51、在两个连续的触发时刻tμ和tμ+1之间,即t∈[tμ,tμ+1),通常存在两个状态和之间的误差,将这个误差定义为误差函数,记为其形式为:
52、
53、根据局部邻域一致误差公式,定义基于事件触发的局部邻域一致误差为,
54、
55、事件触发最优控制策略为,
56、
57、其中,表示在的情况下,函数vi*对δi的偏导数,
58、因此,基于事件触发汉密尔顿-雅克比-贝尔曼方程为,
59、
60、进一步地,步骤s6的具体过程为,
61、s6.1.选择初始容许的事件触发最优控制策略;
62、s6.2.对于每个智能体i,计算当前事件触发最优控制策略下的代价函数vik(δi(t)),
63、
64、其中,t∈tμ,vik(0)=0,k表示当前的迭代次数;
65、s6.3.根据代价函数事件触发最优控制策略,得到如下的事件触发控制策略,
66、
67、令返回步骤s6.2,直到vik→vi*,
68、进一步地,步骤s7的具体过程为,
69、建立一个评价神经网络,通过应用评价神经网络对任何连续函数的逼近性质,代价函数vi*(δi)可以写为,
70、vi*(δi)=witθ(δi)+εi(δi)(11)
71、其中,为理想的权重向量,为激活函数,εi(δi)∈r是近似误差,nc∈z+是神经元的数量;
72、则vi*(δi)对局部邻域一致误差δi的偏导数为
73、
74、其中,是激活函数θi对δi的偏导数,是近似误差函数εi对δi的偏导数;
75、将公式(12)代入公式(9)中,得到如下的基于事件触发的最优控制策略,
76、
77、其中,
78、由于理想权重向量wi是未知的,无法直接得到事件触发最优控制策略(13);因此,使用评价神经网络来估计成本函数:
79、
80、其中,为理想权重的估计;
81、同样地,对于可以得到相应的偏导数,
82、
83、因此,近似的事件触发最优控制器为,
84、
85、综上所述,由于采用了上述技术方案,本发明的有益效果是:
86、1、本发明控制方法引入积分强化学习方法来构建积分贝尔曼方程,积分强化学习方法允许在控制器设计中放宽对系统漂移动力学的要求,而无需系统识别;并且,为了降低计算和通信成本,设计了事件触发控制条件;将积分强化学习算法与事件触发控制框架相结合,以一种新颖的方式应对多智能体系统的挑战,使学习过程更加灵活。
87、2、本发明方法与现有的多智能体自适应动态规划方法相比,本发明重点研究了人在回路弹性控制问题,领导者的输出轨迹作为参考信号给出。若领导者的控制信号由人类操作员给出,这有利于实现一致的轨迹,具有更好的效用价值和安全性能。同时,通过构造预选择器,可以从一组输出测量中剥离出安全的输出数据,将其用于构建状态观测器,从而成功规避稀疏攻击的影响。因此,设计的人在回路弹性控制方案可以在危险环境中正常运行,并且在面对网络攻击时比其他方案具有更高的鲁棒性。
1.基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,步骤s1中,所述非线性多智能体系统包括一个领导者和若干个跟随者,则第i个跟随者的动态模型具体如下:
3.如权利要求1所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,步骤s2中,领导者的动力学模型为:
4.如权利要求3所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,控制输入u0(t)是一个未知的有界变量,其具体形式为,
5.如权利要求1所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,步骤s3中,将测量信号yi(t)中的元素按照从小到大的顺序排列,得到新的向量αi=[αi,1,…,αi,pi]t,αi,1≤…≤αi,pi,
6.如权利要求1所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,步骤s4的具体过程为,
7.如权利要求6所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,常数矩阵qii、rii和rij均大于0。
8.如权利要求1所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,步骤s5的具体过程为,
9.如权利要求1所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,步骤s6的具体过程为,
10.如权利要求1所述的基于事件触发积分强化学习的多智能体系统人在回路弹性控制方法,其特征在于,步骤s7的具体过程为,
