一种基于LSTM的电网前瞻调度方法及其系统与流程

专利2024-06-21  58


一种基于lstm的电网前瞻调度方法及其系统
技术领域
1.本发明涉及电力系统技术领域,尤其涉及一种基于lstm的电网前瞻调度方法及其系统。


背景技术:

2.随着电力系统能源转型的不断深入,以风电为主的能源占比快速上升,含高渗透率可再生能源的电力系统快速发展。电力系统正在向广泛互联、智能互动、安全可控的新一代电力系统转变。可再生能源固有的不确定性与可再生能源消纳能力之间的矛盾愈发突出,因此对现在调度技术支撑能力提出了新的要求。
3.为适应新一代电力系统发展和安全稳定优质运行的需要,构建清洁低碳安全高效的能源体系,控制化石能源总量,着力提高利用效能,实施可再生能源替代行动,深化电力体制改革,国家电网公司提出研发新一代调度控制系统,并指出新系统应能统筹全网可调可控资源,采用统一决策、分散控制的多级调度协同控制新模式以及灵活精准的源网荷控制手段,实现正常状态自适应巡航、全局风险协同防控和复杂故障协同处置,全方位保障电网安全稳定运行。
4.当前电网调度自适应巡航面临的困难和挑战主要表现在以下几个方面:电网运行方式的不确定性日益增加,短时优化决策的复杂度急增;电网调度对象和数量呈指数级增加,电网优化决策的效率有待提升;紧急情况时仍高度依赖调度员的经验积累和认知水平,智能化水平亟待提升,因此导致不能为调度员提供调度控制的辅助决策手段。


技术实现要素:

5.针对现有技术的不足,本发明提供了一种基于lstm的电网前瞻调度方法及其系统,能够实现对电网未来一段时间内的调度做出快速、有效的决策,为调度员提供调度控制的辅助决策手段,利用长短期记忆网络(lstm)与电网模型进行交互,解决了长期依赖问题,利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
6.为解决上述技术问题,本发明提供了如下技术方案:一种基于lstm的电网前瞻调度方法,该方法包括以下步骤:
7.s1、定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,其中包括定义调度决策周期时长、日内前瞻调度窗口数量、单个前瞻窗口内调度时刻数量;
8.s2、获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点上对应机组物理参数;
9.s3、获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数;
10.s4、将上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序
列和风电预测序列参数按照电网节点拓扑结构关系构造前瞻窗口状态矩阵;
11.s5、通过电网支路物理参数、节点拓扑结构信息、节点物理参数和节点上对应机组物理参数建立电网调度模型;
12.s6、以电网调度模型和lstm构建作为算法框架的深度强化学习的调度智能体,其中包括以卷积神经网络、lstm层以及全连接层作为网络结构建立网络;
13.s7、将前瞻窗口的状态矩阵输入到调度智能体中,得到下一时刻前瞻窗口的机组输出功率序列。
14.进一步地,在步骤s2中,
15.电网支路物理参数包括支路的起始节点、终止节点、电阻、电抗、电纳、长期允许功率、变比和运行状态;
16.节点拓扑结构信息包括节点母线编号和节点类型;
17.节点物理参数包括节点母线注入负荷的有功功率、与节点母线并联的电导、与节点母线并联的电纳和节点母线的基准电压;
18.节点上对应机组物理参数包括节点上机组输出功率上限、输出功率下限、机组最大上爬坡功率和最大下爬坡功率以及线路功率上限。
19.进一步地,在步骤s6中,所述网络包括一个actor网络和一个critic网络,
20.actor网络和critic网络均为两个二维卷积层、一个lstm层和一个全连接层,卷积层对输入数据进行卷积操作,lstm层对前瞻窗口和网络进行处理,lstm层的输出作为全连接层的输入,actor网络的全连接层输出动作的概率分布,critic网络的全连接层输出状态的价值。
21.进一步地,在步骤s3中,获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数包括以下步骤:
22.s31、令初始时段t0=0,则记第k个决策时段tk的前瞻窗口为tk;
23.s32、获取当前前瞻窗口tk内前瞻时段kn的母线负荷预测序列;
24.s33、tk内所有前瞻时段的母线负荷预测向量构成tk的母线负荷预测序列;
25.s34、获取当前前瞻窗口tk内前瞻时段kn的风电预测序列;
26.s35、tk内所有前瞻时段的风电预测向量构成tk的风电预测序列。
27.进一步地,在步骤s3中,获取上一时刻前瞻窗口的前瞻调度计划包括:
28.s311、获取上一时刻前瞻窗口t
k-1
内首个前瞻时段的机组计划向量
29.s312、根据tk对应的母线负荷预测序列、风电预测序列以及机组当前实际执行计划计算上一时刻前瞻窗口tk的前瞻调度计划。
30.进一步地,所述上一时刻前瞻窗口tk的前瞻调度计划包括实际执行调度计划的制定及超前调度计划的制定。
31.进一步地,在步骤s6中,调度智能体的深度强化学习包括以下步骤:
32.s61、初始化actor网络和critic网络的参数θ和θv,actor网络更新步长α以及critic网络更新步长β;
33.s62、重置网络中actor网络和critic网络的参数梯度;
34.s63、记录网络当前时间步数;
35.s64、将前瞻窗口状态矩阵作为网络输入状态;
36.s65、采用策略分布得到输出动作向量;
37.s66、计算第n+1个调度时刻可能的机组输出功率上限和可能的输出功率下限,并获取下一时刻前瞻窗口状态矩阵;
38.s67、网络时间步数;
39.s68、如果网络输入状态是终止状态,或者当t-t
start
=t
update
时,进入步骤s69,否则返回步骤s65;
40.s69、计算当前时间步的累计奖励;
41.s610、当t=t
max
时,训练结束。
42.进一步地,在步骤s66中,
43.第n+1个调度时刻可能的机组输出功率上限和可能的输出功率下限的计算是通过节点i机组输出功率上限、输出功率下限、最大上爬坡功率、最大下爬坡功率以及下一时刻前瞻窗口t
k+1
中第n个调度时刻节点i上机组的输出功率完成的。
44.进一步地,所述计算当前时间步的累计奖励包括以下过程:
45.s691、累计actor网络的梯度更新;
46.s692、累计critic网络的梯度更新;
47.s693、采用累计actor网络和critic网络的梯度更新dθ和dθv以及更新步长α、β更新网络参数θ和θv。
48.本发明还提供了一种用于实现上述电网前瞻调度方法的系统,该系统包括:
49.前瞻调度窗口定义模块,所述前瞻调度窗口定义模块用于定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,其中包括定义调度决策周期时长、日内前瞻调度窗口数量、单个前瞻窗口内调度时刻数量;
50.第一获取模块,所述获取模块用于获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点上对应机组物理参数;
51.第二获取模块,所述第二获取模块用于获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数;
52.前瞻窗口状态矩阵构造模块,所述前瞻窗口状态矩阵构造模块用于将上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数按照电网节点拓扑结构关系构造前瞻窗口状态矩阵;
53.电网调度模型建立模块,所述电网调度模型建立模块用于通过电网支路物理参数、节点拓扑结构信息、节点物理参数和节点上对应机组物理参数建立电网调度模型;
54.网络建立模块,所述网络建立模块用于以电网调度模型和lstm构建作为算法框架的深度强化学习的调度智能体,其中包括以卷积神经网络、lstm层以及全连接层作为网络结构建立网络;
55.输入模块,所述输入模块用于将前瞻窗口的状态矩阵输入到调度智能体中,得到下一时刻前瞻窗口的机组输出功率序列。
56.借由上述技术方案,本发明提供了一种基于lstm的电网前瞻调度方法及其系统,至少具备以下有益效果:
57.1、本发明能够实现对电网未来一段时间内的调度做出快速、有效的决策,为调度员提供调度控制的辅助决策手段,利用长短期记忆网络(lstm)与电网模型进行交互,解决
了长期依赖问题,利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
58.2、本发明利用长短期记忆网络(lstm)与电网模型进行交互,解决了长期依赖问题,并且缓解了rnn在训练时反向传播带来的“梯度消失”问题。
59.3、本发明利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
60.4、本发明采用离线学习方式拟合逼近并泛化前瞻优化调度策略,完成训练后的调度智能体能够快速地映射某个前瞻窗口输入状态所对应的机组输出功率序列,相比模型类方法对输入进行在线解析并迭代优化的决策模式,学习类的方法能够增强电网短时优化决策能力,提升电网优化决策效率。
61.5、本发明以lstm-based advantage actor-critic算法作为框架构建调度智能体,通过将前瞻调度窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的机组输出功率序列。通过奖励约束策略优化方法对智能体进行训练,实现对电网未来一段时间内的运行情况输出安全、经济的机组输出功率序列。
附图说明
62.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
63.图1为现有技术ieee300节点标准系统图的前半部分示意图;
64.图2为现有技术ieee300节点标准系统图的后半部分示意图;
65.图3为本发明电网前瞻调度方法的流程图;
66.图4为本发明电网前瞻调度系统的原理框图。
67.图中:100、前瞻调度窗口定义模块;200、第一获取模块;300、第二获取模块;400、前瞻窗口状态矩阵构造模块;500、电网调度模型建立模块;600、网络建立模块;700、输入模块。
具体实施方式
68.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本技术如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
69.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
70.本实施例中的电网前瞻调度方法及其系统应用于ieee300节点标准系统,请参照图1和图2所示ieee300节点标准系统图,该图来自于:illinois center for a smarter electric grid.ieee 300-bus system[eb/ol].[2019-06-13]。ieee300节点标准系统包含300个节点,304条支路,69台机组,其参数包括:支路物理参数,节点的拓扑结构,节点物理
参数,节点所含机组物理参数,系统滚动的短期负荷预测。
[0071]
请参照图3,示出了本发明的一种实施方式,一种基于lstm的电网前瞻调度方法,能够根据基于lstm的电网前瞻调度方法所得的策略输出当前前瞻窗口内机组输出功率序列,实现滚动优化未来一段时间内电网调度策略,提升电网运行效益,该方法包括以下步骤:
[0072]
s1、定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,其中包括定义调度决策周期时长、日内前瞻调度窗口数量、单个前瞻窗口内调度时刻数量;
[0073]
确定调度决策周期时长为δt,即每δt时间滚动计算一次调度计划,日内前瞻调度窗口数量为nd=24h/δt,单个前瞻窗口内调度时刻数量为n;
[0074]
s2、获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点上对应机组物理参数;
[0075]
电网支路物理参数包括支路bi的起始节点终止节点电阻电抗电纳长期允许功率rate、变比ratio、运行状态status;节点拓扑结构信息包括节点母线编号bi、节点类型节点物理参数包括节点母线注入负荷的有功功率与节点母线并联的电导与节点母线并联的电纳节点母线的基准电压节点i上对应机组物理参数,包括输出功率上限输出功率下限以及机组最大上爬坡功率ζ
up,i
,最大下爬坡功率ζ
down,i
,线路功率上限
[0076]
s3、获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数。
[0077]
获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数包括以下步骤:
[0078]
s31、令初始时段t0=0,则记第k个决策时段tk的前瞻窗口tk为:
[0079]
tk={k0,k1,

,kn,

,k
n-1
}
[0080]
其中,kn表示从第k个决策时段开始的第n,n∈{0,1,

,n-1}个前瞻时段;
[0081]
s32、获取当前前瞻窗口tk内前瞻时段kn的母线负荷预测序列为:
[0082][0083]
其中,nb为系统母线数,为第i条母线的负荷预测值,i∈{0,1,

,n
b-1};
[0084]
s33、tk内所有前瞻时段的母线负荷预测向量构成tk的母线负荷预测序列为:
[0085][0086]
s34、获取当前前瞻窗口tk内前瞻时段kn的风电预测序列为:
[0087]
[0088]
其中,nw为风电场,为第j个风电场的风电预测值,j∈{0,1,

,n
w-1};
[0089]
s35、tk内所有前瞻时段的风电预测向量构成tk的风电预测序列
[0090][0091]
获取上一时刻前瞻窗口的前瞻调度计划包括:
[0092]
s311、获取上一时刻前瞻窗口t
k-1
内首个前瞻时段的机组计划向量为:
[0093][0094]
其中,ng为发电机组数,为机组z当前的出力,z∈{0,1,

,n
g-1},不失一般性,假设首个前瞻时段的机组计划下发后会被严格执行。
[0095]
s312、根据tk对应的母线负荷预测序列风电预测序列以及机组当前实际执行计划计算上一时刻前瞻窗口tk的前瞻调度计划,记为且
[0096]
上一时刻前瞻窗口的前瞻调度计划包括实际执行调度计划的制定及超前调度计划的制定,此处定义元素全为1的nb维向量元素全为1的nw维向量元素全为1的ng维向量
[0097]
实际执行调度计划为:
[0098][0099]
其中,为机组调整功率向量,k0时段的计划需满足该时段负荷预测向量及风电预测向量下的系统功率平衡方程:
[0100][0101]
超前调度计划为:
[0102][0103]
其中,为tk内kn时段机组计划的调整量,kn时段的计划同样需满足负荷预测及风电预测下的系统功率平衡方程:
[0104][0105]
s4、将上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数按照电网节点拓扑结构关系构造前瞻窗口状态矩阵;
[0106]
s5、通过电网支路物理参数、节点拓扑结构信息、节点物理参数和节点上对应机组
物理参数建立电网调度模型;
[0107]
s6、以电网调度模型和lstm构建作为算法框架的深度强化学习的调度智能体,其中包括以卷积神经网络、lstm层以及全连接层作为网络结构建立网络。
[0108]
利用长短期记忆网络(lstm)与电网模型进行交互,解决了长期依赖问题,并且缓解了rnn在训练时反向传播带来的“梯度消失”问题。
[0109]
网络包括一个actor网络和一个critic网络,actor网络和critic网络均为两个二维卷积层、一个lstm层和一个全连接层,卷积层对输入数据进行卷积操作,lstm层对前瞻窗口和网络进行处理,lstm层的输出作为全连接层的输入,actor网络的全连接层输出动作的概率分布,critic网络的全连接层输出状态的价值。
[0110]
构建以lstm-based advantage actor-critic作为算法框架的深度强化学习调度智能体,以卷积神经网络、lstm层以及全连接层作为网络结构建立网络,通过将前瞻窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的机组输出功率序列。
[0111]
调度智能体的深度强化学习包括以下步骤:
[0112]
s61、初始化actor网络和critic网络的参数θ和θv,actor网络更新步长α以及critic网络更新步长β,初始化网络时间步数t=0,网络最大时间步数为t
max
,网络更新步数为t
update
,网络当前时间步数为t
start

[0113]
s62、重置网络中actor网络和critic网络的参数梯度dθ=0,dθv=0;
[0114]
s63、记录网络当前时间步数t
start
=t;
[0115]
s64、采用步骤5获取前瞻窗口状态矩阵作为网络输入状态s
t

[0116]
s65、采用策略分布π(a
t
|s
t
;θ)得到输出动作向量a
t
,即将s
t
输入到lstm-based advantage actor-critic网络,得到输出动作向量a
t
。其中lstm层将来自前一个隐藏状态的信息h
t-1
和当前输入的信息x
t
传递到sigmoid函数中去,得到丢弃信息f
t
,计算公式如下:
[0117]ft
=σ(wf·
[h
t-1
,x
t
]+bf)
[0118]
然后将h
t-1
和x
t
分别传递到sigmoid函数和tanh函数中去,得到更新信息i
t
和计算公式如下:
[0119]it
=σ(wi·
[h
t-1
,x
t
]+bi)
[0120][0121]
更新细胞状态c
t
,相应的公式如下:
[0122][0123]
再将h
t-1
和x
t
传递到sigmoid函数中得到o
t
,并计算输出信息h
t
,计算公式如下:
[0124]ot
=σ(wo·
[h
t-1
,x
t
]+bo)
[0125]ht
=o
t
*tanh(c
t
)
[0126]
s66、根据节点i机组输出功率上限输出功率下限最大上爬坡功率ζ
up,i
、最大下爬坡功率ζ
down,i
以及下一时刻前瞻窗口t
k+1
中第n个调度时刻节点i上机组的输出功率计算第n+1个调度时刻可能的机组输出功率上限和可能的输出功率下
限动作向量a
t
中机组出力动作分量映射为前瞻窗口t
k+1
中第n+1个调度时刻节点i上机组输出功率计算公式如下:
[0127][0128]
依次将动作分量映射后得到前瞻窗口t
k+1
的机组输出功率序列,将其输入到电网仿真环境中,计算前瞻窗口t
k+1
的系统代价,获取下一时刻前瞻窗口状态矩阵;
[0129]
s67、网络时间步数t=t+1;
[0130]
s68、如果s
t
是终止状态,或者当t-t
start
=t
update
时,进入步骤s69,否则返回步骤s65;
[0131]
s69、计算当前时间步的累计奖励r。
[0132]
计算当前时间步的累计奖励包括以下过程:
[0133]
s691、累计actor网络的梯度更新,计算公式如下:
[0134][0135]
s692、累计critic网络的梯度更新,计算公式如下:
[0136][0137]
s693、采用累计actor网络和critic网络的梯度更新dθ和dθv以及更新步长α、β更新网络参数θ和θv,计算公式如下:
[0138]
θ=θ-αdθ
[0139]
θv=θ
v-βdθv[0140]
s610、当t=t
max
时,训练结束,t
max
为网络最大时间步数。
[0141]
在调度智能体的深度强化学习中,通过奖励约束策略优化方法对调度智能体进行训练,实现对电网未来一段时间内的运行情况输出安全、经济的机组输出功率序列。
[0142]
利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
[0143]
s7、将前瞻窗口的状态矩阵输入到调度智能体中,得到下一时刻前瞻窗口的机组输出功率序列。
[0144]
构建以lstm-based advantage actor-critic作为算法框架的深度强化学习调度智能体,以卷积神经网络、lstm层以及全连接层作为网络结构建立网络,通过将前瞻窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的机组输出功率序列。
[0145]
在智能电网的建设背景下,调度也在向智能化方向不断发展,将深度强化学习方法引入电力系统调度领域,可以有效利用电网中的大数据,为电网调度提供智能化解决方案,提高电力系统运行的稳定性和安全性。
[0146]
本实施例能够实现对电网未来一段时间内的调度做出快速、有效的决策,为调度员提供调度控制的辅助决策手段,利用长短期记忆网络(lstm)与电网模型进行交互,解决了长期依赖问题,利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。
[0147]
请参照图4,本实施例还提供了一种用于实现电网前瞻调度方法的系统,该系统包括:
[0148]
前瞻调度窗口定义模块100,前瞻调度窗口定义模块100用于定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,其中包括定义调度决策周期时长、日内前瞻调度窗口数量、单个前瞻窗口内调度时刻数量;
[0149]
第一获取模块200,获取模块200用于获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点上对应机组物理参数;
[0150]
第二获取模块300,第二获取模块300用于获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数;
[0151]
前瞻窗口状态矩阵构造模块400,前瞻窗口状态矩阵构造模块400用于将上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数按照电网节点拓扑结构关系构造前瞻窗口状态矩阵;
[0152]
电网调度模型建立模块500,电网调度模型建立模块500用于通过电网支路物理参数、节点拓扑结构信息、节点物理参数和节点上对应机组物理参数建立电网调度模型;
[0153]
网络建立模块600,网络建立模块600用于以电网调度模型和lstm构建作为算法框架的深度强化学习的调度智能体,其中包括以卷积神经网络、lstm层以及全连接层作为网络结构建立网络;
[0154]
输入模块700,输入模块700用于将前瞻窗口的状态矩阵输入到调度智能体中,得到下一时刻前瞻窗口的机组输出功率序列。
[0155]
本实施例采用离线学习方式拟合逼近并泛化前瞻优化调度策略,完成训练后的调度智能体能够快速地映射某个前瞻窗口输入状态所对应的机组输出功率序列,相比模型类方法对输入进行在线解析并迭代优化的决策模式,学习类的方法能够增强电网短时优化决策能力,提升电网优化决策效率。
[0156]
本实施例以lstm-based advantage actor-critic算法作为框架构建调度智能体,通过将前瞻调度窗口的状态矩阵输入到调度智能体中,从而得到下一时刻前瞻窗口的机组输出功率序列。通过奖励约束策略优化方法对智能体进行训练,实现对电网未来一段时间内的运行情况输出安全、经济的机组输出功率序列。
[0157]
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同或相似的部分互相参见即可。对于以上各实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0158]
以上实施方式对本发明进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

技术特征:
1.一种基于lstm的电网前瞻调度方法,其特征在于,包括以下步骤:s1、定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,其中包括定义调度决策周期时长、日内前瞻调度窗口数量、单个前瞻窗口内调度时刻数量;s2、获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点上对应机组物理参数;s3、获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数;s4、将上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数按照电网节点拓扑结构关系构造前瞻窗口状态矩阵;s5、通过电网支路物理参数、节点拓扑结构信息、节点物理参数和节点上对应机组物理参数建立电网调度模型;s6、以电网调度模型和lstm构建作为算法框架的深度强化学习的调度智能体,其中包括以卷积神经网络、lstm层以及全连接层作为网络结构建立网络;s7、将前瞻窗口的状态矩阵输入到调度智能体中,得到下一时刻前瞻窗口的机组输出功率序列。2.根据权利要求1所述的电网前瞻调度方法,其特征在于:在步骤s2中,电网支路物理参数包括支路的起始节点、终止节点、电阻、电抗、电纳、长期允许功率、变比和运行状态;节点拓扑结构信息包括节点母线编号和节点类型;节点物理参数包括节点母线注入负荷的有功功率、与节点母线并联的电导、与节点母线并联的电纳和节点母线的基准电压;节点上对应机组物理参数包括节点上机组输出功率上限、输出功率下限、机组最大上爬坡功率和最大下爬坡功率以及线路功率上限。3.根据权利要求1所述的电网前瞻调度方法,其特征在于:在步骤s6中,所述网络包括一个actor网络和一个critic网络,actor网络和critic网络均为两个二维卷积层、一个lstm层和一个全连接层,卷积层对输入数据进行卷积操作,lstm层对前瞻窗口和网络进行处理,lstm层的输出作为全连接层的输入,actor网络的全连接层输出动作的概率分布,critic网络的全连接层输出状态的价值。4.根据权利要求1所述的电网前瞻调度方法,其特征在于:在步骤s3中,获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数包括以下步骤:s31、令初始时段t0=0,则记第k个决策时段t
k
的前瞻窗口为t
k
;t0s32、获取当前前瞻窗口t
k
内前瞻时段k
n
的母线负荷预测序列;s33、t
k
内所有前瞻时段的母线负荷预测向量构成t
k
的母线负荷预测序列;s34、获取当前前瞻窗口t
k
内前瞻时段k
n
的风电预测序列;s35、t
k
内所有前瞻时段的风电预测向量构成t
k
的风电预测序列。5.根据权利要求1所述的电网前瞻调度方法,其特征在于:在步骤s3中,获取上一时刻前瞻窗口的前瞻调度计划包括:
s311、获取上一时刻前瞻窗口t
k-1
内首个前瞻时段的机组计划向量s312、根据t
k
对应的母线负荷预测序列、风电预测序列以及机组当前实际执行计划计算上一时刻前瞻窗口t
k
的前瞻调度计划。6.根据权利要求5所述的电网前瞻调度方法,其特征在于:所述上一时刻前瞻窗口t
k
的前瞻调度计划包括实际执行调度计划的制定及超前调度计划的制定。7.根据权利要求1所述的电网前瞻调度方法,其特征在于:在步骤s6中,调度智能体的深度强化学习包括以下步骤:s61、初始化actor网络和critic网络的参数θ和θ
v
,actor网络更新步长α以及critic网络更新步长β;s62、重置网络中actor网络和critic网络的参数梯度;s63、记录网络当前时间步数;s64、将前瞻窗口状态矩阵作为网络输入状态;t0s65、采用策略分布得到输出动作向量;s66、计算第n+1个调度时刻可能的机组输出功率上限和可能的输出功率下限,并获取下一时刻前瞻窗口状态矩阵;s67、网络时间步数;s68、如果网络输入状态是终止状态,或者当t-t
start
=t
update
时,进入步骤s69,否则返回步骤s65;s69、计算当前时间步的累计奖励;s610、当t=t
max
时,训练结束。8.根据权利要求7所述的电网前瞻调度方法,其特征在于:在步骤s66中,第n+1个调度时刻可能的机组输出功率上限和可能的输出功率下限的计算是通过节点i机组输出功率上限、输出功率下限、最大上爬坡功率、最大下爬坡功率以及下一时刻前瞻窗口t
k+1
中第n个调度时刻节点i上机组的输出功率完成的。9.根据权利要求1所述的一种基于lstm的电网前瞻调度方法及其系统,其特征在于:所述计算当前时间步的累计奖励包括以下过程:s691、累计actor网络的梯度更新;s692、累计critic网络的梯度更新;s693、采用累计actor网络和critic网络的梯度更新dθ和dθ
v
以及更新步长α、β更新网络参数θ和θ
v
。10.一种用于实现上述权利要求1-9任一项所述的电网前瞻调度方法的系统,其特征在于,包括:前瞻调度窗口定义模块(100),所述前瞻调度窗口定义模块(100)用于定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,其中包括定义调度决策周期时长、日内前瞻调度窗口数量、单个前瞻窗口内调度时刻数量;第一获取模块(200),所述获取模块(200)用于获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点上对应机组物理参数;第二获取模块(300),所述第二获取模块(300)用于获取上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数;
前瞻窗口状态矩阵构造模块(400),所述前瞻窗口状态矩阵构造模块(400)用于将上一时刻前瞻窗口的前瞻调度计划、当前时刻前瞻窗口的母线负荷预测序列和风电预测序列参数按照电网节点拓扑结构关系构造前瞻窗口状态矩阵;电网调度模型建立模块(500),所述电网调度模型建立模块(500)用于通过电网支路物理参数、节点拓扑结构信息、节点物理参数和节点上对应机组物理参数建立电网调度模型;网络建立模块(600),所述网络建立模块(600)用于以电网调度模型和lstm构建作为算法框架的深度强化学习的调度智能体,其中包括以卷积神经网络、lstm层以及全连接层作为网络结构建立网络;输入模块(700),所述输入模块(700)用于将前瞻窗口的状态矩阵输入到调度智能体中,得到下一时刻前瞻窗口的机组输出功率序列。

技术总结
本发明涉及电力系统技术领域,尤其涉及一种基于LSTM的电网前瞻调度方法,包括以下步骤:S1、定义电网下一调度时刻至未来一段时间内的调度时刻的区间为前瞻调度窗口,其中包括定义调度决策周期时长、日内前瞻调度窗口数量、单个前瞻窗口内调度时刻数量;S2、获取电网支路物理参数、节点拓扑结构信息、节点物理参数、节点上对应机组物理参数。本发明能够实现对电网未来一段时间内的调度做出快速、有效的决策,为调度员提供调度控制的辅助决策手段,利用长短期记忆网络与电网模型进行交互,解决了长期依赖问题,利用奖励约束策略优化方法对智能体进行训练,将约束作为惩罚信号引入奖励函数中,解决了强化学习寻找奖励函数漏洞的问题。题。题。


技术研发人员:唐昊 刘天伟 余佩遥 秦卫民 方道宏 姚建国 严嘉豪 杨胜春 李压平 成梁成 李远松
受保护的技术使用者:中国电力科学研究院有限公司 国网安徽省电力有限公司电力科学研究院
技术研发日:2022.07.18
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8229.html

最新回复(0)