1.本发明属于模块化多电平变换器控制技术领域,更为具体地讲,是一种降低模块化多电平变换器输出电流总谐波畸变的优化控制方法。
背景技术:2.高压直流输电(high-voltage direct current,hvdc)具有线路造价低,有功损耗小,调节速度快等优点。但是由于其无法使用变压器等装置且不易控制谐波和无功,它的发展受到了一定的限制。大功率电力电子器件的出现促进了高压直流输电的发展。模块化多电平变换器(modular multilevel converter,mmc)由于其模块化设计、可拓展性强、控制灵活等优点,在高压直流输电领域得到了广泛的应用。单相mmc的模型如图1(a)所示,它包含两个电压相同的直流电压源、两个桥臂以及负载,其中每个桥臂有n个子模块和一个很小的桥臂电感,每个子模块为一个由两个igbt和一个电容组成的半桥结构。
3.模块化多电平变换器的常用控制方式有阶梯波调制(staircase modulation)和载波移相pwm(phase shift carrier pwm,pspwm),其中阶梯波调制因为其调制方式简单、开关频率低、损耗小得到了广泛的应用。阶梯波调调制主要有最近电平调制(nearest level modulation,nlm)和特定消谐调制(selected harmonic elimination staircase modulation,shesm)。
4.最近电平调制的原理如图2所示,选择离参考电压最近的一个电平作为当前时刻的电压输出,用得到的阶梯波来模拟正弦波,该阶梯波具有n+1个电平,具有奇函数对称性和四分之一周期对称性,由个开关角变量决定。这种方法虽然计算量低、控制简单,但是由于其考虑的是电压瞬时值的误差,而mmc关注的性能指标是输出电流的总谐波失真(total harmonic distortion,thd),所以这种方法的thd表现仍有提升空间,并且这种方法输出波形的幅值误差也较大。
5.阶梯波调制的另一种方法特定消谐调制的原理是通过计算消除输出波形的前次谐波。但是这种方法需要求解关于开关角的非线性超越方程组,用常规迭代法求解困难且消除低次谐波后可能导致其他次谐波幅值变大,最终使输出电流thd变大。
技术实现要素:6.本发明的目的在于克服现有方法的不足,提供一种降低模块化多电平变换器输出电流总谐波失真的优化控制方法,使用强化学习的方法计算使mmc输出电流thd最小的最佳开关角数值,以实现减小变换器输出波形thd和输出波形电压控制的目的。
7.为实现上述发明目的,本发明的技术方案为一种降低模块化多电平变换器输出电流总谐波失真的方法,包括以下步骤:
8.步骤1:确定模块化多电平变换器的可控状态空间为s=[θ1,θ2,θ3],其中,模块化多电平变换器的子模块数量为6,其中各元素为状态变量,θ1表示模块化多电平变换器输出
电平由0变为1时的开关角,θ2表示模块化多电平变换器输出电平由1变为2时的开关角,θ3表示模块化多电平变换器输出电平由2变为3时的开关角;开关角大小的范围为[0,π/2],且θ1《θ2《θ3;
[0009]
步骤2:建立动作空间为a={a1,a2,a3},其中各元素表示动作变量,每个状态变量对应一个动作变量,ai=[0,1,-1]
×
δ,i=1,2,3,δ为常数;动作变量的作用为:当前状态为θi,则下一状态θ
i’为θi+ai,并从a1,a2,a3依次进行动作;
[0010]
步骤3:归一化θ1,θ2,θ3到[0,1],建立目标函数:f(θ1,θ2,θ3)=φ
·
|u
o-u
ref
|+e
thd
,其中,u
ref
为输出电压参考值,φ为补偿系数,uo为输出电压,e
thd
表示输出电流总谐波失真;
[0011]
建立奖励函数:其中δf为下一状态的目标函数值减当前状态的目标函数值;
[0012]
步骤4:对输出电压幅值uo进行分段取值,对每个取值进行依次编号为:1,2,3,
…
,x,
…
,p,初始化状态变量s,令x=1,y=1,y为当前循环次数,x∈[1,p],y∈[1,q],q为设定的最大循环次数,根据步骤3中目标函数计算出当前目标函数值;
[0013]
步骤5:根据下一次循环的输出电压uo,输出电流总谐波失真e
thd
,根据步骤3中目标函数计算出下一次目标函数值,结合步骤4中的当前目标函数值得到δf;再根据步骤3中的奖励函数得到奖励值,将奖励值存入奖励值库;
[0014]
步骤6:在[0,1]中随机生成一个数,与事先设定的阈值ε比较,若小于阈值ε,则从当前奖励值库中选取最大奖励值对应的动作,如果有多个相等的最大奖励值,就从这多个最大奖励值中随机选择一个;若大于等于阈值ε,则随机选取一个动作;得到动作空间,根据得到的动作空间进行状态空间的更新;
[0015]
步骤7:判断y是否等于q,如果不等于,则令y=y+1并返回执行步骤5;否则,执行步骤8;
[0016]
步骤8:判断x是否等于p,如果不等于,则令x=x+1并返回执行步骤5;否则,执行步骤9;
[0017]
步骤9:将得到的[θ1,θ2,θ3]与对应的输出电压幅值uo进行对应存储,则每个输出电压幅值uo都获得一个对应的状态空间为[θ1,θ2,θ3];
[0018]
步骤10:在对模块化多电平变换器的实际控制过程中,根据根据输出电压参考值u
ref
步骤9存储的数据中选择一个最接近u
ref
的uo值对应的[θ1,θ2,θ3]进行控制。
[0019]
本发明一种降低模块化多电平变换器输出电流总谐波失真的优化控制方法,首先确定变换器的状态空间、动作空间和模型参数,然后在不同环境变量uo下,通过强化学习算法训练得到模块化多电平变换器在相应输出电压幅值下使thd最小的开关角值,并整合成强化学习模型,在实际使用中,得到输出电压参考幅值后,选择环境变量与参考幅值最接近的一项强化学习的结果作为最优开关角来控制mmc。
[0020]
同时,本发明一种降低模块化多电平变换器输出电流总谐波失真的优化控制方法还具有以下有益效果:
[0021]
(1)、本发明运用强化学习的方法可以处理传统方法无法精确求解的非线性数学
模型,该方法也可以用于处理其他电力电子设备的最优控制问题,具有一定的普适性。
[0022]
(2)、本发明对不同输出电压条件下的模块化多电平变换器的控制变量进行训练。可以快速找出一组开关角最优解,在保证较小输出电压幅值误差的情况下最小化输出电流的thd,提高输出波形质量。
[0023]
(3)、本发明计算出输出电流thd的数学模型,直接将输出电流的thd作为目标函数的一部分,消除了传统方法由于求解目标与实际目标不同而产生的误差。
附图说明
[0024]
图1是模块化多电平变换器的拓扑结构图;
[0025]
图2是模块化多电平变换器最近电平调制原理图;
[0026]
图3是基于强化学习的双有源全桥直流变换器的效率优化控制算法流程图;
[0027]
图4是传统的nlm方法的输出波形图;
[0028]
图5是本发明提出方法的输出波形图;
[0029]
图6是不同方法性能比较。
具体实施方式
[0030]
在本实施例中,如图1中(a)所示,模块化多电平变换器包含两个电压相同的直流电压源、两个桥臂以及负载;每个桥臂有n个子模块和一个很小的桥臂电感,每个子模块为一个由两个igbt和一个电容组成的半桥结构。
[0031]
mmc模型的参数设置如下:每个直流电压源电压为6kv,每个桥臂的子模块数为6个,桥臂电感大小为10mh,负载电阻为114ω、负载电感为119mh(功率因数为0.95),子模块电容为6μf,本例中,输出电压调制因子m取值为0.75~1。上下桥臂的电流参考方向均为由上到下为正,子模块中当s1关断、s2开通时,子模块属于旁路状态;当s1开通、s2关断时,子模块处于接入状态且当电流为正时,电容处于充电状态,电流为负时,电容处于放电状态。图1(b)为mmc的简化等效电路图,本例中ue端输出7电平阶梯波。
[0032]
图2是mmc传统控制算法nlm的示意图,可以看出对于有6个桥臂子模块的mmc的7电平输出波形可以由三个开关角确定。
[0033]
图3是本发明一种降低模块化多电平变换器输出电流总谐波失真的优化控制方法流程图。
[0034]
在本实施例中,如图3所示,本发明一种降低模块化多电平变换器输出电流总谐波失真的优化控制方法,包括以下步骤:
[0035]
s1、构造模块化多电平变换器的可控状态变量;
[0036]
s1.1、模块化多电平变换器的直流端电压为
±
6kv,负载为114ω+119mh,桥臂电感10mh,最大输出电流约为50a;上下桥臂共12个子模块,子模块电容大小为6μf,任意时刻有6个子模块处于接入状态,6个子模块处于旁路状态,所以子模块电容电压在2000v附近,选择耐压高于2000v,耐流高于50a的igbt;
[0037]
s1.2、模块化多电平变换器每个桥臂有六个子模块,输出电压具有七个电平。由于模块化多电平变换器的输出电压波形的奇函数对称性和四分之一周期对称性,在阶梯波调制下,只需确定前四分之一周期的三个开关角[θ1,θ2,θ3]大小即可确定整个周期内的阶梯
波波形,开关角大小的范围为[0,π/2],将三个开关角归一化到[0,1],并满足约束条件θ1≤θ2≤θ3。即时,输出电平由0变为1;时,输出电平由1变为2;时,输出电平由2变为3,其中tf是输出波形周期,本例中f=50hz,tf=0.02s。得到模块化多电平变换器的状态空间为s=[θ1,θ2,θ3];
[0038]
s2、构造动作空间;
[0039]
每个状态变量对应于一个动作变量,动作空间为a={a1,a2,a3},其中,ai=[0,1,-1]
×
δ,i=1,2,3,δ为常数。在强化学习算法训练时,当前状态为s,则下一状态s’为s+a;为了保证训练精度,本例中δ=0.001;
[0040]
s3、建立控制数据库;
[0041]
s3.1、数学模型的建立;
[0042]
当模块化多电平变换器的直流侧电压u
dc
、桥臂电感l
arm
、负载r
load
+l
load
、每个桥臂子模块个数n等参数确定时,可以计算出输出电压uo和输出电流总谐波失真e
thd
。当其他参数确定时uo和e
thd
是关于θ1,θ2,θ3的函数;
[0043]
具体的,uo和e
thd
的表达式如下:
[0044][0045][0046]
其中,uo(θ1,θ2,θ3)表示(θ1,θ2,θ3)状态下的输出电压,v
dc
表示直流端电压,e
thd
(θ1,θ2,θ3)表示(θ1,θ2,θ3)状态下的输出电流总谐波失真,2k-1次谐波电流
[0047]
阻抗
[0048]
其中,r
load
表示负载电阻,f表示输出波形频率,l
load
表示负载电感,l
arm
表示桥臂电感;
[0049]
2k-1次谐波电压:
[0050][0051]
s3.2、目标函数和奖励函数的确定;
[0052]
强化学习算法中的目标函数为f(θ1,θ2,θ3)=φ
·
|u
o-u
ref
|+e
thd
,其中,u
ref
为输出电压参考值,φ为补偿系数,本例中φ为0.01。
[0053]
强化学习算法中的奖励函数为:其中δf为下一状态的目标函数值减当前状态的目标函数值。由于状态空间s的三个变量范围是[0,1],所以当选择的动作是状态变量超过该范围时,施加一项很大的负奖励-10;
[0054]
s3.3、设置环境变量和训练次数;
[0055]
在模块化多电平变换器中,环境变量即为输出电压uo,对环境变量uo取p个值。对于每个环境变量取值,设置最大训练次数q,本例中,p=100,q=10000;
[0056]
s3.4、初始化状态变量s=[0.5 0.5 0.5];x为环境变量序号,y为当前训练次数。x∈[1,p],y∈[1,q]初始化x=1,y=1;
[0057]
s3.5、根据贪婪策略更新动作空间a={a1,a2,a3},如果一个属于[0,1]的随机数小于ε,则选择当前奖励值最大的动作(有多个奖励值相等且最大的动作时,在多个动作中随机选取一个),否则,随机选取一个动作。然后根据更新的动作更新状态空间s=[θ1,θ2,θ3]和相应的奖励值,本例中ε=0.9;
[0058]
s3.6、判断y是否等于q,如果不等于,则令y=y+1并返回执行s3.5;否则,执行s3.7;
[0059]
s3.7、判断x是否等于p,如果不等于,则令x=x+1并返回执行s3.5;否则,执行s3.8;
[0060]
s3.8、将得到的强化学习训练结果存入查找表,查找表行数为p,列数为3,每一行代表一个环境变量对应的取值,3列分别代表3个状态变量[θ1,θ2,θ3];
[0061]
s4、使用控制数据库控制模块化多电平变换器;
[0062]
s4.1、根据输出电压参考值u
ref
的大小,在训练好的环境变量中选择最接近的uo值对应的开关角[θ1,θ2,θ3]作为最优控制策略;
[0063]
s4.2、根据开关角大小和排序选择算法生成各个子模块的控制波形,实现对模块化多电平变化器的优化控制。
[0064]
在本实施例中,当调制系数m=0.775,及输出电压参考值u
ref
=4650v时,传统nlm方法得到的[θ1,θ2,θ3]=[0.128,0.410,0.968],mmc的输出电压和电流波形如图4所示,传统方法的thd=5.55%;使用本发明提出的方法得到的[θ1,θ2,θ3]=[0.138,0.455,0.947],mmc的输出电压和电流波形如图5所示,本发明方法的thd=3.99%。调制系数从0.75~1连续变化时,传统nlm和本发明提出的方法的总谐波失真如图6所示。从图6可以看出,本发明提供的基于强化学习的降低模块化多电平变换器输出电流总谐波失真的方法,相比传统方法,可以使mmc的输出thd变小,优化效果在轻载区尤为明显。
技术特征:1.一种降低模块化多电平变换器输出电流总谐波失真的方法,包括以下步骤:步骤1:确定模块化多电平变换器的可控状态空间为s=[θ1,θ2,θ3],其中,模块化多电平变换器的子模块数量为6,其中各元素为状态变量,θ1表示模块化多电平变换器输出电平由0变为1时的开关角,θ2表示模块化多电平变换器输出电平由1变为2时的开关角,θ3表示模块化多电平变换器输出电平由2变为3时的开关角;开关角大小的范围为[0,π/2],且θ1≤θ2≤θ3;步骤2:建立动作空间为a={a1,a2,a3},其中各元素表示动作变量,每个状态变量对应一个动作变量,a
i
=[0,1,-1]
×
δ,i=1,2,3,δ为常数;动作变量的作用为:当前状态为θ
i
,则下一状态θ
i’为θ
i
+a
i
,并从a1,a2,a3依次进行动作;步骤3:归一化θ1,θ2,θ3到[0,1],建立目标函数:f(θ1,θ2,θ3)=φ
·
|u
o-u
ref
|+e
thd
,其中,u
ref
为输出电压参考值,φ为补偿系数,u
o
为输出电压,e
thd
表示输出电流总谐波失真;建立奖励函数:其中δf为下一状态的目标函数值减当前状态的目标函数值;步骤4:对输出电压幅值u
o
进行分段取值,对每个取值进行依次编号为:1,2,3,
…
,x,
…
,p,初始化状态变量s,令x=1,y=1,y为当前循环次数,x∈[1,p],y∈[1,q],q为设定的最大循环次数,根据步骤3中目标函数计算出当前目标函数值;步骤5:根据下一次循环的输出电压u
o
,输出电流总谐波失真e
thd
,根据步骤3中目标函数计算出下一次目标函数值,结合步骤4中的当前目标函数值得到δf;再根据步骤3中的奖励函数得到奖励值,将奖励值存入奖励值库;步骤6:在[0,1]中随机生成一个数,与事先设定的阈值ε比较,若小于阈值ε,则从当前奖励值库中选取最大奖励值对应的动作,如果有多个相等的最大奖励值,就从这多个最大奖励值中随机选择一个;若大于等于阈值ε,则随机选取一个动作;得到动作空间,根据得到的动作空间进行状态空间的更新;步骤7:判断y是否等于q,如果不等于,则令y=y+1并返回执行步骤5;否则,执行步骤8;步骤8:判断x是否等于p,如果不等于,则令x=x+1并返回执行步骤5;否则,执行步骤9;步骤9:将得到的[θ1,θ2,θ3]与对应的输出电压幅值u
o
进行对应存储,则每个输出电压幅值u
o
都获得一个对应的状态空间为[θ1,θ2,θ3];步骤10:在对模块化多电平变换器的实际控制过程中,根据输出电压参考值u
ref
步骤9存储的数据中选择一个最接近u
ref
的u
o
值对应的[θ1,θ2,θ3]进行控制。
技术总结该发明公开了一种降低模块化多电平变换器输出电流总谐波失真的方法,属于模块化多电平变换器控制技术领域。本发明运用强化学习的方法可以处理传统方法无法精确求解的非线性数学模型,该方法也可以用于处理其他电力电子设备的最优控制问题,具有一定的普适性。对不同输出电压条件下的模块化多电平变换器的控制变量进行训练。可以快速找出一组开关角最优解,在保证较小输出电压幅值误差的情况下最小化输出电流的THD,提高输出波形质量。计算出输出电流THD的数学模型,直接将输出电流的THD作为目标函数的一部分,消除了传统方法由于求解目标与实际目标不同而产生的误差。目标与实际目标不同而产生的误差。目标与实际目标不同而产生的误差。
技术研发人员:秦心筱 唐远鸿 赵玲玲 韩雨伯 胡维昊 任曼曼 黄琦 张真源
受保护的技术使用者:电子科技大学
技术研发日:2022.07.06
技术公布日:2022/11/1