一种基于TimeGAN网络合成窃电样本的数据集平衡方法

专利2023-10-01  93


一种基于timegan网络合成窃电样本的数据集平衡方法
技术领域
1.本发明涉及电网监控技术中的窃电检测领域,具体涉及一种基于timegan网络合成窃电样本的数据集平衡方法,为基于机器学习的窃电检测建模提供支持。


背景技术:

2.在电网系统的输电和配电过程中,存在技术性和非技术性两大损失。技术损失主要发生在电力设备中和传输线路中,非技术损失主要是配电网络中电力盗窃等欺诈性用电行为导致。广泛存在于配电网络中的窃电行为,会导致电力激增、电力系统负荷过重、威胁公共安全,除了给电网公司造成重大经济损失以及之外,还影响着电力系统的安全稳定运行和发展。传统的反窃电方法大多为基层电力技术人员定期巡查,现场取证等手段,这些窃电检测方法耗时且低效。在传统电力系统正不断的向具有数字控制和通信能力的智能电网系统发展,同时越来越多的科技手段也被应用于窃电的环境下,传统的窃电检测方法已经不能适应电力系统的发展,电力部门需要新的高效的方法来对窃电行为进行稽查。如何提高电网的防窃电水平,提升窃电稽查工作的效率,成为了亟待解决的问题。随着智能电网系统的发展以及智能电表的广泛使用,电力计量系统汇集了海量的用户用电数据,从用电数据中挖掘潜在的窃电信息,基于数据驱动的机器学习等人工智能窃电检测方法成为了研究的热点。
3.基于机器学习的窃电检测方法,需要有标记的智能电表数据,而由于窃电用户属于少数,标记数据集存在严重的数据类不平衡问题,这给机器学习模型学习少数类的相关概念(窃电)带来了困难,导致容易训练出对大多数样本(正常用电)存在偏差的模型。目前解决不平衡数据集的技术主要有针对多数样本的欠采样技术和针对少数样本的过采样技术。然而,基于欠采样的类平衡技术会导致大量的数据丢失,从而降低所开发模型的准确性,基于过采样的类平衡技术易导致模型过拟合和泛化能力低。


技术实现要素:

4.为了克服上述问题,实现有效且无偏的机器学习性能,本发明提出一种基于timegan网络合成窃电样本的数据集平衡方法。该方法从预处理后的不平衡窃电数据集中筛选部分窃电样本,使用特定方法转化为三维时间序列形式,使用这些三维数据训练一个timegan网络,让timegan的generator和discriminator根据generator loss和discriminator loss计算自身梯度并自动的调整参数,学习这些三维数据的分布特征,训练出一个能够合成三维时间序列的timegan网络。使用训练后的timegan网络合成遵循训练数据整体分布的三维时间序列,将合成的三维时间序列转换回与窃电用户样本相同的形式,作为窃电用户样本合并到预处理后的不平衡窃电数据集,扩充窃电用户样本的数量。
5.一种基于timegan网络合成窃电样本的数据集平衡方法,具体步骤如下:
6.对不平衡窃电数据集进行预处理,所述不平衡窃电数据集包含一维时间序列形式窃电用户样本和正常用户样本;
7.从预处理后的窃电用户样本中筛选出若干样本,并转化为三维时间序列形式;
8.使用上述三维时间序列形式的样本,训练出一个能够合成三维时间序列的timegan网络;
9.使用训练后的timegan网络合成遵循预处理后的窃电用户样本整体分布的三维时间序列,将合成的三维时间序列转换成与窃电用户样本相同的形式,得到合成样本;
10.将合成样本并入预处理后的不平衡窃电数据集,得到平衡窃电数据集。
11.进一步地,所述预处理包括剔除异常值、剔除缺失值超出阈值的样本、填充缺失值。
12.进一步地,剔除异常值的公式如下:
[0013][0014]
对于第i条样本,qu为上四分位数,表示该条样本的日用电量数据有四分之一比它大;q
l
为下四分位数,表示该条样本的日用电量数据有四分之一比它小;iqr为四分位数间距,即iqr=q
u-q
l
;xi为该条样本中大于qu+1.5iqr和小于q
l-1.5iqr的值;为替换值。
[0015]
进一步地,对于样本中的缺失值,使用基于类别的knn填充方法,根据是否窃电将样本分为正常用户样本和窃电用户样本,分别针对正常用户样本和窃电用户样本进行填充。
[0016]
进一步地,从预处理后的窃电用户样本中筛选出若干样本,具体为:
[0017]
对预处理后的不平衡窃电数据集中的窃电样本,使用k-means聚类算法进行聚类,根据聚类结果,选取距离各个聚类中心最近的若干样本。
[0018]
进一步地,将筛选出的样本转化为三维时间序列形式的方式如下:
[0019]
将所有筛选出的一维样本按列排列,组合成二维表格形式,使用采样数据点的方法创建第三个维度,取一个覆盖所有列的滑动窗口,沿着行的方向运行,每移动一次可获得一个2维矩阵,每个矩阵的大小与滑动窗口相同,通过滑动窗口的移位采样,将一维窃电样本转化为三维时间序列形式。
[0020]
进一步地,使用降维分析方法pca与t-sne进行可视化以评估timegan网络的合成效果:若合成数据和三维时间序列形式的窃电样本遵循相同的分布,则认为合成是有效的,转化成一维形式作为窃电用户样本,添加到预处理后的不平衡窃电数据集中扩充窃电样本的数量,否则调整timegan网络的超参数,重新训练timegan网络
[0021]
本发明针对基于机器学习的窃电检测建模过程中,窃电数据集存在的数据类不平衡问题,提供了一种基于timegan网络合成窃电样本的数据集平衡方法,可以将存在异常值与缺失值的原始不平衡窃电数据集处理为能够直接用于建立窃电检测模型的平衡数据集,对于建立无偏的基于机器学习的窃电检测模型具有重要意义。
附图说明
[0022]
图1为本发明一种基于timegan网络合成窃电样本的数据集平衡方法的流程图;
[0023]
图2为本发明实施例将筛选出的一维窃电用户样本转化为三维时间序列形式的过程示意图。
具体实施方式
[0024]
为了使本发明的内容、目的更加清楚,下面结合附图与实施例对本发明的实施方式作具体说明。
[0025]
本发明提出了一种基于timegan网络合成窃电样本的数据集平衡方法,可以为窃电检测的建模,提供平衡、有效、能够直接用于建模的数据集。以图一所示,一种基于timegan网络合成窃电样本的数据集平衡方法。该方法从预处理后的不平衡窃电数据集中筛选部分窃电样本,使用特定方法转化为三维时间序列形式,使用这些三维数据训练一个timegan网络,让timegan的generator和discriminator根据generator loss和discriminator loss计算自身梯度并自动的调整参数,学习这些三维数据的分布特征,训练出一个能够合成三维时间序列的timegan网络。使用训练后的timegan网络合成遵循训练数据整体分布的三维时间序列,将合成的三维时间序列转换回与窃电用户样本相同的形式,作为窃电用户样本合并到预处理后的不平衡窃电数据集,得到平衡窃电数据集。
[0026]
在一个实施例中,使用原始不平衡窃电数据集包含窃电用户样本和正常用户样本,样本是一维时间序列形式,以日为单位记录正常用户和窃电用户的用电量数据,时间长度为1035天,存在异常值和缺失值,且正常用户样本数量远多于窃电用户,不能直接用于建立基于机器学习的窃电检测模型。
[0027]
为了将不平衡窃电数据集处理成可以直接用于窃电检测建模的平衡窃电数据集,本发明的处理过程如下:
[0028]
首先,对原始不平衡窃电数据集进行预处理,预处理包括剔除异常值、剔除缺失值过多样本、填充缺失值。具体如下:
[0029]
(1)剔除异常值的公式如下:
[0030][0031]
对于每个样本,qu为上四分位数,表示该条样本的日用电量数据有四分之一比它大;q
l
为下四分位数,表示该条样本的日用电量数据有四分之一比它小;iqr为四分位数间距,即q
u-q
l
;xi为一维日用电量数据样本的异常值,即大于qu+1.5iqr和小于q
l-1.5iqr的值;为替换值。此方法以四分位数和四分位距为基础,多达25%的数据可以变得任意远而不会很大的扰动四分位数,所以异常值不能对这个标准施加影响,具有一定的鲁棒性。
[0032]
(2)缺失值过多的样本,由于缺失严重,丢失了大量能够反映是否窃电的特征,难以作为有效样本进行窃电检测建模,直接进行删除。在本实施例中,将阈值设置为20%,即删除缺失值超过20%的样本。
[0033]
(3)样本中的缺失值,使用基于类别的knn填充方法,根据是否窃电将样本分为正常用户样本和窃电用户样本,分别针对正常用户样本和窃电用户样本进行填充。在本实施例中,基于欧氏距离寻找待填充样本最近的10个邻居,使用这10个邻居的平均值对缺失值进行填充。
[0034]
针对预处理后的不平衡窃电数据集中的窃电样本,使用k-means聚类算法进行聚类,根据聚类结果,选取各个聚类中心附近具有明显的分布特征(即离聚类中心最近的)的样本。在本实施例中,选择了30个离聚类中心最近的样本。
[0035]
将筛选出的一维窃电用户样本转化为三维时间序列形式的过程示意如图二所示。将选出的30个窃电用户一维样本按列排列,组合成二维表格1035x30形式,即1035行,30列。使用采样数据点的方法创建第三个维度,取一个覆盖所有列的滑动窗口,本实施例中滑动窗口为28x30,即28行,30列。将滑动窗口沿着行的方向运行,每移动一次可获得一个2维矩阵,每个矩阵的大小与滑动窗口相同。通过滑动窗口的移位采样,将一维窃电样本转化为三维时间序列形式,所获得三维时间序列为1007x(28x30),即1007张28x30的数据表。
[0036]
使用得到的三维时间序列形式数据训练timegan网络。对于训练后的timegan网络所合成的三维时间序列,使用降维分析方法pca与t-sne进行可视化以评估合成效果。若合成数据和三维时间序列形式窃电样本遵循类似的分布,则认为合成是有效的,转化成一维形式作为窃电用户样本,添加到预处理后的不平衡窃电数据集中扩充窃电样本的数量,否则调整timegan网络的超参数,重新训练timegan网络。
[0037]
最后,在窃电样本数量扩充到和正常用电样本数量接近时,得到平衡窃电数据集。经过以上过程,原始不平衡窃电数据集被处理成了可以直接用于窃电检测建模的平衡窃电数据集。
[0038]
本发明针对基于机器学习的窃电检测建模过程中,原始窃电数据集存在数据类不平衡问题,提出了一种基于timegan网络合成窃电样本的数据集平衡方法。其特点在于使用timegan网络自动的学习窃电样本的分布特征,合成遵循真实窃电样本分布规律的新样本,扩充不平衡窃电数据集中的窃电样本数量,以达到平衡数据类的目的。经过本发明的处理过程,可以将存在异常值与缺失值的原始不平衡窃电数据集处理为能够直接用于建立窃电检测模型的平衡数据集,对于建立无偏的基于机器学习的窃电检测模型具有重要意义。
[0039]
在一个实施例中,还提供了一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的数据集平衡方法。该计算机可读存储介质可以包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0040]
在一个实施例中,一种数据集平衡系统,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述的数据集平衡方法。
[0041]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0042]
以上所述,仅为本发明在实施例上的具体实施方式,但本发明的保护范围并不局限于此,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范
围时,均属于本发明的保护范围。

技术特征:
1.一种基于timegan网络合成窃电样本的数据集平衡方法,其特征在于,具体步骤如下:对不平衡窃电数据集进行预处理,所述不平衡窃电数据集包含一维时间序列形式窃电用户样本和正常用户样本;从预处理后的窃电用户样本中筛选出若干样本,并转化为三维时间序列形式;使用上述三维时间序列形式的样本,训练出一个能够合成三维时间序列的timegan网络;使用训练后的timegan网络合成遵循预处理后的窃电用户样本整体分布的三维时间序列,将合成的三维时间序列转换成与窃电用户样本相同的形式,得到合成样本;将合成样本并入预处理后的不平衡窃电数据集,得到平衡窃电数据集。2.根据权利要求1所述的基于timegan网络合成窃电样本的数据集平衡方法,其特征在于,所述预处理包括剔除异常值、剔除缺失值超出阈值的样本、填充缺失值。3.根据权利要求2所述的基于timegan网络合成窃电样本的数据集平衡方法,其特征在于,剔除异常值的公式如下:对于第i条样本,q
u
为上四分位数,表示该条样本的日用电量数据有四分之一比它大;q
l
为下四分位数,表示该条样本的日用电量数据有四分之一比它小;iqr为四分位数间距,即iqr=q
u-q
l
;x
i
为该条样本中大于q
u
+1.5iqr和小于q
l-1.5iqr的值;为替换值。4.根据权利要求2所述的基于timegan网络合成窃电样本的数据集平衡方法,其特征在于,对于样本中的缺失值,使用基于类别的knn填充方法,根据是否窃电将样本分为正常用户样本和窃电用户样本,分别针对正常用户样本和窃电用户样本进行填充。5.根据权利要求1所述的基于timegan网络合成窃电样本的数据集平衡方法,其特征在于,从预处理后的窃电用户样本中筛选出若干样本,具体为:对预处理后的不平衡窃电数据集中的窃电样本,使用k-means聚类算法进行聚类,根据聚类结果,选取距离各个聚类中心最近的若干样本。6.根据权利要求1所述的基于timegan网络合成窃电样本的数据集平衡方法,其特征在于,将筛选出的样本转化为三维时间序列形式的方式如下:将所有筛选出的一维样本按列排列,组合成二维表格形式,使用采样数据点的方法创建第三个维度,取一个覆盖所有列的滑动窗口,沿着行的方向运行,每移动一次可获得一个2维矩阵,每个矩阵的大小与滑动窗口相同,通过滑动窗口的移位采样,将一维窃电样本转化为三维时间序列形式。7.根据权利要求1所述的基于timegan网络合成窃电样本的数据集平衡方法,其特征在于,使用降维分析方法pca与t-sne进行可视化以评估timegan网络的合成效果:若合成数据和三维时间序列形式的窃电样本遵循相同的分布,则认为合成是有效的,转化成一维形式作为窃电用户样本,添加到预处理后的不平衡窃电数据集中扩充窃电样本的数量,否则调整timegan网络的超参数,重新训练timegan网络。8.基于机器学习的窃电检测方法,其特征在于,基于如权利要求1至7所述数据集平衡
方法构建的训练集进行机器学习,建立窃电检测模型,完成窃电检测。9.一种计算机可读存储介质,其中,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的数据集平衡方法。10.一种数据集平衡系统,包括:存储器和处理器;所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一所述的数据集平衡方法。

技术总结
本发明提出了一种基于TimeGAN网络合成窃电样本的数据集平衡方法,从预处理后的不平衡窃电数据集中筛选部分窃电样本,使用特定方式转化为三维时间序列形式,使用这些三维数据训练出一个能够合成同样形式数据的TimeGAN网络。使用训练后的TimeGAN网络合成遵循训练数据整体分布的三维时间序列,将合成的三维时间序列转换回与窃电样本相同的形式,合并到预处理后的不平衡窃电数据集,扩充窃电样本的数量,得到平衡窃电数据集。相较于现有技术,本发明的方法中使用TimeGAN网络合成的窃电样本,遵循真实窃电样本的整体空间分布,而不是与真实窃电样本数值上贴近,这样生成的数据不易导致窃电检测模型过拟合与低泛化性。致窃电检测模型过拟合与低泛化性。致窃电检测模型过拟合与低泛化性。


技术研发人员:江兵 孙赵盟 杨阳 仲美秋 王子博 巢一帆
受保护的技术使用者:南京邮电大学
技术研发日:2022.07.12
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-5430.html

最新回复(0)