1.本发明涉及大数据技术领域,特别是涉及一种小微企业应对突发事件的免疫能力预测方法。
背景技术:2.大多时候,突发事件会对小微企业的生存产生了重大的影响,具体影响范围可涉及到:生产资料、物流、资金链、投资、贸易等方面,具体表现为小微企业的经营状态出现困难,其客户需求和原料供应都受到了巨大冲击,将直接导致了中小企业现金流紧张和营业收入下降,尤其是对旅游、交通运输、餐饮、酒店等行业冲击最大。突发事件的冲击性直接暴露了小微企业风险防控的脆弱性,导致其收入出现断崖式下滑,部分小微企业收入下降幅度大约在10%-20%之间,甚至营业收入下降幅度在20%以上。
3.此外,小微企业在突发事件下的用电波动也很大。通常会造成用电量环比下降,除了小微企业在疫情事件下的用电波动比较明显之外,小微企业在自然类突发事件下的用电波动也很明显。以自然类突发事件为例,自然灾害突发事件中,在暴雨事件红、橙、黄、蓝四个等级的影响下,在统计数据中,小微企业总体用电呈现下降情况,即在暴雨事件下,大部分小微企业用电呈现下降趋势。其他突发事件影响下,小微企业总体用电出现小幅上升或下降的情况。因此自然灾害事件对小微企业的经营影响比较大。
4.综上,突发事件会对小微企业的生存产生了严重的影响,同时小微企业的用电量波动也非常明显。基于此,可以得出在突发事件下,小微企业的用电情况和生存状况存在某种相关性关系。因此,从电力视角下去探索小微企业在突发事件下的生存能力成为发掘潜在的小微企业成为理想的选择之一。
5.目前,有学者围绕用电量主题进行了大量的研究,但大多都是聚焦在用电负荷影响因素和用电负荷预测的研究上。
6.为得到表现优异的短期电力负荷模型,一种结合了领域知识和机器学习思想的tgdlf模型被提出,该模型充分考虑了先验信息、各种驱动力、日期信息和历史负荷数据等的影响。利用1362天的数据对tgdlf模型进行测试验证,结果表明tgdlf模型的预测结果与真实值相近。
7.由于hemss对用电负荷可靠性要求比较高,一个基于分量回归的模型被提出,其结果比最小二乘法模型表现要优异。为了解决居民楼用电数据少的问题,一个仅用公开鸟瞰图及街景就能预测居民楼耗电的创新模型被提出,实验证明这个模型比传统模型的准确度提高了大约68%。
8.准确预测居民用电量对制定能源规划和保障电力系统安全运行具有重要作用,为此一种新的基于在线搜索数据的混合模型被用于住宅用电量预测,其特点在于采用了时差相关分析、协整检验和granger因果检验来研究在线搜索数据与居民用电量之间的关系,实验结果表明,这种混合模型的预测精度改进率均超过 10%。
9.基于元学习的自动化配电系统负荷预测模型可以依据模型预测精度对候选负荷
预测模型进行分级,仿真结果表明,基于元学习的方法在可见与不可见的预测任务中都非常适用。
10.考虑到用电增长对数据中心用电需求预测模型的重要性,系统动态模型的预测结果指出,用电增长并没有完全被数据中心技术创新的效率收益所补偿。
11.除此之外,也有少量文献从用电量角度对经营区域进行了研究。结合多种预测方法,建立月度预测模板,利用用电量能够实现对经营区域和全国用电量的准确预测。
12.综上所述,虽然有很多学者用电量进行了深入的研究,但基本都是集中在对用电负荷预测方面。目前,从用电量角度分析小微企业生存状况的报道十分罕见。基于上述分析,在突发事件下,小微企业的用电情况和生存状况存在某种相关性关系,因此,有必要提供一种基于用电量角度分析情况下的小微企业应对突发事件的免疫能力预测方法,提供适合预测小微企业免疫力的最优模型。
技术实现要素:13.基于以上问题,本发明提供了一种小微企业应对突发事件的免疫能力预测方法,从电力视角对小微企业应对突发事件的免疫能力进行深入研究,通过提取疫情和自然灾害事件下多家小微企业的相关指标,搭建小微企业应对突发事件的免疫能力模型,并结合用电量数据构造免疫力数据集,最终通过比对传统机器学习和深度神经网络算法模型的性能,并寻找适合预测小微企业免疫力的最优模型。
14.为实现上述目的,本发明提供如下技术方案:
15.一种小微企业应对突发事件的免疫能力预测方法,包括数据集制作及免疫力等级预测两部分,具体包括以下步骤:
16.s1、特征提取:选取企业指标,经筛选后选取高关联性指标;
17.s2、数据标注:计算免疫力等级,包括疫情免疫力等级及自然灾害免疫力等级,并分别构建疫情免疫力数据集和自然灾害免疫力数据集;
18.s3、构建免疫力等级模型,结合所述疫情免疫力数据集和所述自然灾害免疫力数据集进行模型训练。
19.优选地,在s1中,选取了n个企业指标,所述企业指标筛选的方法为:
[0020][0021]
其中,γ表示任意两个所述企业指标的皮埃尔相关系数,
[0022]
[xi,yi]表示n个企业指标所构成的企业指标矩阵,
[0023]
和表示n个企业指标的平均值。
[0024]
优选地,所述企业指标至少包括:日冻结电量、行业门类、iso、企业性质、合法合规表现、股东数量、股东成分、专利及知识产权、业务分布、成立年限、注册资金、实缴资金和人员数量;
[0025]
所述高关联性指标包括:企业性质、股东成分、行业门类、业务分布、成立时间和注
册资金。
[0026]
优选地,在s2中,所述疫情免疫力等级划分的具体步骤包括:
[0027]
s2.1、确定企业在第t0年份第m月的月用电量环比阈值
[0028]
s2.2、计算企业在在第t0年份第m月的实际用电量与第m-1月的实际用电量之间的实际环比差值
[0029]
s2.3、判断该企业的疫情免疫力等级:若shm《[hm],则该企业免疫力等级高;若shm》[hm],则该企业免疫力等级低。
[0030]
优选地,所述月用电量环比阈值的计算方法为:
[0031][0032]
其中h
m,t
表示在第t年份第m月的月用电量环比差值,
[0033]
δt表示统计的总年数;
[0034]
所述实际环比差值的计算方法为:
[0035][0036]
其中,表示在第t0年份第m月的实际用电量,
[0037]
表示在第t0年份第m-1月的实际用电量。
[0038]
优选地,在s2中,构建疫情免疫力数据集的方法为:
[0039]
设定第t0年份第m月的用电量区间,根据用电量区间筛选用电量合理的企业并将该企业第t0年份第m月和第m-1月的用电量输入至所述免疫力数据集。
[0040]
优选地,在s2中,自然灾害免疫力等级划分的方法为:
[0041]
s2.4、确定自然灾害发生的时间,选取企业在该自然灾害发生前10天的日冻结电量,确定正常波动范围、最大波动值和最小波动值;
[0042]
s2.5、判断该企业的自然灾害免疫力等级:
[0043]
企业用电量波动超过最大波动值,则自然灾害免疫力等级高;
[0044]
企业用电量波动位于正常波动范围内,则自然灾害免疫力等级低;
[0045]
企业用电量波动低于最小波动值,则自然灾害免疫力等级低;
[0046]
优选地,在s2中,构建自然灾害免疫力数据集的方法为:
[0047]
获取突发事件前10天的用电量数据,并筛选出前7天的日冻结电量在日冻结电量目标区间内的小微企业,然后将后3天用电量的缺失值或异常数据采用均值填充。
[0048]
优选地,所述免疫力等级模型为:
[0049][0050]
其中,j(
·
)为目标函数,θ为模型参数,x为高关联性指标矩阵,y为免疫力等级矩阵。
[0051]
优选地,所述模型训练的算法为:svm、random forest、decision tree、 doubigru-a、dbn和cnn中的一种。
[0052]
与现有技术相比,本发明有以下优势:
[0053]
本发明提出了一种小微企业应对突发事件的免疫能力预测方法,提出从电力视角下探索小微企业应对突发事件的免疫能力的思想,并对如何构建小微企业免疫力模型进行了详细阐述;利用数据完整性和异常值校验得出高关联性指标,构造了小微企业电力免疫力数据集,并通过数据分析划分出小微企业免疫力等级;基于小微企业电力免疫力数据集,使用多种传统机器学习与深度学习算法,证明了从电力视角下预测小微企业针对突发事件免疫能力的可行性,并通过实验得出了适合弱相关数据的免疫力预测模型。
附图说明
[0054]
附图1是本发明一种小微企业应对突发事件的免疫能力预测方法的流程图。
具体实施方式
[0055]
为使本发明实施例的目的和技术方案更加清楚,下面将结合本发明实施例,对本发明的技术方案进行清楚、完整地描述。
[0056]
本发明提供了一种小微企业应对突发事件的免疫能力预测方法,如图1所示,包括以下步骤:
[0057]
包括数据集制作及免疫力等级预测两部分,具体包括以下步骤:
[0058]
s1、特征提取:选取企业指标,经筛选后选取高关联性指标;
[0059]
所述企业指标至少包括:日冻结电量、行业门类、iso、企业性质、合法合规表现、股东数量、股东成分、专利及知识产权、业务分布、成立年限、注册资金、实缴资金和人员数量;
[0060]
选取了n个企业指标,所述企业指标筛选的方法为:
[0061][0062]
其中,γ表示任意两个所述企业指标的皮埃尔相关系数,
[0063]
[xi,yi]表示n个企业指标所构成的企业指标矩阵,和表示n个企业指标的平均值。
[0064]
所述高关联性指标包括:企业性质、股东成分、行业门类、业务分布、成立时间和注册资金。
[0065]
s2、数据标注:计算免疫力等级,包括疫情免疫力等级及自然灾害免疫力等级,并分别构建疫情免疫力数据集和自然灾害免疫力数据集;
[0066]
所述疫情免疫力等级划分的具体步骤包括:
[0067]
s2.1、确定企业在第t0年份第m月的月用电量环比阈值所述月用电量环比阈值的计算方法为:
[0068][0069]
其中h
m,t
表示在第t年份第m月的月用电量环比差值,
[0070]
δt表示统计的总年数;
[0071]
s2.2、计算企业在在第t0年份第m月的实际用电量与第m-1月的实际用电量之间的实际环比差值
[0072]
所述实际环比差值的计算方法为:
[0073][0074]
其中,表示在第t0年份第m月的实际用电量,
[0075]
表示在第t0年份第m-1月的实际用电量。
[0076]
s2.3、判断该企业的疫情免疫力等级:若shm《[hm],则该企业免疫力等级高;若shm》[hm],则该企业免疫力等级低。
[0077]
设定第t0年份第m月的用电量区间,根据用电量区间筛选用电量合理的企业并将该企业第t0年份第m月和第m-1月的用电量输入至所述免疫力数据集。
[0078]
自然灾害免疫力等级划分的方法为:
[0079]
s2.4、确定自然灾害发生的时间,选取企业在该自然灾害发生前10天的日冻结电量,确定正常波动范围、最大波动值和最小波动值;
[0080]
s2.5、判断该企业的自然灾害免疫力等级:
[0081]
企业用电量波动超过最大波动值,则自然灾害免疫力等级高;
[0082]
企业用电量波动位于正常波动范围内,则自然灾害免疫力等级低;
[0083]
企业用电量波动低于最小波动值,则自然灾害免疫力等级低;
[0084]
优选地,在s2中,构建自然灾害免疫力数据集的方法为:
[0085]
获取突发事件前10天的用电量数据,并筛选出前7天的日冻结电量在日冻结电量目标区间内的小微企业,然后将后3天用电量的缺失值或异常数据采用均值填充。
[0086]
s3、构建免疫力等级模型,结合所述疫情免疫力数据集和所述自然灾害免疫力数据集进行模型训练。
[0087]
所述免疫力等级模型为:
[0088][0089]
其中,j(
·
)为目标函数,θ为模型参数,x为高关联性指标矩阵,y为免疫力等级矩阵。
[0090]
所述模型训练的算法为:svm、random forest、decision tree、doubigru-a、 dbn和cnn中的一种。
[0091]
本发明提供一具体实施例如下:
[0092]
本发明以部分小微企业2016-2020年5月31日的用电数据作为分析对象,提取了日冻结电量、行业门类、iso、企业性质、合法合规表现、股东数量、股东成分、专利及知识产权、业务分布、成立年限、注册资金、实缴资金和人员数量共13个指标。根据下述等式(1)计算各指标与用电量之间的皮尔逊相关系数。
[0093][0094]
式中:γ代表皮尔逊相关系数,[xi,yi]代表日冻结电量、行业门类、iso 等13个企业指标的矩阵,和代表13个企业指标的平均值,n=13.
[0095]
可以得到企业性质、股东成分、行业门类、专利及知识产权、业务分布、成立时间、注册资金、实缴资金、人员规模指标与用电量指标的相关性较高,相关系数属于区间[-0.0948,0.0995]范围内,其对应的绝对值接近于1。故,选取关联性相对较强的这9个指标作为小微企业免疫力模型的核心指标。
[0096]
对这9个指标的完整性进行分析,分析发现专利及知识产权、实缴资金、人员规模指标为0或空值的数据占比均超过50%,参考意义及价值不大。因此,剔除了专利及知识产权、实缴资金、人员规模这3个指标。最后,筛选出企业性质、股东成分、行业门类、业务分布、成立时间、注册资金这6个企业指标。
[0097]
在数据标注过程中,重点对小微企业在突发事件下的免疫力等级进行划分,分别生成疫情和自然灾害事件电力免疫力数据集,下面具体阐述疫情免疫力等级划分和自然灾害免疫力等级划分方法。
[0098]
首先,对小微企业在疫情下的免疫力等级进行划分。如下述免疫力阈值公式所示,将2016年至2020年二月用电环比的平均值作为划分疫情事件下,各个企业免疫力高低的阈值,计算结果约等于-0.2,其中计算方式如下。
[0099]
免疫力阈值=(2016年2月用电量环比值+2017年2月用电量环比值+2018 年2月用电量环比值+2019年2月用电量环比值+2020年2月用电量环比值)/5
[0100]
其中,-0.2的物理意义在于:疫情事件下,企业的当天用电量比前一天的用电量降低了0.2。然后,根据公式计算2020年2月份疫情下,各个企业实际用电量与1月份实际用电量的环比差值。
[0101]
实际差值=(2月份实际值-1月份实际值)/1月份实际值(3)
[0102]
根据-0.2的物理意义,将小微企业用电量的波动高于-0.2的企业,定义为免疫力等级高;将小微企业用电量的波动低于-0.2的企业,定义为免疫力等级低。
[0103]
对小微企业的所有数据进行处理,生成数据集。由于疫情影响最严重的时期是2020年的1月和2月,因此,将2020年1月和2月每个企业的月度用电量也作为模型的输入特征。
[0104]
在进行模型训练的时候,剔除了2020年1月和2月份用电量数据为0和空值的企业。
[0105]
根据小微企业容量标准,可以根据下述月度最大用电量公式计算出每个企业的月度最大用电量115200千瓦时,设定每个企业的月度最小用电量为100千瓦时。
[0106]
月度最大用电量=160千瓦*24*30。
[0107]
由于2020年2月份是所有企业受疫情影响最严重的时期,因此先根据用电量区间[100,115200]筛选出2020年1月份用电合理的企业。在进行模型训练的时候,将用电合理的企业的2020年1月和2月份用电量数据投入模型中。
[0108]
然后对小微企业在自然灾害下的免疫力等级进行划分。
[0109]
选取每个企业在自然灾害发生前10天的日冻结电量进行计算,以发生的自然灾害事件为例,根据公式(4)计算所有小微企业当天与前一天环比均值,将其确定为正常波动范围,计算结果为[-0.02,0.02]。
[0110]
用电波动范围=|(企业今日冻结电量-昨日冻结电量)/昨日冻结电量|=0.02(4)
[0111]
这个波动范围的物理意义在于:发生自然灾害企业的当天用电量比前一天的用电量降低的区间为[-0.02,0.02]。因此,在自然突发事件下,小微企业用电量的波动高于0.02的,定义为免疫力等级高;小微企业用电量的波动处于区间 [-0.02,0.02]内的,定义为免疫力等级中;小微企业用电量的低于-0.02的,定义为免疫力等级为低。
[0112]
对小微企业的所有数据进行处理,生成数据集。在原始数据基础上剔除0 或空值占比超过50%的特征。同时,获取突发事件前10天的用电量数据,并筛选出前7天的日冻结电量在区间[4,3840]kwh内的小微企业,然后将后3天用电量的缺失值或异常数据采用均值填充。最后,选取不同组合特征的数据集进行实验。
[0113]
在免疫力等级预测阶段,选取了svm、random forest和decision tree三种传统机器学习模型和doubigru-a、dbn和cnn三种深度学习模型,喂入疫情和自然灾害突发事件下的数据进行免疫力模型训练,机器学习模型的训练调优的目标函数如等式(5)所示:
[0114]
f(θ)=min
θ
j(θ,x,y)
ꢀꢀ
(5)
[0115]
其中,j(
·
)为目标函数,θ为模型参数,x为高关联性指标矩阵,y为免疫力等级矩阵。
[0116]
其中x为高关联性指标矩阵,具体包括以下指标特征对应电力免疫力数据集中的数值:
[0117]
企业性质:1:个人独资,2:多人合资,3:股份公司,4:国有控股,5:外企控股;
[0118]
股东成分:0:分公司,1:企业,2:外资,3:自然人;
[0119]
行业门类:1:采矿业,2:电力、热力、燃气及水生产和供应业,3:房地产业,4:建筑业,5:交通运输、仓储和邮政业,6:教育,7:金融业,8:居民服务、修理和其他服务业,9:科学研究和技术服务业,10:农、林、牧、渔业,11:批发和零售业,12:水利、环境和公共设施管理业,13:卫生和社会工作,14:文化、体育和娱乐业,15:信息传输、软件和信息技术服务业,16:制造业,17:住宿和餐饮业,18:租赁和商务服务业;
[0120]
业务分布;
[0121]
成立时间:0:一年以内,1:1-5年,2:5-10年,3:10-20年,4:20-30 年,30-40年:5,6:40-50年,7:50年以上;
[0122]
注册资金:0:0万,1:1-20万,2:21-50万,3:51-100万,4:101-300 万,5:301-500万,6:501-1000万,7:1001万及以上;
[0123]
通过引入机器学习算法,喂入疫情和自然灾害突发事件下的小微企业数据集,分别训练出各项指标表现优异的疫情和自然灾害事件下的免疫力预测模型。
[0124]
本次以2775家小微企业作为分析对象,进行训练。
[0125]
实验中选择了doubigru-a、svm(支持向量机模型)、random forest(随机森林模型)、decision tree(决策树模型)、dbn(深度信念网络模型)和 cnn(神经网络模型)总共6种算法,通过喂入疫情下小微企业相关的数据,寻找各项指标表现优异的疫情事件下的免
疫力预测模型。具体如表1所示。
[0126]
表1小微企业在疫情事件下的表现
[0127][0128][0129]
其中,涉及到机器学习的部分评价指标:
[0130]
fp:预测是错误的正样本;
[0131]
fn;预测是错误的负样本;
[0132]
tp;预测是正确的正样本;
[0133]
tn;预测是正确的负样本
[0134]
召回率(recall);正样本中预测正确的概率;
[0135]
准确率(accuracy):预测正确的概率;
[0136]
f1 score:将准确率和召回率这两个分值按权重合并为一个分值。
[0137]
如表1所示,当选取行业门类、企业性质、股东成分、业务分布、成立时间、注册资金和2020年1月和2月份月度用电量数据作为模型特征输入时,random forest表现是最优异的,它的准确率、recall和f1的值是最高的,分别高达0.9、0.82和0.9。当选取股东成分、业务分布、成立时间、2020年1月和2月份月度用电量数据作为模型特征输入时,decision tree的表现排名第二,它的准确率、recall和f1的值分别高达0.87、0.9和0.81。当选取企业性质、股东成分、业务分布和2020年1月和2月份月度用电量数据作为模型特征输入时, decision tree和random forest表现并列排名第三,它们的accuracy、recall和f1 值分别为0.87,0.8和0.8。从排名的顺序来看,表现最优异的前三名模型都是传统的机器学习模型。
[0138]
doubigru-a、dbn和cnn三种深度学习模型表现并不是令人很满意。当选取业务分布、成立时间、注册资金、2020年1月和2月份月度用电量数据作为模型特征输入时,在深度学习模型中,dbn的表现是最好的,它的accuracy、 recall和f1值分别为0.8,0.625和0.76。当选取业务分布、成立时间、注册资金、 2020年1月和2月份月度用电量数据作为模型特征输入时,在深度学习模型中, doubigru-a的表现排名第二,它的accuracy、recall和f1值分别为0.8,0.5和 0.625。当选取行业门类、企业性质、股东成分、业务分布、成立时间、注册资金和2020年1月和2月份月度用电量数据作为模型特征输入时,在深度学习模型中,doubigru-a和dbn的表现并列排名第三,它们的accuracy、recall和 f1值分别为0.77,0.7和0.66。
[0139]
从指标accuracy、recall和f1的值来看,在深度学习模型中排名第一的模型比在所有模型中排名第一的模型分别降低了0.1、0.195和0.14;在深度学习模型中排名第二的模型比在所有模型中排名第二的模型分别降低了0.07、0.4和0.185;在深度学习模型中排名第三的模型比在所有模型中排名第三的模型分别降低了 0.1、0.1和0.14。因此,在疫情事件下,传统机器学习模型还是要比深度学习模型相比,传统机器学习模型训练效果较好。
[0140]
自然突发事件下的免疫力预测模型训练,选取不同组合特征的数据集对同样的6种机器学习模型进行测试。具体训练方式如表2所示,
[0141]
表2小微企业在自然突发事件下的表现
[0142]
[0143]
[0144][0145]
如表2所示,当选取行业门类、企业性质、股东成分、业务分布、成立时间、注册资金和突发事件前10天的用电量作为模型特征输入时,random forest 的综合表现最好。它的准确率是0.73,在class 1上的recall值为0.83,在class2上的f1 score为0.78。当选取成立时间、注册资金、和突发事件前10天的用电量作为模型特征输入时,random forest的综合表现排名第二,它的准确率和 f1 score都是一样的,但在class 1上的recall值比略微低了一点,0.82。当选取股东成分、业务分布、成立时间、注册资金和突发事件前10天的用电量作为模型特征输入时,random forest的综合表现排名第三,它的准确率为0.72,在 class 1上的recall值为0.83,在class 2上的f1 score为0.75。从排名的顺序来看,在不同的输入特征中,表现最优异的前三名模型都是传统的机器学习模型 random forest。
[0146]
doubigru-a、dbn和cnn三种深度学习模型表现较差。当选取股东成分、业务分布、成立时间、注册资金和突发事件前10天的用电量作为模型特征输入时,在深度学习模型中,cnn的表现是最好的,它的accuracy为0.67,在class 2 上的recall值为0.71,在class 2上的f1 score为0.72。当选取行业门类、企业性质、股东成分、业务分布、成立时间、注册资金和突发事件前10天的用电量作为模型特征输入时,cnn的综合表现排名第二,它的accuracy为0.66,在class 2 上的recall值为0.81,在class 2上的f1 score为0.77。当选取股东成分、业务分布、成立时间、注册资金和突发事件前10天的用电量作为模型特征输入时,dbn 的综合表现排名第三,它的accuracy为0.65,在class 2上的recall值为0.67,在 class 2上的f1 score为0.71。
[0147]
从指标accuracy、recall和f1的值来看,在深度学习模型中排名第一的模型比在所有模型中排名第一的模型分别降低了0.06、0.12和0.06;在深度学习模型中排名第二的模型比在所有模型中排名第二的模型分别降低了0.07、0.02和0.05;在深度学习模型中排名第三的模型比在所有模型中排名第三的模型分别降低了 0.07、0.16和0.04。因此,在自然灾害事件下,传统机器学习模型比深度学习模型预测效果好。
[0148]
针对上述试验,在疫情突发事件下,decision tree的泛化能力和稳定性最出色,四次实验中的准确率、recall和f1值的平均值分别达到了0.85、0.78和0.77。在自然灾害突发事件下,random forest表现最好,准确率为0.73,class 1的最大recall值为0.83。因此,无论是在在疫情还是自然灾害突发事件下,尤其是在处理大量弱相关数据时,本文表明小微企业免疫能力模型都优先选择传统机器学习算法模型。
[0149]
以上仅为本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些均属于本发明的保护范围。
技术特征:1.一种小微企业应对突发事件的免疫能力预测方法,其特征在于:包括数据集制作及免疫力等级预测两部分,具体包括以下步骤:s1、特征提取:选取企业指标,经筛选后选取高关联性指标;s2、数据标注:计算免疫力等级,包括疫情免疫力等级及自然灾害免疫力等级,并分别构建疫情免疫力数据集和自然灾害免疫力数据集;s3、构建免疫力等级模型,结合所述疫情免疫力数据集和所述自然灾害免疫力数据集进行模型训练。2.根据权利要求1中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:在s1中,选取了n个企业指标,所述企业指标筛选的方法为:其中,γ表示任意两个所述企业指标的皮埃尔相关系数,[x
i
,y
i
]表示n个企业指标所构成的企业指标矩阵,和表示n个企业指标的平均值。3.根据权利要求2中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:所述企业指标至少包括:日冻结电量、行业门类、iso、企业性质、合法合规表现、股东数量、股东成分、专利及知识产权、业务分布、成立年限、注册资金、实缴资金和人员数量;所述高关联性指标包括:企业性质、股东成分、行业门类、业务分布、成立时间和注册资金。4.根据权利要求1中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:在s2中,所述疫情免疫力等级划分的具体步骤包括:s2.1、确定企业在第t0年份第m月的月用电量环比阈值s2.2、计算企业在在第t0年份第m月的实际用电量与第m-1月的实际用电量之间的实际环比差值s2.3、判断该企业的疫情免疫力等级:若sh
m
<[h
m
],则该企业免疫力等级高;若sh
m
>[h
m
],则该企业免疫力等级低。5.根据权利要求4中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:所述月用电量环比阈值的计算方法为:其中h
m,t
表示在第t年份第m月的月用电量环比差值,
δt表示统计的总年数;所述实际环比差值的计算方法为:其中,表示在第t0年份第m月的实际用电量,表示在第t0年份第m-1月的实际用电量。6.根据权利要求4中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:在s2中,构建疫情免疫力数据集的方法为:设定第t0年份第m月的用电量区间,根据用电量区间筛选用电量合理的企业并将该企业第t0年份第m月和第m-1月的用电量输入至所述免疫力数据集。7.根据权利要求1中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:在s2中,自然灾害免疫力等级划分的方法为:s2.4、确定自然灾害发生的时间,选取企业在该自然灾害发生前10天的日冻结电量,确定正常波动范围、最大波动值和最小波动值;s2.5、判断该企业的自然灾害免疫力等级:企业用电量波动超过最大波动值,则自然灾害免疫力等级高;企业用电量波动位于正常波动范围内,则自然灾害免疫力等级低;企业用电量波动低于最小波动值,则自然灾害免疫力等级低。8.根据权利要求7中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:在s2中,构建自然灾害免疫力数据集的方法为:获取突发事件前10天的用电量数据,并筛选出前7天的日冻结电量在日冻结电量目标区间内的小微企业,然后将后3天用电量的缺失值或异常数据采用均值填充。9.根据权利要求1中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:所述免疫力等级模型为:其中,j(
·
)为目标函数,θ为模型参数,x为高关联性指标矩阵,y为免疫力等级矩阵。10.根据权利要求1中所述的一种小微企业应对突发事件的免疫能力预测方法,其特征在于:所述模型训练的算法为:svm、random forest、decision tree、doubigru-a、dbn和cnn中的一种。
技术总结本发明提供了一种小微企业应对突发事件的免疫能力预测方法,涉及大数据技术领域,包括数据集制作及免疫力等级预测两部分,具体包括以下步骤:特征提取:选取企业指标,经筛选后选取高关联性指标;数据标注:计算免疫力等级,包括疫情免疫力等级及自然灾害免疫力等级,并分别构建疫情免疫力数据集和自然灾害免疫力数据集;构建免疫力等级模型,结合所述疫情免疫力数据集和所述自然灾害免疫力数据集进行模型训练。本发明提供的免疫能力预测方法使用多种传统机器学习与深度学习算法,证明了从电力视角下预测小微企业针对突发事件免疫能力的可行性,并通过实验得出了适合弱相关数据的免疫力预测模型。免疫力预测模型。免疫力预测模型。
技术研发人员:赵金雄 张驯 马志程 张驰 狄磊 马宏忠
受保护的技术使用者:西北工业大学
技术研发日:2022.06.16
技术公布日:2022/11/1