1.本发明涉及数据处理技术领域,具体而言涉及一种基于数据处理的数据质量评估方法。
背景技术:2.随着信息产业的不断发展,如何对海量的数据进行处理,并完成对数据质量的评估,已经成为一个新的考验。原始数据的多样化,导致很难以统一的格式接入后续的应用模块和数据解析,在数据处理过程中,为了确保数据可靠性,需要对数据进行清洗,从数据中检测并去除错误及不一致的数据部分,从而改善数据可用性,形成结构化数据并同步到数据仓库,基于这些数据进行后续的处理、分析或者应用。
技术实现要素:3.本发明目的的第一方面提出一种基于数据处理的数据质量评估方法,适用于毁伤目标的数据质量估计,包括以下步骤:
4.步骤1、获取毁伤目标-毁伤工具属性数据;
5.步骤2、基于etl工具对毁伤目标-毁伤工具属性数据进行预处理,获得结构化的毁伤目标数据以及毁伤工具数据,加载至数据仓库;
6.步骤3、基于毁伤目标数据以及毁伤工具数据,采用基于量子粒子群优化的逻辑回归评估模型评估毁伤概率,作为第一质量评估结果;
7.步骤4、将第一质量评估结果与基于毁伤目标-毁伤工具属性预定的评估体系进行比对,获得第二评估结果输出,其中所述的评估体系包括不同毁伤概率下毁伤等级。
8.本发明目的的第二方面提出一种基于数据处理的数据质量评估系统,包括:
9.一个或多个处理器;
10.存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括前述的数据质量评估方法的流程。
11.本发明目的的第三方面提出一种存储软件的计算机可读取介质,所述软件包括能通过一个或多个计算机执行的指令,所述指令通过这样的执行使得所述一个或多个计算机执行操作,所述操作包括前述数据质量评估方法的流程。
12.由以上技术方案,本发明提出的基于数据处理的数据质量评估方法以毁伤目标-毁伤工具属性为基础,采用基于量子粒子群优化的逻辑回归评估模型评估毁伤概率,并对其通过与预定的评估体系的毁伤等级进行比对,确定毁伤等级输出,实现对飞行类毁伤目标的毁伤概率和等级估计,为战斗部开发、实际打击毁伤以及飞行类目标的生存设计提供科学数据支撑。
13.同时,本发明提出的估算模型中,融合量子粒子群算法与逻辑回归算法,基于量子粒子群算法的结合帮助逻辑回归算法存在的特征空间过大存在的精确度下降的问题,替代传统的梯度下降算法,帮助提升全局数据处理能力,减少因为稀疏数据以及不规则分布等
问题造成的模型精确度下降问题,提高逻辑回归算法的稀疏数据效果。
14.应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
15.结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
16.附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
17.图1是本发明示例性实施例的基于数据处理的数据质量评估方法的流程示意图。
具体实施方式
18.为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
19.在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
20.结合图1所示实施例的基于数据处理的数据质量评估方法,包括以下过程:步骤1、获取毁伤目标-毁伤工具属性数据;步骤2、基于etl工具对毁伤目标-毁伤工具属性数据进行预处理,获得结构化的毁伤目标数据以及毁伤工具数据,加载至数据仓库;步骤3、基于毁伤目标数据以及毁伤工具数据,采用基于量子粒子群优化的逻辑回归评估模型评估毁伤概率,作为第一质量评估结果;步骤4、将第一质量评估结果与基于毁伤目标-毁伤工具属性预定的评估体系进行比对,获得第二评估结果输出,其中的评估体系包括不同毁伤概率下毁伤等级。
21.由此,通过基于粒子量子群优化的逻辑回归算法qpso获得毁伤目标的各个结构部件的毁伤概率,并通过加权计算获得对毁伤目标的毁伤概率,由此与预定的不同毁伤概率下毁伤等级进行比对,根据毁伤概率落入对应的概率区间内,获得对应的毁伤等级输出。
22.在可选的实施例中,前述的评估体系可依据不同的毁伤目标而确定,对于某一类型战斗机来说,根据对其毁伤概率的分布区间设定不同的毁伤等级,毁伤概率越大,毁伤等级越高。
23.在本发明的实施例中,毁伤目标为飞行类毁伤目标,例如各个型号的战斗机、无人机、干扰机、加油机、运输机等。毁伤工具为飞行类战斗部,尤其是指导弹,例如地对空导弹、空空导弹等。
24.在本发明的实施例中,基于etl工具对毁伤目标-毁伤工具属性数据进行预处理,包括:
25.对飞行类毁伤目标的类型、结构部件、体积、质量、飞行速度进行二值化处理;
26.对毁伤工具的毁伤工具飞行速度、破片飞行速度、破片飞散角、引燃/引爆毁伤模式数据进行二值化处理。
27.etl工具,可采用现有的数据处理工具,对元素数据进行加工和转换。
28.例如,对于不同类型按照预定的标准进行分类和标号,给予特定的类型标识符。结构部件尤其是指舱段、舱段代码、机翼、发动机位、尾翼、驾驶舱、挂弹段等。
29.在本发明的实施例中,基于量子粒子群优化的逻辑回归评估模型包括基于量子粒子群优化的逻辑回归评估算法层以及全连接层,也即底层模型以及输出模块。底层模型,即基于量子粒子群优化的逻辑回归评估算法层,用于评估输出对毁伤目标的各个结构部件的毁伤概率,然后在全连接层进行加权计算获得对毁伤目标的毁伤概率。
30.在本发明的实施例中,在全连接层进行加权计算获得对毁伤目标的毁伤概率,包括:
31.按照以下方式计算毁伤目标的毁伤概率fc:
32.fc=fc1(c1)+fc2(c2)+fc3(c3)
…
+fcn(cn)
33.其中,fcn表示第n个结构部件的毁伤加权系数,cn表示第n个结构部件的毁伤概率;n=1,2,3,
…
,n,n表示飞行类毁伤目标的结构部件总数目,fc1,fc2,fc3,
…
,fcn的取值均在[0,1],并且所有毁伤加权系数的和为1。
[0034]
其中,对于飞行类毁伤目标的结构部件,设定要害部件的毁伤加权系数大于非要害部件的毁伤加权系数。
[0035]
前述的要害部件,可根据不同类型的飞行类毁伤目标而预先设定。
[0036]
作为可选的实施例,前述基于量子粒子群优化的逻辑回归评估算法层采用基于量子粒子群优化改进的多项逻辑回归算法(qpso)估算各个结构部件的毁伤概率,具体包括以下过程:
[0037]
步骤3.1、设定粒子群参数:粒子群大小n,粒子维度d,扩张收缩控制系数α,最大迭代次数max_iter,数值优化牛顿法迭代次数t;
[0038]
步骤3.2、种群初始化:给定数据集x={x1,x2,
…
,xn},其中n为数据集的样本个数,每个样本为飞行类毁伤目标的属性数据,具有多个变量属性;对于任意样本序列k,k=1,2,3,..,n,则有(x
k1
,x
k2
,
…
,x
kd
),表示任意一个样本数据具有d个变量属性;生成种群大小为n,粒子维度为d的粒子种群;
[0039]
步骤3.3、逻辑回归是用线性回归模型的预测结果去逼近真实标记的对数几率,表达为:
[0040][0041]
其中,ω是d
×
1的向量组,b为常数;
[0042]
逻辑回归求解的目标函数设定为任意阶可导的凸函数,为了求解得到ω和b的最优值,将式(1)经过变形得到:
[0043][0044]
则有:
[0045][0046]
令β=(ω;b),并代入(3)式得到:
[0047][0048]
基于则:
[0049][0050]
根据极大似然估计方法来求参数ω和β;
[0051]
数据集取值范围为{(xi,yi)},i∈{1,2,
…
,n},yi∈{0,1},逻辑回归模型最大化对数似然表达式为:
[0052][0053]
将(5)式代入(6)后得到:
[0054][0055]
通过找寻β值,也就是ω和b值,使得对数似然(7)式最大化;
[0056]
此时,ll(β)为关于β的高阶连续可导凸函数,按照经典数值优化迭代算法,则利用牛顿法可求β最优解β
*
使得(7)式中ll(β)值最大化;
[0057]
由此确定最优解β
*
表示为:
[0058]
β
*
=argmaxll(β)
ꢀꢀꢀꢀ
(8)
[0059]
当开始第t+1轮迭代,β如下表示:
[0060][0061]
其中β的一阶二阶偏导数表达式为:
[0062][0063][0064]
尤其,求得最优解β
*
;
[0065]
步骤3.4、结合粒子群参数的更新迭代优化,求解出逻辑回归最优参数,具体包括将粒子群位置代入对数似然公式(7)并计算对数似然值及最优解,通过重复粒子更新操作,直至迭代次数达到最大迭代次数max_iter后停止,并输出最终最大似然值以及对应最优解参数结果,由此确定出基于量子粒子群优化的逻辑回归评估算法层模型。
[0066]
作为可选的示例,在步骤3.4中,将粒子群位置代入对数似然公式(7)并计算对数似然值及最优解,通过重复粒子更新操作,直至迭代次数达到最大迭代次数max_iter后停止,并输出最终最大似然值以及对应最优解参数结果,包括以下过程:
[0067]
粒子位置在一个d维的搜索空间中,粒子量子群算法有n个代表潜在问题解的粒子组成,在t时刻的第i粒子位置为:
[0068]ai
(t)={a
i,1
(t),a
i,2
(t),
…
,α
i,j
(t),
…
,a
i,d
(t)},i∈{1,2,
…
,n},j∈{1,2,
…
,
d}
ꢀꢀ
(12)
[0069]
粒子个体最优位置pbest表示为:
[0070]
pi(t)={p
i,1
(t),p
i,2
(t),
…
,p
i,j
(t),
…
,p
i,d
(t)}
ꢀꢀꢀꢀ
(13)
[0071]
全局最优位置gbest表示为:
[0072]
g(t)={g1(t),g2(t),
…
,gj(t),
…
,gd(t)}
ꢀꢀ
(14)
[0073]
定义所有粒子个体的最优平均位置loc(t)为:
[0074][0075]
根据
[0076]
确认粒子的个体最优位置pbest;
[0077]
其中ll()为式(7)的对数似然值;
[0078]
则全局最优位置gbest转换表示为:
[0079]
gbest=argmaxll(pi(t)),i∈{1,2,..,n}
ꢀꢀꢀ
(17)
[0080]
当粒子群体在全局最优位置gbest的时候,更新全局最优位置值为:
[0081]
g(t)=p
gbest
(t),gbest∈{1,2,
…
,n}
ꢀꢀꢀꢀ
(18)
[0082]
由此,在更新粒子时,得到粒子的个体最优位置pbest以及全局最优位置gbest;然后代入最大对数似然公式(7)更新每个粒子的适应度值,并且每个粒子的个体位置适应度与全局最优位置的适应度作比较,如果出现当前个体最优位置适应度优于全局最优位置适应度,则更新粒子位置,其中根据式(18),粒子群的更新过程如下:
[0083]
个体粒子位置更新如下:
[0084]
p
i,j
(t)=r(t)
×
p
i,j
(t)+(1-r(t))
×
g(t)
ꢀꢀꢀ
(19)
[0085]
其中,r(t)为取值区间在[0,1]的随机数;
[0086]
粒子群位置更新如下:
[0087][0088]
其中,r
i,j
(t)为取值区间在[0,1]的随机数,α为收缩扩张系数,
±
则等概率随机表示为+或-进行计算。
[0089]
根据本发明公开的实施例还提出一种基于数据处理的数据质量评估系统,包括:
[0090]
一个或多个处理器;
[0091]
存储器,存储可被操作的指令,指令在通过一个或多个处理器执行时使得一个或多个处理器执行操作,操作包括前述实施例的数据质量评估方法的流程。
[0092]
根据本发明公开的实施例还提出一种一种存储软件的计算机可读取介质,软件包括能通过一个或多个计算机执行的指令,指令通过这样的执行使得一个或多个计算机执行操作,操作包括前述实施例的数据质量评估方法的流程。
[0093]
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
技术特征:1.一种基于数据处理的数据质量评估方法,其特征在于,包括:步骤1、获取毁伤目标-毁伤工具属性数据;步骤2、基于etl工具对毁伤目标-毁伤工具属性数据进行预处理,获得结构化的毁伤目标数据以及毁伤工具数据,加载至数据仓库;步骤3、基于毁伤目标数据以及毁伤工具数据,采用基于量子粒子群优化的逻辑回归评估模型评估毁伤概率,作为第一质量评估结果;步骤4、将第一质量评估结果与基于毁伤目标-毁伤工具属性预定的评估体系进行比对,获得第二评估结果输出,其中所述的评估体系包括不同毁伤概率下毁伤等级。2.根据权利要求1所述的基于数据处理的数据质量评估方法,其特征在于,所述毁伤目标为飞行类毁伤目标,所述毁伤工具为飞行类战斗部。3.根据权利要求2所述的基于数据处理的数据质量评估方法,其特征在于,所述基于etl工具对毁伤目标-毁伤工具属性数据进行预处理,包括:对飞行类毁伤目标的类型、结构部件、体积、质量、飞行速度进行二值化处理;对毁伤工具的毁伤工具飞行速度、破片飞行速度、破片飞散角、引燃/引爆毁伤模式数据进行二值化处理。4.根据权利要求1所述的基于数据处理的数据质量评估方法,其特征在于,所述基于量子粒子群优化的逻辑回归评估模型包括基于量子粒子群优化的逻辑回归评估算法层以及全连接层,基于量子粒子群优化的逻辑回归评估算法层评估输出对毁伤目标的各个结构部件的毁伤概率,然后在所述全连接层进行加权计算获得对毁伤目标的毁伤概率。5.根据权利要求4所述的基于数据处理的数据质量评估方法,其特征在于,所述在所述全连接层进行加权计算获得对毁伤目标的毁伤概率,包括:按照以下方式计算毁伤目标的毁伤概率fc:fc=fc1(c1)+fc2(c2)+fc3(c3)
…
+fc
n
(c
n
)其中,fc
n
表示第n个结构部件的毁伤加权系数,c
n
表示第n个结构部件的毁伤概率;n=1,2,3,
…
,n,n表示飞行类毁伤目标的结构部件总数目,fc1,fc2,fc3,
…
,fc
n
的取值均在[0,1],并且所有毁伤加权系数的和为1。6.根据权利要求5所述的基于数据处理的数据质量评估方法,其特征在于,对于飞行类毁伤目标的结构部件,设定要害部件的毁伤加权系数大于非要害部件的毁伤加权系数。7.根据权利要求4所述的基于数据处理的数据质量评估方法,其特征在于,所述基于量子粒子群优化的逻辑回归评估算法层基于量子粒子群优化改进的多项逻辑回归算法估算各个结构部件的毁伤概率,具体包括以下过程:步骤3.1、设定粒子群参数:粒子群大小n,粒子维度d,扩张收缩控制系数α,最大迭代次数max_iter,数值优化牛顿法迭代次数t;步骤3.2、种群初始化:给定数据集x={x1,x2,
…
,x
n
},其中n为数据集的样本个数,每个样本为飞行类毁伤目标的属性数据,具有多个变量属性;对于任意样本序列k,k=1,2,3,..,n,则有(x
k1
,x
k2
,
…
,x
kd
),表示任意一个样本数据具有d个变量属性;生成种群大小为n,粒子维度为d的粒子种群;步骤3.3、逻辑回归是用线性回归模型的预测结果去逼近真实标记的对数几率,表达为:
其中,ω是d
×
1的向量组,b为常数;逻辑回归求解的目标函数设定为任意阶可导的凸函数,为了求解得到ω和b的最优值,将式(1)经过变形得到:则有:令β=(ω;b),并代入(3)式得到:基于则:根据极大似然估计方法来求参数ω和β;数据集取值范围为{(x
i
,y
i
)},i∈{1,2,
…
,n},y
i
∈{0,1},逻辑回归模型最大化对数似然表达式为:将(5)式代入(6)后得到:通过找寻β值,也就是ω和b值,使得对数似然(7)式最大化;此时,ll(β)为关于β的高阶连续可导凸函数,按照经典数值优化迭代算法,则利用牛顿法可求β最优解β
*
使得(7)式中ll(β)值最大化;由此确定最优解β
*
表示为:β
*
=argmaxll(β)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(8)当开始第t+1轮迭代,β如下表示:其中β的一阶二阶偏导数表达式为:其中β的一阶二阶偏导数表达式为:尤其,求得最优解β
*
;步骤3.4、结合粒子群参数的更新迭代优化,求解出逻辑回归最优参数,具体包括将粒子群位置代入对数似然公式(7)并计算对数似然值及最优解,通过重复粒子更新操作,直至迭代次数达到最大迭代次数max_iter后停止,并输出最终最大似然值以及对应最优解参数
结果,由此确定出基于量子粒子群优化的逻辑回归评估算法层模型。8.根据权利要求5所述的基于数据处理的数据质量评估方法,其特征在于,所述步骤3.4中,将粒子群位置代入对数似然公式(7)并计算对数似然值及最优解,通过重复粒子更新操作,直至迭代次数达到最大迭代次数max_iter后停止,并输出最终最大似然值以及对应最优解参数结果,包括以下过程:粒子位置在一个d维的搜索空间中,粒子量子群算法有n个代表潜在问题解的粒子组成,在t时刻的第i粒子位置为:a
i
(t)={a
i,1
(t),a
i,2
(t),
…
,a
i,j
(t),
…
,a
i,d
(t)},i∈{1,2,
…
,n},j∈{1,2,
…
,d}
ꢀꢀꢀꢀꢀ
(12)粒子个体最优位置pbest表示为:p
i
(t)={p
i,1
(t),p
i,2
(t),
…
,p
i,j
(t),
…
,p
i,d
(t)}
ꢀꢀꢀꢀ
(13)全局最优位置gbest表示为:g(t)={g1(t),g2(t),
…
,g
j
(t),
…
,g
d
(t)}
ꢀꢀꢀꢀ
(14)定义所有粒子个体的最优平均位置loc(t)为:根据确认粒子的个体最优位置pbest;其中ll()为式(7)的对数似然值;则全局最优位置gbest转换表示为:gbest=argmaxll(p
i
(t)),i∈{1,2,..,n}
ꢀꢀꢀ
(17)当粒子群体在全局最优位置gbest的时候,更新全局最优位置值为:g(t)=p
gbest
(t),gbest∈{1,2,
…
,n}
ꢀꢀꢀꢀ
(18)由此,在更新粒子时,得到粒子的个体最优位置pbest以及全局最优位置gbest;然后代入最大对数似然公式(7)更新每个粒子的适应度值,并且每个粒子的个体位置适应度与全局最优位置的适应度作比较,如果出现当前个体最优位置适应度优于全局最优位置适应度,则更新粒子位置,其中根据式(18),粒子群的更新过程如下:个体粒子位置更新如下:p
i,j
(t)=r(t)
×
p
i,j
(t)+(1-r(t))
×
g(t)
ꢀꢀꢀꢀꢀ
(19)其中,r(t)为取值区间在[0,1]的随机数;粒子群位置更新如下:其中,r
i,j
(t)为取值区间在[0,1]的随机数,α为收缩扩张系数,
±
则等概率随机表示为+或-进行计算。9.一种基于数据处理的数据质量评估系统,其特征在于,包括:一个或多个处理器;
存储器,存储可被操作的指令,所述指令在通过所述一个或多个处理器执行时使得所述一个或多个处理器执行操作,所述操作包括如权利要求1-8中任意一项所述的数据质量评估方法的流程。10.一种存储软件的计算机可读取介质,其特征在于,所述软件包括能通过一个或多个计算机执行的指令,所述指令通过这样的执行使得所述一个或多个计算机执行操作,所述操作包括所述权利要求1-8中任意一项所述的数据质量评估方法的流程。
技术总结本发明提供一种基于数据处理的数据质量评估方法,包括:步骤1、获取毁伤目标-毁伤工具属性数据;步骤2、基于ETL工具对毁伤目标-毁伤工具属性数据进行预处理,获得结构化的毁伤目标数据以及毁伤工具数据,加载至数据仓库;步骤3、基于毁伤目标数据以及毁伤工具数据,采用基于量子粒子群优化的逻辑回归评估模型评估毁伤概率,作为第一质量评估结果;步骤4、将第一质量评估结果与基于毁伤目标-毁伤工具属性预定的评估体系进行比对,获得第二评估结果输出,其中所述的评估体系包括不同毁伤概率下毁伤等级。伤等级。伤等级。
技术研发人员:刘张进 罗巍
受保护的技术使用者:江苏普旭科技股份有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1