多相关性系数特征的rf构筑物传感器数据有效性判别方法
技术领域
1.本发明涉及构筑物传感器数据有效性判别领域,具体涉及一种多相关性系数特征的rf构筑物传感器数据有效性判别方法。
背景技术:2.现有的针对构筑物监测数据有效性判别体系并不完善,常用的自动化识别方法是使用主成分分析法,结合其他模型,从统计分析的角度识别单点失真数据,该方法需要大量的领域知识,直接应用于判断数据的有效性效果较差。
技术实现要素:3.有鉴于此,本发明的目的在于提供一种多相关性系数特征的rf构筑物传感器数据有效性判别方法,实现传感器有效性判别的自动化,预测准确度高。
4.为实现上述目的,本发明采用如下技术方案:
5.一种多相关性系数特征的rf构筑物传感器数据有效性判别方法,包括以下步骤:
6.步骤s1:获取同一待测构筑物所有传感器采集的数据集;
7.步骤s2:对步骤s1获取的数据集进行数据有效性初步判别,获得有效数据集;
8.步骤s3:对有效数据集进行特征提取,得到有效性量化指标;
9.步骤s4:基于有效性量化指标,训练随机森林模型,得到有效性判别随机森林模型;
10.步骤s5:将待测传感器数据输入有效性判别随机森林模型,得到判别结果。
11.进一步的,所述步骤s2具体为:
12.步骤s21:对数据集进行eda数据分析,根据数据的基本情况,将出现数据的缺失达到预设以上、是一个恒定的值、不符合传感器精度和量程的数据超过预设值的传感器采集数据判为无效数据,即无分析研究的意义,不满足物理判别,输出其无效原因,流程结束;反之执行步骤s22;
13.步骤s22:根据传感器之间存在的物理联系,保留与待研究传感器存在物理联系的传感器数据。
14.进一步的,所述步骤s3使用arma模型对传感器本身历史数据进行特征提取,并构建传感器相关性指标,设置数据标签化。
15.进一步的,所述arma模型包括平稳性检验、白噪声检验、acf检验、pacf检验,具体为:
16.所述平稳性检验判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根,对数据集进行adf检验,求解t统计量,并将显著性p-value值作为特征指标;
17.所述白噪声检验,使用q
lb
统计量对数据集进行纯随机检验,求解q
lb
统计量,并将显著性p-value值作为特征指标,求解q
lb
统计量的公式如下:
[0018][0019]
式中,n为序列观测期数,m为指定延迟期数。
[0020]
所述acf检验,为对待测段数据集进行自相关系数求解,将该自相关系数作为随机森林模型输入的特征指标。
[0021]
所述pacf检验,为对待测段数据集进行偏相关系数求解,将该自相关系数作为随机森林模型输入的特征指标。
[0022]
进一步的,所述求解t统计量的公式如下:
[0023][0024]
其中r=(ζ1,
…
,ζ
p-1
,ρ)
′
;
[0025]
h0:|ρ|≥1vsh1:|ρ|<1,检验统计量为样本数据集为y=(y
p+1
,
…
,y
t
)
′
,,其中ei=[0,
…
,0,1]
′
=(e)
p
×1,
[0026]
进一步的,所述c指标函数如下:
[0027][0028]
其中x
t
为需要进行数据有效判别的传感器,σ(x
t+1
,x
t+2
,
…
,xn)为x
t
有关领域内满足物理联系的其他传感器。
[0029]
进一步的,为判别传感器数据是否有效设置的标签,其中有效标为0,无效标为1,该标签化方式为:
[0030][0031]
其中p
adf
为平稳性检验显著性p值,为白噪声检验显著性p值,l
acf
,l
pacf
分别为自相关系数和偏相关系数。
[0032]
进一步的,所述步骤s4具体为:以p
adf
、l
acf
、l
pacf
、c
指标
为自变量,以lable为因变量,输入随机森林模型,进行分类模型训练,得到有效性判别随机森林模型。
[0033]
本发明与现有技术相比具有以下有益效果:
[0034]
本发明有效的减小对领域知识的要求,实现传感器有效性判别的自动化,预测准确度高,具有较强的工程实践性。
附图说明
[0035]
图1是本发明方法流程图;
[0036]
图2是本发明一实施例中c指标构建流程。
具体实施方式
[0037]
下面结合附图及实施例对本发明做进一步说明。
[0038]
请参照图1,本发明提供一种多相关性系数特征的rf构筑物传感器数据有效性判别方法,包括以下步骤:
[0039]
步骤s1:获取同一待测构筑物所有传感器采集的数据集;
[0040]
步骤s2:对步骤s1获取的数据集进行数据有效性初步判别,获得有效数据集;
[0041]
步骤s3:对有效数据集进行特征提取,得到有效性量化指标;
[0042]
步骤s4:基于有效性量化指标,训练随机森林模型,得到有效性判别随机森林模型;
[0043]
步骤s5:将待测传感器数据输入有效性判别随机森林模型,得到判别结果。
[0044]
在本实施例中,步骤s1,具体为
[0045]
使用同一构筑物(桥梁、水库)的所有传感器采集的数据集,其中包含应力传感器和温度传感器、渗流传感器等。具体数据格式如下:
[0046][0047]
该数据集为总数据集,步骤2将设定的规则对数据集进行筛选,从而确定后续步骤需要的数据集。
[0048]
在本实施例中,步骤s2具体为:
[0049]
步骤s21:对数据集进行eda数据分析,分别探究数据的分布、缺失情况、极值、数据趋势等,从而总体把握数据集的基本情况。
[0050]
根据数据的基本情况,将出现数据的缺失达到70%以上、是一个恒定的值、不符合传感器精度和量程的数据超过70%等问题的传感器采集数据判为无效数据,即无分析研究的意义,不满足物理判别,输出其无效原因,流程结束;反之执行步骤s22;
[0051]
步骤s22:获取步骤s21具有研究意义的数据集,根据传感器之间存在的物理联系,
保留与研究传感器存在物理联系的传感器数据。例如研究的为水库位移传感器,则将水库水位传感器保留,而去除水库雨量计传感器,因为位移与降雨量不存在直接的物理联系,位移与水库水位存在直接的物理联系,其中传感器与传感器之间的物理联系需根据桥梁、水库的物理结构联系及传感器安装标准等。执行步骤s3,进行数据特征提取。
[0052]
在本实施例中,步骤s3,具体为:
[0053]
使用arma模型对传感器本身历史数据进行特征提取,arma模型包括平稳性检验、白噪声检验、acf检验、pacf检验,具体为:
[0054]
平稳性检验就是判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根。对数据集进行adf检验,求解t统计量,并将显著性p-value值作为特征指标。求解t统计量的公式如下:
[0055][0056]
其中r=(ζ1,
…
,ζ
p-1
,ρ)
′
;
[0057]
h0:|ρ|≥1vsh1:|ρ|<1,检验统计量为样本数据集为y=(y
p+1
,
…
,y
t
)
′
,
[0058]
其中ei=[0,
…
,0,1]
′
=(e)
p
×1,所述白噪声检验,使用q
lb
统计量对数据集进行纯随机检验,求解q
lb
统计量,并将显著性p-value值作为特征指标,求解q
lb
统计量的公式如下:
[0059][0060]
式中,n为序列观测期数,m为指定延迟期数。
[0061]
白噪声检验,使用q
lb
统计量对数据集进行纯随机检验,求解q
lb
统计量,并将显著性p-value值作为特征指标。求解q
lb
统计量的公式如下:
[0062][0063]
式中,n为序列观测期数,m为指定延迟期数。
[0064]
acf检验,为对待测段数据集进行自相关系数求解,将该自相关系数作为随机森林模型输入的特征指标。如对x1位移传感器,t1到tn(n》1)时间段采集的数据进行有效性判别,即对该段数据进行自相关系数求解。
[0065]
pacf检验,为对待测段数据集进行偏相关系数求解,将该自相关系数作为随机森林模型输入的特征指标。如对x1位移传感器,t1到tn(n》1)时间段采集的数据进行有效性判别,即对该段数据进行偏相关系数求解。
[0066]
在本实施例中,对该传感器与它同一域且具有物理联系的传感器进行相关性分析(pearson相关分析、灰度相关分析、spearman相关分析、kendall相关分析),从而提取出该传感器与它同一域且具有物理联系的传感器特征,详细c指标构建流程如图2所示;
[0067]
c指标函数如下:
[0068][0069]
其中x
t
为需要进行数据有效判别的传感器,σ(x
t+1
,x
t+2
,
…
,xn)为x
t
有关领域内满足物理联系的其他传感器。
[0070]
在本实施例中,优选的,为判别传感器数据是否有效设置的标签,其中有效标为0,无效标为1,该标签化方式为:
[0071][0072]
其中p
adf
为平稳性检验显著性p值,为白噪声检验显著性p值,l
acf
,l
pacf
分别为自相关系数和偏相关系数。
[0073]
步骤3中对不同传感器不同时间段的数据进行特征提取,提取完成后得到五个数据有效性量化指标,分别为数据平稳性检验显著性p值(p
adf
)、白噪声检验显著性p值自相关系数(l
acf
)、偏相关系数(l
pacf
)、相关性加权平均(c
指标
)。提取完成按下表格式存入数据库。
[0074][0075]
在本实施例中,步骤s4具体为:以p
adf
、l
acf
、l
pacf
、c
指标
为自变量,以lable为因变量,输入随机森林模型,进行分类模型训练,得到有效性判别随机森林模型。训练完成后,将其储存在云端或本地以备后续部署。
[0076]
在本实施例中,步骤s5具体为:读取步骤s4中储存在云端或本地的传感器有效性判别随机森林模型,进行传感器数据有效性判别,其中输入数据字段包括sensor_name、p
adf
、l
acf
、l
pacf
、c
指标
,模型将返回该传感器数据是否有效的概率值。
[0077]
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
技术特征:1.一种多相关性系数特征的rf构筑物传感器数据有效性判别方法,其特征在于,包括以下步骤:步骤s1:获取同一待测构筑物所有传感器采集的数据集;步骤s2:对步骤s1获取的数据集进行数据有效性初步判别,获得有效数据集;步骤s3:对有效数据集进行特征提取,得到有效性量化指标;步骤s4:基于有效性量化指标,训练随机森林模型,得到有效性判别随机森林模型;步骤s5:将待测传感器数据输入有效性判别随机森林模型,得到判别结果。2.根据权利要求1所述的多相关性系数特征的rf构筑物传感器数据有效性判别方法,其特征在于,所述步骤s2具体为:步骤s21:对数据集进行eda数据分析,根据数据的基本情况,将出现数据的缺失达到预设以上、是一个恒定的值、不符合传感器精度和量程的数据超过预设值的传感器采集数据判为无效数据,即无分析研究的意义,不满足物理判别,输出其无效原因,流程结束;反之执行步骤s22;步骤s22:根据传感器之间存在的物理联系,保留与待研究传感器存在物理联系的传感器数据。3.根据权利要求1所述的多相关性系数特征的rf构筑物传感器数据有效性判别方法,其特征在于,所述步骤s3使用arma模型对传感器本身历史数据进行特征提取,并构建传感器相关性指标,设置数据标签化。4.根据权利要求3所述的多相关性系数特征的rf构筑物传感器数据有效性判别方法,其特征在于,所述arma模型包括平稳性检验、白噪声检验、acf检验、pacf检验,具体为:所述平稳性检验判断序列是否存在单位根:如果序列平稳,就不存在单位根;否则,就会存在单位根,对数据集进行adf检验,求解t统计量,并将显著性p-value值作为特征指标;所述白噪声检验,使用q
lb
统计量对数据集进行纯随机检验,求解q
lb
统计量,并将显著性p-value值作为特征指标,求解q
lb
统计量的公式如下:式中,n为序列观测期数,m为指定延迟期数。所述acf检验,为对待测段数据集进行自相关系数求解,将该自相关系数作为随机森林模型输入的特征指标。所述pacf检验,为对待测段数据集进行偏相关系数求解,将该自相关系数作为随机森林模型输入的特征指标。5.根据权利要求4所述的多相关性系数特征的rf构筑物传感器数据有效性判别方法,其特征在于,所述求解t统计量的公式如下:其中r=(ζ1,
…
,ζ
p-1
,ρ)
′
;h0:|ρ|≥1vsh1:|ρ|<1,检验统计量为样本数据集为y=(y
p+1
,
…
,y
t
)
′
,
其中e
i
=[0,
…
,0,1]
′
=(e)
p
×1,6.根据权利要求3所述的多相关性系数特征的rf构筑物传感器数据有效性判别方法,其特征在于,所述c指标函数如下:其中x
t
为需要进行数据有效判别的传感器,σ(x
t+1
,x
t+2
,
…
,x
n
)为x
t
有关领域内满足物理联系的其他传感器。7.根据权利要求3所述的多相关性系数特征的rf构筑物传感器数据有效性判别方法,其特征在于,为判别传感器数据是否有效设置的标签,其中有效标为0,无效标为1,该标签化方式为:其中p
adf
为平稳性检验显著性p值,p
qlb
为白噪声检验显著性p值,l
acf
,l
pacf
分别为自相关系数和偏相关系数。8.根据权利要求1所述的多相关性系数特征的rf构筑物传感器数据有效性判别方法,其特征在于,所述步骤s4具体为:以p
adf
、p
qlb
、l
acf
、l
pacf
、c
指标
为自变量,以lable为因变量,输入随机森林模型,进行分类模型训练,得到有效性判别随机森林模型。
技术总结本发明涉及一种多相关性系数特征的RF构筑物传感器数据有效性判别方法,包括以下步骤:步骤S1:获取同一待测构筑物所有传感器采集的数据集;步骤S2:对步骤S1获取的数据集进行数据有效性初步判别,获得有效数据集;步骤S3:对有效数据集进行特征提取,得到有效性量化指标;步骤S4:基于有效性量化指标,训练随机森林模型,得到有效性判别随机森林模型;步骤S5:将待测传感器数据输入有效性判别随机森林模型,得到判别结果。本发明有效的减小对领域知识的要求,实现传感器有效性判别的自动化,预测准确度高。预测准确度高。预测准确度高。
技术研发人员:马森标 徐飞 黄正鹏 陈友武 黄祖海
受保护的技术使用者:福建中锐网络股份有限公司
技术研发日:2022.07.22
技术公布日:2022/11/1