本发明涉及数据挖掘,具体涉及一种基于矩匹配先验网络的空气质量相关性估计方法和系统。
背景技术:
1、空气质量预测是一项重要的建模任务,更是关乎公众健康与安全的重要议题。它涉及到农业生产,水资源管理、城市运输规划等众多民生领域,直接影响人类的生活质量。然而,由于空气中的污染物种类繁多(例如颗粒物、硫化物等等),而且,这些气体会受到空间、时间相关性的影响。此外,空气质量还受到气象条件,如:是否刮风、是否下雨、当地温度等条件的影响,因此,结合多种因素对空气质量进行预测是一个十分值得研究的问题。
2、随着机器学习和深度学习的发展,神经网络在处理复杂的非线性关系方面表现出明显的优势,且预测精度较高。目前,神经网络进行空气质量预测己成为研究领域的热点之一。然而,空气质量预测任务属于多元回归任务,当神经网络被部署到多元回归任务中时,不确定性估计对于可靠的预测和决策至关重要。
3、目前,为了在多元深度回归中进行准确不确定估计,贝叶斯神经网络(bayesianneural network,bnn)通常利用权重后验来捕获不确定性。然而,估计神经网络的权重后验分布通常很棘手,导致训练和推理期间的计算和内存成本显著增加,为了降低bnn的成本,相关领域的研究人员提出了利用深度神经网络直接预测证据先验参数的证据方法,以单个网络和单次前向传播高效获取不确定性。然而,对于神经网络输出维度显著增加的情况,这些方法仅限于(维度小于2时)对角斜方差矩阵估计。这些方法在训练时需要大量的分布外数据辅助训练来促进认知不确定性量化,通常导致现有证据方法的训练过程通常数值不稳定,并且严重依赖复杂的正则化技术,导致空气质量相关性估计结果不准确,影响后续空气质量的预测结果的准确性。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了一种基于矩匹配先验网络的空气质量相关性估计方法和系统,解决了现有方法在训练时需要大量的分布外数据辅助训练来促进认知不确定性量化的技术问题。并且能够解释不同变量的相关性。
3、(二)技术方案
4、为实现以上目的,本发明通过以下技术方案予以实现:
5、第一方面,本发明提供一种基于矩匹配先验网络的空气质量相关性估计方法,通过预先构建基于矩匹配先验网络的相关性估计模型得出空气质量数据集不同变量间的相关性,预测空气质量的变化,其中,构建基于矩匹配先验网络的相关性估计模型的过程包括:
6、获取并预处理监测站的多元空气质量数据集;
7、通过预处理后多元空气质量数据集训练矩匹配先验网络,得到基于矩匹配先验网络的相关性估计模型;
8、其中,基于矩匹配先验网络的相关性估计模型中的高斯似然函数的共轭先验分布形式为其中,λ0表示任意不确定性,σ表示相关性估计模型的模型不确定性,模型不确定性由相关性估计模型的协方差确定,λ表示数据不确定性的点估计值,表示考虑未建模数据噪声情况下深度模型的预测值,μ表示相关性估计模型预测值的期望,期望由相关性估计模型的预测值的平均值确定。
9、优选的,预处理监测站的多元空气质量数据集包括:
10、对多元空气质量数据集中的数据进行数据清洗、缺失值补全与异常值检测;
11、根据空气质量数据的特征,确定时序数据预测任务的窗口尺寸,根据窗口尺寸划分多元空气质量数据集,得到若干窗口数据;
12、对每个窗口数据中的数据进行归一化处理。
13、优选的,所述相关性估计模型的模型不确定性的计算方式包括:
14、
15、σsample=aσlow+bσdiag
16、
17、其中,s代表矩匹配中由深度神经网络所产生的样本个数,表示样本所对应的模型的预测值,表示样本集合,σsample表示基于这些深度样本产生的协方差估计;σ(;θ)表示参数化θ深度神经网络的预测分布中对模型不确定性σ的估计,a、b表示权重参数,σlow(x;θ)表示秩为s的样本协方差矩阵,σdiag表示空气质量中每个维度的方差计算对应的对角矩阵。
18、优选的,所述相关性估计模型预测值的期望的计算方式包括:
19、
20、其中,s代表矩匹配中由深度神经网络所产生的样本个数,表示样本所对应的模型的预测值,u(x;θ)表示参数化θ深度神经网络的预测分布中对期望μ的估计。
21、优选的,数据不确定性的点估计值λ的表述式包括:
22、
23、其中,当λ是同方差时,将相关性估计模型的参数参数θ与变量σ2都视为可训练的参数,当λ是异方差时,要求神经网络除了之外还输出数据不确定性σ(x;θ),σ2由深度模型预测所得,i表示单位对角矩阵,σ2(x)i,表示与输入数据x相关,σ2i表示与输入数据无关的标量。
24、优选的,所述基于矩匹配先验网络的相关性估计模型在训练过程中,通过最大化似然函数优化模型的参数,利用随机梯度下降方式训练模型直到收敛。
25、优选的,所述似然函数的表达式包括:
26、
27、
28、其中,θ表示相关性估计模型的参数,y表示空气质量真实值。
29、第二方面,本发明提供一种基于矩匹配先验网络的空气质量相关性估计系统,所述空气质量相关性估计系统通过预先构建基于矩匹配先验网络的相关性估计模型模块得出空气质量数据集不同变量间的相关性,预测空气质量的变化,其中,预先构建基于矩匹配先验网络的相关性估计模型模块包括:
30、数据处理单元,用于获取并预处理监测站的多元空气质量数据集;
31、模型训练单元,用于通过预处理后多元空气质量数据集训练矩匹配先验网络,得到基于矩匹配先验网络的相关性估计模型;
32、其中,基于矩匹配先验网络的相关性估计模型中的高斯似然函数的共轭先验分布形式为其中,λ0表示任意不确定性,σ表示相关性估计模型的模型不确定性,模型不确定性由相关性估计模型的协方差确定,λ表示数据不确定性的点估计值,表示考虑未建模数据噪声情况下深度模型的预测值,μ表示相关性估计模型预测值的期望,期望由相关性估计模型的预测值的平均值确定。
33、第三方面,本发明提供一种计算机可读存储介质,其存储用于基于矩匹配先验网络的空气质量相关性估计的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于矩匹配先验网络的空气质量相关性估计方法。
34、第四方面,本发明提供一种电子设备,包括:
35、一个或多个处理器,存储器,以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于矩匹配先验网络的空气质量相关性估计方法。
36、(三)有益效果
37、本发明提供了一种基于矩匹配先验网络的空气质量相关性估计方法和系统。与现有技术相比,具备以下有益效果:
38、本发明选择高斯似然函数的共轭先验分布形式为在该共轭先验分布形式中,模型不确定性σ与数据不确定性λ相互独立,解耦了认知不确定性和任意不确定性之间联系。同时,本发明实施例引入了一种新的建模方法来隐式地学习证据先验形式{μ,σ,λ0},这与之前学习模型参数的传统方法有所不同,深度神经网络并未直接建模预测分布中的参数,利用矩匹配(moment matching)估计预测分布中参数,无需引入大量的分布外数据,能够降低训练成本,加快训练速度,提供更为准确的不确定性估计,并帮助研究人员更好地理解和预测空气质量变化。
1.一种基于矩匹配先验网络的空气质量相关性估计方法,其特征在于,通过预先构建基于矩匹配先验网络的相关性估计模型得出空气质量数据集不同变量间的相关性,预测空气质量的变化,其中,构建基于矩匹配先验网络的相关性估计模型的过程包括:
2.如权利要求1所述的基于矩匹配先验网络的空气质量相关性估计方法,其特征在于,预处理监测站的多元空气质量数据集包括:
3.如权利要求1所述的基于矩匹配先验网络的空气质量相关性估计方法,其特征在于,所述相关性估计模型的模型不确定性的计算方式包括:
4.如权利要求1所述的基于矩匹配先验网络的空气质量相关性估计方法,其特征在于,所述相关性估计模型预测值的期望的计算方式包括:
5.如权利要求1所述的基于矩匹配先验网络的空气质量相关性估计方法,其特征在于,数据不确定性的点估计值λ的表述式包括:
6.如权利要求1~5任一所述的基于矩匹配先验网络的空气质量相关性估计方法,其特征在于,所述基于矩匹配先验网络的相关性估计模型在训练过程中,通过最大化似然函数优化模型的参数,利用随机梯度下降方式训练模型直到收敛。
7.如权利要求6所述的基于矩匹配先验网络的空气质量相关性估计方法,其特征在于,所述似然函数的表达式包括:
8.一种基于矩匹配先验网络的空气质量相关性估计系统,其特征在于,所述空气质量相关性估计系统通过预先构建基于矩匹配先验网络的相关性估计模型模块得出空气质量数据集不同变量间的相关性,预测空气质量的变化,其中,预先构建基于矩匹配先验网络的相关性估计模型模块包括:
9.一种计算机可读存储介质,其特征在于,其存储用于基于矩匹配先验网络的空气质量相关性估计的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~7任一所述的基于矩匹配先验网络的空气质量相关性估计方法。
10.一种电子设备,其特征在于,包括:
