本申请涉及机器学习领域,具体而言,涉及一种基于主成分回归的预测方法、装置及非易失性存储介质。
背景技术:
1、近年来,对数据进行降维和特征提取,降低维度的同时发现关键的变量,并且尽可能减少信息损失,在高维统计领域变得越来越重要,量化事件及其相应的因果关系,比如可应用于药物临床试验、工程安全监测、销售研究等场景,尤其是涉及到多特征的预测场景中,主成分回归(principal component regression,简称为pcr)便是这样一种能够有效降低变量维数、在处理变量多重共线性问题上有优良性质、并且揭露自变量和因变量内在关系的多元统计方法,但在相关技术中现有的主成分回归方法的惩罚函数和损失函数不能保证主成分回归模型的稳健性、预测准确性和可解释性,急需对现有的主成分回归方法进行优化,提升主成分回归模型的稳健性、预测准确性和可解释性。
2、针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
1、本申请实施例提供了一种基于主成分回归的预测方法、装置及非易失性存储介质,以至少解决相关技术中现有的主成分回归方法的主成分回归模型的稳健性、预测准确性和可解释性较低的技术问题。
2、根据本申请实施例的一个方面,提供了一种基于主成分回归的预测方法,包括:获取待预测的原始数据;使用目标主成分回归模型对原始数据进行预测,得到预测数据,其中,目标主成分回归模型包括由总损失函数和总惩罚函数组成的目标函数,总损失函数包括表示主成分回归的第一损失函数和用于表示对原始数据进行主成分分解的第二损失函数,总惩罚函数包括主成分回归对载荷矩阵的第一惩罚函数和主成分回归对回归系数的第二惩罚函数。
3、在本申请的一些实施例中,方法还包括:获取原始数据的预测数据,以及获取估计系数的截距项、原始数据的数据矩阵、载荷矩阵、主成分回归系数;依据预测数据、估计系数的截距项、数据矩阵、载荷矩阵和主成分回归系数,对huber损失函数进行调整,得到第一损失函数。
4、在本申请的一些实施例中,第一损失函数通过以下公式表示:
5、
6、其中,lreg(γ0,γ,b)表示第一损失函数,n表示原始数据的特征数量,lτ(yi-γ0-xitbγ)为huber损失函数,yi表示第i个预测数据,γ0为估计系数的截距项,xi表示第i个原始数据,b表示载荷矩阵,γ表示主成分回归系数。
7、在本申请的一些实施例中,huber损失函数通过以下公式表示:
8、
9、其中,lτ(yi-γ0-xitbγ)表示huber损失函数,τ为huber损失函数的阈值参数。
10、上述huber损失函数在不同情况下的作用不同,τ>0,表示控制huber函数的超参数,当τ→∞时,lτ(yi-γ0-xitbγ)退化普通最小二乘损失;当τ→0时,lτ(·yi-γ0-xitbγ)退化为绝对值损失,其中τ的取值取决于实际问题中如何定义异常值的大小。huber损失是平方损失和绝对损失的综合,它克服了平方损失和绝对损失的缺点,不仅使损失函数具有连续的导数,而且利用mse梯度随误差减小的特性,可取得更精确的最小值。
11、第二损失函数通过以下公式表示:
12、
13、其中,lpca(a,b)表示第二损失函数,n表示原始数据的特征数量,yi表示第i个预测数据,x表示由原始数据构成的数据矩阵,b表示载荷矩阵,ω表示权重系数,f表示范数,a表示主成分矩阵。
14、在本申请的一些实施例中,第一惩罚函数通过以下公式表示:
15、p1(b;λb)=λb‖b‖1
16、其中,p1(b;λb)表示第一惩罚函数,λb表示正则化参数,b表示载荷矩阵。
17、在本申请的一些实施例中,第二惩罚函数通过以下公式表示:
18、
19、其中,p2(γ,λ)表示第二惩罚函数,λ表示正则化参数,表示scad惩罚函数,γ表示主成分回归系数,γj为第j个主成分回归系数。
20、在本申请的一些实施例中,scad惩罚函数通过以下公式表示:
21、
22、其中,表示scad惩罚函数,i表示示性函数,λ表示调谐参数,μ表示scad惩罚函数的输入,a表示预设参数。
23、根据本申请实施例的另一方面,还提供了一种基于主成分回归的预测装置,包括:获取模块,用于获取待预测的原始数据;预测模块,用于使用目标主成分回归模型对原始数据进行预测,得到预测数据,其中,目标主成分回归模型包括由总损失函数和总惩罚函数组成的目标函数,总损失函数包括表示主成分回归的第一损失函数和用于表示对原始数据进行主成分分解的第二损失函数,总惩罚函数包括主成分回归对载荷矩阵的第一惩罚函数和主成分回归对回归系数的第二惩罚函数。
24、根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质中存储有程序,其中,在程序运行时控制非易失性存储介质所在设备执行上述任意一项的基于主成分回归的预测方法。
25、根据本申请实施例的另一方面,还提供了一种电子设备,存储器和处理器,处理器用于运行存储在存储器中的程序,其中,程序运行时执行上述任意一项的基于主成分回归的预测方法。
26、根据本申请实施例的另一方面,还提供了一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现上述任意一项的基于主成分回归的预测方法。
27、在本申请实施例中,采用获取待预测的原始数据;使用目标主成分回归模型对原始数据进行预测,得到预测数据,其中,目标主成分回归模型包括由总损失函数和总惩罚函数组成的目标函数,总损失函数包括表示主成分回归的第一损失函数和用于表示对原始数据进行主成分分解的第二损失函数,总惩罚函数包括主成分回归对载荷矩阵的第一惩罚函数和主成分回归对回归系数的第二惩罚函数的方式,通过目标主成分回归模型对原始数据进行预测,得到预测数据,其中,总损失函数和总惩罚函数提升了模型的稳健性,从而提高预测准确性和可解释性,减小因变量方向的异常值对模型带来的误差影响,进而解决了相关技术中现有的主成分回归方法的主成分回归模型的稳健性、预测准确性和可解释性较低技术问题。
1.一种基于主成分回归的预测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求2所述的方法,其特征在于,所述第一损失函数通过以下公式表示:
4.根据权利要求3所述的方法,其特征在于,所述huber损失函数通过以下公式表示:
5.根据权利要求1所述的方法,其特征在于,所述第二损失函数通过以下公式表示:
6.根据权利要求1所述的方法,其特征在于,所述第一惩罚函数通过以下公式表示:
7.根据权利要求1所述的方法,其特征在于,所述第二惩罚函数通过以下公式表示:
8.根据权利要求7所述的方法,其特征在于,所述scad惩罚函数通过以下公式表示:
9.一种基于主成分回归的预测装置,其特征在于,包括:
10.一种非易失性存储介质,其特征在于,所述非易失性存储介质中存储有程序,其中,在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至8中任意一项所述的基于主成分回归的预测方法。
11.一种电子设备,其特征在于,包括:存储器和处理器,所述处理器用于运行存储在所述存储器中的程序,其中,所述程序运行时执行权利要求1至8中任意一项所述的基于主成分回归的预测方法。
12.一种计算机程序产品,包括计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至8中任意一项所述的基于主成分回归的预测方法。