1.本发明涉及信贷风控技术领域,尤其涉及一种风控模型的创建方法及装置。
背景技术:2.风控技术在信贷风控领域中扮演着关键的角色。目前业界的一般做法是构建机器学习模型对个人用户或企业用户进行风险评估。而对于机器学习风控模型来说,业界目前主流的采用基于逻辑回归算法(logistic regression)、基于决策树类算法、基于深度学习三类算法来构建模型。
3.由于个人用户或企业用户的关联数据中均含有类别型特征数据和数值型特征数据,因此,现有技术中一般将采用独热(one-hot)编码算法、映射编码算法(woe编码、bad rate编码等)对类别型特征数据编码进行处理,使类别型特征数据编码转换为数值型特征数据,再配合原有的数值型特征数据作为训练样本构建风控模型。然而,若使用独热编码算法则会将数值型特征数据转换为高维稀疏特征数据,其不适用于模型效果更好的集成树模型和深度神经网络模型,容易导致过拟合的情况发生,因此,只能使用简单的逻辑回归风控模型,导致模型训练效果欠佳,而若使用映射编码算法则会损失部分特征信息,仍然会导致模型训练效果欠佳,以致于影响模型后续的评估准确度。
技术实现要素:4.鉴于上述问题,本发明提供一种风控模型的创建方法及装置,主要目的是为了解决存在类别型特征数据时导致模型训练效果欠佳的问题,以保证模型后续的评估准确度。
5.为了解决上述技术问题,本发明提出以下方案:
6.第一方面,本发明提供了一种风控模型的创建方法,所述方法包括:
7.获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;
8.将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成;
9.将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成;
10.利用所述第一多维特征数据集和所述第二多维特征数据集训练第三模型,所述第三模型为用于确定所述目标样本的评分结果的逻辑回归风控模型。
11.第二方面,本发明提供了一种风控模型的创建装置,所述装置包括:
12.获取单元,用于获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;
13.第一处理单元,用于将所述获取单元获得的类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成;
14.第二处理单元,用于将所述获取单元获得的类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成;
15.训练单元,用于利用所述第一处理单元获得的第一多维特征数据集和所述第二处理单元获得的第二多维特征数据集训练第三模型,所述第三模型为用于预测所述目标样本的评分结果的逻辑回归风控模型。
16.为了实现上述目的,根据本发明的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述第一方面的风控模型的创建方法。
17.为了实现上述目的,根据本发明的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述第一方面的风控模型的创建方法。
18.借由上述技术方案,本发明提供的一种风控模型的创建方法及装置,是在需要对风控模型进行创建时,先获取目标样本集中各个目标样本的样本数据,样本数据中包括类别型特征数据和数值型特征数据,并将类别型特征数据和数值型特征数据处理为第一多维特征数据集,且同时将第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成,将类别型特征数据和数值型特征数据处理为第二多维特征数据集,第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成,最后利用第一多维特征数据集和第二多维特征数据集训练第三模型,第三模型为用于确定目标样本的评分结果的逻辑回归风控模型。通过本发明提供的风控模型的创建方案,能够将样本数据中的类别型特征数据和数值型特征数据经过不同的处理方式得到两种不同的多维数值型特征数据以作为最后风控模型的训练样本,且考虑了特征数据之间的关联关系,避免了损失特征信息,提升了最终风控模型的训练效果,进而保证了模型后续的评估准确度。
19.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
20.通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
21.图1示出了本发明实施例提供的一种风控模型的创建方法流程图;
22.图2示出了本发明实施例提供的另一种风控模型的创建方法流程图;
23.图3示出了本发明实施例提供的一种风控模型的创建装置的组成框图;
24.图4示出了本发明实施例提供的另一种风控模型的创建装置的组成框图。
具体实施方式
25.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围
完整的传达给本领域的技术人员。
26.风控技术在信贷风控领域中扮演着关键的角色。目前业界的一般做法是构建机器学习模型对个人用户或企业用户进行风险评估。而对于机器学习风控模型来说,业界目前主流的采用基于逻辑回归算法(logistic regression)、基于决策树类算法、基于深度学习三类算法来构建模型。由于个人用户或企业用户的关联数据中均含有类别型特征数据和数值型特征数据,因此,现有技术中一般将采用独热(one-hot)编码算法、映射编码算法(woe编码、bad rate编码等)对类别型特征数据编码进行处理,使类别型特征数据编码转换为数值型特征数据,再配合原有的数值型特征数据作为训练样本构建风控模型。然而,若使用独热编码算法则会将数值型特征数据转换为高维稀疏特征数据,其不适用于模型效果更好的集成树模型和深度神经网络模型,容易导致过拟合的情况发生,因此,只能使用简单的逻辑回归风控模型,导致模型训练效果欠佳,而若使用映射编码算法则会损失部分特征信息,仍然会导致模型训练效果欠佳,以致于影响模型后续的评估准确度。为此,本发明实施例提供了一种风控模型的创建方法,通过该方法能够解决存在类别型特征数据时导致模型训练效果欠佳的问题,以保证模型后续的评估准确度。其具体执行步骤如图1所示,包括:
27.101、获取目标样本集中各个目标样本的样本数据,样本数据中包括类别型特征数据和数值型特征数据。
28.需要说明的是,目标样本集是由多个目标样本构成的集合,而目标样本包括但不限于个人用户、企业用户等,对此,本实施例不做限定,而对应于目标样本的样本数据包括但不限于个人基本信息(性别,年龄,家庭情况等)、金融信息(收入,家庭资产等)、多头信息(用户在多家借款平台的贷款情况)、消费信息(电商数据,外卖数据,出行数据,点评数据等)、历史平台表现(用户在借款平台的历史表现,可直接体现用户还款意愿的特征)、埋点信息(聚合用户app比较细的节点上聚合一些基于时间和频次和行为节奏的特征)、外部征信数据等。而其中,如性别、籍贯等是类别型特征数据,即某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来描述的。而消费信息中的消费金额、航旅里程等为数值型特征数据,即按数字尺度测量的观察值,其结果表现为具体的数值,而样本数据中往往均包含这两类特征数据,因此,可以在获取样本数据的过程中,可直接对类别型特征数据和数值型特征数据进行提取分类,以便执行后续步骤102。
29.102、将类别型特征数据和数值型特征数据处理为第一多维特征数据集。
30.其中,第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成。在本实施例中,需要说明的是,由于类别型特征数据并不能直接作为训练样本去训练模型,因此,需要对类别型特征数据进行编码转换,使其编码成数值型特征数据,其编码方式包括但不限于独热(one-hot)编码算法、映射编码(woe编码、bad rate编码等)等,而在本步骤中,则采用独热编码算法对类别型特征数据进行处理,以保证样本数据的特征信息完整性,具体的,分别将类别型特征数据进行独热编码,以获得多个高维稀疏特征数据,依次将隶属于同一目标样本的高维稀疏特征数据和数值型特征数据进行拼接处理,以构成第一拼接数据集,利用第一拼接数据集训练第一模型,并获得第一输出结果集,第一模型为用于构建第一拼接数据的特征关联关系的因子分解机(fm)模型,将第一输出结果集作为第一多维特征数据集。其中,第一模型选用因子分解机(fm)模型,该模型更加适用于高维稀疏特征数据,且训练该模型的训练样本为高维稀疏特征数据和数值型特征数据拼接处理后的数
据,而加入数值型特征数据可以提升因子分解机(fm)模型的效果,经过训练后,其实质上是通过因子分解机(fm)模型构建第一拼接数据中各个特征数据之间的关联关系,即构建特征数据之间的交叉特征,增加特征数据交叉项,从而提升模型的效果,使得因子分解机(fm)模型能够输出一个更加准确的第一多维数值型特征数据,以便后续作为训练样本训练能够输出目标样本对应的评分的风控模型。
31.103、将类别型特征数据和数值型特征数据处理为第二多维特征数据集。
32.其中,第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成。在本实施例中,需要说明的是,在步骤102中可知,需要对类别型特征数据进行编码转换,使其编码成数值型特征数据,且编码方式包括但不限于独热(one-hot)编码算法、映射编码(woe编码、bad rate编码等)等,在本步骤中,采用woe编码算法对类别型特征数据进行处理,使其映射为一维的数值型特征数据,即低维稠密特征数据,使其可作为多种模型的训练样本,具体的,分别将类别型特征数据进行映射编码,以获得多个低维稠密特征数据,依次将隶属于同一目标样本的低维稠密特征数据和数值型特征数据进行拼接处理,以构成第二拼接数据集,利用第二拼接数据集训练第二模型,并获得第二输出结果集,第二模型为用于将第二拼接数据映射为多维数值型特征数据的深度神经网络(dnn)模型,将第二输出结果集作为第二多维特征数据集。其中,第二模型选用深度神经网络(dnn)模型,经过训练后,其可将低维稠密特征数据和数值型特征数据拼接处理后的一维数值型特征数据(第二拼接数据)映射为第二高维数值型特征数据(第二输出结果),以便于第二输出结果与第一输出结果作为同等级别的数据(均是多维数值型特征数据)作为训练样本训练能够输出目标样本对应的评分的风控模型,从而提升模型的训练效果。
33.104、利用第一多维特征数据集和第二多维特征数据集训练第三模型。
34.其中,第三模型为用于确定目标样本的评分结果的逻辑回归(lr)风控模型。需要说明的是,在步骤102和步骤103中可知,第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成,而第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成,且均是通过第一模型(因子分解机模型)和第二模型(深度神经网络模型)在模型训练时的输出结果,其中,第一多维特征数据避免了部分特征信息,保证了特征的完整性以及特征之间的关联关系,而第二多维特征数据可作为与第一多维特征数据同级别的补充样本,保证了作为第三模型的训练样本的一致性,且充分的利用样本数据对第三模型进行训练,从而提升了最终风控模型的训练效果,进而保证了模型后续的评估准确度。
35.基于上述图1的实现方式可以看出,本发明提供的一种风控模型的创建方法及装置,是在需要对风控模型进行创建时,先获取目标样本集中各个目标样本的样本数据,样本数据中包括类别型特征数据和数值型特征数据,并将类别型特征数据和数值型特征数据处理为第一多维特征数据集,且同时将第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成,将类别型特征数据和数值型特征数据处理为第二多维特征数据集,第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成,最后利用第一多维特征数据集和第二多维特征数据集训练第三模型,第三模型为用于确定目标样本的评分结果的逻辑回归风控模型。通过本发明提供的风控模型的创建方案,能够将样本数据中的类别型特征数据和数值型特征数据经过不同的处理方式得到两种不同的多维
数值型特征数据以作为最后风控模型的训练样本,且考虑了特征数据之间的关联关系,避免了损失特征信息,提升了最终风控模型的训练效果,进而保证了模型后续的评估准确度。
36.进一步的,本发明优选实施例是在上述图1的基础上,针对风控模型的创建过程进行的详细说明,其具体步骤如图2所示,包括:
37.201、获取目标样本集中各个目标样本的样本数据,样本数据中包括类别型特征数据和数值型特征数据。
38.本步骤结合上述方法中步骤101的描述,故在此相同的内容不赘述。需要说明的是,为了保证目标样本集的平衡性,以使训练出的模型效果更佳,可在本步骤之前,对目标样本进行抽取,而抽取的样本可从权威机构的征信系统中的历史样本进行抽取,而权威机构的征信系统包括但不限于各大金融机构、公积金社保等数据完善的机构。还可以通过在网络征信系统中的历史样本进行抽取,而网络征信系统的征信数据主要来自互联网平台,可使用互联网技术抽取或接口合作获取样本,具体的,在获取目标样本集中各个目标样本的样本数据之前,所述方法还包括:抽取预设数量的历史样本,以构成历史样本集,确定历史样本集中的历史样本的正负样本比例,判断正负样本比例是否处于预设阈值范围内,若是,则确定历史样本集为目标样本集。其中,预设数量可以自定义设置,而正样本则为预设周期内存在少次不良记录或不存在不良记录的优质用户,而负样本则为预设周期内存在多次不良记录的劣质用户,而通过历史样本集中历史样本的正负样本比例是否处于预设阈值范围内,能够保证目标样本的平衡性,而预设阈值范围一般可设置为9/1左右,而具体数值可通过自定义进行设置,对此,本实施例不做具体限定,而若正负样本比例处于预设阈值范围内,则确定历史样本集为目标样本集,而若判断正负样本比例不处于预设阈值范围内,所述方法还包括:基于正负样本比例动态调整目标样本集中的历史样本的正样本数量和/或负样本数量,以使得调整后的目标样本集中历史样本的正负样本比例处于预设阈值范围内。其中,由于预设阈值范围已经确定,因此,可通过对比正负样本比例与预设阈值范围的大小,添加正样本、负样本或同时添加正样本和负样本,以保证调整后的目标样本集中历史样本的正负样本比例处于预设阈值范围内。
39.进一步的,对于确定历史样本集中的历史样本的正负样本比例,具体的,可先获取历史样本集中各个历史样本的关联信息,关联信息至少包括基本属性、行为表现、风险指标以及征信信息中的一个,依次判断关联信息是否符合业务规则,业务规则为确定关联信息对应的历史样本为正样本的匹配规则,若符合,则确定关联信息对应的历史样本为正样本,若不符合,则确定关联信息对应的历史样本为负样本,基于历史样本集中历史样本的正样本数量和负样本数量确定正负样本比例。其中,业务规则可以根据用户自定义设置,例如可基本属性、行为表现、风险指标以及征信信息中任意一个标准对其进行判断,以便提升确定正负样本的准确性,保证目标样本的平衡。
40.202、分别将类别型特征数据进行独热编码,以获得多个高维稀疏特征数据。
41.本步骤结合上述方法中步骤102的描述,故在此相同的内容不赘述。需要说明的是,独热(one-hot)编码是将类别型特征数据转换为机器学习算法易于利用的一种形式的过程,且能够保证样本数据的特征信息完整性,而由于不同类别型特征数据的类别数量不同,因此,在将类别型特征数据转换后可得到高维稀疏特征数据,其实质上依然为数值型特征数据,以便执行后续步骤203。
42.203、依次将隶属于同一目标样本的高维稀疏特征数据和数值型特征数据进行拼接处理,以构成第一拼接数据集。
43.需要说明的是,由于高维稀疏特征数据是由类别型特征数据经过独热(one-hot)编码转换得到的,其并非目标样本的样本数据的全部数据,因此,为了保证模型的效果,可将原有的数值型特征数据与高维稀疏特征数据进行拼接,实现对样本数据的充分利用,从而保证后续步骤204进行模型训练的效果。
44.204、利用第一拼接数据集训练第一模型,并获得第一输出结果集。
45.其中,第一模型为用于构建第一拼接数据的特征关联关系的因子分解机(fm)模型。需要说明的是,由于第一拼接数据中包含了步骤203中提及的高维稀疏特征数据,因此,为了更好的处理该数据,则选用能够建立第一拼接数据中特征之间的关联关系的因子分解机(fm)模型,该模型的优点在于可以在非常稀疏的数据中,进行合理的参数估计,且其复杂度是线性的,优化效果好,同时其是一个通用的模型,他适用于于任何特征为实值得情况,即在高度稀疏的数据场景下能够具有线性计算复杂度,从而经过第一拼接数据集训练后,能够输出一个更为准确的多维数值型特征数据集,即第一输出结果集,以便作为后续风控模型的训练样本之一。
46.205、将第一输出结果集作为第一多维特征数据集。
47.在本步骤中,由于第一模型的输出结果均为多维数值型特征数据,因此,可通过将目标样本的样本数据对应的多维数值型特征数据构成的集合作为第一多维特征数据集,以便作为后续风控模型的训练样本之一。
48.206、分别将类别型特征数据进行映射编码,以获得多个低维稠密特征数据。
49.本步骤结合上述方法中步骤103的描述,故在此相同的内容不赘述。需要说明的是,映射编码属于映射编码算法之一,其也是将类别型特征数据转换为机器学习算法易于利用的一种形式的过程,其是将类别型特征数据编码转换为一维的数值型特征数据,以便执行后续步骤207。
50.207、依次将隶属于同一目标样本的低维稠密特征数据和数值型特征数据进行拼接处理,以构成第二拼接数据集。
51.需要说明的是,由于低维稠密特征数据是由类别型特征数据经过映射编码转换得到的,其并非目标样本的样本数据的全部数据,因此,为了保证模型的效果,可将原有的数值型特征数据与低维稠密特征数据进行拼接,实现对样本数据的充分利用,从而保证后续步骤208进行模型训练的效果,但映射编码方式存在弊端,因此容易造成部分特征信息丢失,但其实质上也为数值型特征数据,可以作为后续步骤208进行模型训练的训练样本。
52.208、利用第二拼接数据集训练第二模型,并获得第二输出结果集。
53.其中,第二模型为用于将第二拼接数据映射为多维数值型特征数据的深度神经网络(dnn)模型。由于低维稠密特征数据和原有的数值型特征数据均为一维的特征数据,而为了将第二拼接数据集映射为与第一输出结果集同级别的多维特征数据,可采用深度神经网络(dnn)模型进行训练,以使得第二输出结果集变成与第一输出结果集同级别的多维数值型特征数据,从而保证后续训练风控模型的训练样本一致性。
54.209、将第二输出结果集作为第二多维特征数据集。
55.在本步骤中,由于第二模型的输出结果也为多维数值型特征数据,因此,可通过将
目标样本的样本数据对应的多维数值型特征数据构成的集合作为第二多维特征数据集,以便作为后续风控模型的训练样本之一。
56.210、利用第一多维特征数据集和第二多维特征数据集训练第三模型。
57.其中,第三模型为用于确定目标样本的评分结果的逻辑回归风控模型。本步骤结合上述方法中步骤104的描述,故在此相同的内容不赘述。
58.基于上述图1的实现方式可以看出,本发明提供的一种风控模型的创建方法及装置,是在需要对风控模型进行创建时,先获取目标样本集中各个目标样本的样本数据,样本数据中包括类别型特征数据和数值型特征数据,通过分别将类别型特征数据进行独热(one-hot)编码,以获得多个高维稀疏特征数据,依次将隶属于同一目标样本的高维稀疏特征数据和数值型特征数据进行拼接处理,以构成第一拼接数据集利用第一拼接数据集训练第一模型,并获得第一输出结果集,将第一输出结果集作为第一多维特征数据集,通过上述方式能够避免了部分特征信息,保证了特征的完整性以及特征之间的关联关系,且可实现对样本数据的充分利用,从而保证后续模型训练的效果,通过分别将类别型特征数据进行映射编码,以获得多个低维稠密特征数据依次将隶属于同一目标样本的低维稠密特征数据和数值型特征数据进行拼接处理,以构成第二拼接数据集利用第二拼接数据集训练第二模型,并获得第二输出结果集,将第二输出结果集作为第二多维特征数据集,通过上述方式可作为与第一多维特征数据同级别的补充样本,且保证了作为第三模型的训练样本的一致性,最后利用第一多维特征数据集和第二多维特征数据集训练第三模型,从而充分的利用了样本数据对第三模型进行训练,提升了最终风控模型的训练效果,进而保证了模型后续的评估准确度。
59.进一步的,作为对上述图1-2所示方法实施例的实现,本发明实施例提供了一种风控模型的创建装置,该装置用于解决存在类别型特征数据时导致模型训练效果欠佳的问题,以保证模型后续的评估准确度。该装置的实施例与前述方法实施例对应,为便于阅读,本实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。具体如图3所示,该装置包括:
60.获取单元31,用于获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;
61.第一处理单元32,用于将所述获取单元31获得的类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成;
62.第二处理单元33,用于将所述获取单元31获得的类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成;
63.训练单元34,用于利用所述第一处理单元32获得的第一多维特征数据集和所述第二处理单元33获得的第二多维特征数据集训练第三模型,所述第三模型为用于预测所述目标样本的评分结果的逻辑回归风控模型。
64.进一步的,如图4所示,所述第一处理单元32,包括:
65.第一编码模块321,用于分别将所述类别型特征数据进行独热编码,以获得多个高维稀疏特征数据;
66.第一拼接模块322,用于依次将隶属于同一所述目标样本的所述第一编码模块321获得的高维稀疏特征数据和所述数值型特征数据进行拼接处理,以构成第一拼接数据集;
67.第一训练模块323,用于利用所述第一拼接模块322获得的第一拼接数据集训练第一模型,并获得第一输出结果集,所述第一模型为用于构建所述第一拼接数据的特征关联关系的因子分解机模型;
68.第一确定模块324,用于将所述第一训练模块323获得的第一输出结果集作为所述第一多维特征数据集。
69.进一步的,如图4所示,所述第二处理单元33,包括:
70.第二编码模块331,用于分别将所述类别型特征数据进行映射编码,以获得多个低维稠密特征数据;
71.第二拼接模块332,用于依次将隶属于同一所述目标样本的所述第二编码模块331获得的低维稠密特征数据和所述数值型特征数据进行拼接处理,以构成第二拼接数据集;
72.第二训练模块333,用于利用所述第二拼接模块332获得的第二拼接数据集训练第二模型,并获得第二输出结果集,所述第二模型为用于将第二拼接数据映射为多维数值型特征数据的深度神经网络模型;
73.第二确定模块334,用于将所述第二训练模块333获得的第二输出结果集作为第二多维特征数据集。
74.进一步的,如图4所示,在获取目标样本集中各个目标样本的样本数据之前,所述装置还包括:
75.抽取单元35,用于抽取预设数量的历史样本,以构成历史样本集;
76.第一确定单元36,用于确定所述抽取单元35获得的历史样本集中的所述历史样本的正负样本比例;
77.判断单元37,用于判断所述第一确定单元36获得的正负样本比例是否处于预设阈值范围内;
78.第二确定单元38,用于若判断单元37判断所述正负样本比例不处于预设阈值范围内,则确定所述历史样本集为所述目标样本集。
79.进一步的,如图4所示,所述第一确定单元36,包括:
80.获取模块361,用于获取所述历史样本集中各个所述历史样本的关联信息,所述关联信息至少包括基本属性、行为表现、风险指标和征信信息;
81.判断模块362,用于依次判断所述获取模块361获得的关联信息是否符合业务规则,所述业务规则为确定所述关联信息对应的所述历史样本为正样本的匹配规则;
82.第三确定模块363,用于若所述判断模块362判断所述关联信息符合业务规则,则确定所述关联信息对应的所述历史样本为正样本;
83.第四确定模块364,用于若所述判断模块362判断所述关联信息不符合业务规则,则确定所述关联信息对应的所述历史样本为负样本;
84.第五确定模块365,用于基于所述历史样本集中所述历史样本的第三确定模块363获得的正样本数量和第四确定模块364获得的负样本数量确定所述正负样本比例。
85.进一步的,如图4所示,若判断所述正负样本比例不处于预设阈值范围内,所述装置还包括:
86.调整单元39,用于基于所述正负样本比例动态调整所述目标样本集中的所述历史样本的所述正样本数量和/或所述负样本数量,以使得调整后的目标样本集中所述历史样本的所述正负样本比例处于所述预设阈值范围内。进一步的,本发明实施例还提供一种存储介质,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述图1-2中所述的风控模型的创建方法。
87.进一步的,本发明实施例还提供一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述图1-2中所述的风控模型的创建方法。
88.在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的关联描述。
89.可以理解的是,上述方法及装置中的关联特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
90.所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
91.在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有关联。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
92.此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
93.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
94.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
95.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
96.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一
个方框或多个方框中指定的功能的步骤。
97.在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
98.存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
99.计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
100.还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
101.本领域技术人员应明白,本技术的实施例可提供为方法、系统或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
102.以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。
技术特征:1.一种风控模型的创建方法,其特征在于,包括:获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成;将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成;利用所述第一多维特征数据集和所述第二多维特征数据集训练第三模型,所述第三模型为用于确定所述目标样本的评分结果的逻辑回归风控模型。2.根据权利要求1所述的方法,其特征在于,将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成,包括:分别将所述类别型特征数据进行独热编码,以获得多个高维稀疏特征数据;依次将隶属于同一所述目标样本的所述高维稀疏特征数据和所述数值型特征数据进行拼接处理,以构成第一拼接数据集;利用所述第一拼接数据集训练第一模型,并获得第一输出结果集,所述第一模型为用于构建所述第一拼接数据的特征关联关系的因子分解机模型;将所述第一输出结果集作为所述第一多维特征数据集。3.根据权利要求1所述的方法,其特征在于,将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成,包括:分别将所述类别型特征数据进行映射编码,以获得多个低维稠密特征数据;依次将隶属于同一所述目标样本的所述低维稠密特征数据和所述数值型特征数据进行拼接处理,以构成第二拼接数据集;利用所述第二拼接数据集训练第二模型,并获得第二输出结果集,所述第二模型为用于将第二拼接数据映射为多维数值型特征数据的深度神经网络模型;将所述第二输出结果集作为第二多维特征数据集。4.根据权利要求1所述的方法,其特征在于,在获取目标样本集中各个目标样本的样本数据之前,所述方法还包括:抽取预设数量的历史样本,以构成历史样本集;确定所述历史样本集中的所述历史样本的正负样本比例;判断所述正负样本比例是否处于预设阈值范围内;若是,则确定所述历史样本集为所述目标样本集。5.根据权利要求4所述的方法,其特征在于,确定所述历史样本集中的所述历史样本的正负样本比例,包括:获取所述历史样本集中各个所述历史样本的关联信息,所述关联信息至少包括基本属性、行为表现、风险指标以及征信信息中的一个;依次判断所述关联信息是否符合业务规则,所述业务规则为确定所述关联信息对应的所述历史样本为正样本的匹配规则;
若符合,则确定所述关联信息对应的所述历史样本为正样本;若不符合,则确定所述关联信息对应的所述历史样本为负样本;基于所述历史样本集中所述历史样本的正样本数量和负样本数量确定所述正负样本比例。6.根据权利要求4-5所述的方法,其特征在于,若判断所述正负样本比例不处于预设阈值范围内,所述方法还包括:基于所述正负样本比例动态调整所述目标样本集中的所述历史样本的所述正样本数量和/或所述负样本数量,以使得调整后的目标样本集中所述历史样本的所述正负样本比例处于所述预设阈值范围内。7.一种风控模型的创建装置,其特征在于,包括:获取单元,用于获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;第一处理单元,用于将所述获取单元获得的类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维特征数据构成;第二处理单元,用于将所述获取单元获得的类别型特征数据和所述数值型特征数据处理为第二多维特征数据集,所述第二多维特征数据集由已经构建特征高维映射后的多个第二多维特征数据构成;训练单元,用于利用所述第一处理单元获得的第一多维特征数据集和所述第二处理单元获得的第二多维特征数据集训练第三模型,所述第三模型为用于预测所述目标样本的评分结果的逻辑回归风控模型。8.根据权利要求7所述的装置,其特征在于,所述第一处理单元,包括:第一编码模块,用于分别将所述类别型特征数据进行独热编码,以获得多个高维稀疏特征数据;第一拼接模块,用于依次将隶属于同一所述目标样本的所述高维稀疏特征数据和所述数值型特征数据进行拼接处理,以构成第一拼接数据集;第一训练模块,用于利用所述第一拼接数据集训练第一模型,并获得第一输出结果集,所述第一模型为用于构建所述第一拼接数据的特征关联关系的因子分解机模型;第一确定模块,用于将所述第一输出结果集作为所述第一多维特征数据集。9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1至权利要求6中任意一项所述的风控模型的创建方法。10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1至权利要求6中任意一项所述的风控模型的创建方法。
技术总结本发明公开了一种风控模型的创建方法及装置,涉及信贷风控技术领域。本发明主要的技术方案为:获取目标样本集中各个目标样本的样本数据,所述样本数据中包括类别型特征数据和数值型特征数据;将所述类别型特征数据和所述数值型特征数据处理为第一多维特征数据集,所述第一多维特征数据集由已经构建特征关联关系后的多个第一多维数值型特征数据构成;将所述类别型特征数据和所述数值型特征数据处理为第二多维特征数据集;利用所述第一多维特征数据集和所述第二多维特征数据集训练第三模型,所述第三模型为用于预测所述目标样本的评分结果的逻辑回归风控模型。本发明用于风控模型的创建。型的创建。型的创建。
技术研发人员:武一凡 冯鑫
受保护的技术使用者:百融至信(北京)征信有限公司
技术研发日:2022.07.25
技术公布日:2022/11/1