1.本发明涉及机器学习领域,是一种基于海量科研资料的课题立项决策推荐方法及装置。
背景技术:2.对于新课题的立项决策,基于历史海量科研资料数据信息及其携带的多维度属性信息,从中快速的针对课题基本信息、关键信息标签和第三方系统获取的相关数据以及单位、技术、科研人员等科研要素进行对比分析,实现基于标签体系的技术分析和立项评估功能。主要解决了如何从多角度全面的分析历史课题信息,服务于新课题的立项决策工作。
技术实现要素:3.针对上述需求,为了实现科研资料的要素对比分析与立项决策推荐,本发明提供了一种基于海量科研资料的课题立项决策推荐方法及装置,用于支撑和辅助科研立项决策工作。
4.本发明的技术内容包括:
5.一种基于海量科研资料的课题立项决策推荐方法,所述方法包括:
6.收集科研资料样本,并根据课题样本的课题属性进行属性特征的抽取;
7.基于所述课题属性的数量,对所述bp神经网络的神经元初始权值与阈值进行初始实数编码,得到若干个基因染色体;
8.将所述属性特征输入bp神经网络进行训练,并以期望数据样本与预测数据样本相应的误差函数作为个体适应度函数,进行遗传算法计算,得到最佳个体基因染色体;
9.基于所述到最佳个体基因染色体,初始化所述bp神经网络;
10.利用所述属性特征对遗传算法改进后的bp神经网络进行训练,得到决策推荐模型;
11.基于所述决策推荐模型,获取目标课题的推荐结果。
12.进一步地,所述收集科研资料样本,并根据课题样本的课题属性进行属性特征的抽取,包括:
13.收集科研资料样本,所述收集科研资料样本包括:历年课题数据接入、第三方数据接入、业务导入数据、标签数据、用户信息和在使用系统过程中产生的日志数据;
14.对科研资料样本进行清洗并保存;
15.根据课题样本的课题属性进行属性特征的抽取;其中,所述课题属性包括:课题id、承担单位id、研究方向、研究时间和课题种类。
16.进一步地,所述对分类后的科研资料样本进行清洗并保存,包括:
17.对于所述科研资料样本的用户数据,保留用户描述信息、用户行为数据中与科研课题相关的操作信息;
18.对于科研数据,保留课题的描述信息、系统标注的课题成果数据以及课题效益信
息;
19.将用户相关的描述信息和行为信息存储到mysql_user数据库;
20.将课题相关的描述信息以及成果效益信息以及存储到单独的mysql_subject数据库;
21.将清洗后的各类科研资料样本保存到hive数据仓库。
22.进一步地,所述基于所述课题属性的数量,对所述bp神经网络的神经元初始权值与阈值进行初始实数编码,得到若干个基因染色体,包括:
23.计算所述课题属性的数量为m;
24.将所述bp神经网络中输入层与所述隐含层的神经元数量分别设为m;
25.将所述bp神经网络中输出层的神经元数量分别设为1;
26.将权重个数p设为m
×
m+m
×
1;
27.将阈值个数q设为m+1;
28.计算基因染色体长度l=p+q;
29.基于所述基因染色体长度l,为种群构造初始实数编码,得到若干个基因染色体。
30.进一步地,所述将所述属性特征输入bp神经网络进行训练,并以期望数据样本与预测数据样本相应的误差函数作为个体适应度函数,进行遗传算法计算,得到最佳个体基因染色体,包括:
31.设定种群数目、遗传进化代数、交叉概率及变异概率;其中,每一种群中的任一个体都涵盖所述bp神经网络结构以及相应的初始参数值;
32.将所述属性特征输入bp神经网络进行训练,把期望数据样本与训练预测输出的数据样本进行误差函数计算;
33.将误差函数作为个体适应度函数,计算种群中每个个体的个体适应度值;
34.基于所述个体适应度值,经过反复迭代的选择操作、交叉操作以及变异遗传操作,让现有每个种群完成遗传操作,并产生下一代新种群;
35.判断是否完成进化到达最大进化代数:
36.若是,则比较种群中每个个体的适应度选出最佳个体基因染色体;
37.若否,则返回至所述将所述属性特征输入bp神经网络进行训练,把期望数据样本与训练预测输出的数据样本进行误差函数计算。
38.进一步地,个体适应度值其中,k为系数,n为bp神经网络输出节点数;yi为bp神经网络第i个节点的期望输出;oi为第i个节点的实际输出。
39.进一步地,所述利用所述属性特征对遗传算法改进后的bp神经网络进行训练,得到决策推荐模型,包括:
40.将所述属性特征输入遗传算法改进后的bp神经网络;
41.计算得到中间层与输出层的值,比较输出层的值与教师信号值的误差,并用误差函数,计算网络误差;
42.计算中间各层误差信号,更新中间层和输出层权值和阈值;
43.更新权值阈值后,再次将所述属性特征作为输入,得到中间层与输出层的值,计算所述网络误差,并判断均方误差是否小于误差上限:
44.若是,则训练结束,得到决策推荐模型;
45.若否,则返回至更新权值阈值后,再次将所述属性特征作为输入,直到所述均方误差小于误差上限,以得到决策推荐模型。
46.进一步地,所述方法,还包括:
47.使用ssm框架构建web页面;
48.依据所述web页面,对目标课题的推荐结果进行展示。
49.一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法。
50.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一方法。
51.与现有技术相比,本发明的积极效果为:
52.本发明让用户基于历史课题更快更好的全面了解一个新课题的研究内容、关键技术等要素指标,从而对立项与否起到辅助决策的作用;主要的研究方法包括:基于海量历史科研课题数据,采用阻尼最小二乘法调整网络连接权值再结合遗传算法优化网络初始权值和阈值的推荐算法,进一步支撑和辅助科研立项决策工作。
附图说明
53.图1本发明的方法流程图。
具体实施方式
54.为了使本发明的目的、方案及优点更加清楚明白,以在真实数据集上进行的实验为例,对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
55.本发明的课题立项决策推荐方法,首先录入历史科研课题研究方向、关键技术指标、经费、验收成绩等信息,建立基于人工神经网络的立项决策推荐模型;输入模块输入新课题的基本信息,决策模块对关键信息进行分析,运用模型对其综合要素打分,作为是否立项的辅助依据。
56.人工神经网络是学习人类大脑的神经结构而建立的多单元组合型的网络模型。神经网络的核心就是为了实现并行及分布式的信息处理功能而进行变换网络和动力学行为操作,其可以不同程度和深度地学习人类大脑神经系统的数据分析功能。
57.本发明一示例中的人工神经网络使用的是bp神经网络。该bp神经网络的优化过程可分为三个部分。第一部分构造bp神经网络,通过设置训练函数的输入输出神经元数目,形成bp神经网络结构模式,还可计算出遗传算法中个体编码值。第二部分是遗传算法优化,运用遗传算法的适应度函数,选出最优个体来优化bp神经网络的初始权值及阈值,遗传算法每个种群中的任一个体都涵盖完整神经网络的权值及阈值,并运用预测与期望之间的误差函数作为适应度函数,运算比较每个个体适应度值,再经过遗传的三个操作选择出具有最低适应度值的最佳个体。第三部分bp神经网络预测,将上一步得到的最优基因解码,并对网络的初始参数进行更新,然后训练网络计算函数输出进行预测。
58.具体来说,本发明的课题立项决策推荐方法,如图1所示,包括以下步骤:
59.步骤1:收集科研资料样本,并根据课题样本的课题属性进行属性特征的抽取。
60.本发明采用的数据来源复杂,包括历年课题数据接入、第三方数据接入、业务导入数据、标签数据、用户信息以及在使用系统过程中产生的日志数据等。因此,首先将各类数据进行清洗以及分类存储。
61.数据清洗是指保留对本发明有效的数据。对于用户数据,保留用户描述信息、用户行为数据中与科研课题相关的操作信息;对于科研数据,保留课题的描述信息,系统标注的课题成果数据以及课题效益信息。
62.本发明的分类存储是将用户相关的描述信息和行为信息存储到mysql_user数据库,将课题相关的描述信息以及成果效益信息以及存储到单独的mysql_subject数据库;同时将清洗后的上述各类数据保存到hive数据仓库中,通过sparksql,进行统计分析。
63.本发明将历史课题属性结合承担单位属性作为神经网络的输入参数值,用于学习训练出决策结果。推荐算法组合模型中非线性函数拟合的输入参数为课题属性5个(课题id,承担单位id,研究方向,研究时间,课题种类),输出参数为一个决策评分,隐含层为特征值。
64.步骤2:基于所述课题属性的数量,对所述bp神经网络的神经元初始权值与阈值进行初始实数编码,得到若干个基因染色体。
65.基于上述的课题属性(5个),本发明设置的bp神经网络输入层为5个神经元,隐含层神经元也设置为5个,输出层有1个神经元,网络结构为5-5-1形式,权值个数为5
×
5+5
×
1=30个,阈值个数为5+1=6个,所以运用遗传算法优化该神经网络的基因染色体长度为30+6=36。
66.基于该基因染色体长度,可以为种群构造初始实数编码,遗传算法每个种群中的任一个体都涵盖完整神经网络结构以及相应的初始参数值。
67.步骤3:所述属性特征输入bp神经网络进行训练,并以期望数据样本与预测数据样本相应的误差函数作为个体适应度函数,进行遗传算法计算,得到最佳个体基因染色体。
68.本步骤包括以下子步骤:
69.步骤3.1:设定种群数目、遗传进化代数、交叉概率及变异概率。
70.步骤3.2:将预处理好的学习样本输入bp神经网络进行训练,把期望数据样本与训练预测输出的数据样本进行误差函数计算。
71.步骤3.3:训练误差函数作为个体适应度函数,计算种群中每个个体的适应度值。
72.根据个体得到bp神经网络的初始权值和阈值,用训练数据训练bp神经网络后决策系统输出,把实际输出和期望输出之间的误差绝对值和期望输出作为个体适应度值f,计算公式为
[0073][0074]
式中,n为网络输出节点数;yi为bp神经网络第i个节点的期望输出;oi为第i个节点的实际输出;k为系数。
[0075]
步骤3.4:反复迭代进行选择、交叉、变异遗传操作方法,让现有每个群体完成遗传操作,并产生下一代新种群。
[0076]
本发明的遗传操作包括选择操作、交叉操作和变异操作。
[0077]
(1)选择操作
[0078]
遗传算法选择操作就是将种群中一些较优良的个体遗传复制到下一代,形成新种群,选择轮盘赌法,即基于适应度比例的选择策略.每个个体被选中的概率与其适应度大小成正比,每个个体i的选择概率p为
[0079][0080][0081]
式中,fi为个体i的适应度值,由于适应度值越小越好,所以在最优个体选择前对适应度值求倒数后新的适应度值fj选择概率成正比;k为系数;n为种群规模。
[0082]
(2)交叉操作
[0083]
交叉操作方法采用实数交叉法,是因为种群个体采用实数编码。第k个染色体ak和第1个染色体a1,在j位的交叉操作方法如下:
[0084][0085]
式中,b是[0,1]间的随机数。
[0086]
(3)变异操作
[0087]
选取第i个个体的第j个基因a
ij
进行变异,变异操作公式如下:
[0088][0089]
式中,a
max
为基因a
ij
的上界;a
min
为基因a
ij
的下界;f(g)=r2(1-g/g
max
)2;r2为一个随机数;g为当前选代次数;g
max
为最大进化次数;r为[0,1]间的随机数。
[0090]
步骤3.5:判定是否完成进化到达最大进化代数:是则完成遗传,并且比较种群中每个个体的适应度选出最佳个体,否则继续运用当前建立神经网络,转向步骤3.2。
[0091]
步骤4:基于所述到最佳个体基因染色体,初始化所述bp神经网络。
[0092]
由于每个个体都是一个实数串包含输入层与隐含层连接权值、隐含层阈值、隐含层与输出层连接权值以及输出层阈值,即种群中每个个体包含了一个神经网络结构的全部权值和阈值,当网络结构已知时,可根据个体基因编码得出一个网络所有权值和阈值。因此本发明可根据最佳个体基因染色体的解码结果,初始化所述bp神经网络。
[0093]
步骤5:利用所述属性特征对遗传算法改进后的bp神经网络进行训练,得到决策推荐模型。
[0094]
本步骤包括以下子步骤:
[0095]
步骤5.1:将预先处理好的训练样本数据提供给输入层,将课题的5个特征属性输入到bp神经网络中,作为决策系统的输入参数,同时输入期望的网络输出样本即期望的新课题评估后的决策评分,网络正向传播,训练网络。
[0096]
步骤5.2:计算得到中间层与输出层的值,比较输出层的值与教师信号值的误差,并用误差函数,计算网络误差e;
[0097][0098]
步骤5.3:按照遗传算法改进的bp神经网络模型算法进行网络学习。计算中间各层误差信号,更新中间层和输出层权值和阈值,根据w
ij
(n+1)=w
ij
(n)+δw
ij
(n),δw
ij
(n)=(j
t
(n)j(n)+μ(n)i)-1jt
(n)e(n)修正各层权值与阈值;
[0099]
步骤5.4:更新权值阈值后,再次将样本数据作为输入,得到中间层与输出层的值,计算网络误差e判断样本的均方误差是否小于误差上限。是则重复本步骤。
[0100]
步骤5.5:检查样本,看是否完全部学习样本,检查学习次数是否达到次数上限,否则返回步骤5.1,继续训练学习直到满足误差条件为止。
[0101]
步骤6:基于所述决策推荐模型,获取目标课题的推荐结果。
[0102]
全面优化后的bp神经网络既可充分实现遗传算法的全局搜索功能又可结合bp神经网络的预测能力,降低输出误差,使算法用于预测推荐更加精准。将课题信息、属性信息结合承担单位信息作为实际参数输入,利用改进的神经网络算法合理调整去权重,进行函数拟合,最后决策出新课题立项评估。
[0103]
步骤7:使用ssm框架构建web页面,对科研课题数据和要素的推荐列表进行对比展示。
[0104]
以上所述为本发明的一个实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
技术特征:1.一种基于海量科研资料的课题立项决策推荐方法,所述方法包括:收集科研资料样本,并根据课题样本的课题属性进行属性特征的抽取;基于所述课题属性的数量,对所述bp神经网络的神经元初始权值与阈值进行初始实数编码,得到若干个基因染色体;将所述属性特征输入bp神经网络进行训练,并以期望数据样本与预测数据样本相应的误差函数作为个体适应度函数,进行遗传算法计算,得到最佳个体基因染色体;基于所述到最佳个体基因染色体,初始化所述bp神经网络;利用所述属性特征对遗传算法改进后的bp神经网络进行训练,得到决策推荐模型;基于所述决策推荐模型,获取目标课题的推荐结果。2.如权利要求1所述的方法,其特征在于,所述收集科研资料样本,并根据课题样本的课题属性进行属性特征的抽取,包括:收集科研资料样本,所述收集科研资料样本包括:历年课题数据接入、第三方数据接入、业务导入数据、标签数据、用户信息和在使用系统过程中产生的日志数据;对科研资料样本进行清洗并保存;根据课题样本的课题属性进行属性特征的抽取;其中,所述课题属性包括:课题id、承担单位id、研究方向、研究时间和课题种类。3.如权利要求2所述的方法,其特征在于,所述对分类后的科研资料样本进行清洗并保存,包括:对于所述科研资料样本的用户数据,保留用户描述信息、用户行为数据中与科研课题相关的操作信息;对于科研数据,保留课题的描述信息、系统标注的课题成果数据以及课题效益信息;将用户相关的描述信息和行为信息存储到mysql_user数据库;将课题相关的描述信息以及成果效益信息以及存储到单独的mysql_subject数据库;将清洗后的各类科研资料样本保存到hive数据仓库。4.如权利要求1所述的方法,其特征在于,所述基于所述课题属性的数量,对所述bp神经网络的神经元初始权值与阈值进行初始实数编码,得到若干个基因染色体,包括:计算所述课题属性的数量为m;将所述bp神经网络中输入层与所述隐含层的神经元数量分别设为m;将所述bp神经网络中输出层的神经元数量分别设为1;将权重个数p设为m
×
m+m
×
1;将阈值个数q设为m+1;计算基因染色体长度l=p+q;基于所述基因染色体长度l,为种群构造初始实数编码,得到若干个基因染色体。5.如权利要求1所述的方法,其特征在于,所述将所述属性特征输入bp神经网络进行训练,并以期望数据样本与预测数据样本相应的误差函数作为个体适应度函数,进行遗传算法计算,得到最佳个体基因染色体,包括:设定种群数目、遗传进化代数、交叉概率及变异概率;其中,每一种群中的任一个体都涵盖所述bp神经网络结构以及相应的初始参数值;将所述属性特征输入bp神经网络进行训练,把期望数据样本与训练预测输出的数据样
本进行误差函数计算;将误差函数作为个体适应度函数,计算种群中每个个体的个体适应度值;基于所述个体适应度值,经过反复迭代的选择操作、交叉操作以及变异遗传操作,让现有每个种群完成遗传操作,并产生下一代新种群;判断是否完成进化到达最大进化代数:若是,则比较种群中每个个体的适应度选出最佳个体基因染色体;若否,则返回至所述将所述属性特征输入bp神经网络进行训练,把期望数据样本与训练预测输出的数据样本进行误差函数计算。6.如权利要求5所述的方法,其特征在于,个体适应度值其中,k为系数,n为bp神经网络输出节点数;y
i
为bp神经网络第i个节点的期望输出;o
i
为第i个节点的实际输出。7.如权利要求1所述的方法,其特征在于,所述利用所述属性特征对遗传算法改进后的bp神经网络进行训练,得到决策推荐模型,包括:将所述属性特征输入遗传算法改进后的bp神经网络;计算得到中间层与输出层的值,比较输出层的值与教师信号值的误差,并用误差函数,计算网络误差;计算中间各层误差信号,更新中间层和输出层权值和阈值;更新权值阈值后,再次将所述属性特征作为输入,得到中间层与输出层的值,计算所述网络误差,并判断均方误差是否小于误差上限:若是,则训练结束,得到决策推荐模型;若否,则返回至更新权值阈值后,再次将所述属性特征作为输入,直到所述均方误差小于误差上限,以得到决策推荐模型。8.如权利要求1-7中任一所述的方法,其特征在于,所述方法,还包括:使用ssm框架构建web页面;依据所述web页面,对目标课题的推荐结果进行展示。9.一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-8中任一方法。10.一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1-8中任一方法。
技术总结本发明公开了一种基于海量科研资料的课题立项决策推荐方法及装置,所述方法包括:收集科研资料样本,并根据课题样本的课题属性进行属性特征的抽取;基于所述课题属性的数量,对所述BP神经网络的神经元初始权值与阈值进行初始实数编码,得到若干个基因染色体;将所述属性特征输入BP神经网络进行训练,并以期望数据样本与预测数据样本相应的误差函数作为个体适应度函数,进行遗传算法计算,得到最佳个体基因染色体;基于所述到最佳个体基因染色体,初始化所述BP神经网络;利用所述属性特征对遗传算法改进后的BP神经网络进行训练,得到决策推荐模型;基于所述决策推荐模型,获取目标课题的推荐结果。本发明可以支撑和辅助科研立项决策工作。立项决策工作。立项决策工作。
技术研发人员:刘玮 李超 纪玉春 王益静 李书豪 常鹏 庹宇鹏 王晗 祁睿
受保护的技术使用者:国家计算机网络与信息安全管理中心
技术研发日:2022.07.15
技术公布日:2022/11/1