本发明涉及生物信息学,特别涉及一种circrna-疾病关联预测系统。
背景技术:
1、环状rna(circrna)是具有稳定环状构象的内源性非编码rna分子。在以往研究中都认为是转录过程中产生的噪声,如今被发现circrna参与细胞生命周期的方方面面,包括转录、细胞分化、细胞转运、细胞凋亡、代谢过程等等,不仅如此,circrna也被发现与人类的各类疾病包括白血病、糖尿病、前列腺癌、肺癌、结肠癌、心血管疾病等等有密切关联。因此对于测circrna与疾病之间的关联关系的预测能够指导预防重大疾病的发生。
2、由于circrna与疾病之间的关系错综复杂,进行circrna相关的生物实验花费大量的财力物力且耗费时间,使用计算机辅助实验成为当下行之有效的研究方法。如今高通量技术与人工智能发展迅速,大量生物工具和计算机算法被提出来探索circrna与疾病之间的关系。众多与之相关的数据库的建立也为计算机算法更准确的分析关联关系提供了必要前提。
3、随着计算技术的发展,出现了多种预测circrna与疾病关联的方法,研究人员结合传统的机器学习方法,如支持向量机、随机森林、矩阵分解进行随机游走等方法,构建了许多有效的计算模型,然而这些方法难以挖掘深层信息,无法结合多种数据源且无法防止过拟合,从而导致circrna-疾病关联预测准确率低。
技术实现思路
1、本发明目的是为了解决现有circrna-疾病关联预测还存在预测准确率低的问题,而提出了一种circrna-疾病关联预测系统。
2、一种circrna-疾病关联预测系统,包括:circrna-疾病关联网络构建模块、疾病语义相似度得分获取模块、circrna功能相似性值矩阵获取模块、集成相似性值获取模块、正负样本集获取模块、正样本特征集获取模块、负样本特征集获取模块、circrna-疾病关联关系预测模型获取模块、circrna-疾病关联关系预测模块;
3、所述circrna-疾病关联网络构建模块用于根据已知circrna-疾病关联关系构建circrna-疾病关联矩阵r,并将circrna-疾病关联矩阵r中的疾病发送给疾病语义相似度得分获取模块,将circrna-疾病关联矩阵r中的circrna发送给circrna功能相似性值矩阵获取模块,将circrna-疾病关联矩阵r发送给正样本特征集获取模块和circrna-疾病关联关系预测模型获取模块;
4、所述疾病语义相似度得分获取模块用于获取疾病间的语义相似度得分,并将疾病间的语义相似度得分矩阵发送给集成相似性值获取模块;
5、所述circrna功能相似性值矩阵获取模块用于获取circrna间的功能相似性值,并将circrna间的功能相似性值矩阵发送给集成相似性值获取模块;
6、所述集成相似性值获取模块利用疾病间的语义相似度得分获取疾病间的集成相似性值,利用circrna间的功能相似性值获取circrna间的集成相似性值,并将疾病间的集成相似性值和circrna间的集成相似性值发送给正负样本集获取模块;
7、所述正负样本集获取模块利用疾病间的集成相似性值构建疾病特征向量,利用circrna间的集成相似性值构建circrna特征向量,并将疾病特征向量和circrna特征向量组合为circrna-疾病对样本,为circrna-疾病对样本设定0或1标签,标签为1的circrna-疾病对组成正样本集,标签为0的circrna-疾病对组成负样本集,并将正样本集发送给正样本特征集获取模块,负样本集发送给负样本特征集获取模块;
8、所述正样本特征集获取模块采样自编码器,利用正样本集和circrna-疾病关联矩阵r作为训练集,利用训练集训练自编码器,获得训练好的自编码器和正样本特征集,并将训练好的自编码器参数发送给负样本特征集获取模块,正样本特征集发送给circrna-疾病关联关系预测模型获取模块;
9、所述负样本特征集获取模块上部署自编码器并按照正样本特征集获取模块获得的训练好的自编码器参数更新参数,将负样本集输入到训练好的自编码器中获得负样本特征集,将负样本特征集发送给circrna-疾病关联关系预测模块;
10、所述circrna-疾病关联关系预测模型获取模块利用正样本特征集和circrna-疾病关联矩阵r训练node2vec分类器,将训练好的node2vec分类器作为circrna-疾病关联关系预测模型,将circrna-疾病关联关系预测模型参数发送给circrna-疾病关联关系预测模块;
11、所述circrna-疾病关联关系预测模块上部署node2vec分类器,node2vec分类器的参数根据circrna-疾病关联关系预测模型参数同步更新;所述circrna-疾病关联关系预测模块用于获取待预测circrna-疾病对,并利用负样本特征集获得待预测circrna-疾病对特征,将待预测circrna-疾病对特征输入到circrna-疾病关联关系预测模型,获得待预测circrna-疾病对的关联概率。
12、进一步地,所述circrna-疾病关联网络构建模块用于根据已知circrna-疾病关联关系构建circrna-疾病关联矩阵r,具体为:
13、首先,从circr2disease数据库中获得人类circrna和疾病,将circrna作为行,疾病作为列组成circrna-疾病关联矩阵r;
14、然后,将circr2disease数据库存储的circrna-疾病对关联概率存储到circrna-疾病关联矩阵r的对应位置上,其他位置存储空格。
15、进一步地,所述疾病语义相似度得分获取模块用于获取疾病间的语义相似度得分,具体为:
16、
17、其中,sd(dj,dj')是疾病dj与疾病dj'的语义相似度得分,是疾病图中疾病dj的祖先疾病集合,是疾病图中疾病dj'的祖先疾病集合,是疾病图中疾病dj和疾病dj'的祖先疾病集合的交集,t是任意一种疾病,是疾病t对疾病dj的语义价值,是t对疾病dj'的语义价值,μ是语义贡献,是疾病t对疾病dx的语义价值,nd取或或dx取dj或dj',d'是dx的祖先疾病的子疾病。
18、进一步地,所述circrna功能相似性值矩阵获取模块用于获取circrna间的功能相似性值,具体为:
19、
20、其中,fs(ci,ci')是circrnaci与circrnaci'的功能相似性值,di是与ci相关的疾病组,di'是与ci'相关的疾病组,q是与ci相关的疾病标号,r是与ci'相关的疾病标号,dq是疾病组di中的疾病,dr是疾病组di'中的疾病,s(dq,di')是疾病dq与疾病组di'之间的相似性值,s(dr,di)是疾病dr与疾病组di之间的相似性值,|di|是疾病组di中的疾病总数,|di'|是疾病组di'中的疾病总数,sd(dq,dr)是疾病dq与疾病dr之间的相似度。
21、进一步地,所述利用疾病间的语义相似度得分获取疾病间的集成相似性值,具体为:
22、
23、其中,dsim(dj,dj')是疾病dj与疾病dj'的集成相似性值,dgk(dj,dj')是疾病dj与疾病dj'之间的gip核相似性值。
24、进一步地,疾病dj与疾病dj'之间的gip核相似性值dgk(dj,dj'),具体为:
25、dgk(dj,dj')=exp(-λ'||r(dj)-r(dj')||2)
26、
27、其中,λ'是正则化参数,r(dj)是r中的第j列,r(dj')是r中的第j'列,nd是疾病的总数。
28、进一步地,所述利用circrna间的功能相似性值获取circrna间的集成相似性值,具体为:
29、
30、其中,csim(ci,ci')是circrnaci与ci'的集成相似性值,cgk(ci,ci')是circrnaci与circrnaci'之间的gip核相似性值。
31、进一步地,circrnaci与circrnaci'之间的gip核相似性值cgk(ci,ci'),具体为:
32、cgk(ci,ci')=exp(-λ||r(ci)-r(ci')||2)
33、
34、其中,λ是核宽带控制参数,r(ci)是矩阵r中的第i行,r(ci')是矩阵r中的第i'行,nc是circrna的总数。
35、进一步地,所述正负样本集获取模块利用疾病间的集成相似性值构建疾病特征向量,利用circrna间的集成相似性值构建circrna特征向量,并将疾病特征向量和circrna特征向量组合为circrna-疾病对样本,为circrna-疾病对样本设定0或1标签,标签为1的circrna-疾病对组成正样本集,标签为0的circrna-疾病对组成负样本集,具体为:
36、b1、利用疾病间的集成相似性值构建疾病特征向量,利用circrna间的集成相似性值构建circrna特征向量;
37、所述疾病特征向量为疾病dj和所有其他疾病的集成相似性值组成的向量;
38、所述circrna特征向量为circrnaci和所有其他circrna的集成相似性值组成的向量;
39、b2、按照r中存储的circrna-疾病对,将疾病特征向量与对应的circrna特征向量组合,获得circrna-疾病对样本;
40、b3、将r中有概率值位置对应circrna-疾病对样本标签设置为1,将r中空格位置对应的circrna-疾病对样本标签设置为0,将标签为1的circrna-疾病对样本集作为正样本集,将标签为0的circrna-疾病对样本集作为负样本集。
41、进一步地,所述自编码器为包括两个隐藏层的自编码器;
42、采用二元交叉熵作为损失函数训练自编码器;
43、所述自编码器的隐藏层输出正样本特征,所有正样本特征构成正样本特征集。
44、本发明的有益效果为:
45、本发明首先计算circrna-circrna相似性值以及疾病间语义相似度值,从而获得circrna间的集成相似性值和疾病间的集成相似性值,然后通过circrna间的集成相似性值和疾病间的集成相似性值分别构建circrna和疾病特征向量,整合这些特征向量构建circrna-疾病对样本,之后为circrna-疾病对样本分配标签,从而获得训练样本,将训练样本输入深度自编码器生成抽象特征,最后利用生成的抽象特征和node2ve分类器推断每个未知概率的疾病与circrna的关联概率。本发明充分发挥初始circrna-疾病关联矩阵r中有限数据的作用,提高了数据的利用度与相关性计算的精确度,本发明利用自编码器和node2vec分类器结合最终推断出circrna-disease关联概率,有效地减少了预测中的不可知偏差,进一步提高了疾病与circrna关联关系预测的准确率。
1.一种circrna-疾病关联预测系统,其特征在于所述系统包括:circrna-疾病关联网络构建模块、疾病语义相似度得分获取模块、circrna功能相似性值矩阵获取模块、集成相似性值获取模块、正负样本集获取模块、正样本特征集获取模块、负样本特征集获取模块、circrna-疾病关联关系预测模型获取模块、circrna-疾病关联关系预测模块;
2.根据权利要求1所述的一种circrna-疾病关联预测系统,其特征在于:所述circrna-疾病关联网络构建模块用于根据已知circrna-疾病关联关系构建circrna-疾病关联矩阵r,具体为:
3.根据权利要求2所述的一种circrna-疾病关联预测系统,其特征在于:所述疾病语义相似度得分获取模块用于获取疾病间的语义相似度得分,具体为:
4.根据权利要求3所述的一种circrna-疾病关联预测系统,其特征在于:所述circrna功能相似性值矩阵获取模块用于获取circrna间的功能相似性值,具体为:
5.根据权利要求4所述的一种circrna-疾病关联预测系统,其特征在于:所述利用疾病间的语义相似度得分获取疾病间的集成相似性值,具体为:
6.根据权利要求5所述的一种circrna-疾病关联预测系统,其特征在于:疾病dj与疾病dj'之间的gip核相似性值dgk(dj,dj'),具体为:
7.根据权利要求6所述的一种circrna-疾病关联预测系统,其特征在于:所述利用circrna间的功能相似性值获取circrna间的集成相似性值,具体为:
8.根据权利要求7所述的一种circrna-疾病关联预测系统,其特征在于:circrnaci与circrnaci'之间的gip核相似性值cgk(ci,ci'),具体为:
9.根据权利要求8所述的一种circrna-疾病关联预测系统,其特征在于:所述正负样本集获取模块利用疾病间的集成相似性值构建疾病特征向量,利用circrna间的集成相似性值构建circrna特征向量,并将疾病特征向量和circrna特征向量组合为circrna-疾病对样本,为circrna-疾病对样本设定0或1标签,标签为1的circrna-疾病对组成正样本集,标签为0的circrna-疾病对组成负样本集,具体为:
10.根据权利要求9所述的一种circrna-疾病关联预测系统,其特征在于:所述自编码器为包括两个隐藏层的自编码器;
