基于自注意力机制的单核苷酸无义突变致病性预测系统

专利2024-04-09  106



1.本发明涉及生物信息计算领域,特别涉及一种基于自注意力机制的单核苷酸无义突变致病性预测系统。


背景技术:

2.随着基因测序技术的发展,测序成本不断降低,测序方法在生命科学和临床医疗等领域被广泛应用,由此产生了大量基因序列数据,其中与人类疾病相关的基因突变信息具有重要的研究意义。dna单核苷酸无义突变(nonsense mutation)是基因点突变中的一种特殊的突变类型,基因序列中一位碱基发生突变后,其所在的三联密码子变为了终止密码子,从而导致后续基因序列无法正常翻译。无义突变对基因序列造成的影响是巨大的,研究者们已经发现如阿尔兹海默症等疾病与无义突变有密切关联,同时也在健康个体中发现了基因无义突变的存在。通过生物实验手段研究dna无义突变的致病性成本较高,运用计算方法预测无义突变致病性成为有效途径。
3.目前已提出的相关计算方法中,无义突变都是与移码突变被归为一类进行研究,无义突变通过引入提前终止密码子影响下游序列翻译,移码插入缺失(frameshift indels)突变通过序列中碱基的插入与缺失改变阅读框进而影响下游序列,两种突变均对突变位点下游序列造成影响。移码突变相较于无义突变更为常见,目前已经提出的多种基于序列与蛋白质结构的计算方法都以移码突变为主,加入无义突变构建分类模型预测移码突变与无义突变的致病性。其中最具代表性的为ddig-in与entprise-x。ddig-in是一种基于支持向量机的分类模型,该方法结合基因序列和由其他工具预测出来的蛋白质结构特征对突变进行打分。ddig-in也是较早引入无义突变的方法之一,在此之前的计算方法如vest-indel等只关注了移码突变,ddig-in加入了对无义突变的研究,并在无义突变致病性预测上取得了较好的结果。entprise-x是基于增强回归树的分类模型,该方法根据蛋白质序列及蛋白质结构相关特征对突变进行预测评分。上述两种方法的共同点都是基于机器学习方法,以预测的蛋白质结构信息为特征构建分类模型。目前已知的蛋白质结构数量有限,使用预测的蛋白质结构结果在一定程度上会增加预测准确度的偏差。深度学习模型在蛋白质结构预测,基因剪接位点预测等多个生物信息问题中已经取得了广泛的应用,在无义突变致病性预测研究中使用深度学习进行探索仍有很大空间。
4.无义突变与移码突变从形式上看都是影响突变位点下游序列,但其本质上有很大差别。无义突变为点突变即基因序列上某一位上的碱基发生突变,而移码突变插入缺失的碱基数目不定;无义突变引入提前终止密码子导致下游序列停止翻译,而移码突变除产生提前终止密码子的情况时与无义突变相似,其余情况下下游序列均能继续翻译。由于人类疾病的异质性,诱发疾病的因素是多方面的,因此将无义突变的致病性单独预测很有必要。


技术实现要素:

5.本发明要解决的技术问题是提供一种准确率高、泛化能力强的基于自注意力机制
的单核苷酸无义突变致病性预测系统。
6.为了解决上述问题,本发明提供了基于自注意力机制的单核苷酸无义突变致病性预测系统,其包括:
7.第一通道和第二通道,所述第一通道和第二通道均包括依次设置的嵌入模块、全连接模块和encoder模块,变异前的dna序列转化成的词向量作为所述第一通道中的输入,变异后的dna序列转化成的词向量作为所述第二通道的输入;所述嵌入模块用于将dna序列转化为向量的索引;所述全连接模块用于将嵌入模块输出的特征进行非线性变化,提取特征之间的关联,并映射到输出空间上;所述encoder模块包括多层encoder层,用于提取dna序列上突变位点上下文序列中的抽象特征;
8.融合模块,用于截取第一通道和第二通道中突变位点上下文序列中提取到的抽象特征,并调整输出的向量形状后与经过归一化处理的生物学特征进行融合,作为多层感知机的输入;
9.多层感知机,包括多层全连接层,用于映射一组输入向量到一组输出向量,并将输出变成预测概率值。
10.作为本发明的进一步改进,所述全连接模块包括两层全连接层,每层节点均使用relu激活函数。
11.作为本发明的进一步改进,所述encoder层用于对输入的序列向量进行位置编码,经过多头注意力机制学习序列中每个位置的重要性并给出注意力评分,通过残差连接将上一层的输入与输出相加后,将transformer神经网络中的隐藏层归一化为正态分布,最后经过前馈网络与激活函数将特征矩阵传输到下一层。
12.作为本发明的进一步改进,所述encoder模块包括4层encoder层,多头注意力的头数为4。
13.作为本发明的进一步改进,在所述融合模块中,通过reshape方法调整输出的向量形状。
14.作为本发明的进一步改进,所述多层感知机包括3层全连接层,每层节点均使用relu激活函数。
15.作为本发明的进一步改进,所述多层感知机还包括dropout层以避免过拟合。
16.作为本发明的进一步改进,所述dropout层的dropout比例为0.2。
17.作为本发明的进一步改进,所述多层感知机还包括sigmoid层,所述sigmoid层通过sigmoid激活函数将输出变成预测概率值。
18.作为本发明的进一步改进,所述预测概率值为0到1,大于0.5预测为致病,小于等于0.5预测为不致病。
19.本发明的有益效果:
20.本发明基于自注意力机制的单核苷酸无义突变致病性预测系统通过截取第一通道和第二通道中突变位点上下文序列中提取到的抽象特征,并调整输出的向量形状后与经过归一化处理的生物学特征进行融合,减少了计算量,提高了预测的准确率。
21.上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
22.图1是本发明优选实施例中基于自注意力机制的单核苷酸无义突变致病性预测系统的示意图;
23.图2是本发明优选实施例中十则交叉验证结果。
具体实施方式
24.下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
25.目前已经提出的计算方法中还没有针对无义突变的大型公共数据集,数据样本较少,近几年各类数据库中无义突变数据已有较多更新,因此本发明不直接使用已有数据集,重新收集数据并划分数据集。实验数据集包括三部分,训练集,盲测集与exac验证集。
26.训练集与盲测集中所有致病性单核苷酸无义突变样本(正样本)均取自clinvar数库,以“nonsense”为搜索关键词,以“pathogenic”,“nonsense”,“single nucleotide”和“at least one star”为限制条件,获取了共计18758条致病性无义突变样本数据。所有的中性单核苷酸无义突变样本(负样本)均取自varisnp数据库,该数据库是一个中性突变基准数据库,收集了多种基因突变类型的中性突变数据,其中“neutral stop gained variants”数据集包含了11339条中性无义突变样本数据,去除其中信息不完整记录,重复数据以及与clinvar最新记录冲突的数据之后,剩余4161条中性无义突变记录。
27.为进一步测试,本发明使用了与entprise-x方法中相同的exac验证集。该数据集为exac中不包括癌症基因组图谱(the cancer genome atlas,tcga)的40482条中性无义突变数据。exac的目标是提供一个全球性的“参考集”,用于过滤掉在某些疾病患者身上观察到的无害基因突变。
28.从clinvar数据库中获取的致病性无义突变数据有18758条,而从varisnp数据库中获取的中性无义突变数据只有4161条,总数据正负样本比例为4.51:1。为降低数据不平衡造成的影响,提升系统的性能,同时为尽量避免突变位点在不同染色体上的分布偏差造成的影响,进行数据欠采样处理:根据每条中性样本突变位点的位置信息,从致病性样本中选择与该中性样本位于同一条染色体上且突变位点位置最接近的一条致病性样本,经过两轮不重复选择,保持正负样本比例为2:1,共筛选8149条致病性样本。
29.为验证系统的综合性能,从4161条中性无义突变数据中按染色体位置分布情况,每条染色体上随机选择1/20的中性数据,以及其对应的最近的致病性无义突变数据作为测试数据。如表1所示,最终的训练集中包含7916条致病性无义突变数据(正样本),3929条中性无义突变数据(负样本)。盲测集中包含的正负样本均为233条。
30.31.表1
32.为了构建一个能够准确区分有害无义突变与中性无义突变的系统,本发明使用了共23个特征对训练数据进行注释。这些特征可分为序列,保守性,剪接、转录和功能性评分4大类。
33.(1)序列相关特征
34.序列特征包括201bp长度的野生基因序列(突变位点所在三联密码子3bp长度的序列及前后各99bp长度的序列),201bp长度的突变后的序列。突变位点在染色体中的相对位置,突变位点在基因中的相对位置。
35.基因序列中鸟嘌呤(g)与胞嘧啶(c)所占的比例称为gc含量,gc含量越高,dna的密度就越高,同时热和碱不易使之变性。gc含量是基因组核酸序列组成的重要特征,其含量的变化与所在的基因起源,进化和功能突变等密切相关。本发明中计算了三种不同条件下的gc含量:201bp长度野生序列与突变后序列中gc含量,突变位点前后各75bp长度的序列中gc含量百分比。基因序列中gc含量较高的区域被称为cpg岛,不同区域中gc含量的变化对基因表达的调控和基因突变有重要作用。本发明中计算了突变位点前后各75bp长度的序列中cpg百分比与突变位点是否处于cpg岛中。
36.(2)基因序列保守性特征
37.保守性序列是指在生物进化的过程中被保留下来的特殊序列,因此这些序列往往被认为是有利于生存的,而在这些保守序列上发生的突变可能会导致生命体在进化过程中被淘汰。因此序列的保守性往往是基因突变致病性研究中的一个重要因素。本实验通过gerp++,phastcons和phylop计算了6种不同的保守性分数作为特征。
38.(3)剪接、转录相关特征
39.基因剪接是指切除基因的内含子,连接基因的外显子的过程。基因突变所发生的位置距离剪接位点的距离也是研究基因突变致病性的影响因素之一。通过seattleseq annotation得到突变位点到最近的剪接位点的距离作为特征之一。trap能够评估单核苷酸突变破坏最终转录本从而引起疾病的能力,提取trap分数作为影响转录的评价分数。
40.(4)功能性评分特征
41.目前专门针对基因无义突变致病性预测的工具很少,但对于更常见的错义突变的预测工作已经取得很好的成果。cadd对人类基因序列上的所有可能突变位点进行了预计算并且具有很高的可信度,使用cadd的两种预测评分作为功能性评分特征。并通过seattleseq annotation获取了两种不同方式的等位基因计数评分,疾病关联度评分以及蛋白质相互作用实验性置信度评分作为功能性评分特征。
42.本发明的系统为序列信息与生物学特征结合的多通道融合系统,系统结构如图1所示。系统的输入为突变前后dna序列的词向量与经过归一化处理的生物学特征。将基因序列看作是一个句子,则其中的三联密码子是句子中的单词,所以选取3作为词向量的k-mer对基因序列进行预处理。输出结果为基因单核苷酸无义突变致病的可能性,取值范围在0~1之间。
43.如图1所示,本发明优选实施例中基于自注意力机制的单核苷酸无义突变致病性预测系统包括:
44.第一通道和第二通道,所述第一通道和第二通道均包括依次设置的嵌入模块
(embedding)、全连接模块和encoder模块,变异前的dna序列转化成的词向量作为所述第一通道中的输入,变异后的dna序列转化成的词向量作为所述第二通道的输入;
45.所述嵌入模块用于将dna序列转化为向量的索引;向量在训练中会进行更新,通过索引寻找就更加高效。
46.所述全连接模块用于将嵌入模块输出的特征进行非线性变化,提取特征之间的关联,并映射到输出空间上;进一步地,所述全连接模块包括两层全连接层(fully connection,fc),每层节点均使用relu激活函数。
47.所述encoder模块包括多层encoder层,用于提取dna序列上突变位点上下文序列中的抽象特征;具体地,使用transformer神经网络中的注意力机制处理序列信息,在encoder层中会对输入的序列向量进行位置编码,经过多头注意力机制学习序列中每个位置的重要性并给出注意力评分,通过残差连接将上一层的输入与输出相加后通过layernormalization将神经网络中的隐藏层归一化为正态分布,从而达到加速收敛的效果,最后经过前馈网络与激活函数将特征矩阵传输到下一层,注意力机制能够有效获取到序列中每个位置的重要性。经过参数调整测试,最终设置了4层encoder层,多头注意力的头数为4。多头注意力机制可以将突变位点上下文序列中的抽象特征有效表示,从而提取到基因序列中的隐藏信息。
48.融合模块,用于截取第一通道和第二通道中突变位点上下文序列中提取到的抽象特征,并调整输出的向量形状后与经过归一化处理的生物学特征进行融合,作为多层感知机的输入;
49.其中,由于系统输入的基因序列为突变前的基因序列与突变后对应的序列,两个序列之间的差别仅有一个碱基。与以往的方法不同,本发明不使用整条序列中提取出的抽象特征作为下一层的输入,通过encoder层提取序列特征之后,单独截取两条通道中突变位点处提取到的特征,通过reshape方法调整输出的向量形状后与经过归一化处理的生物学特征进行融合,作为下一层的输入。
50.多层感知机(multi-layer perception,mlp),包括多层全连接层,用于映射一组输入向量到一组输出向量,并将输出变成预测概率值。
51.具体地,多层感知机包括三层全连接层,并且每层节点都带有relu激活函数。为避免过拟合,在多层感知机中加入了dropout比例为0.2的dropout层。
52.可选地,所述多层感知机还包括sigmoid层,所述sigmoid层通过sigmoid激活函数将输出变成一个范围在(0,1)之间的值。可选地,大于0.5预测为致病,小于等于0.5预测为不致病。
53.基因单核苷酸无义突变致病性预测是一个二分类问题,使用准确率(accuracy,acc),f1值(f1 score,f1),阳性预测值(positive predictive value,ppv),阴性预测值(negative predictive value,npv),灵敏度(sensitivity,sen),特异性(specificity),roc曲线下面积(the area under the receiver operating characteristic curve,auc),马修斯相关系数(matthews correlation coefficient,mcc)和总体绩效指标(overall performance measure,opm)共9项指标对预测系统进行综合评价。上述指标计算如公式(1)-(9)所示:
[0054][0055][0056][0057][0058][0059][0060][0061][0062][0063]
其中,tp表示实际为正被预测为正的样本数量,fp表示实际为负但被预测为正的样本数量,fn表示实际为正但被预测为负的样本的数量,tn表示实际为负被预测为负的样本的数量。positives表示正样本集,m表示正样本数量,n表示负样本数量。将样本的预测得分按升序排列,最低分为rank1,以此类推得到ranki。
[0064]
为验证本发明中新构建的训练集(set-chrom)是否合理有效,在完整数据集中随机抽取了正负样本比例为2:1的对比数据集(set-random)。在两个训练集上使用相同的模型进行十则交叉验证,其结果如图2所示。在9项评价指标中,在set-chrom训练集上的模型有6项是优于随机选取的训练集上的模型,其中在新构建的训练集上训练的模型mcc和opm分别达到了0.758和0.685,而在随机选取的训练集上的模型表现分别为0.655和0.562,可以看出在set-chrom上训练的模型综合性能具有明显优势。
[0065]
encoder是transformer核心模块,为验证模型中的encoder在无义突变序列中是否有效,特别构建了一个去除encoder模块的对比模型(no-attention),在set-chrom训练集上的十则交叉验证表现如图2所示。在去除encoder模块后,模型的性能有明显下降。在ppv指标上从0.921下降到0.751。可以看出模型的预测结果整体偏向负例,对正例的预测能力有很大程度的减弱。可见encoder模块在无义突变致病性预测任务中起到了重要的作用。
[0066]
已有预测无义突变致病性的工具中,性能较高的工具为entprise-x和ddig-in,但它们都是移码突变与无义突变结合的预测器,且都是以移码突变为主。为测试pon-ns的性能,在盲测集上与其他的同类工具进行对比,盲测集中的所有数据均不包含在训练集中。cadd,phd-snp,fathmm-x都是能够预测包括无义突变在内的多种单核苷酸突变的通用预测
工具。由于ddig-in的在线服务已经无法正常工作,entprise-x的输入为蛋白质变异信息,而盲测集中的数据为dna变异,目前无法直接比较。在盲测集上与另外三种工具对比,结果如表2所示,pon-ns在9项评价指标中有7项是明显高于其他工具的。在盲测集上pon-ns准确率达到了0.920并且mcc达到了0.842,具有更高的泛化性。
[0067][0068][0069]
表2
[0070]
在上述盲测集中pon-ns在预测单核苷酸无义突变致病性方面表现要明显优于其他对比工具,考虑到上述工具虽然可以预测无义突变致病性,但不是只针对无义突变进行预测的。为进一步公平地评价pon-ns的性能,借鉴entprise-x中使用的exac验证集比较方法,通过对比预测工具在全中性数据集上的误报率,间接地与ddig-in和entprise-x进行比较。结果如表3所示,其中entprise-x和ddig-in的结果均为entprise-x研究论文中的结果数据。在exac验证集上,entprise-x仅有15.7%的误报率,pon-ns误报率为25.7%,较entprise-x还有一定的差距,但是相比于同样基于dna层面进行研究的ddig-in方法的65.4%误报率,pon-ns已经有了巨大提升。
[0071]
toolsfalse positive rateentprise-x15.7%pon-ns25.7%ddig-in65.4%
[0072]
表3
[0073]
蛋白质是生命活动的承载者,往往从蛋白质序列及蛋白质结构中能够获取的衍生特征较基因序列衍生特征而言更加丰富。实际上dna数据较蛋白质数据更易获得且应用更
加广泛。同时,由于蛋白质结构的复杂性,获取准确的蛋白质结构信息仍然有较大的难度,而在dna层面上的信息表达更加直接且准确。本发明仅使用基因序列及序列衍生生物学特征构建预测系统,虽然在exac数据集上的表现不及entprise-x,但是从盲测集的结果中可以看出,pon-ns已经具有极高的准确率与泛化能力。相比于ddig-in,pon-ns是目前基于基因层面更优的无义突变致病性预测方法。
[0074]
本发明针对已有方法对无义突变致病性研究的不足之处,提出一个基于自注意力机制的多通道特征融合系统。利用transformer中的自注意力机制学习基因序列本身所隐含的特征,并单独抽取突变位点处的抽象特征结合序列衍生生化特征构建单核苷酸无义突变致病性预测模型。为提高深度学习模型训练效果,避免过拟合,收集整理了一个规模更大的无义突变数据集,并根据突变位点位置关系进行数据欠采样。实验结果证明,在本发明新构建的训练集上的模型表现要明显优于随机采样数据集上的模型。最后在盲测集中pon-ns的性能也是最佳的,在exac验证集中entprise-x的误报率要低于pon-ns,但是仅从预测中性突变的能力上无法准确评价模型的综合性能。entprise-x在训练无义突变时准确率仅为0.772,而本发明模型在训练时准确率达到了0.891,且通过盲测集上的表现证明了pon-ns具有很好的泛化能力,从侧面反应了pon-ns在预测无义突变致病性方面的综合性能已经优于entprise-x。特别的,本发明通过深度学习提取序列中的隐藏信息结合生化特征的方法已经在同样是dna层面的ddig-in的基础上取得了巨大提升。在未来的研究中将尝试引入更多序列衍生特征,并进一步优化模型结构以提升预测单核苷酸无义突变致病性的能力,从而为无义突变在生物学与临床治疗中的研究提供支持。
[0075]
以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

技术特征:
1.基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,包括:第一通道和第二通道,所述第一通道和第二通道均包括依次设置的嵌入模块、全连接模块和encoder模块,变异前的dna序列转化成的词向量作为所述第一通道中的输入,变异后的dna序列转化成的词向量作为所述第二通道的输入;所述嵌入模块用于将dna序列转化为向量的索引;所述全连接模块用于将嵌入模块输出的特征进行非线性变化,提取特征之间的关联,并映射到输出空间上;所述encoder模块包括多层encoder层,用于提取dna序列上突变位点上下文序列中的抽象特征;融合模块,用于截取第一通道和第二通道中突变位点上下文序列中提取到的抽象特征,并调整输出的向量形状后与经过归一化处理的生物学特征进行融合,作为多层感知机的输入;多层感知机,包括多层全连接层,用于映射一组输入向量到一组输出向量,并将输出变成预测概率值。2.如权利要求1所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,所述全连接模块包括两层全连接层,每层节点均使用relu激活函数。3.如权利要求1所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,所述encoder层用于对输入的序列向量进行位置编码,经过多头注意力机制学习序列中每个位置的重要性并给出注意力评分,通过残差连接将上一层的输入与输出相加后,将transformer神经网络中的隐藏层归一化为正态分布,最后经过前馈网络与激活函数将特征矩阵传输到下一层。4.如权利要求3所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,所述encoder模块包括4层encoder层,多头注意力的头数为4。5.如权利要求1所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,在所述融合模块中,通过reshape方法调整输出的向量形状。6.如权利要求1所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,所述多层感知机包括3层全连接层,每层节点均使用relu激活函数。7.如权利要求1所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,所述多层感知机还包括dropout层以避免过拟合。8.如权利要求7所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,所述dropout层的dropout比例为0.2。9.如权利要求1所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,所述多层感知机还包括sigmoid层,所述sigmoid层通过sigmoid激活函数将输出变成预测概率值。10.如权利要求1所述的基于自注意力机制的单核苷酸无义突变致病性预测系统,其特征在于,所述预测概率值为0到1,大于0.5预测为致病,小于等于0.5预测为不致病。

技术总结
本发明公开了一种基于自注意力机制的单核苷酸无义突变致病性预测系统,包括第一通道和第二通道,第一通道和第二通道均包括依次设置的嵌入模块、全连接模块和Encoder模块;融合模块用于截取第一通道和第二通道中突变位点上下文序列中提取到的抽象特征,并调整输出的向量形状后与经过归一化处理的生物学特征进行融合,作为多层感知机的输入;多层感知机,包括多层全连接层,用于映射一组输入向量到一组输出向量,并将输出变成预测概率值。本发明通过截取第一通道和第二通道中突变位点上下文序列中提取到的抽象特征,并调整输出的向量形状后与经过归一化处理的生物学特征进行融合,减少了计算量,提高了预测的准确率。提高了预测的准确率。提高了预测的准确率。


技术研发人员:杨洋 刘勇
受保护的技术使用者:苏州大学
技术研发日:2022.07.04
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-7660.html

最新回复(0)