本技术涉及数据处理,具体为一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法。
背景技术:
1、病毒是地球上最常见和最丰富的生物实体之一,在微生物群落的功能中发挥着重要作用,如调控细菌种群、影响宿主代谢等。许多病毒可引起严重疾病,其发生频率和传染性对人类健康构成巨大威胁。近年来,随着新一代测序(ngs)技术和先进计算技术的发展,科学家们能够在大型宏基因组数据集中识别病毒。与通过实验室培养分离病毒的传统方法不同,ngs技术可以有效地对微生物群落中所有类型的遗传物质进行测序,无论其可培养性如何,从而展示样本的真实病毒多样性。ngs技术能够有效地从微生物群落中测序所有类型的遗传物质,从而揭示样本的真实病毒多样性。此外,ngs关于人类肠道病毒的研究揭示了病毒与人类疾病之间的重要关联,例如炎症性肠病(ibd)、严重急性营养不良(sam)和ii型糖尿病。识别病毒序列从宏基因组样本中进行病毒鉴定是所有下游病毒分析的第一个关键步骤。已经开发了一些方法来解决宏基因组样本中的病毒识别问题。然而,从宏基因组样本中识别病毒序列仍然是一项具有挑战性的任务,因为宏基因组中病毒的比例较小,且病毒的突变率较高。
2、为了在宏基因组中准确识别病毒序列,研究人员提出了多种方法,主要包括基于比对、基于基因、基于k-mer和基于深度学习的方法。基于比对的方法通过匹配查询序列和已知病毒参考基因组之间的相似性,如provide、metavir、diamond等,但这些方法在数据库构建和序列映射过程中存在执行时间长、内存消耗大的问题。基于基因的方法通过将查询序列中的基因与病毒基因数据库进行比较来识别病毒序列,但在预测短序列时性能较差。基于k-mer的方法利用k-mer频率作为序列特征,能够识别短病毒序列,但在识别短病毒序列时总体性能较低。随着过去几年深度学习方法的巨大成功,一些基于深度学习的方法已经被提出。从宏基因组中识别病毒,诸如长短期记忆(lstm)网络和卷积神经网络(cnn)是最常用的模型,如deepvirfinder、viraminer、ppr-meta等,利用不同的深度学习神经网络,能够从序列中学习更多高级特征,提高了短病毒序列的检测性能。然而,这些方法在处理短序列时仍存在准确性有待提高的问题。为了进一步提高从宏基因组数据中识别短病毒序列的性能,本技术提出了一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法(viridnet)
3、申请内容
4、本技术的目的在于提供结合多种深度学习模型路径,提高了对病毒序列的识别能力,通过动态特征融合和自注意力机制,自适应调整各路径的贡献权重,提高特征融合的准确性,利用超参数调优和训练策略优化,进一步提升模型的性能和鲁棒性的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法。
5、为了实现上述目的,本发明采用了如下技术方案:
6、本发明的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,包括以下步骤:
7、s1、从基因组数据库中提取包含病毒序列和宿主序列的训练数据集;
8、s2、对所有病毒序列和宿主序列进行独热编码和分段处理;
9、s3、构建每个序列的3-mer片段的图结构,计算每个节点的权重,得到序列的图结构特征;
10、s4、通过编码器将输入序列映射到低维潜在空间,再通过解码器重建原始序列,得到序列的潜在特征;
11、s5、将图结构特征与潜在特征进行拼接对齐;
12、s6、将拼接对齐的结构特征与潜在特征进行融合,得到融合特征;
13、s7、通过卷积长短期记忆网络对融合特征进行处理,得到序列的时空特征;
14、s8、通过transformer模型对融合特征进行处理,得到序列的全局特征;
15、s9、将时空特征和全局特征进行拼接;
16、s10、通过动态调整时空特征和全局特征的贡献权重,对拼接后的时空特征和全局特征进行融合处理;
17、s11、通过若干全连接层处理融合后的特征;
18、s12、将经过若干全连接层处理的融合后的特征输入softmax层,生成预测结果;
19、s13、通过keras tuner的贝叶斯优化对步骤s3至s12的关键超参数进行全面优化;
20、s14、通过混合损失函数和标签平滑算法减少步骤s3至s12对训练数据噪声的敏感性;
21、s15、使用最佳超参数配置训练步骤s3至s12。
22、进一步,步骤s3包括,每个序列的3-mer片段为节点,片段之间的共现关系为边;
23、通过引入注意力机制,对于每个节点i,通过公式1,计算其与邻居节点j的注意力权重αij:
24、
25、其中,w是权重矩阵,是注意力向量,是节点i的邻居集合,表示连接操作;
26、计算得到的注意力权重αij用于加权邻居节点j的特征表示,通过公式2更新节点i的特征表示h′i:
27、
28、其中,σ是激活函数。
29、进一步,步骤s4包括,编码器通过公式3,将输入序列x转换为低维表示z:
30、z=σ(wex+be), 公式3;
31、其中,we是编码器的权重矩阵,be是偏置项,σ是激活函数;
32、解码器通过公式4从特征向量z重建输入序列
33、
34、其中,wd是解码器的权重矩阵,bd是偏置项;
35、自编码器通过公式5最小化重建误差训练:
36、
37、其中,n是样本数量。
38、进一步,步骤s5包括,使用线性变换,通过公式6和公式7对图结构特征和潜在特征进行对齐:
39、z′gat=wgatzgat+bgat, 公式6;
40、z′autencoder=wautoencoderzautoender+bautoencoder, 公式7;
41、其中,wgat和wautoencoder是线性变换的权重矩阵,bgat和bautoencoder是偏置项。
42、进一步,步骤6包括,通过公式8将对齐后的图结构特征和潜在特征进行融合,得到高维特征向量zfusion:
43、zfusion=concat(z′gat,z′autoencode), 公式8;
44、利用自注意力机制,通过公式9和公式10对高维特征向量进行处理:
45、oattention=attention(zfusion), 公式9;
46、
47、其中,q,k,v分别表示查询矩阵、键矩阵和值矩阵,dk为键的维度。
48、进一步,步骤s7包括,将融合特征输入公式11中,进行一系列卷积操作,提取序列的局部空间特征:
49、oconv=relu(wconv*x+bconv), 公式11;
50、其中,*表示卷积操作,wconv和bconv分别是卷积层的权重和偏置项,relu是激活函数;
51、将提取的空间特征输入到lstm单元中处理时序信息,包括通过公式12的输入门控制输入的信息量:
52、
53、其中,σ为sigmoid激活函数,wxi、whi和wci是输入门的权重矩阵,xt是当前时刻的输入,ht-1是前一时刻的隐藏状态,ct-1是前一时刻的细胞状态,bi是偏置项,表示hadamard乘积;
54、通过公式13和公式14,遗忘门决定前一时刻的状态有多少被遗忘:
55、
56、通过公式15,遗忘门决定前一时刻的状态有多少被遗忘:
57、
58、最终的隐藏状态为公式16:
59、
60、进一步,步骤s8包括,通过公式17计算查询矩阵、键矩阵和值矩阵之间的注意力分数,生成包含全局依赖关系的特征表示:
61、
62、其中,q,k,v分别表示查询矩阵、键矩阵和值矩阵,dk为键的维度;
63、前馈神经网络通过公式18一层线性变换和激活函数对注意力输出进行处理:
64、ffn(x)=max(0,xw1+b1)w2+b2, 公式18;
65、其中,w1和w2是前馈神经网络的权重矩阵,b1和b2是偏置项,max(0,x)表示relu激活函数;
66、通过公式19和公式20进行层归一化和残差连接来稳定训练过程并提高模型的表现:
67、layernorm(x+attention(q,k,v)), 公式19;
68、layernorm(x+ffn(x)), 公式20;
69、其中,layernorm表示层归一化操作。
70、进一步,步骤s9包括:通过公式21将时空特征与全局特征进行拼接,得到高维特征向量z:
71、z=concat(hconvlstm,htransformer), 公式21;
72、步骤s10包括,对高维特征向量进行自注意力计算,通过公式22动态调整各路径的贡献权重,对时空特征与全局特征进行融合处理:
73、oattention=attention(z), 公式22;
74、步骤s11包括,通过公式23若干全连接层进一步处理自注意力机制输出的特征向量:
75、ofusion=dense(oattetion), 公式23;
76、步骤s12包括,通过公式24softmax层生成预测结果:
77、
78、进一步,步骤13包括:定义超参数搜空间,包括convlstm的隐藏层大小从50到150之间,以10为步长进行搜索;卷积滤波器数量的第一层为16到64之间,以16为步长,第二层为32到128之间,以32为步长,第三层为64到256之间,以64为步长;dropout率从0.3到0.5之间,以0.1为步长;学习率从0.001到0.01之间,采用对数刻度进行搜索;
79、通过多次迭代搜索,优化验证集的准确率,获得最优的超参数配置;
80、步骤14包括,通过公式25的混合损失函数增强模型对序列特征的区分能力:
81、lcustom=αlcross_enttopy+(1-α)lcontrastive, 公式25;
82、其中,lcross_entropy表示交叉熵损失,lcontrastive表示对比损失,α为权重系数;
83、通过公式26交叉熵进行分类:
84、
85、通过公式27对比损失度量样本间的相似性:
86、
87、其中,di表示样本间的欧氏距离,m为边界阈值,yi为标签;
88、二者结合能够提升模型的判别能力;
89、通过公式28标签平滑算法调整目标标签,减少模型对训练数据噪声的敏感性:
90、
91、其中,gtrue为原始标签,∈为平滑因子,k为类别数量;
92、目标标签由0和1调整为介于0和1之间的值。
93、进一步,步骤s15包括,采用小批量随机梯度下降进行优化,结合自定义混合损失函数和标签平滑技术,进一步提高模型的鲁棒性和准确性;监控验证集的损失和准确率,通过早停策略防止过拟合;当验证集性能不再提升时,提前终止训练。
94、与现有技术相比,本技术的有益效果是:
95、本技术结合了图注意力网络(gat)、自编码器(autoencoder)、卷积长短期记忆网络(convlstm)和transformer四种模型路径,分别提取序列的图结构特征、潜在特征、时空特征和全局特征,提供更加全面和细致的特征表示;通过引入自注意力机制,模型能够根据输入序列的特征自适应地调整各路径的贡献权重,从而提高特征融合的准确性;在序列嵌入阶段,利用gat和自编码器进行序列嵌入,捕捉长距离依赖关系和潜在特征,使得嵌入表示更加丰富和准确;在多模态特征提取阶段,采用convlstm和transformer模型路径,提取时空和全局特征,增强模型对序列的综合理解能力;过超参数调优和训练策略优化,进一步提升了模型的性能和鲁棒性;本技术结合多种深度学习模型路径,提高了对病毒序列的识别能力,通过动态特征融合和自注意力机制,自适应调整各路径的贡献权重,提高特征融合的准确性,利用超参数调优和训练策略优化,进一步提升模型的性能和鲁棒性。
技术实现思路
1.一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤s3包括,每个序列的3-mer片段为节点,片段之间的共现关系为边;
3.根据权利要求2所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤s4包括,编码器通过公式3,将输入序列x转换为低维表示
4.根据权利要求3所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤s5包括,使用线性变换,通过公式6和公式7对图结构特征和潜在特征进行对齐:
5.根据权利要求4所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤6包括,通过公式8将对齐后的图结构特征和潜在特征进行融合,得到高维特征向量zfusion:
6.根据权利要求1所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤s7包括,将融合特征输入公式11中,进行一系列卷积操作,提取序列的局部空间特征:
7.根据权利要求6所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤s8包括,通过公式17计算查询矩阵、键矩阵和值矩阵之间的注意力分数,生成包含全局依赖关系的特征表示:
8.根据权利要求1所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤s9包括:通过公式21将时空特征与全局特征进行拼接,得到高维特征向量z:
9.根据权利要求1所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤13包括:定义超参数搜空间,包括convlstm的隐藏层大小从50到150之间,以10为步长进行搜索;卷积滤波器数量的第一层为16到64之间,以16为步长,第二层为32到128之间,以32为步长,第三层为64到256之间,以64为步长;dropout率从0.3到0.5之间,以0.1为步长;学习率从0.001到0.01之间,采用对数刻度进行搜索;
10.根据权利要求9所述的一种用于增强宏基因组数据中病毒识别的多模态注意力深度学习方法,其特征在于,步骤s15包括,采用小批量随机梯度下降进行优化,结合自定义混合损失函数和标签平滑技术,进一步提高模型的鲁棒性和准确性;监控验证集的损失和准确率,通过早停策略防止过拟合;当验证集性能不再提升时,提前终止训练。