本发明属于生物信息处理领域,更进一步涉及深度学习中的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测。本发明可用于对研发中的化合物血脑屏障渗透性进行预测。
背景技术:
1、在中枢神经系统(central nervous system, cns)化合物的研发过程中,血脑屏障(blood-brain barrier, bbb)的透过性是一个重要的指标。bbb作为一种保护大脑及其周围神经元的关键屏障,可选择性地筛选和限制大脑内部物质的进出,防止有害物质、病原体或外来物质进入脑部,同时保持大脑细胞内部环境的稳定。但是,bbb也会阻碍大多数化合物进入大脑,这为治疗大脑疾病带来了挑战。在传统的中枢神经系统化合物研发过程中,需要进行临床实验以评估化合物是否能够透过bbb并对大脑产生治疗效果。然而,这一过程需要大量资金投入和漫长的研发周期。因此,在临床实验之前能够有效预测化合物的bbb渗透性,可以帮助研发人员及时调整实验方案或优化化合物结构和性质,从而降低研发成本并提高研发效率。目前传统的bbb渗透性预测模型主要包括逻辑回归(logisticregression, lr)、支持向量机(support vector machine, svm)等。然而,这些模型的预测方法只关注smiles表达式的特征,并且面临着数据不平衡的问题:数据集中可透过bbb的化合物较多,而不可透过bbb的化合物较少,导致模型更偏向预测多数类,而对少数类的预测准确度较低,这使得这些传统模型难以满足实际化合物研发的需求。
2、公开号为cn114360660a的中文专利文献公开了一种基于多层感知机机器学习模型的bbb渗透性预测方法。该发明方法使用多层感知机学习特异性分子特征,并未关注分子结构图的特征,并且预测模型选择单一。
3、公开号为cn112802561a的中文专利文献公开了一种基于集成学习的bbb渗透性预测方法。该发明使用机器学习和集成方法学习分子指纹特征,并取其中性能最好的学习器构建最终的预测模型。该模型只关注分子指纹特征,并且在模型选择还存在一定的优化空间。
技术实现思路
1、本发明的目的是针对上述背景技术中存在的问题:(1)只关注smiles表达式信息,而忽略了分子结构图信息;(2)预测方法单一,只使用机器学习方法;(3)预测不可透过bbb化合物的准确度过低,提出了一种基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,结合分子结构图、分子指纹、分子描述符准确地预测化合物是否能够透过bbb并进行分类,有助于bbb预测模型的多样化构建,提升了bbb预测模型的构建效率与预测性能。
2、本发明还提供了一种基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测装置,将需要预测的化合物smiles表达式和分子结构图输入到该系统后,该系统即可借助预测模型预测并输出化合物的bbb渗透性,可用于辅助化合物研发。
3、术语解释:
4、bbb标签:用于表示一款化合物是否能透过bbb的标记。如果一款化合物可以透过bbb,则该化合物的bbb标签记为bbb+,否则记为bbb-。
5、简化分子线性输入规范:简化分子线性输入规范 (simplified molecular inputline entry specification,smiles)是一种运用ascii字符串明确描述分子结构的规范。
6、smiles表达式:简化分子线性输入规范表达式。smiles表达式是一种简化的分子线性输入规范表达方式,常用于表示化学结构。它由一系列的原子符号和连接符组成,能够准确描述分子的结构,以便计算机处理和存储。smiles表达式可以被大多数的分子编辑软件导入,并转换成二维图形或分子的三维模型。基于相似分子具有相似特性的化学信息学的主要原理,因此可以用于预测生化特性。通过比较分子的smiles表达式,可以快速识别相似的分子结构,进而推断它们可能具有相似的性质。
7、分子结构图:一种表示化学分子的图形结构,其中原子表示节点,化学键表示边。这些原子和化学键可以带有各种属性,例如原子的类型、电负性、价电子数、杂化状态,以及化学键的类型等。将这些属性编码为向量形式,即特征向量,可以使得机器学习模型能够有效地处理和分析分子的结构信息,进而进行诸如化合物设计、分子性质预测等任务。
8、化合物样本:化合物数据集中的每一种化合物及其各种属性,包括但不限于该化合物的smiles与bbb标签。
9、待测化合物:指需要通过模型进行血脑屏障渗透性预测的化合物样本。这些化合物可能是已知的、待开发的、或者需要评估其化合物特性的化合物。通过将待测化合物的特征向量输入训练好的模型,可以得到预测结果,即该化合物的血脑屏障渗透性分类或概率。
10、正样本:能够穿过bbb的化合物样本,bbb标签为bbb+,也称为bbb+样本。
11、负样本:不能穿过bbb的化合物样本,bbb标签为bbb-,也称为bbb-样本。
12、roc曲线:受试者工作特征曲线(receiver operating characteristic curve),是反映敏感性与特异性之间关系的曲线。其横坐标为假阳率fpr(false positive rate),代表着被错误预测为负样本的正样本数占所有负样本数的比例,纵坐标为真阳率tpr(truepositive rate),代表着被正确预测为正样本的正样本数占所有正样本数的比例。曲线下方部分的面积被称为auc(area under curve),面积越大,说明预测准确率越高。
13、se:敏感性(sensitivity),又称真阳率,代表着模型预测的所有正样本中预测成功的样本(真实标签为正)所占的比例,被用于衡量模型预测正样本的能力.
14、sp:特异性(specificity),代表着模型预测的所有负样本中预测成功的样本(真实标签为负)所占的比例,被用于衡量模型预测负样本的能力。
15、化学工具包:一种软件工具,通常是一组用于处理化学信息和分子数据的计算机程序。这些工具可以用于分子的建模、计算化学性质预测、分子结构分析等任务。一些常用的化学工具包包括rdkit、open babel、chemaxon等。这些工具包提供了丰富的功能和算法,可以用来生成分子的指纹和描述符,用于分子相似性计算、化合物筛选、定量结构-活性关系(qsar)建模等领域。
16、实现本发明的思路是,首先提取分子结构图特征集mgf、分子指纹特征集mff和分子描述符特征集mdf,之后利用特征筛选去除三种特征集中方差较小的特征,接着进行归一化操作,然后使用三元混合级融合卷积神经网络构建一个最佳预测网络,最后运用该最佳预测网络进行化合物的bbb渗透性预测。本发明实现的具体步骤如图1所示,模型框架如图3所示。
17、s1:对于获取到的化合物,提取所述化合物的smiles表达式,并利用化学工具包生成所述化合物的分子结构图;
18、s2:进行数据预处理操作:提取所述分子结构图的分子结构图特征集mgf(molecular graph features),根据smiles表达式提取所述化合物的分子指纹特征集mff(molecular fingerprint features)和分子描述符特征集mdf(molecular descriptorfeatures);对mgf进行特征筛选得到主成分结构特征集p-mgf(principal- moleculargraph features),对mff进行特征筛选得到主成分指纹特征集p-mff(principal-molecular fingerprint features),对mdf进行特征筛选得到主成分描述符特征集p-mdf(principal- molecular descriptor features);对p-mgf、p-mff、p-mdf依次进行归一化,得到归一化结构特征集、归一化指纹特征集、归一化描述符特征集;
19、s3:构建三元混合级融合卷积神经网络,设计一个三元模块处理、、依次得到第一特征、第二特征、第三特征,将、、通过拼接层得到融合特征,依次运用全连接层、输出层来处理,预测得到所述化合物的bbb标签;
20、s4:训练所述三元混合级融合卷积神经网络,将、、输入到所述三元混合级融合卷积神经网络中,进行参数调整以得到最佳预测网络;
21、s5:运用所述最佳预测网络进行化合物bbb渗透性预测。
22、进一步地,步骤s2所述的数据预处理操作如图4所示,具体步骤如下:
23、s21:构建增强邻居注意力网络an-gat对所述分子结构图进行特征提取,得到mgf;使用maccs键(molecular access system keys)来编码分子的结构信息生成所述化合物的mff;使用化学工具包来生成所述化合物的mdf,如形状、大小、电荷等,其中所述化学工具包包括但不限于rdkit;
24、进一步地,构建an-gat的具体步骤如下:
25、s211:在所述分子结构图中,对于任意相邻的原子i和j,计算它们之间的注意力得分;通过对i和j的特征向量和进行立方根变换,降低较大值与较小值之间的差距,从而使mgf特征集中在一个较小的范围内,这有助于提高模型的稳定性和泛化能力;加上常数项1进行平移,保证即使在特征为零的情况下,也不会导致公式为零,从而避免出现零错误;的计算公式如下所示:
26、<msub><mi>e</mi><mi>ij</mi></msub><mi>=relu(w⋅[</mi><msup><mrow><mi>(</mi><mroot><msub><mi>h</mi><mi>i</mi></msub><mn>3</mn></mroot><mi>+1)</mi></mrow><mn>2</mn></msup><mi>⊕</mi><msup><mrow><mi>(</mi><mroot><msub><mi>h</mi><mi>j</mi></msub><mn>3</mn></mroot><mi>+1)</mi></mrow><mn>2</mn></msup><mi>])</mi>
27、其中,是注意力权重矩阵,表示特征拼接操作,是激活函数,和是i和j的特征向量,其中特征向量是通过将原子和化学键的属性编码成数值形式而得到的,具体来说,原子类型、原子序数等原子属性采用独热编码进行编码,键类型、键长、键极性等化学键属性类似地进行编码,通过将这些编码后的属性值合并,为每个原子和化学键生成相应的特征向量;
28、s212:对所述的进行归一化,得到注意力系数,其中归一化操作是通过将每个的指数值除以所有相邻原子的指数值之和来实现的,对进行平方操作,这个操作有助于突出重要的原子特征,使得模型更加关注与当前原子特征相似的邻居原子特征;通过调节参数z的大小来影响原子的特征更新,使用以下公式更新i特征向量:
29、
30、其中,表示更新后的原子i的特征向量,表示原子 j的特征向量,z表示调节求和结果幅度的参数,表示与原子i相邻的原子集合,表示的指数函数;
31、s213:重复执行s211和s212,直到达到预设的迭代次数。
32、s22:构造自适应特征筛选方法,依次针对mgf、mff和mdf进行特征筛选操作,去除方差较小的特征,得到筛选后的特征集依次为p-mgf、p-mff、p-mdf;其中,对mgf进行特征筛选得到p-mgf,对mff进行特征筛选得到p-mff,对mdf进行特征筛选得到p-mdf;
33、进一步地,自适应特征筛选方法的具体步骤如下:
34、s221:计算初始阈值,计算公式如下所示:
35、
36、其中,是预设的调节因子,用于确定的大小,是mgf、mff或mdf中所有特征的方差的平均值;
37、s222:使用判断mgf、mff、mdf中每一个特征h的重要性,当h的方差低于,则认为h是不重要的或者不具有足够的信息量,h被舍弃,统计被舍弃的h数量;
38、s223:根据动态调整阈值,如果大于警戒值m,说明阈值过高,需要逐步降低阈值;反之,说明阈值过低,需要逐步提高阈值,具体公式如下所示:
39、
40、其中,是当前阈值,是在基础上调整后的阈值,是小于1的调整因子,是大于1的调整因子,用于控制阈值的调整步长;警戒值m可以根据实际情况设置。
41、s224:重复执行s221至s223,直到阈值处于相对合适的区间内,所述区间可根据实际情况设置。
42、s23:构造尺度调整归一化方法,对p-mgf、p-mff、p-mdf分别计算归一化值,依次得到、、,其中对p-mgf归一化得到,对p-mff归一化得到,对p-mdf归一化得到;具体的归一化公式如下式所示:
43、
44、其中,为p-mgf、p-mff或者p-mdf中的特征,为p-mgf、p-mff或者p-mdf经过归一化处理后的特征,i的取值范围为{1,2,3},为p-mgf、p-mff或者p-mdf中对应特征的平均值,是对应特征的标准差,为p-mgf、p-mff或者p-mdf中对应特征的最小值,和是与bbb透过性相关的调节因子,是一个微小的偏移量,用于避免分母为零。
45、进一步地,步骤s3所述三元混合级融合卷积神经网络包含卷积层、池化层、拼接层、全连接层和输出层,构建三元混合级融合卷积神经网络的过程如图5所示,具体步骤如下:
46、s31:构建三元模块,所述的三元模块包括处理模块、处理模块、处理模块;
47、所述的处理模块指依次运用卷积层、池化层、全连接层来处理,其中,首先利用所述卷积层对进行卷积,并使用所述池化层进行特征池化,然后通过所述全连接层进行计算,得到第一特征,计算公式如下所示:
48、
49、其中,和分别表示全连接层的权重和偏置,表示将特征图展平为一维向量,是模型平滑调整因子,用于降低特征之间的噪声影响,表示对进行卷积操作, 表示对卷积后的特征图进行池化操作;
50、所述的处理模块是依次运用卷积层、池化层、全连接层来处理,其中,首先利用所述卷积层对进行卷积,并使用所述池化层进行特征池化,然后通过所述全连接层进行计算,得到第二特征,计算公式如下所示:
51、
52、其中,表示对进行卷积操作, 表示对卷积后的特征图进行池化操作;
53、所述的处理模块是指使用所述全连接层来处理,得到第三特征,计算公式如下所示:
54、
55、s32:通过所述拼接层将、、进行拼接,得到融合特征:
56、
57、其中,表示特征拼接操作;
58、s33:依次运用全连接层、输出层来处理,在所述输出层采用激活函数进行分类,计算公式如下所示:
59、
60、其中,和是全连接层的权重和偏置,和是输出层的权重和偏置,表示矩阵的转置,表示修正线性单元激活函数,是预测的bbb标签。
61、进一步地,步骤s4所述的训练三元混合级融合卷积神经网络的具体步骤如下:
62、s41:将、、输入到所述三元混合级融合卷积神经网络中进行bbb标签预测,得到bbb预测标签数据;
63、s42:对所述bbb预测标签数据和真实标签进行损失计算,具体的计算公式如下:
64、
65、其中,是样本数量,是第i个样本的真实标签,是第i个样本的bbb预测标签,是损失函数值,表示预测标签与真实标签的差异,数值越小表示模型预测越准确;
66、s43:调整所述三元混合级融合卷积神经网络的权重参数,具体的调整公式如下:
67、
68、其中,是学习率,是正则化系数,代表训练样本的数量,表示关于的偏导数, 是神经网络的第层的权重参数, 是更新后的第层的权重参数;
69、s44:重复执行s41到s43,直至收敛或达到预设的迭代次数,将经参数调整后的三元混合级融合卷积神经网络作为所述最佳预测网络,所述迭代次数可根据实际情况设置。
70、进一步地,步骤s5所述的化合物bbb渗透性预测的具体步骤如下:
71、将待测化合物经过s1和s2,得到所述待测化合物的归一化结构特征集、归一化指纹特征集、归一化描述符特征集,将、、输入至所述最佳预测网络,预测得到所述待测化合物的bbb标签。
72、本发明还提供了一种基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测装置,包括:
73、化合物数据获取模块,被配置为,获取化合物bbb数据;
74、数据预处理模块,被配置为,预处理化合物bbb数据;
75、构建三元混合级融合卷积神经网络模块,被配置为,根据特征数据构建三元混合级融合卷积神经网络;
76、训练三元混合级融合卷积神经网络模块,被配置为,将特征数据输入至三元混合级融合卷积神经网络,以及完成参数调整得到最佳预测网络;
77、化合物bbb渗透性预测模块,被配置为,运用所述最佳预测网络进行化合物bbb渗透性预测。
78、其中,化合物数据获取模块,包括:对于获取到的化合物,提取所述化合物的smiles表达式,并利用化学工具包生成所述化合物的分子结构图;
79、数据预处理模块,包括:生成数据的特征集、完成特征筛选和归一化预处理操作;
80、构建三元混合级融合卷积神经网络模块,包括:设计一个三元模块处理特征数据,将输出结果通过拼接层得到融合特征,依次运用全连接层、输出层来处理融合特征,预测得到bbb标签;
81、训练三元混合级融合卷积神经网络模块,包括:将经过预处理的特征数据输入三元混合级融合卷积神经网络中,进行参数调整,最终获得最佳预测网络;
82、化合物bbb渗透性预测模块,包括:将待预测的化合物数据输入到所述最佳预测网络中,预测得到所述待预测的化合物对应的bbb标签。
83、本发明与现有技术相比具有以下优点:
84、第一、本专利提出对每个分子的分子结构图使用an-gat模型进行特征提取,有效地捕获了分子内部结构信息,提高了预测模型的表现力和准确性。
85、第二、本专利构建一个三元模块,其中包括处理模块、处理模块、处理模块,充分利用了不同特征的信息,提高了模型的预测能力和泛化性能。
86、第三、本专利提出的三元混合级融合卷积神经网络利用了分子结构图特征、分子指纹特征和分子描述符特征,通过三元混合级融合卷积神经网络将三种特征有效地整合在一起,使得预测模型能够从多个角度理解化合物的特性,提高了预测的准确性和稳定性。
87、第四、本专利提出的自适应特征筛选方法,去除方差较小的特征,可以自动适应bbb不同特征的变化,降低模型的复杂度,减少了过拟合的可能性,提高了模型的泛化能力。
1.一种基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于利用分子结构图特征、分子指纹特征和分子描述符特征,并使用三元混合级融合卷积神经网络预测化合物通过血脑屏障的渗透性,该方法包括以下步骤:
2.根据权利要求1所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,所述的s2中,数据预处理的具体步骤包括:
3.根据权利要求2所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,所述的s21中,构建an-gat的具体内容包括:
4.根据权利要求2所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,所述的s22中,特征筛选方法的具体步骤包括:
5.根据权利要求1所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,所述的s3中,所述三元混合级融合卷积神经网络包含卷积层、池化层、拼接层、全连接层和输出层,构建三元混合级融合卷积神经网络的具体步骤包括:
6.根据权利要求1所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,所述的s4中,训练三元混合级融合卷积神经网络的具体步骤包括:
7.一种基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测装置,用于运行权利要求1-6任一所述的基于三元混合级融合卷积神经网络的化合物血脑屏障渗透性预测方法,其特征在于,包括化合物数据获取模块、数据预处理模块、构建三元混合级融合卷积神经网络模块、训练三元混合级融合卷积神经网络模块和化合物bbb渗透性预测模块;