一种蛋白质预测三维结构的质量评估方法、装置与流程

专利2024-12-08  45



1.本发明涉及蛋白质三维结构预测领域,更具体的说是涉及一种蛋白质预测三维结构的质量评估方法、装置。


背景技术:

2.蛋白质是自然界中非常重要的生物分子。基于氨基酸序列直接预测蛋白质的三维结构是一个具有挑战性的问题,对现代生物学和医学产生了重大影响。是否能准确地预测蛋白质三维结构对于蛋白质功能的理解、设计具有新生物学功能的蛋白质以及研发新药等方面均发挥着关键作用。随着人类基因组计划的完成,大量的蛋白质氨基酸序列已经通过基因组测序技术获悉,目前测序分析得到的新的氨基酸序列的数量仍旧以爆炸式的速度增加,而实验确定的三维结构数量的增长速度却远远落后于序列分析。目前主要的实验方法有 x 射线晶体学、核磁共振(nmr)和 冷冻电镜(cryo-em)。这些现有的方法往往需要大量的时间和昂贵的资源。
3.结构预测的一个主要挑战是从生成的三维结构池中选择最佳三维结构。蛋白质结构预测模型,例如rosetta、rosettafold、alphafold2可以根据一条氨基酸序列预测出大量的蛋白质三维结构,但很难预测哪个结构最接近原生结构。因此,我们希望探索一种只需要输入氨基酸序列即可获得准确度高的预测蛋白质三维结构的方法。


技术实现要素:

4.针对现有技术存在的不足,本发明的目的之一在于提供一种不需要msa即可得到准确性高的蛋白质三维结构的蛋白质预测三维结构的质量评估方法。
5.为实现上述目的,本发明提供了如下技术方案:一种蛋白质预测三维结构的质量评估方法:s1,根据基准序列预测得到若干预测结构,所述基准序列反映了已知的蛋白质氨基酸序列的真实分布,所述预测结构反映了预测的蛋白质的三维结构。该预测结构可以包括与蛋白质的真实结构相差较多的三维结构,本发明对初始输入的预测结构的质量要求较低;s2,将若干所述预测结构依次输入esm-if1模型中,得到与所述预测结构一一对应的预测序列,所述预测序列反映了预测的蛋白质氨基酸序列中各个位点氨基酸的概率分布;s3,依次计算所述预测序列与所述基准序列的多分类交叉熵(cce)得到esmif交叉熵损失,选择最小的esmif交叉熵损失对应的预测结构作为最优三维结构。
6.作为优选,所述基准序列和所述预测序列均以矩阵的方式呈现,所述矩阵的第一维度表示序列位点位置信息,所述矩阵的第二维度表示氨基酸类别信息,所述预测序列与所述基准序列的多分类交叉熵的计算方法为:
其中,cce为多分类交叉熵,n为蛋白质氨基酸序列的长度,p为基准序列中的每一个氨基酸以独热码表示的概率分布,q为预测序列中的每个位点上氨基酸的概率分布,i为第一维度位点位置信息,j为第二维度氨基酸类别信息。独热码是一种二进制编码方式,它的特点是,用来编码这个数的n位bit中,有且只有一位是1,其余位全部为0。
7.作为优选,所述预测结构通过以下步骤得到:将所述基准序列输入蛋白质结构预测模型得到或者手动折叠氨基酸链得到或者在蛋白质结构预测模型输出的预测结构的基础上手动调整得到。
8.针对现有技术存在的不足,本发明的目的之二在于提供一种蛋白质预测三维结构的质量评估装置,包括:预测结构获取模块,用于根据基准序列输出若干预测结构,所述基准序列反映了已知的蛋白质氨基酸序列的真实分布,所述预测结构反映了预测的蛋白质的三维结构;预测序列获取模块,用于将若干所述预测结构依次输入esm-if1模型中,得到与所述预测结构一一对应的预测序列,所述预测序列反映了预测的蛋白质氨基酸序列中各个位点氨基酸的概率分布;结构筛选模块,用于依次计算所述预测序列与所述基准序列的多分类交叉熵得到esmif交叉熵损失,选择最小的esmif交叉熵损失对应的预测结构作为最优三维结构。
9.针对现有技术存在的不足,本发明的目的之三在于提供一种电子设备,包括:处理器以及存储器,所述存储器存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述蛋白质预测三维结构的质量评估方法。
10.与现有技术相比,本发明的优点在于:发现描述序列恢复程度的esmif交叉熵损失和描述与真实结构比较的结构质量评估函数tmscore呈线性相关,通过计算预测序列的概率与基准序列的交叉熵来判断预测的结构质量。本发明方法不需要同源多序列比对数据(msa)即可得到准确性高的蛋白质三维结构。
附图说明
11.图1为一个基准序列的矩阵图;图2为一个预测序列的矩阵图;图3为一个预测结构图;图4为9个结构质量评估函数tmscore和esmif交叉熵损失散点图。
具体实施方式
12.下面结合附图和实施例,对本发明进一步详细说明。
13.实施例1alphafold利用深度学习技术和来自相关蛋白质序列的共同进化信息(msa),在蛋白质结构预测上取得了突出进展。根据输入的单条氨基酸序列,查找其成千上百条同源序列构成msa,然后根据生物和物理法则,从msa中学习到可靠的共进化信息,最终将氨基酸链
折叠成低势能的状态,得到预测的蛋白质三维结构。但是获取msa是困难的,且太过依赖msa,而不去探究蛋白质折叠的物理性质,这可能无法准确预测新突变对蛋白质结构和稳定性的影响。基于anfinsen的工作可知,蛋白质结构通过折叠来最小化势能。因此,如果能对势能函数进行高精度建模,就可以通过优化该函数,来预测蛋白质结构。但是该方法存在难点:如何准确构建这个势能函数。我们将上述问题称之为打分问题,也称之为结构质量评估(quality accessment,qa)。
14.除了谷歌的alphafold,美国的meta公司在大数据驱动的预训练模型中另辟蹊径,试图从另外一个角度来解决蛋白质结构预测和设计问题。其中,esm-if1是美国meta公司做的大规模预训练模型[hsu c, verkuil r, liu j, et al. learning inverse folding from millions of predicted structures[j]. biorxiv, 2022.],它试图通过输入蛋白质的主链结构来预测蛋白质的氨基酸序列。该方法将alphafold2预测的一千两百万个蛋白质序列的结构作为训练集,同时利用具有几何不变输入处理的模型gvp来进行序列的恢复。该方法对原有序列的恢复度达到了51%,对掩埋残基的恢复率达到了72%,超过了市面上最好的算法10个百分点。该方法为蛋白质设计(蛋白质的逆折叠问题)而生,是至今比较先进的蛋白质预训练模型。
[0015]
本发明可以将基准序列(原始序列,可以是是野生型蛋白质序列)输入到各种蛋白质结构预测模型得到几千或者几万种三维预测结构。上述三维预测结构也可以是手动折叠氨基酸链得到,也可以是在预测模型输出的三维预测结构的基础上手动微调得到。然后根据上述若干三维预测结构反推回序列,根据反推回的序列与基准序列的差距对三维预测结构的准确性进行判断,从而得到最接近真实蛋白质的三维结构。具体步骤如下:s1,根据基准序列预测得到若干预测结构,所述基准序列反映了已知的蛋白质氨基酸序列的真实分布。如图1所示,矩阵的第一维度表示序列位点,第二维度表示氨基酸的类型,图1中以独热码(非0即1)表示氨基酸序列的概率分布,图中小方块的颜色亮度对应概率分布数值(颜色亮度越亮代表数值越大),且图1中的小方块的颜色亮度代表概率数值为1。具体地,图1中第五列的小方块表示该蛋白质的第5个位点是丝氨酸(s)的概率为1(因为序列是已知的,第一位点的氨基酸的类型必然是确定的),即p
ij
=p
17
=1,i代表对应氨基酸在序列中的位点,j代表氨基酸类型,除20中氨基酸外加上xbuzo五种稀有的天然氨基酸,“.”表示句号,
“‑”
表示缺失,因此j总共有27个不同数字(如3~29)的表现形式,每一个数字代表不同的氨基酸类型。具体地,3~26依次代表的氨基酸为'l', 'a', 'g', 'v', 's', 'e', 'r', 't', 'i', 'd', 'p', 'k', 'q', 'n', 'f', 'y', 'm', 'h', 'w', 'c', 'x', 'b', 'u', 'z', 'o', '.', '-'。如图3所示,所述预测结构反映了预测的蛋白质的三维结构。该预测结构可以包括与蛋白质的真实结构相差较多的三维结构,本发明对初始输入的预测结构的质量要求较低;s2,将若干所述预测结构依次输入esm-if1模型中,得到与所述预测结构一一对应的预测序列,所述预测序列反映了预测的蛋白质氨基酸序列中各个位点氨基酸的概率分布。如图2所示,矩阵的第一维度表示序列位点位置信息,第二维度表示氨基酸类别信息,图2中小方块的颜色亮度对应概率分布数值大小,颜色亮度越亮对应的概率分布数值越大(若同一列有多个概率分布数值(即有多个小方块),选取数值最大的位置对应的氨基酸作为预测结果)。具体地,图2中第五列的小方块表示该蛋白质的第5个位点是丝氨酸(s)的概率为
0.8,即q
ij
=q
17
=0.8,同时预测第5个位点的氨基酸为丝氨酸。同样的,可以采取不同表现形式代表概率分布数值,如不同高度的三维柱状等,这个不做限定;s3,依次计算所述预测序列与所述基准序列的多分类交叉熵(cce)得到esmif交叉熵损失,选择最小的esmif交叉熵损失对应的预测结构作为最优三维结构;所述多分类交叉熵的计算方法为:其中,cce为多分类交叉熵,n为蛋白质氨基酸序列的长度,p为基准序列中的每一个氨基酸以独热码表示的概率分布,q为预测序列中的每个位点上氨基酸的概率分布,i为第一维度位点位置信息,j为第二维度氨基酸类别信息。独热码是一种二进制编码方式,它的特点是,用来编码这个数的n位bit中,有且只有一位是1,其余位全部为0。
[0016]
多分类交叉熵来自于香农信息论,在这里主要用来度量预测结果和真实序列的歧义,cce越低,其序列恢复的程度越高,也预示着对应输入结构的质量越高。
[0017]
蛋白质预测三维结构的质量评估方法的运行依据:s1.1获得若干基准序列和实验测得的与基准序列对应的基准结构,所述基准结构反映了蛋白质真实的三维结构;s1.2根据基准序列得到若干预测结构;s1.3依次计算预测结构与基准结构的差异,得到对应的描述结构质量的指标tmscore;s1.4将若干所述预测结构依次输入esm-if1,得到与所述预测结构一一对应的预测序列的概率分布;s1.5依次计算所述预测序列的概率分布与所述基准序列的多分类交叉熵得到esmif交叉熵损失;s1.6以esmif交叉熵损失为横坐标,tmscore为纵坐标,绘制散点图。如图4所示,图4中每一个tmscore和esmif交叉熵损失散点图为独立的一个蛋白质的数据,其中每一个点代表了其中一种decoy,横坐标为其与真实结构之间的距离,越靠近1(右)越真实。纵坐标为恢复序列的esmif交叉熵损失,越靠下序列恢复的越好。具体的图4中9种蛋白质分别为1fzy、1l3k、1opd、1t3y、1z2u、1zma、2cxd、2dfb、2z0t,具体数据来源为rosetta decoy set。我们发现esmif交叉熵损失和tmscore呈线性相关,因此才可以通过计算预测序列与基准序列的多分类交叉熵(cce)来获得对应的描述结构质量的指标tmscore。实验证明,把rosetta生成的低质量结构(decoy)数据集喂给本发明方法构建的模型,衡量decoy和真实结构的指标tmscore,可以很好的与多分类交叉熵形成强烈的负相关。即,当我们输入一个低质量的结构的时候,该模型就很难得到接近原始序列的概率分布。因此,该模型还可以进行高质量的结构质量评估。
[0018]
实施例2一种蛋白质预测三维结构的质量评估装置,包括:预测结构获取模块,用于根据基准序列输出若干预测结构,所述基准序列反映了已知的蛋白质氨基酸序列的真实分布,所述预测结构反映了预测的蛋白质的三维结构;预测序列获取模块,用于将若干所述预测结构依次输入esm-if1模型中,得到与所述预测结构一一对应的预测序列,所述预测序列反映了预测的蛋白质氨基酸序列中各个位
点氨基酸的概率分布;结构筛选模块,用于依次计算所述预测序列与所述基准序列的多分类交叉熵得到esmif交叉熵损失,选择最小的esmif交叉熵损失对应的预测结构作为最优三维结构。
[0019]
实施例3一种电子设备,包括:处理器以及存储器,所述存储器存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行实施例1所示的蛋白质预测三维结构的质量评估方法。
[0020]
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通研究人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

技术特征:
1.一种蛋白质预测三维结构的质量评估方法,其特征在于包括以下步骤:s1,根据基准序列预测得到若干预测结构,所述基准序列反映了已知的蛋白质氨基酸序列的真实分布,所述预测结构反映了预测的蛋白质的三维结构;s2,将若干所述预测结构依次输入esm-if1模型中,得到与所述预测结构一一对应的预测序列,所述预测序列反映了预测的蛋白质氨基酸序列中各个位点氨基酸的概率分布;s3,依次计算所述预测序列与所述基准序列的多分类交叉熵得到esmif交叉熵损失,选择最小的esmif交叉熵损失对应的预测结构作为最优三维结构。2.根据权利要求1所述的一种蛋白质预测三维结构的质量评估方法,其特征在于,所述基准序列和所述预测序列均以矩阵的方式呈现,所述矩阵的第一维度表示序列位点,所述矩阵的第二维度表示氨基酸的类型,所述预测序列与所述基准序列的多分类交叉熵的计算方法为:其中,cce为多分类交叉熵,n为蛋白质氨基酸序列的长度,p为基准序列中的每一个氨基酸以独热码表示的概率分布,q为预测序列中的每个位点上氨基酸的概率分布,i为第一维度位点位置信息,j为第二维度氨基酸类别信息。3.根据权利要求1所述的一种蛋白质预测三维结构的质量评估方法,其特征在于,所述预测结构通过以下步骤得到:将所述基准序列输入蛋白质结构预测模型得到或者手动折叠氨基酸链得到或者在蛋白质结构预测模型输出的预测结构的基础上手动调整得到。4.一种蛋白质预测三维结构的质量评估装置,其特征在于,包括:预测结构获取模块,用于根据基准序列输出若干预测结构,所述基准序列反映了已知的蛋白质氨基酸序列的真实分布,所述预测结构反映了预测的蛋白质的三维结构;预测序列获取模块,用于将若干所述预测结构依次输入esm-if1模型中,得到与所述预测结构一一对应的预测序列,所述预测序列反映了预测的蛋白质氨基酸序列中各个位点氨基酸的概率分布;结构筛选模块,用于依次计算所述预测序列与所述基准序列的多分类交叉熵得到esmif交叉熵损失,选择最小的esmif交叉熵损失对应的预测结构作为最优三维结构。5.一种电子设备,其特征在于,包括:处理器以及存储器,所述存储器存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1~3任意一项所述的蛋白质预测三维结构的质量评估方法。

技术总结
本发明公开了一种蛋白质预测三维结构的质量评估方法、装置,其技术方案要点是发现描述序列恢复程度的esmif交叉熵损失和描述与真实结构比较的结构质量评估函数TMscore呈线性相关,通过计算预测序列的概率与基准序列的交叉熵来判断预测的结构质量。具体为:将基准序列输入到各种蛋白质结构预测模型得到几千或者几万种三维预测结构。上述三维预测结构也可以是手动折叠氨基酸链得到,也可以是在预测模型输出的三维预测结构的基础上手动微调得到。然后根据上述若干三维预测结构反推回序列,根据反推回的序列与基准序列的差距对三维预测结构的准确性进行判断,从而得到最接近真实蛋白质的三维结构。白质的三维结构。白质的三维结构。


技术研发人员:管佳威 张闻瀚 金慧玲 王浩博
受保护的技术使用者:杭州力文所生物科技有限公司
技术研发日:2022.06.30
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-10784.html

最新回复(0)