1.本发明涉及生物工程技术领域,特别涉及一种基于记忆梯度法的蛋白质三维结构预测的方法。
背景技术:2.蛋白质的功能主要由三维结构来决定,但通过实验的方式获取三维结构需要耗费大量人力物力。在过去几十年里,人们主要通过x射线晶体学、冷冻电子显微镜或核磁共振等实验技术手段来解析蛋白质的三维结构,然而在实验过程中往往会有多种技术难关,费时费力,也需要依赖昂贵的大型仪器和大科学设施。为解决此问题,学者们提出了另一种方法:蛋白质结构预测法,打算从蛋白质链的一级结构开始直接对蛋白质结构进行预测。也就是从蛋白质序列出发利用计算机算法预测每个氨基酸的空间坐标并进而最终实现三维结构的预测。
3.由于预测和求解蛋白质结构问题的复杂性,目前的研究主要集中在几种简化的模型上。国外针对蛋白质功能的研究已经进行得很广泛,提出了许多可计算的理论模型,如hp模型,ab模型和欧几里得空间连续模型。整数模型简洁,但对于蛋白质结构预测问题是np-hard问题,当链长较大时,计算时间因为求解规模的呈指数增长也呈现同样的速度增长,使求解变得困难,甚至是不现实的。受离散模型的启发,结合长期求解np-hard问题积累的经验,研究者们提出了不同的蛋白质结构的三维连续数学模型。
4.针对热点研究模型,计算机科学和生物信息科学的学者利用数学上的优化方法进行了广泛的研究,相应的求解算法有蒙特卡洛法,模拟退火算法等。如,给出了一种新型的蒙特卡罗法改进算法“多重自相交”算法,算法提出了一个结构动作变换集,通过制定集合中的固定动作变换规则,使构型向低能量的方向转移。算法中关闭链的合法性检查,允许计算的过程中存在不合法的自相交构型,并利用这些构型提供的中间桥梁作用,加快计算最终收敛到最优解。国内对蛋白质折叠问题的研究起步比较晚,目前也有许多可行的方法。如,在使用蒙特卡罗法和遗传算法进行计算得到最小能量构型的基础上,引入一种改进的混合遗传算法。使用并行遗传算法进行蛋白质模型的求解运算,基本实现思想是在遗传算法的计算过程中引入自然生物种群的空间结构因素,并且改进算法适合在大规模并行计算机上进行计算。
5.蒙特卡罗方法回避了问题求解分析中的数学困难,不管状态函数是否非线性、随机变量是否非正态,只要模拟的次数足够多,就可得到一个比较精确的失效概率和可靠度指标。应用模拟退火等不确定算法,对蛋白质折叠问题进行求解,首先给蛋白质链一个很高的能量状态,然后在逐步的运算过程中向更低的能量状态迁移,最后期望冷却到一个最低能量状态,完成一次对最低能量构型的求解。但是,这些方法的通用性也使得求解结果不是特别好;特别是在维数比较大的巨大解空间中搜索时,计算容易遇到局部最小值,并且很难有效的跳出局部最小值的计算陷阱,从而得不到最优化的解。
技术实现要素:6.由于蛋白质是一种强柔性的大分子体系,其势函数的维数巨大、表达式本身性态差,存在极多局部极小点,使得模型计算较为复杂,数值计算缓慢且困难。为了克服现有技术的不足,本发明提出一种基于记忆梯度法的蛋白质三维结构预测的方法。旨在解决蛋白质三维结构预测中数值计算的难点,改进现有蛋白质结构的模型,其是一个更易于计算的连续模型,并提出求解此问题的记忆梯度法。
7.所述方法结合光滑惩罚技术和逃逸技术,有效得到全局最优解,预测效率较高,收敛性较好,弥补了现有方法的缺陷。
8.本发明技术方案为:一种基于记忆梯度法的蛋白质三维结构预测方法,所述方法包含一个预测蛋白质三维结构的连续最优化模型,所述连续最优化模型设有距离势能ed和弯曲势能es,所述连续数学模型的构建方法如下:
9.把蛋白质看作一串有序(序号分别为1,2,3,
……
,n)的光滑黑白实心球体, n为正整数,在满足序号相邻的两球相切、任意两球互不相嵌的前提条件下,所述距离势能ed能量达到最小时,这n个球的三维坐标位置就是所述蛋白质三维结构预测方法的求解目标。
10.设x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn为决策变量,记为向量形式:
11.(x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn),
12.记所述决策变量(x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn)为(x,y,z),即
13.x=(x1,x2,...,xn),y=(y1,y2,...,yn),z=(z1,z2,...,zn)。
14.蛋白质的所述距离势能ed用链函数e(x,y,z)表示,所求的决策变量 (x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn)在约束关系同时得到满足的条件下,使得蛋白质的链函数e(x,y,z)达到最小值。此时,决策变量 (x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn)的值也称为格局。
15.对于蛋白质三维结构预测,首先要求保证满足蛋白质的链的合法性要求,即,保证疏水氨基酸和亲水氨基酸在空间布局的合法,确保蛋白质链的组成合法。本发明把蛋白质的氨基酸序列中的疏水氨基酸抽象成一个黑色的半径为0.5的弹性小球,蛋白质的亲水氨基酸抽象成白色的半径为0.5的弹性小球,所述弹性小球的球心之间用原始长度为1的弹簧连接。要求每个小球互相不嵌入,也就是
16.r
i,j
≥1,i,j=1,2,...,n;i≠j
17.其中,r
i,j
=(x
i-xj)2+(y
i-yj)2+(z
i-zj)2表示第i个球和第j个球的球心距离的平方。这里,采用距离的平方来刻画,是因为距离平方函数有更好的可微性质,更适合数值计算。基于同样的原因,我们要求
18.r
i,i+1
=1,i=1,2,...,n-1
19.其中,其中,r
i,i+1
=(x
i-x
i+1
)2+(y
i-y
i+1
)2+(z
i-z
i+1
)2表示第i个球和第 i+1个球的球心距离的平方。也就是标号相邻的两个球皆相切,并且使链上的全部黑球达到尽可能聚合的状态。这两个要求保证了疏水氨基酸和亲水氨基酸在空间布局的合法,即保证蛋白质链的组成合法。链能量也就是整条蛋白质链的能量:
20.(1)距离势能:也就是任意两个氨基酸分子之间存在的能量,能量大小与其为疏水氨基酸、亲水氨基酸以及他们之间的距离有关系。所述距离势能ed满足:
[0021][0022]
其中,是指p或者h,并且的值为+1,或它们分别表示是hh,pp和hp小球之间的引力系数,即
[0023][0024]
(2)弯曲势能:也就是序号连续的三个氨基酸分子存在的能量,能量大小跟他们所成角度有关系。所述弯曲势能es表示为:
[0025][0026]
θi角度为编号为i-1,i和i+1的三个小球所形成角度的补角。
[0027]
我们要求距离势能越小,而弯曲势能小于一定的程度时,蛋白质链越稳定, 即越符合真实情况。基于蛋白质结构内部的这些关系和性质,本发明设计连续最优化模型(p1):
[0028]
(p1)
[0029]
其中,是一个实数,n为正整数,最优化模型(p1)的最优解 (x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn),即为所求蛋白质分子在三维空间中的折叠结构。
[0030]
模型转化
[0031]
从最优化模型(p1)中,不难发现,相较于目前已有的模型,(p1)中所涉及的函数均是光滑函数,这使得在求解最优化模型(p1)时,可以利用函数梯度进行计算,使得数值计算简单,算法存储量小,解决了蛋白质结构预测问题中维数巨大的难点。最优化模型(p1)是一个具有两种约束条件的最优化问题,为提高算法的性能,本发明采用惩罚函数
[0032][0033]
将带约束的最优化模型(p1)换为无约束最优化模型(p2)。具体形式如下:
[0034]
(p2)
[0035]
其中,函数w(x,y,z)称为(p2)的目标函数,实数c是惩罚因子。当决策变量满足约束条件时这个惩罚函数为零,否则函数值为整数。当惩罚因子c充分大时,(p2)的解满足约束条件,也就是(p1)问题的解,所以当惩罚因子c充分大时, (p1)和(p2)等价。这样,问题(p2)的最优解也是蛋白质分子在三维空间中的折叠结构。
[0036]
三、算法设计
[0037]
蛋白质三维结构预测的记忆梯度法包括以下步骤:
[0038]
第一步:初始化
[0039]
确定初始格局(x0,y0,z0),给出梯度令搜索方向置k=0。
[0040]
第二步:格局校正
[0041]
选取步长参数αk,置新的格局为:(x
k+1
,y
k+1
,z
k+1
)=(xk,yk,zk)+αksk[0042]
第三步:验证停止准则
[0043]
如果满足停止准则,当前格局(x
k+1
,y
k+1
,z
k+1
)为(p2)的局部最优解,则转第四步;否则,转第五步。
[0044]
第四步:跳坑
[0045]
根据所得到的局部最优格局,找出该体系中所有黑球的中心位置,然后找出离此中心最远的黑球,将此黑球拉到中心,形成格局如果则算法停止,是全局最优格局,否则,置转第二步。
[0046]
第五步:确定搜索方向
[0047]
选取共轭参数β
k+1
,构造记忆梯度方向
[0048][0049]
第六步:循环
[0050]
置k=k+1,转下步。
[0051]
与经典的梯度下降算法只能求得局部最优解不同的是,本发明设计的算法中,设有跳坑步,保证算法在寻优过程中能跳出局部解陷阱,求得全局最优解。
[0052]
本发明有益效果
[0053]
设计一种预测蛋白质三维折叠结构的方法,其有益效果如下:
[0054]
第一,对蛋白质三维结构建立了三维连续数学模型,把一个约束最优化问题,转变为无约束最优化问题,简化了问题,更容易进行数值计算。第二,由于梯度下降法对建立的三维连续数学模型求解时,在最优格局附近可能迭代缓慢,本发明设计出基于记忆梯度法来求解最优化问题,加快了计算的速度。第三,在求得局部最优格局的情况下,给出跳坑策略,求得了较好的全局最优格局。
附图说明
[0055][0056]
图1为小球弯曲角度的表示示意图;
具体实施方式:
[0057]
本发明涉及一种基于记忆梯度法的蛋白质三维结构预测方法,所述方法包含一个预测蛋白质三维结构的连续最优化模型,所述连续最优化模型设有距离势能 ed和弯曲势能es,所述连续数学模型的构建方法如下:
[0058]
把蛋白质看作一串有序(序号分别为1,2,3,
……
,n)的光滑黑白实心球体, n为正
整数,在满足序号相邻的两球相切、任意两球互不相嵌的前提条件下,所述距离势能ed能量达到最小时,这n个球的三维坐标位置就是所述蛋白质三维结构预测方法的求解目标。
[0059]
设x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn为决策变量,记为向量形式:
[0060]
(x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn),
[0061]
记所述决策变量(x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn)为(x,y,z),即
[0062]
x=(x1,x2,...,xn),y=(y1,y2,...,yn),z=(z1,z2,...,zn)。
[0063]
蛋白质的所述距离势能ed用链函数e(x,y,z)表示,所求的决策变量(x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn)在约束关系同时得到满足的条件下,使得蛋白质的链函数e(x,y,z)达到最小值。此时,决策变量 (x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn)的值也称为格局。
[0064]
对于蛋白质三维结构预测,首先要求保证满足蛋白质的链的合法性要求,即,保证疏水氨基酸和亲水氨基酸在空间布局的合法,确保蛋白质链的组成合法。本发明把蛋白质的氨基酸序列中的疏水氨基酸抽象成一个黑色的半径为0.5的弹性小球,蛋白质的亲水氨基酸抽象成白色的半径为0.5的弹性小球,所述弹性小球的球心之间用原始长度为1的弹簧连接。要求每个小球互相不嵌入,也就是
[0065]ri,j
≥1,i,j=1,2,...,n;i≠j
[0066]
其中,r
i,j
=(x
i-xj)2+(y
i-yj)2+(z
i-zj)2表示第i个球和第j个球的球心距离的平方。这里,采用距离的平方来刻画,是因为距离平方函数有更好的可微性质,更适合数值计算。基于同样的原因,我们要求
[0067]ri,i+1
=1,i=1,2,...,n-1
[0068]
其中,其中,r
i,i+1
=(x
i-x
i+1
)2+(y
i-y
i+1
)2+(z
i-z
i+1
)2表示第i个球和第 i+1个球的球心距离的平方。也就是标号相邻的两个球皆相切,并且使链上的全部黑球达到尽可能聚合的状态。这两个要求保证了疏水氨基酸和亲水氨基酸在空间布局的合法,即保证蛋白质链的组成合法。链能量也就是整条蛋白质链的能量:
[0069]
(1)距离势能:也就是任意两个氨基酸分子之间存在的能量,能量大小与其为疏水氨基酸、亲水氨基酸以及他们之间的距离有关系。所述距离势能ed满足:
[0070][0071]
其中,是指p或者h,并且的值为+1,或它们分别表示是hh,pp和hp小球之间的引力系数,即
[0072][0073]
(2)弯曲势能:也就是序号连续的三个氨基酸分子存在的能量,能量大小跟他们所成角度有关系。所述弯曲势能es表示为:
[0074][0075]
θi角度为编号为i-1,i和i+1的三个小球所形成角度的补角,如图1 所示。
[0076]
我们要求距离势能越小,而弯曲势能小于一定的程度时,蛋白质链越稳定, 即越符合真实情况。基于蛋白质结构内部的这些关系和性质,本发明设计连续最优化模型(p1):
[0077]
(p1)其中,是一个实数,n为正整数,最优化模型(p1)的最优解 (x1,x2,...,xn,y1,y2,...,yn,z1,z2,...,zn),即为所求蛋白质分子在三维空间中的折叠结构。
[0078]
模型转化
[0079]
从最优化模型(p1)中,不难发现,相较于目前已有的模型,(p1)中所涉及的函数均是光滑函数,这使得在求解最优化模型(p1)时,可以利用函数梯度进行计算,使得数值计算简单,算法存储量小,解决了蛋白质结构预测问题中维数巨大的难点。最优化模型(p1)是一个具有两种约束条件的最优化问题,为提高算法的性能,本发明采用惩罚函数
[0080][0081]
将带约束的最优化模型(p1)换为无约束最优化模型(p2)。具体形式如下:
[0082]
(p2)
[0083]
其中,函数w(x,y,z)称为(p2)的目标函数,实数c是惩罚因子。当决策变量满足约束条件时这个惩罚函数为零,否则函数值为整数。当惩罚因子c充分大时, (p2)的解满足约束条件,也就是(p1)问题的解,所以当惩罚因子c充分大时,(p1)和(p2)等价。这样,问题(p2)的最优解也是蛋白质分子在三维空间中的折叠结构。
[0084]
三、算法设计
[0085]
蛋白质三维结构预测的记忆梯度法包括以下步骤:
[0086]
第一步:初始化
[0087]
确定初始格局(x0,y0,z0),给出梯度令搜索方向置k=0。
[0088]
第二步:格局校正
[0089]
选取步长参数αk,置新的格局为:(x
k+1
,y
k+1
,z
k+1
)=(xk,yk,zk)+αksk[0090]
第三步:验证停止准则
[0091]
如果满足停止准则,当前格局(x
k+1
,y
k+1
,z
k+1
)为(p2)的局部最优解,则转第四步;否则,转第五步。
[0092]
第四步:跳坑
[0093]
根据所得到的局部最优格局,找出该体系中所有黑球的中心位置,然后找出离此中心最远的黑球,将此黑球拉到中心,形成格局如果则算法停止,是全局最
优格局,否则,置转第二步。
[0094]
第五步:确定搜索方向
[0095]
选取共轭参数β
k+1
,构造记忆梯度方向
[0096][0097]
第六步:循环
[0098]
置k=k+1,转下步。
[0099]
与经典的梯度下降算法只能求得局部最优解不同的是,本发明设计的算法中,设有跳坑步,保证算法在寻优过程中能跳出局部解陷阱,求得全局最优解。
技术特征:1.一种基于记忆梯度法的蛋白质三维结构预测方法,所述方法包含一个预测蛋白质三维结构的连续最优化模型p1,所述连续最优化模型设有距离势能e
d
和弯曲势能e
s
,其特征树:所述连续数学模型p1的构建方法如下:把蛋白质看作一串有序(序号分别为1,2,3,
……
,n)的光滑黑白实心球体,n为正整数,在满足序号相邻的两球相切、任意两球互不相嵌的前提条件下,所述距离势能e
d
能量达到最小时,这n个球的三维坐标位置就是所述蛋白质三维结构预测方法的求解目标;设x1,x2,...,x
n
,y1,y2,...,y
n
,z1,z2,...,z
n
为决策变量,记为向量形式:(x1,x2,...,x
n
,y1,y2,...,y
n
,z1,z2,...,z
n
),记所述决策变量(x1,x2,...,x
n
,y1,y2,...,y
n
,z1,z2,...,z
n
)为(x,y,z),即x=(x1,x2,...,x
n
),y=(y1,y2,...,y
n
),z=(z1,z2,...,z
n
);蛋白质的所述距离势能e
d
用链函数e(x,y,z)表示,所求的决策变量(x1,x2,...,x
n
,y1,y2,...,y
n
,z1,z2,...,z
n
)在约束关系同时得到满足的条件下,使得蛋白质的链函数e(x,y,z)达到最小值;此时,决策变量(x1,x2,...,x
n
,y1,y2,...,y
n
,z1,z2,...,z
n
)的值也称为格局;对于蛋白质三维结构预测,满足蛋白质的链的合法性要求,即,保证疏水氨基酸和亲水氨基酸在空间布局的合法,确保蛋白质链的组成合法;把蛋白质的氨基酸序列中的疏水氨基酸抽象成一个黑色的半径为0.5的弹性小球,蛋白质的亲水氨基酸抽象成白色的半径为0.5的弹性小球,所述弹性小球的球心之间用原始长度为1的弹簧连接;每个小球互相不嵌入,也就是r
i,j
≥1,i,j=1,2,...,n;i≠j其中,r
i,j
=(x
i-x
j
)2+(y
i-y
j
)2+(z
i-z
j
)2表示第i个球和第j个球的球心距离的平方;这里,采用距离的平方来刻画,是因为距离平方函数有更好的可微性质,更适合数值计算;基于同样的原因,要求r
i,i+1
=1,i=1,2,...,n-1其中,r
i,i+1
=(x
i-x
i+1
)2+(y
i-y
i+1
)2+(z
i-z
i+1
)2表示第i个球和第i+1个球的球心距离的平方,也就是标号相邻的两个球皆相切,并且使链上的全部黑球达到尽可能聚合的状态;这两个要求保证了疏水氨基酸和亲水氨基酸在空间布局的合法,即保证蛋白质链的组成合法;链能量也就是整条蛋白质链的能量:(1)所述距离势能e
d
满足:也就是任意两个氨基酸分子之间存在的能量,能量大小与其为疏水氨基酸、亲水氨基酸以及他们之间的距离有关系;所述距离势能e
d
满足:其中,是指p或者h,并且的值为+1,或它们分别表示是hh,pp和hp小球之间的引力系数,即c(h,h)=+1,(2)所述弯曲势能e
s
满足:序号连续的三个氨基酸分子存在能量,能量大小跟他们所成
角度有关系,即,所述弯曲势能e
s
表示为:θ
i
角度为编号为i-1,i和i+1的三个小球所形成角度的补角,要求距离势能越小越好,而弯曲势能小于一定的程度时,蛋白质链越稳定,基于蛋白质结构内部的这些关系和性质,所述连续最优化模型p1为:其中,是一个实数,n为正整数,最优化模型(p1)的最优解(x1,x2,...,x
n
,y1,y2,...,y
n
,z1,z2,...,z
n
),即为所求蛋白质分子在三维空间中的折叠结构。2.根据权利要求1所述的基于记忆梯度法的蛋白质三维结构预测方法,其特征是:所述最优化模型p1能够转化为另外一种无约束最优化模型p2,最优化模型p1中所涉及的函数均是光滑函数,这使得在求解最优化模型p1时,可以利用函数梯度进行计算,使得数值计算简单,算法存储量小,解决了蛋白质结构预测问题中维数巨大的难点;所述最优化模型p1是一个具有两种约束条件的最优化问题,为提高算法的性能,采用惩罚函数将带约束的所述最优化模型p1换为一个所述无约束最优化模型p2,具体形式如下:(p2)其中,函数w(x,y,z)称为无约束最优化模型p2的目标函数,实数c是惩罚因子,当决策变量满足约束条件时这个惩罚函数为零,否则函数值为整数,当惩罚因子c充分大时,所述无约束最优化模型p2的解满足约束条件,这也是也就是所述最优化模型p1问题的解,所以,当惩罚因子c充分大时,(p1)和(p2)等价;这样,所述无约束最优化模型p2的最优解也是蛋白质分子在三维空间中的折叠结构。3.根据权利要求2所述的基于记忆梯度法的蛋白质三维结构预测方法,其特征是:所述无约束最优化模型p2的最优解的算法包括以下步骤:第一步:初始化确定初始格局(x0,y0,z0),给出梯度令搜索方向置k=0;第二步:格局校正选取步长参数α
k
,置新的格局为:(x
k+1
,y
k+1
,z
k+1
)=(x
k
,y
k
,z
k
)+α
k
s
k
第三步:验证停止准则如果满足停止准则,当前格局(x
k+1
,y
k+1
,z
k+1
)为(p2)的局部最优解,则转第四步;否则,
转第五步;第四步:跳坑根据所得到的局部最优格局,找出该体系中所有黑球的中心位置,然后找出离此中心最远的黑球,将此黑球拉到中心,形成格局如果则算法停止,是全局最优格局,否则,置转第二步;第五步:确定搜索方向选取共轭参数β
k+1
,构造记忆梯度方向第六步:循环置k=k+1,转下步。
技术总结本发明涉及一种基于记忆梯度法的蛋白质三维结构预测方法,所述方法包含一个预测蛋白质三维结构的连续最优化模型,所述连续最优化模型设有距离势能和弯曲势能,由于蛋白质是一种强柔性的大分子体系,其势函数的维数巨大、表达式本身性态差,存在极多局部极小点,使得模型计算较为复杂,数值计算缓慢且困难。为了克服现有技术的不足,本发明提出一种基于记忆梯度法的蛋白质三维结构预测的方法。旨在解决蛋白质三维结构预测中数值计算的难点,改进现有蛋白质结构的模型,其是一个更易于计算的连续模型,并提出求解此问题的记忆梯度法。所述方法结合光滑惩罚技术和逃逸技术,有效得到全局最优解,预测效率较高,收敛性较好,弥补了现有方法的缺陷。有方法的缺陷。有方法的缺陷。
技术研发人员:广红 宋加磊 张军
受保护的技术使用者:青岛超蓝生物信息科技有限公司
技术研发日:2022.07.11
技术公布日:2022/11/1