一种基于蚁群算法的蛋白质结构的全原子预测方法与流程

专利2023-11-22  97



1.本发明涉及生物信息学中蛋白质环区结构预测技术领域,具体涉及一种蛋白质环区结构预测方法,将最优化方法应用到蛋白质结构预测。


背景技术:

2.蛋白质是地球上生物体中的必要组成成分,参与了细胞生命活动的每一个进程。目前对蛋白质结构预测的方法有三种办法:同源建模,折叠识别法,以及“从头开始”方法。一般来说,在蛋白质结构预测软件中构建蛋白质分子的全原子模型,据牛顿运动学利用分子动力学或者蒙特卡洛的方法进行模拟,依据物理的势能是自然的也是最基础的选择。但是研究表明经验势能在模拟生物分子时优于依据物理的势能。很多的科研人员研究并且提出了很多的全原子经验势能,这种模拟方法能很好的模拟蛋白质的结构。通过计算机算法预测蛋白质结构是十分必要的。从算法的角度上讲,蛋白质结构预测即为构建一种从蛋白质氨基酸序列,到蛋白质所有原子的三维坐标的映射问题。有限的蛋白质结构给了计算机模拟出全蛋白结构的可能性。使用一般来说,两蛋白质间的序列相似,则其三维结构亦相似。dill根据蛋白质分子内部的基团往往是疏水性基团,相反亲水性残基则分布于蛋白质与水接触的表层这一特性,将蛋白质链分散分布,期望能建立蛋白质三维模型,不过因为只考虑了蛋白质的疏水性,效果并不太好。
3.在构建蛋白质结构模型之后,常用的优化模型的方法为分子动力学模拟法。分子动力学模拟方法是利用计算机软件,根据经典的牛顿力学方程来模拟大分子的运动过程及相互作用关系的方法。分子动力学模拟是可以由体系的当前状态,通过一系列规则,推测出其他任意时刻状态的工具。对于许多蛋白质来说,蛋白质结构预测软件的蛋白质三维结构模型在大体框架上离自然界中真实存在的蛋白质构象已无太大的差别。然而模拟推测出的蛋白质在局部结构上,比如二级结构的位置,氢键的数量与位置,和自然界真实蛋白质仍有不小的差距。蛋白质的结构决定了蛋白质的功能。如果用蛋白质结构预测的结果进行生物功能的研究,则必须保证预测出的模拟蛋白在大体三维结构上与局部结构中都与真实蛋白相似。所以蛋白质结构预测软件的结果并不能直接拿来进行生物功能的研究。实际上,许多蛋白质结构预测的最终结果来自于预测软件通过统计学的进行的归纳,其结构本身就包含许多错误的结构信息,及不准确的二级结构和功能域。所以对于蛋白质结构预测的结果进行优化是十分必要的。


技术实现要素:

4.为了克服现有技术的不足,本发明利用最优化技术,通过模拟蛋白质折叠过程来优化蛋白质模型,使其改变为接近天然蛋白质的分子构型。模拟蛋白质折叠这一过程,使蛋白质模型能够继续折叠,直到接近天然构象。
5.本发明的技术方案为,一种基于蚁群算法的蛋白质结构的全原子预测方法,所述全原子预测方法通过提供蛋白质氨基酸序列及各个氨基酸上原子的空间坐标,就能构建出
蛋白质原子的三维结构,包括蛋白质主链和侧链在内的全原子的坐标;这些原子的位置与它们之间的相互作用共同决定了蛋白质的三维构型,在优化方案中,为达到最佳优化效果,每一个原子的位置都要被考虑进去。但蛋白质模型拥有的全原子数量过大,需要进行考虑的数据过多,因此,需要对蛋白质结构模型进行粗粒化处理。只保留主链上的碳原子坐标,其余原子的坐标将暂时忽略掉,是利用有效的最优化技巧搜索最小能构象,蛋白质模型的主链结构决定了模型质量的好与坏。所以对蛋白质的主链结构预测结果进行优化是必须的,具体步骤如下:
6.(1)网格建立
7.给定一条长度为n的氨基酸序列r=r1r2...rn,ri∈{h,p},i∈in及一个有m(≥n)个格点的三维网格l,这里m=o
×
p
×
q。o,p,q分别是横向、纵向、竖向网格格点的个数。已知网格的位置,即每个网格格点的坐标sj=(xj,yj,zj)∈r3,r3是三维实数空间,j∈in,并假设相邻网格格点之间的距离是常数a;
8.(2)目标函数
9.序列r的h-h对数量为目标函数
[0010][0011]
其中,
[0012][0013]
r={r1,r2,...,rn},ri是氨基酸ri在三维空间中的位置,ri=(xi,yi,zi)∈r3,i∈in,表示氨基酸ri占用了格点li,,li的相邻格点指标集为:n(li)表示格点li的邻点排在氨基酸ri之后的氨基酸占用。
[0014]
(3)约束条件:
[0015]
i.每个氨基酸只能占用一个网格格点:
[0016]
ii.格点j被占用,它在一个构象中只能被占用一次:
[0017]
iii.氨基酸序列的局部相邻性不能被破坏;||r
i-r
i-1
||=a,i=1,2,...,n
[0018]
iv.氨基酸必须落在网格格点上而不是网格的边线上,即ri∈{s1,s2,...,sm},i∈in[0019]
只有主链的蛋白质模型并非最终结果。它并不能代表蛋白质的全部信息和功能。在生物领域使用时,局部结构也非常重要,因此全原子的添加和构建是必须的。因此需要建
立蛋白质侧链,并在原子间形成化学键。通过搜索已知蛋白质的侧链信息,能够帮助这些主链蛋白质模型建立偏向天然结构的蛋白质侧链。大部分的蛋白质侧链预测软件使用的从已知结构蛋白质上统计的侧链信息都来自于旋转异构体数据库。这些旋转异构体数据库分两种。一种是与主链侧链分离的数据库。这种数据库会将主链侧链分离开,收集所有侧链的信息。另一种会将侧链与主链的二面角信息成对收集在一次。构象数据库可以替代旋转异构体数据库。构象数据库包含从已知结构蛋白质上统计的笛卡尔坐标,分别为键长,键角和二面角变化率。因此,本发明还需要如下约束:
[0020]
v.能量约束:当一条蛋白质序列折叠成某个特殊结构的时候,要求弯曲势能足够小,即其中,m是常数,θi为编号为i-1,i和i+1的三个小球所形成角度的补角,cosθi=(r
iri-1
·ri+1ri
)/|r
iri-1
||r
i+1ri
|
[0021]
(r
iri-1
·ri+1ri
)是向量r
iri-1
和向量r
i+1ri
的内积,即对应坐标乘积和。|r
iri-1
|是向量r
iri-1
的模,|r
i+1ri
|是向量和r
i+1ri
向量。
[0022]
蛋白质结构预测的最优化模型如下:
[0023]
(p)
[0024]
令可行域为
[0025][0026]
则最优化模型(p)也可以写成
[0027]
(p1)算法设计
[0028]
本发明从数学角度出发,针对简化的氨基酸序列在方格网上折叠的问题和蛋白质结构比较问题建立了最优优化模型,并构造了适当的优化算法来解决这些问题。和现有解决蛋白质结构预测中常用的遗传算法等进化算法不同的是,本发明采用蚁群算法来求解最
优化模型(p1)。
[0029]
与遗传算法等其它进化算法比较,蚁群算法的具有独特的信息共享机制。在遗传算法中,染色体互相共享信息,所以整个种群的移动是比较均匀的向最优区域移动。在蚁群算法中,只有自身最优和全局最优提供信息给其他的粒子,这是单向的信息流动。整个搜索更新过程是跟随当前最优解的过程。蚁群算法与其它进化算法另一个重要不同点在于它在进化过程中同时保留和利用位置与速度信息,而其它进化算法仅保留和利用位置信息。因此与遗传算法比较,所有的粒子群算法可以更快的收敛于最优解。
[0030]
最优化模型(p1)是典型的约束最优化问题,约束最优化问题就是在保证决策变量满足约束的前提下,在决策变量的定义范围内寻找使得目标函数达到最优的解。约束处理是求解约束优化问题的关键。约束处理的方式有剔除不可行解、惩罚函数法、修补法等。本发明采用惩罚函数法,其主要目的是减少或消除约束条件。将问题的目标函数和约束函数按一定的方式构造出带参数的增广目标函数(惩罚函数),把约束最优化问题转化为一系列无约束最优化问题来求解。为了更好的设计罚函数,本发明将最优化模型(p1)重构成如下形式
[0031][0032]
本发明构造基于蚁群算法的惩罚函数:
[0033][0034]
其中,λ(t)=t
1/3
是惩罚参数,t是粒子群算法的迭代次数。令惩罚项为
[0035][0036]
则惩罚函数可表示为:
[0037]
f(r,t)=g(r)+λ(t)h(r)
[0038]
将蚁群算法算法与惩罚函数法融合,在迭代过程中,以惩罚方法构造评价函数
[0039]
f(r,t)=g(r)+λ(t)h(r),ri∈{s1,s2,...,sm},i∈in[0040]
将约束优化问题转化为无约束优化问题求解。假设在解n维空间中有m个代表问题潜在解的粒子组成的一个种群x={r
(1)
,r
(2)
,...,r
(n)
},其中
[0041]r(l)
=(r
(l1)
,r
(l2)
,...,r
(ln)
),l=1,2,...,m表示第l个粒子,即n维解空间的一个向量。用v
(l)
=(v
(l1)
,v
(l2)
,...,v
(ln)
),l=1,2,...,m,表示第l个粒子的速度。用p
(l)
=(p
(l1)
,p
(l2)
,...,p
(ln)
),l=1,2,...,m,表示第l个粒子迄今为止搜索到的最优位置。用p
(g)
=(p
(g1)
,p
(g2)
,...,p
(gn)
)表示整个粒子群到目前为止搜索到的最优位置。
[0042]
蛋白质结构预测的蚁群算法步骤如下:
[0043]
第一步,初始化一个规模为m的粒子群,在允许的范围内设定每个粒子的位置和速度,并把每个粒子的p
(l)
(0)设定为其初始位置,把p
(l)
(0)中的最好值赋给p
(g)
,置k=0。
[0044]
第二步,计算每个粒子的适应值f(r
(l)
(k),k)。
[0045]
第三步,对每个粒子,用
[0046][0047]
更新其最优位置p
(g)
。其中,r
(l)
(k)=(r
(l1)
(k),r
(l2)
(k),...,r
(ln)
(k)),r
(l)
(k+1)=(r
(l1)
(k+1),r
(l2)
(k+1),...,r
(ln)
(k+1))。
[0048]
第四步,对每个粒子r
(l)
(k),将其适应值f(r
(l)
(k),k)和群体经历过的最好位置p
(g)
适应值f(p
(g)
,k)比较,若f(r
(l)
(k),k)≤f(p
(g)
,k),则将其置为当前的全局最好位置。
[0049]
第五步,更新粒子的速度:
[0050]v(l)
(k+1)=v
(l)
(k)+c1w1(p
(l)-r
(l)
(k))+c2w2(p
(g)-r
(l)
(k))
[0051]
更新粒子的位置:r
(l)
(k+1)=r
(l)
(k)+v
(l)
(k+1),其中,l=1,2,...,m为粒子的标号;k为迭代次数;c1、c2为学习因子或加速常数,是两个正值,一般在1-2之间取值;w1、w2是均匀分布于[0,1]之间的两个随机数,
[0052]v(l)
(k)=(v
(l1)
(k),v
(l2)
(k),...,v
(ln)
(k)),v
(l)
(k+1)=(v
(l1)
(k+1),v
(l2)
(k+1),...,v
(ln)
(k+1))。第六步,如果满足终止条件(迭代终止条件为预设的最大迭代次数或预定的最小适应度值),则输出解;否则置k=k+1转第二步。
[0053]
本发明有益效果
[0054]
设计一种基于粒子群算法的蛋白质结构预测方法,其有益效果如下:
[0055]
本发明利用最优化技术,通过模拟蛋白质折叠过程来优化蛋白质模型,使其改变为接近天然蛋白质的分子构型。模拟蛋白质折叠这一过程,使蛋白质模型能够继续折叠,直到接近天然构象。本发明设计考虑蛋白质的主链结构与侧链的全原子模型,对全原子模型进行整体优化。在优化过程中,本方案额外增加了来自于模板蛋白的临近氨基酸对的势能函数,帮助整个优化能更好的找到能量最小值的蛋白质模型。经过这一步,全原子模型得到了一个较好的质量提升。对于部分拥有较长loop区间的蛋白质来说,本方法具有比较好的优化效果。
具体实施方式:
[0056]
本发明涉及一种基于蚁群算法的蛋白质结构的全原子预测方法,所述全原子预测方法通过提供蛋白质氨基酸序列及各个氨基酸上原子的空间坐标,就能构建出蛋白质原子的三维结构,包括蛋白质主链和侧链在内的全原子的坐标;这些原子的位置与它们之间的相互作用共同决定了蛋白质的三维构型,在优化方案中,为达到最佳优化效果,每一个原子的位置都要被考虑进去。但蛋白质模型拥有的全原子数量过大,需要进行考虑的数据过多,因此,需要对蛋白质结构模型进行粗粒化处理。只保留主链上的碳原子坐标,其余原子的坐标将暂时忽略掉,是利用有效的最优化技巧搜索最小能构象,蛋白质模型的主链结构决定了模型质量的好与坏。所以对蛋白质的主链结构预测结果进行优化是必须的,具体步骤如下:
[0057]
(1)网格建立
[0058]
给定一条长度为n的氨基酸序列r=r1r2...rn,ri∈{h,p},i∈in及一个有m(≥n)个格点的三维网格l,这里m=o
×
p
×
q。o,p,q分别是横向、纵向、竖向网格格点的个数。已知网格的位置,即每个网格格点的坐标sj=(xj,yj,zj)∈r3,r3是三维实数空间,j∈in,并假设相邻网格格点之间的距离是常数a;
[0059]
(2)目标函数
[0060]
序列r的h-h对数量为目标函数
[0061][0062]
其中,
[0063][0064]
r={r1,r2,...,rn},ri是氨基酸ri在三维空间中的位置,ri=(xi,yi,zi)∈r3,i∈in,表示氨基酸ri占用了格点li,,li的相邻格点指标集为:n(li)表示格点li的邻点排在氨基酸ri之后的氨基酸占用。
[0065]
(3)约束条件:
[0066]
i.每个氨基酸只能占用一个网格格点:
[0067]
ii.格点j被占用,它在一个构象中只能被占用一次:
[0068]
iii.氨基酸序列的局部相邻性不能被破坏;||r
i-r
i-1
||=a,i=1,2,...,n
[0069]
iv.氨基酸必须落在网格格点上而不是网格的边线上,即ri∈{s1,s2,...,sm},i∈in[0070]
只有主链的蛋白质模型并非最终结果。它并不能代表蛋白质的全部信息和功能。在生物领域使用时,局部结构也非常重要,因此全原子的添加和构建是必须的。因此需要建立蛋白质侧链,并在原子间形成化学键。通过搜索已知蛋白质的侧链信息,能够帮助这些主链蛋白质模型建立偏向天然结构的蛋白质侧链。大部分的蛋白质侧链预测软件使用的从已知结构蛋白质上统计的侧链信息都来自于旋转异构体数据库。这些旋转异构体数据库分两种。一种是与主链侧链分离的数据库。这种数据库会将主链侧链分离开,收集所有侧链的信息。另一种会将侧链与主链的二面角信息成对收集在一次。构象数据库可以替代旋转异构体数据库。构象数据库包含从已知结构蛋白质上统计的笛卡尔坐标,分别为键长,键角和二面角变化率。因此,本发明还需要如下约束:
[0071]
v.能量约束:当一条蛋白质序列折叠成某个特殊结构的时候,要求弯曲势能足够小,即其中,m是常数,θi为编号为i-1,i和i+1的三个小球所形成角度的补角,cosθi=(r
iri-1
·ri+1ri
)/|r
iri-1
||r
i+1ri
|(r
iri-1
·ri+1ri
)是向量r
iri-1
和向量r
i+1ri
的内积,即对应坐标乘积和。|r
iri-1
|是向量r
iri-1
的模,|r
i+1ri
|是向量和r
i+1ri
向量。
[0072]
蛋白质结构预测的最优化模型如下:
[0073]
(p)
[0074]
令可行域为
[0075][0076]
则最优化模型(p)也可以写成
[0077]
(p1)
[0078]
算法设计
[0079]
本发明从数学角度出发,针对简化的氨基酸序列在方格网上折叠的问题和蛋白质结构比较问题建立了最优优化模型,并构造了适当的优化算法来解决这些问题。和现有解决蛋白质结构预测中常用的遗传算法等进化算法不同的是,本发明采用蚁群算法来求解最优化模型(p1)。
[0080]
与遗传算法等其它进化算法比较,蚁群算法的具有独特的信息共享机制。在遗传算法中,染色体互相共享信息,所以整个种群的移动是比较均匀的向最优区域移动。在蚁群算法中,只有自身最优和全局最优提供信息给其他的粒子,这是单向的信息流动。整个搜索更新过程是跟随当前最优解的过程。蚁群算法与其它进化算法另一个重要不同点在于它在进化过程中同时保留和利用位置与速度信息,而其它进化算法仅保留和利用位置信息。因此与遗传算法比较,所有的粒子群算法可以更快的收敛于最优解。
[0081]
最优化模型(p1)是典型的约束最优化问题,约束最优化问题就是在保证决策变量满足约束的前提下,在决策变量的定义范围内寻找使得目标函数达到最优的解。约束处理是求解约束优化问题的关键。约束处理的方式有剔除不可行解、惩罚函数法、修补法等。本发明采用惩罚函数法,其主要目的是减少或消除约束条件。将问题的目标函数和约束函数按一定的方式构造出带参数的增广目标函数(惩罚函数),把约束最优化问题转化为一系列无约束最优化问题来求解。为了更好的设计罚函数,本发明将最优化模型(p1)重构成如下形式
[0082][0083]
本发明构造基于蚁群算法的惩罚函数:
[0084][0085]
其中,λ(t)=t
1/3
是惩罚参数,t是粒子群算法的迭代次数。令惩罚项为
[0086][0087]
则惩罚函数可表示为:
[0088]
f(r,t)=g(r)+λ(t)h(r)
[0089]
将蚁群算法与惩罚函数法融合,在迭代过程中,以惩罚方法构造评价函数
[0090]
f(r,t)=g(r)+λ(t)h(r),ri∈{s1,s2,...,sm},i∈in[0091]
将约束优化问题转化为无约束优化问题求解。假设在解n维空间中有m个代表问题潜在解的粒子组成的一个种群x={r
(1)
,r
(2)
,...,r
(n)
},其中r
(l)
=(r
(l1)
,r
(l2)
,...,r
(ln)
),l=1,2,...,m表示第l个粒子,即n维解空间的一个向量。用v
(l)
=(v
(l1)
,v
(l2)
,...,v
(ln)
),l=1,2,...,m,表示第l个粒子的速度。用p
(l)
=(p
(l1)
,p
(l2)
,...,p
(ln)
),l=1,2,...,m,表示第l个粒子迄今为止搜索到的最优位置。用p
(g)
=(p
(g1)
,p
(g2)
,...,p
(gn)
)表示整个粒子群到目前为止搜索到的最优位置。
[0092]
蛋白质结构预测的蚁群算法步骤如下:
[0093]
第一步,初始化一个规模为m的粒子群,在允许的范围内设定每个粒子的位置和速度,并把每个粒子的p
(l)
(0)设定为其初始位置,把p
(l)
(0)中的最好值赋给p
(g)
,置k=0。
[0094]
第二步,计算每个粒子的适应值f(r
(l)
(k),k)。
[0095]
第三步,对每个粒子,用
[0096][0097]
更新其最优位置p
(g)
。其中,r
(l)
(k)=(r
(l1)
(k),r
(l2)
(k),...,r
(ln)
(k)),r
(l)
(k+1)=(r
(l1)
(k+1),r
(l2)
(k+1),...,r
(ln)
(k+1))。
[0098]
第四步,对每个粒子r
(l)
(k),将其适应值f(r
(l)
(k),k)和群体经历过的最好位置p
(g)
适应值f(p
(g)
,k)比较,若f(r
(l)
(k),k)≤f(p
(g)
,k),则将其置为当前的全局最好位置。
[0099]
第五步,更新粒子的速度:
[0100]v(l)
(k+1)=v
(l)
(k)+c1w1(p
(l)-r
(l)
(k))+c2w2(p
(g)-r
(l)
(k))
[0101]
更新粒子的位置:r
(l)
(k+1)=r
(l)
(k)+v
(l)
(k+1),其中,l=1,2,...,m为粒子的标号;k为迭代次数;c1、c2为学习因子或加速常数,是两个正值,一般在1-2之间取值;w1、w2是均匀分布于[0,1]之间的两个随机数,
[0102]v(l)
(k)=(v
(l1)
(k),v
(l2)
(k),...,v
(ln)
(k)),v
(l)
(k+1)=(v
(l1)
(k+1),v
(l2)
(k+1),...,v
(ln)
(k+1))。
[0103]
第六步,如果满足终止条件(迭代终止条件为预设的最大迭代次数或预定的最小适应度值),则输出解;否则置k=k+1转第二步。

技术特征:
1.一种基于蚁群算法的蛋白质结构的全原子预测方法,所述全原子预测方法通过提供蛋白质氨基酸序列及各个氨基酸上原子的空间坐标,就能构建出蛋白质原子的三维结构,包括蛋白质主链和侧链在内的全原子的坐标;这些原子的位置与它们之间的相互作用共同决定了蛋白质的三维构型,蛋白质模型拥有的全原子数量过大,需要进行考虑的数据过多,需要对蛋白质结构模型进行粗粒化处理,只保留主链上的碳原子坐标,其余原子的坐标将暂时忽略掉,是利用有效的最优化技巧搜索最小能构象,对蛋白质的主链结构预测结果进行优化是必须的,具体步骤如下:(1)网格建立给定一条长度为n的氨基酸序列r=r1r2...r
n
,r
i
∈{h,p},i∈i
n
及一个有m(≥n)个格点的三维网格l,这里m=o
×
p
×
q;o,p,q分别是横向、纵向、竖向网格格点的个数;已知网格的位置,即每个网格格点的坐标s
j
=(x
j
,y
j
,z
j
)∈r3,r3是三维实数空间,j∈i
n
,并假设相邻网格格点之间的距离是常数a;(2)目标函数序列r的h-h对数量为目标函数其中,r={r1,r2,...,r
n
},r
i
是氨基酸r
i
在三维空间中的位置,r
i
=(x
i
,y
i
,z
i
)∈r3,i∈i
n
,表示氨基酸r
i
占用了格点l
i
,,l
i
的相邻格点指标集为:n(l
i
)表示格点l
i
的邻点排在氨基酸r
i
之后的氨基酸占用;(3)约束条件i.每个氨基酸只能占用一个网格格点:ii.格点j被占用,它在一个构象中只能被占用一次:iii.氨基酸序列的局部相邻性不能被破坏;||r
i-r
i-1
||=a,i=1,2,...,niv.氨基酸必须落在网格格点上而不是网格的边线上,即r
i
∈{s1,s2,...,s
m
},i∈i
n
只有主链的蛋白质模型并非最终结果;它并不能代表蛋白质的全部信息和功能;在生物领域使用时,局部结构也非常重要,因此全原子的添加和构建是必须的,因此需要建立蛋白质侧链,并在原子间形成化学键,通过搜索已知蛋白质的侧链信息,能够帮助这些主链蛋
白质模型建立偏向天然结构的蛋白质侧链,大部分的蛋白质侧链预测软件使用的从已知结构蛋白质上统计的侧链信息都来自于旋转异构体数据库,这些旋转异构体数据库分两种:一种是与主链侧链分离的数据库,这种数据库会将主链侧链分离开,收集所有侧链的信息,另一种会将侧链与主链的二面角信息成对收集在一次,构象数据库可以替代旋转异构体数据库,构象数据库包含从已知结构蛋白质上统计的笛卡尔坐标,分别为键长,键角和二面角变化率;v.能量约束:当一条蛋白质序列折叠成某个特殊结构的时候,要求弯曲势能足够小,即其中,m是常数,θ
i
为编号为i-1,i和i+1的三个小球所形成角度的补角,cosθ
i
=(r
i
r
i-1
·
r
i+1
r
i
)/|r
i
r
i-1
||r
i+1
r
i
|(r
i
r
i-1
·
r
i+1
r
i
)是向量r
i
r
i-1
和向量r
i+1
r
i
的内积,即对应坐标乘积和,|r
i
r
i-1
|是向量r
i
r
i-1
的模,|r
i+1
r
i
|是向量和r
i+1
r
i
向量;其特征是:蛋白质结构预测的最优化模型p如下:(p)令可行域为则最优化模型p写成所述最优化模型p1的形式:(p1)2.根据权利要求1所述的基于蚁群算法的蛋白质结构的全原子预测方法,其特征是:采用蚁群算法来求解所述最优化模型p1,将所述最优化模型p1重构成如下形式
构造基于蚁群算法的惩罚函数:其中,λ(t)=t
1/3
是惩罚参数,t是粒子群算法的迭代次数,令惩罚项为则惩罚函数可表示为:f(r,t)=g(r)+λ(t)h(r)将蚁群算法与惩罚函数法融合,在迭代过程中,以惩罚方法构造评价函数f(r,t)=g(r)+λ(t)h(r),r
i
∈{s1,s2,...,s
m
},i∈i
n
将约束优化问题转化为无约束优化问题求解,假设在解n维空间中有m个代表问题潜在解的粒子组成的一个种群x={r
(1)
,r
(2)
,...,r
(n)
},其中r
(l)
=(r
(l1)
,r
(l2)
,...,r
(ln)
),l=1,2,...,m表示第l个粒子,即n维解空间的一个向量;用v
(l)
=(v
(l1)
,v
(l2)
,...,v
(ln)
),l=1,2,...,m,表示第l个粒子的速度;用p
(l)
=(p
(l1)
,p
(l2)
,...,p
(ln)
),l=1,2,...,m,表示第l个粒子迄今为止搜索到的最优位置,用p
(g)
=(p
(g1)
,p
(g2)
,...,p
(gn)
)表示整个粒子群到目前为止搜索到的最优位置,蛋白质结构预测的所述蚁群算法步骤如下:第一步,初始化一个规模为m的粒子群,在允许的范围内设定每个粒子的位置和速度,并把每个粒子的p
(l)
(0)设定为其初始位置,把p
(l)
(0)中的最好值赋给p
(g)
,置k=0;
第二步,计算每个粒子的适应值f(r
(l)
(k),k);第三步,对每个粒子,用更新其最优位置p
(g)
,其中,r
(l)
(k)=(r
(l1)
(k),r
(l2)
(k),...,r
(ln)
(k)),r
(l)
(k+1)=(r
(l1)
(k+1),r
(l2)
(k+1),...,r
(ln)
(k+1));第四步,对每个粒子r
(l)
(k),将其适应值f(r
(l)
(k),k)和群体经历过的最好位置p
(g)
适应值f(p
(g)
,k)比较,若f(r
(l)
(k),k)≤f(p
(g)
,k),则将其置为当前的全局最好位置;第五步,更新粒子的速度:v
(l)
(k+1)=v
(l)
(k)+c1w1(p
(l)-r
(l)
(k))+c2w2(p
(g)-r
(l)
(k))更新粒子的位置:r
(l)
(k+1)=r
(l)
(k)+v
(l)
(k+1),其中,l=1,2,...,m为粒子的标号;k为迭代次数;c1、c2为学习因子或加速常数,是两个正值,一般在1-2之间取值;w1、w2是均匀分布于[0,1]之间的两个随机数,v
(l)
(k)=(v
(l1)
(k),v
(l2)
(k),...,v
(ln)
(k)),v
(l)
(k+1)=(v
(l1)
(k+1),v
(l2)
(k+1),...,v
(ln)
(k+1));第六步,如果满足终止条件(迭代终止条件为预设的最大迭代次数或预定的最小适应度值),则输出解;否则置k=k+1转第二步。

技术总结
一种基于蚁群算法的蛋白质结构的全原子预测方法,所述全原子预测方法通过提供蛋白质氨基酸序列及各个氨基酸上原子的空间坐标,就能构建出蛋白质原子的三维结构,包括蛋白质主链和侧链在内的全原子的坐标;这些原子的位置与它们之间的相互作用共同决定了蛋白质的三维构型。本发明利用最优化技术,通过模拟蛋白质折叠过程来优化蛋白质模型,使其改变为接近天然蛋白质的分子构型。模拟蛋白质折叠这一过程,使蛋白质模型能够继续折叠,直到接近天然构象。本发明考虑蛋白质的主链结构与侧链的全原子模型,对全原子模型进行整体优化。对全原子模型进行整体优化。


技术研发人员:王威丹 广心升 鞠兴良
受保护的技术使用者:青岛超蓝生物信息科技有限公司
技术研发日:2022.07.11
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-6548.html

最新回复(0)