一种用于解析基因组着丝粒区域解构的注释方法与流程

专利2025-04-29  15


本发明涉及生物基因序列领域,特别涉及需要解析着丝粒区域结构的研究。


背景技术:

1、为了更好地理解着丝粒粒的结构,我们需要进行准确的注释,这是分析其结构的基本步骤。着丝粒区域富含卫星dna序列,其特点是长串联重复序列。这些序列通常呈现为m-m-m-m...的模式,其中m代表重复单元,称为单体。不同生物体中这些单体的长度各不相同。例如,人类着丝粒区域的单体长度约为171碱基对(bp),而在鸡中为41bp。在一些生物体中,着丝粒区域可能包含多种类型的单体,其相似性范围为50%至90%。这些单体有组织地重复形成更高级别的串联重复单元(hors)。例如,在人类基因组的x染色体中,卫星dna序列遵循类似m1-m2-...-m11-m12-m1-m2...-m11-m12...的模式,其中m1-m2-...-m11-m12重复多次,形成一个由12个单体组成的hor。着丝粒注释重点在于识别隐藏在着丝粒区域内的这些单体和hors。

2、着丝粒注释面临的一个关键问题是重复注释,目前已经有一系列工具专门为此而设计,如tandem repeat finder(trf)、repeatexplorer2和tarean等。尽管这些工具在重复注释方面表现良好,但它们没有支持对hors的分析。另一方面,一些工具专门用于分析着丝粒区域中的hor,例如alpha-centauri、centromerearchitect、hormon和hicat。尽管这些工具可以自动化hors的分析,但它们需要已知的单体模板,因此在某些非模式生物的着丝粒结构分析中的适用性受到限制。为解决这些挑战,trash和satellite repeat finder(srf)被提出。trash可以从着丝粒序列中自动分析单体并推断hors,但需要用户从推断的单体集中手动选择单体作为hor分析的模板,srf则不能提供细致的注释结果。

3、总的来说,着丝粒的注释方法设计有两个关键挑战,一个是准确识别着丝粒序列中的重复单体,另一个则是准确分析着丝粒序列中的hor结构。通常而言,重复单体的准确识别是分析hor结构的重要前提。


技术实现思路

1、在本发明中,我们提出了一种用于解析着丝粒结构的注释方法(centroanno),centroanno首先基于一种启发式策略来分析着丝粒序列的重复单元,期间涉及着丝粒序列的判定。当串联重复单元被识别,centroanno基于串联重复单元信息得到一个邻接矩阵,并将hors的解析问题转换为在邻接矩阵中寻找特定结构的图论问题,期间结合一种滑动窗口策略细化hors的结构解析结果。

2、具体而言,本发明是通过以下技术方案实现的:

3、一种解析着丝粒区域的注释方法centroanno,包括以下步骤:

4、s1:给定一条序列,判断序列是否有串联重复性,后续的分析只针对具备串联重复性的序列;

5、s2:确定序列中的高频k-mer(序列中一段长度为k的连续字串),并确定所有高频k-mer之间的距离,该距离暗示着串联重复单元的长度;

6、s3:通过s2得到的距离,通过直接在序列中截取子序列的方式获得串联重复单元集合,并基于该集合完成序列的分解。在此过程中,序列被分解为一个block列表,每一个block暗示着一个串联重复单元;

7、s4:基于s3得到的结果,检测序列中被错误注释的区域,其中每一个被错误注释的block通常有着较低的得分。

8、s5:在检测出的被错误注释的区域中重新推断串联重复单元,并实现当前的串联重复集合的扩充。基于扩充之后的串联重复集合,重新分解序列,得到更精细的注释结果。

9、s6:将s5得到的注释结果转化为一个邻接矩阵,并基于邻接矩阵推断hors。

10、进一步的,所述s1包括:

11、我们统计序列中每个k-mer出现的频率。对于一个长度为n的序列,一共有n-k+1个k-mer。频率超过1的k-mer被称为重复k-mer。我们统计重复k-mer在所有k-mer中所占的比重,当比重大于一个阈值时,序列将会被判定为串联重复序列。

12、进一步的,所述s2中,计算产生所有重复k-mer的距离列表。两个相邻的并相同的k-mer诱导了一个距离,由于重复k-mer通常在序列中出现多次,因此可以产生一个距离列表。假如一个k-mer在序列中出现n次(n>1),那么该k-mer诱导产生的距离列表则包含n-1个元素。我们统计每个距离出现的频率,其中高频出现并且相对较小的距离暗示了串联重复单元的长度。

13、进一步的,所述s3包括:

14、s3-1:通过s2计算得到的距离d,来截取串联重复单元。具体的,如果相邻且相同的k-mer之间的距离为d,则在序列中截取这两个k-mer之间的部分,该部分将作为潜在的串联重复单元。

15、s3-2:基于所有的串联重复单元,我们采用字符串分解算法将序列分解为一个block列表。具体而言,字符串分解算法的输入为一条序列以及潜在的串联重复单元集合,输出为一个block列表,列表中的每一个block有一个标签以及一个得分,其中标签暗示着串联重复单元编号,而得到则暗示着该block为特定串联重复单元的置信度;

16、进一步的,所述s4包括:

17、s4-1:当连续的blocks的长度超过一定的阈值(默认为5000)时,我们称这些blocks形成了一个block区域。我们检测得分较低的block区域,这些区域暗示着我们可能推断出了不完全的串联重复单元集合。在默认的设置中,当一个block的分数低于85时,被记作一个得分较低的block。对于每一个得分较低的block区域,我们基于s2的方案再次推断串联重复单元;

18、s4-2:在现实情况中,还有一个得分较低的blocks分散在序列的各个部分,导致没有形成得分较低block区域,我们将这些blocks单独的提取出来,并完成聚类。聚类结果中每个簇集所产生的一致序列作为新的串联重复单元;

19、进一步的,所述s5包括:

20、s5:基于s4,我们将获得一些新的串联重复单元,这些串联重复单元作为字符串分解算法的输入,再次对序列进行分解,此时的分解结果作为最终的串联重复单元注释结果。

21、进一步的,上述方法还包括hors的解析步骤:

22、第一步:构建邻接矩阵。s5完成之后,我们将会得到一个block列表,列表中的每一个block会被分配一个标签,这样将会诱导产生一个标签序列。比如说,一个block列表对应的标签序列可能为1-2-3-1-2-3...,这里‘1’暗示着序列的第一个block对应着1号串联重复单元。相应的,第一个block同样对应着一个分数,该分数暗示着第一个block为1号串联重复单元的置信度。一个长度为n的标签序列s对应着一个n×n的邻接矩阵,对于矩阵的每一个元素a[i][j],1<i,j≤n,当s[i]=s[j]时,a[i][j]=1,否则为0。

23、第二步:确定邻接矩阵中的特定结构。矩阵中的每条对角线被称为是一个波,对于一个n×n的邻接矩阵,它有n个波。从主对角线开始,从左到右的每一个波的长度为n,n-1,...,2,1,这些波依次为波1,波2,...,波n。对于每一个波i,假如有连续的m个元素的值都为1,并且m不小于i,我们称这些连续的元素形成了一个潜在的hor区域。这些区域所对应的前i元素在本质上对应着一个hor。比如说,对于一个简单的block序列1-2-1-2,我们将在其对应的邻接矩阵的第2个波上得到一个长度为2的潜在的hor区域,该区域前两个元素对应着“1-2”,“1-2”即为一个hor。

24、与现有技术相比,本发明的优点和有益效果是:

25、本发明提出的启发式的策略有效的实现了串联重复单元的检测。相对于当前的主流着丝粒结构分析工具而言,本发明并不需要类似于串联重复单元模板等类似的先验信息就可以实现hors的解析。另外,相对于目前的串联重复解析工具而言,本发明提出的策略更加准确。比如说,相对于目前最先进的工具trash而言,本发明可以更准确的检测出串联重复单元的长度,有效的克服了trash将两个连续的串联重复单元识别成单一的串联重复单元的弱点。

26、在另一方面,相对于目前的工具而言,本发明提出的工具具有明显的效率优势。在分析人类基因组着丝粒区域时,本发明在保证精度的同时比当前的方法快了10倍。这一效率优势以及精度优势为直接在庞大的测序数据中分析串联重复单元提供了强力保障。


技术特征:

1.一种用于基因组中着丝粒区域的结构注释方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种用于基因组中着丝粒区域的结构注释方法,其特征在于,所述启发式算法包括以下步骤:

3.根据权利要求1或2所述的一种用于基因组中着丝粒区域的结构注释方法,其特征在于,所述数据处理步骤包括:

4.根据权利要求1至3任一所述的一种用于基因组中着丝粒区域的结构注释方法,其特征在于,所述方法不需要用户提供任何已知的先验信息。

5.根据权利要求1至4任一所述的一种用于基因组中着丝粒区域的结构注释方法,其特征在于,所述方法可以在linux系统的命令行软件中实现。

6.根据权利要求1至5任一所述的一种用于基因组中着丝粒区域的结构注释方法,其特征在于,所述方法的输出结果包括串联重复单元及高阶串联重复模式的详细注释信息。

7.一种用于实现如权利要求1至6任一所述方法的软件系统,其特征在于,该软件系统基于linux平台,通过命令行界面接收输入数据,并输出注释结果。


技术总结
本发明涉及生物基因序列领域,尤其是涉及需要解析着丝粒区域结构的研究;本申请公开了一种用于解析基因组着丝粒区域解构的注释方法(centroAnno),本申请提出的centroAnno,基于一种启发式策略来分析着丝粒序列的重复单元,期间涉及着丝粒序列的判定,当串联重复单元被识别,centroAnno基于串联重复单元信息得到一个邻接矩阵,并将HORs的解析问题转换为在邻接矩阵中寻找特定结构的图论问题,期间结合一种滑动窗口策略细化HORs的结构解析结果;相较于当前的主流着丝粒结构分析工具而言,本发明提出的工具能够准确识别着丝粒序列中的重复单体并准确实现HORs的解析,且具有明显的效率优势。

技术研发人员:王洪涛,杨建,孙振璐,张艺,高巧,李霞,刘娟
受保护的技术使用者:烟台市疾病预防控制中心
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-13623.html

最新回复(0)