一种刺胞动物门物种基因组Homeobox基因家族鉴定方法、装置、电子设备及存储介质与流程

专利2025-04-08  7


本发明涉及生物信息领域,具体而言,涉及一种刺胞动物门物种基因组homeobox基因家族鉴定方法、装置、电子设备及存储介质。


背景技术:

1、homeobox(同源盒)基因超家族是一个主要编码转录因子的特殊基因家族,起源于植物、真菌和后生动物之间的进化分裂之前,在动物和植物发育中具有重要的调控作用。homeobox基因序列均具有一个保守的homeodomain结构域(pf00046.33:homeodomain,pfam35数据库),homeodomain是一个长度普遍约为60个氨基酸长度的螺旋-转角-螺旋dna结合序列。homeobox基因几乎存在于所有真核生物中,在动物进化过程中已分化为11个基因类。在homeobox基因超家族通常可以使用两个更为细致级别的分组:类(class)和基因家族(gene family)。其中类是指具有额外保守基序或同属一个进化分枝的homeobox基因,包括antp、prd、lim、pou、hnf、sine、tale、cut、pros、zf和cers;基于进化谱系,类进一步定义为不同的基因家族,目前研究比较明确的homeobox基因家族是112个,homeobox基因家族在染色体上呈现线性成簇排布,对于动物形态模式发育具有至关重要调控作用。

2、研究普遍认为两侧对称动物形态具有显著的多样性,homeobox基因家族对与两侧对称的动物分支调控作用被深入研究,如脊索动物门、节肢动物门、线虫动物门及软体动物门,体现在homeobox基因家族的鉴定、分类及功能验证上。对于脊索动物门、软体动物门、节肢动物门及线虫动物门物种的homeobox基因家族基因研究比较深入和广泛,鉴定方法、标准及分类规则具有比较好的一致性和统一性。刺胞动物门物种主要包括水螅纲、钵水母纲、珊瑚纲,是重要的海洋生物,尤其珊瑚对于海洋生态系统的稳定性、生物多样性以及人类经济活动都起着至关重要的作用,然而珊瑚礁面临严重的环境威胁,保护石珊瑚及其栖息地对海洋生态系统的健康和多样性至关重要。研究也已表明刺胞动物具有广泛的形态多样性,研究与刺胞动物形态发育模式相关的homeobox基因进化研究对于理解刺胞动物门多态性及物种保护具有重要的意义。然而目前对于刺胞动物门物种homeobox基因家族缺乏全面鉴定、分类统一方法及一致性标准。

3、随着高通量测序技术不断地发展和深入,生物样本dna处理、提取技术及生物信息分析对于基因组组装技术的深入和迭代,越来越多地完整、连续、准确的刺胞动物门基因组被组装出来,为刺胞动物形态发育模式相关的homeobox基因进化研究提供了坚实基础。

4、目前对于刺胞动物门物种来说,对homeobox基因主要集中在antp类homeobox基因家族层面的研究,缺乏对于homeobox(同源盒)基因超家族全面鉴定分析;正是由于缺少对于刺胞动物门基因组homeobox基因整体上鉴定分析,缺乏对于刺胞动物门物种homeobox基因家族明确、统一的鉴定方法及分类标准,与目前动物进化过程中homeobox基因分化的11个基因类及112个基因家族没有很好的统一,不利于刺胞动物门物种homeobox基因家族的深入研究。对于刺胞动物门物种海葵的homeobox基因家族鉴定分类研究较为全面,但是其仅基于海葵、智人及果蝇homeobox基因的保守结构域比对及进化分析,忽视在一定情况下通过一组基因序列很难确切确定某个基因进化位置,不同门类或者不同物种进化差异导致的homeobox基因家族特有进化,进而一定程度上导致了刺胞动物门物种homeobox基因家族分类效率降低及假阳性的提升。

5、有鉴于此,特提出本发明。


技术实现思路

1、本发明的目的在于提供一种刺胞动物门物种基因组homeobox基因家族鉴定方法、装置、电子设备及存储介质,所述的刺胞动物门物种基因组homeobox基因家族鉴定方法,对刺胞动物门物种基因组homeobox基因家族能够进行全面鉴定,具有通用性,分类效率高,不易出现假阳性。

2、为了实现本发明的上述目的,特采用以下技术方案:

3、本发明的一个方面,涉及一种刺胞动物门物种基因组homeobox基因家族鉴定方法,包括以下步骤:

4、s1.构建模式生物基因组homeobox基因家族保守结构域序列的隐马尔可夫模型数据库;

5、s2.提取刺胞动物门物种的基因组候选homeobox基因;

6、s3.基于homeobox基因家族保守结构域序列的隐马尔可夫模型数据库,对刺胞动物门物种基因组候选homeobox基因的蛋白序列进行同源检索;

7、s4.整合同源检索结果,基于比对期望值进行排序,筛选最佳比对确定刺胞动物门物种homeobox基因及家族分类。

8、所述的刺胞动物门物种基因组homeobox基因家族鉴定方法,主要采取基于多模式生物每个homeobox基因家族保守结构域序列(pf00046.33:homeodomain)构建的隐马尔可夫模型,统一方法及标准,对刺胞动物门物种基因组homeobox基因进行全面鉴定及分类,为刺胞动物门物种homeobox基因家族研究提供坚实基础。采用多个不同门类多个模式物种已明确研究homeobox基因家族,构建每个homeobox基因家族保守结构域序列的隐马尔可夫模型,进行刺胞动物门物种homeobox基因家族同源检索及排位,降低了仅基于整合智人和果蝇homeobox基因保守结构域序列同源比对及进化分析引入的homeobox基因家族低分类效率及假阳性,提升了刺胞动物门物种homeobox基因家族全基因组鉴定分类的准确性,构建了一种刺胞动物门物种基因组homeobox基因家族全面鉴定通用性的统一鉴定分类方法。

9、进一步地,所述最佳比对的比对期望值为最小期望值且比对期望值≤1.0e-10。e-value是衡量统计显著性的指标,表明比对结果的假阳性预期e-value越低,则同源性越高,假阳性越低,标准情况下e-value<1.0e-3即为显著同源。本发明以比对期望值为最小期望值且比对期望值≤1.0e-10,严格条件,将假阳性进一步降低,提高鉴定准确性。

10、进一步地,所述模式生物包括但不限于:脊索动物门、节肢动物门或线虫动物门中的至少一种。homeobox基因家族对与两侧对称的动物分支调控作用被深入研究,尤其是脊索动物门、节肢动物门和线虫动物门。

11、构建隐马尔可夫模型需要多序列比对,因此每个家族至少需要2条序列,本发明尽可能的将所有模式物种每一个家族有的序列都用于构建隐马尔可夫模型。

12、本发明对于脊索动物门的具体物种不做具体限定,属于脊索动物门且homeobox基因家族深入研究的物种均可应用。在一些较佳的实施方式中,所述脊索动物门包括但不限于:智人、小鼠、红原鸡、热带爪蟾或斑马鱼中的至少一种。智人是目前研究最深入的脊索动物;小鼠哺乳纲物种研究模式生物;红原鸡是鸟纲物种研究模式生物;热带爪蟾是两栖纲动物研究模式生物;斑马鱼是硬骨鱼纲物种研究模式生物。

13、本发明对于节肢动物门的具体物种不做具体限定,属于节肢动物门且homeobox基因家族深入研究的物种均可应用。在一些较佳的实施方式中,所述节肢动物门包括但不限于:黑腹果蝇、意大利峰或赤拟谷盗中的至少一种。黑腹果蝇作为双翅目物种,为遗传学研究的模式物种;意大利峰为膜翅目物种研究模式物种;赤拟谷盗是鞘翅目物种研究模式生物。

14、本发明对于线虫动物门的具体物种不做具体限定,属于线虫动物门且homeobox基因家族深入研究的物种均可应用。在一些较佳的实施方式中,所述线虫动物门包括但不限于:秀丽隐杆线虫。秀丽隐杆线虫是分子生物学和发育生物学研究领域的模式生物。

15、本发明选择homeobox基因家族研究深入的门类物种下不同纲或者目下模式生物,具有明显的代表性;其次,以上物种全面涵盖了homeobox基因家族完整信息,构建全面、完整、多态的homeobox基因家族隐马尔可夫模式,保障刺胞动物门物种homeobox基因家族鉴定分析的准确性;最后,这些物种基因组组装质量和注释的质量基本高于同分类下其他物种,也保障了隐马尔可夫模型的准确性。

16、进一步地,所述刺胞动物门物种的基因组候选homeobox基因具有homeobox基因保守结构域。

17、在一些具体的实施方式中,提取模式生物homeobox基因家族编码蛋白的保守结构域序列,获得每一个homeobox基因家族命名的fasta格式文件;基于每个homeobox基因家族的fasta文件,应用mafft软件,对每个homeobox基因家族的fasta文件进行多序列比对,获得每个homeobox基因家族命名的多序列比对格式文件;基于每个homeobox基因家族命名的多序列比对文件,应用hmmbuild软件,构建每个homeobox基因家族基因编码蛋白保守结构域序列的隐马尔可夫模型。

18、在一些具体的实施方式中,应用pfamscan软件,对刺胞动物门物种的基因组基因编码蛋白序列的保守结构域进行预测,提取具有homeobox基因保守结构域的蛋白为刺胞动物门物种的基因组候选homeobox基因。

19、在一些具体的实施方式中,基于每个homeobox基因家族基因编码蛋白保守结构域序列的隐马尔可夫模型及刺胞动物门物种的基因组候选homeobox基因编码蛋白,应用hmmsearch软件,进行候选homeobox基因编码蛋白序列与每个homeobox基因家族基因编码蛋白保守结构域序列的隐马尔可夫模型的同源检索。

20、在一些具体的实施方式中,整合每个候选homeobox基因编码蛋白序列与每个homeobox基因家族基因编码蛋白保守结构域序列隐马尔可夫模型的同源检索结果,提取每个候选homeobox基因编码蛋白对应每个homeobox基因家族基因编码蛋白保守结构域序列隐马尔可夫模型的同源检索中比对到保守结构域区域期望值,并且标记homeobox基因家族对应统一分类命名。

21、在一些具体的实施方式中,筛选同源检索比对到保守结构域期望值≤1.0e-10的候选homeobox基因编码蛋白为刺胞动物门物种的基因组homeobox基因编码蛋白;对刺胞动物门物种的基因组每一个homeobox基因编码蛋白同源检索比对到保守结构域区域期望值进行从小到大的排序;基于刺胞动物门物种的基因组homeobox基因编码蛋白同源检索比对到保守结构域区域最小期望值,确定刺胞动物门物种的基因组homeobox基因最佳比对,最佳比对对应homeobox家族分类即为此刺胞动物门物种homeobox基因家族分类。

22、本发明的另一个方面,还涉及一种刺胞动物门物种基因组homeobox基因家族鉴定装置,包括:

23、隐马尔可夫模型建立模块,用于构建模式生物基因组homeobox基因家族保守结构域序列的隐马尔可夫模型数据库;

24、同源检索模块,用于对刺胞动物门物种基因组蛋白序列进行同源检索;

25、筛选模块,用于筛选最佳比对。

26、本发明的另一个方面,还涉及一种电子设备,包括:

27、至少一个处理器;以及,

28、与所述至少一个处理器通信连接的存储器;其中,

29、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的刺胞动物门物种基因组homeobox基因家族鉴定方法。

30、本发明的另一个方面,还涉及一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被电子设备执行时,使所述电子设备执行所述的刺胞动物门物种基因组homeobox基因家族鉴定方法。

31、与现有技术相比,本发明的有益效果为:

32、本发明提供的刺胞动物门物种基因组homeobox基因家族鉴定方法,主要采取基于多门类多个模式生物每个homeobox基因家族保守结构域序列(pf00046.33:homeodomain)构建的隐马尔可夫模型,统一方法及标准,对刺胞动物门物种基因组homeobox基因进行全面鉴定及分类,为刺胞动物门物种homeobox基因家族研究提供坚实基础。采用多个不同门类多个模式物种已明确研究homeobox基因家族,构建每个homeobox基因家族保守结构域序列的隐马尔可夫模型,进行刺胞动物门物种homeobox基因家族同源检索及排位,降低了仅基于整合智人和果蝇homeobox基因保守结构域序列同源比对及进化分析引入的homeobox基因家族低分类效率及假阳性,提升了刺胞动物门物种homeobox基因家族全基因组鉴定分类的准确性,构建了一种刺胞动物门物种基因组homeobox基因家族全面鉴定通用性的统一鉴定分类方法。


技术特征:

1.一种刺胞动物门物种基因组homeobox基因家族鉴定方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的刺胞动物门物种基因组homeobox基因家族鉴定方法,其特征在于,所述最佳比对的比对期望值为最小期望值且比对期望值≤1.0e-10。

3.根据权利要求1所述的刺胞动物门物种基因组homeobox基因家族鉴定方法,其特征在于,所述模式生物包括:脊索动物门、节肢动物门或线虫动物门中的至少一种。

4.根据权利要求3所述的刺胞动物门物种基因组homeobox基因家族鉴定方法,其特征在于,所述脊索动物门包括:智人、小鼠、红原鸡、热带爪蟾或斑马鱼中的至少一种。

5.根据权利要求3所述的刺胞动物门物种基因组homeobox基因家族鉴定方法,其特征在于,所述节肢动物门包括:黑腹果蝇、意大利峰或赤拟谷盗中的至少一种。

6.根据权利要求3所述的刺胞动物门物种基因组homeobox基因家族鉴定方法,其特征在于,所述线虫动物门包括:秀丽隐杆线虫。

7.根据权利要求1所述的刺胞动物门物种基因组homeobox基因家族鉴定方法,其特征在于,所述刺胞动物门物种的基因组候选homeobox基因具有homeobox基因保守结构域。

8.一种刺胞动物门物种基因组homeobox基因家族鉴定装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机可执行指令,当所述计算机可执行指令被电子设备执行时,使所述电子设备执行权利要求1~7任一项所述的刺胞动物门物种基因组homeobox基因家族鉴定方法。


技术总结
本发明涉及生物信息领域,具体而言,涉及一种刺胞动物门物种基因组Homeobox基因家族鉴定方法、装置、电子设备及存储介质。该方法包括:S1.构建模式生物基因组Homeobox基因家族保守结构域序列的隐马尔可夫模型数据库;S2.提取刺胞动物门物种的基因组候选Homeobox基因;S3.基于Homeobox基因家族保守结构域序列的隐马尔可夫模型数据库,对刺胞动物门物种基因组候选Homeobox基因的蛋白序列进行同源检索;S4.整合同源检索结果,基于比对期望值进行排序,筛选最佳比对。该方法对刺胞动物门物种基因组Homeobox基因家族能够进行全面鉴定,具有通用性,分类效率高,不易出现假阳性。

技术研发人员:黄万龙,田仕林,王强辉,赵丽华,罗方,张德静,李萍
受保护的技术使用者:北京诺禾致源科技股份有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-12904.html

最新回复(0)