一种预测微生物DNA甲基化调控基因表达的方法以及系统

专利2024-04-18  13


一种预测微生物dna甲基化调控基因表达的方法以及系统
技术领域
1.本发明涉及生物信息学数据处理技术领域,尤其是涉及一种预测微生物dna甲基化调控基因表达的方法以及系统。


背景技术:

2.目前,随着单分子实时测序(single molecule real time sequencing,smrt-seq)等第三代测序技术的出现,基因组上的dna甲基化修饰可以直接通过测序进行获取,加快了对dna甲基化的生物学功能研究。
3.dna甲基化作为微生物(如细菌、古细菌、真菌和病毒等)表观遗传调控的关键基因组修饰方式,是探究微生物适应性和毒性调控机制必不可少的研究内容。为了研究dna甲基化修饰对基因表达调控的影响及机制,传统方法是使用基因敲除构建缺失dna甲基化修饰的突变体,并和野生型之间进行对比,通过生物学湿实验手段比较dna甲基化缺失导致的基因表达和微生物表型变化,但是实验存在时间冗长,通量低的实际困难。


技术实现要素:

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种预测微生物dna甲基化调控基因表达的方法以及系统,能够直接在smrt测序技术的基础上搭建基因和dna甲基化之间的一一对应关系,能获取全基因组中可能受到dna甲基化调控的基因,从而极大的减少实验时间,缩小dna甲基化调控的基因的范围,以高通量的方式提高对微生物dna甲基化的调控方式的解读。
5.本发明还提供用于执行预测微生物dna甲基化调控基因表达的系统、电子设备以及计算机可读存储介质。
6.根据本发明的第一方面实施例的预测微生物dna甲基化调控基因表达的方法,所述方法包括:
7.获取微生物的基因组,并对所述基因组进行单分子实时测序,得到基因组组装数据和dna甲基化修饰信号;
8.对所述基因组组装数据进行基因组注释,得到转录调控区域和基因编码区;
9.从所述dna甲基化修饰信号中选取甲基化位点,获取所述甲基化位点与所述转录调控区域发生位置重叠的第一位置重叠区域,以及所述甲基化位点与所述基因编码区发生位置重叠的第二位置重叠区域;
10.根据所述第一位置重叠区域或所述第二位置重叠区域,预测所述甲基化位点与所述微生物的基因之间的关系。
11.根据本发明实施例的控制方法,至少具有如下有益效果:
12.为了改进传统的研究方法的技术缺陷,本方法能够直接在smrt测序技术的基础上搭建基因和dna甲基化之间的一一对应关系,用户可以使用本方法获取全基因组中受到dna甲基化调控的基因,从而可以大大减少实验时间,缩小dna甲基化调控的基因的范围,以高
通量的方式提高对微生物dna甲基化的调控方式的解读。尤其是对于先前没有大量实验研究过的微生物物种,如临床致病微生物、环境微生物等,本方法可以迅速获取全基因组的甲基化情况与基因之间的关系。
13.根据本发明的一些实施例,所述从所述dna甲基化修饰信号中选取甲基化位点,获取所述甲基化位点与所述转录调控区域发生位置重叠的第一位置重叠区域,以及所述甲基化位点与所述基因编码区发生位置重叠的第二位置重叠区域,包括:
14.从所述dna甲基化修饰信号中获取全部甲基化位点;
15.将全部所述甲基化位点划分为第一甲基化位点、第二甲基化位点和第三甲基化位点,其中,所述第一甲基化位点是所述dna甲基化修饰信号中信号覆盖度低于覆盖度阈值和/或信号识别质量值低于识别质量值阈值的所述甲基化位点;所述第二甲基化位点和第三甲基化位点是所述dna甲基化修饰信号中信号覆盖度高于所述覆盖度阈值和信号识别质量值高于所述识别质量值阈值的所述甲基化位点,且所述第二甲基化位点对应的甲基化率高于甲基化率阈值,所述第三甲基化位点对应的甲基化率低于甲基化率阈值;
16.分别获取所述第一甲基化位点、所述第二甲基化位点和所述第三甲基化位点与所述转录调控区域发生位置重叠的第一位置重叠区域,以及分别获取所述第一甲基化位点、所述第二甲基化位点和所述第三甲基化位点与所述基因编码区发生位置重叠的第二位置重叠区域。
17.根据本发明的一些实施例,所述方法还包括:
18.提取所述第一位置重叠区域在所述基因组中对应的dna序列;其中,所述dna序列是所述第一位置重叠区域所在的所述转录调控序列;
19.根据所述dna序列预测潜在的特征序列;
20.根据所述甲基化位点和所述特征序列预测目标基因;其中,所述目标基因是指潜在受到dna甲基化和特征序列共同调控的基因。
21.根据本发明的一些实施例,所述特征序列包括以fasta格式或矩阵形式表示的dna序列。
22.根据本发明的一些实施例,通过smrt-seq对所述基因组进行单分子实时测序。
23.根据本发明的一些实施例,所述根据所述第一位置重叠区域或所述第二位置重叠区域,预测所述甲基化位点与所述微生物的基因之间的关系,包括:
24.根据发生dna甲基化事件的转录调控序列位置信息,预测出基因信息,或者,根据dna甲基化发生在所述基因编码区,预测所述dna甲基化位点相对于所述基因的位置关系。
25.根据本发明的第二方面实施例的预测微生物dna甲基化调控基因表达的系统,所述系统包括:
26.基因组获取单元,用于获取微生物的基因组;
27.单分子实时测序单元,用于对所述基因组进行单分子实时测序,得到基因组组装数据和dna甲基化修饰信号;
28.基因组注释单元,用于对所述基因组组装数据进行基因组注释,得到转录调控区域和基因编码区;
29.甲基化位点选取单元,用于从所述dna甲基化修饰信号中选取甲基化位点;
30.位置重叠检测单元,用于获取所述甲基化位点与所述转录调控区域发生位置重叠
的第一位置重叠区域,以及所述甲基化位点与所述基因编码区发生位置重叠的第二位置重叠区域;
31.第一受调控基因预测单元,用于根据所述第一位置重叠区域或所述第二位置重叠区域,预测所述甲基化位点与所述微生物的基因之间的关系。
32.由于预测微生物dna甲基化调控基因表达的系统采用了上述实施例的预测微生物dna甲基化调控基因表达的方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
33.根据本发明的一些实施例,所述系统还包括:
34.dna序列提取单元,用于提取所述第一位置重叠区域在所述基因组中对应的dna序列;其中,所述dna序列是指所述第一位置重叠区域所在的所述转录调控序列;
35.结合位点预测单元,用于根据所述dna序列预测潜在的特征序列;
36.第二受调控基因预测单元,用于根据所述甲基化位点和所述特征序列预测目标基因;其中,所述目标基因是指受到dna甲基化和结合位点共同调控的基因,所述特征序列包括以fasta格式或矩阵形式表示的dna序列。
37.根据本发明的第三方面实施例的一种电子设备,包括:至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上述的一种预测微生物dna甲基化调控基因表达的方法。
38.由于电子设备采用了上述实施例的预测微生物dna甲基化调控基因表达的方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
39.根据本发明的第四方面实施例的一种计算机可读存储介质,所述计算机可读存储介质有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述的一种预测微生物dna甲基化调控基因表达的方法。
40.由于计算机可读存储介质采用了上述实施例的预测微生物dna甲基化调控基因表达的方法的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果。
41.本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。
附图说明
42.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
43.图1是本发明第一实施例提供的一种预测微生物dna甲基化调控基因表达的方法的流程示意图;
44.图2是本发明第二实施例提供的一种预测微生物dna甲基化调控基因表达的方法的流程示意图;
45.图3是本发明第三实施例提供的一种预测微生物dna甲基化调控基因表达的方法的流程示意图;
46.图4是本发明第四实施例提供的一种预测微生物dna甲基化调控基因表达的方法的流程示意图;
47.图5是本发明第五实施例提供的一种预测微生物dna甲基化调控基因表达的系统的结构示意图;
48.图6是本发明第六实施例提供的一种电子设备的结构示意图。
具体实施方式
49.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
50.在本发明的描述中,如果有描述到第一、第二等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
51.在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
52.本发明的描述中,需要说明的是,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
53.第一实施例;
54.以微生物是细菌为例,参照图1,本发明提供了一种预测细菌dna甲基化调控基因表达的方法,包括如下步骤:
55.步骤s101、获取目标菌株的基因组,并对基因组进行单分子实时测序,得到基因组组装数据和dna甲基化修饰信号。
56.单分子实时测序(smrt-seq)是第三代测序技术,基因组上的dna甲基化修饰可以直接通过测序进行获取,因此在本步骤s101测序过程中,同一株细菌的测序同时获得细菌的基因组组装数据和dna甲基化修饰信号。具体可通过软件smrtlink进行获取。步骤s101中的目标菌株是指用户指定的细菌,这里不进行具体限制。
57.步骤s102、对基因组组装数据进行基因组注释,得到转录调控区域和基因编码区。
58.在一些实施例中,基因组组装数据使用prokka v3.0进行基因组注释,得到基因编码区,使用r计算机编程语言获得目标菌株中各基因的转录调控区域信息,在一些实施例中,转录调控区域默认为转录起始位点上游500bp及转录起始位点下游100bp。在本步骤s102中,基因的转录调控区域是指转录因子等dna结合蛋白调控基因起始转录的关键作用区域,对于预测dna甲基化修饰对转录调控的影响具有重要的意义,如:转录因子通过结合到转录调控区域,从而吸引rna聚合酶,进一步启动转录,基因开始表达。因此预测转录调控区域可以辅助用户单独获取发生在这部分区域的dna甲基化位点。值得说明的是,已有研究证明dna甲基化发生在转录调控区域,影响了转录因子的结合调控等基因转录起始机制,进一步影响基因的表达,如:在沙门氏菌中,dam甲基转移酶诱导的甲基化发生在oxyr转录因子结合在基因opvab的调控区域从而控制了opvab的表达。基因编码区是指在基因组注释中获取的基因位置。
59.步骤s103、从dna甲基化修饰信号中选取甲基化位点,获取甲基化位点与转录调控区域发生位置重叠的第一位置重叠区域,以及甲基化位点与基因编码区发生位置重叠的第二位置重叠区域。通过步骤s101的单分子实时测序,能得到dna甲基化修饰信号,dna甲基化修饰信号中包括甲基化位点、甲基化率、甲基化类型等信息。
60.步骤s104、根据第一位置重叠区域或第二位置重叠区域,预测甲基化位点与目标菌株的基因之间的关系。
61.这里的甲基化位点与目标菌株的基因之间的关系就是指的dna甲基化相对于基因的位置关系。本步骤s103和步骤s104主要是根据甲基化位点和转录调控序列,或者甲基化位点和基因编码区在基因组上的位点信息,判断二者是否有发生位置重叠的情况,从而获取发生dna甲基化事件的转录调控序列的位置信息,进而利用发生dna甲基化事件的转录调控序列的位置信息反推出基因信息(由上述步骤s102已通过基因位置预测了转录调控区域,因此建立了基因与其转录调控区域的一一对应关系,从而可以从转录调控区域的位置信息反推出基因信息),或者直接获取dna甲基化发生在基因编码区(基因编码区是指在基因组注释中获取的基因位置),从而搭建dna甲基化位点与基因之间的关系。
62.本实施例提供的一种预测细菌dna甲基化调控基因表达的方法,具有如下有益效果:
63.传统的研究方法是从分子生物学的角度入手,依托基因敲除,表性分析和多组学分析等来摸索机制,如:使用基因敲除构建缺失dna甲基化修饰的菌株,并和野生菌株之间进行对比,通过生物学湿实验手段比较dna甲基化缺失导致的基因表达和细菌表型变化。该研究方法实验存在时间冗长,通量低的实际困难。
64.为了改进传统的研究方法的技术缺陷,本方法能够直接在smrt测序技术的基础上搭建基因和dna甲基化之间的一一对应关系,用户可以使用本方法获取全基因组中可能受到dna甲基化调控的基因,从而可以大大减少实验时间,缩小dna甲基化调控的基因的范围,以高通量的方式提高对细菌dna甲基化的调控方式的解读。尤其是对于先前没有大量实验研究过的菌株,如临床致病菌等,本方法可以迅速获取全基因组的甲基化情况与基因之间的关系。
65.第二实施例;
66.以微生物是细菌为例,参照图2,本发明提供了一种预测细菌dna甲基化调控基因表达的方法,包括如下步骤:
67.步骤s201、获取目标菌株的基因组,对基因组进行smrt-seq基因组测序,通过smrtlink得到基因组组装数据和dna甲基化修饰信号。
68.步骤s202、使用prokka v3.0对基因组组装数据进行基因组注释,得到转录调控区域和基因编码区。
69.步骤s203、从dna甲基化修饰信号中获取全部甲基化位点。
70.步骤s204、将全部甲基化位点划分为第一甲基化位点、第二甲基化位点和第三甲基化位点,其中,第一甲基化位点是指dna甲基化修饰信号中信号覆盖度低于覆盖度阈值和/或信号识别质量值低于识别质量值阈值的甲基化位点;第二甲基化位点和第三甲基化位点是指dna甲基化修饰信号中信号覆盖度高于覆盖度阈值和信号识别质量值高于识别质量值阈值的甲基化位点,且第二甲基化位点对应的甲基化率高于甲基化率阈值,第三甲基
化位点对应的甲基化率低于甲基化率阈值。
71.根据现有研究发现,不同dna甲基化修饰水平可能在基因表达调控中起到重要的作用,dna甲基化修饰水平变化可作为一个表观遗传参与调控的机制信号。因此,划分更具体的dna甲基化修饰水平分类,有利于获得更加具体的机制。与第一实施例不同的是,本实施例步骤s204将划分为不同dna甲基化修饰水平,具体的:首先,通过设置覆盖度阈值和识别质量值阈值来区分检测甲基化修饰信号异常低的第一甲基化位点和甲基化修饰信号正常的其他甲基化位点(其他甲基化位点包括后续的第二甲基化位点和第三甲基化位点),值得说明的是,覆盖度是指当前位置的甲基化检测到的有效脉冲信号数量;识别质量值是指当前位置的甲基化检测有效脉冲信号的质量可信度。然后,设置甲基化率阈值,将其他甲基化位点划分为甲基化率高于甲基化率阈值的第二甲基化位点和甲基化率低于甲基化率阈值的第三甲基化位点。
72.步骤s205、分别获取第一甲基化位点、第二甲基化位点和第三甲基化位点与转录调控区域发生位置重叠的第一位置重叠区域,以及分别获取第一甲基化位点、第二甲基化位点和第三甲基化位点与基因编码区发生位置重叠的第二位置重叠区域。
73.步骤s206、根据第一位置重叠区域或第二位置重叠区域,分别预测第一甲基化位点、第二甲基化位点和第三甲基化位点与目标菌株的基因之间的关系。
74.与第一实施例不同的是,本方法考虑不同dna甲基化修饰水平可能在基因表达调控中起到重要的作用,在步骤s204中按照覆盖度和识别质量值将甲基化位点划分成甲基化修饰信号异常低的第一甲基化位点和甲基化修饰信号正常的其它甲基化位点,按照甲基化率将其它甲基化位点划分为甲基化率高的第二甲基化位点和甲基化率低的第三甲基化位点,从而划分出三个不同的dna甲基化修饰水平;然后分别获取第一甲基化位点、第二甲基化位点和第三甲基化位点与转录调控区域发生位置重叠的第一位置重叠区域,以及第一甲基化位点、第二甲基化位点和第三甲基化位点与基因编码区发生位置重叠的第二位置重叠区域;最后基于第一位置重叠区域和第二位置重叠区域实现对不同甲基化修饰水平的甲基化位点分别进行基因关系预测。相较于第一实施例的方法,本方法能够预测出不同修饰水平的dna甲基化与基因位置之间的关系,通过划分不同甲基化修饰水平捕捉到细菌基因组中甲基化修饰的动态变化,即有可能揭示dna甲基化的调控过程。
75.第三实施例;
76.参照图3,基于第二实施例,一种预测细菌dna甲基化调控基因表达的方法,还包括步骤:
77.步骤s207、提取第一位置重叠区域在基因组中对应的dna序列。这里的dna序列是指第一位置重叠区域所在的转录调控序列。
78.步骤s208、根据dna序列预测潜在的特征序列。其中特征序列(motif)包括以fasta格式或矩阵形式(matrix)表示的dna序列,特征序列包括但不仅限于转录因子结合序列、crispr序列、-10序列或-35序列。
79.步骤s209、根据甲基化位点和特征序列预测目标基因;其中,目标基因是指潜在可能受到dna甲基化和特征序列共同调控的基因。
80.以特征序列为转录因子结合序列作示例,转录因子(包括sigma因子)通过结合dna序列从而实现调控基因的表达,而dna甲基化可能通过影响转录因子与dna序列的结合,从
而对基因表达进行调控,通过步骤s207至s209能够找到可能同时受到转录因子结合和dna甲基化共同调控的基因。
81.此步骤首先用带有dna甲基化的转录调控序列的位置信息(该位置信息在步骤s205中获取)中提取基因组中对应的序列信息,再扫描该序列查找潜在的转录因子结合位点,最后预测得到与dna甲基化和结合位点共同调节的基因。
82.本方法能够划分不同dna甲基化水平的甲基化位点,并可使用参数对默认阈值进行调整。能提取发生dna甲基化的转录调控序列,并预测转录因子的结合,进而获得可能受到转录因子和dna甲基化共同调控的基因。用户能通过本方法得到的不同甲基化水平的基因或是同时受到dna甲基化和转录因子调控的基因,进行通路、功能富集等分析,进一步就能预测dna甲基化可能影响的细菌的生理功能。
83.本方法直接在smrt测序技术的基础上搭建基因和dna甲基化之间的一一对应关系,用户可以使用本方法获取全基因组中可能受到dna甲基化调控的基因以及转录因子结合情况,从而可以大大减少实验时间,缩小dna甲基化调控的基因的范围,以高通量的方式提高对细菌dna甲基化的调控方式的解读。尤其是对于先前没有大量实验研究过的菌株,如临床致病菌等,本工具可以迅速获取全基因组的甲基化情况与基因之间的关系。本方法还支持多个操作系统(如mac,windows,linux),没有计算机背景的用户可以根据使用手册快速上手分析数据。
84.第四实施例;
85.为了便于理解,以微生物是细菌为例,参照图4,本发明还提供了一种预测细菌dna甲基化调控基因表达的方法,包括如下步骤:
86.步骤s301、从目标菌株中识别基因组组装数据和dna甲基化修饰模式及位点。
87.提取目标菌株基因组进行smrt-seq基因组测序。原始测序数据用smrtlink中的hgap4分析流程进行基因组组装;smrtlink中“base modification analysis and motif analysis”模块进行全基因组dna甲基化识别,确定dna甲基化的位置和种类,其中参考序列选择组装后的完整基因组。
88.步骤s302、对基因组组装数据进行基因组注释,得到基因编码区和转录调控区域信息。
89.基因组组装数据使用prokkav3.0进行基因组注释,得到基因编码区等信息,使用r计算机编程语言获得细菌中各基因的转录调控区域信息,转录调控区域默认为转录起始位点上游500bp,及转录起始位点下游100bp,但需要说明的是,用户可以修改转录调控区域。基因的转录调控区域是转录因子等dna结合蛋白调控基因起始转录的关键作用区域,对于预测dna甲基化修饰对转录调控的影响具有重要的意义。此步骤基因注释的基因编码区和转录调控区域位置信息将被用于步骤s305和步骤s306中推测dna甲基化与转录因子结合基因之间的关系。
90.步骤s303、对dna甲基化的信号质量进行判断,划分第一甲基化位点和其它甲基化位点;
91.在单分子实时测序中,dna甲基化修饰识别是通过测序时该碱基检测到的脉冲间持续时间(下称脉冲信号)来判断,但是受到细菌本身甲基化组的个体差异和其他测序因素(如测序深度和扩增次数等)的影响,同一基因组测序结果中的不同甲基化位点的检测信号
不同。通过设置覆盖度阈值和识别质量值阈值来区分检测甲基化修饰信号异常低的第一甲基化位点及其他甲基化位点。值得说明的是,第一甲基化位点的检测脉冲信号低不能直接认为是测序导致的误差,还可能由于细菌本身表观遗传调控所表现出的甲基化水平。
92.步骤s304、对dna甲基化修饰水平进行判断,将其它甲基化位点划分第二甲基化位点和第三甲基化位点。
93.dna甲基化修饰来源于dna甲基转移酶识别特定dna短片段(motif)并对motif中指定碱基进行甲基化,并且基因组不同位置上的motif对应的不同dna甲基化修饰水平实现了dna甲基化能够动态地参与到细菌的表观遗传调控。因此,为了捕捉动态变化的dna甲基化修饰水平,在单分子实时测序中,选取评估当前位置motif发生甲基化修饰的分子比例,即甲基化率(fraction),其定义为对于同一motif位置所有比对到该位置上的原始测序序列中甲基化发生的概率。这里设置甲基化率阈值为0.75,令甲基化率高于0.75的位点为第二甲基化位点,低于0.75的为第三甲基化位点。需要说明的是,用户可以修改甲基化率阈值。
94.步骤s305、分别确定发生在转录调控区域和基因编码区的dna甲基化位点。
95.针对三种不同的dna甲基化修饰水平(第一甲基化位点,第二甲基化位点和第三甲基化位点),分别进行基因相关分析。
96.根据dna甲基化位点和转录调控区域或基因编码序列在基因组位点信息,判断二者是否有发生位置重叠的情况,从而获取发生dna甲基化事件的转录调控序列位置信息进而反推出基因信息,或者直接获取dna甲基化发生在基因编码区从而搭建dna甲基化位点与基因之间的关系。
97.使用shell脚本将甲基化信息(甲基化发生位点、甲基化率、甲基化类型)和基因信息(调控序列位置、甲基化与转录起始位点距离、基因位置、基因的编码方向、基因名、基因描述)整合到同一个文件中,其中,甲基化信息和基因信息通过步骤s101基因组测序得到。
98.步骤s306、提取发生dna甲基化的转录调控序列预测转录因子的结合。
99.转录因子(包括sigma因子)通过结合dna序列从而实现调控基因的表达,而dna甲基化可能通过影响转录因子与dna序列的结合,从而对基因表达进行调控。本方法支持用户提供的转录因子描述文件找到可能同时受到转录因子结合和dna甲基化共同调控的基因。
100.本步骤首先用带有dna甲基化的转录调控序列位置信息提取基因组中对应的序列信息,再扫描该序列查找潜在的转录因子结合位点(transcriptional factor binding sites,tfbs),最后预测得到与dna甲基化和tfs共同调节的基因(regulated by transcriptional factor and methylation gene,rtmg)。
101.通过本方法可实现如下功能:
102.1)dna甲基化水平统计表及分布图。用户可以根据dna甲基化水平分布图,进一步根据自己的研究内容对参数进行修改再进行二次分析。
103.2)预测不同水平的dna甲基化与基因位置之间的关系,并且提供具体的dna甲基化修饰信息,基因的位置和功能等信息。用户可以根据以上信息推测dna甲基化调控的生物学功能,尤其是在相邻基因构成的基因家族中均有dna甲基化事件,即可以根据基因家族的功能进一步推测潜在的调控机制;
104.3)不同转录因子与发生dna甲基化的基因之间的结合预测,在2)结果的基础上,进一步补充了转录因子和dna甲基化共同参与调控的基因及对应功能。
105.此外,用户也可以使用以上分析得到的基因集做另外的个性化的通路和功能分析,进一步预测dna甲基化对细菌生理功能和毒力表型的影响。
106.相较于现有方案,本方法能够直接在smrt测序技术的基础上搭建基因和dna甲基化之间的一一对应关系,用户可以使用本方法获取全基因组中可能受到dna甲基化调控的基因以及转录因子结合情况,从而可以大大减少实验时间,缩小dna甲基化调控的基因的范围,以高通量的方式提高对细菌dna甲基化的调控方式的解读。尤其是对于先前没有大量实验研究过的菌株,如临床致病菌等,本方法可以迅速获取全基因组的甲基化情况与基因之间的关系。本方法还支持多个操作系统(mac,windows,linux),没有计算机背景的用户可以根据使用手册快速上手分析数据。
107.第五实施例;
108.参考图5,提供一种预测细菌dna甲基化调控基因表达的系统,系统包括基因组获取单元1001、单分子实时测序单元1002、基因组注释单元1003、甲基化位点选取单元1004、位置重叠检测单元1005、第一受调控基因预测单元1006、dna序列提取单元1007、结合位点预测单元1008以及第二受调控基因预测单元1009,其中:
109.基因组获取单元1001用于获取目标菌株的基因组。
110.单分子实时测序单元1002用于对基因组进行单分子实时测序,得到基因组组装数据和dna甲基化修饰信号。
111.基因组注释单元1003用于对基因组组装数据进行基因组注释,得到转录调控区域和基因编码区。
112.甲基化位点选取单元1004用于从dna甲基化修饰信号中选取甲基化位点。
113.位置重叠检测单元1005用于获取甲基化位点与转录调控区域发生位置重叠的第一位置重叠区域,以及甲基化位点与基因编码区发生位置重叠的第二位置重叠区域。
114.第一受调控基因预测单元1006用于根据第一位置重叠区域或第二位置重叠区域,预测甲基化位点与目标菌株的基因之间的关系。
115.dna序列提取单元1007用于提取第一位置重叠区域在基因组中对应的dna序列。
116.结合位点预测单元1008用于根据dna序列预测潜在的特征序列。
117.第二受调控基因预测单元1009用于根据甲基化位点和特征序列预测目标基因;其中,目标基因是指可能受到dna甲基化和结合位点共同调控的基因,特征序列包括以fasta格式或矩阵形式表示的dna序列,例如包括但不仅限于转录因子结合序列、crispr序列、-10序列或-35序列。
118.在一些实施例中,具体的,甲基化位点选取单元1004用于将全部甲基化位点划分为第一甲基化位点、第二甲基化位点和第三甲基化位点,其中,第一甲基化位点是指dna甲基化修饰信号中信号覆盖度低于覆盖度阈值和/或信号识别质量值低于识别质量值阈值的甲基化位点;第二甲基化位点和第三甲基化位点是指dna甲基化修饰信号中信号覆盖度高于覆盖度阈值和信号识别质量值高于识别质量值阈值的甲基化位点,且第二甲基化位点对应的甲基化率高于甲基化率阈值,第三甲基化位点对应的甲基化率低于甲基化率阈值。
119.位置重叠检测单元1005用于分别获取第一甲基化位点、第二甲基化位点和第三甲基化位点与转录调控区域发生位置重叠的第一位置重叠区域,以及分别获取第一甲基化位点、第二甲基化位点和第三甲基化位点与基因编码区发生位置重叠的第二位置重叠区域。
120.需要注意的是,本系统实施例与上述方法实施例是基于相同的发明构思,因此上述方法实施例的相关内容同样适用于本系统实施例。
121.第六实施例;
122.参照图6,本发明实施例还提供了一种电子设备,该电子设备6000可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。
123.具体地,该电子设备6000包括:一个或多个控制处理器6001和存储器6002,图6中以一个控制处理器6001为例。
124.控制处理器6001和存储器6002可以通过总线或者其他方式连接,图6中以通过总线连接为例。
125.存储器6002作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块。控制处理器6001通过运行存储在存储器6002中的非暂态软件程序、指令以及模块,从而执行预测细菌dna甲基化调控基因表达的系统的各种功能应用以及数据处理,即实现上述方法实施例的预测细菌dna甲基化调控基因表达的方法。
126.存储器6002可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据预测细菌dna甲基化调控基因表达的系统的使用所创建的数据等。此外,存储器6002可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器6002可选包括相对于控制处理器6001远程设置的存储器,这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
127.所述一个或者多个模块存储在所述存储器6002中,当被所述一个或者多个控制处理器6001执行时,执行上述方法实施例中的预测细菌dna甲基化调控基因表达的方法,例如,执行以上描述的图1中的方法步骤s101至s104,图2中的方法步骤s201至s206,图3中的方法步骤s207至s209,实现图5中的单元1001至1009的功能。
128.第七实施例;
129.本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,被图6中的一个控制处理器6001执行,可使得上述一个或多个控制处理器6001执行上述方法实施例中的预测细菌dna甲基化调控基因表达的方法,例如,执行以上描述的图1中的方法步骤s101至s104,图2中的方法步骤s201至s206,图3中的方法步骤s207至s209,实现图5中的单元1001至1009的功能。
130.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
131.通过以上的实施方式的描述,本领域技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现。本领域技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(readonly memory,rom)或随机存储记忆体
(random access memory,ram)等。
132.上面结合附图对本发明实施例作了详细说明,但本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

技术特征:
1.一种预测微生物dna甲基化调控基因表达的方法,其特征在于,所述方法包括:获取微生物的基因组,并对所述基因组进行单分子实时测序,得到基因组组装数据和dna甲基化修饰信号;对所述基因组组装数据进行基因组注释,得到转录调控区域和基因编码区;从所述dna甲基化修饰信号中选取甲基化位点,获取所述甲基化位点与所述转录调控区域发生位置重叠的第一位置重叠区域,以及所述甲基化位点与所述基因编码区发生位置重叠的第二位置重叠区域;根据所述第一位置重叠区域或所述第二位置重叠区域,预测所述甲基化位点与所述微生物的基因之间的关系。2.根据权利要求1所述的预测微生物dna甲基化调控基因表达的方法,其特征在于,所述从所述dna甲基化修饰信号中选取甲基化位点,获取所述甲基化位点与所述转录调控区域发生位置重叠的第一位置重叠区域,以及所述甲基化位点与所述基因编码区发生位置重叠的第二位置重叠区域,包括:从所述dna甲基化修饰信号中获取全部甲基化位点;将全部所述甲基化位点划分为第一甲基化位点、第二甲基化位点和第三甲基化位点,其中,所述第一甲基化位点是所述dna甲基化修饰信号中信号覆盖度低于覆盖度阈值和/或信号识别质量值低于识别质量值阈值的所述甲基化位点;所述第二甲基化位点和第三甲基化位点是所述dna甲基化修饰信号中信号覆盖度高于所述覆盖度阈值和信号识别质量值高于所述识别质量值阈值的所述甲基化位点,且所述第二甲基化位点对应的甲基化率高于甲基化率阈值,所述第三甲基化位点对应的甲基化率低于所述甲基化率阈值;分别获取所述第一甲基化位点、所述第二甲基化位点和所述第三甲基化位点与所述转录调控区域发生位置重叠的第一位置重叠区域,以及分别获取所述第一甲基化位点、所述第二甲基化位点和所述第三甲基化位点与所述基因编码区发生位置重叠的第二位置重叠区域。3.根据权利要求2所述的一种预测微生物dna甲基化调控基因表达的方法,其特征在于,所述方法还包括:提取所述第一位置重叠区域在所述基因组中对应的dna序列;其中,所述dna序列是所述第一位置重叠区域所在的转录调控序列;根据所述dna序列预测潜在的特征序列;根据所述甲基化位点和所述特征序列预测目标基因;其中,所述目标基因是指潜在受到dna甲基化和特征序列共同调控的基因。4.根据权利要求3所述的一种预测微生物dna甲基化调控基因表达的方法,其特征在于,所述特征序列包括以fasta格式或矩阵形式表示的dna序列。5.根据权利要求4所述的一种预测微生物dna甲基化调控基因表达的方法,其特征在于,通过smrt-seq对所述基因组进行单分子实时测序。6.根据权利要求2所述的一种预测微生物dna甲基化调控基因表达的方法,其特征在于,所述根据所述第一位置重叠区域或所述第二位置重叠区域,预测所述甲基化位点与所述微生物的基因之间的关系,包括:根据发生dna甲基化事件的转录调控序列位置信息,预测出基因信息,或者,根据dna甲
基化发生在所述基因编码区,预测dna甲基化位点相对于所述基因的位置关系。7.一种预测微生物dna甲基化调控基因表达的系统,其特征在于,所述系统包括:基因组获取单元,用于获取微生物的基因组;单分子实时测序单元,用于对所述基因组进行单分子实时测序,得到基因组组装数据和dna甲基化修饰信号;基因组注释单元,用于对所述基因组组装数据进行基因组注释,得到转录调控区域和基因编码区;甲基化位点选取单元,用于从所述dna甲基化修饰信号中选取甲基化位点;位置重叠检测单元,用于获取所述甲基化位点与所述转录调控区域发生位置重叠的第一位置重叠区域,以及所述甲基化位点与所述基因编码区发生位置重叠的第二位置重叠区域;第一受调控基因预测单元,用于根据所述第一位置重叠区域或所述第二位置重叠区域,预测所述甲基化位点与所述微生物的基因之间的关系。8.根据权利要求7所述的一种预测微生物dna甲基化调控基因表达的系统,其特征在于,所述系统还包括:dna序列提取单元,用于提取所述第一位置重叠区域在所述基因组中对应的dna序列;其中,所述dna序列是指所述第一位置重叠区域所在的转录调控序列;结合位点预测单元,用于根据所述dna序列预测潜在的特征序列;第二受调控基因预测单元,用于根据所述甲基化位点和所述特征序列预测目标基因;其中,所述目标基因是指受到dna甲基化和结合位点共同调控的基因,所述特征序列包括以fasta格式或矩阵形式表示的dna序列。9.一种电子设备,其特征在于,包括:至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至6任一项所述的一种预测微生物dna甲基化调控基因表达的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至6任一项所述的一种预测微生物dna甲基化调控基因表达的方法。

技术总结
本发明公开了一种预测微生物DNA甲基化调控基因表达的方法以及系统,包括对基因组测序,得到基因组组装数据和DNA甲基化修饰信号;对基因组组装数据注释,得到转录调控区域和基因编码区;从DNA甲基化修饰信号中选取甲基化位点,获取甲基化位点与转录调控区域发生位置重叠的第一位置重叠区域以及与基因编码区发生位置重叠的第二位置重叠区域;根据两个位置重叠区域,预测甲基化位点与基因之间的关系。本发明利用SMRT测序技术搭建基因和DNA甲基化的一一对应关系,能够获取全基因组中可能受到DNA甲基化调控的基因,从而减少实验时间,缩小DNA甲基化调控的基因的范围,以高通量方式提高对微生物DNA甲基化的调控方式的解读。高对微生物DNA甲基化的调控方式的解读。高对微生物DNA甲基化的调控方式的解读。


技术研发人员:刘洋 刘继鸿 杨亮
受保护的技术使用者:南方科技大学医院
技术研发日:2022.07.11
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-7854.html

最新回复(0)