以不同水平将基因组数据聚合到具有概要数据的分组中的制作方法

专利2026-03-05  5



背景技术:

1、数据可视化是基因组数据分析的基本组成部分。下一代测序(ngs)和基于阵列的表达分析方法产生大量不同类型的基因组数据,并且使得研究人员能够以前所未有的分辨率来研究基因组。尽管许多分析可以自动化,但是快速且直观的可视化所支持的人类解释和判断对于获得洞察力和阐明复杂的生物学关系是必要的。基因组浏览器是显示测序数据的应用程序(例如,浏览器应用程序)。基因组浏览器可以是用于显示测序数据的基于网络的浏览器。基因组浏览器显示来自多个样品的比对、变体和/或其他类型的基因组注释,以用于执行复杂的变体分析。尽管基因组浏览器通常用于查看来自公共源的基因组数据,但是基因组浏览器也可支持希望可视化和探索他们自己的数据集或来自同事的数据集的研究者。为此,基因组浏览器支持本地和远程数据集的灵活加载,并且被优化以在标准桌面系统上提供高性能数据可视化和探索。

2、当在全基因组视图或甚至基因组的相对大的部分下时,从整个基因组文件提取数据产生基因组浏览器所不支持的大量数据。这可能导致当用户选择要显示的一定量的信息时,基因组浏览器无法显示存储在基因组文件中的某些水平的信息。


技术实现思路

1、本文描述了用于从非概要文件(例如,bed文件、fasta文件、bam文件等)以不同水平将基因组数据聚合到具有概要数据的分组中的系统、方法和装置。通过概括和/或聚合来自非概要文件的数据,可访问和/或以各种分辨率水平显示来自基因组文件的小块的数据片。计算设备可被配置为接收与基因组相关联的基因组数据。基因组数据可在比对映射文件中接收。比对映射文件可以是二进制比对映射(bam)文件、序列比对映射(sam)文件和/或另一非概要文件。计算设备可被配置为使用所接收的基因组数据来生成聚合文件。聚合文件可包括多个深度(例如,水平)处的多个分组。多个分组可包括第一深度处的第一组分组、第二深度处的第二组分组和第三深度处的第三组分组。第一组分组中的分组可包括第二深度处的第二组分组中的多个分组。第二组分组中的分组可包括第三深度处的第三组分组中的多个分组。多个分组中的每个分组可占用相等大小的存储器空间。

2、聚合文件可包括标头,该标头指示名称长度、基因组名称、参考长度和/或比例因子。比例因子可指示接近深度的多少个分组被包括在多个分组中的相应一个分组中。例如,比例因子可指示较低深度的多少个分组被组合到多个分组中在下一较高深度处的相应一个分组中。附加地或另选地,比例因子可指示第二组分组中的多少个分组被包括在第三组分组内,以及第一组分组中的多少个分组被包括在第二组分组内。名称长度和基因组名称可标识基因组。计算设备可被配置为基于参考长度和比例因子来确定聚合文件的最小深度和最大深度。

3、计算设备可被配置为确定与基因组的由多个分组中的相应分组覆盖的相应部分相关联的相应读段、变体和/或注释区域的概要数据。概要数据可基于所接收的基因组数据和/或聚合文件来确定。概要数据可包括平均质量、平均深度和/或一个或多个核苷酸比例。计算设备可被配置为(例如)在确定相应分组的概要数据时读取bam文件以标识相应分组的相应读段。

4、计算设备可被配置为将相应读段、变体和/或注释区域的概要数据存储在多个分组中的相应分组中,该相应分组覆盖基因组的与相应读段、变体和/或注释区域相关联的相应部分。与多个分组中的两个分组重叠的读段可基于该读段与两个分组中的每个分组重叠多少而被指派给两个分组中的一个分组。第二组分组可包括与第一深度处的第一组分组中的多个分组相关联的概要数据。第三组分组可包括与第二深度处的第二组分组中的多个分组相关联的概要数据。特定深度处的分组中的每个分组可包括基因组的相等部分的概要数据。

5、计算设备可被配置为响应于用户对基因组区域的选择而显示概要数据的部分。所显示的概要数据的部分可与多个分组中的分组中的与由用户选择的基因组区域对应的一个或多个分组相关联。所显示的概要数据的部分可与多个深度中的深度对应。计算设备可被配置为基于由用户选择的基因组区域来确定所显示的概要数据的部分的深度。计算设备可被配置为标识所确定的深度处的与由用户选择的基因组区域重叠的一个或多个分组。

6、所显示的概要数据的部分可使用一个或多个显示条件来显示,该一个或多个显示条件例如用于表示所显示的概要数据的部分的一个或多个分组之间在概要数据中的相对差异。一个或多个显示条件包括颜色、不透明度和/或高度。计算设备可被配置为标识聚合文件中的与由用户选择的基因组区域对应的位置。聚合文件中的位置可包括多个分组中的在多个深度中的特定深度处的特定分组。



技术特征:

1.一种方法,所述方法包括:

2.根据权利要求1所述的方法,其中所述聚合文件包括标头,所述标头指示名称长度、基因组名称、参考长度或比例因子中的一者或多者。

3.根据权利要求2所述的方法,其中所述比例因子指示接近深度的多少个分组被包括在所述多个分组中的相应一个分组内。

4.根据权利要求2所述的方法,其中所述比例因子指示较低深度的多少个分组被组合到所述多个分组中的在下一较高深度处的相应一个分组中。

5.根据权利要求2所述的方法,其中所述比例因子指示所述第二组分组中的多少个分组被包括在所述第三组分组内,以及所述第一组分组中的多少个分组被包括在所述第二组分组内。

6.根据权利要求2所述的方法,其中所述名称长度和所述基因组名称标识所述基因组。

7.根据权利要求2所述的方法,所述方法还包括:基于所述参考长度和所述比例因子来确定所述聚合文件的最小深度和最大深度。

8.根据权利要求1所述的方法,其中所述概要数据包括平均质量、平均深度或一个或多个核苷酸比例中的一者或多者。

9.根据权利要求1所述的方法,所述方法还包括:标识所述聚合文件中的与由所述用户选择的所述基因组区域对应的位置。

10.根据权利要求8所述的方法,其中所述聚合文件中的所述位置包括所述多个分组中的在所述多个深度中的特定深度处的特定分组。

11.根据权利要求1所述的方法,其中所述多个分组中的每个分组占用相等大小的存储器空间。

12.根据权利要求1所述的方法,其中特定深度处的所述分组中的每个分组包括所述基因组的相等部分的概要数据。

13.根据权利要求1所述的方法,其中与所述多个分组中的两个分组重叠的读段基于所述读段与所述两个分组中的每个分组重叠多少而被指派给所述两个分组中的一个分组。

14.根据权利要求1所述的方法,其中所显示的概要数据的部分对应于所述多个深度中的深度,所述方法还包括:基于由所述用户选择的所述基因组区域来确定所显示的概要数据的部分的所述深度。

15.根据权利要求14所述的方法,所述方法还包括:标识所确定的深度处的与由所述用户选择的所述基因组区域重叠的一个或多个分组。

16.根据权利要求1所述的方法,其中所述一个或多个显示条件包括颜色、不透明度或高度中的一者或多者。

17.根据权利要求1所述的方法,其中所述基因组数据是在比对映射文件中接收的。

18.根据权利要求17所述的方法,其中所述比对映射文件是二进制比对映射(bam)文件或序列比对映射(sam)文件。

19.根据权利要求18所述的方法,所述方法还包括:读取所述bam文件以标识所述相应读段。

20.一种方法,所述方法包括:

21.根据权利要求20所述的方法,其中所述聚合文件中的所述多个分组中的每个分组包括指示所述相应节点的开始位置和结束位置的字符串。

22.根据权利要求20所述的方法,其中当所述缩放水平大于预定缩放阈值时,确定显示来自所述bed文件的所述基因组数据的部分。

23.根据权利要求22所述的方法,所述方法还包括:对所述bed文件中的所述基因组数据的与所选择的基因组区域相关联的部分执行范围请求。

24.根据权利要求20所述的方法,其中当所述缩放水平小于或等于所述预定缩放阈值时,确定显示来自所述聚合文件的所述概要数据的所述部分。

25.根据权利要求24所述的方法,所述方法还包括:对所述聚合文件中的所述概要数据的与所选择的基因组区域相关联的所述部分执行范围请求。

26.根据权利要求20所述的方法,其中所述概要数据包括平均质量、平均深度或一个或多个核苷酸比例中的一者或多者。

27.根据权利要求20所述的方法,其中所述索引文件指示所述多个深度中的每个深度的节点大小。

28.根据权利要求20所述的方法,其中所述聚合文件包括所述多个分组中的每个分组的坐标。

29.根据权利要求28所述的方法,其中所述坐标对应于所述基因组中的相应位置。

30.根据权利要求20所述的方法,其中标识对所述基因组区域的所述选择包括接收对所述基因组区域的所述选择。

31.根据权利要求20所述的方法,其中所述聚合文件包括树格式。

32.根据权利要求20所述的方法,所述方法还包括:读取所述bed文件以标识所述相应读段。

33.根据权利要求20所述的方法,其中所述一个或多个显示条件包括颜色、不透明度或高度中的一者或多者。

34.根据权利要求20所述的方法,其中所述索引文件包括具有相对深度偏移的多个深度变量。

35.根据权利要求20所述的方法,其中所显示的概要数据的部分是从所述聚合文件检索的。

36.根据权利要求20所述的方法,其中所显示的概要数据的部分是从来自所述bed文件的所述基因组数据的部分检索的。


技术总结
本文描述了用于以不同水平将基因组数据聚合到具有概要数据的分组中的系统、方法和装置。如本文所述,计算设备可被配置为接收与基因组相关联的基因组数据。该计算设备可被配置为使用所接收的基因组数据来生成聚合文件。该聚合文件可包括多个深度处的多个分组。该计算设备可被配置为确定与该基因组的由该多个分组中的相应分组覆盖的一个或多个相应部分相关联的相应读段的概要数据。该计算设备可被配置为将该相应读段的该概要数据存储在该多个分组中的相应分组中。计算设备可被配置为响应于用户对基因组区域的选择而显示概要数据的部分。

技术研发人员:A·沃伦,B·里维尔特,M·阿森诺特
受保护的技术使用者:因美纳有限公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-20528.html

最新回复(0)