一种用宏基因组测序数据肿瘤检测的分析系统及分析方法与流程

专利2023-07-12  100



1.本发明涉及生物检测技术领域,尤其涉及一种用宏基因组测序数据肿瘤检测的分析系统及分析方法。


背景技术:

2.随着宏基因组测序技术的发展及推广,临床在近年常用高通量测序技术对病人样本进行测序来寻找病原体,排查感染原因。除了感染因素以外,肿瘤往往也是一个重要原因。很多情况下,即使采用了ct、磁共振、pet等全身扫描技术,肿瘤排查也非常困难。很多患者进行了长时间的抗感染治疗,经过各种排查以后才发现是肿瘤患者,贻误了诊疗时间。
3.目前,现有技术公开了一种用宏基因组测序数据肿瘤检测的分析系统,通过从宏基因组测序数据中选择波动变异相关的指标或基于此的统计检验值来判断被检测样本是否来源于肿瘤样本。
4.采用上述方式,宏基因组测序数据中存在许多的冗杂序列片段,会降低对肿瘤检测的精确度。


技术实现要素:

5.本发明的目的在于提供一种用宏基因组测序数据肿瘤检测的分析系统及分析方法,旨在解决现有的用宏基因组测序数据肿瘤检测的分析系统对肿瘤检测的精确度较低的问题。
6.为实现上述目的,第一方面,本发明提供了一种用宏基因组测序数据肿瘤检测的分析系统,包括过滤子系统、预处理子系统和识别子系统,所述过滤子系统、所述预处理子系统和所述识别子系统依次连接,所述过滤子系统包括识别模块、定位模块和去除模块,所述识别模块、所述定位模块和所述去除模块依次连接;
7.所述识别模块,用于识别宏基因组测序数据中的冗余序列,得到识别结果;
8.所述定位模块,用于对所述识别结果进行定位,得到定位信息;
9.所述去除模块,基于所述定位信息将所述宏基因组测序数据中的冗余序列去除,得到过滤序列;
10.所述预处理子系统,用于对所述过滤序列进行预处理,得到染色体波动情况;
11.所述识别子系统,用于将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。
12.其中,所述预处理子系统包括基因对比模块和分析模块,所述基因对比模块和所述分析模块连接;
13.所述基因对比模块,用于将所述过滤序列比对至人参考基因组上,得到对比基因组序列;
14.所述分析模块,用于对所述对比基因组序列进行波动分析,得到染色体波动情况。
15.其中,所述分析模块包括归一单元和波动计算单元,所述归一单元和所述波动计
算单元连接;
16.所述归一单元,用于对所述过滤序列进行归一化处理,得到归一序列;
17.所述波动计算单元,用于对所述归一序列进行波动分析,得到染色体波动情况。
18.其中,所述识别子系统包括构建模块、训练模块和检测模块,所述构建模块、所述训练模块和所述检测模块依次连接;
19.所述构建模块,用于构建神经网络模型;
20.所述训练模块,用于获取公开波动数据对所述神经网络模型进行训练,得到肿瘤识别模型;
21.所述检测模块,用于将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。
22.其中,所述训练模块包括获取单元、划分单元和训练单元,所述获取单元、所述划分单元和所述训练单元依次连接;
23.所述获取单元,用于获取公开波动数据,并对所述公开波动数据进行预处理,得到训练数据;
24.所述划分单元,用于将所述训练数据划分成训练集和验证集;
25.所述训练单元,用于分别使用所述训练集和所述验证集对所述神经网络模型进行训练和验证,得到肿瘤识别模型。
26.第二方面,本发明提供了一种用宏基因组测序数据肿瘤检测的分析方法,包括以下步骤:
27.通过识别模块识别宏基因组测序数据中的冗余序列,得到识别结果;
28.通过定位模块对所述识别结果进行定位,得到定位信息;
29.通过去除模块基于所述定位信息将所述宏基因组测序数据中的冗余序列去除,得到过滤序列;
30.通过预处理子系统对所述过滤序列进行预处理,得到染色体波动情况;
31.通过识别子系统将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。
32.本发明的一种用宏基因组测序数据肿瘤检测的分析系统及分析方法,通过所述识别模块识别宏基因组测序数据中的冗余序列,得到识别结果;所述定位模块对所述识别结果进行定位,得到定位信息;所述去除模块基于所述定位信息将所述宏基因组测序数据中的冗余序列去除,得到过滤序列;所述预处理子系统对所述过滤序列进行预处理,得到染色体波动情况;所述识别子系统将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果,在进行肿瘤检测之前首先将所述宏基因组测序数据中的冗余序列去除,解决了现有的用宏基因组测序数据肿瘤检测的分析系统对肿瘤检测的精确度较低的问题。
附图说明
33.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
34.图1是本发明提供的一种用宏基因组测序数据肿瘤检测的分析系统的结构示意图。
35.图2是定位模块的结构示意图。
36.图3是分析模块的结构示意图。
37.图4是训练模块和识别模块的结构示意图。
38.图5是本发明提供的一种用宏基因组测序数据肿瘤检测的分析方法的流程图。
39.1-过滤子系统、2-预处理子系统、3-识别子系统、4-识别模块、5-定位模块、6-去除模块、7-基因对比模块、8-分析模块、9-归一单元、10-波动计算单元、11-构建模块、12-训练模块、13-检测模块、14-获取单元、15-划分单元、16-训练单元、17-提取单元、18-调整单元、19-检测单元、20-分段单元、21-节点获取单元、22-记录模块。
具体实施方式
40.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
41.请参阅图1至图4,第一方面,本发明提供一种用宏基因组测序数据肿瘤检测的分析系统,包括过滤子系统1、预处理子系统2和识别子系统3,所述过滤子系统1、所述预处理子系统2和所述识别子系统3依次连接,所述过滤子系统1包括识别模块4、定位模块5和去除模块6,所述识别模块4、所述定位模块5和所述去除模块6依次连接;
42.所述识别模块4,用于识别宏基因组测序数据中的冗余序列,得到识别结果;
43.所述定位模块5,用于对所述识别结果进行定位,得到定位信息;
44.所述去除模块6,基于所述定位信息将所述宏基因组测序数据中的冗余序列去除,得到过滤序列;
45.所述预处理子系统2,用于对所述过滤序列进行预处理,得到染色体波动情况;
46.所述识别子系统3,用于将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。
47.具体的,所述识别模块4识别宏基因组测序数据中的冗余序列,得到识别结果;所述定位模块5对所述识别结果进行定位,得到定位信息;所述去除模块6基于所述定位信息将所述宏基因组测序数据中的冗余序列去除,得到过滤序列;所述预处理子系统2对所述过滤序列进行预处理,得到染色体波动情况;所述识别子系统3将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果,在进行肿瘤检测之前首先将所述宏基因组测序数据中的冗余序列去除,解决了现有的用宏基因组测序数据肿瘤检测的分析系统对肿瘤检测的精确度较低的问题。
48.进一步的,所述预处理子系统2包括基因对比模块7和分析模块8,所述基因对比模块7和所述分析模块8连接;
49.所述基因对比模块7,用于将所述过滤序列比对至人参考基因组上,得到对比基因组序列;
50.所述分析模块8,用于对所述对比基因组序列进行波动分析,得到染色体波动情况。
51.所述分析模块8包括归一单元9和波动计算单元10,所述归一单元9和所述波动计算单元10连接;
52.所述归一单元9,用于对所述过滤序列进行归一化处理,得到归一序列;
53.所述波动计算单元10,用于对所述归一序列进行波动分析,得到染色体波动情况。
54.具体的,通过所述基因对比模块7将所述过滤序列比对至人参考基因组上,得到对比基因组序列,然后使用所述归一单元9对所述过滤序列进行归一化处理,得到归一序列;所述波动计算单元10对所述归一序列进行波动分析,得到染色体波动情况。
55.所述识别子系统3包括构建模块11、训练模块12和检测模块13,所述构建模块11、所述训练模块12和所述检测模块13依次连接;
56.所述构建模块11,用于构建神经网络模型;
57.所述训练模块12,用于获取公开波动数据对所述神经网络模型进行训练,得到肿瘤识别模型;
58.所述检测模块13,用于将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。
59.所述训练模块12包括获取单元14、划分单元15和训练单元16,所述获取单元14、所述划分单元15和所述训练单元16依次连接;
60.所述获取单元14,用于获取公开波动数据,并对所述公开波动数据进行预处理,得到训练数据;
61.所述划分单元15,用于将所述训练数据划分成训练集和验证集;
62.所述训练单元16,用于分别使用所述训练集和所述验证集对所述神经网络模型进行训练和验证,得到肿瘤识别模型。
63.具体的,首先通过所述构建模块11构建神经网络模型,其次使用所述获取单元14获取公开波动数据,并对所述公开波动数据进行预处理,得到训练数据;所述划分单元15将所述训练数据划分成训练集和验证集;所述训练单元16分别使用所述训练集和所述验证集对所述神经网络模型进行训练和验证,得到肿瘤识别模型,最后使用所述检测模块13将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。
64.进一步的,所述检测模块13包括提取单元17、调整单元18和检测单元19,所述提取单元17、所述调整单元18和所述检测单元19依次连接;
65.所述提取单元17,用于提取所述染色体波动情况;
66.所述调整单元18,基于所述肿瘤识别模型的输入格式对所述染色体波动情况的输入格式进行调整,得到输入数据;
67.所述检测单元19,用于将所述输入数据输入所述肿瘤识别模型进行训练,得到肿瘤检测结果。
68.具体的,在所述提取单元17提取所述染色体波动情况后,通过所述调整单元18,基于所述肿瘤识别模型的输入格式对所述染色体波动情况的输入格式进行调整,得到输入数据,所述检测单元19将所述输入数据输入所述肿瘤识别模型进行训练,格式调整后的所述染色体波动情况在所述肿瘤识别模型中进行训练时更流畅,得到肿瘤检测结果的速度更快。
69.进一步的,所述定位模块5包括分段单元20和节点获取单元21,所述分段单元20和
所述节点获取单元21连接;
70.所述分段单元20,基于所述识别结果对所述宏基因组测序数据进行分段后筛选,得到冗余数据;
71.所述节点获取单元21,用于在所述冗余数据上建立节点,得到定位信息。
72.具体的,所述分段单元20基于所述识别结果对所述宏基因组测序数据进行分段后筛选,得到冗余数据;所述节点获取单元21在所述冗余数据上建立节点,得到定位信息。
73.进一步的,所述过滤子系统1还包括记录模块22,所述记录模块22与所述去除模块6连接;
74.所述记录模块22,用于储存被去除的冗余序列。
75.具体的,通过所述记录模块22储存被去除的冗余序列,便于后续对所述冗余序列的调阅。
76.请参阅图5,第二方面,本发明提供了一种用宏基因组测序数据肿瘤检测的分析方法,包括以下步骤:
77.s1通过识别模块4识别宏基因组测序数据中的冗余序列,得到识别结果;
78.s2通过定位模块5对所述识别结果进行定位,得到定位信息;
79.具体的,所述分段单元20基于所述识别结果对所述宏基因组测序数据进行分段后筛选,得到冗余数据;所述节点获取单元21在所述冗余数据上建立节点,得到定位信息。
80.s3通过去除模块6基于所述定位信息将所述宏基因组测序数据中的冗余序列去除,得到过滤序列;
81.具体的,通过所述记录模块22储存被去除的冗余序列,便于后续对所述冗余序列的调阅。
82.s4通过预处理子系统2对所述过滤序列进行预处理,得到染色体波动情况;
83.具体的,通过所述基因对比模块7将所述过滤序列比对至人参考基因组上,得到对比基因组序列,然后使用所述归一单元9对所述过滤序列进行归一化处理,得到归一序列;所述波动计算单元10对所述归一序列进行波动分析,得到染色体波动情况。
84.s5通过识别子系统3将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。
85.具体的,首先通过所述构建模块11构建神经网络模型,其次使用所述获取单元14获取公开波动数据,并对所述公开波动数据进行预处理,得到训练数据;所述划分单元15将所述训练数据划分成训练集和验证集;所述训练单元16分别使用所述训练集和所述验证集对所述神经网络模型进行训练和验证,得到肿瘤识别模型,最后使用所述检测模块13将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。
86.以上所揭露的仅为本发明一种用宏基因组测序数据肿瘤检测的分析系统及分析方法较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

技术特征:
1.一种用宏基因组测序数据肿瘤检测的分析系统,其特征在于,包括过滤子系统、预处理子系统和识别子系统,所述过滤子系统、所述预处理子系统和所述识别子系统依次连接,所述过滤子系统包括识别模块、定位模块和去除模块,所述识别模块、所述定位模块和所述去除模块依次连接;所述识别模块,用于识别宏基因组测序数据中的冗余序列,得到识别结果;所述定位模块,用于对所述识别结果进行定位,得到定位信息;所述去除模块,基于所述定位信息将所述宏基因组测序数据中的冗余序列去除,得到过滤序列;所述预处理子系统,用于对所述过滤序列进行预处理,得到染色体波动情况;所述识别子系统,用于将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。2.如权利要求1所述的用宏基因组测序数据肿瘤检测的分析系统,其特征在于,所述预处理子系统包括基因对比模块和分析模块,所述基因对比模块和所述分析模块连接;所述基因对比模块,用于将所述过滤序列比对至人参考基因组上,得到对比基因组序列;所述分析模块,用于对所述对比基因组序列进行波动分析,得到染色体波动情况。3.如权利要求2所述的用宏基因组测序数据肿瘤检测的分析系统,其特征在于,所述分析模块包括归一单元和波动计算单元,所述归一单元和所述波动计算单元连接;所述归一单元,用于对所述过滤序列进行归一化处理,得到归一序列;所述波动计算单元,用于对所述归一序列进行波动分析,得到染色体波动情况。4.如权利要求3所述的用宏基因组测序数据肿瘤检测的分析系统,其特征在于,所述识别子系统包括构建模块、训练模块和检测模块,所述构建模块、所述训练模块和所述检测模块依次连接;所述构建模块,用于构建神经网络模型;所述训练模块,用于获取公开波动数据对所述神经网络模型进行训练,得到肿瘤识别模型;所述检测模块,用于将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。5.如权利要求4所述的用宏基因组测序数据肿瘤检测的分析系统,其特征在于,所述训练模块包括获取单元、划分单元和训练单元,所述获取单元、所述划分单元和所述训练单元依次连接;所述获取单元,用于获取公开波动数据,并对所述公开波动数据进行预处理,得到训练数据;所述划分单元,用于将所述训练数据划分成训练集和验证集;所述训练单元,用于分别使用所述训练集和所述验证集对所述神经网络模型进行训练和验证,得到肿瘤识别模型。6.一种用宏基因组测序数据肿瘤检测的分析方法,应用于权利要求5所述的用宏基因
组测序数据肿瘤检测的分析系统,其特征在于,包括以下步骤:通过识别模块识别宏基因组测序数据中的冗余序列,得到识别结果;通过定位模块对所述识别结果进行定位,得到定位信息;通过去除模块基于所述定位信息将所述宏基因组测序数据中的冗余序列去除,得到过滤序列;通过预处理子系统对所述过滤序列进行预处理,得到染色体波动情况;通过识别子系统将所述染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果。

技术总结
本发明涉及生物检测技术领域,具体涉及一种用宏基因组测序数据肿瘤检测的分析系统及分析方法,包括过滤子系统、预处理子系统和识别子系统,过滤子系统包括识别模块、定位模块和去除模块,识别模块识别宏基因组测序数据中的冗余序列,得到识别结果;定位模块对识别结果进行定位,得到定位信息;去除模块基于定位信息将宏基因组测序数据中的冗余序列去除,得到过滤序列;预处理子系统对过滤序列进行预处理,得到染色体波动情况;识别子系统将染色体波动情况输入肿瘤识别模型进行训练,得到肿瘤检测结果,解决了现有的用宏基因组测序数据肿瘤检测的分析系统对肿瘤检测的精确度较低的问题。问题。问题。


技术研发人员:齐向云 李建平 何奕辉 张爱国
受保护的技术使用者:南京帝基生物科技有限公司
技术研发日:2022.07.25
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3865.html

最新回复(0)