qtl样本处理、模型训练、识别方法、装置及设备
技术领域
1.本技术涉及qtl识别技术领域,尤其涉及qtl样本处理、模型训练、识别方法、装置及设备。
背景技术:2.qtl为quantitative trait locus缩写,意为成数量性状座位或者数量性状基因座,它指的是控制数量性状的基因在基因组中的位置。对qtl的定位必须使用遗传标记,人们通过寻找遗传标记和感兴趣的数量性状之间的联系,将一个或多个qtl定位到位于同一染色体的遗传标记旁,换句话说,标记和qtl是连锁的。
3.michelmore等人在1991年提出的混池测序分析(bulked segregantanalysis)被证明是一种有效应用qtl解析的方法。到目前为止,多种应用于混池测序的算法被开发出来,例如基于高低池等位基因频率差异的δsnp-index方法(takagi et al.,2013),基于欧式距离的ed4方法(hill et al., 2013),基于g值计算的g’方法(magwene et al.,2011),基于lod值计算的smoothlod方法(zhang et al.,2019)以及基于非参数检验的ridit方法 (wang et al.,2019)。以上方法除了ridit分析可以适用于三个混池及以上,其余算法都只适用于两个混池的解析和分析。并且,这些方法都是根据理论知识设计公式来检测目标性状位点,在复杂性状和背景下,难以检测微效位点。
技术实现要素:4.针对已有算法难以检测微效位点的缺点,本技术发明人开发了一种应用于qtl识别模型训练的样本处理方法、模型训练方法、qtl识别方法、装置及设备。该样本处理方法通过将qtl定位群体的dna信息进行排序、分组和混合,得到dna混池,并以此获得snp数据及其样本标记,以此构建训练样本对模型进行训练,形成后得到的qtl识别模型能够表征所述qtl定位群体的snp数据与所述定位群体的qtl之间的响应关系,经训练的qtl识别模型对玉米株高qtl、水稻株高qtl、水稻开花期qtl、武昌鱼肌间刺qtl等等能够有效识别,并且识别的结果相对于δsnp-index、ed4、g’、smoothlod和ridit算法具有更低的偏差和信噪比,能够有效识别和识别表型解释率低至5%的微效位点。
5.为此,第一方面,本技术实施例公开了一种应用于qtl识别模型训练的样本处理方法,其包括:
6.构建qtl定位群体;
7.根据所述qtl定位群体的表型对所述定位群体中的个体进行排序和分组,以得到多个排序的组别;
8.将每个组别内的个体dna样本混合得到多个排序的dna混池;
9.对多个所述dna混池分别进行片段化、测序、snp鉴定和计算,获得多个混池的snp数据;
10.分别标记所述snp数据,以获得所述snp数据及其样本标记,以作为所述qtl识别模
型训练的样本。
11.在某些实施例中,所述snp数据包括snp位置信息和snp频率信息,所述snp频率为其在每一个dna混池片段出现的频率,标记所述 snp数据的方法包括:
12.将在多个排序的dna混池内snp频率连续递增或连续递减的snp 数据标记为1,否则标记为0。
13.在某些实施例中,所述样本处理方法包括对所述snp数据进行过滤的步骤,用于去除低质量snp位点;所述低质量snp位点具有以下至少一项特征:
14.对应的dna混池测序的read数低于阈值;
15.所述dna混池中的snp频率同向显著偏离0.5;和
16.某一snp位点与相邻的snp之间的等位基因频率差值大于0.1。
17.第二方面,本技术实施例公开了一种应用于qtl识别模型的训练方法,其包括:
18.获取训练集,训练集包括按照如权利要求1~任一所述的样本处理方法得到的多个训练样本,每一所述训练样本包括snp数据和snp数据的样本标记,所述snp数据为qtl定位群体混池样本测序得到snp数据;
19.将所述样本标记构成的二维张量作为输入层输入至残差u-net模型中,采用反向传播算法和随机梯度下降方法,根据前向传播的loss值的大小,来进行反向传播迭代更新每一层的权重,直到模型的loss值趋向于收敛时,停止训练,得到qtl识别模型。
20.在某些实施例中,所述训练得到的qtl识别模型表征所述qtl定位群体的snp数据与所述定位群体的qtl之间的响应关系。
21.在某些实施例中,所述残差u-net模型由输入层、编码器、解码器、输出层构成;所述输入层每个输入是所述样本标记的64个位点组成的二维张量,所述编码器由卷积神经网络和残差网络组成,经过四次下采样得到深层信息,再经过四次上采样将深层信息转化为浅层信息,最后通过一个1
×
1卷积核、激活函数为sigmoid的卷积层;所述的编码器和解码器都由三个卷积层组成,卷积核分别为1
×
1、3
×
3、3
×
3,并且下采样通过最大池化完成,每次上卷积之后以也会经过一个卷积层;残差连接作用在全局每三次卷积之后,同时编码器和解码器之间对应层也有残差连接。
22.第三方面,本技术实施例公开了一种qtl的识别方法,其包括:
23.获得第二方面所述的训练方法得到的qtl识别模型;
24.将待测样本数据,输入至所述qtl识别模型,得到输出信息,所述输出信息包括snp位点在基因上的位置信息和所述snp位点属于qtl 区间的置信度;
25.根据所述位置信息和所述置信度识别qtl区间。
26.在某些实施例中,所述识别方法,用于识别如下至少一项;
27.玉米株高qtl识别;
28.水稻株高qtl识别;
29.水稻开花期qtl识别;和
30.武昌鱼肌间刺qtl识别。
31.第四方面,本技术实施例公开了一种qtl识别装置,包括:
32.获取模块,用于获取训练集,所述训练集包括snp数据和snp数据的样本标记,所述snp数据为qtl定位群体混池样本测序得到snp数据;
33.构建模块,用于构建残差u-net模型,所述残差u-net模型是以u-net 的整体架构为基础、在编码部分和解码部分分别加入了残差连接形成,所述编码部分用于提取低分辨率的snp数据,所述解码部分用于提取高分辨率的snp数据;
34.训练模块,用于利用所述训练集对训练所述残差u-net模型,以得到残差u-net模型。
35.第五方面,本技术实施例公开了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器质执行所述计算机程序时实现权利要求第二方面所述的方法、和/或第二方面所述的方法。
附图说明
36.图1是本技术实施例提供的用于qtl识别模型训练的样本处理方法的实现流程示意图。
37.图2是本技术实施例提供的一种应用于qtl识别模型的训练方法的实现流程示意图。
38.图3是本技术实施例提供的一种qtl识别方法的实现流程示意图。
39.图4是本技术实施例提供的利用样本处理方法、qtl模型训练方法及qtl识别方法对玉米株高的进行qtl区间识别的具体方法实现示意图。
40.图5是本技术实施例提供的用于qtl模型训练的一训练集样本。
41.图6是本技术使用模拟数据进行偏离度和信噪比计算的信号示意图,纵坐标为训练的残差u-net模型给予每一snp的识别值,横坐标为snp 位置。
42.图7是本技术一实施例提供的玉米株高qtl区间识别结果图。
43.图8是本技术一实施例提供的采用本技术提供qtl识别方法对玉米株高qtl区间识别时,该方法识别结果与不同模型方法识别结果的对比图;左图为识别结果的偏离度结果对比,右图为识别结果的信噪比结果对比。
44.图9是本技术实施例提供的用于水稻株高qtl识别的一待测样本数据。
45.图10是本技术一实施例提供的采用本技术提供qtl识别方法对水稻株高qtl区间识别时,该方法识别结果与不同模型方法识别结果的对比图;左图为识别结果的偏离度结果对比,右图为识别结果的信噪比结果对比。
46.图11是本技术实施例提供的用于水稻花期qtl识别的一待测样本数据。
47.图12是本技术一实施例提供的采用本技术提供qtl识别方法对水稻花期qtl区间识别时,该方法识别结果与不同模型方法识别结果的对比图;左图为识别结果的偏离度结果对比,右图为识别结果的信噪比结果对比。
48.图13是本技术实施例提供的用于武昌鱼肌间刺qtl识别的一待测样本数据。
49.图14是本技术一实施例提供的采用本技术提供qtl识别方法对武昌鱼肌间刺qtl区间识别时,该方法识别结果与不同模型方法识别结果的对比图;左图为识别结果的偏离度结果对比,右图为识别结果的信噪比结果对比。
具体实施方式
50.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合实施例对本技术
进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。本技术中未详细单独说明的试剂均为常规试剂,均可从商业途径获得;未详细特别说明的方法均为常规实验方法,可从现有技术中获知。
51.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不对其后的技术特征起到实质的限定作用。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
52.近来,基于卷积神经网络的方法开始应用到快速磁共振成像领域中,该方法利用大量的先验信息对卷积神经网络进行学习和训练,得到优化的网络参数,利用训练好的卷积神经网络可快速重建出高质量mri图像,是一种很有应用潜力的快速mri成像方法。残差u-net网路为卷积神经网络中的一种,具有结构相对简单,训练参数较少,训练时间较短,解决了在极深度条件下深度卷积神经网络性能退化的问题。目前,现有近似对残差u-net的应用主要集中在图像识别过程中,这与其每一层的卷积结果以及特征提取有关,对于其他领域的应用,对于目标对象的处理和特征提取上海存在困难。
53.为了解决现有技术之不足,本技术实施例公开了一种应用于qtl识别模型训练的样本处理方法以及qtl识别模型的训练方法,依次基于残差u-net模型构建了一种深度学习(dl)的qtl识别模型,该模型表征所述qtl定位群体的snp数据与所述定位群体的qtl之间的响应关系。例如,该响应关系包括:所述定位群体的qtl响应于“定位群体基因组上snp数据的样本标记为连续为1”,例如该每一位点的定位群体基于组上snp数据的样本标记为1,其连续前后5~10个bp位置的snp数据的样本标记均为1,则此段区间即为识别的qtl区间。
54.图1是本技术一实施方式提供的一种用于qtl识别模型训练的样本处理方法,依据该样本处理方法得到的样本包括snp数据及其样本标记,利用样本标记构建二维张量,适合于应用于残差u-net模型的训练。例如,该样本处理方法其包括:
55.s100、构建qtl定位群体;
56.s200、根据所述qtl定位群体的表型对所述定位群体中的个体进行排序和分组,以得到多个排序的组别;
57.s300、将每个组别内的个体dna样本混合得到多个排序的dna混池;
58.s400、对多个所述dna混池分别进行片段化、测序、snp鉴定和计算,获得多个snp数据;
59.s500、分别标记所述snp数据,以获得所述snp数据及其样本标记,以作为所述qtl识别模型训练的样本。
60.在一些s100的实施例中,qtl定位群体的构建包括:选取两个目标性状有显著差异的亲本,进行一代或多代的杂交、自交或回交,构建如 f2、ril和nil等群体,即为所述定位群体。dna样本的获取包括:将构建好的定位群体种植在田间,在其生长到六叶期时,每个单株用打孔器取新鲜叶片0.1g左右,用trizol法提取叶片dna并用分光光度计测量其浓度。
61.在一些s200的实施例中,测量每个单株的目标性状表型,根据表型对所有单株进
行排序(若群体由不同家系组成,则分别对家系内个体进行排序)。例如,目标性状为株高时,可以定位群体中个体的株高由高至低进行排序。
62.在一些s300的实施例中,考虑表型的变异幅度及实验成本,将所有单株平均划分为n(2《n《11)个组。把每个组中的单株dna进行等量混合,最终得到n个dna混池。
63.在一些s400的实施例中,通过超声处理对dna混池的dna 进行片段化后,根据kapa hyper prep kit(平台)的方案构建插入大小为400~500bp的测序文库。然后使用illumina hiseq2500系统将每个池的dna文库加载到一个泳道中,并使用illumina hiseq xten进行测序,生成150bp双末端read。
64.在一些s500的实施例中,所述snp数据包括snp位置信息和snp 频率信息,所述snp频率为其在每一个dna混池片段出现的频率(即为计算步骤),标记所述snp数据的方法包括:将在多个排序的dna 混池内snp频率连续递增或连续递减的snp数据标记为1,否则标记为 0。例如,观察snp位点周围128个连续snp位点的所有池信息,判断是否为目标位点区间,再标记中间的64个位点,即对当前小区间的正负判断利用了其周围信息;将snp频率变化符合递增或递减趋势的snp标记为正样本1,不符合的标记为负样本0。
65.在一些实施例中,该样本处理方法包括对所述snp数据进行过滤的步骤,用于去除低质量snp位点;所述低质量snp位点具有以下至少一项特征:
66.对应的dna混池测序的read数低于阈值;该阈值通常为测序深度的1/3;
67.所述dna混池中的snp频率同向显著偏离0.5;和
68.某一snp位点与相邻的snp之间的等位基因频率差值大于0.1。
69.为了解决现有技术之不足,本技术实施例公开了一种应用于qtl识别模型的训练方法,图2是本技术一实施方式提供的一种应用于qtl识别模型的训练方法的实现流程示意图。本实施方法中的方法可有电子设备执行。电子设备包括但不限于计算机、平板电脑、服务器、手机、相机或可穿戴设备等。其中,服务器包括但不限于独立服务器或云服务器等。如图2所示,对用于识别玉米株高qtl的残差u-net模型进行训练的方法可以包括步骤s101至步骤s102。对用于识别玉米株高qtl的残差u-net模型进行训练的方法,以此得到的残差 u-net模型能够在复杂性状和复杂的背景下,有效检测解释率低至 5%的微效qtl信息。
70.该qtl模型训练方法包括:
71.s101、获取训练集,训练集包括多个训练样本,每一所述训练样本包括snp数据和snp数据的样本标记,所述snp数据为qtl 定位群体混池样本测序得到snp数据,所示样本标记方法包括:将在多个排序的dna混池内snp频率连续递增或连续递减的snp数据标记为1,否则标记为0;
72.s102、将所述样本标记构成的二维张量作为输入层输入至残差 u-net模型中,采用反向传播算法和随机梯度下降方法,根据前向传播的loss值的大小,来进行反向传播迭代更新每一层的权重,直到模型的loss值趋向于收敛时,停止训练,得到qtl识别模型。
73.在一些s102的实施例中,所述残差u-net模型由输入层、编码器、解码器、输出层构成;所述输入层每个输入是所述训练集中的标记的64 个位点组成的二维张量,所述编码器由卷积神经网络和残差网络组成,经过四次下采样得到深层信息,再经过四次上采样将深层信息转化为浅层信息,最后通过一个1
×
1卷积核、激活函数为sigmoid的卷积层;所述的编码器和解码器都由三个卷积层组成,卷积核分别为1
×
1、3
×
3、3
×
3,并且下采样通过最
大池化完成,每次上卷积之后以也会经过一个卷积层;残差连接作用在全局每三次卷积之后,同时编码器和解码器之间对应层也有残差连接。
74.在一些实施例中,“训练”包括预训练和调优;所述调优过程中,训练模型最后10层,冻结其他层参数。
75.在一些实施例中,所述训练集中的snp数据为n
×
64
×
m,其中n代表批大小,64代表64个位点,m代表m个混池的频率信息。
76.如图3是本技术一实施例提供的一种qtl识别方法的实现流程示意图。本实施例中的方法可有电子设备执行。电子设备包括但不限于计算机、平板电脑、服务器、手机、相机或可穿戴设备等。其中,服务器包括但不限于独立服务器或云服务器等。如图3,qtl识别方法包括步骤 s101至102,还包括:
77.s103:将待测样本数据,输入至qtl识别模型,得到输出信息,输出信息包括snp位点在基因上的位置信息和snp位点属于qtl区间的置信度;
78.s104:根据位置信息和置信度识别qtl区间。
79.在一些实施例中,snp位点在基因上的位置信息和snp位点属于 qtl区间的置信度,为64
×
1的张量,通过对每个snp位点进行识别达到分割效果。
80.在一些实施例中,为使识别结果更有效,将所有点进行三次核回归平滑处理,这样做能有效的提高信噪比,减小噪音的影响。
81.为进一步详述利用上述样本处理方法、qtl模型训练方法及qtl识别方法对玉米株高的进行qtl区间识别,图4示出了该实施例的实施过程示意图,具体如下:
82.图4a图示出了用于qtl识别模型训练的样本处理方法的s100~s300 实施过程。在本步骤的实施例中,选取经典玉米自交系黄早四和1462,以株高较矮的黄早四作为母本,株高较高的1462作为父本进行杂交得到 f1,将f1自交得到f2,f2群体即为定位群体。在本步骤的实施例中,拟定的目标性质为玉米株高,将f2群体在北京田间播种,共得到有广泛株高变异的7160个单株,包含47个家系。在植株六叶期时,每个单株用打孔器取新鲜叶片0.1g左右,用trizol法提取叶片dna并用分光光度计测量其浓度,即为具有目标性状的dna样本。将每个家系中的单株株高由低到高排序并均分为10等份,其中株高最低的10%为第一份, 10%-20%为第二份......然后将每个家系对应份数的单株dna样本进行等量混合,得到10个dna混池。
83.图4b图示出了用于qtl识别模型训练的样本处理方法的s400~s500 步骤实施过程。
84.在本步骤的实施例中,通过超声处理将dna混池中的dna进行片段化,根据kapa hyper prep kit(平台)的方案构建插入大小为400~500bp的测序文库。然后使用illumina hiseq2500系统将每个池的dna文库加载到一个泳道中,并使用illumina hiseq xten进行测序,生成150bp双末端read。每个混池测序数据量为200gb,覆盖深度~100
×
。
85.在本步骤的实施例中,使用bwa软件将测序产生的read比对到b73 v4版本的参考基因组上,并使用samtools软件将产生的sam文件转换为bam文件。然后用picard软件对bam文件内容进行排序并删除由pcr 重复产生的read。接着使用gatk软件的haplotypecaller模块进行全基因组snp的检测,所有参数为软件默认参数。最后生成一个包含十个池变异信
息的vcf文件。
86.为了过滤低质量的snp位点,在本步骤的实施例中,s400还包括过滤掉低质量snp位点。低质量snp位点包括对应的dna混池测序的read 数低于阈值(通常设置为测序深度的1/3)、所述dna混池中的snp频率同向显著偏离0.5(p《0.01)和某一snp位点与相邻的snp之间的等位基因频率差值大于0.1。
87.在本步骤的实施例中,标记正负样本,划分训练集和验证集。将根据上述得到的vcf文件,结合部分已知株高基因的位置,在全基因组上选取一些位置进行正负样本标记。观察位置上128个连续snp位点的十个池频率,若等位基因频率变化符合递增或递减,将中间的64个位点标记为正样本1;若等位基因频率变化在0.5附近波动,则将中间的64个位点标记为负样本0。图4b示出了某一snp位点的样本标记为1 (relevant)在每一混池中的频率以及样本标记为0(irrelevant)在每一混池中的频率。将标记后的snp数据按照6:3:1分为训练集、验证集和测试集。如图5为分别为训练集样本的snp数据示例,其依次示出了1 号染色体上的不同位置的snp位点,以及该snp位点在10个混池中的等位基因频率。
88.图4c示出了使用训练集对构建的ru-net进行训练,以及利用验证集进行验证的示意图。图4c左图为本实施例提供ru-net结构示意图,右图为10个dna混池构成的验证集对训练的模型验证结果,有结果可知,auc验证结果,展示了其检测方法的识别真实性非常高。
89.图4d示出了使用训练好的ru-net模型进行识别的结果。在本实施例中,使用搭建好的ru-net模型,在全基因组上扫描snp,识别每个snp 与表型相关的置信度。如图7所示,以snp位置为横坐标,snp置信度为纵坐标进行画图,并对其进行lowess拟合,拟合曲线的峰值即为识别的目标位点,如图7右侧所示,在染色体1、2、3、6位置均识别到了 qtl区间。
90.另外,随机在基因组上设置10个qtl位点,同时模拟玉米f2群体的产生,分别进行如上所示的混池测序,得到十个池变异信息的vcf文件,选用最高池和最低池进行snp过滤和标记后(部分方法只适用两个混池),采用g’、ed4、k、smoothlod、ridit以及snp-index的方法进行识别,对识别的qtl信号和真实qtl信号进行作图(如图6),计算偏差和信噪比,统计这些模型及算法分别与本技术实施例提高的 ru-net模型(深度学习模型dl)之间的偏差和信噪比差别,结果如图8 所示,ru-net模型(深度学习模型dl)的识别结果在偏差(左图)和信噪比(右图)综合为最佳,由此说明本技术提供的对ru-net模型的训练方法和对玉米qtl信息的识别的准确性。
91.在一个实施例中,为进一步详述利用上述样本处理方法、qtl模型训练方法及qtl识别方法对水稻株高的进行qtl区间识别,参照如图 1~5所示的实施过程,采用如上述样本处理方法对水稻株高qtl定位群体进行处理,得到了待测样本数据(如图9所示),将其输入至上述的训练得到qtl识别模型,ru-net模型(深度学习模型dl)的识别结果在偏差和信噪比综合为最佳,输出结果如图10所示,图10a为lowess 拟合曲线,图10b为识别的qtl区间结果,由此说明本技术提供的对 ru-net模型的训练方法和ru-net模型能够有效识别水稻qtl信息,并且具有非常高的准确率。
92.在一个实施例中,参照如图1~5所示的实施过程,采用如上述样本处理方法对水稻花期qtl定位群体进行处理,按照花期时间先后顺序对对所述定位群体中的个体进行分组,得到多个dna混池,并以此进行片段化、测序、snp鉴定和计算,得到多个snp数据,对其进行标记,得到了待测样本数据(如图11所示),将待测样本数据至上述的训练得到qtl识别模
型。输出结果如图12所示,图12a为 lowess拟合曲线,图12b为识别的qtl区间结果,由此说明本技术提供的对ru-net模型的训练方法和ru-net模型能够有效识别水稻 qtl信息,并且具有非常高的准确率。
93.在一个实施例中,参照如图1~5所示的实施过程,采用如上述样本处理方法对武昌鱼肌间刺qtl(是否具有肌间刺)定位群体进行处理,按照花期时间先后顺序对对所述定位群体中的个体进行分组,得到2个dna混池,并以此进行片段化、测序、snp鉴定和计算,得到多个snp数据,作为待测样本数据(如图13所示),输入至上述的训练得到qtl识别模型。输出结果如图14所示,图14a为 lowess拟合曲线,图14b为识别的qtl区间结果,由此说明本技术提供的对ru-net模型的训练方法和ru-net模型能够有效识别武昌鱼qtl信息,并且具有非常高的准确率。
94.为此,本技术实施例还公开了一种qtl识别装置的结构示意图。该装置包括获取模块、构建模块、训练模块和输出模块。其中,获取模块,用于获取训练集,所述训练集包括snp数据和snp数据的样本标记,所述snp数据为qtl定位群体混池样本测序得到snp数据。构建模块,用于构建残差u-net模型,所述残差u-net模型是以u-net的整体架构为基础、在编码部分和解码部分分别加入了残差连接形成,所述编码部分用于提取低分辨率的snp数据,所述解码部分用于提取高分辨率的snp 数据。训练模块,用于利用所述训练集对训练所述残差u-net模型,以得到残差u-net模型。输出模块,用于给定dna序列,利用训练的所述残差u-net模型识别其中的qtl信息。
95.本技术实施例还提供了一种电子设备,该电子设备,电子设备可以包括一个或多个处理器(中仅示出一个),存储器以及存储在存储器中并可在一个或多个处理器上运行的计算机程序,例如,u-net模型的轻量化的程序。一个或多个处理器执行计算机程序时可以实现u-net模型的轻量化方法实施例中的各个步骤。或者,一个或多个处理器执行计算机程序时可以实现u-net模型的轻量化装置实施例中各模块/单元的功能,此处不作限制。
96.本领域技术人员可以理解,本技术的电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子设备还可以包括输入输出设备、网络接入设备、总线等。
97.在一个实施例中,所称处理器可以是中央处理单元(central processingunit,cpu),还可以是其他通用处理器、数字信号处理器(digital signalprocessor,dsp)、专用集成电路(application specific integrated circuit, asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
98.在一个实施例中,存储器可以是电子设备的内部存储单元,例如电子设备的硬盘或内存。存储器也可以是电子设备的外部存储设备,例如电子设备上配备的插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)等。进一步地,存储器还可以既包括电子设备的内部存储单元也包括外部存储设备。存储器用于存储计算机程序以及电子设备所需的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
99.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功
能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本技术的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
100.在本技术所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的藕合或直接藕合或通讯连接可以是通过一些接口,装置或单元的间接藕合或通讯连接,可以是电性,机械或其它的形式。
101.作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
102.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
103.集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术实现上述方法实施例中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(read-onlymemory,rom)、随机存取存储器(random access memory,ram)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
104.以上所述,仅为本技术较佳的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。
技术特征:1.一种应用于qtl识别模型训练的样本处理方法,其包括:构建qtl定位群体;根据所述qtl定位群体的表型对所述定位群体中的个体进行排序和分组,以得到多个排序的组别;将每个组别内的个体dna样本混合得到多个排序的dna混池;对多个所述dna混池分别进行片段化、测序、snp鉴定和计算,获得多个混池的snp数据;分别标记所述snp数据,以获得所述snp数据及其样本标记,以作为所述qtl识别模型训练的样本。2.根据权利要求1所述的样本处理方法,其中,所述snp数据包括snp位置信息和snp频率信息,所述snp频率为其在每一个dna混池片段出现的频率,标记所述snp数据的方法包括:将在多个排序的dna混池内snp频率连续递增或连续递减的snp数据标记为1,否则标记为0。3.根据权利要求2所述的样本处理方法,包括对所述snp数据进行过滤的步骤,用于去除低质量snp位点;所述低质量snp位点具有以下至少一项特征:对应的dna混池测序的read数低于阈值;所述dna混池中的snp频率同向显著偏离0.5;和某一snp位点与相邻的snp之间的等位基因频率差值大于0.1。4.一种应用于qtl识别模型的训练方法,其包括:获取训练集,训练集包括按照如权利要求1~任一所述的样本处理方法得到的多个训练样本,每一所述训练样本包括snp数据和snp数据的样本标记,所述snp数据为qtl定位群体混池样本测序得到snp数据;将所述样本标记构成的二维张量作为输入层输入至残差u-net模型中,采用反向传播算法和随机梯度下降方法,根据前向传播的loss值的大小,来进行反向传播迭代更新每一层的权重,直到模型的loss值趋向于收敛时,停止训练,得到qtl识别模型。5.根据权利要求4所述的训练方法,其中,所述训练得到的qtl识别模型表征所述qtl定位群体的snp数据与所述定位群体的qtl之间的响应关系。6.根据权利要求5所述的训练方法,其中,所述残差u-net模型由输入层、编码器、解码器、输出层构成;所述输入层每个输入是所述样本标记的64个位点组成的二维张量,所述编码器由卷积神经网络和残差网络组成,经过四次下采样得到深层信息,再经过四次上采样将深层信息转化为浅层信息,最后通过一个1
×
1卷积核、激活函数为sigmoid的卷积层;所述的编码器和解码器都由三个卷积层组成,卷积核分别为1
×
1、3
×
3、3
×
3,并且下采样通过最大池化完成,每次上卷积之后以也会经过一个卷积层;残差连接作用在全局每三次卷积之后,同时编码器和解码器之间对应层也有残差连接。7.一种qtl的识别方法,其包括:获得权利要求4~6任一所述的训练方法得到的qtl识别模型;将待测样本数据,输入至所述qtl识别模型,得到输出信息,所述输出信息包括snp位点在基因上的位置信息和所述snp位点属于qtl区间的置信度;根据所述位置信息和所述置信度识别qtl区间。
8.根据权利要求6所述的识别方法,用于识别如下至少一项;玉米株高qtl识别;水稻株高qtl识别;水稻开花期qtl识别;和武昌鱼肌间刺qtl识别。9.一种qtl识别装置,其特征在于,包括:获取模块,用于获取训练集,所述训练集包括snp数据和snp数据的样本标记,所述snp数据为qtl定位群体混池样本测序得到snp数据;构建模块,用于构建残差u-net模型,所述残差u-net模型是以u-net的整体架构为基础、在编码部分和解码部分分别加入了残差连接形成,所述编码部分用于提取低分辨率的snp数据,所述解码部分用于提取高分辨率的snp数据;训练模块,用于利用所述训练集对训练所述残差u-net模型,以得到残差u-net模型;输出模块,用于给定dna序列,利用训练的所述残差u-net模型识别其中的qtl信息。10.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器质执行所述计算机程序时实现权利要求1~6任一所述的方法、和/或权利要求7或8所述的方法。
技术总结本申请涉及QTL识别技术领域,尤其涉及QTL样本处理、模型训练、识别方法、装置及设备。该QTL样本处理方法,通过QTL定位群体按照目标性状表型排序构建的DNA混池,进行测序和鉴定,获取其中的SNP数据及样本标记,依次训练RU-net模型,得到QTL识别模型。该识别模型对玉米株高QTL、水稻株高QTL、水稻开花期QTL、武昌鱼肌间刺QTL等等能够有效识别,并且识别的结果相对于ΔSNP-index、ED4、G’、SmoothLOD和Ridit算法具有更低的偏差和信噪比,能够有效识别和识别表型解释率低至5%的微效位点。表型解释率低至5%的微效位点。表型解释率低至5%的微效位点。
技术研发人员:李林 李昭 陈晓轩 李伟夫 陈洪
受保护的技术使用者:华中农业大学
技术研发日:2022.07.06
技术公布日:2022/11/1