一种基于小panel的CNV检测算法、系统及可靠性验证算法的制作方法

专利2023-02-08  134


一种基于小panel的cnv检测算法、系统及可靠性验证算法
技术领域
1.本发明涉及cnv检测技术领域,具体涉及一种基于小panel的cnv检测算法、系统及可靠性验证算法。


背景技术:

2.拷贝数变异(copy number variation,cnv)一种长度介于1kb至3mb的,由基因组重排而导致的基因突变。其在遗传性疾病检测、部分常见病的辅助诊断中均具有广泛应用。
3.靶向测序技术是一种将与某些遗传疾病相关的特定基因组区域富集出来测序的基因检测算法,具有单个样本测序数据产出少,分析速度快的优点。同时由于其可对目标基因组区域进行深度测序,因此还具有检测灵敏度及准确性高的优点。小panel指仅包含几十个基因的测序样本。因此基于小panel,并结合靶向测序技术的cnv检测与基于全基因组的cnv检测相比,不但检测结果稳定,且成本低;更能满足大部分人的检测需求。
4.现有的cnv检测原理为:对比待测样本与对照样本间的覆盖度变化以获得两者不一致的区间,进而检测出潜在的拷贝数变异区域。并基于每个扩增区域内待测样本与对照样本间的比值,将cnv分为杂合缺失、纯合缺失及重复。对于杂合缺失,比值为0.5,表明测试样本与对照样本相比发生拷贝数减少。对于纯合缺失,比值为0,表明测试样本与对照样本相比发生拷贝数消失;对于重复,比值为1.5,表明与对照样本相比发生拷贝数重复。
5.基于上述cnv检测原理进行检测过程中,数据校正是决定检测结果准确性的重要因素。但当基于小panel进行的靶向测序区域较小,而发生cnv的区域较大时(即发生cnv的区域占靶向测序区域过大),常规的cnv数据校正算法检出的结果会出现异常。如当样本中间发生一个较大cnv时,由于常规的cnv数据校正算法根据样本平均深度进行校正,较大cnv区域的深度会拉低平均深度。此时可能导致实际未发生cnv的两侧片段出现假阳性;也可能导致实际发生cnv的中间片段出现漏检。


技术实现要素:

6.本发明目的在于提供一种基于小panel的cnv检测算法、系统及可靠性验证算法,以改善现有的基于小panel进行的cnv检测中易于出现误差及漏检的技术问题。
7.为达成上述目的,本发明提出如下技术方案:
8.一种基于小panel的cnv检测算法,包括:
9.获取原始数据矩阵,所述原始数据矩阵中一列为待测样本深度数据,其余列均为对照样本深度数据;
10.获取所述原始数据矩阵每行各深度数据的几何平均值,并计算所述原始数据矩阵每行各所述深度数据与该行所述几何平均值间的第一比值,以所述第一比值按照其对应的所述深度数据的位置形成中间数据矩阵;
11.获取所述中间数据矩阵每列各深度数据的中位数或平均数,并计算所述中间数据矩阵每列各所述深度数据与该列所述中位数或平均数间的第二比值,以所述第二比值按照
其对应的所述深度数据的位置形成校正数据矩阵;
12.基于所述校正数据矩阵求解每个扩增区域内所述待测样本与所述对照样本间的比值以获取所述待测样本的cnv类型。
13.进一步的,所述原始数据矩阵,其第一列为待测样本深度数据。
14.进一步的,所述原始数据矩阵中每行的所述几何平均值的计算公式为:
[0015][0016]
其中:
[0017]
i=1,2

n,j=1,2

m;n为所述原始数据矩阵的总行数,m为所述原始数据矩阵的总列数;
[0018]aij
为所述原始数据矩阵中第i行第j列的元素。
[0019]
进一步的,所述获取所述待测样本的cnv类型,包括:
[0020]
计算所述校正数据矩阵每行中各所述对照样本深度数据的平均数或中位数以获得对照平均数或对照中位数;
[0021]
求解所述校正数据矩阵每行中待测样本所述深度数据与该行所述对照平均数或对照中位数间的比值;
[0022]
根据比值判断所述待测样本的cnv类型。
[0023]
一种基于小panel的cnv检测系统,包括:
[0024]
获取模块,用于获取原始数据矩阵,所述原始数据矩阵中一列为待测样本深度数据,其余列均为对照样本深度数据;
[0025]
第一计算模块,用于获取所述原始数据矩阵每行各深度数据的几何平均值,并计算所述原始数据矩阵每行各所述深度数据与该行所述几何平均值间的第一比值,以所述第一比值按照其对应的所述深度数据的位置形成中间数据矩阵;
[0026]
第二计算模块,用于获取所述中间数据矩阵每列各深度数据的中位数或平均数,并计算所述中间数据矩阵每列各所述深度数据与该列所述中位数或平均数间的第二比值,以所述第二比值按照其对应的所述深度数据的位置形成校正数据矩阵;
[0027]
cnv检测模块,用于基于所述校正数据矩阵求解每个扩增区域内所述待测样本与所述对照样本间的比值以获取所述待测样本的cnv类型。
[0028]
一种基于小panel的cnv检测可靠性验证算法,用于验证所述的检测算法的可靠性,包括:
[0029]
设定一m
×
(n+1)维所述原始数据矩阵:
[0030]
其中,第一列为待测样本,其余列为对照样本;
[0031]
对于待测样本,假定cnv发生于第k个至第k+l个基因上;其中,τ(i)为发生变异的第i个基因的实际变异系数;将基因的理想变异系数记为τ,并建立第一约束:|τ
(i)-τ|<δ;
[0032]
其中,δ为第i个基因的所述实际变异系数与所述理想变异系数间的差值阈值;
[0033]
对于对照样本,为第j+1列第i行元素;其中,为该对照样本中元素与待测样本中相应元素的实际比值;将第j+1列对照样本与待测样本的理想比值记为bj,并建立第二约束:
[0034]
其中,εj为第j+1列第i行的所述实际比值与第j+1列所述理想比值间的差值阈值;
[0035]
获取所述原始数据矩阵中各行元素的几何平均值:
[0036]gi
=aimedi;
[0037]
对于未发生cnv区域,即i<k or i>k+l:计算第i行所述实际比值的几何平均数计算第i行所述理想比值的几何平均数并建立第三约束:|med
i-med|≤θ;
[0038]
其中,θ为第i行所述实际比值的几何平均数与相应理想比值的几何平均数间的差值阈值;θ=max{θ1,θ2};其中,其中,o()为阶数函数,ε=max{ε1,

,εj,

,εn};
[0039]
对于发生cnv区域,即k≤i≤k+l;计算第i行所述实际比值的几何平均数计算第i行所述理想比值的几何平均数并建立第四约束:|med
i-med|≤θ;
[0040]
其中,θ为第i行所述实际比值的几何平均数与相应理想比值的几何平均数间的差值阈值;θ=max{θ1,θ2};其中,
[0041]
计算所述原始数据矩阵m每行各元素与该行几何平均值间的第一比值,以所述第一比值按照其对应的深度数据的位置形成中间数据矩阵m1;
[0042]
获取所述中间数据矩阵m1每列各元素的中位数:
[0043]
对于对照样本,基于所述第三约束及第四约束计算第j+1列的中位数μj,可得:
[0044]
其中,β=max{θ,θ};
[0045]
对于待测样本,基于所述第三约束及第四约束计算其中位数μ0,若不存在则表明所述的算法可靠性低;反之,继续计算所述中间数据矩阵每列各深度数据与该列中位数或平均数间的第二比值,以所述第二比值按照其对应的深度数据的位置形成校正数据矩阵m2;
[0046]
计算所述校正矩阵m2中第一列与第j+1列间的第三比值以确定cnv类型:
[0047]
对于未发生cnv区域,即i<k or i>k+l:若存在则存在r1≈1;其中,r1为无cnv区域中所述第三比值;
[0048]
对于发生cnv区域,即k≤i≤k+l:若存在则存在r2≈τ;其中,r2为cnv区域中所述第三比值;
[0049]
即表明验证得到的cnv区域及类型与假定的情况相一致,即所述的算法可靠性高;反之则表明、所述的算法可靠性差。
[0050]
进一步的,所述第三约束的建立过程包括:
[0051]
建立第一不等式:
[0052]
建立第二不等式:
[0053]
基于所述第二约束、所述第一不等式及所述第二不等式建立所述第三约束。
[0054]
进一步的,所述第四约束的建立过程包括:
[0055]
建立第三不等式:
[0056][0057]
建立第四不等式:
[0058][0059]
基于基于所述第二约束、所述第三不等式及所述第四不等式建立所述第四约束。
[0060]
进一步的,对于所述中间数据矩阵m1:
[0061]
对于未发生cnv区域,i<k or i>k+l,基于所述第三约束可得:
[0062][0063]
对于发生cnv区域,k≤i≤k+l,基于所述第四约束可得:
[0064][0065]
有益效果:
[0066]
由以上技术方案可知,本发明的技术方案提供了一种基于小panel的cnv检测算法,以改善现有cnv检测算法由数据校正所引起的检测异常。
[0067]
所述检测算法包括:获取原始数据矩阵,所述原始数据矩阵中一列为待测样本深度数据,其余列均为对照样本深度数据;计算所述原始数据矩阵每行中各深度数据与该行几何平均值间的比值以得到中间数据矩阵;计算所述中间数据矩阵每列中各深度数据与该列中位数间的比值以得到校正数据矩阵;基于所述校正数据矩阵求解每个扩增区域内待测样本与对照样本间的比值以获取所述待测样本的cnv类型。
[0068]
现有的检测过程中,当进行数据校正时,直接求解原始数据矩阵中每列的深度数据的平均数或中位数,然后再基于所述平均数或中位数对原始数据矩阵按列进行处理以得到校正数据矩阵。而由于原始数据矩阵中每列属于同一样本即待测样本或对照样本内不同基因区域的测序深度;而此时按列对其进行处理则弱化了原始的待测样本或对照样本中不同区域内基因的测序深度的差异性。而cnv检测正是基于每个扩增区域内待测样本与对照样本间的差异性进行的,因此现有的数据校正势必会导致结果误差。而本技术方案中,首先按行对深度数据进行处理以得到中间数据矩阵;而每行中元素为待测样本或对照样本中同一位置的测序深度数据,因此保证了不同扩增区域间的差异性。其次又基于中间数据矩阵中每列的中位数对中间数据矩阵进行处理,所述中位数与现有校正中基于平均数处理的方式相比进一步保证了各扩增区域间的差异性。因此基于本技术方案中校正数据矩阵进行cnv检测时有效提高了检测结果准确性,改善了误检情况。同时,由于本技术方案与平均数校正算法相比,不存在比值不满足阈值被认为是正常拷贝的情况;因此还有效避免了漏检。
[0069]
本技术方案还提供了一种基于小panel的cnv检测可靠性验证算法。现有的检测可靠性验证过程中多通过数量庞大的检测过程实现,该过程不但繁琐复杂,且消耗时间长。特别是在进行检测验证时验证样本的种类更影响着验证本身是否可靠,而人为的样本设计或选择往往无法对多变复杂的cnv进行全面考量。进而导致验证结果的可靠性有待商榷。而本技术方案中则提供了一种基于数值运算进行的可靠性验证算法,其摆脱了对重复检测的依赖,基于数值逻辑的合理性验证了所述cnv检测的可靠性。不但验证过程简单便捷,且验证结果更加准确可靠。进而有效证明了上述cnv检测所得的检测结果总是与实际情况的符合度更好。
[0070]
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
[0071]
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
[0072]
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
[0073]
图1为本实施例中所述的基于小panel的cnv检测算法的流程图;
[0074]
图2为图1中cnv类型的获取流程图;
[0075]
图3为采用现有技术中平均校正算法时的cnv检测结果图;
[0076]
图4为采用本实施例所述的检测算法的cnv检测结果图。
具体实施方式
[0077]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。除非另作定义,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
[0078]
本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,除非上下文清楚地指明其它情况,否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件,并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0079]
现有的cnv检测过程中,受校正算法影响导致检测结果常存在异常。而基于大批量验证样本进行的可靠性检测过程不但繁琐复杂,且也不能总对复杂多变的cnv进行有效验证。
[0080]
现有技术的cnv检测中的数据验证通过如下步骤进行:
[0081]
步骤s001、获取原始数据矩阵
[0082]
步骤s003、按列对所述原始数据矩阵计算几何平均值,得到:
[0083][0084][0085]
步骤s005、计算校正系数,得到:
[0086]
步骤s007、得到校正后的矩阵为:
[0087][0088]
由上述步骤001至步骤007可见,现有的检测过程中,当进行数据校正时,直接求解原始数据矩阵中每列的深度数据的平均数或中位数,然后再基于所述平均数或中位数对原始数据矩阵按列进行处理以得到校正数据矩阵。而由于原始数据矩阵中每列属于同一样本即待测样本或对照样本内不同基因区域的测序深度;而此时按列对其进行处理则弱化了原始的待测样本或对照样本中不同区域内基因的测序深度的差异性。而cnv检测正是基于每个扩增区域内待测样本与对照样本间的差异性进行的,因此现有的数据校正势必会导致结果误差。
[0089]
实施例1
[0090]
为了改善上述现有校正方法在实际使用时存在的缺陷,本实施例所述的cnv检测算法如图1所示,具体步骤如下:
[0091]
步骤s102、获取原始数据矩阵,所述原始数据矩阵中一列为待测样本深度数据,其余列均为对照样本深度数据。
[0092]
作为一种具体的实施方式,为了便于进行计算,设置所述原始数据矩阵中,第一列为待测样本深度数据,其余列分别为对照样本深度数据。
[0093]
本实施例中所述原始数据矩阵为:
[0094]
作为一种具体的实施方式,所述原始数据矩阵的获取包括:
[0095]
步骤s100、构建样本的基因组比对与校正后文件。
[0096]
在具体实施时,本步骤具体包括:首先对样本测序数据进行基本质控,数据质控包括数据量合格、平均测序深度达到要求、数据质量q20》90%,q30》85%。
[0097]
q20和q30:测序数据中每个碱基都有对应的质量值,质量值是q20,则错误识别的概率是1%,即错误率1%,或者正确率是99%;质量值是q30,则错误识别的概率是0.1%,即错误率0.1%,或者正确率是99.9%;
[0098]
然后使用sentieon软件(ngs基因数据分析加速软件)bwa模块和参考基因组进行比对,获得比对数据,再使用sentieon软件中的umi处理模块对比对后的bam文件进行后续处理,得到最终的bam文件,即比对数据。
[0099]
步骤s101、构建矩阵文件,根据设计扩增区域计算每个扩增区域的深度。
[0100]
在具体实施时,本步骤包括:根据设计的扩增区域坐标信息,使用r包rsamtools计
算覆盖扩增区域的序列数目,构建样本每个扩增区域的覆盖序列数目,并汇总成矩阵文件。
[0101]
待测样本和历史阴性样本(对照样本)使用上述计算算法计算对照样本矩阵文件。将测试样本的测序序列数目文件与对照样本的文件按照相同扩增区域位置进行合并,可得到一个矩阵文件。矩阵文件中每列代表一个样本,每行代表一个扩增区域的测序序列数目文件。
[0102]
步骤s104、获取所述原始数据每行各深度数据的几何平均值,并计算所述原始数据矩阵每行各深度数据与该行几何平均值间的第一比值,以所述第一比值按照其对应的深度数据的位置形成中间数据矩阵。
[0103]
本实施例中,所述原始数据矩阵中每行的几何平均值的计算公式为:
[0104][0105]
其中:
[0106]
i=1,2

n,j=1,2

m;n为所述原始数据矩阵的总行数,m为所述原始数据矩阵的总列数;
[0107]aij
为所述原始数据矩阵中第i行第j列的元素。
[0108]
进而得到所述中间数据矩阵为:
[0109]
步骤s106、获取所述中间数据矩阵每列各深度数据的中位数或平均数,并计算所述中间数据矩阵每列各深度数据与该列中位数或平均数间的第二比值,以所述第二比值按照其对应的深度数据的位置形成校正数据矩阵。
[0110]
本实施例中具体采用中位数进行计算;具体将各列的中位数依次记为:med
01
,med
02


,med
0m

[0111]
进而得到所述校正数据矩阵:
[0112][0113]
步骤s108、基于所述校正数据矩阵求解每个扩增区域内待测样本与对照样本间的比值以获取所述待测样本的cnv类型。
[0114]
作为一种具体的实施方式,如图2所示,所述步骤s108包括:
[0115]
步骤s108.2、计算所述校正数据矩阵每行中各所述对照样本深度数据的平均数或中位数以获得对照平均数或对照中位数。
[0116]
本实施例中,具体选择获得对照平均数。
[0117]
步骤s108.4、求解所述校正数据矩阵每行中待测样本所述深度数据与该行所述对照平均数或对照中位数间的比值。
[0118]
步骤s108.6、根据比值判断所述待测样本的cnv类型。
[0119]
由上述步骤可见,本实施例首先按行对深度数据进行处理以得到中间数据矩阵;而每行中为待测样本或对照样本中同一位置的测序深度数据,因此保证了不同扩增区域间的差异性。其次又基于中间数据矩阵中每列的中位数对中间数据矩阵进行处理,所述中位数与现有校正中基于平均数处理的方式相比进一步保证了各扩增区域间的差异性。因此基于本技术方案中校正数据矩阵进行cnv检测时有效提高了检测结果准确性。同时,由于本技术方案与平均数校正算法相比,不存在比值不满足阈值被认为是正常拷贝的情况;因此还有效避免了漏检情况。
[0120]
在具体实施时,对于实际发生cnv均为中间区域,且cnv片段依次为10exon、30exon、40exon的三个待测样本分别采用现有的平均校正算法及本实施例所述的检测算法进行cnv检测。如图3所示,对于现有平均的校正算法,随着cnv区域的增加,左右两侧及实际cnv区域的比值均有所增加,从而导致随着实际cnv区域的增加,两侧正常区域的检测结果出现假阳性,而中间实际cnv区域的检测结果由于比值不满足阈值而造成漏检。但如图4所示,对于本实施例所述的检测算法,随着cnv区域的增加,无论是实际cnv区域还是正常区域均具有较好的检测结果。进而表明本实施例具有更好的检测准确性。
[0121]
上述算法过程可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何算法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0122]
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
[0123]
实施例2
[0124]
本实施例还公开了一种基于小panel的cnv检测系统,所述系统基于所述检测算法搭建。依次包括:获取模块、第一计算模块、第二计算模块及cnv检测模块。
[0125]
所述获取模块用于获取原始数据矩阵,所述原始数据矩阵中一列为待测样本深度
数据,其余列均为对照样本深度数据。
[0126]
所述第一计算模块用于获取所述原始数据每行各深度数据的几何平均值,并计算所述原始数据矩阵每行各深度数据与该行几何平均值间的第一比值,以所述第一比值按照其对应的深度数据的位置形成中间数据矩阵。
[0127]
所述第二计算模块用于获取所述中间数据矩阵每列各深度数据的中位数或平均数,并计算所述中间数据矩阵每列各深度数据与该列中位数或平均数间的第二比值,以所述第二比值按照其对应的深度数据的位置形成校正数据矩阵。
[0128]
所述cnv检测模块用于基于所述校正数据矩阵求解每个扩增区域内待测样本与对照样本间的比值以获取所述待测样本的cnv类型。
[0129]
由此可见,基于所述检测系统进行cnv检测时,也具有检测结果准确性高的优势;从而极大的改善了现有检测系统中存在的误检,并避免了漏检现象。
[0130]
实施例3
[0131]
现有的检测可靠性验证过程中多通过数量庞大的检测过程实现,该过程不但繁琐复杂,消耗时间长。特别是在进行检测验证时验证样本的种类更影响着验证本身是否可靠,而人为样本设计或选择往往无法对多变复杂的cnv均进行考虑。进而导致验证结果的可靠性有待商榷。
[0132]
而本技术的可靠性验证算法则基于数学逻辑进行以对上述实施例1公开的cnv检测算法进行验证。包括:
[0133]
首先,设定一m
×
(n+1)维所述原始数据矩阵:
[0134]
其中,第一列为待测样本,其余列为对照样本;
[0135]
对于待测样本,假定cnv发生于第k个至第k+l个基因上;其中,τ(i)为发生变异的第i个基因的实际变异系数;将基因的理想变异系数记为τ,并建立第一约束:|τ
(i)-τ|<δ;
[0136]
其中,δ为第i个基因的所述实际变异系数与所述理想变异系数间的差值阈值。
[0137]
对于对照样本,为第j+1列第i行元素;其中,为该对照样本中元素与待测样本中相应元素的实际比值;将第j+1列对照样本与待测样本的理想比值记为bj,并建立第二约束:
[0138]
其中,εj为第j+1列第i行的所述实际比值与第j+1列所述理想比值间的差值阈值。
[0139]
其次,获取所述原始数据矩阵中各行元素的几何平均值:
[0140]gi
=aimedi;
[0141]
对于未发生cnv区域,即i<k or i>k+l;其为第i行所述实际比值的几何平均数;将第i行所述理想比值的几何平均数记为并基于所述第二约束建立第三约束:|med
i-med|≤θ;
[0142]
其中,θ为第i行所述实际比值的几何平均数与相应理想比值的几何平均数间的差值阈值;θ=max{θ1,θ2};其中,其中,o()为阶数函数,ε=max{ε1,

,εj,

,εn}。
[0143]
本实施例中,所述第三约束的建立过程包括:
[0144]
首先,建立第一不等式:
[0145][0146]
其次,建立第二不等式:
[0147][0148]
最后,基于所述第二约束、所述第一不等式及所述第二不等式建立所述第三约束。
[0149]
对于发生cnv区域,即k≤i≤k+l;其为第i行所述实际比值的几何平均数;将第i行所述理想比值的几何平均数记为并基于所述第二约束建立第四约束:|med
i-med|≤θ;
[0150]
其中,θ为第i行所述实际比值的几何平均数与相应理想比值的几何平均数间的差值阈值;θ=max{θ1,θ2};其中,
[0151]
本实施例中,所述第四约束的建立过程包括:
[0152]
首先,建立第三不等式:
[0153][0154]
其次,建立第四不等式:
[0155][0156]
最后,基于基于所述第二约束、所述第三不等式及所述第四不等式建立所述第四约束。
[0157]
计算所述原始数据矩阵m每行各元素与该行几何平均值间的第一比值,以所述第一比值按照其对应的深度数据的位置形成中间数据矩阵m1。
[0158]
本实施例中,对于所述中间数据矩阵m1:
[0159]
对于未发生cnv区域,i<k or i>k+l,基于所述第三约束可得:
[0160][0161]
对于发生cnv区域,k≤i≤k+l,基于所述第四约束可得:
[0162]
[0163]
再者,获取所述中间数据矩阵m1每列各元素的中位数:
[0164]
对于对照样本,将第j+1列的中位数记为μj,基于所述第三约束及第四约束,可得:
[0165]
其中,β=max{θ,θ}。
[0166]
对于待测样本,将其中位数记为μ0,基于所述第三约束及第四约束,若不存在则表明所述的算法可靠性低;反之,继续计算所述中间数据矩阵每列各深度数据与该列中位数或平均数间的第二比值,以所述第二比值按照其对应的深度数据的位置形成校正数据矩阵m
2。
[0167]
最后,计算所述校正矩阵m2中第一列与第j+1列间的第三比值以确定cnv类型:
[0168]
对于未发生cnv区域,即i<k or i>k+l;基于上述过程,若存在其中,r1为无cnv区域中所述第三比值;并基于上述确定的μ0存在r1≈1。
[0169]
同时对于发生cnv区域,k≤i≤k+l;基于上述过程,若也存在其中,r2为cnv区域中所述第三比值;并基于所述第一约束及上述确定的μ0存在r2≈τ;
[0170]
表明验证得到的cnv区域及类型与假定的情况相一致,即所述的算法可靠性高;反之则表明所述的算法可靠性差。
[0171]
对于实施例1中所述的检测方法,最终存在r1≈1,及r2≈τ成立。即可验证所述检测方法具有良好的可靠性。
[0172]
由上述步骤可见,本实施例中公开了一种基于数值运算进行的可靠性验证算法。其摆脱了对重复检测的依赖,基于数值逻辑的合理性验证了所述cnv检测的可靠性。不但验证过程简单便捷,且验证结果更加准确可靠。进而有效证明了所述cnv检测所得的结果总是与实际结果的符合度更好。
[0173]
上述算法过程可以运行在处理器中,或者也可以存储在存储器中(或称为计算机可读介质),计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何算法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0174]
这些计算机程序也可装载到计算机或其他可编程数据处理设备上,使得在计算机
或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,对应与不同的步骤可以通过不同的模块来实现。
[0175]
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。

技术特征:
1.一种基于小panel的cnv检测算法,其特征在于,包括:获取原始数据矩阵,所述原始数据矩阵中一列为待测样本深度数据,其余列均为对照样本深度数据;获取所述原始数据矩阵每行各深度数据的几何平均值,并计算所述原始数据矩阵每行各所述深度数据与该行所述几何平均值间的第一比值,以所述第一比值按照其对应的所述深度数据的位置形成中间数据矩阵;获取所述中间数据矩阵每列各深度数据的中位数或平均数,并计算所述中间数据矩阵每列各所述深度数据与该列所述中位数或平均数间的第二比值,以所述第二比值按照其对应的所述深度数据的位置形成校正数据矩阵;基于所述校正数据矩阵求解每个扩增区域内所述待测样本与所述对照样本间的比值以获取所述待测样本的cnv类型。2.根据权利要求1所述的基于小panel的cnv检测算法,其特征在于,所述原始数据矩阵,其第一列为待测样本深度数据。3.根据权利要求1所述的基于小panel的cnv检测算法,其特征在于,所述原始数据矩阵中每行的所述几何平均值的计算公式为:其中:i=1,2

n;j=1,2

m;n为所述原始数据矩阵的总行数,m为所述原始数据矩阵的总列数;a
ij
为所述原始数据矩阵中第i行第j列的元素。4.根据权利要求1所述的基于小panel的cnv检测算法,其特征在于,所述获取所述待测样本的cnv类型,包括:计算所述校正数据矩阵每行中各所述对照样本深度数据的平均数或中位数以获得对照平均数或对照中位数;求解所述校正数据矩阵每行中待测样本所述深度数据与该行所述对照平均数或对照中位数间的比值;根据比值判断所述待测样本的cnv类型。5.一种基于小panel的cnv检测系统,其特征在于,包括:获取模块,用于获取原始数据矩阵,所述原始数据矩阵中一列为待测样本深度数据,其余列均为对照样本深度数据;第一计算模块,用于获取所述原始数据矩阵每行各深度数据的几何平均值,并计算所述原始数据矩阵每行各所述深度数据与该行所述几何平均值间的第一比值,以所述第一比值按照其对应的所述深度数据的位置形成中间数据矩阵;第二计算模块,用于获取所述中间数据矩阵每列各深度数据的中位数或平均数,并计算所述中间数据矩阵每列各所述深度数据与该列所述中位数或平均数间的第二比值,以所述第二比值按照其对应的所述深度数据的位置形成校正数据矩阵;cnv检测模块,用于基于所述校正数据矩阵求解每个扩增区域内所述待测样本与所述
对照样本间的比值以获取所述待测样本的cnv类型。6.一种基于小panel的cnv检测可靠性验证算法,其特征在于,用于验证权利要求2-4任一项所述的检测算法的可靠性,包括:设定一m
×
(n+1)维所述原始数据矩阵:其中,第一列为待测样本,其余列为对照样本;对于待测样本,假定cnv发生于第k个至第k+l个基因上;其中,τ
(i)
为发生变异的第i个基因的实际变异系数;将基因的理想变异系数记为τ,并建立第一约束:|τ
(i)-τ|<δ;其中,δ为第i个基因的所述实际变异系数与所述理想变异系数间的差值阈值;对于对照样本,为第j+1列第i行元素;其中,为该对照样本中元素与待测样本中相应元素的实际比值;将第j+1列对照样本与待测样本的理想比值记为b
j
,并建立第二约束:其中,ε
j
为第j+1列第i行的所述实际比值与第j+1列所述理想比值间的差值阈值;获取所述原始数据矩阵中各行元素的几何平均值:g
i
=a
i
med
i
;对于未发生cnv区域,即i<k or i>k+l:计算第i行所述实际比值的几何平均数计算第i行所述理想比值的几何平均数并建立第三约束:|med
i-med|≤θ;其中,θ为第i行所述实际比值的几何平均数与相应理想比值的几何平均数间的差值阈值;θ=max{θ1,θ2];其中,其中,o()为阶数函数,ε=max{ε1,


j
,


n
};对于发生cnv区域,即k≤i≤k+l:计算第i行所述实际比值的几何平均数计算第i行所述理想比值的几何平均数并建立第四约束:|med
i-med|≤θ;其中,θ为第i行所述实际比值的几何平均数与相应理想比值的几何平均数间的差值阈值;θ=max{θ1,θ2};其中,计算所述原始数据矩阵m每行各元素与该行几何平均值间的第一比值,以所述第一比
值按照其对应的深度数据的位置形成中间数据矩阵m1;获取所述中间数据矩阵m1每列各元素的中位数:对于对照样本,基于所述第三约束及第四约束计算第j+1列的中位数μ
j
,可得:其中,β=max{θ,θ};对于待测样本,基于所述第三约束及第四约束计算其中位数μ0,若不存在则表明权利要求2-4所述的算法可靠性低;反之,继续计算所述中间数据矩阵每列各深度数据与该列中位数或平均数间的第二比值,以所述第二比值按照其对应的深度数据的位置形成校正数据矩阵m2;计算所述校正矩阵m2中第一列与第j+1列间的第三比值以确定cnv类型:对于未发生cnv区域,即i<k or i>k+l:若存在则存在r1≈1;其中,r1为无cnv区域中所述第三比值;对于发生cnv区域,即k≤i≤k+l:若存在则存在r2≈τ;其中,r2为cnv区域中所述第三比值;即表明验证得到的cnv区域及类型与假定的情况相一致,即权利要求2-4所述的算法可靠性高;反之则表明权利要求2-4所述的算法可靠性差。7.根据权利要求6所述的基于小panel的cnv检测可靠性验证算法,其特征在于,所述第三约束的建立过程包括:建立第一不等式:建立第二不等式:基于所述第二约束、所述第一不等式及所述第二不等式建立所述第三约束。8.根据权利要求7所述的基于小panel的cnv检测可靠性验证算法,其特征在于,所述第四约束的建立过程包括:建立第三不等式:建立第四不等式:基于基于所述第二约束、所述第三不等式及所述第四不等式建立所述第四约束。9.根据权利要求6所述的基于小panel的cnv检测可靠性验证算法,其特征在于,对于所述中间数据矩阵m1:对于未发生cnv区域,i<k or i>k+l,基于所述第三约束可得:
对于发生cnv区域,k≤i≤k+l,基于所述第四约束可得:

技术总结
本发明属于CNV检测技术领域,公开了一种基于小panel的CNV检测算法、系统及可靠性验证算法。所述检测算法包括:获取原始数据矩阵,所述原始数据矩阵中一列为待测样本深度数据,其余列均为对照样本深度数据;计算所述原始数据矩阵每行中各深度数据与该行几何平均值间的比值以得到中间数据矩阵;计算所述中间数据矩阵每列中各深度数据与该列中位数间的比值以得到校正数据矩阵;基于所述校正数据矩阵求解每个扩增区域内待测样本与对照样本间的比值以获取所述待测样本的CNV类型。从而有效提高了检测结果准确性。可靠性验证算法基于数学逻辑进行,与现有的基于大量仿真计算的方式相比更加简单可行,结果可靠性更好。结果可靠性更好。结果可靠性更好。


技术研发人员:文曙 李珉 栗海波
受保护的技术使用者:苏州赛美科基因科技有限公司
技术研发日:2022.07.26
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-861.html

最新回复(0)