一种用微单倍型判定无创产前亲权关系的方法与流程

专利2023-06-17  105



1.本发明涉及遗传学技术领域,具体地,本发明涉及一种用微单倍型判定无创产前亲权关系的方法,更具体的,本发明用了一种新的筛选位点的方法。


背景技术:

2.2012年,美国耶鲁大学kidd教授研究团队在前期单倍型相关研究基础上,从长度小于10kb的区域内选取位置相对靠近的snp,并避开易发生重组的位点,最终筛选出8个迷你单倍型基因座(mini-haplotype)。通过对45个群体进行检测,结果显示筛选的8个迷你单倍型基因座的高杂合度及群体分布差异性能够提供亲权鉴定及种族推断需要的相关信息。为了进一步筛选更适合法医学应用的单倍型基因座。2013年,美国耶鲁大学kidd教授研究团队从现有基因组数据库中,筛选得到300bp以内、包含至少2个snp位点的序列片段,将其命名为微单倍型(microhaplotype,mh)。微单倍型兼具str(短串联重复序列,shorttandempepeats)和snp(单核苷酸多态性,singlenucleotidepolymorphism)的优势:
3.①
高度多态性:通常snp位点仅有2个等位基因,由多个snp组成的微单倍型理论上有更高的复杂度;
4.②
低突变率:微单倍型的突变率相当于snp的突变率,为10-8
/代,是str突变率的百万分之一到十万分之一,在亲权鉴定中有独特优势;
5.③
检测无阴影带:基于电泳技术分型的str会产生阴影带,不利于复杂混合dna样本的分析。微单倍型通过测序手段检测,无阴影带,且二代测序具有高通量、高灵敏度的优点,在定量分析复杂混合dna中有很大潜力;
6.④
长度优势:str基因座的等位基因长度跨度很大,因此会产生扩增不平衡问题,而较长的等位基因在降解检材中极可能被破坏,得不到准确的分型结果,微单倍型长度相对均一,可减少因长度差异带来的扩增不平衡问题。
7.产前的胎儿亲子鉴定有基于有创取样的绒毛膜穿刺或羊水穿刺,该方法操作有可能会造成感染甚至流产,而且穿刺时间的有限制;目前基于外周血无创取样无创产前亲子鉴定逐渐成为首要选择。
8.1997年,卢煜明教授发现孕妇外周血血浆中存在胎儿游离dna,并且随着高通量测序的发展,在2013年后,利用snp作为遗传标记的无创产前胎儿亲子鉴定在市场上出现,如专利cn104946773a所述,利用1035个snp成功实践产前的胎儿遗传诊断,但局限于snp作为一种二态性的遗传标记,需要数量较多。随着微单倍型的发现,兼具snp的优点同时,还有高度多态性,自然考虑被用作产前胎儿亲子鉴定的遗传标记,如cn111518917a就利用60个微单倍型用作产前亲子鉴定的标记。该专利验证了微单倍型在产前场景的可行性,但该专利只做了初步尝试,本专利进一步拓展了该专利位点范围,并就数据处理、鉴定方法,及应用场景等各个方面做了很大创新。


技术实现要素:

9.本发明的目的是提供一种孕期利用孕妇外周血进行亲子鉴定的方法,在现有技术所作的初步尝试的基础上,做进一步创新和深化。
10.在本发明的一个方面,本发明提供了一种筛选位点的方法,其特征在于,所述方法包括如下步骤;
11.(1)预过滤;
12.(2)鉴定微单倍型;
13.(3)统计微单倍型群体遗传学参数;
14.(4)hardy-weinberg平衡检验。
15.优选地,在步骤(1)中:千人基因组项目中某个人群或者全部种族的vcf文件包含所有突变数据,选出群体中等位基因频率最小等位基因频率大于0.01;snp位于常染色体, snp包括微小插入缺失。
16.优选地,在步骤(1)中,可根据测序平台过滤掉插入缺失indel。
17.优选地,在步骤(2)中,所有预过滤后的snp按照位置排序后,第一个snp定为“起始snp”,依次和后面组合,满足和“起始snp”间隔350bp以内就组合成微单倍型,以“起始snp”和snp个数为唯一标记;
18.如果snp和“起始snp”超过350bp,就将原“起始snp”下一个snp标记为“起始 snp”,进行上述组合,依次对每个snp进行鉴定;
19.对某个“起始snp”的微单倍型可能组合超过2个snp,选包含snp最多的为完整集,其他为子集,去掉子集;
20.可能相邻的微单倍型“起始snp”间间隔小于350,即微单倍型间部分重合,先保留。
21.优选地,在步骤(2)中,350bp可根据选取试剂及实验条件调整,如产前亲子鉴定中由于cf-dna片段较短,选取70-150bp间更加合适。
22.优选地,在步骤(3)中,对上述找出的微单倍型,每个snp的信息都能在(1)的vcf 文件中找到,统计出每个微单倍型的有效等位基因数(ae)和informativeness(in)和等位基因频率(p),某遗传标记的ae值为n,则表示该遗传标记等价于包含n个频率相等的等位基因,即每个等位基因的频率均为1/n。
23.优选地,ae值的计算公式为:1/∑pi2,其中pi表示某基因座上等位基因i的频率,对(2)中重叠的微单倍型,通过ae/n
snp
值大的保留。
24.优选地,在步骤(4)中:对筛选的微单倍型,采用皮尔森卡方检验对微单倍型的基因型分布频率进行哈迪-温伯格平衡检验,标记出不符合的微单倍型组合,根据后续应用选择。
25.优选地,这步骤做完有几百万个微单倍型,根据长度,ae,染色体和鉴定需求选取。
26.优选地,在步骤(4)中,根据其他研究经验,选择两个微单倍型间隔10kb以上。
27.在发明的又一个方面,本发明提供了一种用微单倍型判定无创产前亲权关系的方法,其特征在于,所述判定无创产前亲权关系的方法包括前述任一项所述的筛选位点的方法。
28.优选地,所述方法包括对测序背景噪音的校准,其中,通过下述计算背景错误:比对结果通过gatk等基因分型软件call snp后得到vcf文件,将所有微单倍型的包含的snp去
掉后,统计剩下snp中与参考基因组不一致的碱基数,除以该样本的所有比对到微单倍型的碱基数目,通过增加umi等方法来实现统计和校准背景错误方法。
29.优选地,所述方法包括胎儿浓度的计算:增加覆盖y染色体的探针利用y染色体的比例来计算胎儿浓度记作ffy;利用软件fetalquant计算胎儿浓度;利用seqff算法计算胎儿浓度;利用cfdna片段长度信息计算胎儿浓度;利用nucleosome track方法计算胎儿浓度;利用甲基化来计算胎儿比例等方法。
30.优选地,所述方法包括样本污染情况的分析方法:以男性样本中不在合理频率的基因型来评估样本是否污染,基因型可以是以微单倍型为标记,也可以用snp为标记来分析是否污染。
31.优选地,所述方法包括鉴定方法,其利用t-test,p值来判断亲缘关系。
32.优选地,所述的判定无创产前亲权关系的方法用于对单胎、双胎、异卵双胎、辅助生殖中胎儿是否弄错精卵等情况进行分析。
33.本专利的显著进步:
34.本发明是一种孕期利用孕妇外周血进行亲子鉴定的方法,对比穿刺取样的方法具有鉴定过程没有创伤,取样和邮寄样本方便;对比现有利用snp的方法,申请人的方法由于采用微单倍型这种标记物,减少了位点需要也就降低了成本;而且微单倍型具有多等位基因的优势,对复杂混合样本,比如异卵双胎等的鉴定具有鉴定能力,弥补了snp的不足。
35.本专利对鉴定过程给出了具体可行的方案,设立了完善的质控,针对现实中可能出现的各种问题提供了解决的方案。
具体实施方式
36.下面结合实施例和表格对本发明的技术方案进行详细描述,但并不因此将本发明限制在所述的实施例范围之中。
37.本发明在如下四个方面进行了创新:
38.1、微单倍型位点:本发明用了一套新的筛选位点的方法;目前微单倍型是2个及以上 snp位点的线性组合,拓展了微单倍型包括snp+snp,snp+str,snp+indel,具体筛选如下:
39.(1)预过滤:千人基因组项目中某个人群(如中国南方汉族)或者全部种族的vcf 文件包含所有突变数据,本实施例选用中国南方汉族,选出群体中等位基因频率最小等位基因频率(minor allele frequency,maf)大于0.01;snp位于常染色体,snp包括微小插入缺失。
40.(2)鉴定微单倍型:所有预过滤后的snp按照位置排序后,第一个snp定为“起始 snp”,依次和后面组合,满足和“起始snp”间隔350bp以内就组合成微单倍型,以“起始snp”和snp和数为唯一标记;如果snp和“起始snp”超过350bp,就将原“起始snp”下一个snp标记为“起始snp”,进行上述组合,依次对每个snp进行鉴定;对某个“起始snp”的微单倍型可能组合超过2个snp,选包含snp最多的为完整集,其他为子集,去掉子集;可能相邻的微单倍型“起始snp”间间隔小于350,即微单倍型间部分重合,先保留。
41.(3)统计微单倍型群体遗传学参数:对上述找出的微单倍型,每个snp的信息都能在(1)的vcf文件中找到,统计出每个微单倍型的有效等位基因数(effective number of
alleles)(ae)和informativeness(in)和等位基因频率(p),有效等位基因数(ae)是一个经典的群体遗传学概念,它的值代表遗传标记所等价的频率相等的等位基因的个数。
42.例如,某遗传标记的ae值为n,则表示该遗传标记等价于包含n个频率相等的等位基因,即每个等位基因的频率均为1/n。通多该指标可以实现对多等位基因遗传标记的比较和排序。ae值的计算公式为:1/∑pi2,其中pi表示某基因座上等位基因i的频率。对(2)中重叠的微单倍型,通过ae/n
snp
值大的保留。
43.(4)hardy-weinberg平衡检验:对筛选的微单倍型,采用皮尔森卡方检验对微单倍型的基因型分布频率进行哈迪-温伯格平衡检验,哈迪-温伯格平衡是指基因型频率分布的观察值和理论值无显著差异(p》0.05)。标记出不符合的微单倍型组合,根据后续应用选择。这步骤做完有几百万个微单倍型,根据长度,ae,染色体和鉴定需求选取。
44.可选的,(1)可根据测序平台过滤掉插入缺失indel;
45.可选的,(2)350bp可根据选取试剂及实验条件调整,如产前亲子鉴定中由于cf-dna 片段较短,选取70-150bp间更加合适;
46.可选的,(4)中根据其他研究经验,选择两个微单倍型间隔10kb以上。
47.2、数据处理:正常分析方法,申请人还开发了对测序背景噪音的校准,因为不同平台有各自的特点,需要针对性的来校准;胎儿浓度的计算:产前亲子鉴定中,胎儿浓度的估计对胎儿基因分型至关重要,胎儿浓度作为一个重要的质控,申请人开发了一套定量胎儿浓度的方法;样本污染:产前亲子鉴定中,男性样本中指甲,毛发等样本容易在采集和运输过程被污染,甚至在实验阶段也可能被污染,因此申请人也开发了一套样本污染情况的分析方法。其他方法都需要做孕妇白细胞来鉴定孕妇的基因型,申请人可通过结合胎儿浓度,只需要孕妇cfdna就能得到母亲和小孩的分型,只用上机两个样本,大幅减少成本。以上方法在说明书中都有详细记录。
48.3、鉴定方法:cpi的计算方法是类似传统str作为标记物的方法,该方法作为法医物证的鉴定人都了解的方法;申请人除了用了这个方法外,拓展了一套利用t-test,p值来判断亲缘关系的方法,该方法可以更快速的计算,且对微单倍型较多时更加简便,无需考虑具体频率和稀有基因型。
49.4、除了常见的单胎,申请人还对双胎、异卵双胎、辅助生殖中胎儿是否弄错精卵等情况进行分析,随着不孕不育比例越来越大,辅助生殖的人群也越来越大,这种情况下,异卵双胎比例增加,对供卵者或者供精者是否和胎儿有亲缘关系需求也会越来越大。
50.实施方案
51.1、筛选位点:本实施例基于ionproton平台,考虑proton平台的特性,根据筛选出来的微单倍型(具体步骤参见前述内容),选取长度小于160bp,微单倍型内部序列在snp附近没有连续重复碱基,共348个基因座。
52.2、探针合成:将每个微单倍型的位置信息整理成bed文件格式提交给纳昂达(南京)生物科技有限公司,由纳昂达公司设计并合成。
53.3、核酸提取:收到鉴定样本后,首先进行核酸提取。
54.4、末端修复:将步骤1所得的混合dna片段、endrepairbuffer、endprep enzyme 混合,涡旋后放入pcr仪中按如下温度反应:20℃孵育15min,65℃孵育15min。
55.5、接头连接:直接向步骤2中末端修复的产物中加入rapid ligation buffer 2、
ligationenzymemix2和adapters,涡旋后放入pcr仪中按如下温度反应:22℃孵育30min,68℃孵育5min,72℃孵育5min。
56.6、文库纯化:将步骤3中得到的产物进行纯化,得到加接头的dna片段。
57.7、pcr扩增:对步骤4所得的混合dna片段、pcrprimermix、amplificationmix3进行混合,进行pcr扩增及纯化,得到需要的目标文库。
58.8、文库检测:将步骤5中得到的扩增产物用qubit和安捷伦2100检测文库浓度和片段大小。
59.9、杂交前准备:将步骤6得到的所有文库等质量混合,并向其中加入blocker、cot-1humandna,将其放入70℃的浓缩仪中浓缩成干粉。
60.10、杂交捕获:向步骤7中的干粉管中加入2
×
hybridizationbuffer(vial5)、hybridizationcomponenta(vial6),室温孵育5min后加入步骤2中设计的探针,涡旋混匀后放入pcr仪中按如下温度杂交:65℃杂交4-16h。
61.11、杂交洗脱:将杂交好的mix样本进行杂后洗脱,得到目标序列。
62.12、高通量测序:将上步得到的目标序列进行高通量测序。
63.13、数据预处理:使用软件fastp进行质量过滤,去除测序质量低的序列及去除低质量序列;其他质量过滤软件也行。
64.14、序列比对:使用序列比对软件bwa(burrows-wheeleralignermulti-visionsoftwarepackage)将上述步骤得到的序列,与人类参考基因组(hg19版本)序列进行比对;
65.上步可选的其他比对软件如soap,bowtie2等,参考基因组版本可选用其他版本。
66.15、样本微单倍体分型:序列比对到某一微单倍体所在基因组位置区间内,视为该微单倍体的目标序列,在该序列的sam格式的比对文件中,通过用python编写的脚本提取该序列在微单倍体内的所有snp的碱基类型,组合即为该序列在该微单倍体的分型;
67.可选的,由于proton平台对测序质量较低,对比对到微单倍型的每条序列进一步过滤,去除snp在序列首尾3个碱基的序列;去除目标snp前后3bp碱基范围含有插入缺失的序列。3可根据实际情况调整。
68.16、统计微单倍体分型及基因型频率:统计每个微单倍体的所有分型类型alle,和对应数目(allenumber,an)与频率(allefrequency,af),其中频率是该等位基因分型的数目an/该微单倍体的所有分型数目。
69.17、分析背景错误:由pcr复制过程的可能出现复制错误,测序是测序错误都会造成分析的背景错误,分析背景错误有助于计算胎儿浓度,同时也能对测序数据做质量控制。背景错误的计算:比对结果通过gatk等基因分型软件callsnp后得到vcf文件,将所有微单倍型的包含的snp去掉后,统计剩下snp中与参考基因组不一致的碱基数,除以该样本的所有比对到微单倍型的碱基数目。统计背景错误是ngs数据分析中常有的质控步骤,本条仅列出其中一种方法,其他算法或软件同样能实现该目的;更优的通过增加umi等方法来实现统计和校准背景错误方法。
70.18、男性样本是否被污染:如果男性样本没被污染,每个微单倍型一般会是纯合或者杂合,考虑pcr时链偏好,杂合位点男性的某个基因型频率也不会低于0.2;纯合位点考虑背景错误,占优势的基因型频率一般不会低于95%.因此,统计所有在0.05-0.2的基因型个数af
杂合
和大于95%的个数af
纯合
,污染指标=af
杂合
/af
纯合
。未污染的男性污染指标会低于
10%,高于则考虑样本被污染,根据数值可定量污染比例。本步骤的具体比值可根据实际平台,层数来定,主要思路就是以男性样本中不在合理频率的基因型来评估样本是否污染,基因型可以是以微单倍型为标记,也可以用snp为标记来分析是否污染。
71.19、计算胎儿浓度:cfdna中snp或者微单倍型频率携带了胎儿浓度信息,参考cn104846089a,计算胎儿浓度,记作ff
snp

72.步骤19可选的,增加覆盖y染色体的探针利用y染色体的比例来计算胎儿浓度记作 ffy;利用软件fetalquant计算胎儿浓度;利用seqff算法计算胎儿浓度;利用cfdna片段长度信息计算胎儿浓度;利用nucleosome track方法计算胎儿浓度;利用甲基化来计算胎儿比例等方法。
73.20、男性微单倍型分型:通常情况下男性基因组dna,如果基因型频率中有一个大于 0.9,则认为微单倍型是纯合;如果基因型频率比值在0.2-0.8之间,则认为杂合子。如果步骤20中污染指标较高,可根据污染比例计算可能的基因型。
74.21、孕妇微单倍型分型:(准确的分型是后续分析亲权关系的前提)通过孕妇外周血中游离dna的数据分析,根据第16步统计出微单倍型每个基因型的频率,过滤可能是背景错误造成的基因型后就可以根据基因型频率来对孕妇和胎儿分型。如果某个微单倍型出现不止一个基因型:基因频率小于该微单倍型最大基因频率一半,且大于背景错误的基因型。结合前面计算的胎儿浓度判断是否保留,并将这个位点记录,统计每个样本这类微单倍型个数,记作样本m
two

75.上步中具体分型方法:对于孕妇游离dna的每个微单倍型,母亲和孩子本身的组合有以下4种情况:基因型集合k:{pppp,pppq,pqqq,pqpq},大写字母表示母亲,小写代表胎儿, p某种基因型,q代表除p外所有基因型。对每个微单倍型,根据步骤14中计算的胎儿浓度,计算出每种母亲和胎儿基因型组合的频率pf,根据步骤11中计算出来的实际的等位基因型频率p
t
,通过极大似然的方法得到每个微单倍型母亲和胎儿分型。
76.对于母亲和胎儿分型方法优选的:不考虑步骤19计算的胎儿浓度,根据经验将胎儿浓度范围设置在(1-20%)间隔0.5%,依次将胎儿浓度设置成1%:已知母亲和胎儿在每个微单倍型的组合k,根据设定的胎儿浓度计算出每种母亲和胎儿基因型组合的频率后p
fk(1:4)
,k 是集合k中的一种,根据实际等位基因型频率将该微单倍型分型成7种中的一种p
fk
,记录该微单倍型的分型,计算出理论和实际频率的差error=|p
fk-p
t
|,统计出所有微单倍型的频率差的和∑error。然后将胎儿浓度依次加0.5%,计算出所有浓度下频率差的和∑error,选取最小的频率差的和对应的胎儿浓度,该浓度下所有微单倍型的分型就是最后分型。
77.步骤21中优选的分型方法:每个微单倍型的等位基因reads数据作为输入,基于贝叶斯算法预测单个微单倍型的母亲和胎儿基因型,模型通过穷举胎儿浓度迭代获得最大化期待。具体的,首先根据某个输入的reads数值模拟出属于每种基因型的概率: p(ai|gi=k,ni,μ
1:7
)~binom(ai|μk,ni)。对每个微单倍型i,gi代表其中基因型i,ni代表所有比对到这个微单倍型的序列数目,ai代表某种基因型支持的序列数目,μk给定的参数。给定的θ=(μ
1:
,π),根据贝叶斯算法,用算出来的概率在算出后验概率yi(k):
其中,πk指基因型k的基因型频率,在筛选位点时已经保存。本方法参考snvmix2(goyar,sunmg,morinrd,etal.snvmix:predictingsinglenucleotidevariantsfromnext-generationsequencingoftumors.bioinformatics.2010;26(6):730-736)其中改变的参数具体如下:
78.genotypeaδexpected reference allele frequencyαkβkppppp3110001pppqp(1-p)21-f/21000-500f500fpqqqp2(1-p)(1+f)/2500
×
(1+f)500
×
(1-f)pqpqp(1-p)0.5500500
79.μk~beta(μk|αk,βk),p设为p等位基因频率或者按照1/snp个数,f为胎儿浓度。本方法同样可用来计算胎儿浓度。
80.22、对孕妇血浆游离dna和男性基因组dna数据分型后,对每个微单本型进行比对,判断与被检男子是否匹配,支持的样本微单倍型属于如下情况中的一种:
[0081][0082][0083]
(p、q、r、s代表微单倍型某个基因型;p、q、r仅一个snp差异;s与p、q、r多个snp有差异。)
[0084]
可选的,对母亲白细胞gdna测序分析,提高母亲分型的准确率。
[0085]
23、对孕妇血浆游离dna和男性基因组dna数据分型后,支持情况,参考亲权鉴定技术规范gb/t 37223-2018计算亲权指数:
[0086][0087][0088]
24、对不支持的位点,考虑胎儿等位基因丢失率d,测序错误率e和snp的突变率u,根据实际情况,等位基因丢失率d》e》u,测序错误e考虑proton平台特性一般为10-3
,u一般为10-8
。由于在不支持中两个基因型差距2个以上snp较常见,在遗传中由于突变导致一个微单倍型同时突变两个snp的概率太低,故认为值测序错误。
[0089]
#分两类,如果是胎儿是和母亲一样,父亲没检出,考虑丢失;如果胎儿基因型和母亲不一样,考虑测序错误。
[0090][0091]
步骤24中可选的:对于测序质量较高的数据,在计算测序错误的公式中加入不支持序列数目作为e的指数。
[0092]
25、根据步骤31和32计算每个微单倍型的亲权指数pi,然后计算所有位点的累积亲权指数cpi=pi1
×
pi2
×
pi3
×
...
×
pin(1、2、3、n代表第1、2、3、n个基因座的pi值)。cpi 的计算方法也是参考亲权鉴定技术规范gb/t 37223-2018。
[0093]
26、判断关系:参考亲权鉴定技术规范gb/t 37223-2018,累积亲权指数小于0.0001 时,支持被检测男子(或被检测女子)不是孩子生物学父亲(或母亲)的假设。,累积亲权指数大于10000时,支持被检测男子(或被检测女子)是孩子生物学父亲(或母亲)的假设。
[0094]
判断关系中可选的:在步骤29中得到每对样本支持和不支持微单倍型的个数的比值f suspect,将孕妇游离dna得到的母亲与胎儿的分型,与其他已知若干个不相干男性进行比对,统计与其他男性支持和不支持的微单倍型个数的比值fno-relation。对f suspect和 fno-relation进行卡方检验,如果p-value值小于0.01,说明疑似父本-胎儿亲权关系和随机陌生人(男性)-胎儿亲权关系的差异非常显著;p-value<0.05,说明差异显著;p-value>0.05,说明差异不显著。这步骤卡方检验可选用其他统计方法,目的是计算出fsuspect与 fno-relation的分布关系。这种方法的优势是在无法获取所有微单倍型基因频率数据时,本方法可以很可靠的判断亲缘关系,且计算简单。
[0095]
可选的:上述步骤只用母亲和胎儿纯合位点。
[0096]
27、辅助生殖中是否弄错卵子的判断:国内不孕不育占已婚人数的10%以上,需要借助辅助生殖的方法来提高生育成功率。由于过程涉及体外受精和胚胎移植等患者不能监督的步骤,增加了对是否弄错精子或者卵子的顾虑。如果能对这类样本进行鉴定,就能改善辅助生殖过程的体验,同时也能作为辅助生殖中心的质控步骤。由于辅助生殖提供样本,送检者需要同时鉴定胎儿和孕妇本人亲缘关系,胎儿和预期供精者的亲缘关系,因此无法直接用上述步骤,用相同的步骤得到疑父gdna和孕妇游离dna微单倍型分型(注计算胎儿浓度方法首选y染色体法,或者微单倍型,不建议选snp。如果选择微单倍型法,对 m
two
应该同时用来计算浓度)。
[0097]
可选的:做孕妇的白细胞dna,对比游离dna,游离dna多出来的就是胎儿的dna。
[0098]
(1)申请人需要在和男性比对前判断卵子是否属于孕妇,如果属于孕妇,胎儿要有个基因型来自母亲,和前面所述方法相同;如果不属于孕妇,则需要改变分析方法。
[0099]
(2)判断卵子是否属于孕妇方法说明:为了更具体的解释分析方法,申请人以一个具体位点来分析,某个微单倍型mh14cp003,基因型及人群频率如下表,为了简化后续计算,申请人用p,q,r,z代表具体基因型(其他多基因型也可以这么简化,用z代替除基因型频率前三的后面所有基因型),并将基因型频率近似成1/4。
[0100]
mh14cp003基因型人群频率频率替换pgcg0.30.25qctg0.240.25tccg0.005rcta0.250.25sgtg0.19z=t+sccg/gtg0.1950.25
[0101]
那么一个人在这个微单倍型的表型如下表:其中纯合有pp/qq/rr/zz,四种基因型。
[0102]
基因型频率pp0.0625pq0.125pr0.125pz0.125qq0.0625qr0.125qz0.125rr0.0625rz0.125zz0.0625
[0103]
如果胎儿属于母亲和胎儿不属于母亲,在母亲纯合pp情况下,孩子的基因型和最终外周血中。
[0104]
数据如下表:
[0105][0106][0107]
通过上面两个表可知,在母亲纯合前提下,胎儿杂合位点在胎儿是否属于孕妇会出现很差异,理论上比例增加了5倍,还有在胎儿不属于孕妇时会出现2种母亲没有的基因型,这也可以作为鉴别。可选的母亲杂合时同样可算出差异。
[0108]
(3)判断卵子是否属于孕妇具体实施1:在得到孕妇外周血游离dna分型数据后,统计出胎儿杂合/母亲纯合基因型的微单倍体数目,胎儿纯合/母亲纯合基因型的微单倍体数目,将前者除以后者,得到比例p
杂/纯
。提前根据已知的样本得到胎儿属于孕妇,即正常怀孕的样本集p
杂/纯
,将未知样本与该数据集做卡方验证,如果小于0.001,则说明胎儿不属于孕妇。
[0109]
优选的:将p
杂/纯
与胎儿浓度拟合,可以发现胎儿浓度与该比例正相关,故通过胎儿浓度校准后再做卡方验证可以校准浓度影响。
[0110]
可选的:通过正常怀孕的样本集p
杂/纯
设定阈值,如果p
杂/纯
超过设定值则认为胎儿不属于孕妇本人。
[0111]
(4)判断卵子是否属于孕妇具体实施2:正常怀孕的单胎或者同卵双胎中,由于胎儿有一个等位基因来自母亲,所以不会出现胎儿有两个基因型与母亲不一致,只要申请人分析结果中发现胎儿出现两个与母亲不一致的基因型就认为是胎儿不属于孕妇本人。本方法需要注意与异卵双胎区分,下面详述。
[0112]
28、双胎是否同卵的判断:同样采用前述步骤中的基因型数据,如果送检样本为双胞胎,且为双绒毛膜双羊毛膜时,无法区分时同卵双胎还是异卵双胎。鉴于异卵双胎中有概率出现异父同期复孕的现象会导致亲子鉴定结果出现误差,还有上述步骤方法2也会收到异卵双胎影响,很多父母在发现时双胞胎时也会很好奇两个小孩是否会长得一样,鉴于这些原因,申请人也整理了判断双胞胎是否同卵的方法,首先分析同卵双胎和异卵双胎游离 dna中基因型的表现:
[0113]
同卵双胎,由于双胎来自同一个受精卵,其在外周血中基因型与单胎一致:
[0114][0115]
异卵双胎:
[0116][0117]
通过上面两个比较,申请人发现区分同卵还是异卵双胎最佳的方案是分析胎儿出现两个与母亲不一致基因型的比例。理论上同卵双胎不会出现,鉴于背景错误可能导致,但会远低于异卵双胎双胎,因此可以作为区分的方法。
[0118]
29、辅助生殖中是否弄错精子的判断:在前述步骤确定胎儿是否属于孕妇后,申请人按不同情况鉴定:如果胎儿属于孕妇,申请人按步骤22-28来鉴定亲权关系;如果胎儿不属于孕妇,需要鉴定供精者是否胎儿生物学父亲,或者找到供卵者,就需要调整方法。对于胎儿不属于孕妇的送检者,分析最大的区别是,如果母亲pp,胎儿分型是pq,申请人无法区分p是否来自母亲,从而无法根据疑父是否有q来判断。但对于母亲是pp,胎儿是pp,这种情况,推测疑父在这个微单倍型一定有p;同样的如果母亲是pp,胎儿是pq或者qr,那生物学父亲也应当至少包含这二者中的一种基因型。总结来说,在确定胎儿不属于孕妇后,很多基因
型贡献的亲权系数降低,类似传统亲子鉴定中的二联体,参考亲权鉴定技术规范gb/t 37223-2018计算亲权指数的方式。
[0119]
实施例
[0120]
1、筛选位点:本实施例基于ionproton平台,考虑proton平台的特性,根据筛选出来的微单倍型(具体步骤参见前述内容),选取长度小于160bp,微单倍型内部序列在snp附近没有连续重复碱基,共295个基因座。
[0121]
2、探针合成:将每个微单倍型的位置信息整理成bed文件格式提交给纳昂达(南京)生物科技有限公司,由纳昂达公司设计并合成。
[0122]
具体实施案例:
[0123]
选取一下样本按实施例进行实验分析:
[0124]
样本编号样本名称样本类型孕周其他1pt31360ha外周血/模拟供卵2pt31360hb外周血/模拟供精3pt31360w外周血/未怀孕女性数据4pt31693hb指甲//5pt31693w白细胞6/6pt31693w外周血6异卵双胎7pt33097h外周血//8pt33097w外周血6/9pt33202h毛发//10pt33202w外周血10/
[0125]
样本名称中相同数值代表一对样本,h:代表男性,w:代表女性。其中31360w是未怀孕女性。
[0126]
经过实验后通过高通量测序得到fastq文件并进行基本分析:
[0127][0128]
[0129]
初步分析胎儿浓度,男性样本污染情况
[0130]
样本编号样本名称样本类型孕周ff-snp男性污染1pt31360ha外周血//7%2pt31360hb外周血//6%3pt31360w外周血/12%(混合浓度) 4pt31693hb指甲//9%5pt31693w白细胞/ /6pt31693w外周血86%/7pt33097h外周血//10%8pt33097w外周血63%/9pt33202h毛发//9%10pt33202w外周血107%/
[0131]
将男女分别分型后,按照相同微单倍型一一对应,整理成如下格式,通过对每一个位点按照步骤23分析得到pi值,也可以给每个位点按照步骤22分类。word表格不好排版,放了截图。这里选了一些代表性的点。
[0132]
[0133][0134]
[0135][0136][0137]
判断亲缘关系:
[0138]
方法1:计算cpi,cpi计算由样本本身基因型决定,在做产前鉴定时还收到胎儿浓
度及层数影响。
[0139]
样本cpipt33202w-pt33202h3.17*e77pt33202w-pt33097h5.3*e-55pt33097w-pt33097h2.3*e31pt31693w-pt31693h1.7*e74
[0140]
方法2:
[0141]
由于有较多的mh来分析,我们统计出现胎儿与母亲不一致基因型的微单倍型,用这部分mh与疑父分析是否匹配,统计匹配微单倍型与不匹配微单倍型的比例就能判断,如步骤26所述。
[0142][0143][0144]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:
1.一种筛选位点的方法,其特征在于,所述方法包括如下步骤;(1)预过滤;(2)鉴定微单倍型;(3)统计微单倍型群体遗传学参数;(4)hardy-weinberg平衡检验。2.根据权利要求1所述的筛选位点的方法,其特征在于,在步骤(1)中:千人基因组项目中某个人群或者全部种族的vcf文件包含所有突变数据,选出群体中等位基因频率最小等位基因频率大于0.01;snp位于常染色体,snp包括微小插入缺失。3.根据权利要求2所述的筛选位点的方法,其特征在于,可选的,在步骤(1)中,根据测序平台过滤掉插入缺失indel。4.根据权利要求1所述的筛选位点的方法,其特征在于,在步骤(2)中:所有预过滤后的snp按照位置排序后,第一个snp定为“起始snp”,依次和后面组合,满足和“起始snp”间隔350bp以内就组合成微单倍型,以“起始snp”和snp个数为唯一标记;如果snp和“起始snp”超过350bp,就将原“起始snp”下一个snp标记为“起始snp”,进行上述组合,依次对每个snp进行鉴定;对某个“起始snp”的微单倍型可能组合超过2个snp,选包含snp最多的为完整集,其他为子集,去掉子集;可能相邻的微单倍型“起始snp”间间隔小于350,即微单倍型间部分重合,先保留。5.根据权利要求4所述的筛选位点的方法,其特征在于,在步骤(2)中,350bp根据选取试剂及实验条件调整,如产前亲子鉴定中由于cf-dna片段较短,选取70-150bp间更加合适。6.根据权利要求1所述的筛选位点的方法,其特征在于,在步骤(3)中:对上述找出的微单倍型,每个snp的信息都能在(1)的vcf文件中找到,统计出每个微单倍型的有效等位基因数(ae)和informativeness(in)和等位基因频率(p),某遗传标记的ae值为n,则表示该遗传标记等价于包含n个频率相等的等位基因,即每个等位基因的频率均为1/n。7.根据权利要求6所述的筛选位点的方法,其特征在于,ae值的计算公式为:1/∑pi2,其中pi表示某基因座上等位基因i的频率,对(2)中重叠的微单倍型,通过ae/n
snp
值大的保留。8.根据权利要求1所述的筛选位点的方法,其特征在于,在步骤(4)中:对筛选的微单倍型,采用皮尔森卡方检验对微单倍型的基因型分布频率进行哈迪-温伯格平衡检验,标记出不符合的微单倍型组合,根据后续应用选择。9.根据权利要求8所述的筛选位点的方法,其特征在于,这步骤做完有几百万个微单倍型,根据长度,ae,染色体和鉴定需求选取。10.根据权利要求9所述的筛选位点的方法,其特征在于,在步骤(4)中,根据其他研究经验,选择两个微单倍型间隔10kb以上。11.一种用微单倍型判定无创产前亲权关系的方法,其特征在于,所述判定无创产前亲权关系的方法包括权利要求1-10中任一项所述的筛选位点的方法。12.根据权利要求11所述的判定无创产前亲权关系的方法,其特征在于,所述方法包括对测序背景噪音的校准,其中,通过下述计算背景错误:比对结果通过gatk等基因分型软件call snp后得到vcf文件,将所有微单倍型的包含的snp去掉后,统计剩下snp中与参考基因
组不一致的碱基数,除以该样本的所有比对到微单倍型的碱基数目。也可通过增加umi等方法来实现统计和校准背景错误方法。13.根据权利要求11所述的判定无创产前亲权关系的方法,其特征在于,所述方法包括胎儿浓度的计算:增加覆盖y染色体的探针利用y染色体的比例来计算胎儿浓度记作ff
y
;利用软件fetalquant计算胎儿浓度;利用seqff算法计算胎儿浓度;利用cfdna片段长度信息计算胎儿浓度;利用nucleosome track方法计算胎儿浓度;利用甲基化比例来计算胎儿浓度等方法。14.根据权利要求11所述的判定无创产前亲权关系的方法,其特征在于,所述方法包括样本污染情况的分析方法:以男性样本中不在合理频率的基因型来评估样本是否污染(排除实验问题导致前提下),基因型可以是以微单倍型为标记,也可以用snp为标记来分析是否污染。15.根据权利要求11所述的判定无创产前亲权关系的方法,其特征在于,所述方法包括鉴定方法,其利用累计亲权指数或者t-test,p值来判断亲缘关系。16.根据权利要求11-15中任一项所述的判定无创产前亲权关系的方法用于对单胎、双胎、异卵双胎、辅助生殖中胎儿是否弄错精卵等情况进行分析。

技术总结
本发明提供了一种用微单倍型判定无创产前亲权关系的方法,具体地,本发明利用了一种筛选位点的方法,该方法包括预过滤、鉴定微单倍型、统计微单倍型群体遗传学参数、Hardy-Weinberg平衡检验。本发明方法对比穿刺取样的方法具有鉴定过程没有创伤,取样和邮寄样本方便;对比现有利用SNP的方法,本发明方法由于采用微单倍型这种标记物,减少了位点需要也就降低了成本;而且微单倍型具有多等位基因的优势,对复杂混合样本,比如异卵双胎等的鉴定具有鉴定能力,弥补了SNP的不足。本发明对鉴定过程给出了具体可行的方案,设立了完善的质控,针对现实中可能出现的各种问题提供了解决的方案。方案。


技术研发人员:陈洪亮 李依寒 郑海灵 祝兴强 徐欢 肖月 郭萍 何芝 吴书凌 吴梦婷
受保护的技术使用者:厦门万基生物科技有限公司
技术研发日:2022.06.24
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-3331.html

最新回复(0)