本发明涉及肿瘤筛查,具体为适用于8种常见恶性肿瘤生物标志物、检测试剂或试剂盒及其应用。
背景技术:
1、癌症,作为一个普遍存在的全球性健康问题,是全球死亡的主要原因之一。预计到2040年,全球癌症病例将激增至约2800万例,突显了癌症预防、诊断和治疗领域迫切需要全面策略的紧迫性。流行病学研究表明,早期诊断癌症的患者表现出比晚期诊断者更优越的临床结果。因此,有迫切的需求进行早期筛查和诊断,推动临床科学家不断探索可靠的癌症生物标志物领域。尽管科学界取得了进展,但目前的癌症诊断格局仍然严重依赖于实验室测试和影像技术的组合。这种双管齐下的方法虽然提供了有价值的见解,但不仅给患者带来了经济负担,而且无法取代病理检查在诊断模式中的不可替代作用。
2、细胞外囊泡,包括外泌体,可以作为液体活检的替代或补充,以增强诊断性能。从机理上讲,活跃的细胞不断释放外泌体,其中包含dna、rna和蛋白质成分,从而提供临床相关的诊断信息。最近的研究越来越多地利用全面的转录组学方法,如rna测序(rna-seq),研究外泌体中rna在生理和病理过程中的含量,如在各种样本中观察到的脑脊液、血浆和尿液。在肿瘤诊断领域,已有多项研究成功利用这些技术取得了良好的成果,为癌症诊断和治疗带来了新的可能性。
3、有鉴于此,特提出本发明。
技术实现思路
1、(一)解决的技术问题
2、针对现有技术的不足,本发明提供了适用于8种常见恶性肿瘤风险预测的标志物及检测方法,解决了目前缺乏可靠的泛癌生物标志物和个体癌症的相应标记的问题。此外,目前缺乏用于评估所选生物标志物分类效力的系统算法和验证模型。因此,本发明提出了一种基于泛癌血液外泌体中筛选的12个rna特征分子(exosomal tumor rna signatures,etr.sig)的方法,包括:alb,fcer1g,krt18,lcn2,ppdpf,slc9a3r2,ago2,cks2,malat1,rab32,s100a9和ube2q2基因,构建了一种泛癌分类模型。该模型为人群肿瘤的快速筛查提供了全新的解决方案。
3、(二)技术方案
4、为实现以上目的,本发明通过以下技术方案予以实现:适用于8种常见恶性肿瘤风险预测的标志物,该标志物为基于血液外泌体taqman qpcr技术以及12个筛选所得的rna特征分子etr.sig,其可作为早期泛癌症检测的非侵入性生物标志物。
5、本发明还提供了适用于8种常见恶性肿瘤风险预测的标志物的检测方法,具体包括以下步骤:
6、s1、基于rna测序筛选泛癌血液外泌体中的rna特征分子;
7、s2、基于taqman qpcr筛选泛癌血液外泌体中的rna特征分子;
8、s3、基于taqman qpcr筛选的特征分子构建泛癌分类模型。
9、优选的,所述步骤s1中基于rna测序筛选泛癌血液外泌体中的rna特征分子具体包括以下步骤:
10、a1、构建一个数据集,包括来自exorbase数据库和818个血液外泌体rna测序数据概要,涵盖了八种不同的癌症类型。具体来说,该数据集包括总共194个健康对照样本,及exorbase=118,cnp0005119=31,cnp0002099=28,cnp0000926=17,确保了在各种癌症类型中的全面和多样化的代表性;
11、a2、原始fastq数据的质量控制使用trim-galore的比对,排序使用samtools进行,并使用featurecounts进行最终基因表达量的定量;
12、a3、在血液外泌体rna-seq数据中,差异表达基因degs的识别是根据|log2fc|>1和p值<0.05的标准进行的,随后使用deseq2、limma和edger软件包,应用p值<0.05和|log2fc|>1的阈值,在tcga中的全基因组rna-seq队列中确定degs,使用ggplot2通过柱状图可视化差异表达分析结果,并使用小提琴图可视化根据taqman qpcr数据的基因表达差异;
13、a4、利用upsetr软件包对各种肿瘤中血液外泌体exorna-seq数据中的degs进行交集分析和可视化,为了确定适用于泛癌分类的基因集,整合了癌exorna-seq数据,并对肿瘤与对照组织进行差异表达分析,筛选p值<0.01且折叠变化(fc)≥1.4或≤-1.6的degs,随后采用单因素逻辑回归分析来筛选构建分类模型的基因,保留具有p值<0.05的基因此外采用lasso分析,并进行了1000次重复的10倍交叉验证cvs,以精炼特征基因集的选择;
14、a5、采用机器学习技术从lasso分析中选择得到的最佳基因集,采用分层随机抽样方法将exorna-seq队列划分为7:3的训练集和验证集,训练集用于构建随机森林rf分类模型,验证集用于评估分类性能,通过计算受试者工作特征曲线roc的曲线下面积auc值来评估模型的有效性,最后通过比较验证集中模型的auc值,确定最佳基因集。
15、优选的,所述步骤a1中exorbase提供了乳腺癌(brca,n=140)、结直肠癌(coad,n=35)、肝细胞癌(lihc,n=112)、卵巢癌(ov,n=30)和胰腺腺癌(paad,n=164)患者的样本,此外,研究中cngbdb下的访问号为cnp0005119、cnp0002099和cnp0000926的肺腺癌(luad,n=83)、肾透明细胞癌(kirc,n=29)和前列腺腺癌(prad,n=31)的exorna-seq数据。
16、优选的,整个过程使用tidymodels和procr软件包实现。
17、优选的,所述步骤s2中基于taqman qpcr筛选泛癌血液外泌体中的rna特征分子具体包括以下步骤:
18、b1、实验参与者选择:患者的纳入标准如下:(1)年龄>18岁;(2)明确的病理诊断;(3)血液采集前未接受抗癌治疗;(4)无其他癌症病史;(6)签署知情同意书。健康对照组的纳入标准如下:(1)年龄>18岁;(2)进行了健康检查,被视为无症状和健康。排除标准如下:(1)之前被诊断患有肿瘤;(2)接受过消融治疗;(3)患有其他恶性肿瘤。
19、b2、样品采集和处理:患者于入院第一天签署知情同意书,并于第二天早晨进行空腹外周血采集。样本存放在4℃,并在冰上运送到实验室。血样在室温下凝固至少30分钟,最多2小时。然后,所有样本均以1600×g离心15分钟,将血清分离,上清液收集在1.5ml离心管中并编号。血清样本立即在-80℃冷冻保存,直至进一步处理。
20、b3、血液来源的外泌体的分离和rna提取:血液来源的外泌体经过分离,并使用exorneasy midi/maxi kit提取rna。具体步骤如下:将buffer xbp以1:1的比例加入样品中。通过倒置混匀5次,确保彻底混合。然后将混合物加入exoeasy旋转柱中,并在500×g离心1分钟。(注意:如果膜上有残余液体,则进一步在5000×g离心1分钟,以确保所有液体通过膜完全通过。)接着,加入3.5毫升的bufferxwp,并在5000×g下离心1分钟,以洗涤柱子并去除残留缓冲液。将滤液和底部收集管丢弃,并将旋转柱转移到新的收集管中。然后,在柱膜中加入700微升的qiazol,并在5000×g下离心5分钟,收集裂解液,然后完全转移到2毫升管中。管中的裂解液轻轻混合,并在室温(15-25℃)下孵育5分钟。然后,加入90微升氯仿,紧密盖上管盖,vigorously混合15秒。在室温下孵育2-3分钟。然后将管子放入预冷冻离心机中,在4℃下12000×g离心15分钟。将上清液转移到新的2.0毫升管中(注意避免吸取有机相)。加入等体积的乙醇,并反复倒置几次。然后,在2毫升收集管中的rneasy minelute旋转柱中加入700微升混合物,并孵育2分钟,然后盖上管盖。在室温下以12000×g离心1分钟,然后丢弃滤液。重复此步骤直到使用完所有混合物。然后,向rneasy minelute旋转柱中加入700微升buffer rwt,盖上管盖,在室温下以12000×g离心1分钟,然后丢弃滤液。向rneasyminelute旋转柱中加入500微升buffer rpe,盖上管盖,在室温下以12000×g离心1分钟,然后丢弃滤液。向rneasy minelute旋转柱中加入500微升buffer rpe,盖上管盖,在室温下以12000×g离心2分钟,然后丢弃滤液。将rneasy minelute旋转柱放入新的2.0毫升收集管中,在室温下以12000×g离心5分钟,然后丢弃滤液和底部2.0毫升收集管。将rneasyminelute旋转柱放入新的1.5毫升管中,并向硅膜中心加入14微升预加热的rnase-free水。盖上管盖,在室温下以12000×g离心1分钟。丢弃rneasy minelute旋转柱,并将纯化后的rna溶液收集在1.5毫升管中。采用透射电子显微镜(tem)、纳米粒子跟踪分析(nta)和蛋白印迹(wb)技术进行鉴定分离的外泌体。
21、b4、血液来源的外泌体rna的逆转录:使用takara rr047a套件通过两步逆转录过程生成cdna,其中包括gdna消化和cdna链合成。每个步骤的反应组分和程序如下。第一步:gdna消化。在一个13μl的反应混合物中,加入2.0μl的5×gdnaeraser缓冲液,1.0μl的gdnaeraser,和10μl的总rna轻轻混合。在pcr仪器中进行反应,程序设置为42℃,持续2分钟,然后保持在4℃。第二步:进行逆转录。在一个20μl的反应混合物中,加入来自第一步反应混合物的13.0μl,1.0μl的primescript rt enzyme mix i,1.0μl的rt primer mix,4.0μl的5×primescript buffer 2(用于实时),和1.0μl的rnase-free dh2o轻轻混合。在pcr仪器中进行反应,程序设置为37℃,持续15分钟,然后在85℃孵育5秒,最后保持在4℃。
22、b5、引物设计和检测靶标的合成:使用ensembl数据库检索目标基因序列,利用ncbi引物设计工具网站(https://www.ncbi.nlm.nih.gov/tools/primer-blast/index.cgi?link_loc=blasthome)设计qpcr引物。引物设计标准包括熔解温度(tm)在55-65℃范围内,gc含量在40%-60%范围内,最小的错配数和良好的特异性。
23、b6、引物验证:从癌症/肿瘤邻近组织或细胞系提取rna,并逆转录成cdna模板。还准备了待验证样本的外泌体rna,并逆转录成cdna。分析每对引物的熔解温度(tm)值,并设置3-4个梯度退火温度值。将癌症/肿瘤邻近组织或细胞系的cdna作为模板,使用稀释的引物作为扩增引物,在不同的梯度退火温度下(35个循环)进行pcr扩增,使用tb green ii酶。pcr程序如下:95℃预变性30秒;95℃变性5秒;58℃或59℃或60℃退火30秒;72℃延伸15秒;72℃最后延伸5分钟。反应混合物包括2μl cdna,5μl 2×tb green,0.4μm/0.4μm引物f/r(10μm),和2.2μl ddh2o。将pcr产物与dna加载缓冲液混合,并通过1.5%琼脂糖凝胶电泳验证其大小,以确认预期的扩增产物大小和引物特异性,并确定最佳的退火温度。选择具有单个扩增产物和预期片段大小的引物。将癌症/肿瘤邻近组织或细胞系cdna作为模板,将血液来源的外泌体cdna作为模板,使用基于tbpremix ex taqtm染料的qpcr确定引物的熔解曲线。pcr程序如下:95℃预变性30秒;95℃变性5秒;选择的最佳退火温度退火34秒;将温度升高至95℃15秒,选定的最佳退火温度退火1分钟;将温度升高至95℃15秒。选择具有正常熔解曲线的引物作为候选引物。反应体系包括2μl cdna,5μl 2×tb green,0.4μm/0.4μm引物f/r(10μm),0.2μl rox参考染料ii(50x),和2.2μl ddh2o。
24、b7、探针设计与验证:基于参考引物设计预测产物序列时,引物位置靠近引物末端,且不与引物重叠,确保taqman探针具有合适的tm值和gc含量,同时遵循设计原则。使用dnaman检测设计的探针和引物的错配。在组合检测中,注意两对引物和两个探针之间的错配,并避免严重的错配。基于染料基qpcr实验的结果,将ct值相似的基因分组,修改不相互干扰的荧光组,并合成探针。离心taqman探针后,样品溶于depc水中,并制备100μm的储存溶液。使用以下系统(参考系统-以50μl探针和引物为例):1.每个孔中一个基因:50μl探针和引物,45μl depc水,2μl f引物,2μl r引物和1μl探针;2.每个孔中两个基因(50μl探针和引物,40μl depc水,4μl f引物,4μl r引物,2μl探针),以准备引物-探针混合物。将癌症邻近组织cdna作为模板,使用abi taqpathtmproamptmmastermix和引物-探针混合物进行qpcr扩增验证。反应系统和程序如下:反应系统(2×taqpath5μl,cdna 2μl,单基因引物-探针混合物2.5μl/双基因引物-探针混合物3μl,用h2o补至10μl),反应程序(50℃5分钟;95℃5分钟;10个循环:95℃15秒,60℃(根据退火温度变化)1分钟;95℃5分钟;40个循环:95℃15秒,60℃(根据退火温度变化)1分钟)。根据以下标准,确定探针是否适用于后续检测:单一检测中每个重复孔中的稳定扩增;组合前后ct值变化不大于0.5;在阴性对照中,单独和组合检测的扩增效率与阳性检测孔相比没有扩增或明显较低。符合标准的探针用于后续样本检测。
25、b8、样品检测:通过taqman探针法进行多重qpcr检测。引物-探针混合物和反应系统的制备,以及反应程序同b5。检测后,记录样品的ct值。使用标准曲线法计算样品中目标基因的拷贝数。具体步骤如下:为每个基因准备合成标准物,并进行104、105、106、107、108和109倍稀释。使用稀释后的标准物作为模板,使用验证的引物和探针进行扩增,并记录ct值。通过绘制标准物的拷贝数与相应ct值的曲线建立标准曲线,并导出方程,使用样品检测中获得的ct值通过标准曲线方程计算每个样品的拷贝数。
26、优选的,所述步骤s3中基于taqman qpcr筛选的特征分子构建泛癌分类模型具体包括以下步骤:
27、c1、采用分层随机抽样方法将血液来源的外泌体taqman qpcr数据分为训练集和验证集(8:2),使用r基础包中的"log2"和"scale"函数进行数据归一化,通过sva包中的"combat"函数实现批次效应的去除,利用caret包采用九种机器学习算法进行处理,利用etr.sig训练泛癌分类模型,并进行10折cv的超参数调整以优化模型性能,为确保稳健性,优化过程对于每个重采样使用不同的随机种子重复10次;
28、c2、利用五种机器学习算法以构建八种肿瘤的分类模型,样本分组和参数调整方法与上述二进制变量方法一致;
29、c3、在训练集上训练泛癌肿瘤二分类和多类别分类模型,然后将这些模型应用于验证队列,并系统比较各模型的分类效果,表现优异的模型被选为最终的泛癌分类模型;
30、c4、为了优化针对单个肿瘤类型与健康对照分类的基因特征,将每种肿瘤类型迭代地提交给单因子逻辑回归和lasso分析,然后利用机器学习方法将显示最有前景结果的基因特征用于个别构建八类血源外泌体taqman qpcr数据的肿瘤分类模型,对于每种具体的肿瘤类型,彻底评估这些模型的分类效果,使用proc包和ggplot2绘制roc曲线,全面展示模型的分类性能。
31、优选的,所述步骤c1中九种机器学习算法包括支持向量机svmradialweights算法、支持向量机svmradial算法,朴素贝叶斯nb算法,随机森林rf算法,k最近邻knn算法,adaboost分类树算法,boosted逻辑回归算法,线性lasso ridge算法和梯度提升机gbm算法。
32、优选的,所述步骤c2中五种机器学习算法包括多层感知器mlp算法,线性核支持向量机svmlinear算法,随机森林rf算法,k最近邻knn算法,分类和回归树rpart算法。
33、为实现本发明的上述目的,特采用以下技术方案:
34、一种用于8种常见恶性肿瘤的分类标志物,该标志物为血液外泌体中包含的rna。
35、在一些具体的实施方式中,所述分类包括区分8种常见恶性肿瘤受试者与其他受试者。
36、在一些具体的实施方式中,所述其他受试者包括年龄大于18岁,且在健康检查中被视为无症状和健康者。
37、在一些具体的实施方式中,所述外泌体复合物从血液、血清或血浆中获取,优选从血清中获取。
38、本发明还涉及前述标志物的检测试剂在制备8种常见恶性肿瘤检测试剂或试剂盒中的应用。
39、在一些具体的实施方式中,所述检测试剂包括外泌体提取试剂和血液外泌体rna检测试剂。
40、在一些具体的实施方式中,所述血液外泌体rna的检测试剂包括用于pcr的上、下游引物和检测探针。
41、本发明还涉及前述应用制备而成的检测试剂或试剂盒。
42、本发明还涉及:一种用于8种常见恶性肿瘤的分类系统,所述系统包括受试者信息获取模块和分类模块,其中:
43、所述受试者信息获取模块用于获取前述标志物的检测信息;
44、所述分类模块用于根据所述标志物的检测信息区分受试者是否患有8种常见恶性肿瘤之一。
45、在一些具体的实施方式中,如果标志物的检测信息超过阈值,则判定受试者罹患8种常见恶性肿瘤,否则判定受试者未罹患8种常见恶性肿瘤。
46、在一些具体的实施方式中,系统还包括检测模块和/或显示模块。
47、在一些具体的实施方式中,检测模块用于检测前述标志物,优选地,检测模块使用前述检测试剂或试剂盒进行检测。
48、在一些具体的实施方式中,显示模块用于展示分类结果,优选地,通过显示器、打印或播报的方式展示分类结果。
49、有益效果
50、本发明提供了适用于8种常见恶性肿瘤生物标志物、检测试剂或试剂盒及其应用。与现有技术相比具备以下有益效果:该适用于8种常见恶性肿瘤风险预测的标志物及检测试剂盒,基于血液外泌体taqman qpcr技术以及12个筛选所得的rna特征分子(etr.sig)构建了泛癌分类以及特定肿瘤分类模型,该模型识别的特异性和准确率高(见图4)。突出了etr.sig在检测和定位多种人类癌症方面的价值,etr.sig可作为早期泛癌症检测的非侵入性生物标志物。
1.一种8种常见恶性肿瘤生物标志物,其特征在于,该标志物为基于rna测序以及taqman qpcr检测血液中的外泌体筛选所得的12个rna特征分子etr.sig,包括:alb,fcer1g,krt18,lcn2,ppdpf,slc9a3r2,ago2,cks2,malat1,rab32,s100a9和ube2q2基因。其可作为早期泛癌症检测的非侵入性生物标志物。
2.根据权利要求1所述的8种常见恶性肿瘤生物标志物,其特征在于,具体包括以下步骤:
3.根据权利要求2所述的适用于8种常见恶性肿瘤风险预测的标志物的检测方法,其特征在于:所述步骤s1中基于rna测序筛选泛癌血液外泌体中的rna特征分子具体包括以下步骤:
4.根据权利要求3所述的适用于8种常见恶性肿瘤风险预测的标志物的检测方法,其特征在于:所述步骤a1中exorbase提供了乳腺癌(brca,n=140)、结直肠癌(coad,n=35)、肝细胞癌(lihc,n=112)、卵巢癌(ov,n=30)和胰腺腺癌(paad,n=164)患者的样本,此外,研究中cngbdb下的访问号为cnp0005119、cnp0002099和cnp0000926的肺腺癌(luad,n=83)、肾透明细胞癌(kirc,n=29)和前列腺腺癌(prad,n=31)的exorna-seq数据。
5.根据权利要求3所述的适用于8种常见恶性肿瘤风险预测的标志物的筛选方法,其特征在于:整个过程使用tidymodels和procr软件包实现。
6.根据权利要求2所述的适用于8种常见恶性肿瘤风险预测的标志物的检测方法,其特征在于:所述步骤s2中基于taqman qpcr筛选泛癌血液外泌体中的rna特征分子具体包括以下步骤:
7.根据权利要求2所述的适用于8种常见恶性肿瘤风险预测的标志物的检测方法,其特征在于:所述步骤s3中基于taqman qpcr筛选的特征分子构建泛癌分类模型具体包括以下步骤:
8.根据权利要求7所述的适用于8种常见恶性肿瘤风险预测的标志物的检测方法,其特征在于:所述步骤c1中九种机器学习算法包括支持向量机svmradialweights算法、支持向量机svmradial算法,朴素贝叶斯nb算法,随机森林rf算法,k最近邻knn算法,adaboost分类树算法,boosted逻辑回归算法,线性lasso ridge算法和梯度提升机gbm算法。
9.根据权利要求7所述的适用于8种常见恶性肿瘤风险预测的标志物的检测方法,其特征在于:所述步骤c2中五种机器学习算法包括多层感知器mlp算法,线性核支持向量机svmlinear算法,随机森林rf算法,k最近邻knn算法,分类和回归树rpart算法。