1.本发明涉及质谱峰数据注释技术领域,具体是涉及一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法。
背景技术:2.基于高效液相色谱-高分辨率质谱的非靶向筛查技术为未知物质的识别提供了有力工具。物质通过色谱分离后经过离子源带电后进入质谱。电离后,单个化合物会产生一种或多种离子,包括同位素离子、源内裂解离子、不同的加和物和多聚体。在mahieu and patti(2017)的大肠杆菌的代谢组学研究中,通过冗余峰去除将12797个特征减少到7318种,这些特征均来自于相同分析物的不同特征。如果对这些冗余特征进行一一识别,不仅为物质的鉴别工作增加了额外的工作量,而且可能造成样本数据的错误的解释,例如可能把源内裂解碎片错误地认为是由于生物学或者化学转化而不是电离过程导致的。
3.不少研究基于色谱峰形相似性、共流出、共表达这三个特征模式对相关的特征进行分组,结合精确质量数进行进一步注释以达到数据清洗的效果。其中,共流出表示色谱峰的出峰时间相似,共表达表示不同样本中丰度变化相似。camera是使用最广泛的用于注释冗余信号的软件平台之一,利用共流出原理,首先创建相近保留时间的复合光谱,然后基于丰度相似性、同位素关系和峰形相似性,最后基于图的算法对相关特征进行模块划分以注释未知物的同位素模式和加和物峰。xmsannotator r语言包利用共表达和共流出特点,通过网络模块分析进行代谢物的聚类和注释;其他平台如:binner、cliquems、mz.unity、mwise等均是基于这些特征模式进行冗余峰的注释。然而,单一特征模式不足以区分同一物质的不同质谱特征,可能会产生较高的假阳性率。例如,虽然共流出是同一物质的冗余数据的特点之一,但是物质的共流出在色谱-高分辨率质谱体系中非常常见。以污水厂的样本为例,一个样本中可能包含数万个峰,色谱数十分钟的梯度不能将这些污染物一一分离,不少物质保留时间相近,存在共洗脱现象。二级质谱碎片特征能够反映物质的结构信息,在一定程度上结构相似的物质的二级质谱图也相似,因此二级质谱图信息在物质鉴别过程中被认为具有较高的可信度。isfrag在camera的基础上进行了改进,加入二级质谱碎片信息以注释源内裂解。目前,并无文献和专利利用共表达、共流出和二级质谱相似性结合以同时注释源内裂解、加和物、同位素和多聚体等多种冗余特征,而这些特征模式是判别质谱数据中冗余数据过程中最重要的三个原则。
技术实现要素:4.本发明的目的在于解决非靶向物质识别过程中冗余数据较多、为后续物质结构鉴别带来了较大的工作量、甚至可能导致错误的样本解释的困难。
5.为解决上述问题,本发明的技术方案如下:
6.一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,利用同一物质的各个质谱特征在各个样本中具有共表达、共流出、二级质谱图相似的特点,利用加和物、多聚
体、同位素、源内裂解碎片的质量差,对质谱峰进行精准识别注释,具体包括以下步骤:
7.s1、基于丰度对各个样本中的所有质谱特征进行聚类,并通过丰度相似性网络分析进行特征模块划分,确定在各个样本中共表达的质谱特征;
8.s2、基于保留时间对各个样本中的所有质谱特征进行聚类,确定检测共流出的模块,即保留时间相近的质谱特征模块;
9.s3、通过二级质谱图相似性对丰度相似性网络和保留时间分别在同一特征模块中的质谱特征进行过滤,确定具有相似结构的质谱特征;
10.s4、将满足步骤s1、步骤s2、步骤s3的成对的质谱特征的精确质量数作差,利用加和物、源内裂解碎片、同位素模式的质量差特点对同一物质的各个质谱特征进行定位和注释。
11.其中,各个样本的所有质谱特征获取方法包括以下内容:对各个样本的质谱数据进行峰提取、峰解卷积、峰对齐后,获得特征峰基本信息,特征峰基本信息包括:精确质量数、保留时间、一级质谱图、二级质谱图和同一特征峰在不同样本中的丰度。
12.进一步地,样本为代谢组或者环境样本,例如尿液、血液、污水、地表水样本等。
13.进一步地,各个质谱特征为峰提取、峰解卷积、峰对齐操作后的结果,峰提取、峰解卷积和峰对齐等操作可通过软件msdial完成。
14.进一步地,步骤s1中相似性网络分析基于r语言包xmsannotator实现。
15.更进一步地,步骤s1中,丰度相似性网络分析通过加权基因共表达网络分析(wgcna)完成,具体包括以下内容:
16.根据丰度相似性构建加权基因共表达网络,得到n*n邻接矩阵,再通过加权基因共表达网络进行模块检测,计算基于拓扑重叠度量的网络互连性,最后基于层次聚类找到紧密相连的共表达的特征模块,其中,模块被定义为紧密相连的特征簇。
17.优选地,步骤s1中,通过丰度相似性网络分析进行特征模块划分的划分依据为:质谱特征的正相关阈值大于判断值,判断值可依据样本中污染物丰度特征的丰度变化选取,如无法判断,可设为默认值0.7。
18.优选地,步骤s2通过r语言包xmsannotator完成基于保留时间对各个质谱特征进行聚类,核密度函数用于检测确定检测共流出的每个模块,其中,保留时间差的默认值为10s。
19.优选地,步骤s3通过点积算法实现,相似性判定的默认值为0.7。
20.优选地,步骤s4可通过r语言、python或者excel对成对的质谱特征进行遍历并比较。
21.优选地,步骤s4中加和物的质量差判别方式为:
22.设定每个物质正离子模式的[m+h]
+
(负离子模式为[m-h]-)加和物形态一定存在,其中m为不带电的物质,对于不同质谱特征a和b,进行作差,若差值符合的不同加和物形态同[m+h]
+
(或者[m-h]-)的差值,则将一个质谱特征注释为[m+h]
+
(或者[m-h]-),另一个质谱特征注释为其他加和形态。举例说明如下,如果a-h=b-nh4,则认为a是[m+h]
+
,b是[m+nh4]
+
。
[0023]
优选地,步骤s4中多聚体的质量差判别方式为:
[0024]
对于不同质谱特征a和b,若正离子模式为(a-h)/(b-h)=n,负离子模式为:(a+h)/(b+h)=n,则认为a是b的n聚体。其他多聚体的加和物形态例如[2m+fa-h]-,计算方法类似。
[0025]
优选地,步骤s4中源内裂解碎片判别方式为:
[0026]
对于同一模块中的成对的质谱特征,若一个质谱特征b的前驱离子m/z存在于另一个质谱特征a的二级谱图碎片m/z中,则认为b是a的源内裂解碎片。
[0027]
优选地,步骤s4中同位素模式的判别方式为:仅考虑第一同位素(范围:0.997-1.006)和第二同位素(范围:1.994-2.013)。
[0028]
本发明的有益效果是:
[0029]
(1)本发明综合识别多种模式的冗余数据,包括同位素、加和物、源内裂解和多聚体;
[0030]
(2)本发明综合考虑丰度相关和保留时间相近,加入二级质谱碎片信息使得注释的可信度更高;
[0031]
(3)本发明大大缩减了后续结构鉴别的工作量,降低了因为不恰当的注释导致的错误样本解释的可能性。
附图说明
[0032]
图1是实施例1一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法流程图;
[0033]
图2是实验例1中不同方法去除的冗余峰数目;
[0034]
图3是实验例1中不同方法标准品注释率;
[0035]
图4是实验例2中num1107、num806和num807的在不同样本中的丰度变化情况;
[0036]
图5是实验例2中num1001、num836和num1012三个峰的谱图。
具体实施方式
[0037]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0038]
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种。
[0039]
实施例1
[0040]
本实施例为一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,利用同一物质的各个质谱特征在各个样本中具有共表达、共流出、二级质谱图相似的特点,利用加和物、多聚体、同位素、源内裂解碎片的质量差,对质谱峰进行精准识别注释,样本为代谢组样本,本实施例中为尿液,具体包括以下步骤:
[0041]
s1、基于丰度对各个样本中的所有质谱特征进行聚类,质谱特征为峰提取、峰解卷积和峰对齐操作后的结果,通过软件msdial完成,并通过丰度相似性网络分析进行特征模块划分,通过丰度相似性网络分析进行特征模块划分的划分依据为:质谱特征的正相关阈值大于0.7,确定在各个样本中具有共表达的质谱特征,其中,丰度相似性网络分析基于r语言包xmsannotator,通过加权基因共表达网络分析完成,具体包括以下内容:
[0042]
根据丰度相似性构建加权基因共表达网络,得到n*n邻接矩阵,再通过加权基因共表达网络进行模块检测,计算基于拓扑重叠度量的网络互连性,最后基于层次聚类找到紧密相连的共表达的特征模块,其中,模块被定义为紧密相连的特征簇,相似性网络分析进行特征模块划分的划分依据为:质谱特征的正相关阈值大于判断值,判断值依据样本中污染特征变化选取;
[0043]
s2、基于保留时间对各个样本中的所有质谱特征进行聚类,确定检测共流出的模块,即保留时间相近的质谱特征,具体通过r语言包xmsannotator完成基于保留时间对各个质谱特征进行聚类,核密度函数用于检测确定共流出的每个模块,本实施例中,保留时间为10s;
[0044]
s3、通过点积算法实现根据二级质谱图相似性对丰度相似性网络和保留时间分别在同一特征模块中的质谱特征进行过滤,确定同一模块中具有相似结构的质谱特征,相似性判定值为0.7;
[0045]
s4、将满足步骤s1、步骤s2、步骤s3的成对的质谱特征的精确质量数作差,利用加和物、源内裂解碎片、同位素模式的质量差特点对同一物质的各个质谱特征进行定位和注释,通过r语言对成对的质谱特征进行遍历并比较,其中:
[0046]
加和物的质量差判别方式为:
[0047]
设定每个物质正离子模式的[m+h]
+
(负离子模式为[m-h]-)加和物形态一定存在,其中m为不带电的物质,对于质谱特征a和b,进行作差,若差值符合不同加和物形态同[m+h]
+
(或者[m-h]-)的差值,则将一个质谱特征注释为[m+h]
+
(或者[m-h]-),另一个质谱特征注释为其他加和形态。举例说明如下,如果a-h=b-nh4,则认为a是[m+h]
+
,b是[m+nh4]
+
,正离子模式的具体规则如表1所示,负离子模式的具体规则如表2所示,
[0048]
表1正离子模式下加和物和多聚体、价态和精确质量差
[0049]
[0050]
[0051][0052]
表2正离子模式常见加和物和多聚体的价态和精确质量差
[0053]
加和物或多聚体价态精确质量差[m-h]-1-1.00783[m-h2o-h]-1-19.01839[m+na-2h]-120.97412[m+cl]-134.96885[m+k-2h]-136.94806[m+fa-h]-144.99765[m+hac-h]-159.01330[m+br]-178.91834[m+tfa-h]-1112.98504[m-c6h10o4-h]-1-147.06573[m-c6h10o5-h]-1-163.06065[m-c6h8o6-h]-1-177.03991[2m-h]-1-1.00783[2m+fa-h]-144.99765[2m+hac-h]-159.01330[3m-h]-1-1.00783[m-2h]
2-2-2.01565[m-3h]
3-3-3.02348
[0054]
多聚体的质量差判别方式为:
[0055]
对于质谱特征a和b,若正离子模式为(a-h)/(b-h)=n,负离子模式为:(a+h)/(b+h)=n,则认为a是b的n聚体。其他多聚体的不同加和物形态例如[2m+fa-h]-等,计算方法类似,
[0056]
源内裂解碎片判别方式为:
[0057]
对于同一模块中的成对的质谱特征,若质谱特征b的前驱离子m/z存在于另一个质谱特征a的二级谱图碎片m/z中,则认为b是a的源内裂解碎片,
[0058]
同位素模式的判别方式为:仅考虑第一同位素和第二同位素,第一同位素的判定范围为:0.997~1.006,第二同位素的判定范围为:1.994~2.013。
[0059]
实施例2
[0060]
本实施例与实施例1的区别在于:
[0061]
样本为环境样本,本实施例中为污水。
[0062]
步骤s4通过python对成对的质谱特征进行遍历并比较。
[0063]
实施例3
[0064]
本实施例与实施例1的区别在于:
[0065]
步骤s4通过excel对成对的质谱特征进行遍历并比较。
[0066]
实验例1
[0067]
本实验例注释的对象是由126种标准品溶于fisher水(emerson,美国,hplc级别)配成的标样,浓度梯度分别为10 50 100 200 250 500ug/l。经由msdial进行峰提取、峰解卷积和峰对齐。具体参数如下:data collection:ms1 tolerance:0.01da,ms2 tolerance:0.025da,peak detection:minimum peak height:1000amplitude,mass slice width:0.1da;alignment:retention time tolerance:0.05min,ms1 tolerance:0.015da,adduct:正负模式下分别勾选全部可能加和物形式。
[0068]
导出alignment结果中,正离子模式下:3241个峰;负离子模式下:1159个峰。使用msdial共计鉴别出了1401个加h峰(正),568个去h峰(负)。
[0069]
首先构建冗余峰网络,将正离子模式和负离子模式下的峰,分别编辑成表达矩阵data.csv导入r语言,第一列为mz(da),第二列为time(s),分别代表精确质量数和保留时间。
[0070]
具体命令行如下:
[0071]
multilevelannotation(dataa,max.mz.diff=60,max.rt.diff=60,cormethod="pearson",num_nodes=3,queryadductlist=c("all"),mode="pos",outloc="d:\\gongzuomulu\\xmsannotator",adduct_weights=na,num_sets=3000,allsteps=false,corthresh=0.7,nops_check=true,customids=na,missing.value=na,deepsplit=2,networktype="unsigned",minclustsize=10,module.merge.dissimilarity=0.2,filter.by=c("m+h"),redundancy_check=true,min_ions_perchem=1,biofluid.location=na,origin=na,status=na,boostids=na,max_isp=5,mplush.abundance.ratio.check=false,customdb=na,hmdbselect="union",mass_defect_window=0.01,mass_defect_mode="pos",pathwaycheckmode="pm")
[0072]
参数可根据xmsannotator用户说明手册进行调整。对于输出文件中的stage1.csv中的第一列是xmsannotator根据同一特征在不同污水样本之间的丰度相似性和不同特征之间的保留时间的聚类结果。对于同一模块的物质分别编辑成包括二级质谱碎片信息的文件,计算同一模块间特征的二级谱图相似性。
[0073]
本实验例采用pyhton计算两两谱图之间的相关性,其基本原理是dp相似性,以确定具有类似结构的物质。
源内裂解18同位素18同一个物质38冗余峰形式数目
[0082]
实验例2
[0083]
本实验例注释的对象是采集自全国15个不同城市的市政污水水样,经由msdial进行峰提取、峰解卷积和峰对齐。具体参数如下:data collection:ms1 tolerance:0.01da,ms2 tolerance:0.025da,peak detection:minimum peak height:10000amplitude,mass slice width:0.1da;alignment:retention time tolerance:0.05min,ms1 tolerance:0.015da,adduct:正负模式下分别勾选全部可能加和物形式。
[0084]
导出alignment结果,15个污水厂中共获取正离子模式下:1326个峰,负离子模式下:294个峰,以num1~1620分别命名每个峰。
[0085]
去除冗余峰的步骤和参数同实验例1。
[0086]
负离子模式下去除16个冗余峰(5.44%),280个冗余峰(21.12%)。举例说明本方法的优越性,num806,num807和num1107三个峰的精确质量数分别为232.1902,232.1904和232.1904;保留时间分别为21.863,21.011和22.505。三者精确质量数相近,且谱图相似性均较高。两两之间的dp分别为:num806~num807:0.92582,num806~num1107:0.92582,num807~num1107:1。通过xmsannotator聚类发现,虽然三者精确质量数差小于0.0002da,然而三者在不同的样本中丰度变化不同,保留时间相差较大(大于1min)。num807和num1107可能互为同分异构体,num806可能是有微小结构变动的与两者相似结构的物质。说明了丰度和保留时间在冗余峰鉴别过程中的重要性。此外,num1001、num836和num1012三者属于同一丰度和保留时间模块(说明丰度相似和保留时间相近),但三者之间的dp相似性分别为:num1001~num836:0.719092,num1001~num1012:0.544331,num836~num1012:0.480384。num1012与其他两个峰仅丰度最高的两个小碎片相同,较大质量数的碎片差异较大。利用cfm-id预测结构表明,num836和num1001可能为demethylphylloquinone,而num1012可能为(25s)-26-hydroxy-24-methylenecycloartan-3-one。因此仅丰度相似和保留时间相似不足以证明不同的峰属于同一物质的不同质谱特征,最终负离子模式冗余峰注释结果如表5所示,正离子模式冗余峰注释结果如表6所示。
[0087]
表5实验例2负离子模式冗余峰注释结果
[0088]
冗余峰形式数目[2m+h]+1[m+ch3oh+h]+1[m+h-h2o]+12[m+nh4]+24源内裂解17同位素1同一个物质224[2m+h]+1
[0089]
表6实验例2正离子模式冗余峰注释结果
[0090]
冗余峰形式数目源内裂解4同位素4同一个物质8
技术特征:1.一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,利用同一物质的各个质谱特征在各个样本中具有共表达、共流出、二级质谱图相似的特点,利用加和物、多聚体、同位素、源内裂解碎片的质量差,对质谱峰进行精准识别注释,具体包括以下步骤:s1、基于丰度对各个样本中的所有质谱特征进行聚类,并通过丰度相似性网络分析进行特征模块划分,确定在各个样本中共表达的质谱特征;s2、基于保留时间对各个样本中的所有质谱特征进行聚类,确定检测共流出的模块,即保留时间相近的质谱特征模块;s3、通过二级质谱图相似性对丰度相似性网络和保留时间分别在同一特征模块中的质谱特征进行过滤,确定具有相似结构的质谱特征;s4、将满足步骤s1、步骤s2、步骤s3的成对的质谱特征的精确质量数作差,利用加和物、源内裂解碎片、同位素模式的质量差特点对同一物质的各个质谱特征进行定位和注释。2.如权利要求1所述的一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,所述样本为代谢组或者环境样本。3.如权利要求1所述的一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,所述各个质谱特征为峰提取、峰解卷积和峰对齐操作后的结果,可通过软件msdial完成。4.如权利要求1所述的一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,所述步骤s1中,丰度相似性网络分析基于r语言包xmsannotator实现。5.如权利要求4所述的一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,所述步骤s1中,丰度相似性网络分析通过加权基因共表达网络分析完成,具体包括以下内容:根据丰度相似性构建加权基因共表达网络,得到n*n邻接矩阵,再通过加权基因共表达网络进行模块检测,计算基于拓扑重叠度量的网络互连性,最后基于层次聚类找到紧密相连的共表达的特征模块,其中,模块被定义为紧密相连的特征簇。6.如权利要求1所述的一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,所述步骤s1中,通过丰度相似性网络分析进行特征模块划分的划分依据为:质谱特征的正相关阈值大于判断值,判断值可依据样本中污染特征的丰度变化选取,也可以是默认值。7.如权利要求1所述的一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,所述步骤s2通过r语言包xmsannotator完成基于保留时间对各个质谱特征进行聚类,核密度函数用于检测确定检测共流出的每个模块。8.如权利要求1所述的一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,所述步骤s3通过点积算法实现。9.如权利要求1所述的一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,其特征在于,所述步骤s4可通过r语言、python或者excel对成对的质谱特征进行遍历并比较。
技术总结本发明公开了一种基于共表达、共流出、二级质谱图相似的质谱峰注释方法,属于质谱数据注释技术领域。本发明基于同一物质不同质谱特征在不同样本中具有共表达、共流出、二级质谱图相似的特点,通过对常见加和物、多聚体、同位素、源内裂解碎片的质量差过滤,建立了一套针对高分辨率质谱数据的高效注释方法,可解决在实际代谢组学等领域中,未知物的结构注释这一步骤由于冗余质谱信息带来的耗时费力的困难。本发明的质谱数据注释方法准确且省时省力,对于实际样本中的未知物冗余信息的准确注释具有重要意义。有重要意义。有重要意义。
技术研发人员:耿金菊 钱玉立 韦斯 王学兵 吴刚 于清淼 于南洋 许柯 任洪强
受保护的技术使用者:南京大学
技术研发日:2022.07.20
技术公布日:2022/11/1