本发明属于蛋白质谱、生物信息,具体地,涉及一种将液相质谱数据转化为可进行ai图片识别分析的图片数据的方法。
背景技术:
1、虽然随着检测技术及数据分析技术的逐步提升,基于液相质谱的各种组学技术,包括蛋白组、肽组、代谢组等的检测鉴定深度、准确度都有了显著提升,但是在检测数据中仍然存在着大量未鉴定的信号未被充分利用。通常由于参照数据库的不全或分析方法的局限性,这些未被鉴定的信号将直接被过滤,这些可能包含特殊修饰、未知物质、非靶向生物源物质等不同情况。通常这些未鉴定信号会多余甚至远多于已鉴定的信号,可见鉴定出的信号并不能充分反应样本的全貌。当需要比较样本之间相似差异性时,仅考虑已鉴定的信号,会存在片面性,也有可能由于数据的校正使数据失真,同时在全局层面多指标的联合体现也往往容易被忽略。
2、ai的图片识别技术目前正在快速发展,在不同领域都取的显著成就。从人脸识别中可以识别在不同情况、不同角度识别个人特征,到在临床医疗领域识别ct照片判断疾病特征,都得到了良好的应用。
3、如果有一种方法可以是ai图像识别能够像识别人脸器官一样读取每个质谱数据,充分利用每个样本所有的质谱信息,再识别每个样本中是否存在特定化合物群特征,来进行样本的分群分类,以达到疾病判读,将会在质谱分析领域带来新的应用方向。
技术实现思路
1、发明目的:为解决上述技术问题,本发明提供了一种将液相质谱数据转化为可进行ai图片识别分析的图片数据的方法。
2、技术方案:为达到上述发明目的,本发明采用如下技术方案:
3、一种将液相质谱数据转化为可进行ai图片识别的图片数据的方法,包括以下步骤:
4、(1)将液相质谱数据利用平台软件转化为通用可读文件;
5、(2)提取通用可读文件中时间或扫描谱编号、质荷比及响应强度信息;
6、(3)将上述步骤(2)的信息,按照时间或扫描谱编号作为x轴,质荷比作为y轴;
7、(4)将每一个质荷比的检测信号进行区间段转化为0~255之间的z值,填入步骤(3)的坐标矩阵内;
8、(5)基于步骤(4)得到的矩阵,将每个点的z值作为色调,转化为颜色代码,并将矩阵转换为x*y个点的图片格式,供ai图片识别。
9、作为具体实施方案,步骤(1)中,所述转化数据的平台软件选自msconvert、dataanalysis或thermorawfileparser等。
10、作为具体实施方案,步骤(1)中,所述通用可读文件包括mgf、mzml、mzxml、text、ms1、ms2、cms1、cms2,优选为mgf、mzxml、text、ms1、ms2。如作图数据限于一级谱图,优选ms1;如作图数据限于二级谱图,优选ms2;其余优选mgf、mzxml、text。
11、作为具体实施方案,步骤(2)中,所述时间或扫描谱编号为各单张质谱图保留时间或扫描谱图的编号;所述质荷比为质谱检出的离子的质量与电荷比值,即m/z;所述响应强度信息为具有不同质荷比的不同离子基于当前质谱的信号强度。
12、作为具体实施方案,步骤(2)中,所述按照时间或扫描谱编号作为x轴,是使用时间进行x轴标注,或者使用扫描谱编号作为x轴标注,如scan1、scan2、scan3……;对于x轴,将每一个时间点或一个扫描谱作为一个x轴点,或者按照质谱扫描循环进行合并,如dda(数据非依赖分析模式)中,一个一级谱和40个信号最强离子的二级谱为一个循环,或如dia(数据依赖分析模式)中,一个一级谱和40个预设质荷比区间窗口的二级谱为一个循环,则可以将上述情况中这41个谱的x坐标信息合并为一个x坐标点,也可以将这个循环所占用的时间段作为一个x坐标点。
13、作为具体实施方案,步骤(3)中,所述质荷比作为y轴,需要将质荷比按照区间段进行分格,区间段大小设为0.001~1da,优选为0.1~1da。如计算机算力优越,可以减小区间段大小。
14、作为具体实施方案,步骤(4)中,将每一个质荷比的检测信号进行区间段转化为0~255之间的z值,转化方法具体包括如下方法:基于当前质谱信号强度范围预先确定有效信号强度范围[1*10x0,1*10x1),其数量级个数m=x1-x0,如e4~e9信号强度为有效强度,即10,000~9,999,999,999,则x0=4,x1=10,则m=10-4为6,各数量级依序编号为1~m,每个数量级的范围为[1,10)*10x(x为当前数量级指数);将每个数量级分为n等分,如n为36,则e4数量级分为1e4、1.25e4、1.5e4、1.75e4……9.75e4,有效分割数为36,各分界点之间为一个等分区间,每个等分区间依序编号为1~n,其中m*n≤255;将所有检测信号data1=a*10x,a∈[1,10),按照前述规则确认所属区间段,标记为(m1,n1),其中,m1=取整(log10(data1))-x0+1,为某检测信号所在的数量级编号,n1=取整(((data1/10x)-1)/(9/n))+1,其中,x为data1的数量级数值,如信号数据4000000=4×106,其x为6,n1为该检测信号所在的等分区间编号,最后将(m1,n1)按照z=(m1-1)*n+n1-1计算,得到z值。如e4~e9信号强度为有效强度,即10,000~9,999,999,999,则x0=4,x1=10,则m=10-4为6,将每个数量级分为36等分,n=36。对于信号数据2,550,000,通过上述公式计算,m1=取整(log10(data1))-x0+1=3,n1=取整(((data1/10x)-1)/(9/n))+1=7,z=(m1-1)*n+n1-1=78。
15、上述公式中所述“取整”均为所得数值取小数点前的整数,而非四舍五入后的整数,范围符号中的“[”代表包含,“)”代表不包含。
16、进一步的,所述转化方法中,高于有效信号强度范围数值调整为有效信号强度上限,低于有效信号强度范围调整为有效信号强度下限或归零,优选归零。
17、作为具体实施方案,步骤(5)中,所述将每个点的z值作为色调,转化为颜色代码,是使用hsl颜色模式,将亮度(l)和饱和度(s)锁定为固定值,矩阵中的值作为色调(h),依据hsl值得16进制颜色代码;所述饱和度的范围为64~255,亮度范围为64~223。如hsl为(89,128,128)时,颜色代码为#40c04c。
18、作为具体实施方案,步骤(5)中,所述将矩阵转换为x*y个点的图片格式,是基于(x,y)点对应的颜色代码,绘制每一个(x,y)点的颜色;绘图的软件选自基于r语言的ggplot2包、基于python的matplotlib、seaborn、pillow或gimp、photoshop、imagej等。
19、有益效果:与现有技术相比,本发明方法将检测时间作为图片x轴,检测质荷比作为图片y轴,每个检测到质荷比的检测强度依据一定映射规律转化为不同颜色的点分布在图片上。该图片具有图片的基本特征,并可以反映检测样本的特征,可以用于ai特征识别,用于对样本进行聚类、分组、找特征等。本方法能够充分利用液相质谱检测的所有数据,避免数据分析过程中由于定性证据不足造成的数据过滤的缺漏,能够更加充分展示样本特征,用于基于ai特征识别的不同算法。
1.一种将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,步骤(1)中,所述转化数据的平台软件选自msconvert、dataanalysis或thermorawfileparser。
3.根据权利要求1所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,步骤(1)中,所述通用可读文件包括mgf、mzml、mzxml、text、ms1、ms2、cms1、cms2,优选为mgf、mzxml、text、ms1、ms2。
4.根据权利要求1所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,步骤(2)中,所述时间或扫描谱编号为各单张质谱图保留时间或扫描谱图的编号;所述质荷比为质谱检出的离子的质量与电荷比值,即m/z;所述响应强度信息为具有不同质荷比的不同离子基于当前质谱的信号强度。
5.根据权利要求1所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,步骤(2)中,所述按照时间或扫描谱编号作为x轴,是使用时间进行x轴标注,或者使用扫描谱编号作为x轴标注;对于x轴,将每一个时间点或一个扫描谱作为一个x轴点,或者按照质谱扫描循环进行合并。
6.根据权利要求1所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,步骤(3)中,所述质荷比作为y轴,需要将质荷比按照区间段进行分格,区间段大小设为0.001~1da,优选为0.1~1da。
7.根据权利要求1所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,步骤(4)中,将每一个质荷比的检测信号进行区间段转化为0~255之间的z值,转化方法具体包括如下方法:基于当前质谱信号强度范围预先确定有效信号强度范围[1*10x0,1*10x1),其数量级个数m=x1-x0,各数量级依序编号为1~m,每个数量级的范围为[1,10)*10x(x为当前数量级指数);将每个数量级分为n等分,各分界点之间为一个等分区间,每个等分区间依序编号为1~n,其中m*n≤255;将所有检测信号data1=a*10x按照前述规则确认所属区间段,标记为(m1,n1),其中,m1=取整(log10(data1))-x0+1,为某检测信号所在的数量级编号,n1=取整(((data1/10x)-1)/(9/n))+1,其中,x为data1的数量级数值,n1为该检测信号所在的等分区间编号,最后将(m1,n1)按照z=(m1-1)*n+n1-1计算,得到z值。
8.根据权利要求7所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,所述转化方法中,高于有效信号强度范围数值调整为有效信号强度上限,低于有效信号强度范围调整为有效信号强度下限或归零,优选归零。
9.根据权利要求1所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,步骤(5)中,所述将每个点的z值作为色调,转化为颜色代码,是使用hsl颜色模式,将亮度(l)和饱和度(s)锁定为固定值,矩阵中的值作为色调(h),依据hsl值得16进制颜色代码;所述饱和度的范围为64~255,亮度范围为64~223。
10.根据权利要求1所述的将液相质谱数据转化为可进行ai图片识别的图片数据的方法,其特征在于,步骤(5)中,所述将矩阵转换为x*y个点的图片格式,是基于(x,y)点对应的颜色代码,绘制每一个(x,y)点的颜色;绘图的软件选自基于r语言的ggplot2包、基于python的matplotlib、seaborn、pillow或gimp、photoshop、imagej。