本技术涉及植物调控机制,尤其涉及人参皂苷合成下游途径转录调控机制的预测。
背景技术:
1、人参皂苷的生物合成可分为上下游两个组成部分,见图1。上游合成部分主要通过甲羟戊酸通路 (mva pathway) 进行,且该通路中涉及的关键酶已被成功鉴定。下游过程涉及的确切步骤仍有待确定,比如说,人参皂苷合成后修饰阶段关键酶(osc,cyp450 和 ugt)在植物体内的功能仍未知,关键酶的具体催化过程、结构修饰和转录调控机制(转录因子、mirna 等)方面研究较少,所以人们对人参皂苷生物合成途径的认识仍不够系统和全面。
2、目前研究发现人参皂苷下游生物合成中有几个步骤需要进一步阐明,例如人参皂苷骨架的形成、糖供体的合成和骨架修饰,udp糖基转移酶和cyp450基因的鉴定,通过cyp450酶催化的多次氧化反应和ugts催化的糖基化反应如何产生多种人参皂苷。某些ugt和cyp450基因已被鉴定为参与西洋参下游人参皂苷生物合成的候选基因,如ugt917、ugt913、ugt716和ugt711,与西洋参中的假人参皂苷f11、三角皂苷r1、三黄皂苷r2和西洋参中的人参皂苷rt5呈正相关。四种细胞色素 p450 酶 (cyp450) 已被鉴定为人参皂苷生物合成中三萜骨架特定位置(c-16 和 c-30)羟基化的潜在催化剂。此外,udp-木糖合酶已被选为可能参与人参皂苷 rb3 生物合成的候选酶。
3、相关计算分析研究如下,文献对 pgcyp 基因在 414 个不同年龄人参根部的转录本进行共表达网络构建,发现其表达量与人参皂苷含量显著相关;文献对 15 年和 5 年生人参的共表达网络和表达谱分析推测 ispd 可能是通过 mep 途径产生人参皂苷的关键酶;文献通过层次聚类分析基因差异表达模式,采用 wgcna 共表达网络发现 cyp 和 ugt表现出组织特异性表达模式;文献指出,共表达网络本身虽然不具备因果关系,但是结合转录调控图可以达到好的模拟效果。
4、目前转录调控网络研究多是生物学家利用软件实现的差异表达、共表达分析等生物信息学计算模型,这类算法研究还处于起步阶段,模型相对单一,况且药用植物属于非模式生物,虽然属于植物,但是又有其固有的特点,这些特点需要大量的植物数据做支撑,根据当前情况,亟需计算机专家探索高效的大模型算法,从植物系统角度过渡到药用植物的角度,从一般到特殊的构建分子机理解析模型。人参属于非模式生物,测序存在一定难度,尚缺乏完整的参考基因组,没有统一的基因组注释方法。
技术实现思路
1、本发明目的是为了解决非模式生物人参的合成下游途径转录调控机制预测无法有效实现的问题,提供了人参皂苷合成下游途径转录调控机制的预测方法和系统。
2、本发明是通过以下技术方案实现的,本发明一方面,提供一种人参皂苷合成下游途径转录调控机制的预测方法,所述方法包括:
3、步骤1:将人参转录组测序数据sra转换为人参基因表达数据并获得人参转录因子列表;
4、步骤2:使用bert模型预训练模式植物的基因表达数据;
5、步骤3:使用人参基因表达数据对bert模型进行微调,具体包括:
6、将步骤1中的人参基因表达数据输入预训练好的bert模型,对非人参tf基因进行掩码策略,预测剩余基因,完成对bert模型的微调,获取适合人参转录因子和人参基因之间的相关性变化,得到人参的基因嵌入数据;
7、步骤4:使用步骤3中获得的人参的基因嵌入数据进行人参转录因子和人参基因的相关性计算,得到人参转录因子和人参基因的转录调控关系网络。
8、进一步地,步骤1包括:
9、获取人参转录组测序样本,采用sratools工具包对数据进行下载、拆分、质控和过滤,获取人参基因组文件和基因结构注释文件采用软件gffread进行参考基因组准备,使用hisat2软件比对参考基因组;
10、将人参基因组全种属谱系由近及远的同planttfdb数据库中有转录调控关系的物种进行类比查找近源物种,再采用blast序列比对将人参基因组分别与近源物种的基因组进行序列比对,得到人参转录因子列表。
11、进一步地,所述使用hisat2软件比对参考基因组,包括:
12、为参考基因组构建索引,进行比对,参数为-dta;
13、将比对结果进行压缩排序及构建索引;
14、使用转录本组装软件stringtie计算转录本的fpkm表达矩阵。
15、进一步地,步骤2中,所述模式植物包括但不限于水稻和拟南芥。
16、进一步地,步骤2包括:
17、下载模式植物的基因表达数据样本,将基因表达数据样本输入到bert模型中,对模式植物基因进行掩码策略,预测剩余基因,完成bert模型自监督的预训练。
18、进一步地,步骤4包括:使用步骤3中获得的人参的基因嵌入数据进行tf基因和人参基因的相关性计算,选取0.9作为阈值,保留相关性系数大于0.9小于1的关系,得到人参tf和人参基因的转录调控关系网络。
19、进一步地,所述相关性计算采用皮尔逊相关系数:
20、r = cov(x,y)/σxσy
21、其中,r为皮尔逊相关系数。cov(x,y)为变量x和y的协方差。σx为变量x的标准差。σy为变量y的标准差。
22、第二方面,本发明提供一种人参皂苷合成下游途径转录调控机制的预测系统,所述系统包括:
23、数据处理模块,用于将人参转录组测序数据sra转换为人参基因表达数据并获得人参转录因子列表;
24、模型预训练模块,用于使用bert模型预训练模式植物的基因表达数据;
25、模型微调模块,用于使用人参基因表达数据对bert模型进行微调,具体包括:
26、将人参基因表达数据输入预训练好的bert模型,对非人参tf基因进行掩码策略,预测剩余基因,完成对bert模型的微调,获取适合人参转录因子和人参基因之间的相关性变化,得到人参的基因嵌入数据;
27、转录调控关系网络计算模块,用于使用人参的基因嵌入数据进行人参转录因子和人参基因的相关性计算,得到人参转录因子和人参基因的转录调控关系网络。
28、第三方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时执行如上文所述的一种人参皂苷合成下游途径转录调控机制的预测方法的步骤。
29、第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行如上文所述的一种人参皂苷合成下游途径转录调控机制的预测方法。
30、本发明的有益效果:
31、本发明通过人工智能领域bert模型进行迁移学习,例如采用大量植物如拟南芥、水稻等模式植物基因表达数据进行预训练(pre-train),以获取植物基因的表达模式,再采用人参的基因表达数据对预训练模型进行微调(finetune),以获取药用植物的基因表达专用模式,既考虑了大规模植物的一般性,又关注药用植物的特殊性,提高了网络可信度和可靠性,是一种人参调控网络注释方式的创新。
32、本发明虽然可以参考近源物种,但他们都是药用植物,数据量有限,本身注释不完整,给人参的参考证据不够充分,所以本发明采用注释完整、数据量充沛的模式植物作预训练,可以得到很多有参考价值的植物调控信息。
33、本发明通过提出的tfgpt (transcription factor generative pre-trainedtransformer )算法模型,预测人参生长发育条件下皂苷合成生物途径下游的基因调控网络,实现解析人参皂苷合成机理的目标,能够促进药用植物的全面基因组注释,对推动我国中医药国际化、现代化发展进程具有重要意义。
1.一种人参皂苷合成下游途径转录调控机制的预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的一种人参皂苷合成下游途径转录调控机制的预测方法,其特征在于,步骤1包括:
3.根据权利要求2所述的一种人参皂苷合成下游途径转录调控机制的预测方法,其特征在于,所述使用hisat2软件比对参考基因组,包括:
4.根据权利要求1所述的一种人参皂苷合成下游途径转录调控机制的预测方法,其特征在于,步骤2中,所述模式植物包括但不限于水稻和拟南芥。
5.根据权利要求1所述的一种人参皂苷合成下游途径转录调控机制的预测方法,其特征在于,步骤2包括:
6.根据权利要求1所述的一种人参皂苷合成下游途径转录调控机制的预测方法,其特征在于,步骤4包括:使用步骤3中获得的人参的基因嵌入数据进行tf基因和人参基因的相关性计算,选取0.9作为阈值,保留相关性系数大于0.9小于1的关系,得到人参tf和人参基因的转录调控关系网络。
7.根据权利要求6所述的一种人参皂苷合成下游途径转录调控机制的预测方法,其特征在于,所述相关性计算采用皮尔逊相关系数:
8.一种人参皂苷合成下游途径转录调控机制的预测系统,其特征在于,所述系统包括:
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,当所述处理器运行所述存储器存储的计算机程序时执行权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有多条计算机指令,所述多条计算机指令用于使计算机执行权利要求1至7中任一项所述的方法。
