基于单细胞转录组数据的细胞间通讯推断方法

专利2025-06-07  76


本发明涉及生物信息学领域,具体涉及一种基于单细胞转录组数据的细胞间通讯推断方法。


背景技术:

1、细胞是构成生物体的基本单位,单细胞转录组测序技术的发展推动了对细胞状态多样性的更深入了解。在多细胞生物中,细胞间的通讯使得多个细胞能够协调工作,形成组织、器官或系统,从而完成各种生物任务。细胞间通讯可以更准确地分析不同细胞类型之间的功能差异、相互识别以及信号传递机制,进而深入了解细胞内部状态和相互关系的复杂性。通过对细胞通讯的研究,揭示了细胞之间微观相互作用的细节,有助于识别特定细胞群在不同生理和病理条件下的反应方式,以及在疾病发展中的角色。这对于个体化医疗、疾病诊断和治疗策略的制定具有重要意义。

2、尽管已经开发了各种计算工具来推断细胞间的通讯,但这些工具主要关注配体-受体对的表达强度及其特异性,通过计算配体和受体的共表达、差异表达和表达相关性来推断细胞间通讯。然而,基于配体和受体对的表达强度来推断细胞间通讯存在一定的局限性。首先,有些受体在细胞中通常以相对稳定的水平表达,并不直接参与细胞间通讯的调控,因此与细胞间的通讯并不密切相关。其次,编码一些表面受体的mrna通常表现为低丰度,这可能导致在单个细胞水平上无法检测到这些受体。另外,细胞间通讯不仅包括细胞间配体和受体间的信号传导,还包括通过特定信号通路的细胞内信号的传递和放大,最终导致下游转录因子和基因调控网络的活性改变。因此,对细胞内部相关的通讯信号及其高度集成和动态性质的全面理解,能够准确揭示不同细胞类型之间的相互作用以及细胞间的信号传递网络,帮助研究人员发现细胞之间更隐蔽的联系和交互关系,加深对细胞功能和调控机制的理解。

3、单细胞数据的复杂性和异质性限制了基因表达模式和细胞动态过程的全面表征。通过从单细胞数据中提取关键特征、识别功能模块,并将细胞按照其相似特征进行聚类,对于全面地理解和解释细胞间通讯的机制和模式至关重要。利用基于矩阵分解的联合学习模型进行特征选择并检测功能基因模块以探索基因的表达模式,同时进行聚类以发现细胞的身份和功能。通过对单细胞数据中信息的全面挖掘,保证了数据分析的一致性和准确性,避免了不同工具间的差异导致的结果解释问题,从而更准确地分析和解释细胞间的通讯。结合细胞身份的注释信息,整合细胞间和细胞内的相关通讯信号,实现对细胞之间通讯网络的推断。通过准确地推断细胞间通讯的方式和机制,可以更好地揭示隐藏在数据中的模式和关联,从而深入理解细胞之间的相互作用。这对于理解疾病发生和发展的过程、发现新的治疗方法以及设计基于细胞信号传导的药物靶点都具有重要意义。


技术实现思路

1、本发明的目的是为解决现有的细胞间通讯网络推断工具缺乏预测连接细胞内外的通讯途径的能力,而提出的一种基于单细胞转录组数据的细胞间通讯推断方法,通过生物信息学、计算生物学和机器学习算法的结合,实现对单细胞转录组数据的细胞间通讯网络精确推断。

2、为了实现上述目标,本发明采用的技术方案是:

3、一种基于单细胞转录组数据的细胞间通讯推断方法,包括如下步骤:

4、在单细胞数据中,对表达量低的基因进行过滤,所述表达量低的基因即在少于设定的细胞百分比中表达的基因,然后挑选出在不同细胞之间表达量差异显著的基因,所述表达量差异显著的基因即在不同细胞之间标准化方差最高的前设定数量个基因,最后进行正则化预处理,并以矩阵形式记录这些单细胞数据;

5、正则化预处理后的单细胞数据矩阵经投影矩阵分解得到基因投影矩阵、细胞投影矩阵和关联矩阵,依次分别表示投影空间中基因、细胞的表达量和基因与细胞间的关联;进一步使用非负矩阵分解方法处理细胞投影矩阵得到系数矩阵,表示低维空间中的细胞表达量;结合两种分解方法,并对细胞投影矩阵和系数矩阵分别施加稀疏约束和图正则约束,提出基于矩阵分解的联合学习模型;

6、使用基于矩阵分解的联合学习模型实现多种单细胞分析任务的联合学习:利用基因投影矩阵选择代表性基因并确定基因功能模块;利用关联矩阵计算基因功能模块的重要性并对基因功能模块进行排序;利用系数矩阵对单细胞数据进行聚类,并与已知的细胞标记基因进行比对,来识别每个聚类所代表的细胞类型;

7、基于细胞类型识别的结果,分别计算配体和受体在不同类型的细胞间传递的通讯信号的得分以及下游的转录因子及其靶基因在细胞内传递的通讯信号的得分;通过整合细胞间和细胞内的通讯信号,获得基于单细胞转录组数据的细胞间通讯推断模型。

8、较佳地,在单细胞数据中,对表达量低的基因进行过滤,然后挑选出在不同细胞之间表达量差异显著的基因,最后进行正则化预处理,包括如下步骤:

9、1.1)首先,对单细胞数据中表达量低的基因进行过滤,这些基因在少于6%的细胞中表达(默认情况下6%),被认为在聚类过程中不能提供有用的信息,对这类基因进行过滤;

10、1.2)其次,对过滤后的单细胞数据,使用主成分分析方法挑选在不同细胞之间标准化方差最高的前2000个基因,并进行log2正则化,以进行下游分析:

11、xi,j=log2(mi,j+1)  (1)

12、其中,mi,j表示原始单细胞数据中第i个基因在第j个细胞中的表达量,xi,j表示经过归一化的单细胞数据中第i个基因在第j个细胞中的表达量。

13、较佳地,正则化预处理后的单细胞数据矩阵经投影矩阵分解得到基因投影矩阵、细胞投影矩阵和关联矩阵,依次分别表示投影空间中基因、细胞的表达量和基因与细胞间的关联;进一步使用非负矩阵分解方法处理细胞投影矩阵得到系数矩阵,表示低维空间中的细胞表达量;结合两种分解方法,并对细胞投影矩阵和系数矩阵分别施加稀疏约束和图正则约束,提出基于矩阵分解的联合学习模型,包括如下步骤:

14、2.1)使用投影矩阵分解方法进行特征选择,将原始数据映射到一个低维的表示空间中,能够有效地减少数据的维度,同时保留关键的基因特征信息;将输入的单细胞基因表达矩阵x分解为基因投影矩阵u、细胞投影矩阵v和关联矩阵s,从而计算原始特征与选定特征之间的差异:

15、

16、其中,表示froben i us范数;x∈rm×n表示输入的单细胞基因表达矩阵,包含m个基因和n个细胞;基因投影矩阵和细胞投影矩阵分别表示投影空间中基因和细胞的表达量,m为基因的个数,n为细胞的个数;关联矩阵提供了额外的自由度以确保投影矩阵的准确性,k1为分解后的维数;

17、2.2)在特征选择的过程中,对于细胞投影矩阵v,引入稀疏约束项l2,1范数,以消除单细胞数据固有的稀疏性,从而提高算法的准确性;l2,1范数首先计算行向量的l1范数,有助于消除单细胞数据的稀疏性,进而提高算法的可解释性和准确性,随后,对列向量应用l2范数进行计算,可有效减少噪声和异常值对算法的影响,从而提升算法的鲁棒性:

18、

19、其中,数据元素vij代表矩阵v中的第i行第j列的元素值;特征选择的目标公式改写为:

20、

21、2.3)使用非负矩阵分解方法对细胞进行聚类;非负矩阵分解方法将矩阵v分解为基矩阵b和系数矩阵f:

22、

23、其中,分别表示为基矩阵和系数矩阵,m为基因的个数,n为细胞的个数,k2为降维的维数;

24、2.4)利用图正则化方法来约束非负矩阵分解过程,有助于更好地捕捉数据之间的潜在关系,从而使聚类结果更加稳健和可靠:构建一个图g来描述系数矩阵f中细胞之间的接近度,图上的节点表示细胞,图上的边表示细胞对之间的相似性;定义一个对称权重矩阵w来量化边,w中的元素表示连接细胞i和细胞j的边的权重:

25、

26、其中,vi是第i个细胞,nk(vi)是vi的k个最近邻居的集合;则图正则化约束的公式如下:

27、

28、非负矩阵分解的目标公式进一步改写为:

29、

30、其中,d是对角矩阵,且d中元素是通过w的行或列的求和得到;fi和fj是vi和vj的低维表示;l是图g的拉普拉斯矩阵,即l=d-w;

31、为了解决特征选择和细胞聚类的独立性问题,结合投影矩阵分解和非负矩阵分解,对特征选择和细胞聚类进行联合学习;结合用于特征选择的公式(4)和用于聚类的公式(8),构建基于矩阵分解方法的联合学习模型,其目标函数定义为以下优化问题:

32、

33、使用迭代策略对目标公式求解,通过固定其他变量来优化一个变量,直到达到终止标准。

34、较佳地,使用基于矩阵分解的联合学习模型实现多种单细胞分析任务的联合学习:利用基因投影矩阵选择代表性基因并确定基因功能模块;利用关联矩阵计算基因功能模块的重要性并对基因功能模块进行排序;利用系数矩阵对单细胞数据进行聚类,并与已知的细胞标记基因进行比对,来识别每个聚类所代表的细胞类型,包括如下步骤:

35、3.1)利用基于矩阵分解的联合学习模型得到的细胞投影矩阵u,选取每列中表达值大于指定阈值的特征作为模块的成员,从而构建基因功能模块;对于每一个列向量ui,i=1,...,k,根据其z-score的得分选择加权因子绝对值大于阈值θ的节点:

36、

37、其中,是矩阵u的行向量的均值,是u的行向量的标准差;基于上述变换,将满足条件zij>θ的g(i)作为第i个模块的成员,将阈值θ设定为模块相似度曲线上的最高点所对应的值;

38、3.2)通过基于矩阵分解的联合学习模型得到的关联矩阵s来量化模块的重要性;关联矩阵s的元素sij作为权重,用于重构矩阵x的ui和vj的线性组合;当sij越大时,通过ui和vj确定的模块之间的相似性越高,从而所选特征的所有组合在矩阵x中的元素值也越大;关联矩阵s是一个对角矩阵,其非零元素仅在对角线上,通过评估矩阵s的值确定已识别模块的重要性;

39、3.3)利用基于矩阵分解的联合学习模型生成系数矩阵f,并根据矩阵f的最大系数将细胞分配到细胞簇中;同时,结合标记基因在特定细胞类型中的表达水平,将细胞簇标注为已知的细胞类型;这一方法能够有效识别和解释细胞簇,有助于更全面地理解细胞的身份和功能。对于缺乏已知标记基因表达信息的细胞簇,将其分配至包含细胞数最多的已知细胞类型;

40、较佳地,基于细胞类型识别的结果,分别计算配体和受体在不同类型的细胞间传递的通讯信号的得分以及下游的转录因子及其靶基因在细胞内传递的通讯信号的得分;通过整合细胞间和细胞内的通讯信号,获得基于单细胞转录组数据的细胞间通讯推断模型,包括如下步骤:

41、4.1)收集并整合三层数据信息,以构建细胞间通讯的参考库dcjcommdb,作为推断细胞之间互作的证据,包括:配体-受体(l-r)相互作用、转录因子-靶基因(tf-tg)相互作用以及从受体到转录因子的信号转导;

42、4.2)细胞间信号传导分数通过配体-受体(l-r)相互作用的l2范数来评估,即lrk是由配体-受体(l-r)相互作用的配体和受体的归一化表达值表示的二维向量:

43、

44、其中,li,k是配体l在细胞类型i中的平均表达值,rj,k是受体r在细胞类型j中的平均表达值;如果配体l中包含亚基并表示亚基的表达值,将其定义为所有亚基表达值的几何平均值:同样,受体r定义为lg和rh分别是配体和受体中g亚基和h亚基的表达值;

45、4.3)结合受体、转录因子和靶基因之间的相互作用,计算细胞内的通讯信号分数sintra:

46、

47、其中,tfppr(t,r,p)表示受体r和转录因子t在通路p中的相互作用;tfactivity(t,k)表示根据fisher检验计算的细胞类型k中每个转录因子t的活性:

48、tfactivity(t,k)=1-pfisher(t,k) (13)

49、4.4)结合细胞间的通讯分数sinter和细胞内的通讯分数sintra,计算不同细胞类型之间的细胞相互作用sk,其定义为:

50、sk=sinter×sintra (14)。

51、其中,所述dcjcommdb参考库收集有5597个人类的配体-受体(l-r)相互作用,1537个tf调节的18421个tg,以及1533个受体与其调节的411个tf,还收集有5818个小鼠的配体-受体(l-r)相互作用,1649个tf调节的1457个tg,以及731个受体与其调节的369个tf。

52、本发明的有益效果:

53、本发明利用配体-受体对、转录因子及其靶基因之间的通讯信号,实现了连接细胞内外的通讯,从而精确的推断了细胞间的通讯网络。通过利用基于矩阵分解的联合学习模型和细胞间通讯的推断统计模型,解决了单细胞数据存在的复杂性和异质性的问题,从而有效地探索基因的表达模式,并发现细胞的身份和功能,进一步增强了细胞间通讯网络的推理性能。本发明的有益效果具体包括如下:

54、一、本发明连贯地执行多项单细胞数据分析任务,全面揭示了基因表达模式和细胞动态过程。通过分析单个细胞的基因表达数据,识别具有相似表达模式的基因集合,从而揭示细胞内复杂的功能模块和信号通路。通过选择代表性特征并进行细胞聚类分析,揭示细胞之间的相似性和差异性,从而推断细胞之间的交流和相互作用关系。

55、二、本发明通过识别具有相似表达模式的基因功能模块,从而揭示细胞内生物学过程的调节机制和潜在的关键因子。利用基于矩阵分解联合学习模型得到的基因投影矩阵,可以识别具有相似表达模式的基因集合,进而揭示细胞内复杂的基因功能模块,为深入理解细胞内各种生物学过程的内部调控机制提供重要线索。

56、三、本发明利用数据中的特征和相似性关系,通过选择代表性特征并进行细胞聚类,揭示了数据中隐藏的细胞类型、状态和结构信息。通过结合稀疏约束和图正则化约束,基于矩阵分解的联合学习模型在减少噪声影响的同时保持了算法的一致性。通过将特征选择和细胞聚类的联合学习公式化为一个约束优化问题,并导出相应的优化规则,显著提高了细胞类型发现的准确性,促进了对细胞多样性和功能特性的深入理解。

57、四、本发明通过揭示配体-受体对、转录因子及其靶基因在细胞通讯中的作用,全面准确地推断了细胞间和相关细胞内的通讯信号。通过预测和可视化细胞间通讯,分析这些信号如何协调功能,有助于深入了解生命活动的调控过程和疾病发生机制。本发明方案具有自主创新,通过全面分析单细胞数据,有助于更深入地理解细胞群体的组成和功能,为细胞生物学和疾病研究提供更加全面和深入的视角。


技术特征:

1.一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,在单细胞数据中,对表达量低的基因进行过滤,然后挑选出在不同细胞之间表达量差异显著的基因,最后进行正则化预处理,包括如下步骤:

3.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,正则化预处理后的单细胞数据矩阵经投影矩阵分解得到基因投影矩阵、细胞投影矩阵和关联矩阵,依次分别表示投影空间中基因、细胞的表达量和基因与细胞间的关联;进一步使用非负矩阵分解方法处理细胞投影矩阵得到系数矩阵,表示低维空间中的细胞表达量;结合两种分解方法,并对细胞投影矩阵和系数矩阵分别施加稀疏约束和图正则约束,提出基于矩阵分解的联合学习模型,包括如下步骤:

4.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,使用基于矩阵分解的联合学习模型实现多种单细胞分析任务的联合学习:利用基因投影矩阵选择代表性基因并确定基因功能模块;利用关联矩阵计算基因功能模块的重要性并对基因功能模块进行排序;利用系数矩阵对单细胞数据进行聚类,并与已知的细胞标记基因进行比对,来识别每个聚类所代表的细胞类型,包括如下步骤:

5.根据权利要求1所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,基于细胞类型识别的结果,分别计算配体和受体在不同类型的细胞间传递的通讯信号的得分以及下游的转录因子及其靶基因在细胞内传递的通讯信号的得分;通过整合细胞间和细胞内的通讯信号,获得基于单细胞转录组数据的细胞间通讯推断模型,包括如下步骤:

6.根据权利要求5所述的一种基于单细胞转录组数据的细胞间通讯推断方法,其特征在于,所述dcjcommdb参考库收集有5597个人类的配体-受体相互作用,1537个转录因子调节的18421个靶基因,以及1533个受体与其调节的411个转录因子,还收集有5818个小鼠的配体-受体相互作用,1649个转录因子调节的1457个靶基因,以及731个受体与其调节的369个转录因子。


技术总结
本发明涉及生物信息学领域,具体公开了一种基于单细胞转录组数据的细胞间通讯推断方法,包括步骤:单细胞数据预处理;基于矩阵分解的联合学习模型;识别基因表达模式及细胞亚群;细胞间通讯的推断统计模型的构建。基于本发明模型能够有效地探索基因的表达模式,并进一步揭示细胞的身份和功能;结合细胞间和细胞内的相关通讯信号,提出了识别细胞间通讯的推断统计模型。本发明克服了连接细胞内外的通讯途径难以预测的问题,通过对细胞内部状态和相互关系的深入理解,提高了细胞间通讯网络推断的性能,有助于更全面地理解潜在的生物过程。

技术研发人员:蒋庆华,丁倩,许召春,王平平,蔡一灯,杨文艺,薛广富,阙锦昊
受保护的技术使用者:哈尔滨工业大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-14763.html

最新回复(0)