1.本公开涉及人工智能技术领域,尤其涉及深度学习技术领域的分子表征模型训练方法、分子结构预测方法及装置。
背景技术:2.在计算生物和计算化学领域,有效、准确的分子表征对于分子特性的理解和预测至关重要,如分子性质预测、新药发现、药物-靶点亲和性预测等。因此,有效、准确的确定分子的分子表征信息是计算生物和计算化学领域一直追求的目标。
技术实现要素:3.本公开提供了一种分子表征模型训练方法、分子结构预测方法及装置。
4.根据本公开的第一方面,提供了一种分子表征模型训练方法,包括:
5.将样本分子对应的样本连接边的样本初始化边表征、所述样本连接边与样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到所述分子表征模型输出的样本分子表征信息;
6.基于所述样本分子表征信息和样本分子的真实分子表征信息之间的差异,调整所述分子表征模型的参数;
7.其中,所述样本连接边基于构成所述样本分子的各样本原子之间的距离信息构建,所述空间角和所述二面角为基于所述样本连接边构建的坐标系下的角度信息,所述样本连接边与所述样本连接边的邻边具有一个共同的样本原子。
8.根据本公开的第二方面,提供了一种分子结构预测方法,所述方法包括:
9.将待测分子包括的连接边的初始化边表征、所述连接边与连接边的邻边之间的空间角和二面角输入分子表征模型,得到所述待测分子的分子表征信息;所述分子表征信息用于确定所述待测分子的分子结构;
10.其中,所述连接边基于构成所述待测分子的各原子之间的距离信息构建,所述空间角和所述二面角为基于所述连接边构建的坐标系下的角度信息,所述连接边与所述连接边的邻边具有一个相同的原子,所述分子表征模型通过上述的分子表征模型训练方法训练得到。
11.根据本公开的第三方面,提供了一种分子表征模型训练装置,所述分子表征模型训练装置包括:
12.第一处理模块,用于将样本分子对应的样本连接边的样本初始化边表征、所述样本连接边与样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到所述分子表征模型输出的样本分子表征信息;
13.模型训练模块,用于基于所述样本分子表征信息和样本分子的真实分子表征信息之间的差异,调整所述分子表征模型的参数;
14.其中,所述样本连接边基于构成所述样本分子的各样本原子之间的距离信息构
建,所述空间角和所述二面角为基于所述样本连接边构建的坐标系下的角度信息,所述样本连接边与所述样本连接边的邻边具有一个相同的样本原子。
15.根据本公开的第四方面,提供了一种分子结构预测装置,所述分子结构预测装置包括:
16.第二处理模块,用于将待测分子包括的连接边的初始化边表征、所述连接边与连接边的邻边之间的空间角和二面角输入分子表征模型,得到所述待测分子的分子表征信息;所述分子表征信息用于确定所述待测分子的分子结构;
17.其中,所述连接边基于构成所述待测分子的各原子之间的距离信息构建,所述空间角和所述二面角为基于所述连接边构建的坐标系下的角度信息,所述连接边与所述连接边的邻边具有一个相同的原子,所述分子表征模型通过上述的分子表征模型训练方法训练得到。
18.根据本公开的第五方面,提供了一种电子设备,包括:
19.至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
20.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的分子表征模型训练方法或分子结构预测方法。
21.根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述的分子表征模型训练方法或分子结构预测方法。
22.根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现根据上述的分子表征模型训练方法或分子结构预测方法。
23.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
24.附图用于更好地理解本方案,不构成对本公开的限定。其中:
25.图1是本公开实施例提供的分子表征模型训练方法的一种可选处理流程示意图;
26.图2是本公开实施例提供的确定样本分子表征信息的一种可选处理流程示意图;
27.图3是本公开实施例提供的基于边表征模型输出的每个空间角度邻域内针对所述样本连接边的样本边表征信息,确定样本分子表征信息的一种可选处理流程示意图;
28.图4是本公开实施例提供的分子表征模型训练方法的一种详细可选处理流程示意图;
29.图5是本公开实施例提供的分子图的一种可选示意图;
30.图6是本公开实施例提供的样本连接边的一种可选示意图;
31.图7是本公开实施例提供的确定坐标系下每个样本连接边与样本连接边的邻边之间的空间角和二面角的一种可选处理流程示意图;
32.图8是本公开实施例提供的将三个空间角度邻域在球坐标系的水平方向投影得到的平面视图;
33.图9是本公开实施例提供的将球坐标系划分为n个空间角度邻域的一种可选处理流程示意图;
34.图10是本公开实施例提供的空间角度邻域在球坐标系垂直方向的投影示意图;
35.图11是本公开实施例提供的分子结构预测方法的一种可选处理流程示意图;
36.图12是本公开实施例提供的分子结构预测方法的整体处理流程示意图;
37.图13是本公开实施例提供的分子表征模型训练装置的组成结构示意图;
38.图14是本公开实施例提供的分子结构预测装置的组成结构示意图;
39.图15是用来实现本公开实施例的分子表征模型训练方法或分子结构预测方法的电子设备的框图。
具体实施方式
40.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
41.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
42.在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本公开实施例能够以除了在这里图示或描述的以外的顺序实施。
43.除非另有定义,本文所使用的所有的技术和科学术语与属于本公开的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本公开实施例的目的,不是旨在限制本公开。
44.在对本公开实施例进行详细描述之前,对本公开涉及的相关名词进行说明。
45.1)人工智能(artificial intelligence,ai):是利用数字计算机或者数字计算机控制的及其模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。机器学习(machine learning,ml)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
46.2)损失函数,用来度量模型的预测值与真实值的差异程度的运算函数,它是一个非负实值函数,损失函数越小,模型的鲁棒性就越好。
47.分子结构本质上是由多种类型的原子相互作用而构成的网络结构。分子结构中除了包括拓扑结构信息,还包括原子间的三维空间结构信息,分子中的各原子天然地分布于不同的角度和距离。三维空间具备更丰富的几何信息,如仰角和二面角等。
48.相关技术中,将一维的分子smiles格式的字符串输入深度神经网络模型中,通过对一维序列信息进行学习得到分子表征。或者,通过图卷积网络或图注意力网络对分子图进行学习,但是在对分子图进行学习时,多数仅考虑单一的距离或角度信息。上述两种学习
分子表征的方法均忽略了原子的空间分布特性,为对原子间的空间夹角、二面角和距离进行有效地整合,使得学习到的分子表征不够准确。
49.基于此,本公开提供的分子表征模型训练方法,该分子表征模型训练方法可应用于任何具备分子表征模型训练能力的电子设备,如服务器、个人电脑等。本公开提供的分子表征模型训练方法的一种可选处理流程示意图,如图1所示,至少可以包括以下步骤:
50.步骤s101,将样本分子对应的样本连接边的样本初始化边表征、样本连接边与样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到分子表征模型输出的样本分子表征信息。
51.在一些实施例中,利用样本分子集训练分子表征模型,样本分子集中包括多个样本分子,样本分子的分子式是以任意能够被电子设备识别的形式表示,如以smiles(一种用ascii字符串明确描述分子结构的规范)形式表示。样本训练集中的每个样本分子均包括标注信息,标注信息可以为该样本分子对应的真实分子表征信息。
52.在一些实施例中,样本连接边基于构成所述样本分子的各样本原子之间的距离信息构建,空间角和所述二面角为基于样本连接边构建的坐标系下的角度信息;两个样本原子构成一条样本连接边,样本连接边与样本连接边的邻边具有一个相同的样本原子。
53.在一些实施例中,确定样本分子表征信息的具体实现过程,可以如图2所示,至少包括以下步骤:
54.步骤s101a,对样本连接边的样本初始化边表征进行线性空间映射转换。
55.在一些实施例中,可通过一全连接层将样本连接边的样本初始化表征进行线性空间映射转换。
56.步骤s101b,对二面角对应的两条连接边的信息进行融合。
57.在一些实施例中,可通过一全连接层对二面角对应的两条连接边的信息进行融合。
58.步骤s101c,将经所述线性空间映射转换后的样本初始化边表征,和经融合后的两条连接边的信息输入所述分子表征模型中的边表征模型。
59.在一些实施例中,边表征模型可表示为如下公式(1)所示的函数。
[0060][0061][0062]
其中,表示第l层在第q个邻域内对样本连接边e
ij
聚合的边表征信息;布尔函数在和两条邻边在顺时针方向相邻时的值为1,否则的值为0,用于筛选邻边。
[0063]
和表示在特定邻域内进行边表征信息变换的神经网络全连接层。
[0064]
其中,
[0065][0066][0067]
用于对构成二面角的两条邻边进行编码,并提取空间角度的上下文信息。
[0068]wφ,q
表示第q个空间角度邻域学习层内用于二面角信息转换的可训练模型参数,门控循环单元(gated recurrent unit,gru)用于学习空间序列信息感知的依赖,可以充分融合多层网络叠加的空间几何信息和邻边的上下文信息。
[0069]
径向基函数(radial basis function,rbf)已经被证实对于空间信息编码十分有效,因此对于二面角度的编码,我们基于rbf将标量角度转换为有效的空间几何特征,如下公式(3)所示。
[0070][0071]
其中,其中
⌒
表示对所有标量数值进行拼接得到k维空间表征向量的符号。每个μk从0到π的范围进行均匀选择,且作为示例,若k=6,则μ1为30
°
,μ2为60
°
,μ3为90
°
,以此类推。基于均等分布的假设,rbf学习过程可以在细粒度的空间邻域切分中映射为稠密向量,从而充分地对二面角进行编码。
[0072]
本公开实施例中,分子表征模型训练过程中,融入了空间角、二面角、以及原子间的距离三种信息,提高了分子表征模型的学习能力,使得分子表征模型能够有效、准确地确定分子的分子表征。
[0073]
步骤s101d,基于所述边表征模型输出的每个空间角度邻域内针对所述样本连接边的样本边表征信息,确定所述样本分子表征信息。
[0074]
在一些实施例中,基于边表征模型输出的每个空间角度邻域内针对样本连接边的样本边表征信息,确定样本分子表征信息的一种可选处理流程,如图3所示,至少可以包括:
[0075]
步骤s101d1,将边表征模型输出的每个空间角度邻域内针对所述样本连接边的样本边表征信息进行拼接,得到所述样本连接边的目标边表征信息。
[0076]
在一些实施例中,目标边表征信息可通过下述公式(4)确定。
[0077][0078]
用于表示第n个空间角度邻域内针对样本连接边的样本边表征信息。
[0079]
步骤s101d2,分子表征模型中的池化模型对样本分子的全部样本连接边的目标边表征信息进行图池化处理,得到样本分子表征信息。
[0080]
在一些可选实施例中,池化模型可采用对每个连接边的样本边表征信息求和的方式进行池化,如下述公式(5)所示。
[0081]
[0082]
其中,表示第l个连接边的样本边表征信息,h表示样本分子表征信息。
[0083]
步骤s102,基于样本分子表征信息和样本分子的真实分子表征信息之间的差异,调整所述分子表征模型的参数。
[0084]
在一些实施例中,可以基于样本分子表征信息和样本分子的真实分子表征信息之间的差异构建损失函数;样本分子表征信息和样本分子的真实分子表征信息之间的差异越大,损失函数的值越大;样本分子表征信息和样本分子的真实分子表征信息之间的差异越小,损失函数的值越大。损失函数可以是任意形式的函数。
[0085]
在具体实施时,损失函数的形式可以根据实际的应用场景或实际的任务信息确定。作为示例,在进行分子性质预测时,可以选择l1损失函数,在进行二分类的药物-靶点相互作用(dti)性质预测时,可以选择交叉熵函数作为损失函数。
[0086]
本公开提供的分子表征模型训练方法的一种详细可选处理流程示意图,如图4所示,至少可以包括以下步骤:
[0087]
步骤s201,针对每个样本分子,基于构成所述样本分子的各样本原子之间的距离信息,构建各所述样本原子之间的样本连接边。
[0088]
在一些实施例中,利用样本分子集训练分子表征模型,样本分子集中包括多个样本分子,样本分子的分子式是以任意能够被电子设备识别的形式表示,如以smiles形式表示。样本训练集中的每个样本分子均包括标注信息,标注信息可以为该样本分子对应的真实分子表征信息。
[0089]
在一些实施例中,分子图的一种可选示意图,如图5所示。针对各种分子图,由于距离的不同,各原子之间存在多种相互作用关系;例如,原子之间的共价键存在距离在1埃米到2埃米范围内的原子之间;疏水性、范德华力等非共价键则存在于比2埃米更远的距离的原子之间。因此,原子之间的不同距离能够表征不同的原子关系,是原子十分重要的空间特征。
[0090]
在一些实施例中,基于构成所述样本分子的各样本原子之间的距离信息,构建各所述样本原子之间的样本连接边的一种可选的具体实现过程包括:确定任意两个样本原子之间的相对距离;在两个样本原子之间的相对距离小于距离阈值的情况下,构建所述两个样本原子之间的样本连接边。其中,样本原子为构成样本分子的原子,距离阈值可根据实际的应用场景灵活设置,如距离阈值可设置为5埃米或其他值。在确定任意两个样本原子之间的相对距离时,可以先确定两个样本原子在同一个笛卡尔坐标系下的坐标信息,再根据两个样本原子分别对应的坐标信息确定两个样本原子之间的相对距离。
[0091]
在一些实施例中,样本连接边的一种可选示意图,如图6所示,原子ai与原子a1、原子a2、原子a3、原子a4、原子a5、原子a6和原子a7之间的距离均小于距离阈值,因此,分别构建原子ai与原子a1、原子a2、原子a3、原子a4、原子a5、原子a6和原子a7之间的样本连接边。
[0092]
步骤s202,基于样本连接边构建坐标系,确定坐标系下,每个所述样本连接边与样本连接边的邻边之间的空间角和二面角。
[0093]
在一些可选实施例中,在构建完成样本连接边之后,获取样本连接边中的角度空间属性;角度空间属性可以包括:样本连接边与所述样本连接边的邻边之间的空间角和二面角。
[0094]
在一些可选实施例中,以图6所示的球坐标系为例,样本连接边为由原子ai和原子aj构成的边,ai为样本连接边的起始点,以由原子ai和原子aj构成的样本连接边为z轴建立球坐标系,球坐标系中垂直于原子ai和原子aj构成的样本连接边的最大平面为参考平面。基于图6,可以确定样本连接边与任意一条样本连接边的邻边之间的空间角和二面角;作为示例,样本连接边与原子a2和原子ai构成的邻边之间的空间角为θ2,样本连接边与原子a1和原子ai构成的邻边之间的空间角为θ1,样本连接边与原子a3和原子ai构成的邻边之间的空间角为θ3。原子a2和原子ai构成的邻边在参考平面上的投影,与原子a1和原子ai构成的邻边在参考平面上的投影之间的夹角为二面角。
[0095]
基于上述可选实施例,确定坐标系下每个样本连接边与样本连接边的邻边之间的空间角和二面角的一种可选处理流程,如图7所示,可以包括:
[0096]
步骤s202a,针对每个样本分子构建球坐标系。
[0097]
在一些实施例中,可以以样本分子中任意两个原子构成的样本连接边为球坐标系的z轴构建球坐标系。
[0098]
步骤s202b,确定样本连接边在球坐标系的水平投影,得到样本分子中各样本原子的平面视图。
[0099]
在一些实施例中,首先基于所述样本连接边,将球坐标系划分为n个空间角度邻域;再确定每个空间角度邻域在球坐标系的水平投影,最后确定样本连接边在球坐标系的水平投影。
[0100]
在一些实施例中,以图6所示的球坐标系为例,球坐标系中包括三个空间角度邻域,即n=3;将三个空间角度邻域在球坐标系的水平方向投影,得到如图8所示的平面视图,基于图8所示的平面视图,能够确定样本分子中各样本原子的平面视图。如此,通过将球坐标系划分为多个空间角度邻域,使得连接边的表征信息中携带空间角的信息。
[0101]
在一些可选实施例中,将球坐标系划分为n个空间角度邻域的一种可选处理流程,如图9所示,至少包括以下步骤:
[0102]
步骤s202b1,基于样本连接边,将球坐标系划分为x个候选空间角度邻域。
[0103]
在一些实施例中,可以基于所述样本连接边对应的两个样本原子的样本初始化原子特征、以及所述两个样本原子之间的距离表征向量,确定各所述样本原子所述样本连接边的样本初始化边特征。在具体实施时,可以通过聚合样本连接边两端的原子ai和aj得到样本连接边e
ij
的样本初始化边表征,并在聚合的过程中嵌入角度信息;样本连接边e
ij
的样本初始化边表征,如下公式(6)所示:
[0104]eij
=σ(wa·
[ai||aj||d
ij
])
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)
[0105]
其中,||表示拼接操作,可以使用relu函数作为激活函数σ,wa是可训练的模型参数矩阵,ai和aj表示输入的初始化原子特征,d
ij
表示距离表征向量;d
ij
可以通过距离离散化、径向基函数等方式对距离r进行编码得到,对距离r进行编码的过程可采用现有技术,本公开不再赘述。通过步骤b1可以得到样本边的样本初始化边表征,并能够融合各样本原子的重要的空间距离属性。
[0106]
在一些实施例中,根据样本连接边与各邻边的空间角度将分子结构对应的球坐标系划分为x个候选角度邻域;作为示例,x=3。
[0107]
步骤s202b2,确定每个候选空间角度邻域内的邻边构成的集合。
[0108]
在一些实施例中,基于图8所示的平面视图可以确定,每条邻居边在平面视图内均可以由距离r和空间角度θ进行定位,邻域划分器可根据θ确定各空间角度邻域的编号,用于确定空间角度邻域的编号的公式如下公式(7)所示:
[0109][0110]
其中,ind
ki
表示空间角度邻域的编号,q为空间角度邻域的数量;e
ij
表示样本连接边,e
ki
表示样本连接边的邻边,表示取整符号,θ
kij
∈[0,360
°
]表示边e
ij
与e
ki
之间的夹角。
[0111]
基于每个邻边所在的空间角度邻域,可以确定位于第q个空间角度邻域的邻边子集合如下公式(8)所示:
[0112][0113]
其中,ind
ki
=q表示空间角度邻域的编号为q,表示在空间角度邻域内的样本连接边的邻边的集合。
[0114]
步骤s202b3,基于每个空间角度邻域在球坐标系水平方向的投影,和每个所述候选空间角度邻域内的邻边构成的集合,将x个候选空间角度邻域更新为n个空间角度邻域。
[0115]
在一些实施例中,在已划分空间角度邻域的邻边子集合的情况下,可以通过邻域划分器对所有的邻边进行领域的重新划分。在具体实施时,对每个候选空间角度邻域在水平方向投影上形成一个球面锥,每个球面锥内存在多个局部空间内的邻边。根据每个候选空间监督邻域内的邻边构成的集合确定n个空间角度邻域。因此,本公开实施例中,空间角度邻域中携带了空间角度θ的信息。
[0116]
本公开实施例中,通过划分空间角度邻域,可以缓解空间上由于稠密邻边分布导致的不利于模型学习的问题。
[0117]
在一些实施例中,n和x可以为相同值,将x个候选空间角度邻域更新为n个空间角度邻域时,可以是空间角度邻域数量的更新,如从3个候选空间角度邻域更新为4个空间角度邻域。也可以是每个空间角度邻域内的连接边发生变化,如从3个候选空间角度邻域更新为3个空间角度邻域,至少一个空间角度邻域内的邻边与对应的候选空间角度邻域内的邻边不完全相同。
[0118]
步骤s202c,基于各样本原子的平面视图,确定每个样本连接边与样本连接边的邻边之间的空间角。
[0119]
步骤s202d,基于每个样本连接边与样本连接边的邻边之间的空间角,确定二面角。
[0120]
在一些实施例中,确定二面角的具体实现过程可以包括:基于每个所述空间角度邻域在所述球坐标系垂直方向的投影,确定n个二维邻域平面;确定每个二维邻域平面中任意两条边之间的夹角为:所述样本连接边分别与两个邻边所构成的两个面之间的二面角。
[0121]
在一些实施例中,图6所示的空间角度邻域在球坐标系垂直方向的投影,如图10所示,包括三个二维邻域平面;其中,二维邻域平面a1和二维邻域平面a2中存在两条边,a1和
a2中分别包括两个二面角;二维邻域平面a3中存在三条边,包括三个二面角。在任意一个邻域平面内的二面角之和为360
°
。
[0122]
步骤s203,将样本分子对应的样本连接边的样本初始化边表征、样本连接边与样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到分子表征模型输出的样本分子表征信息。
[0123]
步骤s204,基于样本分子表征信息和样本分子的真实分子表征信息之间的差异,调整所述分子表征模型的参数。
[0124]
在一些实施例中,步骤s203至步骤s204的具体实现过程与步骤s101至步骤s102的具体实现过程相同,这里不再赘述。
[0125]
本公开实施例还提供一种分子结构预测方法,本公开实施例提供的分子结构预测方法可以应用于任意具备分子结构预测能力的电子设备,本公开实施例提供的分子表征模型训练方法与本公开实施例提供的分子结构预测方法的执行主体可以相同,也可以不同。
[0126]
本公开实施例提供的分子结构预测方法的一种可选处理流程,至少可以包括:
[0127]
将连接边的初始化边表征、连接边与连接边的邻边之间的空间角和二面角输入分子表征模型,得到待测分子的分子表征信息;所述分子表征信息用于确定所述待测分子的分子结构。
[0128]
在一些实施例中,所述连接边基于构成所述待测分子的各原子之间的距离信息构建,所述空间角和所述二面角为基于所述连接边构建的坐标系下的角度信息;待测分子的两个原子构成一个连接边,连接边与连接边的邻边具有一个相同的原子。
[0129]
在一些实施例中,分子表征模型为基于图1所述分子表征模型训练方法训练得到的神经网络模型。
[0130]
本公开实施例提供的分子结构预测方法的一种详细可选处理流程示意图,如图11所示,至少可以包括:
[0131]
步骤s401,基于待测分子的各原子之间的距离信息,构建各所述原子之间的连接边。
[0132]
在一些实施例中,基于待测分子的各原子之间的距离信息,构建各所述原子之间的连接边的处理过程,可以与步骤s201中基于构成样本分子的各样本原子之间的距离信息,构建各样本原子之间的样本连接边的处理过程相同,这里不再赘述。
[0133]
步骤s402,基于连接边构建坐标系,确定所述坐标系下,每个连接边与连接边的邻边之间的空间角和二面角。
[0134]
在一些实施例中,确定每个连接边与连接边的邻边之间的空间角和二面角的处理过程,可以与步骤s202中确定样本连接边与样本连接边的邻边之间的空间角和二面角的处理过程相同,这里不再赘述。
[0135]
步骤s403,将连接边的初始化边表征、连接边与连接边的邻边之间的空间角和二面角输入分子表征模型,得到待测分子的分子表征信息;所述分子表征信息用于确定所述待测分子的分子结构。
[0136]
在一些实施例中,分子表征模型为基于图1所示的分子表征模型训练方法训练得到的神经网络模型。
[0137]
基于图1至图11所示,本公开实施例提供的分子结构预测方法的整体处理流程示
意图,如图12所示,确定待测分子图后,根据待测分子图构建连接边;将连接边示意图输入预先训练的分子表征模型,分子表征模型中的节点-边转换层对输入的连接边示意图进行转换,之后经过2个边-边几何感知层以及边-节点转换层处理后,经分子图池化处理,得到分子表征信息;根据分子表征信息执行分子性质预测等下游任务。
[0138]
本公开实施例还提供一种分子表征模型训练装置,所述分子表征模型训练装置的组成结构,如图13所示,包括:
[0139]
第一处理模块501,用于将样本分子对应的样本连接边的样本初始化边表征、所述样本连接边与样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到所述分子表征模型输出的样本分子表征信息;
[0140]
模型训练模块502,用于基于所述样本分子表征信息和所述样本分子的真实分子表征信息之间的差异,调整所述分子表征模型的参数;
[0141]
其中,所述样本连接边基于构成所述样本分子的各样本原子之间的距离信息构建,所述空间角和所述二面角为基于所述样本连接边构建的坐标系下的角度信息,所述样本连接边与所述样本连接边的邻边具有一个共同的样本原子。
[0142]
在一些可选实施例中,分子表征模型训练装置还包括:第一构建模块(图13中未示出),用于确定所述样本分子中任意两个样本原子之间的相对距离;
[0143]
在两个样本原子之间的相对距离小于距离阈值的情况下,构建所述两个样本原子之间的样本连接边。
[0144]
在一些可选实施例中,分子表征模型训练装置还包括:第一空间角度信息确定模块(图13中未示出),用于针对每个所述样本分子构建球坐标系;
[0145]
确定所述样本连接边在所述球坐标系的水平投影,得到所述样本分子中各所述样本原子的平面视图;
[0146]
基于所述各样本原子的平面视图,确定每个所述样本连接边与所述样本连接边的邻边之间的空间角;
[0147]
基于每个所述样本连接边与所述样本连接边的邻边之间的空间角,确定二面角。
[0148]
在一些可选实施例中,第一空间角度信息确定模块,用于基于所述样本连接边,将所述球坐标系划分为n个空间角度邻域,n大于或等于2;
[0149]
基于每个所述空间角度邻域在所述球坐标系垂直方向的投影,确定n个二维邻域平面;
[0150]
确定每个二维邻域平面中任意两条边之间的夹角为:所述样本连接边分别与两个邻边所构成的两个面之间的二面角。
[0151]
在一些可选实施例中,第一空间角度信息确定模块,用于基于所述样本连接边,将所述球坐标系划分为x个候选空间角度邻域;
[0152]
确定每个所述候选空间角度邻域内的邻边构成的集合;
[0153]
基于每个所述空间角度邻域在所述球坐标系水平方向的投影,和所述每个所述候选空间角度邻域内的邻边构成的集合,将所述x个候选空间角度邻域更新为n个空间角度邻域。
[0154]
在一些可选实施例中,第一构建模块,还用于基于所述样本连接边对应的两个样本原子的样本初始化原子特征、以及所述两个样本原子之间的距离表征向量,确定各所述
样本原子所述样本连接边的样本初始化边特征。
[0155]
在一些可选实施例中,第一处理模块501,用于对所述样本连接边的样本初始化边表征进行线性空间映射转换;
[0156]
对所述二面角对应的两条连接边的信息进行融合;
[0157]
将经所述线性空间映射转换后的样本初始化边表征,和经融合后的两条连接边的信息输入所述分子表征模型中的边表征模型;
[0158]
基于所述边表征模型输出的每个空间角度邻域内针对所述样本连接边的样本边表征信息,确定所述样本分子表征信息。
[0159]
在一些可选实施例中,第一处理模块501,用于将所述边表征模型输出的每个空间角度邻域内针对所述样本连接边的样本边表征信息进行拼接,得到所述样本连接边的目标边表征信息;
[0160]
所述分子表征模型中的池化模型对所述样本分子的全部样本连接边的目标边表征信息进行图池化处理,得到所述样本分子表征信息。
[0161]
本公开实施例还提供一种分子结构预测装置,所述分子结构预测装置的组成结构,如图14所示,包括:
[0162]
第二处理模块601,用于将待测分子包括的连接边的初始化边表征、所述连接边与所述连接边的邻边之间的空间角和二面角输入分子表征模型,得到所述待测分子的分子表征信息;所述分子表征信息用于确定所述待测分子的分子结构;
[0163]
其中,所述连接边基于构成所述待测分子的各原子之间的距离信息构建,所述空间角和所述二面角为基于所述连接边构建的坐标系下的角度信息,所述连接边与所述连接边的邻边具有一个相同的原子,所述分子表征模型通过上述分子表征模型训练方法训练得到。
[0164]
在一些实施例中,分子结构预测装置还包括第二构建模块(图14中未示出),用于基于待测分子的各原子之间的距离信息,构建各所述原子之间的连接边;
[0165]
第二空间角度信息确定模块(图14中未示出),用于基于所述连接边构建坐标系,确定所述坐标系下,每个所述连接边与所述连接边的邻边之间的空间角和二面角。
[0166]
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0167]
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0168]
图15示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。在一些可选实施例中,电子设备800可以是终端设备,也可以是服务器。在一些可选实施例中,电子设备800可以通过运行计算机程序来实现本技术实施例提供的分子表征模型训练方法或分子结构预测方法,例如,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(native)应用程序(application,app),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意app中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
[0169]
在实际应用中,电子设备800可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存
储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器,其中,云技术(cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。电子设备800可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等,但并不局限于此。
[0170]
电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备、车载终端和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0171]
如图15所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序,来执行各种适当的动作和处理。在ram 803中,还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0172]
电子设备800中的多个部件连接至i/o接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0173]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如分子表征模型训练方法或分子结构预测方法。例如,在一些可选实施例中,分子表征模型训练方法或分子结构预测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些可选实施例中,计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到电子设备800上。当计算机程序加载到ram 803并由计算单元801执行时,可以执行上文描述的分子表征模型训练方法或分子结构预测方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为分子表征模型训练方法或分子结构预测方法。
[0174]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0175]
用于实施本公开的分子表征模型训练方法或分子结构预测方法的程序代码可以
采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0176]
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0177]
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0178]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
[0179]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
[0180]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
[0181]
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
技术特征:1.一种分子表征模型训练方法,包括:将样本分子对应的样本连接边的样本初始化边表征、所述样本连接边与样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到所述分子表征模型输出的样本分子表征信息;基于所述样本分子表征信息和样本分子的真实分子表征信息之间的差异,调整所述分子表征模型的参数;其中,所述样本连接边基于构成所述样本分子的各样本原子之间的距离信息构建,所述空间角和所述二面角为基于所述样本连接边构建的坐标系下的角度信息,所述样本连接边与所述样本连接边的邻边具有一个共同的样本原子。2.根据权利要求1所述的方法,其中,所述方法还包括:确定所述样本分子中任意两个样本原子之间的相对距离;在所述两个样本原子之间的相对距离小于距离阈值的情况下,构建所述两个样本原子之间的样本连接边。3.根据权利要求1所述的方法,其中,所述方法还包括:针对所述样本分子构建球坐标系;确定所述样本连接边在所述球坐标系的水平投影,得到所述样本分子中各所述样本原子的平面视图;基于所述各样本原子的平面视图,确定每个所述样本连接边与所述样本连接边的邻边之间的空间角;基于每个所述样本连接边与所述样本连接边的邻边之间的空间角,确定二面角。4.根据权利要求3所述的方法,其中,所述基于每个所述样本连接边与所述样本连接边的邻边之间的空间角,确定二面角包括:基于所述样本连接边,将所述球坐标系划分为n个空间角度邻域,n大于或等于2;基于每个所述空间角度邻域在所述球坐标系垂直方向的投影,确定n个二维邻域平面;确定每个二维邻域平面中任意两条边之间的夹角为:所述样本连接边分别与两个邻边所构成的两个面之间的二面角。5.根据权利要求4所述的方法,其中,所述基于所述样本连接边,将所述球坐标系划分为n个空间角度邻域包括:基于所述样本连接边,将所述球坐标系划分为x个候选空间角度邻域;确定每个所述候选空间角度邻域内的邻边构成的集合;基于每个所述空间角度邻域在所述球坐标系水平方向的投影,和所述每个所述候选空间角度邻域内的邻边构成的集合,将所述x个候选空间角度邻域更新为n个空间角度邻域。6.根据权利要求1所述的方法,其中,所述方法还包括:基于所述样本连接边对应的两个样本原子的样本初始化原子特征、以及所述两个样本原子之间的距离表征向量,确定各所述样本原子所述样本连接边的样本初始化边特征。7.根据权利要求1所述的方法,其中,所述将所述样本连接边的样本初始化边表征、所述样本连接边与所述样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到所述分子表征模型输出的样本分子表征信息包括:对所述样本连接边的样本初始化边表征进行线性空间映射转换;
对所述二面角对应的两条连接边的信息进行融合;将经所述线性空间映射转换后的样本初始化边表征,和经融合后的两条连接边的信息输入所述分子表征模型中的边表征模型;基于所述边表征模型输出的每个空间角度邻域内针对所述样本连接边的样本边表征信息,确定所述样本分子表征信息。8.根据权利要求1所述的方法,其中,所述基于所述边表征模型输出的每个空间角度邻域内针对所述样本连接边的样本边表征信息,确定所述样本分子表征信息包括:将所述边表征模型输出的每个空间角度邻域内针对所述样本连接边的样本边表征信息进行拼接,得到所述样本连接边的目标边表征信息;所述分子表征模型中的池化模型对所述样本分子的全部样本连接边的目标边表征信息进行图池化处理,得到所述样本分子表征信息。9.一种分子结构预测方法,所述方法包括:将待测分子包括的连接边的初始化边表征、所述连接边与连接边的邻边之间的空间角和二面角输入分子表征模型,得到所述待测分子的分子表征信息;所述分子表征信息用于确定所述待测分子的分子结构;其中,所述连接边基于构成所述待测分子的各原子之间的距离信息构建,所述空间角和所述二面角为基于所述连接边构建的坐标系下的角度信息,所述连接边与所述连接边的邻边具有一个相同的原子,所述分子表征模型通过如权利要求1至8任一项所述的分子表征模型训练方法训练得到。10.一种分子表征模型训练装置,所述分子表征模型训练装置包括:第一处理模块,用于将样本分子对应的样本连接边的样本初始化边表征、所述样本连接边与样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到所述分子表征模型输出的样本分子表征信息;模型训练模块,用于基于所述样本分子表征信息和样本分子的真实分子表征信息之间的差异,调整所述分子表征模型的参数;其中,所述样本连接边基于构成所述样本分子的各样本原子之间的距离信息构建,所述空间角和所述二面角为基于所述样本连接边构建的坐标系下的角度信息,所述样本连接边与所述样本连接边的邻边具有一个相同的样本原子。11.一种分子结构预测装置,所述分子结构预测装置包括:第二处理模块,用于将待测分子包括的连接边的初始化边表征、所述连接边与连接边的邻边之间的空间角和二面角输入分子表征模型,得到所述待测分子的分子表征信息;所述分子表征信息用于确定所述待测分子的分子结构;其中,所述连接边基于构成所述待测分子的各原子之间的距离信息构建,所述空间角和所述二面角为基于所述连接边构建的坐标系下的角度信息,所述连接边与所述连接边的邻边具有一个相同的原子,所述分子表征模型通过如权利要求1至8任一项所述的分子表征模型训练方法训练得到。12.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法、或执行权利要求9所述的方法。13.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法、或执行权利要求9所述的方法。14.一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1至8中任一项所述的方法、或实现权利要求9所述的方法。
技术总结本公开提供了一种分子表征模型训练方法、装置及电子设备,涉及人工智能技术领域,尤其涉及深度学习技术领域。具体实现方案为:将样本分子对应的样本连接边的样本初始化边表征、所述样本连接边与样本连接边的邻边之间的空间角和二面角作为分子表征模型的输入,得到所述分子表征模型输出的样本分子表征信息;基于所述样本分子表征信息和所述样本分子的真实分子表征信息之间的差异,调整所述分子表征模型的参数;其中,所述样本连接边基于构成所述样本分子的各样本原子之间的距离信息构建,所述空间角和所述二面角为基于所述样本连接边构建的坐标系下的角度信息,所述样本连接边与所述样本连接边的邻边具有一个相同的样本原子。子。子。
技术研发人员:周景博 李双利 窦德景
受保护的技术使用者:百度在线网络技术(北京)有限公司
技术研发日:2022.07.15
技术公布日:2022/11/1