1.本发明涉及材料辐照效应领域和数据挖掘技术领域,尤其涉及一种基于材料数值计算大数据的级联缺陷团簇分类方法。
背景技术:2.核反应堆材料经高能粒子轰击,会发生级联碰撞,产生辐照损伤。数值核反应堆模拟产生的材料数值计算大数据包含不同计算尺度和服役环境下的大量辐照损伤信息,它们都属于与材料辐照损伤相关的计算数据,相互之间存在密不可分的联系。通过对这些数据间关联性的研究,进一步挖掘分析数据中的重要物理信息,能够获取有关核反应堆材料辐照效应、材料机理的新认识,从而以更加清晰、直观的形式呈现出材料数值计算大数据所蕴含的价值。
3.级联碰撞形成的缺陷团簇结构对辐照过程中的微观结构演变起着重要作用,为了促进核材料辐照损伤的研究,需要对缺陷团簇进行几何形状分类以获得不同的团簇形状,探究团簇类型和数量与实验环境之间的联系。在三维空间坐标下描述团簇结构的相关研究中,团簇空间结构下的几何形状常常受到空间平移、旋转和缩放的影响,使得具有相似几何形状的团簇在空间内被划分到不同团簇类别下,因此需要一种能够对坐标数据进行特征提取的方法,最大限度地保证团簇的平移旋转不变性。同时,数值模拟得到材料数值计算大数据具有数据量大的特点,从数据中提取出的特征向量也会产生维度过高的现象,容易引起维数灾难的问题。由于级联碰撞后的结果数据通常是相关原子的坐标数据,无法直观地发现其隐含的信息价值,例如团簇的类型以及团簇分类结果,因此需要采用聚类算法对它们进行类别划分并可视化。
4.本发明提供一种基于材料数值计算大数据的缺陷团簇聚类方法,以解决噪声大、灵活性不高的团簇信息特征化描述影响分类效果的问题。
技术实现要素:5.本发明公开一种基于材料数值计算大数据的级联缺陷团簇分类方法,旨在解决噪声大、灵活性不高的团簇信息特征化描述影响分类效果的技术问题。
6.为了实现上述目的,本发明采用了如下技术方案:
7.一种基于材料数值计算大数据的级联缺陷团簇分类方法,包括以下具体步骤:
8.s1:获取三维坐标:获取团簇内各个点缺陷三维坐标;
9.s2:计算距离与角度:计算出相邻点缺陷间的距离与角度;
10.s3:统计数目:将计算所得的距离和角度结果映射到不同区间,统计每个区间的数目;
11.s4:计算缺陷团簇特征向量:基于团簇内相邻点缺陷的距离和角度来描述团簇几何形状,利用各个点缺陷的三维空间坐标计算得到每个团簇的特征向量;
12.s5:降维:采用umap算法对得到的高维特征向量进行降维,获取数据间的低维结
构;
13.s6:聚类:采用基于密度的聚类算法hdbscan可视化团簇分类结果,将轮廓系数作为聚类效果的评价指标;
14.s7:可视化团簇分类结果:对团簇分类结果进行处理,使其可视化。
15.通过基于团簇内相邻点缺陷的距离和角度来描述团簇几何形状,利用各个点缺陷的三维空间坐标计算得到每个团簇的特征向量,并采用umap算法对得到的高维特征向量进行降维,获取数据间的低维结构,从而对材料辐照级联碰撞缺陷团簇进行识别和分类,进而挖掘材料缺陷团簇演化机理,建立实验环境及团簇特点和性质之间的联系,使团簇分类方法能够简单灵活地表征团簇几何形状且计算效率高,消除相同几何形状团簇在平移、缩放和旋转的影响下带来的噪声,定性地确定团簇与团簇之间全局和局部的关系,分析得到实验环境与团簇特点和性质之间的联系,为挖掘发现团簇性质及其影响奠定了基础,解决了噪声大、灵活性不高的团簇信息特征化描述影响分类效果的问题。
16.在一个优选的方案中,所述s4中,计算缺陷团簇特征向量包括以下具体步骤:
17.s41:存储特征向量:创建distance_array和angle_array分别存储距离特征向量和角度特征向量;
18.s42:计算相邻缺陷原子距离:遍历团簇内点缺陷,计算出相邻两个缺陷原子的距离,以及相邻缺陷原子相对于第三个缺陷原子的角度;
19.s43:除以距离最大值:将每个距离都除以距离最大值,此时距离所在范围为0≤d≤1;
20.所述s4中,计算缺陷团簇特征向量包括以下具体步骤:
21.s44:处理区间距离数目:以最大距离划分m个区间,将每个距离映射到相应的区间,统计落到每个区间内的距离数目,并进行归一化处理,得到m维距离特征向量;
22.s45:除以区间角度:每个角度都除以区间角度α,其中区间角度根据需要划分的区间数n进行设定,统计落到每个区间内的角度数目,并进行归一化处理,得到n维角度特征向量;
23.s46:构建缺陷团簇特征向量:以上步骤计算所得的m维距离特征向量和n维角度特征向量构成缺陷团簇的m+n维特征向量,并跳转至降维;
24.所述s42中,计算相邻缺陷原子距离的其中两个缺陷原子相对于第三个缺陷原子所形成的角度范围为0≤θ≤180
°
。
25.通过将每个距离都除以距离最大值,可以消除空间内团簇形状旋转、缩放对团簇几何特征的影响,保证了团簇几何特征的稳定性,同时通过以缺陷团簇中各个点缺陷的三维空间坐标系为输入,特征化其几何形状,在最大程度上保留原数据信息的前提下降维处理高维特征空间。
26.在一个优选的方案中,所述s5中,降维包括以下具体步骤:
27.s51:设定参数:设定umap算法中的参数n_components、n_neighbors、min_dist,达到不同的降维效果;
28.s52:构造近邻图:假设团簇的m+n高维特征向量数据样本均匀分布在拓扑空间中,使用knn算法找到最近邻,构造团簇中各点缺陷特征向量分布的加权k近邻图;
29.s53:执行算法:将得到的高维团簇特征向量映射到低维空间,执行umap算法,实现
降维;
30.所述s51,设定参数中,参数n_components为团簇特征空间降维后的维度,将n_components设定为2,使得团簇特征空间降到二维直接进行可视化,区分出团簇类型,参数n_neighbors为最近邻点的数量,较小的值以团簇的局部结构为主进行划分,较大的值倾向于团簇的整体结构,min_dist为每个团簇高维特征向量空间降为低维空间点之间的最小距离;
31.所述s6,聚类包括以下具体步骤:
32.s61:设定参数聚类效果:设定hdbsca算法中的参数min_cluster_size和min_samples;
33.s62:执行hdbscan算法:根据降维后得到的低维空间特征向量执行hdbscan算法,进行聚类,得到分类后的团簇类别标签;
34.s63:计算聚类结果:将低维空间特征向量和标签作为输入,计算聚类结果好坏,并将轮廓系数作为团簇聚类的评价指标,轮廓系数的取值范围是[-1,1],具有相似几何形状的团簇样本距离越相近,几何形状差别大的团簇样本距离越远,值越高;
[0035]
s64:判定轮廓系数值:若轮廓系数值不理想,则跳转至s5,降维步骤,重新设定参数,直至聚类效果达到理想效果;
[0036]
所述s61中,设定参数聚类效果中参数min_cluster_size为每一团簇类别中至少包含的团簇数目,参数值越大,团簇类别越少;参数min_samples为一个点邻域内包含的团簇数目,参数值越大,聚类就越保守,更多的点被视为噪声。
[0037]
通过设定的参数n_neighbors中较小的值以团簇的局部结构为主进行划分,较大的值倾向于团簇的整体结构,从而损失局部结构细节的精度,适当的设定该参数大小,权衡团簇的局部结构和全局结构,能够提高后续聚类效果,而通过设置的min_dist为每个团簇高维特征向量空间降为低维空间点之间的最小距离,数值越低,嵌入到低维空间的点就越紧密,更关注团簇的局部结构,而更大的数值则会关注团簇的全局结构,产生较多的噪音,随着该参数数值大小的增加,有效减小聚类的种类。
[0038]
由上可知,一种基于材料数值计算大数据的级联缺陷团簇分类方法,包括以下具体步骤:
[0039]
s1:获取三维坐标:获取团簇内各个点缺陷三维坐标;
[0040]
s2:计算距离与角度:计算出相邻点缺陷间的距离与角度;
[0041]
s3:统计数目:将计算所得的距离和角度结果映射到不同区间,统计每个区间的数目;
[0042]
s4:计算缺陷团簇特征向量:基于团簇内相邻点缺陷的距离和角度来描述团簇几何形状,利用各个点缺陷的三维空间坐标计算得到每个团簇的特征向量;
[0043]
s5:降维:采用umap算法对得到的高维特征向量进行降维,获取数据间的低维结构;
[0044]
s6:聚类:采用基于密度的聚类算法hdbscan可视化团簇分类结果,将轮廓系数作为聚类效果的评价指标;
[0045]
s7:可视化团簇分类结果:对团簇分类结果进行处理,使其可视化。本发明提供的基于材料数值计算大数据的级联缺陷团簇分类方法具有解决噪声大、灵活性不高的团簇信
息特征化描述影响分类效果的问题的技术效果。
附图说明
[0046]
图1为本发明提出的一种基于材料数值计算大数据的级联缺陷团簇分类方法的整体流程图。
[0047]
图2为本发明提出的一种基于材料数值计算大数据的级联缺陷团簇分类方法的计算缺陷团簇特征向量流程图。
[0048]
图3为本发明提出的一种基于材料数值计算大数据的级联缺陷团簇分类方法的降维流程图。
[0049]
图4为本发明提出的一种基于材料数值计算大数据的级联缺陷团簇分类方法的聚类流程图。
[0050]
图5为本发明提出的一种基于材料数值计算大数据的级联缺陷团簇分类方法的材料级联碰撞数值计算大数据的团簇分类方法团簇结构示意图。
[0051]
图6为本发明提出的一种基于材料数值计算大数据的级联缺陷团簇分类方法的材料级联碰撞数值计算大数据的团簇分类方法特征提取示意图。
[0052]
图7为本发明提出的一种基于材料数值计算大数据的级联缺陷团簇分类方法的材料级联碰撞数值计算大数据的团簇分类方法伪代码示意图。
具体实施方式
[0053]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
[0054]
本发明公开的一种基于材料数值计算大数据的级联缺陷团簇分类方法主要应用于材料辐照效应领域和数据挖掘的场景。
[0055]
参照图1和图5,一种基于材料数值计算大数据的级联缺陷团簇分类方法,包括以下具体步骤:
[0056]
s1:获取三维坐标:获取团簇内各个点缺陷三维坐标;
[0057]
s2:计算距离与角度:计算出相邻点缺陷间的距离与角度;
[0058]
s3:统计数目:将计算所得的距离和角度结果映射到不同区间,统计每个区间的数目;
[0059]
s4:计算缺陷团簇特征向量:基于团簇内相邻点缺陷的距离和角度来描述团簇几何形状,利用各个点缺陷的三维空间坐标计算得到每个团簇的特征向量;
[0060]
s5:降维:采用umap算法对得到的高维特征向量进行降维,获取数据间的低维结构;
[0061]
s6:聚类:采用基于密度的聚类算法hdbscan可视化团簇分类结果,将轮廓系数作为聚类效果的评价指标;
[0062]
s7:可视化团簇分类结果:对团簇分类结果进行处理,使其可视化;
[0063]
如图5所示,数值模拟计算得到级联碰撞后产生的缺陷原子三维坐标,根据并查集算法将它们划分为多个团簇,每个团簇内包含若干个点缺陷,在每个团簇内计算出相邻点缺陷之间的距离和角度,基于距离和角度对团簇进行特征提取,将这两个物理信息作为描
述团簇空间几何形状的特征向量,采用非线性降维umap算法处理多维特征向量,然后通过hdbscan聚类算法进一步聚类分析,从而实现团簇分类结果的可视化。
[0064]
参照图2和图6,在一个优选的实施方式中,s4中,计算缺陷团簇特征向量包括以下具体步骤:
[0065]
s41:存储特征向量:创建distance_array和angle_array分别存储距离特征向量和角度特征向量;
[0066]
s42:计算相邻缺陷原子距离:遍历团簇内点缺陷,计算出相邻两个缺陷原子的距离,以及相邻缺陷原子相对于第三个缺陷原子的角度;
[0067]
s43:除以距离最大值:将每个距离都除以距离最大值,此时距离所在范围为0≤d≤1;
[0068]
如图6所示,为两个具有相似结构的团簇,它们由空位和间隙原子组成,采用基于相邻点缺陷计算距离和角度的意义在于对应环的部分将具有相同的值,而带尾的结构将产生额外的值附加到直方图中,因此它们对应的特征向量具有相同的部分,表明这两个团簇结构相似。
[0069]
参照图2和图7,在一个优选的实施方式中,s4中,计算缺陷团簇特征向量包括以下具体步骤:
[0070]
s44:处理区间距离数目:以最大距离划分m个区间,将每个距离映射到相应的区间,统计落到每个区间内的距离数目,并进行归一化处理,得到m维距离特征向量;
[0071]
s45:除以区间角度:每个角度都除以区间角度α,其中区间角度根据需要划分的区间数n进行设定,统计落到每个区间内的角度数目,并进行归一化处理,得到n维角度特征向量;
[0072]
s46:构建缺陷团簇特征向量:以上步骤计算所得的m维距离特征向量和n维角度特征向量构成缺陷团簇的m+n维特征向量,并跳转至降维;
[0073]
如图7所示,图中为m维距离特征向量和n维角度特征向量组成的m+n维缺陷团簇特征向量,其中,距离所对应的特征向量由相邻缺陷原子距离与最大距离的商值映射到n个区间得到,角度所对应的特征向量由相邻缺陷原子间的角度与设置好的区间角度的商值映射到m个区间得到。
[0074]
参照图2,在一个优选的实施方式中,s42中,计算相邻缺陷原子距离的其中两个缺陷原子相对于第三个缺陷原子所形成的角度范围为0≤θ≤180
°
。
[0075]
参照图3,在一个优选的实施方式中,s5中,降维包括以下具体步骤:
[0076]
s51:设定参数:设定umap算法中的参数n_components、n_neighbors、min_dist,达到不同的降维效果;
[0077]
s52:构造近邻图:假设团簇的m+n高维特征向量数据样本均匀分布在拓扑空间中,使用knn算法找到最近邻,构造团簇中各点缺陷特征向量分布的加权k近邻图;
[0078]
s53:执行算法:将得到的高维团簇特征向量映射到低维空间,执行umap算法,实现降维。
[0079]
参照图3,在一个优选的实施方式中,s51,设定参数中,参数n_components为团簇特征空间降维后的维度,将n_components设定为2,使得团簇特征空间降到二维直接进行可视化,区分出团簇类型,参数n_neighbors为最近邻点的数量,较小的值以团簇的局部结构
为主进行划分,较大的值倾向于团簇的整体结构,min_dist为每个团簇高维特征向量空间降为低维空间点之间的最小距离。
[0080]
参照图4,在一个优选的实施方式中,s6,聚类包括以下具体步骤:
[0081]
s61:设定参数聚类效果:设定hdbsca算法中的参数min_cluster_size和min_samples;
[0082]
s62:执行hdbscan算法:根据降维后得到的低维空间特征向量执行hdbscan算法,进行聚类,得到分类后的团簇类别标签;
[0083]
s63:计算聚类结果:将低维空间特征向量和标签作为输入,计算聚类结果好坏,并将轮廓系数作为团簇聚类的评价指标,轮廓系数的取值范围是[-1,1],具有相似几何形状的团簇样本距离越相近,几何形状差别大的团簇样本距离越远,值越高;
[0084]
s64:判定轮廓系数值:若轮廓系数值不理想,则跳转至s5,降维步骤,重新设定参数,直至聚类效果达到理想效果。
[0085]
参照图4和图7,在一个优选的实施方式中,s61中,设定参数聚类效果中参数min_cluster_size为每一团簇类别中至少包含的团簇数目,参数值越大,团簇类别越少;参数min_samples为一个点邻域内包含的团簇数目,参数值越大,聚类就越保守,更多的点被视为噪声;
[0086]
如图7所示,图中为对团簇进行特征提取的伪代码,其中特征向量是基于相邻点缺陷的距离和角度计算得到。
[0087]
工作原理:通过基于团簇内相邻点缺陷的距离和角度来描述团簇几何形状,利用各个点缺陷的三维空间坐标计算得到每个团簇的特征向量,并采用umap算法对得到的高维特征向量进行降维,获取数据间的低维结构,从而对材料辐照级联碰撞缺陷团簇进行识别和分类,进而挖掘材料缺陷团簇演化机理,建立实验环境及团簇特点和性质之间的联系,使团簇分类方法能够简单灵活地表征团簇几何形状且计算效率高,消除相同几何形状团簇在平移、缩放和旋转的影响下带来的噪声,定性地确定团簇与团簇之间全局和局部的关系,分析得到实验环境与团簇特点和性质之间的联系,为挖掘发现团簇性质及其影响奠定了基础,解决了噪声大、灵活性不高的团簇信息特征化描述影响分类效果的问题。
[0088]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
技术特征:1.一种基于材料数值计算大数据的级联缺陷团簇分类方法,其特征在于,包括以下具体步骤:s1:获取三维坐标:获取团簇内各个点缺陷三维坐标;s2:计算距离与角度:计算出相邻点缺陷间的距离与角度;s3:统计数目:将计算所得的距离和角度结果映射到不同区间,统计每个区间的数目;s4:计算缺陷团簇特征向量:基于团簇内相邻点缺陷的距离和角度来描述团簇几何形状,利用各个点缺陷的三维空间坐标计算得到每个团簇的特征向量;s5:降维:采用umap算法对得到的高维特征向量进行降维,获取数据间的低维结构;s6:聚类:采用基于密度的聚类算法hdbscan可视化团簇分类结果,将轮廓系数作为聚类效果的评价指标;s7:可视化团簇分类结果:对团簇分类结果进行处理,使其可视化。2.根据权利要求1所述的一种基于材料数值计算大数据的级联缺陷团簇分类方法,其特征在于,所述s4中,计算缺陷团簇特征向量包括以下具体步骤:s41:存储特征向量:创建distance_array和angle_array分别存储距离特征向量和角度特征向量;s42:计算相邻缺陷原子距离:遍历团簇内点缺陷,计算出相邻两个缺陷原子的距离,以及相邻缺陷原子相对于第三个缺陷原子的角度;s43:除以距离最大值:将每个距离都除以距离最大值,此时距离所在范围为0≤d≤1。3.根据权利要求2所述的一种基于材料数值计算大数据的级联缺陷团簇分类方法,其特征在于,所述s4中,计算缺陷团簇特征向量包括以下具体步骤:s44:处理区间距离数目:以最大距离划分m个区间,将每个距离映射到相应的区间,统计落到每个区间内的距离数目,并进行归一化处理,得到m维距离特征向量;s45:除以区间角度:每个角度都除以区间角度α,其中区间角度根据需要划分的区间数n进行设定,统计落到每个区间内的角度数目,并进行归一化处理,得到n维角度特征向量;s46:构建缺陷团簇特征向量:以上步骤计算所得的m维距离特征向量和n维角度特征向量构成缺陷团簇的m+n维特征向量,并跳转至降维。4.根据权利要求2所述的一种基于材料数值计算大数据的级联缺陷团簇分类方法,其特征在于,所述s42中,计算相邻缺陷原子距离的其中两个缺陷原子相对于第三个缺陷原子所形成的角度范围为0≤θ≤180
°
。5.根据权利要求1所述的一种基于材料数值计算大数据的级联缺陷团簇分类方法,其特征在于,所述s5中,降维包括以下具体步骤:s51:设定参数:设定umap算法中的参数n_components、n_neighbors、min_dist,达到不同的降维效果;s52:构造近邻图:假设团簇的m+n高维特征向量数据样本均匀分布在拓扑空间中,使用knn算法找到最近邻,构造团簇中各点缺陷特征向量分布的加权k近邻图;s53:执行算法:将得到的高维团簇特征向量映射到低维空间,执行umap算法,实现降维。6.根据权利要求5所述的一种基于材料数值计算大数据的级联缺陷团簇分类方法,其特征在于,所述s51,设定参数中,参数n_components为团簇特征空间降维后的维度,将n_
components设定为2,使得团簇特征空间降到二维直接进行可视化,区分出团簇类型,参数n_neighbors为最近邻点的数量,较小的值以团簇的局部结构为主进行划分,较大的值倾向于团簇的整体结构,min_dist为每个团簇高维特征向量空间降为低维空间点之间的最小距离。7.根据权利要求1所述的一种基于材料数值计算大数据的级联缺陷团簇分类方法,其特征在于,所述s6,聚类包括以下具体步骤:s61:设定参数聚类效果:设定hdbsca算法中的参数min_cluster_size和min_samples;s62:执行hdbscan算法:根据降维后得到的低维空间特征向量执行hdbscan算法,进行聚类,得到分类后的团簇类别标签;s63:计算聚类结果:将低维空间特征向量和标签作为输入,计算聚类结果好坏,并将轮廓系数作为团簇聚类的评价指标,轮廓系数的取值范围是[-1,1],具有相似几何形状的团簇样本距离越相近,几何形状差别大的团簇样本距离越远,值越高;s64:判定轮廓系数值:若轮廓系数值不理想,则跳转至s5,降维步骤,重新设定参数,直至聚类效果达到理想效果。8.根据权利要求7所述的一种基于材料数值计算大数据的级联缺陷团簇分类方法,其特征在于,所述s61中,设定参数聚类效果中参数min_cluster_size为每一团簇类别中至少包含的团簇数目,参数值越大,团簇类别越少;参数min_samples为一个点邻域内包含的团簇数目,参数值越大,聚类就越保守,更多的点被视为噪声。
技术总结本发明公开了一种基于材料数值计算大数据的级联缺陷团簇分类方法,包括以下具体步骤:S1:获取三维坐标:获取团簇内各个点缺陷三维坐标;S2:计算距离与角度:计算出相邻点缺陷间的距离与角度;S3:统计数目:将计算所得的距离和角度结果映射到不同区间,统计每个区间的数目;S4:计算缺陷团簇特征向量:基于团簇内相邻点缺陷的距离和角度来描述团簇几何形状,利用各个点缺陷的三维空间坐标计算得到每个团簇的特征向量,本发明公开的基于材料数值计算大数据的级联缺陷团簇分类方法具有解决噪声大、灵活性不高的团簇信息特征化描述影响分类效果的问题的效果。效果的问题的效果。效果的问题的效果。
技术研发人员:李扬 张芯瑜 任帅 陈丹丹 储根深 白鹤 胡长军
受保护的技术使用者:北京科技大学
技术研发日:2022.07.13
技术公布日:2022/11/1