一种易发性建模的非滑坡样本选取方法及计算机设备

专利2024-08-06  57



1.本发明涉及地质灾害预测技术领域,具体涉及一种易发性建模的非滑坡样本 选取方法及计算机设备。


背景技术:

2.滑坡作为一种主要的地质灾害,具有隐蔽性、突发性、不确定性以及破坏性 强等特点。滑坡易发性评价是结合研究区地形地貌等特征来预测研究区内滑坡易 发性程度空间分布情况的方法。通过滑坡易发性分区图工作人员可以快速识别出 滑坡高发区域,因此,科学、准确地进行滑坡易发性评价,不仅是滑坡监测预警 的关键技术,同时也是减灾防灾的基础工作。
3.滑坡易发性评价的主要研究内容是:在区域范围内,某一确定位置在确定条 件下发生滑坡的空间概率。一般认为,滑坡的易发性评价体系包含评价指标的量 化和评价模型的选择两个过程。常用的量化方法有信息量法、专家打分法和频率 比法等。其中频率比法作为滑坡易发性的指标量化方法,从数据本身的结构信息 出发,打破了人为主观给分的限制,实现了滑坡因子二级属性的客观量化。信息 量法是通过选取地质灾害的影响因子,分析各因子空间分布特征,计算不同区间 各因子的信息量,借助叠加分析方法获得滑坡综合信息量。在评价模型的选择上, 常用的模型有机器学习法,比如随机森林和支持向量机等。
4.当前对滑坡易发性评价的研究大多集中在易发性模型的选择以及量化方法 上,而少有对非滑坡样本的选择进行研究。对于机器学习模型而言,样本的选择 通常决定了整个模型的精确性和稳定性,若将一些高易发区的点作为非滑坡样本, 会对建模精度产生一定影响。为了更加精准的表达滑坡的易发性分区,有必要对 机器学习算法建模时样本的选择进行一定程度的研究。
5.在利用机器学习法进行滑坡易发分区时,一个主要影响因素是非滑坡样本的 选取。目前利用机器学习法进行滑坡易发分区,对于非滑坡样本的选取主要有三 种方式:从研究区中的非滑坡区域随机抽取;距离已发生滑坡一定缓冲距离外随 机选取;从极低易发区中随机选取。但都存在一定的局限性,抽取的非滑坡样本 代表性不强,训练后的模型在反映滑坡与评价指标间的非线性函数关系存在一定 误差。


技术实现要素:

6.本发明的目的是解决上述背景技术存在的不足,提供一种易发性建模的非滑 坡样本选取方法,为基于机器学习方法的易发性建模提供全面且具有代表性的非 滑坡样本。
7.根据本发明的一个方面,本发明提供了一种易发性建模的非滑坡样本选取方 法,包括以下步骤:
8.s1:根据历史滑坡编录数据得到滑坡的空间分布位置;根据多源数据提取滑 坡易发性评价指标并划分为多个评价单元;
9.s2:计算各评价指标的频率比,按频率比进行分级和归一化处理;
10.s3:根据信息量模型,计算分级和归一化处理后的每个评价指标各个等级的 信息量,通过叠加分析得到研究区内每个评价单元的信息量;
11.s4:根据每个评价单元的信息量,将非滑坡分为信息量小于或等于0和大于 0两类,同时利用非滑坡样本指数选取非滑坡样本,通过对比滑坡易发性评价结 果的roc曲线,确定非滑坡样本指数的最佳取值,在最佳取值的条件约束下采 用随机函数选取与滑坡样本同等数量的非滑坡单元作为最终的非滑坡样本。
12.优选地,步骤s1中,所述滑坡易发性评价指标包括:数字高程模型dem、 坡度、坡向、径流强度指数、湿度指数、地面粗糙度、地形起伏度、曲率、剖面 曲率、平面曲率、断层、工程地质岩组、水系、道路、土地利用和归一化植被指 数ndvi。
13.优选地,步骤s1包括:
14.s11:将历史滑坡编录数据导入arcgis中,确定滑坡点位置,得到滑坡栅 格图层;
15.s12:根据滑坡特征从多源数据中提取滑坡易发性评价指标,将所有评价指 标的栅格图层规范成30m*30m的栅格单元集。
16.优选地,步骤s2包括:
17.s21:对于连续性评价指标,首先以一定的间隔进行初步的离散化,统计得 到该评价指标整体频率比分布曲线,然后以分布曲线的突变点为临界值将连续性 评价指标进行再次离散化,把对滑坡发育影响作用相同的分级状态合并为同一类;
18.其中频率比的计算公式如下:
[0019][0020]
式中:j表示第j个类别,为第j个类别中的滑坡单元面积之和,aj为第j 个类别的评价单元总面积;s0为含有地质灾害的单元面积之和,s为研究区评价 单元总面积,fr指标表征了指标因子各级状态对于滑坡发生的重要程度,fr》1 表明该状态对滑坡的发生具有促进作用,fr≤1表明该状态不利于滑坡发生;
[0021]
s22:对于离散型评价指标,直接利用原有的指标分级区间;
[0022]
s23:计算每个评价指标的各个等级的频率比,根据频率比对每个评价指标 进行归一化处理。
[0023]
优选地,步骤s3包括:
[0024]
根据信息量模型,计算每个评价指标各个等级的信息量,对每个评价指标的 信息量栅格图层进行叠加分析,得到总的信息量栅格图层,每个评价单元都有对 应的信息量,其中信息量的计算公式为:
[0025][0026]
式中:i为预测区信息量预测值;m为第m个评价指标,n为评价指标的个 数;nm为因素xm所占面积;为因素x中发生地质灾害的面积总和;s为研究 区评价单元总面积;s0为
含有地质灾害的单元面积之和。
[0027]
优选地,步骤s4包括:
[0028]
s41:根据历史滑坡编录数据中的滑坡确定滑坡样本数量;
[0029]
s42:将研究区内的非滑坡以信息量值0为界,划分为小于或等于0和大于 0两部分;利用非滑坡样本指数找到非滑坡样本的不同选取范围,其中非滑坡样 本指数的计算公式为:
[0030][0031]
式中:n为非滑坡样本指数;x1为信息量小于0的非滑坡样本数;x2为信息 量大于0的非滑坡样本数;
[0032]
s43:非滑坡样本与滑坡样本的比例为1:1,将不同非滑坡样本指数取值下 的非滑坡样本与滑坡样本组成数据集,按一定的比例随机划分为训练集和验证集, 而测试集为研究区内所有的非滑坡与滑坡样本,将训练集输入逻辑回归模型,得 到训练好的逻辑回归模型,将测试集输入训练好的逻辑回归模型中,得到测试集 的roc最高时的非滑坡样本指数,确定非滑坡样本指数的最佳取值,在最佳取 值的条件约束下随机抽取与滑坡样本等数量的非滑坡样本。
[0033]
优选地,步骤s4中:
[0034]
记滑坡发生的条件概率为p,则逻辑回归模型的数学表达式为:
[0035][0036]
式中:β0,β1,β2,

,βi为逻辑回归系数;x0,x1,x2,

,xi为自变量; 对公式的p求解,即得到滑坡发生的概率为:
[0037][0038]
式中:p为单个评价单元内发生滑坡的概率,p值越大,说明该单元越易发 生滑坡,易发性等级越高,可根据p值对研究区域进行滑坡易发性分区。
[0039]
根据本发明的另一方面,本发明提供了一种计算机设备,所述计算机设备包 括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理 器执行时,执行所述的非滑坡样本选取方法。
[0040]
本发明提供的技术方案具有以下有益效果:
[0041]
随机选取非滑坡样本作为机器学习模型的训练集和验证集,具有很强的不确 定性,导致模型在学习滑坡样本和非滑坡样本特征时存在大量误差,一定程度上 降低了滑坡易发性预测建模精度。而基于研究区内非滑坡样本指数的最佳取值提 取非滑坡样本,在建模过程中降低了非滑坡样本的不确定性,提高建模精度,使 非滑坡样本具有更广泛的代表性,从而使得训练好的模型更准确的反映出滑坡与 评价指标之间的非线性函数关系。综上所述,本发明结合非滑坡样本指数选取非 滑坡样本的方法能够为基于机器学习方法的易发性建模提供全面且具有代表性 的非滑坡样本,可以作为滑坡灾害防治的依据。
附图说明
[0042]
下面将结合附图及实施例对本发明的具体效果作进一步说明,附图中:
[0043]
图1为本发明一种易发性建模的非滑坡样本选取方法的流程图;
[0044]
图2为本发明一种易发性建模的非滑坡样本分布图;
具体实施方式
[0045]
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细 说明本发明的具体实施方式。
[0046]
参考图1,本实施例提供了一种易发性建模的非滑坡样本选取方法,包含以 下步骤:
[0047]
s1:根据历史滑坡编录数据得到滑坡的空间分布位置;根据多源数据提取滑 坡易发性评价指标并划分为多个评价单元;
[0048]
进一步地,步骤s1具体步骤如下:
[0049]
s11:根据历史滑坡编录数据确定滑坡点的空间分布位置,得到滑坡栅格图 层;
[0050]
s12:将需要进行滑坡易发性预测的研究区进行评价单元划分;
[0051]
s13:根据滑坡特征从多源数据中提取评价指标,包括地形地貌,工程地质, 水文环境和地表覆被等方面。将所有评价指标的栅格图规范成30m*30m的栅格 单元集。
[0052]
s2:计算各评价指标的频率比,按频率比进行分级和归一化处理;
[0053]
进一步地,步骤s2具体包括:
[0054]
s21:对于连续性评价指标,比如dem和ndvi等指标,首先以一定的极 短间隔对其进行初步的离散化,统计得到该指标整体频率比分布曲线,然后以分 布曲线的突变点为临界值将连续型指标进行再次离散化,把对滑坡发育影响作用 相同的分级状态合并为同一类。
[0055]
以评价指标坡度为例:坡度在0
°
到90
°
之间,先将其以3
°
为间隔,将其细分 为30个等级,得到初步离散化后的频率比分布曲线,再将对滑坡发育影响作用 相同的分级状态合并为同一类,进行第二次离散化,最终坡度指标划分为5级。
[0056]
s22:对于离散型评价指标,如土地利用类型和坡向等指标,直接利用其原 有的指标分级区间。
[0057]
以评价指标坡向为例:坡向共分为平面、北、西北、东北、西、东、东南, 西南和南9个类型,可直接统计得到各个类型的频率比,无需再次离散化分级区 间。
[0058]
s23:计算每个评价指标的各个等级的频率比,根据频率比对其进行归一化 处理。
[0059]
s3:根据信息量模型,计算分级和归一化处理后的每个评价指标各个等级的 信息量,通过叠加分析得到研究区内每个评价单元的信息量;
[0060]
进一步地,步骤s3具体包括以下步骤:
[0061]
根据信息量模型,计算每个评价指标各个等级的信息量,对每个评价指标的 信息量栅格图层进行叠加分析,得到总的信息量栅格图层,每个评价单元都有其 对应的信息量。
[0062]
s4:根据每个评价单元的信息量,将非滑坡分为信息量小于或等于0和大于 0两类,同时利用非滑坡样本指数选取非滑坡样本,通过对比滑坡易发性评价结 果的roc曲线,
确定非滑坡样本指数的最佳取值,在最佳取值的条件约束下采 用随机函数选取与滑坡样本同等数量的非滑坡单元作为最终的非滑坡样本。
[0063]
进一步地,步骤s4具体包括以下步骤:
[0064]
s41:根据历史滑坡编录数据中的滑坡确定滑坡样本数量;
[0065]
s42:将研究区内的非滑坡以信息量值0为界,划分为小于或等于0和大于 0两部分;利用非滑坡样本指数找到非滑坡样本的不同取值,其中非滑坡样本指 数的计算公式为:
[0066][0067]
式中:n为非滑坡样本指数;x1为信息量小于0的非滑坡样本数;x2为信息 量大于0的非滑坡样本数;
[0068]
以n=2为例,当非滑坡样本指数n=2时表示:滑坡样本为93687个;将研 究区的“未标记”评价单元,即非滑坡单元划分为两类(信息量小于或等于0与信 息量大于0),从信息量小于或等于0的部分中随机抽取62458个,从信息量大 于0中随机抽取31229个,共同组成非滑样本集。
[0069]
s43:非滑坡样本与滑坡样本的比例为1:1,将不同非滑坡样本指数取值下 的非滑坡样本与滑坡样本组成数据集,按7:3的比例随机划分为训练集和验证 集,而测试集为研究区内所有的非滑坡与滑坡样本,将训练集输入逻辑回归模型, 得到训练好的逻辑回归模型,将测试集输入训练好的逻辑回归模型中,得到测试 集的roc最高时的非滑坡样本指数,确定非滑坡样本指数的最佳取值,在最佳 取值的条件约束下随机抽取与滑坡样本等数量的非滑坡样本。
[0070]
逻辑回归模型是一种广义的线性回归分析模型,可以在一个因变量和多个自 变量之间形成多元回归关系,从而预测某一区域某一事件的发生概率。逻辑回归 的因变量为分类变量,将滑坡是否发生作为因变量,取值“1”代表发生滑坡,取 值“0”代表未发生滑坡。将逻辑回归应用到滑坡易发性评价中属于二元逻辑回归 分析。
[0071]
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0072]
本实施例的研究区是重庆市奉节县。奉节县位居重庆东北,扼长江上游,居 四川台坳、上扬子褶皱带、大巴山台缘褶皱带交接部位。县区内地质条件复杂, 属地质灾害重灾区,不稳定高边坡、滑坡、崩塌、滑坡等地质灾害分布广泛。
[0073]
s1:根据历史滑坡编录数据得到滑坡的空间分布位置;根据多源数据提取滑 坡易发性评价指标并划分为多个评价单元,具体为:
[0074]
根据已有的历史滑坡编录数据,结合同时期的谷歌地图高分辨率影像数据, 了解奉节县的地质灾害类型、发育分布和规模等情况,最终确定滑坡1525处, 确定滑坡点的空间分布位置,得到滑坡栅格图层。将需要进行滑坡易发性预测的 研究区进行评价单元划分,即30m*30m的栅格单元。
[0075]
根据滑坡特征从多源数据(空间分辨率为30m的landsat oli-8遥感影像数 据,20m的数字高程模型dem,地质构造数据,1:10万信息图,10m空间分 辨率的土地利用类型图)中提取16项评价指标,分别为数字高程模型dem、坡 度、坡向、径流强度指数、湿度指数、地面粗糙度、地形起伏度、曲率、剖面曲 率,平面曲率、断层、工程地质岩组、水系、道路、土
地利用和归一化植被指数 ndvi。将所有评价指标的栅格图层规范成30m*30m的栅格单元集。
[0076]
s2:计算各评价指标的频率比,按频率比进行分级和归一化处理;
[0077]
s3:根据信息量模型,计算每个评价指标各个等级的信息量,通过叠加分析 得到研究区内每个评价单元的信息量;
[0078]
s4:将所有的滑坡都作为样本,非滑坡样本根据非滑坡样本指数选取,通过 对比实验,确定在非滑坡样本指数的最佳取值条件下,滑坡易发性预测建模精度 最高;具体为:
[0079]
将研究区内历史滑坡编录数据中的滑坡都作为样本,即1525处滑坡,转换 为93687个评价单元。非滑坡样本与滑坡样本的比例为1:1;
[0080]
利用非滑坡样本指数找到非滑坡样本的最佳取值范围。信息量小于或等于0 与信息量大于0的比例分别取:50:1、40:1、30:1、20:1、10:1、9:1、8: 1、

、1:1、1:2、1:3、

、1:10、

、1:50,即n=50,40,30,20,10, 9,8,

,1,1/2,1/3,

,1/10,

,1/50,共计27组实验。以信息量小 于或等于0:信息量大于0取2:1为例,非滑坡样本数为93687,从研究区内所 有信息量小于或等于0的非滑坡栅格中随机抽取62458个,从研究区内所有信息 量大于0的非滑坡栅格中随机抽取31229个,共同组成非滑坡样本集。
[0081]
将不同非滑坡样本指数取值下的非滑坡样本与滑坡样本组成数据集,按7: 3的比例随机划分为训练集和验证集,而测试集为研究区内所有的非滑坡样本与 滑坡样本组成。
[0082]
将训练集输入逻辑回归模型,利用训练好的模型进行滑坡易发性分析,对整 个研究区域进行易发性预测,得到研究区内每个评价单元的滑坡易发性概率值。 根据受试者工作曲线roc,得到测试集的roc最高时的非滑坡样本指数取值为 n=4。从满足非滑坡样本指数n=4的条件约束下的非滑坡栅格中,随机抽取与滑 坡栅格等量的非滑坡,作为最终的非滑坡样本集,非滑坡样本分布如图2所示。
[0083]
作为可选地实施方式,本实施例提供了一种计算机设备,所述计算机设备包 括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理 器执行时,执行上述的非滑坡样本选取方法实施例的各个过程,且能达到相同的 技术效果,为避免重复,这里不再赘述。
[0084]
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅 包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、 方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一 个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还 存在另外的相同要素。
[0085]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。在列举了若干 装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体 现。词语第一、第二、以及第三等的使用不表示任何顺序,可将这些词语解释为 标识。
[0086]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用 本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在 其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:
1.一种易发性建模的非滑坡样本选取方法,其特征在于,包括以下步骤:s1:根据历史滑坡编录数据得到滑坡的空间分布位置;根据多源数据提取滑坡易发性评价指标并划分为多个评价单元;s2:计算各评价指标的频率比,按频率比进行分级和归一化处理;s3:根据信息量模型,计算分级和归一化处理后的每个评价指标各个等级的信息量,通过叠加分析得到研究区内每个评价单元的信息量;s4:根据每个评价单元的信息量,将非滑坡分为信息量小于或等于0和大于0两类,同时利用非滑坡样本指数选取非滑坡样本,通过对比滑坡易发性评价结果的roc曲线,确定非滑坡样本指数的最佳取值,在最佳取值的条件约束下采用随机函数选取与滑坡样本同等数量的非滑坡单元作为最终的非滑坡样本。2.根据权利要求1所述的非滑坡样本选取方法,其特征在于,步骤s1中,所述滑坡易发性评价指标包括:数字高程模型dem、坡度、坡向、径流强度指数、湿度指数、地面粗糙度、地形起伏度、曲率、剖面曲率、平面曲率、断层、工程地质岩组、水系、道路、土地利用和归一化植被指数ndvi。3.根据权利要求1所述的非滑坡样本选取方法,其特征在于,步骤s1包括:s11:将历史滑坡编录数据导入arcgis中,确定滑坡点位置,得到滑坡栅格图层;s12:根据滑坡特征从多源数据中提取滑坡易发性评价指标,将所有评价指标的栅格图层规范成30m*30m的栅格单元集,每个栅格单元为一个评价单元。4.根据权利要求1所述的非滑坡样本选取方法,其特征在于,步骤s2包括:s21:对于连续性评价指标,首先以一定的间隔进行初步的离散化,统计得到该评价指标整体频率比分布曲线,然后以分布曲线的突变点为临界值将连续性评价指标进行再次离散化,把对滑坡发育影响作用相同的分级状态合并为同一类;其中频率比的计算公式如下:式中:j表示第j个类别,为第j个类别中的滑坡单元面积之和,a
j
为第j个类别的评价单元总面积;s0为含有地质灾害的单元面积之和,s为研究区评价单元总面积;fr指标表征了指标因子各级状态对于滑坡发生的重要程度,fr>1表明该状态对滑坡的发生具有促进作用,fr≤1表明该状态不利于滑坡发生;s22:对于离散型评价指标,直接利用原有的指标分级区间;s23:计算每个评价指标的各个等级的频率比,根据频率比对每个评价指标进行归一化处理。5.根据权利要求1所述的非滑坡样本选取方法,其特征在于,步骤s3包括:根据信息量模型,计算每个评价指标各个等级的信息量,对每个评价指标的信息量栅格图层进行叠加分析,得到总的信息量栅格图层,每个评价单元都有对应的信息量,其中信息量的计算公式为:
式中:i为预测区信息量预测值;m为第m个评价指标,n为评价指标的个数;n
m
为因素x
m
所占面积;为因素x中发生地质灾害的面积总和;s为研究区评价单元总面积;s0为含有地质灾害的单元面积之和。6.根据权利要求1所述的非滑坡样本选取方法,其特征在于,步骤s4包括:s41:根据历史滑坡编录数据中的滑坡确定滑坡样本数量;s42:将研究区内的非滑坡以信息量值0为界,划分为小于或等于0和大于0两部分;利用非滑坡样本指数找到非滑坡样本的不同选取范围,其中非滑坡样本指数的计算公式为:式中:n为非滑坡样本指数;x1为信息量小于或等于0的非滑坡样本数;x2为信息量大于0的非滑坡样本数;s43:非滑坡样本与滑坡样本的比例为1:1,将不同非滑坡样本指数取值下的非滑坡样本与滑坡样本组成数据集,按一定比例随机划分为训练集和验证集,而测试集为研究区内所有的非滑坡与滑坡样本,将训练集输入逻辑回归模型,得到训练好的逻辑回归模型,将测试集输入训练好的逻辑回归模型中,得到测试集的roc最高时的非滑坡样本指数,确定非滑坡样本指数的最佳取值,在最佳取值的条件约束下随机抽取与滑坡样本等数量的非滑坡样本。7.根据权利要求6所述的非滑坡样本选取方法,其特征在于,步骤s4中:记滑坡发生的条件概率为p,则逻辑回归模型的数学表达式为:式中:β0,β1,β2,

,β
i
为逻辑回归系数;x0,x1,x2,

,x
i
为自变量;对公式的p求解,即得到滑坡发生的概率为:式中:p为单个评价单元内发生滑坡的概率,p值越大,说明该单元越易发生滑坡,易发性等级越高,可根据p值对研究区域进行滑坡易发性分区。8.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如权利要求1-7任一项所述的非滑坡样本选取方法。

技术总结
本发明提供了一种易发性建模的非滑坡样本选取方法,该方法包括:根据历史滑坡编录数据获取滑坡空间分布位置;根据多源数据提取滑坡易发性评价指标并划分评价单元;计算各指标的频率比,按频率比进行分级和归一化处理;根据信息量模型,计算每个指标各个等级的信息量,通过叠加分析得到研究区内每个评价单元的信息量;以信息量0为界限,将非滑坡分为两类,同时利用非滑坡样本指数选取非滑坡样本,通过对比滑坡易发性评价结果的ROC曲线,确定非滑坡样本指数的最佳取值,据此随机选取与滑坡样本等量的非滑坡样本。本发明结合非滑坡样本指数选取非滑坡样本的方法能够为基于机器学习方法的易发性建模提供全面且具有代表性的非滑坡样本。滑坡样本。滑坡样本。


技术研发人员:周超 甘露露 曹颖 吴宏阳 王悦
受保护的技术使用者:中国地质大学(武汉)
技术研发日:2022.06.22
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-9220.html

最新回复(0)