1.本发明涉及一种地理实体的知识图谱的构建方法,尤其涉及地理实体时空知识图谱本体库构建方法,属于地理实体语义领域。
背景技术:2.地理实体数据内容种类繁多,关系庞杂,实体概念交叉重叠,包括建筑、水系、交通、植被、管线等多领域的空间数据。目前多以某一领域的线性分类方法,分级分类构建地理实体数据模型结构,这种方式存在难以兼顾多领域实体,难以扩展领域知识和关系等问题。而地理实体作为新型基础测绘数据产品,以数据驱动业务,当前数据资产管理面临着历史数据难以追寻、数据关系混乱、数据标准不一共享不足、数据难以融合无法按需组装、数据无法深度业务应用等一系列问题和挑战。
技术实现要素:3.本技术采用地理实体时空知识图谱资源描述框架(rdfs,在rdf的基础上定义了类、属性以及关系来描述资源,并通过属性的定义域和值域来约束资源),基于本体知识体系载体等思路,设计一种地理实体本体模型,定义地理实体概念;并通过提取地理实体抽象类别以及建立实体语义关系映射规则,构建地理实体语义知识图谱本体,提出支撑该本体的时空知识图谱本体库构建思路,来有效解决上述所提出的诸多问题。
4.本发明的实体概念是指按照自然地理实体、人文地理实体、管理地理实体及其下的细分类型所体现的地理实体概念,对实体概念知识提取正是基于这些细分类型体现的概念在海量已有数据中对应提取相关知识作为扩展概念知识的基础。
5.鉴于上述设计思路,本发明提供了一种地理实体时空知识图谱本体库构建方法,其特征在于包括如下步骤:
6.s1获取地理区域时空大数据,以及所述地理区域的领域专题数据库,并利用实体概念概括和抽象而建立地理实体本体模型;
7.s2基于s1已经建立的地理实体本体模型进行地理实体概念的知识抽取和地理实体关系映射规则的建立,从而建立地理实体知识图谱本体;
8.s3在使用统一的计算机可理解的基于语义知识网络中的资源描述框架(rdfs)下存储建立地理实体知识图谱本体,实现实体概念、语义关系、属性三元组合几何方式存储而构建地理实体时空知识图谱本体库。
9.关于s1
10.所述的获取地理区域时空大数据包括:
11.s1-1根据在规定的不同的时间对于同一地理区域采集的遥感影像、倾斜摄影图建立所述不同的时间下的多个三维地理实体模型;
12.s1-2在s1-1采集遥感影像、倾斜摄影图的同时获取所述地理区域的领域专题数据库,所述领域专题数据库包括对于各类地理实体在不同领域中的定义和描述相关的数据;
13.s1-3根据领域专题数据库将s1-1中多个三维地理实体模型中的实体进行概念概括和抽象为自然地理实体、人文地理实体、管理地理实体,对不同的地理实体下细分实体类型以不同的空间表现形态进行表示,建立地理实体本体模型;
14.可见地理实体本体模型是在上述的实体概念概括抽象下建立的实体本体模型,为复杂场景下知识图谱的构建建立了语义关系构建的实体基础。
15.其中所述自然地理实体包括山体、水系、冰雪、海洋、农林用地与土质,所述人文地理实体包括水利、交通、建筑物构筑物及场地设施、管线、院落、人工地貌,所述管理地理实体包括行政区划单元、地名地址、国土空间规划单元,以及其他管理单元。
16.s1-3中所述对不同的地理实体下细分实体类型以不同的空间表现形态进行表示,建立地理实体本体模型具体包括采用不同的颜色标注的点、线、面、体或其组合来表示自然地理实体、人文地理实体、管理地理实体下细分类型,构建颜色-点、线、面、体-细分类型-时间四者之间的第一语义关联表;其中,
17.对于采用点、线或其组合表示的细分类型采用rnn循环神经网络算法构建空间表现形态;对于采用点、线或其组合以及面的组合表示的细分类型则对于点、线或其组合的部分仍然采用rnn循环神经网络算法而面的部分则采用基于卷积神经网络cnn的轮廓提取方法以构建空间表现形态,对于采用体的则将所述体在水平面上投影面作为面的部分而同样采用基于卷积神经网络cnn的轮廓提取方法以构建空间表现形态;
18.优选地,所述卷积神经网络为mask-rcnn网络。
19.其中的第一语义关联表中的颜色使用rgb三值来表示。
20.s1-4将所述不同的时间下的多个三维地理实体模型之间按照时间顺序进行配准,获得多层次三维地理实体模型,并且计算两两不同的时间对应的三维地理实体模型中每一细分类型实体的差异,并将差异大于第一预设值的细分类型实体记录到第一语义关联表中相应细分类型下,以表示该地理实体产生的变化信息,所述变化信息包括实体的分类变化,比如从道路变为绿化带,变化的过程信息,以及包括变化的原因,变化的时间,以及变化的目的。
21.其中所述的差异包括实体在水平面投影面积、轮廓周长、轮廓中心点的位移的差异,所述第一预设值为5-10%。优选地,所述轮廓中心点被添加到所述第一语义关联表中点、线、面、体的点项目中。
22.可以理解的是,点、线以及轮廓中心点都具有在e下的具体坐标,并添加到第一语义关联表中的点、线、面项中。
23.其中轮廓中心点确定的方法包括:
24.对于点、线或其组合表示的细分类型以rnn循环神经网络算法中形成的节点作为轮廓中心点;
25.对于对于采用点、线或其组合以及面的组合表示的细分类型采用实体轮廓中的预设的四个点两两连线交点作为轮廓中心点,其中,若轮廓的提取基于卷积神经网络cnn,预设的四个点的选取方式为,选定基于边界罩m而预测的p个预测顶点中在预设的地理区域空间直角坐标系e中的横坐标或纵坐标最大或最小的点为第一标定点,如果存在横坐标或纵坐标有相同最大或最小点,则取相应的纵坐标或横坐标最大或最小的点为第一标定点,将第一标定点与剩余p-1个点之间按顺时针或逆时针连接预测点的路径顺序进行距离计算,
和与其距离最长者对应的点连接,相应选定基于边界罩m预测的另一个与第一标定点距离最短的相邻顶点为第二标定点,以同样方式和与其距离最长者对应的点连接,获得两条连接线段之间的交点作为轮廓中心点;
26.若轮廓的提取是基于mask-rcnn网络,预设的四个点的选取方式为,采用邻边分别平行于x轴和y轴的面部分的最小外接矩与轮廓的至少四个交点中选取。
27.关于s2
28.所述地理实体概念的知识抽取包括基于s1中构建的地理实体本体模型根据地理实体概念、表现形态、属性从海量结构化、半结构化和非结构化时空数据中归纳提取地理实体概念的语义特征信息,形成每一细分类的语义分类体系,其中,
29.结构化数据包括基础地理信息数据库,通过建立地理实体本体模型的实体概念与基础地理信息数据库中的第二语义关联表,实现从基础地理信息数据库中自动抽取出地理实体概念知识;
30.半结构化数据包括互联网物联网数据,通过互联网网站或者物联网感知系统模板构建,建立相应模板抽取器实现地理实体知识抽取,以抽取包括地理实体名、地理实体类、标签、基本描述的信息;
31.非结构化数据包括纸质文本,电子版文本数据,利用已有的语义知识网络,通过远程监督方式构建训练集,并利用深度学习技术进行非结构化文本信息中的地理实体概念知识抽取。
32.优选地,在完成地理实体概念的知识抽取之后还进行地理实体概念的融合,将结构化、半结构化和非结构化时空的不同数据中表示实体的不同语义理解关联到该同一实体上;以作为该同一实体概念知识进行提取;
33.具体的模板抽取器以及深度学习技术对实体概念知识提取的算法为自然语言处理包括分词、词性标注、地理实体识别、实体概念识别、实体概念转义5个步骤,其中实体概念识别通过识别的地理实体利用第一语义关联表而关联到相应实体概念,并通过实体概念转义将对应的半结构化数据和非结构化数据中地理实体知识进行提取,具体是在半结构化数据和非结构化数据中,采用预设长度的滑动窗进行滑移获得不同总长度的文本,对每一不同总长度文本分词中进行分词和词性的标注之后利用训练好的概念预测模型进行概念预测,当滑移到的位置所预测的概率大于第二预设值(80%-90%)时,将当前总长度的文本作为属于被识别的概念对应的文本,以及该文本所属的数据而作为被识别的概念的知识而被提取。
34.其中文本所属的数据是指在半结构化数据和非结构化数据中,该文本所在的互联网网站文案图表或者物联网感知系统中的文案图表数据,以及所在的纸质文本,电子版文本的出处,所述出处包括出版物、档案资料库地理地址以及两者相关的网站。
35.所述地理实体关系映射规则的建立包括:
36.s2-1建立地理实体之间关系规则,所述关系规则为地理实体类别—语义关系类别—地理实体类别;
37.s2-2按照所述关系规则制成规则列表,并将各类地理实体通过规则关联到其自身或另一不同的地理实体上而填入所述规则列表中;其中,
38.所述语义关系类别包括空间关系、时间关联关系、类属关系以及几何构成关系;
39.空间关系建立是按照地理实体或图元的空间位置,建立实体与实体、实体与图元之间的相互空间位置关系、空间拓扑关系;
40.其中对于所述地理实体的空间位置则按照轮廓中心点位置进行空间关系建立,
41.时间关联关系建立是按照地理实体或图元的至少部分来自于第一语义关联表中的变化信息的创建时间、消亡时间、更新时间与时间有关的属性,建立地理实体生命周期的时间关系;
42.类属关系建立则是按照地理实体或图元的属性值、属性关键词、相关数据标准、技术标准、专题应用、业务场景,通过设计的语义关联模型或ai自动学习,自动建立的实体属性的关联关系,包括等级关系、等同关系、层级关系;
43.几何构成关系是指实体跟图元之间的关系,用于构成地理实体的空间可视化表达数据。
44.同时还采用地理实体概念的推理方法从s1中建立的地理实体本体模型中定义的地理实体概念及经过地理实体关系映射规则所映射的概念出发,并经过计算机推理,建立地理实体概念间的第三语义关联表,
45.其中计算机推理包括:
46.从地理实体关系映射规则所映射的概念出发,根据已提取的实体概念知识从当前结构化、半结构化和非结构化时空数据中关联到自身或其他地理实体的细分类型的概念知识。
47.所述融合具体包括:对结构化、半结构化和非结构化时空数据中的文本信息进行地理实体语义关系筛选,并归入相应的所述语义关系类别,采用机器学习方法建立实体分类模型,基于待分类地理实体获取对应的地理概念知识,并分析出语义关系,输入实体分类模型中即获得实体分类,最后将获取的实体概念知识输通过实体对齐的方式实现时空知识图谱中表示相同语义的地理实体概念的知识融合,使得不同数据中不同表示实体的语义理解关联到同一实体上。
48.其中实体分类模型是根据分析出语义关系与不同地理实体间的语义关系的相似度大小来进行实体分类,具体是计算分析出语义关系与多个不同地理实体间的语义关系的相似度,选取概率最大者对应的地理实体语义关系中对应的地理实体类别,将该对应的地理实体类别通过所述地理实体关系映射规则的逆映射获得待分析地理实体的分类。
49.例如获取待分析地理实体a'的地理概念知识,分析出语义关系,代入模型计算出与b',c',d'等多种不同地理实体之间语义关系相似度,如果与a'-c'语义关系相似度最大,从而通过所述地理实体关系映射规则的逆映射获得待分析地理实体类型为a'。
50.关于s3
51.在统一的计算机可理解的基于语义知识网络中的资源描述框架(rdfs)下,建立“节点—边—节点”向量空间分布式,以“主体-谓词-主体”为表示指针,以实体概念、语义关系、属性三元组集合方式进行存储而构建的地理实体时空知识图谱本体库;
52.其中以地理概念、地理实体及属性为节点,以“概念与概念之间的关系、概念与实体的关系、实体与属性的关系、实体与实体、概念与属性、属性与属性”为边,所述属性包括地理实体分类与编码、实体结构类型、地理实体名称(别名)属性项及属性信息,其中地理实体来自于对应的地理实体本体模型中对应的地理实体;
53.具体构建的地理实体时空知识图谱本体库的方法是利用图数据库、关系数据库、分布式文件系统至少一种存储形式实现地理实体本体模型及时空知识图谱的组织管理,形成地理实体知识图谱本体库。
54.有益效果
55.1.过构建地理实体时空知识图谱本体库,以地理实体唯一性作为空间索引,建立地理实体概念知识的语义关联,形成时空知识图谱本体,实现了各领域地理实体对象“数据-信息-知识”的转换。
56.2.通过语义化处理构建的地理实体知识网络,使得基础地理实体数据可搭载的业务数据内容更丰富、关系更复杂、数据的价值更高。
57.3.地理实体知识图谱本体提供了丰富的地理实体、实体概念、实体关系、实体属性等信息,利用实体对齐技术能够实现不同来源数据的类别层次、实体属性、语义关系等对齐,为多源异构数据语义融合打下基础。
58.4.以地理实体概念为基础,通过元数据信息收集、数据血缘探查等手段,解决“有哪些数据可用”、“到哪里可以找到数据”的难题,提升数据资源共享利用率,面向不同行业业务需求,将地理实体作为应用场景的“零部件”,组装形成具备的地形级、城市级、部件级实景三维产品,实现数据服务从“固定服务”向“按需精准服务”转变,才能有效适应信息化社会和地理信息产业发展多样化、精细化、个性化的应用需求。
附图说明
59.图1本发明实施例1某城市的地理实体本体模型以及第一与关联表的建立过程示意图;
60.图2本发明实施例2rnn循环神经网络算法流程以及城市路网生成过程示意图,
61.图3为图2中圆圈范围内的局部路网以道路中节点d代表的分段的扩宽、空间形态表示,以及城市道路轮廓中心点的示意图,
62.图4本发明实施例2基于cnn主干网络的卷积长短期记忆convlstm的多层rnn建筑边界罩m的提取以及基于建筑边界罩m进行的顶点预测点示意图,
63.图5基于建筑s1和凹形建筑s1的当前建筑中心点的获取方式示意图,
64.图6本发明实施例3中基于某城市局部的遥感影像图实现的体育馆和绿地的轮廓提取及其轮廓中心点示意图,
65.图7a本发明地理实体概念知识提取、基于语义关系类别的地理实体分类模型建立,以及概念知识融合过程示意图,
66.图7b本发明实施例3所采用nlp方法中的滑动窗滑动过程中预测地理实体概念的示意图,
67.图8本发明实施例3所述地理实体关系映射规则的建立,以及绿地知识扩展形成第三语义关联表的过程示意图,
68.图9本发明实施例4中在rdfs框架下基于同质图的地理实体时空知识图谱本体库构建过程示意图,
69.图10给出了本发明的地理实体时空知识图谱本体库构建方法的整体流程图。
70.其中附图标记1-6为节点编号。
具体实施方式
71.实施例1
72.本实施例描述地理实体本体模型的建立,如图1所示,在某城市中规定120周中每周采集工作,获得多幅遥感影像图和倾斜摄影图,建立了120个三维地理实体模型。根据120周中每周对于各类地理实体在农业、工业、第三产业中的地理实体的定义和描述相关的数据而对已建立的120个三维地理实体模型中实体概念概括和抽象为自然地理实体、人文地理实体、管理地理实体,并进行空间表现形态的表示,而获得地理实体本体模型。
73.其中自然地理实体包括山体、水系、冰雪、海洋、农林用地与土质,所述人文地理实体包括水利、交通、建筑物构筑物及场地设施、管线、院落、人工地貌,所述管理地理实体包括行政区划单元、地名地址、国土空间规划单元,以及其他管理单元
74.采用不同的颜色标注的点、线、面或其组合来表示自然地理实体、人文地理实体、管理地理实体下细分类型,构建颜色-点、线、面-细分类型-时间四者之间的第一语义关联表。
75.其中自然地理实体、人文地理实体、管理地理实体所包括的类型下的细分类型,空间表现形态,以及实体说明如下表所示:
76.77.78.79.[0080][0081]
[0082]
实施例2
[0083]
本实施对实施例1中的空间表现形态以及轮廓点的形成进行说明,对于采用点、线或其组合表示的细分类型采用rnn循环神经网络算法构建空间表现形态;对于采用点、线或其组合以及面的组合表示的细分类型则对于点、线或其组合的部分仍然采用rnn循环神经网络算法而面的部分则采用基于卷积神经网络cnn的边界预测方法以构建空间表现形态。
[0084]
以城市道路为例,如图2所示,调用实施例1中一幅遥感影像图,基于所述一幅遥感影像图,利用rnn循环神经网络算法,定义步长l(根据道路总长而在1-5m中选择)以及矢量方向r作为属性矢量v,将每个起始节点以及k条入射路经方向的点作为输入点(k个点与对应的起始点之间对应了k个初始属性矢量),将k+1个输入点以及属性矢量v输入编码器,由解码器生成新节点;具体是对于每一个起始点的每一个方向的输入点对应了在e下的坐标属性矢量v对应于坐标增量其中t表示当前输入点的序号(对于起始点为0,对于第一个新的输入点为1),将该坐标和属性矢量v输入编码器,解码器将出射在e下生成的新节点其中图2中示例性地给出了每隔20次节点生成循环下,总共100次节点生成循环的路网生成过程,直线段连接各道路节点,形成道路中心线如图3所示;
[0085]
如图3为图2中圆圈范围内的局部路网扩宽示意图。以道路节点d为代表,将图3的局部路网按照预设的宽度w以生成路网的道路中心线向两边进行扩宽,形成具有一定宽度的道路宽线条,从而获得城市道路网模型,其中w为所述地面俯视影像图中实际道路边界限定的道路宽度的0.8倍,形成扩宽边界。
[0086]
则城市道路中部分节点abcdefghijk序列以及各节点顺次连接直线段即构成圆圈范围内的局部路网的空间表现形态,且以abcdefghijk为城市道路轮廓中心点。
[0087]
以房屋为例,如图4所示,基于上述遥感影像图,使用无添加层的vgg-16算法作为cnn主干网络提取一系列不同卷积层获得的特征图,特征图是输入图像尺寸的1/8;
[0088]
同时,通过图像金字塔算法fpn利用cnn主干网络不同层来构建特征金字塔,并预测多栋房屋的边框,
[0089]
对于多个房屋中的每一栋,都对所述一系列不同卷积层获得的特征图和对应的建筑的边框利用roialign算法获得建筑的本地特征图f;
[0090]
对于每栋房屋的所述本地特征图f采用卷积层处理形成多边形边界罩m,再利用卷积层处理形成边界罩m的5个预测顶点a、b、c、d、d2、d1。
[0091]
如图5所示,坐标系e的x轴方向为基准,在建筑s1中选定所述5个预测顶点中横坐标最大的点d1为第一标定点,将d1与剩余4个点之间按逆时针连接预测点的路径顺序a、b、c、d、d2进行距离计算,和与其距离最长者b点连接,相应选定基于边界罩m预测的另一个与d1距离最短的相邻顶点d2为第二标定点,以同样方式和与其距离最长者a点连接,获得两条连接线段之间的交点x作为该房屋s1的轮廓中心点。
[0092]
而对于屋顶面为凹字形的房屋s2为例,预测点为d3、e、f、g、h、i、j、d4,8个预测点,如图5所示,选定所述8个预测顶点中横坐标最大的点d3为第一标定点,将d3与剩余7个点之间按逆时针连接预测点的路径顺序i、h、e、f、g、j、d4进行距离计算,和与其距离最长者f点
连接,相应选定基于该凹字形的房屋的边界罩m预测的另一个与d3距离最短的相邻顶点d4为第二标定点,以同样方式和与其距离最长者e点连接,获得两条连接线段之间的交点x'作为该房屋s2的轮廓中心点。
[0093]
如图6所示为2020年第50周(50w)国内某城市局部的遥感影像图,以其中对南部公共服务类场地体育馆,以及北部以空闲绿地进行空间表现形态的表示为例,以基于mask-rcnn网络对体育馆和绿地进行了轮廓提取,并且去各自最小外接矩,同样以上述标定点的方法而找到对角线的交点c和b分别作为两者实体类别的轮廓中心点。
[0094]
将所述不同的时间下的多个三维地理实体模型之间按照时间顺序进行配准,获得多层次三维地理实体模型,并且计算两两不同的时间对应的三维地理实体模型中每一细分实体类型的差异,并将差异大于第一预设值的细分实体类型记录到第一语义关联表中相应细分类型下,以表示该地理实体分类产生的变化信息,所述变化信息包括实体类型的分类变化,包括变化的原因以及变化的目的的变化的过程信息(图1和7未示)。
[0095]
其中所述的差异包括实体在水平面投影面积、轮廓周长、轮廓中心点的位移的差异,所述第一预设值为5%。
[0096]
实施例3
[0097]
本实施例描述地理实体概念知识的提取、地理实体关系映射规则的建立以及实体分类的一种机器学习方法,基于该方法而实现知识的融合。
[0098]
如图7a所示,所述地理实体概念的知识抽取包括基于实施例1中构建的地理实体本体模型,根据实施例1中的地理实体概念、表现形态,以及属性(参见实施例4所定义)从海量结构化、半结构化和非结构化时空数据中归纳提取地理实体概念的语义特征信息,形成每一细分类的语义分类体系,其中,
[0099]
结构化数据包括基础地理信息数据库,通过实施例1中地理实体本体模型的实体概念与基础地理信息数据库中的第二语义关联表(即现有技术的线性关联表),实现从基础地理信息数据库中自动抽取出地理实体概念知识;
[0100]
半结构化数据包括互联网物联网数据,通过互联网网站或者物联网感知系统模板构建,建立相应基于nlp模板抽取器实现地理实体知识抽取,以抽取包括地理实体名、地理实体类、标签、基本描述的信息;
[0101]
非结构化数据包括纸质文本,电子版文本数据,利用已有的语义知识网络,通过远程监督方式构建训练集,并利用nlp进行非结构化文本信息中的地理实体概念知识抽取。
[0102]
在完成地理实体概念的知识抽取之后还进行地理实体概念的融合,将结构化、半结构化和非结构化时空的不同数据中不同表示实体的语义理解关联到同一实体上;以作为同一实体概念知识进行提取;
[0103]
自然语言处理nlp包括分词、词性标注、地理实体识别、实体概念识别、实体概念转义5个步骤,其中实体概念识别通过识别的地理实体利用第一语义关联表而关联到相应实体概念,并通过实体概念转义将对应的半结构化数据和非结构化数据中地理实体知识进行提取。
[0104]
具体是如图7b所示在半结构化数据和非结构化数据中,采用预设长度的滑动窗进行滑移获得不同总长度的文本,对每一不同长度文本分词中进行分词和词性的标注之后利用训练好的概念预测模型进行概念预测,当滑移到的位置所预测的概率大于第二预设值
90%时,将当前总长度的文本作为属于被识别的概念对应的文本,以及该文本所属的数据而作为被识别的概念的知识而被提取。
[0105]
其中文本所属的数据是指在半结构化数据和非结构化数据中,该文本所在的互联网网站文案图表或者物联网感知系统中的文案图表数据,以及所在的纸质文本,电子版文本的出处,所述出处包括出版物、档案资料库地理地址以及两者相关的网站。
[0106]
如图8所示,仍然以实施例2中图6的体育馆和绿地为例,所述地理实体关系映射规则的建立包括:
[0107]
s2-1建立地理实体之间关系规则,所述关系规则为地理实体类别—语义关系类别—地理实体类别;
[0108]
s2-2按照所述关系规则制成规则列表,并将各类地理实体通过规则关联到其自身或另一不同的地理实体上而填入所述规则列表中;其中,
[0109]
所述语义关系类别包括空间关系即体育馆轮廓中心点c和绿地轮廓中心点在e下的坐标以及bc之间的距离、时间关联关系、类属关系以及几何构成关系;
[0110]
其中,如图8所示,时间关联关系建立是建立体育馆中观众席、跑道、跑道外围平地、中央草地、以及投掷项目用地建立各图元,绿地则按照杂草、田埂来建立图元,按照图元的至少部分来自于第一语义关联表中的变化信息的创建时间(体育馆所有图元的建设时间)、消亡时间、更新时间(例如跑道更新的时间、草地更新时间)的属性,建立地理实体生命周期的时间关系;
[0111]
类属关系建立则是按照属性值、属性关键词、相关数据标准、技术标准、专题应用、业务场景,通过设计的语义关联模型或ai自动学习,自动建立的实体属性的关联关系,包括等级关系、等同关系、层级关系;对于体育馆和绿地实体类别之间,等级关系为同属于遥感影像所在地理区域,等同关系和层级关系则不存在。
[0112]
对于体育馆和绿地实体类别内部各图元,则等级关系为各图元从属于体育馆和绿地实体类别的从属关系,以及同属于遥感影像所在地理区域的等级关系,各图元之间还存在层级关系,例如体育馆中观众席、跑道、跑道外围平地、中央草地、以及投掷项目用地时从外之内包含于被包含关系。对于绿地,杂草、田埂同属于绿地的等级关系,以及同属于遥感影像所在地理区域的等级关系,但不存在层级关系。
[0113]
几何构成关系是指实体跟图元之间的关系,用于构成地理实体的空间可视化表达数据。
[0114]
同时还采用地理实体概念的推理方法从实施例1中建立的地理实体本体模型中定义的地理实体概念及经过规则列表。如图8所示,以绿地为例,以绿地规则列表出发,经过计算机推理,建立绿地与其自身概念间的第三语义关联表,其中计算机推理包括:
[0115]
从绿地规则列表出发,根据已提取的该绿地概念知识从当前结构化、半结构化和非结构化时空数据中关联到自身细分类型的概念知识n,并添加扩展概念绿地(其自身)、扩展概念知识,形成绿地与其自身之间的第三语义关联表。其中显示了扩展概念知识中记录了背面新建道路的通车记录。如图6所示绿地北面确实存在一条经过的城市道路,从而表明该绿地是该城市的城市化进程过程中尚残留的一块绿地。由此从扩展的概念知识能够丰富地理实体类别的知识体系,从而给研究人员掌握实体更加详实的地理研究资料。
[0116]
最后基于上述的地理概念知识进行知识的融合,具体包括:如图7a所示,对结构
化、半结构化和非结构化时空数据中的文本信息进行地理实体语义关系筛选,并归入相应的所述语义关系类别,采用机器学习方法建立实体分类模型。
[0117]
基于待分类地理实体获取对应的地理概念知识,并分析出语义关系r,将r输入实体分类模型中即获得实体分类,最后将获取的实体概念知识输通过实体对齐的方式实现时空知识图谱中表示相同语义的地理实体概念的知识融合,使得不同数据中不同表示实体的语义理解关联到同一实体上。
[0118]
其中实体分类模型是根据分析出语义关系r与不同地理实体类别y'、z'等之间的语义关系x-y',x-z'等的相似度s(x-y')、s(x-z')等的大小来进行实体分类。将概率最大者s(x-y')(图中√表示)对应的地理实体语义关系x-y'中对应的地理实体类别y'通过所述地理实体关系映射规则(查询规则列表即可知)的逆映射获得待分析地理实体类型x'。
[0119]
实施例4
[0120]
本实施例将说明地理实体时空知识图谱本体库的构建。如图9所示,在统一的计算机可理解的基于语义知识网络中的资源描述框架(rdfs)下,建立“节点—边—节点”向量空间分布式,以“主体-谓词-主体”为表示指针,以实体概念、语义关系、属性三元组集合方式进行存储而构建的地理实体时空知识图谱本体库。
[0121]
其中以圆圈表示地理概念、菱形表示地理实体,以倒角矩形表示属性,形成1-6六个节点,以“概念与概念之间的关系、概念与实体的关系、实体与属性的关系、实体与实体、概念与属性、属性与属性”为六类边,所述属性包括地理实体分类与编码、实体结构类型、地理实体名称(别名)属性项及属性信息,其中地理实体来自于对应的地理实体本体模型中对应的地理实体部分,在图9中以曲线连接表示该来自关系。图9中示例性地给出了节点1与节点2-4之间的概念-概念、概念-实体、实体-属性三类边,节点5和6之间的实体-实体、概念-属性两类边,以及节点3和5之间的属性-属性一类边。
[0122]
由于这些边之间没有方向性,即具体实体类别的分类以及利用语义关系进行地理概念知识的查询、调用、分析等操作时,只关心是否能够找到对应的语义关系的分类以及是否能匹配到语义关系下的分类,而不关系具体的节点之间边的方向性,从而通过上述的向量空间分布式进行的三元组集合方式进行存储的实体概念、语义关系、属性的数据构成了一个同质图。
[0123]
因此具体构建的地理实体时空知识图谱本体库的方法即是利用同质图图数据库存储形式实现地理实体本体模型及时空知识图谱的组织管理,形成地理实体知识图谱本体库。
[0124]
图10为本发明地理实体时空知识图谱本体库构建方法的整体流程图。
技术特征:1.地理实体时空知识图谱本体库构建方法,其特征在于包括如下步骤:s1获取地理区域时空大数据,以及所述地理区域的领域专题数据库,并利用实体概念概括和抽象而建立地理实体本体模型;s2基于s1已经建立的地理实体本体模型进行地理实体概念的知识抽取和地理实体关系映射规则的建立,从而建立地理实体知识图谱本体;s3在使用统一的计算机可理解的基于语义知识网络中的资源描述框架(rdfs)下存储建立地理实体知识图谱本体,实现实体概念、语义关系、属性三元组合几何方式存储而构建地理实体时空知识图谱本体库。2.根据权利要求1所述的方法,其特征在于,s1中所述的获取地理区域时空大数据包括:s1-1根据在规定的不同的时间对于同一地理区域采集的遥感影像、倾斜摄影图建立所述不同的时间下的多个三维地理实体模型;s1-2在s1-1采集遥感影像、倾斜摄影图的同时获取所述地理区域的领域专题数据库,所述领域专题数据库包括对于各类地理实体在不同领域中的定义和描述相关的数据;s1-3根据领域专题数据库将s1-1中多个三维地理实体模型中的实体进行概念概括和抽象为自然地理实体、人文地理实体、管理地理实体,对不同的地理实体下细分实体类型以不同的空间表现形态进行表示,建立地理实体本体模型;s1-4将所述不同的时间下的多个三维地理实体模型之间按照时间顺序进行配准,获得多层次三维地理实体模型,并且计算两两不同的时间对应的三维地理实体模型中每一细分类型实体的差异,并将差异大于第一预设值的细分类型实体记录到第一语义关联表中相应细分类型下,以表示该地理实体产生的变化信息,所述变化信息包括实体的分类变化,以及包括变化的原因,变化的时间,以及变化的目的的变化的过程信息。3.根据权利要求1所述的方法,其特征在于,其中所述自然地理实体包括山体、水系、冰雪、海洋、农林用地与土质,所述人文地理实体包括水利、交通、建筑物构筑物及场地设施、管线、院落、人工地貌,所述管理地理实体包括行政区划单元、地名地址、国土空间规划单元,以及其他管理单元。4.根据权利要求3所述的方法,其特征在于,山体、水系、冰雪、海洋、农林用地与土质、水利、交通、建筑物构筑物及场地设施、管线、院落、人工地貌、行政区划单元、地名地址、国土空间规划单元,以及其他管理单元之下的细分类型,空间表现形态,以及实体说明如下表所示,
5.根据权利要求2-4中任一项所述的方法,其特征在于,s1-3中所述对不同的地理实体下细分实体类型以不同的空间表现形态进行表示,建立地理实体本体模型具体包括采用不
同的颜色标注的点、线、面、体或其组合来表示自然地理实体、人文地理实体、管理地理实体下细分类型,构建颜色-点、线、面、体-细分类型-时间四者之间的第一语义关联表;其中,对于采用点、线或其组合表示的细分类型采用rnn循环神经网络算法构建空间表现形态;对于采用点、线或其组合以及面的组合表示的细分类型则对于点、线或其组合的部分仍然采用rnn循环神经网络算法而面的部分则采用基于卷积神经网络cnn或mask-rcnn网络的轮廓提取方法以构建空间表现形态,对于采用体的则将所述体在水平面上投影面作为面的部分而同样采用基于卷积神经网络cnn或mask-rcnn网络的轮廓提取方法以构建空间表现形态;其中的第一语义关联表中的颜色使用rgb三值来表示;所述的差异包括实体在水平面投影面积、轮廓周长、轮廓中心点的位移的差异,所述第一预设值为5-10%;所述轮廓中心点被添加到所述第一语义关联表中点、线、面、体的点项目中。6.根据权利要求5所述的方法,其特征在于,所述轮廓中心点确定的方法包括:对于点、线或其组合表示的细分类型以rnn循环神经网络算法中形成的节点作为轮廓中心点;对于对于采用点、线或其组合以及面的组合表示的细分类型采用实体轮廓中的预设的四个点两两连线交点作为轮廓中心点,其中,若轮廓的提取基于卷积神经网络cnn,预设的四个点的选取方式为,选定基于边界罩m而预测的p个预测顶点中在预设的地理区域空间直角坐标系e中的横坐标或纵坐标最大或最小的点为第一标定点,如果存在横坐标或纵坐标有相同最大或最小点,则取相应的纵坐标或横坐标最大或最小的点为第一标定点,将第一标定点与剩余p-1个点之间按顺时针或逆时针连接预测点的路径顺序进行距离计算,和与其距离最长者对应的点连接,相应选定基于边界罩m预测的另一个与第一标定点距离最短的相邻顶点为第二标定点,以同样方式和与其距离最长者对应的点连接,获得两条连接线段之间的交点作为轮廓中心点;若轮廓的提取是基于mask-rcnn网络,预设的四个点的选取方式为,采用邻边分别平行于x轴和y轴的面部分的最小外接矩与轮廓的至少四个交点中选取。7.根据权利要求1-4,6中任一项所述的方法,其特征在于,所述地理实体概念的知识抽取包括基于s1中构建的地理实体本体模型根据地理实体概念、表现形态、属性从海量结构化、半结构化和非结构化时空数据中归纳提取地理实体概念的语义特征信息,形成每一细分类的语义分类体系,其中,结构化数据包括基础地理信息数据库,通过建立地理实体本体模型的实体概念与基础地理信息数据库中的第二语义关联表,实现从基础地理信息数据库中自动抽取出地理实体概念知识;半结构化数据包括互联网物联网数据,通过互联网网站或者物联网感知系统模板构建,建立相应模板抽取器实现地理实体知识抽取,以抽取包括地理实体名、地理实体类、标签、基本描述的信息;非结构化数据包括纸质文本,电子版文本数据,利用已有的语义知识网络,通过远程监督方式构建训练集,并利用深度学习技术进行非结构化文本信息中的地理实体概念知识抽取。
8.根据权利要求7所述的方法,其特征在于,具体的模板抽取器以及深度学习技术对实体概念知识提取的算法为自然语言处理包括分词、词性标注、地理实体识别、实体概念识别、实体概念转义5个步骤,其中实体概念识别通过识别的地理实体利用第一语义关联表而关联到相应实体概念,并通过实体概念转义将对应的半结构化数据和非结构化数据中地理实体知识进行提取,具体是在半结构化数据和非结构化数据中,采用预设长度的滑动窗进行滑移获得不同总长度的文本,对每一不同总长度文本分词中进行分词和词性的标注之后利用训练好的概念预测模型进行概念预测,当滑移到的位置所预测的概率大于第二预设值80%-90%时,将当前总长度的文本作为属于被识别的概念对应的文本,以及该文本所属的数据而作为被识别的概念的知识而被提取;其中文本所属的数据是指在半结构化数据和非结构化数据中,该文本所在的互联网网站文案图表或者物联网感知系统中的文案图表数据,以及所在的纸质文本,电子版文本的出处,所述出处包括出版物、档案资料库地理地址以及两者相关的网站。9.根据权利要求8所述的方法,其特征在于,在完成地理实体概念的知识抽取之后还进行地理实体概念的融合,将结构化、半结构化和非结构化时空的不同数据中表示实体的不同语义理解关联到该同一实体上;以作为该同一实体概念知识进行提取;同时还采用地理实体概念的推理方法从s1中建立的地理实体本体模型中定义的地理实体概念及经过地理实体关系映射规则所映射的概念出发,并经过计算机推理,建立地理实体概念间的第三语义关联表,其中,实体分类模型是根据分析出语义关系与不同地理实体间的语义关系的相似度大小来进行实体分类,具体是计算分析出语义关系与多个不同地理实体间的语义关系的相似度,选取概率最大者对应的地理实体语义关系中对应的地理实体类别,将该对应的地理实体类别通过所述地理实体关系映射规则的逆映射获得待分析地理实体的分类;计算机推理包括:从地理实体关系映射规则所映射的概念出发,根据已提取的实体概念知识从当前结构化、半结构化和非结构化时空数据中关联到自身或其他地理实体的细分类型的概念知识。10.根据权利要求1-4,6,8,9中任一项所述的方法,其特征在于,所述地理实体关系映射规则的建立包括:s2-1建立地理实体之间关系规则,所述关系规则为地理实体类别—语义关系类别—地理实体类别;s2-2按照所述关系规则制成规则列表,并将各类地理实体通过规则关联到其自身或另一不同的地理实体上而填入所述规则列表中;其中,所述语义关系类别包括空间关系、时间关联关系、类属关系以及几何构成关系;空间关系建立是按照地理实体或图元的空间位置,建立实体与实体、实体与图元之间的相互空间位置关系、空间拓扑关系;其中对于所述地理实体的空间位置则按照轮廓中心点位置进行空间关系建立,时间关联关系建立是按照地理实体或图元的至少部分来自于第一语义关联表中的变化信息的创建时间、消亡时间、更新时间与时间有关的属性,建立地理实体生命周期的时间关系;类属关系建立则是按照地理实体或图元的属性值、属性关键词、相关数据标准、技术标
准、专题应用、业务场景,通过设计的语义关联模型或ai自动学习,自动建立的实体属性的关联关系,包括等级关系、等同关系、层级关系;几何构成关系是指实体跟图元之间的关系,用于构成地理实体的空间可视化表达数据。11.根据权利要求10所述的方法,其特征在于,所述融合具体包括:对结构化、半结构化和非结构化时空数据中的文本信息进行地理实体语义关系筛选,并归入相应的所述语义关系类别,采用机器学习方法建立实体分类模型,基于待分类地理实体获取对应的地理概念知识,并分析出语义关系,输入实体分类模型中即获得实体分类,最后将获取的实体概念知识输通过实体对齐的方式实现时空知识图谱中表示相同语义的地理实体概念的知识融合,使得不同数据中不同表示实体的语义理解关联到同一实体上。12.根据权利要求1-4,6,8,9,11中任一项所述的方法,其特征在于,s3具体包括:在统一的计算机可理解的基于语义知识网络中的资源描述框架(rdfs)下,建立“节点—边—节点”向量空间分布式,以“主体-谓词-主体”为表示指针,以实体概念、语义关系、属性三元组集合方式进行存储而构建的地理实体时空知识图谱本体库;其中以地理概念、地理实体及属性为节点,以“概念与概念之间的关系、概念与实体的关系、实体与属性的关系、实体与实体、概念与属性、属性与属性”为边,所述属性包括地理实体分类与编码、实体结构类型、地理实体名称、别名属性项及属性信息,其中地理实体来自于对应的地理实体本体模型中对应的地理实体;具体构建的地理实体时空知识图谱本体库的方法是利用图数据库、关系数据库、分布式文件系统至少一种存储形式实现地理实体本体模型及时空知识图谱的组织管理,形成地理实体知识图谱本体库。
技术总结本发明涉及一种地理实体时空知识图谱本体库构建方法,其特征在于包括如下步骤:S1获取地理区域时空大数据,以及所述地理区域的领域专题数据库,并利用实体概念概括和抽象而建立地理实体本体模型;S2基于S1已经建立的地理实体本体模型进行地理实体概念的知识抽取和地理实体关系映射规则的建立,从而建立地理实体知识图谱本体;S3在使用统一的计算机可理解的基于语义知识网络中的资源描述框架(RDFS)下存储建立地理实体知识图谱本体,实现实体概念、语义关系、属性三元组合几何方式存储而构建的地理实体时空知识图谱本体库。实现了各领域地理实体对象“数据-信息-知识”的转换,使得基础地理实体数据可搭载的业务数据内容更丰富、关系更复杂、数据的价值更高,为多源异构数据语义融合打下基础,同时有效适应信息化社会和地理信息产业发展多样化、精细化、个性化的应用需求。应用需求。应用需求。
技术研发人员:刘俊伟 杨文雪 吴威玲
受保护的技术使用者:泰瑞数创科技(北京)股份有限公司
技术研发日:2022.05.10
技术公布日:2022/11/1