一种基于网格相关度的空间数据集范围排序搜索方法

专利2025-06-18  30


本发明属于数据处理,具体的说是涉及一种支持利用网格相关度进行空间数据集范围排序搜索的方法。


背景技术:

1、随着政府、企业和非营利组织开放数据集数量的不断增加,人们可以通过各种在线系统获取大量数据集进行数据分析。这些开放数据集可用于决策制定和应用开发,以及机器学习和人工智能的训练、验证和增强。其中,大部分数据集包含空间信息,使得空间数据集搜索成为数据集领域的重要研究方向。作为最基本的搜索方法之一,范围排序搜索被大多数空间数据集搜索系统所支持。因此,如何在大量空间数据集中高效处理空间数据集范围排序搜索是空间数据集搜索的重要问题之一。

2、空间数据集的范围排序搜索需要计算搜索范围和空间数据集之间的相关度,然而,现有的空间数据集搜索系统及其原型文献鲜少讨论相关度的计算问题。而在类似的空间数据范围排序搜索中,现有文献通常关注的是位于搜索范围内的位置点数量。在某些情况下,采用空间数据集位于搜索范围内的位置点数量作为搜索范围和空间数据集之间的相关度的方法确实可以起到一定作用,尤其是数据集使用者需要搜索范围内大量的空间数据项的情况下。然而,这种方法只考虑了空间数据集中位置点的局部分布情况,忽略了空间数据集整体分布对于相关度的影响。例如,在以位置点数量作为相关度的情况下,位置点数量较多的空间数据集与搜索范围的相关度很容易大于位置点数量较少的空间数据集,即便事实是后者的位置点相对更集中在搜索范围内。根据数据集使用者的实际需求,位置点集中在搜索范围内的数据集,通常才是真正需要的搜索结果。因此,如果能提出一种方法,能够在计算搜索范围和空间数据集的相关度时,同时考虑到空间数据集中位置点的总体分布情况和在搜索范围内的分布情况,就能够提高范围排序搜索结果的可用性。


技术实现思路

1、为了计算空间数据集和搜索范围之间的相关度提出了一种新的计算方法,本发明提供了一种基于网格相关度的空间数据集范围排序搜索方法,该方法在基于网格的相关度计算中同时考虑到了位置点属于网格的空间数据集数量和空间数据集属于网格的位置点数量对相关度的影响,并提供了两个可调参数:k是空间数据集的饱和参数,控制着空间数据集属于网格的位置点数量对相关度的影响;b是空间数据集的归一化参数,控制着空间数据集位置点总数对相关度的影响。

2、为了达到上述目的,本发明是通过以下技术方案实现的:

3、本发明是一种基于网格相关度的空间数据集范围排序搜索方法,所述空间数据集范围排序搜索方法包括两个阶段:第一阶段,数据处理阶段;第二阶段,查询处理阶段,具体包括如下过程:

4、所述数据处理阶段包括以下步骤:

5、步骤1.1、给定一个空间数据库d={d1,d2,…dn},其中di为一个包含若干二维位置点的空间数据集,表示为其中mi表示di包含的位置点数量,将空间数据库d中所有位置点构成的全局空间区域根据划分参数θ划分为2θ×2θ个大小相等的网格集合g={g1,1,g1,2,…,gu,u-1,gu,u},其中gr,c表示网格g中的第r行第c列网格,u=2θ;

6、步骤1.2、计算空间数据库d中的空间数据集包含的平均位置点数量对网格集合g中每一个网格gr,c,计算网格中的位置点数量lgr,c,构建存在位置点属于网格gr,c的空间数据集集合ds(gr,c)={di|di中存在位置点处于网格gr,c中},若空间数据集集合ds(gr,c)不为空,则将网格gr,c添加到全局非空网格集合gng中;

7、步骤1.3、根据网格集合g,将空间数据库d中的每一个空间数据集di转换为网格相关度集合ai,最终形成网格相关度集合表示的空间数据库a={a1,a2,…an};

8、步骤1.4、根据步骤1.3形成的网格相关度集合表示的空间数据库a,对全局非空网格集合gng中每一个全局非空网格gr,c构建一个非空网格-空间数据集映射二元组(gr,c,drlistr,c),构成非空网格-空间数据集映射索引gsi-index={(gr,c,drlistr,c)|gr,c∈gng};

9、假设针对空间数据库d的搜索范围为q,所述查询处理阶段包含以下步骤:

10、步骤2.1、根据网格集合g,生成覆盖搜索范围q的最小化搜索网格集合gq={gr,c|gr,c与q存在重叠区域};

11、步骤2.2、利用搜索网格集合gq和非空网格-空间数据集映射索引gsi-index,计算搜索范围q和空间数据库d中每一个空间数据集之间的相关度,进而确定最终的搜索结果result。

12、本发明的进一步改进在于:步骤1.3中,根据网格集合g,将空间数据集di转换为网格相关度集合ai,具体包括以下步骤:

13、步骤1.3.1、针对网格集合g中每一个网格gr,c,若空间数据集di存在位置点位于网格gr,c中,则将网格gr,c加入到空间数据集di的非空网格集合ngi中;

14、步骤1.3.2、对于空间数据集di在网格集合g中的每一个非空网格gr,c,计算空间数据集di与网格gr,c的网格相关度

15、步骤1.3.3、空间数据集di与所有非空网格的网格相关度构成网格相关度集合

16、本发明的进一步改进在于:在步骤1.3.2中,计算空间数据集di与网格gr,c的网格相关度计算方法如下:

17、

18、其中,lr,c表示空间数据集di在网格集合g中包含的位置点数量,a是空间数据集di的饱和度参数,b是空间数据集di的归一化参数。

19、本发明的进一步改进在于:步骤1.4中,根据相关度集合表示数据库a为全局非空网格gr,c构建一个非空网格-空间数据集映射二元组(gr,c,drlistr,c),具体包括以下步骤:

20、步骤1.4.1、对于空间数据集集合ds(gr,c)中每一个空间数据集di,从空间数据集di的网格相关度集合ai中取出空间数据集di与网格gr,c的网格相关度创建二元组并将二元组添加到网格gr,c的空间数据集映射列表drlistr,c中。

21、步骤1.4.2、构建非空网格-空间数据集映射二元组(gr,c,drlistr,c)。

22、本发明的进一步改进在于:步骤2.2中根据利用搜索网格集合gq和非空网格-空间数据集映射索引gsi-index确定最终的搜索结果result,具体包括以下步骤:

23、步骤2.2.1、为空间数据库d中每一个空间数据集di初始化一个相关度变量reli=0;

24、步骤2.2.2、对于搜索网格集合gq中每个搜索网格gr,c,根据非空网格-空间数据集映射索引gsi-index获取gr,c对应的空间数据集映射列表drlistr,c,针对空间数据集映射列表drlistr,c中每一个二元组计算空间数据集di对应的相关度变量

25、步骤2.2.3、对应的相关度变量reli值最高的前k个空间数据集构成的集合即为最终的搜索结果result。

26、本发明的有益效果是:

27、该方法具体是基于网格相关度将空间数据集转化为网格相关度集合,并利用网格相关度集合表示的空间数据库来创建非空网格-空间数据集映射索引,根据覆盖搜索范围的最小化搜索网格集合,进行搜索范围和空间数据集的相关度运算,从而得出排序top-k结果。

28、本发明提出了一种可以根据实际需求调节参数的针对空间数据集的基于网格的相关度计算方法。参数a越大时,空间数据集在网格中的位置点数量对相关度的影响程度越大。参数b越大时,空间数据集的位置点数量对相关度的影响程度越小。针对不同的空间数据库,可以通过调节a和b两个参数来适应实际需求。

29、本发明基于网格相关度构建了包含非空网格和关联数据集映射关系的索引。通过使用该映射索引,在存储信息时,可以省略大量的位置点信息,将空间数据集提炼为相关度表示,节省存储空间,而在搜索网格时,不仅可以略过空网格,还能快速通过网格定位关联数据集,从而提高搜索效率。

30、本发明查询方案结构简单,易于实现和应用。


技术特征:

1.一种基于网格相关度的空间数据集范围排序搜索方法,其特征在于:所述空间数据集范围排序搜索方法包括两个阶段:第一阶段,数据处理阶段;第二阶段,查询处理阶段,其中,

2.根据权利要求1所述的一种基于网格相关度的空间数据集范围排序搜索方法,其特征在于:所述数据处理阶段具体包括以下步骤:

3.根据权利要求2所述的一种基于网格相关度的空间数据集范围排序搜索方法,其特征在于:步骤1.3中,根据网格集合g,将空间数据集di转换为网格相关度集合ai,具体包括以下步骤:

4.根据权利要求3所述的一种基于网格原子相关度计算模型的空间数据集范围排序搜索方法,其特征在于:在步骤1.3.2中,计算空间数据集di与网格gr,c的网格相关度计算方法如下:

5.根据权利要求1所述的一种基于网格原子相关度计算模型的空间数据集范围排序搜索方法,其特征在于:步骤1.4中,根据相关度集合表示数据库a为全局非空网格gr,c构建一个非空网格-空间数据集映射二元组(gr,c,drlistr,c),具体包括以下步骤:

6.根据权利要求1所述的一种基于网格相关度的空间数据集范围排序搜索方法,其特征在于:假设针对空间数据库d的搜索范围为q,所述查询处理阶段包含以下步骤:

7.根据权利要求6所述的一种基于网格原子相关度计算模型的空间数据集范围排序搜索方法,其特征在于:步骤2.2中根据利用搜索网格集合gq和非空网格-空间数据集映射索引gsi-index确定最终的搜索结果result,具体包括以下步骤:


技术总结
本发明属于数据处理技术领域,公开了一种基于网格相关度的空间数据集范围排序搜索方法,包括数据处理阶段,首先对空间数据库进行数据处理,构建全局空间区域,并将其划分为大小相等的网格,统计空间数据库的信息,准备用于相关度计算和索引构建的参数和集合,使用这些参数和集合生成网格相关度集合,最后,构建非空网格与关联空间数据集的映射索引,查询处理阶段,首先根据最小化搜索网格集合,然后根据搜索网格集合通过映射索引获取每个空间数据集和搜索范围的相关度,最后,选取相关度最高的k个数据集作为查询结果。本发明查询方案结构简单,易于实现和应用。

技术研发人员:戴华,李张晨,李鹏越,陆子瑜,陈燕俐,杨庚
受保护的技术使用者:南京邮电大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-15152.html

最新回复(0)