地图标签获取方法、装置、电子设备及存储介质与流程

专利2023-05-11  126



1.本技术涉及游戏领域,具体涉及一种地图标签获取方法、装置、电子设备及存储介质。


背景技术:

2.在游戏领域中,有时需要对其中地图文本数据进行标签抽取。现有技术中,通常采用有监督的方式训练得到模型,进而按照训练所得模型进行标签抽取。由于有监督的方式需要预先准备好标注好标签的训练语料,因此会花费大量的人工成本和时间成本,从而导致地图标签抽取的效率较低。


技术实现要素:

3.本技术的一个目的在于提出一种地图标签获取方法、装置、电子设备及存储介质,能够提高地图标签抽取的效率。
4.根据本技术实施例的一方面,公开了一种地图标签获取方法,所述方法包括:
5.基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型;
6.获取其中地图文本数据待标注标签的数据集,并使用所述初始模型抽取得到数据集中地图文本数据的标签;
7.获取针对所述数据集中地图文本数据的标签的人工验证结果,并基于所述人工验证结果,从所述数据集中筛选出通过验证且已标注标签的增量标注数据;
8.基于所述增量标注数据调整训练所述初始模型,得到模型指标满足业务需求的目标模型;
9.基于所述目标模型,获取地图中用户生产内容的标签。
10.根据本技术实施例的一方面,公开了一种地图标签获取装置,所述装置包括:
11.第一训练模块,配置为基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型;
12.第一标签模块,配置为获取其中地图文本数据待标注标签的数据集,并使用所述初始模型抽取得到数据集中地图文本数据的标签;
13.验证模块,配置为获取针对所述数据集中地图文本数据的标签的人工验证结果,并基于所述人工验证结果,从所述数据集中筛选出通过验证且已标注标签的增量标注数据;
14.第二训练模块,配置为基于所述增量标注数据调整训练所述初始模型,得到模型指标满足业务需求的目标模型;
15.第二标签模块,配置为基于所述目标模型,获取地图中用户生产内容的标签。
16.根据本技术实施例的一方面,公开了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行
时,使得所述电子设备实现以上任一项实施例。
17.根据本技术实施例的一方面,公开了一种计算机程序介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行以上任一项实施例。
18.根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
19.本技术实施例中,通过基于人工验证结果从初始模型标注的数据集中地图文本数据筛选出增量标注数据,进而基于增量标注数据调整训练初始模型,降低了训练得到满足业务需要的目标模型的过程中,对于预先标注标签的地图文本数据的需求量,从而降低了人工成本,提高了目标模型的训练效率,进而提高了以目标模型为基础所进行地图标签提取的效率。
20.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
21.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本技术。
附图说明
22.通过参考附图详细描述其示例实施例,本技术的上述和其它目标、特征及优点将变得更加显而易见。
23.图1示出了根据本技术一个实施例的地图标签获取方法的流程图。
24.图2示出了根据本技术一个实施例的地图标签获取以及应用的流程示意图。
25.图3示出了根据本技术一个实施例的模型在抽取标签过程中的数据处理示意图。
26.图4示出了根据本技术一个实施例的模型在抽取标签过程中的数据处理示意图。
27.图5示出了根据本技术一个实施例的以蒙版后文本数据对目标数据进行训练的示意图。
28.图6示出了根据本技术一个实施例的地图标签获取装置的框图。
29.图7示出了根据本技术一个实施例的电子设备硬件图。
具体实施方式
30.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些示例实施方式使得本技术的描述将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本技术的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
31.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多示例实施方式中。在下面的描述中,提供许多具体细节从而给出对本技术的示例实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而省略所述特定细节
中的一个或更多,或者可以采用其它的方法、组元、步骤等。在其它情况下,不详细示出或描述公知结构、方法、实现或者操作以避免喧宾夺主而使得本技术的各方面变得模糊。
32.附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
33.本技术提供了一种地图标签获取方法,能够应用于游戏领域中,对游戏内地图中用户生产内容ugc(user generated content)进行标签抽取。所抽取标签可以用于对地图中用户生产内容进行审核;也可以在用户将其自制地图于游戏社区进行分享时,将所抽取标签提供给用户供其参考,便于用户合理地自定义其自制地图的标签。
34.图1示出了本技术实施例所提供地图标签获取方法的流程图,该方法的示例性执行主体为服务器,该方法包括:
35.步骤s110、基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型;
36.步骤s120、获取其中地图文本数据待标注标签的数据集,并使用初始模型抽取得到数据集中地图文本数据的标签;
37.步骤s130、获取针对数据集中地图文本数据的标签的人工验证结果,并基于人工验证结果,从数据集中筛选出通过验证且已标注标签的增量标注数据;
38.步骤s140、基于增量标注数据调整训练初始模型,得到模型指标满足业务需求的目标模型;
39.步骤s150、基于目标模型,获取地图中用户生产内容的标签。
40.本技术实施例中,获取训练集,训练集由预先标注有标签的地图文本数据组成。进而基于该训练集,以有监督的方式训练得到用于抽取标签的初始模型。
41.考虑到预先标注有标签的地图文本数据通常需要耗费较大的人工成本和时间成本,因此如果要控制训练成本和效率的话,训练得到的初始模型性能会受到一些限制,需要进一步优化。
42.为进一步优化初始模型,获取数据集,数据集由未标注有标签的地图文本数据组成。进而使用该初始模型抽取得到该数据集中的地图文本数据的标签。进而将数据集中地图文本数据的标签提供给人工审核系统进行验证,得到针对数据集中地图文本数据的标签的人工验证结果。
43.人工验证结果描述了数据集中地图文本数据的标签是否通过验证,通过验证说明对应标签是正确的,未通过验证说明对应标签是不理想的。进而基于人工验证结果,从该数据集中筛选出通过验证且已标注标签的增量标注数据。
44.进而基于得到的增量标注数据调整训练该初始模型,对该初始模型进行优化,进而得到模型指标满足业务需求的目标模型。其中,模型指标可以采取模型对数据集中地图文本数据所标注标签的验证通过率进行描述。
45.得到目标模型后,将目标模型投入使用,对地图中用户生产内容的标签进行抽取。
46.由此可见,本技术实施例中,通过基于人工验证结果从初始模型标注的数据集中地图文本数据筛选出增量标注数据,进而基于增量标注数据调整训练初始模型,降低了训
练得到满足业务需要的目标模型的过程中,对于预先标注标签的地图文本数据的需求量,从而降低了人工成本,提高了目标模型的训练效率,进而提高了以目标模型为基础所进行地图标签提取的效率。
47.图2示出了本技术一实施例的地图标签获取以及应用的流程示意图。
48.参见图2,本实施例中,将地图名称和描述文本提取出来作为对应的地图文本数据,然后对其进行预处理,得到已标注有标签的训练集,待标注的数据集和用户生产内容。
49.使用已标注有标签的训练集训练得到初始模型,并根据初始模型的表现确认初始模型是否满足业务需求。若不满足业务需求,则使用初始模型提取待标注标签的数据集中地图文本数据的标签,再结合人工验证,筛选出增量标注数据。再根据增量标注数据更新已标注标签的训练集,调整训练初始模型,直到初始模型的表现满足业务需求,终止对于初始模型的调整训练,得到目标模型。
50.得到目标模型后,使用目标模型对地图中用户生产内容进行标签提取,得到候选标签模版。对候选标签模版进行人工过滤,得到最终标签模版,进而将最终标签模版投入应用,供用户根据模版匹配配置地图标签。
51.在一实施例中,将目标地图文本数据切分为单字,并获取单字在句子中的第一位置信息。对单字进行向量化处理,得到字向量,并将字向量、第一位置信息和对应的句子标识进行拼接,得到序列数据。将序列数据输入初始模型或者目标模型,得到序列数据所输入模型输出的序列标签概率。基于序列标签概率,获取目标地图文本数据的标签。
52.本实施例主要描述了模型在抽取标签过程中的数据处理逻辑。其中,本实施例所描述数据处理逻辑既适用于初始模型训练阶段的抽取标签过程,也适用于目标模型投入使用阶段的抽取标签过程。
53.具体的,当处于初始模型训练阶段时,目标地图文本数据为训练集中的地图文本数据,或者为增量标注数据;当处于目标模型投入使用阶段时,目标地图文本数据为地图中用户生产内容。
54.得到当前阶段的目标地图文本数据后,将目标地图文本数据切分为单字。进而获取各个单字在其句子中的第一位置信息,并对各个单字进行向量化处理,得到各个单字对应的字向量。
55.进而将各个单字的字向量、第一位置信息和对应的句子标识进行拼接,得到目标地图文本数据对应的序列数据。其中,句子标识主要用于唯一标识汉字所在句子。
56.得到序列数据后,若当前阶段为初始模型训练阶段,则将序列数据输入初始模型,得到初始模型输出的序列标签概率,进而基于序列标签概率,获取初始模型抽取出的训练集中的地图文本数据的标签,或者,初始模型抽取出的增量标注数据的标签;若当前阶段为目标模型投入使用阶段,则将序列数据输入目标模型,得到目标模型输出的序列标签概率,进而基于序列标签概率,获取目标模型抽取出的地图中用户生产内容的标签。
57.在一实施例中,基于序列标签概率,获取目标地图文本数据的标签,包括:
58.采用条件随机场crf对序列标签概率进行转换,得到目标地图文本数据的标签。
59.本实施例中,条件随机场crf(conditional random fields)是一种条件概率分布模型,其依据标签之间的转移概率,将输入的序列标签概率输出为最终的标签。
60.图3示出了本技术一实施例的模型在抽取标签过程中的数据处理示意图。
61.参见图3,本实施例中,将地图名称和描述文本作为待抽取标签的目标地图文本数据。对其进行切分得到其中的单字后,将单字处理为对应的字向量token,结合单字在句子中的位置信息pos和对应的句子标识sen,得到各个单字对应的输入向量e。将输入向量e排列组合后,得到序列数据。然后将序列数据输入bert模型,经由bert模型输出对应的上下文向量t,进而通过softmax函数得到序列标签概率。进而再使用crf对序列标签概率进行处理,输出最终的bieo(begin-inside-end-outside)标签。
62.在一实施例中,将字向量、第一位置信息和对应的句子标识进行拼接,得到序列数据,包括:
63.将目标地图文本数据切分为复字词汇,并获取复字词汇在句子中的第二位置信息;
64.对复字词汇进行向量化处理,得到词向量,并将字向量、第一位置信息、词向量、第二位置信息和对应的句子标识进行拼接,得到序列数据。
65.本实施例中,在待输入模型的序列数据中添加词汇信息和所添加词汇信息的位置信息,以增强模型对应词边界的判定能力。
66.具体的,除了将目标地图文本数据切分为单字,并获取各个单字的第一位置信息和字向量外,还要将目标地图文本数据切分为复字词汇,即,切分为由至少两个字组成的词汇。进而获取各个复字词汇在其句子中的第二位置信息,并对各个复字词汇进行向量化处理,得到各个复字词汇对应的词向量。
67.进而在将各个单字的字向量、第一位置信息和对应的句子标识依次进行拼接的同时,将各个复字词汇的词向量、第二位置信息和对应的句子标识也进行拼接,得到序列数据。
68.在一实施例中,获取复字词汇在句子中的第二位置信息,包括:
69.确定复字词汇的首字和复字词汇的尾字;
70.将首字在句子中的位置标识和尾子在句子的位置标识进行组合,得到第二位置信息。
71.本实施例中,复字词汇的第二位置信息主要用于描述复字词汇的首尾位置。
72.具体的,确定复字词汇的首字和尾字,并确定首字在句子中的位置标识和尾字在句子中的位置标识,进而将首尾两字的位置标识进行组合,得到该复字词汇的第二位置信息。例如:在“小猫喜欢吃鱼”这个句子中,“小”的位置标识为1,“猫”的位置标识为2,“喜”的位置标识为3,“欢”的位置标识为4,“吃”的位置标识为5,“鱼”的位置标识为6。则“小猫”的第二位置信息可以表示为(1,2),“喜欢”的第二位置信息可以表示为(3,4)。
73.图4示出了本技术一实施例的模型在抽取标签过程中的数据处理示意图。
74.参见图4,本实施例中,待抽取标签的目标地图文本数据为“重庆人和火锅”。输入bert模型的序列数据中,除了包含各个单字的第一位置信息,还添加有复字词汇的第二位置信息。
75.具体的,“重”的第一位置信息表示为(1,1),“庆”的第一位置信息表示为(2,2),“人”的第一位置信息表示为(3,3),“和”的第一位置信息表示为(4,4),“火”的第一位置信息表示为(5,5),“锅”的第一位置信息表示为(6,6)。
[0076]“重庆”的首字为“重”,尾字为“庆”,故将其第二位置信息表示为(1,2)。“人和火
锅”的首字为“人”,尾字为“锅”,故将其第二位置信息表示为(3,6)。“火锅”的首字为“火”,尾字为“锅”,故将其第二位置信息表示为(5,6)。
[0077]
在一实施例中,目标地图文本数据包括第一语种的第一地图文本数据和第二语种的第二地图文本数据,第一地图文本数据与第二地图文本数据语义相同。
[0078]
将序列数据输入初始模型或者目标模型,得到序列数据所输入模型输出的序列标签概率,包括:将序列数据输入初始模型或者目标模型,得到序列数据所输入模型针对第一地图文本数据输出的第一序列标签概率。
[0079]
基于序列标签概率,获取目标地图文本数据的标签,包括:基于第一序列标签概率,获取第一地图文本数据的标签。
[0080]
本实施例中,利用平行语料进行数据拼接进而训练模型,以提高模型的多语言标签抽取效果。
[0081]
具体的,用于训练模型的目标地图文本数据包含两种语言的语料:第一语种的第一地图文本数据和第二语种的第二地图文本数据。
[0082]
同时对相同语义的第一地图文本数据和第二地图文本数据进行切分、向量化处理和拼接。得到拼接后的序列数据后,将其输入模型,训练模型针对其中的第一地图文本数据输出对应的第一序列标签概率,进而提取得到其中第一地图文本数据的标签。其中,可以采取将第一地图文本数据翻译为第二语种的方式,得到第二地图文本数据。
[0083]
由于模型在提取第一语种的第一地图文本数据的标签时,同时考虑了同语义的第二语种的第二地图文本数据,因此模型能够良好地融合第一语种和第二语种的标签抽取能力。
[0084]
进一步的,采用本实施例提供的方法,能够降低根据第一语种训练语料扩充第二语种训练语料的过程中翻译造成的偏差。详细的,当第一语种为汉语,第二语种为小语种时,汉语的中文训练语料更为丰富。为了使得模型能够准确地适用于小语种,需要对小语种的训练语料进行扩充。若直接使用翻译中文训练语料得到的语料对小语种训练语料进行扩充,则翻译过程中存在的偏差将导致模型在小语种上的效果不理想。因此,为了降低翻译造成的偏差,可以先将中文训练语料翻译为对应的小语种训练语料,将二者进行拼接,训练模型提取其中中文训练语料的标签。然后再通过翻译中文训练语料的方式,扩充小语种训练语料,进而将扩充后小语种训练语料翻译为对应的中文训练语料,将二者拼接,训练模型提取其中扩充后小语种训练语料的标签。通过这种拼接方式,降低了语料扩充时翻译造成的偏差,使得模型在迁移到不同语种后保持良好的标签提取效果。
[0085]
图5示出了本技术一实施例的模型在抽取多语种拼接语料过程中的数据处理示意图。
[0086]
参见图5,本实施例中,训练模型的语料由汉语训练语料和英语训练语料组成。具体的,汉语训练语料为“你好世界。”,英语训练语料为“hello world”。对二者进行切分、向量化处理和拼接后,输入bert模型,训练该模型提取汉语训练语料的标签。由于模型在提取汉语训练语料的标签时,同时考虑了同语义的英语训练语料,因此模型能够良好地融合汉语和英语的标签抽取能力。进一步的,还能够降低根据汉语训练语料扩充英语训练语料的过程中,翻译所造成的偏差,从而有利于将主要用于提取汉语语料标签的模型迁移至英语应用场景中,保证迁移后模型提取英语语料标签的效果。
[0087]
在一实施例中,基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型,包括:
[0088]
通过将其中词汇替换为同义词的方式,扩展训练集;
[0089]
或者,通过将其中实体词汇替换为同类型实体词汇的方式,扩展训练集;
[0090]
或者,通过对其中句子片段进行乱序处理的方式,扩展训练集。
[0091]
本实施例中,在训练初始模型之前,通过数据增强的方式拓展训练集。
[0092]
具体的,数据增强的方式包括三种:同义词替换、实体替换、片段乱序。
[0093]
在进行同义词替换时,可以预先建立同义词表,然后利用该同义词表,根据二项分布对训练集中地图文本数据的词汇进行随机替换,得到标注有标签的新地图文本数据,进而将这些新地图文本数据添加至训练集中。当采用bieo模式进行序列标注时,若替换的同义词大于1个词向量token,则依次延展bieo标签。
[0094]
在进行实体替换时,同理于同义词替换,可以预先建立同类型实体词汇表,然后利用该同类型实体词汇表,根据二项分布对训练集中地图文本数据的实体词汇进行随机替换,得到标注有标签的新地图文本数据,进而将这些新地图文本数据添加至训练集中。当采用bieo模式进行序列标注时,若替换的实体词汇大于1个词向量token,则依次延展bieo标签。
[0095]
在进行片段乱序时,可以根据标点符号对句子进行切分,得到各个句子片段。进而对各个句子片段的顺序进行随机打乱,得到乱序的新地图文本数据,进而将这些新地图文本数据添加至训练集中。
[0096]
图6示出了根据本技术一实施例的地图标签获取装置的框图,所述装置包括:
[0097]
第一训练模块210,配置为基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型;
[0098]
第一标签模块220,配置为获取其中地图文本数据待标注标签的数据集,并使用所述初始模型抽取得到数据集中地图文本数据的标签;
[0099]
验证模块230,配置为获取针对所述数据集中地图文本数据的标签的人工验证结果,并基于所述人工验证结果,从所述数据集中筛选出通过验证且已标注标签的增量标注数据;
[0100]
第二训练模块240,配置为基于所述增量标注数据调整训练所述初始模型,得到模型指标满足业务需求的目标模型;
[0101]
第二标签模块250,配置为基于所述目标模型,获取地图中用户生产内容的标签。
[0102]
在本技术的一示例性实施例中,所述装置配置为:
[0103]
将目标地图文本数据切分为单字,并获取所述单字在句子中的第一位置信息;
[0104]
对所述单字进行向量化处理,得到字向量,并将所述字向量、所述第一位置信息和对应的句子标识进行拼接,得到序列数据;
[0105]
将序列数据输入所述初始模型或者所述目标模型,得到序列数据所输入模型输出的序列标签概率;
[0106]
基于所述序列标签概率,获取所述目标地图文本数据的标签。
[0107]
在本技术的一示例性实施例中,所述装置配置为:
[0108]
将所述目标地图文本数据切分为复字词汇,并获取所述复字词汇在句子中的第二
位置信息;
[0109]
对所述复字词汇进行向量化处理,得到词向量,并将所述字向量、所述第一位置信息、所述词向量、所述第二位置信息和对应的句子标识进行拼接,得到所述序列数据。
[0110]
在本技术的一示例性实施例中,所述装置配置为:
[0111]
确定所述复字词汇的首字和所述复字词汇的尾字;
[0112]
将所述首字在句子中的位置标识和所述尾子在句子的位置标识进行组合,得到所述第二位置信息。
[0113]
在本技术的一示例性实施例中,所述装置配置为:
[0114]
采用条件随机场crf对所述序列标签概率进行转换,得到所述目标地图文本数据的标签。
[0115]
在本技术的一示例性实施例中,所述目标地图文本数据包括第一语种的第一地图文本数据和第二语种的第二地图文本数据,所述第一地图文本数据与所述第二地图文本数据语义相同;所述装置配置为:
[0116]
将所述序列数据输入所述初始模型或者所述目标模型,得到所述序列数据所输入模型针对所述第一地图文本数据输出的第一序列标签概率;
[0117]
基于所述第一序列标签概率,获取所述第一地图文本数据的标签。
[0118]
在本技术的一示例性实施例中,所述装置配置为:
[0119]
通过将其中词汇替换为同义词的方式,扩展所述训练集;
[0120]
或者,通过将其中实体词汇替换为同类型实体词汇的方式,扩展所述训练集;
[0121]
或者,通过对其中句子片段进行乱序处理的方式,扩展所述训练集。
[0122]
下面参考图7来描述根据本技术实施例的电子设备30。图7显示的电子设备30仅仅是一个示例,不应对本技术实施例的功能和使用范围带来任何限制。
[0123]
如图7所示,电子设备30以通用计算设备的形式表现。电子设备30的组件可以包括但不限于:上述至少一个处理单元310、上述至少一个存储单元320、连接不同系统组件(包括存储单元320和处理单元310)的总线330。
[0124]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元310执行,使得所述处理单元310执行本说明书上述示例性方法的描述部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元310可以执行如图1中所示的各个步骤。
[0125]
存储单元320可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)3201和/或高速缓存存储单元3202,还可以进一步包括只读存储单元(rom)3203。
[0126]
存储单元320还可以包括具有一组(至少一个)程序模块3205的程序/实用工具3204,这样的程序模块3205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0127]
总线330可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0128]
电子设备30也可以与一个或多个外部设备400(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备30交互的设备通信,和/或与使得该电子设备30能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等
等)通信。这种通信可以通过输入/输出(i/o)接口350进行。输入/输出(i/o)接口350与显示单元340相连。并且,电子设备30还可以通过网络适配器360与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器360通过总线330与电子设备30的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0129]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本技术实施方式的方法。
[0130]
在本技术的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行上述方法实施例部分描述的方法。
[0131]
根据本技术的一个实施例,还提供了一种用于实现上述方法实施例中的方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0132]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0133]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0134]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0135]
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网
(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0136]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0137]
此外,尽管在附图中以特定顺序描述了本技术中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0138]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本技术实施方式的方法。
[0139]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由所附的权利要求指出。

技术特征:
1.一种地图标签获取方法,其特征在于,所述方法包括:基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型;获取其中地图文本数据待标注标签的数据集,并使用所述初始模型抽取得到数据集中地图文本数据的标签;获取针对所述数据集中地图文本数据的标签的人工验证结果,并基于所述人工验证结果,从所述数据集中筛选出通过验证且已标注标签的增量标注数据;基于所述增量标注数据调整训练所述初始模型,得到模型指标满足业务需求的目标模型;基于所述目标模型,获取地图中用户生产内容的标签。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将目标地图文本数据切分为单字,并获取所述单字在句子中的第一位置信息;对所述单字进行向量化处理,得到字向量,并将所述字向量、所述第一位置信息和对应的句子标识进行拼接,得到序列数据;将序列数据输入所述初始模型或者所述目标模型,得到序列数据所输入模型输出的序列标签概率;基于所述序列标签概率,获取所述目标地图文本数据的标签。3.根据权利要求2所述的方法,其特征在于,将所述字向量、所述第一位置信息和对应的句子标识进行拼接,得到序列数据,包括:将所述目标地图文本数据切分为复字词汇,并获取所述复字词汇在句子中的第二位置信息;对所述复字词汇进行向量化处理,得到词向量,并将所述字向量、所述第一位置信息、所述词向量、所述第二位置信息和对应的句子标识进行拼接,得到所述序列数据。4.根据权利要求3所述的方法,其特征在于,获取所述复字词汇在句子中的第二位置信息,包括:确定所述复字词汇的首字和所述复字词汇的尾字;将所述首字在句子中的位置标识和所述尾子在句子的位置标识进行组合,得到所述第二位置信息。5.根据权利要求2所述的方法,其特征在于,基于所述序列标签概率,获取所述目标地图文本数据的标签,包括:采用条件随机场crf对所述序列标签概率进行转换,得到所述目标地图文本数据的标签。6.根据权利要求2所述的方法,其特征在于,所述目标地图文本数据包括第一语种的第一地图文本数据和第二语种的第二地图文本数据,所述第一地图文本数据与所述第二地图文本数据语义相同;将序列数据输入所述初始模型或者所述目标模型,得到序列数据所输入模型输出的序列标签概率,包括:将所述序列数据输入所述初始模型或者所述目标模型,得到所述序列数据所输入模型针对所述第一地图文本数据输出的第一序列标签概率;基于所述序列标签概率,获取所述目标地图文本数据的标签,包括:基于所述第一序列
标签概率,获取所述第一地图文本数据的标签。7.根据权利要求1所述的方法,其特征在于,基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型,包括:通过将其中词汇替换为同义词的方式,扩展所述训练集;或者,通过将其中实体词汇替换为同类型实体词汇的方式,扩展所述训练集;或者,通过对其中句子片段进行乱序处理的方式,扩展所述训练集。8.一种地图标签获取装置,其特征在于,所述装置包括:第一训练模块,配置为基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型;第一标签模块,配置为获取其中地图文本数据待标注标签的数据集,并使用所述初始模型抽取得到数据集中地图文本数据的标签;验证模块,配置为获取针对所述数据集中地图文本数据的标签的人工验证结果,并基于所述人工验证结果,从所述数据集中筛选出通过验证且已标注标签的增量标注数据;第二训练模块,配置为基于所述增量标注数据调整训练所述初始模型,得到模型指标满足业务需求的目标模型;第二标签模块,配置为基于所述目标模型,获取地图中用户生产内容的标签。9.一种电子设备,其特征在于,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述电子设备实现权利要求1至7任一项所述的方法。10.一种计算机可读存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1至7任一项所述的方法。

技术总结
本申请提供了一种地图标签获取方法、装置、电子设备及存储介质,所述方法包括:基于其中地图文本数据预先标注有标签的训练集,训练得到用于抽取标签的初始模型;获取其中地图文本数据待标注标签的数据集,并使用所述初始模型抽取得到数据集中地图文本数据的标签;获取针对所述数据集中地图文本数据的标签的人工验证结果,并基于所述人工验证结果,从所述数据集中筛选出通过验证且已标注标签的增量标注数据;基于所述增量标注数据调整训练所述初始模型,得到模型指标满足业务需求的目标模型;基于所述目标模型,获取地图中用户生产内容的标签。本申请实施例能够提高地图标签提取的效率。的效率。的效率。


技术研发人员:李正琪
受保护的技术使用者:迷你创想科技(深圳)有限公司
技术研发日:2022.07.21
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-2590.html

最新回复(0)