1.本技术涉及数据标注的技术领域,尤其是涉及一种标注类别融合方法、系统及计算机可读存储介质。
背景技术:2.随着已采集数据和标注类别的增多,为适配深度学习模型的迭代,对已标注数据进行新类别补标或对已标注类别进行标注规范修改的需求日益增加。这将给标注内容管理造成困难。
3.目前的标注平台能用决策图表示标注类别,类别之间的依赖关系(如车门框是车框的附属框,故依赖于车框),及需要的前端交互(给标注类别分阶段,一个阶段内的类别需要一类前端交互),并用简单的决策图融合策略满足补标需求。现有标注平台采用决策图标注类别,需要对标注文本进行补标时,由于补标的需求灵活多变,针对不同的补标需求,需要技术人员对标注平台的代码进行修改,以新增对应的补标功能,满足补标的需求;而标注平台的代码量巨大,且功能之间耦合关联性较强,技术人员在针对新增补标内容而修改标注平台的代码时,难以定位需要新增补标功能的代码,且代码修改逻辑较为复杂,现有的标注平台难以适用于灵活的补标场景。
技术实现要素:4.为此,本技术的实施例提供了一种标注类别融合方法、系统及计算机可读存储介质,能够解决采用决策图标注类别时难以适用于灵活的补标场景的技术问题,具体技术方案内容如下:
5.第一方面,本技术的实施例提供一种标注类别融合方法,所述方法包括:
6.获取基础标注类别文本和增量标注类别文本,维护全量标注类别文本;其中,所述基础标注类别文本、所述增量标注类别文本和所述全量标注类别文本均设有相同的节点类型、结构和标注内容表达形式,所述节点类型包括标注内容节点和形式节点,所述全量标注类别文本包含业务范围内所有支持的标注类型的标注内容节点及所有形式节点;
7.遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,其中,以所述全量标注类别文本的标注框架记录所述全量标注类别文本的形式节点的连接方式;
8.根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,合并所述融合标注类别文本和所述新标注框架,形成融合标注类别文本。
9.可选的,所述形式节点的类型包括任务起始节点和任务结束节点、阶段起始节点和阶段结束节点以及聚类节点;其中,所述任务起始节点和所述任务结束节点在ctg标注类别文本中分别只有一个,且任务起始节点和任务结束节点成对出现;所述阶段起始节点和
所述阶段结束节点均用于定义前端交互操作类型,阶段起始节点和阶段结束节点成对出现;所述聚类节点表示标注类别之间的依赖关系;所述标注内容节点表示标注类别。。
10.可选的,所述遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,包括:
11.检查所述基础标注类别文本以及所述增量标注类别文本中的每个标注内容节点,以所述全量标注类别文本为参照,在所述全量标注类别文本中向上或向下移动,直至遇到所述全量标注类别文本的第一个阶段起始节点以及阶段结束节点为止,将在所述全量标注类别文本中查找到的节点以及所述节点对应的线添加至所述融合标注类别文本。
12.可选的,所述根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,包括:
13.通过所述任务起始节点规范所述融合标注类别文本与所述全量标注类别文本的标注框架中阶段并列情况,根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,其中,所述阶段由成对的所述阶段起始节点与所述阶段结束节点形成。
14.可选的,所述根据所述融合标注类别文本删除所述标注框架中多余的阶段,包括:
15.对比所述融合标注类别文本与所述全量标注类别文本的标注框架,如果有存在于所述全量标注类别文本的标注框架中,但不存在于所述融合标注类别文本的阶段,若所述全量标注类别文本的标注框架的任意一线的终点指向所述阶段的阶段起始节点,则将所述线的终点指向所述阶段的下一阶段的阶段起始节点,并删除从所述阶段的阶段结束节点出发的其他线。
16.可选的,所述方法还包括:
17.从任务起始节点开始,从所述任务起始节点开始,采用dsf算法遍历所述全量标注类别文本以形成所述全量标注类别文本的标注框架。
18.可选的,所述方法还包括:
19.若需要修改标注类别,则在所述融合基础标注类别文本和所述增量标注类别文本的标注内容节点,形成所述融合标注类别文本的标注内容节点及连接方式时,忽略所述基础标注类别文本中的旧的标注类别。
20.可选的,节点设置为(box/property_id,node_id,meta),所述box/property_id为属性标号,node_id为节点标号,meta为节点定义的标注内容格式。
21.第二方面,本技术的实施例提供一种标注类别融合系统,所述系统包括:
22.处理模块,用于获取基础标注类别文本和增量标注类别文本,维护全量标注类别文本;其中,所述基础标注类别文本、所述增量标注类别文本和所述全量标注类别文本均设有相同的节点类型、结构和标注内容表达形式,所述节点类型包括标注内容节点和形式节点,所述全量标注类别文本包含业务范围内所有支持的标注类型的标注内容节点及所有形式节点;用于遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,其中,以所述全量标注类别文本的标注框架记录所述全量标注类别文本的形式节点的连接方式;
23.第二融合模块,用于根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,合并所述融合标注类别文本和所述新标注框架,形成融合标注类别文本。
24.第三方面,本技术的实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述任意一项所述的标注类别融合方法的步骤。
25.综上所述,与现有技术相比,本技术实施例提供的技术方案带来的有益效果至少包括:
26.通过规范标注类别文本的节点类型以及结构,规范标注内容的表达形式,使在进行标注类别文本融合或对比的时候,可以将基础标注类别文本和增量标注类别文本中各阶段规范并列,将森林转化为树,使标注类别文本融合时可采用统一的算法解决树和森林的问题,且以全量标注类别文本作为基础标注类别文本以及增量标注类别文本融合的参考,并根据融合标注类别文本修改全量标注类别文本的标注框架为新标注框架,以新标注框架合并融合标注类别文本,使融合标注类别文本以新标注框架为框架,即可使融合标注类别文本合法,解决现有的决策图的设定和融合策略不支持插入阶段和删改节点,无法满足新增前端交互和修改标注规范的需求,在前端增加新的交互方式或修改标注规范的时候,无法形成合法的决策图的问题。
附图说明
27.图1是本技术其中一实施例提供的一种标注类别融合方法的流程示意图。
28.图2是本技术另一实施例提供的一种标注类别融合方法的流程示意图之一。
29.图3是本技术另一实施例提供的一种标注类别融合方法的流程示意图之二。
具体实施方式
30.本具体实施例仅仅是对本技术的解释,其并不是对本技术的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本技术的权利要求范围内都受到专利法的保护。
31.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
32.另外,本技术中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本技术中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
33.本技术中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
34.uniontask是一个跨标注工具的通用标注平台,可进行图像标注、图像分割、点云标注等功能,uniontask提供通用的数据导入、标注、补标、结算流程,任何标注工具接入
uniontask后即可使用uniontask提供的流程服务。
35.目前的标注平台union task能用决策图表示标注类别以及类别之间的依赖关系以及需要的前端交互,如车门框是车框的附属框,故依赖于车框;给标注类别分阶段,一个阶段内的类别需要一类前端交互,并用简单的决策图融合策略满足补标需求。在补标流程中,uniontask定义了标注类别文本(category)这个概念用来描述一份数据需要标注的内容,标注类别文本就是决策图的字符串形式,分为node(节点),edge(边),option(选项)三部分,能完整描述一个可视化的图(决策图);决策图基于决策图,但在决策图的基础上,进一步定义了不同种类的节点和阶段,
36.且其描述的对象为
‘
标注内容’和
‘
标注时的前端交互方式’。
37.下面结合说明书附图对本技术实施例作进一步详细描述。
38.参照图1,在本技术的一个实施例中,提供一种标注类别融合方法,所述方法的主要步骤描述如下:
39.s1:获取基础标注类别文本和增量标注类别文本,维护全量标注类别文本;其中,所述基础标注类别文本、所述增量标注类别文本和所述全量标注类别文本均设有相同的节点类型、结构和标注内容表达形式,所述节点类型包括标注内容节点和形式节点,所述全量标注类别文本包含业务范围内所有支持的标注类型的标注内容节点及所有形式节;
40.s2:遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,其中,以所述全量标注类别文本的标注框架记录所述全量标注类别文本的形式节点的连接方式;
41.s3:根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,合并所述融合标注类别文本和所述新标注框架,形成融合标注类别文本。
42.具体的,在本实施方式中,将标注类别文本中的节点类型及结构规范,即将标注类别文本中的节点划分所需的固定类型,且各类型的节点设置对应的结构,在本实施例中节点类型包括标注内容节点以及形式节点,标注内容节点包含本次标注的具体内容,形式节点即分别描述标注任务的起始、标注类别之间的依赖关系以及标注阶段等的各节点;一个标注的阶段表示类别需要的一类前端交互方式,比如表达标注阶段的节点包括:ria框起节点、ria属性起节点等,ria框起节点意味着前端切换为标框交互模式(选择框类型+拖拽鼠标画框),标注员能在前端选择标注2d或3d框下的行人、汽车类型。标完框后,进入ria属性起节点,前端切换为标属性的交互模式(选定框+给属性),如果选定汽车框(对应聚类1),则需要标注left turn属性及right turn属性;如果选定行人框(对应聚类2),则需要标注ped_occ属性。
43.在本实施例方式中,维护全量标注类别文本,全量标注类别文本包含业务范围内所有支持的标注类型的标注内容节点及所有形式节点,在数据标注中本身也需要维护一个全量标注类别文本,所以本技术要求维护的全量标注类别文本无需额外的维护代价。全量标注类别文本只有一个,不同标注场景用不同的标注类别文本表示即可,例如标注类别文本1标人和车,对应一个标注场景,标注类别文本2标人和树,对应另一个场景,全量标注类别文本则包含人、车、树。
44.具体的,形式节点包括阶段起始节点以及阶段结束节点,阶段起始节点以及阶段结束节点成对出现。采用dsf算法遍历全量标注类别文本以形成全量标注类别文本的标注框架,全量标注类别文本的标注框架表达的是全量标注类别文本中形式节点的连接方式,例如各阶段起始/结束节点的先后顺序等,不包括标注内容节点,规范规定了阶段起始结束节点和阶段结束节点成对出现,使用dsf才能让同一阶段的起始结束节点在访问顺序中相邻出现,便于标注框架的提取。进一步的,由成对的阶段起始节点以及阶段结束节点表达一个阶段,在本实施例中,全量标注类别文本的标注框架表达阶段与阶段之间的关系。
45.具体的,在形成融合标注类别文本时,以全量标注类别文本作为参考框架,参考全量标注类别文本中的节点位置信息,进行基础标注类别文本以及增量标注类别文本的融合形成融合标注类别文本,使零散的补标内容融合进统一的标注文本框架中,使多个补标任务由森林转化为树。在本实施例中,基础标注类别文本即已标注的标注类别,融合标注类别文本即补标需求所关心的类别,融合标注类别文本即生成的补标任务中包括的标注类别。进一步的,在融合标注类别文本中,将标注内容节点连接到阶段起始节点或阶段结束节点上。
46.具体的,在本实施例中,根据融合标注类别文本删除全量标注类别文本的标注框架中多余的阶段即对比融合标注类别文本与全量标注类别文本的标注框架,如果全量标注类别文本的标注框架中存在有阶段不在融合标注类别文本中,则在全量标注类别文本的标注框架中删除该阶段,且将经过修改的全量标注类别文本的标注框架形成新标注框架,并将新标注框架与融合标注类别文本进行合并,形成合法的融合标注类别文本。
47.通过本技术的设置,规范标注类别文本的节点类型以及结构,规范标注内容的表达形式,使在进行标注类别文本融合或对比的时候,可以将标注类别文本中各阶段规范并列,将森林转化为树,进而使标注类别文本融合时可采用统一的算法解决树和森林的问题,且以全量标注类别文本作为基础标注类别文本以及增量标注类别文本融合的参考,并根据融合标注类别文本修改全量标注类别文本的标注框架为新标注框架,以新标注框架合并融合标注类别文本,使融合标注类别文本以新标注框架为框架,即可使融合标注类别文本合法,解决现有的决策图的设定和融合策略不支持插入阶段和删改节点,无法满足新增前端交互和修改标注规范的需求,在前端增加新的交互方式或修改标注规范的时候,无法形成合法的决策图的问题。
48.进一步的,在另一实施方式中,将标注类别文本的节点类型以及结构设置相同的类型以及表达形式。
49.设置形式节点的类型包括任务起始节点和任务结束节点、阶段起始节点和阶段结束节点以及聚类节点;其中,所述任务起始节点和所述任务结束节点在标注类别文本中分别只有一个,且任务起始节点和任务结束节点成对出现;所述阶段起始节点和所述阶段结束节点均用于定义前端交互操作类型,阶段起始节点和阶段结束节点成对出现;所述聚类节点表示标注类别之间的依赖关系;所述标注内容节点表示标注类别。
50.具体的,在本实施方式中,节点的类型用node_type字段定义,任务起始节点与任务结束起点无标注意义,但能在不损失表达能力的情况下将标注类别文本结构规范为树,剔除森林。
51.进一步的,标注类别文本对节点的规范为(box/property_id,node_id,meta),所
述box/property_id为属性标号,node_id为节点标号,meta为节点定义的标注内容格式。(box/property_id,node_id,meta)表示特定标注结果是哪个标注类别文本节点下的标注,meta为各节点定义的标注内容格式。
52.参照图2,可选的,在另一实施方式中,s2为s2’:
53.s2’:检查所述基础标注类别文本以及所述增量标注类别文本中的每个标注内容节点,以所述全量标注类别文本为参照,在所述全量标注类别文本中向上或向下移动,直至遇到所述全量标注类别文本的第一个阶段起始节点以及阶段结束节点为止,将在所述全量标注类别文本中查找到的节点以及所述节点对应的线添加至所述融合标注类别文本。
54.具体的,在本实施方式中,在全量标注类别文本框架中向上或向下移动即进行graph walk。
55.参照图3,可选的,在另一实施方式中,s3包括:
56.s31:通过所述任务起始节点规范所述融合标注类别文本与所述全量标注类别文本的标注框架中阶段并列情况,根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,其中,所述阶段由成对的所述阶段起始节点与所述阶段结束节点形成。
57.s32:合并所述融合标注类别文本和新标注框架,形成融合标注类别文本。
58.具体的,在本实施方式中,通过任务起始节点的对应,使融合标注类别文本与全量标注类别文本的标注框架中各阶段对应,将森林的问题转化为树的问题,便于后续比对融合标注类别文本和全量标注类别文本的标注框架,找出全量标注类别文本的标注框架较融合标注类别文本中多出的阶段,删除该阶段,以使全量标注类别文本的标注框架中阶段对应融合标注类别文本。
59.进一步的,在另一实施方式中,根据所述融合标注类别文本删除所述标注框架中多余的阶段为:对比所述融合标注类别文本与所述全量标注类别文本的标注框架,如果有存在于所述全量标注类别文本的标注框架中,但不存在于所述融合标注类别文本的阶段,若所述全量标注类别文本的标注框架的任意一线的终点指向所述阶段的阶段起始节点,则将所述线的终点指向所述阶段的下一阶段的阶段起始节点,并删除从所述阶段的阶段结束节点出发的其他线。
60.可选的,在另一实施方式中,若需要修改标注类别,则在融合基础标注类别文本和增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式时,忽略基础标注类别文本中的旧的标注类别。
61.具体的,通过本技术的设置,允许增量标注类别文本中新阶段的加入乃至标注类别文本阶段的变更。满足了新增交互类型和修改已有标注类别的标注规范的需求。例如:如果标注规范发生改变,可以在全量标注类别文本后加一个修正阶段并在前端添加对应交互,等任务全部标注完成,再统一将这批任务的合成标注类别文本的修正阶段删除。
62.如果需要删改标注类别(例如将交通锥类别修改为静止障碍物类别-交通锥属性),则需要配置基础标注类别文本projection list表达需要转化的旧类别及转化后的新类别,在融合标注类别文本的第3步中无视基础标注类别文本的旧的标注类别,即可合成合法的融合标注类别文本。
63.在根据基础任务生成补标任务时,得益于之前对标注内容(annotation)格式的规
范,可在新节点的标注内容遇到旧节点的标注信息时,将该节点的答案形式化的转化为新节点的答案,例如:{box_id:1,node:交通锥}
→
{box_id:1,node:静止障碍物}+{property_id=1,option=交通锥,meta:{parent_box_id:1}}。
64.应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
65.在本技术的一个实施例中,提供一种标注类别融合系统,该标注类别融合系统与上述实施例中的标注类别融合方法一一对应。该标注类别融合系统包括:
66.处理模块,用于获取基础标注类别文本和增量标注类别文本,维护全量标注类别文本;其中,所述基础标注类别文本、所述增量标注类别文本和所述全量标注类别文本均设有相同的节点类型、结构和标注内容表达形式,所述节点类型包括标注内容节点和形式节点,所述全量标注类别文本包含业务范围内所有支持的标注类型的标注内容节点及所有形式节点;第一融合模块,用于遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,其中,以所述全量标注类别文本的标注框架记录所述全量标注类别文本的形式节点的连接方式;
67.第二融合模块,用于根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,合并所述融合标注类别文本和所述新标注框架,形成融合标注类别文本。
68.进一步的,在另一实施方式中,所述形式节点的类型包括任务起始节点和任务结束节点、阶段起始节点和阶段结束节点以及聚类节点;其中,所述任务起始节点和所述任务结束节点在标注类别文本中分别只有一个,且任务起始节点和任务结束节点成对出现;所述阶段起始节点和所述阶段结束节点均用于定义前端交互操作类型,阶段起始节点和阶段结束节点成对出现;所述聚类节点表示标注类别之间的依赖关系;所述标注内容节点表示标注类别。
69.进一步的,在另一实施方式中,所述遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,包括:
70.检查所述基础标注类别文本以及所述增量标注类别文本中的每个标注内容节点,以所述全量标注类别文本为参照,在所述全量标注类别文本中向上或向下移动,直至遇到所述全量标注类别文本的第一个阶段起始节点以及阶段结束节点为止,将在所述全量标注类别文本中查找到的节点以及所述节点对应的线添加至所述融合标注类别文本。
71.进一步的,在另一实施方式中,所述根据所述融合标注类别文本删除所述标注框架中多余的阶段,形成新标注框架包括:
72.通过所述任务起始节点规范所述融合标注类别文本与所述全量标注类别文本的标注框架中阶段并列情况,根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,其中,所述阶段由成对的所述阶段起始节点与所述阶段结束节点形成。
73.进一步的,在另一实施方式中,所述根据所述融合标注类别文本删除所述标注框架中多余的阶段包括:
74.对比融合标注类别文本与全量标注类别文本的标注框架,如果有存在于全量标注类别文本的标注框架中,但不存在于融合标注类别文本的阶段,若所述全量标注类别文本的标注框架的任意一条的终点指向所述阶段的阶段起始节点,则将所述线的终点指向所述阶段的下一阶段的阶段起始节点,并删除从所述阶段的阶段结束节点出发的其他线。
75.进一步的,在另一实施方式中,所述方法还包括:
76.从任务起始节点开始,采用dsf算法遍历全量标注类别文本以形成全量标注类别文本的标注框架,其中,所述全量标注类别文本的标注框架表达阶段与阶段之间的关系。
77.进一步的,在另一实施方式中,所述方法还包括:
78.若需要修改标注类别,则在融合基础标注类别文本和增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式时,忽略基础标注类别文本中的旧的标注类别。
79.进一步的,在另一实施方式中,节点设置为(box/property_id,node_id,meta),所述box/property_id为属性标号,node_id为节点标号,meta为节点定义的标注内容格式。
80.上述的标注类别融合系统各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
81.在本技术的一个实施例中,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例所述的标注类别融合方法步骤。所述计算机可读存储介质包括rom(read-only memory,只读存储器)、ram(random-access memory,随机存取存储器)、cd-rom(compact disc read-only memory,只读光盘)、磁盘、软盘等。
82.所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将本技术所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
技术特征:1.一种标注类别融合方法,其特征在于,所述方法包括:获取基础标注类别文本和增量标注类别文本,维护全量标注类别文本;其中,所述基础标注类别文本、所述增量标注类别文本和所述全量标注类别文本均设有相同的节点类型、结构和标注内容表达形式,所述节点类型包括标注内容节点和形式节点,所述全量标注类别文本包含业务范围内所有支持的标注类型的标注内容节点及所有形式节点;遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,其中,以所述全量标注类别文本的标注框架记录所述全量标注类别文本的形式节点的连接方式;根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,合并所述融合标注类别文本和所述新标注框架,形成融合标注类别文本。2.根据权利要求1所述的标注类别融合方法,其特征在于,所述形式节点的类型包括任务起始节点和任务结束节点、阶段起始节点和阶段结束节点以及聚类节点;其中,所述任务起始节点和所述任务结束节点在标注类别文本中分别只有一个,且任务起始节点和任务结束节点成对出现;所述阶段起始节点和所述阶段结束节点均用于定义前端交互操作类型,阶段起始节点和阶段结束节点成对出现;所述聚类节点表示标注类别之间的依赖关系;所述标注内容节点表示标注类别。3.根据权利要求2所述的标注类别融合方法,其特征在于,所述遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,包括:检查所述基础标注类别文本以及所述增量标注类别文本中的每个标注内容节点,以所述全量标注类别文本为参照,在所述全量标注类别文本中向上或向下移动,直至遇到所述全量标注类别文本的第一个阶段起始节点以及阶段结束节点为止,将在所述全量标注类别文本中查找到的节点以及所述节点对应的线添加至所述融合标注类别文本。4.根据权利要求3所述的标注类别融合方法,其特征在于,所述根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架包括:通过所述任务起始节点规范所述融合标注类别文本与所述全量标注类别文本的标注框架中阶段并列情况,根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,其中,所述阶段由成对的所述阶段起始节点与所述阶段结束节点形成。5.根据权利要求4所述的标注类别融合方法,其特征在于,所述根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,包括:对比所述融合标注类别文本与所述全量标注类别文本的标注框架,如果有存在于所述全量标注类别文本的标注框架中,但不存在于所述融合标注类别文本的阶段,若所述全量标注类别文本的标注框架的任意一线的终点指向所述阶段的阶段起始节点,则将所述线的终点指向所述阶段的下一阶段的阶段起始节点,并删除从所述阶段的阶段结束节点出发的其他线。6.根据权利要求2所述的标注类别融合方法,其特征在于,所述方法还包括:
从所述任务起始节点开始,采用dsf算法遍历所述全量标注类别文本以形成所述全量标注类别文本的标注框架。7.根据权利要求1所述的标注类别融合方法,其特征在于,所述方法还包括:若需要修改标注类别,则在所述融合基础标注类别文本和所述增量标注类别文本的标注内容节点,形成所述融合标注类别文本的标注内容节点及连接方式时,忽略所述基础标注类别文本中的旧的标注类别。8.根据权利要求1所述的标注类别融合方法,其特征在于,节点设置为(box/property_id,node_id,meta),所述box/property_id为属性标号,node_id为节点标号,meta为节点定义的标注内容格式。9.一种标注类别融合系统,其特征在于,所述系统包括:处理模块,用于获取基础标注类别文本和增量标注类别文本,维护全量标注类别文本;其中,所述基础标注类别文本、所述增量标注类别文本和所述全量标注类别文本均设有相同的节点类型、结构和标注内容表达形式,所述节点类型包括标注内容节点和形式节点,所述全量标注类别文本包含业务范围内所有支持的标注类型的标注内容节点及所有形式节点;第一融合模块,用于遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,其中,以所述全量标注类别文本的标注框架记录所述全量标注类别文本的形式节点的连接方式;第二融合模块,用于根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,合并所述融合标注类别文本和所述新标注框架,形成融合标注类别文本。。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至8任意一项所述的标注类别融合方法的步骤。
技术总结本申请属于数据标注的领域,公开了一种标注类别融合方法、系统及计算机可读存储介质,所述方法包括:获取基础标注类别文本和增量标注类别文本,维护全量标注类别文本;遍历所述基础标注类别文本和所述增量标注类别文本,以所述全量标注类别文本的节点连接方式为参照,融合所述基础标注类别文本和所述增量标注类别文本的标注内容节点,形成融合标注类别文本的标注内容节点及连接方式,其中,以所述全量标注类别文本的标注框架记录所述全量标注类别文本的形式节点的连接方式;根据所述融合标注类别文本删除所述全量标注类别文本的标注框架中多余的阶段,形成新标注框架,合并所述融合标注类别文本和所述新标注框架,形成融合标注类别文本,可以达到灵活对决策图进行删除、修改的效果。修改的效果。修改的效果。
技术研发人员:周须晴 韩旭
受保护的技术使用者:广州文远知行科技有限公司
技术研发日:2022.07.06
技术公布日:2022/11/1