1.本技术涉及数据众包标注技术领域,尤其涉及一种数据众包标注的分发方法、装置、电子设备及存储介质。
背景技术:2.本部分旨在为权利要求书中陈述的本技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
3.在人工智能的模型训练中,数据标注需求往往量大而枯燥,通常依靠非专家人员的众包标注来实现。该标注方式改善了有标签数据获取效率低的难点,但难预期的标注准确率极大影响了数据集可用性。对此,数据众包引入冗余标注的方式,每个样本由多个标注员打标,同时配合真值推断算法,以改善最终输出标签质量。但是,在实际部署中,数据众包通常采用指定的标注冗余度,即每道题目用一个固定的标注员数量来开展标注。该过程极易造成每道题目冗余标注过多,带来额外成本。
技术实现要素:4.有鉴于此,本技术的目的在于提出一种数据众包标注的分发方法、装置、电子设备及存储介质。
5.基于上述目的,本技术提供了一种数据众包标注的分发方法,包括:
6.分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;
7.对更新后的所述标注结果集合进行真值推断,得到所述目标题目的标签对应的当前概率;
8.基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;
9.响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目。
10.在一些实施例中,基于所述当前概率对所述标签的概率进行区间估计,具体包括:
11.获取所述标签的多个历史概率;其中,在得到所述当前概率之前,每次进行真值推断每个标签均对应有一个历史概率;
12.基于所述当前概率以及所述多个历史概率对所述标签的概率进行区间估计。
13.在一些实施例中,基于所述当前概率以及所述多个历史概率对所述标签的概率进行区间估计,具体包括:
14.确定所述当前概率和所述多个历史概率的平均值,以及所述当前概率和所述多个历史概率的方差;
15.基于所述方差和平均值对所述标签的概率进行区间估计。
16.在一些实施例中,获取所述标签的多个历史概率,具体包括:
17.确定所述标签的所有历史概率的数量;
18.响应于确定所述所有历史概率的数量大于预设数量,在所述所有历史概率中从距离所述当前概率最近的历史概率开始,按照进行真值推断的时间顺序从后往前依次获取预设数量的历史概率。
19.在一些实施例中,获取所述标签的多个历史概率,具体还包括:
20.响应于确定所述所有历史概率的数量不大于预设数量,获取所述所有历史概率。
21.在一些实施例中,在停止分发所述目标题目之后,所述方法还包括:
22.从所述所有标签的概率中确定概率最大的目标标签;
23.将所述目标标签作为所述目标题目的标注标签。
24.在一些实施例中,在基于所述当前标注结果更新所述目标题目的标注结果集合之后,所述方法还包括:
25.确定所述标注结果集合中标注结果的数量是否小于预设阈值;
26.响应于确定所述标注结果集合中标注结果的数量小于预设阈值,不再对更新后的所述标注结果集合进行真值推断。
27.在一些实施例中,分发目标题目具体包括:
28.创建标注任务;其中,所述标注任务至少包括所述目标题目;
29.分发所述标注任务。
30.基于同一发明构思,本技术示例性实施例还提供了一种数据众包标注的分发装置,包括:
31.分发回收模块,分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;
32.推断模块,对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率;
33.区间估计模块,基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;
34.控制模块,响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目。
35.在一些实施例中,所述区间估计模块具体被配置为:
36.获取所述标签的多个历史概率;其中,在得到所述当前概率之前,每次进行真值推断每个标签均对应有一个历史概率;
37.基于所述当前概率以及所述多个历史概率对所述标签的概率进行区间估计。
38.在一些实施例中,所述区间估计模块具体被配置为:
39.确定所述当前概率和所述多个历史概率的平均值,以及所述当前概率和所述多个历史概率的方差;
40.基于所述方差和平均值对所述标签的概率进行区间估计。
41.在一些实施例中,所述区间估计模块具体被配置为:
42.确定每个标签的所有历史概率的数量;
43.响应于确定所述所有历史概率的数量大于预设数量,在所述所有历史概率中从距离所述当前概率最近的历史概率开始,按照进行真值推断的时间顺序从后往前依次获取预
设数量的历史概率。
44.在一些实施例中,所述区间估计模块具体被配置为:
45.响应于确定所述所有历史概率的数量不大于预设数量,获取所述所有历史概率。
46.在一些实施例中,所述装置还包括判断模块,所述判断模块被配置为:
47.确定所述标注结果集合中标注结果的数量是否小于预设阈值;
48.响应于确定所述标注结果集合中标注结果的数量小于预设阈值,不再对更新后的所述标注结果集合进行真值推断。
49.在一些实施例中,所述分发回收模块具体被配置为:
50.创建标注任务;其中,所述标注任务至少包括所述目标题目;
51.分发所述标注任务。
52.基于同一发明构思,本技术示例性实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如上所述的数据众包标注的分发方法。
53.基于同一发明构思,本技术示例性实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的数据众包标注的分发方法。
54.从上面所述可以看出,本技术提供的数据众包标注的分发方法、装置、电子设备及存储介质,分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率;基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目,从而在保证数据众包质量的前提下,减少目标题目的标注数量,进而节省了标注成本。
附图说明
55.为了更清楚地说明本技术或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
56.图1为目前相关技术中的一种数据众包标注的分发方法的流程示意图;
57.图2为本技术实施例的一种数据众包标注的分发方法的流程示意图;
58.图3为本技术实施例的另一种数据众包标注的分发方法的流程示意图;
59.图4为本技术实施例的一种数据众包标注的分发装置的结构示意图;
60.图5为本技术实施例的一种具体的电子设备的结构示意图。
具体实施方式
61.下面将参考若干示例性实施方式来描述本技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本技术,而并非以任何方式限制本技术的范围。相反,提供这些实施方式是为了使本技术更加透彻和完整,并且能
够将本技术的范围完整地传达给本领域的技术人员。
62.根据本技术的实施方式,提出了一种数据众包标注的分发方法、装置、电子设备及存储介质。
63.在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
64.下面参考本技术的若干代表性实施方式,详细阐释本技术的原理和精神。
65.发明概述
66.目前相关技术中,参考图1,待标注数据的标注任务发起时,基于管理员预设的冗余标注数量,题目被分发给固定数量个标注员并回收标签结果,基于该标签数据,真值推断算法开展一次推断,聚合输出最终数据标签。例如,在有n条标注任务需求时,数据众包平台基于预设冗余数量m,将每道标注任务发送给m个标注员进行标注,同时每道题对应回收m个标签结果。但是,目前现有的相关技术,冗余标注数量一般是根据管理员的经验来设定的,即每个待标注的题目分发多少次是由管理员提前设置好的。由于,考虑到尽量保证数据众包真值推断的效果,所以冗余标注数量往往设置的较大,进而出现在不必要引入更多标注时,标注任务继续分发给其他标注员的情况。同时,每使用一个标注员进行一个任务的打标,在实际产品中均需要给予对应回报。因此,无法合理调整的标注数量直接导致标注任务成本上浮,影响数据众包原本期望的低成本快速获取数据标签的初衷。
67.为了解决上述问题,本技术提供了一种数据众包标注的分发方法,具体包括:
68.分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率;基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目,从而在保证数据众包质量的前提下,减少目标题目的标注数量,进而节省了标注成本。
69.在介绍了本技术的基本原理之后,下面具体介绍本技术的各种非限制性实施方式。
70.应用场景总览
71.在一些具体的应用场景中,本技术的数据众包标注的分发方法可以应用于各种涉及数据众包标注的分发系统中,可选的,该系统可以是数据众包平台。
72.在一些具体的应用场景中,本技术的数据众包标注的分发方法可以直接应用在本地运行,也可以在云端服务器中运行。当在云端服务器运行时,将获取的待处理数据通过网络发送到云端服务器,由服务器对待处理数据通过本技术的数据众包标注的分发方法进行处理,并将处理结果通过网络发送到本地。
73.下面结合具体的应用场景,来描述根据本技术示例性实施方式的数据众包标注的分发方法。需要注意的是,上述应用场景仅是为了便于理解本技术的精神和原理而示出,本技术的实施方式在此方面不受任何限制。相反,本技术的实施方式可以应用于适用的任何场景。
74.示例性方法
75.参考图2,本技术实施例提供了一种数据众包标注的分发方法,包括以下步骤:
76.s101,分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合。
77.具体实施时,先分发待标注的目标题目,该目标题目被标注员标注后,接收该目标题目的当前标注结果,并根据当前标注结果更新目标题目的标注结果集合。该目标标注结果集合中保存了目标题目的多个标注结果,每新接收到一次目标题目的标注结果,就会将该目标题目保存入目标标注结果集合中,从而完成对标注结果集合的更新。
78.在一些实施例中,分发目标题目具体包括:
79.创建标注任务;其中,所述标注任务至少包括所述目标题目;
80.分发所述标注任务。
81.具体实施时,目标题目可以跟随创建的标注任务一起分发,可选的,标注任务中除包括目标题目外,还可以包括其他待标注的题目。
82.s102,对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率。
83.具体实施时,在更新完所述标注结果集合后,对该更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率。其中,目标题目一般有多个标签,每个标签对应一个答案。例如,一个判断对错的目标题目有两个标签,确定标签和否定标签,在完成真值推断后,就可以得到确定标签和否定标签各自对应的概率。可选的,真值推断的具体方法在此不做限定,可以根据需要从现有技术中选择合适的真实推断方法。
84.s103,基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围。
85.具体实施时,在得到目标题目对应的标签的当前概率后,根据标签的当前概率对标签的概率进行区间估计,得到所述标签的概率的区间范围。可选的,对标签的概率进行区间估计可以先确定每个标签的概率区间,然后根据该概率区间的上下界得到每个标签的概率的区间范围。
86.在一些实施例中,基于所述当前概率对所述每个标签的概率进行区间估计,具体包括:
87.获取所述每个标签的多个历史概率;其中,在得到所述当前概率之前,每次进行真值推断每个标签均对应有一个历史概率;
88.基于所述当前概率以及所述多个历史概率对所述标签的概率进行区间估计。
89.具体实施时,由于每次进行真值推断都会得到一个标签的历史概率,因此,每个标签均对应有多个历史概率,这些历史概率均为在本次得到所述当前概率之前获得的历史概率。在获取到标签的多个历史概率后,就可以根据当前概率以及所述多个历史概率对所述标签的概率进行区间估计。可选的,可以先将当前概率与多个历史概率组合概率集合,然后根据该概率集合对所述标签的概率进行区间估计。
90.需要说明的是,对区间估计的具体方法在此不做限定,可以根据需要选择现有技术中的任意一种区间估计的方法。可选的,该区间估计也可以用置信区间来表示。
91.在一些实施例中,基于所述当前概率以及所述多个历史概率对所述标签的概率进行区间估计,具体包括:
92.确定所述当前概率和所述多个历史概率的平均值,以及所述当前概率和所述多个
历史概率的方差;
93.基于所述方差和平均值对所述标签的概率进行区间估计。
94.具体实施时,可以根据当前概率和所述多个历史概率的平均值以及方差对所述标签的概率进行区间估计。可选的,可以通过以下公式确定所述标签的概率区间的上下界:
[0095][0096]
其中,u表示所述当前概率和所述多个历史概率的平均值,s表示所述当前概率和所述多个历史概率的方差,n表示所述当前概率和所述多个历史概率的数量,t_
val
表示预设置信度在t分布中对应的t分数。
[0097]
在一些实施例中,获取所述标签的多个历史概率,具体包括:
[0098]
确定所述标签的所有历史概率的数量;
[0099]
响应于确定所述所有历史概率的数量大于预设数量,在所述所有历史概率中从距离所述当前概率最近的历史概率开始,按照进行真值推断的时间顺序从后往前依次获取预设数量的历史概率。
[0100]
具体实施时,先确定从第一次进行真值推断开始,每个标签的所有历史概率的数量,当确定所述所有历史概率的数量大于预设数量时,在所述所有历史概率中从距离所述当前概率最近的历史概率开始,按照进行真值推断的时间顺序从后往前依次获取预设数量的历史概率。例如,预设数量为w,当前概率为an,距离当前概率最近的历史概率为a
n-1
,则依次获取预设数量的历史概率为a
n-1
、a
n-2
、a
n-3
、a
n-4
…an-w
。需要说明的是,由于刚开始进行真值推断时,用于真值推断的标注结果集合中的标注结果的数量较少,所以导致真值推断的结果准确率较低,因此,在获取历史概率时,尽量从靠近当前概率的历史概率中选取。预设数量可以根据需要进行设置,在此不做限定。
[0101]
在一些实施例中,获取所述标签的多个历史概率,具体包括:
[0102]
获取所述标签的多个历史概率,具体包括:
[0103]
响应于确定所述所有历史概率的数量不大于预设数量,获取所述所有历史概率。
[0104]
具体实施时,由于在进行真值推断初期,获取的历史概率数量较少,所以当所有历史概率的数量不大于预设数量时,获取所述所有历史概率。
[0105]
s104,响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目。
[0106]
具体实施时,在得到所述目标题目对应的标签的当前概率后,确定所述目标题目的所有标签的概率的区间范围是否均不大于预设收敛阈值,若是,则停止分发所述目标题目,从而可以及时控制分发所述目标题目的数量,同时,由于目标题目的所有标签的概率的区间范围已经收敛于预设收敛阈值,所以可以保证真值推断的效果,可选的,预设收敛阈值可以根据需要进行设置,在此不做限定。当确定所述目标题目的所有标签的概率的区间范围大于预设收敛阈值,则继续分发所述目标题目。
[0107]
在一些实施例中,在停止分发所述目标题目之后,所述方法还包括:
[0108]
从所述所有标签的概率中确定概率最大的目标标签;
[0109]
将所述目标标签作为所述目标题目的标注标签。
[0110]
在一些实施例中,在基于所述当前标注结果更新所述目标题目的标注结果集合之
后,所述方法还包括:
[0111]
确定所述标注结果集合中标注结果的数量是否小于预设阈值;
[0112]
响应于确定所述标注结果集合中标注结果的数量小于预设阈值,不再对更新后的所述标注结果集合进行真值推断。
[0113]
具体实施时,由于当所述标注结果集合中标注结果的数量特别小时,得到的真值推断结果准确性较低,并且得到的标签的历史概率的数量也较小,此时,标签的概率的区间范围一般较大,即不会收敛于预设收敛阈值,这时一般不会停止分发所述目标题目。所以为了提高效率,当定所述标注结果集合中标注结果的数量小于预设阈值,不再对更新后的所述标注结果集合进行真值推断,从而继续分发目标题目。
[0114]
在一些实施例中,参考图3,在待标注数据逐步发放并回收的过程中,每次题目分发及标注回收后均开展真值推断计算,而真值推断输出结果则通过区间估计评估进行动态观测,当真值推断输出结果在符合一定置信度情况下的区间收窄到一个预设收敛值后,将发出标注截止信号,及时中断标注流程,并输出数据标注结果,从而在保证数据众包质量的前提下,尽可能降低标注开销。
[0115]
本技术提供的数据众包标注的分发方法,分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率;基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目,从而在保证数据众包质量的前提下,减少目标题目的标注数量,进而节省了标注成本。
[0116]
示例性设备
[0117]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种数据众包标注的分发装置。
[0118]
参考图4,所述数据众包标注的分发装置,包括:
[0119]
分发回收模块201,分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;
[0120]
推断模块202,对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率;
[0121]
区间估计模块203,基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;
[0122]
控制模块204,响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目。
[0123]
在一些实施例中,所述区间估计模块具体被配置为:
[0124]
获取所述标签的多个历史概率;其中,在得到所述当前概率之前,每次进行真值推断每个标签均对应有一个历史概率;
[0125]
基于所述当前概率以及所述多个历史概率对所述标签的概率进行区间估计。
[0126]
在一些实施例中,所述区间估计模块具体被配置为:
[0127]
确定所述当前概率和所述多个历史概率的平均值,以及所述当前概率和所述多个历史概率的方差;
[0128]
基于所述方差和平均值对所述标签的概率进行区间估计。
[0129]
在一些实施例中,所述区间估计模块具体被配置为:
[0130]
确定每个标签的所有历史概率的数量;
[0131]
响应于确定所述所有历史概率的数量大于预设数量,在所述所有历史概率中从距离所述当前概率最近的历史概率开始,按照进行真值推断的时间顺序从后往前依次获取预设数量的历史概率。
[0132]
在一些实施例中,所述区间估计模块具体被配置为:
[0133]
响应于确定所述所有历史概率的数量不大于预设数量,获取所述所有历史概率。
[0134]
在一些实施例中,所述装置还包括判断模块,所述判断模块被配置为:
[0135]
确定所述标注结果集合中标注结果的数量是否小于预设阈值;
[0136]
响应于确定所述标注结果集合中标注结果的数量小于预设阈值,不再对更新后的所述标注结果集合进行真值推断。
[0137]
在一些实施例中,所述分发回收模块具体被配置为:
[0138]
创建标注任务;其中,所述标注任务至少包括所述目标题目;
[0139]
分发所述标注任务。
[0140]
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0141]
上述实施例的装置用于实现前述任一实施例中相应的数据众包标注的分发方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0142]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的数据众包标注的分发方法。
[0143]
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0144]
处理器1010可以采用通用的cpu(central processing unit,中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit,asic)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
[0145]
存储器1020可以采用rom(read only memory,只读存储器)、ram(random access memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
[0146]
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0147]
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信
交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信,也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0148]
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0149]
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
[0150]
上述实施例的电子设备用于实现前述任一实施例中相应的数据众包标注的分发方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0151]
示例性程序产品
[0152]
基于同一发明构思,与上述任意实施例方法相对应的,本技术还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的数据众包标注的分发方法。
[0153]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0154]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的一种数据众包标注的分发方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
[0155]
所在领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本技术的范围(包括权利要求)被限于这些例子;在本技术的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本技术实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
[0156]
另外,为简化说明和讨论,并且为了不会使本技术实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本技术实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本技术的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此,这些描述应被认为是说明性的而不是限制性的。
[0157]
尽管已经结合了本技术的具体实施例对本技术进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。
[0158]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本技术实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本技术的保护范围之内。
技术特征:1.一种数据众包标注的分发方法,其特征在于,包括:分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率;基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目。2.根据权利要求1所述的方法,其特征在于,基于所述当前概率对所述标签的概率进行区间估计,具体包括:获取所述标签的多个历史概率;其中,在得到所述当前概率之前,每次进行真值推断每个标签均对应有一个历史概率;基于所述当前概率以及所述多个历史概率对所述标签的概率进行区间估计。3.根据权利要求2所述的方法,其特征在于,基于所述当前概率以及所述多个历史概率对所述标签的概率进行区间估计,具体包括:确定所述当前概率和所述多个历史概率的平均值,以及所述当前概率和所述多个历史概率的方差;基于所述方差和平均值对所述标签的概率进行区间估计。4.根据权利要求2所述的方法,其特征在于,获取所述标签的多个历史概率,具体包括:确定所述标签的所有历史概率的数量;响应于确定所述所有历史概率的数量大于预设数量,在所述所有历史概率中从距离所述当前概率最近的历史概率开始,按照进行真值推断的时间顺序从后往前依次获取预设数量的历史概率。5.根据权利要求4所述的方法,其特征在于,获取所述标签的多个历史概率,具体包括:响应于确定所述所有历史概率的数量不大于预设数量,获取所述所有历史概率。6.根据权利要求1所述的方法,其特征在于,在停止分发所述目标题目之后,所述方法还包括:从所述所有标签的概率中确定概率最大的目标标签;将所述目标标签作为所述目标题目的标注标签。7.根据权利要求1所述的方法,其特征在于,在基于所述当前标注结果更新所述目标题目的标注结果集合之后,所述方法还包括:确定所述标注结果集合中标注结果的数量是否小于预设阈值;响应于确定所述标注结果集合中标注结果的数量小于预设阈值,不再对更新后的所述标注结果集合进行真值推断。8.根据权利要求1所述的方法,其特征在于,分发目标题目具体包括:创建标注任务;其中,所述标注任务至少包括所述目标题目;分发所述标注任务。9.一种数据众包标注的分发装置,其特征在于,包括:
分发回收模块,分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;推断模块,对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率;区间估计模块,基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;控制模块,响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目。10.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器执行所述程序时实现如权利要求1至8中任意一项所述的方法。11.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行根据权利要求1至8中任一项所述的方法。
技术总结本申请提供一种数据众包标注的分发方法、装置、电子设备及存储介质,该方法包括分发目标题目并接收所述目标题目的当前标注结果,基于所述当前标注结果更新所述目标题目的标注结果集合;对更新后的所述标注结果集合进行真值推断,得到所述目标题目对应的标签的当前概率;基于所述当前概率对所述标签的概率进行区间估计,得到所述标签的概率的区间范围;响应于确定所述目标题目的所有标签的概率的区间范围均不大于预设收敛阈值,停止分发所述目标题目,从而在保证数据众包质量的前提下,减少目标题目的标注数量,进而节省了标注成本。进而节省了标注成本。进而节省了标注成本。
技术研发人员:刘昊俣 吴润泽 刘思彦 许璐 邓浩 张世泽 陶建容 吕唐杰 范长杰 胡志鹏
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2022.07.14
技术公布日:2022/11/1