1.本发明涉及信息处理装置、程序和信息处理方法。
背景技术:2.近年来,随着计测技术的发展,计测并活用各种数据。例如,在进行设备的异常诊断时,在设备设置振动传感器或麦克风,计测从设备得到的振动和声音。使用这样得到的数据诊断设备的异常。
3.在处理这种计测数据时,有时由于计测环境或传感的偏差而使数据的品质降低。例如考虑如下情况:由于计测者不同而使传感器的安装方法产生差异,由此,数据的性质发生变化。当由于与本来的目的无关的要因而使数据的偏差变大时,在识别本来希望识别的标签的例如异常或正常的方面成为障碍。
4.在专利文献1中记载有如下的相关性分析装置:将时序数据分割成每个规定的时间单位的数据,计算每个时间单位的相似度,在二维平面的预定位置显示基于计算出的相似度的每个规定时间的相关性。
5.现有技术文献
6.专利文献
7.专利文献1:日本特开2015-225637号公报
技术实现要素:8.发明要解决的课题
9.专利文献1记载的相关性分析装置能够显示基于每个时间单位的相似度的相关性。由此,由于时间变化而产生的数据偏差明确。但是,没有考虑“计测者”或“设备的个体”等时间以外的要因。
10.因此,本发明的一个或多个方式能够确认由于与本来的目的无关的要因而产生的数据偏差。
11.用于解决课题的手段
12.本发明的第1方式的信息处理装置的特征在于,所述信息处理装置具有:相似度矩阵生成部,其根据具有多个样本的数据集生成相似度矩阵,所述相似度矩阵具有按照所述多个样本排列的顺序横向排列的多个列和按照所述顺序纵向排列的多个行,在由所述多个列中的一个列和所述多个行中的一个行确定的一个栏中存储有与所述一个列对应的样本和与所述一个行对应的样本之间的相似度;顺序调整部,其参照表示针对所述多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,以所述多个样本按照从所述多个标签中指定的标签即对象标签中的所述多个类别进行排列的方式调整所述相似度矩阵中的所述顺序,由此生成调整相似度矩阵;可视化部,其生成以与所述相似度对应的明度示出所述调整相似度矩阵的各个栏的评价画面图像;以及显示部,其显示所述评价画面图像。
13.本发明的第2方式的信息处理装置的特征在于,所述信息处理装置具有:偏差计算部,其参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个标签分别产生的所述多个样本的偏差程度,生成显示所述多个标签中包含的至少一个标签和与所述至少一个标签对应的所述偏差程度的偏差结果画面图像;以及显示部,其显示所述偏差结果画面图像。
14.本发明的第3方式的信息处理装置的特征在于,所述信息处理装置具有:偏差计算部,其参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个类别分别产生的所述多个样本的偏差程度,生成显示所述多个类别和与所述多个类别分别对应的所述偏差程度的偏差结果画面图像;以及显示部,其显示所述偏差结果画面图像。
15.本发明的第1方式的程序的特征在于,所述程序使计算机作为以下部分发挥功能:相似度矩阵生成部,其根据具有多个样本的数据集生成相似度矩阵,所述相似度矩阵具有按照所述多个样本排列的顺序横向排列的多个列和按照所述顺序纵向排列的多个行,在由所述多个列中的一个列和所述多个行中的一个行确定的一个栏中存储有与所述一个列对应的样本和与所述一个行对应的样本之间的相似度;顺序调整部,其参照表示针对所述多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,以所述多个样本按照从所述多个标签中指定的标签即对象标签中的所述多个类别进行排列的方式调整所述相似度矩阵中的所述顺序,由此生成调整相似度矩阵;可视化部,其生成以与所述相似度对应的明度示出所述调整相似度矩阵的各个栏的评价画面图像;以及显示部,其显示所述评价画面图像。
16.本发明的第2方式的程序的特征在于,所述程序使计算机作为以下部分发挥功能:偏差计算部,其参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个标签分别产生的所述多个样本的偏差程度,生成显示所述多个标签中包含的至少一个标签和与所述至少一个标签对应的所述偏差程度的偏差结果画面图像;以及显示部,其显示所述偏差结果画面图像。
17.本发明的第3方式的程序的特征在于,所述程序使计算机作为以下部分发挥功能:偏差计算部,其参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个类别分别产生的所述多个样本的偏差程度,生成显示所述多个类别和与所述多个类别分别对应的所述偏差程度的偏差结果画面图像;以及显示部,其显示所述偏差结果画面图像。
18.本发明的第1方式的信息处理方法的特征在于,根据具有多个样本的数据集生成相似度矩阵,所述相似度矩阵具有按照所述多个样本排列的顺序横向排列的多个列和按照所述顺序纵向排列的多个行,在由所述多个列中的一个列和所述多个行中的一个行确定的一个栏中存储有与所述一个列对应的样本和与所述一个行对应的样本之间的相似度,参照表示针对所述多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,以所述多个样本按照从所述多个标签中指定的标签即对象标签中的所述多个类别进行排列的方式调整所述相似度矩阵中的所述顺序,由此生成调整相似度矩阵,生成以与所述相似度对应的明度示出所述调整相似度矩阵的各个栏的评价画面图像,显示所述评价画面图像。
19.本发明的第2方式的信息处理方法的特征在于,参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个标签分别产生的所述多个样本的偏差程度,生成显示所述多个标签中包含的至少一个标签和与所述至少一个标签对应的所述偏差程度的偏差结果画面图像,显示所述偏差结果画面图像。
20.本发明的第3方式的信息处理方法的特征在于,参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个类别分别产生的所述多个样本的偏差程度,生成显示所述多个类别和与所述多个类别分别对应的所述偏差程度的偏差结果画面图像,显示所述偏差结果画面图像。
21.发明效果
22.根据本发明的一个或多个方式,能够确认由于与本来的目的无关的要因而产生的数据偏差。
附图说明
23.图1是概略地示出实施方式1的数据可视化装置的结构的框图。
24.图2的(a)和(b)是示出两个样本的分布间的距离的曲线图。
25.图3是示出距离矩阵的一例的概略图。
26.图4是示出调整距离矩阵的第1例的概略图。
27.图5的(a)和(b)是示出调整距离矩阵的第2例和第3例的概略图。
28.图6的(a)和(b)是示出调整距离矩阵的第4例和第5例的概略图。
29.图7是示出调整距离矩阵的第6例的概略图。
30.图8是示出使调整距离矩阵可视化的评价画面图像的第1例的概略图。
31.图9是示出使调整距离矩阵可视化的评价画面图像的第2例的概略图。
32.图10是示出使调整距离矩阵可视化的评价画面图像的第3例的概略图。
33.图11是示出使调整距离矩阵可视化的评价画面图像的第4例的概略图。
34.图12是示出使调整距离矩阵可视化的评价画面图像的第5例的概略图。
35.图13是示出数据可视化装置的硬件结构例的框图。
36.图14是示出实施方式1的数据可视化装置中的处理的流程图。
37.图15是概略地示出实施方式2的数据可视化装置的结构的框图。
38.图16是示出部分矩阵的一例的概略图。
39.图17是用于说明计算方法的概略图。
40.图18是示出实施方式2的数据可视化装置中的第1处理的流程图。
41.图19是示出实施方式2的数据可视化装置中的第2处理的流程图。
42.图20是概略地示出实施方式3的数据可视化装置的结构的框图。
43.图21是示出实施方式3的数据可视化装置中的处理的流程图。
具体实施方式
44.实施方式1
45.图1是概略地示出实施方式1的作为信息处理装置的数据可视化装置100的结构的
框图。
46.数据可视化装置100具有输入部101、存储部102、数据取得部103、距离矩阵计算部104、顺序调整部105、可视化部106和显示部107。
47.输入部101受理来自用户的指示的输入。例如,输入部101受理从多个标签中指定一个标签作为对象标签的输入。
48.存储部102存储数据可视化装置100中的处理所需要的程序和数据。例如,存储部102存储可视化对象的数据集及其标签信息。
49.数据集例如是通过计测而得到的时序数据的集合。数据集构成为多个样本的集合。
50.构成数据集的样本是由距离矩阵计算部104计算距离矩阵的一个单位。样本例如是由振动传感器或麦克风得到的时序数据。
51.这里,样本是示出在各个时刻计测到的一个值的一维数据,但是不限于一维数据。样本也可以是在各个时刻示出多个值的多维数据。
52.标签信息表示与数据集中包含的各样本相关联的属性。标签信息是表示针对多个样本分别使用多个标签进行标注后的结果的信息。多个标签各自具有多个类别。
53.这里,作为一例,对与作为以设备的异常诊断为目的而收集到的计测数据的样本相关联的标签信息进行说明。而且,计测数据的目的在于,根据计测数据来区分是异常还是正常。
54.该情况下,对各样本赋予包含表示检查结果的标签的标签信息。此时,表示检查结果的标签即检查结果标签可以由“正常类别”和“异常类别”这两个类别构成,也可以根据异常的种类而如“正常类别”、“第1异常类别”和“第2异常类别”那样由三个以上的类别构成。这里的类别表示相同标签中包含的某个状态。例如,当类别不同时,表示相同标签中包含的不同状态。
55.此外,在计测数据中,有时存在期待跟与计测数据的目的对应的标签(这里为正常或异常)无关的标签。作为例子,可举出“计测者”、“进行计测的场所”或“进行计测的日期时间”等。
56.数据取得部103从存储部102取得数据集ds及其标签信息li。取得的数据集ds及其标签信息li被提供给距离矩阵计算部104。
57.距离矩阵计算部104是如下的相似度矩阵生成部:根据数据集ds生成作为相似度矩阵的距离矩阵,该相似度矩阵具有按照多个样本排列的顺序横向排列的多个列和按照该顺序纵向排列的多个行,在由该多个列中的一个列和该多个行中的一个行确定的一个栏中存储有与该一个列对应的样本和与该一个行对应的样本之间的相似度。另外,将距离矩阵中包含的相似度还称作构成距离矩阵的元素。
58.例如,距离矩阵计算部104利用数据集ds中包含的全部样本的组合来计算样本间距离,根据计算出的样本间距离生成将行数和列数分别设为样本数的矩阵即距离矩阵。
59.样本间距离是表示两个样本的相似度的指标。两个样本越相似,则样本间距离成为越小的值,在完全一致的情况下,样本间距离成为0。因此,距离矩阵也称作相似度矩阵。
60.下面,将以异常诊断为目的而收集到的振动数据作为例子进行说明。
61.将在某条件下以一定时间计测出的计测数据作为1个样本进行处理。在本次的例
子中,1个样本是在各个时刻示出一维值的时序数据。此时,对各样本赋予表示作为设备检查结果的正常或异常的“检查结果标签”和表示什么时候进行了计测的“计测日标签”作为标签信息。
62.而且,这里,设在作为计测日标签的6月12日计测出两个正常样本和两个异常样本,在作为计测日标签的6月13日计测出两个正常样本和两个异常样本。
63.在以上的情况下,示出距离矩阵计算部104实际计算样本间距离并生成距离矩阵的处理的例子。在这里的例子中,将两个样本的概率分布间的相似度设为这两个样本间的相似度。
64.具体而言,距离矩阵计算部104计算各样本形成的分布。在该时点,针对一个样本计算一个分布。作为假设的分布,可考虑正态分布等。
65.接着,距离矩阵计算部104计算两个样本形成的分布间的距离作为样本间的相似度的指标。作为计算分布间的距离的方法,可举出巴特查里亚距离、kl
66.(kullback-leibler)散度或js(jensen-shannon)散度等。
67.图2的(a)和(b)是示出两个样本的分布间的距离的曲线图。
68.图2的(a)是两个样本的分布间的距离大的情况,图2的(b)是两个样本的分布间的距离小的情况。
69.接着,距离矩阵计算部104根据利用全部样本的组合而计算出的分布间的距离生成距离矩阵。设距离矩阵的横向的列和纵向的行分别按照八个样本的顺序进行配置。
70.图3是示出距离矩阵的一例的概略图。
71.这里,如上所述,在两天内存在八个样本。这里,设对各样本分配作为用于确定各样本的样本识别信息的样本编号。此时,距离矩阵的n行m列的元素表示第n个样本与第m个样本之间的距离。这里,n和m为1以上8以下的整数。
72.图3所示的距离矩阵的对角线上的值是相同样本的距离,因此,全部为0。
73.当在样本间距离的计算中使用巴特查里亚距离这样的具有对称性的方法的情况下,即使调换样本,距离的值也不变,因此,距离矩阵成为对称矩阵。
74.顺序调整部105参照标签信息li,以多个样本按照从多个标签中指定的标签即对象标签中的多个类别进行排列的方式调整相似度矩阵中的多个样本排列的顺序,由此,生成调整相似度矩阵。
75.具体而言,顺序调整部105根据指定的标签对构成由距离矩阵计算部104生成的距离矩阵的样本的顺序进行调整。具体而言,如上所述,在包含“检查结果标签”和“计测日标签”作为标签信息的情况下,顺序调整部105分别根据“检查结果标签”和“计测日标签”对距离矩阵的样本的顺序进行调整。
76.例如,在根据检查结果标签重新排列距离矩阵的情况下,检查结果标签包含“正常类别”和“异常类别”这两个类别,因此,顺序调整部105如最初成为属于正常类别的样本(正常样本)、然后成为属于异常类别的样本(异常样本)那样,以按照每个类别进行排列的方式调整样本的顺序。例如如图3所示,在八个样本中的样本编号为奇数的样本是正常类别、偶数的样本是异常类别的情况下,由顺序调整部105调整样本的顺序,以使图3所示的距离矩阵成为图4所示的调整距离矩阵。另外,将调整距离矩阵还称作调整相似度矩阵。
77.此外,在根据计测日标签重新排列距离矩阵的情况下,计测日标签包含“6月12日
类别”和“6月13日类别”这两个类别,因此,顺序调整部105以最初成为属于6月12日类别的样本、然后成为属于6月13日类别的样本的方式变更样本的顺序。例如如图3所示,在八个样本中的样本编号为第1~4个样本是6月12日类别、第5~8个样本是6月13日类别的情况下,顺序调整部105直接将图3所示的距离矩阵设为调整距离矩阵。
78.可视化部106生成使调整距离矩阵可视化的评价画面图像,使显示部107显示该评价画面图像,由此向用户进行提示。
79.例如,可视化部106根据由顺序调整部105调整顺序后的调整距离矩阵中包含的元素的值,决定与该元素对应的栏的颜色的明度,由此生成评价画面图像。这样,根据该栏的值对与调整距离矩阵的元素对应的栏的明暗进行变更,由此,能够在视觉上表现由于在顺序变更中使用的标签而引起的数据集的品质问题。
80.具体而言,可视化部106将调整距离矩阵的栏的值与预定的阈值进行比较,在小于预定的阈值的情况下,使该栏的颜色比预定的阈值以上的值的栏的颜色暗。
81.下面,在对通过评价画面图像得到的效果进行说明之前,对“良好的数据集”进行说明。
82.设这里的数据集是异常诊断用的数据集。因此,优选异常的样本和正常的样本具有尽可能不同的性质。另一方面,关于期待与异常和正常的诊断无关的标签即计测日标签,期待样本的特性在类别不同的情况下也没有变化。基于上述内容,该例子中的“良好的数据集”可以说是满足以下两个条件的数据集。
83.第1条件是在检查结果标签中类别不同的样本间的距离大。换言之,在检查结果标签中类别不同的样本间的相似度低。
84.第2条件是在计测日标签中不同的样本间的距离不集中。换言之,在计测日标签中,不管类别相同还是不同,样本间的相似度都低或高。
85.使针对距离矩阵按照指定的一个标签中包含的类别调整顺序后的调整距离矩阵可视化,由此,能够在视觉上确认数据集是否满足上述两个条件。
86.例如如图5的(a)所示,在检查结果标签中,分成正常类别和异常类别对样本的顺序进行调整,由此,在正常类别中包含的样本彼此和异常类别中包含的样本彼此的距离小于预定的阈值且对应的栏的颜色变暗,正常类别中包含的样本与异常类别中包含的样本之间的距离为预定的阈值以上且对应的栏的颜色变亮的情况下,能够确认满足了上述第1条件。
87.另一方面,如图5的(b)所示,在计测日标签中,分成6月12日类别和6月13日类别对样本的顺序进行调整,由此,在较亮的栏和较暗的栏在相同类别的样本间和不同类别的样本间不集中的情况下,能够确认满足了上述第2条件。
88.与此相对,例如如图6的(a)所示,在检查结果标签,分成正常类别和异常类别对样本的顺序进行调整,由此,在较亮的栏和较暗的栏在相同类别的样本间和不同类别的样本间不集中的情况下,不满足上述第1条件。
89.而且,如图6的(b)所示,在计测日标签中,分成6月12日类别和6月13日类别对样本的顺序进行调整,由此,在6月12日类别中包含的样本彼此和6月13日类别中包含的样本彼此的距离小于预定的阈值且对应的栏的颜色变暗,6月12日类别中包含的样本与6月13日类别中包含的样本之间的距离为预定的阈值以上且对应的栏的颜色变亮的情况下,不满足上
述第2条件。
90.这种情况下,能够确定计测日中的数据偏差是检查结果恶化的原因。
91.另外,以上示出按照一个标签中包含的类别对样本的顺序进行调整的例子,但是不限于这种例子。
92.例如,也可以如图6的(a)所示,在检查结果标签中,分成正常类别和异常类别对样本的顺序进行调整后,将该正常类别和异常类别中分别包含的样本进一步分成计测日标签中包含的6月12日类别和6月13日类别,对样本的顺序进行调整。
93.这种情况下,例如如图7所示,在正常类别和异常类别中,样本进一步分别被分类为6月12日类别和6月13日类别。
94.此时,如图7所示,在正常类别或异常类别的各个类别中,当由于计测日的差异(计测日标签的差异)而使矩阵元素的明暗集中时,能够确定计测日的数据偏差是检查结果恶化的原因。
95.叙述可视化的评价画面图像的解释方法。
96.这里,在图8~图12中提示关于九个样本数的数据集将通过三个类别数的标签调整顺序后的调整距离矩阵可视化成评价画面图像的情况下的四个例子。
97.另外,在图8~图12中,设对三个类别分别分配1~3的编号,按照升序排列距离矩阵中包含的样本,由此生成调整距离矩阵。
98.如图8所示的调整距离矩阵120那样,在仅对角线上的分区的明度低、其他分区的明度高的情况下,相同类别彼此的样本相似,但是,与其他类别的样本不相似,因此,产生由于对应的标签引起的数据偏差。另外,例如,在两个类别的情况下,如图6的(b)所示。
99.如图9所示的调整距离矩阵121那样,在没有由于类别的差异而引起明度的变化、且全部栏为较暗颜色的情况下,表示全部数据相似,因此,不会产生由标签引起的数据偏差。
100.如图10所示的调整距离矩阵122那样,在对角线上的相同样本彼此的栏以外的全部栏的颜色为较亮颜色的情况下,可知全部数据与类别的差异无关地存在偏差。该情况下,不存在由标签引起的数据偏差,但是,表示作为数据集而完全没有集中,因此,数据的品质存在问题的可能性高。
101.如图11所示的调整距离矩阵123那样,除了对角线上的分区(参照图8)以外,在表示1号类别中包含的样本与3号类别中包含的样本之间的值的栏的明度变低的情况下,可知仅2号类别的数据具有与其他类别的数据不同的性质。
102.例如,在类别表示数据的计测者的情况下,能够视觉辨认到仅与2号类别对应的计测者(这里设为2号计测者)的数据与其他计测者(1号计测者和3号计测者)的数据不同。由此,能够考察如2号计测者的计测方法可能存在问题这样的数据品质的劣化要因。
103.如图12所示的调整距离矩阵124那样,可知在属于1号类别的样本与属于3号类别的样本相似、且属于2号类别的样本与属于1号类别和3号类别的样本不相似,并且属于2号类别的不同样本彼此也不相似的情况下,仅2号类别的数据与1号类别和3号类别的数据不同,并且2号数据彼此也存在偏差。
104.另外,在进行可视化时,如图5~图7所示,也可以在调整距离矩阵的左侧和上侧显示表示类别的信息,以得知重新排列中使用的标签的类别的顺序。
105.图13是示出数据可视化装置100的硬件结构例的框图。
106.数据可视化装置100能够由具有输入装置131、显示装置132、存储装置133、存储器134和处理器135的计算机130构成。
107.输入装置131是如鼠标、触摸面板、键盘、hmd(head mounted display:头戴式显示器)的手势操作输入装置或视线操作输入装置等那样供用户输入指示的装置。
108.显示装置132是在可视化时向用户进行提示的显示器等显示应用的装置。显示装置132例如还包含hmd的透视型的显示器等。
109.存储装置133是进行存储的装置,包含hdd(hard disk drive:硬盘驱动器)或ssd(solid state drive:固态驱动器)等。
110.存储器134是进行暂时性存储的装置,包含ram(random access memory:随机存取存储器)。
111.处理器135是cpu(central processing unit:中央处理单元)等处理电路。
112.例如,输入部101能够通过处理器135利用输入装置131来实现。
113.显示部107能够通过处理器135利用显示装置132来实现。
114.存储部102能够通过处理器135利用存储器134来实现。
115.处理器135将存储装置133中存储的程序读出到存储器134,执行该程序,由此能够实现数据取得部103、距离矩阵计算部104、顺序调整部105和可视化部106。
116.这种程序可以通过网络来提供,此外,也可以记录于记录介质来提供。即,这种程序例如可以作为程序产品来提供。
117.图14是示出实施方式1的数据可视化装置100中的处理的流程图。
118.首先,数据取得部103从存储部102取得数据集ds及其标签信息li(s10)。取得的数据集ds及其标签信息li被提供给距离矩阵计算部104。
119.距离矩阵计算部104生成由构成数据集ds的各样本的相似度构成的距离矩阵(s11)。例如,距离矩阵计算部104利用数据集ds中包含的全部样本的组合来计算样本间距离,针对计算出的样本间距离,生成将行数和列数分别设为样本数的矩阵即距离矩阵。
120.接着,输入部101从用户受理标签的指定,以对距离矩阵中的样本的顺序进行调整(s12)。表示指定的标签的用户信息ui被提供给顺序调整部105。将这里指定的标签还称作对象标签。
121.顺序调整部105以样本按照指定的标签的类别进行排列的方式调整由距离矩阵计算部104生成的距离矩阵,由此生成调整距离矩阵(s13)。
122.可视化部106生成使调整距离矩阵可视化的评价画面图像,使显示部107显示该评价画面图像(s14)。例如,可视化部106根据由顺序调整部105变更顺序后的调整距离矩阵中包含的值决定包含该值的栏的颜色的明度,由此生成评价画面图像。
123.然后,顺序调整部105判断是否继续进行可视化处理(s15)。例如,顺序调整部105在从输入部101送来表示标签的用户信息ui的情况下,判断为继续进行可视化处理。顺序调整部105在从输入部101送来表示结束处理的指示的用户信息ui的情况下,判断为不继续进行可视化处理。在继续进行可视化处理的情况下(s14:是),处理返回步骤s12,在不继续进行可视化处理的情况下(s14:否),处理结束。
124.如上所述,根据实施方式1,利用任意的标签对距离矩阵中的样本的顺序进行调整
并进行可视化,由此,能够直观地表示由于指定的标签产生的数据集的偏差。由此,能够明确由于调整中使用的标签引起的数据集的品质问题。
125.实施方式2
126.在实施方式1中,使通过指定的标签调整距离矩阵的样本的顺序而得到的结果可视化,由此,用户解释了由标签引起的数据偏差。
127.在实施方式2中,预先计算数据的偏差程度,辅助指定要调整顺序的标签。或者,根据计算出的偏差程度自动地指定要调整顺序的标签。
128.图15是概略地示出实施方式2的数据可视化装置200的结构的框图。
129.数据可视化装置200具有输入部101、存储部102、数据取得部103、距离矩阵计算部104、顺序调整部105、可视化部106、显示部107、偏差计算部208和顺序调整辅助部209。
130.实施方式2中的数据可视化装置200的输入部101、存储部102、数据取得部103、距离矩阵计算部104、顺序调整部105、可视化部106和显示部107与实施方式1中的数据可视化装置100的输入部101、存储部102、数据取得部103、距离矩阵计算部104、顺序调整部105、可视化部106和显示部107相同。
131.但是,数据取得部103将取得的数据集ds和标签信息li还提供给偏差计算部208,距离矩阵计算部104将生成的距离矩阵还提供给偏差计算部208。
132.偏差计算部208计算由于各个标签产生的作为数据的多个样本的偏差程度。
133.在实施方式1中,用户解释可视化的调整距离矩阵,由此明确了品质问题。例如,如图8所示的调整距离矩阵120那样,在对角线上的相同类别彼此相交的分区的明度低、除此以外的分区的明度高的情况下,能够判断为存在由标签引起的偏差。
134.偏差计算部208的作用是,不使用户解释这种距离矩阵的特征,而作为数值进行量化。能够由偏差计算部208对“由于特定的标签产生的数据偏差程度”进行量化。下面,对偏差计算部208的具体处理进行说明。
135.这里,对关于样本数为n个(n为2以上的整数)的数据集计算由于某标签产生的数据偏差的例子进行说明。
136.将计算对象标签中包含的类别数设为c个(c为2以上的整数),将各个类别表示为1,2,
…
,c。
137.此外,将以成为1,2,
…
,c的顺序的方式对根据该数据集计算的距离矩阵的样本进行调整后的调整距离矩阵设为m。另外,在该例子中,设距离矩阵由样本间的巴特查里亚距离构成。
138.m的元素的数量为n
×
n个。这里,利用类别数为c个的标签对距离矩阵的样本进行调整,因此,在调整距离矩阵m内存在作为c
×
c个区域的部分矩阵。如图16所示,将这些部分矩阵表示为d
11
、d
12
、
…
、d
cc
。
139.d
ij
成为由属于类别i(i为满足1≤i≤c的整数)的样本和属于类别j(j为满足1≤j≤c的整数)的样本构成的部分矩阵。
140.在将属于类别i的样本的数量设为ni,将属于类别j的样本的数量设为nj时,d
ij
成为ni×
nj的矩阵。d
ij
的各元素表记为d
kl(ij)
。
141.这里,计算部分矩阵的元素的平均值μ
ij
,设为与各部分矩阵d
ij
对应的各分区的代表值。
142.根据调整距离矩阵m的对称性,在计算μ
ij
时,使用图17中被涂满的分区。在i=j时,d
ij
自身成为对称矩阵,因此,仅使用比对角线更靠右上方的元素计算平均值。此外,μ
ij
=μ
ji
,因此,i》j的分区不需要进行计算。
143.下述的(1)式是μ
ij
的计算式。
144.【数学式1】
[0145][0146]
另外,这里,使用平均值μ
ij
作为部分矩阵d
ij
的代表值,但是,实施方式2不限于这种例子。例如,也可以使用部分矩阵d
ij
中包含的元素的中央值作为部分矩阵d
ij
的代表值。
[0147]
作为平均值μ
ij
的定性的意思,在i≠j的情况下,能够认为表示属于类别i的数据与属于类别j的数据之间的相似度。例如,在μ
12
示出较小的值的情况下,类别1的数据和类别2的数据相似,视为没有产生由于类别的差异引起的数据偏差。此外,在i=j的情况下,平均值μ
ij
表示属于相同类别的数据彼此的偏差程度。
[0148]
在由于标签而产生数据偏差的状态下,如图6的(b)或图8所示,位于距离矩阵的对角线上的d
ii
中包含的调整距离矩阵的元素的值变低,除此以外的元素的值变高。由此,由于某标签而产生的数据偏差程度v例如能够如下述的(2)式所示公式化。
[0149]
【数学式2】
[0150][0151]
(2)式的左项是利用全部组合来计算i≠j时的μ
ij
并计算其平均。这表示在类别不同的情况下数据怎样偏差。
[0152]
(2)式的右项是利用全部组合来计算i=j时的μ
ij
并计算其平均。这表示相同类别内的数据怎样偏差。
[0153]
如图6的(b)或图8所示,在产生由标签引起的数据偏差时,v的值变大。优选v在数据集的识别对象标签(这里为检查结果标签)中成为较高的值,在期待与该标签无关的标签(这里为计测日标签)中成为较低的值。
[0154]
如上所述,偏差计算部208利用预先给出的全部标签计算偏差程度v,该偏差程度v是通过从在多个类别中被分类为不同类别的样本间的相似度的代表值,减去被分类为相同类别的样本间的相似度的代表值而计算的。例如,在对数据集赋予了5个标签的情况下,通过该处理得到与各标签对应的5个v。
[0155]
顺序调整辅助部209使显示部107显示作为由偏差计算部208得到的结果的偏差结果画面图像,由此向用户提示该结果,进行指定调整中使用的标签时的辅助。偏差结果画面图像例如是按照偏差程度v从大到小的顺序显示标签的画面图像。用户参照这种画面进行
对象标签的指定即可。
[0156]
顺序调整辅助部209也可以不显示偏差结果画面图像,而将由偏差计算部208得到的结果通知给顺序调整部105,自动地调整距离矩阵中包含的样本的顺序,由此生成调整距离矩阵。例如,顺序调整辅助部209也可以指定偏差程度最高的标签作为对象标签,按照该对象标签使顺序调整部105生成调整距离矩阵。此外,顺序调整辅助部209也可以从偏差程度高的一方起依次指定多个标签作为对象标签。进而,顺序调整辅助部209也可以指定偏差程度最高的标签和偏差程度最低的标签作为对象标签。
[0157]
实施方式2的数据可视化装置200也能够由图13所示的计算机130构成。
[0158]
例如,处理器135将存储装置133中存储的程序读出到存储器134,执行该程序,由此能够实现偏差计算部208和顺序调整辅助部209。
[0159]
图18是示出实施方式2的数据可视化装置200中的第1处理的流程图。
[0160]
第1处理是顺序调整辅助部209使显示部107显示作为由偏差计算部208得到的结果的偏差结果画面图像的情况下的处理。
[0161]
首先,数据取得部103从存储部102取得数据集ds及其标签信息li(s20)。取得的数据集ds及其标签信息li被提供给距离矩阵计算部104和偏差计算部208。
[0162]
距离矩阵计算部104计算由构成数据集ds的各样本的相似度构成的距离矩阵(s21)。生成的距离矩阵被提供给顺序调整部105和偏差计算部208。
[0163]
接着,偏差计算部208以标签信息li所示的标签的数量反复进行步骤s23和s24的处理(s22和s25)。
[0164]
在步骤s23中,偏差计算部208从标签信息li所示的标签中确定还未计算偏差程度v的标签,根据确定的标签对距离矩阵中包含的样本的顺序进行调整。
[0165]
在步骤s24中,偏差计算部208根据调整后的距离矩阵即调整距离矩阵计算由于确定的标签引起的数据偏差程度v。
[0166]
接着,顺序调整辅助部209使显示部107显示表示由偏差计算部208计算出的偏差程度v的偏差结果画面图像(s26)。
[0167]
接着,输入部101从用户受理标签的指定,以对距离矩阵中包含的样本的顺序进行调整(s27)。表示指定的标签的用户信息ui被提供给顺序调整部105。用户参考显示部107中显示的偏差结果画面图像指定标签即可。
[0168]
顺序调整部105以样本按照指定的标签的类别进行排列的方式调整由距离矩阵计算部104生成的距离矩阵,由此生成调整距离矩阵(s28)。
[0169]
可视化部106生成使调整距离矩阵可视化的评价画面图像,使显示部107显示该评价画面图像(s29)。
[0170]
然后,顺序调整部105判断是否继续进行可视化处理(s30)。例如,顺序调整部105在从输入部101送来表示标签的用户信息ui的情况下,判断为继续进行可视化处理。顺序调整部105在从输入部101送来表示结束处理的指示的用户信息ui的情况下,判断为不继续进行可视化处理。在继续进行可视化处理的情况下(s30:是),处理返回步骤s27,在不继续进行可视化处理的情况下(s30:否),处理结束。
[0171]
图19是示出实施方式2的数据可视化装置200中的第2处理的流程图。
[0172]
第2处理是顺序调整辅助部209根据作为由偏差计算部208得到的结果的偏差结果
指定标签的情况下的处理。
[0173]
首先,数据取得部103从存储部102取得数据集ds及其标签信息li(s40)。取得的数据集ds及其标签信息li被提供给距离矩阵计算部104和偏差计算部208。
[0174]
距离矩阵计算部104计算由构成数据集ds的各样本的相似度构成的距离矩阵(s41)。生成的距离矩阵被提供给顺序调整部105和偏差计算部208。
[0175]
接着,偏差计算部208以标签信息li所示的标签的数量反复进行步骤s43和s44的处理(s42和s45)。
[0176]
在步骤s43中,偏差计算部208从标签信息li所示的标签中确定还未计算偏差程度v的标签,根据确定的标签对距离矩阵中包含的样本的顺序进行调整。
[0177]
在步骤s44中,偏差计算部208根据调整后的距离矩阵即调整距离矩阵计算由于确定的标签引起的数据偏差程度v。
[0178]
接着,顺序调整辅助部209根据由偏差计算部208计算出的偏差程度v指定标签(s46)。例如,顺序调整辅助部209指定偏差程度v最大的标签即可。
[0179]
接着,顺序调整部105以样本按照指定的标签的类别进行排列的方式调整由距离矩阵计算部104生成的距离矩阵,由此生成调整距离矩阵(s47)。
[0180]
可视化部106生成使调整距离矩阵可视化的评价画面图像,使显示部107显示该评价画面图像(s48)。
[0181]
如上所述,根据实施方式2,由偏差计算部208预先求出由于各标签而产生的数据偏差,由此,能够对距离矩阵中包含的样本的调整进行辅助或使其自动化。
[0182]
另外,在图19所示的流程图的步骤s46中,也可以是,顺序调整辅助部209指定多个标签,由此,经由步骤s47和s48在显示部107显示多个评价画面图像。该情况下,顺序调整辅助部209从偏差程度v高的标签起依次指定多个标签即可。
[0183]
此外,在实施方式2中,也可以组合标签指定的自动化和基于用户的标签指定。例如,也可以最初如图19所示显示基于自动指定的标签的评价画面图像,然后,例如通过来自用户的指示显示偏差结果画面图像,由用户指定标签。
[0184]
实施方式3
[0185]
图20是概略地示出实施方式3的数据可视化装置300的结构的框图。
[0186]
数据可视化装置300具有存储部102、数据取得部103、距离矩阵计算部104、显示部107和偏差计算部308。
[0187]
实施方式3的数据可视化装置300的存储部102、数据取得部103、距离矩阵计算部104和显示部107与实施方式1的数据可视化装置100的存储部102、数据取得部103、距离矩阵计算部104和显示部107相同。
[0188]
另外,实施方式3的数据可视化装置300与实施方式2的数据可视化装置200相比,未设置输入部101、顺序调整部105、可视化部106和顺序调整辅助部209。
[0189]
偏差计算部308与实施方式2中的偏差计算部208同样,计算由于标签信息li所示的全部标签分别产生的数据偏差程度。
[0190]
然后,偏差计算部308使显示部107显示表示计算出的偏差程度的偏差结果画面图像。
[0191]
偏差结果画面图像例如可以是按照偏差程度v从大到小的顺序显示预定的数量的
标签的画面图像,也可以是显示全部标签的偏差程度v的画面图像。换言之,偏差计算部308使偏差结果画面图像显示标签信息li所示的全部标签中包含的至少一个标签和与该至少一个标签对应的偏差程度即可。
[0192]
图21是示出实施方式3的数据可视化装置300中的处理的流程图。
[0193]
首先,数据取得部103从存储部102取得数据集ds及其标签信息li(s50)。取得的数据集ds及其标签信息li被提供给距离矩阵计算部104和偏差计算部308。
[0194]
距离矩阵计算部104计算由构成数据集ds的各样本的相似度构成的距离矩阵(s51)。生成的距离矩阵被提供给顺序调整部105和偏差计算部308。
[0195]
接着,偏差计算部308以标签信息li所示的标签的数量反复进行步骤s53和s54的处理(s52和s55)。
[0196]
在步骤s53中,偏差计算部308从标签信息li所示的标签中确定还未计算偏差程度v的标签,根据确定的标签对距离矩阵中包含的样本的顺序进行调整。
[0197]
在步骤s54中,偏差计算部308根据调整后的距离矩阵即调整距离矩阵计算由于确定的标签而引起的数据偏差程度v。
[0198]
接着,偏差计算部308使显示部107显示表示计算出的偏差程度v的偏差结果画面图像(s56)。
[0199]
根据实施方式3,通过向用户提示由于各标签而引起的偏差程度v,能够明确由于数据集的品质问题而引起的标签。
[0200]
作为以上记载的实施方式1~3的数据可视化装置100~300中处理的数据集的例子,可举出以自动检测激光加工机的切断加工时的加工不良为目的而收集到的加工声音数据。通过在加工机的加工头安装作为声学传感器的麦克风,能够收集该数据。以检测加工不良为目的,因此,对各数据赋予表示有无不良的“检查结果标签”。最终期待通过机器学习根据加工声音数据的特征检测有无加工不良。
[0201]
作为进行数据学习的前阶段,数据可视化装置100~300被用于对数据的品质进行可视化和量化。在能够通过数据可视化装置100~300确认品质劣化和劣化要因的情况下,根据其结果采取“对学习中使用的数据进行间疏(换言之,不使用导致品质劣化的数据)”或“改善数据收集方法”等对策,由此能够实现数据品质的提高。
[0202]
此外,在数据收集时,还记录“计测时刻”、“计测者”、“机体的编号”或“进行计测的场所”等期待与检查结果无关的标签的信息,通过实施方式1~3所述的处理对由于各标签而引起的数据偏差程度进行可视化和量化。
[0203]
在实施方式1~3中,对按照每个时刻示出一维值的时序数据进行处理,但是,1个样本不需要必须是按照每个时刻示出一维值的数据。也可以使用按照每个时刻示出多维值的时序数据、对一维信号实施特征提取处理而转换成多维数据而成的数据。此外,也不需要是时序数据。
[0204]
实施方式2、3记载的偏差计算部208、308按照每个“标签”计算偏差程度,但是,偏差计算部208、308也可以在关注于某标签时,计算该标签中包含的“由于各类别而产生的偏差程度”。
[0205]
在将由于类别c(c为满足1≤c≤c的整数)而产生的数据偏差程度设为v(c)时,例如,v(c)能够如下述的(3)式那样公式化。
[0206]
【数学式3】
[0207][0208]
如(3)式所示,通过类别间的偏差v
out(c)
与类别内的偏差v
in(c)
之差来计算v(c)。
[0209]vout(c)
表示类别c的样本与其他类别的样本怎样乖离,v
in(c)
表示类别c彼此的样本怎样偏差。
[0210]
例如,在针对图11所示的调整距离矩阵123以以全部类别1~3求出v(c)的情况下,与v(1)和v(3)相比,v(2)的值变大。由此,能够定量地示出仅类别2的样本具有与其他类别的样本不同的性质。
[0211]
优选v(c)的值在数据集的识别对象标签(这里为检查结果标签)中包含的类别中出现较高的值,在期待与该标签无关的标签(这里为计测日标签)中包含的类别中出现较低的值。
[0212]
在仅将期待与本来的识别对象无关的标签(例如计测者、计测日或机体编号等)中包含的类别设为计算对象的情况下,也可以利用下述的(4)式计算v(c)。
[0213]
【数学式4】
[0214]
v(c)=v
out
(c)+v
in
(c)
ꢀꢀ
(4)
[0215]
即,在将多个类别中的计算偏差程度v(c)的一个类别设为对象类别的情况下,偏差计算部208、308也可以从被分类为对象类别的样本与被分类为除了对象类别以外的类别的样本的相似度的代表值,减去被分类为对象类别的样本间的相似度的代表值,由此计算偏差程度v(c)。
[0216]
此外,偏差计算部208、308也可以对被分类为对象类别的样本与被分类为除了对象类别以外的类别的样本的相似度的代表值,加上被分类为对象类别的样本间的相似度的代表值,由此计算偏差程度v(c)。
[0217]
顺序调整辅助部209或偏差计算部308也可以生成显示多个类别和与多个类别分别对应的偏差程度v(c)的偏差结果画面图像,使显示部107进行显示。
[0218]
该情况下,在图12所示的调整距离矩阵124的类别2这样的“与其他类别的数据乖离”且“相同类别的数据彼此的偏差也大”的类别中值变大,能够认为该类别是品质劣化的要因。
[0219]
如上所述,偏差计算部208、308也可以针对给出的全部标签计算由标签引起的偏差程度v和由于该标签的各类别而产生的偏差程度v(c)。另外,将偏差程度v还称作标签偏差程度,将偏差程度v(c)还称作类别偏差程度。
[0220]
此外,也可以对进行了基于某标签的调整后的部分矩阵d
ii
实施上述的v和v(c)的计算。该情况下,偏差计算部208、308进一步以除此以外的某标签重新排列位于通过某标签(例如检查结果标签)调整后的调整距离矩阵m的对角线上的部分矩阵d
ii
中包含的样本,求
出再调整距离矩阵mi后,以同样的步骤根据再调整距离矩阵mi求出偏差程度vi和vi(c)。此时,例如能够通过取vi和vi(c)的平均来计算最终的v和v(c)。在预先得知偏差大的标签的情况下,在计算除此以外的标签的偏差程度时,能够利用该方法。由此,能够不受最初进行调整后的标签的影响而计算由于其他标签而引起的偏差程度。
[0221]
如上所述,偏差计算部208、308也可以计算“由于特定的标签中包含的各类别而引起的数据偏差程度”。
[0222]
例如,在用户经由输入部101进行了标签的指定时,偏差计算部208也可以计算该标签中包含的各类别的偏差程度v(c)。此外,偏差计算部208、308也可以计算每个标签的偏差程度v和每个类别的偏差程度v(c),将其计算结果即v和v(c)包含在偏差结果画面图像中进行显示。
[0223]
在以上记载的实施方式1、2中,将调整距离矩阵的栏的值与预定的阈值进行比较,在小于预定的阈值的情况下,使该栏的颜色比预定的阈值以上的值的栏的颜色暗,由此生成评价画面图像,但是,实施方式1、2不限于这种例子。例如,也可以将调整距离矩阵可视化成热图,利用“颜色的深浅”来表现调整距离矩阵的栏的值。例如,可以利用值越小则越暗的颜色、值越大则越亮的颜色这样的热图进行可视化。此外,还能够组合基于热图的表现和基于阈值的表现。例如,也可以采取如下的表现方法:超过预先指定的上限值的栏全部为“热图中最亮的颜色(例如白色)”,低于预先指定的下限值的栏全部为“热图中最暗的颜色(例如黑色)”,其余的栏按照热图进行可视化。
[0224]
标号说明
[0225]
100、200、300:数据可视化装置;101:输入部;102:存储部;103:数据取得部;104:距离矩阵计算部;105:顺序调整部;106:可视化部;107:显示部;208、308:偏差计算部;209:顺序调整辅助部。
技术特征:1.一种信息处理装置,其特征在于,所述信息处理装置具有:相似度矩阵生成部,其根据具有多个样本的数据集生成相似度矩阵,所述相似度矩阵具有按照所述多个样本排列的顺序横向排列的多个列和按照所述顺序纵向排列的多个行,在由所述多个列中的一个列和所述多个行中的一个行确定的一个栏中存储有与所述一个列对应的样本和与所述一个行对应的样本之间的相似度;顺序调整部,其参照表示针对所述多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,以所述多个样本按照从所述多个标签中指定的标签即对象标签中的所述多个类别进行排列的方式调整所述相似度矩阵中的所述顺序,由此生成调整相似度矩阵;可视化部,其生成以与所述相似度对应的明度示出所述调整相似度矩阵的各个栏的评价画面图像;以及显示部,其显示所述评价画面图像。2.根据权利要求1所述的信息处理装置,其特征在于,所述信息处理装置还具有输入部,所述输入部从所述多个标签中受理所述对象标签的指定。3.根据权利要求1所述的信息处理装置,其特征在于,所述信息处理装置还具有:偏差计算部,其计算由于所述多个标签分别产生的所述多个样本的偏差程度;顺序调整辅助部,其生成显示所述多个标签和与所述多个标签分别对应的所述偏差程度的偏差结果画面图像,使所述显示部显示所述偏差结果画面图像;以及输入部,其从所述多个标签中受理所述对象标签的指定。4.根据权利要求1所述的信息处理装置,其特征在于,所述信息处理装置还具有偏差计算部,所述偏差计算部计算由于所述多个标签分别产生的所述多个样本的偏差程度,指定所述偏差程度最高的标签作为所述对象标签。5.根据权利要求3或4所述的信息处理装置,其特征在于,从在所述多个类别中被分类为不同类别的样本间的相似度的代表值,减去被分类为相同类别的样本间的相似度的代表值,由此计算所述偏差程度。6.根据权利要求1所述的信息处理装置,其特征在于,所述信息处理装置还具有:偏差计算部,其计算由于所述多个类别分别产生的所述多个样本的偏差程度;以及顺序调整辅助部,其生成显示所述多个类别和与所述多个类别分别对应的所述偏差程度的偏差结果画面图像,使所述显示部显示所述偏差结果画面图像。7.根据权利要求6所述的信息处理装置,其特征在于,在将所述多个类别中的计算所述偏差程度的一个类别设为对象类别的情况下,从被分类为所述对象类别的样本与被分类为除了所述对象类别以外的所述多个类别的样本之间的相似度的代表值,减去被分类为所述对象类别的样本间的相似度的代表值,由此计算所述偏差程度。8.根据权利要求6所述的信息处理装置,其特征在于,在将所述多个类别中的计算所述偏差程度的一个类别设为对象类别的情况下,对被分
类为所述对象类别的样本与被分类为除了所述对象类别以外的所述多个类别的样本之间的相似度的代表值,加上被分类为所述对象类别的样本间的相似度的代表值,由此计算所述偏差程度。9.根据权利要求1~8中的任意一项所述的信息处理装置,其特征在于,所述评价画面图像与所述调整相似度矩阵的所述多个列和所述多个行对应地示出所述对象标签中的所述多个类别。10.一种信息处理装置,其特征在于,所述信息处理装置具有:偏差计算部,其参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个标签分别产生的所述多个样本的偏差程度,生成显示所述多个标签中包含的至少一个标签和与所述至少一个标签对应的所述偏差程度的偏差结果画面图像;以及显示部,其显示所述偏差结果画面图像。11.根据权利要求10所述的信息处理装置,其特征在于,从被分类为所述多个类别中的不同类别的样本间的相似度的代表值,减去被分类为所述多个类别中的相同类别的样本间的相似度的代表值,由此计算所述偏差程度。12.一种信息处理装置,其特征在于,所述信息处理装置具有:偏差计算部,其参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个类别分别产生的所述多个样本的偏差程度,生成显示所述多个类别和与所述多个类别分别对应的所述偏差程度的偏差结果画面图像;以及显示部,其显示所述偏差结果画面图像。13.根据权利要求12所述的信息处理装置,其特征在于,在将所述多个类别中的计算所述偏差程度的一个类别设为对象类别的情况下,从被分类为所述对象类别的样本与被分类为除了所述对象类别以外的所述多个类别的样本之间的相似度的代表值,减去被分类为所述对象类别的样本间的相似度的代表值,由此计算所述偏差程度。14.根据权利要求12所述的信息处理装置,其特征在于,在将所述多个类别中的计算所述偏差程度的一个类别设为对象类别的情况下,对被分类为所述对象类别的样本与被分类为除了所述对象类别以外的所述多个类别的样本之间的相似度的代表值,加上被分类为所述对象类别中包含的相同类别的样本间的相似度的代表值,由此计算所述偏差程度。15.一种程序,其特征在于,所述程序使计算机作为以下部分发挥功能:相似度矩阵生成部,其根据具有多个样本的数据集生成相似度矩阵,所述相似度矩阵具有按照所述多个样本排列的顺序横向排列的多个列和按照所述顺序纵向排列的多个行,在由所述多个列中的一个列和所述多个行中的一个行确定的一个栏中存储有与所述一个列对应的样本和与所述一个行对应的样本之间的相似度;顺序调整部,其参照表示针对所述多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,以所述多个样本按照从所述多个标签中指定的标签即对象标签中的所述多个类别进行排列的方式调整所述相似度矩阵中的所述顺序,由此生成调整相
似度矩阵;可视化部,其生成以与所述相似度对应的明度示出所述调整相似度矩阵的各个栏的评价画面图像;以及显示部,其显示所述评价画面图像。16.一种程序,其特征在于,所述程序使计算机作为以下部分发挥功能:偏差计算部,其参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个标签分别产生的所述多个样本的偏差程度,生成显示所述多个标签中包含的至少一个标签和与所述至少一个标签对应的所述偏差程度的偏差结果画面图像;以及显示部,其显示所述偏差结果画面图像。17.一种程序,其特征在于,所述程序使计算机作为以下部分发挥功能:偏差计算部,其参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个类别分别产生的所述多个样本的偏差程度,生成显示所述多个类别和与所述多个类别分别对应的所述偏差程度的偏差结果画面图像;以及显示部,其显示所述偏差结果画面图像。18.一种信息处理方法,其特征在于,根据具有多个样本的数据集生成相似度矩阵,所述相似度矩阵具有按照所述多个样本排列的顺序横向排列的多个列和按照所述顺序纵向排列的多个行,在由所述多个列中的一个列和所述多个行中的一个行确定的一个栏中存储有与所述一个列对应的样本和与所述一个行对应的样本之间的相似度,参照表示针对所述多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,以所述多个样本按照从所述多个标签中指定的标签即对象标签中的所述多个类别进行排列的方式调整所述相似度矩阵中的所述顺序,由此生成调整相似度矩阵,生成以与所述相似度对应的明度示出所述调整相似度矩阵的各个栏的评价画面图像,显示所述评价画面图像。19.一种信息处理方法,其特征在于,参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个标签分别产生的所述多个样本的偏差程度,生成显示所述多个标签中包含的至少一个标签和与所述至少一个标签对应的所述偏差程度的偏差结果画面图像,显示所述偏差结果画面图像。20.一种信息处理方法,其特征在于,参照表示针对数据集中包含的多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,计算由于所述多个类别分别产生的所述多个样本的偏差程度,生成显示所述多个类别和与所述多个类别分别对应的所述偏差程度的偏差结果画面图像,
显示所述偏差结果画面图像。
技术总结具有:距离矩阵计算部(104),其根据具有多个样本的数据集生成相似度矩阵,该相似度矩阵具有按照该多个样本排列的顺序排列的多个列和多个行,在由该多个列中的一个列和该多个行中的一个行确定的一个栏中存储有与该一个列和该一个行对应的样本间的相似度;顺序调整部(105),其参照表示针对该多个样本分别使用各自具有多个类别的多个标签进行标注后的结果的标签信息,以该多个样本按照从该多个标签中指定的标签即对象标签中的多个类别进行排列的方式调整相似度矩阵中的顺序,由此生成调整相似度矩阵;可视化部(106),其生成以与相似度对应的明度示出该调整相似度矩阵的各个栏的评价画面图像;以及显示部(107),其显示该评价画面图像。画面图像。画面图像。
技术研发人员:白神健瑠 田中信秋
受保护的技术使用者:三菱电机株式会社
技术研发日:2020.03.13
技术公布日:2022/11/1