数据处理装置、数据处理方法、数据处理程序、数据提取装置、数据提取方法和数据提取程序与流程

专利2024-02-20  112

1.本技术涉及数据处理装置、数据处理方法、数据处理程序、数据提取装置、数据提取方法和数据提取程序。
背景技术
::2.近年来,随着互联网的发展和可连接到互联网的装置的普及,装置中的各种数据由提供互联网服务的公司、开发和知道装置的公司等收集,并且用于服务改进、产品开发等。这些数据中的有用数据之一是关于使用该装置的各个用户的数据。存在关于各个用户的各种类型的数据,诸如如何使用装置以及如何经由装置使用互联网上的服务。3.用户的这种个人数据具有高效用值,但是存在数据泄漏、数据处理方法等侵犯用户的隐私的问题。因此,称为差分隐私(differentialprivacy)的技术用于防止侵犯隐私。4.差分隐私是将噪声添加到要收集的数据以使得数据本身能够被使用同时防止作为数据的主体的用户等被指定的技术。可以防止将“特定数据是特定用户的数据”大于特定水平的假设给予统计可靠性。此外,由于即使是基于任意的背景知识的攻击,也给予了数学上的安全性,所以具有能够定量地评估对隐私的影响的特征。通过使用差分隐私,即使在没有用户的同意的情况下收集数据的情况下,也可以防止用户的隐私被侵犯。差分隐私包括输出类型差分隐私和本地差分隐私。5.输出类型差分隐私由内置在云中的数据库通过从装置收集原始数据来管理。当数据用户访问数据库以使用数据时,通过向数据添加噪声来公开数据,从而保护用户的隐私。因为提供云服务的业务运营商管理原始数据,所以担心用户对收集原始数据的心理障碍、在数据泄露的情况下业务运营商的业务风险等。6.本地差分隐私是一种由用户手边的装置添加噪声并且在云中收集匿名化数据的方法。在数据利用时,可以获得通过从云中去除噪声而获得的统计值。由于以匿名状态收集数据,用户的心理障碍低,并且在数据被泄露的情况下业务运营商的业务风险也低。7.引用列表8.专利文献9.专利文献1:rappor:randomizedaggregatableprivacy-preservingordinalresponse。技术实现要素:10.本发明要解决的问题11.目前,谷歌的rappor(已被评估为本地差分隐私基准)可以处理10000种类型的数据。然而,为了处理诸如一百万类型的数据类型的更多数据类型,需要100万亿个数据,并且存在如果数据类型的数目太大则数据基本上不能被处理的问题。12.鉴于这种观点,提出了本技术,并且本技术的目的是提供即使在由于大量数据难以分析数据的情况下,也能够减少数据量并且使得容易处理数据同时抑制对分析结果的影响的数据处理装置、数据处理方法、数据处理程序、数据提取装置、数据提取方法和数据提取程序。13.问题的解决方案14.为了解决上述问题,第一技术是一种数据处理装置,包括:哈希处理单元,从包含在第一数据集中的多条原始数据中生成哈希数据并且生成要传送至数据提取装置的哈希数据集;以及噪声添加单元,被配置为执行将噪声添加到哈希数据的第一噪声添加处理。15.此外,第二技术是一种数据处理方法,包括:从包括在第一数据集中的多条原始数据中生成哈希数据并且生成要传送到数据提取装置的哈希数据集;以及执行将噪声添加到哈希数据的第一噪声添加处理。16.此外,第三技术是使计算机执行数据处理方法的数据处理程序,所述数据处理方法包括:从包括在第一数据集中的多条原始数据生成哈希数据并生成要传送到数据提取装置的哈希数据集;以及执行将噪声添加到哈希数据的第一噪声添加处理。17.此外,第四技术是一种数据提取装置,包括:噪声去除单元,从哈希数据集中包括的哈希数据中去除噪声,哈希数据集是在数据处理装置中通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及数据提取单元,从哈希数据集提取预定的哈希数据。18.此外,第五技术是一种数据提取方法,包括:噪声去除单元,从哈希数据集中包括的哈希数据中去除噪声,哈希数据集是在数据处理装置中通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及数据提取单元,从哈希数据集提取预定的哈希数据。19.此外,第六技术是使计算机执行数据提取方法的数据提取程序,该数据提取方法包括:噪声去除单元,从哈希数据集中包括的哈希数据中去除噪声,哈希数据集是在数据处理装置中通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及数据提取单元,从哈希数据集提取预定的哈希数据。附图说明20.图1是示出了差分隐私的概况的示图。21.图2是示出了样本量、词典大小、以及误差之间的关系的一组曲线图。22.图3a至图3e是示出数据分布与误差之间的关系的曲线图,并且图3f是示出每个分布中的相对误差的曲线图。23.图4是示出了数据分布与隐私指标之间的关系的曲线图。24.图5是示出数据处理系统10的配置的框图。25.图6是示出终端装置100的配置的框图。26.图7是示出数据处理装置200的配置的框图。27.图8a是第一词典的说明性示图,并且图8b是哈希(hash,散列)词典的说明性示图。28.图9是示出服务器装置300的配置的框图。29.图10是示出数据提取装置400的配置的框图。30.图11是示出数据处理系统10中的处理的序列图。31.图12是通过哈希化对词典进行压缩的说明性示图。32.图13是高命中(heavyhitter)提取法的说明图。33.图14是压缩的哈希数据的说明图。34.图15是高命中提取法的说明图。35.图16是示出实现方式的具体实例中的数据处理系统10中的处理的序列图。36.图17是示出实现方式的具体实例中的统计分析结果的曲线图。37.图18是示出实现方式的具体实例中的统计分析结果的曲线图。具体实施方式38.在下文中,将参照附图描述本技术的实施例。注意,将按照以下顺序给出描述。39.《1.差分隐私的描述》40.《1.差分隐私的描述》41.《2.实施例》42.[2-1.数据处理系统10的配置][0043][2-2.终端装置100和数据处理装置200的配置][0044][2-3.服务器装置300和数据提取装置400的配置][0045][2-4.数据处理系统10中的处理][0046]《3.实现方式的具体实例》[0047]《4.变形例》[0048]《1.差分隐私的描述》[0049]首先,在描述本技术的实施例之前,将描述在本技术中使用的差分隐私。差分隐私是将噪声添加到要收集的数据以使得数据本身能够被使用同时防止作为数据的主体的用户等被指定的技术。本技术使用本地差分隐私,其中由用户的手上的装置(对应于根据实施例的终端装置100)添加噪声,并且在云(对应于实施例的服务器装置300)中收集匿名化数据。[0050]如图1的示意图所示,本地差分隐私包括用装置对数据进行编码并且生成位串v1的编码技术、根据随机变量生成向位串v1添加噪声的数据v1’的噪声添加技术、收集添加噪声的数据的聚合技术、从聚合数据中去除噪声的噪声去除技术(聚合技术和噪声去除技术通常同时执行并且可统称为解码技术)、以及根据分析的使用情况执行可视化处理的数据分析技术。[0051]在本技术中,当使用差分隐私时,“样本量”、“词典大小”、以及“隐私指标”被用作主要参数。[0052]样本量指示在云中收集的数据的总数。样本量可以定义为“具有装置的用户的数目×从该装置传送到云的数据的条数”。[0053]词典大小指示词典中包括的数据类型(原始数据)的总数。词典是针对指示数据类别的每种数据类型收集的多条数据的集合,对应于权利要求中的数据集。[0054]词典大小由数据类型的数目确定。例如,由于iso5218中定义的性别类别有男性、女性、未知、不适用四种类型,数据类型为4,此时词典大小为4。此外,例如,在用于智能电话等中的字符输入的绘文字(emoji)的情况下,那些类型的类型数量当前大约为2600,数据类型的数量大约为2600,并且在这种情况下,词典大小大约为2600。此外,在全球定位系统(gps)的位置信息被映射到1km2的区域网格上的情况下,因为网格的数目约为380000,数据类型的数目约为380000,并且词典大小约为380000。此外,例如,在智能电话等中可再现的内容的数目是100000的情况下,数据类型的数目是100000,并且在这种情况下,词典大小是100000。[0055]隐私指标(privacyindex)指示差分隐私中的隐私保护的程度。随着隐私指标的值减小,隐私保护的程度增加,并且添加到数据的噪声量增加。另一方面,随着隐私指标的值增大,隐私保护的程度减小,并且添加到数据的噪声量减小。[0056]根据要处理的数据的敏感度,隐私指标的值被确定为预定值。例如,在智能电话等中通过向用于字符输入的绘文字添加噪声而期望匿名化的情况下,隐私指标被设置为4,并且在诸如脉搏的医疗保健信息的情况下,隐私指标被设置为2。应注意,这些隐私指标的具体值仅是实例,并且本技术不限于这些值。[0057]图2是示出在隐私指标是预定值的情况下样本量、词典大小、以及误差之间的关系的一组曲线图。误差是未添加噪声的数据的测量值(在下文中,称为正确值)与通过差分隐私添加噪声的数据的测量值(称为添加噪声的测量)之间的差。在图2的曲线图中,在每个具有并排布置的两个条的条曲线图中,右侧的条表示未添加噪声的数据的测量值(正确值),并且左侧的条表示通过差分隐私添加噪声的数据的测量值(添加噪声的测量值)。[0058]在图2中,假设上部曲线图a至e具有10的词典大小,中间曲线图f至j具有100的词典大小,并且下部曲线图k至p具有1000的词典大小。[0059]垂直排列的曲线图a、f和k具有10000的样本量。此外,垂直排列的曲线图b、g和l具有100000的样本量。此外,垂直排列的曲线图c、h和m具有1百万的样本量。此外,垂直排列的曲线图d、i和n具有10百万的样本量。此外,垂直排列的曲线图e、j和p具有100百万的样本量。要注意的是,假设所有曲线图的隐私指标相同。[0060]在各曲线图的右上方说明的值是曲线图中的正确值和添加噪声的测量值之间的误差。[0061]从图2中的一组曲线图中可以看出,通过比较具有相同样本量的曲线图,词典大小越小,误差越小。此外,通过比较具有相同词典大小的曲线图,可以看出,随着样本量变大,误差变小。在差分隐私中,正确值与添加噪声的测量值之间的误差越小,在保护数据的隐私的同时可以获得的数据越可靠,这是优选的。[0062]图3a至图3e是示出了数据分布与正确值和添加噪声的测量值中的误差之间的关系的曲线图,并且图3f是示出了每个分布中的相对误差的曲线图。假设图3a至图3e的每个曲线图具有相同的样本量、相同的词典大小、以及相同的隐私指标。如从图3f中可以看出,即使样本量、词典大小、以及隐私指标相同,相对误差也根据数据分布而变化。[0063]图4是示出在图3a至图3e中示出的每种类型的数据分布与隐私指标值之间的关系的曲线图。从图4中可以看出,即使分布不同,随着隐私指标变得更小,要添加到数据的噪声量增加并且误差也变得更大。另一方面,随着隐私指标变得更大,要添加到数据的噪声量减少,并且误差也变得更小。[0064]从样本量、词典大小、以及隐私指标之间的这种关系可以看出,样本量、词典大小、以及隐私指标具有以下折衷关系。[0065]在词典大小恒定并且隐私指标恒定的情况下,在样本量较小的情况下,误差变大。[0066]此外,在词典大小较小的情况下,即使样本量小,误差也小。另一方面,在词典大小较大的情况下,即使样本量较大,误差也较大。[0067]此外,在样本量恒定并且词典大小恒定的情况下,随着隐私指标变得更小,误差变得更大,并且随着隐私指标变得更大,误差变得更小。因此,需要进一步增加样本量以便增加隐私强度和增加可靠性。[0068]在本地差分隐私中,作为正确值的统计结果与添加噪声的测量值之间的差的误差被用作评估指数。因此,在样本量相同并且词典大小相同的情况下,优选本地差分隐私:即使使噪声量更大以增强灵敏度,误差也不改变。此外,在词典大小相同并且隐私指标相同的情况下,即使样本量变小,如果误差不改变,则本地差分隐私是优选的。通常,为了增加样本量,需要获得大量的测量值(数据),这是昂贵的。[0069]谷歌的rappor,被评估为本地差分隐私的基准,可以处理10000的词典大小。然而,目前,在rappor中,对于词典大小为100万级的数据的分析,需要100万亿的样本量,并且存在无法执行分析的问题。[0070]《2.实施例》[0071][2-1.数据处理系统10的配置][0072]接下来,将描述使用上述差分隐私的数据处理系统10的配置。在该实施例中,将描述在数据收集中使用差分隐私的实例,在数据收集中,构成作为数据集的词典的数据类型(原始数据)是内容的标题。在本实施例中,从终端装置100获取内容标题和内容再现计数信息,并将其用于统计分析等。[0073]例如,内容可以是任何内容,只要其可以由终端装置100再现并且可以对再现的次数进行计数,并且可以存在诸如音乐的音频内容和诸如电影的视频内容。此外,除了作为由用户拥有的被存储在终端装置100中的可再现内容数据的内容之外,可以在流服务、在诸如电影共享站点的互联网服务等上再现内容。[0074]如图5所示,数据处理系统10包括多个终端装置100和服务器装置300。服务器装置300和多个终端装置100经由作为互联网等的网络1000连接。注意,为了便于描述和附图,描述了七个终端装置100,但是存在连接到服务器装置300的更多终端装置100。[0075]服务器装置300是使用差分隐私从终端装置100收集数据的装置,例如,该装置由制造终端装置100的制造商或者提供内容提供服务的公司操作。服务器装置300对应于以上对差分隐私的描述中的云。[0076]终端装置100是例如能够再现内容并连接到网络1000的智能电话。终端装置100周期性地或在预定定时将包括由其自身再现的内容的标题等的日志发送到服务器装置300。稍后将描述日志的细节。[0077]在由于从终端装置100向服务器装置300发送的数据量大而难以进行统计分析等的情况下,数据处理系统10在抑制对数据的分析结果的影响的同时减少数据量并且使得易于处理数据。[0078]另外,虽然通过终端装置100的通信单元102和服务器装置300的通信单元302进行数据及日志的收发,但是在数据处理装置200与数据提取装置400之间进行数据及日志的交换。因此,为了便于描述,假设在数据处理装置200和数据提取装置400中执行传送和接收。[0079][2-2.终端装置100和数据处理装置200的配置][0080]接下来,将描述终端装置100的配置。如图6所示,终端装置100包括控制单元101、通信单元102、存储单元103、内容再现单元104、显示单元105、输入单元106以及数据处理装置200。注意,尽管存在连接到服务器装置300的许多终端装置100,但是为了便于描述和附图,仅示出了单个终端装置100的细节。[0081]控制单元101包括中央处理单元(cpu)、随机存取存储器(ram)、只读存储器(rom)等。rom存储由cpu读取和操作的程序等。ram用作cpu的工作存储器。cpu通过根据存储在rom中的程序执行各种处理并发出命令来执行整个终端装置100的总体控制。[0082]通信单元102是根据预定通信标准与其他装置和网络1000进行通信的通信模块。通信方法的实例包括诸如无线保真(wi-fi)的无线局域网(lan)、第四代移动通信系统(4g)、第五代移动通信系统(5g)、宽带以及蓝牙(注册商标)。[0083]存储单元103是包括例如硬盘驱动器(hdd)、半导体存储器、固态驱动器(ssd)等的存储介质,并且还存储除了诸如图像数据、运动图像数据、音频数据和文本数据的内容数据之外的诸如应用和程序的数据。[0084]内容再现单元104执行存储在存储单元103中的内容或经由网络1000流传送的内容的再现处理。内容再现单元104可计数内容的再现次数并输出再现计数数据。应注意,在内容被流传送的情况下,可从流传送源等的服务器获取再现计数信息。[0085]显示单元105是用于显示诸如图像和视频的内容的显示装置、用户界面等。显示装置包括例如液晶显示器(lcd)、等离子体显示面板(pdp)、有机电致发光(el)面板等。[0086]输入单元106是用于用户输入指令到终端装置100的各种输入装置。作为输入单元106,存在与显示单元105一体形成的按钮、触摸屏等。在对输入单元106进行输入的情况下,生成与该输入相对应的控制信号并将其输出至控制单元101。[0087]数据处理装置200通过终端装置100执行程序来配置。程序可以预先安装在终端装置100中,或者可以由用户下载、分布在存储介质等中并安装。注意,数据处理装置200不仅可以通过程序来实现,而且可以通过组合具有相关功能的硬件(诸如专用装置、电路等)来实现。[0088]如图7所示,数据处理装置200包括词典生成单元201、词典存储单元202、哈希处理单元203、哈希词典存储单元204、提取的哈希存储单元205、数据指定单元206、编码/噪声添加单元207以及日志生成单元208。[0089]词典生成单元201从内容再现单元104获取可再现内容的标题并且生成作为第一数据集的第一词典。在这种情况下,内容标题对应于构成第一词典的数据类型(原始数据)。例如,在终端装置100可再现100000的内容的情况下,词典大小为100000。[0090]词典生成单元201生成的第一词典存储在词典存储单元202中。此外,在数据处理装置200与数据提取装置400之间共享第一词典的情况下,第一词典被传送至数据处理装置200和数据提取装置400并且存储在数据提取装置400的词典存储单元202中。应注意,因为随着用户购买内容、删除内容、添加新内容等,用户可再现的内容增加或减少,所以词典可由词典生成单元201定期更新。[0091]词典存储单元202是用于将由词典生成单元201生成的第一词典存储在存储单元103中的存储器处理单元。[0092]哈希处理单元203通过使用哈希函数对第一词典的内容标题进行哈希化以生成哈希词典来从第一词典的内容标题生成哈希数据。哈希词典与权利要求中的哈希数据集相对应。在本技术中,通过哈希化压缩第一词典。稍后将描述通过哈希化对词典进行压缩的细节。应注意,数据处理装置200和数据提取装置400需要使用共同的哈希函数对第一词典执行哈希处理。[0093]如图8a所示,第一词典是可由终端装置100再现的内容的标题的列表。内容的标题对应于构成第一词典的数据类型。[0094]哈希词典存储单元204是用于将由哈希处理单元203生成的哈希词典存储在存储单元103中的存储器处理单元。如图8b所示,哈希词典是内容标题和从内容标题生成的哈希数据彼此相关联的列表。[0095]提取的哈希存储单元205是用于将与由数据处理装置400提取的提取的哈希数据相同的哈希数据存储在存储单元103中的存储器处理单元。提取的哈希数据是由数据提取装置400从包括在从多个终端装置100发送到服务器装置300的第一词典中的哈希数据提取为最频繁的值(高命中)的哈希数据。稍后将描述所提取的哈希数据的细节。[0096]数据指定单元206参考从数据提取装置400接收的提取的哈希数据信息,并指定由数据提取装置400从数据处理装置200本身的哈希词典提取的hh哈希数据。提取的哈希数据信息是用于指定由数据提取装置400提取的哈希数据的识别信息。[0097]编码/噪声添加单元207对要传送到数据提取装置400的数据执行编码处理和噪声添加处理。基于隐私指标预先确定要添加的噪声量。[0098]日志生成单元208生成要被发送到数据提取装置400的日志。除了经受编码处理和噪声添加处理的哈希词典之外,日志包括作为哈希词典中包括的哈希数据的状态的内容标题的可再现计数信息。可从内容再现单元104获取再现计数信息。此外,日志包括作为差分隐私的参数信息的隐私指标、终端装置100的识别信息(id)、时间戳等。生成的日志通过通信单元102的通信经由网络1000发送至服务器装置300的数据提取装置400。注意,只要在终端装置100和服务器装置300之间预先共享信息,诸如隐私指标和识别信息的不改变信息不需要被包括在日志中。[0099]终端装置100和数据处理装置200如上所述配置。应注意,词典存储单元202、哈希词典存储单元204以及提取的哈希存储单元205可被配置在终端装置100的存储单元103中,或者可作为存储单元被包括在数据处理装置200中。[0100][2-3.服务器装置300和数据提取装置400的配置][0101]接下来,将描述服务器装置300的配置。如图9所示,服务器装置300包括控制单元301、通信单元302、存储器单元303和数据提取装置400。[0102]控制单元301包括cpu、ram、rom等。cpu通过根据存储在rom中的程序执行各种处理并发出命令来执行整个服务器装置300的整体控制。[0103]通信单元302是根据预定通信标准与终端装置100和互联网通信的通信模块。通信方法的实例包括诸如wi-fi、4g、5g的无线lan、宽带、蓝牙(注册商标)等。[0104]存储单元303是例如包括hdd、半导体存储器、ssd等的存储介质,并且存储从终端装置100发送的应用、程序、日志、数据等。[0105]数据提取装置400是由服务器装置300执行程序而配置的处理装置。程序可预先安装在服务器装置300中,或者可由用户下载、分布在存储介质等中并安装。注意,数据提取装置400不仅可以通过程序来实现,而且可以通过组合具有相关功能的硬件(诸如专用装置、电路等)来实现。[0106]如图10所示,数据提取装置400包括词典存储单元401、哈希处理单元402、哈希词典存储单元403、数据聚合单元404、解码/噪声去除单元405、数据提取单元406、提取的哈希存储单元407以及统计分析单元408。[0107]词典存储单元401是用于将与数据处理装置200中的第一词典相同的第一词典存储在存储单元303中的存储器处理单元。第一词典可由数据处理装置200的词典生成单元201生成并传送至数据提取装置400,或者可由数据提取装置400参考已知内容的标题生成。例如,因为只要连接到网络1000,流服务或视频共享站点中的内容可以由任何任何地方再现,所以数据处理装置200和数据提取装置400可以具有相同的第一词典。[0108]哈希处理单元402根据第一词典的内容标题生成哈希数据,从而对内容标题进行哈希化以生成哈希词典。使用与数据处理装置200中的哈希处理单元203所使用的哈希函数相同的哈希函数来生成哈希数据。应注意,代替通过数据提取装置400生成哈希词典,由数据处理装置200生成的哈希词典可被传送至数据提取装置400并且被共享。[0109]哈希词典存储单元403是用于将由哈希处理单元203生成的哈希词典存储在存储单元303中的存储器处理单元。[0110]数据聚合单元404根据从数据处理装置200接收的日志聚合第一词典。聚合的第一词典被提供给解码/噪声去除单元405。第一词典包括通过对作为原始数据的内容标题执行哈希处理、编码处理和噪声添加处理而获得的哈希数据以及内容标题的再现计数信息。[0111]解码/噪声去除单元405对从数据聚合单元404提供的第一词典中包括的哈希数据执行解码处理和噪声去除处理。已去除噪声并且已成为哈希数据的解码哈希数据被提供至数据提取单元406。[0112]数据提取单元406从哈希数据和作为哈希数据的原始数据的内容标题的再现计数信息中提取最频繁的值(高命中(hh))。对于从连接到服务器装置300的多个终端装置100传送的所有日志聚合的第一词典的哈希数据,执行数据提取单元406中的提取处理。高命中的提取对应于权利要求中从哈希数据集中提取预定哈希数据。[0113]提取的哈希数据被提供给提取的哈希存储单元407和统计分析单元408。在本实施例中,数据提取单元406生成表示以再现次数的降序排列的前十条(前10条)内容的数据作为高命中。应注意,前10个值仅是实例,并且本技术不限于这些值。[0114]提取的哈希存储单元407是用于将由数据提取单元406提取的哈希数据存储在存储单元303中的存储器处理单元。[0115]统计分析单元408执行统计分析,诸如用于可视化统计结果的热图的创建、可靠性等。应注意,统计分析单元408不是本技术中的基本配置。[0116]服务器装置300和数据提取装置400如上所述被配置。应注意,词典存储单元401、哈希词典存储单元403、以及提取的哈希存储单元407可被配置为服务器装置300的存储单元,或者可包括在数据提取装置400中作为存储单元。[0117][2-4.数据处理系统10中的处理][0118]接下来,将参考图11中的序列图描述在数据处理系统10中的处理。[0119]首先,在步骤s11中,数据处理装置200的词典生成单元201从内容再现单元104获取作为原始数据的内容标题,并且生成第一词典作为第一数据集。在这种情况下,内容标题是可以由终端装置100再现的所有内容的标题。注意,内容标题可以是由终端装置100再现预定次数(例如,一次)或更多次的内容的标题。这是因为内容标题及其再现计数信息作为第一词典被发送到服务器装置300以便对再现内容的次数等进行统计分析,并且因此具有零再现计数的内容的标题不需要被发送到服务器装置300。然而,本技术不排除将具有零再现次数的内容的标题传送到服务器装置300。[0120]此外,在从终端装置100传送到服务器装置300的第一词典的词典大小太大的情况下,可将预定次数设置为例如100,并且可仅处理100次以上再现的内容的标题。应注意,在数据处理装置200生成的第一词典与数据提取装置400共享的情况下,第一词典从终端装置100被传送至服务器装置300。[0121]接下来,在步骤s12中,数据处理装置200的哈希处理单元203通过从包含在第一词典中的内容标题生成哈希数据并且对第一词典进行哈希化来生成哈希词典。通过这种哈希化,词典大小可以被压缩。[0122]此处,将描述通过哈希化对词典的压缩。如图12所示,假设存在100000个内容标题(t1至t100000)作为构成第一词典的原始数据。在这种情况下,词典大小为100000。当通过相同的哈希函数哈希100000个内容标题时,多个内容标题变成相同的哈希数据(哈希冲突)。通过收集具有相同哈希数据的标题,可以减小原始数据并且减小词典大小而不减小内容标题(词典大小在图12中为8192)。通过以这种方式通过哈希化压缩来减小词典大小,可以处理继续增加的大规模词典和词典数据。[0123]该描述返回到序列图的描述。接下来,在步骤s13中,数据处理装置200的编码/噪声添加单元207对哈希词典执行编码处理和噪声添加处理。该噪声添加处理对应于权利要求中的第一噪声添加处理。此时,包括在哈希词典中的数据处于哈希数据被编码为位串并且进一步添加噪声的状态。接下来,在步骤s14中,数据处理装置200的日志生成单元208生成包括哈希词典、内容标题的再现计数信息等的日志,并且在步骤s15中,终端装置100将日志发送给服务器装置300。[0124]在数据提取装置400接收到日志的情况下,在步骤s16中,数据提取装置400的数据聚合单元404根据从多个终端装置100接收的多个日志聚合哈希词典。多个终端装置100与服务器装置300连接,从多个终端装置100的每一个接收日志,使得哈希词典与所接收的日志的数量一样多。聚合的哈希词典被提供给解码/噪声去除单元405。[0125]接下来,在步骤s17中,数据提取装置400的解码/噪声去除单元405对哈希词典执行解码处理和噪声去除处理。因此,构成哈希词典的数据不包括噪声并且处于不是位串的哈希数据的状态。[0126]接下来,在步骤s18中,数据提取单元406根据与包含在哈希词典中的哈希数据对应的再现计数信息提取高命中。[0127]在此,说明高命中的提取。高命中的项是最频繁的值,高命中的提取是指从构成哈希词典的多个数据类型中提取具有大计数值的数据类型。[0128]图13是作为原始数据的内容标题按照内容的再现次数的顺序排列为计数值的曲线图。在以计数值降序的顺序在曲线图中排列反映用户意图的大量数据(诸如内容的再现次数)的情况下,数据分布通常变成所谓的长尾。此外,在统计分析中,即使忽略具有小计数值的尾部,也常常对统计结果没有影响。另外,在统计分析中,通常,具有大计数值的高序数据是重要的,并且具有小计数值的尾部的数据经常不是统计上必需的。[0129]在分析词典大小较大和数据量大的词典时,重要的是能够执行作为具有大计数值的数据类型的分析的最频繁的值(高命中)分析。例如,如图13所示,从头到第十名(前10名)作为高命中,按照作为计数值的再现次数的降序提取作为原始数据的内容标题。[0130]如图14所示,在通过哈希化压缩词典的情况下,多个内容标题对应于一条哈希数据。多个内容标题通过哈希处理变成相同的哈希数据。[0131]此外,根据内容标题生成的哈希数据和再现次数的曲线图如图15所示。在图15中,水平轴表示根据内容标题生成的哈希数据,并且对于通过哈希化已经变成相同哈希数据的内容标题,将再现次数加在一起。因此,每条哈希数据的再现次数大于图13中所示的压缩之前的再现次数。在数据的分布是长尾的情况下,即使词典被哈希化,也保持基于计数值的排名。要注意的是,虽然在图14中保持该顺序,但是由于通过词典压缩的计数值的总和,顺序可改变。[0132]在此方法中,多条哈希数据碰巧相同的许多哈希冲突。然而,由于多条哈希数据的许多冲突出现在具有小计数值的尾部中,因此存在哈希化之前的高序数据类型即使在哈希化之后也被包括在高序中的高可能性,并且认为对统计分析的影响小。[0133]该描述返回到序列图的描述。接着,在步骤s19中,将表示由数据提取装置400提取的哈希数据的提取的哈希数据信息从服务器装置300发送到终端装置100。注意,数据提取装置400可以将所提取的哈希数据本身而不是所提取的哈希数据信息发送至数据处理装置200。[0134]例如,数据处理装置200和数据提取装置400中的任一个使用相同的哈希函数,可以了解内容标题(其是哈希数据“777”的原始数据)是“t1”。然而,哈希数据“777”在高命中中的顺序仅由数据提取装置400已知。因此,数据提取装置400需要将提取的哈希数据信息发送到数据处理装置200,以告知哪个哈希数据对应的内容标题在高命中中排名。[0135]当数据处理装置200接收提取的哈希数据信息时,在步骤s20,数据处理装置200的数据指定单元206参考提取的哈希数据信息执行数据指定处理。[0136]通过搜索由提取的哈希数据信息表示并且由数据处理装置200提取的提取的哈希数据是否存在于哈希词典存储单元204中,来执行数据指定处理。由于提取的哈希数据是从包括在由数据提取装置400从多个终端装置100接收的哈希词典中的多条哈希数据中提取的,所以提取的哈希数据可以包括不存在于终端中100的哈希词典存储单元204中的哈希数据。因此,数据指定单元206从所提取的哈希数据中仅指定存在于哈希词典存储单元204中的哈希数据。结果,仅将作为高命中被提取并且可以在终端装置100中再现的内容的标题,作为第二词典发送到数据提取装置400。因此,与第一词典不同,减少了作为第二词典的要被传送至数据提取装置400的数据。第二词典与权利要求中的第二数据集相对应。[0137]作为数据指定处理的结果,在哈希词典存储单元204中不存在与所提取的哈希数据相同的哈希数据的情况下,不存在要从数据处理装置200传送至数据提取装置400的数据,并且因此在此处理结束。[0138]作为数据指定处理的结果,在与所提取的哈希数据相同的哈希数据存在于哈希词典存储单元204中的情况下,数据指定单元206仅将作为与所提取的哈希数据相对应的原始数据的内容标题作为第二词典提供至编码单元/噪声添加单元207。与第一词典不同,第二词典不包括可由终端装置100再现的所有内容的标题,而是在由数据提取装置400提取的提取哈希数据中仅包括存在于终端装置100中的哈希数据的原始数据(内容标题)。[0139]接下来,在步骤21中,数据处理装置200的编码/噪声添加单元207对构成第二词典的内容标题执行编码处理和噪声添加处理。该噪声添加处理对应于权利要求中的第二噪声添加处理。[0140]接下来,在步骤s22中,数据处理装置200的日志生成单元208生成包括第二词典和包括在第二词典中的内容标题的再现计数信息等的日志,并且在步骤s23中,终端装置100将日志发送给服务器装置300。[0141]注意,在数据处理装置200中的步骤s20至s22的处理中不对第二词典进行哈希化。因此,这里,对内容标题而不是哈希数据执行编码处理和噪声添加处理。[0142]当服务器装置300接收日志时,在步骤s24中,数据提取装置400的数据聚合单元404根据日志聚合第二词典。接下来,在步骤s25中,解码/噪声去除单元405对第二词典执行解码处理和噪声去除处理。由于第二词典不是哈希词典,因此数据提取装置400可以获取高命中,高命中是内容标题状态下的提取数据而不是哈希数据。[0143]然后,在步骤s26中,数据提取单元406从第二词典中获取包含在高命中的内容标题及其再现计数信息。[0144]如上所述,执行数据处理系统10中的处理。根据本技术,即使在原始数据的数量大并且词典大小大的情况下,通过哈希化压缩词典大小,可以减少从数据处理装置200传送至数据提取装置400的数据并且可以容易地处理数据。[0145]另外,由于仅将与数据提取装置400提取的高命中对应的原始数据作为第二词典,从终端装置100发送到服务器装置300,所以能够减少发送的数据量,能够容易地进行数据的处理。[0146]另外,在数据提取装置400中,由于在提取高命中的阶段数据处于哈希数据的状态,因此不存在终端装置100的用户的个人信息被泄露、隐私被侵犯的可能性。由于用户再现的内容的标题和从内容的名称指定的内容的类型是用户的个人信息,并且用户编辑的内容的标题还可以包括用户的行为、品味和偏好、家庭信息等,因此可以通过使用差分隐私来防止用户的个人信息的泄漏。[0147]由数据提取装置400获取的内容标题和再现计数信息可以用于各种统计分析处理。[0148]《3.具体实施例》[0149]接下来,将参照图16至图18描述对特定数据执行上述处理的实验结果。在具体实例中,如在上述实施例中,原始数据被设置为内容标题,并且计数值被设置为内容的再现次数。应注意,图16的序列图中的处理与图13中的处理相同。[0150]如图15的步骤s11所示,假设数据是用于在终端装置100中的内容再现的一周的数据,第一词典的样本量是1511605,并且词典大小是1250352。词典大小是由终端装置100再现的内容的标题,并且样本量是由数据处理装置200获取的内容的再现的总次数。[0151]应注意,此处,为了便于描述,假设第一词典的样本量和词典大小是从单个数据处理装置200接收的第一词典的样本量和词典大小,但是第一词典的样本量和词典大小可以是通过数据提取装置400从多个数据处理装置200接收的词典的总和。[0152]通过在数据处理装置200中的步骤s12中的哈希化处理,第一词典的词典大小变成8192。第一词典从数据处理装置200传送至数据提取装置400。[0153]然后,在步骤s15中,将具有样本量1511605和词典大小8192的第一词典作为日志从终端装置100发送到服务器装置300。[0154]在步骤s18中,数据提取装置400提取具有最大再现次数的前20条(前20条)哈希数据(内容标题)作为高命中。通过提取前20个高命中,提取768个哈希数据。[0155]接着,通过数据处理装置200中的步骤s20中的数据指定处理,从样本量1511605指定43328个内容标题作为对应于768个提取的哈希数据的原始数据。[0156]然后,当从数据处理装置200向数据提取装置400传送第二词典时,在数据提取装置400中的步骤s26中,可以从具有样本量43328和词典大小768的第二词典获取内容标题的再现计数信息。[0157]图17和图18示出了测量值(原样的原始数据的前20的统计分析结果)和预测值(应用本技术的数据的前20的统计分析结果)。图17a示出了测量值和预测值,其中,水平轴表示哈希数据并且垂直轴表示再现次数(计数值)。而且,图17b示出了测量值和预测值,其中,水平轴表示高命中(前20),并且垂直轴表示再现次数(计数值)。另外,在图18中,横轴表示预测值的高命中数,纵轴表示测定值的高命中数。[0158]因此,原样的原始数据的前20个的统计分析结果和应用本技术的数据的前20个的统计分析结果之间的误差是0.026。此外,如图18所示,排名误差在前10位为0,在前20位为±2。如上所述,根据本技术,可以减小词典大小并且减小从终端装置100传送至服务器装置300的数据,同时将统计分析结果中的误差抑制得较小,从而使得容易处理数据。[0159]《4.变形例》[0160]在上文中,已经详细描述了本技术的实施例;然而,本技术不限于上述实施例,并且可以在本技术的范围内进行各种修改。[0161]在实施例中,已经使用内容的标题和内容的再现次数进行描述,但是本技术不限于此。例如,原始数据可以是产品销售站点上的产品名称、产品页面的统一资源定位符(url)、广告的url等,并且计数值可以是购买的产品数量、在url上的点击数量、对url的访问数量等。[0162]此外,原始数据可以是用户在终端装置100中用于字符输入的绘文字的类型,并且计数值可以是绘文字的使用次数。如上所述,可应用任何数据,只要该数据可被处理为统计数据即可。[0163]虽然在实施例中终端装置100已经被描述为智能电话,但是除了智能电话之外,终端装置100可以是个人计算机、平板终端、相机、可穿戴设备、智能扬声器、游戏设备、服务器设备300、可连接到互联网的宠物型/人类型机器人、各种传感器设备、各种物联网(iot)设备、或能够将信息传送到外部的任何设备。[0164]应注意,本技术还可具有以下配置。[0165](1)[0166]一种数据处理装置,包括:[0167]哈希处理单元,从包含在第一数据集中的多条原始数据生成哈希数据,并生成要发送到数据提取装置的哈希数据集;以及[0168]噪声添加单元,被配置为执行将噪声添加到哈希数据的第一噪声添加处理。[0169](2)[0170]根据(1)的数据处理装置,其中,原始数据与相应的计数值一起被传送至数据提取装置。[0171](3)[0172]根据(1)或(2)的数据处理装置,进一步包括数据指定单元,该数据指定单元参考从该数据提取装置接收的并且指示在该数据提取装置中从该哈希数据集提取的哈希数据的信息,从该哈希数据集指定所提取的哈希数据。[0173](4)[0174]根据(3)的数据处理装置,其中该噪声添加单元执行第二噪声添加处理,该第二噪声添加处理用于将噪声添加至与由该数据指定单元指定的该提取的哈希数据对应的原始数据。[0175](5)[0176]根据(4)的数据处理装置,其中,包括添加噪声的原始数据的第二数据集被发送至数据提取装置。[0177](6)[0178]根据(2)至(5)中任一项的数据处理装置,其中原始数据是可再现内容的标题。[0179](7)[0180]根据(6)的数据处理装置,其中该计数值是该内容的再现次数。[0181](8)[0182]一种数据处理方法,包括:[0183]从包括在第一数据集中的多条原始数据中生成哈希数据并且生成要传送到数据提取装置的哈希数据集;以及[0184]执行将噪声添加到所述哈希数据的第一噪声添加处理。[0185](9)[0186]一种数据处理程序,使计算机执行数据处理方法,方法包括:[0187]从包括在第一数据集中的多条原始数据中生成哈希数据并且生成要传送到数据提取装置的哈希数据集;以及[0188]执行将噪声添加到哈希数据的第一噪声添加处理。[0189](10)[0190]一种数据提取装置,包括:[0191]噪声去除单元,对哈希数据集中包括的哈希数据中去除噪声,哈希数据集是在数据处理装置中通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及[0192]数据提取单元,从哈希数据集提取预定的哈希数据。[0193](11)[0194]根据(10)的数据提取装置,[0195]其中,哈希数据与对应于原始数据的计数值相关联,并且[0196]数据提取单元基于计数值提取预定的哈希数据。[0197](12)[0198]根据(10)或(11)的数据提取装置,其中,将指示由数据提取单元提取的哈希数据的哈希数据信息传送至数据处理装置。[0199](13)[0200]根据(10)至(12)中任一项的数据提取装置,[0201]其中,噪声去除单元基于提取的哈希数据信息从包含在从数据处理装置传送的第二数据集中的原始数据中去除噪声,并且[0202]数据提取单元基于计数值提取从第二数据集中去除噪声的原始数据。[0203](14)[0204]根据(11)至(13)中任一项的数据提取装置,其中,原始数据是可再现内容的标题。[0205](15)[0206]根据(14)的数据提取装置,其中计数值是内容的再现次数。[0207](16)[0208]根据(15)的数据提取装置,其中,数据提取单元按照内容的再现次数的降序从哈希数据集中提取预定数量的哈希数据。[0209](17)[0210]一种数据提取方法,包括:[0211]噪声去除单元,从哈希数据集中包括的哈希数据中去除噪声,哈希数据集是在数据处理装置中通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及[0212]数据提取单元,从哈希数据集提取预定的哈希数据。[0213](18)[0214]一种数据提取程序,使计算机执行数据提取方法,方法包括:[0215]噪声去除单元,从哈希数据集中包括的哈希数据中去除噪声,哈希数据集是在数据处理装置中通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及[0216]数据提取单元,从哈希数据集提取预定的哈希数据。[0217]附图标记列表[0218]200数据处理装置[0219]203哈希处理单元[0220]206数据指定单元[0221]207编码/噪声添加单元[0222]400数据提取装置[0223]405解码/噪声去除单元[0224]406数据提取单元。当前第1页12当前第1页12
技术特征:
1.一种数据处理装置,包括:哈希处理单元,从包含在第一数据集中的多条原始数据生成哈希数据,并生成要发送到数据提取装置的哈希数据集;以及噪声添加单元,被配置为执行用于将噪声添加到所述哈希数据的第一噪声添加处理。2.根据权利要求1所述的数据处理装置,其中所述原始数据与相应的计数值一起被传送到所述数据提取装置。3.根据权利要求1所述的数据处理装置,进一步包括:数据指定单元,参考从所述数据提取装置接收的指示在所述数据提取装置中从所述哈希数据集提取的被提取哈希数据的信息,从所述哈希数据集指定所述被提取哈希数据。4.根据权利要求3所述的数据处理装置,其中所述噪声添加单元执行第二噪声添加处理,所述第二噪声添加处理将噪声添加到与由所述数据指定单元指定的所述被提取哈希数据对应的原始数据。5.根据权利要求4所述的数据处理装置,其中包括添加噪声的原始数据的第二数据集被发送到所述数据提取装置。6.根据权利要求2所述的数据处理装置,其中所述原始数据是可再现内容的标题。7.根据权利要求6所述的数据处理装置,其中所述计数值是所述内容的再现次数。8.一种数据处理方法,包括:从包括在第一数据集中的多条原始数据中生成哈希数据并且生成要传送到数据提取装置的哈希数据集;以及执行将噪声添加到所述哈希数据的第一噪声添加处理。9.一种数据处理程序,使计算机执行数据处理方法,所述方法包括:从包括在第一数据集中的多条原始数据中生成哈希数据并且生成要传送到数据提取装置的哈希数据集;以及执行将噪声添加到所述哈希数据的第一噪声添加处理。10.一种数据提取装置,包括:噪声去除单元,从哈希数据集中包括的哈希数据中去除噪声,所述哈希数据集是在数据处理装置中通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及数据提取单元,从所述哈希数据集提取预定的哈希数据。11.根据权利要求10所述的数据提取装置,其中,所述哈希数据与对应于所述原始数据的计数值相关联,并且所述数据提取单元基于所述计数值提取所述预定的哈希数据。12.根据权利要求10所述的数据提取装置,其中,将表示由所述数据提取单元提取的所述哈希数据的哈希数据信息传送至所述数据处理装置。13.根据权利要求10所述的数据提取装置,其中,所述噪声去除单元基于被提取的哈希数据的信息从包含在从所述数据处理装置
传送的第二数据集中的所述原始数据中去除噪声,并且所述数据提取单元基于计数值提取从所述第二数据集中去除噪声的原始数据。14.根据权利要求11所述的数据提取装置,其中,所述原始数据是可再现内容的标题。15.根据权利要求14所述的数据提取装置,其中,所述计数值是所述内容的再现次数。16.根据权利要求15所述的数据提取装置,其中,所述数据提取单元按照所述内容的所述再现次数的降序,从所述哈希数据集中提取预定数量的所述哈希数据。17.一种数据提取方法,包括:噪声去除单元,从哈希数据集中包括的哈希数据中去除噪声,所述哈希数据集是在数据处理装置中,通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及数据提取单元,从所述哈希数据集提取预定的哈希数据。18.一种数据提取程序,使计算机执行数据提取方法,所述方法包括:噪声去除单元,从哈希数据集中包括的哈希数据中去除噪声,所述哈希数据集是在数据处理装置中通过对包括在第一数据集中的多条原始数据执行哈希转换处理和噪声添加处理生成;以及数据提取单元,从所述哈希数据集提取预定的所述哈希数据。

技术总结
一种数据处理装置,包括:哈希处理单元,从包括在第一数据集中的多条原始数据中生成哈希数据,并且生成被传送至数据提取装置的哈希数据集;以及噪声添加单元,执行用于将噪声添加至哈希数据的第一噪声添加处理。加至哈希数据的第一噪声添加处理。加至哈希数据的第一噪声添加处理。


技术研发人员:梅田哲士
受保护的技术使用者:索尼集团公司
技术研发日:2021.03.16
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-6902.html

最新回复(0)