英文隐私政策中识别用户数据访问和数据删除权利的方法

专利2023-11-23  118



1.本发明涉及网络安全与隐私政策识别技术领域,特别涉及一种英文隐私政策中识别用户数据访问和删除权利的方法。


背景技术:

2.隐私政策是移动应用app提供给用户的描述隐私相关条款的文档,一般包括用户信息收集、第三方信息分享、用户数据权利管理等内容的描述。app一般会在用户使用过程中收集一些信息数据,包括用户个人身份信息,比如姓名、联系方式等,以及使用app时产生的用户数据,app会使用这些数据对用户进行分析,提供个性化服务。用户通过隐私政策可以了解app会收集哪些信息,通过什么方式收集信息以及第三方信息共享清单等相关隐私信息。用户还可以从隐私政策中了解到app提供给用户哪些数据管理的功能,因此,隐私政策是了解app隐私内容的有力工具。
3.用户数据管理一般指用户在使用app的过程,能够访问、编辑以及删除自己的数据。其中,数据访问功能是指用户在使用app的过程中,能够了解app收集了自己哪些信息,以及使用app过程中产生了哪些数据。app可能提供用户一般的数据访问功能,用户需要按照类别查看相应的信息,app也可能提供数据副本访问的功能,用户请求访问所有数据副本,以获取当前所有的信息数据,这使用户能方便地获取所有的数据。数据编辑功能指用户在使用app过程中,对于某些不正确或过期的个人信息数据,能够进行编辑、更新处理。而数据删除功能,则是用户可能会觉得某些信息数据过于隐私,想要删除这些数据,甚至在使用一段时间之后删除所有数据。亦或是用户不想再继续使用这个app,那么用户就会想删除账户,清除所有的用户数据。上述这些用户数据管理功能可能通过各种方式来执行,比如直接联系企业客服或是直接在应用中执行等。
4.现阶段对于app隐私政策信息提取的相关研究主要都是关于隐私实践,即用户信息收集相关信息内容的提取,例如提取信息收集的类别、目的等等。而关于app隐私政策中用户数据权利识别的研究较少,且大多使用文本分类的方式来识别app隐私政策中声明的权利类型,尤其是对于英文的app隐私政策仅仅依靠文本分类的方式就难以有针对性的准确提取出相关信息。因此,亟需一种用于英文隐私政策中识别用户数据访问和删除权利的方法。


技术实现要素:

5.本技术的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本技术的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
6.针对现有技术中存在的问题与不足,本发明目的在于提供英文隐私政策中识别用户数据访问和删除权利的方法,在信息提取的过程中,采取逐渐细粒度化的方法实现。首先提取相关段落,然后从提取的段落中提取相关句子,用正则表达式匹配的方法判断句子中
包含的权利信息,接着对提取到相关的句子中包含的权利信息进行执行方式的识别,最后执行权利执行方式获得隐私政策中用户数据访问和用户数据删除的权利信息。本发明根据nlp的相关技术,通过结合文本分类与正则表达式匹配的方法来识别句子中的权利信息以及相应的权利执行方式,能以较高的准确率从隐私政策中提取出相关的权利数据信息,用于解决上述背景技术中提出的问题。
7.为实现上述目的,本发明提供如下技术方案:
8.本发明公开一种英文隐私政策中识别用户数据访问和删除权利的方法,主要包括如下步骤:
9.步骤1,获取移动应用app中的隐私政策文本,将所述隐私政策文本经分解切割得到属于用户数据访问、用户数据编辑和用户数据删除类别的段落;
10.步骤2,将所述用户数据访问与用户数据删除类别的段落经分解切割得到用户数据访问和用户数据删除的句子;
11.步骤3,从所述用户数据访问的句子中识别出数据访问权利信息和数据副本请求权利信息;
12.步骤4,从所述用户数据删除的句子中识别出数据删除权利信息和账户删除权利信息;
13.步骤5,根据所述数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息识别其对应的权利执行方式;
14.步骤6,执行所述权利执行方式获得所述隐私政策中用户数据访问和用户数据删除的权利信息。
15.进一步的,步骤1中获取所述移动应用app中隐私政策文本,具体方法为:
16.针对googleplay上多个移动应用app通过python的sprapy框架随机爬取脚本内容,对应获得每个所述移动应用app的数据信息,所述移动应用app的数据信息包括有app类别以及隐私政策文本。
17.进一步的,步骤1中将所述隐私政策文本经分解切割得到属于用户数据访问、用户数据编辑和用户数据删除类别的段落,具体步骤包括:
18.步骤1.1,使用已有标记好的有关用户数据访问和用户数据删除的数据信息作为训练样本数据;
19.步骤1.2,根据所述训练样本数据训练textcnn文本多分类模型;
20.步骤1.3,对于所述隐私政策文本使用所述textcnn文本多分类模型得到所有段落的类别;
21.步骤1.4,保留所述段落中属于用户数据访问、用户数据编辑和用户数据删除类别的段落,将其余段落的类别过滤掉。
22.进一步的,步骤2中将所述用户数据访问与用户数据删除类别的段落经分解切割得到用户数据访问和用户数据删除的句子,具体步骤包括:
23.步骤2.1,利用人工从所述隐私政策文本中提取与用户数据访问和用户数据删除相关的句子,再随机结合无关的句子作为训练数据集;
24.步骤2.2,根据所述训练数据集训练得到两个基于bert的二分文本分类模型,分别为用户访问句子提取模型和用户删除句子提取模型;
25.步骤2.3,针对所述属于用户数据访问、用户数据编辑和用户数据删除类别段落中的每一个句子,使用所述用户访问句子提取模型和用户删除句子提取模型得到相关的句子。
26.进一步的,步骤3中从所述用户数据访问的句子中识别出数据访问权利信息和数据副本请求权利信息,具体表示为:
27.所述数据访问权利信息是从所述用户数据访问相关的句子中识别是否有用户可以访问自己数据的描述,而所述数据副本请求权利信息则是从所述用户数据访问相关的句子中识别是否有用户可以请求自己数据副本的描述;所述数据访问信息句子和数据副本请求信息句子的识别均是通过正则表达式匹配的方法实现。
28.进一步的,步骤4中从所述用户数据删除的句子中识别出数据删除权利信息和账户删除权利信息,具体表示为:
29.所述数据删除权利信息是从所述用户数据删除相关的句子中识别是否有用户可以删除自己数据的描述,而所述账户删除信息句子是从所述用户数据删除相关的句子中识别是否有用户可以删除自己账户的描述;所述账户删除权利信息是通过正则表达式匹配的方法实现,所述账户删除信息句子事先添加词性标注和依存关系作为约束条件,再结合正则表达式匹配的方法实现。
30.进一步的,步骤5中所述权利执行方式包括联系企业客服设置、app设置、网页设置和账户设置,其具体识别步骤为:
31.步骤5.1,判断所述数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息中的动词是否标识为联系企业客服设置;
32.步骤5.2,若是则认为所述联系企业客服设置为其权利执行方式,若否则继续找出所述权利信息状语中所有的介词短语;
33.步骤5.3,通过正则表达式关键词匹配的方法,对应查找所述权利信息对应的关键词,确定其对应的权利执行方式;
34.步骤5.4,将得到的所述权利执行方式与所述权利信息对应绑定。
35.与现有技术相比,本发明的有益效果为:本发明提供一种英文隐私政策中识别用户数据访问和删除权利的方法,本发明方法主要利用nlp相关技术,采取逐渐细粒度化的方法实现相关信息内容的提取。首先得到属于用户数据访问、数据编辑和数据删除类别的段落,在该段落的基础上获得用户数据访问和用户数据删除的句子,再分别对应识别出数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息,而后识别出这些权利信息对应的权利执行方式,最后执行权利执行方式获得隐私政策中用户数据访问和用户数据删除的权利信息。针对英文隐私政策文本的语法特征,通过结合文本分类与正则表达式匹配的方法来识别句子中的权利信息以及相应的权利执行方式,能以较高的准确率从英文的隐私政策文本中提取出相关信息,方便通过隐私政策来了解app提供给用户的数据管理功能情况。
附图说明
36.构成本技术的一部分的附图用来提供对本技术的进一步理解,使得本技术的其它特征、目的和优点变得更明显。本技术的示意性实施例附图及其说明用于解释本技术,并不
构成对本技术的不当限定。
37.在附图中:
38.图1:为本发明实施的英文隐私政策中识别用户数据访问和删除权利方法的主要流程结构图;
39.图2:为本发明实施的英文隐私政策中识别用户数据访问和删除权利方法的主要步骤流程图;
40.图3:为本发明实施的英文隐私政策中识别用户数据访问和删除权利方法中权利执行方式识别流程结构图;
41.图4:为本发明实施的英文隐私政策中识别用户数据访问和删除权利方法中账户删除信息句子添加的依存关系结构图。
具体实施方式
42.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
43.另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
44.本发明公开了一种英文隐私政策中识别用户数据访问和删除权利的方法,下面将参考附图并结合实施例来详细说明本公开。
45.本发明方法主要利用nlp相关技术实现,nlp是计算机自动处理自然语言的一种技术,包括文本分类、语义识别等内容。nlp处理自然文本的第一步一般是将文本表示为计算机可理解的方式,即将文本向量化。文本向量化表示有多种方式,比如词袋模型、主题向量、词向量等。
46.参照图1至2所示,其主要步骤包括:
47.步骤1,获取移动应用app中的隐私政策文本,将隐私政策文本经分解切割得到属于用户数据访问、用户数据编辑和用户数据删除类别的段落;
48.步骤2,将用户数据访问与用户数据删除类别的段落经分解切割得到用户数据访问和用户数据删除的句子;
49.步骤3,从用户数据访问的句子中识别出数据访问权利信息和数据副本请求权利信息;
50.步骤4,从用户数据删除的句子中识别出数据删除权利信息和账户删除权利信息;
51.步骤5,根据数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息识别其对应的权利执行方式;
52.步骤6,执行权利执行方式获得所述隐私政策中用户数据访问和用户数据删除的权利信息。
53.具体而言,隐私政策是呈现给用户的,是描述隐私相关条款的文本。大部分隐私政策文本都很长,包含了很多的段落,也描述了多种类型的隐私条款,包括用户数据收集、第三方信息分享、用户数据使用等等。其中,用于描述用户数据访问与数据删除功能的内容属
于用户数据权利类别,只占用隐私政策文本的小部分篇幅,隐私政策文本中绝大部分的内容是我们不感兴趣的,因此需要过滤掉。因而本发明在信息提取的过程中,采取了逐渐细粒度化的方法。首先获取隐私政策文本,对隐私政策文本切割得到属于用户数据访问、数据编辑和数据删除类别的段落,在该段落的基础上获得用户数据访问和用户数据删除的句子,再分别对应识别出数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息,而后识别出这些权利信息对应的权利执行方式,最后执行权利执行方式获得隐私政策中用户数据访问和用户数据删除的权利信息。
54.获取移动应用app中隐私政策文本,具体为:在googleplay上选择多个移动应用app,通过python 的sprapy框架随机爬取941个脚本内容,对应获得941个移动应用app的数据信息。这个数据信息就包括有app的类别以及隐私政策文本。scrapy爬虫框架是封装起来的框架,它包含了下载器、解析器、日志及异常处理,基于多线程采用twisted的方式处理。sprapy采取可读性更强的xpath代替正则表达式,可同时在不同的url上爬行,独立调试较为方便。
55.在步骤1中,将隐私政策文本经分解切割得到属于用户数据访问、用户数据编辑和用户数据删除类别的段落,其具体步骤包括:
56.步骤1.1,使用已有标记好的有关用户数据访问和用户数据删除的数据信息作为训练样本数据;
57.步骤1.2,根据训练样本数据训练textcnn文本多分类模型;
58.步骤1.3,对于隐私政策文本使用所述textcnn文本多分类模型得到所有段落的类别;
59.步骤1.4,保留段落中属于用户数据访问、用户数据编辑和用户数据删除类别的段落,将其余段落的类别过滤掉。
60.具体而言,段落提取使用了一个textcnn文本多分类模型,是用于做文本分类的卷积神经网络。这个模型的训练样本数据来源于现有的隐私政策的研究,将隐私政策中的文本内容按照段落的粒度划分为 12个大类,详细情况如下表1所示:
61.indexlabel0first party collection/use1third party sharing/collection2user access,edit and deletion3data retention4data security5international and specific audiences6do not track7policy change8user choice/control9introductory/generic10practice not covered11privacy contact information
62.表1
63.从表中可以看出,其中用户数据访问、用户数据编辑和用户数据删除类别的段落是需要被提取的段落,对应表中的user access,edit and deletion段落标签。通过现有的已经标记好的有关用户数据访问和用户数据删除的数据信息作为训练样本数据,训练一个textcnn文本多分类模型。对于获取到的每一个隐私政策文本先做一些处理,再使用这个模型对隐私文本中的每一个段落进行分类,仅保留属于用户数据访问、用户数据编辑和用户数据删除类别的段落,将其余我们不需要的段落过滤掉。
64.进一步而言,卷积神经网络cnn是一种前馈神经网络模型,其在图像处理中应用广泛。textcnn是将cnn模型应用到文本分类任务,这通常也能取得很好的文本分类效果。在隐私政策文本的每个段落中判断是否属于用户数据访问、用户数据编辑和用户数据删除类别的段落,这是一个二分类的任务,而我们这里却使用了textcnn文本多分类模型来识别。这是因为如果训练一个二分类模型,那么容易出现正负样本不均衡的问题,导致模型的识别效果很差。因而改为使用多分类模型可以很好的解决这个问题,可以取得很好的文本分类效果。
65.在步骤2中,将用户数据访问与用户数据删除类别的段落经分解切割得到用户数据访问和用户数据删除的句子,具体步骤包括:
66.步骤2.1,利用人工从隐私政策文本中提取与用户数据访问和用户数据删除相关的句子,再随机结合无关的句子作为训练数据集;
67.步骤2.2,根据训练数据集训练得到两个基于bert的二分文本分类模型,分别为用户访问句子提取模型和用户删除句子提取模型;
68.步骤2.3,针对属于用户数据访问、用户数据编辑和用户数据删除类别段落中的每一个句子,使用用户访问句子提取模型和用户删除句子提取模型得到相关的句子。
69.具体而言,在对隐私政策文本提取到属于用户数据访问、用户数据编辑和用户数据删除类别的段落之后,需要继续从这些段落中提取出相关的句子。这里我们将句子划分成两类,一类是与用户数据访问相关,另一类则是与用户数据删除相关,分别训练两个基于bert的二分文本分类模型来识别这两类句子。由于并没有现存的数据可用于训练这两个分类模型,因而需要人工从隐私政策文本中寻找一些与用户数据访问和用户数据删除相关的句子,再随机结合一些无关的句子作为训练数据集,然后训练出两个基于bert的二分文本分类模型,分别为用户访问句子提取模型和用户删除句子提取模型。前者用于识别是否有与用户数据访问相关的句子,后者则用于识别是否有与用户数据删除相关的句子,得到用户数据访问句子和用户数据删除句子。
70.进一步而言,使用用户访问句子提取模型和用户删除句子提取模型得到相关的句子,我们还可以使用bert文本嵌加一个简单的神经网络分类模型实现,这个简单的神经网络分类模型可以是通过一个全连接层与激活函数实现。由于这个神经网络分类模型很简单,基于bert的优势就已经能取得很好的分类效果。bert也是一种新型的词向量表示模型,它用于nlp相关任务具有很好的效果。文本分类是将文本按照其类型划分成不同的类别,这通常有多种方法去实现,包括传统机器学习与深度神经网络。 bert是一个预训练的语言表征模型,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的方法生成深度的双向语言表征。
71.在步骤3中,从用户数据访问相关的句子中识别出数据访问权利信息和数据副本
请求权利信息,数据访问权利信息是从用户数据访问相关的句子中识别是否有用户可以访问自己数据的描述,而数据副本请求权利信息则是从用户数据访问相关的句子中识别是否有用户可以请求自己数据副本的描述;数数据访问权利信息和据副本请求权利信息的识别均是通过正则表达式匹配的方法实现。
72.具体而言,数据访问权利信息是通过人工观察一些数据访问的表达,一般会有两种常见的表达模式。一种是主动语态:动词+名词,另一种是被动语态:名词+动词。其中动词是表达访问相关的意思,比如 access、review等。名词则是表示信息数据的意思,比如data,information等。使用这两种表达模式,运用正则表达式匹配的方法,可以判断句子是否包含用户可以访问自己数据的描述。
73.数据副本请求权利信息通过人工观察一些描述数据副本请求的表达,发现有以下的一些常见的表达模式:一种是名词性词组,比如:copy of information/data,data portability。另一种是动宾结构,同样有主动与被动语态两种形式,动词有download和export等,名词同样是表示信息数据。结合这些表达模式运用正则表达式匹配的方法,判断句子中是否包用户可以请求自己数据副本的描述。
74.在步骤4中,从用户数据删除相关的句子中识别出数据删除权利信息和账户删除权利信息,数据删除权利信息是从用户数据删除相关的句子中识别是否有用户可以删除自己数据的描述,而账户删除权利信息是从用户数据删除相关的句子中识别是否有用户可以删除自己账户的描述,数据删除权利信息是通过正则表达式匹配的方法实现账户删除权利信息事先添加词性标注和依存关系作为约束条件,再结合正则表达式匹配的方法实现。
75.具体而言,数据删除权利信息通过人工观察一些描述数据删除的表达,发现与用户数据访问类别的匹配模式类似。有动宾结构的主动与被动语态两种表达模式,其中动词包括delete、erase等,名词也是表达信息数据含义的词。另外通过观察,还有另外一种常见的表达模式,即动词的名词化形式,比如 deletion of,erasure of等,of后面都接表示信息数据的名词。综合运用这些表达模式运用正则表达式匹配的方法,判断句子中是否包含有用户可以删除自己数据的描述。
76.账户删除权利信息通过人工观察一些描述账户删除的表达,发现其常见的表达模式比较单一,一般都是使用动宾结构,动词包括delete、terminate等,而宾语则是名词account。但如果直接运用这个表达模式,结合使用正则表达式匹配,则会出现比较多的误匹配。例如,在数据删除的表述中可能会有 delete

data of account这些描述,这是表示删除数据的意思。但是这个表示再匹配上这个正则表达式匹配模式,就会被识别成删除账户的意思,那么这就是个错误匹配。因此需要添加词性标注和依存关系的信息作为约束条件,在使用正则表达式匹配识别删除账户信息时,还需要保证名词account是前面动词的宾语,加上这个限制就可以排除那些误匹配。
77.添加词性信息和依存关系具体为:首先确定相关动词,这根据动词的词性标注为verb来确定。然后根据依存关系dobj确定宾语。由于动词并列结构的存在,那么在依存关系标注中,account可能不是对应动词的直接宾语,而是并列动词结构中最后一个动词的宾语。因此需要遍历并列动词,确定动宾关系。我们使用spacy可以对句子进行词性标注与依存关系分析,spacy是一种流行的nlp处理工具库。词性标注指标注句子中单词的词性,比如动词、名词等。依存关系指单词与单词之间的关系,比如动词与宾语,主语与动词等等之间
的关系。依存关系分析的结果是一棵依存关系树,一般以动词作为根结构。其依存关系的例子如图4所示,动词access是整个依存关系树的根节点,其他单词根据单词之间的关系进行依存关系标注。结合这些表达模式与方法,判断句子中是否包含用户可以删除自己账户的描述。
78.其中,数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息使用的正则表达式匹配方法,其每一种权利信息的匹配模式如下表2所示:
[0079][0080][0081]
表2
[0082]
参照图3所示,步骤5中权利执行方式包括联系企业客服设置、app设置、网页设置和账户设置,权利识别方式具体的步骤为:
[0083]
步骤5.1,判断数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息中的动词是否标识为联系企业客服设置;
[0084]
步骤5.2,若是则认为联系企业客服设置为其权利执行方式,若否则继续找出权利信息状语中所有的介词短语;
[0085]
步骤5.3,通过正则表达式关键词匹配的方法,对应查找权利信息对应的关键词,确定其对应的权利执行方式;
[0086]
步骤5.4,将得到的权利执行方式与权利信息对应绑定。
[0087]
具体而言,在隐私政策中有两种常见的句式表达,一种是权利执行方式位于方式状语中,另一种则是句子中动作表示权利执行方式。联系企业客服设置是最常见的用户数据权利执行方式,除了联系企业客服设置这种权利执行方式之外,还有app设置、网页设置以及账户设置这三种权利执行方式。我们发现在隐私政策中,后三种权利执行方式的句式表达主要都是方式状语的形式,我们观察每一种权利执行方式的方式状语表达,总结出每一种权利执行方式的关键词表,关键词表信息如表3所示:
[0088]
权利执行方式关键词联系企业客服设置email,contact,write to,callapp设置app,application网页设置website,web
账户设置account,profile
[0089]
表3
[0090]
根据上述内容,我们按照下述方法识别句子中的权利执行方式信息。对于一个包含数据权利描述的句子,我们首先判断它的动词是否是contact或email,这都是表示联系企业客服设置。如果动词是这两个动词之一,则我们认为句子中包含联系企业客服这种权利执行方式的描述。如果动词不满足匹配条件,则我们需要继续找出句子的状语中所有介词短语,对于每一个介词短语,我们使用正则表达式关键词匹配的方法,查找每一种权利执行方式对应的关键词是否在其中。如果存在,认为句子包含对应的权利执行方式信息。最后将句子中识别出来的权利执行方式与句子中提取的数据权利信息对应绑定起来。
[0091]
在确定如何识别每一种权利类型信息以及权利执行方式之后,我们就可以来识别句子中包含的数据权利信息。对于用户数据访问的句子,我们可以首先匹配获得数据访问权利信息,接着匹配获得数据副本请求权利信息。对于用户数据删除的句子,我们可以先匹配获得数据删除权利信息,再匹配获取账户删除权利信息。对隐私政策文本中经过句子提取后的权利信息进行数据权利类型提取,如果句子包含数据权利信息的描述,那就继续使用权利执行方式识别的方法识别句子包含的权利执行方式声明,就可以获得整个隐私政策声明的用户数据访问和用户数据删除的权利信息。
[0092]
实验结果
[0093]
为了验证方法的准确率人工选择了80个移动应用app,阅读了它们的隐私政策。对于每一个隐私政策,提取出数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息这四种权利信息以及执行方式信息,将这80个移动应用app的信息汇总作为测试数据。运用方法对这些 app的隐私政策进行自动化的信息提取,将提取结果与测试数据进行比对。
[0094]
数据权利类型识别准确率实验结果如下表4所示:
[0095]
数据权利类型准确率数据访问权利信息90%数据副本请求权利信息92.5%数据删除权利信息88.8%账户删除权利信息96.3%
[0096]
表4
[0097]
权利执行方式识别准确率结果如表5所示:
[0098] 数据访问数据删除联系企业客服设置89.6%90.5%app设置95.8%93.5%网页设置100%98.4%账户设置91.7%91.9%
[0099]
表5
[0100]
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其
等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

技术特征:
1.一种英文隐私政策中识别用户数据访问和数据删除权利的方法,其特征在于,主要包括如下步骤:步骤1,获取移动应用app中的隐私政策文本,将所述隐私政策文本经分解切割得到属于用户数据访问、用户数据编辑和用户数据删除类别的段落;步骤2,将所述用户数据访问与用户数据删除类别的段落经分解切割得到用户数据访问和用户数据删除的句子;步骤3,从所述用户数据访问的句子中识别出数据访问权利信息和数据副本请求权利信息;步骤4,从所述用户数据删除的句子中识别出数据删除权利信息和账户删除权利信息;步骤5,根据所述数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息识别其对应的权利执行方式;步骤6,执行所述权利执行方式获得所述隐私政策中用户数据访问和用户数据删除的权利信息。2.根据权利要求1所述的一种英文隐私政策中识别用户数据访问和数据删除权利的方法,其特征在于,步骤1中获取所述移动应用app中隐私政策文本,具体方法为:针对googleplay上多个移动应用app通过python的sprapy框架随机爬取脚本内容,对应获得每个所述移动应用app的数据信息,所述移动应用app的数据信息包括有app类别以及隐私政策文本。3.根据权利要求2所述的一种英文隐私政策中识别用户数据访问和数据删除权利的方法,其特征在于,步骤1中将所述隐私政策文本经分解切割得到属于用户数据访问、用户数据编辑和用户数据删除类别的段落,具体步骤包括:步骤1.1,使用已有标记好的有关用户数据访问和用户数据删除的数据信息作为训练样本数据;步骤1.2,根据所述训练样本数据训练textcnn文本多分类模型;步骤1.3,对于所述隐私政策文本使用所述textcnn文本多分类模型得到所有段落的类别;步骤1.4,保留所述段落中属于用户数据访问、用户数据编辑和用户数据删除类别的段落,将其余段落的类别过滤掉。4.根据权利要求3所述的一种英文隐私政策中识别用户数据访问和数据删除权利的方法,其特征在于,步骤2中将所述用户数据访问与用户数据删除类别的段落经分解切割得到用户数据访问和用户数据删除的句子,具体步骤包括:步骤2.1,利用人工从所述隐私政策文本中提取与用户数据访问和用户数据删除相关的句子,再随机结合无关的句子作为训练数据集;步骤2.2,根据所述训练数据集训练得到两个基于bert的二分文本分类模型,分别为用户访问句子提取模型和用户删除句子提取模型;步骤2.3,针对所述属于用户数据访问、用户数据编辑和用户数据删除类别段落中的每一个句子,使用所述用户访问句子提取模型和用户删除句子提取模型得到相关的句子。5.根据权利要求4所述的一种英文隐私政策中识别用户数据访问和数据删除权利的方法,其特征在于,步骤3中从所述用户数据访问的句子中识别出数据访问权利信息和数据副
本请求权利信息,具体表示为:所述数据访问权利信息是从所述用户数据访问相关的句子中识别是否有用户可以访问自己数据的描述,而所述数据副本请求权利信息则是从所述用户数据访问相关的句子中识别是否有用户可以请求自己数据副本的描述;所述数据访问信息句子和数据副本请求信息句子的识别均是通过正则表达式匹配的方法实现。6.根据权利要求5所述的一种英文隐私政策中识别用户数据访问和数据删除权利的方法,其特征在于,步骤4中从所述用户数据删除的句子中识别出数据删除权利信息和账户删除权利信息,具体表示为:所述数据删除权利信息是从所述用户数据删除相关的句子中识别是否有用户可以删除自己数据的描述,而所述账户删除信息句子是从所述用户数据删除相关的句子中识别是否有用户可以删除自己账户的描述;所述账户删除权利信息是通过正则表达式匹配的方法实现,所述账户删除信息句子事先添加词性标注和依存关系作为约束条件,再结合正则表达式匹配的方法实现。7.根据权利要求6所述的一种英文隐私政策中识别用户数据访问和数据删除权利的方法,其特征在于,步骤5中所述权利执行方式包括联系企业客服设置、app设置、网页设置和账户设置,所述权利识别方式具体的步骤为:步骤5.1,判断所述数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息中的动词是否标识为联系企业客服设置;步骤5.2,若是则认为所述联系企业客服设置为其权利执行方式,若否则继续找出所述权利信息状语中所有的介词短语;步骤5.3,通过正则表达式关键词匹配的方法,对应查找所述权利信息对应的关键词,确定其对应的权利执行方式;步骤5.4,将得到的所述权利执行方式与所述权利信息对应绑定。

技术总结
本发明公开一种英文隐私政策中识别用户数据访问和数据删除权利的方法,本发明方法主要利用NLP相关技术,采取逐渐细粒度化提取信息内容。先从隐私政策文本中得到属于用户数据访问、数据编辑和数据删除类别的段落,从这些段落中获得用户数据访问和用户数据删除的句子,再分别对应识别出数据访问权利信息、数据副本请求权利信息、数据删除权利信息以及账户删除权利信息,根据权利信息识别出其对应的权利执行方式,最后实施权利执行方式获得隐私政策中用户数据访问和用户数据删除的权利信息。通过结合文本分类与正则表达式匹配的方法来识别句子中的权利信息以及相应的权利执行方式,方便通过隐私政策来了解APP提供给用户的数据管理功能情况。数据管理功能情况。数据管理功能情况。


技术研发人员:姚聪聪 华景煜 仲盛
受保护的技术使用者:南京大学
技术研发日:2022.05.17
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-6577.html

最新回复(0)