基于模式的分类的制作方法

专利2024-12-20  38


基于模式的分类


背景技术:

1.本文档涉及交互数据序列的数据处理和基于模式的分类。


技术实现要素:

2.通常,本说明书中描述的主题的一个创新方面可以体现在一种用于对交互数据序列进行分类的方法中,该方法包括接收交互数据,所述交互数据对于在客户端设备处发生的多个交互中的每个给定交互,指示(i)事件类型和(ii)指定所述给定事件与所述给定事件之前发生的先前事件之间的时间量的延迟周期,将每个给定交互编码为具有标准化格式的编码的交互,所述标准化格式是(i)所述给定交互的事件类型和(ii)由所述给定交互的交互数据指定的延迟周期的组合,生成包括编码交互序列的交互签名,使用经过训练的模型处理所述编码交互序列,以将用户交互序列分类为有效或无效,包括使用所述模型将编码交互序列分类为无效,并防止响应于随后识别的向所述实体提供内容的请求将一组内容分发给执行所述编码交互序列的实体。
3.这些和其他实施例可以各自可选地包括以下特征中的一个或多个。
4.在一些实现方式中,循环神经网络是长短期记忆(lstm)网络。
5.在一些实现方式中,防止分发一组内容包括制止向实体提供指定类型的内容。
6.在一些实现方式中,防止分发一组内容包括包括暂时防止将内容分发到对应于实体的一个或多个设备。
7.在一些实现方式中,该方法包括识别对应于被分类为无效的编码交互序列的内容分发日志的结果条目并且使对应于被分类为无效的编码交互序列的结果条目无效。
8.在一些实现方式中,使对应于所述编码交互序列的结果条目无效包括从存储器中删除所述结果条目。
9.在一些实现方式中,接收所述交互数据包括为给定实体收集对应于与内容的多个不同部分的交互的多组交互数据,生成交互签名包括为对应于与内容的每个不同部分的交互的每组交互数据生成单独的交互签名,并且该方法包括基于分配给每组交互数据的标签或分配给聚合中的多组交互数据的聚合标签,将所述给定实体分类为实际用户或自动化机器人,其中防止分发所述一组内容包括当所述给定实体被分类为所述自动化机器人时防止分发所述一组内容。
10.该方面的其他实施例可以包括相应的系统、装置和计算机程序,其被配置为执行编码在计算机存储设备上的方法的动作。
11.可以实施本文档中描述的主题的特定实施例以实现以下优点中的一个或多个。可以基于事件序列内的实体行为模式来执行在线活动的评估和/或分类。实体包括例如用户、组织、内容提供者、内容发布者和公司。一般来说,在线活动分类方法使用概率规则来对状态转换进行建模,但是是线性的并且仅限于分析短期影响。例如,现有方法可以使用基于马尔可夫链的模型对序列信息进行分类,但马尔可夫链通常受限于可以考虑的后退步数。此外,马尔可夫链无法解决链中链接之间交互的非线性效应。
12.本文描述的方法提供了一种使用序列信息和上下文信息的改进的活动分类方法,从而避免了现有方法的缺点,这些方法不适用于不同长度或在序列内具有复杂的交互的序列。具体而言,该方法使用将与实体相关的特定活动事件序列分类为有效或无效的模型,并使用分类来通知是否或如何基于分类调整对实体的内容分发。例如,如果事件由恶意软件或恶意第三方执行或在其影响下执行,则一系列活动事件可能是无效的。在另一个示例中,如果行为不符合用户或用户类型的特性,或者如果该序列不可能由人类执行(例如,所执行的交互类型对执行它们的人类来说发生得太快),则一系列活动事件可能是无效的。通过减少或完全消除向被识别为执行无效序列或与无效序列相关联的实体的内容分发,该方法减少了将内容分发给易于发生无效交互的实体所花费的资源量,并且更有效地跨网络提供内容——该方法防止将内容分发给实际上并未查看内容的实体。换言之,诸如网络带宽、处理器周期和/或分配的存储器之类的计算资源不会通过使用这些资源来将内容分发给实际上没有查看内容的实体而被浪费。
13.此外,所描述的方法可以包括响应于被标记为无效的编码交互序列而追溯地使内容分发日志内的条目无效。然后可以从存储器中删除这些无效条目,从而减少内容分发系统使用的存储器量。
14.例如,所描述的方法可以提供增强的垃圾邮件过滤器,其从高风险访问捕获广告或查看计数;通过使用聚合中的预测分数来评估流量质量,提高流量质量分数;通过在实体级别聚合预测分数以及使用预测分数来过滤和更改分发参数等其他应用来提高实体风险分数。
15.所描述的方法结合了仅使用与实体相关的交互序列的事件级特征和使用与实体相关的交互序列的聚合特征的模型的优点。通过使用深度神经网络将交互数据输入到序列模型来使用上下文信息。为了解释的简单,以下描述是针对循环神经网络(rnn)提供的,rnn是一种经常用于诸如自然语言处理等应用的深度神经网络。然而,考虑使用深度神经网络的各种其他类型的序列模型,包括transformer神经网络和来自transformer(bert)的双向编码器表示。通过处理用户在访问中的行为或编码事件序列,该方法允许在序列中的事件内和事件之中获取上下文信息,以告知序列的分类。rnn尤其为该方法提供了与变化长度序列一起使用的灵活性,并且可以共享在序列的不同位置上学习到的特征,这是使用标准神经网络无法获得的。
16.下面的讨论还详述了优化标准模型训练技术的几种技术,以训练基于模式的在线活动分类系统。如下所述,这些技术包括在线活动编码(例如,使用标准化格式)、深度神经网络和弱监督,以提高基于用户行为模式训练模型的能力,减轻获得手工标记的数据集的负担并允许针对特定实体定制模型,而不会产生让人类专家为每个模型标记训练数据集的成本。
17.除了提高训练模型的质量之外,这些技术还减少了要跨通信信道传输的数据量,例如,如果实体执行无效序列,则避免将数字组件传输到实体的客户端设备。这减少了花费在不太可能成为内容的合法消费者的实体上的资源量。此外,该模型可以应用于实时在线流量(例如,预测将特定数字组件传输到特定实体导致的结果)。
18.本说明书中描述的主题的一个或多个实施例的细节在附图和以下说明书中阐述。本主题的其他特征、方面和优点将从说明书、附图和权利要求中变得显而易见。
附图说明
19.图1是用于基于模式的活动分类的示例环境的框图。
20.图2描绘了对活动序列进行分类的基于模式的方法的数据流。
21.图3描绘了活动序列的编码过程。
22.图4是用于基于模式的活动分类的示例过程的流程图。
23.图5是示例计算系统的框图。
24.不同附图中相同的附图标记和名称表示相同的元件。
具体实施方式
25.本文档描述了改进将活动序列分类为有效或无效,并基于分类优化数字组件到实体的传输的方法、系统和设备。
26.基于模式的数字组件传输优化利用在线活动的模式来调整如何将数字组件提供给客户端设备。在一些实现方式中,在线活动的评估要求在线活动被编码成可用于在弱监督的情况下训练rnn模型(例如,预测模型或提供事后质量估计的模型)的编码的交互事件序列。请注意,下面的大部分讨论都涉及预测分析,但下面描述的技术也适用于质量的事后确定。
27.如下文详细描述的,该模型使用深度神经网络并使用弱监督进行训练。该模型将编码的事件序列分类为有效或无效。模型的分类可以用于各种目的,例如基于数字组件被传输到客户端设备的会话的分类来调整数字组件的分发标准,响应于客户端设备提交的特定查询确定是否应该将特定数字组件传输到客户端设备,并调整对应于过去交互的日志的结果条目,以及其他应用。
28.图1是用于高效、动态视频编辑和渲染的示例环境100的框图。示例环境100包括网络102,例如局域网(lan)、广域网(wan)、因特网或其组合。网络102连接电子文档服务器104(“电子文档服务器”)、用户设备106和数字组件分发系统110(也称为dcds 110)。示例环境100可以包括许多不同的电子文档服务器104和用户设备106。
29.用户设备106是能够通过网络102请求和接收资源(例如,电子文档)的电子设备。示例用户设备106包括个人计算机、可穿戴设备、智能扬声器、平板设备、移动通信设备(例如,智能电话)、智能电器和可以通过网络102发送和接收数据的其他设备。在一些实现方式中,用户设备可以包括向用户输出可听信息的扬声器和接受来自用户的可听输入(例如,口语输入)的麦克风。用户设备还可以包括提供交互式语音界面的数字助理,用于提交输入和/或接收响应于输入提供的输出。用户设备还可以包括用于呈现视觉信息(例如,文本、图像和/或视频)的显示器。用户设备106通常包括用户应用,例如网络浏览器,以促进通过网络102发送和接收数据,但是由用户设备106执行的本地应用也可以促进通过网络102发送和接收数据。
30.一个或多个第三方130包括内容提供商、产品设计者、产品制造商以及参与视频、产品和/或服务的设计、开发、营销或分发的其他方。
31.电子文档是在用户设备106处呈现一组内容的数据。电子文档的示例包括网页、文字处理文档、便携式文档格式(pdf)文档、图像、视频、搜索结果页面和馈送源。本地应用(例如,“应用程序”),例如安装在移动、平板计算机或桌面计算设备上的应用也是电子文档的
示例。电子文档105(“电子文档”)可以由电子文档服务器104提供给用户设备106。例如,电子文档服务器104可以包括托管发布者网页的服务器。在该示例中,用户设备106可以启动对给定发布者网页的请求,并且托管给定发布者网页的电子文档服务器104可以通过发送启动在用户设备106处呈现给定网页的机器超文本标记语言(html)代码来响应该请求。
32.电子文档可以包括多种内容。例如,电子文档105可以包括在电子文档本身内和/或不随时间改变的静态内容(例如,文本或其他指定内容)。电子文档还可以包括动态内容,这些内容可能会随着时间或根据每个请求而改变。例如,给定电子文档的发布者可以维护用于填充电子文档的部分的数据源。在该示例中,给定电子文档可以包括标签或脚本,当给定电子文档由用户设备106处理(例如,呈现或执行)时,该标签或脚本使用户设备106从数据源请求内容。用户设备106将从数据源获得的内容集成到给定电子文档的呈现中以创建包括从数据源获得的内容的复合电子文档。
33.在一些情况下,给定电子文档可以包括引用dcds 110的数字内容标签或数字内容脚本。在这些情况下,当给定电子文档由用户设备106处理时数字内容标签或数字内容脚本由用户设备106执行。数字内容标签或数字内容脚本的执行配置用户设备106以生成对数字内容的请求108,该请求通过网络102传输到dcds 110。例如,数字内容标签或数字内容脚本可以使用户设备106能够生成包括报头和有效载荷数据的分组数据请求。请求108可以包括诸如从其请求数字内容的服务器的名称(或网络位置)、请求设备(例如,用户设备106)的名称(或网络位置)和/或dcds 110可以用来选择响应于请求而提供的数字内容的信息。请求108由用户设备106通过网络102(例如,电信网络)传输到dcds 110的服务器。
34.请求108可以包括指定电子文档和可以呈现数字内容的位置的特性的数据。例如,指定对其中将呈现数字内容的电子文档(例如网页)的引用(例如,url)的数据,可用于呈现数字内容的电子文档的可用位置(例如,数字内容槽)、可用位置的大小、可用位置在电子文档的呈现内的位置、和/或有资格在这些位置中呈现的媒体类型可以被提供给dcds 110。类似地,指定针对电子文档(“文档关键字”)或电子文档引用的实体(例如,人、地点或事物)的选择的关键字的数据也可以被包括在请求108中(例如,作为有效载荷数据)并被提供给dcds 110以便于识别有资格与电子文档一起呈现的数字内容项目。
35.请求108还可以包括与其他信息相关的数据,例如用户提供的信息、指示提交请求的州或地区的地理信息、或提供将显示数字内容(例如,将显示数字内容的设备类型,例如移动设备或平板设备)所在环境的上下文的其他信息。用户提供的信息可以包括用户设备106的用户的人口统计数据。例如,人口统计信息可以包括年龄、性别、地理位置、教育水平、婚姻状况、家庭收入、职业、爱好、社交媒体数据以及是否用户拥有特定的项目,以及其他特性。
36.对于此处讨论的系统收集有关用户的个人信息或可能利用个人信息的情况,可以向用户提供控制程序或特征是否收集个人信息(例如,有关用户的社交网络、社交行为或活动、职业、用户偏好或用户当前位置的信息),或控制是否和/或如何从可能与用户更相关的内容服务器接收内容的机会。此外,某些数据可能会在存储或使用之前以一种或多种方式匿名化,从而删除个人身份信息。例如,用户的身份可能是匿名的,因此无法确定用户的个人身份信息,或者用户的地理位置可能会在获得位置信息的地方被概括(例如城市、邮政编码或州级别),从而无法确定用户的特定位置。因此,用户可以控制如何收集关于他或她的
信息并由内容服务器使用。
37.还可以在请求108中提供指定用户设备106的特性的数据,例如识别用户设备106的型号、用户设备106的配置或呈现电子文档的电子显示器(例如,触摸屏或桌面显示器)的尺寸(例如,物理尺寸或分辨率)的信息。请求108可以例如通过分组网络传输,并且请求108本身可以被格式化为具有报头和有效载荷数据的分组数据。报头可以指定分组的目的地,而有效载荷数据可以包括上面讨论的任何信息。
38.dcds 110响应于接收到请求108和/或使用包括在请求108中的信息来选择将与给定电子文档一起呈现的数字内容。在一些实现方式中,dcds 110在分布式计算系统(或环境)中实现,包括例如服务器和一组多个计算设备,它们被互连并响应于请求108识别和分发数字内容。这组多个计算设备一起操作以识别一组数字内容,其有资格在数百万或更多可用数字内容的语料库中的电子文档中呈现。例如,数百万或更多的可用数字内容可以在数字组件数据库112中被索引。每个数字内容索引条目可以引用相应的数字内容和/或包括调节相应的数字内容的分发的分发参数(例如,选择标准)。
39.在一些实现方式中,来自数字组件数据库112的数字组件可以包括由第三方130提供的内容。例如,数字组件数据库112可以从使用机器学习和/或人工智能以导航公共街道的第三方130接收公共路口的照片。
40.可以将合格数字内容的识别分割成多个任务,然后在该组多个计算设备内的计算设备之中分配这些任务。例如,不同的计算设备可以各自分析数字组件数据库112的不同部分以识别具有与请求108中包括的信息匹配的分发参数的各种数字内容。
41.dcds 110聚合从该组多个计算设备接收的结果并使用与聚合结果相关联的信息来选择将响应于请求108而提供的数字内容的一个或多个实例。然后,dcds 110可以通过网络102生成和传输回复数据114(例如,表示回复的数字数据),该回复数据114使得用户设备106能够将选择的该组数字内容集成到给定电子文档中,使得选择的该组数字内容和电子文档的内容一起被呈现在用户设备106的显示器上。
42.编码器120接收交互或事件数据并将数据编码成标准化格式。该编码的交互数据被提供给分类模型124。编码器130可以从各种源接收交互数据,包括用户设备106、第三方130和dcds 110本身。
43.训练模块122使用包括rnn和弱监督的机器学习技术训练一个或多个分类模型116以生成训练数据。
44.分类模型124接收编码的交互数据并输出由编码的交互数据表示的事件序列是有效还是无效的分类。
45.为了便于解释,图1中示出了编码器120、训练模块122和分类模型124作为dcds 110的单独组件。dcds 110可以被实现为非暂时性计算机可读介质上的单个系统。在一些实现方式中,编码器120、训练模块122和分类模型124中的一个或多个可以实现为单个系统的集成组件。dcds 110、其组件编码器120、训练模块122和分类模型124,以及它们各自的功能和输出在下文参考活动序列的基于模式的分类进一步详细描述。
46.图2示出了在图1的示例环境中对活动序列进行分类的基于模式的方法的示例数据流200。数据流200的操作由系统100的各种组件执行。例如,数据流200的操作可以由与用户设备106通信的dcds 110的编码器120、训练模块122和分类模型124执行。
47.流程开始于步骤a,其中编码器120接收交互数据。编码器120可以从各种源接收交互数据,包括用户设备106和dcds 110本身。交互数据指示由特定实体执行的活动。例如,智能电话106上的用户可以点击视频来播放视频。在一些实现方式中,实体可以是伪装成智能电话106的用户的恶意软件或恶意第三方。编码器120将从智能电话106接收指示用户点击视频的交互数据。交互数据提供事件的详细信息,包括交互的类型和交互发生的时间。例如,交互数据可以包括时间戳、事件类型和执行事件的实体。交互数据可以包括其他特征,包括由网络浏览器或实体本身提供的数据。例如,用户可以允许智能电话106提供用户简档信息。在另一个示例中,用户的浏览器或用户正在访问的网站可能会提供包括ip地址、cookie id和其他浏览器或cookie相关信息的信息。
48.流程继续步骤b,其中编码器120对交互数据进行编码。编码器120以标准化格式输出编码的交互数据。这个编码过程的细节在下面关于图3提供。
49.编码器120可以将交互数据编码成每次访问或会话的交互序列。访问是由单个实体进行的一组交互。会话可以是有时间限制的和/或可以基于一个或多个条件的发生而结束。例如,会话可以基于检测到同一实体在不同设备上的交互、在阈值时间段内没有任何交互或活动以及网络连接丢失或网络状态改变以及其他条件而结束。会话可以包括跨不同浏览器或设备的活动。会话可能包含多次访问。例如,同一个用户可能会使用他们的智能电话、笔记本计算机或联网电视访问网站,每一个都会导致不同的访问,但也可能是同一会话的一部分。编码器120可以将每个单独的事件编码为“词”,并将每个访问编码为编码事件序列(例如,词)以形成“句子”。在本说明书的上下文中,“词”表示编码的交互,“句子”或编码事件序列表示交互签名。通过将句子中的事件分组在一起,编码器120允许分类模型124使用同一访问内的事件之间的关系和相似性对数据进行分类。
50.此外,通过按访问对事件进行分组,分类模型124可以检测由不同实体在单个会话内执行的活动。例如,单个用户会话可能是自然访问和恶意软件驱动或劫持访问的混合。因为事件是按访问分组的,所以分类模型124可以将由恶意软件控制的隐藏浏览窗口处理为具有与特定用户执行的其他访问不同的分类的不同访问。
51.在一些实现方式中,编码器120包括多个编码器,每个编码器维护特定实体的事件序列。在一些实现方式中,编码器120可以维护多个单独的线程,使得编码器120接收各种实体的交互数据。编码器120然后可以将交互数据编码成同一访问内的交互序列。
52.流程继续进行步骤c,其中编码器120将编码的交互数据提供给分类模型124和训练模块122。编码器120以标准化格式将编码的交互数据输出给分类模型124和训练模块122。在一些实现方式中,编码器120将编码的交互数据逐词地提供给分类模型124,识别每个编码的交互事件在其中发生的访问。在一些实现方式中,编码器120以句子的形式将编码的交互数据提供给分类模型124。
53.训练模块122使用编码的数据来生成训练数据,该训练数据用于训练诸如分类模型124之类的模型。对于各种示例,例如无效访问,地面实况训练标签可能不存在或可能是稀疏的。在一些实现方式中,dcds 110使用弱监督技术来训练模型,即使具有有限的地面实况训练标签。dcds 110可以使用由例如人类专家创建的一组标签函数;推断每个标签的标签函数的准确性;然后将多个标签函数生成的标签组合成每个数据点的概率标签,以用作训练标签。
54.在一些实现方式中,用户可以指定足够训练数据的组成。例如,用户可以指定编码的交互的最小数量、执行交互的不同实体的最小数量、人工手动生成的地面实况训练标签的数量以及其他训练数据参数。例如,用户可以指定,对于特定系统,足够的训练数据的组成包括最少100个编码的交互、执行这些编码的交互的最少5个不同实体以及最少20个地面实况训练标签。
55.在一些实现方式中,训练模块122可以基于包括预期可用数据量的信息自动确定和调整每个训练数据参数。在一些实现方式中,必须随机选择实体和编码的交互。在一些实现方式中,实体和编码的交互可以从交互和/或实体的训练集中提取。
56.训练模块122可以使用流水线,该流水线基于例如对特定事件的投票为每个标签函数输出估计的准确度。在一些实现方式中,训练模块122基于事件与先前事件之间的时间量将事件分组到桶中。桶可用于轻松区分有效和无效序列。训练模块122可以裁剪或调整桶的边界以在有效和无效序列之间划定。不同类型的事件可能采用不同的时间量,不同的用户在事件之间可能采用不同的时间量。训练模块122可以基于事件与先前事件(例如,对于特定类型的事件)之间的时间来调整桶的边界。
57.可以将训练标签作为示例而不是地面实况示例提供给训练模块210作为输入以在这个特定示例中训练基于rnn的分类模型124。分类模型124是长短期记忆模型(lstm)并且适用于变化长度的序列。因为分类模型124是lstm模型,它还可以解释访问中事件之间的非线性交互。示例可以是正面的示例,或负面的示例。训练模块122可以使用训练标签来验证分类模型124的模型输出并继续训练模型以提高模型对活动事件序列进行分类的准确性。
58.训练模块122使用推理输入数据执行推理,生成除了分类之外的每次访问的预测分数。预测分数在语义上是指示访问无效的概率的风险分数。训练模块122维护其风险分数高于阈值的访问日志。在一些实现方式中,阈值是基于在运行时可用于分类模型的模型评估统计来选择的。例如,阈值可以是90%。在一些实现方式中,阈值被选择为在所使用的评估统计中可用的最大精度。
59.训练模块122使用损失函数训练分类。损失函数计算模型误差,并且训练模块122使用损失函数和用训练标签标记的示例来训练分类模型124以了解哪些变量对于模型是重要的。训练模块122允许分类模型124通过改变应用于不同变量的权重来学习以强调或不强调模型内变量的重要性。改变应用于变量的权重允许分类模型124了解哪些类型的信息应该被更大地加权以产生更准确的分类。例如,训练模块122使用损失函数,该损失函数对与具有较高置信度的标签的偏差的惩罚大于与具有较低置信度的标签的偏差的惩罚,从而为模型提供了对于具有较低置信度的标签的“怀疑的好处”。使用这种弱监督方法,分类模型124能够更好地协调噪声数据。
60.在一些实现方式中,训练模块122使用概率标记的数据作为训练数据和尚未被标记为分类模型124的输入的数据,使得在模型训练期间不使用被用作分类模型124的输入的数据,直到输入数据已被分类之后。
61.分类模型124使用编码的交互数据作为输入数据并产生交互数据表示的活动是有效还是无效的分类。
62.流程继续进行步骤d,其中分类模型124将由编码的交互数据表示的活动分类为有效或无效。
63.分类模型124可以是例如在一定程度上被个性化的“鞋码”模型。例如,dcds 110可以为特定年龄段的人、纽约人、喜欢视频而不是文本文章的人等使用通用简档。此外,每个模型都可以被个性化。例如,可以通过基于从收集的数据确定的每个用户的特性改变模型参数,从通用模型创建每个模型。对于特定用户,每个模型可以在很长的时间段和很短的时间段内有所不同。例如,dcds 110可以确定与特定访问相关联的实体的行为简档并基于实体的行为简档调整分类模型。在一些实现方式中,每个模型也可以从已经使用通用简档被个性化并为每个用户进一步改变的模型加以创建。例如,可以通过基于从收集的数据确定的每个用户的特性改变模型参数来创建模型。
64.在一些实现方式中,可以在不使用基础模型的情况下对模型进行个性化。例如,用户响应数据可以被输入到模型生成器126并被提供给产品设计者、制造商或设计程序以被映射到产品配置而无需调整。在一个示例中,模型生成器126允许用户立即购买特定物品或在特定物品可用时设置警报。
65.流程继续进行到步骤e,其中分类模型124向dcds 110输出对活动是有效还是无效的确定。
66.分类模型124向dcds 110提供活动是有效还是无效的输出。dcds 110使用分类来调整向执行序列的实体分发内容的频率。例如,dcds 110可以防止响应于随后识别的向实体提供内容的请求将一组内容分发给执行编码交互序列的实体。在一些实现方式中,dcds 110可以降低向实体分发内容的频率。在一些实现方式中,dcds 110可以制止向实体提供指定类型的内容。例如,dcds 110可以制止向不太可能实际观看视频的用户提供视频内容,从而通过不提供实际上不会被观看的视频来减少浪费的带宽、处理器周期、存储器使用和/或显示驱动器能力。
67.在一些实现方式中,dcds 110可以制止将内容分发到对应于实体的设备。例如,dcds 110可以基于在智能电话上执行的被确定为由恶意软件执行的活动序列来制止向用户的智能电话分发内容,但可以继续向用户的笔记本计算机分发内容。这种类型的分发限制可以减少浪费的计算资源,否则这些资源将被用于将内容分发到用户的智能电话,同时仍然能够将内容分发到用户的笔记本计算机。以这种方式限制内容的分发防止了资源的浪费,如上所述,同时仍然能够将内容提供给更可能被用户实际观看的特定类型的设备。
68.在另一个示例中,dcds 110可以基于在被确定为无效的位置处的计算机之一上执行的活动序列来制止将内容分发到特定位置处的公司的计算机。在一些实现方式中,dcds 110可以通过分析内容分发日志的结果条目、使对应于被分类为无效的活动序列的结果条目无效以及从存储器中移除无效的结果条目来节省存储器资源。dcds 110通过移除无效的结果条目来释放资源(例如,存储器),并且可以帮助维护准确的记录。例如,这些记录可以是用于维护内容分发系统和补偿内容提供者或主机的记录。
69.流程继续进行步骤f,其中dcds 110从用户设备106接收对包括实体信息的内容的请求。例如,dcds 110可以从用户设备106的用户接收请求108。
70.流程以步骤g结束,其中dcds 110基于与用户设备106的用户相关联的活动序列无效的确定来确定制止向用户设备106的用户分发内容。在一些实现方式中,dcds 110防止分发请求108中请求的内容所包括的数字组件。在一些实现方式中,dcds 110防止分发请求108中请求的内容和数字组件两者。
71.图3描绘了活动序列的编码过程300。在一些实现方式中,过程300可以由一个或多个系统执行。例如,过程300可以由图1-2的编码器120、训练模块122、分类模型124、dcds 110和/或用户设备106来实现。在一些实现方式中,过程300可以被实现为被存储在非暂时性计算机可读介质上的指令,并且当指令由一个或多个服务器执行时,指令可以使一个或多个服务器执行过程300的操作。
72.编码器120接收与实体相关联的交互信息302。例如,交互信息可以是如上面关于图1-2所描述的交互信息。在该特定示例中,交互信息302指示事件304发生的时间和事件304的事件类型。事件类型可以包括例如内容视频回放、数字组件开始事件、搜索、可跳过-或可选-数字组件回放、新访问、点击数字组件、不可跳过-或非可选-数字组件回放、参与内容(例如喜欢、不喜欢或评论以及其他类型的参与活动)、以搜索开始的新访问、新的嵌入访问或以参与活动开始的新访问、对搜索结果链接的点击、对建议的点击以及其他事件类型。例如,用户可以在搜索引擎上进行搜索,点击链接将被引导至网页或应用程序;这些事件类型可以分别分类为点击搜索结果或启动新应用。
73.每个事件304发生在由该事件304的时间戳指示的特定时间。编码器120可以基于特定事件的时间戳确定与访问中的先前事件的时间延迟。编码器120为访问中的第一事件分配时间延迟值0。
74.编码器120将信息格式化为标准化格式以生成编码的“词”306。在该特定示例中,格式是[事件类型,时间延迟]形式的向量。该格式可以包括如上面关于图1-2所描述的其他特征。例如,在用户点击网站2.4秒后用户开始在网站上播放可爱小狗视频的事件生成的编码词306被编码为[观看,2.4]。编码器120可以基于交互数据生成编码事件序列或交互签名307。例如,对于用户点击一个网站,2.4秒后观看可爱的小狗视频,然后在2分13秒后点击另一个视频的链接的事件序列,被编码为[导航,0][观看,2.4][观看,2:13]形式的交互签名。
[0075]
在这个特定示例中,编码器120生成编码词306,它们是[pb,0]、[wp,1:43]、[cv,0:35]、[pb,0:07]。编码器120通过将在线活动映射到短格式代码并将短格式代码与计算的时间延迟组合来执行编码。每个事件都被分配时间戳,并且编码器120可以例如使用时间戳数据通过计算对应于特定事件和先前事件的两个连续事件的两个连续时间戳之间的差来计算特定事件和先前事件之间的延迟周期。
[0076]
在该特定示例中,编码器120生成交互签名307,其是[pb,0][wp,1:43][cv,0:35][pb,0:07]。
[0077]
编码器120将编码词306提供给分类模型124。虽然图3未示出,但是编码器120还将编码词306提供给训练模块122作为待标记的训练数据,如关于图2所描述的。编码器120可以为分类模型提供单个词或交互签名。
[0078]
分类模型124使用编码词306对由编码词306表示的访问进行分类,并输出访问的分类308。分类模型124基于编码词306中包括的特征和特性将访问分类为有效或无效。例如,如上所述,分类模型124可以使用桶来区分有效值和无效值。
[0079]
分类模型124使用事件306之间的时间延迟来将访问分类为有效或无效。例如,分类模型124可以基于特定时间延迟是否可以由人类合理地执行、是否是典型的用户或用户类型、或者指示与内容的实际参与而不是仅仅点击通过来确定。在一个示例中,在新闻文章中呈现的视频与开始观看视频的视频上的点击交互之间的0.002秒的时间延迟对于人类用
户来说在物理上是不可能执行的,因此分类模型124可以将访问分类为无效。在另一个示例中,在针对特定服装的页面中呈现的指向相似风格服装的链接与链接上的点击交互之间的30秒时间延迟可能是访问时尚建议网站的典型的用户类型,并且因此分类模型124可以将访问分类为有效。在另一个示例中,在社交媒体馈送中开始播放45秒视频和滚动过去动作之间的1分钟时间延迟可能指示人类用户实际上已经参与了视频(例如,观看了视频的大部分内容)而不是简单地滚动过去而不观看视频,因此分类模型124可以将访问分类为有效。
[0080]
在一些实现方式中,对于给定实体,dcds 110可以接收对应于与内容的多个不同部分的交互的多组交互数据。例如,dcds 110可以接收特定用户的交互数据,该交互数据对应于与来自多个不同内容提供商的多种类型的内容的交互。分类模型124可以通过基于分配给每组交互数据的标签或分配给聚合中的多组交互数据的聚合标签将给定实体分类为实际用户或自动化机器人来为每组交互数据生成单独的交互签名。例如,分类模型124可以为与特定用户相关联的每次访问生成单独的交互签名。分类模型124可以独立地将每次访问分类为实际用户、真正参与内容的用户或自动化机器人。基于分类模型124对特定访问的分类,当给定实体被分类为自动化机器人时,dcds 110可以防止分发一组内容。
[0081]
图4是用于高效且动态地改变和呈现视频的示例过程400的流程图。在一些实现方式中,过程400可以由一个或多个系统执行。例如,过程400可以由图1-3的编码器120、训练模块122、分类模型124、dcds 110和/或用户设备106来实现。在一些实现方式中,过程400可以被实现为被存储在非暂时性计算机可读介质上的指令,并且当指令由一个或多个服务器执行时,指令可以使一个或多个服务器执行过程400的操作。
[0082]
过程400开始于接收交互数据,该交互数据指示对于发生在客户端设备处的多个交互中的每个给定交互,(i)事件类型和(ii)指定给定事件与在给定事件之前发生的先前事件之间的时间量(402)。例如,dcds 110可以接收交互数据,该交互数据对于发生在用户的用户设备106处的一组多个交互,指示事件类型和时间戳数据,从该时间戳数据中可以计算特定事件与该组中每个事件的先前事件之间的延迟周期。每个事件被分配时间戳,并且dcds 110可以使用时间戳数据通过计算对应于特定事件和先前事件的两个连续事件的两个连续时间戳之间的差来计算特定事件和先前事件之间的延迟周期。
[0083]
在一些实现方式中,接收交互数据包括为特定实体收集对应于与内容的多个不同部分的交互的多组交互数据。例如,dcds 110可以为特定用户的多个访问收集多组交互数据。
[0084]
过程400继续将每个给定交互编码为具有标准化格式的编码的交互,该标准化格式是(i)给定交互的事件类型和(ii)由给定交互的交互数据指定的延迟周期的组合(404)。例如,编码器120可以将每个给定的交互编码成编码的交互或词,其具有包括事件类型和延迟周期的标准化格式。编码器120通过将在线活动映射到短格式代码并将短格式代码与计算的时间延迟组合来执行编码。编码器120可以基于例如包含在交互数据中的时间戳数据来计算延迟周期。编码器120然后可以生成包括特定交互的事件类型和延迟周期的编码词306。
[0085]
过程400继续生成包括编码交互序列的交互签名(406)。例如,编码器120可以生成编码的交互的交互签名或句子。在一些实现方式中,编码器120可以在对词进行编码之前通过聚合作为特定用户的单次访问的一部分的一组事件的交互数据来生成交互签名。在一些
实现方式中,编码器120可以在对词进行编码之后通过聚合作为特定用户的单次访问的一部分的一组事件的编码的交互来生成交互签名。
[0086]
在一些实现方式中,生成交互签名包括为对应于与内容的每个不同部分的交互的每组交互数据生成单独的交互签名。例如,生成交互签名可以包括为一组访问中的每个访问生成单独的交互签名。
[0087]
过程400继续使用经过训练以将用户交互序列分类为有效或无效的模型处理编码交互序列,包括使用模型将编码交互序列分类为无效(408)。例如,分类模型124可以使用诸如分类模型124之类的模型来处理编码交互序列,该模型被训练以将用户交互序列分类为有效或无效。分类模型124可以例如将由编码词的句子表示的活动序列分类为有效活动序列或无效活动序列。在该特定示例中,分类模型124可以将活动序列分类为无效活动序列,因为该序列指示例如该活动序列是在恶意软件、劫持或实际上并未参与内容的无兴趣用户的影响下执行的。
[0088]
在一些实现方式中,将给定实体分类为实际用户或自动化机器人是基于分配给每组交互数据的标签或分配给聚合中的多组交互数据的聚合标签。例如,分类模型124可以基于每组访问的分类或分配给该组的聚合分类将特定实体分类为实际用户或机器人。
[0089]
过程400以响应于随后识别的向实体提供内容的请求防止将一组内容分发到执行编码交互序列的实体而结束(410)。例如,dcds 110可以防止在响应于接收到对内容的请求而确定序列无效时将一组内容分发到执行编码交互序列的实体。
[0090]
在一些实现方式中,防止分发一组内容包括制止向实体提供指定类型的内容。例如,dcds 110可以制止向不太可能实际观看阅读文章的用户提供文本内容,从而通过不提供实际上不会被阅读的内容来减少浪费的带宽、处理器周期、存储器使用和/或显示驱动器能力。
[0091]
在一些实现方式中,dcds 110可以制止将内容分发到对应于实体的设备。例如,dcds 110可以基于在笔记本计算机上执行的被确定为由恶意第三方执行的活动序列来制止向用户的笔记本计算机分发内容,但可以继续向用户的智能电话分发内容。在一些实现方式中,dcds110可以生成向用户指示该活动的警报。这种类型的分发限制可以减少浪费的计算资源,否则这些资源将被用于将内容分发到用户的智能电话,同时仍然能够将内容分发到用户的笔记本计算机。以这种方式限制内容的分发防止了资源的浪费,如上所述,同时仍然能够将内容提供给更可能被用户实际观看的特定类型的设备。
[0092]
在一些实现方式中,防止分发该组内容包括当给定实体被分类为自动化机器人时防止分发该组内容。例如,当请求中识别的实体被分类为自动化机器人时,dcds 110可以防止分发一组内容。
[0093]
在一些实现方式中,过程400可以通过识别对应于被分类为无效的编码交互序列的内容分发日志的结果条目并且然后使对应于被分类为无效的编码交互序列的结果条目无效来继续。例如,dcds 110可以在内容分发日志内识别对应于被分类为无效的交互签名的特定结果条目(例如,指示特定交互是否成功完成或满足一组条件)。dcds 110然后可以使日志内的结果条目无效。在一些实现方式中,dcds 110可以移除无效条目,从而释放资源,例如存储器。
[0094]
通过使用结合标准格式(例如,先前描述的向量格式)的编码的交互的经过适当训
练的机器学习模型,例如循环神经网络(rnn)(例如长短期记忆(lstm)网络),因此本技术能够基于先前由该实体以计算可靠和有效的方式执行的编码交互序列来确定是否应该将内容分发到该实体。此外,由于如果编码的交互序列被分类为无效,则内容不会被分发给实体,因此分发内容所需的处理和带宽资源会减少,同时确保内容仍然被分发给合法实体。
[0095]
图5是可用于执行上述操作的示例计算机系统500的框图。系统400包括处理器510、存储器520、存储设备530和输入/输出设备540。组件510、520、530和540中的每一个可以例如使用系统总线550互连。处理器510能够处理用于在系统500内执行的指令。在一种实现方式中,处理器510是单线程处理器。在另一实现方式中,处理器510是多线程处理器。处理器510能够处理存储在存储器520中或存储设备530上的指令。
[0096]
存储器520在系统500内存储信息。在一种实现方式中,存储器520是计算机可读介质。在一种实现方式中,存储器520是易失性存储器单元。在另一实现方式中,存储器520是非易失性存储器单元。
[0097]
存储设备530能够为系统500提供大容量存储。在一种实现方式中,存储设备530是计算机可读介质。在各种不同的实现方式中,存储设备530可以包括例如硬盘设备、光盘设备、由多个计算设备通过网络共享的存储设备(例如,云存储设备),或一些其他大容量存储设备。
[0098]
输入/输出设备540为系统500提供输入/输出操作。在一种实现方式中,输入/输出设备540可以包括一个或多个网络接口设备,例如以太网卡、串行通信设备,例如rs-232端口,和/或无线接口设备,例如,802.11卡。在另一实现方式中,输入/输出设备可以包括被配置为接收输入数据并将输出数据发送到其他输入/输出设备,例如键盘、打印机和显示设备460的驱动器设备。然而,也可以使用其他实现方式,例如移动计算设备、移动通信设备、机顶盒电视客户端设备等。
[0099]
尽管已经在图5中描述了示例处理系统,本说明书中描述的主题和功能操作的实现方式可以在其他类型的数字电子电路中,或在计算机软件、固件或硬件中实现,包括在本说明书中公开的结构及其结构等价物,或其一种或多种的组合。
[0100]
电子文档(为简洁起见将简称为文档)不一定对应于文件。文档可以存储在包含其他文档的文件的一部分中、专用于所讨论文档的单个文件中或多个协调文件中。
[0101]
本说明书中描述的主题和操作的实施例可以在数字电子电路中或在计算机软件、固件或硬件中实现,包括在本说明书中公开的结构及其结构等价物,或其一种或多种的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即,一个或多个计算机程序指令模块,其编码在计算机存储介质(或介质)上,用于执行数据处理装置的操作或控制数据处理装置的操作。备选地或另外地,程序指令可以在人工生成的传播信号上编码,例如机器生成的电、光或电磁信号,生成该信号以编码信息以传输到合适的接收器装置以由数据处理装置执行。计算机存储介质可以是或包含在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备、或其一种或多种的组合中。此外,虽然计算机存储介质不是传播信号,但计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质也可以是或被包括在一个或多个单独的物理组件或介质(例如,多个cd、磁盘或其他存储设备)中。
[0102]
本说明书中描述的操作可以实现为由数据处理装置对存储在一个或多个计算机
可读存储设备上或从其他源接收的数据执行的操作。
[0103]
术语“数据处理装置”涵盖用于处理数据的所有种类的装置、设备和机器,包括例如可编程处理器、计算机、片上系统或上述中的多个或组合。该装置可以包括专用逻辑电路,例如fpga(现场可编程门阵列)或asic(专用集成电路)。除了硬件之外,该装置还可以包括为所讨论的计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或其一种或多种的组合的代码。该装置和执行环境可以实现各种不同的计算模型基础设施,例如web服务、分发式计算和网格计算基础设施。
[0104]
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以任何形式的编程语言编写,包括编译或解释语言、声明性或过程性语言,并且它可以以任何形式部署,包括作为独立程序或作为模块、组件、子程序、对象或适合在计算环境中使用的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在包含其他程序或数据的文件的一部分中(例如,存储在标记语言文档中的一个或多个脚本)、专用于所讨论程序的单个文件或多个协调文件中(例如,存储一个或多个模块、子程序或部分代码的文件)。可以部署计算机程序以在一台计算机或位于一个站点或分布在多个站点并通过通信网络互连的多台计算机上执行。
[0105]
本说明书中描述的过程和逻辑流程可以由一个或多个可编程处理器执行,该处理器执行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流程也可以由专用逻辑电路执行,并且装置也可以实现为专用逻辑电路,例如fpga(现场可编程门阵列)或asic(专用集成电路)。
[0106]
适合于执行计算机程序的处理器包括例如通用和专用微处理器。通常,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘,或可操作地耦合以从一个或多个大容量存储设备接收数据或向其传输数据或两者。然而,计算机不需要有这样的设备。此外,计算机可以嵌入到另一个设备中,例如移动电话、个人数字助理(pda)、移动音频或视频播放器、游戏控制台、全球定位系统(gps)接收器或便携式存储设备(例如,通用串行总线(usb)闪存驱动器)等。适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,包括例如半导体存储器设备,例如eprom、eeprom和闪存设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及cd rom和dvd-rom盘。处理器和存储器可以由专用逻辑电路补充或结合在专用逻辑电路中。
[0107]
为了提供与用户的交互,本说明书中描述的主题的实施例可以在具有用于向用户显示信息的显示设备,例如crt(阴极射线管)或lcd(液晶显示器)监视器,以及键盘和定点设备(例如鼠标或轨迹球,用户可以通过这些设备向计算机提供输入)的计算机上实现。也可以使用其他类型的设备来提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如视觉反馈、听觉反馈或触觉反馈;可以以任何形式接收来自用户的输入,包括声音、语音或触觉输入。此外,计算机可以通过向用户使用的设备发送文档和从其接收文档;例如,通过响应于从网络浏览器接收到的请求,将网页发送到用户客户端设备上的网络浏览器,来与用户交互。
[0108]
本说明书中描述的主题的实施例可以在包括后端组件,例如作为数据服务器,或者包括中间件组件,例如应用服务器,或者包括前端组件,例如具有图形用户界面或网络浏览器的客户端计算机,用户可以通过其与本说明书中描述的主题的实现方式进行交互,或者一个或多个这样的后端、中间件或前端组件的任何组合的计算系统中实现。系统的组件可以通过任何形式或介质的数字数据通信互连,例如通信网络。通信网络的示例包括局域网(“lan”)和广域网(“wan”)、互联网(例如,因特网)和对等网络(例如,自组织对等网络)。
[0109]
计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离并且通常通过通信网络进行交互。客户端和服务器的关系是通过在各自的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生的。在一些实施例中,服务器将数据(例如,html页面)传输到客户端设备(例如,为了向与客户端设备交互的用户显示数据并从用户接收用户输入)。在客户端设备处生成的数据(例如,用户交互的结果)可以在服务器处从客户端设备接收。
[0110]
虽然本说明书包含许多具体的实现方式细节,但这些不应被解释为对任何发明的范围或可能要求保护的内容的限制,而是对特定发明的特定实施例特有的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反,在单个实施例的上下文中描述的各种特征也可以在多个实施例中单独或以任何合适的子组合来实施。此外,尽管特征可能被描述为在某些组合中起作用,并且甚至最初如此要求保护,但在某些情况下,来自要求保护的组合的一个或多个特征可以从组合中删除,并且要求保护的组合可以针对子组合或子组合的变形。
[0111]
类似地,虽然在附图中以特定顺序描绘了操作,但这不应被理解为要求这些操作以所示的特定顺序或按顺序执行,或者要求执行所有所示的操作,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中各个系统组件的分离不应理解为在所有实施例中都需要这样的分离,应理解的是,所描述的程序组件和系统通常可以集成在单个软件产品中或打包成多个软件产品。
[0112]
因此,已经描述了本主题的特定实施例。其他实施例在以下权利要求的范围内。在某些情况下,权利要求中所述的动作可以以不同的顺序执行,并且仍能达到期望的结果。此外,附图中描述的过程不一定需要所示的特定顺序或按顺序来获得期望的结果。在某些实现方式中,多任务和并行处理可能是有利的。

技术特征:
1.一种由一个或多个数据处理装置执行的方法,包括:接收交互数据,所述交互数据对于在客户端设备处发生的多个交互中的每个给定交互,指示(i)事件类型和(ii)指定所述给定事件与所述给定事件之前发生的先前事件之间的时间量的延迟周期;将每个给定交互编码为具有标准化格式的编码的交互,所述标准化格式是(i)所述给定交互的事件类型和(ii)由所述给定交互的交互数据指定的延迟周期的组合;生成包括编码交互序列的交互签名;使用经过训练的模型处理所述编码交互序列,以将用户交互序列分类为有效或无效,包括:使用所述模型将编码交互序列分类为无效;以及防止响应于随后识别的向实体提供内容的请求而将一组内容分发给执行所述编码交互序列的所述实体。2.根据权利要求1所述的方法,其中,所述模型是循环神经网络,可选地是长短期记忆(lstm)网络。3.根据权利要求1或2所述的方法,其中,防止分发一组内容包括制止向所述实体提供指定类型的内容。4.根据前述权利要求中的任一项所述的方法,其中,防止分发一组内容包括暂时防止将所述内容分发到对应于所述实体的一个或多个设备。5.根据前述权利要求中的任一项所述的方法,还包括:识别对应于被分类为无效的编码交互序列的内容分发日志的结果条目;以及使对应于被分类为无效的编码交互序列的结果条目无效。6.根据权利要求5所述的方法,其中,使对应于所述编码交互序列的结果条目无效包括从存储器中删除所述结果条目。7.根据前述权利要求中的任一项所述的方法,其中:接收所述交互数据包括为给定实体收集对应于与内容的多个不同部分的交互的多组交互数据;生成交互签名包括为对应于与内容的每个不同部分的交互的每组交互数据生成单独的交互签名,所述方法还包括:基于分配给每组交互数据的标签或分配给聚合中的多组交互数据的聚合标签,将所述给定实体分类为实际用户或自动化机器人,其中防止分发所述一组内容包括当所述给定实体被分类为所述自动化机器人时防止分发所述一组内容。8.一种系统,包括:一个或多个处理器;以及一个或多个存储器元件,所述一个或多个存储器元件包括在执行时使所述一个或多个处理器执行操作的指令,所述操作包括:接收交互数据,所述交互数据对于在客户端设备处发生的多个交互中的每个给定交互,指示(i)事件类型和(ii)指定所述给定事件与所述给定事件之前发生的先前事件之间的时间量的延迟周期;将每个给定交互编码为具有标准化格式的编码的交互,所述标准化格式是(i)所述给
定交互的事件类型和(ii)由所述给定交互的交互数据指定的延迟周期的组合;生成包括编码交互序列的交互签名;使用经过训练的模型处理所述编码交互序列,以将用户交互序列分类为有效或无效,包括:使用所述模型将编码交互序列分类为无效;以及防止响应于随后识别的向实体提供内容的请求而将一组内容分发给执行所述编码交互序列的所述实体。9.根据权利要求8所述的系统,其中,所述模型是循环神经网络,可选地是长短期记忆(lstm)网络。10.根据权利要求8或9所述的系统,其中,防止分发一组内容包括制止向所述实体提供指定类型的内容。11.根据权利要求8至10中的任一项所述的系统,其中,防止分发一组内容包括暂时防止将所述内容分发到对应于所述实体的一个或多个设备。12.根据权利要求8至11中的任一项所述的系统,所述操作还包括:识别对应于被分类为无效的编码交互序列的内容分发日志的结果条目;以及使对应于被分类为无效的编码交互序列的结果条目无效。13.根据权利要求12所述的系统,其中,使对应于所述编码交互序列的结果条目无效包括从存储器中删除所述结果条目。14.根据权利要求8至13中的任一项所述的系统,其中:接收所述交互数据包括为给定实体收集对应于与内容的多个不同部分的交互的多组交互数据;生成交互签名包括为对应于与内容的每个不同部分的交互的每组交互数据生成单独的交互签名,所述操作还包括:基于分配给每组交互数据的标签或分配给聚合中的多组交互数据的聚合标签,将所述给定实体分类为实际用户或自动化机器人,其中防止分发所述一组内容包括当所述给定实体被分类为所述自动化机器人时防止分发所述一组内容。15.一种编码有指令的非暂时性计算机存储介质,所述指令在由分布式计算系统执行时使所述分布式计算系统执行操作,所述操作包括:接收交互数据,所述交互数据对于在客户端设备处发生的多个交互中的每个给定交互,指示(i)事件类型和(ii)指定所述给定事件与所述给定事件之前发生的先前事件之间的时间量的延迟周期;将每个给定交互编码为具有标准化格式的编码的交互,所述标准化格式是(i)所述给定交互的事件类型和(ii)由所述给定交互的交互数据指定的延迟周期的组合;生成包括编码交互序列的交互签名;使用经过训练的模型处理所述编码交互序列,以将用户交互序列分类为有效或无效,包括:使用所述模型将编码交互序列分类为无效;以及防止响应于随后识别的向实体提供内容的请求而将一组内容分发给执行所述编码交互序列的实体。
16.根据权利要求15所述的非暂时性计算机存储介质,其中,所述模型是递归神经网络,可选地是长短期记忆(lstm)网络。17.根据权利要求15或16所述的非暂时性计算机存储介质,其中,防止分发一组内容包括制止向所述实体提供指定类型的内容。18.根据权利要求15至17中的任一项所述的非暂时性计算机存储介质,其中,防止分发一组内容包括暂时防止将所述内容分发到对应于所述实体的一个或多个设备。19.根据权利要求15至18中的任一项所述的非暂时性计算机存储介质,所述操作还包括:识别对应于被分类为无效的编码交互序列的内容分发日志的结果条目;以及使对应于被分类为无效的编码交互序列的结果条目无效。20.根据权利要求19所述的非暂时性计算机存储介质,其中,使对应于所述编码交互序列的结果条目无效包括从存储器中删除所述结果条目。

技术总结
一种方法包括接收交互数据,该交互数据指示对于发生在客户端设备处的多个交互中的每个给定交互,(i)事件类型和(ii)延迟周期,该延迟周期指定给定事件和给定事件之前发生的先前事件之间的时间量,将每个给定交互编码为具有标准化格式的编码的交互,该格式是(i)事件类型和(ii)延迟周期的组合,生成包括编码交互序列的交互签名,使用经过训练的模型处理编码交互序列以将用户交互序列标记为有效或无效,包括使用模型将编码交互序列标记为无效,并防止响应于随后识别的向实体提供内容的请求,将一组内容分发给执行该编码交互序列的实体。一组内容分发给执行该编码交互序列的实体。一组内容分发给执行该编码交互序列的实体。


技术研发人员:邹志乐 罗冲
受保护的技术使用者:谷歌有限责任公司
技术研发日:2021.04.28
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-11047.html

最新回复(0)