一种数据获取方法、装置、系统、电子设备及存储介质与流程

专利2024-11-30  40



1.本发明涉及互联网技术领域,特别是涉及一种数据获取方法、装置、系统、电子设备及存储介质。


背景技术:

2.随着互联网技术的快速发展,互联网为用户提供了大量的数据(例如,视频、音乐、图片等),用户则可以从互联网获取需要的数据。在进行数据获取时,服务器可以确定用户需要获取的数据的网络地址,并从确定出的网络地址处获取相应的数据。
3.然而,相关技术中,并未提供相应的方法以提高数据获取效率。


技术实现要素:

4.本发明实施例的目的在于提供一种数据获取方法、装置、系统、电子设备及存储介质,以提高数据获取效率。具体技术方案如下:
5.在本发明实施的第一方面,首先提供了一种数据获取方法,所述方法应用于数据获取系统,所述数据获取系统包括:中心节点和边缘节点,所述方法包括:
6.所述中心节点获取待访问链接;向所述边缘节点发送所述待访问链接;
7.所述边缘节点在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;
8.所述中心节点接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。
9.在本发明实施的第二方面,还提供了一种数据获取方法,所述方法应用于数据获取系统中的中心节点,所述方法包括:
10.获取待访问链接;
11.向边缘节点发送所述待访问链接,以使所述边缘节点在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;
12.接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。
13.可选的,所述获取待访问链接,包括:
14.从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
15.可选的,所述获取待访问链接,包括:
16.接收所述边缘节点发送的数据获取链接;其中,所述数据获取链接为:所述边缘节点提取的所述目标页面中的数据获取链接;
17.对接收到的所述数据获取链接进行去重处理,得到待访问链接。
18.可选的,所述边缘节点为多个;
19.所述向边缘节点发送所述待访问链接,包括:
20.基于各边缘节点当前针对数据获取链接的处理状态信息,从各边缘节点中确定用于处理所述待访问链接的边缘节点,向确定出的边缘节点发送所述待访问链接。
21.可选的,所述基于各边缘节点当前针对数据获取链接的处理状态信息,从各边缘节点中确定用于处理所述待访问链接的边缘节点,包括:
22.针对每一边缘节点,确定该边缘节点当前已接收到且未处理的数据获取链接的数目,作为第一数目;
23.从各边缘节点中,确定对应的第一数目最小的边缘节点,作为用于处理所述待访问链接的边缘节点。
24.可选的,在所述从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接之前,所述方法还包括:
25.从预设文件系统中获取所述数据获取任务的任务执行代码;其中,所述任务执行代码包括:任务启动代码;
26.所述从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接,包括:
27.加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
28.可选的,所述任务执行代码还包括:新链接获取代码和页面内容获取代码;
29.在向边缘节点发送所述待访问链接之前,所述方法还包括:
30.向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码,以使所述边缘节点接收所述新链接获取代码和所述页面内容获取代码,在接收到所述中心节点发送的待访问链接时,加载所述页面内容获取代码,以提取所述待访问链接指示的目标页面中所述数据获取任务所指示的目标数据,以及加载所述新链接获取代码,以提取所述待访问链接指示的目标页面中的数据获取链接。
31.可选的,在所述向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码之前,所述方法还包括:
32.从预设数据库中获取所述数据获取任务的任务执行信息;其中,所述任务执行信息包括:所述数据获取任务的执行周期;
33.所述向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码,包括:
34.当达到所述执行周期对应的时刻时,向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码;
35.所述加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接,包括:
36.当达到所述执行周期对应的时刻时,加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
37.可选的,所述任务执行信息还包括所述数据获取任务对应的存储地址;
38.在所述接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果之后,所述方法还包括:
39.将所述数据获取任务的数据获取结果存储至所述数据获取任务对应的存储地址。
40.在本发明实施的第三方面,还提供了一种数据获取方法,所述方法应用于数据获
取系统中的边缘节点,所述方法包括:
41.在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据;
42.向所述中心节点发送所述目标数据,以使所述中心节点接收所述目标数据,得到所述数据获取任务的数据获取结果。
43.可选的,所述方法还包括:
44.在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中的数据获取链接,并向所述中心节点发送所述数据获取链接,以使所述中心节点对接收到的所述数据获取链接进行去重处理,得到待访问链接。
45.可选的,在所述在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据之前,所述方法还包括:
46.接收所述中心节点发送的新链接获取代码和页面内容获取代码;
47.所述在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,包括:
48.在接收到中心节点发送的待访问链接时,加载所述页面内容获取代码,以提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据;
49.所述在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中的数据获取链接,包括:
50.在接收到中心节点发送的待访问链接时,加载所述新链接获取代码,以提取所述待访问链接指示的目标页面中的数据获取链接。
51.在本发明实施的第四方面,还提供了一种数据获取系统,所述数据获取系统包括:中心节点和边缘节点,其中:
52.所述中心节点,用于获取待访问链接;向所述边缘节点发送所述待访问链接;
53.所述边缘节点,用于在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;
54.所述中心节点,还用于接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。
55.在本发明实施的第五方面,还提供了一种数据获取装置,所述装置应用于数据获取系统中的中心节点,所述装置包括:
56.第一获取模块,用于获取待访问链接;
57.第一发送模块,用于向边缘节点发送所述待访问链接,以使所述边缘节点在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;
58.接收模块,用于接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。
59.可选的,所述第一获取模块,具体用于从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
60.可选的,所述第一获取模块,具体用于接收所述边缘节点发送的数据获取链接;其中,所述数据获取链接为:所述边缘节点提取的所述目标页面中的数据获取链接;
61.对接收到的所述数据获取链接进行去重处理,得到待访问链接。
62.可选的,所述边缘节点为多个;
63.所述第一发送模块,具体用于基于各边缘节点当前针对数据获取链接的处理状态信息,从各边缘节点中确定用于处理所述待访问链接的边缘节点,向确定出的边缘节点发送所述待访问链接。
64.可选的,所述第一发送模块,具体用于针对每一边缘节点,确定该边缘节点当前已接收到且未处理的数据获取链接的数目,作为第一数目;
65.从各边缘节点中,确定对应的第一数目最小的边缘节点,作为用于处理所述待访问链接的边缘节点。
66.可选的,所述装置还包括:
67.第二获取模块,用于在所述第一获取模块执行从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接之前,执行从预设文件系统中获取所述数据获取任务的任务执行代码;其中,所述任务执行代码包括:任务启动代码;
68.所述第一获取模块,具体用于加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
69.可选的,所述任务执行代码还包括:新链接获取代码和页面内容获取代码;
70.所述装置还包括:
71.第二发送模块,用于在所述第一发送模块执行向边缘节点发送所述待访问链接之前,执行向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码,以使所述边缘节点接收所述新链接获取代码和所述页面内容获取代码,在接收到所述中心节点发送的待访问链接时,加载所述页面内容获取代码,以提取所述待访问链接指示的目标页面中所述数据获取任务所指示的目标数据,以及加载所述新链接获取代码,以提取所述待访问链接指示的目标页面中的数据获取链接。
72.可选的,所述装置还包括:
73.第三获取模块,用于在所述第二发送模块执行向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码之前,执行从预设数据库中获取所述数据获取任务的任务执行信息;其中,所述任务执行信息包括:所述数据获取任务的执行周期;
74.所述第二发送模块,具体用于当达到所述执行周期对应的时刻时,向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码;
75.所述第一获取模块,具体用于当达到所述执行周期对应的时刻时,加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
76.可选的,所述任务执行信息还包括所述数据获取任务对应的存储地址;
77.所述装置还包括:
78.存储模块,用于在所述接收模块执行接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果之后,执行将所述数据获取任务的数据获取结果存储至所述数据获取任务对应的存储地址。
79.在本发明实施的第六方面,还提供了一种数据获取装置,所述装置应用于数据获取系统中的边缘节点,所述装置包括:
80.第一提取模块,用于在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据;
81.发送模块,用于向所述中心节点发送所述目标数据,以使所述中心节点接收所述目标数据,得到所述数据获取任务的数据获取结果。
82.可选的,所述装置还包括:
83.第二提取模块,用于在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中的数据获取链接,并向所述中心节点发送所述数据获取链接,以使所述中心节点对接收到的所述数据获取链接进行去重处理,得到待访问链接。
84.可选的,所述装置还包括:
85.接收模块,用于在所述第一提取模块执行在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据之前,执行接收所述中心节点发送的新链接获取代码和页面内容获取代码;
86.所述第一提取模块,具体用于在接收到中心节点发送的待访问链接时,加载所述页面内容获取代码,以提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据;
87.所述第二提取模块,具体用于在接收到中心节点发送的待访问链接时,加载所述新链接获取代码,以提取所述待访问链接指示的目标页面中的数据获取链接。
88.在本发明实施的又一方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
89.存储器,用于存放计算机程序;
90.处理器,用于执行存储器上所存放的程序时,实现上述第二方面或者第三方面任一所述的数据获取方法步骤。
91.在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第二方面或者第三方面任一所述的数据获取方法。
92.在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第二方面或者第三方面任一所述的数据获取方法。
93.本发明实施例提供的一种数据获取方法,中心节点获取待访问链接;向边缘节点发送待访问链接。边缘节点在接收到待访问链接时,提取待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向中心节点发送目标数据。中心节点接收边缘节点发送的目标数据,得到数据获取任务的数据获取结果。
94.基于上述处理,中心节点可以将待访问链接发送至边缘节点,边缘节点按照接收到的待访问链接进行数据获取,利用边缘节点的计算资源进行数据获取,可以提高数据获取效率。
附图说明
95.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
96.图1为本发明实施例提供的一种数据获取方法的流程图;
97.图2为本发明实施例提供的另一种数据获取方法的流程图;
98.图3为本发明实施例提供的另一种数据获取方法的流程图;
99.图4为本发明实施例提供的另一种数据获取方法的流程图;
100.图5为本发明实施例提供的另一种数据获取方法的流程图;
101.图6为本发明实施例提供的一种数据获取装置的结构图;
102.图7为本发明实施例提供的另一种数据获取装置的结构图;
103.图8为本发明实施例提供的一种电子设备的结构图。
具体实施方式
104.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
105.参见图1,图1为本发明实施例提供的一种数据获取方法的流程图,该数据获取方法应用于数据获取系统,该数据获取系统包括:中心节点和边缘节点。该方法可以包括以下步骤:
106.s101:中心节点获取待访问链接。
107.s102:中心节点向边缘节点发送待访问链接。
108.s103:边缘节点在接收到待访问链接时,提取待访问链接指示的目标页面中数据获取任务所指示的目标数据。
109.s104:边缘节点向中心节点发送目标数据。
110.s105:中心节点接收边缘节点发送的目标数据,得到数据获取任务的数据获取结果。
111.基于本发明实施例提供的数据获取方法,中心节点可以将待访问链接发送至边缘节点,边缘节点按照接收到的待访问链接进行数据获取,利用边缘节点的计算资源进行数据获取,可以提高数据获取效率。
112.针对步骤s101和步骤s102,本发明实施例中的数据获取系统可以包括:中心节点和多个边缘节点。中心节点可以为服务器,或者服务器集群。边缘节点可以为手机、电脑、路由器和电视盒子等电子设备。
113.在数据获取系统中,中心节点可以接收数据获取任务,数据获取任务用于按照用户指示的数据获取链接,获取目标数据。中心节点对各个边缘节点进行动态协调,将数据获取任务分配至不同的边缘节点进行处理,以完成相应的数据获取任务,也就是可以通过多个边缘节点进行数据获取,提高数据获取效率。并且,通过中心节点和边缘节点进行数据获取,数据获取的成本较低。
114.在一些实施例中,步骤s101可以包括以下步骤:中心节点从数据获取任务的配置信息中,提取数据获取任务对应的初始链接,作为待访问链接。
115.当用户需要获取数据时,可以通过客户端向中心节点发布数据获取任务和数据获取任务的配置信息,中心节点可以接收数据获取任务,并确定数据获取任务的配置信息中的初始链接,作为待访问链接。数据获取任务携带的初始链接可以为一个,也可以为多个。数据获取任务中携带的初始链接为:发布数据获取任务时用户设置的,且用于指示用户需要获取的数据的网络地址。
116.例如,数据获取任务表示需要获取某网站的网页中的数据时,数据获取任务携带
的初始链接可以为该网站中指定网页(例如,首页面、搜索页面等)的url(uniform resource locator,统一资源定位符)。或者,数据获取任务表示需要下载视频数据时,数据获取任务携带的初始链接可以为该视频数据的存储地址。
117.中心节点可以向各边缘节点发送待访问链接,边缘节点可以按照接收到的待访问链接进行数据获取,并且边缘节点还可以在接收到中心节点发送的待访问链接时,提取待访问链接指示的目标页面中的数据获取链接,并向中心节点发送数据获取链接。
118.例如,待访问链接为目标页面的url时,边缘节点可以按照该url向对应的服务器发送http(hypertext transfer protocol,超文本传输协议)请求,以使得服务器向该边缘节点发送包含目标页面的页面内容的html(hyper text markup language,超文本标记语言)文件。边缘节点则可以接收目标页面的html文件。
119.待访问链接指示的目标页面的页面内容可以包括:视频、图片、文档和文字等,页面内容可能携带有数据获取链接,例如,如果点击目标页面中的一个图片可以跳转至另一页面,则该图片携带有数据获取链接,该数据获取链接为用于访问另一个页面的url。边缘节点可以基于目标页面的html文件,获取目标页面的页面内容携带的数据获取链接。
120.一种实现方式中,边缘节点可以通过beautiful soup(一个能够从html文件中提取数据的python库)工具,对目标页面的html文件进行解析,得到目标页面的页面内容携带的数据获取链接。
121.另外,中心节点向边缘节点发送待访问链接时,还可以向边缘节点发送待访问链接对应的数据获取任务的任务标识。相应的,边缘节点可以基于接收到的任务标识,在预设的任务标识与任务需求的对应关系中,确定待访问链接对应的数据获取任务的任务需求。
122.相应的,边缘节点还可以基于数据获取任务的任务需求,对获取到的数据获取链接进行筛选,从获取到的数据获取链接中,确定与数据获取任务的任务需求相匹配的数据获取链接。
123.例如,目标页面的页面内容携带的数据获取链接包括:用于下载视频的链接、用于访问网页的链接,以及用于下载图片的链接。如果数据获取任务的任务需求为获取图片,则边缘节点可以确定与数据获取任务的任务需求相匹配的数据获取链接包括:用于下载图片的链接。由于网页中可能显示图片,则该边缘节点可以确定与数据获取任务的任务需求相匹配的数据获取链接还包括:用于访问网页的链接。
124.在一些实施例中,该方法还可以包括以下步骤:边缘节点在接收到中心节点发送的待访问链接时,提取待访问链接指示的目标页面中的数据获取链接,并向中心节点发送数据获取链接。
125.相应的,步骤s101可以包括以下步骤:中心节点接收边缘节点发送的数据获取链接。其中,边缘节点发送的数据获取链接为:边缘节点提取的目标页面中的数据获取链接。中心节点对接收到的数据获取链接进行去重处理,得到待访问链接。
126.边缘节点接收到待访问链接时,则可以访问待访问链接所指示的目标页面,并从提取目标页面中的获取数据链接。然后,边缘节点向中心节点发送获取到的数据获取链接。中心节点则对边缘节点发送的数据获取链接进行去重处理,得到新的待访问链接。
127.例如,中心节点可以判断各边缘节点发送的数据获取链接中是否存在相同的链接。或者,中心节点可以在达到预设时间时,判断已接收到的数据获取链接中是否存在相同
的链接。
128.如果接收到的数据获取链接中不存在相同的链接,中心节点可以将接收到的数据获取链接作为待访问链接。
129.如果目标数据种携带的数据获取链接中存在相同的链接,中心节点可以对接收到的数据获取链接进行去重处理,例如,中心节点可以通过布隆过滤器对接收到的数据获取链接进行过滤处理,以从相同的多个数据获取链接中选择一个数据获取链接。进而,中心节点可以将选择的数据获取链接,以及不存在相同链接的数据获取链接,作为待访问链接。
130.进而,中心节点可以向各边缘节点发送确定出的待访问链接,以此类推,直至获取到数据获取任务所指示的所有目标数据,基于目标数据得到数据获取任务的数据获取结果。
131.在一些实施例中,边缘节点为多个,相应的,在图1的基础上,参见图2,步骤s102可以包括以下步骤:
132.s1021:中心节点基于各边缘节点当前针对数据获取链接的处理状态信息,从各边缘节点中确定用于处理待访问链接的边缘节点。
133.s1022:中心节点向确定出的边缘节点发送待访问链接。
134.一个边缘节点当前针对数据获取链接的处理状态信息,可以表示该边缘节点当前针对数据获取链接的处理情况。
135.一种实现方式中,针对每一边缘节点,该边缘节点当前针对数据获取链接的处理状态信息可以包括:该边缘节点的硬件资源(例如,带宽、内存等)、处理数据获取链接的时延、以及当前已接收到且未处理的数据获取链接的数目等。中心节点可以基于各边缘节点当前针对数据获取链接的处理状态信息,以及基于边缘计算的任务分配算法(例如,ga(genetic algorithm,分布式遗传算法)),确定用于处理待访问链接的边缘节点。
136.另一种实现方式中,该边缘节点当前针对数据获取链接的处理状态信息可以包括:该边缘节点当前已接收到且未处理的数据获取链接的数目(即第一数目)。相应的,在图2的基础上,参见图3,步骤s1021可以包括以下步骤:
137.s10211:中心节点针对每一边缘节点,确定该边缘节点当前已接收到且未处理的数据获取链接的数目,作为第一数目。
138.s10212:中心节点从各边缘节点中,确定对应的第一数目最小的边缘节点,作为用于处理待访问链接的边缘节点。
139.在待访问链接为一个的情况下,中心节点则可以直接从各个边缘节点中,确定对应的第一数目最小的边缘节点,作为用于处理待访问链接的边缘节点。
140.在待访问链接为多个的情况下,待访问链接可以包括:数据获取任务携带的初始链接,以及各边缘节点发送的数据获取链接。
141.中心节点可以按照获取到待访问链接的获取时间的先后顺序,选择一个待访问链接。针对每一待访问链接,如果该待访问链接为数据获取任务中携带的,则该待访问链接的获取时间为中心节点接收到数据获取任务的时间。如果该待访问链接为边缘节点发送的,则该待访问链接的获取时间为中心节点接收到该待访问链接的时间。
142.如果存在获取时间相同的多个待访问链接,中心节点可以从该多个待访问链接中,随机选择一个待访问链接。
143.然后,针对每一边缘节点,中心节点可以确定该边缘节点当前已接收到且未处理的数据获取链接的数目,作为第一数目。
144.一种实现方式中,针对每一边缘节点,该边缘节点可以确定当前已接收到且未处理的数据获取链接的第一数目,在向中心节点发送目标数据时,可以向中心节点发送对应的第一数目。中心节点可以接收各边缘节点发送的各自对应的第一数目。
145.另一种实现方式中,针对每一边缘节点,该边缘节点在获取到一个数据获取链接指示的页面中数据获取任务所指示的目标数据后,向中心节点发送用于表示已处理该数据获取链接的第一通知消息。中心节点接收到该第一通知消息时,可以确定该边缘节点已经处理完成该数据获取链接。
146.进而,中心节点可以确定已向该边缘节点发送的数据获取链接的第二数目,以及已接收到该边缘节点发送的第一通知消息的数据获取链接的第三数目,第三数目为该边缘节点已经处理完成的数据获取链接的数目。然后,中心节点可以计算第二数目与第三数目的差值,得到该边缘节点当前已接收到且未处理的数据获取链接的第一数目。
147.进而,中心节点可以从各边缘节点中,确定对应的第一数目最小的边缘节点,得到用于处理该待访问链接的边缘节点。
148.基于上述处理,中心节点基于各边缘节点各自当前已接收到且未处理的数据获取链接的第一数目,为各边缘节点分配待访问链接,也就是可以为对应的第一数目较小的边缘节点分配较多的待访问链接,以及为对应的第一数目较大的边缘节点分配较少的待访问链接,也就是基于各边缘节点当前处理数据获取链接的情况,动态调整为各边缘节点分配的待访问链接的数目,可以进一步提高数据获取效率,并提高数据获取系统的稳定性。
149.针对步骤s103,针对每一边缘节点,该边缘节点接收到的待访问链接为中心节点确定的需要该边缘节点处理的待访问链接。
150.针对接收到的每一待访问链接,边缘节点在接收到中心节点发送的待访问链接时,可以提取该待访问链接指示的目标页面中数据获取任务所指示的目标数据。数据获取任务所指示的目标数据包括:数据获取任务指示的目标页面中的页面内容。
151.例如,待访问链接为目标页面的url时,边缘节点可以按照该url向对应的服务器发送http请求,以使得服务器向该边缘节点发送包含目标页面的页面内容的html文件。边缘节点则可以接收目标页面的html文件。
152.待访问链接指示的目标页面的页面内容可以包括:视频、图片、文档和文字等。
153.边缘节点可以将目标页面的所有页面内容作为目标数据。或者,边缘节点还可以基于数据获取任务的任务需求,从目标页面的页面内容中,确定出与数据获取任务的任务需求相匹配的目标页面内容,将目标页面内容作为目标数据。
154.例如,数据获取任务的任务需求为获取图片时,该边缘节点可以确定目标页面中的图片,得到与数据获取任务相匹配的目标页面内容。或者,数据获取任务的任务需求为获取包含彩虹的图片时,该边缘节点可以确定目标页面中包含彩虹的图片,得到与数据获取任务相匹配的目标页面内容。
155.一种实现方式中,边缘节点可以基于数据获取任务的任务需求,在目标页面的html文件中进行查找,得到与数据获取任务的任务需求相匹配的目标页面内容。
156.针对步骤s104,一种实现方式中,边缘节点可以在获取到待访问链接指示的目标
页面中的数据获取链接,以及待访问链接指示的目标页面的目标数据时,向中心节点发送数据获取链接和目标数据。
157.另一种实现方式中,边缘节点可以在获取到待访问链接指示的目标页面中的数据获取链接时,向中心节点发送获取到的数据获取链接,以及在获取到待访问链接指示的目标页面的目标数据时,向中心节点发送获取到的目标数据。
158.基于上述处理,在边缘节点未同时获取到待访问链接指示的目标页面中的数据获取链接和目标数据的情况下,边缘节点在获取到待访问链接指示的目标页面中的数据获取链接时,向中心节点发送获取到的数据获取链接,无需等待边缘节点获取到待访问链接指示的目标页面的目标数据。或者,边缘节点在获取到待访问链接指示的目标页面的目标数据时,向中心节点发送获取到的目标数据,无需等待边缘节点获取到待访问链接指示的目标页面中的数据获取链接,可以进一步提高数据获取效率。
159.在本发明实施例中,并不限定边缘节点获取待访问链接指示的目标页面中的数据获取链接和目标数据的顺序,也就是边缘节点可以先获取待访问链接指示的目标页面中的数据获取链接,再获取待访问链接指示的目标页面的目标数据。边缘节点也可以先获取待访问链接指示的目标页面的目标数据,再获取待访问链接指示的目标页面中的数据获取链接。
160.边缘节点也可以同时获取待访问链接指示的目标页面中的数据获取链接和目标数据,例如,边缘节点可以开启多个并行线程,一个线程用于获取待访问链接指示的目标页面中的数据获取链接,另一个线程用于获取待访问链接指示的目标页面的目标数据。
161.针对步骤s105,中心节点可以接收各边缘节点发送的目标数据。中心节点可以将接收到的目标数据,作为数据获取任务的数据获取结果。
162.在一些实施例中,待访问链接为中心节点从数据获取任务的配置信息中,提取的数据获取任务对应的初始链接,相应的,在步骤s101之前,该方法还可以包括以下步骤:中心节点从预设文件系统中获取数据获取任务的任务执行代码。
163.其中,任务执行代码包括:任务启动代码。
164.相应的,步骤s101可以包括以下步骤:中心节点加载任务启动代码,以从数据获取任务的配置信息中,提取数据获取任务对应的初始链接,作为待访问链接。
165.为了获取到符合用户需求的数据,用户还可以开发用于执行数据获取任务的任务执行代码,并将数据获取任务的任务执行代码存储至预设文件系统。预设文件系统可以为kafka(卡夫卡)系统。用户可以通过javascript、css、html、python等计算机语言开发用于执行数据获取任务的任务执行代码。
166.任务执行代码包括:用于启动数据获取任务的任务启动代码。
167.相应的,中心节点可以从预设文件系统获取任务执行代码,当需要按照数据获取任务获取对应的数据时,中心节点可以加载任务启动代码,以从数据获取任务的配置信息中,提取数据获取任务对应的初始链接,作为待访问链接。
168.在一些实施例中,任务执行代码还包括:新链接获取代码和页面内容获取代码。
169.相应的,在步骤s102之前,该方法还可以包括以下步骤:
170.中心节点向边缘节点发送新链接获取代码和页面内容获取代码,以使边缘节点接收新链接获取代码和页面内容获取代码,在接收到中心节点发送的待访问链接时,加载页
面内容获取代码,以提取待访问链接指示的目标页面中数据获取任务所指示的目标数据,以及加载新链接获取代码,以提取待访问链接指示的目标页面中的数据获取链接。
171.其中,新链接获取代码用于提取待访问链接指示的目标页面中的数据获取链接;页面内容获取代码用于提取该待访问链接指示的目标页面中的目标数据(即页面内容)。
172.中心节点还可以向每一边缘节点发送新链接获取代码和页面内容获取代码。边缘节点可以接收中心节点发送的新链接获取代码和页面内容获取代码,进而,在接收到中心节点发送的待访问链接时,边缘节点可以加载新链接获取代码,以提取待访问链接指示的目标页面中的数据获取链接,以及加载页面内容获取代码,以提取待访问链接指示的目标页面中的目标数据。
173.在一些实施例中,在向边缘节点发送新链接获取代码和页面内容获取代码之前,该方法还可以包括以下步骤:中心节点从预设数据库中获取数据获取任务的任务执行信息。
174.其中,任务执行信息包括:数据获取任务的执行周期。
175.相应的,向边缘节点发送新链接获取代码和页面内容获取代码的步骤包括以下步骤:
176.当达到执行周期对应的时刻时,中心节点向边缘节点发送新链接获取代码和页面内容获取代码。
177.相应的,加载任务启动代码,以从数据获取任务的配置信息中,提取数据获取任务对应的初始链接,作为待访问链接的步骤包括以下步骤:
178.当达到执行周期对应的时刻时,中心节点加载任务启动代码,以从数据获取任务的配置信息中,提取数据获取任务对应的初始链接,作为待访问链接。
179.预设数据库可以为关系型分布式数据库,例如,mysql(一种关系型数据库管理系统),oracle(另一种关系型数据库管理系统)等。
180.用户在开发用于执行数据获取任务的任务执行程序时,还可以设置数据获取任务的任务执行信息。任务执行信息可以包括:数据获取任务的执行周期。
181.中心节点可以在达到数据获取任务的执行周期对应的时刻时,加载数据获取任务的任务启动程序,以从数据获取任务的配置信息中,提取数据获取任务对应的初始链接,作为待访问链接。中心节点按照数据获取任务的执行周期,获取数据获取任务所指示的目标数据,可以在待访问链接指示的目标页面中的页面内容进行更新时,获取到更新后的页面内容,进而可以提高获取的数据的有效性。
182.在一些实施例中,任务执行信息还包括数据获取任务对应的存储地址。
183.相应的,在步骤s105之后,该方法还可以包括以下步骤:中心节点将数据获取任务的数据获取结果存储至数据获取任务对应的存储地址。
184.数据获取任务对应的存储地址可以为:接收数据获取任务的数据获取结果的目标设备的地址。中心节点可以向目标设备发送携带有数据获取任务的数据获取结果的http请求,以使目标设备接收该http请求,得到数据获取任务的数据获取结果。
185.一种实现方式中,中心节点在每接收到一个目标数据,基于该目标数据得到数据获取任务的数据获取结果之后,中心节点可以将数据获取任务的数据获取结果,添加至目标设备对应的预设队列。目标设备则可以从预设队列中获取数据获取任务的数据获取结
果。
186.预设队列可以为amq(activemq,一种开源消息队列),或者也可以为rmq(rabbitmq,一种基于amqp(advanced message queuing protocol,高级消息队列协议)的消息队列)。
187.另一种实现方式中,如果待访问链接指示的目标页面中不存在数据获取链接,边缘节点可以确定已获取到数据获取任务所指示的所有目标数据,则边缘节点可以向中心节点发送表示已获取到数据获取任务所指示的所有目标数据的第二通知消息。
188.如果接收到用于执行数据获取任务的所有边缘节点发送的第二通知消息,中心节点可以确定已获取到数据获取任务所指示的所有目标数据。中心节点可以将基于各目标数据得到的数据获取任务的所有数据获取结果,存储至数据获取任务对应的存储地址。
189.示例性的,用户可以通过客户端开发任务启动代码,并在开发任务启动代码时设置数据获取任务携带的数据获取链接,以及设置用于表示数据获取任务的执行周期的cron(一个定时执行工具)表达式。并且,用户在开发任务启动代码时,需要按照中心节点能够解析的入口函数、数据返回格式(例如,分隔符的类型)进行开发。后续,中心节点可以按照cron表达式,定时启动数据获取任务。
190.然后,用户还可以通过客户端开发用于提取该待访问链接指示的目标页面中的数据获取链接的新链接获取代码,以及用于提取该待访问链接指示的目标页面中的目标数据的页面内容获取代码。客户端可以将任务启动代码、新链接获取代码和页面内容获取代码进行关联,并设置数据获取任务对应的存储地址。并且,用户在开发任务启动代码、新链接获取代码和页面内容获取代码时,需要按照中心节点和边缘节点能够解析的入口函数、数据返回格式进行开发。
191.进而,客户端可以将任务启动代码、新链接获取代码和页面内容获取代码存储至预设文件系统,并将用于表示数据获取任务的执行周期的cron表达式,以及目标数据的存储地址存储至预设数据库。
192.基于上述处理,用户在开发用于进行数据获取的代码时,只需要开发数据获取任务的任务执行代码(即任务启动代码、新链接获取代码和页面内容获取代码),并将任务执行代码存储至预设文件系统。当需要获取数据时,中心节点可以从预设文件系统获取任务执行代码,并向边缘节点发送。进而中心节点和边缘节点则可以加载对应的代码,以进行数据获取。用户无需关注中心节点与边缘节点进行交互的过程,可以提高用户在开发用于进行数据获取的代码时的开发效率。
193.参见图4,图4为本发明实施例提供的另一种数据获取方法的流程图。该数据获取方法应用于数据获取系统,该数据获取系统包括:中心节点和多个边缘节点。
194.在进行数据获取时,中心节点可以添加链接,也就是中心节点加载数据获取任务的任务启动程序,以确定数据获取任务对应的初始链接,作为待访问链接。针对每一待访问链接,中心节点可以基于各边缘节点当前针对数据获取链接的处理状态信息,确定用于处理该待访问链接的边缘节点,并向确定出的边缘节点发送该待访问链接。
195.然后,边缘节点可以下载资源,也就是边缘节点在接收到中心节点发送的待访问链接时,获取待访问链接指示的目标页面的页面内容。边缘节点可以判断是否解析,即判断是否对目标页面的页面内容进行解析,也就是判断目标页面的页面内容中是否包含与数据
获取任务的任务需求相匹配的目标页面内容。在确定对目标页面的页面内容进行解析时,边缘节点可以进行解析入库。也就是边缘节点从目标页面的页面内容中,获取与数据获取任务的任务需求相匹配的目标页面内容,作为目标数据,并向中心节点发送目标数据。中心节点可以接收边缘节点发送的目标数据,并将包含目标数据的数据获取结果,存储至数据获取任务对应的存储地址。
196.边缘节点可以判断是否抽取目标页面中的数据获取链接,也就是判断目标页面中是否存在数据获取链接。在确定抽取目标页面中的数据获取链接时,边缘节点可以抽取新链接,并基于新链接下载资源。也就是边缘节点在目标页面中存在数据获取链接的情况下,提取目标页面中与数据获取任务的任务需求相匹配的数据获取链接,向中心节点发送确定的数据获取链接。中心节点可以基于接收到的数据获取链接确定待访问链接,并向边缘节点发送待访问链接。进而,边缘节点可以在接收到中心节点发送的待访问链接时,提取待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向中心节点发送目标数据,以此类推,直至获取到数据获取链接指示的所有目标数据。
197.基于上述处理,中心节点可以基于各边缘节点当前针对数据获取链接的处理状态信息为各边缘节点分配待访问链接,边缘节点按照接收到的待访问链接进行数据获取,可以通过多个边缘节点分别基于待访问链接进行数据获取,可以提高数据获取效率。另外,中心节点基于各边缘节点当前针对数据获取链接的处理状态信息为各边缘节点分配待访问链接,也就是可以基于各边缘节点当前针对数据获取链接的处理情况,动态调整为各边缘节点分配的待访问链接的数目,可以进一步提高数据获取效率。
198.参见图5,图5为本发明实施例提供的另一种数据获取方法的流程图。用户在客户端创建代码,也就是用户在客户端开发用于执行数据获取任务的任务执行代码。客户端可以response(响应)用户的指示,将开发的任务执行代码存储至预设文件系统。
199.用户可以指示客户端进行runjob(运行作业),客户端可以create task(创建任务),并向调度中心(即前述实施例中的中心节点)发送创建的任务,调度中心可以进行调度准备。也就是用户在客户端创建数据获取任务,客户端将数据获取任务发布至调度中心,调度中心从预设文件系统获取数据获取任务的任务执行代码,并向边缘端(即前述实施例中的边缘节点)发送新链接获取代码和页面内容获取代码。
200.调度中心确定数据获取任务所指示的下载链接(即前述实施例中的待访问链接),并将下载链接发送至边缘端,边缘端接收链接。也就是调度中心加载数据获取任务的任务启动代码,以获取数据任务对应的数据获取链接,作为待访问链接,并向边缘端发送待访问链接,边缘端接收调度中心发送的待访问链接。
201.边缘端下载,也就是边缘端可以按照接收到的下载链接进行数据下载,也就是边缘端在接收到调度中心发送的待访问链接时,choose(选择)一个待访问链接,获取该待访问链接指示的目标page(页面)的html文件。然后,边缘端进行链接抽取,也就是边缘端可以基于目标页面的html文件,抽取新链接,并向调度中心发送新生成链接,调度(即调度中心)接收链接。也就是边缘端基于目标页面的html文件,提取目标页面中的数据获取链接,并向调度中心发送获取到的数据获取链接。调度中心接收到边缘端发送的数据获取链接,并进行去重处理后,得到新的下载链接,并向边缘端发送新的下载链接,也就是调度中心基于各边缘端发送的目标数据中携带的数据获取链接,确定待访问链接,并向边缘端发送待访问
链接,以此类推,loop(循环)上述数据获过程,直至获取到数据获取任务所指示的所有目标数据,循环finish(结束)。
202.边缘端解析,也就是边缘端还可以基于目标页面的html文件进行解析,得到解析results(结果),并向调度中心发送解析结果,调度(即调度中心)接收结果。也就是边缘端基于目标页面的html文件,获取目标页面的页面内容中的目标数据,并向调度中心发送目标数据。调度中心接收目标数据,并向用户返回包含页面内容的数据获取结果。也就是调度中心将数据获取任务的数据获取结果存储至数据获取任务对应的存储地址。
203.基于上述处理,中心节点可以基于各边缘节点当前针对数据获取链接的处理状态信息为各边缘节点分配待访问链接,边缘节点按照接收到的待访问链接进行数据获取,可以通过多个边缘节点分别基于待访问链接进行数据获取,可以提高数据获取效率。另外,中心节点基于各边缘节点当前针对数据获取链接的处理状态信息为各边缘节点分配待访问链接,也就是可以基于各边缘节点当前针对数据获取链接的处理情况,动态调整为各边缘节点分配的待访问链接的数目,可以进一步提高数据获取效率。
204.本发明实施例提供还提供了一种数据获取系统,所述数据获取系统包括:中心节点和边缘节点,其中:
205.所述中心节点,用于获取待访问链接;向所述边缘节点发送所述待访问链接;
206.所述边缘节点,用于在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;
207.所述中心节点,还用于接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。
208.基于本发明实施例提供的数据获取系统,中心节点可以将待访问链接发送至边缘节点,边缘节点按照接收到的待访问链接进行数据获取,利用边缘节点的计算资源进行数据获取,可以提高数据获取效率。
209.与图1的方法实施例相对应,参见图6,图6为本发明实施例提供的一种数据获取装置的结构图,所述装置应用于数据获取系统中的中心节点,所述装置包括:
210.第一获取模块601,用于获取待访问链接;
211.第一发送模块602,用于向边缘节点发送所述待访问链接,以使所述边缘节点在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;
212.接收模块603,用于接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。
213.可选的,所述第一获取模块601,具体用于从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
214.可选的,所述第一获取模块601,具体用于接收所述边缘节点发送的数据获取链接;其中,所述数据获取链接为:所述边缘节点提取的所述目标页面中的数据获取链接;
215.对接收到的所述数据获取链接进行去重处理,得到待访问链接。
216.可选的,所述边缘节点为多个;
217.所述第一发送模块602,具体用于基于各边缘节点当前针对数据获取链接的处理状态信息,从各边缘节点中确定用于处理所述待访问链接的边缘节点,向确定出的边缘节
点发送所述待访问链接。
218.可选的,所述第一发送模块602,具体用于针对每一边缘节点,确定该边缘节点当前已接收到且未处理的数据获取链接的数目,作为第一数目;
219.从各边缘节点中,确定对应的第一数目最小的边缘节点,作为用于处理所述待访问链接的边缘节点。
220.可选的,所述装置还包括:
221.第二获取模块,用于在所述第一获取模块601执行从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接之前,执行从预设文件系统中获取所述数据获取任务的任务执行代码;其中,所述任务执行代码包括:任务启动代码;
222.所述第一获取模块601,具体用于加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
223.可选的,所述任务执行代码还包括:新链接获取代码和页面内容获取代码;
224.所述装置还包括:
225.第二发送模块,用于在所述第一发送模块602执行向边缘节点发送所述待访问链接之前,执行向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码,以使所述边缘节点接收所述新链接获取代码和所述页面内容获取代码,在接收到所述中心节点发送的待访问链接时,加载所述页面内容获取代码,以提取所述待访问链接指示的目标页面中所述数据获取任务所指示的目标数据,以及加载所述新链接获取代码,以提取所述待访问链接指示的目标页面中的数据获取链接。
226.可选的,所述装置还包括:
227.第三获取模块,用于在所述第二发送模块执行向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码之前,执行从预设数据库中获取所述数据获取任务的任务执行信息;其中,所述任务执行信息包括:所述数据获取任务的执行周期;
228.所述第二发送模块,具体用于当达到所述执行周期对应的时刻时,向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码;
229.所述第一获取模块601,具体用于当达到所述执行周期对应的时刻时,加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
230.可选的,所述任务执行信息还包括所述数据获取任务对应的存储地址;
231.所述装置还包括:
232.存储模块,用于在所述接收模块603执行接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果之后,执行将所述数据获取任务的数据获取结果存储至所述数据获取任务对应的存储地址。
233.基于本发明实施例提供的数据获取装置,中心节点可以将待访问链接发送至边缘节点,边缘节点按照接收到的待访问链接进行数据获取,利用边缘节点的计算资源进行数据获取,可以提高数据获取效率。
234.与图1的方法实施例相对应,参见图7,图7为本发明实施例提供的一种数据获取装置的结构图,所述装置应用于数据获取系统中的边缘节点,所述装置包括:
235.第一提取模块701,用于在接收到中心节点发送的待访问链接时,提取所述待访问
链接指示的目标页面中数据获取任务所指示的目标数据;
236.发送模块702,用于向所述中心节点发送所述目标数据,以使所述中心节点接收所述目标数据,得到所述数据获取任务的数据获取结果。
237.可选的,所述装置还包括:
238.第二提取模块,用于在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中的数据获取链接,并向所述中心节点发送所述数据获取链接,以使所述中心节点对接收到的所述数据获取链接进行去重处理,得到待访问链接。
239.可选的,所述装置还包括:
240.接收模块,用于在所述第一提取模块701执行在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据之前,执行接收所述中心节点发送的新链接获取代码和页面内容获取代码;
241.所述第一提取模块701,具体用于在接收到中心节点发送的待访问链接时,加载所述页面内容获取代码,以提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据;
242.所述第二提取模块,具体用于在接收到中心节点发送的待访问链接时,加载所述新链接获取代码,以提取所述待访问链接指示的目标页面中的数据获取链接。
243.基于本发明实施例提供的数据获取装置,中心节点可以将待访问链接发送至边缘节点,边缘节点按照接收到的待访问链接进行数据获取,利用边缘节点的计算资源进行数据获取,可以提高数据获取效率。
244.本发明实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
245.存储器803,用于存放计算机程序;
246.处理器801,用于执行存储器803上所存放的程序时,实现上述实施例中任一所述的应用于中心节点的数据获取方法步骤,或者应用于边缘节点的数据获取方法步骤。
247.上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
248.通信接口用于上述电子设备与其他设备之间的通信。
249.存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
250.上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
251.在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机
可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的应用于中心节点的数据获取方法,或者应用于边缘节点的数据获取方法。
252.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的应用于中心节点的数据获取方法,或者应用于边缘节点的数据获取方法。
253.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
254.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
255.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、系统、电子设备、计算机可读存储介质和计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
256.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

技术特征:
1.一种数据获取方法,其特征在于,所述方法应用于数据获取系统,所述数据获取系统包括:中心节点和边缘节点,所述方法包括:所述中心节点获取待访问链接;向所述边缘节点发送所述待访问链接;所述边缘节点在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;所述中心节点接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。2.一种数据获取方法,其特征在于,所述方法应用于数据获取系统中的中心节点,所述方法包括:获取待访问链接;向边缘节点发送所述待访问链接,以使所述边缘节点在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。3.根据权利要求2所述的方法,其特征在于,所述获取待访问链接,包括:从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。4.根据权利要求2所述的方法,其特征在于,所述获取待访问链接,包括:接收所述边缘节点发送的数据获取链接;其中,所述数据获取链接为:所述边缘节点提取的所述目标页面中的数据获取链接;对接收到的所述数据获取链接进行去重处理,得到待访问链接。5.根据权利要求2所述的方法,其特征在于,所述边缘节点为多个;所述向边缘节点发送所述待访问链接,包括:基于各边缘节点当前针对数据获取链接的处理状态信息,从各边缘节点中确定用于处理所述待访问链接的边缘节点,向确定出的边缘节点发送所述待访问链接。6.根据权利要求5所述的方法,其特征在于,所述基于各边缘节点当前针对数据获取链接的处理状态信息,从各边缘节点中确定用于处理所述待访问链接的边缘节点,包括:针对每一边缘节点,确定该边缘节点当前已接收到且未处理的数据获取链接的数目,作为第一数目;从各边缘节点中,确定对应的第一数目最小的边缘节点,作为用于处理所述待访问链接的边缘节点。7.根据权利要求3所述的方法,其特征在于,在所述从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接之前,所述方法还包括:从预设文件系统中获取所述数据获取任务的任务执行代码;其中,所述任务执行代码包括:任务启动代码;所述从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接,包括:加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。
8.根据权利要求7所述的方法,其特征在于,所述任务执行代码还包括:新链接获取代码和页面内容获取代码;在向边缘节点发送所述待访问链接之前,所述方法还包括:向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码,以使所述边缘节点接收所述新链接获取代码和所述页面内容获取代码,在接收到所述中心节点发送的待访问链接时,加载所述页面内容获取代码,以提取所述待访问链接指示的目标页面中所述数据获取任务所指示的目标数据,以及加载所述新链接获取代码,以提取所述待访问链接指示的目标页面中的数据获取链接。9.根据权利要求8所述的方法,其特征在于,在所述向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码之前,所述方法还包括:从预设数据库中获取所述数据获取任务的任务执行信息;其中,所述任务执行信息包括:所述数据获取任务的执行周期;所述向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码,包括:当达到所述执行周期对应的时刻时,向所述边缘节点发送所述新链接获取代码和所述页面内容获取代码;所述加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接,包括:当达到所述执行周期对应的时刻时,加载所述任务启动代码,以从所述数据获取任务的配置信息中,提取所述数据获取任务对应的初始链接,作为待访问链接。10.根据权利要求9所述的方法,其特征在于,所述任务执行信息还包括所述数据获取任务对应的存储地址;在所述接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果之后,所述方法还包括:将所述数据获取任务的数据获取结果存储至所述数据获取任务对应的存储地址。11.一种数据获取方法,其特征在于,所述方法应用于数据获取系统中的边缘节点,所述方法包括:在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据;向所述中心节点发送所述目标数据,以使所述中心节点接收所述目标数据,得到所述数据获取任务的数据获取结果。12.根据权利要求11所述的方法,其特征在于,所述方法还包括:在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中的数据获取链接,并向所述中心节点发送所述数据获取链接,以使所述中心节点对接收到的所述数据获取链接进行去重处理,得到待访问链接。13.根据权利要求12所述的方法,其特征在于,在所述在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据之前,所述方法还包括:接收所述中心节点发送的新链接获取代码和页面内容获取代码;所述在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中
数据获取任务所指示的目标数据,包括:在接收到中心节点发送的待访问链接时,加载所述页面内容获取代码,以提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据;所述在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中的数据获取链接,包括:在接收到中心节点发送的待访问链接时,加载所述新链接获取代码,以提取所述待访问链接指示的目标页面中的数据获取链接。14.一种数据获取系统,其特征在于,所述数据获取系统包括:中心节点和边缘节点,其中:所述中心节点,用于获取待访问链接;向所述边缘节点发送所述待访问链接;所述边缘节点,用于在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;所述中心节点,还用于接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。15.一种数据获取装置,其特征在于,所述装置应用于数据获取系统中的中心节点,所述装置包括:第一获取模块,用于获取待访问链接;第一发送模块,用于向边缘节点发送所述待访问链接,以使所述边缘节点在接收到所述待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向所述中心节点发送所述目标数据;接收模块,用于接收所述边缘节点发送的目标数据,得到所述数据获取任务的数据获取结果。16.一种数据获取装置,其特征在于,所述装置应用于数据获取系统中的边缘节点,所述装置包括:第一提取模块,用于在接收到中心节点发送的待访问链接时,提取所述待访问链接指示的目标页面中数据获取任务所指示的目标数据;发送模块,用于向所述中心节点发送所述目标数据,以使所述中心节点接收所述目标数据,得到所述数据获取任务的数据获取结果。17.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求2-10,或者权利要求11-13任一所述的方法步骤。18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求2-10,或者权利要求11-13任一所述的方法步骤。

技术总结
本发明实施例提供了一种数据获取方法、装置、系统、电子设备及存储介质,中心节点获取待访问链接;向边缘节点发送待访问链接。边缘节点在接收到待访问链接时,提取待访问链接指示的目标页面中数据获取任务所指示的目标数据,并向中心节点发送目标数据。中心节点接收边缘节点发送的目标数据,得到数据获取任务的数据获取结果。基于上述处理,中心节点可以将待访问链接发送至边缘节点,边缘节点按照接收到的待访问链接进行数据获取,利用边缘节点的计算资源进行数据获取,可以提高数据获取效率。可以提高数据获取效率。可以提高数据获取效率。


技术研发人员:王海利 王明杨 徐俊俊
受保护的技术使用者:北京奇艺世纪科技有限公司
技术研发日:2022.06.29
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-10599.html

最新回复(0)