一种暗网代理识别方法、装置和可读存储介质与流程

专利2023-11-10  111



1.本文涉及暗网技术,尤指一种暗网代理识别方法、装置和可读存储介质。


背景技术:

2.暗网代理技术起源于2008年开始的开源项目tor2web,然而,tor2web主要提供暗网代理服务端的技术实现,具体的代理服务由志愿者自愿提供服务器并配置tor2web来提供服务,各代理自行运行和推广,不受开源项目统一管理。因此,目前并没有机构维护互联网中存在的暗网代理列表,暗网代理的规模是未知的,也没有关于对暗网代理系统性的识别方法。


技术实现要素:

3.本技术提供了一种暗网代理识别方法、装置和可读存储介质,能够识别出暗网代理。
4.本技术提供的一种暗网代理识别方法,包括:
5.获取被动流量解析数据,所述被动流量解析数据中包含全限定域名;
6.根据所述全限定域名识别暗网代理。
7.作为一示例性实施例,根据所述全限定域名识别暗网代理的方法,包括以下任一种或多种:
8.根据所述全限定域名的后缀识别暗网地址;
9.根据所述全限定域名的前缀识别暗网地址。
10.作为一示例性实施例,根据所述全限定域名的后缀识别暗网地址,包括:
11.判断所述后缀中是否包含预设的暗网代理域名,如果包含至少一个所述暗网代理域名,则将所述全限定域名识别为暗网代理。
12.作为一示例性实施例,根据所述全限定域名的后缀识别暗网地址,包括:
13.判断所述后缀中是否包含预设的暗网代理域名,以及判断所述全限定域名的格式是否符合暗网隐藏服务地址格式;如果包含至少一个所述预设的暗网代理,且所述全限定域名的格式符合暗网隐藏服务地址格式,则将所述全限定域名识别为暗网代理。
14.作为一示例性实施例,根据所述全限定域名的前缀识别暗网地址,包括以下任一种或多种方式:
15.判断所述前缀中是否包含预设的暗网隐藏服务名,如果至少包含一个所述暗网隐藏服务名,则将所述全限定域名识别为暗网代理;
16.从所述前缀中提取预设字段,根据所述预设字段进行校验计算,如果校验计算的结果满足预设要求,则将所述全限定域名识别为暗网代理。
17.作为一示例性实施例,从所述前缀中提取预设字段,根据所述预设字段进行校验计算,如果校验计算的结果满足预设要求,则将所述全限定域名识别为暗网代理,包括:
18.从所述前缀中提取公钥、校验和以及版本号,根据所述公钥和版本号计算校验和,
将计算得到的校验和与提取出的校验和进行比较,如果二者一致,则将所述全限定域名识别为暗网代理。
19.作为一示例性实施例,所述方法还包括:
20.根据所述全限定域名识别暗网代理后,根据所述被动流量解析数据判断识别出的暗网代理已成功解析出的暗网隐藏服务的次数是否大于预设阈值,如果大于预设阈值,则判断出所述识别出的暗网代理为有效暗网代理。
21.作为一示例性实施例,所述方法还包括:
22.判断出所述识别出的暗网代理为有效暗网代理后,根据所述有效暗网代理是否支持访问判断所述有效暗网代理的类型,所述类型包括:历史有效暗网代理或当前存活暗网代理;
23.如果支持访问,则为当前存活暗网代理;
24.如果不支持访问,则为历史有效暗网代理。
25.本技术实施例提供的一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一实施例所述的暗网代理识别方法。
26.本技术实施例提供的暗网代理识别装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行如前任一实施例所述的暗网代理识别方法的步骤。
27.与现有技术相比,本技术实施例识别暗网代理的方式从被动流量解析数据中获取包含暗网代理信息的全限定域名fqdn,从而实现了根据所述全限定域名fqdn识别暗网代理。
28.本技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本技术而了解。本技术的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。
附图说明
29.附图用来提供对本技术技术方案的理解,并且构成说明书的一部分,与本技术的实施例一起用于解释本技术的技术方案,并不构成对本技术技术方案的限制。
30.图1为本技术实施例提供的暗网代理识别方法流程图;
31.图2为本技术应用示例提供的一种对暗网代理进行识别方法流程图;
32.图3为本技术实施例提供的另一种暗网代理识别方法流程图;
33.图4为本技术实施例提供的暗网代理识别装置结构图。
具体实施方式
34.本技术描述了多个实施例,但是该描述是示例性的,而不是限制性的,并且对于本领域的普通技术人员来说显而易见的是,在本技术所描述的实施例包含的范围内可以有更多的实施例和实现方案。尽管在附图中示出了许多可能的特征组合,并在具体实施方式中进行了讨论,但是所公开的特征的许多其它组合方式也是可能的。除非特意加以限制的情况以外,任何实施例的任何特征或元件可以与任何其它实施例中的任何其他特征或元件结合使用,或可以替代任何其它实施例中的任何其他特征或元件。
35.本技术包括并设想了与本领域普通技术人员已知的特征和元件的组合。本技术已经公开的实施例、特征和元件也可以与任何常规特征或元件组合,以形成由权利要求限定的独特的发明方案。任何实施例的任何特征或元件也可以与来自其它发明方案的特征或元件组合,以形成另一个由权利要求限定的独特的发明方案。因此,应当理解,在本技术中示出和/或讨论的任何特征可以单独地或以任何适当的组合来实现。因此,除了根据所附权利要求及其等同替换所做的限制以外,实施例不受其它限制。此外,可以在所附权利要求的保护范围内进行各种修改和改变。
36.此外,在描述具有代表性的实施例时,说明书可能已经将方法和/或过程呈现为特定的步骤序列。然而,在该方法或过程不依赖于本文所述步骤的特定顺序的程度上,该方法或过程不应限于所述的特定顺序的步骤。如本领域普通技术人员将理解的,其它的步骤顺序也是可能的。因此,说明书中阐述的步骤的特定顺序不应被解释为对权利要求的限制。此外,针对该方法和/或过程的权利要求不应限于按照所写顺序执行它们的步骤,本领域技术人员可以容易地理解,这些顺序可以变化,并且仍然保持在本技术实施例的精神和范围内。
37.本技术发明人研究发现,在被动流量解析数据中,暗网活动并非无迹可寻,因此提出了一种基于被动流量解析数据进行暗网代理识别的机制。
38.如图1所示,本技术实施例提供了一种暗网代理识别方法,所述方法包括:
39.步骤s101获取被动流量解析数据,所述被动流量解析数据中包含全限定域名(fully qualified domain name,fqdn);
40.所述全限定域名fqdn包括:服务名(也称为主机名)和域名,如:主机名是bigserver,域名是mycompany.com,那么fqdn就是bigserver.mycompany.com;
41.通过所述全限定域名fqdn可以获知暗网代理的暗网隐藏服务名和暗网代理域名;
42.步骤s102根据所述全限定域名fqdn识别暗网代理。
43.本技术实施例从被动流量解析数据中获取包含暗网代理信息的全限定域名fqdn,从而实现了根据所述全限定域名fqdn识别暗网代理。
44.在一示例性实施例中,所述被动流量解析数据为被动域名服务系统(passive domain name system,pdns)数据;由于dns映射关系是动态变化的,对dns进行查询只能查询到当前时刻的域名和ip地址之间的关系,无法知道dns历史信息(如全限定域名的过去指向),也不方便进行域名的深入分析(如子域名、域名新鲜度、反向解析信息等);而获取pdns数据时需要存储历史解析记录,因此pdns数据可以记录历史真实访问信息,也方便进行域名的深入分析。
45.在一示例性实施例中,所述pdns数据的获取方式包括以下一种或多种:
46.通过存储的dns流量数据,获取pdns数据;
47.从递归dns服务器存储的数据中,获取pdns数据。
48.在一示例性实施例中,为了保护用户隐私、所述pdns数据可以仅记录解析数据;而其他的信息,如用户请求数据可以不存储,保护了用户隐私。
49.在一示例性实施例中,为了提高检索效率、降低存储开销,所述pdns数据还可以仅记录解析数据中的解析类型(rcode)和解析结果(全限定域名和其对应的ip地址)这两部分字段。进一步地,为了降低存储数据量,可以将获取的pdns数据按照时间进行归并后存储,即将预设时间段内出现过的相同字段的pdns数据进行归并。
50.在一示例性实施例中,根据所述全限定域名fqdn识别暗网代理的方法,包括以下任一种或多种:
51.根据所述全限定域名fqdn的后缀识别暗网地址;
52.根据所述全限定域名fqdn的前缀识别暗网地址。
53.在一示例性实施例中,根据所述全限定域名fqdn的后缀识别暗网地址,包括:
54.判断所述后缀中是否包含预设的暗网代理域名,如果包含至少一个所述暗网代理域名,则将所述全限定域名fqdn识别为暗网代理。
55.所述预设的暗网代理域名可以为以下一种或多种:
56.onion、tor2web、t2web、t2w、tor、darknet、d2web;
57.由于代理服务为了便于推广和用户使用,通常会使用具有明确表示代理含义的域名后缀,因此本发明实施例使用关键字(所述关键字$keyword_list=onion|tor2web|t2web|t2w|tor|darknet|d2web)匹配的方法,找到包含预设暗网代理域名的全限定域名fqdn,可以实现对暗网代理的识别。
58.为了避免无关fqdn中恰好出现了预设的暗网代理域名而导致的“误报”问题,在另一示例性实施例中,根据所述全限定域名的后缀识别暗网地址,可以包括:
59.判断所述后缀中是否包含预设的暗网代理域名,以及判断所述全限定域名fqdn的格式是否符合暗网隐藏服务地址格式;如果包含至少一个所述预设的暗网代理,且所述全限定域名的格式符合暗网隐藏服务地址格式,则将所述全限定域名fqdn识别为暗网代理。
60.目前使用较多的所述暗网隐藏服务地址格式存在2个版本,分别是由服务器公钥处理后的16位base32编码、以及56位的base32编码;但是本领域技术人员应该知晓的是,暗网隐藏服务地址格式并不限于所述2个版本。
61.为了弥补后缀识别暗网代理方法中存在暗网代理域名不在预设的关键词列表中所导致的“漏报”问题,本技术实施例还提出了根据所述全限定域名fqdn的前缀识别暗网地址的方法。
62.在一示例性实施例中,根据所述全限定域名fqdn的前缀识别暗网地址,包括以下任一种或多种方式:
63.方式一,判断所述前缀中是否包含预设的暗网隐藏服务名,如果至少包含一个所述暗网隐藏服务名,则将所述全限定域名fqdn识别为暗网代理;可选的,所述暗网隐藏服务名可通过搜索引擎从公开的暗网隐藏服务列表中抓取;
64.方式二,从所述前缀中提取预设字段,根据所述预设字段进行校验计算,如果校验计算的结果满足预设要求,则将所述全限定域名识别为暗网代理。
65.可选的,从所述前缀中提取预设字段,根据所述预设字段进行校验计算,如果校验计算的结果满足预设要求,则将所述全限定域名识别为暗网代理,包括:从所述前缀中提取公钥、校验和以及版本号,根据所述公钥和版本号计算校验和,将计算得到的校验和与提取出的校验和进行比较,如果二者一致,则将所述全限定域名fqdn识别为暗网代理。如前述提到的56位的base32编码格式的服务地址,可以从具有该格式的fqdn的前缀中提取公钥(pubkey)、校验和(checksum)以及版本号(version)三个字段的字符串,然后按照协议根据提取出的公钥(pubkey)和版本号(version)计算校验和,将计算得到的校验和与提取出的校验和进行比对,如果一致,则将所述fqdn识别为暗网代理。
66.图2给出了一种对暗网代理进行识别的应用示例。
67.步骤s201获取pdns数据;
68.步骤s202从pdns数据中获取fqdn;
69.步骤s203判断fqdn的后缀中是否包含预设的暗网代理域名,以及判断所述fqdn的格式是否符合暗网隐藏服务地址格式;
70.当判断出fqdn的后缀中包含任一预设的暗网代理域名,且fqdn符合56位的base32编码格式,执行步骤s204;
71.当判断出fqdn的后缀中不包含任一预设的暗网代理域名,以及,fqdn不符合暗网隐藏服务地址格式中至少一个条件满足时,执行步骤s207;
72.步骤s204从具有该格式的fqdn的前缀中提取公钥(pubkey)、校验和(checksum)以及版本号(version)三个字段的字符串;
73.步骤s205根据提取出的公钥(pubkey)和版本号(version)计算校验和,将计算得到的校验和与提取出的校验和进行比对,如果一致,执行步骤s206;如果不一致,执行步骤s207;
74.步骤s206将fqdn识别为暗网代理。
75.步骤s207将fqdn识别为非暗网代理。
76.本技术实施例还提供了另一种暗网代理识别方法,如图3所示,所述方法包括:
77.步骤s301获取被动流量解析数据,所述被动流量解析数据中包含全限定域名fqdn;
78.步骤s302根据所述全限定域名fqdn识别暗网代理;
79.步骤s303根据所述被动流量解析数据判断识别出的暗网代理已成功解析出的暗网隐藏服务的次数是否大于预设阈值,如果大于预设阈值,执行步骤s304;如果小于或等于预设阈值,执行步骤s305;
80.可选的,可判断暗网代理解析出的rcode=0的服务次数是否大于预设阈值,如果大于,则认为该暗网代理已成功解析出的暗网隐藏服务的次数大于预设阈值;
81.步骤s304判断出所述识别出的暗网代理为有效暗网代理。
82.步骤s305判断出所述识别出的暗网代理为无效暗网代理。
83.在识别出暗网代理后,本技术实施例还可以对暗网代理的有效性进行进一步过滤。
84.在一示例性实施例中,所述方法还包括:
85.判断出所述识别出的暗网代理为有效暗网代理后,根据所述有效暗网代理是否支持访问判断所述有效暗网代理的类型,所述类型包括:历史有效暗网代理或当前存活暗网代理;
86.如果支持访问(如对暗网代理进行真实的http/https访问,如果能返回结果,则为支持访问),则为当前存活暗网代理;
87.如果不支持访问,则为历史有效暗网代理;
88.其中,历史有效暗网代理指的是历史有效,但当前无效的暗网代理;当前存活暗网代理指的是当前有效的暗网代理。
89.本技术发明人使用了114dns解析系统中的近六年pdns数据,将其进行部分字段提
取和聚合处理后作为初始的数据集,利用本技术实施例所述的暗网代理识别方法从中进行整个互联网规模的暗网代理识别。代理识别结果和有效性判断后的结果如表1所示。表1中,存在a记录的有效暗网代理数量和存在wildcard记录的有效暗网代理数量均包含了历史有效暗网代理数量和当前存活暗网代理数量。
[0090][0091]
表1
[0092]
从表1可见,本技术发明人对比了三种不同的暗网代理识别方法,来比较不同识别方法的有效性。值得说明的是,如果不使用本技术实施例提供的系统性的暗网代理识别方法,而仅通过搜索引擎的方式只能找到几十个暗网代理。相比之下,本技术实施例提供的暗网代理识别方法仅通过后缀的方法就可以识别出超过500个代理,再通过两种前缀识别方法的补充,每种方法都提高了约100个暗网代理数量,最终识别出超过700个互联网中存在的有效暗网代理。特别的,经过第三种暗网代理识别方法可判断出目前仍然能够提供代理服务的暗网代理数量为135个。
[0093]
基于识别出的历史有效暗网代理和当前存活暗网代理,本领域技术人员可以通过暗网代理服务器ip地址进一步观察暗网代理服务器在全世界的分布情况,如上述通过本发明实施例的识别方法识别出的超700个暗网代理分布于超过30个国家和地区,其中数量最多的5个国家及其暗网代理数目如表2所示,分别是美国、中国、德国、英国和新加坡。
[0094]
国家名称历史有效暗网代理数量当前存活暗网代理数量美国20082中国10116德国3012英国211新加坡142
[0095]
表2
[0096]
该结果也进一步说明了本技术实施例记载的暗网代理识别方法可以适用于较大规模甚至整个互联网范围的测量。
[0097]
本技术实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如前任一实施例所述的暗网代理识别方法。
[0098]
本技术实施例还提供了一种暗网代理识别装置,如图4所示,包括存储器401和处理器402,其中,存储器401中存储有以下可被处理器402执行的指令:用于执行如前任一实施例所述的暗网代理识别方法的步骤。
[0099]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。

技术特征:
1.一种暗网代理识别方法,包括:获取被动流量解析数据,所述被动流量解析数据中包含全限定域名;根据所述全限定域名识别暗网代理。2.根据权利要求1所述的方法,其特征在于,根据所述全限定域名识别暗网代理的方法,包括以下任一种或多种:根据所述全限定域名的后缀识别暗网地址;根据所述全限定域名的前缀识别暗网地址。3.根据权利要求2所述的方法,其特征在于,根据所述全限定域名的后缀识别暗网地址,包括:判断所述后缀中是否包含预设的暗网代理域名,如果包含至少一个所述暗网代理域名,则将所述全限定域名识别为暗网代理。4.根据权利要求2所述的方法,其特征在于,根据所述全限定域名的后缀识别暗网地址,包括:判断所述后缀中是否包含预设的暗网代理域名,以及判断所述全限定域名的格式是否符合暗网隐藏服务地址格式;如果包含至少一个所述预设的暗网代理,且所述全限定域名的格式符合暗网隐藏服务地址格式,则将所述全限定域名识别为暗网代理。5.根据权利要求2所述的方法,其特征在于,根据所述全限定域名的前缀识别暗网地址,包括以下任一种或多种方式:判断所述前缀中是否包含预设的暗网隐藏服务名,如果至少包含一个所述暗网隐藏服务名,则将所述全限定域名识别为暗网代理;从所述前缀中提取预设字段,根据所述预设字段进行校验计算,如果校验计算的结果满足预设要求,则将所述全限定域名识别为暗网代理。6.根据权利要求5所述的方法,其特征在于,从所述前缀中提取预设字段,根据所述预设字段进行校验计算,如果校验计算的结果满足预设要求,则将所述全限定域名识别为暗网代理,包括:从所述前缀中提取公钥、校验和以及版本号,根据所述公钥和版本号计算校验和,将计算得到的校验和与提取出的校验和进行比较,如果二者一致,则将所述全限定域名识别为暗网代理。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述方法还包括:根据所述全限定域名识别暗网代理后,根据所述被动流量解析数据判断识别出的暗网代理已成功解析出的暗网隐藏服务的次数是否大于预设阈值,如果大于预设阈值,则判断出所述识别出的暗网代理为有效暗网代理。8.根据权利要求7所述的方法,其特征在于,所述方法还包括:判断出所述识别出的暗网代理为有效暗网代理后,根据所述有效暗网代理是否支持访问判断所述有效暗网代理的类型,所述类型包括:历史有效暗网代理或当前存活暗网代理;如果支持访问,则为当前存活暗网代理;如果不支持访问,则为历史有效暗网代理。9.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~8中任一项所述的暗网代理识别方法。
10.一种暗网代理识别装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~8中任一项所述的暗网代理识别方法的步骤。

技术总结
一种暗网代理识别方法、装置和可读存储介质,其中,所述方法包括:获取被动流量解析数据,所述被动流量解析数据中包含全限定域名;根据所述全限定域名识别暗网代理。根据所述全限定域名识别暗网代理。根据所述全限定域名识别暗网代理。


技术研发人员:王之梁 韩东岐 李城龙 何直泽 王尚东 陈闻起 杨家海 施新刚 尹霞
受保护的技术使用者:奇安信科技集团股份有限公司
技术研发日:2022.07.11
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-6286.html

最新回复(0)