网页正文区域及正文信息处理方法、系统、设备、介质与流程

专利2024-07-21  41

1.本技术涉及信息处理
技术领域
:,具体涉及一种网页正文区域及正文信息处理方法、系统、设备、介质。
背景技术
::2.随着互联网技术发展,互联网站点数量及页面信息呈爆炸式增加,互联网亦已成为人们获取信息的主要方式。然而,由于商业因素的问题,这些站点在为人们提供有价值的信息的同时,还会包含其他信息,例如广告或其他网站的链接。这些内容不仅会降低人们的阅读体验,还会降低搜索引擎效率。3.在针对网页信息提取处理中,现有方案只能针对特定的网页进行处理,通用性不高,且提取效率和准确性亦不高。4.因此,需要一种网页信息提取新方案。技术实现要素:5.有鉴于此,本说明书实施例提供一种网页正文区域及正文信息处理方法、系统、设备、介质,可以适用于多记录类型网页,比如从多记录型网页中抽取出网页正文信息,从网页中准确地识别处正文所在区域,具有更好的鲁棒性和更高的准确度。6.本说明书实施例提供以下技术方案:7.本说明书实施例提供一种网页正文区域处理方法,包括:8.获取待处理网页对应的dom树,其中所述dom树的dom节点包含有该dom节点对应的视觉信息和内容信息;9.基于dom树中目标节点的视觉信息,确定所述目标节点对应的视觉面积占比,其中所述视觉面积占比包括所述目标节点的视觉面积与所述待处理网页的视觉面积之比值;10.基于dom树中所述目标节点的内容信息,确定所述目标节点对应的内容长度占比和符号密度,其中所述内容长度占比包括所述目标节点及其所有子孙节点的文本长度的总和与所述待处理网页上所有节点的文本长度的总和之比值,所述符号密度包括所述目标节点中除链接外的文本长度与符号数量之比值;11.沿dom树自顶向下逐层搜索各节点,以根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点;12.当确定当前搜索的所述目标节点属于表征网页正文区域的dom节点,则将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点。13.本说明书实施例还提供一种网页正文信息处理方法,包括:14.获取待处理网页中各正文区域对应的目标候选节点,其中所述目标候选节点为通过本说明书中任一项实施例所述的网页正文区域处理方法对所述待处理网页处理后得到的正文区域对应的候选节点;15.对所述目标候选节点下的所有子节点进行聚类,以获得所述目标候选节点对应的第一聚类结果;16.将所述第一聚类结果中最大的簇对应的子节点确定为目标数据记录,其中所述目标数据记录为包含有正文信息的数据记录。17.本说明书实施例还提供一种网页正文区域处理系统,包括:18.第一获取模块,获取待处理网页对应的dom树,其中所述dom树的dom节点包含有该dom节点对应的视觉信息和内容信息;19.第一计算模块,基于dom树中目标节点的视觉信息,确定所述目标节点对应的视觉面积占比,其中所述视觉面积占比包括所述目标节点的视觉面积与所述待处理网页的视觉面积之比值;20.第二计算模块,基于dom树中所述目标节点的内容信息,确定所述目标节点对应的内容长度占比和符号密度,其中所述内容长度占比包括所述目标节点及其所有子孙节点的文本长度的总和与所述待处理网页上所有节点的文本长度的总和之比值,所述符号密度包括所述目标节点中除链接外的文本长度与符号数量之比值;21.第一遍历模块,沿dom树自顶向下逐层搜索各节点,以根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点;22.第一候选模块,当确定当前搜索的所述目标节点属于表征网页正文区域的dom节点,则将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点。23.本说明书实施例还提供一种网页正文信息处理系统,包括:24.第二获取模块,获取待处理网页中各正文区域对应的目标候选节点,其中所述目标候选节点为通过权利要求1-8中任一项所述的网页正文区域处理方法对所述待处理网页处理后得到的正文区域对应的候选节点;25.聚类模块,对所述目标候选节点下的所有子节点进行聚类;26.第二候选模块,将聚类结果中最大的簇对应的子节点确定为目标数据记录,其中所述目标数据记录为包含有正文信息的数据记录。27.本说明书实施例还提供一种电子设备,包括:28.至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:如本说明书中任意一项实施例所述网页正文区域处理方法,或者所述网页正文信息处理方法。29.本说明书实施例还提供一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时执行如本说明书中任意一项实施例所述网页正文区域处理方法,或者所述网页正文信息处理方法。30.与现有技术相比,本说明书实施例采用的上述至少一个技术方案能够达到的有益效果至少包括:31.通过利用dom节点的视觉信息和内容信息,沿着dom树自顶向下逐层寻找所有可能指示网页正文区域的dom节点,并将这些节点作为正文区域加入到候选正文集合中,便于后续基于这些正文区域进行正文信息提取处理。因此,在基于视觉信息对网页正文信息所对应的正文区域进行识别提取处理中,不仅可以准确、高效地从网页中识别提取出正文区域,而且无需针对特定网页结构的网站,具有较强的通用性,具有更好的鲁棒性和更高的准确度,很好地适用于对多记录型网页信息提取方法。附图说明32.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。33.图1是本技术中的一种网页正文区域处理方法的结构示意图;34.图2是本技术中的一种网页正文区域处理方法的流程图;35.图3是本技术中的一种网页正文区域处理系统的结构示意图;36.图4是本技术中的一种网页正文信息处理方法的流程图;37.图5是本技术中的一种网页正文信息处理方法中相似度加权组合对应的试验效果的示意图;38.图6是本技术中的一种网页正文信息处理系统的结构示意图;39.图7是本技术中的一种对网页进行正文处理的流程图;40.图8是本技术中的一种网页呈现结果的示意图;41.图9是本技术中的加载网页对应dom树的局部结构示意图;42.图10是本技术中的dom树中节点使用xpath表达式表达路径信息的示意图;43.图11是本技术中的视觉信息的示意图;44.图12是本技术中的正文区域确定结果的示意图;45.图13是本技术中的数据记录确定结果的结构示意图;46.图14是本技术中的正文信息对应的正文区域呈现效果的示意图;47.图15是本技术中的正文信息提取结果的示意图。具体实施方式48.下面结合附图对本技术实施例进行详细描述。49.以下通过特定的具体实例说明本技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本技术的其他优点与功效。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。本技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。50.要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本技术,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目和方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。51.还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本技术的基本构想,图式中仅显示与本技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。52.另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践。53.目前,按照网页布局可以将网页分成单记录型网页和多记录型网页。单记录型网页信息的抽取相对容易实现,现有网页信息抽取方案已经能够解决单记录型网页的信息抽取问题。但是,对多记录型页面的信息提取效果不佳。54.其中,针对多记录型网页的信息抽取方法分为两大类技术路线:基于dom结构的抽取方案和基于视觉的抽取方案。基于dom结构的抽取,是将html文档解析为相应的dom树,然后根据dom树的语法创建提取规则,准确率和性能较高,但当网页的dom树较深且含有大量dom节点的时候,该类算法的时间和空间复杂度较高。而基于视觉的网页信息抽取方法,在当前网页信息提取技术中逐步显露头角,属于一种较先进的解决路线,其中基于视觉信息的网页信息提取方法,先通过浏览器接口或内核对目标网页进行预渲染,然后基于网页的视觉规律提取网页数据记录,但由于技术实现难度大,现有方案更多是针对特定网页进行提取,通用性差,而且网页信息提取的准确性和效率有待提高。55.有鉴于此,发明人通过对各类网站、网页结构及其页面信息,以及对各种提取方案进行深入研究及改进探索,发现:现有方案在面对各种各样的网页时,无法准确、有效地识别并提取到网页正文信息所在的区域(可称为正文区域),即正文区域不能够被准确、高效地识别提取,造成了现有方案在实际应用中存在通用性低,准确性差,效率不高等问题。56.因此,若能够对网页正文信息所在的正文区域进行高效识别提取处理,网页正文信息提取方案的通用性、准确性、效率等必然能得到实质性提升。57.基于此,本说明书实施例提出了一种基于视觉信息对网页正文信息所在的正文区域进行识别提取的处理方案:如图1所示,dom树上每一个节点对应网页上的一个区域,而且正文区域通常由数据记录依次排列组合而成,在页面上具有较大的视觉区域,包含丰富的文本内容,同时网页正文一般有相应标点符号,因而可将正文区域的这些特征,共同用于正文区域的识别提取处理。具体地,利用dom节点的视觉信息和内容信息,沿着dom树自顶向下逐层寻找所有可能指示网页正文区域的dom节点,并将这些节点作为候选节点加入到代表正文区域对应dom节点的候选正文集合中,其中在搜索时,若当前候选节点中存在同时满足视觉面积、内容长度和符号密度这三个条件的子节点,则该子节点可以记为能够表征网页正文区域的dom节点,从而可准确、快速地提取出网页中能够表征正文区域的相关节点(即正文区域对应的dom节点)。58.以下结合附图,说明本技术各实施例提供的技术方案。59.如图2所示,本说明书实施例提供一种网页正文区域处理方法,可包括:60.步骤s202、获取待处理网页对应的dom树,其中所述dom树的dom节点包含有该dom节点对应的视觉信息和内容信息。61.实施中,根据w3c标准,网页的正文内容一般在body标签中,所以这里可取body标签作为根节点构造dom树。62.内容信息是html网页的主体部分,可包括网页文档中的标签、文本、链接、媒体等数据信息,可以由html文档通过自然语言处理直接获得。其中,标签指html语义标签,通常成对出现,比如《div》、《table》等html标签;文本指dom树中节点内嵌的文本(contenttext);链接指文本中链接的数量(linknum);媒体指图片、多媒体等。63.视觉信息是指网页的视觉呈现,其中视觉信息可包括文字、盒模型、布局及背景等方面的css属性信息。文字属性可指视觉呈现中表征文字特征的属性,可包括字体颜色、字体类型、字体大小、字体粗细、字体系列等指标;盒模型可指视觉呈现中表征元素特征的属性,可包括元素宽度、元素高度、元素内边距、元素边框、元素外边距、元素的大小计算模式等指标;布局可指视觉呈现中表征元素之间关系特征的属性,可包括父元素的边界之间的偏移(元素的相对偏移)、元素外边距边界与页面的边界之间的偏移(元素的绝对偏移)、元素的内容溢出规则、元素内的内容对齐方式(水平和垂直)等指标;背景可指视觉呈现中表征背景特征的属性,可包括背景颜色、背景图像、背景图像的绘制起始位置、背景图像的重复规则、背景图像的绘制尺寸等指标。64.需要说明的是,每个网页都可以被解析成一颗dom树,所有的标签都是节点,而文字和图片等都是叶子节点。这里,获取dom树时,可以为从外部输入的dom树数据信息,也可以为在本地将网页处理得到的该网页对应的dom树。65.步骤s204、基于dom树中目标节点的视觉信息,确定所述目标节点对应的视觉面积占比,其中所述视觉面积占比包括所述目标节点的视觉面积与所述待处理网页的视觉面积之比值。66.实施中,dom树上每一个节点对应网页上的一个区域,因而dom节点在页面上表现为具有一定大小面积的区域。通常正文区域具有较大的视觉面积,可通过面积大小来判断该节点是否可能属于指示正文区域的节点,其中节点在页面上的视觉面积area_node可以使用该节点的width属性和height属性相乘得到。而网页的页面面积area_page可以通过body节点的width属性和height属性相乘得到。因此,节点的视觉面积占比area_rate的计算公式为:area_rate=area_node/area_page。67.通过视觉信息可准确地获得节点对应的视觉面积占比,在得到视觉面积占比后,可通过视觉面积占比去确定节点可能属于正文区域对应的节点,进而将可能属于正文区域对应的节点从众多节点中选取出来。68.步骤s206、基于dom树中所述目标节点的内容信息,确定所述目标节点对应的内容长度占比和符号密度,其中所述内容长度占比包括所述目标节点及其所有子孙节点的文本长度的总和与所述待处理网页上所有节点的文本长度的总和之比值,所述符号密度包括所述目标节点中除链接外的文本长度与符号数量之比值。69.实施中,网页的正文区域通常包含了网页最丰富的信息,一般内容长度较长,而非正文区域的内容长度通常较短,因而可采用内容长度来反映节点属于正文区域的可能性。70.具体地,采用内容长度占比来衡量内容长度情况。其中,节点的内容长度占比cont_rate可通过公式计算:cont_rate=cont_node/cont_page。,cont_node为该节点及其所有子孙节点的文本长度的总和,cont_page为该页面上所有节点的文本总长度。71.实施中,非正文通常会比较少字,而且非正文中可能没有符号,比如属于非正文的一些导航信息,而正文通常包含较多文字及相应符号,比如新闻内容,比如讨论内容等。因此,可采用符号密度来判别节点是否属于正文区域对应节点的可能性,其中符号密度为节点中文字数量与符号数量的比值,这里将节点的符号密度定义为不带链接的文本长度与符号数量的比值,其中linkcont_node记为该节点及其所有子孙节点中带链接的文本长度总和,sym_node表示该节点及其所有子孙节点中的文本中标点符号的数量,则该节点的符号密度sd_rate为:sd_rate=(cont_node-linkcont_node)/(sym_node+1)。72.通过从内容信息中提取出能够表征节点可能指示正文区域的两类参数(即内容长度占比和符号密度),可快速、准确地根据这两类参数确定节点属于正文区域对应节点的可能。73.步骤s208、沿dom树自顶向下逐层搜索各节点,以根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点。74.实施中,当节点的视觉面积占比、内容长度占比和符号密度均同时能够反映该节点可能属于正文区域节点(即正文区域对应的节点,本说明书不作区分)时,则可将该节点作为正文区域节点进行识别提取。75.通过以节点的视觉面积占比、内容长度占比和符号密度这三个参数,共同去确定当前节点是否属于表征网页正文区域的dom节点,不仅简化正文区域对应节点的提取方案,改善了提取方案在面对不同类型网页时的通用性,也提高了正文区域节点识别提取效率,以及能保证所提取到的节点属于正文区域节点具有较高的准确性。76.步骤s210、当确定当前搜索的所述目标节点属于表征网页正文区域的dom节点,则将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点。77.实施中,可将识别提取到的候选节点构成集合,便于对集合进行遍历操作。具体地,可先定义出正文区域候选集合n,然后将dom树的根节点加入到候选集合n中,进而依次遍历候选集合n中的所有节点,并在遍历中确定出候选节点时,新候选节点加入到候选集合n中。78.具体地,对于当前遍历的候选节点,基于前述的视觉面积占比、内容长度占比和符号密度这三个参数,依次判断其各个子节点是否可能属于候选节点,若属于候选节点,则将该子节点加入到候选集合n中。79.上述步骤s202至步骤s210,基于dom树的视觉信息和内容信息,即同时基于视觉面积占比、内容长度占比和符号密度这三类参数,可快速准确地对dom树的各个节点进行遍历后识别提取,从而将可能属于正文区域对应的节点作为候选节点提取出来。80.在一些实施方式中,在获取网页对应的dom树中,可通过浏览器或者浏览器内核直接对网页进行解析和渲染来获得带视觉信息和内容信息的dom树。81.实施中,浏览器可根据语法结构来解析网页的html代码,并在对网页的资源进行解析和渲染后,提供脚本的运行环境及网页的视觉呈现,从而可获得dom树,其中dom树中的dom节点可以带有视觉信息和内容信息。具体地,通过浏览器或者浏览器内核,对待处理网页对应的网页文档及资源进行解析和渲染;在所述待处理网页经解析和渲染后,获取所述待处理网页对应的dom结构信息、内容信息和视觉信息;以及根据所述dom结构信息构建所述待处理网页对应的dom树。82.通过浏览器或者浏览器内核直接获得带视觉信息和内容信息的dom树,可方便处理方案对实际的网页构建dom树,更好地适应不同网页类型的应用。83.在一些实施方式中,可直接基于浏览器或者浏览器内核,下载指定url对应的网页资源,便于在本地端快速生成dom树。84.实施中,在对待处理网页对应的网页文档及资源进行解析和渲染前,所述网页正文区域处理方法还包括:通过浏览器或者浏览器内核,接收所述待处理网页对应的url地址;根据所述待处理网页对应的目标链接,获取所述目标链接对应的网页文档及资源。85.在一些实施方式中,可根据网页中各类标签的具体含义,对网页的dom树预先进行去噪处理。86.实施中,在获取待处理网页对应的dom树后,所述网页正文区域处理方法还包括:将与网页正文信息无关的dom节点及其所有子孙节点从dom树中删除。87.例如,根据html标签的具体含义,将与网页正文信息无关的dom节点及其所有子孙节点从dom树中删除,比如:footer、nav、aside、script、style、svg、meta等。88.在一些实施方式中,在以视觉面积占比、内容长度占比和符号密度这三类参数共同决定节点是否属于正文区域节点时,可针对这三类参数分别设置各自对应的预设条件,进而节点识别提取中可以及预设条件快速确定节点是否属于正文区域节点。89.具体地,根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点,包括:确定所述目标节点对应的所述视觉面积占比、所述内容长度占比和所述符号密度是否符合各自对应的预设条件;以及,若所述视觉面积占比、所述内容长度占比和所述符号密度同时各自对应的预设条件,则确定当前搜索的所述目标节点属于表征网页正文区域的dom节点。90.在一种示例中,可针对这些参数设置对应的阈值,并当实际值大于阈值时,可以判别当前节点属于正文区域节点的可能性较高。91.例如,当前节点的视觉面积占比是否超过第一阈值ta,若是,当前节点属于正文节点的可能性适应判别为较高;当前节点的内容长度占比是否超过第二阈值tc,若是,当前节点属于正文节点的可能性适应判别为较高;符号密度是是否超过第三阈值ts,若是,当前节点属于正文节点的可能性适应判别为较高。相应地,只有三个参数与预设阈值的关系能同时表明该当前节点属于正文节点的可能性适应判别为较高时,当前节点才能被提取并标记为正文区域节点,否则不作为正文区域节点进行识别提取处理。92.通过同时对三个参数与预设条件进行判别,不仅提取的准确性高,而且当其中之一与预设条件不符时,可快速结束该节点的识别提取处理,处理效率得到保证。93.在一些实施方式中,在对dom树进行遍历中,可采用xpath表达式来唯一表示每个节点的路径信息,便于dom树进行遍历操作以及针对后续正文区域节点中的正文信息定位、提取等处理操作。94.具体地,沿dom树自顶向下逐层搜索各节点,包括:将dom树中的每个节点,采用xpath表达式进行表达,其中以dom树中从上到下、从左到右的方向进行xpath表达式的表达。95.需要说明的是,dom树中还可以从上到下、从右到左的方向进行xpath表达式的表达,这里仅作示例性说明。96.在一些实施方式中,在基于xpath表达式表示节点的路径信息基础上,可将识别提取得到的正文区域节点同样使用xpath表达式表示,方便后续对正文区域节点的数据进行处理。97.实施中,将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点,包括:将所述表征网页正文区域的dom节点对应的xpath表达式,提取为正文区域对应的候选节点对应的xpath表达式。98.在一些实施方式中,在针对dom树进行遍历以识别提取出正文区域节点中,由于是沿着dom树根节点从上到下逐层查找的,候选节点之间通常存在嵌套关系,并且候选节点的集合中越靠后的dom节点是真正的正文区域的可能性越大,因而还可以通过遍历候选节点的集合中各个节点,将最有可能是正文区域节点识别提取处理。99.具体地,所述网页正文区域处理方法还包括:确定每个候选节点的子节点是否已被遍历。其中,若候选集合中存在尚未遍历的节点,则对未遍历的节点基于前述三类参数同时确定该未遍历的节点是否属于正文区域节点。另外,当遍历所有节点后,遍历过程可结束,完成正文区域节点的识别提取处理。100.基于相同发明构思,本说明书实施例提供与前述任意一个实施例所述网页正文区域处理方法对应的一种网页正文区域处理系统、电子设备及计算机存储介质。101.如图3所示,本说明书实施例提供的一种网页正文区域处理系统300,可包括第一获取模块301、第一计算模块303、第二计算模块305第一遍历模块307以及第一候选模块309。102.其中,第一获取模块301,用于获取待处理网页对应的dom树,其中所述dom树的dom节点包含有该dom节点对应的视觉信息和内容信息;103.第一计算模块303,用于基于dom树中目标节点的视觉信息,确定所述目标节点对应的视觉面积占比,其中所述视觉面积占比包括所述目标节点的视觉面积与所述待处理网页的视觉面积之比值;104.第二计算模块305,用于基于dom树中所述目标节点的内容信息,确定所述目标节点对应的内容长度占比和符号密度,其中所述内容长度占比包括所述目标节点及其所有子孙节点的文本长度的总和与所述待处理网页上所有节点的文本长度的总和之比值,所述符号密度包括所述目标节点中除链接外的文本长度与符号数量之比值;105.第一遍历模块307,用于沿dom树自顶向下逐层搜索各节点,以根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点;106.第一候选模块309,用于当确定当前搜索的所述目标节点属于表征网页正文区域的dom节点,则将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点。107.需要说明的是,第一计算模块303和第二计算模块305可统一为对三个参数进行计算的处理单元,进而该计算处理单元可在获得dom树,统一计算出三类参数。108.可选地,获取待处理网页对应的dom树,包括:通过浏览器或者浏览器内核,对待处理网页对应的网页文档及资源进行解析和渲染;在所述待处理网页经解析和渲染后,获取所述待处理网页对应的dom结构信息、内容信息和视觉信息;根据所述dom结构信息构建所述待处理网页对应的dom树。109.可选地,所述网页正文区域处理系统还可包括:输入单元(图中未示出),用于在本地端执行如下处理操作:在对待处理网页对应的网页文档及资源进行解析和渲染前,通过浏览器或者浏览器内核,接收所述待处理网页对应的url地址;以及,根据所述待处理网页对应的目标链接,获取所述目标链接对应的网页文档及资源。110.可选地,所述网页正文区域处理系统还可包括:第一去噪模块(图中未示出),用于在本地端执行如下处理操作:在获取待处理网页对应的dom树后,将与网页正文信息无关的dom节点及其所有子孙节点从dom树中删除。111.可选地,根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点,包括:确定所述目标节点对应的所述视觉面积占比、所述内容长度占比和所述符号密度是否符合各自对应的预设条件;以及,若所述视觉面积占比、所述内容长度占比和所述符号密度同时各自对应的预设条件,则确定当前搜索的所述目标节点属于表征网页正文区域的dom节点。112.可选地,沿dom树自顶向下逐层搜索各节点,包括:将dom树中的每个节点,采用xpath表达式进行表达,其中以dom树中从上到下、从左到右的方向进行xpath表达式的表达。113.可选地,将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点,包括:将所述表征网页正文区域的dom节点对应的xpath表达式,提取为正文区域对应的候选节点对应的xpath表达式。114.可选地,第一遍历模块还用于:确定每个候选节点的子节点是否已被遍历。115.需要说明的是,关于网页正文区域处理系统300的其他细节可参照前述对于网页正文信息提取方法的相关描述,此处不再赘述。116.应当注意,尽管在上文详细描述中提及了网页正文信息提取系统的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。117.基于相同发明构思,本说明书实施例提供与前述任意一个实施例所述网页正文区域处理方法对应的一种用于网页正文区域处理的电子设备,所述电子设备包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:如本说明书中任意一项实施例所述的网页正文区域处理方法。118.基于相同发明构思,本说明书实施例提供一种用于网页正文信息提取的计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时执行如本说明书中任意一实施例提供的所述网页正文区域处理方法。119.需要说明的是,所述计算机存储介质可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。120.在可能的实施方式中,本技术还可以提供将数据处理实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行前述任意一个实施例所述方法中的若干步骤。121.其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本技术中的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。122.基于相同发明构思,本说明书实施例提供一种网页正文信息处理方法、系统、电子设备及存储介质,以基于本说明书中任意一项实施例给出的正文区域进行正文信息的应用处理。123.如图4所示,本说明书实施例提供一种网页正文信息处理方法,包括:124.步骤s402、获取待处理网页中各正文区域对应的目标候选节点,其中所述目标候选节点为通过本说明书中前述任一项所述的网页正文区域处理方法对所述待处理网页处理后得到的正文区域对应的候选节点。125.实施中,可采用如本说明书中上述任意一项实施例所述的网页正文区域处理,对待处理网页进行正文区域识别提取处理,以获得dom树中可能属于正文区域对应的候选节点。126.需要说明的是,正文区域对应的候选节点可为通过所述网页正文区域处理方法预先得到的结果,也可为对当前网页在本地端进行处理获得的当前结果,这里不作限定。因此,候选节点的获取方式、来源等也不作限定。127.步骤s404、对所述目标候选节点下的所有子节点进行聚类,以获得所述目标候选节点对应的第一聚类结果。128.在多记录型复杂网页中,数据记录通常都是正文区域的子块,并且这些子块一般都具有相似的特性,比如dom结构和视觉信息。因此,可针对正文候选集合中的各个dom节点,依次判断其所包含的区域内是否含有dom结构及视觉信息相似的多个子块。若找到则认为这些子块即为数据记录。129.基于此,可对目标候选节点下的所有子节点进行聚类,通过聚类结果可快速判别出目标候选节点是否包含有正文信息(也可称为数据记录,这里不做区分)。130.步骤s406、将所述第一聚类结果中最大的簇对应的子节点确定为目标数据记录,其中所述目标数据记录为包含有正文信息的数据记录。131.实施中,可将最大的簇对应的子节点确定为目标数据记录,保证正文信息的识别效率和准确性。132.在一些实施方式中,若在聚类结果中发现所述目标候选节点的各个子节点各自单独成一簇,则确定所述目标候选节点所对应区域里的内容不属于所述目标数据记录。133.通过上述步骤s402至s406,针对正文区域节点进行聚类处理,进而将最大的簇对应的子节点确定为目标数据记录,可适应不同类型网页的正文信息识别提取,也提高了正文信息的识别提取效率和准确性。134.在一些实施方式中,在聚类中,可利用当前节点下各个子节点之间的相似特性进行聚类处理。135.实施中,在对所述目标候选节点下的所有子节点进行聚类前,可先确定所述目标候选节点的任意两个子节点之间的相似度,进而对所述目标候选节点下的所有子节点进行聚类时,可以根据所述相似度进行高效、准确的聚类处理。136.在一些实施方式中,通过计算该节点的任意两个子节点之间的相似度,其中相似度可包括dom结构相似度和视觉信息相似度,进而将两个子节点之间的相似度进行加权处理,来获得加权后的相似度结果。137.具体地,确定所述目标候选节点的任意两个子节点之间的相似度,包括:确定所述目标候选节点的任意两个子节点之间的dom结构相似度和视觉信息相似度,进而根据所述dom结构相似度和所述视觉信息相似度的加权计算,以确定所述目标候选节点的任意两个子节点之间的相似度结果,其中所述dom结构相似度的权重与所述视觉信息相似度的权重之和为1。138.实施中,dom结构相似度可定义如下:假设该节点的任意两个子节点a和子节点b,其对应的dom子树节点路径集合分别为path_a和path_b,使用jaccard系数可定义这两个子树之间的dom结构相似度dom_sim_ab,其中dom结构相似度dom_sim_ab的计算:139.视觉相似度的定义可以如下:假设该节点的任意两个子节点a和子节点b,则这两个子节点对应的视觉信息中对应值相等的css属性个数记为css_equ,所有的css属性总数记为css_all,则这两个子节点的视觉信息相似度为记为css_sim_ab,其中视觉信息相似度css_sim_ab的计算公式为:css_sim_ab=css_equ/css_all。140.该节点的任意两个子节点a和子节点b之间的加权相似度sim_ab:sim_ab=a*dom_sim_ab+b*css_sim_ab,其中a为dom结构相似度的权重,b为视觉相似度的权重,且a+b=1。141.需要说明的是,权重a、b可根据实际应用进行设定、调整。如图5所示,应用本说明书实施例提供的所述网页正文信息处理方法进行网页正文信息处理时,权重a、b取值组合的试验结果对比情况,其中不同a、b取值组合下,精确率、召回率和f1存在较小差异,这里不对权重取值组合作限定。142.在一些实施方式中,在确定出数据记录对应的dom节点后,可通过对dom子树进行精简处理,简化该dom子树,有利于提高数据记录的处理准确性和效率。143.具体地,在确定出目标数据记录后,所述网页正文信息处理方法还包括:提取每个目标数据记录对应的dom子树,进而按照所述dom子树中各个节点的视觉信息,对所述dom子树进行精简。144.实施中,可包括如下至少一种精简操作:①将不可见的分支如(display属性为none)从树结构删除;②将不含有文本内容的分支删除;③从dom树的叶子节点开始往上查找,如果一个块级元素节点的所有子元素节点都是行级元素(display为inline且margin-left和margin-right为0px),则将其子元素节点合并到当前节点上。145.在一些实施方式中,在html中,元素主要分为行内元素和块级元素。行内元素书写完成后不会自动换行,而块级元素写完后会自动换行。为了保证从各个数据记录中抽取出的内容更加符合视觉规律,需要先将行级元素合并到其父节点或祖先节点上,然后再进行数据记录内容提取。146.实施中,对所述dom子树进行精简,可包括:从所述dom子树的叶子节点从下往上查找,并当确定出一个块级元素节点的所有子元素节点均为行级元素,则将所述块级元素节点的子元素节点合并到当前所述块级元素节点上。147.在一些实施方式中,在确定出目标数据记录所在的正文区域后,可从该正文区域提取出正文信息。148.具体地,可通过提取出所述dom子树上的叶子节点对应的文本内容,来获得正文区域中的正文信息。149.在一些实施方式中,在面对不同类型网页时,可针对网页设置通用的一些噪声信息,进而可根据预设的噪声信息,将正文信息中包含的噪声剔除,有利于提高正文信息的提取准确信。具体地,可根据预设的噪声信息,将所述文本内容中的噪声信息删除。150.需要说明的是,噪声信息进而更实际应用进行预设、调整等。例如,针对论坛性的网页,可设置的噪声信息有“点赞”、“分享”、“回复”,“转发”等内容,进而通过判断正文信息中是否包含有这些内容,从而将其抽取出来后作删除处理。151.如图6所示,本说明书实施例还提供一种网页正文信息处理系统500,包括:第二获取模块501、聚类模块503和第二候选模块505。152.其中,第二获取模块501,用于获取待处理网页中各正文区域对应的目标候选节点,其中所述目标候选节点为通过权利要求1-8中任一项所述的网页正文区域处理方法对所述待处理网页处理后得到的正文区域对应的候选节点;153.聚类模块503,用于对所述目标候选节点下的所有子节点进行聚类;154.第二候选模块505,用于将聚类结果中最大的簇对应的子节点确定为目标数据记录,其中所述目标数据记录为包含有正文信息的数据记录。155.可选地,所述网页正文信息处理系统还包括:相似度处理模块(图中未示出),用于在对所述目标候选节点下的所有子节点进行聚类前,确定所述目标候选节点的任意两个子节点之间的相似度,因而聚类模块503具体用于:根据所述相似度,对所述目标候选节点下的所有子节点进行聚类。156.可选地,确定所述目标候选节点的任意两个子节点之间的相似度,包括:确定所述目标候选节点的任意两个子节点之间的dom结构相似度和视觉信息相似度;以及,根据所述dom结构相似度和所述视觉信息相似度的加权计算,以确定所述目标候选节点的任意两个子节点之间的相似度结果,其中所述dom结构相似度的权重与所述视觉信息相似度的权重之和为1。157.可选地,所述网页正文信息处理系统还包括:修剪模块(图中未示出),用于提取每个目标数据记录对应的dom子树,进而按照所述dom子树中各个节点的视觉信息,对所述dom子树进行精简。158.可选地,对所述dom子树进行精简,包括:从所述dom子树的叶子节点从下往上查找,并当确定出一个块级元素节点的所有子元素节点均为行级元素,则将所述块级元素节点的子元素节点合并到当前所述块级元素节点上。159.可选地,所述网页正文信息处理系统还包括:提取模块(图中未示出),用于提取出所述dom子树上的叶子节点对应的文本内容。160.可选地,所述网页正文信息处理系统还包括:第二去噪模块(图中未示出),用于根据预设的噪声信息,将所述文本内容中的噪声信息删除。161.可选地,第二候选模块505还用于:若在聚类结果中发现所述目标候选节点的各个子节点各自单独成一簇,则确定所述目标候选节点所对应区域里的内容不属于所述目标数据记录。162.本说明书实施例还提供一种用于网页正文信息处理的电子设备,所述电子设备包括至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:如本说明书中任意一项实施例所述的网页正文信息处理方法。163.需要说明的是,该电子设备的说明,具体可参照前述实施例的说明方式,这里不再展开说明。164.本说明书实施例提供一种用于网页正文信息处理的计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时执行:如本说明书实施例提供的任意一种网页正文信息处理方法。165.需要说明的是,该计算机存储介质的说明,具体可参照前述实施例的说明方式,这里不再展开说明。166.本说明书中的各个实施例均可通过不同组合方式以形成不同应用方案,而具体组合方式可根据实际应用需要进行确定,这里不作限定。下面以一个实施示例进行组合应用方案的示意性说明,但本领域的技术人员应当能够理解的是,组合应用方案中仍可以包含有多种不同的组合方案。167.如图7所示,本说明书实施例提供一种网页数据处理应用方案,主要处理流程包括以下几个阶段:网页解析和渲染、获取网页信息、网页去噪、确定数据记录、提取数据记录内容。168.为便于理解和进行示意说明,下面以一个网页的应用处理为例进行说明。169.第一步,网页解析和渲染。170.这里先接收url地址,进而对url对应的网页进行解析和渲染。其中,以贴吧中一个主题讨论的网页为例,其url输入为:https://tieba.baidu.com/p/7257877399;通过浏览器或者浏览器内核,下载目标链接的网页文档及相关资源,对网页进行资源解析和渲染,提供脚本的运行环境及网页的视觉呈现,加载的网页输出结果如图8所示。171.第二步,获取网页信息。172.网页经过解析和渲染之后可以获取以下几个方面的信息,包括dom结构信息,文本信息(即内容信息)以及视觉信息。173.dom结构信息可构建出dom树。根据w3c标准,网页的正文内容一般在body标签中,所以这里取body标签作为根节点构造dom树。174.其中,dom树的结构可以如图9所示:dom树可以由每个网页的html源码解析得到。需要说明的是,本领域的技术人员你用的能够理解的是,鉴于贴吧网页的html源码较长,对应的dom树结构过于庞大,因而图9中仅示出一个简短图示。175.后续步骤中为了能唯一标识dom树中的每个节点,使用了xpath表达式。以上dom树中从上到下从左到右各个结点对应的xpath表达式依次表达后,结果如图10所示。176.另外,根据html标签的具体含义,可将与网页正文信息无关的dom节点及其所有子孙节点从dom树中删除,比如:footer、nav、aside、script、style、svg、meta等。177.内容信息主要包括网页文档中的标签、文本、链接等数据,内容信息可以从dom树结构中获得,或者利用自然处理语音从html中提取。178.如图11所示,视觉信息主要包括文字、盒模型、布局及背景等方面的css属性信息。需要说明的是,不同dom树其视觉信息可不同,这里是以body结点为例进行简短示意说明。179.因此,根据解析渲染后的网页获取dom树结构信息、内容信息(即文本信息)及css信息(即视觉信息)等。180.第三步,网页去噪。181.为了缩小网页信息的提取范围并减少噪音信息的干扰,可以先提取出网页正文区域。通常正文区域是由数据记录依次排列组合而成,在页面上具有较大的视觉区域,包含丰富的文本内容,同时网页正文一般也都会有标点符号。dom树上每一个节点对应网页上的一个区域。通过利用dom节点的视觉信息和内容信息,并沿着dom树自顶向下逐层寻找所有可能指示网页正文区域的dom节点,从而可将这些节点加入到候选正文集合中。182.候选节点的确定步骤示意如下:183.步骤(1),定义正文区域候选集合n,并将dom树的根节点加入到候选集合n中;184.步骤(2),依次遍历候选集合中n的所有节点,执行以下操作:185.子步骤1),对于当前候选节点,依次判断其各个子节点是否同时满足以下三个条件:186.条件①:子节点在页面上的视觉面积占比是否超过阈值ta。该子节点的面积area_node可以使用该节点的width属性和height属性相乘得到。而网页的页面面积area_page可以通过body节点的width属性和height属性相乘得到,其中该子节点的视觉面积占比area_rate对应的计算公式为:area_rate=area_node/area_page;187.条件②:子节点的内容长度占比是否超过阈值tc。cont_node为该子节点及其所有子孙节点的文本长度的总和,cont_page为该页面上所有节点的文本总长度。其中,该子节点的内容长度占比cont_rate对应的计算公式为:cont_rate=cont_node/cont_page;188.条件③:该子节点的符号密度是是否超过阈值ts。子节点的符号密度为不带链接的文本长度和符号数量的比值,linkcont_node为该子节点及其所有子孙节点中带链接的文本长度总和,sym_node表示该子节点及其所有子孙节点中的文本中标点符号的数量,则该子节点的文本密度sd_rate对应的计算公式为:sd_rate=(cont_node-linkcont_node)/(sym_node+1)。189.子步骤2),若当前候选节点中存在同时满足以上三个条件的子节点,则将子节点加入到候选集合n中。190.步骤(3),若候选集合中存在尚未遍历的节点,则执行步骤(2),否则退出。191.由于在查找正文区域候选集合时是沿着dom树根节点从上到下逐层查找的,候选节点之间存在嵌套关系,并且候选集合中越靠后的dom节点是真正的正文区域的可能性越大。192.因此,网页去噪处理后确定出的正文区域对应的输出为正文候选区域集合,结果如图12所示。193.第四步,确定数据记录。194.在多记录型复杂网页中,数据记录通常都是正文区域的子块,并且这些子块一般都具有相似的dom结构和视觉信息。为了找到数据记录,针对正文候选集合中的各个dom节点,依次判断其所包含的区域内是否含有dom结构及视觉信息相似的多个子块。若找到则认为这些子块即为数据记录(使用其子节点表示各个子块)。195.在根据正文区域节点的候选集合(也称正文候选集合)确定数据记录中,步骤简要如下:196.步骤(1):从后往前依次遍历正文区域候选集合n中的节点;197.步骤(2):对于正文候选集合中的每个节点,依次统计其各个dom子树上的所有节点的路径信息。使用xpath表达式来唯一表示各个节点的路径信息。198.步骤(3):计算该节点的任意两个子节点之间的相似度,包括dom结构相似度和视觉信息相似度。并将两个节点之间的相似度转化为距离;199.相似度定义及计算简要如下:200.dom结构相似度:假设该节点的任意两个子节点a、b,其对应的dom子树节点路径集合分别为path_a和path_b,使用jaccard系数定义这两个子树之间的dom结构相似度。其公式如下:dom_sim_ab=|path_a∩path_b|/|path_a∪path_b|;201.视觉相似度:假设该节点的任意两个子节点a、b,则这两个节点对应的视觉信息中对应值相等的css属性个数为css_equ,所有的css属性总数为css_all,则这两个子节点的视觉信息相似度css_sim_ab为:css_sim_ab=css_equ/css_all;202.因此,该节点的任意两个子节点a、b之间的相似度(加权相似度)为:sim_ab=a*dom_sim_ab+b*css_sim_ab,其中a为dom结构相似度的加权系数(即权重),b为视觉相似度的加权系数,a、b均为预设的常数,且a+b=1;203.进一步,可将该节点的任意两个子节点a、b之间的相似度表示为距离dist_ab,其中距离dist_ab的计算公式为:dist_ab=1-sim_ab;204.步骤(4):使用dbscan算法(密度聚类算法)对该节点下的所有子节点进行聚类。若在聚类结果中发现各个子节点各自单独成一簇,则认为该区域里的内容不是数据记录。否则,将最大的簇对应的子节点当作数据记录。205.步骤(5):若找到数据记录,则将数据记录的dom子树根节点添加到数据记录集合中,并结束查找。否则继续遍历下一个节点,返回步骤(2)继续确定数据记录操作。206.如图13所示,输出:数据记录块对应的dom结点集合。需要说明的是,这里的dom结点集合仅是前述url对应的局部结果。207.第五步,提取数据记录内容。208.在html中,元素主要分为行内元素和块级元素。行内元素书写完成后不会自动换行,而块级元素写完后会自动换行。为了保证从各个数据记录中抽取出的内容更加符合视觉规律,可先将行级元素合并到其父节点或祖先节点上,然后再进行数据记录内容提取。209.数据记录提取的步骤简要如下:210.步骤(1):提取每个数据记录的dom子树,并按照dom子树中各个节点的视觉信息对其进行精简:211.①将不可见的分支(display属性为none)从树结构删除;212.②将不含有文本内容的分支删除;213.③从dom树的叶子节点开始往上查找,如果一个块级元素节点的所有子元素节点都是行级元素(display为inline且margin-left和margin-right为0px),则将其子元素节点合并到当前节点上;214.步骤(2):抽取出dom子树上的叶子节点的中的文本内容;215.步骤(3):删除噪声信息。判断抽取出来的文本内容中是否包含“点赞”、“分享”、“回复”,“转发”等内容,若包含则删除。216.这里仅以其中一个数据记录的结果为例进行说明:217.其中数据记录为://body/div[3]/div/div[2]/div/div[4]/div[1]/div[3]/div[2];[0218]该数据记录对应的网页正文区域如图14所示;[0219]从中提取出来的内容结果为item1至item7,结果如图15所示。[0220]需要说明的是,上述示例仅是本说明书中多种实施例进行组合形成的一种组合应用方案,组合还可以是其他形式,这里不作一一展开说明。[0221]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例侧重说明的都是与其他实施例的不同之处。尤其,对于后面说明的产品实施例而言,由于其与方法是对应的,描述比较简单,相关之处参见系统实施例的部分说明即可。[0222]以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本
技术领域
:的技术人员在本技术揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以权利要求的保护范围为准。当前第1页12当前第1页12
技术特征:
1.一种网页正文区域处理方法,其特征在于,包括:获取待处理网页对应的dom树,其中所述dom树的dom节点包含有该dom节点对应的视觉信息和内容信息;基于dom树中目标节点的视觉信息,确定所述目标节点对应的视觉面积占比,其中所述视觉面积占比包括所述目标节点的视觉面积与所述待处理网页的视觉面积之比值;基于dom树中所述目标节点的内容信息,确定所述目标节点对应的内容长度占比和符号密度,其中所述内容长度占比包括所述目标节点及其所有子孙节点的文本长度的总和与所述待处理网页上所有节点的文本长度的总和之比值,所述符号密度包括所述目标节点中除链接外的文本长度与符号数量之比值;沿dom树自顶向下逐层搜索各节点,以根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点;当确定当前搜索的所述目标节点属于表征网页正文区域的dom节点,则将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点。2.根据权利要求1所述的网页正文区域处理方法,其特征在于,获取待处理网页对应的dom树,包括:通过浏览器或者浏览器内核,对待处理网页对应的网页文档及资源进行解析和渲染;在所述待处理网页经解析和渲染后,获取所述待处理网页对应的dom结构信息、内容信息和视觉信息;根据所述dom结构信息构建所述待处理网页对应的dom树。3.根据权利要求2所述的网页正文区域处理方法,其特征在于,在对待处理网页对应的网页文档及资源进行解析和渲染前,所述网页正文区域处理方法还包括:通过浏览器或者浏览器内核,接收所述待处理网页对应的url地址;根据所述待处理网页对应的目标链接,获取所述目标链接对应的网页文档及资源。4.根据权利要求1所述的网页正文区域处理方法,其特征在于,在获取待处理网页对应的dom树后,所述网页正文区域处理方法还包括:将与网页正文信息无关的dom节点及其所有子孙节点从dom树中删除。5.根据权利要求1所述的网页正文区域处理方法,其特征在于,根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点,包括:确定所述目标节点对应的所述视觉面积占比、所述内容长度占比和所述符号密度是否符合各自对应的预设条件;若所述视觉面积占比、所述内容长度占比和所述符号密度同时符合各自对应的预设条件,则确定当前搜索的所述目标节点属于表征网页正文区域的dom节点。6.根据权利要求1所述的网页正文区域处理方法,其特征在于,沿dom树自顶向下逐层搜索各节点,包括:将dom树中的每个节点,采用xpath表达式进行表达,其中以dom树中从上到下、从左到右的方向进行xpath表达式的表达。7.根据权利要求6所述的网页正文区域处理方法,其特征在于,将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点,包括:将所述表征网页正文区域的dom节点
对应的xpath表达式,提取为正文区域对应的候选节点对应的xpath表达式。8.根据权利要求1-7中任意一项所述的网页正文区域处理方法,其特征在于,所述网页正文区域处理方法还包括:确定每个候选节点的子节点是否已被遍历。9.一种网页正文信息处理方法,其特征在于,包括:获取待处理网页中各正文区域对应的目标候选节点,其中所述目标候选节点为通过权利要求1-8中任一项所述的网页正文区域处理方法对所述待处理网页处理后得到的正文区域对应的候选节点;对所述目标候选节点下的所有子节点进行聚类,以获得所述目标候选节点对应的第一聚类结果;将所述第一聚类结果中最大的簇对应的子节点确定为目标数据记录,其中所述目标数据记录为包含有正文信息的数据记录。10.根据权利要求9所述的网页正文信息处理方法,其特征在于,在对所述目标候选节点下的所有子节点进行聚类前,所述网页正文信息处理方法还包括:确定所述目标候选节点的任意两个子节点之间的相似度;对所述目标候选节点下的所有子节点进行聚类,包括:根据所述相似度,对所述目标候选节点下的所有子节点进行聚类。11.根据权利要求10所述的网页正文信息处理方法,其特征在于,确定所述目标候选节点的任意两个子节点之间的相似度,包括:确定所述目标候选节点的任意两个子节点之间的dom结构相似度和视觉信息相似度;根据所述dom结构相似度和所述视觉信息相似度的加权计算,以确定所述目标候选节点的任意两个子节点之间的相似度结果,其中所述dom结构相似度的权重与所述视觉信息相似度的权重之和为1。12.根据权利要求9所述的网页正文信息处理方法,其特征在于,所述网页正文信息处理方法还包括:提取每个目标数据记录对应的dom子树;按照所述dom子树中各个节点的视觉信息,对所述dom子树进行精简。13.根据权利要求12所述的网页正文信息处理方法,其特征在于,对所述dom子树进行精简,包括:从所述dom子树的叶子节点从下往上查找,并当确定出一个块级元素节点的所有子元素节点均为行级元素,则将所述块级元素节点的子元素节点合并到当前所述块级元素节点上。14.根据权利要求12所述的网页正文信息处理方法,其特征在于,所述网页正文信息处理方法还包括:提取出所述dom子树上的叶子节点对应的文本内容。15.根据权利要求14所述的网页正文信息处理方法,其特征在于,所述网页正文信息处理方法还包括:根据预设的噪声信息,将所述文本内容中的噪声信息删除。16.根据权利要求9所述的网页正文信息处理方法,其特征在于,所述网页正文信息处理方法还包括:若在聚类结果中发现所述目标候选节点的各个子节点各自单独成一簇,则确定所述目标候选节点所对应区域里的内容不属于所述目标数据记录。17.一种网页正文区域处理系统,其特征在于,包括:第一获取模块,获取待处理网页对应的dom树,其中所述dom树的dom节点包含有该dom
节点对应的视觉信息和内容信息;第一计算模块,基于dom树中目标节点的视觉信息,确定所述目标节点对应的视觉面积占比,其中所述视觉面积占比包括所述目标节点的视觉面积与所述待处理网页的视觉面积之比值;第二计算模块,基于dom树中所述目标节点的内容信息,确定所述目标节点对应的内容长度占比和符号密度,其中所述内容长度占比包括所述目标节点及其所有子孙节点的文本长度的总和与所述待处理网页上所有节点的文本长度的总和之比值,所述符号密度包括所述目标节点中除链接外的文本长度与符号数量之比值;第一遍历模块,沿dom树自顶向下逐层搜索各节点,以根据所述视觉面积占比、所述内容长度占比和所述符号密度,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的dom节点;第一候选模块,当确定当前搜索的所述目标节点属于表征网页正文区域的dom节点,则将所述表征网页正文区域的dom节点提取为正文区域对应的候选节点。18.一种网页正文信息处理系统,其特征在于,包括:第二获取模块,获取待处理网页中各正文区域对应的目标候选节点,其中所述目标候选节点为通过权利要求1-8中任一项所述的网页正文区域处理方法对所述待处理网页处理后得到的正文区域对应的候选节点;聚类模块,对所述目标候选节点下的所有子节点进行聚类;第二候选模块,将聚类结果中最大的簇对应的子节点确定为目标数据记录,其中所述目标数据记录为包含有正文信息的数据记录。19.一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行:权利要求1-8中任一项所述的网页正文区域处理方法,或,权利要求9-16中任一项所述的网页正文信息处理方法。20.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令被处理器执行时执行权利要求1-8中任一项所述的网页正文区域处理方法,或,权利要求9-16中任一项所述的网页正文信息处理方法。

技术总结
本申请提供一种网页正文区域及正文信息处理方法、系统、设备、介质,应用于信息处理技术领域,其中网页正文区域处理方案包括:获取待处理网页对应的DOM树;基于DOM树中目标节点的视觉信息和内容信息,沿DOM树自顶向下逐层搜索各节点,共同确定当前搜索的所述目标节点是否属于表征网页正文区域的DOM节点;将所述表征网页正文区域的DOM节点提取为正文区域对应的候选节点。通过基于视觉信息对网页正文区域进行识别提取处理,不仅可以准确、高效地从网页中识别提取出正文区域,而且无需针对特定网页结构的网站,具有较强的通用性,具有更好的鲁棒性和更高的准确度。的鲁棒性和更高的准确度。的鲁棒性和更高的准确度。


技术研发人员:孙太风 郭行飞 刘永丹
受保护的技术使用者:中新宽维传媒科技有限公司
技术研发日:2022.06.22
技术公布日:2022/11/1
转载请注明原文地址: https://tieba.8miu.com/read-8882.html

最新回复(0)