本发明实施例涉及数据处理,尤其涉及一种基于文件的关键数据提取方法、装置、设备及介质。
背景技术:
1、目前对于文件的关键词与摘要的提取,更多的是参考文件的内容,基于内容进行相关提取,然而读者的兴趣与社会热点是实时变化的,一成不变的提取规则,无法准确抓住读者的阅读兴趣。因此,如何提高提取文件中关键数据的准确度,至关重要。
技术实现思路
1、本发明提供一种基于文件的关键数据提取方法、装置、设备及介质,以提高提取文件中关键数据的准确度。
2、根据本发明的一方面,提供了一种基于文件的关键数据提取方法,包括:
3、获取待提取的当前文件的文件向量,并将所述文件向量输入至训练好的关键数据提取模型,得到第一中间向量;
4、基于所述当前文件对应的当前词汇热度矩阵,对所述第一中间向量进行处理,得到第二中间向量;其中,所述当前词汇热度矩阵根据所述当前文件中的当前词汇和相应的当前词频、以及历史文件中的历史词汇和相应的历史词频确定;
5、根据所述第二中间向量和所述文件向量,输出所述当前文件的关键数据。
6、根据本发明的另一方面,提供了一种基于文件的关键数据提取装置,包括:
7、第一中间向量确定模块,用于获取待提取的当前文件的文件向量,并将所述文件向量输入至训练好的关键数据提取模型,得到第一中间向量;
8、第二中间向量确定模块,用于基于所述当前文件对应的当前词汇热度矩阵,对所述第一中间向量进行处理,得到第二中间向量;其中,所述当前词汇热度矩阵根据所述当前文件中的当前词汇和相应的当前词频、以及历史文件中的历史词汇和相应的历史词频确定;
9、关键数据输出模块,用于根据所述第二中间向量和所述文件向量,输出所述当前文件的关键数据。
10、根据本发明的另一方面,提供了一种电子设备,包括:
11、一个或多个处理器;
12、存储器,用于存储一个或多个程序;
13、当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器能够执行本发明实施例所提供的任意一种基于文件的关键数据提取方法。
14、根据本发明的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明实施例所提供的任意一种基于文件的关键数据提取方法。
15、本发明实施例提供了一种基于文件的关键数据提取方案,通过获取待提取的当前文件的文件向量,并将文件向量输入至训练好的关键数据提取模型,得到第一中间向量;基于当前文件对应的当前词汇热度矩阵,对第一中间向量进行处理,得到第二中间向量;其中,当前词汇热度矩阵根据当前文件中的当前词汇和相应的当前词频、以及历史文件中的历史词汇和相应的历史词频确定;根据第二中间向量和文件向量,输出当前文件的关键数据。上述方案,通过引入关键数据提取模型和当前词汇热度矩阵,确定关键数据,实现了在考虑到词汇热度变化的基础上,确定当前文件中的关键数据,提高了确定的关键数据的准确度;同时,根据当前文件中的当前词汇和相应的当前词频、以及历史文件中的历史词汇和相应的历史词频确定当前词汇热度矩阵,提高了确定的当前词汇热度矩阵的准确度;并且,根据第二中间向量和文件向量,输出当前文件的关键数据,避免了处理得到的第二中间向量由于信息丢失,导致确定的关键数据不准确,实现了对第二中间向量的信息补充,提高了确定的关键数据的全面性。
16、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种基于文件的关键数据提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述当前词汇热度矩阵基于以下方式确定:
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前词频、所述参考词频和所述历史时段,确定所述当前词汇的当前词汇热度,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述历史时段、所述平均词频和、所述当前词汇的所述词频占比、所述当前词频和所述参考词频,确定所述当前词汇的当前词汇热度,包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述初始词汇热度和所述词频冷却系数,确定所述当前词汇的当前词汇热度,包括:
6.根据权利要求1-5中任一项所述的方法,若所述当前文件为待提取的文件集中的非初始文件,则所述基于所述当前文件对应的当前词汇热度矩阵,对所述第一中间向量进行处理,得到第二中间向量,包括:
7.一种基于文件的关键数据提取装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述当前词汇热度矩阵基于以下装置确定:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6任一项所述的一种基于文件的关键数据提取方法。
