本发明涉及自然语言处理,具体地说是一种关键词提取方法、系统、设备及介质。
背景技术:
1、在自然语言处理(nlp)领域,关键词提取是从文本中自动识别出最具代表性和最重要的词汇或短语的过程。关键词提取在信息检索、内容分析、推荐系统和数据挖掘等众多应用中具有重要意义。有效的关键词提取方法可以显著提高文本分析的质量和效率。
2、传统的关键词提取方法主要包括基于统计的技术和基于规则的技术。统计方法如tf-idf(term frequency-inverse document frequency)通过计算词频和逆文档频率来评估词语的重要性。而基于规则的方法则依赖于特定的规则集来筛选关键词。这些方法通常效果较好,但在面对复杂的语境和隐含含义时,可能会显得不够智能。
3、故如何能够在处理复杂语言现象和大规模数据时,提升语义提取的精确度和处理效率是目前亟待解决的技术问题。
技术实现思路
1、本发明的技术任务是提供一种关键词提取方法、系统、设备及介质,来解决如何能够在处理复杂语言现象和大规模数据时,提升语义提取的精确度和处理效率的问题。
2、本发明的技术任务是按以下方式实现的,该方法具体如下:
3、收集待处理的文本数据;
4、通过标准的文本预处理工具nltk对待处理的文本数据进行去除噪声及分词的预处理操作,获取预处理后的文本数据;
5、通过if-tdf算法对预处理后的文本数据进行初步分析,计算每个词在文本数据中的tf-idf值,并采用tfidfvectorizer实现对于tf-idf 的值的计算和逆频率的计算;
6、基于tf-idf值从文本数据中筛选出候选关键词:利用设定的阈值和排序机制确定关键词的候选名单;其中,阈值通过用户自定义文本相似度值进行设定,从而用户关键词筛选;排序机制是根据文本相似度值对关键词进行排序;
7、通过预训练bert模型对候选关键词进行语义分析,获取语义分析结果;
8、对基于预训练bert模型的语义分析结果进行后处理,优化和选择最终的关键词;
9、对最终的关键词进行验证和调整,并根据验证结果调整预训练bert模型参数及if-tdf算法设置,进而优化关键词提取效果。
10、作为优选,通过预训练bert模型对候选关键词进行语义分析,获取语义分析结果具体如下:
11、文本嵌入:使用hugging face的transformers库加载预训练bert模型,并将文本数据通过预训练bert模型转换为上下文相关的嵌入向量;
12、上下文建模:通过预训练bert模型对每个候选关键词进行上下文建模;
13、优化器:通过自定义优化器加快预训练bert模型收敛,且使用l2正则化抑制预训练bert模型的过拟合。
14、更优地,上下文建模具体如下:
15、上文预训练bert模型编码过程,将文本的时序信息、语义分割信息及文本信息相加,并相加生成最终的向量,根据最终的向量捕捉词汇的语义信息;其中,预训练bert模型将考虑词汇在整个文本中的语境,从而对候选关键词进行深入分析。
16、更优地,优化器是结合adagrad和rmsprop优点的自适应学习率方法;adam优化器通过动态调整每个参数的学习率,根据梯度的一阶矩估计和二阶矩估计来自动调整学习率,从而在训练初期快速收敛,并在后期避免振荡或发散;
17、优化器梯度的一阶矩估计公式为:;
18、优化器梯度的二阶矩估计公式为:;
19、优化器的偏置校正公式为:;
20、优化器的更新参数公式为:;
21、其中:表示梯度;和是超参数;表示基础学习率;是一个小常数,防止除零错误;t表示迭代步数;表示第t次迭代中一阶矩阵估计的超参数;表示第t次迭代中二阶矩阵估计的超参数;
22、在优化器的基础上引入 l2 正则化;l2 正则化通过在更新规则中加入一个与参数大小成比例的项,从而惩罚超过设定阈值的权重值,帮助预训练bert模型选择相应的参数值,提高模型的泛化能力;
23、加入 l2 正则化后的更新公式如下:
24、;
25、其中, λ表示正则化强度系数。
26、作为优选,对基于预训练bert模型的语义分析结果进行后处理,优化和选择最终的关键词具体如下:
27、相关性评估:通过计算候选关键词与文本的语义相关性,进一步筛选出最具代表性和信息量的关键词;
28、排序与过滤:根据语义相关性分数对候选关键词进行排序,并应用设定的出现频率或关键词重要性的过滤标准,确定最终的关键词集合。
29、一种关键词提取系统,该系统包括:
30、收集模块,用于收集待处理的文本数据;
31、预处理模块,用于通过标准的文本预处理工具nltk对待处理的文本数据进行去除噪声及分词的预处理操作,获取预处理后的文本数据;
32、初步关键词筛选模块,用于通过if-tdf算法对预处理后的文本数据进行初步分析,计算每个词在文本数据中的tf-idf值,并采用tfidfvectorizer实现对于tf-idf 的值的计算和逆频率的计算;
33、候选关键词筛选模块,用于基于tf-idf值从文本数据中筛选出候选关键词,具体为:利用设定的阈值和排序机制确定关键词的候选名单;其中,阈值通过用户自定义文本相似度值进行设定,从而用户关键词筛选;排序机制是根据文本相似度值对关键词进行排序;
34、语义分析模块,用于通过预训练bert模型对候选关键词进行语义分析,获取语义分析结果;
35、关键词优化和选择模块,用于对基于预训练bert模型的语义分析结果进行后处理,优化和选择最终的关键词;
36、结果验证和调整模块,用于对最终的关键词进行验证和调整,并根据验证结果调整预训练bert模型参数及if-tdf算法设置,进而优化关键词提取效果。
37、作为优选,所述语义分析模块包括:
38、文本嵌入子模块,用于使用hugging face的transformers库加载预训练bert模型,并将文本数据通过预训练bert模型转换为上下文相关的嵌入向量;
39、上下文建模子模块,用于通过预训练bert模型对每个候选关键词进行上下文建模;
40、优化器,用于通过自定义优化器加快预训练bert模型收敛,且使用l2正则化抑制预训练bert模型的过拟合;其中,优化器是结合adagrad和rmsprop优点的自适应学习率方法;adam优化器通过动态调整每个参数的学习率,根据梯度的一阶矩估计和二阶矩估计来自动调整学习率,从而在训练初期快速收敛,并在后期避免振荡或发散;
41、优化器梯度的一阶矩估计公式为:;
42、优化器梯度的二阶矩估计公式为:;
43、优化器的偏置校正公式为:;
44、优化器的更新参数公式为:;
45、其中:表示梯度;和是超参数;表示基础学习率;是一个小常数,防止除零错误;t表示迭代步数;表示第t次迭代中一阶矩阵估计的超参数;表示第t次迭代中二阶矩阵估计的超参数;
46、在优化器的基础上引入 l2 正则化;l2 正则化通过在更新规则中加入一个与参数大小成比例的项,从而惩罚超过设定阈值的权重值,帮助预训练bert模型选择相应的参数值,提高模型的泛化能力;
47、加入 l2 正则化后的更新公式如下:
48、;
49、其中, λ表示正则化强度系数。
50、更优地,所述关键词优化和选择模块包括:
51、相关性评估子模块,用于通过计算候选关键词与文本的语义相关性,进一步筛选出最具代表性和信息量的关键词;
52、排序与过滤子模块,用于根据语义相关性分数对候选关键词进行排序,并应用设定的出现频率或关键词重要性的过滤标准,确定最终的关键词集合。
53、一种电子设备,包括:存储器和至少一个处理器;
54、其中,所述存储器上存储有计算机程序;
55、所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一个处理器执行如上述的关键词提取方法。
56、一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如上述的关键词提取方法。
57、本发明的关键词提取方法、系统、设备及介质具有以下优点:
58、(一)本发明综合了bert的上下文建模能力和tf-idf的统计特征,从而在关键词提取任务中展现出优异的表现,这表现在以下几个方面:
59、①bert 优异的上下文建模能力:bert(bidirectional encoderrepresentations from transformers)通过其双向编码器能够有效捕捉词汇的上下文信息,从而理解语义的深层次结构;bert在处理复杂语言现象时,如同义词、多义词以及上下文依赖关系时,具有显著优势。其双向建模能力使得模型能够理解词汇在不同语境中的具体含义,因此能更准确地识别和提取在复杂语言环境下的关键词;
60、❶同义词处理:bert能够通过上下文信息识别不同词汇的同义关系,从而提取到与语义相关的关键词;
61、❷上下文依赖:对于依赖上下文的词汇,bert可以通过其深度语义理解能力捕捉词汇在具体语境中的意义,提升关键词提取的准确性。
62、②tf-idf(term frequency-inverse document frequency)是一种传统的关键词提取方法,它通过计算词频(tf)和逆文档频率(idf)来评估词汇的重要性,以其高效的计算能力著称,能够在短时间内处理大规模文本数据,快速识别出文本中的重要词汇;
63、❶高效性:tf-idf方法通过简单的统计计算来完成关键词提取,处理速度较快,适合于大规模数据集的分析;
64、❷统计准确性:tf-idf通过对词频和文档频率的计算,可以有效地筛选出在文档中具有较高重要性的词汇。
65、③结合优势的综合效果:将bert与tf-idf相结合,可以充分发挥两者的优点:
66、❶效率与准确性的平衡:tf-idf提供了高效的关键词候选筛选过程,而bert则对这些候选关键词进行深层次的语义分析,这种分层处理方式不仅保留了tf-idf的计算效率,还利用bert提升了语义提取的准确性;
67、❷全面性与针对性:tf-idf可以快速筛选出潜在的关键词候选,而bert能够对这些候选进行进一步的语义验证和优化,确保最终提取的关键词既全面又具有高度相关性;
68、总之,本发明通过结合bert的深度语义理解和tf-idf的高效计算,能够在处理复杂语言现象和大规模数据时提供卓越的效果,不仅提升了关键词提取的准确性,还确保了处理过程的高效性,相比单独使用bert或tf-idf任一方法,其在语义提取的精确度和处理效率上均表现更为优越;
69、(二)本发明通过将bert与tf-idf关键词提取模型相结合,充分利用两者的优点,以实现更为精准和高效的关键词提取;
70、(三)本发明利用tf-idf技术对文本进行初步分析,快速计算词汇在文档中的重要性,从而筛选出潜在的关键词候选;tf-idf的方法以其高效的计算能力能够处理大规模数据集,提供一个高效的词汇筛选过程;
71、(四)本发明利用bert对这些候选关键词进行深层次的语义理解,bert通过其双向编码器建模能力,能够深入捕捉上下文信息和语义特征,处理同义词、多义词以及上下文依赖的复杂语言现象,从而对初步筛选出的关键词进行语义优化,确保提取的关键词既准确又具备较高的相关性;
72、(五)本发明通过引入自适应学习率策略以及 l2 正则化,本发明不仅提高了bert 模型的训练效率,还增强了模型的收敛稳定性;结合 tf-idf 的高效筛选能力和bert 的强大语义理解能力,不仅能够克服单一技术的局限性,还在实际应用中提供了更为全面且有效的解决方案;通过这种分层次的处理方式,提高了关键词提取准确性的同时,保持处理的高效性,在大规模文本数据的分析中表现出了优异的性能;
73、(六)本发明主要应用在数据智能平台中,用于帮助用户将上传的文档概括并进一步提炼关键词,从而帮助用户快速了解文档内容;
74、(七)本发明引入了自适应学习率策略,具体来说,采用了 adam 优化器,这是一种结合了 adagrad 和 rmsprop 优点的自适应学习率方法;adam 优化器通过动态调整每个参数的学习率,根据梯度的一阶矩估计(即均值)和二阶矩估计(即方差)来自动调整学习率,从而在训练初期快速收敛,并在后期避免振荡或发散;
75、(八)本发明提高了关键词提取的准确性:结合bert和tfidf两种方法,可以更准确地从文本中提取出关键信息;bert模型通过其深度学习的能力,能够理解文本的深层语义和上下文信息,而tfidf则能有效地识别出文本中的关键词频率和重要性;
76、(九)本发明的语义理解能力显著提高:bert模型的双向编码特性使其在理解文本语义方面具有显著优势,对于提取准确的关键词尤为重要,特别是在处理复杂或含糊不清的文本时;
77、(十)本发明改进文本分析和数据处理效率:通过结合bert和tfidf,在处理大量文本数据时大幅提高了效率,尤其是在需要快速准确提取关键信息的场景中;
78、(十一)本发明适用于多种文本类型和领域,不仅限于特定类型的文本,可以广泛应用于各种文本分析和处理场景;
79、(十二)融合模型架构:本发明的技术关键点之一在于提出了一种融合了bert和tfidf的混合模型架构,充分利用了bert在理解文本深层语义方面的优势,并结合tf-idf在关键词权重识别上的有效性;
80、(十三)训练和优化策略:本发明涉及到的独特训练和优化策略,使得混合模型能够在不同的文本数据集上表现出更高的准确性和鲁棒性,包括但不限于模型的预训练、微调参数的选择以及针对特定应用场景的定制化优化,本发明中为bert 模型增加了自适应学习率调整策略,通过这个策略有效地加快模型的收敛,从而提高了模型关键词生成的效率,有效节省了用户时间;
81、(十四)关键词提取算法:本发明提出了一种新颖的关键词提取算法,该算法结合了bert生成的上下文嵌入和tfidf计算出的词频信息,以实现更精准的关键词识别;
82、(十五)自适应权重调整机制:发明中包含了一种自适应权重调整机制,可以根据不同的文本内容和应用需求动态调整bert和tfidf在最终关键词评分中的贡献比例。
1.一种关键词提取方法,其特征在于,该方法具体如下:
2.根据权利要求1所述的关键词提取方法,其特征在于,通过预训练bert模型对候选关键词进行语义分析,获取语义分析结果具体如下:
3.根据权利要求2所述的关键词提取方法,其特征在于,上下文建模具体如下:
4.根据权利要求2所述的关键词提取方法,其特征在于,优化器是结合adagrad和rmsprop优点的自适应学习率方法;adam优化器通过动态调整每个参数的学习率,根据梯度的一阶矩估计和二阶矩估计来自动调整学习率,从而在训练初期快速收敛,并在后期避免振荡或发散;
5.根据权利要求1所述的关键词提取方法,其特征在于,对基于预训练bert模型的语义分析结果进行后处理,优化和选择最终的关键词具体如下:
6.一种关键词提取系统,其特征在于,该系统包括:
7.根据权利要求6所述的关键词提取系统,其特征在于,所述语义分析模块包括:
8.根据权利要求6或7所述的关键词提取系统,其特征在于,所述关键词优化和选择模块包括:
9.一种电子设备,其特征在于,包括:存储器和至少一个处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序可被处理器执行以实现如权利要求1至5中任一项所述的关键词提取方法。
