本技术涉及金融文档检测,更具体地说,本技术涉及一种结合大模型的金融文档检测方法及系统。
背景技术:
1、文档检测主要利用自然语言处理算法来自动分析和处理文本数据,其核心步骤包括文本区域识别、字符识别和信息提取,文本区域识别通过深度学习模型,如卷积神经网络,检测文档中的文本区域,字符识别则通过光学字符识别技术将文本区域中的字符转换为可编辑的文本格式,信息提取则通过自然语言处理技术,对识别出的文本进行进一步分析和处理,提取出有用的信息,如表格数据、关键词和语义关系,近年来,随着深度学习技术的进步,特别是基于注意力机制的transformer模型在文本识别和理解上的应用,显著提高了文档检测的准确性和效率,此外,多模态学习方法结合文本信息,提高了信息提取的准确性和丰富性,文档检测技术在金融、法律、医疗等多个领域中得到了广泛应用,为自动化处理和信息管理提供了有力支持。
2、结合大模型的金融文档检测利用先进的语言模型自动解析金融文档,这些模型能够理解文档内容,提取重要的金融数据和专业术语,通过深度学习技术,模型不仅分类和提取财务信息,还能处理复杂的金融术语,生成符合规范的文档,然而,在不同时间、不同场景以及不同目的下撰写出的金融文档,会造成描述同一个金融事件的专业术语时产生语义差异,进而导致金融术语的语义产生不一致性,因此,如何实现跨文档之间专业术语的语义异常识别,从而提高金融术语描述的一致性成了业界面临的难题。
技术实现思路
1、本技术提供一种结合大模型的金融文档检测方法及系统,可实现跨文档之间专业术语的语义异常识别,从而提高金融术语描述的一致性。
2、第一方面,本技术提供一种结合大模型的金融文档检测方法,包括如下步骤:
3、采集不同类型的金融文档,进而得到金融文档数据;
4、基于预训练的大模型对不同类型的金融文档进行语义表征提取,得到各个金融文档的语义表征向量空间;
5、根据各个金融文档中金融术语之间的关联特征构建各个金融文档的要素关联图,通过所有的语义表征向量空间和所有的要素关联图确定各个金融文档中所有金融术语的语义连贯度;
6、对所述金融文档数据进行关键词提取,得到多个金融关键词,根据所有金融关键词的词性特征和每个金融关键词的语义损失度确定文档检测过程中该个金融关键词的语义变化量;
7、通过每个金融术语的语义连贯度和所有的语义变化量确定所述每个金融术语的语义异常值,根据所有的语义异常值对金融文档中的金融术语进行异常检测。
8、在一些实施例中,基于预训练的大模型对不同类型的金融文档进行语义表征提取,得到各个金融文档的语义表征向量空间具体包括:
9、将各个不同类型的金融文档转换成金融语句向量集;
10、基于预训练的大模型从所述金融语句向量集中提取出各个金融文档的多个语义表征向量;
11、进而将各个金融文档的多个语义表征向量组成的集合作为对应金融文档的语义表征向量空间。
12、在一些实施例中,根据各个金融文档中金融术语之间的关联特征构建各个金融文档的要素关联图具体包括:
13、对各个金融文档中的金融敏感词进行依存关系抽取,得到各个金融文档的依存树;
14、根据所有的依存树和各个金融文档中金融术语之间的关联特征确定各个金融文档中所有金融术语的要素关联度;
15、通过所有的依存树确定各个金融文档的全局依存关系;
16、根据所有的全局依存关系和各个金融文档中所有金融术语的要素关联度构建各个金融文档的要素关联图。
17、在一些实施例中,通过所有的语义表征向量空间和所有的要素关联图确定各个金融文档中所有金融术语的语义连贯度具体包括:
18、根据各个语义表征向量空间确定各个金融文档中所有金融术语的语义敏感度;
19、通过所有的要素关联图和所有的语义敏感度确定各个金融文档中所有金融术语的语义连贯度。
20、在一些实施例中,对所述金融文档数据进行关键词提取,得到多个金融关键词具体包括:
21、对所述金融文档数据进行预处理,得到金融文档处理数据;
22、通过所述金融文档处理数据中各个金融词语的出现频次对所述金融文档数据进行关键特征提取,得到多个金融关键词。
23、在一些实施例中,根据所有金融关键词的词性特征和每个金融关键词的语义损失度确定文档检测过程中该个金融关键词的语义变化量具体包括:
24、确定各个金融关键词的词性特征;
25、获取各个金融文档中所有金融术语的要素关联度;
26、根据所有金融术语的要素关联度和各个金融关键词的词性特征确定各个金融关键词的语义损失度;
27、通过预设的共现窗口和每个金融关键词的语义损失度确定文档检测过程中该个金融关键词的语义变化量。
28、在一些实施例中,通过每个金融术语的语义连贯度和所有的语义变化量确定所述每个金融术语的语义异常值具体包括:
29、根据所有的语义变化量确定文档检测过程中的异常波动量;
30、通过所述异常波动量和每个金融术语的语义连贯度确定所述每个金融术语的语义异常值。
31、第二方面,本技术提供一种结合大模型的金融文档检测系统,包括:
32、采集模块,用于采集不同类型的金融文档,进而得到金融文档数据;
33、处理模块,用于基于预训练的大模型对不同类型的金融文档进行语义表征提取,得到各个金融文档的语义表征向量空间;
34、所述处理模块,还用于根据各个金融文档中金融术语之间的关联特征构建各个金融文档的要素关联图,通过所有的语义表征向量空间和所有的要素关联图确定各个金融文档中所有金融术语的语义连贯度;
35、所述处理模块,还用于对所述金融文档数据进行关键词提取,得到多个金融关键词,根据所有金融关键词的词性特征和每个金融关键词的语义损失度确定文档检测过程中该个金融关键词的语义变化量;
36、执行模块,用于通过每个金融术语的语义连贯度和所有的语义变化量确定所述每个金融术语的语义异常值,根据所有的语义异常值对金融文档中的金融术语进行异常检测。
37、第三方面,本技术提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有代码,所述处理器被配置为获取所述代码,并执行上述的结合大模型的金融文档检测方法。
38、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的结合大模型的金融文档检测方法。
39、本技术公开的实施例提供的技术方案具有以下有益效果:
40、本技术提供的结合大模型的金融文档检测方法及系统中,首先采集不同类型的金融文档,进而得到金融文档数据;基于预训练的大模型对不同类型的金融文档进行语义表征提取,得到各个金融文档的语义表征向量空间;根据各个金融文档中金融术语之间的关联特征构建各个金融文档的要素关联图,通过所有的语义表征向量空间和所有的要素关联图确定各个金融文档中所有金融术语的语义连贯度;对所述金融文档数据进行关键词提取,得到多个金融关键词,根据所有金融关键词的词性特征和每个金融关键词的语义损失度确定文档检测过程中该个金融关键词的语义变化量;通过每个金融术语的语义连贯度和所有的语义变化量确定所述每个金融术语的语义异常值,根据所有的语义异常值对金融文档中的金融术语进行异常检测。
41、由此可见,本技术中可以通过每个金融术语的语义连贯度和所有的语义变化量确定所述每个金融术语的语义异常值;其中,首先,使用描述金融文档数据中各个金融文档之间整体关联的全局依存关系和衡量金融文档中金融术语与其他金融术语在金融文档中的关联程度的要素关联度构建各个金融文档的要素关联图,其中,要素关联图可以识别出金融术语在各种金融文档中语义的一致性,从而减少金融术语解释上的歧义,进而帮助识别和理解金融术语之间的深层次语义连接,再通过各个金融文档的语义表征向量空间和要素关联图得到描述金融文档中各个金融术语语义表达的一致性和逻辑连续性的语义连贯度,语义连贯度可以帮助发现跨文档或文档内部的语义异常,当一个金融术语在不同文档中使用时,如果语义连贯度较低,意味着这些文档对该金融术语的使用存在不一致或歧义;其次,从金融文档数据中提取出多个金融关键词,再根据各个金融关键词的词性特征提取出金融关键词在不同语境或文档中语义一致性程度的语义损失度,语义损失度反映了金融关键词在跨文档或不同上下文中语义表征的偏离程度,再通过预设的共现窗口和各个金融关键词的语义损失度确定描述金融关键词在文档上下文中的语义变化程度的语义变化量,其中,语义变化量能够帮助检测跨文档之间的专业术语是否在不同上下文中保持一致,当语义变化量较高时,表明该金融关键词在不同的语义环境中存在语义异常或歧义;然后,对所有的语义变化量和所有的语义连贯度进行量化,得到各个金融术语在文档中语义异常程度的语义异常值,语义异常值能够揭示金融术语在文档中是否存在语义上的不一致,若一个金融术语的语义异常值高,说明其在文档中的语义表现不稳定或不符合预期;最后,根据所有的语义异常值对金融文档中的金融术语进行异常检测;综上所述,本技术的方案可实现跨文档之间专业术语的语义异常识别,从而提高金融术语描述的一致性。
1.一种结合大模型的金融文档检测方法,其特征在于,包括如下步骤:
2.如权利要求1所述的方法,其特征在于,基于预训练的大模型对不同类型的金融文档进行语义表征提取,得到各个金融文档的语义表征向量空间具体包括:
3.如权利要求1所述的方法,其特征在于,根据各个金融文档中金融术语之间的关联特征构建各个金融文档的要素关联图具体包括:
4.如权利要求1所述的方法,其特征在于,通过所有的语义表征向量空间和所有的要素关联图确定各个金融文档中所有金融术语的语义连贯度具体包括:
5.如权利要求1所述的方法,其特征在于,对所述金融文档数据进行关键词提取,得到多个金融关键词具体包括:
6.如权利要求1所述的方法,其特征在于,根据所有金融关键词的词性特征和每个金融关键词的语义损失度确定文档检测过程中该个金融关键词的语义变化量具体包括:
7.如权利要求1所述的方法,其特征在于,通过每个金融术语的语义连贯度和所有的语义变化量确定所述每个金融术语的语义异常值具体包括:
8.一种结合大模型的金融文档检测系统,其特征在于,包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的结合大模型的金融文档检测方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的结合大模型的金融文档检测方法。
