本发明属于大语言模型,具体而言,涉及一种大语言模型时间维度优化方法、介质及系统。
背景技术:
1、大语言模型(largelanguagemodel,llm)近年来在自然语言处理领域取得了巨大成就,广泛应用于文本生成、问答、对话等任务中。这类模型基于海量的非结构化文本数据进行预训练,学习到丰富的语义和语法特征,从而能够以更加人性化和智能化的方式理解和生成文本内容。目前,大语言模型已经成为自然语言处理领域的核心技术之一,在各种应用场景中发挥着重要作用。
2、然而,现有的大语言模型在处理包含时间信息的文本数据时,普遍存在一些局限性。对于描述事件发生时间、时间序列预测、因果关系分析等任务而言,单纯依靠语义和语法特征往往难以充分捕捉文本中蕴含的时间依赖关系。这是因为,自然语言文本中的时间信息通常以隐含的方式存在,需要进一步的时间特征提取和时间感知建模才能被模型有效利用。比如,在新闻报道或历史文献中,通常会涉及大量事件的发生时间及其前后关系,这些时间信息对于理解事件的因果逻辑和时序演进至关重要。但现有的大语言模型通常只能从字面上理解文本语义,无法深入挖掘事件之间的时间依赖关系。这种局限性会导致模型在时间序列预测、原因分析等任务上性能不佳。另一个例子是对话系统,用户在对话中会频繁提及时间信息,如”前天”、“下周末”等,这些时间表达对于理解对话语境、做出恰当回应至关重要。但如果模型无法准确识别和利用这些时间信息,就难以充分理解对话的时间语义,从而影响对话系统的交互效果。
3、因此,如何增强大语言模型对时间维度信息的感知和利用,成为亟待解决的技术问题。
技术实现思路
1、有鉴于此,本发明提供一种大语言模型时间维度优化方法、介质及系统,能够解决现有的大语言模型对时间维度信息感知差的技术问题。
2、本发明是这样实现的:
3、本发明的第一方面提供一种大语言模型时间维度优化方法,其中,包括以下步骤:
4、s10、对训练数据中的每一项数据进行时间特征提取,实体识别和关系抽取,构建时间-事件网络;
5、s20、利用因果推理算法,分析时间-事件网络中的事件序列,计算事件之间的条件概率和时间间隔,得到所述训练数据中全部事件之间的因果关系路径;
6、s30、根据所述因果关系路径,建立有向无环图,得到因果关系图;
7、s40、基于因果关系图,按照每个节点的遍历路径,采用hyperloglog算法对每条路径上的节点进行基数估计,得到所述因果关系图中每个节点的估计基数值作为节点的重要性指标,得到因果关系hll图;
8、s50、采用pagerank算法计算所述因果关系hll图中每个节点的时序影响力,作为对应节点的影响力分数,得到因果关系影响力hll图;
9、s60、基于所述因果关系影响力hll图,利用节点重要性指标、影响力分数和时间间隔信息,设计时间感知注意力机制,计算注意力权重,得到所述因果关系影响力hll图中每个节点的注意力分数;
10、s70、将所述因果关系影响力hll图转化为邻接关系表,并将节点的重要性指标、影响力分数和注意力分数作为特征向量,与原始文本数据结合,建立微调数据集;
11、s80、采用所述微调数据集对基座大语言模型进行微调,得到考虑时间维度的大语言模型。
12、具体而言,所述步骤s10,具体包括:对训练数据中的每一项数据逐项进行时间特征提取、实体识别和关系抽取,以构建时间-事件网络。首先,利用时间表达式识别技术,提取出文本中的日期、时间等时间信息;接着,采用命名实体识别算法,从文本中识别出人名、地名、组织名等实体;继而,运用关系抽取方法,分析实体之间的语义关系,如因果关系、时间关系等。通过上述步骤,可以构建一个时间-事件网络,其中节点表示事件,边表示事件之间的关系,边的权重则反映事件发生的时间间隔。该步骤的主要目的是充分挖掘训练数据中隐含的时间语义信息,为后续的时间感知建模和分析奠定基础。
13、其中,所述步骤s20,具体包括:利用因果推理算法分析时间-事件网络中的事件序列,计算事件之间的条件概率和时间间隔,得到所述训练数据中全部事件之间的因果关系路径。针对时间-事件网络中的任意两个事件,可以计算它们之间的条件概率和时间间隔,从而得到整个训练数据集中事件之间的因果关系路径。这些因果关系路径及其统计特征,为后续的因果关系分析和时间感知建模提供了重要的依据。
14、其中,所述步骤s30,具体包括:根据所述因果关系路径,建立有向无环图,得到因果关系图。具体而言,将每个事件视为图中的一个节点,如果两个事件之间存在因果关系,则在对应节点之间添加有向边,边的权重则设置为两个事件之间的条件概率。通过这一步骤,可以得到一个完整的因果关系图,其中节点表示事件,边表示事件之间的因果依赖关系。该因果关系图将为后续的时序影响力分析和注意力机制设计提供重要的拓扑结构信息。
15、其中,所述步骤s40,具体包括:基于因果关系图,采用hyperloglog算法对每个节点进行基数估计,得到所述因果关系图中每个节点的估计基数值作为节点的重要性指标,形成因果关系hll图。hyperloglog算法是一种基数估计算法,可以快速估算出大规模数据集的基数。对于因果关系图中的每个节点,计算其估计基数值,该值反映了该事件在整个因果关系网络中所占的地位和影响。通过这一步骤,得到了一张”因果关系hll图”,其中每个节点都被赋予了一个重要性分数。
16、其中,所述步骤s50,具体包括:采用pagerank算法计算所述因果关系hll图中每个节点的时序影响力,作为对应节点的影响力分数,得到因果关系影响力hll图。pagerank算法可以计算出每个节点在有向图中的影响力,将其应用于因果关系图,即可得到每个事件在时间序列上的影响力分数。这些时序影响力分数反映了事件在整个因果关系网络中的重要程度和传播能力。通过这一步骤,得到了一张”因果关系影响力hll图”,其中每个节点都被赋予了一个时序影响力分数。
17、其中,所述步骤s60,具体包括:基于所述因果关系影响力hll图,设计时间感知注意力机制,计算注意力权重,得到所述因果关系影响力hll图中每个节点的注意力分数。设计了一种融合了事件重要性指标、时序影响力和时间间隔信息的注意力得分计算公式,从而可以得到每个事件的注意力权重。这些注意力分数能够更好地捕捉文本中蕴含的时间依赖关系,为后续的模型微调提供重要的时间维度特征。
18、其中,所述步骤s70,具体包括:将所述因果关系影响力hll图转化为邻接关系表,并将节点的重要性指标、影响力分数和注意力分数作为特征向量,与原始文本数据结合,建立微调数据集。首先,将因果关系图转换为标准的邻接关系表格式;接着,将每个节点的特征(重要性指标、时序影响力分数、注意力分数)整合为一个特征向量;最后,将这些特征向量与原始文本数据进行拼接,形成最终的微调数据集。该微调数据集包含了时间维度的特征信息,将为后续的模型优化提供重要的训练样本。
19、其中,所述步骤s80具体包括:将因果关系影响力hll图中的特征向量整合到模型的输入表示中。将每个token的输入表示拓展为一个向量,包括词嵌入、位置编码以及节点重要性指标、时序影响力分数和注意力分数等。这样,模型在处理文本信息时,就能够利用这些时间维度的特征,增强对时间语义的理解。
20、进一步的,其中步骤s80,具体步骤包括:
21、步骤s801、将因果关系影响力hll图中的特征向量整合到模型的输入表示中;
22、步骤s802、修改模型的注意力机制,融入时间感知注意力分数;
23、步骤s803、设计多任务学习目标,同时优化语言建模、时间序列预测和因果关系推理任务;
24、步骤s804、使用梯度累积和混合精度训练等技术,进行大规模分布式训练;
25、步骤s805、采用早停策略和模型检查点保存,以防止过拟合并保留最佳模型;
26、步骤s806、在验证集上定期评估模型性能,包括困惑度、时间序列预测准确率和因果推理能力等指标;
27、步骤s807、根据评估结果动态调整学习率;
28、步骤s808、迭代优化直至收敛或达到预设的训练轮次;最终得到一个在时间维度上得到优化的大语言模型,作为最终的考虑时间维度的大语言模型。
29、下面是涉及到计算的步骤的详细描述:
30、1.步骤s20中的条件概率和时间间隔计算:
31、所述条件概率和时间间隔计算具体表示如下:
32、;
33、;
34、式中,为事件在事件发生后时间间隔内发生的条件概率;为事件发生后时间内事件发生的次数;为事件发生的总次数;为时间衰减因子;和分别为事件和发生的时间戳。
35、2.步骤s40中的hyperloglog算法基数估计:
36、所述hyperloglog算法基数估计具体表示如下:
37、;
38、式中,为因果关系图中节点的估计基数值;为哈希函数的数量;为偏差修正因子,;为节点在第个哈希函数下的最大前导零数量。
39、的计算方法为:
40、;
41、其中,为第个哈希函数,为与节点相关的所有事件集合。
42、3.步骤s50中的时序影响力pagerank算法:
43、所述时序影响力pagerank算法具体表示如下:
44、;
45、式中,为节点的时序影响力分数;为阻尼因子,通常取0.85;为指向节点的节点集合;为节点的出度;为边的权重,可以使用条件概率表示;为时间衰减因子;为节点到的时间间隔。
46、4.步骤s60中的时间感知注意力机制:
47、所述时间感知注意力机制具体表示如下:
48、;
49、;
50、式中,为节点对节点的注意力权重;为注意力得分;为查询向量;为键向量;为键向量的维度;为节点和节点之间的时间间隔;为节点的hyperloglog估计基数值;为节点的时序影响力分数。
51、函数、和分别为时间间隔、重要性指标和时序影响力的映射函数,定义如下:
52、;
53、;
54、;
55、其中,和为可调节的超参数。
56、5.步骤s802中的修改后的时间感知注意力机制:
57、所述修改后的时间感知注意力机制具体表示如下:
58、;
59、式中,、、分别为查询、键和值矩阵;为键向量的维度;为时间感知矩阵,为因果关系矩阵,其元素分别定义为:
60、;
61、;
62、表示hadamard乘积(element-wisemultiplication),即将两个矩阵或向量的对应元素相乘。
63、其中、、的定义与步骤s60中相同。
64、6.步骤s803中的多任务学习目标:
65、所述多任务学习目标具体表示如下:
66、;
67、式中,为总损失;为语言建模损失;为时间序列预测损失;为因果关系推理损失;为时间感知注意力损失;、、、为各任务的权重系数。
68、语言建模损失使用交叉熵损失:
69、;
70、时间序列预测损失使用均方误差:
71、;
72、因果关系推理损失使用二元交叉熵:
73、;
74、时间感知注意力损失使用kl散度:
75、;
76、其中,为样本数量,为词表大小,为真实值,为预测值,为真实时间戳,为预测时间戳,为真实注意力分布,为预测注意力分布,为散度运算符。
77、7.步骤s807中的学习率动态调整:
78、所述学习率动态调整具体表示如下:
79、;
80、式中,为第次迭代的学习率;为初始学习率;为衰减率;为当前迭代次数;为学习率调整因子;和分别为当前迭代和上一次迭代的损失值。
81、该模型能够更好地理解和处理包含时间信息的文本数据,并具备更强的时序推理和因果分析能力。
82、本发明的第二方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有程序指令,所述程序指令在计算机中运行时,用于执行上述的一种大语言模型时间维度优化方法。
83、本发明的第三方面提供一种大语言模型时间维度优化系统,其中,包含上述的计算机可读存储介质。
84、与现有技术相比较,本发明针对背景技术中描述的问题,提出了一种大语言模型时间维度优化方法,旨在通过挖掘训练数据中蕴含的时间语义信息,设计出一种融合时间感知特征的大语言模型,以提升其在时间相关任务上的性能;具体而言,本发明提供的一种大语言模型时间维度优化方法、介质及系统的有益效果是:1.构建时间-事件网络,充分挖掘训练数据中的时间信息。本发明首先对训练数据进行时间特征提取、实体识别和关系抽取,构建了一个时间-事件网络。该网络将事件作为节点,事件之间的时间关系作为边,从而保留了训练数据中隐含的时间语义信息。这为后续的时间感知建模奠定了基础。
85、2.分析事件之间的因果关系和时间间隔,建立因果关系图。在时间-事件网络的基础上,本发明利用因果推理算法,计算事件之间的条件概率和时间间隔,得到全部事件对之间的因果关系路径。进而,建立了一个有向无环图(dag),即因果关系图,以反映事件之间的因果依赖关系。这些拓扑结构信息对于时序影响力分析和注意力机制设计至关重要。
86、3.设计时间感知的注意力机制,增强模型对时间维度信息的感知。本发明在标准注意力计算公式的基础上,融入了事件的重要性指标、时序影响力以及事件间时间间隔等时间维度特征。这种时间感知注意力机制,能够更好地捕捉文本中蕴含的时间依赖关系,为后续的模型优化提供关键支撑。
87、4.采用多任务学习目标,同时优化语言建模、时间序列预测和因果关系推理。除了常规的语言建模任务,本发明在模型微调过程中,还引入了时间序列预测和因果关系推理两项附加任务。通过多任务学习,模型可以同时掌握语言理解、时间预测和因果分析等能力,大幅增强了对时间维度信息的建模和利用。
88、5.应用梯度累积、混合精度等技术手段,实现大规模分布式训练。针对微调数据规模可能很大的问题,本发明采用了梯度累积和混合精度训练等技术方法,大幅提高了训练效率和显存利用率,从而支持了大规模分布式训练。这为获得高性能的优化模型奠定了基础。
89、综上所述,本发明提出的大语言模型时间维度优化方法,通过构建时间-事件网络、分析因果关系、设计时间感知注意力机制等创新性技术手段,有效增强了模型对时间维度信息的感知和利用。
1.一种大语言模型时间维度优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种大语言模型时间维度优化方法,其特征在于,事件之间的条件概率和时间间隔计算如下:
3.根据权利要求2所述的一种大语言模型时间维度优化方法,其特征在于,hyperloglog算法的基数估计具体表示如下:
4.根据权利要求3所述的一种大语言模型时间维度优化方法,其特征在于,时序影响力pagerank算法具体表示如下:
5.根据权利要求4所述的一种大语言模型时间维度优化方法,其特征在于,时间感知注意力机制具体表示如下:
6.根据权利要求5所述的一种大语言模型时间维度优化方法,其特征在于,其中步骤s80,具体步骤包括:
7.根据权利要求6所述的一种大语言模型时间维度优化方法,其特征在于,步骤s802中,修改模型的注意力机制,融入时间感知注意力分数,形成修改后的时间感知注意力机制具体表示如下:
8.根据权利要求7所述的一种大语言模型时间维度优化方法,其特征在于,所述多任务学习目标具体表示如下:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序指令,所述程序指令在计算机中运行时,用于执行权利要求1-8任一项所述的一种大语言模型时间维度优化方法。
10.一种大语言模型时间维度优化系统,其特征在于,包含权利要求9所述的计算机可读存储介质。
