一种审计报告中自动生成审计建议的方法与装置

专利2025-11-13  16


本发明涉及一种审计报告中自动生成审计建议的方法与装置,属于信息检索、自然语言处理,以及审计领域。


背景技术:

0、技术背景

1、作为整个审计过程的最后一步,审计报告传达了审计师的调查结果,对审计业务至关重要。近年来,人工智能,特别是自然语言处理技术越来越广泛地应用于审计报告的辅助编写和自动生成,以提高审计报告的标准化和严谨性,减少报告编写的繁琐。

2、在审计报告撰写过程中,审计人员需要根据审计中发现的问题,提出具有针对性和可操作性的建议,而文本生成技术则是生成审计建议的一种方法。很多基于深度学习的文本生成方法已被用于诗歌、散文等自动生成,但无法应用于在审计报告中自动生成严谨的审计建议,其原因是审计建议必须基于客观事实,并根据审计发现的问题提供,无法像诗歌或散文一样自由书写。近年来,大型语言模型(llm)如gpt-4、llama2、文心一言等表现出了卓越的理解力和创造力,能够根据提示生成符合人类阅读习惯的连贯文本,但也存在幻觉问题,同样无法直接在审计建议生成这一高度专业和严肃的场景中直接使用。因此,由于审计报告对真实性、准确性、规范性和可操作性的要求很高,文本生成技术在审计建议写作中的应用还存在许多差距。


技术实现思路

1、为解决上述问题,本发明提出一种基于文本推荐的审计建议自动生成方法及装置。由于审计问题的定性和建议的发布是基于法律、法规和审计准则,建议内容的范围相对有限,使得以往审计工作中积累的大量现成审计建议可以在新的审计报告中重复使用。因此,本发明将利用既有审计报告构建包含建议语句的审计建议库,然后学习审计报告中审计问题的语义信息,并基于此选择合适的建议语句自动生成审计报告中的审计建议。本发明所要解决的技术问题在于如何从审计问题中准确提取语义信息,充分利用审计问题的半结构化特征加深语义模型对审计问题的理解,从而能够生成严谨且具有针对性的审计建议。首先,采集既往审计报告中的审计建议语句,利用bert等模型对其进行编码,构建审计建议库;然后,利用语义模型,对审计报告中指出的审计问题进行编码,得到其在问题空间的嵌入表示;接着,利用映射器将审计问题在问题空间的编码其映射到建议空间,以方便与审计建议库中编码好的建议语句计算距离;最后,利用既有审计报告构建训练集,对上述语义模型和映射器进行联合训练,学习其中的参数。当撰写新的审计报告时,将审计发现的问题输入语义模型及映射器,得到问题在建议空间的嵌入表示,从审计建议库中选择与该嵌入表示最接近的若干建议语句,生成报告中的审计建议。

2、本发明首先公开了一种审计报告中自动生成审计建议的方法与装置,从半结构化的审计问题各部分中学习语义信息,根据问题语义从审计建议库中选择合适的建议语句生成审计报告中的审计建议。本发明所述方法的主要步骤包括:

3、步骤s1,建立训练集,由审计报告中的审计问题及其对应的审计建议组成,对审计问题及审计建议进行分词并利用word2vec模型进行词编码,对于审计建议中的语句,进一步将其包含的词编码输入bert模型得到建议句编码向量;

4、步骤s2,利用问题语义学习模型对审计问题进行编码,具体包含语句编码、问题标题编码、问题描述编码、问题定性依据编码,以及编码整合等步骤,得到其在问题空间的嵌入向量。具体步骤为:

5、步骤ss1,从审计问题中提取主信息词,生成主信息词集合i={w1,w2,…,wm},其中,m为信息词的个数,其来源包括但不限于:问题标题中的词,利用主题模型获得的审计问题主题描述词,以及利用tf-idf或textrank等方法对审计问题中词进行排序并提取排在前列的词等;

6、步骤ss2,将组成语语句的词输入lstm网络进行语句编码,假设构成第x个语句wx的词集合为{wx,1,wx,2,…,wx,n},n为该语句中词的个数,将词依次输入lstm模块进行语句编码的计算过程如下:

7、

8、其中,ht和ht-1分别为lstm模块在t和t-1步输出的隐向量,表示在t步输入lstm模块的单词wx,t通过词编码得到的嵌入向量,θ表示lstm模块中待学习的参数集;

9、步骤ss3,利用主信息词计算语句中各单词在语句编码中的权重,首先,计算各单词与主信息词间的相似度,方法如下:

10、

11、其中,表示主信息词wi通过词编码得到的嵌入向量,表示第x个语句中的第y个单词wx,y通过词编码得到的嵌入向量,t表示转置。然后,利用softmax函数为每个单词分配权重如下:

12、

13、其中,表示第y个单词wy获得的权重,exp(·)表示自然指数函数。

14、步骤ss4,根据得到的语句中个单词在编码中的权重,结合lstm网络每步的输出,计算得到该语句的编码,方法如下:

15、

16、其中,δs表示对语句s编码后得到的句向量,hy表示ltsm单元在接收词向量输入后输出的隐向量。

17、步骤ss5,将构成问题标题的单词的嵌入向量依次输入lstm单元,最后的输出作为问题标题编码的嵌入向量,方法如下:

18、

19、

20、其中,为问题标题中第t个,也即在t步输入lstm单元的单词wt通过词编码得到的嵌入向量,为对应的lstm单元输出的隐向量,θ表示lstm模块中待学习的参数集,与步骤s22中的lstm单元共享参数,r为标题中的单词个数,即wr为标题的最后一个单词,δt为问题标题最终编码得到的嵌入向量。

21、步骤ss6,假设组成问题描述d的语句所对应的嵌入向量分别为(由步骤ss1-ss4得到),l为d中语句的数量,依次将语句的嵌入向量输入门控循环单元:

22、

23、其中,ot和ot-1分别表示gru单元在t步和t-1步输入的隐向量,表示在t步输入gru单元的句向量,为gru单元的参数集。

24、步骤ss7,以问题标题作为查询向量,计算问题描述中各语句的权重,方法如下:

25、

26、其中,表示第i个语句获得的权重,t表示转置,exp(·)表示自然指数函数。

27、步骤ss8,根据得到的问题描述中个语句的权重,结合gru单元每步的输出,计算得到问题描述部分的嵌入向量δd,方法如下:

28、

29、其中,oi为输入语句时对应gru单元输出的隐向量。

30、步骤ss9,对定性依据中的普通语句进行编码,方法与问题描述中语句的编码方法相同,得到问题定性依据普通语句部分的嵌入向量δj′;

31、步骤ss10,对问题定性依据中提及的所违反的法律法规名,通过预先编码提前计算其对应的嵌入向量,具体方法为:从发布的审计案例中提取法律法规名及其对应的审计问题与建议,利用word2vec模型对审计问题与建议中出现的词进行编码,然后计算编码所得词嵌入向量的均值,得到其所对应的法律法规名编码向量δr。

32、步骤ss11,对审计问题定性依据部分进行编码得的嵌入向量δj,具体方法为:

33、δj=avg(δj′,δr)

34、其中,avg表示对向量求平均。

35、步骤ss12,整合问题标题、问题描述、问题定性依据形成问题空间中完整的审计问题编码的嵌入向量δp,方法如下:

36、

37、其中,表示向量的拼接。

38、步骤s3,利用映射器将审计问题在问题空间的嵌入向量映射到审计建议空间。映射器由多层感知机(mlp)构成,包含多个隐层和一个线性激活层,具体构成及映射方法如下:

39、δps=lin(wl…relu(w2relu(w1δp+b1)+b2)+…+bl)

40、其中,δps表示问题空间中的审计问题嵌入向量δp映射到审计建议空间后的嵌入向量,l表示多层感知机的层数,w*和b*分别表示权重矩阵和偏置向量,relu(·)表示线性整流函数,lin(·)表示线性激活函数。

41、步骤s4,建立优化目标函数,最小化训练集中所有审计问题在审计建议空间中编码得到的嵌入向量与其对应审计建议的嵌入向量的距离之和,训练问题语义学习模型及映射器中的参数。优化目标函数设计为最小化审计建议空间中的审计问题嵌入向量与对应审计建议向量间的距离,通过训练集给出的审计问题及其对应的审计建议样本进行训练,学习语义学习模块及映射器中的参数值。具体方法为建立如下损失函数:

42、

43、其中,表示训练集,包含m个样本,每个样本为一份审计报告中的一个审计问题pi及其对应的审计建议语句si,为审计问题pi经语义学习模块和映射器转换后获得的在审计建议空间的嵌入向量,为审计建议语句si由bert模型编码后得到的嵌入向量,dist(·)表示距离函数,θ表示语义学习及映射过程中涉及的参数集合,λ表示规格化参数,||.||2表示l2范数。利用既有报告构建的训练集训练参数集θ中的参数,最小化损失函数,学习得到的问题语义学习模型及映射器将用于后续新的审计问题编码。

44、步骤s5,采集既有审计报告中的审计建议,利用bert等模型对审计建议中的语句进行编码,建立审计建议库;

45、步骤s6,撰写新审计报告时,利用训练好的问题语义学习模型和映射器对审计问题进行编码,得到审计问题在审计建议空间的表征向量,从审计建议库中选择与该向量距离最近的若干向量,由对应的建议语句组成审计建议。

46、本发明还公开了一种审计报告中自动生成审计建议的装置,包含审计报告解析单元、审计问题语义学习单元、审计问题映射单元、审计建议库单元,以及审计建议选择单元。其中:·审计报告解析单元分析审计报告,从中提取审计问题,并进一步解析得到问题标题、问

47、题描述、定性依据、违反的法律法规等元素,调用word2vec模型对其中的词句进行初

48、步编码;

49、·审计问题语义学习单元接收审计报告解析单元的结果,依据步骤s2学习审计问题语义

50、并对审计问题进行编码;

51、·审计问题映射单元依据步骤s3将审计问题语义学习单元输出的编码向量映射到审计建

52、议空间;

53、·审计建议库单元存放从既有审计报告中提取的审计建议语句,语句利用bert模型编码后

54、以<语句,语句向量>对形式存放,方便计算向量间的距离;

55、·审计建议选择单元根据映射器输出的审计问题在建议空间中的编码向量,从审计建议库

56、中选择若干与该向量距离最近的向量,对应的建议语句自动组合生成审计报告中的审计建议部分。

57、与现有技术相比,本发明的有益效果体现在:能够充分利用审计问题的半结构化特征,在问题语义学习中考虑审计问题不同部分的重要性,从而更加准确地理解审计问题,进而选择出更具针对性的审计建议语句。本发明以推荐方式生成审计建议,有效避免了模型幻觉和生成文本的随意性,能够生成严谨、可用的审计建议。


技术特征:

1.一种审计报告中自动生成审计建议的方法,其特征在于根据审计报告中描述的审计问题的段落结构学习问题语义信息,再根据问题语义从审计建议库中推荐合适的建议语句,自动生成审计报告中的审计建议部分;步骤包括:

2.根据权利要求1所述的方法,其特征在于,步骤s2中,对审计问题中语句的编码方法为:将组成语句的单词的嵌入向量输入长短期记忆网络lstm,然后利用主信息词计算语句中每个单词的权重,最后加权得到语句的嵌入向量,具体步骤如下:

3.根据权利要求1所述的方法,其特征在于,步骤s2中,对问题标题的编码方法为:直接将标题中的单词按序输入lstm模块,并以最后一步的输出作为标题编码得到的嵌入向量,具体步骤为:

4.根据权利要求1所述的方法,其特征在于,步骤s2中,对问题描述的编码方法为:利用门控循环单元gru编码对问题描述语句进行二次编码,再利用问题标题计算问题描述中每个语句的权重,然后加权得到问题描述的嵌入向量;定义组成问题描述d的语句所对应的嵌入向量分别为l为d中语句的数量,具体步骤为:

5.根据权利要求1所述的方法,其特征在于,步骤s2中,对问题定性依据的编码包含如下步骤:

6.根据权利要求1所述的方法,其特征在于,步骤s2中,通过拼接审计问题各部分编码获得的嵌入向量形成审计问题的嵌入向量,步骤如下:

7.根据权利要求1所述的方法,其特征在于,步骤s3中,利用映射器将审计问题在问题空间的表征向量转化到建议空间,映射器由多层感知机mlp构成,包含多个隐层和一个线性激活层,具体构成及映射方法如下:

8.根据权利要求1所述的方法,其特征在于,步骤s4中,优化目标函数设计为最小化审计建议空间中的审计问题嵌入向量与对应审计建议向量间的距离,通过训练集给出的审计问题及其对应的审计建议样本进行训练,学习语义学习模块及映射器中的参数值;具体方法为建立如下损失函数:

9.一种审计报告中自动生成审计建议的装置,其特征在包含审计报告解析单元、审计问题语义学习单元、审计问题映射单元、审计建议库单元,以及审计建议选择单元,其中:


技术总结
本发明公开了一种审计报告中自动生成审计建议的方法。首先,采集既往审计报告中的审计建议语句,构建审计建议库;然后,对审计报告中指出的审计问题进行编码,得到其在问题空间的嵌入向量;接着,利用映射器将审计问题在问题空间的编码映射到建议空间;最后,对上述语义模型和映射器进行联合训练,学习其中的参数。当撰写新的审计报告时,将审计发现的问题输入语义模型及映射器,得到问题在建议空间的嵌入向量,从审计建议库中选择与该嵌入向量最接近的若干建议语句,生成报告中的审计建议。本发明能够充分利用长期积累的既有审计报告中严谨、规范的审计建议语句,根据审计发现的问题,自动生成准确、专业的审计建议。

技术研发人员:张璐
受保护的技术使用者:南京审计大学
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-17552.html

最新回复(0)