基于文档布局相似性的文本零水印生成与校验方法和系统与流程

专利2026-02-10  8


本发明属于数据安全领域,特别涉及一种基于文档布局相似性的文本零水印生成与校验方法和系统。


背景技术:

1、随着信息技术的发展和互联网的普及,数字信息的传播和共享变得越来越普遍。然而,随之而来的信息安全问题也日益严重。数字文档在传播过程中容易被非法篡改、盗用或恶意篡改,这不仅损害了原作者的利益,还可能导致严重的法律纠纷和信息安全问题。因此,如何有效地保护数字文档的完整性和版权,成为了一个重要的研究课题。

2、在电力行业,数字化和信息化进程不断加快,大量的电力设计图纸、技术规范、操作规程、调度记录等关键文档逐渐以数字形式保存和传输。这些文档不仅是企业的重要资产,也是确保电力系统安全稳定运行的基础。一旦这些文档被非法篡改或泄露,可能会导致严重的安全事故和经济损失。因此,电力行业对数字文档的安全性和可靠性有着极高的要求。

3、零水印技术是一种不对原文档进行任何修改的水印技术,它通过从原始文档中提取特征信息生成水印,并在需要验证时利用原始文档和水印进行比对来校验文档的真实性。相比于传统的嵌入式水印技术,零水印技术具有不改变原始文档内容、不影响文档质量等优点。然而,现有的零水印技术在抗攻击性和鲁棒性方面仍存在不足,尤其是在面对文档布局改变或部分内容调整时,容易导致水印校验失败。


技术实现思路

1、为了解决现有技术中存在的不足,本发明提供了一种基于文档布局相似性的文本零水印生成与校验方法和系统,以提高零水印技术在电力行业中的实际应用中的可靠性和安全性,有效保护电力行业关键数字文档的完整性和保密性。

2、为解决上述技术问题,本发明采用如下的技术方案。

3、本发明首先公开了一种基于文档布局相似性的文本零水印生成与校验方法,该方法包括以下步骤:

4、步骤1:将数字文档划分成多个独立的语句,根据各个语句的字符数量构建所述数字文档的语句长度特征序列集合;

5、步骤2:将所述语句长度特征序列映射为固定长度的ascii码值,将所述ascii码值组成所述数据文档的布局特征序列;

6、步骤3:对包含作者身份标识的水印信息进行编码,得到水印编码序列,将所述水印编码序列与所述数据文档的布局特征序列依次进行二进制转换和等长处理,并生成结合水印信息的文档布局特征序列;

7、步骤4:将结合水印信息的文档布局特征序列输入到局部敏感哈希生成器中,使用simhash算法将结合水印信息的文档布局特征序列进行加权、合并和降维操作,形成布局特征零水印;

8、步骤5:将生成的零水印存储到可信的第三方数据库中。

9、本发明进一步包括以下优选方案:

10、所述步骤1进一步包括:

11、步骤1.1:获取数字文档x,通过识别标点符号,将文档x划分成多个独立的完整语句,形成语句集合t={t1,t2,…tn},其中ti表示文档x中的第i个语句,计算得到文档x包含的语句总数为n;

12、步骤1.2:对集合t中每个语句ti,计算其字符总数,得到每个语句ti对应的句子长度li;

13、步骤1.3:将所有li按照其在文档中的顺序排列,构建文档x的语句长度特征序列集合l={l1,l2,…ln}。

14、所述步骤2进一步包括:

15、步骤2.1:将数字文档x中的每个语句长度li通过映射函数map映射到一个特定的ascii码值,所述映射函数map定义如下:

16、ri=map(li)=ascii(li mod 255)

17、其中ascii()表示二进制数到对应ascii符号的映射;

18、步骤2.2:根据映射函数依次计算长度特征序列集合l中每个元素映射到对应的ascii码值,得到映射集合r={r1,r2,…rn};

19、步骤2.3:将映射集合r的元素按序拼接,得到文档x的布局特征序列n=r1+r2+…+rn。

20、所述步骤3进一步包括:

21、步骤3.1:按照utf-8编码对水印信息m进行编码,得到水印编码序列为m;所述水印信息包含表明作者身份的标识和时间戳;

22、步骤3.2:将文档布局特征序列n转成二进制序列n′;将水印信息编码序列m转成二进制序列m′;

23、步骤3.3:分别计算水印编码二进制序列m′的比特长度la和数字文档x的布局特征序列n′的比特长度lb;

24、步骤3.4:比较两个序列的比特长度la和lb;如果两个序列长度不等,对较短的序列进行填充操作,使得两个序列等长;

25、步骤3.5:将经过填充处理后的两段等长序列进行逐比特异或操作,生成所述数字文档的结合水印信息的文档布局特征序列。

26、所述步骤3.4进一步包括:

27、步骤3.4.1:如果la>lb,则将布局特征序列n′复制[la/lb]份,得到长度为lb*[la/lb]比特的新序列,再补充(la-lb*[la/lb])比特0,拼接得到长度为la的新序列mc;

28、步骤3.4.2:如果la<lb,则将水印信息序列m′复制[lb/la]份,得到序列长度为la*[lb/la]比特的新序列,再补充(lb-la*[lb/la])比特0,拼接得到长度为lb的新序列nc。

29、所述步骤3.5进一步包括:

30、步骤3.5.1:如果la>lb,则生成的文档布局特征序列p为:

31、p=m′⊕nc

32、步骤3.5.2:如果la<lb,则生成的文档布局特征序列p为:

33、p=mc⊕n′。

34、

35、所述步骤4进一步包括:

36、步骤4.1:将结合水印信息的文档布局特征序列p划分为多个等长的特征串fi,i=1,2,…,n,每个特征串长度为c位;

37、步骤4.2:为每个特征串fi分配权值ki;根据特征串中的位值是“1”或“0”,转换为ki或-ki;设fi[j]为fi中的第j位,则加权后的值wij为:

38、

39、步骤4.3:累加每个位置j的所有特征串的加权值wij,形成一个整体序列串v;具体计算方法如下:

40、

41、其中,v[j]表示第j位置上所有特征串的加权和;

42、步骤4.4:对合并后的序列v进行降维处理,如果v[j]大于0,则s[j]记为1;如果v[j]小于或等于0,则s[j]记为0,s[j]表示v的第j位的降维结果:

43、

44、本发明同时公开了一种利用前述基于文档布局相似性的文本零水印生成方法的基于文档布局相似性的文本零水印校验方法,包括:

45、步骤6:利用所述文档布局相似性的文本零水印生成方法针对待校验文档生成布局特征零水印;

46、步骤7:计算所述待校验文档的布局特征零水印与可信数据库中存储的原始文档的零水印之间的汉明距离,以评估所述待校验文档与可信数据库中记录的原始文档之间的布局特征相似度;

47、步骤8:基于所述布局特征相似度,根据预先设定的阈值输出校验结果。

48、本发明同时公开了一种利用前述基于文档布局相似性的文本零水印生成方法的基于文档布局相似性的文本零水印生成系统,包括:

49、划分模块,用于将数字文档划分成多个独立的语句,根据各个语句的字符数量构建所述数字文档的语句长度特征序列集合;

50、映射模块,用于将所述语句长度特征序列映射为固定长度的ascii码值,将所述ascii码值组成所述数据文档的布局特征序列。

51、组合模块,用于对包含作者身份标识的水印信息进行编码,得到水印编码序列,将所述水印编码序列与所述数据文档的布局特征序列依次进行二进制转换和等长处理,并生成结合水印信息的文档布局特征序列;

52、零水印生成模块,用于将结合水印信息的文档布局特征序列输入到局部敏感哈希生成器中,使用simhash算法将结合水印信息的文档布局特征序列进行加权、合并和降维操作,形成布局特征零水印;

53、存储模块,用于将生成的零水印存储到可信的第三方数据库中。

54、本发明同时公开了一种利用前述基于文档布局相似性的文本零水印校验方法的基于文档布局相似性的文本零水印校验系统,包括:

55、生成模块,用于利用所述文档布局相似性的文本零水印生成方法针对待校验文档生成布局特征零水印;

56、评估模块,用于计算所述待校验文档的布局特征零水印与可信数据库中存储的原始文档的零水印之间的汉明距离,以评估所述待校验文档与可信数据库中记录的原始文档之间的布局特征相似度;

57、校验模块,用于基于所述布局特征相似度,根据预先设定的阈值输出校验结果。

58、相应地,本技术还公开了一种终端,包括处理器及存储介质;

59、所述存储介质用于存储指令;

60、所述处理器用于根据所述指令进行操作以执行根据前述基于文档布局相似性的文本零水印生成与校验方法的步骤。

61、相应地,本技术还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述基于文档布局相似性的文本零水印生成与校验方法的步骤。

62、本发明的有益效果在于,与现有技术相比,本发明提供了一种基于文档布局相似性的文本零水印生成与校验方法和系统,利用文档的布局特征,提取和分析文档的版面布局信息,以生成具有较高鲁棒性的零水印,仅利用文档的布局特征进行水印生成和校验,不需要在文本中嵌入大量的隐藏信息;不需要复杂的加密算法或大规模计算,易于实现和部署,具有较高的实用性和可行性。


技术特征:

1.一种基于文档布局相似性的文本零水印生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于文档布局相似性的文本零水印生成方法,其特征在于,所述步骤1进一步包括:

3.根据权利要求2所述的基于文档布局相似性的文本零水印生成方法,其特征在于,所述步骤2进一步包括:

4.根据权利要求3所述的基于文档布局相似性的文本零水印生成方法,其特征在于,所述步骤3进一步包括:

5.根据权利要求4所述的基于文档布局相似性的文本零水印生成方法,其特征在于,所述步骤3.4进一步包括:

6.根据权利要求5所述的基于文档布局相似性的文本零水印生成方法,其特征在于,所述步骤3.5进一步包括:

7.根据权利要求6所述的基于文档布局相似性的文本零水印生成方法,其特征在于,所述步骤4进一步包括:

8.一种利用权利要求1-7任一项权利要求所述的基于文档布局相似性的文本零水印生成方法的基于文档布局相似性的文本零水印校验方法,包括:

9.一种利用权利要求1-7任一项权利要求所述的基于文档布局相似性的文本零水印生成方法的基于文档布局相似性的文本零水印生成系统,包括:

10.一种利用权利要求8所述的基于文档布局相似性的文本零水印校验方法的基于文档布局相似性的文本零水印校验系统,包括:

11.一种终端,包括处理器及存储介质;其特征在于:

12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8任一项所述的方法的步骤。


技术总结
一种基于文档布局相似性的文本零水印生成与校验方法和系统。该文本零水印生成方法包括,将数字文档划分成多个独立语句,根据各个语句的字符数量构建数字文档的语句长度特征序列集合;将语句长度特征序列映射为固定长度的ASCII码值,将ASCII码值组成布局特征序列;对水印信息进行编码,得到水印编码序列,将水印编码序列与数据文档的布局特征序列依次进行二进制转换和等长处理,生成结合水印信息的文档布局特征序列,输入到局部敏感哈希生成器中,将结合水印信息的文档布局特征序列进行加权、合并和降维操作,形成布局特征零水印。本发明实现了电力行业中关键数字文档的完整性验证和版权保护。

技术研发人员:杨钰,顾智敏,景栋盛,冯仁君,郭静,王梓莹,冒佳明,李岩,朱道华,孙云晓,姜海涛,郭雅娟,梁伟
受保护的技术使用者:国网江苏省电力有限公司苏州供电分公司
技术研发日:
技术公布日:2024/11/11
转载请注明原文地址: https://tieba.8miu.com/read-19737.html

最新回复(0)