1.本发明涉及计算机技术领域,具体涉及平行语料对齐方法、系统、设备和存储介质。
背景技术:2.平行语料库在机器翻译、辅助翻译、语义消岐和词典编撰等众多领域都起着基础性的作用。平行语料库的对齐是指,将原文和译文按不同的分割粒度进行对应,形成规范的语对。语料对齐的单位从大到小有篇章、段落、句子、词等不同的粒度,粒度越小的平行语料,其提供的语言信息就越丰富,应用价值也越大。
3.在当前的语料对齐操作中,语料如果是按篇章或段落对齐,可以将原文和译文按照顺序进行对齐即可。但在段落内将原文和译文按句或更小粒度进行对齐则无法这样简单处理,由于源语言风格、目标语言风格、翻译文风、内容调整等各种原因,段落内的原文语句和译文语句若是简单的按顺序来进行对齐往往会造成大量错配的情况。所以这种粒度小于句子的原译文对齐工作往往需要人工来处理,既费时费力,效率也很低。例如专利文件cn104281716b公开的“平行语料的对齐方法及装置”,通过优化词典提高平行语料对齐的正确率,但始终无法解决小颗粒对齐的效率。
4.故需要提出更为合理的技术方案,解决现有技术中存在的技术问题。
技术实现要素:5.至少为克服其中一种上述内容提到的缺陷,本发明提出平行语料对齐方法、系统、设备和存储介质,通过将原文切割为更小粒度的组成单元,生成与待对齐译文最接近的翻译参考单元,同时即形成了翻译参考单元与原文的对齐映射关系,待对齐译文经过修正后参考翻译参考单元的对齐映射关系,可快速实现与原文的对齐。
6.为了实现上述目的,本发明可采用如下提出的技术方案:
7.平行语料对齐方法,包括:
8.获取原文与待对齐译文的段落单元,使原文与待对齐译文的段落单元对应匹配;
9.将原文的段落单元按语句顺序划分为若干语句,并同时生成段落单元的树结构;
10.对每个语句进行切词划分得到若干词组,对词组进行翻译以获得若干词组释义单元;同时生成词组释义单元与原文语句的对齐映射;
11.根据生成的若干词组释义单元生成若干语句释义单元,进行排列组合后得到若干个翻译参考段落,并选择确定最接近待对齐译文段落单元的翻译参考段落;
12.待对齐译文的段落单元采用翻译参考段落的对齐映射关系与原文进行对齐。
13.上述公开平行语料对齐方法,通过对原文进行段落化、语句化以及词组化的拆分分析,根据多种翻译的方式和风格生成翻译参考段落,生成的多种翻译参考段落能够囊括多种翻译风格的译文,因此可确定出最接近的翻译参考段落,经过适当的调整和修改后即可将待对齐译文与该翻译参考段落匹配;同时,在原文进行段落化、与句话和词组化的拆分
过程中,同步形成了从原文到词组的映射对齐关系,而确定最接近的翻译参考段落后,按照该段落的映射对齐关系即可将译文对齐至原文。整个过程自动化程度高,准确率高。
14.进一步的,本发明对语句进行分析的过程中,考虑到语句的精简,减少部分词组的干扰,仅保留其中的部分词组,具体的,此处进行优化并举出其中一种可行的选择:在对每个语句进行切词划分得到若干词组时,保留所有的实义词,去除所有的停用词。采用如此方案时,实义词的含义能够清楚表达语句的含义,并且仅对实义词进行对齐,可减少不必要的词组对齐操作,提高对齐的效率。
15.进一步的,为了尽量多的提供翻译方式和内容,便于确定与译文最接近的翻译参考段落,本发明进行优化并举出如下的一种选择:在生成词组释义单元时,获取每个实义词的所有翻译内容,并采用排列组合的方式生成语句释义单元,语句释义单元与原文段落单元中的句子对应,每个实义词的所有翻译内容采用相同的对齐映射。采用如此方案时,每个实义词都能够根据不同的翻译方式、翻译风格生成多个翻译内容,根据排列组合的方式可生成若干个翻译参考的语句,多个语句再通过排列组合的方式可形成多种参考翻译段落,由此提供了足够多与待对齐译文进行匹配的内容,能够最大程度的确定与待对齐译文最接近的翻译参考段落。
16.再进一步,部分实义词经过翻译后,与译文仍然存在差异,导致匹配过程不够准确,为了提高翻译的正确性,此处进行优化改进并举出如下一种可行的选择:生成每个实义词的近义词,并根据近义词获得对应的翻译内容,并采用排列组合的方式生成语句释义单元,每个近义词的翻译内容采用相同于对应实义词的对齐映射。采用如此方案时,能够通过近义词拓展更多的翻译参考内容,从而可增加与译文高度匹配的几率。
17.进一步的,通过确定最接近的翻译参考段落,能够快速的找到对齐映射关系,具体在操作时,可进行优化并采用如下一种选择:在确定最接近待对齐译文段落单元的翻译参考段落时,分析并生成待对齐译文的树结构,选择与待对齐译文相同树结构的翻译参考段落。采用如此方案时,树结构相同的翻译参考段落和待对齐译文,其内部语句的对应关系更为一致,采用翻译参考段落的对齐映射关系更加适用。
18.进一步的,在对实义词进行扩展和翻译的过程中,不仅仅考虑到实义词本身的多种释义,其近义词的多种释义,还可以考虑多种其他的释义,例如在此处进行优化并举出其中一种可行的选择:还包括缩写词匹配,对实义词的缩写词进行列举并形成缩写词库,当待对齐译文中出现缩写词时,在缩写词库中进行搜索匹配并进行释义。采用如此方案时,缩写词能够解决部分词组无法直译的问题,通过将缩写词所对应的词组或短语完整展示并进行翻译,可提高语句翻译的正确率。
19.上述内容对本发明中的平行语料对齐方法进行了解释说明,本发明还公开了一种对齐系统,此处进行解释说明。
20.平行语料对齐系统,包括:
21.获取单元,用于获取原文和待对齐译文,并分别划分获取其段落单元;
22.句法树单元,用于识别段落单元中的语句,并将段落单元划分成若干独立的语句;
23.分词单元,用于切分语句中的实义词与停用词,对语句中的实词进行识别并提取,以生成若干词组;
24.对齐单元,用于将词组映射与原文对齐,同时使词组释义单元、翻译参考段落和待
对齐译文的段落单元与原文对齐。
25.上述公开的对齐系统,能够自动化运行,按照前文所述的对齐方法对原文和译文进行匹配对齐。
26.进一步的,对齐单元在实现译文和原文对齐的过程中,通过双向流程将译文对齐映射至原文,具体的,可进行优化并采用如下一种可行的选择:所述的对齐单元包括正向映射模块和逆向对齐模块,正向映射模块用于生成词组释义单元与原文的映射关系,逆向对齐模块用于使待对齐译文的语句按照映射关系与原文对齐。
27.本发明还公开了平行语料对齐设备,包括处理器,搭载了前文所述的平行语料对齐系统,当平行语料对齐系统运行时,处理器用于处理获取单元、句法树拒单、分词单元和对齐单元的通信数据。
28.本发明还公开了平行语料对齐存储介质,存储有前文所述的平行语料对齐系统,当存储介质与电脑主机连接后,电脑主机用于运行存储介质上的平行语料对齐系统。
29.与现有技术相比,本发明公开技术方案的部分有益效果包括:
30.本发明通过将原文进行细化拆分并形成段落化、语句化和词组化,拆分过程中保留可对齐映射关系;通过对词组的扩展和翻译形成多种词组释义单元,并排列组合形成多种语句释义单元,再排列组合后形成多种翻译参考段落,从中可匹配到最接近的翻译参考段落,待对齐译文按照该翻译参考段落的对齐映射关系即可对齐至原文。
附图说明
31.为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅表示出了本发明的部分实施例,因此不应看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
32.图1为实施例1中对齐方法的过程示意图。
33.图2为实施例2中对齐系统的组成结构示意图。
具体实施方式
34.下面结合附图及具体实施例对本发明做进一步阐释。
35.针对现有的译文对齐方式效率较低,对齐结果可靠性不高的现状,本实施例进行优化改进以克服现有技术中的缺陷。
36.实施例1
37.如图1所示,本实施例提供了一种方法,用于将译文和原文进行对齐,具体进行说明如下。
38.平行语料对齐方法,包括如下步骤:
39.s01:获取原文与待对齐译文的段落单元,使原文与待对齐译文的段落单元对应匹配;
40.s02:将原文的段落单元按语句顺序划分为若干语句,并同时生成段落单元的树结构;
41.s03:对每个语句进行切词划分得到若干词组,对词组进行翻译以获得若干词组释
义单元;同时生成词组释义单元与原文语句的对齐映射;
42.s04:根据生成的若干词组释义单元生成若干语句释义单元,进行排列组合后得到若干个翻译参考段落,并选择确定最接近待对齐译文段落单元的翻译参考段落;
43.s05:待对齐译文的段落单元采用翻译参考段落的对齐映射关系与原文进行对齐。
44.上述公开平行语料对齐方法,通过对原文进行段落化、语句化以及词组化的拆分分析,根据多种翻译的方式和风格生成翻译参考段落,生成的多种翻译参考段落能够囊括多种翻译风格的译文,因此可确定出最接近的翻译参考段落,经过适当的调整和修改后即可将待对齐译文与该翻译参考段落匹配;同时,在原文进行段落化、与句话和词组化的拆分过程中,同步形成了从原文到词组的映射对齐关系,而确定最接近的翻译参考段落后,按照该段落的映射对齐关系即可将译文对齐至原文。整个过程自动化程度高,准确率高。
45.本实施例对语句进行分析的过程中,考虑到语句的精简,减少部分词组的干扰,仅保留其中的部分词组,具体的,本实施例进行优化并采用如下一种可行的选择:在对每个语句进行切词划分得到若干词组时,保留所有的实义词,去除所有的停用词。采用如此方案时,实义词的含义能够清楚表达语句的含义,并且仅对实义词进行对齐,可减少不必要的词组对齐操作,提高对齐的效率。
46.为了尽量多的提供翻译方式和内容,便于确定与译文最接近的翻译参考段落,本实施例进行优化并采用如下的一种选择:在生成词组释义单元时,获取每个实义词的所有翻译内容,并采用排列组合的方式生成语句释义单元,语句释义单元与原文段落单元中的句子对应,每个实义词的所有翻译内容采用相同的对齐映射。采用如此方案时,每个实义词都能够根据不同的翻译方式、翻译风格生成多个翻译内容,根据排列组合的方式可生成若干个翻译参考的语句,多个语句再通过排列组合的方式可形成多种参考翻译段落,由此提供了足够多与待对齐译文进行匹配的内容,能够最大程度的确定与待对齐译文最接近的翻译参考段落。
47.在一些实义词的释义中包括多种含义时,对其每种含义都进行翻译,如下在原文为中文时,根据中文的实义词释义,翻译处多种应为释义:
48.在本实施例中,部分实义词经过翻译后,与译文仍然存在差异,导致匹配过程不够准确,为了提高翻译的正确性,此处进行优化改进并举出如下一种可行的选择:生成每个实义词的近义词,并根据近义词获得对应的翻译内容,并采用排列组合的方式生成语句释义单元,每个近义词的翻译内容采用相同于对应实义词的对齐映射。采用如此方案时,能够通过近义词拓展更多的翻译参考内容,从而可增加与译文高度匹配的几率。
49.具体的,生成近义词并进行释义的过程如下:
[0050][0051]
在本实施例中,通过确定最接近的翻译参考段落,能够快速的找到对齐映射关系,具体在操作时,可进行优化并采用如下一种选择:在确定最接近待对齐译文段落单元的翻译参考段落时,分析并生成待对齐译文的树结构,选择与待对齐译文相同树结构的翻译参考段落。采用如此方案时,树结构相同的翻译参考段落和待对齐译文,其内部语句的对应关系更为一致,采用翻译参考段落的对齐映射关系更加适用。
[0052]
在对实义词进行扩展和翻译的过程中,不仅仅考虑到实义词本身的多种释义,其近义词的多种释义,还可以考虑多种其他的释义,例如在此处进行优化并采用其中一种可行的选择:还包括缩写词匹配,对实义词的缩写词进行列举并形成缩写词库,当待对齐译文中出现缩写词时,在缩写词库中进行搜索匹配并进行释义。采用如此方案时,缩写词能够解决部分词组无法直译的问题,通过将缩写词所对应的词组或短语完整展示并进行翻译,可提高语句翻译的正确率。
[0053]
实施例2
[0054]
如图2所示,上述内容对本发明中的平行语料对齐方法进行了解释说明,本发明还公开了一种对齐系统,此处进行解释说明。
[0055]
平行语料对齐系统,包括:
[0056]
获取单元,用于获取原文和待对齐译文,并分别划分获取其段落单元;
[0057]
句法树单元,用于识别段落单元中的语句,并将段落单元划分成若干独立的语句;
[0058]
分词单元,用于切分语句中的实义词与停用词,对语句中的实词进行识别并提取,以生成若干词组;
[0059]
对齐单元,用于将词组映射与原文对齐,同时使词组释义单元、翻译参考段落和待对齐译文的段落单元与原文对齐。
[0060]
上述公开的对齐系统,能够自动化运行,按照前文所述的对齐方法对原文和译文进行匹配对齐。
[0061]
优选的,对齐单元在实现译文和原文对齐的过程中,通过双向流程将译文对齐映射至原文,具体的,可进行优化并采用如下一种可行的选择:所述的对齐单元包括正向映射模块和逆向对齐模块,正向映射模块用于生成词组释义单元与原文的映射关系,逆向对齐模块用于使待对齐译文的语句按照映射关系与原文对齐。
[0062]
实施例3
[0063]
本实施例还公开了平行语料对齐设备,包括处理器,搭载了前文所述的平行语料对齐系统,当平行语料对齐系统运行时,处理器用于处理获取单元、句法树拒单、分词单元和对齐单元的通信数据。
[0064]
实施例4
[0065]
本实施例还公开了平行语料对齐存储介质,存储有前文所述的平行语料对齐系
统,当存储介质与电脑主机连接后,电脑主机用于运行存储介质上的平行语料对齐系统。
[0066]
以上即为本实施例列举的实施方式,但本实施例不局限于上述可选的实施方式,本领域技术人员可根据上述方式相互任意组合得到其他多种实施方式,任何人在本实施例的启示下都可得出其他各种形式的实施方式。上述具体实施方式不应理解成对本实施例的保护范围的限制,本实施例的保护范围应当以权利要求书中界定的为准。
技术特征:1.平行语料对齐方法,其特征在于,包括:获取原文与待对齐译文的段落单元,使原文与待对齐译文的段落单元对应匹配;将原文的段落单元按语句顺序划分为若干语句,并同时生成段落单元的树结构;对每个语句进行切词划分得到若干词组,对词组进行翻译以获得若干词组释义单元;同时生成词组释义单元与原文语句的对齐映射;根据生成的若干词组释义单元生成若干语句释义单元,进行排列组合后得到若干个翻译参考段落,并选择确定最接近待对齐译文段落单元的翻译参考段落;待对齐译文的段落单元采用翻译参考段落的对齐映射关系与原文进行对齐。2.根据权利要求1所述的平行语料对齐方法,其特征在于:在对每个语句进行切词划分得到若干词组时,保留所有的实义词,去除所有的停用词。3.根据权利要求2所述的平行语料对齐方法,其特征在于:在生成词组释义单元时,获取每个实义词的所有翻译内容,并采用排列组合的方式生成语句释义单元,语句释义单元与原文段落单元中的句子对应,每个实义词的所有翻译内容采用相同的对齐映射。4.根据权利要求2或3所述的平行语料对齐方法,其特征在于:生成每个实义词的近义词,并根据近义词获得对应的翻译内容,并采用排列组合的方式生成语句释义单元,每个近义词的翻译内容采用相同于对应实义词的对齐映射。5.根据权利要求1所述的平行语料对齐方法,其特征在于:在确定最接近待对齐译文段落单元的翻译参考段落时,分析并生成待对齐译文的树结构,选择与待对齐译文相同树结构的翻译参考段落。6.根据权利要求5所述的平行语料对齐方法,其特征在于:还包括缩写词匹配,对实义词的缩写词进行列举并形成缩写词库,当待对齐译文中出现缩写词时,在缩写词库中进行搜索匹配并进行释义。7.平行语料对齐系统,其特征在于,包括:获取单元,用于获取原文和待对齐译文,并分别划分获取其段落单元;句法树单元,用于识别段落单元中的语句,并将段落单元划分成若干独立的语句;分词单元,用于切分语句中的实义词与停用词,对语句中的实词进行识别并提取,以生成若干词组;对齐单元,用于将词组映射与原文对齐,同时使词组释义单元、翻译参考段落和待对齐译文的段落单元与原文对齐。8.根据权利要求7所述的平行语料对齐系统,其特征在于:所述的对齐单元包括正向映射模块和逆向对齐模块,正向映射模块用于生成词组释义单元与原文的映射关系,逆向对齐模块用于使待对齐译文的语句按照映射关系与原文对齐。9.平行语料对齐设备,包括处理器,搭载了如权利要求7所述的平行语料对齐系统,其特征在于:当平行语料对齐系统运行时,处理器用于处理获取单元、句法树拒单、分词单元和对齐单元的通信数据。10.平行语料对齐存储介质,存储有如权利要求7所述的平行语料对齐系统,其特征在于:当存储介质与电脑主机连接后,电脑主机用于运行存储介质上的平行语料对齐系统。
技术总结本发明涉及计算机技术领域,具体涉及平行语料对齐方法、系统、设备和存储介质,包括:获取段落单元,将段落单元划分为若干语句,同时生成段落单元的树结构;对每个语句进行切词划分得到若干词组,翻译获得若干词组释义单元;生成词组释义单元与原文语句的对齐映射;进行排列组合后得到若干个翻译参考段落,并选择确定最接近的翻译参考段落;待对齐译文与原文进行对齐。本发明通过将原文细化形成段落化、语句化和词组化,拆分过程中保留可对齐映射关系;通过对词组的扩展和翻译形成多种词组释义单元,并排列组合形成多种语句释义单元和翻译参考段落,匹配到最接近的翻译参考段落,待对齐译文按照该翻译参考段落的对齐映射关系即可对齐至原文。可对齐至原文。可对齐至原文。
技术研发人员:符甜 何武平
受保护的技术使用者:火星语盟(深圳)科技有限公司
技术研发日:2022.06.08
技术公布日:2022/11/1