同文译馆
翻译科技-同文译馆
当前位置:首页> 翻译科技> 全文翻译技术发展脉络

全文翻译技术发展脉络

时间:2013/5/31 来源:中国计算机报 浏览次数:2220

自上世纪90年代以来,机器翻译领域的方法基本上可以分为两大类,即基于规则(Rule-based)的方法和基于语料库(Corpus-based)的方法。基于规则的方法是传统的方法,而基于语料库的方法是80年代以后逐渐发展起来的方法。基于规则的机器翻译(Machine Translation,MT)MT又可以分为基于转换的方法和基于中间语言(Interlingua-based)的方法,而基于语料库的方法又可以分为基于统计(Statistic-based)和基于实例(Example-based)的方法。由于没有哪种机器翻译方法能够取得令人满意的效果,于是,多引擎的思想自然就成为一种提高机器质量的手段。而且这种方法也确实有效。现在,多引擎的方法在机器翻译系统的开发中已得到广泛采用。

  基于规则的机器翻译

  基于规则的机器翻译的技术是最成熟的,也是到目前为止应用最广的,目前有影响的机器翻译系统都是基于规则的。基于规则的机器翻译系统就是对语言语句的词法、语法、语义和句法进行分析、判断和取舍,然后重新排列组合,生成等价的目标语言。

  基于中间语言的方法是对源语言进行分析后产生一种成为中间语言的表示形式,然后直接由这种中间语言的表示形式生成目标语言。所谓中间语言就是自然语言的计算机表示形式的系统化,它试图创造出一种独立于各种自然语言,同时又能表示各种自然语言的人工语言。

  基于规则的机器翻译发展到今天,相对来说已比较成熟。虽然经过长期的努力,人们已经建立含有成千上万个规则的规则库,覆盖了相当大的语言现象,但是从理论上讲,这种过程仍然很有限。因为语言是一个民族经过几千年的积累,是约定俗成而又动态发展的。随着社会的不断发展,新的词汇和语言现象不断出现。现有的机器翻译系统的规则再多,也只是特定语言现象的概括和总结。因此,基于规则的机器翻译方法借鉴了其他方法的优点,并产生很多变化,主要体现在以下几个方面:

  在规则的获取方面,传统的规则方法主要依靠语言学家总结规则进行调试,而现在更加重视从语料库中获取规则(如采用错误驱动的学习算法);

  传统的规则方法往往偏重描述粗粒度的、全局化的大范围语言学规则知识,而现在则更加重视描述细粒度的、局部的小范围的语言学知识,呈现出“小规则库、大词典”的趋势;

  在知识表示方面,为了以更小的粒度、更加准确地对翻译知识进行描述,一般要对单纯的上下文无关规则做一些改进;

  传统的规则方法采用的往往是非此即彼的确定性原则,系统的鲁棒性较差,而现在规则系统中一般都引入各种形式的概率或评分函数,系统的鲁棒性有所提高。

  基于语料库的机器翻译方法

  基于统计的机器翻译方法和基于实例的机器翻译方法都是使用语料库作为翻译知识的来源。二者的区别在于:在基于统计的机器翻译方法中,知识的表示是统计数据,而不是语料库本身,翻译知识的获取是在翻译之前完成,翻译的过程中不再使用语料库;而在基于实例的机器翻译方法中,双语语料库本身就是翻译知识的一种表现形式(不一定是惟一的),翻译知识的获取在翻译之前没有全部完成,在翻译的过程中还要查询并利用语料库。

  统计翻译的数学模型是由IBM公司的Brown等人提出来的。统计机器翻译的基本思想是,把机器翻译看成是一个信息传输的过程,用一种信道模型对机器翻译进行解释。假设一段源语言文本S,经过某一噪声信道后变成目标语言T,也就是说,假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的,那么翻译的目标就是要将T还原成S,这也就是一个解码的过程。

  统计机器翻译问题被分解为三个问题:语言模型的参数估计;翻译模型的参数估计;搜索问题,寻找最优的译文。基于统计的方法需要大规模双语语料,其翻译模型、语言模型参数的准确性直接依赖于语料的多少,其翻译质量主要取决于概率模型的好坏和语料库的覆盖能力。同时,翻译模型、语言模型在简化过程中也带来一些缺陷,在简化和可行之间存在一个权衡问题。基于统计的方法不需要对大量知识的依赖,直接靠统计结果进行歧义消解处理和译文的选择,避开了语言理解的诸多难题。但是,语料的选择和处理不但工程量大,而且需要同实际处理问题相似。因此,通用领域的机器翻译系统很少以统计方法为主。

  基于实例的方法(EBMT)

  基于实例的机器翻译(Example-Based Machine Translation)思想最早是由著名的日本机器翻译专家长尾真(Nagao. M.)提出的。其基本设想是不通过深层的分析,而仅仅通过已有的经验知识,通过类比原理进行翻译。人类的翻译过程是首先正确分解输入句子,将句子分解为短语碎片,接着把这些短语碎片译成其他语言短语,最后把这些短语合并成长句。每个短语碎片采取类比的原则进行翻译。这一方法的基本原理归纳起来很简单:系统的主要知识源是双语对照的翻译实例库,每当输入一个源语言句子S时,系统找出和S最为相似的句子S',并模仿S'的译文T'构成S的译文T然后输出。这种方法需要一个很大的语料库作为支撑,为构建语料库需要投入巨大的人力和物力。

  基于实例的机器翻译方法具有以下一些优点:

  系统维护容易 系统中知识以翻译实例和语义词典等形式存在,可以很容易地利用增加实例和词汇的方式扩充系统。

  容易产生高质量的译文 尤其在利用了较大的翻译实例库,或者输入能和实例精确匹配时更是如此,同时也可以避免一些传统的基于规则机器翻译必须进行的深层次语言学分析。

  同语种相关的知识很少 只要记忆库中存在外形同输入相似的句子,就可以进行匹配。而从语料库中获取的知识颗粒度比较小,对自然语言的刻画更为细腻、真实和准确。

  由于大规模获取语言知识的代价非常大,对于词法、语法和语义的规则的收集概括难以全面,机器翻译系统的性能一直徘徊不前。利用已经存在的双语语料库资源为新的翻译需求提供经验,是目前提高机器翻译系统译文质量的重要途径之一。EBMT对于相同或相似的文本的翻译有非常显著的效果,随着例句库的规模的增加,其作用也越来越显著。对于实例库中已有的文本,可以直接获得高质量的翻译结果。对于实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修改,构造近似的翻译结果。

  基于实例的翻译具有众多的优点,在具体实现上又是千差万别,很多地方还有相当大的潜力,近年来一直是机器翻译研究的热点之一。但由于语料库规模的限制,基于实例的机器翻译很难达到很高的匹配率,因而,到目前为止还很少有机器翻译系统采用纯粹的基于实例的方法,一般都是把基于实例的机器翻译作为多翻译引擎中的一个,以提高翻译的正确率。

(编辑:贾振华
微信