同文译馆
翻译科技-同文译馆
当前位置:首页> 翻译科技> 机器翻译系统的探索研究开发应用历程

机器翻译系统的探索研究开发应用历程

时间:2010/9/26 来源:计世网 浏览次数:3947
  人类对机器翻译系统的研究开发已经持续了50年。事实上,自20世纪40年代电子计算机诞生之日起,人类就开始了计算机应用于语言翻译的探索。之后的许多年,机器翻译系统主要是基于双语字典进行直接翻译,几乎没有什么细致的句法结构分析。直到20世纪80年代,计算语言学的发展产生了更加复杂的方法,一些机器翻译系统采用了间接方法进行翻译。在这种方法中,源语言文本被分析转换成某种意义上的抽象表达形式,随后利用一些程序,通过识别词结构(词法分析)和句子结构(句法分析)解决歧义问题(语义上的)。句法分析模块通常包含识别多义词的模块和识别正确语义关系的模块。人们希望抽象表达是无歧义的,并为生成一个或多个目标语言提供根据。其中有一种方法将抽象表达设计为一种与具体语种无关的“中间语言”,它可以作为许多自然语言的中介。这样,翻译就分成两个阶段:从源语言到中间语言,从中间语言到目标语言。另一种更常用的间接方法是将源语言表达转化成为目标语言的等价表达形式。这样,翻译便分成三个阶段:分析输入文本并将它表达为抽象的源语言;将源语言转换成抽象的目标语言;最后生成目标语言。

  机器翻译的类型

  实际上,几乎所有的商业翻译系统都可以分为三个基本类型:直接型、中间语言型和转换型。大多数著名的大型机器翻译系统本质上都是“直接翻译”型的系统,如Systran、 Logos 和 FujitsuAtlas;其次是改进的直接型系统,这些系统与其父辈不同,是高度模块化的系统,它们很容易被修改和扩展。例如著名的Systran 系统在开始设计时只能完成从俄文到英文的翻译,但现在它已经可以完成很多语种之间的互译。Logos开始只针对德语到英语的翻译市场,而现在可以将英语翻译成法语、德语、意大利语,以及将德语翻译成法语和意大利语。只有Fujitsu Atlas 系统至今仍把自己局限于英日、日英的翻译。

  最重要的大型机“转换型”机器翻译系统是METAL。20 世纪80年代初期,德国西门子公司提供了大部分资金支持开发该系统,直到80年代末 METAL才面市,且销售状况很不好。90年代初,METAL的开发权转让给GMS和LANT 公司。目前最有名的两个“转换型”系统是Grenoble的Ariane和欧洲共同体委员会提供基金的Eurotra项目。Ariane有希望成为法国国家机器翻译系统;而Eurotra无疑是最复杂的机器翻译系统之一,经过西欧许多国家数百名研究人员近10年的努力,目前仍未能开发出投资者需要的工作系统(working system)。80年代末,日本政府出资支持开发用于亚洲语言之间互译的中间语言系统,中国、泰国、马来西亚和印度尼西亚等国的研究人员均参加了这一研究。但遗憾的是,这一计划历经10年仍未获得成功。

  机器翻译系统的应用

  目前,机器翻译系统在很多领域得到了广泛的应用。

  1.应用在政府部门

  早期的机器翻译系统安装于各国的政府机构和军队中,主要原因是只有这些机构才付得起昂贵的计算机硬件设备费用。美国空军于1970年开始研制Systran系统,目的是将俄国军事方面的科学技术文献翻译成英语,据称其技术报告翻译准确率达到90%以上。现在美国国家空军情报中心接管了美国空军的翻译服务,可以为美国政府提供广泛的翻译服务。除了俄英翻译,Systran还可以将日语、汉语、朝鲜语翻译成英语,从塞尔维亚·克罗地亚语到英语的翻译目前正处于开发之中。

  在欧洲,最大的翻译服务机构属于欧洲委员会(European Commission),它也是最早安装机器翻译系统的机构之一。从1976年开始,它一直在用 Systran 系统将英语翻译成法语。后来,该机构又开发了能完成很多语种之间互译的机器翻译系统,基本上能满足欧盟各语种之间的翻译需要。虽然很多法律文件仍需要人工翻译,但Systran系统的确得到了越来越广泛的应用,不仅在翻译内部文件时使用,而且还能在辅助政府官员们编写非母语文章时发挥作用。

  2.翻译技术文档

  在今天,尽管机器翻译系统还有其他用处,但翻译技术文档仍然是其最重要的应用领域。这一应用对大型机系统供应商来说特别重要,因为他们的客户分布在世界各地,特别需要将大量的产品市场宣传材料和技术资料翻译成客户所需的语言。

  通常,技术资料的翻译量非常大,一件设备的操作手册可能多达上千页,而且新机型出来还常常需要对手册进行修改,靠人工翻译的花费将非常高。有许多例子说明长期使用机器翻译系统翻译多语种技术文档取得的成功,其中最著名的例子是加拿大LexiTech公司利用Logos系统进行的资料翻译。最初,该公司为了将海军护卫舰维修手册翻译成法语而使用机器翻译系统,到后来,该公司专门建立了一个服务中心,负责承接各种翻译项目,并取得了巨大的成功。Ericsson、 Osram、 Oce Technologies、SAP 以及 Corel公司也曾使用过Logos系统。福特汽车、 通用汽车、 Anospatiale、 Berlitz、 Xerox等全球著名企业都是Systran 的大客户。 许多欧洲公司也曾成功地应用过METAL 德英翻译系统。

  需要注意的是,大公司成功安装机器翻译系统有一个前提条件:即用户希望在一个特定领域内翻译相当大量的资料。在这种情况下,客户希望不论技术资料是否自动产生,都应该保持术语的一致性。如果不使用自动翻译系统,这种一致性很难保证。这一需求也要求使用机器翻译系统的公司在使用机器翻译系统之前,必须事先建立起一个术语数据库,其中必须包括用户的特殊要求。

  3.受限语言和特定应用领域

  在某些特定应用领域,人们发现对源语言加入相当程度的限制通常是可行的。一个早期的著名实例是Xerox公司使用的Systran系统。在Xerox公司,技术文献的作者必须用所谓的多国化受限英语(Multinational Customized English)来编写文件。在这种情况下,不仅某个术语的说法是确定的,而且怎样造句也被事先确定了。这种做法的好处是排除了许多机器翻译系统难以处理的输入歧义,使翻译质量更高,同时也能更快地转化为多个其他语种。这些优点已经被其他跨国公司所认同,因此“受限语言”用得越来越多。例如Caterpillar公司设计了自己独特的英文格式,以便使用卡耐基梅隆大学开发的基于知识的机器翻译系统。此外,也有许多公司要求对某一特定用户建立 “受限语言”的机器翻译系统。例如美国Smart公司开发的Smart系统。该系统包含一个对英文文献进行“正规化”的模块。Smart系统可以将英语翻译成法语、德语、希腊语、意大利语、日语和西班牙语。

  在欧洲,荷兰的Cap Volmac公司和比利时的LANT公司也提供类似的服务。它们用各自的受限语言软件为不同客户建立专业翻译系统。Cap Volmac Lingware 翻译中心是Cap Gemini Sogeti 集团在荷兰的附属机构。多年来,这家软件公司一直在为纺织业和保险业建立受限语言翻译系统,主要实现从荷兰语到英语的翻译。

  另一种用户定制的系统是TITUS,它是一个高度受限的 “子语言”系统,专门将纺织工业文献在英语、法语、德语和西班牙语之间互译。该系统从70年代开始一直在定期使用。还有两个定制系统是位于华盛顿的泛美卫生组织 (PAHO)开发的,目标是进行英语和西班牙语之间的互译,该系统的设计开发者都是该组织内部的工作人员。这两个系统都相当成功,属于通用型机器翻译系统,它并不限制所使用的词汇和文本种类。

  卡耐基梅隆大学机器翻译小组的成员在多年开发基于知识的机器翻译系统经验及试验语言翻译和基于语料库方法的基础上,开发了一个快速为特定用户生成机器翻译系统的体系结构,但它仅限于几种不太常用的语言,如塞尔维亚·克罗地亚语等。

  还有一个为客户定制的机器翻译系统是TCC Communications开发的专门翻译电视节目解说词的系统。该系统不仅有时间约束,而且在口语用法、对话、健壮性和上下文的合理性等方面都有很高的要求。这个系统目前可以进行英语到西班牙语的电视解说词翻译。

  在日本也有很多为客户定制的系统。例如,日本科学技术信息中心可以将日语的科技文章翻译成英语,而20世纪80年代末Kyoto大学开发成功的Mu日英机器翻译系统目前是日本最大的机器翻译系统。其他重要的日本机器翻译系统有IBM(日本)开发的SHALT系统、东京CSK公司开发的ARGO系统和NHK系统。

  4.软件本地化

  在20世纪90年代,市场上出现了翻译工作站,它将各种计算机工具集成在一起让翻译家使用,包括多语种的字处理软件、接收和发送电子文档的工具、OCR设备、术语管理软件、协调工具和“翻译记忆器”等。翻译工作站的出现拓展了大规模翻译的可能性。

  在翻译工作站的配套软件中,特别值得一提的是“翻译记忆器”,它让翻译者可以方便地将原始文本和翻译文本并列存储起来,也就是把相应的源句子和目标句子对齐。这样翻译者可以从翻译记忆器中的一种语言库中查出一个短语或整句,然后在另一种语言中显示其翻译结果。这种方式非常适合于大量技术文献的翻译。通常,一家大公司的技术文献、技术手册经常需要多次修改,但其中大部分内容都不会改变。有了翻译记忆器,就可以把曾经翻译过的部分直接提取出来再利用。即使不是精确匹配,提取出的部分也只需经过小小修改就可以再利用。对那些在翻译记忆器中找不到的词汇或短语,还可以从术语数据库中查找。目前,在全球有四家翻译工作站销售商:Trados、 德国的STAR AG、 IBM的TranslationManager 以及比利时的LANT。

  翻译工作站的出现使软件本地化行业获益匪浅。由于要在新软件发布的同时提供多种语言版本,因此翻译必须非常迅速,但从一个版本到另一个版本有很大部分的重复,显然使用配有翻译记忆器的翻译工作站是一个很好的解决办法。很多全球著名的软件公司目前都采用这一方法解决软件本地化问题。

  基于Internet的机器翻译

  随着Internet的发展,人们希望能获得基于Internet 的翻译服务。事实上,许多机器翻译系统销售商一直在提供网络翻译服务,包括附有人工修正的机器翻译服务。目前,网络翻译服务通常以两种方式进行:其一是通过客户机/ 服务器方式为固定客户提供翻译服务;另一种方式是让客户试用翻译服务,允许客户评估翻译公司提供的机器翻译是否适合于其特定的应用。Systran、 Logos、Globalink、 Fujitsu、 JICST和NEC等公司提供后一类服务。

  目前也有一些公司专门提供基于Web的机器翻译服务。例如,如比利时的LANT公司以METAL系统为依托,专门为用户提供机器翻译服务。新加坡MTSU公司使用自己开发的翻译系统,为客户提供英语到汉语、马来西亚语、日语和朝鲜语的翻译服务,并且有职业翻译家进行译后编辑。这种基于Web的翻译服务大大方便了世界各地的客户。

  机器翻译用于E-mail和“聊天室”同样重要。 两年前,CompuServe开始提供试用性翻译服务,它以Transcend系统为基础,允许MacCIM Support 论坛的用户使用。6个月之后,World Community Forum开始将机器翻译服务用于讨论性电子邮件的翻译。据悉,CompuServe很快会推出标准的电子邮件机器翻译系统。

 

  (John Hutchins著/梁焰 译 )

(编辑:xz
微信