合同英语语料库在翻译实践中的应用(上)
合同英语语料库在翻译实践中的应用
刘世平
重庆大学外国语学院、重庆大学计算机学院
摘 要:译者可用译入语建设的单语种专门语料库,比如合同英语语料库,辅助进行其翻译工作。但在翻译合同条文时,译者更想参考的应当是与汉语合同条文的理想译文相同或最相似的合同英语语料库中的条文。这时,仅依据关键词检索等手段远不能达此目的。我们可以利用相关计算机理论和技术深化合同英语语料库在翻译工作中的辅助作用。所以,本研究建设了合同英语语料库,应用“文本相似度”理论,用可视化编程语言Visual Basic.NET开发了计算机检索程序。该程序能检索出与汉语合同条文具有“最大相似度”的英语合同条文,供汉语合同条文汉译英时参考。
关键词:合同英语语料库;合同条文;文本相似度
1. 前言
语料库,即按照一定原则收集的电子文本,作为一种资源被越来越多的用于语言学及相关学科的研究。其中就包括翻译,体现在描写层次和实践层次上(Bernardini, Stewart and Zanettin,2007 )。就描写层次而言,通过语料库可研究翻译规范,发现翻译的普遍性,也可对译者个人所偏爱的语言使用形式(如句长、词频、句型、搭配方式等) 进行量化研究,发现译者的翻译风格,还可以通过语料库来验证翻译方法的可行性等。就实践层次而言,通过平行语料库可进行双语词典编写、翻译教学、译员培训和辅助进行翻译工作等。 Olohan ( 2004)就论证了语料库在科技翻译和文学翻译中进行应用的可行性。对于翻译工作而言 , 语料库是一个潜在的有用资源库。技术和专业译员可以借助语料库来了解和掌握某一特定领域的概念,开展对专门术语的研究,也可研究他人运用过的翻译策略,考察语篇类型和文体规范。也可通过可比语料库
来研究译者的某些风格特征。
但就如何具体运用语料库辅助进行翻译工作而言,国内似乎仅有一篇短文介绍(孙咏梅,吴松林, 2007 )。国外虽有一些这方面的文献(Zanettin ,2002 ; Wilkinson ,2005 ),所用语料库类型也较丰富,包括一般语料库、平行语料库、专门语料库等,但在技术上则主要依赖于关键词检索等一般语料库分析手段,主要目的是获得关键词搭配信息。
事实上,在辅助进行技术性翻译工作中,用译入语建设的单语种专门语料库应当大有可为,比如“合同英语语料库”。但在翻译合同条文时,译者更想参考的应当是与汉语合同条文的理想译文相同或最相似(即具有最大相似度)的合同英语语料库中的条文。比如,欲翻译汉语合同条文“出卖人保证下列事项属实:”时,译员最想参考的英语合同条文当是“The Seller hereby represents and warrants as to itself that:”, 而非条文“it is a duly organized legal entity, validly existing and in good standing under the laws of the People’s Republic of China”。这时,仅依据关键词检索等手段远不能达此目的。我们可以利用相关计算机理论和技术深化合同英语语料库在翻译工作中的辅助作用。所以,当建设合同英语语料库,应用计算机科学提出的“文本相似度”理论和算法,用可视化编程语言Visual Basic.NET开发计算机检索程序,目的就是让该程序检索出与待译汉语合同条文最相似的英语合同条文,供汉语合同条文汉译英时参考。
2. 研究思路
将英语合同整理成以文本形式保存的、格式统一的且以合同条文为基本显示单位的“合同英语语料库”――“Contract English Corpus”(CEC),并对条文编号;利用计算机程序,将CEC条文进行词形还原,形成“英语中间条文数据库” ――“Intermediate Clauses Database--English”(ICDE),并对条文编号;利用大型英汉法律专业电子词典,由计算机对“英语中间条文数据库” (ICDE) 中的条文自动进行词串替换,形成“汉语中间条文数据库” ――“Intermediate Clauses Database--Chinese”(ICDC),并对条文编号。以上三库中相应条文编号一致。用可视化编程语言Visual Basic.NET 开发基于条文“文本相似度”的语料库检索程序,以汉语合同条文为输入,通过计算,取得与之具有最大相似度的“汉语中间条文数据库” (ICDC) 中的条文的编号,进而取得具有相同编号的“合同英语语料库”(CEC)中的条文,该英语合同条文与该汉语合同条文具有最大相似度。检索程序当呈现检索结果,在翻译时即可参考该英语条文。
3. 合同英语语料库的建设
3.1 语料库的代表性和平衡性问题
语料库的“建库目的与语料库的代表性是密切相关的”(杨慧中,2002 )。本合同英语语料库是专门语料库,其目的是为汉语合同条文英译时提供参考,其代表性应当体现在对各式各样的合同条文的代表性上。所以,本语料库在收录合同文本时,都是整份合同完全收录,以期能够收录到各种合同条文。 同时,考虑到平衡性问题,本语料库尽量收录各个类别的合同。
据此,我们建成了以文本形式保存的、格式统一的、以合同条文为基本显示单位的、统一编号的“合同英语语料库” ---
“Contract English Corpus ”(CEC) ,如图一所示。
<1> The Seller hereby represents and warrants as to itself that:
<2> (i) its Board of Directors has taken all necessary action to duly authorize the execution, delivery and performance of this Agreement which actions are reflected in the minutes book of the corporation; and
图一 CEC片段
本语料库收录英语合同6000份,共计合同条文300000项,约10000000词次。
3.2 语料库的预处理
基于本语料库的应用目的,本语料库未进行标识、附码等预处理,而是进行了词形还原和词串替换的预处理。
3.2.1 语料库的词形还原
为利用英汉法律专业词典进行词串替换,先对CEC中所有的合同条文进行词形还原处理,形成“英语中间条文数据库” ――“Intermediate Clauses Database--English”(ICDE),并对条文编号,ICDE 中条文编号与CEC中的条文编号一致,如图二所示。
<1> the seller hereby represent and warrant as to itself that :
<2> ( i ) its board of director have take all necessary action to duly authorize the execution , delivery and performance of this agreement which action be reflect in the minute book of the corporation ; and
图二 ICDE 片段
3.2.2 语料库的词串替换
对ICDE中的所有条文进行基于“词组优先”原则的词串替换的预处理,由此形成了“汉语中间条文数据库” ――“Intermediate Clauses Database--Chinese”(ICDC),并对条文编号。ICDC中条文编号与ICDE中的条文编号一致,如图三所示。
<1> the 出卖人,卖方,销售者;出售物 兹,特此;以此;由此,藉此 表示,象征;代表,描述,陈述,主张,声称;充任 and 理由;根据;保证;证明;权利;授权,批准;许可证,逮捕状,搜查令,授权令;栈单,付款或收款清单;认股证书/保证,担保,证明,授权,认为正当 as to itself that :
<2> ( i ) its 董事会,理事会 have take all necessary 诉讼,起诉权;行为,作为,行动,活动;作用 to 经正式授权的 the 实行,实施,执行;处死刑;法律文件的生效,合法;执行令状, 转让,让渡;给付;交付,交货;投递,传递;释放;解救;分娩;一次交付的货物,财产等正式移交;陈述,讲演 and 履行,执行;完成;清偿;行为,行动;表现,表演 of this 协同行为;协定,协议;合议,合约;意思表示一致;合同;同意 which诉讼,起诉权;行为,作为,行动,活动;作用 be reflect in the 备忘薄,记事薄 of the 社团,法人,公司,企业 ; and
图三 ICDC 片段
相关文章:合同英语语料库在翻译实践中的应用(下)
(摘自2008世界翻译大会论文集)
(编辑:艾晓玲)