中医英语语料库建设理论与实践(上)
谈谈中医英语语料库建设中的理论与实践问题
汪腊萍
上海师范大学外国语学院
摘要:随着中医药对外翻译工作的深入开展及中医英语名词术语英语翻译国际标准化研究的稳步推进,中医英语语料库的建设已经被提到了议事日程。本文分析了建立中医英语语料库的目的,论证了选取语料应遵从代表性、均衡性、结构合理性和取样随机性原则的重要意义,并从语料标注和检索软件的选择方面阐明了建立中医英语语料库可能遇到的一些理论与实践问题。
关键词:中医英语 语料库 理论 实践
1. 问题的提出
近年来,随着中医药对外翻译工作的深入开展及中医英语名词术语英语翻译国际标准化研究的稳步推进,中医英语语料库的建设已经被提到了议事日程。目前在全国不少中医院校和科研单位,一批中医英语翻译工作者已经开始着手研究中医英语语料库的建设问题,提出了不少合理的意见、设想和建议。有些研究工作已经有了实质性的进展。从现有的报道来看,有些地方的中医英语语料库建设已经进入到了具体实施阶段,有些甚至已经初具规模。这当然是令人鼓舞的发展,值得庆贺。
语料库的建设是一个系统工程,绝不是一蹴而就的。其中涉及到诸多技术操作、语料收集和文本分析等重要环节,稍有疏忽,便会暗伏隐患。笔者长期从事英语语言的语料库语言学研究,对中医英语语料库的建设也极为关注。从目前已经发表的一些研究文章来看,中医英语语料库建设还有很长的路要走,还有许多棘手的问题有待解决。目前的进展还是比较基础的,可以说是“万里长征刚刚迈出第一步”。
为了使中医英语语料库在今后的建设中能统筹兼顾,立足实际,科学推进,现根据语料库语言学的基本原理并结合笔者的长期研究,对中医英语语料库建设所涉及的理论与实践问题提出一管之见,供研究者参考,不妥之处,敬请专家学者批评指正。
2. 中医英语语料库建设应遵循的基本原则
语料库的建设必须遵循一定的原则。中医英语翻译虽然是一个独特的学术领域,但其语料库建设与其他专业语料库一样,必须按照明确的建库目的、选取有代表性的语料、兼顾深度和广度的平衡等原则构建语料库。否则,便会陷入无序状态,失却实际操作和应用价值。
下面试对语料库建设的一般原则、程序和方法加以分析介绍,以期为中医英语语料库的建设提供必要的理论指导。
2.1. 建立语料库的目的
建立中医英语语料库的目的,就是为了更好地研究中医英语的文化、语义和文法特点,以便能较完整地观察中医英语的表达特点,较系统地统计中医英语的表现形式,更好地建立中医术语的规范标准,进一步完善中医英语的理论体系,为中医药和中国文化的对外交流奠定语言基础。
所谓中医英语,就是英语语言在中医药对外翻译与交流过程中逐渐形成的一种特殊表达体系,是ESP家族中的一个新成员(李照国,1999)。按照这一定义,中医英语描述的主体应是中医的理论与实践,而描述的语言则是英语。要建立中医英语语料库,首先须根据建库目的来对其加以界定。根据不同的目的, 语料库可以分为:通用语料库、专用语料库、监控语料库、口语语料库、学生英语语料库和平行语料库(杨惠中,2002 )。中医英语这个确定的主题和内容决定了中医英语语料库是一个专门用途语料库,应该收集尽可能包含与中医理论与实践相关的各个领域的语料,这样才能建立满足研究要求的语料库,从各个方面全面阐释中医英语的特点、查询语言特征、检验语言设想、统计词项频率、共现上下文语境、进行纵横项对比分析。
研究者可以利用这一语料库,通过大量的语言实例更客观、全面地显示中医英语的特点和内在规律,研究这一领域内的语言规则系统,在定量分析的基础上进行定性分析,揭示中医英语的语言特点,为中医英语翻译的标准化研究提供客观、真实、大量、检索便捷的语言素材。
2.2. 语料的代表性和均衡性
就学科特质而言,中医英语语料库具有专门用途语料库的基本特点,因此在收集语料时更要注意语料的代表性和均衡性。语料库的代表性是指在该语料库上获得的分析结果可以概括成为这种语言整体或制定部分的特性(Leech, 1998 )。一个样本不足以代表一种特定的体裁或者主题,然而由大量各类样本组成的、有一定语言规模的语料库可以成为一种语言的代表。在建设中医英语语料库的过程中,我们收集的语料应该最大限度地涵盖与建库用途相关的内容,而且还要尽最大可能代表该语料设计时需要反应的总体, 要充分考虑所收集的语料是否能够真正代表中医英语。
中医英语是描述中医理论和实践的规范英语,因而其语料应包括中国古典文籍的英文翻译文本、国内中医文献的英文翻译文本、西方中医英语文本和一定量的中医英语口语翻译转换文本。在建设中医英语语料库的过程中,语料应包括各个领域内的中医理论与实践,如针灸学,方剂学,外科学等等。处于计算机时代的今天,我们可以通过可靠的网站、电子扫描、电子光盘、手工输入等手段收集来自各个方面的语料,如经典著作、权威教材、期刊文章等。
建立语料库要考虑的另一个问题就是均衡问题(Sinclair, 1991),即使专门语料库也不可能避免均衡问题。从理论上讲,只有当语料由一个历史时期中出版的每一件作品组成、由一个作家的全部作品组成、或者由其他的文本总体组成,平衡问题才可以得以回避。但是,实际操作并非如此。也不必如此。因为其一,一个历史时期中出版的每一件作品、或一个作家的全部作品并非都有英文译本;其二,并非每一件作品都可称得上是典型、甚至合格的中医文本。因此在收集资料时,一定要在慎重分析和考察的基础上,对所有具有代表性的医著译本根据历史时期、医学领域、代表人物等等方面确定一定的抽取比例,然后在进行随即抽样。
在建设中医英语语料库之初,我们就要先确立收集哪些领域的语料,以及各个领域语料的比例、口语与书面语的比例、以及口语和书面语内部的比例,等等。在收集中医英语语料库文本的过程中,要注意不同历史时期的文本、不同作者的文本、不同医学领域的文本等等因素的均衡性,还要考虑到口语与书面语的平衡以及其内部的平衡。
大多数早期语料库都偏爱书面语文本,对它们赋予很高的权值,甚至只采集书面语。即使在规模较大的通用语料库,如British National Corpus 中,口语也只占有较小的比例。中医英语现在正处于发展期,书面语是主要的交际方式。但是,建立中医英语语料库的目的是要能全面地阐释中医英语,因而包括一部分口语语料显得尤为重要。中国已建成的口语语料库有《中国学习者英语口语语料库》,其语料来源是全国大学英语考试口语考试部分的实景音像资料。语料涵盖口语考试的三部分内容:教师 - 学生型会晤、学生 - 学生型自由讨论、教师-学生型讨论。由于考试形式限定主题的即兴发言,《中国学习者英语口语语料库》所涵盖的主题比较少,因而在展示学生实际水平方面存在着一定的局限性。鉴于此种情况,在收集中医英语语料库口语资料之前,就要设立好各个中医医学领域的比例,然后收集说英语的中医大夫、带英语留学生的中医大夫或其翻译人员的英语口语,再转换成文本资料。
2.3. 语料的结构合理性和取样随机性
中医英语这一特定的研究领域决定了其语料库中的语料必然主要来自于翻译资料,因而会出现汉语古籍英译资料、中医典籍和文献英译资料、西方中医英语语料,等等。保持中西方所占语料比例的均衡是十分必要的。从理论上讲,我们应尽力做到中西语料应该在数量上相等,结构上相同。但是由于中医理论和实践主要源于中国,实际存在的语料分布情况是由中国人翻译的中医英文语料远远多于西方人写的中医英文语料。因此,在无法达到数量上完全一致的要求时,中西方文字的涉及范围和领域应基本一致。所建语料库是一个可监控语料库,随着中医英语的不断发展,逐渐扩充其覆盖的各个方面。
相关文章:
中医英语语料库建设理论与实践(下)
(摘自2008世纪翻译大会论文集)
(编辑:艾晓玲)