计算机辅助翻译CAT发展趋势
近十年来,信息技术、人工智能、自然语言处理等的发展,特别是计算机硬件承载能力持续增长,互联网技术、云计算深入发展促使翻译技术突飞猛进,翻译系统功能不断改善,翻译行业生产力不断提高,智能化、语境化、可视化、集成化、网络协作化等特征越来越明显。可以预见,传统翻译生产方式将逐步被新技术洪流淹没,以云计算为基础架构的云翻译系统将会粉墨登场。我们认为,CAT技术呈现以下发展趋势:
一、CAT工具功能日趋整合
不同业务的需求迫使翻译技术提供商逐渐整合不同的功能模块。CAT工具从最初基本的模糊匹配和编辑功能,发展到译中自动文本输入和自动拼写检查,到译后批量质量保证,再到翻译项目切分、项目打包、财务信息统计、过程监控、语言资产管理、即时通信、多引擎机器翻译等,功能越来越多,呈现出整合趋势。如当前Across、SDL Trados、XTM等CAT工具不再局限于翻译本身,其功能涵盖技术写作、术语管理、文档管理、内容管理到翻译和产品发布等环节,体现了将翻译技术同翻译流程各环节整合的趋势。
二、CAT工具可视化程度日益提高
维基百科对可视化技术的定义是“所见即所得”(What You See Is What You Get,WYSIWYG),也即人们可在屏幕上直接正确得到即将打印到纸张上的效果,也称可视化操作。以CAT标签为例,它能隐藏待译文档格式信息,但格式越复杂,预览效果越差,甚至不能预览翻译结果,从而影响译者判断、翻译速度。目前,翻译技术同计算机图形学、计算机视觉、计算机辅助设计等多领域不断融合,正朝着可视化翻译方向发展。如在Alchemy Catalyst、SDL Passolo等类似翻译工具中,译者只须关注文本本身,并可在翻译同时实时预览本地化翻译后的位图、菜单、对话框、字串表、版本信息等标准资源,及时发现可能错误(张宵军等,2013: 114)。未来,更多的技术提供商会将可视化翻译技术无缝整合到翻译流程中,从翻译过程到项目管理,本地化工程到测试过程将实现全过程无阻力可视化,为翻译人员提供各种便利,全面优化翻译环节,节省成本,增强公司竞争力。因此,可视化本地化技术已成为国际本地化软件工具的一种诉求,未来可视化技术的发展前景十分广阔。
三、开源CAT工具异军突起
鉴于市场需求变化必定导致对翻译工具需求的变化,如何在成本范围内提高效率就成为很多用户首先考虑的问题。随着开源社区蓬勃发展,人们越发关注开源CAT系统,如Anaphraseus、Okapi、OmegaT、Translate Toolkit、Transolution、Virtaal等一大批开源工具涌入翻译/本地化市场。由于其成本低、灵活可靠、安全性高,且无需许可证,自由和开放源码软件(Free and Open Source Software,简称FOSS)越来越受欢迎。此外,开源CAT系统具备商业CAT系统兼容TMX标准、模糊匹配、术语管理等基本功能,且这些功能同封闭性商用CAT系统相比优势明显(张宵军等,2013:293)。不难预见,开源工具正在超赶商用CAT系统。2010年,IBM将多年来仅供公司内部使用的TM/2开源化,并改名为Open TM2,兼容标准TMX格式,2014年8月,Heartsome工具实现开源,这进一步增强了开源翻译技术阵营,给自由译者更多选择,很大程度上打破了昂贵商业CAT工具垄断的壁垒,这将会促进翻译行业生产效率的提高。
四、CAT+MT+PE模式广泛应用
CAT+MT+PE即“计算机辅助翻译+机器翻译+译后编辑”的简称。机译在信息化时代快速发展,在商业翻译中更是广泛应用。机译虽然批量翻译速度块,但不能很好理解自然语言,所以高质量翻译仍需要人来主导,且目前越来越多的CAT工具提供商开始实现机译引擎与CAT工具的整合。当记忆库中无匹配时,CAT系统会自动调用内置机译引擎快速给出译文,译者再根据初始译文修改,确认后的内容可及时进入记忆库,供后续循环使用。如SDL Trados 2011、Wordfast Pro、DéjàVu X2、memoQ 6、Fluency Translation Suite、Wordbee等CAT工具已将Google、Bing、Systran、Microsoft MT等主流机译引擎内置系统当中,为译者提供了非常有用的参考。Google Translator Toolkit是CAT+MT+PE的典型代表,它不仅可用Google机译直接翻译,还可支持翻译记忆和术语库,译员上传的术语库可以干涉、改善机译结果
五、语音识别技术迅猛发展
鉴于运用语音识别能根据声音指令创建、编辑、修订、保存翻译文档,未来Web3.0时代,语音识别和即时语音翻译技术将会极大发展(王华树,2013)。目前,Siri、Vocre、SayHi Translate、百度语音助手、搜狗语音助手、讯飞灵犀语音助手等智能语音翻译及应答系统如雨后春笋迅速蔓延移动应用市场,通过识别用户语音的要求、请求、命令或询问正确响应,既能克服人工键盘输入速度慢,极易出错的缺点,又有利于缩短系统反应时间,如译员利用Via Voice、Dragon Naturally Speaking、Express Dictate、FreeSpeech等语音软件翻译文本初稿的同时,TM系统可对具体词或短语进行匹配。
从商用领域看,近年来Microsoft、IBM、Philips、Motorola、Intel、L&H、DragonSystem等公司斥巨资研发相关产品,较成熟的系统有IBM的Via Voice和Microsoft的SAPI,这些都是面向非特定人、大词汇量的连续语音识别系统,如经充分训练,Via Voice识别率可达93%。2012年10月,微软研究院主席瑞克•拉希德在“21世纪的计算大会”上演示了即时英译汉口译系统,利用“深层神经网络(Deep Neural Network)”技术模拟人脑,可将英语口语译成中文口语,同时还能保留语调和节奏,翻译准确率达80-90%,不愧为智能语音翻译技术发展新方向。
文章节选《计算机辅助翻译实践》,作者:王华树,《计算机辅助翻译实践》以当前语言服务行业新特点为背景,以职业译员的翻译技术能力为主线,以计算机辅助翻译(ComputerAidedTranslation)技术为支点,深入浅出地阐述了翻译职业化时代译员需要掌握的翻译技术相关的知识和技能。全书共十二章,涵盖了翻译实践中的主要技术:译前的文档转换、术语提取、语料对齐、预翻译等;译中的辅助拼写、术语识别、翻译记忆工具、机器翻译、电子词典、翻译搜索工具、平行语料库等;译后的翻译质量控制、本地化排版、文档管理、本地化测试等技术;最后以案例形式阐明了翻译技术在项目启动、计划、实施、监控和收尾等阶段中的应用。
适合人群:语言服务从业者、外语翻译专业以及MTI教育的教学和研究。(图书订购请点这里)
(编辑:T-win)