顾曰国:汉语一座历史悠久而神秘的多维城市
非常感谢女士们、先生们来听我的这个演讲。我的演讲题目是“汉语一座历史而悠久神秘的多维城市——知识工程的生态模型”。“知识工程的生态模型”这个副标题就是给大家解释了我要在这一次会议上面要讲什么,这一次会议的主题是讲翻译的。所以我我就试图把中文、把汉语通过这个副标题来跟翻译连起来。
翻译,可能大家都知道耐达,对不对?据耐达说翻译是一个非常复杂的工作。有人说,也许翻译是宇宙历史当中的最为复杂的一个活动。翻译简直就是把不可能做到的事情做好。这是耐达说的。
我今天非常荣幸在这里应邀谈论有关汉语的问题,这个任务就算是我能做到,也是非常艰巨的任务。首先我甚至都不知道如何去面临第一个简单的问题,汉语到底是什么?我现在想跟大家做的就是把这个不可能完成的任务试图把它去做好。
现在中国有近14亿张嘴,对不对?还仅仅是中国大陆。他们说的都是汉语。那作为一个社会语言学家,就会说14亿的人就说14亿种不同的语言。那么这个口头汉语到底有多少年的历史了呢?我们如果把北京猿人作为中国人最早的祖先的话,那么汉语的口语可能就已经有了69万年之久,可能要比我们所有在座的人年纪都要大,包括我自己。
那么书面汉语到底有多久了呢?我们几乎不需要去怀疑,甲骨文,在河南省安阳发现了甲骨文,是今天汉字的祖先,所以书面汉语起码也是有了3400年,一定比我们在座所有人的岁数都要大。那么我演讲的主题是什么呢?汉语或者中文到底是什么?作为目的语、作为源语,这到底是什么?此外如何才能把汉语作为源语和目的语表达出来?我的目的就是知识型的语言模型,需要亲身经历这一门语言。
从这个角度来说可能有一些差异,也有一些激进,如果读语言学方面书的话,说语言是什么?是交通的工具、沟通的工具,是人们思维的象征、是跨文化的互动等等。我这里想提出来的,比较接近的一个看法,可能就是稍微有一些争议的,语言必须是一种亲身经历的过程。
我给大家解释,首先我们从非专家的角度、非专业人士来看,换句话说对于语言的自然谈到是怎么样的?第二点我要跟大家谈一下如何去给汉语成立一个模式,就是4种承载方式,我一会儿会展开来讲。同时就是汉语在眼下是怎样的情况,最新情况。第四个方面就是汉语作为一个多维的历史和神秘的城市,最后对于口译和笔译相关的模型,就是知识工程。最后一部分可能有一些专业性,我可能也不会有很多的时间详细展开来谈,但是我会尽可能快的向大家汇报一下我在这个领域上的研究工作。
知识工程在过去17年当中是我一直在做的一件事情,我可能还没有完全想清楚。
好,第一个方面就是非专家型的人,也就是对于语言的自然态度。
什么样的人是一个非专家型的人呢?你看这些人在两张照片上,好象大家都觉得语言首先要按照它的现实情况去进行描述。有一个事情大家都得承认是真实的,也就是说任何一个说母语的人,说话时都不会按照语法书说话的,这肯定是真的。如果说有一些语言没有书面语言,就根本就没有语法。那如果说一位语言工作者去找一个普通人说什么是主语、什么是宾语、什么是深层结构、什么是表层结构,用汉语的谚语来说就像是对牛弹琴。
作为一个非专家型的人对于语言的自然态度是什么呢?这里我使用的态度是有一定的含义。我是用非专家的对于语言自然态度跟专家对于语言的科学态度相对比。2000多年以来,语言其实都是语言工作者用科学的态度进行研究的。这种非专家人士的自然态度被视为非科学的、不科学的,好象在语言学的主流研究当中从来没有当做科学性的、非常认真的去进行研究。
所以汉语作为一个多维城市,我们可以看这种根据超谚方法论来看专家的科学态度跟非专家的自然态度。我是一个非专家人士,我就会这样问自己了,非专家人士、普通人士每天是如何去进行生活,而根本不需要担心我的话是不是符合语法,他们活得很好,不需要担心语法,到底如何看待这一点。对于一个非专家来看,语言不是一个象征性的抽象系统。我们从这个角度来看,更多是一个城市的臆想,就是韦根斯坦的描述,语言可以被看作是一个古老的城市,里面迷宫一般,布满了狭窄的小道和广场,还有经过不同时期在扩建的这种房子。当然这不是韦根斯坦真的善意,只是伪装作韦根斯坦。
那我们跟语言到底是怎样的关系呢?非专业人士就是继承语言城市,而且也是在其中生存的。就像当今的上海人从他们祖先手中继承了这一座城市,然后又通过使用这一座城市而生存下来,比如说他的运输系统、商店、酒店,当然了也包括像我们现在开会的大的会议室。我们眼下都在使用这么庞大的会议室。
所以语言从非专业人士来看到底有什么特点呢?从生态角度来看有4个方面的承载,我首先跟大家说一下这到底是指什么,我首先给大家一个展示,希望不至于太复杂,因为这都是非专业人士的看法。首先就是地面承载(LBSD)的现场及其话语,大家可以看这个例子,有一个考古学家进行古墓开掘工作,其实在这之前已经被光顾过了。其实当初提供了一个共识单向的视频转播,这应该是网络承载的现场话语,这样生成了网络承载的话语。到2000年8月30日,CCTV就把专业团队派到现场进行差不多两个小时的现场直播,大家可以看到这就是一种空中承载现场的即席话语。
我们说这个现场的概念非常重要,你看现场即席和非现场即席,到底有什么差别呢?现场即席是活生生的话语,就在这里,就是现在。换句话说,我们就是这种地面承载的一种即席话语。而非现场的,就是转播的,这就是非现场即席的。在LBSD例子当中,通过人类的意识以及随后的转播来进行的,这样一来就给人们有一种非现场的即席话语。所以现场即席与非现场即席其实是一种动态的概念。跟时间、跟空间的变化是相应而行的。
我们可以再看一下,现场即席话语有人文方面的构建。这个非现场即席是在参与者的记忆当中,而且你是可以去进行物质上的外部化。但是已经不再是当时现场即席的情况了。现在如果是LBSD把它录下来、保存下来,作为自然的物体或者说是人文的构建。比如说我现在说的话一方面是大家记住了,在你们的记忆里面,另外就是录像。就算在你的记忆当中不清楚了,而在视频当中还会比较现实、比较符合现场的情况。有一点特别重要的就是LBSD书写字对于现场即席话语的固化作用。所有的这种文化构建当中能够去保留LBSD最最重要的就是书面字,我是用大写表示的,真的很重要。
书写的字对于现场即席话语的固化作用,以它自己的独特的方式进行固化,包括逻辑、包括语法,同时把LBSD的这种互动性的、多媒体、多方式情况进行固化,而不再是这种单向性的、线型的,一个字对字的,大家可以看这个差异。
同样一个挖掘活动,你看在地面承载是正在发生,然后又转播到电视上面,如果说用书写字面表达出来的话,你看这个差异是特别清楚的。
好,我们再看一下书面承载的话语,就是WWBD。多年以来这种书面字已经获得了自身的生命力,能够把这种固化作用体现在人们的想象当中,比如说中国经常会说我们是龙的传人,龙在哪里?没有真正的人啊。这其实是由WWBD生成的。WWBD是什么呢?就是所有的多模态内容的单模态化。什么意思呢?就是这个书写字是极度的抽象,而且是单模的,是一个静态的。这么一种静态的、单模态的形式进行多模态化的时候,就发生了很大的改变,这一点非常重要,从这个内容的单模态化到多模态化,这对于我这个知识工程是非常重要的一个概念,请大家注意,我一会儿会给大家展开来讲。我是把它称作多模态内容的单模态化。比如说电视剧《哈利波特》用英文的,然后是《红楼梦》的文字,这种单模态化可以进行一些转化,让那些文盲啊,或者不识字的人也能够看得懂。
这里大家可以看到是《红楼梦》当中的一段,你听到这个声音,有人有笑,就是这样的声音。如果你这样看的话,去读,这些东西都是静态的,又听不到,你听不到这个笑,也看不到一张张笑脸,但是你知道笑脸在那里,所以这是多模态化。我刚才说的是《红楼梦》里面的一段。我把这个称为什么呢?称为书面文字的多模态内容、单模态化。我们是如何做这个事情的呢?
是这样做的,大家可以看到中国花了很大的投入把《红楼梦》拍成电视剧,我没有办法在这里给大家放《红楼梦》,大家可以买DVD或者VCD自己看。这4种承载话语的形式我可以通过画面的方式、图片的方式进行。
这是通过地面承载,大家可以看到,比如说你要乘车到上海来参加这个会议,这就有一个差别。然后是书面的,然后是空中的,你看到不同的现实、不同的时空,同时在这个过程当中还有另外的,这都是现实。如何总结他们的差异呢?首先从体验来看,我们可以看到这种地面承载、空中承载、网络承载和书面承载的主要区别,我们可以看到北京烤鸭,用它来做这个例子,好不好?一看这是北京烤鸭,如果是地面承载的话会发生什么事情?我要给你看真实的北京烤鸭,然后用你的舌头去尝试、去尝一尝,所以把它称之为是品尝,就是吃中饭的时候给大家试一试;如果是空中承载、网络承载的话,比如说我要请你去尝一尝北京烤鸭,那怎么办呢?这就是一种多媒体的体验。我把它称作是饱眼福的体验,从视觉去看,你不需要用你的舌头品尝,你可以用你的眼睛去品尝。尤其是像我这样的人,有糖尿病,我的医生已经告诉我很多遍,说顾老师啊,你以后吃饭你不能用舌头吃饭,你得用眼睛吃饭了,饱饱眼福就不错了。
好,我们再看一下书面承载,你看我可以描述北京烤鸭是如何做的,长期以来有什么样的特点,你如何去品尝呢?要通过理解,这就是一种理解式的体验,这是书面承载。非常快的给大家介绍了一下这4种承载方式之后,我们有没有这种可能,以这种方式去处理汉字呢?汉字一直到现在已经有了很久的历史,大家可以欣赏一下中国的历史。
你看八千多年的历史,很长了吧?如果说我们把这一段历史稍微割裂开来,那么第一部分可能就是书面字的一个阶段,书面汉字出现在公元前1765年,到了公元前1122年的时候书面汉字就已经广泛使用了,所以你看八千年的历史,我先在这分一分,大家看这些书籍,就是书面汉字。这一点非常重要,就是重要性不可低估。为什么呢?
在书面汉字出现之前,当然也是古代中国,甚至是史前的中国阶段。在这种史前中国阶段基本上就是一种LBSD,就是地面承载话语的一个阶段,只有地面承载话语。这个说法是一个人类学家用的词,也就是最终的口语阶段,你看这个人类学家描述几千年之前没有书面文字的情况,就是一种史前的阶段,或者说是最初的口语阶段。
那这个阶段有什么特点呢?就是这种自然的多模式阶段。大家都知道,在地面承载当中,人们得面对面的去沟通。人们面对面去进行沟通的时候,还不仅仅是用声音沟通,你可以用身体语言、用他们的眼睛来进行沟通。现在医疗科学发现我们有25种触觉,我们正常人有25种之多的触觉、感觉、感知工具,不仅是5个感官,所以这是非常自然的互通方式。
好,书面汉字出现了,我刚才说了,这个差异不可低估,有了书面汉字出现之后,我们现在再把它分成两个部分:一个是书面承载的字面阶段,就是书面阶段。正是因为有了识字这个阶段,原来最初的口语阶段就降级了,就分解了。因为受过教育的人可能总是要比那些没有受过教育的人、文盲有更多有利的地方。有识字的人、有不识字的人,两个阶层非常的清楚。你看这就是双刃,是一个特点。
另外一个特点就是中国的历史,就是远程技术,远程通讯技术。我们可以看第一次电报是1900年进入中国的,好,我们就从这一点起步,有这么一种远程通讯阶段,电话啊、电视啊,正是因为有了这一种远程通讯的方法才又有了另外一种话语,就是空中承载,叫ABSD。这里空中承载的重要影响之一就是它弥补了识字的人和不识字人的差异,比如说《红楼梦》,不识字的人是读不了《红楼梦》的,一旦改成电视剧,不识字的人也可以欣赏《红楼梦》,也许不一定像识字的人、受过教育的人能那么好的欣赏,但是他们也可以欣赏,所以我说这在识字的人和不识字的人、文盲和受过教育的人架起了一座桥梁。
后来数字技术进入了中国,这意味着什么呢?这个技术就带来了一种我称为是网络承载的话语。这种网络承载话语是惊人的。为什么呢?因为我认为这种网络识字的情况越来越重要,而且也带来了一种网络的口语性。什么叫网络口语性?我给大家稍微解释一下。
大家可以想一想,这种网络承载话语到底是如何定义着我们的生活、我们的身份?人家说我用电脑,或者说我在用网络,好象你就是一个人似的。我们又重新或许了自己的一种身份,为什么会这样呢?大家可以想一想,这种电信通讯技术、这种空中承载,空中承载没有那么可怕。大家可以看,这里是自然的多模式,一旦进入空中承载方式,我们就同时使用我们的眼睛和耳朵,这种互动都是接受性的。接受性的,就是生成了什么东西我们就可以看,我们可以观察。
我们可以看一下,新的技术,每天都有新技术诞生。我们看到了什么呢?我们可以看到传统的多模式的模式就变得有一点过时了,或者在网络上面就不可能了,你可以看看在网络上面的时间。先是文字,然后是视频,视频我刚才提到了,这个影响很大,有很多方面,从很多角度来说,我们沟通其实也是挺自然的。看我这个移动电话,我们甚至用移动电话去打电话,这个音频会变成文本,然后对方又能收到,他甚至可以看到我,这就是我所说的过程,这种空中承载是重新定义着我们的身份,并且重塑着我们的生活。所以这个网络的技术,真是非常让人惊讶。
我们可以再看一下空中承载的时空特征。这是爷爷、奶奶,这是我去内蒙古进行实地调查的时候,你看爷爷奶奶说的是蒙古语,父母亲呢?他们是说双语了,他们会说蒙古语,也会说普通话。那孙子、孙女呢?他们说什么?他们说普通话、他们简直就说不了蒙古语了。那我们在这里看到的就是祖父、祖母这一代是地面承载话语的特点,只限于当地,只是能够通过步行到达的地方,到了父母这一代就到了城市,因为有了现代的交通工具,就变成双语了。孙子、孙女这一辈,他们不想像爷爷、奶奶那样,他们要创建新的生活,所以就带来这一切。
另外还有一个地面承载方面的特点,就是这种城市化,或者说是城市现象。我使用的是google,这是北京的一个真实情况,这里有游客区、大学区、有有家具的地方、有中央政府待的地方、有紫禁城,所有都变成活动的集聚地,我把它叫做城市现象,或者是地面承载活动的聚集地。
另外还有一点就是农村向城市的迁移,你看这些农村妇女进入到城市做钟点工,男孩子们,男性去建筑工地,那我们会看到什么呢?很快这些年轻的女性会说两种方言,一方面是传统的方言,一方面就是说普通话或者其他的方言。而这些男性他们也是一起工作,所以他们还是说他们的方言,这就是农村向城市的迁移,或者说民工的情况。
即便是在这样一个过程当中,地面承载的特点还是跟着你的。正是因为这种农村向城市的迁移,正是因为有了远程通讯工具,有了电话,我刚才说了,近14亿的中国人,就说14亿不同的汉语,我们如何去考虑、去研究这种现象呢?我们可以看不同的种类。这种不同语言体系可以是接受型的,也可以是生成型的。如果是接受型的,比如说人们看电视是接受型的。有的人也可以开发一些电视项目,他们就变成了生成型的。我用这些区分来研究14亿不同的话语特征。
而且还有一些人的差异,一种就是地面承载,一种可以看一下是什么样的人,就是这样的,没有受过教育的,不识字的,在边远山区的农民,这是一类人。这是地面承载的单一型。他们的语体就得到了丰富,怎么丰富法?他们看电视。人们也是越来越多。再看看这些人,就是我刚才所谈的,你看这一位女性,她的方言特点大大的丰富,因为她看电视,还没有到互联网的阶段,我们可以再进一步的扩展,再扩展。我们现在就到了有三种承载方式,你看这个人,我把这个人也放在这里,大家认识这个人。是谁啊?这是我自己啊。我把我自己也放在这一类,我就是一种具有三种特征的,地面承载、书面承载、网络承载。
空中承载只是一种接受型的,我就永远不会是生成型的,可是在中国确实有这一类人啊。这里是一个例子。你看赵忠祥,每个人都认识他,每个中国人都认识他,他主持了很多电视节目,他也写了好几本书,他也有他自己的博客,你看这就是从他博客上面下载下来的画面。我们如果把个画面综合起来,想想全中国的情况,14亿啊,你看这就像是一个茶缸,我们看一看,最上面就是最顶端的一群人,最下面呢,政府主要想把下面这一段消除掉,就是说能够让更多人去识字、受教育。但是你看在这里,我觉得这个里面是人数最多的部分。
好,我们再看一下汉语作为一座历史悠久而神秘的多维城市,我确实看了不少古代的汉语口语,远古是指史前一直到200年这一年,古代的口语,口头汉语是600年到1000年。现在的口语从宋朝到1100年到1900年。当代的口语是从1900年到现在。这是汉语口语的情况。
我在说汉语口语的时候,我在说中文的时候,我说的这个汉语口语是不是跟古代的汉语口语有联系呢?大家看我在谈这个古代汉语口语的时候,你看在西安,然后从西安进一步往北走到北京,西安是一个古都,北京是一个现代古都,那汉语到底是什么意思呢?那就是整个国家所接受的,所使用的语言。
我其实想说的是什么呢?就是汉语的一小部分被接受成为中国的国家语言,中国到底有多少方言?中国到底有多少种语言?81种不同的语言,在这里我不是专家,所以闭嘴不多说。但是就方言来说,方言很多。研究方言的人通常有十大方言语系。我给大家看一看这些不同语言有什么样的特点,我举4个例子,同样的一个汉字,就是不同的方言是如何来发音的,如何去词汇化。
比如说太阳,我们从北京开始,这是北京方言。那上海方言呢?我在放一遍,学起来也不难。到了福州方言当中又成了什么样子呢?我真的听不懂了,说一句老实话,我真的听不懂。那么在广东话当中呢?再听一遍。对不起,就讲到这里,这是一种地面承载的方言特点。就这么一个词,就是太阳,你看有这么多不同的发音,就是不同的方言。
另外我还想提醒大家就是地面承载LBSD其实是最保守的一种保护方言和语言的方式,非常重要。地面承载话语是非常保守的,能够最好的保存方言和语言。所以我们真的要保护多样性的发展,要保护方言的话,你要非常非常仔细的去看这个地面承载话语有一些什么样的特点、有一些什么样的当地特点。
我们可以再看一下汉字的生命周期,汉字到底有多远的历史呢?又如何再生的呢?大家可以看一看,这是古代的一个马车,事实上中国汉字当中真的有这么一个马车引申而来的字。
我们每个人把时钟拨回到公元前1765年,你看就是这样一个情况。这个汉字你看,看上去像这样。这个汉字像什么?这是公元前1765年的时候是这样。然后到了公元前1121年变成这样了。公元前770年变成这样了,我们再看公元前770年有了一个变体。到了公元前248年,这是秦始皇统一中国的时候,他把中国的汉字统一了,中国的文字统一了,就变成这样了。你看我们现在还用的,对不对?中国大陆不是这样写,在台湾、在香港、在新加坡还是传统汉字,到了公元前206年没有什么变化,到了公元后你看就成了这样了。简化后的今天我们就写成这样了。这就是一个汉字的生命周期,从马车一直到现在,可是故事还没有讲完呢。汉字的这种变化,它的生存性很强,它的后代很多,永远都没有终止,你看就是这么一个字。我们有人摇的纺车,包括自行车,你看这是自行车。但是我们还是有一个车在这,是自行车。还有这个车,有其他的车,不是人拉的,是马拉的。这是马拉的战车、这是牛拉的牛车。所以这些是由动物来拉动的车。还有运输也有车,对不对?这是火车、这是电车、这是摩托车,这是小轿车,到下面是出租车、旅游车。可是在汉语当中所有的都有一个汉字“车”。你想一想,把汉语翻成英语,这个怎么处理?可是都在那里啊,这个分类就特别的清楚。还有一个特殊用途的车,这又是一大长串,你看升降车,也有车,又出现了。
好,因此要亲历这种历史,现在以及未来有什么趋势呢?我们可以再看一看。我们能用这种方式来分析笔译和口译吗?可能不是分析了,而是一个模型的处理,我把它称为是跨文化彼此相互促进的一个关键所在。怎么去做呢?你看地面承载、书面承载、空中承载以及网络承载这种话语。你看T和I,就是笔译和口译怎么承载进来?地面承载,翻译是在这里。然后是书面的承载跟笔译。空中承载是通过实况直播的。那还有一些什么样的方法呢?很惊人,我们有笔译、有口译,当然现在使用的人还不是很多,但是也有这种可能啊,可能在未来就会是这样啊。
我为什么把这个称为是面包和黄油呢?我们可以想一下这个地面承载的话语。你看口译这么辛苦,一旦口译不存在的话,如果没有的话,还会有什么留下来呢?什么也没有了,所以你所做的一切都没有了,没有能够得到保留。因此口译并没有得到充分的理解。你看这种实况转播的时候,你看到的都是那些重要的人,而口译人员是在幕后的,没有人看得见他们,这不公平嘛。那笔译,你译完了,非常惊讶,而且就得到了保留,大家看到这个钟是没有时针的、没有秒针的,它就永远的保留下来了,不会消失。
空中承载有一个优点,实况转播可以传到各处,你不需要亲自到各个地方去,你只是声音传播到各地,但是也会消失啊。那怎么办呢?我想给大家再举另外一个例子,就是我们如何让中国的文字重新获得生命。
玄奘大家都知道,我请教过我的同事,我把玄奘称为中国历史上最伟大的译者。他怎么做的呢?首先他不得不学目的语,不是在中国,要去古代的印度,步行去的。很偶然的,很少有机会骑马,基本上都是步行的,你看玄奘。他这个取经的路线你看是从西安,大老远到了印度,再回来,这个来回基本上就是五万里的取经过程,走过去的啊,17年之后才又回到了中国。年纪大了,你看上面还是年轻人,回来已经是垂垂老矣了,回来就开始翻译了,地面承载话语,他花了19年去翻译,完成了1365卷的翻译工作。这就是他当时的一些翻译工作。这些翻译的笔头没有放在图书馆那里积灰。他的这些译作,就是书面承载的译作通过地面承载的方式获得了新生。
我给大家举一个例子,这是我最近刚拍的一个照片,两个月之前我去了一趟温州,这是中原地区1988年设置的一个佛教寺庙,你可以看到玄奘的译作就在这个庙宇当中得到了使用,获得了新生。
我刚才说了地面承载的话语有它的流动性,会消失,可是如果只是在人们的记忆当中,就消失得无影无踪吗?不是这样的。地面承载的话语有的时候也通过硬件方式保存下来。有一个古老的街道,有一千多年的历史,这个街道是保存下来了,但是人的活动改变了。
还有一个周公拍虎,这个故事我希望大家理解,这是中国新的成语,是最近在网络承载话语当中刚刚诞生的。你看故事是这样的,刚刚生成,我就想知道这么一个新的周公拍虎的说法能够生成多久?会不会像叶公好龙那么长久的留存下来呢?叶公好龙这个说法已经有几千年了,可是这个周公拍虎是不是也能够存在这么久呢?
好,真抱歉,我现在就应该停在这里了,我很快的讲一讲最后一部分。所有的这四种承载方式对于知识工程有什么样的含义呢?首先笔译、口译的理论方法有两个范式,我是这样理解的。首先是沟通的方式,口笔译是跨语言、跨文化沟通的,好比耐达的,就是口笔译在沟通的过程当中理论化的、概念化的过程。我们可以有一种不同的范式,比如说口笔译可以从信息处理方式进行概念化。所以我们在做这个机器翻译的时候,或者称为是AI这么一个范式,不同的知识范围口笔译其实是不同的语言、不同的社会文化、知识领域或者系统的一个并横,大家可以看到这是一个知识结构,我做了一些变化,不是完全引用,是这样的。
研究会有以下的贡献,一方面是语言知识,然后是具体的上下文语境和情景,还有研究方法,这是我自己最近刚刚研发出来的,就是代理导向的模式。这是在UML的基础上面研发出来的,我们可以看一下这4种承载方式当中,地面承载是最难做的,这是在过去17年当中我做的一个课题,就是把800个小时的地面承载话语收集起来进行文字的处理,处理成文字。
那现在做到哪一步呢?如果说我们仅仅依赖于文字的文本,可能信息还是不够的,有好多的信息在原来的语境当中,在你的处理过程当中可能会缺失。我举一个例子,这里有一个对话,这是一段视频剪辑,整理出来的对话,我就当是给大家读汉语,可能说汉语的同事们不一定能够理解到底发生什么事了?但实实在在就是这么下来的,根据声音处理下来的。我们如果通过音频方式来听的话,你看就是这样的。当时是怎样的情况呢?如果我给大家听这个音频,这个故事其实很简单,可是要看一下这个处理的文字,没有谁会理解这到底发生了什么事。因此信息的丢失在这个处理当中就不可避免了。所以我们要找到这个方式,能够重新去回收这些知识或者获取这些知识,就是我说的多模式数字寻求方式,这个要比书面文字丰富很多。
所以这里有一个理念,这么一种模式其实挺简单的,给大家解释一下。这是我最近刚造出来的一个说法,叫做环境相对论。你看这个椅子,每个人现在都坐在椅子上面,这个椅子跟狗进行互动,我们想象一下会发生什么情况呢?同样的椅子又跟鸟进行互动。同样的,这是一个不同的沟通方式,你看所有的不同交际主体,再加上其他的交际主体进来,还有人。
我这里其实想说的是什么呢?同样的椅子你在跟不同的动物、不同的沟通主体沟通的时候,你有不同的行为、特征。我把它称为是环境相对论。那我们能够让这些沟通行为进行模型处理吗?实际上可以通过一个代理来完成。什么意思呢?就是说这个椅子其实成了一个代理,什么叫代理啊?这个椅子在我的模型当中是一个活的东西,鸟进来的时候,你看,比如说到我这儿来吧,你可以坐在我的椅子上面,或者随便你坐在哪里。鸟来的时候,椅子说你可以坐在我哪呢?你可以坐在我的脸上。这个小鸟进来的时候可以说你坐在哪都行。再换一个动物,瓢虫、雄性的狗、一个人进来,他们都进行互动的话,你看这是语言的不同层面、不同的风格。我把这个称为是环境相对论。
所以这么一种代理的特征,就是每个都成为活的人,都可以成为互动主体。其结果是取决于谁和谁进行互动。这就是一个简单的概念。我把这个概念应用到其他的地方,中国的宴会。你看人类坐在椅子上面,不像狗坐在其他地方,他们有他们的价值、有他们的社会差异。
这是我所开发出来的语言,我现在很快的给大家总结一下。AOM到底是什么?这其实是一种对于世界进行思维的方式,我们这个世界有各种各样的代理,有各种各样的沟通方式,这是关键所在。所以你想想AOM,其实就是代理的方式,这个话筒也可以成为一个主体。AOM是什么概念呢?大家可以看到就像是用词来进行处理。
你看这些工具,我们用它们来研究代理或者行动者,或者说媒体的这种特点。我想给大家看的是这就是所谓的生态模型,给大家提供一个图形的处理。这个代表的是什么呢?不同的社会层,包括人们的居住、人们的生存、社会文化、以及政治、意识形态。所以我们所生存的是一个多维度的社会。我是这样去重建这个多维度生活的。
你看传统的数据库没有办法做,因为是平面的,我们现在要把它弄成一个动态的数据处理系统。这是我们使用的工具,这不是我创造的,是德国的一位先生开发出来的。但是这些部分是我自己写的,这就是我们所获得的一些结果,我就不给大家一张一张看了,技术性太强。这是我们整个的数据处理过程,这是我们所使用的最新的一个,能够加强动态不同关系之间的数据处理,比如说不同主体之间的关系。如果说我跟我太太、儿子沟通、跟我的爷爷、奶奶沟通的话,这些关系如何能够获取不是通过字,而是通过电脑处理过程,所以这就是一个话题的指示图。
好,欢迎大家来到我的网站上看看,我发表的论文,大家在这个网站上面都可以找到,如果大家对我的理论有兴趣的话,大家可以下载,不用付钱。这个语料库目前还没有上载,最终会把我们语料库上载到这个网站当中。差不多也就是一个月之前我才建成的。我前面还有一个,但是被黑客给攻击了,简直就毁了我前面那个网站,因此我又重新建了。希望这个网站寿命能够更长一点。谢谢大家!
翻译,可能大家都知道耐达,对不对?据耐达说翻译是一个非常复杂的工作。有人说,也许翻译是宇宙历史当中的最为复杂的一个活动。翻译简直就是把不可能做到的事情做好。这是耐达说的。
我今天非常荣幸在这里应邀谈论有关汉语的问题,这个任务就算是我能做到,也是非常艰巨的任务。首先我甚至都不知道如何去面临第一个简单的问题,汉语到底是什么?我现在想跟大家做的就是把这个不可能完成的任务试图把它去做好。
现在中国有近14亿张嘴,对不对?还仅仅是中国大陆。他们说的都是汉语。那作为一个社会语言学家,就会说14亿的人就说14亿种不同的语言。那么这个口头汉语到底有多少年的历史了呢?我们如果把北京猿人作为中国人最早的祖先的话,那么汉语的口语可能就已经有了69万年之久,可能要比我们所有在座的人年纪都要大,包括我自己。
那么书面汉语到底有多久了呢?我们几乎不需要去怀疑,甲骨文,在河南省安阳发现了甲骨文,是今天汉字的祖先,所以书面汉语起码也是有了3400年,一定比我们在座所有人的岁数都要大。那么我演讲的主题是什么呢?汉语或者中文到底是什么?作为目的语、作为源语,这到底是什么?此外如何才能把汉语作为源语和目的语表达出来?我的目的就是知识型的语言模型,需要亲身经历这一门语言。
从这个角度来说可能有一些差异,也有一些激进,如果读语言学方面书的话,说语言是什么?是交通的工具、沟通的工具,是人们思维的象征、是跨文化的互动等等。我这里想提出来的,比较接近的一个看法,可能就是稍微有一些争议的,语言必须是一种亲身经历的过程。
我给大家解释,首先我们从非专家的角度、非专业人士来看,换句话说对于语言的自然谈到是怎么样的?第二点我要跟大家谈一下如何去给汉语成立一个模式,就是4种承载方式,我一会儿会展开来讲。同时就是汉语在眼下是怎样的情况,最新情况。第四个方面就是汉语作为一个多维的历史和神秘的城市,最后对于口译和笔译相关的模型,就是知识工程。最后一部分可能有一些专业性,我可能也不会有很多的时间详细展开来谈,但是我会尽可能快的向大家汇报一下我在这个领域上的研究工作。
知识工程在过去17年当中是我一直在做的一件事情,我可能还没有完全想清楚。
好,第一个方面就是非专家型的人,也就是对于语言的自然态度。
什么样的人是一个非专家型的人呢?你看这些人在两张照片上,好象大家都觉得语言首先要按照它的现实情况去进行描述。有一个事情大家都得承认是真实的,也就是说任何一个说母语的人,说话时都不会按照语法书说话的,这肯定是真的。如果说有一些语言没有书面语言,就根本就没有语法。那如果说一位语言工作者去找一个普通人说什么是主语、什么是宾语、什么是深层结构、什么是表层结构,用汉语的谚语来说就像是对牛弹琴。
作为一个非专家型的人对于语言的自然态度是什么呢?这里我使用的态度是有一定的含义。我是用非专家的对于语言自然态度跟专家对于语言的科学态度相对比。2000多年以来,语言其实都是语言工作者用科学的态度进行研究的。这种非专家人士的自然态度被视为非科学的、不科学的,好象在语言学的主流研究当中从来没有当做科学性的、非常认真的去进行研究。
所以汉语作为一个多维城市,我们可以看这种根据超谚方法论来看专家的科学态度跟非专家的自然态度。我是一个非专家人士,我就会这样问自己了,非专家人士、普通人士每天是如何去进行生活,而根本不需要担心我的话是不是符合语法,他们活得很好,不需要担心语法,到底如何看待这一点。对于一个非专家来看,语言不是一个象征性的抽象系统。我们从这个角度来看,更多是一个城市的臆想,就是韦根斯坦的描述,语言可以被看作是一个古老的城市,里面迷宫一般,布满了狭窄的小道和广场,还有经过不同时期在扩建的这种房子。当然这不是韦根斯坦真的善意,只是伪装作韦根斯坦。
那我们跟语言到底是怎样的关系呢?非专业人士就是继承语言城市,而且也是在其中生存的。就像当今的上海人从他们祖先手中继承了这一座城市,然后又通过使用这一座城市而生存下来,比如说他的运输系统、商店、酒店,当然了也包括像我们现在开会的大的会议室。我们眼下都在使用这么庞大的会议室。
所以语言从非专业人士来看到底有什么特点呢?从生态角度来看有4个方面的承载,我首先跟大家说一下这到底是指什么,我首先给大家一个展示,希望不至于太复杂,因为这都是非专业人士的看法。首先就是地面承载(LBSD)的现场及其话语,大家可以看这个例子,有一个考古学家进行古墓开掘工作,其实在这之前已经被光顾过了。其实当初提供了一个共识单向的视频转播,这应该是网络承载的现场话语,这样生成了网络承载的话语。到2000年8月30日,CCTV就把专业团队派到现场进行差不多两个小时的现场直播,大家可以看到这就是一种空中承载现场的即席话语。
我们说这个现场的概念非常重要,你看现场即席和非现场即席,到底有什么差别呢?现场即席是活生生的话语,就在这里,就是现在。换句话说,我们就是这种地面承载的一种即席话语。而非现场的,就是转播的,这就是非现场即席的。在LBSD例子当中,通过人类的意识以及随后的转播来进行的,这样一来就给人们有一种非现场的即席话语。所以现场即席与非现场即席其实是一种动态的概念。跟时间、跟空间的变化是相应而行的。
我们可以再看一下,现场即席话语有人文方面的构建。这个非现场即席是在参与者的记忆当中,而且你是可以去进行物质上的外部化。但是已经不再是当时现场即席的情况了。现在如果是LBSD把它录下来、保存下来,作为自然的物体或者说是人文的构建。比如说我现在说的话一方面是大家记住了,在你们的记忆里面,另外就是录像。就算在你的记忆当中不清楚了,而在视频当中还会比较现实、比较符合现场的情况。有一点特别重要的就是LBSD书写字对于现场即席话语的固化作用。所有的这种文化构建当中能够去保留LBSD最最重要的就是书面字,我是用大写表示的,真的很重要。
书写的字对于现场即席话语的固化作用,以它自己的独特的方式进行固化,包括逻辑、包括语法,同时把LBSD的这种互动性的、多媒体、多方式情况进行固化,而不再是这种单向性的、线型的,一个字对字的,大家可以看这个差异。
同样一个挖掘活动,你看在地面承载是正在发生,然后又转播到电视上面,如果说用书写字面表达出来的话,你看这个差异是特别清楚的。
好,我们再看一下书面承载的话语,就是WWBD。多年以来这种书面字已经获得了自身的生命力,能够把这种固化作用体现在人们的想象当中,比如说中国经常会说我们是龙的传人,龙在哪里?没有真正的人啊。这其实是由WWBD生成的。WWBD是什么呢?就是所有的多模态内容的单模态化。什么意思呢?就是这个书写字是极度的抽象,而且是单模的,是一个静态的。这么一种静态的、单模态的形式进行多模态化的时候,就发生了很大的改变,这一点非常重要,从这个内容的单模态化到多模态化,这对于我这个知识工程是非常重要的一个概念,请大家注意,我一会儿会给大家展开来讲。我是把它称作多模态内容的单模态化。比如说电视剧《哈利波特》用英文的,然后是《红楼梦》的文字,这种单模态化可以进行一些转化,让那些文盲啊,或者不识字的人也能够看得懂。
这里大家可以看到是《红楼梦》当中的一段,你听到这个声音,有人有笑,就是这样的声音。如果你这样看的话,去读,这些东西都是静态的,又听不到,你听不到这个笑,也看不到一张张笑脸,但是你知道笑脸在那里,所以这是多模态化。我刚才说的是《红楼梦》里面的一段。我把这个称为什么呢?称为书面文字的多模态内容、单模态化。我们是如何做这个事情的呢?
是这样做的,大家可以看到中国花了很大的投入把《红楼梦》拍成电视剧,我没有办法在这里给大家放《红楼梦》,大家可以买DVD或者VCD自己看。这4种承载话语的形式我可以通过画面的方式、图片的方式进行。
这是通过地面承载,大家可以看到,比如说你要乘车到上海来参加这个会议,这就有一个差别。然后是书面的,然后是空中的,你看到不同的现实、不同的时空,同时在这个过程当中还有另外的,这都是现实。如何总结他们的差异呢?首先从体验来看,我们可以看到这种地面承载、空中承载、网络承载和书面承载的主要区别,我们可以看到北京烤鸭,用它来做这个例子,好不好?一看这是北京烤鸭,如果是地面承载的话会发生什么事情?我要给你看真实的北京烤鸭,然后用你的舌头去尝试、去尝一尝,所以把它称之为是品尝,就是吃中饭的时候给大家试一试;如果是空中承载、网络承载的话,比如说我要请你去尝一尝北京烤鸭,那怎么办呢?这就是一种多媒体的体验。我把它称作是饱眼福的体验,从视觉去看,你不需要用你的舌头品尝,你可以用你的眼睛去品尝。尤其是像我这样的人,有糖尿病,我的医生已经告诉我很多遍,说顾老师啊,你以后吃饭你不能用舌头吃饭,你得用眼睛吃饭了,饱饱眼福就不错了。
好,我们再看一下书面承载,你看我可以描述北京烤鸭是如何做的,长期以来有什么样的特点,你如何去品尝呢?要通过理解,这就是一种理解式的体验,这是书面承载。非常快的给大家介绍了一下这4种承载方式之后,我们有没有这种可能,以这种方式去处理汉字呢?汉字一直到现在已经有了很久的历史,大家可以欣赏一下中国的历史。
你看八千多年的历史,很长了吧?如果说我们把这一段历史稍微割裂开来,那么第一部分可能就是书面字的一个阶段,书面汉字出现在公元前1765年,到了公元前1122年的时候书面汉字就已经广泛使用了,所以你看八千年的历史,我先在这分一分,大家看这些书籍,就是书面汉字。这一点非常重要,就是重要性不可低估。为什么呢?
在书面汉字出现之前,当然也是古代中国,甚至是史前的中国阶段。在这种史前中国阶段基本上就是一种LBSD,就是地面承载话语的一个阶段,只有地面承载话语。这个说法是一个人类学家用的词,也就是最终的口语阶段,你看这个人类学家描述几千年之前没有书面文字的情况,就是一种史前的阶段,或者说是最初的口语阶段。
那这个阶段有什么特点呢?就是这种自然的多模式阶段。大家都知道,在地面承载当中,人们得面对面的去沟通。人们面对面去进行沟通的时候,还不仅仅是用声音沟通,你可以用身体语言、用他们的眼睛来进行沟通。现在医疗科学发现我们有25种触觉,我们正常人有25种之多的触觉、感觉、感知工具,不仅是5个感官,所以这是非常自然的互通方式。
好,书面汉字出现了,我刚才说了,这个差异不可低估,有了书面汉字出现之后,我们现在再把它分成两个部分:一个是书面承载的字面阶段,就是书面阶段。正是因为有了识字这个阶段,原来最初的口语阶段就降级了,就分解了。因为受过教育的人可能总是要比那些没有受过教育的人、文盲有更多有利的地方。有识字的人、有不识字的人,两个阶层非常的清楚。你看这就是双刃,是一个特点。
另外一个特点就是中国的历史,就是远程技术,远程通讯技术。我们可以看第一次电报是1900年进入中国的,好,我们就从这一点起步,有这么一种远程通讯阶段,电话啊、电视啊,正是因为有了这一种远程通讯的方法才又有了另外一种话语,就是空中承载,叫ABSD。这里空中承载的重要影响之一就是它弥补了识字的人和不识字人的差异,比如说《红楼梦》,不识字的人是读不了《红楼梦》的,一旦改成电视剧,不识字的人也可以欣赏《红楼梦》,也许不一定像识字的人、受过教育的人能那么好的欣赏,但是他们也可以欣赏,所以我说这在识字的人和不识字的人、文盲和受过教育的人架起了一座桥梁。
后来数字技术进入了中国,这意味着什么呢?这个技术就带来了一种我称为是网络承载的话语。这种网络承载话语是惊人的。为什么呢?因为我认为这种网络识字的情况越来越重要,而且也带来了一种网络的口语性。什么叫网络口语性?我给大家稍微解释一下。
大家可以想一想,这种网络承载话语到底是如何定义着我们的生活、我们的身份?人家说我用电脑,或者说我在用网络,好象你就是一个人似的。我们又重新或许了自己的一种身份,为什么会这样呢?大家可以想一想,这种电信通讯技术、这种空中承载,空中承载没有那么可怕。大家可以看,这里是自然的多模式,一旦进入空中承载方式,我们就同时使用我们的眼睛和耳朵,这种互动都是接受性的。接受性的,就是生成了什么东西我们就可以看,我们可以观察。
我们可以看一下,新的技术,每天都有新技术诞生。我们看到了什么呢?我们可以看到传统的多模式的模式就变得有一点过时了,或者在网络上面就不可能了,你可以看看在网络上面的时间。先是文字,然后是视频,视频我刚才提到了,这个影响很大,有很多方面,从很多角度来说,我们沟通其实也是挺自然的。看我这个移动电话,我们甚至用移动电话去打电话,这个音频会变成文本,然后对方又能收到,他甚至可以看到我,这就是我所说的过程,这种空中承载是重新定义着我们的身份,并且重塑着我们的生活。所以这个网络的技术,真是非常让人惊讶。
我们可以再看一下空中承载的时空特征。这是爷爷、奶奶,这是我去内蒙古进行实地调查的时候,你看爷爷奶奶说的是蒙古语,父母亲呢?他们是说双语了,他们会说蒙古语,也会说普通话。那孙子、孙女呢?他们说什么?他们说普通话、他们简直就说不了蒙古语了。那我们在这里看到的就是祖父、祖母这一代是地面承载话语的特点,只限于当地,只是能够通过步行到达的地方,到了父母这一代就到了城市,因为有了现代的交通工具,就变成双语了。孙子、孙女这一辈,他们不想像爷爷、奶奶那样,他们要创建新的生活,所以就带来这一切。
另外还有一个地面承载方面的特点,就是这种城市化,或者说是城市现象。我使用的是google,这是北京的一个真实情况,这里有游客区、大学区、有有家具的地方、有中央政府待的地方、有紫禁城,所有都变成活动的集聚地,我把它叫做城市现象,或者是地面承载活动的聚集地。
另外还有一点就是农村向城市的迁移,你看这些农村妇女进入到城市做钟点工,男孩子们,男性去建筑工地,那我们会看到什么呢?很快这些年轻的女性会说两种方言,一方面是传统的方言,一方面就是说普通话或者其他的方言。而这些男性他们也是一起工作,所以他们还是说他们的方言,这就是农村向城市的迁移,或者说民工的情况。
即便是在这样一个过程当中,地面承载的特点还是跟着你的。正是因为这种农村向城市的迁移,正是因为有了远程通讯工具,有了电话,我刚才说了,近14亿的中国人,就说14亿不同的汉语,我们如何去考虑、去研究这种现象呢?我们可以看不同的种类。这种不同语言体系可以是接受型的,也可以是生成型的。如果是接受型的,比如说人们看电视是接受型的。有的人也可以开发一些电视项目,他们就变成了生成型的。我用这些区分来研究14亿不同的话语特征。
而且还有一些人的差异,一种就是地面承载,一种可以看一下是什么样的人,就是这样的,没有受过教育的,不识字的,在边远山区的农民,这是一类人。这是地面承载的单一型。他们的语体就得到了丰富,怎么丰富法?他们看电视。人们也是越来越多。再看看这些人,就是我刚才所谈的,你看这一位女性,她的方言特点大大的丰富,因为她看电视,还没有到互联网的阶段,我们可以再进一步的扩展,再扩展。我们现在就到了有三种承载方式,你看这个人,我把这个人也放在这里,大家认识这个人。是谁啊?这是我自己啊。我把我自己也放在这一类,我就是一种具有三种特征的,地面承载、书面承载、网络承载。
空中承载只是一种接受型的,我就永远不会是生成型的,可是在中国确实有这一类人啊。这里是一个例子。你看赵忠祥,每个人都认识他,每个中国人都认识他,他主持了很多电视节目,他也写了好几本书,他也有他自己的博客,你看这就是从他博客上面下载下来的画面。我们如果把个画面综合起来,想想全中国的情况,14亿啊,你看这就像是一个茶缸,我们看一看,最上面就是最顶端的一群人,最下面呢,政府主要想把下面这一段消除掉,就是说能够让更多人去识字、受教育。但是你看在这里,我觉得这个里面是人数最多的部分。
好,我们再看一下汉语作为一座历史悠久而神秘的多维城市,我确实看了不少古代的汉语口语,远古是指史前一直到200年这一年,古代的口语,口头汉语是600年到1000年。现在的口语从宋朝到1100年到1900年。当代的口语是从1900年到现在。这是汉语口语的情况。
我在说汉语口语的时候,我在说中文的时候,我说的这个汉语口语是不是跟古代的汉语口语有联系呢?大家看我在谈这个古代汉语口语的时候,你看在西安,然后从西安进一步往北走到北京,西安是一个古都,北京是一个现代古都,那汉语到底是什么意思呢?那就是整个国家所接受的,所使用的语言。
我其实想说的是什么呢?就是汉语的一小部分被接受成为中国的国家语言,中国到底有多少方言?中国到底有多少种语言?81种不同的语言,在这里我不是专家,所以闭嘴不多说。但是就方言来说,方言很多。研究方言的人通常有十大方言语系。我给大家看一看这些不同语言有什么样的特点,我举4个例子,同样的一个汉字,就是不同的方言是如何来发音的,如何去词汇化。
比如说太阳,我们从北京开始,这是北京方言。那上海方言呢?我在放一遍,学起来也不难。到了福州方言当中又成了什么样子呢?我真的听不懂了,说一句老实话,我真的听不懂。那么在广东话当中呢?再听一遍。对不起,就讲到这里,这是一种地面承载的方言特点。就这么一个词,就是太阳,你看有这么多不同的发音,就是不同的方言。
另外我还想提醒大家就是地面承载LBSD其实是最保守的一种保护方言和语言的方式,非常重要。地面承载话语是非常保守的,能够最好的保存方言和语言。所以我们真的要保护多样性的发展,要保护方言的话,你要非常非常仔细的去看这个地面承载话语有一些什么样的特点、有一些什么样的当地特点。
我们可以再看一下汉字的生命周期,汉字到底有多远的历史呢?又如何再生的呢?大家可以看一看,这是古代的一个马车,事实上中国汉字当中真的有这么一个马车引申而来的字。
我们每个人把时钟拨回到公元前1765年,你看就是这样一个情况。这个汉字你看,看上去像这样。这个汉字像什么?这是公元前1765年的时候是这样。然后到了公元前1121年变成这样了。公元前770年变成这样了,我们再看公元前770年有了一个变体。到了公元前248年,这是秦始皇统一中国的时候,他把中国的汉字统一了,中国的文字统一了,就变成这样了。你看我们现在还用的,对不对?中国大陆不是这样写,在台湾、在香港、在新加坡还是传统汉字,到了公元前206年没有什么变化,到了公元后你看就成了这样了。简化后的今天我们就写成这样了。这就是一个汉字的生命周期,从马车一直到现在,可是故事还没有讲完呢。汉字的这种变化,它的生存性很强,它的后代很多,永远都没有终止,你看就是这么一个字。我们有人摇的纺车,包括自行车,你看这是自行车。但是我们还是有一个车在这,是自行车。还有这个车,有其他的车,不是人拉的,是马拉的。这是马拉的战车、这是牛拉的牛车。所以这些是由动物来拉动的车。还有运输也有车,对不对?这是火车、这是电车、这是摩托车,这是小轿车,到下面是出租车、旅游车。可是在汉语当中所有的都有一个汉字“车”。你想一想,把汉语翻成英语,这个怎么处理?可是都在那里啊,这个分类就特别的清楚。还有一个特殊用途的车,这又是一大长串,你看升降车,也有车,又出现了。
好,因此要亲历这种历史,现在以及未来有什么趋势呢?我们可以再看一看。我们能用这种方式来分析笔译和口译吗?可能不是分析了,而是一个模型的处理,我把它称为是跨文化彼此相互促进的一个关键所在。怎么去做呢?你看地面承载、书面承载、空中承载以及网络承载这种话语。你看T和I,就是笔译和口译怎么承载进来?地面承载,翻译是在这里。然后是书面的承载跟笔译。空中承载是通过实况直播的。那还有一些什么样的方法呢?很惊人,我们有笔译、有口译,当然现在使用的人还不是很多,但是也有这种可能啊,可能在未来就会是这样啊。
我为什么把这个称为是面包和黄油呢?我们可以想一下这个地面承载的话语。你看口译这么辛苦,一旦口译不存在的话,如果没有的话,还会有什么留下来呢?什么也没有了,所以你所做的一切都没有了,没有能够得到保留。因此口译并没有得到充分的理解。你看这种实况转播的时候,你看到的都是那些重要的人,而口译人员是在幕后的,没有人看得见他们,这不公平嘛。那笔译,你译完了,非常惊讶,而且就得到了保留,大家看到这个钟是没有时针的、没有秒针的,它就永远的保留下来了,不会消失。
空中承载有一个优点,实况转播可以传到各处,你不需要亲自到各个地方去,你只是声音传播到各地,但是也会消失啊。那怎么办呢?我想给大家再举另外一个例子,就是我们如何让中国的文字重新获得生命。
玄奘大家都知道,我请教过我的同事,我把玄奘称为中国历史上最伟大的译者。他怎么做的呢?首先他不得不学目的语,不是在中国,要去古代的印度,步行去的。很偶然的,很少有机会骑马,基本上都是步行的,你看玄奘。他这个取经的路线你看是从西安,大老远到了印度,再回来,这个来回基本上就是五万里的取经过程,走过去的啊,17年之后才又回到了中国。年纪大了,你看上面还是年轻人,回来已经是垂垂老矣了,回来就开始翻译了,地面承载话语,他花了19年去翻译,完成了1365卷的翻译工作。这就是他当时的一些翻译工作。这些翻译的笔头没有放在图书馆那里积灰。他的这些译作,就是书面承载的译作通过地面承载的方式获得了新生。
我给大家举一个例子,这是我最近刚拍的一个照片,两个月之前我去了一趟温州,这是中原地区1988年设置的一个佛教寺庙,你可以看到玄奘的译作就在这个庙宇当中得到了使用,获得了新生。
我刚才说了地面承载的话语有它的流动性,会消失,可是如果只是在人们的记忆当中,就消失得无影无踪吗?不是这样的。地面承载的话语有的时候也通过硬件方式保存下来。有一个古老的街道,有一千多年的历史,这个街道是保存下来了,但是人的活动改变了。
还有一个周公拍虎,这个故事我希望大家理解,这是中国新的成语,是最近在网络承载话语当中刚刚诞生的。你看故事是这样的,刚刚生成,我就想知道这么一个新的周公拍虎的说法能够生成多久?会不会像叶公好龙那么长久的留存下来呢?叶公好龙这个说法已经有几千年了,可是这个周公拍虎是不是也能够存在这么久呢?
好,真抱歉,我现在就应该停在这里了,我很快的讲一讲最后一部分。所有的这四种承载方式对于知识工程有什么样的含义呢?首先笔译、口译的理论方法有两个范式,我是这样理解的。首先是沟通的方式,口笔译是跨语言、跨文化沟通的,好比耐达的,就是口笔译在沟通的过程当中理论化的、概念化的过程。我们可以有一种不同的范式,比如说口笔译可以从信息处理方式进行概念化。所以我们在做这个机器翻译的时候,或者称为是AI这么一个范式,不同的知识范围口笔译其实是不同的语言、不同的社会文化、知识领域或者系统的一个并横,大家可以看到这是一个知识结构,我做了一些变化,不是完全引用,是这样的。
研究会有以下的贡献,一方面是语言知识,然后是具体的上下文语境和情景,还有研究方法,这是我自己最近刚刚研发出来的,就是代理导向的模式。这是在UML的基础上面研发出来的,我们可以看一下这4种承载方式当中,地面承载是最难做的,这是在过去17年当中我做的一个课题,就是把800个小时的地面承载话语收集起来进行文字的处理,处理成文字。
那现在做到哪一步呢?如果说我们仅仅依赖于文字的文本,可能信息还是不够的,有好多的信息在原来的语境当中,在你的处理过程当中可能会缺失。我举一个例子,这里有一个对话,这是一段视频剪辑,整理出来的对话,我就当是给大家读汉语,可能说汉语的同事们不一定能够理解到底发生什么事了?但实实在在就是这么下来的,根据声音处理下来的。我们如果通过音频方式来听的话,你看就是这样的。当时是怎样的情况呢?如果我给大家听这个音频,这个故事其实很简单,可是要看一下这个处理的文字,没有谁会理解这到底发生了什么事。因此信息的丢失在这个处理当中就不可避免了。所以我们要找到这个方式,能够重新去回收这些知识或者获取这些知识,就是我说的多模式数字寻求方式,这个要比书面文字丰富很多。
所以这里有一个理念,这么一种模式其实挺简单的,给大家解释一下。这是我最近刚造出来的一个说法,叫做环境相对论。你看这个椅子,每个人现在都坐在椅子上面,这个椅子跟狗进行互动,我们想象一下会发生什么情况呢?同样的椅子又跟鸟进行互动。同样的,这是一个不同的沟通方式,你看所有的不同交际主体,再加上其他的交际主体进来,还有人。
我这里其实想说的是什么呢?同样的椅子你在跟不同的动物、不同的沟通主体沟通的时候,你有不同的行为、特征。我把它称为是环境相对论。那我们能够让这些沟通行为进行模型处理吗?实际上可以通过一个代理来完成。什么意思呢?就是说这个椅子其实成了一个代理,什么叫代理啊?这个椅子在我的模型当中是一个活的东西,鸟进来的时候,你看,比如说到我这儿来吧,你可以坐在我的椅子上面,或者随便你坐在哪里。鸟来的时候,椅子说你可以坐在我哪呢?你可以坐在我的脸上。这个小鸟进来的时候可以说你坐在哪都行。再换一个动物,瓢虫、雄性的狗、一个人进来,他们都进行互动的话,你看这是语言的不同层面、不同的风格。我把这个称为是环境相对论。
所以这么一种代理的特征,就是每个都成为活的人,都可以成为互动主体。其结果是取决于谁和谁进行互动。这就是一个简单的概念。我把这个概念应用到其他的地方,中国的宴会。你看人类坐在椅子上面,不像狗坐在其他地方,他们有他们的价值、有他们的社会差异。
这是我所开发出来的语言,我现在很快的给大家总结一下。AOM到底是什么?这其实是一种对于世界进行思维的方式,我们这个世界有各种各样的代理,有各种各样的沟通方式,这是关键所在。所以你想想AOM,其实就是代理的方式,这个话筒也可以成为一个主体。AOM是什么概念呢?大家可以看到就像是用词来进行处理。
你看这些工具,我们用它们来研究代理或者行动者,或者说媒体的这种特点。我想给大家看的是这就是所谓的生态模型,给大家提供一个图形的处理。这个代表的是什么呢?不同的社会层,包括人们的居住、人们的生存、社会文化、以及政治、意识形态。所以我们所生存的是一个多维度的社会。我是这样去重建这个多维度生活的。
你看传统的数据库没有办法做,因为是平面的,我们现在要把它弄成一个动态的数据处理系统。这是我们使用的工具,这不是我创造的,是德国的一位先生开发出来的。但是这些部分是我自己写的,这就是我们所获得的一些结果,我就不给大家一张一张看了,技术性太强。这是我们整个的数据处理过程,这是我们所使用的最新的一个,能够加强动态不同关系之间的数据处理,比如说不同主体之间的关系。如果说我跟我太太、儿子沟通、跟我的爷爷、奶奶沟通的话,这些关系如何能够获取不是通过字,而是通过电脑处理过程,所以这就是一个话题的指示图。
好,欢迎大家来到我的网站上看看,我发表的论文,大家在这个网站上面都可以找到,如果大家对我的理论有兴趣的话,大家可以下载,不用付钱。这个语料库目前还没有上载,最终会把我们语料库上载到这个网站当中。差不多也就是一个月之前我才建成的。我前面还有一个,但是被黑客给攻击了,简直就毁了我前面那个网站,因此我又重新建了。希望这个网站寿命能够更长一点。谢谢大家!
(编辑:youke)