AI 推高了汉语的身价

作者:苏诚忠  于 2024-2-6 11:56 发表于 最热闹的华人社交网络--贝壳村

通用分类:文史杂谈

自古希腊起,人们就一直希望从数学的角度,认识语言。计算语言的困难在于,无法找到合适的单位。语言的运作基本上是四个过程:1、说话人的大脑中产生思想,2、将这些思想分解成类似单词或汉字的基本单体,3、传递出去,对方接收到,4、对方接收到后,将一个个基本单体连接成自己理解的意义。计算语言的唯一可行方法就是在第3个过程,也就是双方传递与接受时,对那些单体的数量进行比较。这些文字符号的表现形式有形、音、义三种。只要能够在三者之一找到通用的单位,那么,问题就解决了。亚里士多德提出的‘义语言’semantics 就是希望从‘义’的角度,找到可以计算的单位;没能成功,因为无法对每个单词所代表的意思进行量化比较。近代,克劳德·艾尔伍德·香农Claude Elwood Shannon提出的‘信息论’,希望从‘形’的角度,将每一个英文字母做单位计算,结果不了了之,还是因为找不到每个字母到底包含有多少意思。在这两人之间,有更多的人希望从声音的角度找到语言的单位。相关的专著出了很多如,phonetics语音学,phonology音韵学,声学 Phonics等等,依然没有结果。我认为,欧美语言学找不到语言单位的原因,是因为拼音文字已经改变了人类语言最原始的样貌。因此必须回到最原始的语言中去寻找。
当一个族群内部公认,某几个声音表达相应的某几种意思后,语言便诞生了。为了讨论方便,我们把这种能够代表意思的声音,称为语音。最初,语音的产生是一个一个可数的。直到字母出现之后,才有了分不出个数的音节。音节的特点是,将某些声音读得轻一些,快一些,不把某些极短的元音写出来,(音节的定义是,一个写出来的元音,两侧无论有多少辅音,只要没有写出第二个元音,它就是一个音节;但要记住一点,没有写出元音,并不等于读的时候没有元音存在,只不过读得很轻而已。)目的是,将总发音时间变短。接收的一方,不是根据完整的声音获得信息,而是根据习惯,以及上下文,猜出那些微弱的,虽然没能听清楚的语音是什么。比如在spring、lift中,人们就是这样获取信息的。但是,原始人的发音没有这么复杂,就是一个个的CV(consonant,vowel)结或者一个单独的元音来交流;这就是我提出的语言单位,它历时四分之一秒。下面先做两个铺垫。第一、电脑是如何用两个符号实现的?第二、古代是如何从单一的CV结,演变成拼音文字的。
首先,电脑使用的是二进位制符号;莫斯码。两个符号就能表达宇宙间的一切。那么人为什么不能也用两个符号来表达宇宙,那该多简单哪?答案也简单,如果人也使用两个符号当作语言,那么,说起话来就会把你烦死,或者说,由于两个符号的语言需要太长的时间表达一个单词所代表的意思,因此,人类使用了远远超过两个符号的语言来表达宇宙。由于,要表达的意思是无穷的,语音符号的数量就多多益善。这个问题,在莱布尼兹发明机械计算机的时候就考虑过了。他是二进位制数学的发明人,但是,他发明的机械计算机,使用的却是十进位制。原因是,使用二进位数进行机械计算的时间太长。举例来说,用二进位组成400个相互区分的符号,以代表400 种不同事物的时候,每个符号需要进行9次运作,因为,2的9次方才大于400。人类每发出一个可以被听清楚的语音(CV结)便消耗四分之一秒,那么,为了表达400种事物之一,使用两个语音作语言的人,要用9x0.25=2.25秒的时间来发出或接收,这还只是限制在400种事物以内,超过400种事物的范围,需要增加的时间就更多。电脑使用二进位数,是因为,电脑的计算速度几乎可以无限的提高。但使用电来计算的缺陷是电压不容易稳定,因此,统一将五伏的电压代表1,而小于一伏的电压代表0。前苏联曾经设想过一种用三个元素进行运算的计算机。因为,当年电脑的速度还不是很高,如果增加一个元素,那么,不但会大大提高运算的速度,而且还能减少运算的次数,从而降低温度等等。还是上面那个例子,由于3的6次方大于400,就是说,运算6次就达到要求,不需要9次。仿此,我们还可以推导出来,如果电脑使用的是5个基本元素,那么,运算速度会更快。如果是400个基本元素呢?由此,我们得出结论:符号(单词或汉字)数量是基本元素的数量与其指数的函数。这个结果告诉我们,完成同样的信息任务时,基本元素越多,速度越快,越省力。语音就是语言的基本元素。
再说一说拼音文字的演变过程。所谓的拼音文字,其实都是来自古腓尼基语言。他们先是引进了埃及语言。由于埃及象形文字很难书写,因此,腓尼基人将其复杂的符号,改造成22个字母的组合,在读这些字母时,用22个辅音。这一来,在读每个单词时,只读22个辅音就可以了。几代人后,埃及语言中的元音和声调便被忘记。全世界所有的人,发音器官和听觉器官都一样。所谓不同的语言,实际上是由于各种语言所承认声音中的元素不一样。目前人类承认过的声音元素有三种。元音(韵母)、辅音(声母)、声调。腓尼基人只承认声音中的辅音,因此,这种语言只有22个语音。由此得知,这种语言的表达速度很慢。古希腊人在引进腓尼基语的时候,感觉到了这个问题,因此,增加了几个元音符号,从此,腓尼基人所忽略的元音,又被希腊人找了回来。这样,CV结的种类不是增加几个,而是增加了几倍。比如,在腓尼基语中,M就是一个语音,无论它与什么元音相结合,都把它当作M。但是,到承认元音的语言中,同样的M,就可能变成ma、mi、mu、mai、mo、me、mei等一系列的语音。当初只能代表一件事物的M现在变成了可以代表很多事物的很多个语音。但是,当信息量继续增加,需要语音种类做出相应的变化时,就遇到了困难。这就导致了音节的出现。音节是为了满足拼音文字,在字母数量不变的条件下,加快口语表达的方法之一。加快表达速度的方法有三种,一是将原有的CV结读得快一些(形成音节,前面讨论过),二是在书写符号不变的情况下,根据不同的单词,更改发音方法。因此,我们看到在英语中,同一个‘a’有八种发音,分别是:[eɪ][æ][ɑ:][ɒ][ɔ:][eə][ɪ][e]。三是,用语法来减少发音次数。举例来说,表达一个过去的动作,汉语需要用一个副词来修饰动词,但是,英语中,只要在动词后面加一个ed,就够了。更有一些不规则动词,连一次动作都不增加,仅仅改变一个元音,比如,take的过去式took。这里要注意的是,虽然它没有增加动作数量,但是增加了一个需要记忆的单词。或者说,以增加记忆单词的方式,减少口部动作。
各种文字的一切努力,都是为了节省口语表达的动作,就个体而言,省力是动因,就全体而言,生命是由时间决定的。在不变的时间内,获得信息的总数量,主要由提高声音表达的速度来决定。此外,思维的过程,是一种“心里说”的过程,因此,语音表达的快慢也反应出思维速度的快慢。(赵元任《语言问题》中曾经提到过此事)
汉语从来没有进行过真正的拼音化改造。它增加声音种类的方法不受任何约束。因此,汉语承认的元音(韵母)有35个之多(国际音标中英语只有20个左右)。此外,汉语使用声调进行区分后,使得CV结的种类又增加了数倍。比如上面所说的一个ma,变成了mā,má,mǎ,mà。
为了说明英语中也有声调,比较两个人名,川普Trump和拜登Biden。中文翻译的都不正确。首先Trump在英语中是四声,串普,而拜登应该是一声掰登,不过,这个den的声音在汉语中,只有四声的‘扽’掰扽。由于西方人很难理解什么是‘声调’,我在英语论坛上,就用唱歌的音阶来解释它(赵元任首创用音阶标注声调)。普通话承认2500多个语音,但目前被利用的,不到50%。如果能够被充分利用起来,将大大削减同音字,同音词。英语的语音有400个左右,却也没有全部利用。
可以说,所有的语言都朝着一个方向发展;以最简单的口语,表达最丰富的内容。但是,拼音字母的出现,干扰了这个进程;原因可能是,在古代,书写工具落后,因此,需要简化书写,而近代,随着信息的暴增,语音数量已经成了主要矛盾。正是由于在语音数量上的优势,使得汉语毫无顾忌地用单字组词。比如,猪肉这个词,是由‘猪’和‘肉’两个字组成了,英语的猪是pig,肉是meat,而猪肉就不能使用pig-meat而必须使用pork。这就等于增加了一个需要记忆的单词pork,目的仅仅是为了减轻口部肌肉的压力而已。因为使用pig-meat需要的时间长,动作多,使用pork的时间短,动作少。猪肉是日常用语,一位屠夫如果一天需要使用一千遍pork,就比一千遍pig-meat大大的减轻了面部、口部肌肉的负担。读者可以实验一下,分别连续说20遍pork和pig-meat的感觉是不一样的。假设每个中文单词都是由两个字组成的,那么,三千汉字就能组成3000x3000=九百万个单词。更多的例证见https://sites.google.com/view/suchengzhong1/linguistic1正是这个原因使得今天的汉语与互联网交流时,只需要记住数千个汉字,而英语做相同的事情,则需要掌握数百万个单词。这个差异将使得两种语言的使用者在思维,认识,文化和创造方面出现很多不同。无论翻译软件,还是人工智能,都无法弥补这个差异。
无论学习单词还是汉字,都需要多次复习,从不同的上下文中对比同一个单词或汉字。根据计算可知,汉字复习的概率是英语复习单词概率的几十乃至上百倍。随着智能软件的成熟,信息量的继续增加,汉语的这个优点将越来越明显。


高兴

感动

同情

搞笑

难过

拍砖

支持

鲜花

评论 (0 个评论)

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2013 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2024-2-6 12:04

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部