汉语是终极解决

作者:苏诚忠  于 2025-10-1 00:05 发表于 最热闹的华人社交网络--贝壳村

通用分类:文史杂谈|已有17评论

如今,讨论人工智能的文字铺天盖地。但是,有一个最关键的问题,所有人都避而不谈。这就是,关于大脑与信息链接的问题。虽然有人声称,可以用电脑直接与大脑链接,但是,即便链接后的信号,也需要变成文字才能进行思考。维特根斯坦说:“我的语言边界就是我思想的边界。”没有变成语言的思想类似庄子所说,没有感官的混沌。
在人脑记忆能力与海量的信息之间,英语存在着一个无法逾越的困境。唯独汉语能够解决这个问题。从ChatGPT上查得,目前的英语单词数量,在15到200万之间。但一个人能够记住的单词只有2万到3万之间。无论AI如何发展,人类通过英语能够享受到的信息只能小于总量的3/15=1/5。随着世界信息量的增加,这个数值将无限缩小。只有汉语能够解决这个问题。
一个普通话使用者,掌握三千五百个汉字,就能够掌握世界上所有的信息,或者说能够掌握到超过200万单词所负载的信息。原因是什么?下表告诉你答案。

从表中看出,汉语的单词是由两个汉字组成的。比如“羊脂”而英语的“羊”是sheep,“脂”是grease,羊脂是suet,三者之间,没有推导关系。或者说,你学了羊字,学了脂字,但还必须学会“羊脂”suet以后,才能用它来交流。一个中国人,学会了上表中最左一列,以及最上面一行汉字后,就能自己总结出上表中其他部分的单词,而英语使用者却需要将表中所有的单词都学会,才能用这些单词交流。这就是为什么汉语使用者,只要记住3500个汉字,就相当于英语使用者记住上百万单词的原因。
假设每个汉字都能两两组成单词的话,那么3500个汉字能够组成3500X3500=12250000个单词。如果每三个汉字都能组成一个单词,那么,其结果将是天文数字。读者可以自己演算一下。
几乎在每一个英语论坛中,我都曾经遇到过这样的问题,为什么只有汉字可以进行这样的组合,英语却不成呢?答案是,汉语使用了声调,而英语忽略了这个声音信息。我们知道,一种语言的推广,首先是声音的推广,其次才是文字出现。如果声音的基本数量达不到要求,那么,这种语言的文字无论怎样改变,也不会使人增加记忆。
举例来说,电脑使用的是二进制语言。如果用声音来处理,它应该只有,两个声音。我们假设将它设定为A和B。仅凭它俩,只能表达两件事物。如果我们用两个符号代表一件事物,它俩就能表达最多四件事物。分别是AA,AB,BA,BB。从这里看出,虽然表达的事物增加了一倍,但是,使用者每次却需要消耗两倍的时间来表达一件事物。接下来,我们如果需要表达400种不同的事物,用AB语言来表达,就需要9个声音的组合,或者说九倍的时间来表达每一件事物。因为2的9次方是512>400。英语大约有400种声音,如果表达的事物只有四百种,那么,英语可以用任何单一的声音,表达一种事物,而AB语言则必须用九个声音的组合来表达400种事物之一。它比英语慢了9倍。
同理,汉语的普通话的基本声音种类大约700个,每一个都可以变成四声,这就是说,汉语的基本生意大约2800个(实则2500个左右)这就使得汉语在表达的时候,可以使用两两的组合来组词,不至于混淆,此外,汉语的部首也帮助它摆脱不少同音词的混淆。相反,英语没有部首,而发音总量又不够用,因此,必须选择任何还没有被利用的发音组合来表达一个新的意思。
除了组成文字需要的基本符号以外,声音种类多的语言还有其他的优点。第一,如果你一辈子使用AB语言,那么,一辈子活下来,你享受到的所有信息,最大可能也就是英语的九分之一。也就是说,后者的思想边界比前者大了九倍。第二,思维是语言在大脑中的运动。当你的运动速度是另一种语言的九分之一的时候,你的思维速度怎能赶得上另一种语言。
忽略了语言学的问题。汉语是记住数千汉字后就能享受网上所有的信息。而英语做到这一点则需要记住数百万单词。两者对比,不是困难与容易的区别,而是能与不能的差异。新技术的发展,将这个问题变得更加突出。本文就是通过计算来讨论它的原因。
最后,还要说一点,一旦人工智能解决了翻译问题以后,普通话使用者的将以最少的记忆,获得最多的知识。


高兴

感动

同情

搞笑

难过

拍砖

支持

鲜花

发表评论 评论 (17 个评论)

3 回复 浮平 2025-10-1 03:03
利弊兼并。一字多意,一意多字,词组多样,涵义多重;既有情感表达的丰富,主观解读的便利,又存在定义概念模糊,逻辑推理粗糙,是非价值混乱,结论自相矛盾的困境。
1 回复 闲言碎语 2025-10-2 01:19
看不懂,AI的功能可以打败人脑,为什么还不可以帮助人脑记住几千和几十万个字?不应该有区别。汉语有很多字都没有,必须要借鉴外来语。
2 回复 Wuming123 2025-10-4 08:14
浮平: 利弊兼并。一字多意,一意多字,词组多样,涵义多重;既有情感表达的丰富,主观解读的便利,又存在定义概念模糊,逻辑推理粗糙,是非价值混乱,结论自相矛盾的困
你就是个逢中必反的二五仔!中文利于计算机处理,这都是成了定论的东西,你也能变着法的泼一瓢污水!
1 回复 浮平 2025-10-4 09:36
Wuming123: 你就是个逢中必反的二五仔!中文利于计算机处理,这都是成了定论的东西,你也能变着法的泼一瓢污水!
用脚投票,用脑投机,用心害人,用口表忠,这类低层次大外宣永远理解不了逻辑规律,只能停留在拥啊拥反啊反的哲政混合一锅粥的二维认知水平。多上网看评论也是一个学习逻辑基础和提升理性分析的机会。
2 回复 苏诚忠 2025-10-4 11:12
浮平: 利弊兼并。一字多意,一意多字,词组多样,涵义多重;既有情感表达的丰富,主观解读的便利,又存在定义概念模糊,逻辑推理粗糙,是非价值混乱,结论自相矛盾的困
不明白您说的是什么意思。我原文的意思是,当一种语言中的声音种类增加时,记忆的比重下降,因此可以使得更多的单词不必记忆,仅用推理的方式就能理解,或者运用。最简单的例子就是一种最简单的语言,只有两种声音,好比A和B,像电脑一样。这种语言依然可以表达整个宇宙的事物。但缺点是,速度太慢。比英语更慢,英语有400种不同的声音。如果,有400种事物需要用英语来表达,那么,英语用每一种声音便可以表达一件事物。但AB语言必须用9个声音的组合来表达400种事物之一。因为2的9次方大于400英语发音一次就解决的问题,AB语言需要发音9次。是不是效率降低了9倍?一辈子活下来。AB语言的使用者,只能享受到英语使用者9分之一的信息。
2 回复 苏诚忠 2025-10-4 11:17
闲言碎语: 看不懂,AI的功能可以打败人脑,为什么还不可以帮助人脑记住几千和几十万个字?不应该有区别。汉语有很多字都没有,必须要借鉴外来语。
AI的确无法帮助人类将一个画面,或者感官变成单词或者文字。变不成文字的一段思想仅仅是一团乱麻。所以,维特根斯坦说:我语言的界限就是我思想的界限。也就是说,一个感官感觉到的东西,无法与人类语言进行有效的沟通。
2 回复 苏诚忠 2025-10-4 11:20
Wuming123: 你就是个逢中必反的二五仔!中文利于计算机处理,这都是成了定论的东西,你也能变着法的泼一瓢污水!
相对于拼音文字而言,中文不利于键盘输入,因此,上个世纪,取消汉字的声音不绝于耳。但是,时代变了,汉字有利于语音输入,它语音输入的速度远远大于拼音文字。
2 回复 苏诚忠 2025-10-4 11:29
浮平: 用脚投票,用脑投机,用心害人,用口表忠,这类低层次大外宣永远理解不了逻辑规律,只能停留在拥啊拥反啊反的哲政混合一锅粥的二维认知水平。多上网看评论也是一
我的逻辑是建立在数学推导的基础之上的。在正常的说话时,人类每发一个声音就需要消耗250毫秒。一种含有400种声音的语言,在这个时间内,能够从400种事物中选出一个来。而在相同的时间内,一个只有两种声音的语言,仅能从两种事物中选出一个来。汉语普通话使用了四声,因此,比英语的声音种类至少多了四倍,所以,汉语表达的能力更强。
1 回复 浮平 2025-10-4 11:43
苏诚忠: 不明白您说的是什么意思。我原文的意思是,当一种语言中的声音种类增加时,记忆的比重下降,因此可以使得更多的单词不必记忆,仅用推理的方式就能理解,或者运用
信息传递不需要依赖更多的基础表达元,少量音素通过组合就能表达无限内容。多音素语言未必能让信息传递更高效,关键在组合与规则,而不是声音的多少。
1 回复 苏诚忠 2025-10-5 11:25
浮平: 信息传递不需要依赖更多的基础表达元,少量音素通过组合就能表达无限内容。多音素语言未必能让信息传递更高效,关键在组合与规则,而不是声音的多少。
电脑使用二进位制,就相当是两个声音输入。前苏联直到当今俄罗斯都希望用三进位制进行计算。但是,硬件不允许,因为电压无法保证。为什么这是所有人都梦想?就因为增加一个符号可以大大加快计算速度。它的好处不比芯片尺寸缩小差多少。同样的道理,汉语比英语在理论上至少多了四倍的声音,因此,其传递速度,思维速度以及一生中能够享受信息的总量都远超英语,这不是“未必”的事情,而是一定的事情,是计算的结果,不容否定。你到任何语言学论坛,信息技术论坛,或者是chatgpt上去问也都是这个答案。凡是懂得指数运算以及排列组合的人都不会弄错的。
1 回复 浮平 2025-10-5 20:58
苏诚忠: 电脑使用二进位制,就相当是两个声音输入。前苏联直到当今俄罗斯都希望用三进位制进行计算。但是,硬件不允许,因为电压无法保证。为什么这是所有人都梦想?就因
举个例子来说明音素与信息传递效率的关系 ---

1)Encoding :利益 vs 礼仪,畜生 vs 出生 都有第一步因声调不同,音素增加的方便,不需要进行两者信息间的逻辑识别;但是,利益,立意;出生,出声,初生,初升却需要进一步逻辑识别。

2)Decoding: 权力、权利、全力,重阳、崇洋、崇阳,实力、势力、事例、视力、势利、市里、十里、失利等等,首先需要对多音素进行逻辑识别才能准确传递信息。这是编码部分便利与解码复杂性并存的特征。
1 回复 苏诚忠 2025-10-6 17:06
浮平: 举个例子来说明音素与信息传递效率的关系 ---

1)Encoding :利益 vs 礼仪,畜生 vs 出生 都有第一步因声调不同,音素增加的方便,不需要进行两者信息间的逻辑
这话说到点子上了。同音词的出现是汉语目前的一个缺陷。因为,普通话可以发出3432个声音,而实际采用的却只有1186个声音;一个声音包括一个声母(辅音),一个韵母(元音)和一个声调。普通话有22个声母,39个韵母以及四声,连乘22X39X4=3432,但实际的声音没有这么多,因为,有些声音发不出来。根据过去的一些研究,能够发出来的至少有2500个。如果普通话进行一些改造,用2500个声音来负载3500个汉字的话,那么,同音词的概率将大大降低。除此以外,部首也起到一定的区分功能。
1 回复 浮平 2025-10-6 21:08
苏诚忠: 这话说到点子上了。同音词的出现是汉语目前的一个缺陷。因为,普通话可以发出3432个声音,而实际采用的却只有1186个声音;一个声音包括一个声母(辅音),一个韵
对了。这是三步逻辑推论曲 ---

1)多音容易组成多音素,在逻辑上是成立的;
2)多音素在编码中带来部分方便,在逻辑上是成立的;
3)多音素在信息传递上一定带来高效率的线性正比关系,在逻辑上是跳跃的。
1 回复 苏诚忠 2025-10-7 15:06
浮平: 对了。这是三步逻辑推论曲 ---

1)多音容易组成多音素,在逻辑上是成立的;
2)多音素在编码中带来部分方便,在逻辑上是成立的;
3)多音素在信息传递上一定带
我说的声音,不是音素。因素是指b,a,d,i,o等中的一个。我说的声音是指能被别人听到的,可以相互区分的声音。发音和听音都需要约250毫秒的时间。类似每个汉字所发的声音。不是线性正比的关系吧,应该是按照指数的正比关系。可以说在逻辑上是混乱的,正是这个原因,任何人都能让它负载任何意思,就好像二进制电脑的符号,本来没有意义,经过人类的赋予,使它带有了特殊的意义。
1 回复 浮平 2025-10-14 10:20
苏诚忠: 我说的声音,不是音素。因素是指b,a,d,i,o等中的一个。我说的声音是指能被别人听到的,可以相互区分的声音。发音和听音都需要约250毫秒的时间。类似每个汉字所发
您说的是声调,也是广义音素的元素,可通过发声听声来识别。这与上面的逻辑分析结果不矛盾。
回复 苏诚忠 2025-10-15 06:57
浮平: 您说的是声调,也是广义音素的元素,可通过发声听声来识别。这与上面的逻辑分析结果不矛盾。
历史上,最先出现的语音单位,是从古希腊人开始的。他们将含有一个元音的一组字母成为一个音节。我相信,这和他们最先发明元音字母有关。在他们之前,腓尼基人的字母中,没有元音。因此,22个辅音字母只能发出22种声音,到了希腊人手里,他们发明了几个元音,这样一来,每个辅音就能与数个元音相结合发出熟贵声音,大大的扩展了声音的数量。但是,希腊人的单词不可能是一辅一元的撰写,那么怎么才能划分声音呢?只能按照音节划分。也就是说left算是一个音节;一个元音外加周围的所有的辅音。这样的计算方法到了后来越来越不适应人们叙述的需要,于是出现了音素,也就是国际音标上的元音和辅音。这种计算方法依然无法进行计算。
回复 浮平 2025-10-15 22:36
苏诚忠: 历史上,最先出现的语音单位,是从古希腊人开始的。他们将含有一个元音的一组字母成为一个音节。我相信,这和他们最先发明元音字母有关。在他们之前,腓尼基人的
是这样。音素多,或者您用不同的词语表达组成有意义的词语基本单元多都可以,只是您用这个“多”来解释数字信息传递效率高在逻辑上不严谨,它们不是一对一的线性递增关系。还需要回到信息是什么的基本概念上进一步思考。

facelist doodle 涂鸦板

您需要登录后才可以评论 登录 | 注册

关于本站 | 隐私政策 | 免责条款 | 版权声明 | 联络我们 | 刊登广告 | 转手机版 | APP下载

Copyright © 2001-2025 海外华人中文门户:倍可亲 (http://www.backchina.com) All Rights Reserved.

程序系统基于 Discuz! X3.1 商业版 优化 Discuz! © 2001-2013 Comsenz Inc. 更新:GMT+8, 2025-10-16 02:56

倍可亲服务器位于美国圣何塞、西雅图和达拉斯顶级数据中心,为更好服务全球网友特统一使用京港台时间

返回顶部