汉语的“词汇量”

何南林

长期以来,汉语不但以难学著称,而且还常常被指责为词汇欠缺、表达贫乏。生为汉人,真可谓双倍之不幸——语言学习所需的时间本来就已经比别人多了好几倍,不料最终学到的东西还不及人家几分之一。

毛喻原先生便为这种论点提供了具体数据:“我们知道,汉语一部普通的《新华字典》所收单字(含繁体、异体)是一万一千一百个左右,清初所编的《康熙字典》所收汉字是四万七千多个,最近出的《汉语大字典》所收汉字也才五万六千个。与英语相比,汉语的词汇量是非常小的。即使一部欧美普通学生所用的字典所收单词也至少在十六至十七万个以上。如著名的《牛津字典》所收单词是六十多万个。篇幅最大的《韦伯斯特大词典》所收单词几乎达到一百万之多。仅从词汇量来比较,汉语和英语在这方面的差别是非常巨大的。”

显然,毛先生“汉语词汇量非常小”这一结论,是用“科学方法”计算出来的,即:拿英语单词总量减去汉字字数总量。显然,这么简单的题目,连小学生都难不倒,根本用不着毛先生亲自动手。不过,小学生同时还知道,加减法的运算有一个先决条件,即“单位”必须相等。例如,五匹马与四头牛就不好相加;七颗白菜减三根萝卜也不知该等于啥。再举一个简单的例子:假如有人给你开工资,年薪一百万,你一定欣喜若狂,找不着北;但万一他后面再补上一个“分”,呢?由此可见“单位”之重要。

于是我们现在要问,毛先生自编自算的这道数学题能不能成立?更确切地说,“五万六千个字”与“十六万(或者六十万甚至一百万)个词”,二者的“单位”是否一致,相互之间有没有可比性?

英语的单词由字母组合而成,但汉字同样也可以组合成词;如果说,英语26个字母组成的词可达百万之巨,那么,五万六千个汉字相互搭配又能组成多少个“词”呢?

《现代汉语词典》前言写道:“这部《现代汉语词典》是以记录普通话语为主的中型词典,供中等以上文化程度的读者使用。词典中所收条目,包括字、词、词组、熟语、成语等,共约五万六千余条。”

不用说,区区“五万六千余条”与英语的上百万相比,只能算是小巫见大巫。问题在于,我们应该如何定义汉语的“词”。

先来举个简单的例子。众所周知,英语一个星期中的七天,一年中的十二个月,个个都是专名。不用说,它的词汇总量中必然包括这十九个单词。然而,翻遍全世界的《新华字典》、《汉语辞海》,恐怕也找不到“星期一”、“二月”这样的词条。《现代汉语词典》仅仅收录了“星期”,这也就是说,使用者只要自己在后面填上一个数字,便可以表达任意一个具体的日子,因而完全没有必要把一星期的七天、一年的十二个月统统列举出来。诚然,它的确收了“星期日”一词,但实际上也是可有可无。因为,没有一个讲汉语的人是在查了词典以后才知道“星期日”的,也极少有人会为了“星期日”去查词典。事实上,假如不是有意提醒,恐怕根本就不会有人想到词典里居然会收有“星期日”这样一个词条。换句话说,编者即使不收,也绝不会有人指责“不全”;相反,一部英语词典,若是少了Sunday,便堪称重大疏漏。当然,讲英语的人也是在“识字”之前便早已知道了Sunday,但不同的是,他们还要学习如何书写,更难免因遗忘而核查。反之,中国人只要记得“星”、“期”、“日”这几个汉字,就绝不存在“星期日”如何写的问题。词典不收的词,当然也就意味着记忆中无需保留。讲英语的人,是否个个提笔能写Sunday, January,我们没有真凭实据,不敢妄下结论;但至少中国人,即使已经拿到四、六级证书,真要抓来测试一番的话,恐怕就有不少要当场“出丑”——写不全这十九个普普通通的日用词汇。

我们且来设计一段对话。

甲:“就这么点活,星期一该干完了吧?”
乙:“星期一?星期八也干不完!”

日历上当然没有“星期八”这样的日子,而乙之所以这么说,无非是为了发泄或者抱怨,以表示事情之不可能。对方自然立刻也能明白他的意思——至于相不相信那是另一回事。那么试问:这“星期八”算不算一个“词”呢?有人可能要争辩说,既然现实中找不到对应物,那当然就不能算。但神话故事中的人物都没有现实对应物,我们又该如何解释凤凰麒麟、雷公电母呢?照此而论,岂不是连上帝魔鬼、天堂地狱都要废除吗?假设父母给小孩讲故事,编一个童话王国,里面的荒唐国王偏要以八天为一周,把星期八定为星期日,谁又能说不行呢?倘若承认了“星期八”,岂不也可以有“星期九”、“星期十”、“星期十一”乃至“星期一万三千五百七十九”?这样的“词”,可以说要多少有多少,永无止境。

再如,英语有pork(猪肉)、beef(牛肉)、mutton(羊肉)、venison(鹿肉),《现代汉语词典》却一概查不到。如果说,这就证明了英语词汇丰富,那我们则要进一步追问:为什么没有“狗肉、猫肉、虎肉、龙肉、凤凰肉、麒麟肉、金丝猴肉、长臂猿肉”呢?为每一种动物发明一个表示其肉的词,词汇量岂不是又将大大地丰富吗?

汉语词典不收“星期一”、“二月”、“猪肉”、“牛肉”,并不能否认这些“单词”的存在,更不能由此而认为汉语民族没有这样的概念。唯一能够证明的,就是汉语完全用不着像英语那样,把它们当成正儿八经、需要认真学习、刻意记忆的单词。事实上,它们只是借助于“一”、“二”、“星”、“期”、“月”、“肉”等普通汉字,若有若无、隐隐约约地“寄存”在大脑某个不起眼的角落里,召之即来,临时凑合,用毕解散,各归原处。简言之,讲汉语的人是“记字不记词”。这种独一无二的特点赋予了汉语许多方便,限于篇幅,这里就不一一介绍了。

于是,问题便归结为,一种语言的“词汇量”究竟是如何统计出来的?假如完全根据词典而定的话,英语显然就捡了个大便宜,而汉语便颇有些“傻帽”——谁让你不收呢?然而,这样的比较能说公平合理吗?

且来打个比方:年终评优,张三列出十条优点,李四却多达上百。表面上看,“先进”非后者莫属。不料,听他一一报来,竟然是:下馆子必付款,上公园定买票;没病不请假,有屁夹着放;饭前便后勤洗手,左邻右舍不骚扰;迄今未进劳改所,半夜不怕公安局;知书达礼,从不抢老年人的座位,品行端庄,绝不掀女同事的裙子……

英语词汇之所以如此“丰富”,戳穿了,主要就是靠李四这类“先进事迹”给撑起来的。

反过来说,汉语如果也能效仿李四这套“搞笑”,其“词汇量”同样繁若群星,多如牛毛。值得一提的是,毛先生在这方面实际上已经开了先河,树了榜样。

请看其标题:《论汉语的险境和诡谬》。

何谓“诡谬”?查《现代汉语词典》,“诡”字下列有“诡辩”、“诡怪”、“诡计”、“诡谲”、“诡秘”、“诡异”、“诡诈”。而“谬”大约总与“谬论”、“谬误”、“荒谬”等有关。“诡”者,自然难免其“谬”也,但即便逻辑思维中可以作这种推理,语言结构上恐怕也不能如此搭配。这个口子一开,后患可谓无穷。譬如:“工习”——工作学习;“成业”——成家立业;“吃觉”——吃饭睡觉;“拉屁”——拉屎放屁。

这类“强行婚配”在毛先生的大作中真可谓三步一岗,五步一哨,比当年日本鬼子的封锁线还要密集。例如:“传通”、“断逗”、“欠然”、“亮敝自然”、“语义脱臼”,个个让人耳目一新,大长见识。最令人拍案叫绝叹为观止的恐怕要属“钝挫”与“挫钝”。真可谓:翻来覆去都是戏,前移后挪皆成词。

说到这里,突然想到一个类似的“洋戏法”。刘易斯·卡罗尔在《爱丽丝镜中游记》中,编了一首名为《废话》的诗:

“Twas brillig, and the slithy toves
Did gyre and gimble in the wabe;
All mimsy were the borogoves,
And the mome raths outgrabe.”

时值昏烤,厮头灵奸
且旋且锥,远坪之间。
全部迷塞,悲弱不堪。
没路无途,吼啸阿嚏。
(石心莹译)

其中许多词,均为作者斩首去尾,各取一半而成。例如,“slithy”(灵奸)就是“lithe” (灵巧)与“slimy”(奸诈)二词的“优化组合”。至于“吼啸阿嚏”,则是“介于吼叫与呼啸之间的声音,其中夹杂着喷嚏声。”这就难怪爱丽丝读得稀里糊涂,一头雾水;即使是给她作解释的矮胖子Humpty Dumpty自己很多也说不清,道不明。

由于该书的流行,惹得不少人也心动手痒,依法泡制,例如,由smoke(烟)和fog(雾)组成smog,由motor与hotel组成motel(汽车旅馆),由breakfast与lunch合成brunch——将早饭与中饭合为一餐的饭。近来还出现了一个kidult,由kid(小孩)与adult(成人)合并而成,专指年纪18-25岁,不能自立,依赖父母,老也长不大的年轻人。不过,这种把戏毕竟没有成为构词的“正道”,玩玩也就不时兴了,真正流传下来的并不多。

毛先生是否师从“老刘”,继承遗志,我们不得而知。不过,正所谓:西方不亮东方亮,洋风不起土风起。毛先生若屈尊去当小学教师,我堂堂华夏民族必将辈出“造词大师”;毛先生若降贵去编词典,汉语必将一洗“词汇量非常小”之耻辱。像“诡谬”、“断逗”、“欠然”、“钝挫”、“挫纯”等等,肯定一个不漏,统统收入。倘若赏脸再加上本人独创的“星期N”、“某某肉”,乃至“工习”、“成业”、“吃觉”、“拉屁”,不要说区区“十六万”,恐怕就是一百六十万、一千六百万都打不住。这么说吧,即使按最保守的估计,以五万六千个汉字为原料,采用毛氏构词法,编一部收词一亿六千万的《汉语大词典》,也不过是小菜一碟,唾手可得。

聪明的读者想必早已从这一番“正话反说”中看出问题的症结所在了。毛先生以及其他“拼音文字至上论者”之所以会得出“汉语词汇贫乏”这种谬论,关键就在于他们忽略了,或者说根本就不明白一个极其简单的基本事实,即汉语中根本就没有“词汇量”这样的说法,因此也就根本不可能统计出“词汇量”的大小。汉语民族衡量文化水平,用的是“字数”,而不是“词数”。一个人只要掌握了一定数量的汉字,就可以像玩积木一样,随心所欲地组合出无数个词来,尤其是碰上毛先生这样的组词大师,其“词汇量”简直近乎于天文数字。

汉语的“字”与英语的“词”,其区别简直就有如白菜萝卜,鲤鱼麻雀,单位迥异,二者之间根本就不具备可比性。不过,如果换个角度,比如,选择某个特定的“文化程度”如小学或中学为基准,分别审查双方各自所能达到的水平,以及这一水平所能发挥的作用,则也不妨用来充当一种比较标准。

毛先生实际上也谈到了这个问题:“据说初习汉字的人,只要掌握了最常用的二千个左右的汉字,就可读懂百分之九十五的流行于社会的一般文本,而且丝毫不会感到有任何阅读方面的困难。这在西方语言的文字里是无论如何也办不到的。相比之下,在西语世界(比如说欧美),即使你拥有五千个左右的词汇量,你也难以应付通行于社会的一般文本。此词汇量用于日常的口语交谈还可以,但要用于学理探讨和文本阐释显然万万不能。”

按照现行的教学要求,小学识字量为2400,九年制义务教育的识字量为3800。这也就是说,中国人小学还没毕业,就已经“丝毫不会感到有任何阅读方面的困难了”。那么反过来,英语民族要想“读懂百分之九十的流行于社会的一般文本”,究竟需要多大的词汇量,这样的词汇量究竟又要上到“几年级”才能掌握呢?

我们这里不打算列举具体数据,且看一个“间接”的例子:纽约市立大学唐德刚教授说,该校十万学生,其中有一半看不懂《纽约时报》。

《纽约时报》肯定不是专业刊物,面向的是一般读者,其难度最多大概也就相当于我们的《光明日报》、《羊城晚报》、《南方周末》吧。一个讲汉语的人,如果上了大学,竟然还看不懂《南方周末》,简直可以誉为“世界第九大奇迹”。然而,这样的“环球奇观”,在英语国家却实属正常,见怪不怪。为了让读者有一个切身体会,我们不妨从比《纽约时报》简单得多的《二十一世纪报》中选择一个句子:

Smoking and drinking alcohol are the main causes of mouth and throat cancer. That includes tumours of the oral cavity, throat, tongue, gums, and larynx.

第一句很简单——烟酒致癌,第二句则是一一举例。然而,您能讲得出具体名称吗?诚然,该文是登载于“科学版”,但充其量也不过是“科普”,为何“非医界”就读不懂或者至少读不爽,非得求助于词典呢?中国人读报,有查字典的吗?退一步讲,即使“科学版”仍嫌高深,“娱乐版”总该是雅俗共赏、老少咸宜吧?那么试问,谈论歌唱家的文章,您敢读吗?先别夸口,比如,“女高音”、“男低音”,您知道相应的英语单词吗?最后,请您猜猜,将《纽约时报》通读一遍,需要多少单词?告诉您,千万别吓着——五万!顺便再说一句,莎士比亚的词汇量据说为三万。

辜正坤教授指出:“词法、语法的严谨形式虽然有助于西方人陶冶他们在思维方式上的严谨性,但是由于要掌握这种语言的繁琐形式必须花很大的功夫,因此从学习成本方面来看待这个问题的时候,会发现它的这一优点又在一定程度上被抵消了。我们以幼儿学习一门语文所需要花费的经历和时间来看这个问题。中国儿童记住2000—3000个汉字,就可以阅读《人民日报》而不会有多少生词。印欧语系的儿童即使记住了8000左右的单词,在阅读《华盛顿邮报》时仍然会有很多生词。举例来说,当人民日报出现‘水仙花’这个单词时,中国儿童尽管也许不知道这究竟是什么花,但是他不需查字典就知道这是一种花。‘水仙’两个字也是常用字,可以帮助儿童判断这种花至少不是菊花、桃花、牡丹花及许多儿童已经知道的种种花卉。也就是说,他即使不知道究竟是什么具体的花,他也已经知道1)这是一种花;2)这不是别的所有那些他已经知道的花。知道什么是一种知识,知道什么东西不是什么,也是一种知识。因此,如果将这个词中所含的信息量规定为3,则中国儿童已经不教而知其2!可是,对于一个印欧语系的儿童来说,恐怕就不是这样。如果将这个词所含的信息量照样规定为3,则西方儿童所能获得的有效信息量只能是0!以英语为例,水仙花叫narcissus,如果该儿童不知道这个单词,他就无法根据这个词本身的组成部分推知它是什么意思。因为这个词的组成成分没有太多的常用的可以令人一望而知是什么东西的那种成分。narc有‘缉毒探员’的意思,narco有‘麻醉、昏睡’的意思。但它们一方面不属于最常用的词类,另一方面也不能暗示这个词本身是一种花。而且儿童还未必能把narc单独分离成一个词。因此,印欧语系儿童面临的是一个完全的生词,不知道就不知道,必须作为一个完全的生词来记住。当中国儿童看到‘水仙花’这个生词的地方的时候,他可能略一停顿,根据自己的理解便继续读下去,而印欧语系的儿童却会因为这个生词而完全给卡住了,因为他如果压根儿就不知道这个生词是什么意思,他就难于决定究竟它是一个具有关键意思的词呢还是可以跳过不管的词。在这种情况下,印欧语系儿童对于这个生词的信息吸收量几乎等于0.2大于0。因此使用汉语的中国儿童比使用英语的西方儿童的平均吸收阅读信息要大2倍!当然,应该考虑到,英语中也有许多孪生词的前缀、后缀等词法形式可帮助印欧语系儿童分析所阅读的词类大概是属于哪一类的词类及词义。但是,要知道这种作用是有限的,因为事先记住这种抽象的没有任何图画性特点的成百上千的前缀、后缀本身对人的记忆来就是一个挑战。让儿童先去记住这些东西是不现实的,很可能让他们厌烦这种语言学习。所以,就总体而言,记住2000~3000个汉字的儿童可以比较容易地阅读《人民日报》,而记住3000个英语单词的印欧系儿童阅读同等程度的英语版《人民日报》时,却会困难重重。这里边有一个非常重要的东西,这就是:汉字的每一个字本身就具有意义自我阐释的作用。因为它的根底来源于图画文字。图画就是外部世界事物的缩影。一个字就是表达的含义从它的书写本身就已经显示出来了。这等于说每个汉字就是自身的含义小词典。如果有两个、三个、四个字组成的汉字词组,则各个单字便等于可以相互阐释,互证互释互彰。上面的‘水仙花’三字词就是一个例证。由汉字组成的文章是一个词义互释文本。这就是为什么掌握汉字的儿童只需要相对来说较少的词汇量就能阅读文章的关键原因。”(着重号为作者本人所加)

毛先生根据英汉“词汇”的对比,得出了一个重大发现,即:汉语“小词量——大文本”。这一点我们从上面的论述以及个人的亲身经验中早已深切体会到了。但万分遗憾的是,他却没有顺藤摸瓜顺水推舟顺理成章地得出英语“大词量——小文本”的结论,以至于让本人白白地捡了一个便宜。以毛先生的渊博学识及思维能力,不会连这样的小问题都联想不到吧。原因看来只有一个,即这样的结论实在是有损英语的“光辉形象”。

不幸的是,毛先生有意回避,却拦不住别人无心推测,甚至“别有用心”的质疑:既然小词量便足以应付大文本,要那么大的词汇量干什么——莫非吃饱了撑的?

我们不妨来打几个比方。一道题目张三只要十分钟便能解出,李四却要花五个小时,二者的智力显然就不可同日而语。一项工程明明一百万便能完成,偏要投入一个亿,其中肯定就有不可见人的勾当。一座山头部队甲仅需一个连就能拿下,部队乙却要动用一个团甚至一个师,前者便堪称精兵强将,后者不过一群乌合之众。

然而,日常生活中无数这类以少胜多,以小制大的事例,一旦拿到汉英语比较上来却统统都行不通了,所有的思路都要反过来推理,所有的结论都要反过来解释。例如,毛先生又发宏论了:“关于汉语的小词汇量能够对付大文本的这一现象,我们还可作进一步的分析。有人认为这是由于汉字的单位信息含量大,所以,用少量的词就可表达很多内容。这似乎为‘小词量——大文本’的关系提供了某种解释。但我们认为事实并非如此,之所以有这一现象发生,是由于:一、也许汉字对事物的分理层次不够缜密,不够精细,即对事物的诸种存在,及诸种可能的存在,汉语中没有产生出相应的词来与之对应。也就是说,汉语在表达事物之丰富存在时,其语汇总是显得欠然和阙如;二、也许是文本本身的内容就非常简单和有限,即汉人愿意去表达的东西仅仅是属于大千世界的一个有限局域,其丰富性和可能性打了折扣。汉人的心智其兴趣不在世界的全体,而是某一个部分。正是基于这两点,所以才会有‘小词量——大文本’关系的产生。”

大话颠来倒去,最后还是归结到“语汇欠然”的老话题上来。我们也就不再纠缠。至于说到“汉人心智兴趣”,则明显涉及另一个问题,即语言词语如何反映世界,需要专门的篇幅讨论,这里也就不予深究。不过,若将这段话与毛先生前面的说法作个比较,却不难看出他的自相矛盾。一方面,他说:“与英语相比,汉语的词汇量是非常小的”;另一方面,他又说汉语是“小词量——大文本”。试问,按照正常规律进行逻辑思维的人,究竟应该从中得出怎样的结论呢?前者无疑是“褒英贬汉”,但后者难道不是恰恰相反,“褒汉贬英”吗?毛先生当然是坚定的“拼音文字至上论者”,但万一有人偏偏要断章取义,以其矛攻其盾呢?

总而言之,毛先生拿“汉字”与“英词”进行对比,是犯了一个连小学生都不该犯的极其低劣的错误,自然也就只能得出“诡谬”的结论,从而把自己逼入一个相互矛盾,无法圆说的困境。当然,他到底真的是缺乏普通常识,还是为了“褒英贬汉”的特定目的而故意“搅混水”,那就只能是“天知地知”了。