汉字电脑输入法形码设计三原理

两岸中文电脑输入研讨会论文

  摘 要
  本文对世界上30多年来各类电脑汉字输入法中的“形码”,进行了历史的分析,以多学科的知识为背景,综述了各类形码的技术特点,以及最优化形码的发展过程。作者根据自己14年来研究和推广形码的理论和实践,重点介绍了作为“五笔字型”的理论支柱、使“五笔字型”得以成功的“形码设计三原理”。作者期望本文对于用户和理论界认识及评价各类“形码”有所帮助。

  一、形码的优势

  1.汉字与文化工具的第四次革命
  文字是记录语言的符号系统。与世界各国的文字相比,汉字至少在两个方面值得称道,这就是历史最悠久,使用的人口最多。从西安半坡遗址算起,汉字已有6300多年的历史,从殷商甲骨文算起,汉字已有3000多年的历史。在人类文明中出现过的古埃及的圣书字,以及由苏美尔人创造、曾在两河流域广为使用过的楔形文字,和汉字一样,也都是“画成其物”的象形文字,它们后来经过了表形、表义而演变成了现在西方的表音文字,成了真正的“记录语言的符号系统”。圣书字和楔形文字早已死亡了。然而,汉字却始终没有走出象形、表形、形音结合的轨道,活了几千岁,居然没有死亡,作为一种图形文字,成了世界上生命力最旺盛的、由全世界将近四分之一人口使用的当今方块汉字。
  人类的文明史上,文化工具有过四次伟大的革命,这就是2000年前的造纸术、1000多年前的印刷术、100年前的字母打字机,以及电脑文字处理技术。对于前两次革命,汉字与西方文字同样受益匪浅,使文字方便廉价地传播,曾使东西方文化进入了新的历史时期。可是,曾使西方社会进入新的文明的第三项发明,就与汉字无缘了。及至电脑出现,速度和效率成为信息处理过程中的最高追求时,字母打字机很方便地使西方文化平滑入电脑时代。汉字呢?本来就隔掉了一个打字机时代,却只好在第四次革命到来的时候,背着字数多、笔画多的沉重包袱,裹足不前,望洋兴叹。
  无怪乎有人说“中国近百年的落后应归罪于汉字”。
  无怪乎在电脑出现之后惊呼,“汉字必须废除”。

  2.电脑汉字输入法中“形码”的优势   世界各种文字,大体都具备形、音、义三个属性。即以一定的形,寄寓一定的义,读一定的音。在汉字的三个属性之中,与西文相比,最重要的属性不是“音”和“义”而是“形”,“形”可以载有汉字的全部信息,包括“音”和“义”,而“音”和“义”都不能载有汉字确定的“形”。
  例如:赵元任教授曾写了一篇小故事:“施氏食狮史”:
  石室诗士施氏,嗜食狮,誓食十狮。氏时时适市视狮。十时,氏适市,主适十狮适市。是时,氏视是十狮,恃十石矢势,使是十狮逝世。氏拾是十狮尸适石室,石室湿,使侍试试石室,石室拭,氏始试食是十狮尸。食时,始识是十狮尸实十石狮尸,是时,氏始识是实事实。试释是事。
  再如:在《新华字典》中,读SHI音的字有72个,在《汉语词典》中,读YI音的字有164个。常可见到的读SHI SHI音的词就有如下的24条:
  失实、失时、诗史、失事、失势、施事、实施、时时、
  事事、时事、时势、时世、时式、史诗、史实、试试、
  誓师、事实、适时、事势、逝世、世事、视事、实时
  显然,这些清一色SHI音的字和词,单靠“音”是无法区分的,靠“义”也难以说得清。只有靠它们的“形”,才能将它们最终而有效地区分开来。这就是汉字作为世界上最古老、最高寿的图形文字的“形”的巨大优势。
  尽管人们可以依照汉字的音、形、义三种属性为汉字输入电脑设计出许多种方案,但可以肯定地说,只有依“形”设计的方案,才能最有效地解决汉字输入电脑的问题。这是由于:
  ① 汉字的“形”具有“音”和“义”都无法比拟的唯一性。
  ② 汉字的“形”千姿百态,蕴含有丰富的图形信息可供采用。
  ③ 汉字的“形”不受不同口音、不同国家的影响,中国、日本、南朝鲜可以用同一个“形”来代表不同的“义”,读不同的“音”。
  依“形”输入的优点是不言而喻的。
  然而,依形编码难度也同样是不言而喻的。
  这正是何以先有音码,后有形码的原因。

  二、“形码”的研究史略和分类

  “形码”依其设计思想可分为以下三大类:
  1.整字输入法
  这类输入法将汉字视为一个个整体,人工地或自动地将汉字赋予号码。
  ① 最早为汉字编制代码的,应首推1880年(清光绪六年)由丹麦人为清廷创办中文电报时所编制的“四码”。这种沿用至今的“电报四码”,是将10000个汉字人为地编制流水号,每4位数字代表一个汉字,可谓整字输入法之鼻祖。
  ② 1926年日本人发明了“万能式中文打字键盘”,一字一键,在70×35的字盘上共收入2000多个汉字和符号。1971年日本人森健一等又将这一大字盘按键输入,改为查表的“笔触式”输入,从而使输入设备体积减小,效率提高。
  ③ 主键——辅键方式
  作为对大键盘的改进,日本的富士通,美国的PHOTON726照排机,以及美籍华人叶晨辉等,于70年代初先后推出了“主键—辅键键盘”。这种键盘共有21×8=168个主键,每个主键上有5×6=30个汉字。左手控制一个有5×6=30个键的小键盘,右手控制主键,先按主键,再按辅键,即可选中并输入主键上与辅键对应的那个汉字。
  这种键盘,由于设备小、效率有所提高,一度成为70年代后期和80年代初期在各种汉字照相排版系统中广为使用的输入设备。 由以上三种方式可见,所谓“整字输入法”的特点,是对汉字本身不做任何“加工”而直接编制代码或直接见字按键。优点是唯一性强,缺点是难记(电报码)、设备庞大(大键盘)、效率低。使用大键盘可以达到的输入速度只及西文的十分之一到五分之一。
  2.笔画输入法
  鉴于整字输入法的诸多缺点,为了可以采用较小的输入设备,许多研究者将汉字理解为笔画的结构体,输入时,把汉字肢解为单个的笔画。一个笔画用一个键,便可依笔画类别的多少而采用小键盘输入汉字。
  这种方法的优点显而易见:设备小。缺点也很可观:对于平均笔画数为9.8画的汉字(简化字)来说,每个汉字平均要击十次键才能输入,有的汉字,如“爨”,就有30画,要打30键才能输入,是不胜其繁的。况且,许多汉字的笔画顺序难以确定,更使输入繁上加难。
  3.拼形组字法
  大体上说,汉字是以其基本结构为单位,像搭积木那样拼形组合起来的,因此,人们想到用键盘来实现“拼形组字”,实在是一种回归本源的设计。
  拼形组字的优点也同样显而易见,这就是:
  ① 把汉字视为积木式结构,符合汉字的造字法和传统。
  ② 把汉字理解为有限个字根(比如200个,300个,500个)的积木式组合,至少可以不用大键盘便可输入汉字。
  ③ 经过适当的搭配,有可能将若干个字根安置在同一个键位上,从而减少键位数,使输入设备小型化,甚至可望直接采用英文键盘。
  ④ 可以方便地设计字根数、键位数及码长(每字击键次数),使这三者达到最佳的、至少是合理的匹配。
  ⑤ 由于采用小型键盘,可望按照标准指法实现“盲打”,大幅度地提高输入效率。使汉字输入的速度赶上或超过西文输入的速度。

  三、初级拼形组字的“形码”

  实际上,我国东汉文字学家许慎,早在一千九百年前就为当今攻克汉字输入电脑这一难关指明了突破口。他综观汉字全局、研究分析了汉字的内部结构规律,认为“独体为文,合体为字”。从而第一次提出了“文”和“字”的概念,并划清了“文”和“字”的界限。许慎认为,成千上万的汉字,大都是由仅仅500多个称之为“文”的“独体字”拼合而成的。“独体”叫做“文”,由“文”拼合而成者谓之“字”。如果说这一见解是当今汉字输入电脑的难题得以最终解决的金钥匙或指路明灯,是丝毫也不为过的。
  汉字输入电脑,其所以难,主要是因为汉字“多”。按照“合体为字”的理解,汉字再多也不可怕,只要把它们一律视为那几百个独体字“文”的组合体就行了。这恰如物质世界的分子种类虽然不可胜数,但组成分子的原子,却只有100多种一样。
  几百个独体字,即许慎说的“文”,是构成汉字的根本所在,我们不妨把它们叫做“字根”。
  既然几百个字根可以构成所有的汉字,那么,只要把这几百个字根分别安置在一个中等大小的键盘上,不就可以像搭积木那样,拼形组合出全部汉字了吗?
  这就是“拼形组字”的基本设计思想。
  所谓“初级拼形组字”,就是直接将字根安置在相应的键位上的一类设计。其典型代表是香港中文大学的乐秀章教授70年代末发明的一种256键输入方案。这个方案选取了256种字根,用256个键,依书写顺序将汉字的全部字根拆分输入。对于复杂的字,虽然击键次数较多,但越复杂的字越不容易重码。这个方案使汉字输入从“笔画输入”时期,迈入了字根输入时期,当时被用在英国蒙纳汉字照排机上,在世界上有相当的影响。应该说,这在当时是一个很有创造性、很有进步意义的发明。
  另一个典型是台湾胡立人先生提出、后由美国王安公司购买使用的“三角编号法”。
  这个方法选取300个字根,合并为96个部首,用一个10×10=100的中型键盘,每个部首一个键。为了减少按键次数,该方法规定,只按“Z”字形输入汉字的三个角,三角编码由此得名。
  以上两种典型其所以叫做“初级拼形组字”,是因为:
  ① 它们用了一个中键盘,这种键盘任何人一辈子也不能盲打操作。
  ② 它们只是在键盘上把字拼出来完事,根本没有、也不可能把手指击键的人机工程学要求考虑进去,只能单个手指击键。
  ③ 键盘上的字根虽也有一些同类合并,或依形态排列,但绝大多数字根的排列缺乏规律性,键位代号与字根之间没有任何内在的联系,因此,不便于记忆和学习。
  ④ 这两个方案只采用了汉字的字根信息,而把汉字的图型(字型)信息弃之不用(如“只”和“叭”重码),加上字根选取缺乏科学的论证,所以重码率较高。如三角编码中,在使用100个键的情况下,在10000个汉字中,还有558个重码字。
  ⑤ 由于这类方案的字根选取不是建立在字根频度统计的基础之上,所以,相当一部分组字很少、又很不常用的笔画结构,如“吕”、“舍”、“尹”、“井”等,也都选了进来,占据一个键位,致使编码空间的利用率很低,编码冗余度过高。
  由此,我们一方面看到“初级拼形组字”为汉字输入打开了新局面,使形码研究进入了新的历史时期,另一方面,也注意到,这类方法只能是低效率的“初级阶段”,距离真正实用化的科学方案,还有相当大的差距。

  四、高级拼形组字的“形码”

  “初级拼形组字”其所以不能最终解决问题,主要是因为设计者当时只考虑文字学这个单一因素,人们当时还没有认识到:汉字输入法的设计是一个涉及多种学科的系统工程。
  实际上,“汉字输入电脑”作为一个科研题目,由它所直接相关的对象就可以知道,它是一个涉及到语言文字学、信息论、数理统计学、人机工程学、工程心理学以及计算机科学的边缘性课题。
  由此可知,要想真正突破汉字输入电脑的“瓶颈”,必须把输入法中的每一个设计,如字根选取、字根归并、键位排列、码长设计、编码规则的确定等,都纳入真正科学的轨道上来。
  舍此,任何汉字编码的设计,特别是拼形组字输入的设计,无一例外地只能是瞎子摸象,只有树木没有森林。
  那么,高级拼形组字“形码”的设计,应考虑些什么因素呢?
  1.字根优选   字根是用以拼形组字的基本原料,选什么字根,什么字根不选,应当依据字根的组字频度和实用频度。
  字根“组字频度”,是指某个字根参与构字的能力,也即某个字根在一定的字种集合中出现过多少次。字根的“实用频度”是指在日常文章中,字根实际出现和使用的频度。现将从常用的11000个汉字中统计出的字根“组字频度”以及从2000万汉字的资料中统计出的字根“实用频度”列出:
字根组字频度%实用频度%
6.7307.3
2.6521.68
2.0672.22
2.0172.14
1.8872.28
1.4931.35
0.9510.184
0.7252.1
0.4780.352
0.3281.83
  由上表可知,一个组字能力很强的字根,如“虫”,由它组成的汉字,频度可高达0.95%,但是,这些字的实用频度却很低,只有0.18%;相反,一些组字频度很低的字根,如“白”,由于它参与组成了特别常用的字“的”,立即变得身价百倍,成为实用频度高达1.8%的重要字根。 因此,一个拼形编码方案字根的选取,必须同时考虑到以上两种频度:两种频度很高的字根当然要选;只有一种频度高的字根,则要酌情而定;两种频度都很低的字根,一般都不选。只有在这样科学、量化的基础上选取的字根,才能构成一个优秀的拼形组字方案。
  至于字根的数量,当然也非常重要。在键数一定时,选得太多,难于容纳;选得太少,造成大量的字(或笔画结构)都必须拆分,都不算得当。
  一般来说,一个使用26键的拼形方案,以选取150~250个字根为宜。
  2.键数的确定
  没有比选用标准的英文键盘作汉字输入设备更科学、更理想的了。倒不仅仅是因为它是计算机的原装设备,主要的还是因为这种键盘只有三排键、26个字母,手指放在中间一排“导键”上,上下各只有一排,用与西文完全相同的指法,十分便于形成条件反射,操作者可以不看键盘,实现盲打,把输入效率提高到可与西文相比的程度。
  一切输入中文的大键盘、中键盘、特种键盘,都在26键拼形方案宣告成功以后,成了历史的陈迹,这就已证明了,使用标准键盘是不可抗拒的一个大趋势。
  3.码长的确定
  那种把汉字全部肢解为单个笔画、逐个按键的输入方式,对于汉字来说,无疑是“码”太长了。而那种在大键盘上按一下就可输入一个字的方式,无疑地是“码”太短了。长了不行,短了也不行,期间必有一个最佳值。对于26键的拼形方案,这个最佳值应当是4。
  26键打4下,总的编码空间应当是26 =45.7万,按1万汉字计算,编码空间占有率为:1/45.7=21%。对于随机分布的汉字编码而言,这个空间占存率2.1%,就是最低重码率。在1万个汉字中,这重码比例是允许的,也是非常合理的。
  如果把码长设计为5,那么,总的编码空间为26 =1188万,按1万字计算,编码空间占有率为1/1188=0.08%,这个编码空间占有率就太低了,自然会造成很大的信道浪费,不但设备造价趋高,而且,由于没有必要地多击键,使输入效率难于提高。
  当然,一旦将汉字集扩大到2万字以上时,码长设计为5就是很必要的了。因为按照同样的编码规则,字集扩大为2倍时,重码就要增加到4倍,这样2万字时的重码,至少会超过10%,这时方案就难以成为一个高效率的方案了。
  4.字根归并
  将选出来的150~250个字根,搭配分组,使得按照它们的组合对全部汉字编码时,造成的重码最少,就是说有很好的“相容性”,再按照这种分组搭配,把26组字根分别安置在26个键位之上。
  5.键位排列
  将经过搭配分组的26组字根,按一定的要求,如按照字根的笔画特征、图形特征或读音特征等,对应安置在26个字母键上,使这个字根键盘的键位排列有很好的“规律性”。
  6.字码与词码
  1982年作者研究发现,将2字词或多字词中各个汉字的最前边的1~2个字根“提取”出来,构成一个“编码”时,这个“编码”在绝大多数情况下,并不与已有的单字码“顶牛”,即不会发生重码。也就是说,拿词汇中的单字的前1~2个字根,常常是组不成“字”的。比如:各取“经济”两个字的前2个字根,即“纟又 氵文 ”这4个字根,便构不成一个汉字。因为直觉告诉我们,很难找到一个汉字,它的“第三个部分”是“氵”。这就说明:按照这样的规则设计的“词汇码”,是可以与单字码相容的,谓之“字词兼容”。这种在1983年曾一度被相当一些知名学者视之为“画地为牢”的设计,现在已被广泛地应用于各种形码设计之中。
  “字词兼容”的结果,使得在重码率不受影响的情况下,编码空间的利用率得以提高1~2倍。
  7.编码规则
  对汉字拆分来说,取码顺序是个首要的问题。
  许多初级的拼形方案,大都违反人们传统的汉字书写顺序,对汉字进行拆分编码。这样做,虽然是出于无奈——以便取得更好的编码离散性,使重码减少,但可以肯定地说,这种设计是难于被社会公众接受的。因为正确的书写习惯和字根在汉字中的先后位置,是一切稍有中文修养的人们既有的知识和良好的习惯,为了向电脑输入汉字,迫使千百万人改变这种既有习惯,那几乎是不可能的,它必然要遇到传统习惯的强力抵制而失败。
  违背书写习惯,方案设计的难度小一点,容易办到,但社会很难接受。
  遵从书写习惯,社会公众很容易接受,但方案设计的难度大一些。
  然而,对于“高级拼形组字”的形码设计来讲,只能选择后者
  8.简繁兼容
  一个好的、或者高级的拼形组字“形码”设计,除了能够处理简体字之外,还应当把与简体字对应的繁体字包括在内,同时处理,也就是实现“简繁兼容”。由于简体、繁体的区别只在于字形不同,只要字形不同,其“形码”一般也就不同,这正是“形码”的优势所在。倘若是音码,要做到“简繁兼容”,恐怕就不是件容易的事。
  “简繁兼容”如能做到用同一个字根表、同一套编码规则,那是最理想的。
  9.高效与简易并行的“双轨制”
  作为中文电脑用户,一般对一个编码方案最直接的要求不外乎两条:第一是规则简便,规律性强,记忆量小,易学易记;第二是输入速度高、效率高,经过培训能实现盲打。
  同时做到这两条,是用户十分合情合理的要求。只可惜,这二者是既统一、又矛盾的。时至今日,研究和使用人员都有了一个共同的经验,这就是:好学的方法打不快,能够快的方法不好学。”
  汉字的复杂性,以及汉字输入本来与西文键盘之间毫无关系,这就决定了“汉字输入电脑”决非一件易事。一切“简易”的方法,都是从汉字中只提取较少的信息,因而简单,因而重码甚多;重码多,使用时必须挑选,当然也就快不了。一切“高效”的方法,都必然建立在编码唯一性强的基础上。编码唯一性强,必然要从汉字中提取较多的信息,因而规则就比较多,因而就不太易学。所以,“易学的打不快,可以快的不易学”这一结论,是在汉字输入编码设计中,经作者于1984年首先揭示出来的一个客观规律。
  鉴于这种情况,一个能满足于社会各界、各种文化水平的人使用的汉字输入体系,通常就不能是只有一种方法,而必须是既有简单的方法,又有高效的方法,两者构成“双轨制”的一套方法。年龄大的,只求易而不求快的非专职人员,使用简易法;年龄较轻,指法好,要求快的,使用高效法。各类人员各得其用,方能在全社会普及推广。
  一般而论,在同一个体系中既有简易法,又有高效法,并非难事。真正的困难在于,这个“简易法”与这个“高效法”能够同出一辙,互为依存,从前者可以过渡到后者,构成相辅相成的一套方法。就形码而论,目前国内外能够达到此要求者,唯有“五笔画”和“五笔字型”。这也正是“王码”体系得以在国内应用最广的原因之一。

  五、形码设计三原理

  尽管一个“高级拼形组字”的“形码”,在设计中应当考虑的因素,或应当达到的目标很多,但相比之下,其中的“字根归并”与“键位设计”两项,是远比“码长确定”“字根优选”为难的关键。甚至可以说,一个“形码”的优劣、水平和价值,将主要地取决于这二者。
  关于字根归并和键位设计的理论和方法,实际上已构成了形码设计的理论支柱——形码设计三原理。
  1.相容性原理
  将拼形组字的一字根一键的中键盘升级为小键盘的唯一方法,是将几个字根归并到同一个键上。归并时,有些字根乐意与别人合作,而有些字根,则个性极强,跟谁都合不来。所以,“归并”并不是一件容易的事。
  只用25(或26)个键,尽管每个键上有好几个字,但在拼形组字、组词的时候,同一个键上若干字根不经换档或其它附加操作,便可以各自起自己的作用,任何时候都“一致对外”,使整个方案产生的重码最少。也就是说,每个键上的字根要能很好地“相容”,同一键位上若干个字根“相容”的要求和实现方法,叫做相容性原理。
  字根相容是这样来实现的:先将优选出的字根各自分别赋予代码,如:A01,A02,A20,Y01,Y15等,再按照编码规则对字集中的全部汉字编码,形成一个“初级的拼形组字”的“形码”,然后,再用人为干预的办法,按照特定的要求(如字根的笔画特征、读音特征以及指法要求等)将其中的某一部分字根的代码改变成欲与之合并的另一部分字根的代码。之后,用电脑加以排序,计算出重码。
  整个过程要用电脑加人工干预的办法,经千百次实验,才能逐步逼近实现。
  例如:“五笔字型”方案中,F键上的字根计有“土、士、二、干、十寸、雨”等8个之多,但是,检验证明,纯粹因为它们共处一键,享用同一代码,在6763个汉字中造成的重码却只有2对,这就是,它们具有较好的“相容性”。
  2.规律性原理
  在字根相容的前提下,一个键位上的,以及各个键位之间的字根,要符合一定的规律,这是更难做到的“共容一键”的设计。因为,在字根“相容”的情况下,杂乱无章的排列显然不如有规律可循的排列更便于学习使用。
  “规律性”是设计者事先提出的一种要求,比如使字根遵从一个什么样的规律,必须事先给出,然后,再在实现“相容性”的过程中,在同等“相容”的若干种组合中,寻求最具规律性的设计。
  一般来说,拼形组字键盘的“规律性”有三层含义。
  ① 就某一个键来说,其上边“共容”的字根,要有某种共同的特征,例如,使首笔相同,并力争使次笔也相同。如上述“五笔字型”的F键上,“土士十寸雨”,等都是首二笔笔画相同的字根,“二干”则是首笔相同的字根。这样,使同一个键位上的字根有规律可寻。
  ② 就整个键盘来说,键位之间最好也有规律性。例如:在“五笔字型”中,GFDSA这五个键上的字根,其首笔都是横(一),YUIOP这五个键上的字根,其首笔都是捺(丶)。如此,只须根据字根的首笔特征,便可大体确定字根在键盘上的位置。
  ③ 字根的代码、键位的编号以及手指的序号最好能够保持一致。如在“五笔字型”中,字根“大”的编码为“13”,它处在第1区第3个键位上,它用左手(第1区)的第3个手指(中指)来按键。
  以上三种规律性,使得记忆字根、寻找键位变得非常容易。
  然而,懂行的人们都知道,要在保证“相容性”的前提下,实现这样的“规律性”,那是无疑一个难上加难的目标。
  实现“规律性”的方法,也是在人工干预的情况下,用电脑不断地修改数据,逐步逼近,经过大量的运算,以求达到最佳值。
  3.谐调性原理
  “谐调性”,是在“相容性”、“规律性”之基础上必须达到的一个更高、更新的境界。它是指仅仅符合“相容性”、“规律性”的字根键盘,未必打起来顺手,即未必符合人机工程学原理。作者多年来反复研究测试了人手击键的“谐调系数”,包括一次谐调系数和二次谐调系数,在字根键位设计时,使字根键位的排列尽量获得一个最佳的组合-处理汉字时,平均“谐调系数”最大(即打起来顺手)。
  根据工程心理学的试验数据,同一个手单个手指的敲击运动间隔,平均为0.09秒(同指连击)同一个手的不同手指敲击运动间隔为0.03秒(同手轮击),不同手的手指之间敲击运动的间隔为0.02秒(左右轮击)。实验测出,人的各个手指连续敲击的频率如下表所示(每分钟次数):
手指左手右手
食指400420
中指360380
四指330360
小指280300
  不仅各手指敲击的频率不同,并且敲击力及耐疲劳的程度更是不同。小指最弱,最易疲劳,而食指最灵活、最有力。因此,在设计汉字输入键盘时,必须事先合理地分配好各个手指的负担,使之“能者多劳”,才能提高效率。
  这里,我们以标准键盘中排键为例,用国内748工程提供的《汉字综合频度表》提供的频度数据,将汉语拼音及“五笔字型”的输入码加权,做出了两条击键概率曲线。从曲线上不难看出,“五笔字型”的曲线中间高、两端低,比较符合手指的生理功能特点。面汉语拼音的曲线,则根本与人手指的生理功能特点毫不相关。 “谐调性”是方案实现高效率的关键。
  毫无疑问,一个高水平的“形码”方案,必须同时具备以上相容、规律、谐调这三个特性。否则,便绝乎不能成为一个真正经得起实践检验的科学设计。

  六、“维”数、比赛与指法

  1.不可逆转的总趋势
  汉字电脑输入法的“形码”研究和发展,已经走过了30年的历程。其间经历了由简到繁、由单一学科到多学科的发展过程。最后,终于找到了“形码”设计的科学方法,这是很多前人共同探讨,在不断积累中又不断创新的结果。汉字输入法的研究尽管仍然是百花齐放、百家争鸣,但总的趋势已成定局,且不可逆转了。这就是:
  ① 以“形码”为主来解决汉字输入问题,辅助以音码。
  ② 采用标准的26键小键盘。
  ③ 高效型方案与简易型方案双轨并行。
  ④ 在“相容性”、“规律性”、“谐调性”共同的约束下才能得到最佳设计,否则只能是瞎子摸象。
  ⑤ 采用电脑辅助设计。
  ⑥ 真正科学的方案设计,一定是涉及多学科的一个系统工程。
  ⑦ 通过大规模应用的实践加以检验并逐步优化。
  2.不考虑“三原理”的形码不会有生命力
  诚然,继1983年“五笔字型”问世以后,陆续又有许多小键盘形码方案发表,如目前已很少有人再使用的大众码、层次四角码、前三末一码、表形码等。尽管这些方案当时在宣传上下了不少功夫,但宣传并不能代替科学。只有真正科学的成果才会有真正的生命力。用户对此是最有发言权的。这些曾经“很红火”的方案为什么像过眼烟云忽忽飘去而趋于消亡,究其原因,最根本的在于学术水平本身。比如,以上的四个形码,除了不得不考虑字根相容以便降低重码率之外,没有一个方案实现字根排列具有“规律崐性”的,至于“谐调性”,四个方案更是压根儿就不曾考虑。自然,作为“形码”的三个理论支柱,居然缺了两个,又如何能“站”得住脚呢?
  一般来说,靠拼拼凑凑、瞎子摸象,也是可以弄出一个“形码”来的,但如果不让这个“形码”站在多学科理论的平台之上,它顶多也只能是昙花一现。
  3.关于形码设计中的“维”
  至于说有人拿“一维”、“二维”的数学概念来硬“套”某个方案,“套”上了就好,“套”不上,就不好,这就纯属只能唬外行的无稽之谈。试问,怎么证明“二维”一定比“一维”好呢?汉字输入法设计中必须特别重点考虑的“指法谐调性”以及“提高效率”、“降低重码”等问题,应该放到哪一“维”里去呢?
  实际上,那种关于“维”的说法,顶多是使得方法易学一点而已。然而,“易学”难道是方案设计的主要目标或唯一目标吗?何况是否真的易学还是个问题!
  如果说形码设计中,一定会有什么“维”的话,那也不是“二维”,而应当是“三维”。因为我们很容易用数学的方法来描述“形码设计的三原理”,并为它建立一个数学模型:
  在这个模型中,形码科学水平的总值是相容性(C)、规律性(G)、谐调性(X)三者达到多目标统一的总体评价,也就是说,总值W是这三者的函数、即W=W(C,G,X)
  就某个已知方案而言,C,G,X分别都是字根在键盘上位置的函数,字根移动,对这三者都会产生影响。为此,我们不妨把C,G,X视为一个三维空间,而W则为这一空间中的一个函数。依据字根移动对三者的影响,运用数理统计和概率论的方法,我们可以分别建立C、G、X的数学模型,进而在这个三维空间中,用积分的方法“积”出一个“体”来。这个“体”,便是该“形码”的科学值。
  对于那些根本不考虑“规律性”和“谐调性”的形码,它们的G和X都趋于0,因此该类“形码”将不可能积分出一个“体”,至多是一个面,甚至一个点,因此,便毫无科学价值可言。
  以上数学模型的细节和计算方法,作者将发表在另外一篇论文中。
  4.汉字输入比赛与速度“突破”的背景
  “形码”总是比“音码”有较高的输入速度。使用一个经过科学设计的“形码”,即使水平不高的操作员,也可以打得快;反过来,一个水平不高的“形码”(如重码太多),水平再高的操作员也不能打得快。一般来说,影响输入速度的因素主要有以下四点:
  1.编码方案本身的科学水平,包括码长、重码率、键位数、键位谐调性、词汇量等。
  2.操作员的技术水平,指击键频率、编码熟练程度、临场经验等。
  3.文稿的生熟难易,指显示速度、屏幕性能、编辑软件的功能以及键盘的手感等。
  4.机器的硬件和软件,指显示速度、屏幕性能、编辑软件的功能以及键盘的手感等。
  汉字输入电脑的速度是有极限的。这个极限就是中国人平均阅读汉字的速度,实验心理学的测试结果是每分钟180~200字。这里有一个很简单的道理:只有看见了才能打出来,没看见就打出来是不可思议的。所以,任何超过阅读速度的“速度”,不是故意吹嘘,就是另有“背景”,肯定是非科学的。例如:某方案甲在鉴定会之前许多天,请一位小姐练打一篇文章,其中把整段整段的文句“造”成只打四下便可出来的“一个词”。当外行的记者们看到汉字一大串一大串地出现在屏幕上时,惊叹不止,呼之为“一大突破”。另一方案乙,极力地宣传每分钟可打300字甚至500字。行家们自然会算:每分钟阅读这么多字已不可能,怎能打出来?这其中至少有一半的字原于“没看见就打出来”的。其实,只要任拿一篇生稿,看着表打几分钟,一切就明白了。
  另外,还有一种情况也可以出现速度的“突破”。那就是:让一位小姐“放开”打,错多少、漏多少、一概不计,最后只合计屏幕上的字数。照这种打法,一般的操作员加上“长词汇”,打个200字、300字是有可能的。然而,一但按正规比赛的严格要求--每错、漏一个,扣掉5个,那最后的成绩就很不可观了。
  总而言之,在各种编码方案争奇斗艳、激烈竞争激烈的情况下,由于不是所有的人都在行,都知道“速度”的背景,这样那样的不实的宣传和报道不时出现,并被一些人相信,是不奇怪的。这只能是一种暂时的现象,科学知识普及了,实践的人多了,大家自然都会明白这样的道理:科学是不能伪装的。
  5.外国人还得训练指法,中国人不练指法能打得快吗?
  不仅是汉字输入,即便是英文输入,能否打得快的重要因素,也是指法水平。日本1980年全国英文输入比赛的最高水平是每分钟450击(即每分钟可打450个字母),而一般人,每分钟能打300击,已算是高水平了。输入汉字使用简码和词汇时,一般平均每个汉字需击键2~2.6次,权且按2.4次计算,每分钟450击者可输入汉字187个字,每分钟 300击者,可输入汉字125个字。由此可见指法水平对输入速度的影响。
  一个优秀的编码方案,方案本身的学习,一般是不要太长时间的,比如“五笔字型”一般初中以上文化程度的人,平均2天即可完全掌握、学会对一切汉字的编码。然而,一个从来没用个手指,按标准指法打过英文键盘的人,一个从小长到20岁,其小手指除了挖耳朵,抹红指甲之外,从来没有干过别种事儿的小姑娘,要学会“不看键盘”进行“盲打”,却至少要用一周的时间,若要形成“条件反射”,即看到什么字不用想,不用找,信手可以很快地打出来,则至少要一个月。君不见美国、英国许多大城市的街上挂着“英文打字学校,学期三个月,收费……”的招牌吗?何况我们是中国人,一般人从小就没接触过键盘?
  常可听到一些人士抱怨“学习汉字输入难”,其中多数人又把这一“难”全盘转赠给“汉字编码法”。这当然是不妥当的。
  原则上讲,学习编码法是一回事,练习指法则是另外一回事,两者虽有联系,但不能互相代替,也不应当互为承担“责任”。以“五笔字型”为例,无论年轻人、中年人或是老年人,学会7000个字的编码法,1~3天总归都能掌握。可是,学会快速找键,那差别就大了:少年儿童10天便可打得很快,40~50岁的人,1个月也打不快。所以,专家们认为:把“指法难练”说成是“编码难学”,是片面而无益的。
  著名的报告文学作家徐迟和著名作家马识途先生,均已年逾花甲,尚能熟练地用“五笔字型”直接在电脑上写作,那么年轻人还有什么理由说“汉字输入难”呢?其实,用两位老者的话说,“五笔字型”并不难,关键是熟练。
  当然,如果一个优秀的编码法,能够对熟悉键位、加速指法训练提供方便,那是很理想的。作者认为,“五笔字型”方案就已经做到了这一点。在这里,字根的编码、字根的键位代号,以及打这个字根时所用手指的序号,三者一般是一致的。例如“儿”,它的首两笔代号为35,它所在的键位也是35,当键入这个字根时,所用的手指也是第3区的第5个手指(左手小指)。掌握这一规律,对原不熟悉英文键盘的新手来说,看到了“儿”,就知道伸左手的第3个手指,从而在很短的时间内便可学会快速盲打。“五笔字型”的字根键盘分成5个区,每个区5个位,用11,12……54,55作为25个键的代码,这些代码只跟字根和手指有关,与英文字母没有任何内在的必然的联系,可谓是一个真正“具有中国特色”的汉字键盘。这种独特的设计,正是“五笔字型”能够获得高速度的关键所在。数十万“五笔字型”的使用者的经验证明,学会编码并不难,掌握指法却需要耐心和时间。
  现在,许多老年人、中年人都不得不下功夫练习键盘指法,这实际上是在“补课”,年龄越大,“补课”越难。如若条件许可,让我们的小学生、中学生从小就学习标准英文键盘的指法,也即“五笔字型”的指法,那么,不管什么时候,只要再学习两三天编码,汉字输入电脑的技能问题就全部解决了。北京市教育局已正式规定,1992年的职业高中毕业生,如不学会“五笔字型”就不能毕业。而且,要从今年起,用5年时间,在北京市的707所中学里推广普及“五笔字型”技术,进行指法训练,应当说,这是一项为下个世纪造就人才、提高我国的国民素质的极有远见的决策,可喜可贺。

北京王码创新网络技术有限公司 版权所有,转载需得到许可。