rime-zhengma 中 Ext-C 区域的汉字编码均有误。
Windows Vista 附带的 TableTextServiceSimplifiedZhengma.txt 应该是中易公司官方制作的码表(可能是所谓的6.6版),包含 CJK、Ext-A、Ext-B、Ext-C 中的字符和部分繁简体词汇,质量较高,但不含构词码。 Windows 7 以后的版本因版权问题不再含有此文件。
我借用 rime-zhengma 中的构词码,对官方码表中的词汇编码(不含简码,简码的编码具有随意性)做了检查。发现了部分编码错误。其中,有一些可以认为是容错码,因为正确的编码同样在码表中,这种情况我没有订正。
构词码本身也有错误的。好在错误不多,这里我总结如下:
字 | 正确拆解 | 备注 |
---|---|---|
丸 | QYa | 应为字根「丸QYA」;误作QS。 |
慶 | Tx X Wz Rs | 字根TX后应为笔画「乛X」;误作TW。 |
養 | Uc S Xo | 字根UC后为「丶S」「艮XO」;误作UO。 |
渊 | V Nd Uf | 误作VU。 |
變 | Zs Mo | 误按容错码Zs Rs将构词码作ZR。 |
毋 | Zy M A | 按笔顺规范,「丿M」先于「一A」;误按容错码Zy A M将构词码作ZA。 |
简体部分存在少量错误,有一些是拆字错误。例如「冰淇淋」可能是将「冰」的「冫」误拆成了「氵」。还有一些是编码错误,如把「虎视眈眈」iwll编码成了will。
繁体部分的错误较多,有很多条目是因为错将某字按照简体字来编码而导致词语编码错误,例如「萬萬沒有想到」将「萬」字当作「万」字,词语编码为AAVG,实际上应为EEVG。还有一些是字型问题,例如「變」字,有些词语中按照ZM编码,有些按照ZR编码。我对照了多种字体中「變」字的字型,以及参考了官方教材的编码表,确认取ZM是正确的。
还有一些是词库中词汇本身的问题。不知什么原因,词库中收录了「超巿」这样的词语,实则应该是「超市」,还有一些错误繁体化的词,如「北鬥星」实为「北斗星」。这些错误也已改正。有少量古怪的错码,如「雪台」、「台糖」、「台脂」,我实在不知道是什么意思,只好保留了原样。
由於我對繁體中文的規範不熟悉,有些詞語不清處怎樣處理是正確的。例如詞庫中「稀裏糊塗」這個詞的寫法存疑。《國語辭典》寫作「稀里糊塗」,而「朙月拼音」的寫法和詞庫一樣。我在改正編碼時,只能確保符合詞的編碼規則,不能確保符合繁體字用戶的習慣。這些問題可能遍佈了整個繁體詞庫,排查起來也將是一個大工程。一個好的變通辦法是把繁體詞彙全部刪除,然後利用構詞碼,把符合繁體字用戶習慣的詞彙表生成為碼表。