黃瓊霖
摘 要:在對(duì)古籍的電子化過程中,在與使用漢字的國(guó)家和地區(qū)的交流過程中,繁簡(jiǎn)字轉(zhuǎn)換問題不僅是體現(xiàn)在個(gè)人知識(shí)領(lǐng)域方面,更是體現(xiàn)在計(jì)算機(jī)信息文本所必須面對(duì)的問題。盡管目前已經(jīng)產(chǎn)生了很多繁簡(jiǎn)轉(zhuǎn)換的電子工具和軟件系統(tǒng),但繁簡(jiǎn)轉(zhuǎn)換的錯(cuò)誤率依舊很高。
關(guān)鍵詞:繁體字;簡(jiǎn)體字;計(jì)算機(jī);轉(zhuǎn)換
從20世紀(jì)80年代開始,關(guān)于簡(jiǎn)化漢字的爭(zhēng)論就一直沒有停止過。近20多年來,在進(jìn)一步改革開放的新形勢(shì)下,爭(zhēng)論依舊十分激烈。繁簡(jiǎn)漢字文本的轉(zhuǎn)換問題在使用漢語漢字的社會(huì)中是一個(gè)不能回避的、亟須解決的問題。
漢字的簡(jiǎn)體和繁體兩種體式將(會(huì)比較)長(zhǎng)期存在。因而簡(jiǎn)繁轉(zhuǎn)換和繁簡(jiǎn)裝換就需要經(jīng)常進(jìn)行。轉(zhuǎn)換包括手寫轉(zhuǎn)換和機(jī)器轉(zhuǎn)換。多少年來,漢字主要靠手寫,但隨著信息時(shí)代的到來,漢字手寫的使用范圍將逐漸縮小。用鍵盤輸入漢字將會(huì)是今后書寫的主要形式,那么漢字繁簡(jiǎn)的轉(zhuǎn)換過程也將會(huì)在計(jì)算機(jī)中得到實(shí)現(xiàn)。目前,輸入法中簡(jiǎn)繁體字的快速切換功能、微軟的Word2003中中文繁簡(jiǎn)轉(zhuǎn)換功能、網(wǎng)絡(luò)上“在線漢字簡(jiǎn)體繁體轉(zhuǎn)換”等,都企圖能夠較為簡(jiǎn)單快速地實(shí)現(xiàn)漢字繁簡(jiǎn)的轉(zhuǎn)換。
一、繁簡(jiǎn)字轉(zhuǎn)換存在的問題
實(shí)踐證明,假如直接采用搜狗拼音輸入法的簡(jiǎn)繁體字快速切換,同樣,當(dāng)一片準(zhǔn)確無誤的簡(jiǎn)體字,一經(jīng)電腦程序轉(zhuǎn)化為繁體字的時(shí)候,就會(huì)發(fā)現(xiàn)出現(xiàn)大量錯(cuò)別字。以Word2003中文繁簡(jiǎn)轉(zhuǎn)換功能為例,“米糰”(錯(cuò))成了“米團(tuán)”,“詩云”(錯(cuò))成了“詩雲(yún)”……假若采用“在線漢字簡(jiǎn)體繁體轉(zhuǎn)換”,出現(xiàn)的錯(cuò)誤則更加明顯?!吧贰背闪恕吧Y”,“幾案”成了“幾案”……舉一個(gè)小例子,一篇大約500字的簡(jiǎn)體字文章,用電腦程序?qū)⑵滢D(zhuǎn)化為一篇繁體字文章,僅需0.1秒的時(shí)間,但是,要對(duì)轉(zhuǎn)換后的繁體字文章進(jìn)行校正,卻可能需要1個(gè)小時(shí)的時(shí)間。由此而知,繁簡(jiǎn)字在計(jì)算機(jī)中的轉(zhuǎn)換問題仍然需要極大的關(guān)注。
繁簡(jiǎn)字轉(zhuǎn)換問題困難的產(chǎn)生主要是因?yàn)楹?jiǎn)化字與繁體字并不都是一個(gè)與一個(gè)的整齊對(duì)應(yīng),有些簡(jiǎn)化字與繁體字之間存在著復(fù)雜的對(duì)應(yīng)關(guān)系。正如董琨先生說過:“有的人不明白有的字繁簡(jiǎn)轉(zhuǎn)化并非單一對(duì)應(yīng)關(guān)系,于是隨意代替?!笔聦?shí)告訴我們,一簡(jiǎn)對(duì)多繁在轉(zhuǎn)換問題中所產(chǎn)生的問題最為嚴(yán)重。這種簡(jiǎn)化字在轉(zhuǎn)換為繁體字的時(shí)候要進(jìn)行選擇區(qū)分,從而確定轉(zhuǎn)換為哪個(gè)繁體字。
除了一簡(jiǎn)對(duì)多繁現(xiàn)象之外,在一簡(jiǎn)對(duì)一繁的簡(jiǎn)化字中,可以分成兩類,一類是專用簡(jiǎn)化字,一類是借用簡(jiǎn)化字。專用簡(jiǎn)化字指的是“新造簡(jiǎn)化字型”,是為了簡(jiǎn)化漢字,而選取百姓的手頭字,或者是特意造出來的字。如果離開了相對(duì)應(yīng)的繁體字,該簡(jiǎn)化字也就失去了意義。例如“愛”是“愛”的專用簡(jiǎn)化字,只作為“愛”的代表符號(hào)。離開了“愛”字,“愛”就失去了存在的意義。這類簡(jiǎn)化字與它相對(duì)應(yīng)的繁體字音義相同,不同的只是形體的簡(jiǎn)化,筆畫的多寡。而另一類借用簡(jiǎn)化字指的是在漢字簡(jiǎn)化之前已經(jīng)存在的字,在漢字簡(jiǎn)化的過程中被借用來作為簡(jiǎn)化字。
在繁簡(jiǎn)字的轉(zhuǎn)換過程中,一簡(jiǎn)對(duì)多繁現(xiàn)象和一簡(jiǎn)對(duì)一繁中的借用簡(jiǎn)化字比較容易出現(xiàn)問題。
二、繁簡(jiǎn)字轉(zhuǎn)換問題的解決
當(dāng)我們通過鍵盤將漢字輸入計(jì)算機(jī)的時(shí)候,絕大多數(shù)都是采用輸入法,運(yùn)用比較廣泛的類別是五筆輸入法和拼音輸入法。其中大多輸入法都提供了簡(jiǎn)繁體字的快速切換功能。如何在使用的過程中既快速又準(zhǔn)確地輸入繁體字呢?
當(dāng)我們將一篇簡(jiǎn)體字文章采用Word2003中文繁簡(jiǎn)轉(zhuǎn)換功能,或者網(wǎng)上“在線漢字簡(jiǎn)體繁體轉(zhuǎn)換”,如何才能得到高精準(zhǔn)的轉(zhuǎn)換結(jié)果呢?
固定算法決定了程序的編制,而程序的編制則決定了電腦運(yùn)作。要實(shí)現(xiàn)繁簡(jiǎn)字之間準(zhǔn)確無誤的轉(zhuǎn)換就只能從計(jì)算機(jī)的根源出發(fā),尋找解決方法。為進(jìn)一步提高漢字輸入速度,我們經(jīng)常采用詞匯輸入的途徑,也就是直接輸入詞的代碼。
那么,這就需要后臺(tái)詞庫,詞庫是輸入法的靈魂,轉(zhuǎn)化問題的出現(xiàn)恰好說明了繁簡(jiǎn)對(duì)應(yīng)詞庫中存在較多的繁體字登陸錯(cuò)誤。假若我們將計(jì)算機(jī)繁體字的詞庫進(jìn)行修正,使之大容量化,廣泛收錄正確的繁體字體的常用詞匯、短語、地名、人名等,那么,就可能會(huì)提高繁體字輸入的準(zhǔn)確率。以搜狗拼音輸入法為例,當(dāng)輸入“xiàbǎi”的時(shí)候,屏幕上呈現(xiàn)的字體是錯(cuò)誤的“下擺”。但假若通過擴(kuò)大詞庫,“下襬”被收錄在內(nèi)的話,錯(cuò)誤的轉(zhuǎn)換問題相信會(huì)得到解決,屏幕上呈現(xiàn)的是正確字體“下襬”。