西安外事學(xué)院工學(xué)院 楊小輝
還在八十年代輸入軟件智能化先行者林才松先生設(shè)計了第一個智能拼音軟件盡管林氏的創(chuàng)舉得到語委的支持和周有光教授的幫助,但PC/XT和CCDOS卻表示“愛莫能助”,林先生只得無功而返。
十年過去了,計算機(jī)軟、硬件的發(fā)展速度以幾何級數(shù)的形態(tài)增長。計算機(jī)系統(tǒng)資源的豐富為人們開發(fā)出實用的、算法各異的漢字輸入智能軟件創(chuàng)造了條件。各種類型輸入軟件智能化的共同目標(biāo)是山軟件來識別和選定上屏的重碼字、詞與縮短平均碼長,促使編碼簡中北和規(guī)范化。
寓漢語語法知識于巨量的短語串中,進(jìn)而利用這些短語串來消化同音字、詞,以及化解歧義分詞。這種短語串通常稱之為“模板詞”。
這種系統(tǒng)通過模板詞搜索引擎來完成漢語語法體系的組織。需要搜索巨量的語料,獲取巨量的短語串,才有可能大體上包容漢語語法知識,例如:智能狂拼搜索了100億字語料,模板詞庫最大時需要約540MB存儲空間。根據(jù)分詞后的輸入語句查找模板詞庫和句法規(guī)則庫,然后進(jìn)行匹配處理。如果匹配結(jié)果唯一,則不必再用概率推理;若存在兩個以上的候選結(jié)果時,則根據(jù)句法規(guī)則或概率推斷進(jìn)一步判定,選出一個最有希望的可能結(jié)果作為輸出。
中文之星數(shù)碼科技有限公司推出的智能狂拼;
黑馬新技術(shù)公司推出的黑馬智能輸入軟件;大自然軟件開發(fā)有限責(zé)任公司推出的自然碼2000(句輸入版)。
優(yōu)點(diǎn):對于幾己經(jīng)搜索過模板詞的或者具有相同類型的領(lǐng)域,系統(tǒng)的轉(zhuǎn)換正確率比較高,或者說模板詞庫具有偏向性。對每一個用戶而言,在使用過程中,模板詞庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習(xí)慣的專用型。
存在的問題:(1)模板詞數(shù)量巨大,對電腦硬件有一定的要求,486及以卜的低檔機(jī)難以使用。(2)對拼音輸入的模板匹配智能輸入軟件而言,通常只支持漢語拼音的26鍵位輸入,注重連續(xù)和完整的音節(jié)輸入,平均碼長較長,采用簡化拼音輸入時鍵選率較高。(3)偏重整句處理,當(dāng)出現(xiàn)匹配錯誤時,需要使用者回頭去糾正,干擾了正常的思維。自動分詞的準(zhǔn)確度只能達(dá)到98%使鍵選率的降低受到限制。
文獻(xiàn)[5]采用語用統(tǒng)計來實現(xiàn)上下字關(guān)聯(lián)智能輸入。下面介紹的是一種基于模糊控制理,利用上下文關(guān)聯(lián)(向上關(guān)聯(lián)4個詞語,向下關(guān)聯(lián)1個詞語)的語用環(huán)境來智能選擇重碼字。在學(xué)科分類中屬自動控制分支非線性控制范疇。將自然語言看成是一個模糊的集合,將漢字輸入系統(tǒng)作為一個非線性控制范疇的模糊控制系統(tǒng)來對待,預(yù)學(xué)習(xí)工具(或者轉(zhuǎn)換出現(xiàn)錯誤時的手工鍵選信號),相當(dāng)于一個傳感器,算法程序、漢語知識庫和動態(tài)語用統(tǒng)計庫作為非線性調(diào)節(jié)器,使得系統(tǒng)的鍵選率和平均碼長逐漸趨于最優(yōu)。例如,青月亮漢字通上文關(guān)聯(lián)4個詞,下文關(guān)聯(lián)1個詞,合計上下文關(guān)聯(lián)5個詞,這一調(diào)節(jié)機(jī)制涉及到許多相互矛盾和相互牽制的受控參數(shù),模糊集合的特征函數(shù)從[0,1]區(qū)間連續(xù)取值,可以較為準(zhǔn)確地表現(xiàn)各種語言現(xiàn)象差異,獲得比較好的效果。
青月亮科技開發(fā)有限公司推出的青月亮漢字通智能輸入軟件平臺GM 3.1;
一筆軟件有限公司推出的一筆智能輸入軟件(26鍵位和10鍵位);
字原科技有限公司推出的101智能輸入軟件TZ8.2/9.1/2000 0
優(yōu)點(diǎn):(1)對學(xué)習(xí)過或者具有相同類型的語料,鍵選率比較低,或者說漢語知識庫具有偏向性。對每一個用戶而言,在使用過程中,漢語知識庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習(xí)慣的專用型。(2)青月亮漢字通作為一種音碼、形碼和筆畫碼二位一體的通用智能處理平臺,支持26鍵位、10鍵位、8鍵位和5鍵位規(guī)模的鍵兀集,支持GB18030的27533超大字符集,為各種輸入法增加上卜文關(guān)聯(lián)智能輸入的后處理支持,讓這些輸入法變得更易學(xué)、更好用。(3)采用字段輸入,不使用語句級輸入,使語法規(guī)則簡約化,易于知識表達(dá)。此舉不但降低了鍵選率,還大大緩解了輸入過程中“回頭看”的問題,基木上貼近了人們的使用習(xí)慣。(4)程序開銷積木化,在CPU為486的機(jī)器上就能運(yùn)行。遵從一系列信急處理用的國家標(biāo)準(zhǔn)和規(guī)范,特別是與漢字輸入密切相關(guān)的兩個標(biāo)準(zhǔn)《GB/T 18031-2000信急技術(shù)數(shù)字鍵盤漢字輸入通用要求》和《GB(待定)信息技術(shù)通用鍵盤漢字輸入通用要求》。(5)旅拼音輸入時,采用人工分詞,在形式上與英文接軌,既可以避免3%的歧義分詞錯誤,也可以兼容簡拼輸入,大幅度降低鍵選率和平均碼長。青月亮漢字通在保證支持完整拼音輸入的同時,尤其提倡使用簡拼輸入(一個音節(jié)要么只取音節(jié)的首字母,要么就取完整音節(jié))。
存在的問題:(1)字段輸入還未能完全根治輸入過程中“回頭看”的問題,每當(dāng)終選字詞有錯時,仍然需要近距離的即時修改。(2)對“上下文關(guān)聯(lián)”機(jī)制的人機(jī)界而,用戶需要一個熟悉的過程。因此,青月亮漢字通也允許使用者關(guān)閉“上下文關(guān)聯(lián)”智能輸入,僅保留“上文關(guān)聯(lián)”機(jī)制和恢復(fù)逐字、逐詞上屏的輸入方式。
GBK字集以外生僻字的輸入:使用Windows自帶的“造字程序”。該程序操作簡單,使用方便,既可以用兩個字重新拆分組合成一個新字;也可以選一個相近的字加以修改而造一個新字;還可以直接在編輯框中畫出您所需要的字,比較便利的是前兩種方法,其步驟如下。
取兩個字中有用的部分,重新組合成一個新字。以“腘”字為例(為便于排版,沒有選用GBK以外的字作為例字,下同),單擊“開始”按鈕,選“程序”、“附件”、“造字程序”,出現(xiàn)“造字程序”窗口。在彈出的“選定代碼”窗口中確定所造的字的代碼位置,比如AAA1后按“確定”按鈕(如沒有出現(xiàn),則選“編輯”中的“選定代碼”命令),此時在“造字”窗中出現(xiàn)“編輯”工作區(qū)。再選“編輯”菜單中的“調(diào)用”命令(在Windows2000、XP中則為“復(fù)制字符”命令),單擊“字體”按鈕,選擇字體后,在“形狀”框中輸入?yún)⒖甲帧芭D”,按“確定”按鈕。在“編輯”框中出現(xiàn)“臘”字。再選“窗口”中的“引用”命令(在Windows2000、XP中則為“參照”命令),一樣選定字體,輸入?yún)⒖甲帧皳潯?,在“造字”窗中出現(xiàn)帶有“摑”字的引用框。用“造字”窗左邊的圈選工具圈選“編輯”框中的“昔”,按Del鍵。圈選“引用(參照)”框中的“國”,將它拖到編輯框中合適的位置,然后關(guān)閉“引用”框。再選“編輯”菜單中的“保存字符”命令,在對話框中按“確定”按鈕。此時該字已經(jīng)建立,如文章中需要用到“腘”字只要將輸入法切換至區(qū)位輸入法,鍵入AAA1,即可出現(xiàn)“腘”字。
[1]夏瑩等.利用上下文相關(guān)信急的漢字文本識別[J].中文信息學(xué)報,1996(2).
[2]郭進(jìn).統(tǒng)計語言模型及漢語音字轉(zhuǎn)換的一些新結(jié)果[J].中文信息學(xué)報,1993(1).
[3]仲興國.多詞組一次性拼音漢字變換[J].中文信息學(xué)報,1990(6).
[4]張普.智能化漢字鍵盤輸入法的最重要發(fā)展方向[M].中國標(biāo)準(zhǔn)出版社,1997(2).
[5]陳一凡.漢字編碼輸入技術(shù)的發(fā)展趨勢[J].計算機(jī)世界,1987,11(8).
[6]黃昌寧.中文信息處理的主流技術(shù)是什么?[J].計算機(jī)世界報,2002(24).