• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      綜述文字輸入處理軟件

      2013-04-29 00:44:03何軼智
      網(wǎng)友世界 2013年6期

      【摘 要】漢字是中華民族傳統(tǒng)文化的核心和信息交流的主要工具,古老而復(fù)雜多樣的漢字屬于二維,不像英文等西方文字那樣是一維線形文字,可以直接輸入計算機,而是需要采用特殊的漢字輸入法軟件.漢字輸入計算機是計算機中。第一個環(huán)節(jié),漢字輸入技術(shù)直接影響著中文信息處理的發(fā)展.本文著眼于漢字輸入法軟件在系統(tǒng)中的設(shè)計和開發(fā)過程,提出一種簡單、方便的漢字鍵盤輸入法。首先統(tǒng)計了國標二級字庫中漢字筆畫信息的各種數(shù)據(jù),這些數(shù)據(jù)主要包括:漢字的平均筆畫數(shù)及按使用頻度加權(quán)的平均筆畫數(shù)、能與其它字區(qū)分開的漢字前若干筆畫的平均數(shù)、以各種筆畫起筆的漢字數(shù)、各種筆畫在漢字字庫中的出現(xiàn)次數(shù)、漢字字庫中筆畫相同的漢字以及漢字字庫中相鄰筆畫的頻度等。根據(jù)這些統(tǒng)計數(shù)據(jù),我們采用書寫漢字時的筆畫順序作為漢字輸入碼,設(shè)計了筆畫碼漢字輸入法和實現(xiàn)該輸入方法的鍵盤。

      【關(guān)鍵詞】中文信息處理;自然語言理解;語用統(tǒng)計;模板匹配

      中華文化的博大精深給中文應(yīng)用者提供了縱橫馳騁的廣闊空間,由于個人的受教育程度、職業(yè)需要及文字風(fēng)格的千差萬別,多數(shù)人都需要一個完全按照個人意愿編制出來的詞庫,即具有個性特征的個人專用詞庫,從這以意義上說,從Windows95開始為用戶提供的“輸入法生成器”。實在是功德無量。

      Windows98問世以后,由于硬盤與內(nèi)存容量的不斷升級,以及CPU反映能力的加速,使得在Windows平臺下的自定義輸入法有了更加廣泛的應(yīng)用空間,而且突破了6.5萬詞條的限制。從理論上說,自定義的輸入法可以做得無窮大。目前我個人使用的《沈沉詞庫》的詞條就已達6萬條。WindowsMe與Windows98是姐妹版,同樣可用自定義的方法來生成自己個性化的輸入法。但WindowsXP卻把原先的“輸入法生成器”取消了,即使把Windows98下的“輸入法生成器”拷貝到WindowsXP,雖能轉(zhuǎn)換碼表,但卻不能安裝。不論微軟對WindowsXP如何地自吹自擂,但取消“輸入法生成器”,無論如何是失算的。

      一、基于計算機漢字輸入的研究

      應(yīng)用需要一些軟件的支持,才能科學(xué),優(yōu)化,好用.目前不少發(fā)明人已擁有一些專用軟件,為有效利用這些軟件資源,節(jié)省人力時間,降低研究成本和周期.建議:這些軟件集中起來,統(tǒng)一管理。讓需用者登記申購,一次發(fā)放。這樣供,需,管均受益,并助學(xué)術(shù)繁榮,軟件舉例:

      1.靜態(tài)重碼率自動收索統(tǒng)計軟件searcherro

      2.漢字詞匯自動排序刪除重復(fù)軟件

      3.各種輸入法教學(xué)軟件等

      4.計算機降低重碼軟件

      5.計算機操作記憶增速軟件.

      6.漢語各種專業(yè)詞匯庫(20多專業(yè))軟件

      7.漢語綜合詞匯庫軟件

      8.直接掛接進入windows9x編碼生成器的軟件

      二、基于智能規(guī)范碼輸入平臺的實現(xiàn)

      智能規(guī)范碼輸入平臺是有八個編碼方案的復(fù)雜系統(tǒng)。由智能規(guī)范拼音、智能規(guī)范雙拼、智能規(guī)范形碼、智能規(guī)范數(shù)碼和普通規(guī)范合碼所組成。其中普通規(guī)范合碼包括規(guī)范拼音、規(guī)范雙拼、規(guī)范形碼、規(guī)范數(shù)碼。智能、普通規(guī)范數(shù)碼在數(shù)字鍵區(qū)輸入漢字。平臺初始狀態(tài)為智能態(tài)。智能規(guī)范拼音最大輸入6碼,智能規(guī)范雙拼與智能規(guī)范形碼為2碼,智能規(guī)范數(shù)碼為3碼。用快捷鍵相互轉(zhuǎn)換。智能狀態(tài)由轉(zhuǎn)換符轉(zhuǎn)至普通狀態(tài)時,首字符為數(shù)字時碼長最長為6碼,輸入普通規(guī)范數(shù)碼,首字符為字母時碼長最長為4碼。不足碼長時用空格返回智能狀態(tài)。

      智能規(guī)范碼的用戶范圍是普通人群,特別是中小學(xué)生。所以學(xué)生版在GBK字符集中異體字與不規(guī)范字不參加編碼。由于GBK的字符集里包含了中日韓三國所使用的漢字,所以日本和韓國用的漢字也不參加編碼。普通版為GBK字符集,超集版為GB18030字符集。

      智能規(guī)范碼輸入平臺采取雙智能輸入的混合輸入方式,可以減少輸入量即減少碼長,減少鍵選率。加快了輸入速度。

      漢字不再需要人工編碼,智能非智能輸入方法已有長時的研究和應(yīng)用,關(guān)于智能混合輸入,作者進行嘗試,特點很多,尤其對詞的岐義處理具有一定的特色。可以說是具有獨特風(fēng)格的智能漢字輸入平臺生成系統(tǒng)。

      三、基于語用統(tǒng)計的智能輸入軟件

      1.原理

      主要利用語用統(tǒng)計的數(shù)據(jù)來消化同音字、詞,以及化解歧義分詞。在學(xué)科分類中屬于運籌學(xué)范疇。

      使用概率統(tǒng)計運籌決策的方案很多,文獻[5]通過統(tǒng)計字字相關(guān)的同現(xiàn)概率矩陣來完成漢語語用統(tǒng)計庫結(jié)構(gòu).這個矩陣的大小是固定不變的.只與字符集的大小有關(guān)。文獻[5]作者通過搜索了500萬字語料給出了一個3673 X 3673的同現(xiàn)概率矩陣。文獻[4]是基于幾理解和基于語用統(tǒng)計相結(jié)合的設(shè)計。該設(shè)計根據(jù)分詞后的輸入語句查找知識庫.用句法、詞法、語義和自定義的規(guī)則作為制約對文章進行解析推理,當存在同音詞時。采用最優(yōu)評價法來確定最佳選擇作為轉(zhuǎn)換結(jié)果。同音詞的評價值需要考慮詞性、同現(xiàn)概率、近期使用狀況等因素。具有最優(yōu)評價值的選擇即為轉(zhuǎn)換結(jié)果。當具有最優(yōu)評價值的第一選擇而非日標選擇時,可選用次優(yōu)選擇或用手工方式進行修正,候補修正或人工修正均被記錄,作為下次轉(zhuǎn)換時修改計算評價值因素的依據(jù),也就是自學(xué)習(xí)功能。

      2.典型作品

      ○蔡榕先生設(shè)計的最優(yōu)評價函數(shù)法拼音漢字轉(zhuǎn)換系統(tǒng);

      ○蔣先生設(shè)計的Autoway;

      ○清華大學(xué)人工智能實驗室夏瑩等研制的智能輸入軟件。

      3.優(yōu)點與存在的問題

      優(yōu)點:(1)對于己經(jīng)進行過語用統(tǒng)計或者具有相同類型的領(lǐng)域,系統(tǒng)的轉(zhuǎn)換正確率比較高,或者說語用統(tǒng)計具有偏向性。對每一個用戶而言,在使用過程中,語用統(tǒng)計庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習(xí)慣的專用型。(2)軟件開銷較小,在CPU為486的機器上就能運行。

      存在的問題:(1)作為一個整體的同現(xiàn)概率矩陣,不能做到模塊化、積木化。(2)偏重整句處理,當出現(xiàn)轉(zhuǎn)換錯誤時,需要使用者回頭去糾正,干擾了正常的思維。(3)當前,自動分詞的準確度只能達到98%左右,鍵選率的降低受到限制。

      四、基于模板匹配的智能輸入軟件

      1.原理

      寓漢語語法知識于巨量的短語串中,進而利用這些短語串來消化同音字、詞.以及化解歧義分詞。這種短語串通常稱之為“模板詞”。

      這種系統(tǒng)通過模板詞搜索引擎來完成漢語語法體系的組織。需要搜索巨量的語料.獲取巨量的短語串,才有可能大體上包容漢語語法知識。例如:智能狂拼搜索了100億字語料,模板詞庫最大時需要約540MB存儲空間。根據(jù)分詞后的輸入語句查找模板詞庫和句法規(guī)則庫,然后進行匹配處理。如果匹配結(jié)果唯一,則不必再用概率推理;若存在兩個以上的候選結(jié)果時,則根據(jù)句法規(guī)則或概率推斷進一步判定,選出一個最有希望的可能結(jié)果作為輸出。

      2.典型作品

      ○中文之星數(shù)碼科技有限公司推出的智能狂拼;

      ○黑馬新技術(shù)公司推出的黑馬智能輸入軟件;

      ○大自然軟件開發(fā)有限責任公司推出的自然碼2000(句輸入版)。

      3.優(yōu)點與存在的問題

      優(yōu)點:對于幾己經(jīng)搜索過模板詞的或者具有相同類型的領(lǐng)域,系統(tǒng)的轉(zhuǎn)換正確率比較高,或者說模板詞庫具有偏向性。對每一個用戶而言,在使用過程中,模板詞庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習(xí)慣的專用型。

      存在的問題:(1)模板詞數(shù)量巨大,對電腦硬件有一定的要求。486及以卜的低檔機難以使用。(2)對拼音輸入的模板匹配智能輸入軟件而言,通常只支持漢語拼音的26鍵位輸入,注重連續(xù)和完整的音節(jié)輸入,平均碼長較長,采用簡化拼音輸入時鍵選率較高。(3)偏重整句處理。當出現(xiàn)匹配錯誤時,需要使用者回頭去糾正,干擾了正常的思維。自動分詞的準確度只能達到98%使鍵選率的降低受到限制。

      五、基于上下文關(guān)聯(lián)的智能輸入軟件

      1.原理

      文獻[5]采用語用統(tǒng)計來實現(xiàn)上下字關(guān)聯(lián)智能輸入。下面介紹的是一種基于模糊控制理.利用上下文關(guān)聯(lián)(向上關(guān)聯(lián)4個詞語,向下關(guān)聯(lián)1個詞語)的語用環(huán)境來智能選擇重碼字。在學(xué)科分類中屬自動控制分支非線性控制范疇。將自然語言看成是一個模糊的集合,將漢字輸入系統(tǒng)作為一個非線性控制范疇的模糊控制系統(tǒng)來對待,預(yù)學(xué)習(xí)工具(或者轉(zhuǎn)換出現(xiàn)錯誤時的手工鍵選信號),相當于一個傳感器,算法程序、漢語知識庫和動態(tài)語用統(tǒng)計庫作為非線性調(diào)節(jié)器,使得系統(tǒng)的鍵選率和平均碼長逐漸趨于最優(yōu)。例如,青月亮漢字通上文關(guān)聯(lián)4個詞,下文關(guān)聯(lián)1個詞,合計上下文關(guān)聯(lián)5個詞,這一調(diào)節(jié)機制涉及到許多相互矛盾和相互牽制的受控參數(shù),模糊集合的特征函數(shù)從[0,1]區(qū)間連續(xù)取值,可以較為準確地表現(xiàn)各種語言現(xiàn)象差異,獲得比較好的效果。

      2.典型作品

      ○青月亮科技開發(fā)有限公司推出的青月亮漢字通智能輸入軟件平臺GM 3.1

      ○一筆軟件有限公司推出的一筆智能輸入軟件(26鍵位和10鍵位)

      ○字原科技有限公司推出的101智能輸入軟件TZ8.2/9.1/20000

      3.優(yōu)點與存在的問題

      優(yōu)點:(1)對學(xué)習(xí)過或者具有相同類型的語料,鍵選率比較低,或者說漢語知識庫具有偏向性。對每一個用戶而言,在使用過程中,漢語知識庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習(xí)慣的專用型。(2)青月亮漢字通作為一種音碼、形碼和筆畫碼二位一體的通用智能處理平臺,支持26鍵位、10鍵位、8鍵位和5鍵位規(guī)模的鍵兀集,支持GB18030的27533超大字符集,為各種輸入法增加上卜文關(guān)聯(lián)智能輸入的后處理支持.讓這些輸入法變得更易學(xué)、更好用。(3)采用字段輸入,不使用語句級輸入,使語法規(guī)則簡約化,易于知識表達。此舉不但降低了鍵選率,還大大緩解了輸入過程中“回頭看”的問題.基木上貼近了人們的使用習(xí)慣。(4)程序開銷積木化,在CPU為486的機器上就能運行。遵從一系列信急處理用的國家標準和規(guī)范,特別是與漢字輸入密切相關(guān)的兩個標準《GB/T 18031-2000信急技術(shù)數(shù)字鍵盤漢字輸入通用要求》和《GB(待定)信息技術(shù)通用鍵盤漢字輸入通用要求》。(5)旅拼音輸入時,采用人工分詞。在形式上與英文接軌,既可以避免3%的歧義分詞錯誤,也可以兼容簡拼輸入,大幅度降低鍵選率和平均碼長。青月亮漢字通在保證支持完整拼音輸入的同時,尤其提倡使用簡拼輸入(一個音節(jié)要么只取音節(jié)的首字母,要么就取完整音節(jié))。

      存在的問題:(1)字段輸入還未能完全根治輸入過程中“回頭看”的問題,每當終選字詞有錯時,仍然需要近距離的即時修改。(2)對“上下文關(guān)聯(lián)”機制的人機界,而用戶需要一個熟悉的過程。因此,青月亮漢字通也允許使用者關(guān)閉“上下文關(guān)聯(lián)”智能輸入,僅保留“上文關(guān)聯(lián)”機制和恢復(fù)逐字、逐詞上屏的輸入方式。

      六、結(jié)束語

      上世紀八十年代我國學(xué)者提出的“從開發(fā)人腦到開發(fā)電腦”、“字為基礎(chǔ)、詞為主導(dǎo)、智能處理”,只是指明了漢字輸入技術(shù)的發(fā)展方向。時至今日,己有近十種輸入法采用了智能化處理重碼的技術(shù)。這些智能輸入軟件中有的采用人工智能理論,有的依據(jù)概率統(tǒng)計方法,有的依靠自動控制技術(shù),多數(shù)軟件設(shè)計兩種方法。效果較好的青月亮軟件更是在模糊控制的框架內(nèi)使用了語法規(guī)則和動態(tài)語用統(tǒng)計。(下轉(zhuǎn)第9頁)(上接第4頁)如果像當年“萬馬奔騰”一樣,智能化軟件也形成“百花齊放、百家爭鳴”的局而,則錢偉長教授要求的易學(xué)、易用的理想的輸入方法的實現(xiàn)為期己經(jīng)不遠了。

      參考文獻:

      [1]俞士汶.中文輸入中語法分析技術(shù)的應(yīng)用[J].中文信息學(xué)報,1988(3).

      [2]王曉龍等.語句級漢字輸入技術(shù)[J].中文信息學(xué)報,1996(12).

      [3]章森等.語句拼音漢字轉(zhuǎn)換的智能處理機制分析[J].中文信息學(xué)報,1998(2).

      [4]蔡榕.最優(yōu)拼音漢字一次輸入變換法及拼音漢字轉(zhuǎn)換系統(tǒng)的實現(xiàn)[C].第三屆中文信息處理國際會議論文集,1992,10.

      [5]夏瑩等.利用上下文相關(guān)信急的漢字文本識別[J].中文信息學(xué)報,1996(2).

      [6]郭進.統(tǒng)計語言模型及漢語音字轉(zhuǎn)換的一些新結(jié)果[J].中文信息學(xué)報,1993(1).

      [7]仲興國.多詞組一次性拼音漢字變換[J].中文信息學(xué)報,1990(6).

      [8]張普.智能化漢字鍵盤輸入法的最重要發(fā)展方向[M].中國標準出版社,1997(2).

      [9]陳一凡.漢字編碼輸入技術(shù)的發(fā)展趨勢[J].計算機世界,1987,11(8).

      [10]黃昌寧.中文信息處理的主流技術(shù)是什么?[J].計算機世界報,2002(24).

      作者簡介:何軼智,現(xiàn)就讀于西安外事學(xué)院工學(xué)院09級電子信息工程專業(yè)。

      兴仁县| 简阳市| 阳城县| 通河县| 上思县| 建平县| 南川市| 离岛区| 微山县| 志丹县| 津市市| 昌都县| 班戈县| 安远县| 石狮市| 康保县| 新丰县| 天峻县| 大悟县| 灵石县| 信宜市| 屏东市| 大安市| 玛纳斯县| 兴文县| 南城县| 定西市| 利辛县| 弥渡县| 克拉玛依市| 昭平县| 依兰县| 轮台县| 远安县| 隆回县| 渝中区| 拉孜县| 潜江市| 阿城市| 连南| 武清区|