• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      談漢字編碼與應(yīng)用中的問題

      2009-03-30 04:52:54鄒本娜
      新媒體研究 2009年3期
      關(guān)鍵詞:編碼方案楷體個(gè)區(qū)

      [摘要]以淺顯易懂的語言,介紹漢字編碼的艱難歷程,力求使讀者懂得計(jì)算機(jī)處理漢字過程的原理,并解除在工作中可能遇到的困惑。

      [關(guān)鍵詞]位(bit)字節(jié)(byte)ASCII碼內(nèi)碼GBGBKGBl8030

      中圖分類號(hào):TP3文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1671-7597(2009)0210136-01

      一、我國(guó)漢字編碼歷程

      計(jì)算機(jī)一般是以字節(jié)(byte)為單位進(jìn)行信息處理的,每一字節(jié)包括八個(gè)二進(jìn)制位(bit),用二進(jìn)制表示是00000000-11111111,為便于理解,也常用十進(jìn)制表示為0-255(多稱為ASCII碼),應(yīng)用時(shí)也會(huì)以十六進(jìn)制表示為00-FF(多稱為內(nèi)碼),因此只能處理(或識(shí)別)256個(gè)字符,這256個(gè)字符包括32個(gè)控制字符(0-31)、95個(gè)打印字符(21-126,就是能用鍵盤打出來,能在屏幕上顯示出來的)、1個(gè)表示刪除的(127,delete,都熟悉)、128個(gè)擴(kuò)展字符(128-255)。擴(kuò)展字符在不同的系統(tǒng)中有不同的顯示和用途,讀者要想看到擴(kuò)展字符的真面目,在網(wǎng)上搜索“ASCII碼表”。

      95個(gè)打印字符中包括了英文大小寫字母、10個(gè)阿拉伯?dāng)?shù)字、30多個(gè)符號(hào)(標(biāo)點(diǎn)符號(hào)等),以英語為母語的人使用計(jì)算機(jī)就能處理任何的字、詞、句。

      (一)GB2312-80編碼方案。我國(guó)1981年公布了《通信用漢字字符集(基本集)及其交換碼標(biāo)準(zhǔn)》GB2312-80方案(簡(jiǎn)稱GB):

      首先是使用2字節(jié)來表示一個(gè)漢字,因?yàn)橹皇鞘褂?個(gè)字節(jié)表示漢字的話,最多能使用256個(gè)漢字:

      其次是使用擴(kuò)展字符,因?yàn)槲覀儾荒苡脙蓚€(gè)連續(xù)的符號(hào)如“【】”、“ab”或“fx”表示漢字,那會(huì)產(chǎn)生歧義。

      最后,選擇使用ASCII碼為161-254的字符(94個(gè))作為一個(gè)漢字的第一個(gè)字節(jié)(首字節(jié))和第二個(gè)字節(jié)(尾字節(jié))。這樣,理論上能顯示的漢字字?jǐn)?shù)是94×94=8836(個(gè))。

      每94個(gè)算作一個(gè)區(qū)。共94個(gè)區(qū)。前15個(gè)區(qū)用來表示各種符號(hào):其后的40個(gè)區(qū)表示常用的3755個(gè)一級(jí)漢字,這些漢字按照拼音來排列;再后的32個(gè)區(qū)用來表示次常用的3008個(gè)二級(jí)漢字,這些漢字用偏旁部首來排列。合計(jì)用了87個(gè)區(qū),表示漢字6763個(gè)。

      想知道哪個(gè)區(qū)的哪個(gè)位置代表什么,選擇內(nèi)碼輸入法,輸入“區(qū)號(hào)+位號(hào)”,前者范圍1-87,后者范圍1-94。例如輸入5454(種),8226(蠔)。

      對(duì)于一級(jí)漢字,是按拼音排序。對(duì)于二級(jí)漢字,則按偏旁部首排序。

      九十年代初期,計(jì)算機(jī)剛剛普及的時(shí)候,使用的是DOS操作系統(tǒng)加掛漢字系統(tǒng)和WINDOWS中文版操作系統(tǒng),所支持的就是能夠顯示出6763個(gè)漢字的GB2312-80。

      (二)GBK擴(kuò)展字符集。對(duì)大多數(shù)人來說,二級(jí)漢字幾乎都用不上。但很多的人名地名還都沒有包括進(jìn)去,工作顯得無比尷尬和無奈。例如“玥”和“镕”,都不在其中。而6763個(gè)漢字對(duì)于現(xiàn)代漢語、古代漢語等研究者來說更是相距甚遠(yuǎn)。

      1995年下半年,我國(guó)公布GBK擴(kuò)展字符集,標(biāo)準(zhǔn)名稱是《漢字?jǐn)U展規(guī)范GBK 1.0》。其編碼方案是:

      首字節(jié)使用ASCII碼為129-254的字符,尾字節(jié)使用ASCII碼為64~126,128~254的字符。那么所能表示的漢字?jǐn)?shù):(254-129+1)×(126-64+1+254-128+1)=23940(個(gè))。

      實(shí)際上,這個(gè)方案包含20902個(gè)漢字和一些符號(hào)。其余都是空位。為了兼容以前的漢字信息,GB中的漢字或符號(hào)的編碼在GBK中都保持不變。

      中文WINDOWS95/98都支持GBK編碼系統(tǒng)。報(bào)刊、字幕、戶籍、銀行等都已經(jīng)能夠打出“玥”和“镕”等漢字。

      (三)GBl8030編碼方案。2萬漢字相對(duì)于10萬漢字(漢字總數(shù)沒有一個(gè)嚴(yán)格定義,或許在12萬以上,本文不探討漢字?jǐn)?shù)量)來說,對(duì)于專業(yè)人員仍然顯得不夠,在電腦上打不出自己需要的漢字是很痛苦的。如果局限于用兩個(gè)字節(jié)表示漢字,那么最多能表示256×256=65536(個(gè))。

      于是在2000年,又發(fā)布了GBl8030編碼方案,用四個(gè)字節(jié)來表示一個(gè)漢字:第一字節(jié)使用ASCII碼為129-254的字符(126個(gè));第二字節(jié)使用ASCII碼為48-57的字符(10個(gè));第三字節(jié)使用ASCII碼為129-254的字符(126個(gè));第四字節(jié)使用ASCII碼為48÷57的字符(10個(gè))。

      總共能表示漢字?jǐn)?shù)126×10×126×10=1587600(個(gè))。

      能表示出150萬之多的漢字,理論上來說是足夠的了。而我們多數(shù)用戶使用的WINDOWS XP支持這種編碼方案。把所有的漢字都造進(jìn)這個(gè)方案里面也是很難的事情。要兼顧到其他使用漢字的國(guó)家和地區(qū)(如港臺(tái)、日本、韓國(guó)),即使是在大陸上不用的,也都要包容,目前常見的大字庫(kù)是“方正超大字庫(kù)”,包括7萬余漢字。而“鄭碼超級(jí)漢字系統(tǒng)”則包括10萬余漢字。

      二、使用過程中可能遇到的問題

      (一)四字節(jié)漢字問題。在使用GB和GBK時(shí),不論是在屏幕顯示(包括打印輸出)上還是在磁盤(光盤存儲(chǔ))上,他們都是占用兩個(gè)字節(jié)?,F(xiàn)在不同了,漢字顯示仍然占兩個(gè)字節(jié),但在存儲(chǔ)上,可能要占用四個(gè)字節(jié)。那么,接觸過數(shù)據(jù)庫(kù)的用戶可能都知道在字段設(shè)計(jì)時(shí),以前都是按照一個(gè)漢字占用兩個(gè)字節(jié)來設(shè)計(jì)的,現(xiàn)在,顯示和存儲(chǔ)并不很一致,這就需要在設(shè)計(jì)各種數(shù)據(jù)表時(shí),考慮這個(gè)因素,同時(shí),也對(duì)之前開發(fā)的各種數(shù)據(jù)庫(kù)管理軟件的兼容性提出質(zhì)疑。

      (二)漢字輸入法的選擇。適合輸入GB和GBK的漢字輸入法很多,但適合輸入超大字庫(kù)的輸入法卻不多,如果用戶需要使用GBK以外的漢字,則需要下載或購(gòu)買新的輸入法軟件。

      (三)字庫(kù)使用技巧。漢字字庫(kù)有很多。以方正字庫(kù)為例,有以下幾種:

      1.方正簡(jiǎn)體字庫(kù)(如方正楷體簡(jiǎn)體):GB漢字;方正繁體字庫(kù)(如方正楷體簡(jiǎn)體):GB漢字。前者中的漢字,如果有對(duì)應(yīng)的繁體,如“偉”,在后者中,相同的內(nèi)碼就表示為“俸”。這樣的繁體字庫(kù)比較適合用戶打印使用。不便于交流,如果在沒有安裝繁體字庫(kù)的電腦上,會(huì)顯示簡(jiǎn)體。

      2.方正GBK字庫(kù)(如楷體):GBK漢字,在這個(gè)字庫(kù)中,簡(jiǎn)體“偉”和繁體“偉”是兩個(gè)內(nèi)碼不同的字,這里的繁體才是真正的繁體。在字處理軟件WORD中,有簡(jiǎn)體繁體互相轉(zhuǎn)換的工具,就是指這種轉(zhuǎn)換——對(duì)內(nèi)碼進(jìn)行了轉(zhuǎn)換。

      3.方正超大字庫(kù):7萬余漢字,安裝這個(gè)字庫(kù)的用戶很少。如果你使用方正超大字庫(kù)處理文本,在交流時(shí)最好是做成PDF文件,否則,對(duì)方就會(huì)因沒有超大字庫(kù)而看不到GBK以外的漢字。

      作者簡(jiǎn)介:

      鄒本娜,女,遼寧鞍山人,中共葫蘆島市委黨校,計(jì)算機(jī)專業(yè)講師,研究方向?yàn)橛?jì)算機(jī)科學(xué)與應(yīng)用。

      猜你喜歡
      編碼方案楷體個(gè)區(qū)
      基于功能類別和技術(shù)參數(shù)的刀具編碼方案設(shè)計(jì)
      基于唯一標(biāo)識(shí)的ATP車載設(shè)備編碼方案研究
      淺析射陽大米的由來
      淺議小學(xué)語文閱讀指導(dǎo)策略
      腹部外傷手術(shù)治療的臨床療效與安全性分析
      基于改進(jìn)粒子群算法的毫米波大規(guī)模MIMO混合預(yù)編碼方案
      遼金元時(shí)期巫山文學(xué)擷要(下)
      三種預(yù)編碼方案對(duì)OFDM系統(tǒng)峰均比的影響分析
      台东县| 海宁市| 雷波县| 古田县| 惠来县| 色达县| 温宿县| 阳原县| 岳普湖县| 大同市| 新巴尔虎左旗| 新乡县| 鄄城县| 林州市| 大新县| 九龙坡区| 松滋市| 勃利县| 和平区| 弥勒县| 英德市| 荥阳市| 辽阳县| 丰原市| 成都市| 海盐县| 崇州市| 玉门市| 佛冈县| 金塔县| 东丽区| 岳普湖县| 宁波市| 盐源县| 沁源县| 和龙市| 玛多县| 宁国市| 从江县| 循化| 天峻县|