沙馬拉毅
(西南民族大學(xué),四川 成都 610041)
彝族是我國民族大家庭中人口較多的一員,據(jù)2010年統(tǒng)計(jì),共有800多萬人口,分布在云南、四川、貴州、廣西四省區(qū)。彝族是一個(gè)跨國界民族,越南有近萬人,泰國、緬甸、老撾、柬埔寨等國家都分布有彝族。
彝族有自己的語言文字,彝文古籍卷帙浩繁,彝文有三千年以上歷史。彝語屬漢藏語系藏緬語族彝語支,分為六大方言區(qū) , 1980年在征求各方意見的基礎(chǔ)上,國務(wù)院以[1980]70號文件批準(zhǔn)推行《彝文規(guī)范方案》: 規(guī)定了以彝語北部方言的圣乍語為基礎(chǔ)方言,以喜德語音為標(biāo)準(zhǔn)音,規(guī)定一字一音,819個(gè)字加次高音符號的字以及一個(gè)替音符號,共1 165個(gè)字符;書寫一律從左到右橫排;還確定使用國際通用的阿拉伯?dāng)?shù)字和彝文原有的數(shù)字。
2011年3月,根據(jù)四省區(qū)彝學(xué)會和滇、川、黔、桂彝文古籍整理出版協(xié)作會的要求,在原有國務(wù)院批準(zhǔn)實(shí)行的規(guī)范彝文基礎(chǔ)上,增加了六個(gè)音節(jié)、83個(gè)字,統(tǒng)一制訂了注音符號。共有1 251個(gè)音節(jié),5 589個(gè)通用規(guī)范彝文字。涵蓋了彝語六大方言區(qū)的全部音節(jié)和常用字。使彝文信息處理工作從原來的規(guī)范彝文進(jìn)入了全國通用規(guī)范彝文階段。
從30年的實(shí)踐證明來看,彝文規(guī)范方案推行后,培養(yǎng)了一大批彝語文專業(yè)人才,彝語文也得到了廣泛使用,有力促進(jìn)了彝族地區(qū)經(jīng)濟(jì)、文化等社會各項(xiàng)事業(yè)的發(fā)展。
從20世紀(jì)70年代起,在周恩來總理的關(guān)懷下,由當(dāng)時(shí)的四機(jī)部、中國科學(xué)院、國家出版局等部門發(fā)起了“漢字信息處理技術(shù)工程”,語言文字信息管理工作開始提上國家語言文字工作日程。我國是一個(gè)多民族多語種的國家,有53個(gè)少數(shù)民族都有自己的語言,將近30個(gè)少數(shù)民族使用30余種民族文字。因此,在研究漢字信息處理時(shí),我國一直都很重視各少數(shù)民族語言文字的計(jì)算機(jī)信息處理工程,國家對少數(shù)民族語言文字處理系統(tǒng)的開發(fā)也給予了極大的關(guān)注。
彝文信息處理工程也正是這股語言信息處理浪潮中啟動(dòng)和發(fā)展壯大起來的。
彝文信息處理是指用計(jì)算機(jī)對彝文進(jìn)行轉(zhuǎn)換、傳輸、存儲、分析等加工的科學(xué),是一門與語言學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、數(shù)學(xué)、控制論、信息論、聲學(xué)、自動(dòng)化技術(shù)等多種學(xué)科相關(guān)聯(lián)的邊緣交叉性科學(xué)。
彝文信息處理的研究工作其實(shí)早在1982 年就拉開了序幕,近30 年過去了,彝文信息處理工作走過了曲折的道路,經(jīng)歷了漫長的發(fā)展歷程。
中文所包括的文字不僅僅是漢字,它包括蒙、維、彝、朝等中國所有文字,還包括我國古代的甲骨文、金文、小篆等文字。因此,在研究中文信息處理時(shí),我國一直都很重視各少數(shù)民族語言文字的計(jì)算機(jī)信息處理工程。彝文信息處理早在1982年就開始了。
1982年,我們在蘋果計(jì)算機(jī)上開發(fā)了彝文軟件,雖然不能打印出彝文,但能在屏幕上顯示出彝文,字形較美觀。
1984年6月,我們在PIED PIPER微機(jī)上進(jìn)行了彝文處理的研制。建立了彝文字庫,可用BASIC或FORTRAN語言調(diào)用,可編寫彝文文件進(jìn)行編輯和修改工作,經(jīng)過移植也可以在其他類型的微機(jī)上應(yīng)用。此項(xiàng)成果開發(fā)成功后,于1984年10月27日通過了四川省級專家技術(shù)鑒定,1985年獲四川省科技進(jìn)步獎(jiǎng)。
這是列入國家經(jīng)濟(jì)發(fā)展規(guī)劃1985~1987年的重點(diǎn)技術(shù)開發(fā)項(xiàng)目。1986年4月通過了電子工業(yè)部和國家民族事務(wù)委員會在北京科學(xué)會堂共同主持的兩部委專家技術(shù)鑒定。該系統(tǒng)采用了和漢字系統(tǒng)兼容的策略,基本上沒有改變原主系統(tǒng)的硬件配置,其主要指標(biāo)和漢字系統(tǒng)基本相同。該系統(tǒng)的排版功能是保留了漢字系統(tǒng)的書宋、仿宋、黑體、楷體和小標(biāo)宋五種字體以及多種數(shù)字、字母和符號。并增加了含次高調(diào)在內(nèi)的1 165個(gè)彝文字,彝文字的字寬和字高之比為11∶6,共有14種字號,可排長、扁兩種彝文字體。照排速度為5號字每秒60個(gè)字,分辨率為每毫米292線??梢跃幣?6開和32開的普通彝文書刊以及彝文漢字混合編排,標(biāo)點(diǎn)符號行末行自動(dòng)禁排,還能夠自動(dòng)編排頁碼、安放書眉等。該系統(tǒng)的編輯功能是: 增刪、進(jìn)行修改、分段、段落合并等??梢詮?fù)制,將文章合并,或?qū)⒁黄恼路殖扇舾烧鹿?jié),可以利用長城0520及兼容機(jī)上的WORDSTAR等文字編輯及處理功能。該系統(tǒng)是我國首次運(yùn)用激光照排技術(shù)進(jìn)行少數(shù)民族文字處理的編輯排版系統(tǒng)。在鑒定會上,彝文編碼輸入方案被兩院院士王選稱為“沙馬拉毅輸入法”。1986年5月在北京“全國‘六五’期間科學(xué)技術(shù)攻關(guān)項(xiàng)目展覽會”上榮獲國務(wù)院電子振興辦公室頒發(fā)的優(yōu)秀科技成果獎(jiǎng)。
1985~1986年,我們在長城0520A型計(jì)算機(jī)上進(jìn)行了彝文/漢文/西文系統(tǒng)的研制,采用軟件插件兼容的策略,堅(jiān)持不增加硬件成本,在保留原漢字系統(tǒng)的基礎(chǔ)上,根據(jù)彝語音及彝語音符號的特點(diǎn),設(shè)計(jì)了具有唯一性的彝文編碼方案,增加了彝文音素輸入法和區(qū)位輸入法。建立了系統(tǒng)公用字庫,從而使該系統(tǒng)擁有豐富的中西軟件資源。該系統(tǒng)在保留了原系統(tǒng)功能的同時(shí),增加了彝文處理功能。系統(tǒng)包括彝文編碼方案、彝文字庫、輸入輸出的彝文顯示、打印等一套程序。最突出的特點(diǎn)是: 彝、漢、西文可以隨機(jī)混合編排打印??蓹M排也可豎排,也可以打印長體和扁體彝文,有從A~P的幾十種字號的彝文。該系統(tǒng)還可以與計(jì)算機(jī)激光照排系統(tǒng)聯(lián)機(jī)使用。
1992年,為迎接黨的十四大召開,上級有關(guān)領(lǐng)導(dǎo)要求黨的十四大會議文件各種翻譯文件和漢文文件一樣都要用激光照排統(tǒng)一規(guī)格統(tǒng)一印刷。為向黨的十四大獻(xiàn)禮,我們?nèi)找箠^戰(zhàn)、修改、編制了彝文編碼方案和彝文字模稿,與北京大學(xué)方正集團(tuán)新技術(shù)開發(fā)公司聯(lián)合在方正系統(tǒng)上開發(fā)了“北大方正彝文激光照排系統(tǒng)”。該系統(tǒng)建立了白體、宋體、黑體等彝文矢量精密字庫。字體美觀,符合書籍、報(bào)刊印刷要求。鍵盤未作任何改動(dòng)。該系統(tǒng)有區(qū)位碼、彝拼碼兩種輸入法,有書版和報(bào)版,是當(dāng)前報(bào)社、出版社、印刷廠、國家機(jī)關(guān)、學(xué)校教學(xué)科研用的主要彝文計(jì)算機(jī)系統(tǒng)。該系統(tǒng)只作激光精密字庫的發(fā)排使用。因24點(diǎn)陣的打印字庫未修改完,字型不美觀,不適合針打文件,只能做小樣校對。
1995年,西南民族學(xué)院計(jì)算機(jī)中心研制成功了YWPS彝文桌面辦公系統(tǒng)。該系統(tǒng)與WPS金山系統(tǒng)完全兼容,有彝文拼音輸入法、彝文筆畫輸入法,用48點(diǎn)陣的打印字模,字形美觀,適于辦公自動(dòng)化使用。
計(jì)算機(jī)《YWUS彝文系統(tǒng)》是在希望漢字系統(tǒng)UCDOS6.0下開發(fā)出來的,該系統(tǒng)具有希望漢字系統(tǒng)的所有功能,并提供了彝文拼音輸入法、彝文筆畫輸入法。
《YWWIN彝文系統(tǒng)》是在中文WINDOWS95下開發(fā)的。彝文WINDOWS95提供了彝文全拼(彝全拼)輸入法、彝文簡拼(彝拼)輸入法、彝文筆畫(彝筆)輸入法、彝語詞匯(彝詞)輸入法。
《計(jì)算機(jī)彝文字幕系統(tǒng) YWZM》是集彝文、漢文、英文為一體,具有圖像、文字編輯、創(chuàng)作、播放等廣播級字幕系統(tǒng)。彝漢字幕系統(tǒng)采用加拿大進(jìn)口圖像卡作為硬件平臺,用32位保護(hù)模式進(jìn)行編程,因而系統(tǒng)穩(wěn)定性好、速度快、編輯十分方便、視頻指標(biāo)高。
彝漢字幕系統(tǒng)采用界面菜單人機(jī)對話方式,界面菜單有文本編輯、字幕創(chuàng)作、字幕播出、卡拉OK制作、藝術(shù)繪畫、新聞唱詞、視頻調(diào)整、系統(tǒng)退出等功能,彝漢字幕系統(tǒng)中有彝文白體、宋體兩種字體,漢字字體40多種,英文字體幾十種,有四十多種播出方式。
彝漢字幕系統(tǒng)適用于電視錄像字幕、新聞字幕,彝漢文卡拉OK制作等。
《信息交換用彝文編碼字符集》、《信息交換用彝文15×16 點(diǎn)陣字模集及數(shù)據(jù)庫》1988~1989 年,由四川省民委、國家電子工業(yè)部共同提出。 主要起草人: 沙馬拉毅;發(fā)布時(shí)間: 1992 年;發(fā)布機(jī)關(guān): 國家技術(shù)監(jiān)督局。
本標(biāo)準(zhǔn)于1989年制定完成,收彝文規(guī)范字819個(gè),帶次高調(diào)符號彝文345個(gè),一個(gè)替音符號C(wu),共計(jì)1 165個(gè)彝文字符,編碼于16區(qū)~28區(qū),其他圖形符688個(gè),編碼于1區(qū)~9區(qū)。1 165個(gè)彝文字符采用彝文字母表以音序排列,便于輸入和查找。
1989年7月,云南、貴州、廣西、四川、北京的有關(guān)計(jì)算機(jī)專家和彝語文專家及有關(guān)省市區(qū)領(lǐng)導(dǎo)90余人,云集涼山彝族自治州首府西昌邛海賓館,歷時(shí)三天對二項(xiàng)彝文信息處理國家標(biāo)準(zhǔn)方案進(jìn)行了熱烈討論,最后一致同意將1 165個(gè)規(guī)范彝文國家標(biāo)準(zhǔn)方案上報(bào)國家機(jī)關(guān)頒布。
1992年該項(xiàng)標(biāo)準(zhǔn)由國家標(biāo)準(zhǔn)出版社出版、國家技術(shù)監(jiān)督局頒布實(shí)施。
(GB 13135-91)
這是與《信息交換用彝文編碼字符集》同時(shí)制定并審定通過,同時(shí)發(fā)布實(shí)施的。主要起草人為沙馬拉毅。該標(biāo)準(zhǔn)規(guī)定了信息交換彝文圖形字符的15x16點(diǎn)陣字模及其數(shù)據(jù)。它主要適用于彝文信息處理系統(tǒng)中的顯示設(shè)備,也可適用于點(diǎn)陣印刷設(shè)備和其他有關(guān)設(shè)備。本標(biāo)準(zhǔn)提供彝文字形 1 165個(gè),其他圖形符號688個(gè)。這些字符橫向?yàn)?5點(diǎn),縱向?yàn)?6點(diǎn)。字形實(shí)用、美觀,完全適用于屏幕顯示等。
該標(biāo)準(zhǔn)規(guī)定了信息交換彝文圖形字符的24×24點(diǎn)陣字模及其數(shù)據(jù)。它主要適用于彝文信息處理系統(tǒng)中的顯示設(shè)備,也可適用于點(diǎn)陣印刷設(shè)備和其他有關(guān)設(shè)備。本標(biāo)準(zhǔn)提供彝文字形 1 165個(gè),其他圖形符號688個(gè)。這些字符橫向?yàn)?4點(diǎn),縱向?yàn)?4點(diǎn)。字形實(shí)用、美觀,完全適用于屏幕顯示等。
《通用多八位彝文編碼字符集》該標(biāo)準(zhǔn)由國家技術(shù)監(jiān)督局、國家電子工業(yè)部、國家語委及國家民委下達(dá)任務(wù)。四川民族事務(wù)委員會、四川省民語委、西南民族學(xué)院負(fù)責(zé)研制。主要研制人員為沙馬拉毅。
《通用多八位彝文編碼字符集》 國際信息標(biāo)準(zhǔn)方案于1994年4月作為中國提案提交國際信息組織ISO/IEC JTCI/SC2/WG2第25次會議。1994年4月受電子部和國家技術(shù)監(jiān)督局及國家民委的派遣,由周永軍、沙馬拉毅等六人組成中國代表團(tuán)赴土耳其出席第25次WG2會議。
會上,中國代表團(tuán)宣讀了“關(guān)于彝文進(jìn)入ISO10646BMP基本平面”的提案,參加會議的有中國、美國、日本、新加坡、韓國、土耳其、加拿大、芬蘭、德國、希臘、越南等32個(gè)國家的專家。在會上,中國代表團(tuán)全面介紹了我國彝文使用的情況,包括彝族人口、文字使用的各級學(xué)校、機(jī)關(guān)、文教、新聞出版等。經(jīng)過討論,WG2會議同意接納中國的彝文提案,并提交下次WG2第26次會議討論。會后,英國專家休·諾斯和愛爾蘭專家麥克對中國彝文方案提出了不同看法。他們認(rèn)為從資料和宣傳中得知規(guī)范彝文只有819個(gè),而中國提案中則有1 165個(gè)字,這會增大BMP平面占用空間的,所以他們也各自提出了彝文國際標(biāo)準(zhǔn)方案。1994~1998年間,經(jīng)過中國代表的反駁和再三說服提出1 165個(gè)彝文字符的原因,終于說服了外國專家對彝文的不同意見。通過三輪的國家投票。終于 在1998年丹麥會議上審定通過,并錄入2000年版的國際信息標(biāo)準(zhǔn)集,作為彝文國際信息標(biāo)準(zhǔn)頒布實(shí)施。
2003年,西南民族大學(xué)研究的彝文輸入法及其鍵盤布局獲得國家專利。在此基礎(chǔ)上,西南民族大學(xué)民族文字信息處理研究所組成了彝文手機(jī)輸入法和彝文字庫的研究課題組,課題組廣泛采集彝文手寫字樣共31 625個(gè)不同的手寫字樣,創(chuàng)建了24點(diǎn)陣的彝文點(diǎn)陣字庫,翻譯了13 000多條彝文手機(jī)術(shù)語;設(shè)計(jì)出了彝文顯示字模,彝文拼音和筆畫輸入模式,彝文手寫樣式,彝文電子圖書等,為彝文手機(jī)軟件的進(jìn)一步開發(fā)打下了堅(jiān)實(shí)的基礎(chǔ)。
2009年5月,西南民族大學(xué)和北京網(wǎng)道公司聯(lián)合開發(fā)成功了彝文手機(jī)。該手機(jī)是我國首款民族文字的手機(jī)。 共推出6款彝文手機(jī),包括5款GSM手機(jī)和1款CDMA手機(jī)。具有全彝文界面,編輯、收發(fā)彝文短信、彩信,彝文拼音輸入和手寫輸入,彝族風(fēng)格圖片、鈴聲和彝文電子書等特色功能。該產(chǎn)品實(shí)現(xiàn)了對包括文字輸入在內(nèi)的全部手機(jī)功能進(jìn)行的系統(tǒng)整合,使彝族地區(qū)手機(jī)用戶可以在手機(jī)上使用熟悉的文字和習(xí)慣進(jìn)行手機(jī)操作和信息交流。
研制成功的彝文手機(jī),被國內(nèi)外各大媒體譽(yù)為“彝語文發(fā)展進(jìn)程中的里程碑”, 使歷史悠久的彝族傳統(tǒng)文化與移動(dòng)通信技術(shù)相結(jié)合,為彝語言文字向科技化、信息化邁進(jìn)開辟了一條新路,為彝區(qū)經(jīng)濟(jì)的發(fā)展注入新的活力。
1999年,計(jì)算機(jī)彝文拼音輸入碼和彝文筆畫碼基本定型。我們就將1 165個(gè)彝文字符、43個(gè)聲母和10個(gè)韻母的拉丁字母輸入碼、筆畫輸入碼及其在計(jì)算機(jī)鍵盤的布局申報(bào)了國家專利。經(jīng)過四年的審查審定,于2003年獲得了國家專利證書。專利號: ZL00 1 12801.9,證書號: 第117415號。
從現(xiàn)有的中文信息處理理論和方法以及彝語言資源數(shù)據(jù)庫的現(xiàn)狀,規(guī)范彝文信息處理以后要做的研究課題相當(dāng)多,例如,文字識別、語音識別、機(jī)器翻譯及其他民族語言對照詞庫、跨平臺的操作以及計(jì)算機(jī)彝文網(wǎng)絡(luò)系統(tǒng)等,還要開發(fā)基于彝語言資源庫的多種應(yīng)用系統(tǒng),如果這些項(xiàng)目都實(shí)現(xiàn)了,規(guī)范彝文信息處理將會有更輝煌的發(fā)展與前景。
隨著彝族地區(qū)經(jīng)濟(jì)文化的發(fā)展,規(guī)范彝文信息處理技術(shù)的應(yīng)用上必將得到更大范圍的發(fā)展。我們有理由相信規(guī)范彝文信息處理會像其他學(xué)科一樣,需要經(jīng)過眾多學(xué)者長久的、堅(jiān)持不懈的探索和實(shí)踐。我們期待著語言學(xué)(包括計(jì)算語言學(xué))、語音學(xué)、信息科學(xué)、智能科學(xué)、計(jì)算機(jī)科學(xué)、哲學(xué)等各個(gè)領(lǐng)域的專家密切合作,在規(guī)范彝文信息處理中實(shí)現(xiàn)“規(guī)則與統(tǒng)計(jì)共舞,語言隨計(jì)算齊飛”。
1998 年,在滇、川、黔、桂四省(區(qū)) 彝族古籍整理協(xié)作會第六次會議上通過了“將國務(wù)院批準(zhǔn)的四川規(guī)范彝文作為我國彝族統(tǒng)一文字的會議紀(jì)要”。至此,計(jì)算機(jī)彝文信息處理事業(yè)得到了迅猛發(fā)展。2000年后彝文信息處理技術(shù)的各項(xiàng)成果如春筍般涌現(xiàn),從開始只能對單字的處理到現(xiàn)在的詞匯處理,從文書編輯到電子彝文出版系統(tǒng),已經(jīng)形成了一套完整的彝文信息處理技術(shù)體系。2001年由四川民族出版社出版了專著《計(jì)算機(jī)彝文信息處理》; 2005年研制出四川省教育廳的“中小學(xué)漢彝對照電子詞典”完成了國家民委課題“彝文文獻(xiàn)全文數(shù)據(jù)庫研究與開發(fā)”均填補(bǔ)了國內(nèi)相關(guān)方面的空白;2006年西南民族大學(xué)與北大方正合作開發(fā)的UNICODE彝文系統(tǒng)問世,計(jì)算機(jī)彝文字體從開始的兩種發(fā)展到現(xiàn)在的白體、黑體、細(xì)黑體、宋體、仿宋體、綜藝體、圓頭體、手寫體等8種字體;2007年西南民族大學(xué)與北大方正合作研發(fā)的彝文書版研發(fā)成功;2008年完成了“彝語六大方言語料庫”的建設(shè);2008年研制建立了“彝漢雙語平行語料庫和術(shù)語庫” 2009年研制出的“彝語語料庫”;2009年西南民族大學(xué)與中國社會科學(xué)院民族學(xué)與人類學(xué)所合作完成了國家教育部重點(diǎn)項(xiàng)目“彝語聲學(xué)參數(shù)數(shù)據(jù)庫”,開創(chuàng)了彝語實(shí)驗(yàn)語音學(xué)研究的先河,也為西南少數(shù)民族語言實(shí)驗(yàn)語音學(xué)研究工作的開展進(jìn)行了有意義的探索。2009年11月,全國彝語術(shù)語標(biāo)準(zhǔn)化工作委員會在西南民族大學(xué)成立,這是我國彝語文信息化處理研究工作的一件大事,對進(jìn)一步推動(dòng)滇、川、黔、桂四省區(qū)彝語文全面規(guī)范化、標(biāo)準(zhǔn)化、信息化進(jìn)程,促進(jìn)彝語文信息化建設(shè)的健康發(fā)展具有重要的現(xiàn)實(shí)意義和深遠(yuǎn)的歷史意義。
通過30年的社會實(shí)踐,彝文信息處理的研究成果已經(jīng)已廣泛應(yīng)用于新聞出版、教學(xué)科研、國家機(jī)關(guān)等各領(lǐng)域,以及全國黨代會、全國人民代表大會、全國政協(xié)會議等全國性的大會, 加快了彝語文工作的現(xiàn)代化和信息化建設(shè)的步伐,推進(jìn)了彝族社會進(jìn)入現(xiàn)代化信息時(shí)代的進(jìn)程。
在今天,Internet把世界各地的計(jì)算機(jī)聯(lián)接了起來,共享信息和技術(shù)是必然的趨勢和需要,因此各地區(qū)、各民族之間的各種語言信息資源的互相交流變得越來越重要。規(guī)范彝文信息處理方面的開發(fā)應(yīng)用,不僅標(biāo)志著規(guī)范彝語文的社會功能在這一領(lǐng)域的不斷擴(kuò)展,而且為彝語言文字的繁榮和發(fā)展,為彝語言文字的現(xiàn)代化開辟了廣闊前景,強(qiáng)勁地推動(dòng)了彝族地區(qū)政治、經(jīng)濟(jì)、文化的全面發(fā)展,具有劃時(shí)代意義。
[1] 沙馬拉毅.計(jì)算機(jī)彝文信息處理研究述論[J].西南民族大學(xué)學(xué)報(bào),2002,(4):6-9.
[2] 錢玉趾,董正罡. 彝文信息處理與沙馬拉毅的原創(chuàng)性[J].西南民族大學(xué)學(xué)報(bào),2007,(4):49-55.
[3] 沙馬拉毅.計(jì)算機(jī)彝文信息處理[M].四川民族出版社,2000.
[4] Keogh J.JZME開發(fā)大全[M].潘穎,王磊譯,清華大學(xué)出版社,2004.
[5] 李金發(fā).試論計(jì)算機(jī)彝文字符編碼的轉(zhuǎn)化[J].云南民族大學(xué)學(xué)報(bào),2008,(1):82-86.
[6] 錢玉趾.規(guī)范彝文編碼方案[J].中文信息,1990,(3).