文|吳勰,印金成
貴州彝文信息技術(shù)研究概述
文|吳勰,印金成
從上世紀(jì)80年代開始,我國(guó)少數(shù)民族語言文字信息化建設(shè)工作就啟動(dòng)了,經(jīng)過30多年不斷發(fā)展,取得一系列標(biāo)志性成果。其中我國(guó)藏文、蒙文、維吾爾文、現(xiàn)代彝文等少數(shù)民族語言文字成績(jī)斐然,先后完成了“文字編碼字符集、字型、鍵盤等國(guó)家標(biāo)準(zhǔn)研制工作,并先后獲得了國(guó)際ISO/IEC 10646標(biāo)準(zhǔn),即每個(gè)民族文字字符在Unicode編碼體系中的唯一性,實(shí)現(xiàn)與全世界多文種的統(tǒng)一編碼、同平臺(tái)顯示。通過民族文字信息處理學(xué)科的基礎(chǔ)研究工作的扎實(shí)推進(jìn),成功解決了民族文字信息技術(shù)的輸入、輸出難題。在現(xiàn)代移動(dòng)通訊手機(jī)上也實(shí)現(xiàn)了民族文字的數(shù)字化傳輸與應(yīng)用。近幾年,藏文、現(xiàn)代彝文等在語料庫(kù)建設(shè)、智能機(jī)器翻譯、民族語言文字網(wǎng)站、大數(shù)據(jù)云平臺(tái)等信息化產(chǎn)業(yè)方面獲得很大的發(fā)展,與現(xiàn)代社會(huì)信息技術(shù)發(fā)展共同進(jìn)步。
運(yùn)用現(xiàn)代信息技術(shù)充分發(fā)掘民族語言文字資源,開發(fā)的各種民族語言文字信息化產(chǎn)品在民族地區(qū)社會(huì)生產(chǎn)、生活等各個(gè)領(lǐng)域得到了廣泛應(yīng)用。少數(shù)民族語言文字信息化建設(shè),是民族地區(qū)信息化產(chǎn)業(yè)建設(shè)的重要組成部分,是基礎(chǔ)性建設(shè)工作。早在2008年北京語言大學(xué)黨委書記李宇明教授就指出,“民族語言文字是中華民族的寶貴財(cái)富,是非物質(zhì)文化遺產(chǎn)的重要內(nèi)容。對(duì)其進(jìn)行規(guī)范化、標(biāo)準(zhǔn)化、信息化建設(shè),成為當(dāng)務(wù)之急,是信息時(shí)代提出的新任務(wù)”。
彝文是我國(guó)少數(shù)民族文字之一,開展彝文信息處理研究工作是現(xiàn)代信息社會(huì)發(fā)展的必然要求。開發(fā)彝文信息處理技術(shù),實(shí)現(xiàn)彝文的數(shù)字化應(yīng)用,才能更有效地發(fā)揮彝文傳承民族文化的載體作用。
彝文信息處理技術(shù)是隨著現(xiàn)代計(jì)算機(jī)信息技術(shù)的快速發(fā)展應(yīng)運(yùn)而生的一門新興的應(yīng)用技術(shù),是指利用計(jì)算機(jī)技術(shù)對(duì)彝文字符的音、形、義等信息進(jìn)行處理。即對(duì)字、詞、句、篇章的輸入、輸出、識(shí)別、分析、理解、生成等的操作與加工技術(shù),是實(shí)現(xiàn)彝文信息化的關(guān)鍵性技術(shù)。
貴州在彝文信息處理基礎(chǔ)研究工作中,目前主要以開發(fā)貴州彝文計(jì)算機(jī)輸入軟件為突破口,開發(fā)具有自主知識(shí)產(chǎn)權(quán)的核心專利技術(shù),同時(shí)積極研制相關(guān)規(guī)范標(biāo)準(zhǔn),開創(chuàng)了貴州彝語文信息化產(chǎn)業(yè)大繁榮、大發(fā)展的新格局。
(一)整理彝文字符,建立《信息技術(shù) 彝文編碼字符集﹒大字符集》
字符(Character)是各種文字和符號(hào)的總稱,包括彝文字符、標(biāo)點(diǎn)符號(hào)、圖形符號(hào)、數(shù)字符號(hào)等。本文中“彝文字符集”(Yi Character Set)是指在貴州境內(nèi)使用的彝文字、標(biāo)點(diǎn)符號(hào)、圖形符號(hào)、數(shù)字符號(hào)等彝文信息交換所需的多個(gè)字符集合。
彝文字符整理是彝文信息處理的基礎(chǔ)研究工作。從2012年貴州開展貴州彝文字符整理工作,筆者通過負(fù)責(zé)貴州省2012年社科基金項(xiàng)目“貴州彝文編碼字符集研制”,在畢節(jié)市彝文文獻(xiàn)翻譯研究中心主任王繼超老師的支持下,以貴州《簡(jiǎn)明彝漢字典》、《彝文字釋》為選字藍(lán)本,以貴州經(jīng)典傳世彝文文獻(xiàn)《彝族源流》、《宇宙人文論》等為選字范本,在常用字整理工作中,采用“源自古籍,保持風(fēng)貌,字形美觀,便于書寫,符合用字規(guī)律”原則來開展工作。對(duì)于異體字整理按照“最大限度剔除異體字?jǐn)?shù)量,選擇使用頻率高的字形,充分遵循彝文的構(gòu)字規(guī)律,選擇結(jié)構(gòu)合理、筆畫簡(jiǎn)易的字形”為選字原則。構(gòu)建5000余字《信息技術(shù) 彝文編碼字符集.基本集》,為貴州彝文信息處理學(xué)科發(fā)展奠定基礎(chǔ)。
2014年根據(jù)貴州彝文古籍文獻(xiàn)數(shù)字化整理翻譯的用字需求,筆者與貴州工程應(yīng)用技術(shù)學(xué)院(原畢節(jié)學(xué)院)的劉云老師合作,依據(jù)《滇川黔桂彝文字集?貴州卷》里彝文字符,同時(shí)參考貴州傳世彝文文獻(xiàn)。對(duì)彝文字符進(jìn)行增補(bǔ),對(duì)于同組異體字整理中盡量選擇結(jié)構(gòu)合理、筆畫簡(jiǎn)潔的字形,放棄彎曲復(fù)雜疑難筆畫,糾正有的使用者在日常使用中故意增加筆畫,或手寫錯(cuò)誤字形,整理出4000余字,并對(duì)彝文字形進(jìn)行矯正、規(guī)范,建立9000余字《信息技術(shù) 貴州彝文編碼字符集?大字符集》,能滿足彝文日常應(yīng)用、彝語文教學(xué)、彝文文獻(xiàn)整理、翻譯等用字需求,達(dá)到彝文信息技術(shù)開發(fā)的用字需求。
(二)開發(fā)彝文印刷字體,建立彝文字庫(kù)
彝文印刷字體是以《信息技術(shù) 彝文編碼字符集.大字符集》為研究藍(lán)本,采用True Type這種新型數(shù)字化字形描述技術(shù),根據(jù)彝文字體設(shè)計(jì)“易讀性、藝術(shù)性和思想性”的基本原理,按照“平、直、正、方、圓、勻”的要求設(shè)計(jì)彝文基礎(chǔ)筆畫。在此基礎(chǔ)之上設(shè)計(jì)True Type彝文“正體”字形,建立彝文字庫(kù)。
此外2014年在貴州省民委古籍辦支持下,筆者與研究團(tuán)隊(duì)合作開發(fā)出“彝文楷書字體”。彝文楷書字體是以彝文經(jīng)典古籍文獻(xiàn)為基礎(chǔ),以彝文經(jīng)典書法作品為依托,如“水西大渡
河建石橋碑記”,同時(shí)參照學(xué)界前期研究成果,如《簡(jiǎn)明彝漢字典》,《貴州彝族語言文字》等學(xué)科著作,對(duì)彝文書寫規(guī)律、筆畫特征、字型結(jié)構(gòu)、書寫筆順等研究成果,歸納彝文楷書字體的藝術(shù)特征及基本規(guī)律。按照“筆形塑造規(guī)范、字型重心平穩(wěn)、文本編排合理”的要求,由貴州工程應(yīng)用技術(shù)學(xué)院(原畢節(jié)學(xué)院)彝學(xué)研究院的王明亮老師用毛筆書寫而成,再用專業(yè)字體軟件Font Creator對(duì)彝文字形進(jìn)行修整,建立彝文楷書字庫(kù)。彝文楷書字體實(shí)現(xiàn)與彝文傳統(tǒng)手寫字體風(fēng)格相一致(見圖1),不僅能滿足彝文日常辦公應(yīng)用,同時(shí)也能滿足彝文古籍文獻(xiàn)數(shù)字化整理的用字需求。
建立的彝文計(jì)算機(jī)字庫(kù),實(shí)現(xiàn)彝文字體在計(jì)算機(jī)中的顯示應(yīng)用,彝文字在計(jì)算機(jī)文檔中像其他文字一樣可進(jìn)行排版和打印輸出,實(shí)現(xiàn)開發(fā)彝文輸出技術(shù)目標(biāo)。
(三)研制貴州彝文計(jì)算機(jī)編碼輸入方案,設(shè)計(jì)彝文筆畫輸入方法,開發(fā)彝文計(jì)算機(jī)輸入法軟件
貴州彝文計(jì)算機(jī)編碼輸入方案主要包括以下幾個(gè)方面研究?jī)?nèi)容:第一,根據(jù)彝文構(gòu)字規(guī)律、字型結(jié)構(gòu)、書寫筆順等基本要素,在《彝文編碼字符集》基礎(chǔ)之上,整理彝文構(gòu)字部件,建立彝文部件系統(tǒng),設(shè)計(jì)出彝文部件碼,為設(shè)計(jì)彝文字形輸入碼打下基礎(chǔ)。第二,基于現(xiàn)有英文鍵盤字母區(qū),根據(jù)人體工學(xué)原理對(duì)字母鍵盤的合理化要求,依據(jù)彝文部件與英文字母鍵形狀相似的特點(diǎn),在英文鍵盤字母區(qū),對(duì)彝文部件碼進(jìn)行規(guī)律分布,設(shè)計(jì)出彝文筆畫鍵位圖。
第三,在上述研究基礎(chǔ)之上,根據(jù)彝文書寫筆順,設(shè)計(jì)出彝文筆畫“傳統(tǒng)和簡(jiǎn)易”兩種輸入方法。同時(shí)根據(jù)彝文字形構(gòu)字特征,設(shè)計(jì)彝文末筆結(jié)構(gòu)識(shí)別碼,以減少彝文筆畫輸入碼的重碼率。
如上所述,彝文筆畫輸入方法是在彝文字形特征基礎(chǔ)之上,依據(jù)彝文基本字型結(jié)構(gòu),按照彝文書寫筆順,結(jié)合不同用戶使用需求,成功研制出彝文筆畫輸入方案,解決彝文字符輸入問題。
基于Windows平臺(tái)的核心組件輸入法管理器(IMM)-輸入法編輯器(IME)結(jié)構(gòu)開發(fā)彝文輸入法程序,攻克“輸入法與操作系統(tǒng)的關(guān)系,IME用戶界面”等技術(shù)難題,采用VC++編程開發(fā)接口式貴州彝文輸入法,生成彝文輸入法安裝程序,實(shí)現(xiàn)彝文輸入法軟件在計(jì)算機(jī)中方便快捷的安裝使用,實(shí)現(xiàn)開發(fā)彝文計(jì)算機(jī)輸入法軟件目標(biāo)。
彝文計(jì)算機(jī)輸入法軟件的成功開發(fā),實(shí)現(xiàn)了彝文方便快捷的數(shù)字化輸入,徹底改變彝文手寫的歷史現(xiàn)狀,使得彝文以電子文本形式得以永久保存,為保護(hù)和弘揚(yáng)彝文古籍文獻(xiàn)搭建數(shù)字化平臺(tái)。
開發(fā)的貴州彝文信息技術(shù)在日常辦公應(yīng)用、彝語文教學(xué)和彝文古籍文獻(xiàn)翻譯整理方面得到很好應(yīng)用?,F(xiàn)在主要在貴州工程應(yīng)用技術(shù)學(xué)院和貴州民族大學(xué)兩個(gè)單位的彝文古籍文獻(xiàn)數(shù)字化翻譯整理中得到有效使用,改變彝文手寫應(yīng)用現(xiàn)狀,實(shí)現(xiàn)彝文在計(jì)算機(jī)中的數(shù)字化應(yīng)用。
(一)用彝文輸入法軟件編輯出版《通用彝文字典》
由貴州工程應(yīng)用技術(shù)學(xué)院(原畢節(jié)學(xué)院)承擔(dān)的教育部"國(guó)家語委民族語言文字規(guī)范標(biāo)準(zhǔn)建設(shè)及信息化項(xiàng)目“古彝文整理及計(jì)算機(jī)輸入軟件”,研究成果為“超方言古彝文輸入法軟件”。該軟件用于錄入、編輯排版了2016年出版的《通用彝文字典》,該部字典采用數(shù)字化整理方式,字典中的國(guó)際音標(biāo)、彝文字、漢文以及標(biāo)點(diǎn)符號(hào)等全部實(shí)現(xiàn)電腦錄入,編輯排版整部字典86萬字內(nèi)容。比較以前出版彝文書籍,書中的彝文字均是在漢文、國(guó)際音標(biāo)等字符已經(jīng)排版好的前提下,在打印出的樣稿中手寫彝文字符,因此用彝文輸入法軟件編輯排版《通用彝文字典》,這不僅極大地減輕了彝文書籍編輯排版的繁瑣工作量,提高了彝文應(yīng)用質(zhì)量,更是開拓了彝文新興的應(yīng)用領(lǐng)域。
(二)實(shí)現(xiàn)彝文古籍文獻(xiàn)數(shù)字化整理
貴州目前用彝文軟件整理的彝文文獻(xiàn)有貴州工程應(yīng)用技術(shù)學(xué)院翻譯整理《彝族盧比精選譯著》,貴州民族大學(xué)與六盤水市檔案局合作翻譯整理《彝文通書》,這兩部彝文古籍都用貴州彝文軟件來編輯整理,其中彝文字符的錄入、編輯、排版與修改均采用數(shù)字化技術(shù),文獻(xiàn)中的彝文字符、國(guó)際音標(biāo)、漢字等字符實(shí)現(xiàn)了同平臺(tái)應(yīng)用,開啟貴州彝文古籍文獻(xiàn)數(shù)字化整理新征程。
運(yùn)用現(xiàn)代計(jì)算機(jī)技術(shù)對(duì)貴州彝文字符進(jìn)行全面、系統(tǒng)的開發(fā),著力解決了“彝文的輸出、輸入技術(shù)和基于IMMIME輸入法結(jié)構(gòu)開發(fā)彝文輸入法程序”等3個(gè)關(guān)鍵性技術(shù),自足開發(fā)出貴州彝文計(jì)算機(jī)輸入法軟件系統(tǒng),具有重大的應(yīng)用價(jià)值和長(zhǎng)遠(yuǎn)的社會(huì)意義。
通過開展彝文信息技術(shù)研究,開發(fā)彝文計(jì)算機(jī)輸入系統(tǒng),解決彝文字符人機(jī)交際問題,實(shí)現(xiàn)彝文在計(jì)算機(jī)中方便、快捷、高效的數(shù)字化應(yīng)用,使得彝文告別手寫應(yīng)用現(xiàn)狀,使古老的彝文獲得新興承載方式,滿足了現(xiàn)代信息社會(huì)對(duì)彝文數(shù)字化應(yīng)用需求。
在彝文信息處理學(xué)科基礎(chǔ)研究之上開發(fā)彝文信息技術(shù),解決彝文字符信息數(shù)字化輸出和輸入的基礎(chǔ)性實(shí)用技術(shù),構(gòu)建彝文信息處理技術(shù)平臺(tái),實(shí)現(xiàn)彝文數(shù)字化關(guān)鍵性技術(shù)突破,為貴州彝語文信息化產(chǎn)業(yè)的發(fā)展奠定堅(jiān)實(shí)基礎(chǔ),同時(shí)填補(bǔ)貴州彝語文信息處理技術(shù)的空白局面。
(一)存在的問題
首先,目前我國(guó)傳統(tǒng)彝文沒有國(guó)際標(biāo)準(zhǔn)化組織ISO的國(guó)際標(biāo)準(zhǔn)ISO/IEC 10646編碼空間,鑒于彝文這種情況,貴州彝文字庫(kù)只能借用其他民族文字的編碼空間,但會(huì)影響彝文計(jì)算機(jī)輸入法軟件系統(tǒng)使用的穩(wěn)定性。
其次,隨著彝文古籍文獻(xiàn)數(shù)字化建設(shè)進(jìn)程的加快,目前建立的彝文計(jì)算機(jī)字庫(kù)中彝文字還不能完全滿足彝文古籍文獻(xiàn)翻譯整理的用字需求。
第三,在學(xué)界現(xiàn)有研究基礎(chǔ)之上,貴州開發(fā)的彝文計(jì)算機(jī)筆畫輸入法軟件,僅實(shí)現(xiàn)了彝文筆畫輸入,彝文拼音、手寫、語音等輸入方法還沒有實(shí)現(xiàn),限制彝文在相關(guān)領(lǐng)域的應(yīng)用。
(二)發(fā)展建議
第一,目前我國(guó)傳統(tǒng)彝文沒有國(guó)際統(tǒng)一的編碼標(biāo)準(zhǔn),需要相關(guān)單位繼續(xù)向國(guó)際標(biāo)準(zhǔn)化組織ISO,提交申請(qǐng)我國(guó)傳統(tǒng)彝文的ISO/IEC 10646的正式提案,實(shí)現(xiàn)傳統(tǒng)彝文與全世界多文種的統(tǒng)一編碼,同平臺(tái)顯示應(yīng)用。
第二,隨著彝文古籍文獻(xiàn)數(shù)字化工作開展的需要,不斷增加彝文字符、包括生僻字、疑難字等,進(jìn)一步完善彝文計(jì)算機(jī)字庫(kù),才能滿足彝文計(jì)算機(jī)用字需求。
第三,今后需要另立項(xiàng)目來開展彝文拼音輸入方法研究工作。針對(duì)彝文讀音各按方音念讀,彝文讀音不統(tǒng)一,且采用了國(guó)際音標(biāo)注音等情況,研制貴州彝文拉丁字母拼音輸入方案,開展彝文拼音輸入法技術(shù)開發(fā)研究工作,實(shí)現(xiàn)彝文在計(jì)算機(jī)中拼音輸入。
第四,隨著研究成果推廣應(yīng)用,根據(jù)用戶在實(shí)踐中使用彝文輸入軟件反饋信息,需要對(duì)彝文部件碼、鍵位等作少量的微觀調(diào)整,進(jìn)一步完善彝文筆畫編碼輸入方案,不斷提高彝文計(jì)算機(jī)使用效率。
筆者從參加工作以來,就一直從事彝文信息處理基礎(chǔ)理論和彝文信息技術(shù)開發(fā)研究工作,多年實(shí)踐證明,彝文字符作為彝文信息處理的研究對(duì)象,筆者深知由于彝文字符數(shù)量極大,對(duì)貴州境內(nèi)彝文字符整理與開發(fā)研究工作不可能一蹴而就,需要緊密結(jié)合彝語文學(xué)科建設(shè)、彝文古籍文獻(xiàn)翻譯整理等實(shí)際用字需求,進(jìn)行合理、科學(xué)規(guī)劃,結(jié)合彝文信息處理學(xué)科特征,分階段、有步驟地有序推進(jìn)。
從2012年到2015年,貴州彝文信息研究工作是在充分利用學(xué)界前期研究成果基礎(chǔ)之上,開展彝文信息技術(shù)研究工作,取得突破性成就,基本上解決了彝文字符輸入和輸出問題,實(shí)現(xiàn)彝文在計(jì)算機(jī)中的數(shù)字化日常應(yīng)用。但上述研究成果僅是階段性的,還沒有完成彝文信息處理基礎(chǔ)研究任務(wù)。
從2016年開始,貴州彝文信息處理研究團(tuán)隊(duì)從彝文古籍文獻(xiàn)數(shù)字化整理入手,在已建立《信息技術(shù) 彝文編碼字符字符集·大字符集》基礎(chǔ)上,繼續(xù)開展彝文字符整理工作。目前研究團(tuán)隊(duì)對(duì)貴州經(jīng)典傳世彝文文獻(xiàn)《西南彝志》全26卷進(jìn)行數(shù)字化整理,《西南彝志》全26卷中僅彝文字就有30多萬字,不僅字量大,而且質(zhì)量上乘。現(xiàn)階段在計(jì)算機(jī)中用彝文軟件錄入彝文字,對(duì)《西南彝志》中彝文字符進(jìn)行系統(tǒng)梳理,增補(bǔ)400多個(gè)彝文編碼字符集中沒有的字符,不斷擴(kuò)充彝文編碼字符集、彝文字庫(kù),完善彝文計(jì)算機(jī)輸入系統(tǒng)。目前以彝文古籍文獻(xiàn)數(shù)字化整理為突破口,尤其是像《西南彝志》這樣傳世經(jīng)典文獻(xiàn),繼續(xù)開展貴州彝文信息處理學(xué)科基礎(chǔ)研究工作,才能開發(fā)出高質(zhì)量的彝文信息技術(shù)。這一階段通過研究團(tuán)隊(duì)未來3至5年不斷努力,才能完成貴州彝文輸入和輸出信息技術(shù)開發(fā)研究工作。
貴州彝文信息技術(shù)開發(fā)工作,只有在扎實(shí)基礎(chǔ)研究之上,才能開發(fā)出實(shí)用數(shù)字化產(chǎn)品,真正解決彝語文、彝文古籍文獻(xiàn)數(shù)字化難題,實(shí)現(xiàn)彝文被越來越多用戶使用,真正發(fā)揮其傳承民族文化的載體作用,用科技力量助推民族文化的保護(hù)和弘揚(yáng)。
作者單位:貴州民族大學(xué)
2016年國(guó)家語委語言文字科研項(xiàng)目?jī)?yōu)秀成果后期資助計(jì)劃項(xiàng)目“基于彝文古籍文獻(xiàn)的貴州傳統(tǒng)彝文字符整理及其輸入法軟件開發(fā)研究”(HQ135-7)成果之一。