李小璐,柳長青
(寧夏大學信息工程學院,寧夏銀川750021)
我國少數(shù)民族文信息化概述
李小璐,柳長青
(寧夏大學信息工程學院,寧夏銀川750021)
我國是一個多元一體的多民族國家,以漢族為主體的其他少數(shù)民族密切交往、相互依存、休戚與共。當前,隨著信息技術的快速發(fā)展,少數(shù)民族文字的信息化進程也隨之加快。我國各少數(shù)民族文信息化程度與漢文相比還存在較大的差距。近年來,經過學者們的共同努力,我國少數(shù)民族文信息化狀況有了較大的進步。該文主要通過對目前少數(shù)民族文字計算機處理平臺的研究來對我國少數(shù)民族文信息化技術做一個概述。
信息化;少數(shù)民族文;西夏文獻;標準化
對少數(shù)民族文的保護、挖掘與整理是中華民族文化保護的重要組成部分,也是了解中華民族文化的基礎。作為民族內部溝通的重要工具,少數(shù)民族文使民族成員之間在意識、行為、情感等各方面產生了一致性。而我國作為一個多民族、多語言和多文字的國家,除漢族以外的其他少數(shù)民族大多數(shù)有其本民族的語言和文字。
由于部分少數(shù)民族聚居于祖國邊疆或內陸,經濟不夠發(fā)達,民族文化發(fā)展受到一定的限制。其語言文字的數(shù)字化和信息化水平普遍較低。這其中,像維吾爾族、苗族、壯族、彝族、蒙古族、藏族以及哈薩克等少數(shù)民族文字依然處在活躍的使用狀態(tài)。隨著計算機技術的發(fā)展及互聯(lián)網(wǎng)的興起,少數(shù)民族文字亟需適應新形勢下傳播的需要,以網(wǎng)絡信息的方式更好的弘揚中華優(yōu)秀傳統(tǒng)文化。本文將從阿爾泰語系、漢藏語系以及已死亡的我國歷史上的民族文字等三個方面對我國少數(shù)民族文字的信息化現(xiàn)狀及其未來發(fā)展做簡要概述。
阿爾泰語系主要分為突厥語族、蒙古語族和通古斯語族三類,目前已基本實現(xiàn)語言文字數(shù)字化的有:突厥語族的烏茲別克文、維吾爾文、撒拉族文、哈薩克文、柯爾克孜文;蒙古語族的蒙古文、達斡爾文;通古斯語族的錫伯文和鄂溫克文。這9種少數(shù)民族文具體實現(xiàn)的狀況是:1987年新疆大學吾守爾教授領導的課題組與新疆維吾爾自治區(qū)語委會合作,起草制定了首個信息處理交換用維文、哈文三項國家標準GB、T12510-1990并發(fā)布實施。之后,新疆又制定了《古維文編碼字符集》國際標準、GB13000《信息交換維哈柯文編碼字符集》國家標準、《信息交換用維哈柯文(曲線)字型白體黑體》國家標準及《信息交換用維哈柯文點陣字型》國家標準。起草制定了信息技術用現(xiàn)代維哈柯文、新文字、古突厥文字三套ISO多八位10646國際標準,信息技術用維哈柯文TrueType和OpenType字形標準(共8種字體);1989年,內蒙古大學蒙古語文研究所和北京大學計算所、北京大學信息技術公司聯(lián)合研制了在DOS環(huán)境下運行的北大華光蒙古文排版系統(tǒng)(后改為北大方正排版6.0)多文種系統(tǒng);錫伯文有三項信息化國家標準,它們是由全國信息技術標準化技術委員會和國家質量技術監(jiān)督局提出并立項的,分別是:GB36044《信息處理、信息交換用錫伯文編碼圖形字符集》、GB36045《信息處理、信息交換用錫伯文字母區(qū)鍵盤布局》、GB36046《信息處理、信息交換用錫伯文點陣字模集與數(shù)據(jù)集》[1-2]。
早在1983年新疆學者對于維吾爾文、哈薩克文、柯爾克孜文(簡稱為維哈柯文)進行了信息化。目前,已實現(xiàn)的少數(shù)民族多語言操作系統(tǒng)平臺有Windows2000/XP系統(tǒng)、維哈柯Linux系統(tǒng)以及支持維哈柯文的Android嵌入式操作系統(tǒng),并且在2010年工信部電子發(fā)展基金項目支持下,新疆大學等單位正在進行Windows 7維哈柯文化研究與開發(fā),并積極開展產業(yè)化推廣應用[3]。2002年,濰坊北大青鳥華光科技股份有限公司開發(fā)出基于Windows2000/XP操作系統(tǒng)的“書林”維、哈、柯、蒙古文公文版、書刊版和報版軟件,適合于辦公、印刷、出版單位和個人使用。
除此之外,我國對于阿爾泰語系少數(shù)民族文數(shù)字化的還有語料庫、電子詞典、機器翻譯、雙語教學以及語音變化現(xiàn)象自動還原等方面。2002年,新疆師范大學玉素甫等人開展“人機互助的通用現(xiàn)代維吾爾語自動標注語料庫加工處理系統(tǒng)的研究”項目;2005年新疆大學吐爾根·依布拉音等人開始著手構建維漢雙語對齊平行語料庫,哈漢雙語對齊平行語料庫,柯漢雙語對齊平行語料庫。
2008年,由吾守爾·斯拉木教授指導新疆大學李豐軍完成了維語輸入法[4]。2012年4月,內蒙古大學碩士薩日娜研究并實現(xiàn)了基于Android平臺的蒙古文輸入法[5],在這一實現(xiàn)中,薩日娜根據(jù)Android平臺的IMT(Input Method Frame)原理,詳細介紹了蒙古文輸入法的各個模塊的實現(xiàn)技術,主要包括候選視圖模塊、輸入視圖模塊以及蒙古文匹配模塊。2007年,北京語言大學博士生趙小兵在中國云南西雙版納傣族自治州開展的第十一屆全國民族語言文字信息學術研討會中提出了構建《蒙古語及三少數(shù)民族語言語料庫資源管理平臺》[6],該平臺中具有蒙古語、鄂倫春語、達斡爾語以及鄂溫克語的語料庫。在構建該語料庫的過程中,主要包括三個部分,具體有:蒙古語語料庫語言資源管理平臺、蒙古語語料庫語言資源宣傳與發(fā)布平臺以及蒙古語語料庫語言資源加工與研究平臺。2010年新疆大學和安徽科大訊飛信息科技股份有限公司聯(lián)合建立了新疆大學訊飛語音及語言聯(lián)合實驗室,該實驗室的成立將進一步提高了維語在語音識別核心技術方面的研究水平。2016年,帕提古麗_艾合買提對基于烏茲別克語進行了語音變化現(xiàn)象的自動還原技術研究[7]。該技術是為了提高詞干提取的準確率,通過分析烏茲別克語中發(fā)生語音變化的詞干本身的特征,設計音變現(xiàn)象的還原模型,并結合詞干庫配對方法來實現(xiàn)自動還原。2016年5月,蘇佩佩在導師哈力木拉提.買買提教授的指導下完成了基于Android移動終端的手寫維吾爾文單詞特征提取研究[8]。
漢藏語系主要分為漢語族、藏緬語族、苗瑤語族以及壯侗語族四類,目前已實現(xiàn)信息化處理的語言有:藏緬語族的藏文、彝文、土家文,苗瑤語族的苗文、瑤文,壯侗語族的侗文、水文、壯文和傣文等9種文字,這些語言文字均已有相應的計算機處理系統(tǒng)。2009年,洛藏對于藏漢英電子詞典硬件產品中的鍵盤以及編碼進行了設計與實現(xiàn)[9-10];2013年,中國民族語文翻譯局研發(fā)了《壯文電子詞典及輔助翻譯軟件》[11];1990年5月,中央民族大學教授張永祥主編的《苗漢詞典》由貴州民族出版社出版;2016年,胡剛、王嘉梅等人合作完成了基于Visual C++6.0和Access 2003的傣文-漢文互譯有聲電子詞典[12]。該字典支持Unicode字符集模式下的傣文與漢文的同屏混合顯示。
2013年,莫禮平、周愷卿、蔣效會等人以苗文的字型結構分析為基礎,提出了基于Unicode標準的方塊苗文編碼方案設計思想并開發(fā)了OpenType苗文字庫[13-14];2011年,戴紅亮教授在第七屆全國語言文字應用學術研討會中提出了傣文語料庫建設的想法;2005年,董芳等人對水書文字的規(guī)范標準進行了研究工作,并制訂了《水書文字字符總集》、《水書文字形體規(guī)范標準》以及水書文字編碼字符集方案[15];2011年,李昀姍采用彝文字特殊的字形結構[16],設計了規(guī)范的彝文字形編碼,并制作了彝文標準字庫,為高質量輸出彝文提供了保證。
2014年,莫禮平在結合Windows、IMM-IME結構分析,以IME轉換接口和IME用戶界面的實現(xiàn)為重點,實現(xiàn)了Windows平臺下的苗文鍵盤輸入法。2011年,馮浩基于之前輸入法的重碼率高的缺點,實現(xiàn)了一種基于自由拆分模式的彝文輸入法[17]。同年,李昀姍設計完成了彝文字庫,并實現(xiàn)了彝文標準輸入法。2015年,胡剛采用Unicode編碼標準,在Windows操作系統(tǒng)下實現(xiàn)了滇南彝文輸入法。網(wǎng)絡下的彝文信息化工作已經實現(xiàn)了彝文版的人民網(wǎng)以及網(wǎng)頁版的彝語在線等網(wǎng)頁應用。其中,“彝語在線”中有彝文字表,彝文拼讀以及彝文詞典等功能,能為更好的學習彝文提供方便;2009年10月,西雙版納傣族自治州建立了第一個西雙版納傣文網(wǎng)站,該網(wǎng)站是一個多語言網(wǎng)站,包括新傣文、老傣文、漢文、英文和泰文;2011年,殷建民在中文信息學報中提出了對于西雙版納傣文新聞網(wǎng)站的研究,在該文中,重點介紹了西雙版納傣文版的新聞網(wǎng)站以及該網(wǎng)站所使用的關鍵技術[18]。除此以外,計算機學者在傣文語音合成系統(tǒng)、自動分詞系統(tǒng)上有所研究。2013年,高延麗在傣文語料庫的基礎上,將中文分詞方法應用到傣文中,結合傣文的特點,設計了一個基于音節(jié)序列標注的傣文分詞系統(tǒng)[19],經過測試該系統(tǒng)的分詞準確率達到了95.58%。2015年,方媛等人基于HMM(隱馬爾科夫模型)語音合成基本框架,設計并實現(xiàn)了傣語語音合成軟件[20]。該軟件包括:語料收集與挑選、錄音、分詞、文本羅馬化(將文本中非標準詞進行消歧和標準化的轉換,然后將傣語聲韻母轉化為拉丁字母,即為文本羅馬化)與標注、上下文屬性和問題集設計以及HMM訓練與合成等功能。2016年,陳志瓊對該語音合成系統(tǒng)進行了進一步優(yōu)化,完成了基于HMM的可訓練傣語語音合成系統(tǒng)[21]。
藏文的信息化方面,1983年美國伊利諾斯大學利用PLA?TO計算上的一個應用軟件TUTOR,實現(xiàn)了藏文字符的輸入、顯示和輸出的字處理系統(tǒng)。1984年,上海教育學院物理系俞樂等人在VICTOR9000微機上利用Basic語言實現(xiàn)了一個具有輸入、顯示和打印功能的藏文字處理系統(tǒng),并用Basic編寫了藏文報表軟件。1986年,青海省藥品檢驗所、青海師范大學、青海民族學院與北京有線電廠合作,在CCDOS2.13下開發(fā)了與漢英文兼容的藏文操作系統(tǒng)TCDOS。2000年,西北民族大學開發(fā)同元藏文系統(tǒng),并實現(xiàn)了網(wǎng)絡字庫;2001年,西藏大學開發(fā)了一套藏文軟件——“火狐”藏文處理系統(tǒng)。2003年,清華大學與西北民族大學合作開發(fā)藏文多字體印刷藏文、混排漢英文檔識別系統(tǒng)。2004年,中國社會科學院民族所與北京理工大學合作研制出藏文識別實驗系統(tǒng)。2005年,中科院軟件所與西藏大學、西北民族大學,聯(lián)合開發(fā)基于Linux的跨平臺藏文信息處理系統(tǒng)和辦公套件。2016年,洛桑嘎登在其導師趙小兵教授的幫助下,完成了藏文的自動分詞與詞性標注研究[22],在該研究中先后構建了35.1M即10多萬個詞匯的分詞語料和78.5M即398萬詞匯的詞性標注語料,并利用這個語料庫構建了基于條件隨場(CRFs)的藏文自動分詞模型和藏文詞性標注模型。最后在此基礎上,設計并實現(xiàn)了一套基于web的藏文分詞標注系統(tǒng)。
西夏文又名河西字、番文、唐古特文,是記錄西夏黨項族語言的文字,屬表意體系,是西夏仿漢字創(chuàng)制的。西夏文數(shù)字化研究最早可以追溯到20世紀50年代末期,哥本哈根斯堪的納維亞亞洲研究所研究員格林斯蒂德完成的《西夏文字的分析》研究[23]。他通過編碼的形式將5819個西夏單字進行收錄,但限于當時的技術水平該套系統(tǒng)無法真正投入實際使用。1996年由日本東京外國語大學亞非語言文化研究所學者中島干起主持完成了第一個能夠投入實際應用的西夏字庫。日本文字鏡研究所也制作了《今昔文字鏡》字庫集。該字庫包括了24個TTF格式的矢量字庫。1997年李范文教授和日本學者合著出版了《電腦處理西夏文〈雜字〉研究》一書。1999年11月國家自然基金項目“基于文字字形的西夏文字研究”的成果“夏漢字處理及電子詞典”軟件由清華大學出版社出版[24]。該成果是馬希榮、柳長青等人按照四角號碼和順序號檢字法對西夏字進行排列、注音和釋義的在windows下運行的單機軟件。2005年寧夏大學導夫研制了“基于方正書版(Founder BookMaker9.V/10.X)的西夏文字處理”[25]。該系統(tǒng)測試并完成了適用于PC和Mac電腦的標準字庫,實現(xiàn)了西夏字語標準漢字及多種外文的混排。2006年,景永時借助“萬能五筆”輸入法實現(xiàn)了方正典碼系統(tǒng)在windows XP下的西夏文輸入法[26],并基于方正字庫制作了一套西夏文字庫。2010年,同濟大學西域古文獻研究所的葉建雄等學者利用計算機語言學為西夏音韻學專題設計了一個優(yōu)化的、面向語音擬構的西夏文獻數(shù)據(jù)庫結構。2011年,柳長青研發(fā)了西夏文輸入法及電子詞典軟件并建立了一套西夏文古籍字庫[27]。該輸入法可快速輸入西夏文,并在錄入西夏文過程中可同時顯示其對應的中、英文釋義,同時還能根據(jù)用戶輸入的字頻自動調整候選框中西夏字的排列順序。2017年,寧夏大學西夏學研究院杜建錄研究員主持的“西夏文獻數(shù)字化研究”項目開始全面研究工作,該項目旨在將所有西夏文獻進行數(shù)字化并將數(shù)字化的文獻放在網(wǎng)上供全世界學者共享和研究使用。
近年來,我國少數(shù)民族文的信息化工作取得了長足的進步,形成了一批有代表意義和里程碑式的成果。但目前仍然有一些已經不再使用或使用人數(shù)較少的少數(shù)民族文亟需數(shù)字化整理、保護與開發(fā)。這部分文字目前仍然還需要計算機和相關語言學者的共同努力來推進其數(shù)字化的進程。對于少數(shù)民族文字信息化工作,我們未來需要從以下三方面開展工作:1.創(chuàng)建語言文字數(shù)字化基礎平臺。包括標準的字體庫,統(tǒng)一的計算機輸入方法和完整的網(wǎng)絡信息交換平臺。2.少數(shù)民族文字的相關數(shù)據(jù)庫及大數(shù)據(jù)挖掘和檢索。對于少數(shù)民族文字和文獻運用大數(shù)據(jù)挖掘技術進行文獻、文物等資料的整理與數(shù)字化,并對整理的資料進一步建立相關知識庫。3.培養(yǎng)少數(shù)民族文數(shù)字化處理的專門人才。少數(shù)民族語言數(shù)字化工作亟需大量文理交叉型人才,最好是兼具計算機專業(yè)背景知識的人文社科研究人才,他們是未來我國少數(shù)民族文數(shù)字化工作的主力軍。他們既不是純文科也不是單純的計算機技術人員,他們能夠對利用計算機技術處理的內容或對象本身有更深刻的理解,能夠做出更有意義的研究成果??傊?,我國少數(shù)民族文數(shù)字化研究還有很多亟待研究的領域,等待我們去發(fā)掘和填補空白,其研究前景是廣闊的。
[1]嘎日迪,張主.論我國信息處理交換用蒙古文系列標準的制定原則、方法和技巧[J].中文信息學報,1989,3(3):2-3.
[2]新疆語言文字辦公室.錫伯語言文字規(guī)范化、標準化、信息化 建 設 綜 述.http://www.xjyw.gov.cn/ywgfbz?contentId= edb6af5b1e9a4f43aaa79e7882fbb1df&navToId= 1d09171991c04352a768543c5caf54f3,2015.
[3]吐爾根_依布拉音.新疆少數(shù)民族語言文字信息處理研究與應用[J].中文信息處理,2011,25(6):150-153.
[4]李豐軍.基于WinCE的維吾爾語智能輸入法的研究與實現(xiàn)[D].新疆:新疆大學,2008.
[5]薩日娜.基于Android平臺的蒙古文輸入法研究與實現(xiàn)[J].內蒙古大學學報,2012(1):14-22.
[6]趙小兵,達.巴特爾,嘎日迪等.構建《蒙古語及三少數(shù)民族語言語料庫資源管理平臺》[R].第十一屆全國民族語言文字信息學術研討會TP391.1,2007:67-72.
[7]帕提古麗_艾合買提.基于信息處理的烏茲別克語語音變化現(xiàn)象自動還原技術研究[J].電腦知識與技術,2016,12(32):177-178.
[8]蘇佩佩.基于Android移動終端的手寫維吾爾文單詞特征提取研究[D].新疆:新疆大學,2016:16-28.
[9]洛藏.藏漢英電子詞典硬件產品中藏文編碼的實現(xiàn)方法[J].西藏科技,2009(7):74-75.
[10]洛藏.藏漢英電子詞典硬件產品中藏文鍵盤的設計和實現(xiàn)方法[J].西藏大學學報,2009(2):61-63.
[11]覃忠群.《壯文電子詞典及輔助翻譯軟件》語料庫建設的經驗[J].民族翻譯,2013(2):73-76.
[12]胡剛,王嘉梅,李炳澤,等.傣泐文-漢文互譯有聲電子詞典[J].計算機系統(tǒng)應用,2016(7):5-14.
[13]莫禮平,周愷卿,蔣效會.板塘苗文的計算機編碼及字庫創(chuàng)建[J].吉首大學學報:自然科學版,2013(2):31-33.
[14]莫禮平,周愷卿,蔣效會.基于OpenType技術的方塊苗文字庫研究[J].中文信息學報,2015(2):150-153.
[15]董芳,周石勻,鄭文瑾.水書文字規(guī)范標準建設與信息化的研究[J].黔南民族師范學院學報,2005(5):61-62.
[16]李昀姍,王嘉梅,鄭晟.云南規(guī)范彝文字庫設計及其字符集編碼研究[J].電子科技,2011(5):99-100.
[17]馮浩,王輝,王嘉梅.基于自由拆分模式的彝文輸入法設計與實現(xiàn)[J].計算機應用,2010(S1):306-308.
[18]殷建民,刀福祥,唐金寶,等.西雙版納傣文新聞網(wǎng)站與數(shù)字報刊技術研究[J].中文信息學報,2011(4):12-13.
[19]高廷麗,陶建華,戴紅亮,等.傣文自動分詞系統(tǒng)的設計與實現(xiàn)[J].中文信息學報,2013(6):188-190.
[20]方媛,楊鑒,陳志瓊等.基于HMM的傣語語音合成系統(tǒng)設計與實現(xiàn)[R].第十三屆全國人機語音通訊學術會議(NC?MMSC2015),2015:236-238.
[21]陳志瓊.基于HMM的可訓練傣語語音合成系統(tǒng)[D].云南:云南大學,2016(1).
[22]洛桑嘎登.藏文自動分詞與詞性標注研究[D].北京:中央民族大學,2016(19-21).
[23]聶鴻音.重讀《西夏文字的分析》.http://www.doc88.com/p-2965311269702.html,2015
[24]馬希榮.夏漢字處理及電子詞典[M].北京:清華大學出版社,1999.
[25]導夫.基于方正書版(Founder BookMaker9.X/10.X)的西夏文字處理技術研究[J].寧夏大學學報:人文社會科學版,2005(2):89-90.
[26]景永時,賈常業(yè).基于方正典碼之上的西夏文錄入系統(tǒng)使用手冊[M].香港:香港社會科學出版社,2005.
[27]柳長青.在線夏漢電子詞典的設計與實現(xiàn)[J].寧夏大學學報:自然科學版,2011,32(4).
TP393
A
1009-3044(2017)21-0210-03
2017-06-11
寧夏高校重點項目資助(項目編號:NGY2014006)
李小璐,女,寧夏大學信息工程學院2016級碩士生,主要研究方向為西夏文信息處理;通訊作者:柳長青,男,博士,教授,主要研究方向為自然語言處理。