劉連芳,顧 林,黃家裕,溫家凱
(南寧市平方軟件新技術(shù)有限責(zé)任公司,廣西 南寧 530007)
壯族是我國(guó)少數(shù)民族中人口最多的民族,據(jù)2010年全國(guó)人口普查公報(bào), 在廣西壯族自治區(qū)的壯族有1 658.72萬(wàn)人[1];云南省文山壯族苗族自治州、廣東省連山壯族瑤族自治縣、貴州省黔東南苗族侗族自治州,以及湖南省江華瑤族自治縣內(nèi)均有壯族聚居。
壯族是百越人的直系后裔,壯侗語(yǔ)族里的一個(gè)典型代表,與粵人(廣府人)、泰族人、老族人、傣族人、撣族人有親緣關(guān)系。
壯語(yǔ)是漢藏語(yǔ)系壯侗語(yǔ)族壯傣語(yǔ)支的一種語(yǔ)言。目前存世的壯族文字有古壯文和現(xiàn)代壯文。對(duì)古壯文的信息處理研究與開發(fā)主要目的是搶救民族文化遺產(chǎn),而對(duì)現(xiàn)代壯文信息處理的研究與開發(fā)主要在于現(xiàn)實(shí)應(yīng)用。二者均具有重要的研究?jī)r(jià)值和意義。
古壯字也叫方塊壯字、土俗字,壯語(yǔ)稱為Sawndip,是壯族先民在唐宋時(shí)期借用漢字“六書”(即象形、指事、會(huì)意、形聲、轉(zhuǎn)注、假借)的構(gòu)字方法創(chuàng)造的,是我國(guó)23種古文字之一。古壯字和壯族語(yǔ)言相一致,壯族人們主要用于記錄神話、故事、傳說(shuō)、山歌、諺語(yǔ)、劇本、寓言、楹聯(lián)、碑刻、麼公或道公經(jīng)文、契約、鄉(xiāng)約、族譜、藥方、碑刻等。目前,壯族民間仍使用它編寫山歌、壯劇、紋身[6]。地名、人名仍大量沿用古壯字。例如,廣西五百分之一地形圖中不重復(fù)出現(xiàn)的古壯字就有753個(gè)。所以古壯字既是古文字,也是活體字。
古壯字大致有以下四大類,如圖1~9所示。
? 象形字
圖1 象形字
? 會(huì)意字
利用漢字本體的意義加上一些特殊的符號(hào)或者是以兩個(gè)漢字匯集而成的字。
圖2 會(huì)意字
? 形聲字
利用漢字的偏旁部首作為聲符和意符組合而成的字。這種字一般由一個(gè)表音的聲符和一個(gè)表意的意符構(gòu)成。形聲字有以下五種。
圖3 左形右聲
圖4 右形左聲
圖5 上形下聲
圖6 下形上聲
圖7 外形內(nèi)聲
? 借漢字
直接借用現(xiàn)成漢字。根據(jù)不同的借用方式,這種字可分為以下兩種。
借音字。原來(lái)的漢字漢義不復(fù)存在,而是表示壯義。
圖8 借音字
借音借義字。既是借音,又是借義的字。
圖9 借音借義字
古壯字最早見于唐代的碑文中。唐永淳元年(公元682年)澄州刺史韋敬辦所纂寫并立的《澄州無(wú)虞縣六合堅(jiān)固大宅頌》碑,碑文中即有古壯字。古壯字見于漢文史籍中最早為南宋范成大于淳熙二年(公元1175年)所著的《桂海虞衡志》。其次還有莊綽《雞肋篇》,周去非《嶺外代答》等書。因此,古壯字出現(xiàn)于唐,流行于宋,鼎盛時(shí)期在明清,已經(jīng)有一千多年的歷史。
民間現(xiàn)存有大量的古壯字手抄本。例如,壯族“詩(shī)經(jīng)”的《嘹歌》已收集到的有7種唱本,每本均在1.6萬(wàn)行上下,全部用古壯字抄寫。類似的古壯字手抄本大約還有數(shù)百種。其中的麼經(jīng)布洛陀已列入2005年公示的第一批國(guó)家級(jí)非物質(zhì)文化遺產(chǎn)代表作名錄。為搶救壯族寶貴的古籍遺產(chǎn),廣西壯族自治區(qū)古籍整理辦公室(廣西古籍辦)1989年在歷史上首次收集、整理散落在各地的各種古籍中的古壯字,出版了《古壯字字典》(初稿)(下稱《字典》)。這本字典收集古壯字共10 700個(gè),其中4 918個(gè)推薦為正體字,其余同音同義異形的字列為異體字。此外,廣西古籍辦還整理出《古壯字文獻(xiàn)選注》、《布洛陀詩(shī)經(jīng)譯注》、《壯族民族古籍集成》、《壯族麼經(jīng)布洛陀影印譯注》,其中,《壯族麼經(jīng)布洛陀影印譯注》收入麼經(jīng)布洛陀的古壯字抄本29種。
查閱國(guó)內(nèi)主要科技文獻(xiàn)庫(kù)發(fā)現(xiàn),《字典》問(wèn)世后,研究古壯文的期刊論文、碩士論文、博士論文呈上升的趨勢(shì),作者主要來(lái)自廣西大學(xué)文化傳播學(xué)院、廣西民族大學(xué)、廣西師范大學(xué)、中央民族大學(xué)等位于壯族聚居地區(qū)或者與壯族有密切聯(lián)系的學(xué)校。當(dāng)然,也有例外,(上海)華東師范大學(xué)博士李明2008年的論文題目是“《古壯字字典》方塊古壯字研究”。
廣西大學(xué)文化與傳播學(xué)院黃南津, 唐未平于2006年對(duì)壯族主要聚居區(qū)進(jìn)行了漢字、古壯字、現(xiàn)代壯文使用情況和現(xiàn)代壯族人群對(duì)它們的態(tài)度調(diào)查[7-8]。調(diào)查結(jié)果表明,古壯字仍舊在當(dāng)代壯族群體中使用,如德保、靖西,但是都集中在年齡偏大、文化水平偏低的壯族男性群體,主要用于宗教詩(shī)經(jīng)、山歌唱本、壯醫(yī)壯藥驗(yàn)方/偏方的流傳,記錄地名、人名、諺語(yǔ)。有力地證明古壯字仍舊是活體字。
古壯字在壯族發(fā)展歷史上發(fā)揮了重要作用,但是,在現(xiàn)代生活中古壯字的使用日漸減少[7-8],能流暢地閱讀古壯字文獻(xiàn)的人也越來(lái)越少,必須加快古籍的收集、整理和保存工作,搶救這珍貴的歷史文化遺產(chǎn)。因此,研究開發(fā)古壯文信息處理系統(tǒng)的工作提到議事日程。廣西研究開發(fā)的有代表性的成果有: DOS下的古壯文操作系統(tǒng)和編輯排版系統(tǒng)(1990);古壯字借音壯字?jǐn)?shù)據(jù)庫(kù)(2006);Windows下的古壯字造字工具、編輯工具、釋義電子字典、古壯字收錄及字典管理(2008)。
2.2.1 DOS下的古壯文操作系統(tǒng)和編輯排版系統(tǒng)[9]
在《字典》出版的第二年,廣西古籍辦和廣西計(jì)算中心聯(lián)合開始了古壯文操作系統(tǒng)和編輯排版系統(tǒng)(下稱“古壯文系統(tǒng)”)的研究與開發(fā)。項(xiàng)目獲得了廣西科研開發(fā)計(jì)劃的支持(桂科業(yè)字900311)。
古壯字?jǐn)?shù)量多,《字典》整理的只是其中一部分。古壯文屬大字符集文字,并且是大字符集中字?jǐn)?shù)僅次于漢字的文字。古壯字字形一般均比漢字復(fù)雜?!蹲值洹肥鞘止趧?dòng)的結(jié)果,還有許多關(guān)于古壯字的問(wèn)題懸而未決,但是,無(wú)論如何,《字典》都為古壯文系統(tǒng)的研究與開發(fā)奠定了堅(jiān)實(shí)的基礎(chǔ)。
1990年處于DOS時(shí)期,古壯文系統(tǒng)研究與開發(fā)面臨并解決了諸多難題。
? 開發(fā)環(huán)境
古壯文系統(tǒng)是在已有的漢字操作系統(tǒng)BDDOS2.0和華光排版系統(tǒng)的基礎(chǔ)上開發(fā)的。
? 內(nèi)碼設(shè)計(jì)
中文、西文、古壯字并存是當(dāng)時(shí)系統(tǒng)設(shè)計(jì)的一個(gè)難點(diǎn)。系統(tǒng)采用兩個(gè)八位字節(jié)對(duì)古壯字編碼,并把其高位字節(jié)的高位置1和低位字節(jié)的高位置0,即內(nèi)部碼取值為(176~247)和(33~254),共可對(duì) 8 836個(gè)古壯字編制內(nèi)部碼,符合GB1988標(biāo)準(zhǔn),并與當(dāng)時(shí)的漢字內(nèi)碼兼容,還預(yù)留了一塊區(qū)域作填補(bǔ)擴(kuò)充字用。
? 輸入法
系統(tǒng)提供的輸入法為類“五筆字型”法和區(qū)位碼方法,分別稱之為“壯五筆”,“壯區(qū)位”?!皦盐骞P”也具有簡(jiǎn)碼輸入、重碼選擇等常用錄入功能。
? 詞頻統(tǒng)計(jì)
壯文專家整理篩選古壯字一萬(wàn)余,系統(tǒng)至多只能為8 836個(gè)古壯字編碼,經(jīng)過(guò)去重字和去漢字,尚余8 600余字。為合理安排字庫(kù),通過(guò)手工輸入《布洛陀》和《嘹歌》所有古壯字,進(jìn)行初步詞頻統(tǒng)計(jì),將古壯字分為一級(jí)常用字(1 673個(gè)),二級(jí)次常用字(6 862個(gè)),備用字(65個(gè))。
? 古壯字字庫(kù)內(nèi)存地址安排
由于常規(guī)內(nèi)存空間緊張,而古壯字字庫(kù)高達(dá)285K,所以將古壯字庫(kù)放在1M以上擴(kuò)展內(nèi)存,使高地址字庫(kù)程序常駐內(nèi)存,要求機(jī)器內(nèi)存不少于2M。
? 排版系統(tǒng)
翻譯整理古籍,不用處理數(shù)學(xué)公式、圖表等,功能比較單一。為解決漢,古壯文混排問(wèn)題,選用在華光N型輕印刷排版系統(tǒng)上附加古壯字處理部分。
排版軟件運(yùn)行環(huán)境: 具有五筆輸入法和各種排版符號(hào)的動(dòng)態(tài)鍵盤輸入法的BDDOS2.0;
排版系統(tǒng)包括: 編輯錄入、行命令式排版(非所見即所得)、版式顯示、版式打印、激光照排。
? 造字軟件
造字軟件有三部分:
黑白段手工編碼方法16點(diǎn)陣造字軟件;
24點(diǎn)陣以上的字及矢量字的掃描造字軟件——具備點(diǎn)、線、塊編輯、縮/放、移動(dòng);調(diào)漢字對(duì)照字抽取部分筆畫作偏旁;造偏旁、拼字、96點(diǎn)陣字整體放大等功能;
生成矢量字軟件——生成輪廓字和與華光N型矢量字的格式相同的矢量字。
1993年廣西古籍辦應(yīng)用上述系統(tǒng)進(jìn)行了壯族民間長(zhǎng)歌《嘹歌》(古籍版)的錄入、排版,出版了《壯族民歌古籍集成 情歌(一)嘹歌》,總計(jì)1 406頁(yè)?!多诟琛繁緯?千首1.6萬(wàn)行,正文統(tǒng)一采用古壯字、壯文、漢文三種文種對(duì)原歌詞逐句進(jìn)行標(biāo)寫,注音和意譯。第一行: 原行,即民間提供的老歌本原抄寫字只形體的底行;第二行: 古壯字,即以《古壯字字典》的正體字對(duì)原行不規(guī)范的字進(jìn)行規(guī)范;第三行: 現(xiàn)代壯文,即以1982年經(jīng)國(guó)家民委批準(zhǔn)、廣西人民政府頒布的《壯文方案》(修訂案)規(guī)范的狀語(yǔ)標(biāo)準(zhǔn)的音對(duì)原行字句的確切壯音予以標(biāo)音;第四行: 漢譯,即以漢文精確表述出原行的意思。
此后古籍辦又應(yīng)用古壯文系統(tǒng)錄入、排版了《壯族民歌古籍集成 情歌(二)歡(木岸)》(1997年);錄入、排版壯語(yǔ)歌本《唱文隆·唱英臺(tái)·唱唐皇》(1998年)。
2.2.3 古壯字借音壯字?jǐn)?shù)據(jù)庫(kù)(2006年)[10]
廣西大學(xué)碩士研究生李弈琳在導(dǎo)師林亦教授的指導(dǎo)下開發(fā)了古壯字借音壯字?jǐn)?shù)據(jù)庫(kù)系統(tǒng)。
系統(tǒng)用Visual FoxPro實(shí)現(xiàn),分別建立了古壯字正體庫(kù)、異體庫(kù)、詩(shī)經(jīng) “布洛陀”庫(kù)(如圖10~12所示),共建設(shè)12個(gè)原始資料庫(kù)、1個(gè)布洛陀版本概況表,在上述基礎(chǔ)上生成16個(gè)子庫(kù)。
由于沒有古壯字電子字典,古壯字采用描述的方式錄入和存儲(chǔ),例如“左女右下”、“上雨下門”、“左石右瓦中缺一點(diǎn)”等。
正體字字庫(kù)4 722條記錄;異體字字庫(kù)8 611條記錄,比《古壯字字典》古壯字?jǐn)?shù)多2 633條,因?yàn)?,在《字典》中字?jǐn)?shù)即是字形數(shù),同形異音異義算一個(gè)字,而在數(shù)據(jù)庫(kù)中同形異音異義字放在不同記錄中。
圖10 正體字庫(kù)示意
圖11 異體字庫(kù)示意
系統(tǒng)為每卷《布洛陀》的字建一個(gè)庫(kù)(18個(gè)字段),然后再將8卷合并。合并后的庫(kù)有大量重復(fù)數(shù)據(jù)(對(duì)統(tǒng)計(jì)詞頻有用),做索引時(shí)處理成同形字只出現(xiàn)一次。
有了這個(gè)數(shù)據(jù)庫(kù),就可以對(duì)借音古壯字進(jìn)行進(jìn)一步的研究,例如,判斷借音壯字的標(biāo)準(zhǔn)和方法、借音壯字的分類等等。
2.2.3 Windows下的古壯文處理系統(tǒng)(2008年)
在國(guó)家電子基金的支持下,南寧市平方軟件新技術(shù)有限責(zé)任公司(南寧平方軟件)為廣西古籍辦等部門開發(fā)了Windows下的一系列處理古壯文的軟件。
? 古壯字造字工具
古壯字造字工具具有以下特點(diǎn)。
(1) 造字簡(jiǎn)便,適合非專業(yè)人員使用
提供所見即所得的造字方式??梢赃x取部件、參照字來(lái)組合成字,還可從掃描圖自動(dòng)生成字。
(2) 字庫(kù)容量大,可擴(kuò)充
系統(tǒng)采用Unicode擴(kuò)展B區(qū)編碼(U+2000——U+2A6D6),可容納新造古壯字?jǐn)?shù)量4萬(wàn)個(gè)以上,目前內(nèi)含古壯字10 971個(gè)。還可以根據(jù)需要不斷擴(kuò)充。
(3) 字型美觀
采用Truetype曲線字體,筆畫、結(jié)構(gòu)布局可調(diào)整,字形規(guī)范,可供打印輸出,目前支持Adobe CS Design排版軟件排版輸出。
? 方塊壯文編輯、輸出
方塊壯文編輯、輸出功能兼顧了普通用戶和專職用戶。
系統(tǒng)提供壯筆畫碼: 將筆畫拆分為橫、豎、撇、點(diǎn)、折,分別用字母h、s、p、d、z代替。錄入時(shí)只要按筆畫的書寫順序錄入相應(yīng)的筆畫代表字母即可。編碼規(guī)則簡(jiǎn)單、不需要記憶、見字即會(huì)打,適合非專職錄入人員使用。
系統(tǒng)還提供了適合專職錄入人員使用的壯五筆碼。
? 古壯字釋義電子字典
可檢索古壯字的發(fā)音、釋義、例句等,支持壯漢釋義查詢。
圖15 古壯字釋義電子字典
? 古壯字收錄及字典管理
古壯字收錄及字典管理主要用于收錄不斷發(fā)現(xiàn)的新的古壯字。繼1989年出版《字典》,廣西古籍辦正在整理、出版《中華古壯大字典》。古壯字收錄及字典管理軟件正在用于該項(xiàng)工程。該軟件中字典收錄的內(nèi)容包括古壯字、字形、壯文注音、國(guó)際音標(biāo)、字性、分類、漢語(yǔ)釋義、英語(yǔ)釋義、古壯語(yǔ)例句、例句壯譯、例句漢譯、起源、出處、異體字、發(fā)音、方言等,還可以對(duì)人工收錄的古壯字進(jìn)行錄入、修改、查重、審核和分配內(nèi)碼。
古壯字收錄主要流程如圖16所示。
圖16 古壯字收錄流程
系統(tǒng)采用網(wǎng)絡(luò)化管理,可實(shí)時(shí)造字、更新客戶端的字庫(kù),是古壯文字研究人員簡(jiǎn)便工具。
? 在線古壯—漢釋義及字典管理
能夠在互聯(lián)網(wǎng)上提供古壯文在線釋義服務(wù),支持古壯—漢雙向釋義查詢。
2.2.4 基于開放式數(shù)據(jù)庫(kù)的古壯字字符與文獻(xiàn)的搜集整理與研究
廣西大學(xué)林亦教授的項(xiàng)目“基于開放式數(shù)據(jù)庫(kù)的古壯字字符與文獻(xiàn)的搜集整理與研究”已經(jīng)被列入國(guó)家社會(huì)科學(xué)基金2011年資助的語(yǔ)言類項(xiàng)目計(jì)劃,將于2014年12月31日完成。
根據(jù)壯語(yǔ)語(yǔ)音特點(diǎn)和詞匯差異,壯語(yǔ)可分為北部和南部?jī)纱蠓窖?,每一種方言內(nèi)部又分為數(shù)個(gè)土語(yǔ)區(qū),方言不同,各土語(yǔ)區(qū)古壯字字形就不同,難于統(tǒng)一;古壯字難寫、難讀、難記;用漢字表示壯語(yǔ)之音,有誤差;異體字繁多……。因此,古壯文難以發(fā)展成為壯族統(tǒng)一的正式文字。
1951年2月政務(wù)院就民族事務(wù)做出了六項(xiàng)決定,其中一條是: “幫助尚無(wú)文字的民族創(chuàng)立文字,幫助文字不完備的民族充實(shí)其文字?!庇纱碎_始現(xiàn)代壯文(又稱拼音壯文)的創(chuàng)造。
1952年中國(guó)科學(xué)院語(yǔ)言研究所派人到廣西壯族自治區(qū)進(jìn)行初步調(diào)查。1954年又派工作隊(duì)到廣西,會(huì)同原桂西壯族自治區(qū)有關(guān)部門對(duì)壯族地區(qū)47個(gè)縣52個(gè)點(diǎn)的壯語(yǔ)方言進(jìn)行普遍調(diào)查。1955年,在南寧召開的壯文工作會(huì)議上決定: 以北部方言為基礎(chǔ),以武鳴縣的語(yǔ)言為標(biāo)準(zhǔn)音,創(chuàng)制壯文。經(jīng)過(guò)整理和比較研究,1955年12月制定了以拉丁字母為基礎(chǔ)的壯文方案,在《廣西日?qǐng)?bào)》上公布征求各方面的意見,經(jīng)過(guò)2年的試行、修改后于1957年11月29日國(guó)家政務(wù)院第六十三次會(huì)議正式批準(zhǔn)《壯文方案》,并在壯族地區(qū)推廣使用。這個(gè)方案設(shè)32個(gè)字母,其中有11個(gè)是非拉丁字母。由于非拉丁字母影響了現(xiàn)代壯文形體的一致性,在學(xué)習(xí)、印刷、計(jì)算機(jī)運(yùn)用上有困難。1981年,廣西壯族自治區(qū)少數(shù)民族語(yǔ)言文字工作委員會(huì)對(duì)這套文字系統(tǒng)做了修改,把非拉丁字母符號(hào)全部改成拉丁字母,字母從32個(gè)減少到26個(gè),6個(gè)元音字母、16個(gè)輔音字母、4個(gè)聲調(diào)符號(hào)。其中,h既作輔音又作聲調(diào)符。壯文以詞為書寫單位,移行時(shí)必須保持完整的音節(jié)。
現(xiàn)代壯文從創(chuàng)制開始就以現(xiàn)代語(yǔ)言學(xué)為指導(dǎo),與古壯文相比,科學(xué)、規(guī)范、統(tǒng)一?,F(xiàn)代壯文是拼音文字,和語(yǔ)言一致,使用的書寫符號(hào)比古壯文少得多,易于學(xué)習(xí)與記憶,詞的書寫技巧和朗讀技巧相輔相成,認(rèn)得詞就能夠正確地書寫它。
目前現(xiàn)代壯文在諸多場(chǎng)合應(yīng)用: 廣西境內(nèi)的招牌、公章、路牌、站牌、公共標(biāo)志;廣西發(fā)放的身份證;全國(guó)黨代會(huì)、人大會(huì)、政協(xié)會(huì)議等大型會(huì)議文件;人民幣上除了漢、蒙、藏、維外的第五種文字;《廣西民族報(bào)(壯文版)》;《三月三(壯文版)》(文藝雜志);農(nóng)村掃盲、山歌培訓(xùn)、種養(yǎng)科技培訓(xùn);壯族中小學(xué)課本。廣西民族出版社設(shè)有壯文編譯室;中央民族語(yǔ)文翻譯局設(shè)有壯文翻譯室(其他六個(gè)文種分別是: 蒙、藏、哈、維、朝、彝)。從1987年起,壯文翻譯室已經(jīng)為每年的“兩會(huì)” 、黨的十三大到十七大翻譯文件1 000多萬(wàn)字;翻譯出版了《毛澤東選集》(1~4卷)等諸多著作[13]。
目前,互聯(lián)網(wǎng)上專注于壯文交流的有人民網(wǎng)壯文版、壯族在線、鼓歌壯族、壯族娛樂(lè)網(wǎng)等。不少壯族網(wǎng)民在網(wǎng)絡(luò)上使用壯文創(chuàng)作、翻唱流行歌曲,發(fā)表壯族諺語(yǔ)集錦(現(xiàn)代壯文)。
2011年10月,將舉行我國(guó)首次壯語(yǔ)文水平考試。壯語(yǔ)文水平考試,將有利于促進(jìn)不同壯語(yǔ)方言的標(biāo)準(zhǔn)化、語(yǔ)言文字的規(guī)范化,促進(jìn)壯文的推廣和應(yīng)用[14]。
對(duì)現(xiàn)代壯文信息處理的研究與開發(fā)晚于古壯文,成果較少,并且基本沒有較為詳實(shí)的公開報(bào)道。
3.2.1 壯漢英電子詞典(單機(jī)及網(wǎng)絡(luò)在線版)(2008年)
南寧平方軟件開發(fā)的壯漢英電子詞典可檢索壯語(yǔ)詞的發(fā)音、解釋、漢語(yǔ)對(duì)應(yīng)詞、英文對(duì)應(yīng)詞、例句等,支持壯漢、漢壯、壯英、英壯四種雙向查詢(翻譯)(圖17)。
圖17 壯漢英電子詞典
3.2.2 壯漢機(jī)器翻譯(2011年)
南寧平方軟件以壯漢英電子詞典的平行詞對(duì)為語(yǔ)料,使用基于統(tǒng)計(jì)的機(jī)器翻譯引擎,開發(fā)出一款壯漢翻譯試驗(yàn)系統(tǒng),翻譯結(jié)果的可理解率大約在40%。
3.2.3 壯文電子詞典及輔助翻譯軟件
2011年7月中國(guó)民族語(yǔ)文翻譯中心科研處和壯語(yǔ)文室合作歷時(shí)兩年完成《壯文電子詞典及輔助翻譯軟件》軟件研發(fā)。
3.2.4 在線雙向漢壯詞典
由中央民族大學(xué)壯侗學(xué)研究所、廣西壯學(xué)學(xué)會(huì)、廣西駱越文化研究會(huì)支持的“壯族在線”提供的在線雙向漢壯詞典共收詞條25 986條,基本來(lái)源于Stoneman、honghlaj 等貝儂制作的SawloihCuengh-Gun電子版(未經(jīng)核對(duì)),和一些新加入的方言詞匯。
3.2.5 基于短語(yǔ)的漢壯統(tǒng)計(jì)機(jī)器翻譯
在2011年第六屆泛珠三角安利杯大學(xué)生計(jì)算機(jī)作品賽中,廣西民族大學(xué)學(xué)生作品“基于短語(yǔ)的漢壯統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)”獲得銀獎(jiǎng)。
古壯文流傳一千多年,對(duì)壯族社會(huì)政治經(jīng)濟(jì)文化發(fā)展、傳承壯族寶貴的文化遺產(chǎn)起到非常重要的作用。目前,古壯文主要用于古籍整理,在民間尚有部分應(yīng)用?,F(xiàn)代壯文創(chuàng)制于1955年,是重要文件、廣西公共場(chǎng)所、壯族報(bào)刊/書籍、壯族雙語(yǔ)教學(xué)、壯族群體互聯(lián)網(wǎng)交流等所用文字。
研究開發(fā)古壯文處理技術(shù)對(duì)搶救和挖掘壯族非物質(zhì)文化遺產(chǎn)、研究壯族發(fā)展史意義非凡。而研究現(xiàn)代壯文信息處理技術(shù),對(duì)推動(dòng)壯民族的教育、文化事業(yè)發(fā)展,促進(jìn)各民族的共同繁榮具有非常重要的現(xiàn)實(shí)意義。
對(duì)古壯文和現(xiàn)代壯文的信息處理已經(jīng)解決了基本的編碼、造字、錄入、排版、電子詞典(單機(jī)/在線)、部分史料數(shù)據(jù)庫(kù)建設(shè)方面的技術(shù)問(wèn)題,所開發(fā)的系統(tǒng)已投入使用;業(yè)已開始現(xiàn)代壯文與漢文之間的翻譯的研究。但是,無(wú)論是針對(duì)古壯文的,還是針對(duì)現(xiàn)代壯文的信息處理研究與開發(fā)成果數(shù)量都不多,與實(shí)際需求有相當(dāng)?shù)木嚯x。
根據(jù)現(xiàn)有基礎(chǔ)和應(yīng)用需求,下一步應(yīng)該開展的工作包括:
? 盡快制定古壯文和現(xiàn)代壯文標(biāo)準(zhǔn),把信息處理納入國(guó)家和國(guó)際標(biāo)準(zhǔn)體系。
? 由于古壯字字形復(fù)雜,難學(xué)難記,各壯族聚居區(qū)所用古壯字有差異,不統(tǒng)一,導(dǎo)致目前能夠閱讀古壯文的人越來(lái)越少,因此,壯族古籍的收集、整理任務(wù)越來(lái)越艱巨。研究開發(fā)古壯文和現(xiàn)代壯文之間的轉(zhuǎn)換(翻譯)系統(tǒng)、古壯文和漢文翻譯系統(tǒng)的工作迫在眉睫。這些系統(tǒng)的研究開發(fā)將采集、整理目前仍掌握古壯文的文人的知識(shí),將它們電子化,永久保存。通過(guò)技術(shù)手段使這些古壯文知識(shí)能夠傳承下去。這些系統(tǒng)的研發(fā)將加速古籍的收集、整理工作,特別對(duì)難于口口相傳的壯醫(yī)壯藥的驗(yàn)方、偏方的收集、整理意義重大。
? 廣西在壯族聚居區(qū)的小學(xué)進(jìn)行壯漢雙語(yǔ)教育,以推動(dòng)“普九”任務(wù)的完成。因此,研究開發(fā)現(xiàn)代壯文-漢文翻譯系統(tǒng)是推動(dòng)民族教育的一件大事。
壯文信息處理領(lǐng)域的研究與開發(fā)已經(jīng)具備了良好的基礎(chǔ),未來(lái)的任務(wù)艱巨,前景廣闊。
[1] 廣西壯族自治區(qū)統(tǒng)計(jì)局.廣西2010年第六次全國(guó)人口普查主要數(shù)據(jù)公報(bào)[EB/OL]. 2011,6.廣西統(tǒng)計(jì)信息網(wǎng). www.gxtj.gov.cn.
[2] 廣西壯族自治區(qū)少數(shù)民族古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組.古壯字字典[M]. 南寧: 廣西民族出版社,1989: 序1-7.
[3] 廣西大百科全書編纂委員會(huì).廣西大百科全書·民族卷[M].北京: 中國(guó)大百科全書出版社,1994: 21.
[4] 黃現(xiàn)瑤、黃增慶、張一民.壯族通史[M].南寧: 廣西民族出版社,1988: 527.
[5] 張聲震.壯族通史(上)[M]. 南寧: 廣西民族出版社,1997: 205-207.
[6] 黃必成. 南國(guó)早報(bào)來(lái)賓訊[EB/OL]. 2008,10. 南國(guó)早報(bào)網(wǎng) www.ngzb.com.cn.
[7] 黃南津, 唐未平. 壯族民間群體古壯字使用狀況的調(diào)查與分析[DB/OL]. 2009,9. http://www.douban.com.
[8] 唐未平. 廣西壯族人文字使用現(xiàn)狀及文字社會(huì)聲望調(diào)查研究[D]. 南寧: 廣西大學(xué). 2007.
[9] 劉連芳,顧林,廖宏.古壯文操作系統(tǒng)和編輯排版系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,1993,(6): 32-34.
[10] 李弈琳.古壯字借音壯字?jǐn)?shù)據(jù)庫(kù)[D]. 南寧: 廣西大學(xué). 2006.
[11] 中華人民共和國(guó)國(guó)務(wù)院. 國(guó)務(wù)院對(duì)中國(guó)文字改革委員會(huì)關(guān)于討論僮文方案和少數(shù)民族文字方案中設(shè)計(jì)字母的幾項(xiàng)原則的報(bào)告的批復(fù)[EB/OL].中華人民共和國(guó)國(guó)務(wù)院公報(bào). 1957,54. http://www.cnki.com.cn.
[12] 中國(guó)互聯(lián)網(wǎng)新聞中心. 背景資料: 十年探索《漢語(yǔ)拼音方案》誕生始末[DB/OL].2008-01-25. 中國(guó)網(wǎng)http://www.chaina.com.cn.
[13] 中國(guó)民族報(bào)社. 擎起壯文“中央翻譯”這片天[DB/OL]. 2007,11. 中國(guó)民族報(bào)電子版http://www.mzb.com.cn.
[14] 王婧姝. 5月“試考”,為首次壯語(yǔ)文水平考試做準(zhǔn)備[DB/OL]. 2011,4.中國(guó)民族報(bào)電子版http://www.mzb.com.cn.