木合亞提?尼亞孜別克,古力沙吾利
(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046;2.新疆醫(yī)科大學(xué)中醫(yī)學(xué)院,新疆烏魯木齊830011)
自1946年計(jì)算機(jī)出現(xiàn)到現(xiàn)在計(jì)算機(jī)普及的無處不有,計(jì)算機(jī)已成為日常生活中不可或缺的部件,這些還得歸功于計(jì)算機(jī)的語言文字信息處理的發(fā)展,我國是一個(gè)多民族國家,我國的“中文信息處理”就是中國語言文字信息處理的簡稱,它包括漢文和中國境內(nèi)其他少數(shù)民族的語言文字信息處理。新疆是多民族的地區(qū),少數(shù)民族占總?cè)丝诘?0%,哈薩克語是僅次于維吾爾語通用的6種少數(shù)民族語言文字之一,而且是跨竟語言(哈薩克斯坦),建設(shè)高質(zhì)量的標(biāo)注語料庫是現(xiàn)代哈薩克語信息處理領(lǐng)域的基礎(chǔ)性工程。新疆從1980年開始進(jìn)行了維吾爾文、哈薩克文、柯爾克孜文的信息研究,解決了輸入/輸出等基本問題,并制定了DOS系統(tǒng)、W INDOWS系統(tǒng)下的維、哈、柯文的國家標(biāo)準(zhǔn),研制了DOS系統(tǒng)、W INDOWS操作系統(tǒng)、支持維、哈、柯文的 LINUX系統(tǒng)、基于Unicode編碼的維、哈、柯W INDOWS系統(tǒng)和文本編輯器,哈薩克文有了計(jì)算機(jī)信息處理的基本條件,已進(jìn)入了對其詞、語法、語料庫標(biāo)注等的信息處理研究階段,開發(fā)和應(yīng)用具有國際水平的少數(shù)民族語言文字處理軟件,將是今后的一項(xiàng)重要研究課題[1]。哈薩克文信息處理作為中文信息處理家庭中的一員,哈薩克文信息處理系統(tǒng)也正在從無到有。想必,在不久的將來,完整的中文信息處理平臺(tái)將服務(wù)于千家萬戶。
哈薩克語屬于阿爾泰語系突厥語族的克普恰克語支,拼音文字,中國的哈薩克文借用了阿拉伯語和部分波斯文字母。哈薩克文有33個(gè)字母,其中有9個(gè)元音字母,24個(gè)輔音字母,每個(gè)字母的位置有詞首、詞中、詞末、獨(dú)立4種變體。并且,自右向左方向連續(xù)地書寫與漢語書寫順序是相反的,這樣,在計(jì)算機(jī)上處理哈文信息時(shí),存在字母間連接問題。哈薩克語屬于黏著語類型,哈語文本中的詞是由詞根附加一定的語素構(gòu)成的,語素又分為構(gòu)詞語素和構(gòu)形語素。構(gòu)詞語素用來構(gòu)造新詞,附加了構(gòu)詞語素的哈語詞的詞匯意義將發(fā)生變化,既有由一個(gè)語素構(gòu)成的,也有由多個(gè)語素構(gòu)成的[2]。到目前為止,在哈薩克語自然語言處理領(lǐng)域中,對于自動(dòng)詞法分析方法的研究、校對技術(shù)的研究、詞級研究、語料庫研究等方面非常欠缺。這樣使得這對哈薩克文信息處理領(lǐng)域的應(yīng)用無疑是一個(gè)極大的限制。所以,應(yīng)該進(jìn)一步研究、完善哈薩克文信息處理技術(shù)問題是非常必要的。隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)絡(luò)的普及,近年來現(xiàn)代哈薩克語語料庫建設(shè)、機(jī)器翻譯、語音識(shí)別、自動(dòng)校對、智能檢索等等工作也得到了重視。有關(guān)專家們已開始進(jìn)行大型語料庫建設(shè)及研制機(jī)器翻譯系統(tǒng)工作等等。語言信息處理的不斷發(fā)展要求借助更多的語言學(xué)知識(shí),對于哈薩克語來說更加如此。
“哈薩克文信息處理”、“哈薩克語信息處理”和“哈薩克文字信息處理”之間的關(guān)系是,“哈薩克文信息處理”可劃分為“哈薩克語信息處理”和“哈薩克字信息處理”兩個(gè)層次。哈薩克字信息處理層面包括操作系統(tǒng)以及編碼字符集、輸入技術(shù)、字形描述與生成、存儲(chǔ)、編輯、排版、字頻統(tǒng)計(jì)和哈薩克字屬性庫等課題[3];哈薩克語信息處理層面包括機(jī)器翻譯、信息檢索、信息提取、文本校對、文本生成、文本分類、自動(dòng)摘要以及哈薩克文文字識(shí)別和語音識(shí)別的后處理等等。兩者之間也有交叉,哈薩克語信息處理要以哈薩克字信息處理的實(shí)現(xiàn)為基礎(chǔ)。既要提高哈薩克字信息處理的智能水平,又要借助哈薩克語信息處理的成果。
哈薩克文信息處理技術(shù)的研究還處于開始階段,要解決人與計(jì)算機(jī)接口、系統(tǒng)回答、從計(jì)算機(jī)的角度出發(fā)考慮哈薩克文分詞的規(guī)范原則、依據(jù)哈薩克文詞匯的構(gòu)詞規(guī)律和特點(diǎn),制定適合計(jì)算機(jī)信息處理的哈薩克文分詞規(guī)范標(biāo)準(zhǔn)、解決自動(dòng)分詞、詞性標(biāo)注、信息檢索、語料庫建設(shè)等一系列重要研究課題,實(shí)現(xiàn)計(jì)算機(jī)語言文字信息處理必須依賴穩(wěn)定的文字處理平臺(tái)、統(tǒng)一的規(guī)范標(biāo)準(zhǔn)和可靠的語言知識(shí)資源,三者相輔相成、缺一不可[4]。由于我國哈薩克文、維吾爾文、柯爾克孜文三種文字都是阿拉伯文為基礎(chǔ)的拼音文字,它們之間大部分字母是共同的,甚至發(fā)音也相同,但也有一些字母形同但音不同,有些字母還是特有的。因此,計(jì)算機(jī)信息處理這些文字時(shí)可以統(tǒng)一做在一個(gè)系統(tǒng)上,使系統(tǒng)具有同時(shí)處理這三種文字的功能;例如:80年代后期始,國內(nèi)和新疆自治區(qū)有關(guān)研究部門、高等院校、科研院所和高科技公司等開始進(jìn)行計(jì)算機(jī)維、哈、柯文信息處理技術(shù)研究并逐步實(shí)現(xiàn)其信息處理的應(yīng)用,制定出了相關(guān)標(biāo)準(zhǔn)。標(biāo)準(zhǔn)化是推動(dòng)當(dāng)今信息化社會(huì)進(jìn)步的基礎(chǔ),信息技術(shù)標(biāo)準(zhǔn)化是應(yīng)用信息技術(shù)的前提,也是信息系統(tǒng)有效運(yùn)行的保證。沒有相關(guān)標(biāo)準(zhǔn)作為技術(shù)先導(dǎo)和基礎(chǔ)保證,哈、維、柯等文信息交換和信息處理技術(shù)也就無從談起,哈薩克文要成為信息化社會(huì)一員的愿望也很難實(shí)現(xiàn)。特別是INTERNET得到迅猛發(fā)展和廣泛普及的今天,如果沒有信息技術(shù)標(biāo)準(zhǔn)化,那么在我國哈薩克族地區(qū)就沒有哈文軟件,哈文就不能進(jìn)入信息化社會(huì),如果不能夠普及電腦或不能夠進(jìn)行信息化交流,那么教育、科技、文化、衛(wèi)生等又如何進(jìn)步?所以,哈文信息技術(shù)的標(biāo)準(zhǔn)化和國際化顯得就更為重要[5]。
有了穩(wěn)定的文字處理平臺(tái)和統(tǒng)一的規(guī)范標(biāo)準(zhǔn),還應(yīng)有高質(zhì)量的語言知識(shí)資源語料庫和高質(zhì)量的詞義標(biāo)注語料庫。語料庫資源應(yīng)解決好語料來源的真實(shí)性、代表性以及各種語料所占的合理比例,從統(tǒng)計(jì)學(xué)的角度來看,語料庫越大,其反映出的語言就越接近真實(shí)的語言,就越有代表性[6]。但哈薩克語言的代表性并不是哈薩克語料的簡單堆砌。在哈薩克語料庫中基礎(chǔ)的詞匯分析顯示,不同語體中的詞與語義的分布很不相同。往往對一個(gè)詞的直覺并不能與該詞的實(shí)際使用類型相匹配。其次語料工具的兼容性、易操作性和統(tǒng)一性對語言文字信息處理是必不可少的,語料庫不僅是在真實(shí)情況下大量使用的語言信息集成庫,還要是能供計(jì)算機(jī)檢索和專門作研究使用的巨型資料庫[7]。如果語料真實(shí)、標(biāo)注規(guī)模大、標(biāo)注質(zhì)量高,就能保證檢索快捷準(zhǔn)確,使哈文語言成為信息化社會(huì)的一員。另外哈文語料庫建設(shè)不僅要對語言描述框架作出研究,還要對語言觀念形成的社會(huì)和心理?xiàng)l件做出研究。這一工作不僅龐大而且艱辛;哈文語料庫中蘊(yùn)藏著豐富的語言知識(shí)、詞匯知識(shí)、句法知識(shí)、語義知識(shí)、語篇知識(shí),在采集大量詞匯時(shí),不僅要按詞性組織還要按同義詞集合的形式組織,而且以不同的同義詞集合之間的語義連接、推演關(guān)系和反義關(guān)系來組織,這樣所形成的網(wǎng)絡(luò)形式才能構(gòu)建一個(gè)機(jī)器可讀的詞庫。如果在哈文語料庫建設(shè)方面,能建成哈文—漢文雙語對齊的語料庫,就會(huì)為開展哈文語言的機(jī)器翻譯等領(lǐng)域產(chǎn)生重要的應(yīng)用價(jià)值。
哈薩克文信息處理技術(shù)在近幾年來國家的支持下已取得了很多的進(jìn)步,但現(xiàn)有成果離真正實(shí)現(xiàn)中國語言文字信息處理的要求還有很大的距離[8]。雖說相關(guān)基礎(chǔ)資源建設(shè)已初步形成,但其中存在的問題也非常凸顯,目前我們正在建立一定規(guī)模的哈文語料庫,但為了研究詞在文本中的真實(shí)情況,我們需要有大量的關(guān)于詞的出現(xiàn)情況的統(tǒng)計(jì)。像正式語言和非正式語言的選取,另外還有統(tǒng)計(jì)中的一些麻煩,如我們對出現(xiàn)的詞按用法和意義分類,我們又會(huì)發(fā)現(xiàn),有時(shí),一個(gè)詞的一個(gè)用法可以很典型地代表所有其他的用法,而有時(shí)侯一個(gè)詞的幾個(gè)用法在文本中只出現(xiàn)了一個(gè)。如果根據(jù)這種情況作一個(gè)描述性的說明,那么這個(gè)說明就沒有充分性[9]。所以建立起來的哈文語料庫應(yīng)該包括數(shù)百萬的詞,以實(shí)現(xiàn)平衡。再者,哈文語料庫的建設(shè)是需要不斷的維護(hù)和升級,任何一種語料庫中存在一些錯(cuò)誤需要更正是在所難免的。同時(shí),為了適應(yīng)新的軟硬件需要而對語料庫進(jìn)行改進(jìn)和調(diào)整都將會(huì)是必要的。并且,還應(yīng)不斷注意檢索系統(tǒng)、加工處理和分析的工具的及時(shí)和經(jīng)常地改進(jìn)。總之,要實(shí)現(xiàn)真正完整的中文信息處理平臺(tái)—實(shí)現(xiàn)漢文和哈文信息處理系統(tǒng)的智能轉(zhuǎn)換,一是還需要不斷培養(yǎng)一批批精懂哈語的專業(yè)軟件開發(fā)隊(duì)伍,這是哈文信息處理事業(yè)發(fā)展的根本;二是要有國家高強(qiáng)度的支持,這是哈文信息處理事業(yè)能夠持續(xù)發(fā)展的保證;三是操作系統(tǒng)這樣大型的系統(tǒng)軟件開發(fā)必須要在政府強(qiáng)有力的支持下,要有大的企業(yè)參與開發(fā)才有可能形成實(shí)用的產(chǎn)品。
[1] 古麗拉?阿東別克,達(dá)吾勒?阿布都哈依爾,木合亞提?尼亞孜別克.現(xiàn)代哈薩克語詞級標(biāo)注語料庫的構(gòu)建研究[J].新疆大學(xué)學(xué)報(bào),2009,26(4):394-401.
[2] 達(dá)吾勒?阿布都哈依爾,古麗拉?阿東別克.哈薩克語詞法分析器的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(19):146-149.
[3] 哈語語法(哈文)[M].新疆維吾爾自治區(qū)教育委員會(huì)民文教材審定委員會(huì).1999.
[4] 達(dá)吾勒?阿布都哈依爾,古麗拉?阿東別克.基于規(guī)則的哈薩克語詞干提取系統(tǒng)的研究[C]//民族語言文字信息技術(shù)研究,第十一屆全國民族語言文字信息學(xué)術(shù)研討會(huì).2007:109-1014.
[5] 張華平.中文信息處理技術(shù)發(fā)展簡史[R].中文自然語言處理開放平臺(tái).
[6] 劉艷,古麗拉?阿東別克,伊力亞爾.哈薩克語詞性自動(dòng)標(biāo)注研究初探[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(20):242-244.
[7] 金澎,吳云芳,俞士汶.詞義標(biāo)注語料庫建設(shè)綜述[J].中文信息學(xué)報(bào),2008,22(3):16-22.
[8] 馮志偉.文本連貫中的常識(shí)推理研究[C]//中文信息處理的探索與實(shí)踐—HNC與語言學(xué)研究第三次會(huì)議文集,2006:55-65.
[9] 袁毓林.語義資源建設(shè)的最新趨勢和長遠(yuǎn)目標(biāo)[J].中文信息學(xué)報(bào),2008,22(3):3-14.