基于詞綴的維吾爾諺語識別關鍵技術研究

2018-07-20 07:13:40穆妮熱穆合塔爾李曉楊雅婷艾孜爾古麗周喜

智能系統學報 2018年3期

穆妮熱·穆合塔爾，李曉，楊雅婷，艾孜爾古麗，周喜

（1. 中國科學院新疆理化技術研究所，新疆烏魯木齊 830011; 2. 新疆民族語音語言信息處理實驗室，新疆烏魯木齊830011; 3. 中國科學院大學，北京 100049; 4. 新疆師范大學計算機科學技術學院，新疆烏魯木齊 830054）

維吾爾語是在新疆維吾爾自治區(qū)范圍內使用人數較多的語言，維吾爾語信息化是我國少數民族語言文字信息化的重要組成部分之一，一直以來得到了黨和國家的高度重視[1]。維吾爾諺語在維吾爾語中廣泛應用，通常由語素、詞、詞組、句子等基本單位逐級組建構成[2]。維吾爾諺語作為維吾爾語言的一個重要的組成部分，與其他的維吾爾語言成分結合在一起，構成了一種完整的語言網絡系統[3]。根據維吾爾諺語自身的語法、語義、結構特征將諺語從這一網絡系統中提取出來是從計算機角度對維吾爾諺語語言結構的探討與研究，提供了一個新的視角，同時該研究在輿情分析、語言理解以及機器翻譯中將會被廣泛使用[4]。除此之外，考察維吾爾諺語的使用率、覆蓋率，統計新諺語，在文本分析研究中具有重要意義，并且在傳承民族優(yōu)秀文化、飲食文化、道德觀念、哲學思想等方面起一定的作用[5]。

1 維吾爾諺語規(guī)則知識庫的建設

維吾爾族諺語是流傳在維吾爾族人民群眾口頭上的定型的現成語，具有意義的完整性、結構的簡短性、結構的穩(wěn)定性、語言的通俗性、哲理及教育性等特點。在語法和結構上，維吾爾諺語也有其自成一格的結構系統[6]。

根據語言學界對諺語的研究結論和語言學理論[7]，從維吾爾諺語的語義、語法結構兩方面入手，提出辨別維吾爾諺語的基本原則，并根據基本的原則建立成規(guī)則庫為計算機自動劃界并識別維吾爾諺語提供基礎[8]。到目前為止，維吾爾諺語規(guī)則庫包括詞綴、關鍵詞、關聯詞等幾個形式。通過對語料庫中的維吾爾諺語進行分析與研究歸納出諺語識別規(guī)則。

1.1 維吾爾諺語規(guī)則知識庫

本文通過分析小學1年級到6年級的維吾爾文語文教材后，收集了在文本中緊跟著維吾爾諺語前面或者是后面出現，用來引用當前諺語的詞組或句子，用其作為搜索的對象從而縮小了文本中維吾爾諺語的搜索范圍。其部分規(guī)則如下(總規(guī)則詞組為12 種)：

(從此留下這種話語/比喻)。其基于標點符號的規(guī)則：“??”和“：”等這些符號作為諺語識別候選規(guī)則，為下一步判斷諺語作為參考。

1.1.1 基于維吾爾語附加成分特征的規(guī)則研究

根據維吾爾諺語的語法結構，對諺語進行分類判斷[9]。例如：

2)將來時第三人稱單數詞尾構成的諺語。

3)第二人稱祈使句分為肯定和否定兩種形式的諺語。

4)過去式時態(tài)接陳述式第三人稱，即在副詞、動詞等詞類后附加詞尾構成的諺語[10]。

6)謂語是以形容詞結尾的諺語。等6種語法結構規(guī)則。例如：

1.1.2 維吾爾諺語關系規(guī)則

根據維吾爾諺語提出了并列、假設、取舍、連鎖等4種關系規(guī)則。

根據上述的維吾爾諺語的句型結構歸納的規(guī)則(詞綴)總數有75種，詞綴的含義是黏附在詞根上構成新詞的語素，它本身不能單獨構成詞。在維吾爾語言中黏附在詞根前面的詞綴稱為前詞綴(前綴)，黏附在詞根后面的詞綴稱為后詞綴(簡稱后綴)，插入詞根中間的詞綴稱為中詞綴(簡稱中綴)。另外，維吾爾諺語中有一種特殊詞綴，即由兩個或者兩個以上中綴黏附在詞根后面，本文中均可以雙中綴和多中綴，例如表1所示。

表1 維吾爾諺語詞綴(部分)Table 1 Part of Uyghur proverbs suffixes display

根據6 490條維吾爾諺語自身的特點，歸納了75種詞綴，其中有35個后詞綴(后加成分)，6個中綴，34個雙中綴和多中綴。

1.2 維吾爾諺語歧義現象

歧義是指語言中對一個詞語或一種結構有兩種或多種解釋，是語言研究中梳理的一個關鍵點[11]。

1)諺語成為句子成分

維吾爾諺語進行自動識別時在不同的規(guī)則層次中出現不同的歧義現象。不符合規(guī)則的現象分為以下兩類：新諺語和諺語成為句子成分。對于基于關鍵詞規(guī)則方法來說，有的諺語可以直接引用，前后不加任何詞語，而且作為固定組合時也可以充當句子的其他成分，比如：主語、賓語等。但這種可能非常有限[12]。如：

① 強盜收拾賊是免不了的。

② 你可知瞧著被子伸腿，一個巴掌拍不響的道理。

雖然固定語句是維吾爾諺語，但是具備了一個非維吾爾諺語該有的句子結構和語法結構[13]，比如上述例子①②。然而，這類諺語，往往需要借助人工處理后才能判斷是否是諺語。

2)諺語成為其他固定語句

維吾爾諺語作為語言中的一種固定的定型語句，諺語、成語和格言構成并列關系，三者同屬于非生語范疇并且構成上下位關系。諺語、成語和格言的語義結構與功能存在某些交錯。因此、計算機對維吾爾諺語進行自動處理時須有專屬維吾爾諺語的特定規(guī)則，后再使用計算機進行處理[14]。

諺語與成語。在結構上，雖然都大于詞，但諺語一般為一個完整的句子或者復句，而成語則多為詞組[15]。系統自動識別時，部分維吾爾諺語除了句尾用句號以外，句中由逗號隔開，這就表明維吾爾諺語的形式是以句號、逗號相配合組成的諺語，而成語則只是以句號結束。

諺語和格言。在結構上，維吾爾諺語一般由一個或兩個句子組成，這是由維吾爾諺語的語義簡潔性所決定的。而格言有的是由一個或兩個句子構成，有的則是由幾個句子構成的語段。

諺語與歌謠。維吾爾諺語語言結構形式類似于維吾爾語歌謠，但是在結構、語義和句法功能上同樣存在差別[16]。通常維吾爾諺語最長不超過兩三句，而維吾爾語歌謠則以兩句以上為多見[17]。

2 維吾爾諺語識別系統研究與設計

本研究中開發(fā)的維吾爾諺語自動識別系統分為維吾爾諺語判斷模塊、維吾爾諺語查詢模塊及維吾爾諺語統計模塊三大模塊，如圖1所示。

圖1 維吾爾諺語識別系統功能圖Fig. 1 Functional diagram Uyghur proverb recognition system

1)維吾爾諺語判斷模塊

維吾爾諺語判斷模塊從多種角度進行判別：

①通過由關鍵詞、標點符號、附加成分(詞綴)組成的三層識別方法，從文本中識別出可能成為諺語的固定語句并判斷該固定語句是否為維吾爾諺語；

②對話框中輸入固定語句，系統通過匹配當前固定語句的附加成分(詞綴)后判斷該輸入語句是維吾爾諺語或者是成語或者是其他類固定語句。

2)維吾爾諺語統計模塊

此模塊主要功能分為兩部分：一是對已判別好的維吾爾諺語成分進行統計；二是按照規(guī)則知識庫對語料庫中的諺語逐條自動進行判斷其是否為維吾爾諺語。

3)維吾爾諺語查詢模塊

查詢模塊的主要功能是根據使用者的需求，輸出維吾爾諺語其他相關信息。

2.1 系統功能的實現

本系統識別功能主要有以下幾個：1)識別關鍵詞；2)識別標點符號后自動地確定目標，固定語句的界定范圍，以便后續(xù)進行判斷；3)識別功能語類(功能語類是指用來表達語法意義的成分,本文中的詞綴)；4)將維吾爾諺語語料庫中的所有諺語作為查詢對象驗證查詢功能，即當輸入維吾爾諺語上一句或下一句時，系統就將自動查詢維吾爾諺語的上一句(下一句)，并且輸出維吾爾文解釋、漢譯、漢譯解釋、拼音和類型等一系列信息供用戶使用；5)統計功能，此功能包括維吾爾諺語成分統計和詞綴覆蓋率統計。前者根據諺語語料庫里每一個完整的維吾爾諺語行數和詞數進行統計。后者則根據已有的詞綴對“純諺語”語料庫中的所有維吾爾諺語進行統計與計算，即檢測維吾爾諺語關鍵技術研究系統的精準度。維吾爾諺語自動識別系統總流程圖如圖2所示。

本文中設計的維吾爾諺語自動識別系統在文本中充分利用3層條件識別出維吾爾諺語。識別系統判斷率已超過97%。

圖2 維吾爾諺語識別系統流程圖Fig. 2 Uyghur proverb recognition system flow chart

2.2 維吾爾諺語語料庫的構建

本研究所使用的文本為新疆師范大學“維吾爾語文研究基地”提供的以《語文》為名的小學維吾爾文語文教材、新疆人民出版社出版的《維漢對照維吾爾諺語》(總共3 000條)、《維吾爾諺語釋解詞典》(總共6 800條[18])。

以《維吾爾諺語釋解詞典》和《維漢對照維吾爾諺語詞典》中的6 490條維吾爾諺語(其中2 956條包含維漢解釋、讀法(拼音)、類型等一系列信息)組成的語料庫為研究對象。用戶根據需求進行查詢與匹配、統計與分類數據庫，從而能方便快速查找到所需信息。

本文中收集的維吾爾諺語數據如表2所示。

表2 維吾爾諺語收集率Table 2 Uyghur proverb collection rates

根據表2可知，本文中維吾爾諺語的收集率達到95.44%，維漢平行諺語語料庫的收集率達到98.53%。無論是維吾爾諺語純語料(單語言)，還是維漢諺語平行語料，其收集率都較完整。

2.3 維吾爾諺語識別對比實驗

為了衡量上述所構建維吾爾諺語語料庫和維漢平行諺語語料庫的實用性以及諺語識別方法的有效性，本文中分別對維吾爾諺語語料庫、維漢平行諺語語料庫的開放以及關閉狀態(tài)進行識別。實驗結果表明，系統通過規(guī)則詞組、標點符號、諺語詞綴等3層識別步驟篩選后的維吾爾諺語識別率達到96.9%，如果將此結果再與《維吾爾諺語語料庫》比較后其識別準確率提高到99%。這說明，從文中搜索到的維吾爾諺語是在維吾爾諺語語料庫里出現的，因此可以確切地判斷當前的固定語句為維吾爾諺語。因為“維漢平行諺語語料庫”中的維吾爾諺語端語料總數少于“維吾爾諺語語料庫”中的維吾爾諺語總數，因此，基于“維漢平行諺語語料庫”(其他語料庫關閉)從文本中識別諺語的準確率為43.47%?！熬S漢平行諺語語料庫”關閉狀態(tài)與前面所述的“維吾爾諺語語料庫”關閉的狀態(tài)是一個樣的，就是說系統只能通過上述的3層識別方法識別維吾爾諺語，其數據分析如表3所示。

表3 諺語識別率對比性實驗結果Table 3 Proverb recognition rate comparative experimental results

通過對比實驗結果表3可知，維吾爾諺語語料庫開放狀態(tài)下文本中識別諺語效率較高。當然用戶也可以在沒有諺語語料庫狀態(tài)下根據專屬諺語的特定規(guī)則判別當前固定語句是否為諺語，但是其判別率并不很理想。因此建議通過規(guī)則庫進行篩選之后再使用維吾爾諺語語料判斷當前固定語句是否為維吾爾諺語。

2.4 添加新諺語

維吾爾諺語是廣大維吾爾族人民口頭流傳的固定語句[19]。到目前為止很多研究者已經收集了大量維吾爾諺語，但是隨著維吾爾族文化的發(fā)展，可能會生成新的維吾爾諺語，并且在文本中依然能與關鍵詞連用，或者出現在括號里。這些固定語句不僅滿足關鍵詞規(guī)則和標點符號規(guī)則，也符合諺語語法、詞綴規(guī)則。另外，這些固定語句可直接存放在待定諺語庫里供使用者人工處理，并進一步判定該固定語句是否為新的維吾爾諺語。表4是小學維吾爾文語文教材中的新諺語數據分析。

表4 新諺語比例Table 4 Proportion of new proverbs

從表4可知，小學維吾爾文教材中識別的維吾爾諺語的總數共170條，其中新諺語數目為28條，占總諺語數目的16.47%。

2.5 詞綴覆蓋率

計算詞綴覆蓋率時，對收集的6 490條維吾爾諺語進行分析。其中包含后綴的維吾爾諺語共3 786條，由中詞綴相連接的維吾爾諺語共1 555條，由雙中綴和多中綴相連接的維吾爾諺語共2 356條。因為諺語本身句法結構多樣，附加成分(詞綴)連接特征極其不規(guī)律，包含上述詞綴的維吾爾諺語共4 934條，覆蓋率百分比為75.81%。其余1 556條維吾爾諺語是沒有特殊的語法結構或者沒有包含特定的詞綴，未覆概率百分比為24.19%。其數據分析如表5所示。

表5 諺語詞綴覆蓋率Table 5 Proverbs suffix coverage

表5中分別顯示每一種功能語類(詞綴)在維吾爾諺語語料庫中占的百分比，其中被雙中綴和多中綴覆蓋的維吾爾諺語占總諺語的36.30%，唯有中綴和后綴覆蓋的維吾爾諺語分別占為23.96%和58.33%。值得一提的是，維吾爾諺語語料庫里的6 490條維吾爾諺語中的某些維吾爾諺語有同時與后綴和中綴以及雙中綴相連接的可能性，即系統從文本中識別出維吾爾諺語時，有可能會在同一條維吾爾諺語本身匹配到上述的3種詞綴。比如：

漢譯：(沒有青杏哪來杏仁)[11]。

本文中的覆蓋率是指所有諺語詞綴的頻率由高到底降序排列時其每一條諺語詞綴與其整個諺語的頻率之和在全部語料中所占的比重，用來度量測試完整性和測試有效性[20]，如公式(1)所示。

式中：Fi為識別對象i的覆蓋率，ni為識別對象i的出現次數，N為所有語料中調查對象出現的總量。

3 結束語

本文從計算語言學理論角度歸納出維吾爾諺語的語法結構模式，為文本中自動識別維吾爾諺語系統的實現構建了較完整的維吾爾諺語語料庫與只屬于維吾爾諺語語法的維吾爾諺語規(guī)則知識庫。

維吾爾諺語系統的分析、設計與實現詳細地說明系統的設計路線和功能模塊，并進行小規(guī)模的實驗，即測試系統。本文闡述了維吾爾諺語規(guī)則庫、源數據庫和設計系統的模型與設計中的一些細節(jié)，并且對維吾爾諺語語料庫的各項語料統計進行分析，為自動識別系統提供了良好的基礎。系統依據用戶所提交的含有維吾爾諺語的任何一種格式的文本，通過關鍵詞和相關符號，與語料庫、規(guī)則庫進行判斷，獲得所需的維吾爾諺語，根據需要進行查詢與匹配，進行統計與分類，可快速地找到所需數據。本研究除了在語言理解、維漢/漢維機器翻譯中起重要作用之外，還能為中考、高考中考維吾爾語語文的全體學生提供一個良好的學習平臺，對教學研究及推廣維吾爾語言也會起到很大作用。