開(kāi)比爾罕·麥麥提明 艾孜爾古麗·玉素甫
[摘? ? ? ? ? ?要]? 首先介紹柯?tīng)柨俗握Z(yǔ)形態(tài)特征對(duì)詞干提取的作用,之后探討柯?tīng)柨俗握Z(yǔ)詞類(lèi)劃分、詞類(lèi)的形態(tài)特征。介紹基于規(guī)則、詞典以及詞典和規(guī)則相結(jié)合的方法和柯語(yǔ)語(yǔ)料構(gòu)建工作。討論柯語(yǔ)基于詞典、基于規(guī)則及詞典與規(guī)則方法的設(shè)計(jì)工作。最后以柯?tīng)柨俗挝奈⑿殴娞?hào)的新聞?wù)Z料作為驗(yàn)證對(duì)象,對(duì)利用三種不同的方法進(jìn)行詞干提取試驗(yàn),并對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與分析,驗(yàn)證詞干提取方法的可行性。
[關(guān)? ? 鍵? ?詞]? 柯?tīng)柨俗握Z(yǔ);形態(tài)分析;詞干提取;方法
[中圖分類(lèi)號(hào)]? H215? ? ? ? ? ? ? ? ?[文獻(xiàn)標(biāo)志碼]? A? ? ? ? ? ? ? [文章編號(hào)]? 2096-0603(2020)22-0096-02
柯?tīng)柨俗握Z(yǔ)詞干提取是柯?tīng)柨俗握Z(yǔ)信息處理中的重要技術(shù),是柯?tīng)柨俗握Z(yǔ)信息提取、文本情感分析、數(shù)據(jù)發(fā)掘等領(lǐng)域的重要基礎(chǔ)步驟。
在柯?tīng)柨俗握Z(yǔ)詞干提取方面,2013年阿依努爾·阿迪力等提出了基于字典的方法和機(jī)器學(xué)習(xí)方法的組合來(lái)從文本中提取詞干,并計(jì)算相應(yīng)詞干的頻率、長(zhǎng)度,給出組合詞的詞匯量。2013年陳莉等設(shè)計(jì)并且實(shí)現(xiàn)了基于隱馬爾科夫模型的柯?tīng)柨俗握Z(yǔ)基本詞性標(biāo)注系統(tǒng)。當(dāng)前柯?tīng)柨俗握Z(yǔ)詞干提取方法是以規(guī)則為主,本研究采用基于規(guī)則和字典相結(jié)合的方法,探討柯?tīng)柨俗握Z(yǔ)詞干提取方法。本文采用詞典的方法和規(guī)則的方法及兩種方法的混合來(lái)進(jìn)行詞干提取并有效提高了詞干提取的準(zhǔn)確性。
本文構(gòu)建一定規(guī)模的柯?tīng)柨俗握Z(yǔ)新聞資料庫(kù),將語(yǔ)料庫(kù)中的新聞內(nèi)容生成詞干詞典和詞綴詞典,結(jié)合柯?tīng)柨俗握Z(yǔ)詞法特征,提出基于詞典和規(guī)則的詞干提取方法,研究一種結(jié)合柯?tīng)柨俗握Z(yǔ)形態(tài)特征和結(jié)合人工切分實(shí)例庫(kù)、詞綴庫(kù)作為規(guī)則庫(kù)基礎(chǔ),基于規(guī)則和字典相結(jié)合的柯?tīng)柨俗握Z(yǔ)詞干提取方法。
一、柯?tīng)柨俗握Z(yǔ)本體研究
(一)柯?tīng)柨俗握Z(yǔ)形態(tài)概述
柯?tīng)柨俗握Z(yǔ)共有30個(gè)字母和36個(gè)音位。由于柯?tīng)柨俗握Z(yǔ)的14個(gè)元音音位當(dāng)中的6個(gè)長(zhǎng)元音是用基本元音的復(fù)寫(xiě)形式來(lái)表示,因此36個(gè)音位用30個(gè)字母來(lái)表示,其中有22個(gè)輔音音位,有14個(gè)元音音位???tīng)柨俗握Z(yǔ)中詞匯的形態(tài)變化非常豐富,依據(jù)詞的形態(tài)、意思以及在句子中起到的作用,柯?tīng)柨俗握Z(yǔ)的詞類(lèi)可劃分為名詞、代詞、形容詞、數(shù)詞、副詞、動(dòng)詞、連詞、助詞、后置詞、嘆詞、象聲詞十一類(lèi)。柯?tīng)柨俗握Z(yǔ)在形態(tài)上具有元音和諧,元音的增加和減少,輔音和諧,發(fā)音部位的同化和清音的濁化現(xiàn)象。在柯?tīng)柨俗握Z(yǔ)中,元音和諧不但出現(xiàn)在詞根或詞干中,而且更關(guān)鍵的是出現(xiàn)在詞綴中???tīng)柨俗握Z(yǔ)實(shí)詞構(gòu)形詞綴有208個(gè)不相同的詞綴、29個(gè)數(shù)詞詞綴、80個(gè)名詞詞綴、27個(gè)形容詞詞綴,動(dòng)詞就有90多個(gè)詞綴。依據(jù)統(tǒng)計(jì),柯?tīng)柨俗握Z(yǔ)實(shí)詞詞綴的不同相連組合在理論上能達(dá)到562種。
(二)柯?tīng)柨俗握Z(yǔ)特點(diǎn)研究
本論文中,用于詞干提取的方法有基于字典的方法、基于規(guī)則的方法以及基于詞典及規(guī)則相結(jié)合的方法。實(shí)際上詞干提取系統(tǒng)往往只采用一種單一的方法難以達(dá)到較高的實(shí)用水平。由于柯?tīng)柨俗握Z(yǔ)單詞的形態(tài)結(jié)構(gòu)特別復(fù)雜,并且詞綴很多,語(yǔ)料非常稀缺,用統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法和其他方法提高詞干提取效率非常困難。在柯語(yǔ)中,由于受到語(yǔ)音規(guī)律的影響,詞干本身的元音或者輔音要發(fā)生某些變化,導(dǎo)致相同的詞尾和不同單詞相連接可能充當(dāng)不同的附加成分的種類(lèi),這使詞尾的切分和對(duì)詞干提取存在一定的困難。主要體現(xiàn)在以下幾個(gè)方面:
4.語(yǔ)言的形態(tài)系統(tǒng)復(fù)雜,詞綴與詞綴之間的連接關(guān)系很難全面收集。
(三)基于詞典的方法
主要查找已知詞典進(jìn)行詞形的轉(zhuǎn)換。通過(guò)詞典匹配,結(jié)果更為準(zhǔn)確,并且易于擴(kuò)展和維護(hù)。返回詞干可能是詞典中的有效詞,減去詞干還原工作。本文在探討了柯?tīng)柨俗握Z(yǔ)的詞法規(guī)則等資源之后,研究了字典數(shù)據(jù)庫(kù)的初步實(shí)現(xiàn)。利用“新疆廣播電臺(tái)柯?tīng)柨俗握Z(yǔ)”微信公眾號(hào)中的新聞內(nèi)容建立詞典,詞典包括詞干庫(kù)、詞綴庫(kù)和弱化庫(kù)。首先,文本的所有內(nèi)容讀進(jìn)來(lái),然后進(jìn)行分句、分詞、詞頻統(tǒng)計(jì)、詞干提取,詞干提取時(shí)系統(tǒng)會(huì)和提前準(zhǔn)備好的詞干表進(jìn)行對(duì)比,如果出現(xiàn)的詞與詞干表中的詞匹配就確認(rèn)是詞干,如果沒(méi)有匹配等下一步用別的方法或者人工來(lái)進(jìn)行詞干提取。本文利用Access數(shù)據(jù)庫(kù)技術(shù)建設(shè)了所必要的詞干、詞綴以及弱化庫(kù)。
(四)基于規(guī)則的方法
基于規(guī)則的方法的重點(diǎn)問(wèn)題是需要構(gòu)造比較完備、適應(yīng)性相對(duì)強(qiáng)的規(guī)則庫(kù)和大規(guī)模的語(yǔ)言推導(dǎo)規(guī)則。本文詞綴表中錄入了柯?tīng)柨俗握Z(yǔ)中所有詞類(lèi)的詞綴分類(lèi)。基于規(guī)則詞干提取的詳細(xì)過(guò)程:從語(yǔ)單詞的左邊的字母開(kāi)始切分,根據(jù)柯語(yǔ)詞綴的相連接順序與構(gòu)形詞綴表匹配,然后找出全部的構(gòu)形詞綴的切分形式放到詞干表里。首先,確定構(gòu)形后綴列表,例如配置構(gòu)形后綴庫(kù),單詞后綴庫(kù)和前綴庫(kù),并開(kāi)始查找匹配位置,并指定詞干必須至少保留兩個(gè)字母的長(zhǎng)度。然后進(jìn)行詞綴列表查找及匹配;如匹配失敗,進(jìn)行重新編碼;如匹配成功,找到詞綴,則判斷是否滿足規(guī)則。若滿足,則切取詞綴;不滿足,則重新進(jìn)行編碼。
本研究提出單詞的雙向讀取文本和切分來(lái)實(shí)行詞干提取,是從左向右讀取詞匯的字母而進(jìn)行最大匹配的構(gòu)形詞綴的切分后詞干提取的方法,從右向左讀取詞匯字母來(lái)對(duì)詞干進(jìn)行切分提取。
(五)基于規(guī)則和詞典結(jié)合的方法
基于規(guī)則和詞典結(jié)合的方法是為規(guī)避上述方法的局限性而提出的有效方法。從柯?tīng)柨俗握Z(yǔ)單詞的左側(cè)開(kāi)始,根據(jù)詞綴的并置順序,與配置詞綴表匹配,將配置詞綴的所有細(xì)分形式查找到整個(gè)詞綴切分中;在柯?tīng)柨俗握Z(yǔ)詞的右側(cè),它與已建立的詞干表匹配,并找到所有詞干的分割形式將其放入詞干完整分割集中。在左側(cè)和右側(cè)的分割過(guò)程中,如果詞綴全切分集和詞干全切分集僅具有唯一的重合邊界,則認(rèn)為分割是正確的;否則,執(zhí)行規(guī)則還原處理。將字典的驗(yàn)證提取結(jié)果得出的規(guī)則與字典的結(jié)果相結(jié)合的方法用于研究詞干提取。
詞干提取的詳細(xì)過(guò)程如下:(1)從單詞的末尾開(kāi)始,對(duì)單詞的末尾進(jìn)行掃描切分詞尾,以提取詞干,并匹配詞干字典以查找所有可能的詞干;(2)依據(jù)詞尾規(guī)則、詞干詞性和詞尾綴接順序全切分詞尾;(3)使用最大匹配法消除歧義切分;(4)提取詞干。
二、實(shí)驗(yàn)及結(jié)果分析
本文以“新疆人民廣播電臺(tái)柯?tīng)柨俗握Z(yǔ)”微信公眾號(hào)中的新聞內(nèi)容作為訓(xùn)練語(yǔ)料庫(kù),語(yǔ)料庫(kù)中出現(xiàn)1048080個(gè)柯?tīng)柨俗挝脑~匯,以此語(yǔ)料庫(kù)作為實(shí)驗(yàn)對(duì)象進(jìn)行詞干提取工作。
由于柯語(yǔ)的形態(tài)結(jié)構(gòu)與規(guī)則不同,因此本次試驗(yàn)采用詞語(yǔ)的從左邊切分進(jìn)行詞干提取和語(yǔ)言本身的語(yǔ)法規(guī)則相結(jié)合還原詞干的方法。以柯語(yǔ)詞匯庫(kù)為處理對(duì)象,對(duì)3954篇文本中出現(xiàn)的1048080個(gè)詞匯進(jìn)行詞干提取,通過(guò)使用三種詞干提取方法,同時(shí)比較了在訓(xùn)練集大小規(guī)模確定條件下,獲取的詞干提取的正確率不同。結(jié)果如下表所示:
從上表可以看出,隨著訓(xùn)練集大小的增加,詞干提取的效率越來(lái)越高,提取精度也逐漸提高。然而,隨著訓(xùn)練規(guī)模的增加,錯(cuò)誤率逐漸減小。同時(shí)可見(jiàn),利用基于混合的方法進(jìn)行詞干提取的效果比單獨(dú)用一種方法的效果好。說(shuō)明本文提出的方法可以較好地提高對(duì)柯?tīng)柨俗握Z(yǔ)詞干提取的準(zhǔn)確率。本次實(shí)驗(yàn)結(jié)果分析發(fā)現(xiàn),導(dǎo)致錯(cuò)誤的詞干提取的主要原因是:詞干庫(kù)中的一些單詞本身是詞干,但后面的部分像詞綴就造成過(guò)度切分問(wèn)題,有些單詞是其他詞干連接詞尾后的形式,要對(duì)這些單詞進(jìn)行詞干提取時(shí)需要根據(jù)上下文內(nèi)容才能正確地切分詞干和詞尾。
參考文獻(xiàn):
[1]阿依努爾·阿迪力.小學(xué)柯?tīng)柨俗握Z(yǔ)文新課標(biāo)教材用詞情況研究[D].新疆:新疆師范大學(xué),2013.
[2]陳莉.基于HMM的柯?tīng)柨俗握Z(yǔ)基本詞性標(biāo)注研究[D].新疆:新疆大學(xué),2013.
[3]熱娜·艾爾肯.基于混合方法的維吾爾語(yǔ)詞干提取方法研究[J].計(jì)算機(jī)應(yīng)用研究,2015(1).
[4]塔依爾·阿不都外力,基于標(biāo)注詞典和規(guī)則的維吾爾文動(dòng)詞詞干提取方法[J].新疆大學(xué)學(xué)報(bào)(自然科學(xué)版),2013(2).
[5]胡振華.柯?tīng)柨俗握Z(yǔ)言文化研究[M].北京:中央民族大學(xué)出版社,2006.
編輯 張 慧