吾蘭·努魯別克 熱木土拉·麥麥提 艾斯卡爾·艾木都拉
摘要:哈薩克語是組成結(jié)構(gòu)復(fù)雜的黏著性語言,哈薩克語詞干提取詞綴提取對哈薩克語信息處理領(lǐng)域具有很重要的意義。從哈薩克語粘著性特點(diǎn)出發(fā),哈薩克語詞干詞綴的構(gòu)成規(guī)則而且和統(tǒng)計(jì)模型特點(diǎn)結(jié)合,以N-gram語言模型為主框架,根據(jù)哈薩克語的構(gòu)詞約束條件,提出了N-gram語言模型的哈薩克詞干提取模型。實(shí)驗(yàn)結(jié)果表明,N-gram語言模型對哈薩克詞干的準(zhǔn)確提取是有效的,該模型的詞干級準(zhǔn)確率達(dá)到了72.34%。
關(guān)鍵詞:哈薩克語;形態(tài);詞干提??;N-gram模型;詞綴
1概述
哈薩克語屬于黏著性語言,根據(jù)黏著性語言特點(diǎn),哈薩克語的構(gòu)詞和形態(tài)都是以詞根,詞干綴接不同的詞綴來實(shí)驗(yàn)語言功能和語言意義。每個(gè)詞的組成結(jié)構(gòu)和語法意義的表示都是依賴于不同詞綴的連接,因此每個(gè)詞綴都有著獨(dú)立的語法意義和結(jié)構(gòu)意義,詞綴不僅改變詞根的詞義,也會改變一個(gè)詞在整個(gè)句子中的作用。每個(gè)詞干連接不同的詞綴,就會產(chǎn)生不同的新詞,正確切分哈薩克語詞干和詞綴能夠正確表示其詞類詞性和語法關(guān)系。
由于哈薩克語中同形異義詞數(shù)量比較多,對詞干的準(zhǔn)確提取帶來困難,這導(dǎo)致哈薩克語詞干提取歧義現(xiàn)象。
設(shè)計(jì)并實(shí)現(xiàn)一個(gè)有效的哈薩克語詞干提取是必要的,對哈薩克語信息處理技術(shù)具有很重要的意義。在哈薩克語詞干提取方面,古麗拉·阿東別克等在2007年提出了哈薩克語詞干提取方法,在2008年采取雙向全切分方法結(jié)合詞法分析實(shí)現(xiàn)了詞干的提取。2011年達(dá)吾勒提出了基于規(guī)則的哈薩克語詞干提取方法。2012年江阿古麗·哈依達(dá)爾利用有限狀態(tài)自動(dòng)提取哈薩克語單詞詞干。但目前為止,哈薩克語詞干提取研究都是以規(guī)則的方法為主,這方法缺少可移植性,無法移植到新的語料,因此本文根據(jù)哈薩克語黏著性特點(diǎn)和詞干詞綴的連接關(guān)系,利用統(tǒng)計(jì)的方法對哈薩克語單詞進(jìn)行統(tǒng)計(jì)和分析,提取了N-gram語言模型為主框架的哈薩克語詞干提取方法。
2哈薩克語詞干詞綴結(jié)構(gòu)
2.1哈薩克語詞法特點(diǎn)
哈薩克語屬于黏著性語言,構(gòu)詞和構(gòu)形結(jié)構(gòu)上詞根,詞干連不同的詞綴來形成語法功能和結(jié)構(gòu)功能。通過不同詞綴的綴接形成不同的詞形和詞義。因此每個(gè)不同的詞綴意味著不同的語法意義。由于哈薩克語有大量的詞綴,則形成的單詞就不同,因此對哈薩克語來說,正確切分哈薩克語詞干和詞綴才能夠揭示詞性和語法的內(nèi)在關(guān)系。
做哈薩克人名識別實(shí)驗(yàn)過程中,意識到詞干提取的重要性和必要性,受到提取詞干需要大量的時(shí)間和精力,因此要研究哈薩克語詞干提取很必要。哈薩克詞干提取技術(shù)處于待研究狀態(tài),在機(jī)器翻譯,信息檢索等領(lǐng)域中詞干提取技術(shù)起很大的作用,因此本文提出基于統(tǒng)計(jì)的哈薩克詞干提取方法。
哈薩克語中詞與詞之間以空格分割,哈薩克單詞由詞干和附加成分來組成的,附加成分指的是前綴和后綴。哈薩克語單詞的形成形式是:Prefix+Stem+Suffix1+Suffix2+…+Suffixn
Suffix1+Suffix2+…+Suffixn為復(fù)合詞綴,Prefix為前綴,可以看出詞干綴接最少一個(gè)詞綴,最大達(dá)到八九個(gè)詞綴,因此后綴給詞干帶來很多的變化。哈薩克單詞中附加成分的累加體現(xiàn)不同的語法意義和形態(tài)。