• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于N—gram模型的哈薩克詞干提取方法

      2017-07-29 12:21吾蘭·努魯別克熱木土拉·麥麥提艾斯卡
      電腦知識與技術(shù) 2017年12期
      關(guān)鍵詞:哈薩克語形態(tài)詞綴

      吾蘭·努魯別克 熱木土拉·麥麥提 艾斯卡爾·艾木都拉

      摘要:哈薩克語是組成結(jié)構(gòu)復(fù)雜的黏著性語言,哈薩克語詞干提取詞綴提取對哈薩克語信息處理領(lǐng)域具有很重要的意義。從哈薩克語粘著性特點(diǎn)出發(fā),哈薩克語詞干詞綴的構(gòu)成規(guī)則而且和統(tǒng)計(jì)模型特點(diǎn)結(jié)合,以N-gram語言模型為主框架,根據(jù)哈薩克語的構(gòu)詞約束條件,提出了N-gram語言模型的哈薩克詞干提取模型。實(shí)驗(yàn)結(jié)果表明,N-gram語言模型對哈薩克詞干的準(zhǔn)確提取是有效的,該模型的詞干級準(zhǔn)確率達(dá)到了72.34%。

      關(guān)鍵詞:哈薩克語;形態(tài);詞干提??;N-gram模型;詞綴

      1概述

      哈薩克語屬于黏著性語言,根據(jù)黏著性語言特點(diǎn),哈薩克語的構(gòu)詞和形態(tài)都是以詞根,詞干綴接不同的詞綴來實(shí)驗(yàn)語言功能和語言意義。每個(gè)詞的組成結(jié)構(gòu)和語法意義的表示都是依賴于不同詞綴的連接,因此每個(gè)詞綴都有著獨(dú)立的語法意義和結(jié)構(gòu)意義,詞綴不僅改變詞根的詞義,也會改變一個(gè)詞在整個(gè)句子中的作用。每個(gè)詞干連接不同的詞綴,就會產(chǎn)生不同的新詞,正確切分哈薩克語詞干和詞綴能夠正確表示其詞類詞性和語法關(guān)系。

      由于哈薩克語中同形異義詞數(shù)量比較多,對詞干的準(zhǔn)確提取帶來困難,這導(dǎo)致哈薩克語詞干提取歧義現(xiàn)象。

      設(shè)計(jì)并實(shí)現(xiàn)一個(gè)有效的哈薩克語詞干提取是必要的,對哈薩克語信息處理技術(shù)具有很重要的意義。在哈薩克語詞干提取方面,古麗拉·阿東別克等在2007年提出了哈薩克語詞干提取方法,在2008年采取雙向全切分方法結(jié)合詞法分析實(shí)現(xiàn)了詞干的提取。2011年達(dá)吾勒提出了基于規(guī)則的哈薩克語詞干提取方法。2012年江阿古麗·哈依達(dá)爾利用有限狀態(tài)自動(dòng)提取哈薩克語單詞詞干。但目前為止,哈薩克語詞干提取研究都是以規(guī)則的方法為主,這方法缺少可移植性,無法移植到新的語料,因此本文根據(jù)哈薩克語黏著性特點(diǎn)和詞干詞綴的連接關(guān)系,利用統(tǒng)計(jì)的方法對哈薩克語單詞進(jìn)行統(tǒng)計(jì)和分析,提取了N-gram語言模型為主框架的哈薩克語詞干提取方法。

      2哈薩克語詞干詞綴結(jié)構(gòu)

      2.1哈薩克語詞法特點(diǎn)

      哈薩克語屬于黏著性語言,構(gòu)詞和構(gòu)形結(jié)構(gòu)上詞根,詞干連不同的詞綴來形成語法功能和結(jié)構(gòu)功能。通過不同詞綴的綴接形成不同的詞形和詞義。因此每個(gè)不同的詞綴意味著不同的語法意義。由于哈薩克語有大量的詞綴,則形成的單詞就不同,因此對哈薩克語來說,正確切分哈薩克語詞干和詞綴才能夠揭示詞性和語法的內(nèi)在關(guān)系。

      做哈薩克人名識別實(shí)驗(yàn)過程中,意識到詞干提取的重要性和必要性,受到提取詞干需要大量的時(shí)間和精力,因此要研究哈薩克語詞干提取很必要。哈薩克詞干提取技術(shù)處于待研究狀態(tài),在機(jī)器翻譯,信息檢索等領(lǐng)域中詞干提取技術(shù)起很大的作用,因此本文提出基于統(tǒng)計(jì)的哈薩克詞干提取方法。

      哈薩克語中詞與詞之間以空格分割,哈薩克單詞由詞干和附加成分來組成的,附加成分指的是前綴和后綴。哈薩克語單詞的形成形式是:Prefix+Stem+Suffix1+Suffix2+…+Suffixn

      Suffix1+Suffix2+…+Suffixn為復(fù)合詞綴,Prefix為前綴,可以看出詞干綴接最少一個(gè)詞綴,最大達(dá)到八九個(gè)詞綴,因此后綴給詞干帶來很多的變化。哈薩克單詞中附加成分的累加體現(xiàn)不同的語法意義和形態(tài)。

      猜你喜歡
      哈薩克語形態(tài)詞綴
      從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
      釋西夏語詞綴wji2
      戰(zhàn)斗精神的五個(gè)要素
      “互聯(lián)網(wǎng)+”視域下的公益新形態(tài)探究
      哈薩克語附加成分-A
      哈薩克語比喻及其文化特征
      “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
      試析否定詞綴在漢維語中的不同表現(xiàn)
      哈薩克語植物詞匯的文化象征意義
      類詞綴與詞綴的共性特點(diǎn)分析
      蛟河市| 北碚区| 濮阳县| 广平县| 如东县| 铜陵市| 郧西县| 海城市| 黑龙江省| 溧阳市| 申扎县| 吉木萨尔县| 格尔木市| 淄博市| 旌德县| 惠东县| 曲松县| 嘉兴市| 宜君县| 彭州市| 武夷山市| 项城市| 潼关县| 乐昌市| 临安市| 辽阳县| 西藏| 兰坪| 个旧市| 内乡县| 调兵山市| 虹口区| 阿尔山市| 广昌县| 禄丰县| 景东| 武定县| 西峡县| 襄樊市| 远安县| 文化|