• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于混合策略的藏文虛詞識(shí)別方法

      2019-08-05 02:28:16拉瑪扎西才智杰班瑪寶
      中文信息學(xué)報(bào) 2019年7期
      關(guān)鍵詞:兼類單音節(jié)藏文

      拉瑪扎西,才智杰,班瑪寶

      (1. 青海師范大學(xué) 計(jì)算機(jī)學(xué)院,青海 西寧 810016;2. 青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008;3. 藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海 西寧 810008)

      0 引言

      藏文是一種典型邏輯格語(yǔ)法體系的拼音文字[1],由實(shí)詞和虛詞按一定的語(yǔ)法結(jié)構(gòu)組合而成。實(shí)詞具有具體詞匯意義,包括名詞、代詞、動(dòng)詞、形容詞、數(shù)詞等,可以單獨(dú)使用;而虛詞沒(méi)有實(shí)際意義,包括語(yǔ)法虛詞[2](格助詞和接續(xù)助詞)和關(guān)聯(lián)詞等,不能單獨(dú)使用。計(jì)算機(jī)自動(dòng)識(shí)別虛詞對(duì)文本的歧義消解、句法分析、句型及語(yǔ)義處理等具有重要作用,并在藏文分詞[3]和停用詞選取[4]等方面有重要的應(yīng)用價(jià)值?,F(xiàn)有文獻(xiàn)中未見(jiàn)詳細(xì)面向自然語(yǔ)言處理的藏文虛詞特征及其個(gè)數(shù)的分析,并且沒(méi)有研究多音節(jié)虛詞的識(shí)別。本文在分析傳統(tǒng)藏文虛詞研究成果的基礎(chǔ)上,初步統(tǒng)計(jì)了面向自然語(yǔ)言處理的藏文虛詞,并分析了藏文虛詞的特征,從而提出了基于規(guī)則和最大熵模型相結(jié)合的藏文虛詞識(shí)別策略。

      本文組織結(jié)構(gòu)如下: 第1節(jié)分析藏文虛詞識(shí)別的研究現(xiàn)狀和主要技術(shù)方法;第2節(jié)歸納并總結(jié)傳統(tǒng)藏文文法和面向自然語(yǔ)言處理的藏文虛詞,確定面向自然語(yǔ)言處理的虛詞數(shù)量及特征;第3節(jié)設(shè)計(jì)基于規(guī)則和最大熵模型相結(jié)合的藏文虛詞識(shí)別方法;第4節(jié)實(shí)驗(yàn)驗(yàn)證算法的有效性,并對(duì)存在的問(wèn)題進(jìn)行分析;第5節(jié)是結(jié)論與展望。

      1 研究現(xiàn)狀

      分詞既是藏語(yǔ)自然語(yǔ)言處理的一項(xiàng)基礎(chǔ)性研究工作,也是一個(gè)存在很多難點(diǎn)的研究范疇。陳玉忠等[2]在分析藏文文本自動(dòng)切分難點(diǎn)時(shí)指出,藏文分詞中較難解決的問(wèn)題有四類: ①由實(shí)詞—實(shí)詞、實(shí)詞—虛詞、虛詞—實(shí)詞、虛詞—虛詞的交集性字段引起的錯(cuò)誤; ②由實(shí)詞—實(shí)詞、實(shí)詞—虛詞、虛詞—實(shí)詞、虛詞—虛詞的組合型歧義字段引起的錯(cuò)誤; ③由緊縮詞識(shí)別引起的錯(cuò)誤; ④由未登錄詞引起的錯(cuò)誤。在這四類錯(cuò)誤中,前三項(xiàng)與虛詞的識(shí)別有關(guān)。因此,藏文虛詞(包括緊縮詞)的識(shí)別問(wèn)題引起學(xué)者們的關(guān)注。其中,緊縮詞是一種特殊的虛詞,學(xué)者們先后研究了緊縮詞的識(shí)別問(wèn)題。才智杰[5]首次提出了緊縮詞的“添加—還原法”識(shí)別方法,識(shí)別準(zhǔn)確率達(dá)99.83%,取得了理想效果。完么扎西等[6]在“添加—還原法”的基礎(chǔ)上利用藏文文法規(guī)則識(shí)別緊縮詞,其識(shí)別準(zhǔn)確率達(dá)99.95%。李亞超等[7]為解決無(wú)法識(shí)別未登錄詞后的緊縮詞問(wèn)題,提出了基于條件隨機(jī)場(chǎng)的緊縮詞識(shí)別方法,其識(shí)別準(zhǔn)確率達(dá)98.91%,克服了“還原法”中不能識(shí)別“未登錄詞+緊縮詞”的問(wèn)題。華卻才讓等[8]利用藏文緊縮詞識(shí)別音節(jié)的方法,識(shí)別準(zhǔn)確率達(dá)到了99.91%。康才畯等[9]采用基于詞位的統(tǒng)計(jì)分析方法識(shí)別藏文緊縮詞的準(zhǔn)確率為95.89%,解決了未登錄詞對(duì)識(shí)別效果的影響。拉瑪扎西等[10]通過(guò)剖析現(xiàn)有藏文緊縮詞識(shí)別方法,分析藏文字詞的特征,有針對(duì)性地提出了基于規(guī)則、添加—還原法與最大熵模型相結(jié)合的藏文緊縮格識(shí)別方法,其識(shí)別準(zhǔn)確率達(dá)到了99.26%,相比現(xiàn)有準(zhǔn)確率,有明顯的提高。同樣,在一般虛詞識(shí)別方面,學(xué)者們也提出了若干識(shí)別方法。趙棟材[11]通過(guò)建立虛詞兼類詞典庫(kù),在采用正向最大匹配算法對(duì)文本切分后,利用不自由虛詞的接續(xù)規(guī)則識(shí)別虛詞(單音節(jié)虛詞)。高定國(guó)等[12]提出了基于規(guī)則的藏文虛詞識(shí)別方法,其識(shí)別準(zhǔn)確率達(dá)97.08%。拉巴頓珠等[13]通過(guò)建立虛詞兼類詞典、單音節(jié)詞典、規(guī)則的不自由虛詞詞典庫(kù)等識(shí)別藏文虛詞。由以上文獻(xiàn)可見(jiàn),特殊虛詞緊縮詞的識(shí)別問(wèn)題利用統(tǒng)計(jì)與規(guī)則相結(jié)合的方法可以得到解決,但一般虛詞的識(shí)別還不能滿足實(shí)際需求。一般虛詞的識(shí)別主要有兩個(gè)不足點(diǎn): ①識(shí)別方法只用了規(guī)則法。由于虛詞的多樣性,僅依靠規(guī)則不能識(shí)別出好的效果。正如文獻(xiàn)[12]在實(shí)驗(yàn)分析中指出,在規(guī)則法的基礎(chǔ)上引入統(tǒng)計(jì)方法,可以提高藏文虛詞識(shí)別率。②沒(méi)有具體分析虛詞的特征,只是籠統(tǒng)地將藏文文法中提到的虛詞認(rèn)定為面向自然語(yǔ)言處理的虛詞對(duì)象,其識(shí)別對(duì)象沒(méi)有完全囊括藏文文本中的虛詞。

      2 藏文虛詞及其特征

      在藏文虛詞識(shí)別研究的文獻(xiàn)中,沒(méi)有明確藏文虛詞及其數(shù)量,因而在自然語(yǔ)言處理的各項(xiàng)研究中沒(méi)能獲得理想的成果。研究面向藏語(yǔ)自然語(yǔ)言處理的藏文虛詞識(shí)別方法,依據(jù)藏文文法理論,并將其具體化,才能取得好的效果。本節(jié)通過(guò)分析傳統(tǒng)藏文文法中虛詞的定義及數(shù)量,確定了面向自然語(yǔ)言處理的藏文虛詞,并分析其特點(diǎn)。

      2.1 傳統(tǒng)藏文文法中的虛詞

      藏文文法《三十頌》是一部最早闡述藏文文法的專著,里面有專門(mén)闡述藏文虛詞的內(nèi)容?!度灐窂恼Z(yǔ)法功能角度給出了虛詞的定性描述: 虛詞是指按語(yǔ)境添接在實(shí)詞的前或中或尾部后,使各零散的實(shí)詞具有一定意義的功能詞[14]?!度灐分辛_列的虛詞都是單音節(jié)虛詞。在后續(xù)的研究中,學(xué)者們對(duì)《三十頌》做了很多不同的解讀,將虛詞按音節(jié)數(shù)分為單音節(jié)虛詞和多音節(jié)虛詞[15]。文獻(xiàn)[14,16-18]解讀《三十頌》中對(duì)虛詞的闡述,羅列了藏文虛詞(下文中把這類虛詞稱為語(yǔ)法虛詞),各文獻(xiàn)收錄的藏文語(yǔ)法虛詞數(shù)量統(tǒng)計(jì)見(jiàn)表1。

      表1 藏文語(yǔ)法虛詞數(shù)量統(tǒng)計(jì)表

      表2 藏文補(bǔ)遺虛詞統(tǒng)計(jì)表

      表2中的補(bǔ)遺虛詞不包含語(yǔ)法虛詞,語(yǔ)法虛詞在藏文真實(shí)文本中經(jīng)常出現(xiàn),起到轉(zhuǎn)折、關(guān)聯(lián)等作用。

      2.2 面向自然語(yǔ)言處理的藏文虛詞

      由于自然語(yǔ)言處理的特殊需求,面向自然語(yǔ)言處理的虛詞不能直接選用傳統(tǒng)藏文文法中規(guī)定的虛詞,需要分析語(yǔ)法虛詞中單音節(jié)虛詞的語(yǔ)法作用以及在文本中的詞性,并對(duì)個(gè)別在藏文文法中提到的補(bǔ)遺虛詞進(jìn)行相應(yīng)處理后,才能最終確定虛詞識(shí)別任務(wù)的處理對(duì)象。

      本文在選取和識(shí)別面向自然語(yǔ)言處理的虛詞時(shí),遵循以下5條原則。

      本文從表1、表2羅列的虛詞中,遵循以上5條原則,確定了面向自然語(yǔ)言處理的552個(gè)虛詞,面向自然語(yǔ)言處理的藏文虛詞及其分布如表3所示。

      表3 面向自然語(yǔ)言處理的藏文虛詞及分布表

      由表3可知,在552個(gè)面向自然語(yǔ)言處理的藏文虛詞中,有72個(gè)語(yǔ)法虛詞和480個(gè)補(bǔ)遺虛詞。72個(gè)語(yǔ)法虛詞中兼類虛詞有50個(gè),480個(gè)補(bǔ)遺虛詞中兼類虛詞有16個(gè)。藏文語(yǔ)法虛詞中兼類虛詞所占比例高達(dá)69.44%,對(duì)虛詞的識(shí)別帶來(lái)了困難。語(yǔ)法虛詞中自由虛詞有12個(gè),不自由虛詞有60個(gè),占語(yǔ)法虛詞總數(shù)的83.33%,480個(gè)補(bǔ)遺虛詞都為自由虛詞。從虛詞所含音節(jié)角度看,單音節(jié)虛詞有106個(gè),多音節(jié)虛詞有446個(gè),可見(jiàn)藏文虛詞以多音節(jié)為主。

      2.3 藏文虛詞的特征

      藏文虛詞除了表示語(yǔ)法意義和不能單獨(dú)使用的共性特征外,還具有以下5種個(gè)性特征。

      (1) 黏著特征

      (2) 兼類特征

      (3) 實(shí)詞中包含單音節(jié)虛詞的特征

      (4) 多音節(jié)虛詞包含單音節(jié)虛詞的特征

      (5) 多音節(jié)虛詞具有嵌套特征。

      3 藏文虛詞識(shí)別

      3.1 藏文虛詞識(shí)別策略

      本文采用逆向最大匹配法和最大熵模型相結(jié)合的混合策略識(shí)別藏文虛詞。其識(shí)別模型如圖1所示。

      圖1 基于混合策略的藏文虛詞識(shí)別模型

      圖1是根據(jù)藏文虛詞特征提出的基于規(guī)則法和最大熵模型相結(jié)合的混合策略模型。針對(duì)虛詞中具有黏著特征的緊縮詞識(shí)別已有很多研究,其識(shí)別準(zhǔn)確率達(dá)99.83%以上,本文運(yùn)用了文獻(xiàn)[5,10]中提出的“添加—還原法”和基于規(guī)則、添加還原法與最大熵模型相結(jié)合的藏文緊縮詞識(shí)別方法,具體參見(jiàn)文獻(xiàn)[5,10]。針對(duì)藏文虛詞的第(4)類特征,文章采用多音節(jié)虛詞優(yōu)先識(shí)別策略,因此,基于混合策略的藏文虛詞識(shí)別模型包含多音節(jié)虛詞識(shí)別模塊和單音節(jié)虛詞識(shí)別模塊。

      多音節(jié)虛詞識(shí)別模塊在“包含虛詞的實(shí)詞庫(kù)”中對(duì)文本預(yù)處理中逆向提取的8音節(jié)字串進(jìn)行查找,若找到,則可斷定8音節(jié)字串中無(wú)虛詞;否則,在“多音節(jié)虛詞庫(kù)”上采用逆向最大匹配法判斷是否為多音節(jié)虛詞。這里只提取8音節(jié)字串的原因是藏文多音節(jié)虛詞中最大音節(jié)數(shù)為8,而且“包含虛詞的實(shí)詞庫(kù)”中的最大音節(jié)數(shù)也不超過(guò)8個(gè)。其中,“包含虛詞的實(shí)詞庫(kù)”含719個(gè)詞條,“多音節(jié)虛詞庫(kù)”含446個(gè)詞條。

      單音節(jié)識(shí)別模塊首先判斷多音節(jié)模塊未能識(shí)別的最后一個(gè)單音節(jié)虛詞是否為兼類詞,若該單音節(jié)虛詞不是兼類虛詞,則一定為虛詞;否則,該單音節(jié)有可能是虛詞,也有可能是實(shí)詞。然后,對(duì)這個(gè)單音節(jié)用最大熵模型判別其是否為虛詞。由于單音節(jié)兼類虛詞有33個(gè),因而判別虛詞的兼類性也比較簡(jiǎn)單。

      3.2 最大熵特征模板

      Jaynes于1957年首次提出最大熵原理,被廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域。其基本原理是,在已知部分信息的前提下,關(guān)于未知分布最合理的推斷應(yīng)該符合已知信息最不確定或最大隨機(jī)的推斷[20]。藏文虛詞識(shí)別可看作是一個(gè)序列標(biāo)注問(wèn)題,標(biāo)注時(shí)對(duì)每個(gè)對(duì)象隨機(jī)標(biāo)注一個(gè)標(biāo)簽,并建立已知特征x的條件下輸出標(biāo)簽y的概率分布模型p(p∈P)。其中,x屬于上下文信息集X(x∈X),y屬于對(duì)應(yīng)的標(biāo)簽集Y(y∈Y)。從訓(xùn)練集中可獲得N個(gè)樣本集,即S={(x1,y1),(x2,y2),…,(xn,yn)},根據(jù)這些樣本可以定義一個(gè)事件空間,其特征是一個(gè)二值函數(shù)f:X×Y→{0,1},其定義如式(1)所示。

      則模型p的熵為:

      (1)

      從式(1)中可得出最大熵模型,如式(2)所示。

      (2)

      式(2)中的C為符合約束條件的模型集合,然后計(jì)算滿足C條件的最大p*,如式(3)所示。

      (3)

      其中,z(x)是歸一化常數(shù),并有式(4)。

      (4)

      式(3)、式(4)中的λi為模型參數(shù),即特征fi對(duì)應(yīng)的權(quán)重λi,可通過(guò)IIS算法來(lái)估計(jì)。

      最大熵模型中,如何針對(duì)研究對(duì)象選擇有效的上下文特征是一個(gè)關(guān)鍵問(wèn)題。本文根據(jù)藏文詞語(yǔ)音節(jié)的分布特點(diǎn)及上下文激發(fā)環(huán)境確定模型,并抽取特征模板。本文選取的特征模板如表4所示。

      表4 特征模板

      4 實(shí)驗(yàn)數(shù)據(jù)及分析

      為了驗(yàn)證本文提出的藏文虛詞識(shí)別方法的有效性,我們從青海師范大學(xué)才智杰教授研究小組建立的藏語(yǔ)語(yǔ)料庫(kù)中選取了含30 404個(gè)音節(jié)的語(yǔ)料作為測(cè)試語(yǔ)料,語(yǔ)料領(lǐng)域包括政治、教材、歷史、小說(shuō)、新聞等五種題材。語(yǔ)料中含9 187個(gè)藏文虛詞,利用本文提出的藏文虛詞識(shí)別方法正確識(shí)別出了9 040個(gè)虛詞,共出現(xiàn)187個(gè)識(shí)別錯(cuò)誤,實(shí)驗(yàn)數(shù)據(jù)見(jiàn)表5。

      表5 虛詞識(shí)別實(shí)驗(yàn)數(shù)據(jù)

      5 結(jié)論與展望

      藏語(yǔ)虛詞識(shí)別既是藏語(yǔ)自然語(yǔ)言處理的一項(xiàng)基礎(chǔ)性工作,也是一項(xiàng)具有挑戰(zhàn)性的研究工作,在藏文分詞和停用詞選取等方面有重要的應(yīng)用價(jià)值。本文重點(diǎn)探討了面向自然語(yǔ)言處理的藏語(yǔ)虛詞及其語(yǔ)法特征,確定了面向自然語(yǔ)言處理的虛詞及數(shù)量,提出了規(guī)則法和最大熵模型相結(jié)合的藏文虛詞識(shí)別混合策略。實(shí)驗(yàn)表明,該方法識(shí)別藏文虛詞的準(zhǔn)確率、召回率和F1值分別達(dá)98.39%、98.75%、98.57%。今后在該研究成果的基礎(chǔ)上,將進(jìn)一步研究藏文分詞及停用詞選取技術(shù),為藏文詞向量表示奠定基礎(chǔ)。

      猜你喜歡
      兼類單音節(jié)藏文
      現(xiàn)代韓國(guó)語(yǔ)兼類詞表征研究
      ——以《新國(guó)語(yǔ)詞典》(第5版)為例
      語(yǔ)文單音節(jié)詞教學(xué)初探
      基于統(tǒng)計(jì)的《HSK詞匯等級(jí)大綱》動(dòng)名兼類詞標(biāo)注研究*
      西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
      布達(dá)拉(2020年3期)2020-04-13 10:00:07
      黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
      西夏學(xué)(2019年1期)2019-02-10 06:22:34
      在農(nóng)村小學(xué)語(yǔ)音教學(xué)中提升學(xué)生認(rèn)讀拼讀能力初探
      考試周刊(2019年9期)2019-01-26 10:24:24
      藏文音節(jié)字的頻次統(tǒng)計(jì)
      現(xiàn)代語(yǔ)境下的藏文報(bào)刊
      新聞傳播(2016年17期)2016-07-19 10:12:05
      聽(tīng)音訓(xùn)練對(duì)漢語(yǔ)單音節(jié)聽(tīng)感清晰度的影響
      基于統(tǒng)計(jì)和規(guī)則的常用詞的兼類識(shí)別研究
      镇坪县| 贺州市| 营山县| 峨边| 德安县| 龙井市| 太保市| 木里| 宜兴市| 鄂托克前旗| 额济纳旗| 广平县| 论坛| 西畴县| 荆门市| 水富县| 巴彦淖尔市| 江川县| 苍山县| 邻水| 山西省| 旌德县| 鸡泽县| 怀集县| 普安县| 郎溪县| 昆明市| 榆林市| 玉龙| 黔南| 新巴尔虎左旗| 太仓市| 夹江县| 高密市| 都兰县| 金门县| 文昌市| 鸡东县| 永嘉县| 防城港市| 柘城县|