• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      隱馬爾科夫模型對于文本數(shù)據(jù)處理的應(yīng)用

      2017-07-13 03:06:12侯垚國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系
      消費導(dǎo)刊 2017年19期
      關(guān)鍵詞:馬爾科夫分詞概率

      侯垚 國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系

      隱馬爾科夫模型對于文本數(shù)據(jù)處理的應(yīng)用

      侯垚 國防大學(xué)政治學(xué)院軍事信息與網(wǎng)絡(luò)輿論系

      一階隱馬爾科夫模型有兩個假設(shè):①馬爾科夫假設(shè),即某特定狀態(tài)只與其前一個狀態(tài)有關(guān);②輸出獨立性假設(shè),一個輸出某觀察值的概率只與產(chǎn)生該觀察值的狀態(tài)有關(guān),而與其他任何狀態(tài)和任何觀察值無關(guān)。

      馬爾科夫模型 文本數(shù)據(jù)處理

      一、詞語切分的應(yīng)用

      運用馬爾科夫模型在中文分詞中時,需要確定模型的參數(shù)值具體指代什么含義。文獻(xiàn)[1]指出,在漢語詞性標(biāo)注時,可以將輸入詞的序列作為觀測值序列,將詞性序列作為狀態(tài)轉(zhuǎn)移序列,該問題可以轉(zhuǎn)化為,已知詞語的字符串,求出最優(yōu)的詞性標(biāo)注序列(解碼問題)。在參數(shù)的訓(xùn)練中,初始狀態(tài)的概率分布矩陣可以用統(tǒng)計的方法求得,而狀態(tài)轉(zhuǎn)移矩陣可用詞性轉(zhuǎn)移次數(shù)與詞性出現(xiàn)總數(shù)的比值求得,發(fā)射概率矩陣也可用輸出詞頻數(shù)與詞性頻數(shù)的比值來確定。對于一個分詞模型來說其設(shè)計思路流程大體分為如下幾步[2]:

      ①帶切分句子;②生成解的空間集合(即候選的切分集);③在解空間中求最優(yōu)解(解決切分歧義);④切分結(jié)果。

      文獻(xiàn)[2]分析了基于中文分詞的一階隱馬爾科夫模型和在生語料庫中的算法,并建立了基于HMM模型進(jìn)行中文分詞的仿真系統(tǒng)。文獻(xiàn)[3]在進(jìn)行詞語切分時對HMM進(jìn)行改進(jìn),將經(jīng)過初步切分的兼類詞串和未登錄詞串的詞匯單獨抽取出來,利用Viterbi算法求得某一詞串的最大概率。

      在對詞語進(jìn)行切分時,由于分詞詞典樣本并不能將所有詞語都包容在內(nèi),會造成通用的詞語粗切分將一些專業(yè)術(shù)語切分成孤立的、沒有意義的若干個字詞。比如“有限自動狀態(tài)機”一詞會被切分為“有限”、“自動”、“狀態(tài)”、“機”4個完全失去原始含義的孤立字詞。文獻(xiàn)[4]通過建立雙層隱馬爾科夫模型,從中文語法的構(gòu)成角度上來識別專業(yè)術(shù)語,比如在“名詞”+“動詞”后面會出現(xiàn)一個完整的名詞語義單元并被視為一個整體。其底層為上文所提到的詞性標(biāo)注序列的問題,上層模型以其為基礎(chǔ),以粗切分的詞性標(biāo)注序列為輸入觀測序列,而輸出的則是文本的最佳邊界標(biāo)記序列,邊界的起點代表一個未登錄詞的開始,終點代表結(jié)束,有利于提高未登錄詞的識別率。

      而隱馬爾科夫模型在詞性標(biāo)注中存在的問題主要有:①為了達(dá)到較高的準(zhǔn)確率,需要的訓(xùn)練語料較多。②隱馬爾科夫模型并沒有較好的結(jié)合語言學(xué)的知識。這些仍有待提高。

      二、命名實體的應(yīng)用

      文獻(xiàn)[5]綜合考慮機構(gòu)名的結(jié)構(gòu)和上下文文本信息,采取人工輔助和機器學(xué)習(xí)相結(jié)合的方法對金融領(lǐng)域的機構(gòu)命名實體進(jìn)行識別。文獻(xiàn)[6]使用Viterbi算法,對切分的結(jié)果進(jìn)行角色標(biāo)注成為角色序列,并在此基礎(chǔ)上進(jìn)行字符串和機構(gòu)名稱的識別,具有較高的準(zhǔn)確率。文獻(xiàn)[7]針對機構(gòu)命名實體識別的難點,使用HMM對原文分詞進(jìn)行詞性標(biāo)注,使用Viterbi算法來對最有可能的詞性進(jìn)行選擇。考慮其所分析的京劇領(lǐng)域機構(gòu)命名實體的特征,建立特征詞庫來定制符合機構(gòu)名稱的識別規(guī)則,從而實現(xiàn)對原文命名實體的識別工作。

      三、詞性標(biāo)注的應(yīng)用

      在詞義標(biāo)注的應(yīng)用領(lǐng)域,1988年Church等首先設(shè)計出基于詞語出現(xiàn)與轉(zhuǎn)移概率的隱馬爾科夫英文標(biāo)注器,隨后Schvtze、Scott和Sang-Zoo等人提出了各式的改進(jìn)的隱馬爾科夫模型[8];文獻(xiàn)[9]對傳統(tǒng)隱馬爾科夫模型對于詞性標(biāo)注的應(yīng)用予以分析與改進(jìn),不同學(xué)者也提出了改進(jìn)的模型[10][11]。

      四、語義傾向性的應(yīng)用

      文獻(xiàn)[12]提出了利用統(tǒng)計手段來對詞語進(jìn)行語義傾向判斷的方法,即把語義傾向判別看做一個褒貶的分類問題,將文本數(shù)據(jù)處理的方法應(yīng)用到語義傾向性判別研究中。其狀態(tài)值為褒義(支持)、貶義(反對)和中性(中立)三種,可能的觀測值數(shù)目取權(quán)重較高的一部分詞語即可,減少了處理龐大詞語數(shù)量的壓力。

      五、對隱馬爾可夫模型的具體改進(jìn)

      原有的隱馬爾科夫模型在進(jìn)行中文文本的數(shù)據(jù)處理時,根據(jù)自身模型的局限,只能使用其臨近的詞語,使結(jié)果不夠優(yōu)化。文獻(xiàn)[13]提出了基于語義格改進(jìn)的模型,將隱含的狀態(tài)值表示為詞義,將觀察值的數(shù)目表示為一個句子中所包含的單詞數(shù)目。然而在不少情況下被標(biāo)注的語義常常是是由需要標(biāo)注的詞語和其距離較遠(yuǎn)得此共同決定,為了解決這一問題,在原有隱馬爾科夫模型基礎(chǔ)上引入了格關(guān)系[14](一種研究句子核心謂詞與周圍體詞的方法),提高了中文詞義的標(biāo)注性能。文獻(xiàn)[15]使HMM模型在應(yīng)用時,既使一個詞(觀察值)出現(xiàn)的概率與它的詞性有關(guān),也與之前的觀察值有關(guān)。文獻(xiàn)[16]把觀察值對狀態(tài)的影響也考慮其中,在原有HMM的基礎(chǔ)上,增加了從前一觀察值到后一狀態(tài)的轉(zhuǎn)移矩陣,提出了基于特征的詞匯標(biāo)注模型,由于觀察值(詞語數(shù))眾多,所以將多個詞對應(yīng)一類特征集,這樣既保證了一定的精確度又減小了概率轉(zhuǎn)移矩陣的大小。文獻(xiàn)[17]對傳統(tǒng)隱馬爾可夫模型進(jìn)行改進(jìn),通過對參數(shù)進(jìn)行修改,使其不僅依賴當(dāng)前狀態(tài)的上文信息還將下文信息加入到模型當(dāng)中,一定程度上克服了傳統(tǒng)HMM的不足之處。同時使用了線性插值平滑算法,有效地解決了數(shù)據(jù)比較稀疏的問題,也提高了一定的未登錄詞匯的識別率。文獻(xiàn)[18]改進(jìn)分詞方法,使用雙向最大匹配進(jìn)行預(yù)處理,對于有歧義的切分詞選擇概率最大值,使用隱馬爾科夫模型來識別新詞,用“詞首”、“詞中”、“詞尾”和“單獨成詞”對單詞進(jìn)行狀態(tài)標(biāo)記,有效地減少了歧義,提高了切分的正確率。文獻(xiàn)[19]在對隱馬爾科夫模型進(jìn)行改進(jìn)時,在保證了傳統(tǒng)隱馬爾科夫模型具有前向依賴性的基礎(chǔ)上,增加了后一個狀態(tài)對觀察值的影響,即一個觀察值由相鄰兩個狀態(tài)決定,一個狀態(tài)也具有兩個觀察值。采取了既考慮正序又考慮逆序的解碼模型,綜合雙序,使抗干擾性得到增強,解碼更加精確。

      在對隱馬爾科夫模型算法的改進(jìn)方面:維特比算法的概率值是若干個概率的乘積,為避免計算機進(jìn)行過多的浮點運算,會將概率擴(kuò)大若干倍,但是這樣處理后,即對若干概率進(jìn)行乘法運算后,可能導(dǎo)致乘法結(jié)果向上溢出,文獻(xiàn)[20]對維特比算法進(jìn)行了改進(jìn),將該結(jié)果取對數(shù),將乘法運算轉(zhuǎn)換為加法,縮小了乘積的值域,使結(jié)果更精確。文獻(xiàn)[28]在建立發(fā)射概率矩陣時,將卡方統(tǒng)計和TFIDF方法引入到其中,建立出特征詞的語義相關(guān)性的反映,有利于保證文本分類過程更加穩(wěn)定的運行。文獻(xiàn)[21]利用短語構(gòu)成的特征,采用滑動窗口算法,避免了HMM中傳統(tǒng)的前向算法和后向算法的較高的計算量。

      在如隱馬爾可夫模型這種統(tǒng)計標(biāo)注方法時,在求每一個觀察值序列對應(yīng)的最佳詞性標(biāo)注序列時,不僅要考慮上下文的影響,也可以計算二元或三元概率參數(shù)使結(jié)果更為優(yōu)化。目前的條件下,訓(xùn)練語料較為充足且具有人工標(biāo)注,并且統(tǒng)計模型的魯棒性較好,使得統(tǒng)計方法成為較為主流的詞性標(biāo)注方法。

      [1]趙紅丹,王希杰.基于隱馬爾科夫模型的詞性標(biāo)注[J].安陽師范學(xué)院學(xué)報, 2010(5):9

      [2]李家福,張亞非.一種基于概率模型的分詞系統(tǒng)[J].系統(tǒng)仿真學(xué)報,2002, 14(5):544-546.

      [3]梁以敏,黃德根.基于完全二階隱馬爾可夫模型的漢語詞性標(biāo)注[J].計算機工程,2005, 31(10):177-179.

      [4]岑詠華,韓哲,季培培.基于隱馬爾科夫模型的中文術(shù)語識別研究[J].現(xiàn)代圖書情報技術(shù), 2008(12):54-58.

      [5]Chan T,Vese L.Active Contours Without Edges[J].IEEETransactions on Image Processing, 2001, 10(2):266-277.

      [6]楊勇,馬志明,徐春.LCV模型在醫(yī)學(xué)圖像分割中的應(yīng)用[J].計算機工程,2010, 36(10):184-186.

      [7]樂娟,趙璽.基于HMM的京劇機構(gòu)命名實體識別算法[J].計算機工程,2013, 39(6):266-271.

      [8]袁里馳.基于改進(jìn)的隱馬爾科夫模型的詞性標(biāo)注方法[J].中南大學(xué)學(xué)報:自然科學(xué)版,2012, 43(8):3053-3057.

      [9]魏歐,吳健.基于統(tǒng)計的漢語詞性標(biāo)注方法的分析與改進(jìn)[J].軟件學(xué)報,2000,11(4):473-480.

      [10]梁以敏,黃德根.基于完全二階隱馬爾可夫模型的漢語詞性標(biāo)注[J].計算機工程,2005, 31(10):177-179.

      [11]屈剛, 陸汝占.一個改進(jìn)的漢語詞性標(biāo)注系統(tǒng)[J].上海交通大學(xué)學(xué)報,2003, 37(6):897-900.

      [12]Turney P D, Littman M L.Measuring praise and criticism: Inference of semantic orientation from association[J].Acm Transactions on Information Systems, 2003, 21(4):315-346.

      猜你喜歡
      馬爾科夫分詞概率
      第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計與概率”復(fù)習(xí)精講
      基于疊加馬爾科夫鏈的邊坡位移預(yù)測研究
      概率與統(tǒng)計(一)
      概率與統(tǒng)計(二)
      基于改進(jìn)的灰色-馬爾科夫模型在風(fēng)機沉降中的應(yīng)用
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      值得重視的分詞的特殊用法
      馬爾科夫鏈在教學(xué)評價中的應(yīng)用
      基于馬爾科夫法的土地格局變化趨勢研究
      河南科技(2014年11期)2014-02-27 14:10:11
      汶上县| 仲巴县| 南充市| 南华县| 亳州市| 兖州市| 萨嘎县| 垫江县| 陆丰市| 积石山| 镇平县| 大英县| 东宁县| 曲阜市| 五寨县| 浮梁县| 桐梓县| 枝江市| 鄄城县| 专栏| 新巴尔虎左旗| 信宜市| 昌黎县| 西畴县| 抚远县| 富锦市| 泊头市| 苏尼特左旗| 云安县| 秦安县| 红安县| 惠水县| 蓝山县| 延庆县| 乐至县| 台中县| 手游| 邯郸县| 乐平市| 宝清县| 荥阳市|