周 潭,莫禮平,胡美琪,李航程
(吉首大學信息科學與工程學院,湖南 吉首 416000)
詞性標注(Par-of-Speech Tagging,POS Tagging)就是賦予每個詞語一個正確候選詞性的過程,它是自然語言信息處理研究的重要內(nèi)容.2015年,梁喜濤等[1]對現(xiàn)有詞性標注方法進行了分析整理,將傳統(tǒng)的詞性標注方法歸納為3類:(1)基于規(guī)則的方法.該類方法簡單,易于實現(xiàn),但構造規(guī)則是一項非常艱難的任務.(2)基于統(tǒng)計的方法.該類方法客觀性強,準確性較高,但需要處理兼類詞和未登錄詞的問題.基于最大熵模型(Maximum Entropy Model,MEM)和隱馬爾科夫模型(Hidden Markov Model,HMM)的詞性標注方法是統(tǒng)計類方法的典型代表,因其能夠獲得一致性很好且覆蓋率較高的標注結果而被廣泛關注[2].(3)基于規(guī)則和統(tǒng)計的方法.該類方法有效地利用了規(guī)則類方法和統(tǒng)計類方法的優(yōu)勢,但標注效果依賴于建立的規(guī)則或人工的選取特征,且與任務領域的資源有很大的相關性,一旦領域變化,標注效果就會受較大影響.因此,筆者將對基于MEM和HMM的中文詞性標注方法進行理論分析和對比實驗.
在熱力學中,熵是大量微觀粒子的位置和速度的分布概率的函數(shù),用“熱熵”表示分子狀態(tài)混亂程度.1948年,Shannon[3]借鑒熱力學的概念提出“信息熵”的概念.為了描述信源的不確定度,Shannon將信息中排除了冗余后的平均信息量稱為“信息熵”,并給出了計算信息熵的數(shù)學表達式.通常,一種信息源的不確定性越大,其信息熵就越高;反之,其信息熵就越低.1957年,Jaynes[4]提出了基于概率統(tǒng)計的最大熵方法.最大熵方法通過將各種不同來源的信息知識聚集在一個框架下面,用以解決一些復雜的問題.1992年,Della 等[5]首次將最大熵方法應用于自然語言處理.經(jīng)過近30年的發(fā)展,基于MEM的自然語言處理技術取得了令人矚目的成果.
最大熵方法的本質(zhì)就是從滿足約束的模型中選擇熵值最大的.利用MEM需要解決特征選擇和模型選擇這2個基本問題:特征選擇就是選擇一個能表達這個隨機過程的統(tǒng)計特征的集合;模型選擇就是參數(shù)估計或模型估計,為入選的特征集合估計權重.假設現(xiàn)有n個特征,約束的集合定義為
(1)
最大熵方法就是求解滿足約束(1)的模型.這樣模型可能不只1個,所以需要找到一個最均勻分布的概率模型.概率模型的均勻性可以用如下的條件熵來衡量:
(2)
最大熵方法應用于中文詞性標注,需要根據(jù)上下文信息確定約束條件,從而建立MEM.基于MEM的中文詞性標注方法的重點是根據(jù)中文的特殊性進行特征選取.當某一現(xiàn)象出現(xiàn)多次時,就認為該現(xiàn)象不是偶然的,而是表現(xiàn)了數(shù)據(jù)某一方面的特征.因為人工選取特征耗時耗力,所以一般是由機器自動在訓練數(shù)據(jù)中尋找這種特征.特征的選取一般分為2步[6]:第1步,利用特征模板從語料中獲取候選的特征;第2步,從候選特征集中選取特征.在國內(nèi)的詞性標注研究中,大多采用基于詞的上下文特征.但漢語不同于英文,漢語的每個字一般都有其自身的意義,而英文的單個字母沒有具體意義,因此在對漢語進行特征選擇時考慮字的編碼信息,會有助于有提高詞性標注的準確率[7].
現(xiàn)以對文本“把這次演講安排一下”中的“下”進行詞性標注為例,說明如何將MEM應用于中文詞性標注中.首先,將文本標注為“把/q-p-v-n這/t次/p演講/v-n安排/v-n一/m-c下/f-q-v”,其中每個詞后的字母代表該詞所可能具有的詞性.由該標注序列可知,“下”在此句子中可能有f,q,v這3種詞性.用t1,t2,t3來表示這3種詞性,即t1=f,t2=q,t3=v,則根據(jù)“下”的3種詞性得到第1個約束條件:
P(t1)+P(t2)+P(t3)=1.
(3)
基于約束(3),即可找到詞“下”的詞性標注的合適模型.但滿足約束(3)的模型可以有無限個,例如,M1={P(t1)=0.5,P(t2)=0,P(t3)=0.5},M2={P(t1)=1,P(t2)=0,P(t3)=0}.模型M1和M2都只做了粗略假設,沒有任何的經(jīng)驗判斷.假設當前詞語的詞性只有3種候選,那么最直觀的合適模型就是M3={P(t1)=1/3,P(t2)=1/3,P(t3)=1/3}.在模型M3中,3種可能詞性出現(xiàn)的概率相同,是均勻模型.同時注意到,在訓練樣例中90%的“一下”中的“下”的詞性為t2.據(jù)此可得第2個約束條件:P(t2)=0.9.此時,還有許多的概率分布都能同時滿足上述2個約束條件.在沒有其他約束條件下,合理的選擇仍然是概率分布最均勻的模型.即在滿足上述2個約束的同時,盡可能平均分配它的概率分布:P(t1)=0.05,P(t3)=0.05,P(t2)=0.9.
基于統(tǒng)計的方法是最常使用的一類詞性標注算法.對于給定的輸入詞串,基于統(tǒng)計的方法先確定其所有可能的詞性串,再對它們打分,選擇得分最高的詞性串作為最佳的輸出結果.在所有基于統(tǒng)計的方法中,基于HMM的詞性標注算法最常見[8].目前,HMM已應用于各種語言的詞性標注并取得極高的標注準確率,基于HMM的中文詞性標注方法研究也受到人們的重視.HMM是在離散馬爾科夫過程的基礎上改進的.它包含2個隨機過程,一個是已知的觀察序列,另一個是隱含的狀態(tài)轉(zhuǎn)移序列.狀態(tài)轉(zhuǎn)移序列是不可觀測的,需要通過觀察序列來推斷[9].
為了理解HMM,先看一個實例:缸和球的實驗.設有N個缸,M種不同顏色的球,每一個缸都裝有很多不同顏色的球,球的顏色由一組概率分布描述.首先,根據(jù)某種隨機過程選擇N個缸中的某個缸,記為Z1,再根據(jù)這個缸中球的顏色概率分布,隨機選擇一個球,記該球的顏色為O1,并將球放回缸中;然后,根據(jù)缸的狀態(tài)轉(zhuǎn)移概率分布,隨機選擇下一個缸,記為Z2,再根據(jù)該缸中球的顏色的概率分布,隨機選擇一個球,記該球的顏色為O2,并將球放回缸中……如此循環(huán),一共進行T次實驗,得到缸的選取序列Z=(Z1,Z2,…,ZT)和球的顏色序列O=(O1,O2,…,OT).稱可以直接觀察到的球的顏色序列為觀察序列,稱在后臺進行的缸的選取序列為隱藏狀態(tài)序列.通常,HMM可用一個五元組λ=(N,M,A,B,π)來表示[9]:(1)N表示模型中隱含狀態(tài)的數(shù)目.用T表示狀態(tài)的集合,T={T1,T2,…,TN},t時刻的狀態(tài)為Tj,1≤j≤N.(2)M表示模型中觀察值的數(shù)目.用o表示觀察值的集合,o={o1,o2,…,oM},t時刻的觀察值為ok,1≤k≤M.(3)A表示狀態(tài)轉(zhuǎn)移概率矩陣.A=(aij),其中aij=P(qt=Tj|qt-1=Ti),1≤i≤N,1≤j≤N,表示狀態(tài)從Ti轉(zhuǎn)移到狀態(tài)Tj的概率.(4)B表示符號的發(fā)射概率矩陣,它描述了HMM模型中每個狀態(tài)下出現(xiàn)各個觀察值的概率.B=(bjk),其中bjk=P(xt=ok|qt=Tj),1≤j≤N,1≤k≤M,表示在t時刻、狀態(tài)Tj時觀察值為ok的概率.(5)π表示初始狀態(tài)概率向量.π=(πj),其中πj=P(q1=Tj),1≤j≤N,表示在初始時刻(t=1)、狀態(tài)為Tj時的概率.
HMM可以用來解決3個基本問題:第1個問題是評估問題,即根據(jù)給定的HMM求解一個觀察序列的概率,可用向前算法求解此類問題;第2個問題是解碼問題,即求解生成一個觀察序列的最優(yōu)隱藏狀態(tài)序列,可用Viterbi算法求解此類問題;第3個問題是學習問題,即已知觀察序列O,求解HMM的參數(shù),可用向前向后算法求解此類問題.
詞性標注問題實際上就是解碼問題.將HMM應用于詞性標注,那么在五元組λ=(N,M,A,B,π)中:N為詞性的數(shù)目;M為詞匯的數(shù)目;A為詞性狀態(tài)轉(zhuǎn)移概率矩陣,aij表示詞性從Ti轉(zhuǎn)移到Tj的概率;B為詞匯的發(fā)射概率矩陣,bjk表示詞性標注為Tj的情況下輸出詞匯ok的概率;π為初始狀態(tài)概率分布,πj表示初始狀態(tài)詞性為Tj的概率[10].HMM五元組中的參數(shù)N和M易求,故只要計算出A,B,π這3個參數(shù)值,就可利用Viterbi算法來找出最優(yōu)的詞性序列.
本實驗采用Python語言編程實現(xiàn)基于MEM和HMM的中文詞性標注算法,并在Inter(R) Core(TM) i5-3470 CPU @3.20 GHz、4 G內(nèi)存、Win10操作系統(tǒng)條件下進行實驗.采用北京大學加工整理的《人民日報》1998年1月份的新聞語料作為訓練集和測試集.為了測試2個模型的實際標注效果,從訓練的語料庫中隨機選取1 000行語料作為測試樣本1,隨機選取2 000行語料作為測試樣本2.2個模型的詞性標注準確率、召回率和F1這3個性能指標的比較見表1.
表1 2個模型的中文詞性標注的實驗結果Table 1 Experimental Results of Chinese Part-of-Speech Tagging Based on Two Models %
由表1可知,2個模型的中文詞性標注都獲得了一致性很好且覆蓋率較高的標注效果,準確率、召回率和F1這3個指標都達到92%以上.MEM的標注效果總體上比HMM的稍佳,這與其靈活的特征機制有利于在詞性標注的過程中更有效地利用上下文的信息有關.
MEM和HMM是詞性標注領域研究較多且應用較廣的2個統(tǒng)計模型.基于MEM和HMM的中文詞性標注方法具有更客觀、適應性強和耗費資源少的優(yōu)點,且可以通過訓練更大規(guī)模的語料庫來解決數(shù)據(jù)稀疏的問題.筆者分析了MEM和HMM所涉及理論、算法,并通過實驗驗證了2個模型用于中文詞性標注的有效性,對于幫助人們更好地理解和掌握中文信息處理技術相關理論與方法具有一定的實用價值.接下來,筆者將利用MEM和HMM模型的優(yōu)越性,嘗試結合新型神經(jīng)網(wǎng)絡和智能優(yōu)化算法對統(tǒng)計類中文詞性標注算法進行改進.