高知新 徐林會
(遼寧工程技術(shù)大學理學院 遼寧 阜新 123000)
?
基于隱馬爾科夫模型與語義融合的文本分類
高知新 徐林會
(遼寧工程技術(shù)大學理學院 遼寧 阜新 123000)
提出一種融合語義的隱馬爾科夫模型用于文本分類的方法。將特征詞的語義作為先驗知識融合到隱馬爾科夫分類模型中。通過信息增益提取特征詞,用word2vec提取特征詞語義,將每一個類別映射成一個隱馬爾科夫分類模型,模型中狀態(tài)轉(zhuǎn)移過程就是該類文本生成過程。將待分文本與分類模型做相似度比較,取得最大類別輸出概率。該方法不僅考慮特征詞、詞頻、文檔數(shù)量先驗知識,而且將特征詞語義融合到隱馬爾科夫分類模型中。通過實驗評估,取得了比原HMM模型和樸素貝葉斯分類模型更好的分類效果。
隱馬爾科夫模型 語義融合 word2vec 信息增益 文本分類
近年來隨著Web和移動互聯(lián)網(wǎng)的廣泛使用,各種信息的增長速度越來越快,其中文本信息占有重要地位。如何快速而有效地進行文本的組織、管理以及使用是當今信息處理的一個重要課題,而這也促進了文本分類技術(shù)的發(fā)展。文本分類就是將未分類的文本根據(jù)一定的分類算法分配到正確的類別中,它廣泛應(yīng)用在搜索引擎、信息過濾、文本識別、數(shù)字圖書館等方面。為了快速高效的處理海量文本數(shù)據(jù)集,基于統(tǒng)計的分類模型被應(yīng)用到文本分類中。文獻[1]將文本利用向量空間模型表示成空間向量,利用TF-IDF表示文本權(quán)重,對文本進行分類;文獻[2]討論了統(tǒng)計模型在文本分類中的應(yīng)用;文獻[3]將支持向量機應(yīng)用與文本分類,因為其堅實的理論基礎(chǔ)和良好的分類性能成為一經(jīng)典的分類算法。除此以外,最大熵模型、模糊理論和二維文本模型等方法也被應(yīng)用于文本分類,同樣也取得了不錯的效果[4-6]。
由于隱馬爾科夫模型(HMM)可以用來描述序列化隨機過程的統(tǒng)計特性,文本處理作為隨機過程統(tǒng)計特性一種,如何將HMM模型更好地應(yīng)用到文本處理中,成為當下的研究熱點之一。文獻[7]利用HMM模型作為信息檢索模型,給定一個查詢系列,輸出一個和查詢相關(guān)的文檔。文獻[8]利用HMM模型用于文本分類,將每一個預(yù)定義的類映射為一個HMM模型,給定一篇待分類的文檔表示成詞序列,計算屬于該類別的可能性大小。文獻[9]將卡方一致性檢驗和TF-IDF方法結(jié)合提取特征詞向量,在此基礎(chǔ)上建立HMM分類模型。
本文提出了一種文本分類方法,將文本的特征詞,特征詞詞頻,文檔數(shù)量以及特征詞語義作為先驗知識融合到HMM分類模型當中。通過信息增益方法提取特征詞,利用TF-IDF算法約束特征詞權(quán)重,利用word2vec提取特征詞的語義信息,將語義相似度較高特征詞合并,為每一個類別建立HMM分類模型。對于待分類的文本,本文提出通過與分類模型中特征詞向量做交集,交集集合特征詞作為觀察序列輸入到HMM分類模型中,通過前進算法取得各個類別輸出概率,選取其中最大的作為分類依據(jù)。
文本分類任務(wù)是指將待分類的文本自動分配到預(yù)先定義好的類別集合當中。本文中,給定一個訓練集合T={(d1,c1),(d2,c2),…,(dn,cn)},包含預(yù)定義的文檔類別,HMM分類模型目標挖掘待分文檔和類別之間的關(guān)系,高效準確地將文檔分配到某一類別中。
1.1 隱馬爾科夫模型
HMM模型(如圖1所示)建立在狀態(tài)和觀察獨立性上的統(tǒng)計模型,主要應(yīng)用于解決評估問題、學習問題和解碼問題。一個HMM模型λ一般由5個部分組成,記為λ={S,V,A,B,Π},其中[10]:
(1)S是一組狀態(tài)的集合,設(shè)模型中共有N個狀態(tài),則狀態(tài)集記為:
S={s1,s2,…,sN}
(2)V是一組輸出符號的集合,設(shè)模型中共有M個輸出符號,則符號集記為:
V={v1,v2,…,vM}
(3)A是狀態(tài)轉(zhuǎn)移概率分布矩陣,記為A={aij},aij表示從狀態(tài)si轉(zhuǎn)移到sj的概率,其中:
aij=p(qt+1=sj|qt=si)
(1)
(4)B是符號輸出概率分布矩陣,記為B={bi(k)},bi(k)表示在狀態(tài)si時輸出符號vk的概率,其中:
bi(k)=p(ot=vk|qt=si) 1≤j≤N1≤k≤M
(2)
(5)Π是初始狀態(tài)概率分布,記為Π={πi},πi表示狀態(tài)si作為初始狀態(tài)的概率,其中:
πi=p(qi)=si1≤i≤N
(3)
圖1 HMM模型圖
1.2 word2vec詞向量模型
word2vec是Google在2013年開源的一款將詞語表征為實數(shù)值向量的高效工具。本文訓練詞向量采用的skip-gram模型,經(jīng)測試,在小規(guī)模樣本集上skip-gram模型要比cbow模型效果要好。從圖2中看skip-gram應(yīng)該預(yù)測概率p(wi|wt),其中t-c≤i≤t+c且i≠t,c是決定上下文窗口大小的常數(shù),c越大則需要考慮的上下文語境就越多,一般能夠帶來更精確的結(jié)果,但是訓練時間也會增加。假設(shè)存在一個w1,w2,…,wT的詞語序列,skip-gram的目標是最大化:
(4)
基本的skip-gram模型定義p(wo|wI)為:
(5)
skip-gram是一個對稱的模型,如圖2所示,如果wt為中心詞時wk在其窗口內(nèi),則wt也必然在以wk為中心的同樣大小窗口內(nèi),即:
(6)
實現(xiàn)此模型的算法分別為層次Softmax和Negative Sampling兩種算法[15]。
圖2 skip-gram模型圖
1.3 HMM分類模型
每一篇文檔di都有一個類別ci屬性,目標建立基于訓練集的分類模型,完成新文本的分類。本文利用HMM模型作為文檔生成器,如圖3所示,每一個類映射成一個HMM模型,模型參數(shù)通過屬于本類的數(shù)據(jù)集訓練而得。當一篇待分類的文檔,先計算屬于當前類別的概率分布大小,再作為屬于當前類別的依據(jù)。
圖3 HMM文本分類模型
在隱馬爾科夫分類模型基礎(chǔ)上,融合特征詞語義、詞頻、特征詞本身等先驗知識,建立高效快速文本分類模型。將文本信息表示成詞向量能夠讓模型就行數(shù)據(jù)化處理,本文采用word2vec模型,融合上下文語義,將文本映射到向量空間模型中,進行內(nèi)積計算,通過設(shè)定閾值,將相似特征詞進行合并。例如“文化”和“藝術(shù)”就可以合并為同一類別的特征詞。為了去除文本中噪聲,處理以前進行文本數(shù)據(jù)已處理。包括分詞、去除停用詞、去除詞頻相對文本數(shù)目較小的詞等。
2.1 特征詞提取
文本處理中時間復(fù)雜度和空間復(fù)雜度依賴于文本特征向量的維度。為了提高模型分類效果準確性,需要對文本進行降維處理,最終選擇特征詞表示文檔。本文中采取信息增益算法,可以計算當前類別平均信息量。對于每一個w,信息增益G(w):
(7)
2.2 隱馬爾科夫分類模型建立及參數(shù)訓練
文本是由一些列的詞匯組成,在具體的不同文本中詞匯及其詞頻都不同。所以HMM分類模型的建立在特征詞本身和特征詞詞頻基礎(chǔ)上,而在特征詞提取過程中已將語義信息融合到特征詞當中。類別特征詞集是構(gòu)建HMM分類模型的基礎(chǔ),詞向量作為隱馬爾科夫模型的隱藏狀態(tài),而將詞向量對應(yīng)的詞頻作為對應(yīng)狀態(tài)的觀察序列。
對每一個隱馬爾科夫分類模型,定義狀態(tài)集合S={s1,s2,…,sT},每一個si對應(yīng)著類別特征詞的第個特征詞。狀態(tài)集由特征詞的順序構(gòu)建。狀態(tài)轉(zhuǎn)移過程即為特征詞遍歷過程,特征詞遍歷過程即為隸屬于該類別文檔生成過程。特征詞輸出序列為特征詞的詞頻用k表示,k為符合一定相似度閾值的特征詞之和。所以得到在中間狀態(tài)si下,ck類中對應(yīng)特征詞的觀察值分布為:
(8)
(9)
(10)
指定初始狀態(tài)s0的概率π={1,0,…,0}。對于類別ck的隱馬爾可夫模型可以表示為:
λk={Π,Ack,Bck}
(11)
2.3 待分文本相似度比較
對于一個待分類的文本,進行如下步驟進行分類:
(1) 對文本d按照預(yù)處理的方法,然后統(tǒng)計詞頻,得到詞向量和詞頻集合,并將wd表示為詞向量的形式。
(2) 將wd的詞向量分別與各類別特征詞做交集,選取其中k個特征詞作為隱藏狀態(tài)。給定隱馬爾科夫模型λk和k個特征詞對應(yīng)的詞頻觀察序列即為od,利用前向算法[10]求解該觀察序列輸入該分類模型的概率分布值p(od|λk)。
(3) 計算wd與所有HMM分類模型的p(od|λk),待分文本的類標號就是max{p(od|λk)}。
對于待分文本不僅將詞匯本身,詞匯詞頻和詞匯的上下文語義融合到其中,所選取的k個特征詞更具代表性,能夠映射出該文本和該類別的關(guān)聯(lián)程度。對于HMM分類模型的構(gòu)建考慮到詞匯本身屬性以及詞匯語義等先驗性知識,構(gòu)建的模型不僅在數(shù)據(jù)維數(shù)上減少了,而且將相似度較高的特征詞進行合并,也是根據(jù)語義信息對特征詞進一步提取,得出的特征詞更好的代表這個類別屬性信息??梢园袶MM分類模型作為該類文本生成器,待分文本可以看作是它狀態(tài)轉(zhuǎn)移過程生成的樣本。
為驗證模型的有效性,本文采用三組實驗對模型進行驗證。實驗數(shù)據(jù)集來源于復(fù)旦大學文本分類語料,采用C3、C7、C11、C32、C38、C39共6個類別數(shù)據(jù)集。分詞采用HanNLP開源工具,進行分詞、去停用詞,利用word2vec進行特征詞語義合并,提取特征詞。實驗結(jié)果從準確率、召回率、F-Score三個方面進行評價。其中,word2vec 訓練語料來自于人民日報2014 。模型參數(shù)如表1所示。
表1 word2vec模型參數(shù)
3.1 HMM 模型試驗對比
為驗證模型有效性,將本文模型和不融合語義合并的模型對比。實驗結(jié)果如表2所示。模型在三個指標方面有顯著的提高。說明了融合語義特征能夠提高HMM模型在文本處理中的有效性。其中文獻[1]中說明了原模型的處理文本的方法。
表2 試驗結(jié)果
3.2 交叉模型對比
為驗證模型的可行性,本文建立的HMM模型和傳統(tǒng)的樸素貝葉斯模型[13]進行對比。試驗結(jié)果如表3所示。樸素貝葉斯作為文本分類中的重要方法,廣泛應(yīng)用在自然語言處理領(lǐng)域當中。本實驗在準確率、召回率和F-Socre三個方面對比取得了和樸素貝葉斯模型相當?shù)男ЧM一步說明模型的有效性。
表3 交叉模型對比結(jié)果
3.3 訓練樣本的數(shù)量對模型影響
統(tǒng)計模型,訓練樣本的規(guī)模尺寸對模型的評估結(jié)果又很大影響。本文設(shè)計如下實驗特征詞數(shù)為30。如圖4所示:水平軸表示每個類別的樣本數(shù),垂直軸表示“詞匯+詞頻+語義+HMM”模型的平均準確率。隨著訓練樣本的增加,該模型的平均準確率有顯著增加,可以解釋為隨著訓練樣本的增加,通過文檔的詞匯、詞頻、語義,代表文檔的特征詞特征屬性提取的更充分,所以準確率顯著增加,當?shù)竭_[700,800]區(qū)間到達頂峰。隨著訓練樣本進一步增加,準確率有下降的趨勢,隨著樣本遞增,word2vec進行語義合并時,融合語義噪聲,使得特征詞代表性有所下降,準確率會有所下降。
本文測試數(shù)據(jù)采用復(fù)旦大學文本分類語料,測數(shù)據(jù)中最大數(shù)量1 000多篇,對于大樣本數(shù)據(jù)或者不均衡語料數(shù)據(jù)需要應(yīng)用過采樣或欠采樣方法[15]。將本模型應(yīng)用到其他大規(guī)模文本數(shù)據(jù),采用更為有效的評價指標進行評測也是接下來需要研究問題。
圖4 訓練樣本的數(shù)量對模型影響
本文提出一種基于HMM模型和融合語義分析的文本分類方法。模型建立在特征詞基礎(chǔ)上,融合特征詞本身內(nèi)容,特征詞的詞頻以及特征詞的語義等先驗知識,將每一個類別映射成隱馬爾科夫模型。本文對模型結(jié)構(gòu)和參數(shù)的訓練進行闡述,對比其他文本分類統(tǒng)計模型,模型結(jié)構(gòu)簡單,參數(shù)訓練復(fù)雜度依賴于特征詞的維數(shù),然而語義分析起到特征詞降維的作用,而且根據(jù)語料的增加,特征詞的維度可以調(diào)整,這也是本模型特點。通過實驗分析的三組實驗可以說明模型的有效性,取得了與樸素貝葉斯相當?shù)慕Y(jié)果。如何針對具體領(lǐng)域更加有效地進行特征提取和觀測值概率分布計算是今后研究的方向。
[1] Turney P D, Pantel P. From frequency to meaning: vector space models of semantics[J]. Journal of Artificial Intelligence Research, 2010, 37(1):141-188.
[2] Pelikan M, Goldberg D E, Lobo F G. A Survey of Optimization by Building and Using Probabilistic Models[J]. Computational Optimization and Applications, 2002, 21(1):5-20.
[3] Pal M, Foody G M. Feature Selection for Classification of Hyperspectral Data by SVM[J]. Geoscience & Remote Sensing IEEE Transactions on, 2010, 48(5):2297-2307.
[4] Kazama J, Tsujii J. Maximum Entropy Models with Inequality Constraints: A Case Study on Text Categorization[J]. Machine Learning, 2005, 60(1):159-194.
[5] Nunzio G M D. A Bidimensional View of Documents for Text Categorisation[M]// Advances in Information Retrieval. Springer Berlin Heidelberg, 2004:112-126.
[6] Liu W Y,Song N.A fuzzy approach to classification of text documents[J].Journal of Computer Science and Technology,2003,18(5):640-647.
[7] Miller D R H, Leek T, Schwartz R M. A hidden Markov model information retrieval system[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. 2000:214-221.
[8] Yi K, Beheshti J. A hidden Markov model-based text classification of medical documents[J]. Journal of Information Science, 2009, 35(1):67-81.
[9] Li K, Chen G, Cheng J. Research on Hidden Markov Model-based Text Categorization Process[J]. International Journal of Digital Content Technology & Its Applications, 2011, 5(6):244-251.
[10] 楊健,汪海航.基于隱馬爾科夫模型的文本分類算法[J].計算機應(yīng)用,2010,30(9):2348-2350.
[11] 羅雙虎,歐陽為民.基于Markov模型的文本分類[J].計算機工程與應(yīng)用,2007,43(30):179-181.
[12] 宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2013.
[13] 杜選.基于加權(quán)補集的樸素貝葉斯文本分類算法研究[J].計算機應(yīng)用與軟件,2014,31(9):253-255.
[14] 鄧力.深度學習方法和應(yīng)用[M].北京:機械工業(yè)出版社,2015.
[15] Chawla N V, Bowyer K W, Hall L O, et al. SMOTE: synthetic minority over-sampling technique[J]. Journal of Artificial Intelligence Research, 2011, 16(1):321-357.
TEXT CLASSIFICATION BASED ON HIDDEN MARKOV MODEL AND SEMANTIC FUSION
Gao Zhixin Xu Linhui
(CollegeofScience,LiaoningTechnicalUniversity,Fuxin123000,Liaoning,China)
In this paper, a text classification method based on Hidden Markov Model and semantic fusion is proposed. The semantics of the feature words are integrated into the hidden Markov model as a priori knowledge. Then, the characteristic words were extracted by information gain, and the feature words semantics were extracted by the word2vec. Each class was mapped into a hidden Markov model, and the state transition process in the model was the text generation process. The similarity between the text to be classified and the classification model was compared to obtain the maximum class output probability. This method not only considers the prior knowledge of feature words, word frequency and document quantity, but also integrates the semantic of feature words into hidden Markov classification model. Through the experimental evaluation, we got better classification result than the original HMM model and Naive Bayes classification model.
Hidden Markov model Semantic fusion word2vec Information gain Text classification
2016-07-20。高知新,副教授,主研領(lǐng)域:最優(yōu)化與應(yīng)用。徐林會,碩士生。
TP3
A
10.3969/j.issn.1000-386x.2017.07.056