,,
(海軍航空大學(xué) 艦面航空保障與場(chǎng)站管理系,山東 青島 266041)
文本數(shù)據(jù)[1]挖掘(Text Mining)是數(shù)據(jù)挖掘的主要分支之一,是從海量文本數(shù)據(jù)中抽取有價(jià)值的信息和知識(shí)的計(jì)算機(jī)處理技術(shù),在圖書(shū)分類(lèi)檢索、企業(yè)情報(bào)分析、搜索引擎等領(lǐng)域都有廣泛應(yīng)用[2]。文本數(shù)據(jù)挖掘方法主要包括文本分類(lèi)、文本聚類(lèi)、信息抽取、摘要和壓縮等。其中,文本分類(lèi)是文本數(shù)據(jù)挖掘的主要研究方向。文本分類(lèi)依據(jù)文本之間的差異性特征實(shí)現(xiàn)不同類(lèi)別文本的分類(lèi),一般包括文本預(yù)處理、統(tǒng)計(jì)和特征抽取、分類(lèi)器設(shè)計(jì)等步驟。首先在預(yù)處理階段將原始語(yǔ)料轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),然后統(tǒng)計(jì)詞頻等特征,采用諸如信息增益、互信息等特征提取方法提取文本描述特征,接著采用諸如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法構(gòu)建特征的分類(lèi)器,實(shí)現(xiàn)特征的分類(lèi)[3-9]。在現(xiàn)代圖書(shū)館管理領(lǐng)域,目前逐漸開(kāi)始使用文本數(shù)據(jù)挖掘技術(shù)來(lái)實(shí)現(xiàn)圖書(shū)的管理,如采用機(jī)器學(xué)習(xí)架構(gòu)實(shí)現(xiàn)中文書(shū)目的自動(dòng)分類(lèi)。該技術(shù)主要包括文本預(yù)處理、特征提取和機(jī)器學(xué)習(xí)三個(gè)部分,目前已經(jīng)有一些成熟的方法[10-14]。如文獻(xiàn)[12]利用ICTCLAS分詞系統(tǒng)對(duì)書(shū)名和摘要信息進(jìn)行中文分詞,為標(biāo)題和摘要的特征詞賦予不同的權(quán)重,采用詞頻-逆向文件頻率提取特征,采用支持向量機(jī)進(jìn)行特征分類(lèi)。文獻(xiàn)[13]同樣采用ICTCLAS分詞系統(tǒng)對(duì)書(shū)名和摘要信息進(jìn)行中文分詞,為每個(gè)書(shū)目構(gòu)建書(shū)目+關(guān)鍵詞的二元關(guān)聯(lián)矩陣,分別采用支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行特征分類(lèi)。文獻(xiàn)[14]采用概率主題模型表示書(shū)目信息,克服因文本短小而產(chǎn)生的特征稀疏問(wèn)題;依據(jù)書(shū)目信息體例結(jié)構(gòu)和類(lèi)目區(qū)分能力等先驗(yàn)知識(shí)構(gòu)建復(fù)合加權(quán)特征,結(jié)合概率主題模型實(shí)現(xiàn)中文書(shū)目信息分類(lèi)。這些方法在中文書(shū)目自動(dòng)分類(lèi)領(lǐng)域都有有益的效果,然而分類(lèi)準(zhǔn)確率還有待進(jìn)一步提高。
在機(jī)器學(xué)習(xí)階段,首先需要對(duì)中文圖書(shū)的書(shū)目數(shù)據(jù)進(jìn)行分析,抽取中文書(shū)目?jī)?nèi)容特征和中圖法類(lèi)目信息;然后對(duì)中文書(shū)目?jī)?nèi)容特征進(jìn)行預(yù)處理,得到中文書(shū)目?jī)?nèi)容所包含的詞條信息,將非結(jié)構(gòu)化的文本信息轉(zhuǎn)換為結(jié)構(gòu)化的詞條信息;接著依據(jù)詞條信息提取能夠描述不同類(lèi)別中文書(shū)目?jī)?nèi)容的特征向量;最后,結(jié)合數(shù)據(jù)庫(kù)中各個(gè)中文書(shū)目所對(duì)應(yīng)的特征向量以及中圖法類(lèi)目信息組建訓(xùn)練數(shù)據(jù)集,選擇合適的機(jī)器學(xué)習(xí)算法進(jìn)行學(xué)習(xí)和訓(xùn)練,構(gòu)建中文書(shū)目類(lèi)目分類(lèi)器。
在類(lèi)目分析階段,對(duì)于待分類(lèi)的中文書(shū)目,首先抽取中文書(shū)目?jī)?nèi)容特征,然后進(jìn)行預(yù)處理,得到詞條信息;接著提取特征向量;最后將特征向量送進(jìn)中文書(shū)目類(lèi)目分類(lèi)器,得到中文書(shū)目分類(lèi)結(jié)果。
可見(jiàn),基于機(jī)器學(xué)習(xí)的中文書(shū)目自動(dòng)分類(lèi)系統(tǒng)架構(gòu)涉及的關(guān)鍵技術(shù)主要有三個(gè)部分:文本預(yù)處理、特征提取和機(jī)器學(xué)習(xí),簡(jiǎn)要描述如下。
該部分主要任務(wù)是將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的詞條信息。對(duì)于中文書(shū)目分類(lèi)而言,目前大多是采用中國(guó)科學(xué)院計(jì)算機(jī)研究所開(kāi)發(fā)的ICTCLAS分詞系統(tǒng)來(lái)進(jìn)行文本預(yù)處理工作。該系統(tǒng)對(duì)中文書(shū)目目錄的各個(gè)著錄項(xiàng)的文本進(jìn)行分詞操作,這樣將中文書(shū)目目錄信息轉(zhuǎn)換為詞條信息的集合;然后,將詞條集合中的冗余詞條(如停用詞、部分高頻詞和低頻詞等)刪除。這樣,對(duì)于任意一條中文書(shū)目,可以依據(jù)是否包含詞條來(lái)構(gòu)建一個(gè)詞條向量,表示為:
q=[o1,o2,…,on]T
(1)
其中:n表示詞條的數(shù)量。元素oi;i=1,2,…,n表示第i個(gè)詞條在中文書(shū)目?jī)?nèi)容中是否出現(xiàn),出現(xiàn)則值為1,否則為0,也即:
(2)
這樣,非結(jié)構(gòu)化的中文書(shū)目文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化向量數(shù)據(jù)。
該部分主要任務(wù)是從中文書(shū)目對(duì)應(yīng)的詞條向量中抽取具有區(qū)分能力的特征。常用的文本特征提取方法有:詞頻(Word Frequency)、文檔頻次(Document Frequency)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency, TF-IDF)、互信息(Mutual Information)、期望交叉熵(Expected Cross Entropy)、信息增益(Information Gain)、文本證據(jù)權(quán)(The Weight of Evidence for Text)。不同特征提取方法對(duì)不同的文本數(shù)據(jù)的表達(dá)能力不同,需要依據(jù)數(shù)據(jù)的分布來(lái)選擇最合適的特征提取方法。在中文書(shū)目分類(lèi)領(lǐng)域,詞頻特征和詞頻-逆向文件頻率特征應(yīng)用較多[12]。
中文書(shū)目數(shù)據(jù)對(duì)應(yīng)的特征向量需要經(jīng)過(guò)機(jī)器學(xué)習(xí)方法構(gòu)建的分類(lèi)器來(lái)進(jìn)行分類(lèi)。目前,機(jī)器學(xué)習(xí)方法很多,如Adaboost、決策樹(shù)(Decision Tree)、隨機(jī)森林(Random Forest)、人工神經(jīng)網(wǎng)絡(luò)(Nerve Net)、支持向量機(jī)(Support Vector Machine,SVM)、樸素貝葉斯(Naive Bayes)、深度網(wǎng)絡(luò)(Deep Net)等。下面簡(jiǎn)要介紹中文書(shū)目分類(lèi)領(lǐng)域常用的決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)方法。
1.3.1 決策樹(shù)
決策樹(shù)以信息增益為訓(xùn)練依據(jù),對(duì)訓(xùn)練樣本集中的特征向量進(jìn)行學(xué)習(xí),構(gòu)建由內(nèi)部節(jié)點(diǎn)和節(jié)點(diǎn)組成的二叉樹(shù)或多叉樹(shù)結(jié)構(gòu)。其中,每一個(gè)節(jié)點(diǎn)都包含一個(gè)邏輯判斷函數(shù),可以對(duì)輸入該節(jié)點(diǎn)的特征進(jìn)行判決,為其選擇合理的分錄路徑。
1.3.2 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)通過(guò)模擬人腦思維設(shè)計(jì)學(xué)習(xí)框架,以錯(cuò)誤率為訓(xùn)練依據(jù)對(duì)網(wǎng)絡(luò)中的權(quán)重和偏移量參數(shù)進(jìn)行調(diào)整,尋找錯(cuò)誤率最低時(shí)的網(wǎng)絡(luò)參數(shù)來(lái)構(gòu)建,可以對(duì)大規(guī)模樣板數(shù)據(jù)充分學(xué)習(xí),從而實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的分類(lèi)和預(yù)測(cè)。
1.3.3 支持向量機(jī)
支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的一種機(jī)器學(xué)習(xí)方法,主要優(yōu)點(diǎn)是可以實(shí)現(xiàn)小樣本集的學(xué)習(xí),泛化能力強(qiáng),其決策函數(shù)僅由少數(shù)的支持向量確定,而不是樣本空間的維數(shù),這樣不僅可以避免“維數(shù)災(zāi)難”,而且計(jì)算復(fù)雜度小,是目前應(yīng)用范圍較廣、具有較好識(shí)別能力的機(jī)器學(xué)習(xí)方法。
本文仍采用上述的基于機(jī)器學(xué)習(xí)的中文書(shū)目自動(dòng)分類(lèi)系統(tǒng)架構(gòu)。與之相比,本文主要在文本特征提取部分進(jìn)行改進(jìn),主要改進(jìn)在于,將現(xiàn)有方法中常用的詞頻特征和詞頻-逆向文件頻率特征進(jìn)行融合,提高特征區(qū)分能力。并采用奇異值分解方法將特征矩陣變換到語(yǔ)義空間,增強(qiáng)特征的穩(wěn)健性,最終提高中文書(shū)目分類(lèi)的準(zhǔn)確率。另外,在機(jī)器學(xué)習(xí)部分,針對(duì)中文書(shū)目分類(lèi)的多元性,在現(xiàn)有二元SVM分類(lèi)器的基礎(chǔ)上設(shè)計(jì)聯(lián)合SVM分類(lèi)器,實(shí)現(xiàn)多類(lèi)中文書(shū)目的自動(dòng)分類(lèi)。下面首先介紹本文方法涉及的基本理論,然后介紹本文方法的實(shí)現(xiàn)方法。
本文方法涉及的基本理論主要有兩個(gè):奇異值分解和支持向量機(jī),簡(jiǎn)要介紹如下。
2.1.1 奇異值分解
在線(xiàn)性代數(shù)中,奇異值分解(Singular Value Decomposition,SVD)是一種非常重要的矩陣分解,可以看作是正規(guī)矩陣酉對(duì)角化的推廣。其數(shù)學(xué)公式為:
X=LSRT
(3)
其中:L和R分別表示左奇異向量矩陣和右奇異向量矩陣,S表示奇異值的對(duì)角矩陣。S的對(duì)角元素按從大到小的順序進(jìn)行排列。其中,奇異值越大,說(shuō)明對(duì)應(yīng)向量越重要。
奇異值分解與潛在語(yǔ)義索引(Latent Semantic Indexing)關(guān)系密切,對(duì)于詞條和語(yǔ)料的關(guān)聯(lián)矩陣,如果進(jìn)行一次SVD分解,那么可以實(shí)現(xiàn)相似詞條和語(yǔ)料的分類(lèi),同時(shí)得到詞條和語(yǔ)料之間的相關(guān)性。因此,SVD也可稱(chēng)為語(yǔ)義空間變換。通過(guò)語(yǔ)義空間變換,將高維的文本數(shù)據(jù)轉(zhuǎn)換為較低維度的隱含語(yǔ)義空間。
2.1.2 支持向量機(jī)
SVM的主要設(shè)計(jì)思想是尋找一個(gè)最優(yōu)的分類(lèi)超平面,使得分為不同類(lèi)別的數(shù)據(jù)點(diǎn)之間的間隔最大。令{x1,x2,…,xn}表示樣本數(shù)據(jù)集,則SVM分類(lèi)超平面可以表示為:
wTx-b=0
(4)
其中:w表示分類(lèi)超平面的法向量,b表示偏移量,x表示分類(lèi)超平面上的點(diǎn)。
尋找在兩個(gè)類(lèi)別的數(shù)據(jù)集上與分類(lèi)超平面平行的兩個(gè)超平面,表示為:
(5)
(6)
s.t.yi(ωTxi+b)≥1i=1,2,3,…,n
(7)
其中:yi表示樣本數(shù)據(jù)xi的類(lèi)別標(biāo)簽。當(dāng)xi為正樣本時(shí),yi=1;否則,yi=-1。
通過(guò)最優(yōu)化求解,可以得到最優(yōu)的參數(shù)w和b。這樣,對(duì)于新輸入的數(shù)據(jù)x,計(jì)算wTx-b的值,如果該值大于0,則判定該數(shù)據(jù)為正樣本,否則判定為負(fù)樣本。
SVM對(duì)于小樣本數(shù)據(jù)的處理性能好,泛化能力強(qiáng)。
本文方法的實(shí)現(xiàn)主要包括三個(gè)環(huán)節(jié):文本預(yù)處理、語(yǔ)義空間變化和語(yǔ)義特征向量提取、聯(lián)合支持向量機(jī)分類(lèi)。詳細(xì)介紹如下。
2.2.1 文本預(yù)處理
本文仍采用ICTCLAS分詞系統(tǒng)來(lái)進(jìn)行文本預(yù)處理。與文獻(xiàn)[12]不同的是,本文在進(jìn)行文本數(shù)據(jù)結(jié)構(gòu)化轉(zhuǎn)換時(shí),更注重詞條出現(xiàn)頻率信息而不是詞條是否存在信息,這樣利于更充分描述文本數(shù)據(jù)。具體地,對(duì)于任意一條中文書(shū)目d,記錄每一個(gè)詞條出現(xiàn)的頻率,可以得到一個(gè)向量f=[f1,d,f2,d,…,fn,d]T。其中,元素fi,d;i=1,2,…,n表示第i個(gè)詞條在中文書(shū)目d中出現(xiàn)的次數(shù)。這樣,非結(jié)構(gòu)化的中文書(shū)目文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化向量數(shù)據(jù)。
在機(jī)器學(xué)習(xí)階段,整個(gè)訓(xùn)練樣本集中的所有中文書(shū)目文本數(shù)據(jù)可以轉(zhuǎn)換為一個(gè)維數(shù)為n×m的矩陣F,其中,m表示中文書(shū)目的數(shù)量。矩陣F可以表示為:
(8)
其中,矩陣中任意元素fi,j;i=1,2,…,n;j=1,2,…,m;表示第i個(gè)詞條在中文書(shū)目j中出現(xiàn)的次數(shù)。
2.2.2 語(yǔ)義空間變換與語(yǔ)義特征向量提取
一般地,詞條與語(yǔ)料庫(kù)之間存在隱含語(yǔ)義關(guān)系,本文通過(guò)挖掘兩者之間隱含的語(yǔ)義空間,來(lái)描述詞條與語(yǔ)料庫(kù)之間的聯(lián)系。本文采用常用的TF-IDF方法進(jìn)行文本數(shù)據(jù)的轉(zhuǎn)換。該方法在數(shù)據(jù)挖掘和信息檢索領(lǐng)域應(yīng)用廣泛,其主要設(shè)計(jì)思想是:某一個(gè)詞條在某文檔中出現(xiàn)的頻率越高,而在語(yǔ)料庫(kù)的其他文檔中出現(xiàn)的頻率越低,則該詞條對(duì)于該文檔而言的重要程度越高。給定語(yǔ)料庫(kù)D,詞條t和中文書(shū)目d,d∈D。則中文書(shū)目d的權(quán)重可以表示為:
tt,d=ft,d×log(|D|ft,D)
(9)
其中:ft,d表示詞條t出現(xiàn)在中文書(shū)目d中出現(xiàn)的次數(shù),|D|表示語(yǔ)料庫(kù)中中文書(shū)目的數(shù)量,ft,D表示語(yǔ)料庫(kù)D中出現(xiàn)詞條t的中文書(shū)目數(shù)量。
這樣,對(duì)于任意一條中文書(shū)目,采用TF-IDF方法可以得到一個(gè)特征向量t=[t1,d,t2,d,…,tn,d]T。
在機(jī)器學(xué)習(xí)階段,整個(gè)訓(xùn)練樣本集中的所有中文書(shū)目文本數(shù)據(jù)可以采用TF-IDF方法轉(zhuǎn)換為一個(gè)維數(shù)為n×m的矩陣T,表示為:
(10)
也即,用每一個(gè)詞條對(duì)語(yǔ)料庫(kù)中每一個(gè)文檔的權(quán)重來(lái)構(gòu)建矩陣T,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)。
然而,當(dāng)詞條出現(xiàn)頻次過(guò)大時(shí),TF-IDF方法得到的權(quán)重會(huì)下降,影響特征區(qū)分能力。為此,本文融合詞頻和TF-IDF特征,構(gòu)建的特征矩陣可以表示為:
X=λF+(1-λ)T
(11)
其中:λ表示加權(quán)權(quán)重。
類(lèi)似地,特征向量之間的融合公式為:
q=λf+(1-λ)t
(12)
為了特征矩陣的冗余,盡可能地反映詞條與文檔之間的原始關(guān)系,本文采用SVD方法對(duì)特征矩陣X進(jìn)行分解,如公式(3)所示。奇異值的對(duì)角矩陣S的對(duì)角元素按從大到小的順序進(jìn)行排列。奇異值越大,說(shuō)明對(duì)應(yīng)的詞條向量越重要,詞條與文本的關(guān)聯(lián)性越強(qiáng)??梢?jiàn),采用SVD分解之后的三個(gè)矩陣能反映詞條與語(yǔ)料庫(kù)之間語(yǔ)義聯(lián)系。因此,本文將上述變換過(guò)程稱(chēng)之為語(yǔ)義空間變換。考慮到奇異值下降速度非???,前10%的奇異值的和通??梢赃_(dá)到全部奇異值之和的99%以上了。因此,本文采用前k個(gè)奇異值來(lái)近似描述矩陣。簡(jiǎn)化后的矩陣記為:
Xk=LkSkRkT
(13)
其中:與S相比,矩陣Sk中只保留對(duì)角元素的前k個(gè)奇異值,其他位置的奇異值置為0。與L和R相比,矩陣Lk和Rk中只保留前k行向量,其他行的元素都置為0。
這樣,可以通過(guò)語(yǔ)義空間變換,將高維的文本數(shù)據(jù)轉(zhuǎn)換為較低維度的隱含語(yǔ)義空間。具體地,對(duì)于任意一個(gè)中文書(shū)目所對(duì)應(yīng)的特征向量q,可以通過(guò)語(yǔ)義空間的變換將其轉(zhuǎn)換為語(yǔ)義空間中相同維度的語(yǔ)義向量qk,表示為:
qk=Sk-1LkTq
(14)
本文將語(yǔ)義向量作為文檔的特征向量,據(jù)此進(jìn)行文檔的分類(lèi)。
2.2.3 聯(lián)合支持向量機(jī)分類(lèi)
基于機(jī)器學(xué)習(xí)的書(shū)目分類(lèi)方法通常需要構(gòu)建分類(lèi)器來(lái)完成文檔所對(duì)應(yīng)特征向量的分類(lèi)任務(wù)。考慮到支持向量機(jī)泛化能力強(qiáng),計(jì)算復(fù)雜度樣本空間維數(shù)關(guān)聯(lián)小的特點(diǎn),本文選擇支持向量機(jī)方法進(jìn)行特征向量的學(xué)習(xí)與分類(lèi)。
由前面介紹可見(jiàn),SVM分類(lèi)器是一個(gè)二元分類(lèi)器,分類(lèi)結(jié)果只有正樣本和負(fù)樣本兩類(lèi)。對(duì)于書(shū)目而言,類(lèi)別數(shù)肯定不止兩類(lèi)。為了實(shí)現(xiàn)多類(lèi)書(shū)目數(shù)據(jù)的分類(lèi),本文設(shè)計(jì)聯(lián)合SVM分類(lèi)器,為每一個(gè)書(shū)目類(lèi)別構(gòu)建一個(gè)SVM分類(lèi)器,通過(guò)各個(gè)SVM分類(lèi)器的投票來(lái)得到最終的分類(lèi)結(jié)果。在訓(xùn)練每一個(gè)書(shū)目的SVM分類(lèi)器時(shí),將訓(xùn)練數(shù)據(jù)集中該書(shū)目的數(shù)據(jù)看作正樣本,而將其他書(shū)目的數(shù)據(jù)看作負(fù)樣本,來(lái)訓(xùn)練SVM分類(lèi)器。假設(shè)書(shū)目類(lèi)別總數(shù)為C,那么可以得到C個(gè)SVM分類(lèi)器,記為:
SVMi={wi,bi|i=1,2,3,…,C}
(15)
在分類(lèi)時(shí),對(duì)于輸入數(shù)據(jù)x,可以計(jì)算C個(gè)分類(lèi)得分,記為:
si=wiTx+bi
(16)
本文選擇分類(lèi)得分最大的類(lèi)別作為數(shù)據(jù)x的分類(lèi)類(lèi)別,表示為:
(17)
在本文中,用于SVM訓(xùn)練和測(cè)試的數(shù)據(jù)為每一個(gè)文檔所對(duì)應(yīng)的語(yǔ)義向量qk。
本文通過(guò)中文書(shū)目的自動(dòng)分類(lèi)實(shí)驗(yàn)來(lái)驗(yàn)證本文所述的基于語(yǔ)義空間變換的中文書(shū)目數(shù)據(jù)挖掘方法的有效性。首先,我們從學(xué)校中文書(shū)目館隨機(jī)抽取了5個(gè)大類(lèi)的中文書(shū)目作為實(shí)驗(yàn)數(shù)據(jù)集,包括D類(lèi)書(shū)目3 364條,F(xiàn)類(lèi)書(shū)目5 482條,I類(lèi)書(shū)目3 638條,K類(lèi)書(shū)目2 874條,T類(lèi)書(shū)目4 877條,共計(jì)20 235條中文書(shū)目信息。一般地,中文書(shū)目信息包括書(shū)號(hào)、價(jià)格、書(shū)名、分卷號(hào)、分卷名、作者、版本項(xiàng)、出版地、出版社、出版時(shí)間、頁(yè)碼、開(kāi)本、內(nèi)容摘要、讀者對(duì)象、分類(lèi)號(hào)等字段信息。本文與文獻(xiàn)[12]一樣,選取書(shū)名和內(nèi)容摘要這兩個(gè)字段作為實(shí)驗(yàn)的測(cè)試語(yǔ)料,因?yàn)檫@兩個(gè)字段能有效反映中文書(shū)目的主題??紤]到基于機(jī)器學(xué)習(xí)的中文書(shū)目自動(dòng)分類(lèi)方法一般包括機(jī)器學(xué)習(xí)和類(lèi)目分析兩個(gè)階段,這里將中文書(shū)目數(shù)據(jù)集分為兩個(gè)子集,一個(gè)為訓(xùn)練數(shù)據(jù)子集,另一個(gè)為測(cè)試數(shù)據(jù)子集。其中,訓(xùn)練數(shù)據(jù)子集是從每一類(lèi)書(shū)目中隨機(jī)抽取一半書(shū)目條目構(gòu)成的,剩下的一半放入測(cè)試數(shù)據(jù)子集。下面首先介紹本文方法的實(shí)驗(yàn)情況,然后再與現(xiàn)有中文書(shū)目分類(lèi)方法進(jìn)行性能對(duì)比,驗(yàn)證本文方法的優(yōu)勢(shì)。
本文方法的訓(xùn)練步驟如下。
Step1:文本預(yù)處理,構(gòu)建矩陣F;
Step2:TF-IDF特征提取,構(gòu)建矩陣T;
Step3:特征融合,構(gòu)建特征向量q和矩陣X;
Step4:語(yǔ)義空間變換,得到矩陣Lk、Rk、Sk和Xk;
Step5:語(yǔ)義向量生成,得到語(yǔ)義向量qk;
Step6:機(jī)器學(xué)習(xí),對(duì)不同類(lèi)別的語(yǔ)義向量進(jìn)行訓(xùn)練,為每一類(lèi)中文書(shū)目構(gòu)建一個(gè)SVM分類(lèi)器。
本文方法的測(cè)試步驟是:
Step1:文本預(yù)處理,得到向量f;
Step2:TF-IDF特征提取,得到向量t;
Step3:特征融合,得到特征向量q;
Step4:語(yǔ)義向量生成,得到語(yǔ)義向量qk;
Step5:特征分類(lèi),得到對(duì)每一個(gè)類(lèi)別的分類(lèi)得分;
Step6:選擇分類(lèi)得分最大的類(lèi)別作為分類(lèi)結(jié)果。
本文方法涉及兩個(gè)參數(shù),分別是特征融合階段的權(quán)重參數(shù)λ和SVD分解階段的參數(shù)k。下面通過(guò)實(shí)驗(yàn)來(lái)選擇最優(yōu)的參數(shù)。
圖1給出了參數(shù)λ取值不同時(shí)本文方法的分類(lèi)準(zhǔn)確率分布情況(此時(shí)SVD階段不進(jìn)行約簡(jiǎn))。當(dāng)λ=0時(shí)表示僅使用TF-IDF特征,當(dāng)λ=1時(shí)表示僅使用詞頻特征。由圖1可見(jiàn),當(dāng)參數(shù)λ取值為0.3時(shí)中文書(shū)目的分類(lèi)準(zhǔn)確率最大。這說(shuō)明,TF-IDF特征的分類(lèi)效果優(yōu)于詞頻特征,融合TF-IDF特征和詞頻特征的分類(lèi)效果優(yōu)于單獨(dú)采用一種特征的分類(lèi)效果。
圖1 參數(shù)λ取值不同時(shí)分類(lèi)準(zhǔn)確率分布曲線(xiàn)
圖2給出了參數(shù)k取值不同時(shí)本文方法的分類(lèi)準(zhǔn)確率分布情況??梢?jiàn),前期隨著k的增加,分類(lèi)準(zhǔn)確率提升。當(dāng)k=80時(shí)分類(lèi)準(zhǔn)確率增加不再明顯,當(dāng)k=120時(shí)分類(lèi)準(zhǔn)確率反而下降。這說(shuō)明,詞條與文檔之間的關(guān)聯(lián)關(guān)系主要體現(xiàn)在前80個(gè)奇異值上,后面的奇異值所含噪聲偏多,不利于分類(lèi)。
圖2 參數(shù)k取值不同時(shí)分類(lèi)準(zhǔn)確率分布曲線(xiàn)
下面將本文方法與文獻(xiàn)[12-14]所述的三種中文書(shū)目分類(lèi)方法進(jìn)行實(shí)驗(yàn)對(duì)比,具體結(jié)果見(jiàn)表1。其中,文獻(xiàn)[12]所述方法中特征選擇混合特征,特征權(quán)重參數(shù)為0.5。文獻(xiàn)[13]所述方法中分類(lèi)器選用其實(shí)驗(yàn)性能更優(yōu)的SVM分類(lèi)器。本文方法的實(shí)驗(yàn)參數(shù)為:λ=0.3、k=80。四種方法所用的實(shí)驗(yàn)環(huán)境相同,計(jì)算機(jī)平臺(tái)性能參數(shù)為:Intel I7 CPU、DDR3 16 G內(nèi)存。軟件開(kāi)發(fā)環(huán)境為Matlab 2012。機(jī)器學(xué)習(xí)模塊使用MATLAB自帶的開(kāi)發(fā)包。分詞系統(tǒng)都采用ICTCLAS分詞系統(tǒng)。
表1 不同方法分類(lèi)準(zhǔn)確率對(duì)比(單位:%)
下面對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行具體的分析。本文方法與文獻(xiàn)[12]所述方法都使用了詞頻和TD-IDF特征,不過(guò)本文方法沒(méi)有區(qū)分特征在標(biāo)題或者摘要中的差異,而是通過(guò)兩類(lèi)特征的加權(quán)融合以及語(yǔ)義空間變換來(lái)生成文本表示特征。這樣可以去除冗余,增強(qiáng)特征的穩(wěn)健性,提高分類(lèi)準(zhǔn)確率。由表1可見(jiàn),本文方法在D、F、I、K和T五類(lèi)書(shū)目的分類(lèi)準(zhǔn)確率都高于文獻(xiàn)[12]方法,且平均分類(lèi)準(zhǔn)確率高于文獻(xiàn)[12]方法2.76%。與文獻(xiàn)[13]方法相比,本文方法也使用了SVM分類(lèi)器。然而在特征提取階段,文獻(xiàn)[13]中單獨(dú)使用TD-IDF特征,而本文方法在此基礎(chǔ)上融合了詞頻特征,特征區(qū)分能力增強(qiáng)。另外,本文方法在分類(lèi)時(shí)構(gòu)建聯(lián)合SVM分類(lèi)器,這也優(yōu)于文獻(xiàn)[13]方法使用的級(jí)聯(lián)SVM分類(lèi)器。因?yàn)槭褂眉?jí)聯(lián)分類(lèi)器時(shí)如果某一層分類(lèi)錯(cuò)誤,那么分類(lèi)結(jié)果就是錯(cuò)誤的。而聯(lián)合SVM分類(lèi)器相當(dāng)于每一個(gè)分類(lèi)器都對(duì)分類(lèi)結(jié)果進(jìn)行投票,選擇投票分?jǐn)?shù)最高的類(lèi)別作為最終的分類(lèi)結(jié)果,這明顯優(yōu)于選擇某一層分類(lèi)結(jié)果。因此本文方法在五類(lèi)書(shū)目上的分類(lèi)準(zhǔn)確率也都高于文獻(xiàn)[13]方法,且平均分類(lèi)準(zhǔn)確率高于文獻(xiàn)[13]方法6.09%。文獻(xiàn)[14]所述方法與本文方法和文獻(xiàn)[12-13]所述方法差異都較大,該方法的主要特點(diǎn)是構(gòu)建復(fù)合特征,但在特征構(gòu)建時(shí)使用了一些先驗(yàn)知識(shí),導(dǎo)致特征的主觀性較強(qiáng),對(duì)數(shù)據(jù)的魯棒性差。因此,在本文的測(cè)試數(shù)據(jù)下,該方法的分類(lèi)準(zhǔn)確率不高,在某些領(lǐng)域可能分類(lèi)準(zhǔn)確度較高,在五類(lèi)書(shū)目上的分類(lèi)準(zhǔn)確率都低于本文方法,且平均分類(lèi)準(zhǔn)確率低于本文方法3.53%??偟膩?lái)說(shuō),本文方法對(duì)五類(lèi)中文書(shū)目的分類(lèi)準(zhǔn)確度都高于其他三種方法,平均分類(lèi)準(zhǔn)確率高于其他方法2.76%以上。
本文提出了一種基于語(yǔ)義空間變換的數(shù)據(jù)挖掘方法,主要設(shè)計(jì)思想是:融合詞頻和TF-IDF兩種特征描述文本數(shù)據(jù),結(jié)合奇異值分解實(shí)現(xiàn)語(yǔ)義空間變換,生成用于文本表示的語(yǔ)義向量,設(shè)計(jì)聯(lián)合SVM分類(lèi)器實(shí)現(xiàn)語(yǔ)義向量的學(xué)習(xí)與分類(lèi)。通過(guò)進(jìn)行中文書(shū)目自動(dòng)分類(lèi)實(shí)驗(yàn),驗(yàn)證了本文方法能夠提高中文書(shū)目分類(lèi)的準(zhǔn)確率。類(lèi)似地,本文方法還可以用于其他文本分類(lèi)與檢索領(lǐng)域,有益于挖掘文本數(shù)據(jù)信息。
參考文獻(xiàn):
[1] Wu D, Olson D L. A TOPSIS Data Mining Demonstration and Application to Credit Scoring[J]. International Journal of Data Warehousing & Mining, 2017, 2(3):16-26.
[2] Nassirtoussi A K, Aghabozorgi S, Wah T Y, et al. Text mining for market prediction: A systematic review[J]. Expert Systems with Applications, 2014, 41(16):7653-7670.
[3] Mostafa M M. More than words: Social networks’ text mining for consumer brand sentiments[J]. Expert Systems with Applications, 2013, 40(10):4241-4251.
[4] He W, Zha S, Li L. Social media competitive analysis and text mining: A case study in the pizza industry[J]. International Journal of Information Management, 2013, 33(3):464-472.
[5] Huh J, Yetisgen-Yildiz M, Pratt W. Text classification for assisting moderators in online health communities[J]. Journal of Biomedical Informatics, 2013, 46(6):998-1005.
[6] Lin Y S, Jiang J Y, Lee S J. A Similarity Measure for Text Classification and Clustering[J]. IEEE Transactions on Knowledge & Data Engineering, 2014, 26(7):1575-1590.
[7] D’Aspremont A. Predicting abnormal returns from news using text classification[J]. Quantitative Finance, 2015, 15(6):999-1012.
[8] Sarker A, Gonzalez G. Portable Automatic Text Classification for Adverse Drug Reaction Detection via Multi-corpus Training[J]. Journal of Biomedical Informatics, 2015, 53:196-207.
[9] Uysal A K, Gunal S. The impact of preprocessing on text classification[J]. Information Processing & Management, 2014, 50(1):104-112.
[10] Murtagh F, Kurtz M J. The Classification Society’s Bibliography Over Four Decades: History and Content Analysis[J]. Journal of Classification, 2016, 33(1):6-29.
[11] Weldon S P. Organizing knowledge in the Isis bibliography from Sarton to the early twenty-first century.[J]. Isis;an international review devoted to the history of science and its cultural influences, 2013, 104(3):540-550.