胡曉輝
(江西機(jī)電職業(yè)技術(shù)學(xué)院 信息工程學(xué)院,南昌 330013)
如今計(jì)算機(jī)、通信技術(shù)快速發(fā)展,文本數(shù)據(jù)量急劇增多,文本分類顯得尤為重要,本文研究的分類技術(shù)正是目前人工智能研究的一個(gè)分支。經(jīng)典的文本分類模型大多是基于概率、內(nèi)容和向量空間的分類模型[1-2]。其中經(jīng)典的文本分類方法有BAYES[3-4]、神經(jīng)網(wǎng)絡(luò)[5-6]、SVM[7-8]和KNN[9]等,這些基于向量空間模型的經(jīng)典算法最大優(yōu)勢(shì)體現(xiàn)在表示方法上。
目前,傳統(tǒng)TF-IDF算法[10]是通過詞語在文本中出現(xiàn)的頻率來判斷其重要性的,未充分考慮文檔的結(jié)構(gòu)特征信息,Araqueo[11]基于詞嵌入模型和線性機(jī)器學(xué)習(xí),該文獻(xiàn)對(duì)一種基于深度學(xué)習(xí)的算法進(jìn)行研究。Hang[12]未根據(jù)詞語所在的位置信息來進(jìn)行評(píng)估,導(dǎo)致文本分類的準(zhǔn)確性受到限制。綜合詞的位置信息、作者的關(guān)聯(lián)信息、鏈接信息等結(jié)構(gòu)信息到分類模型中,可以有效地提高分類器效果。本文研究NEWTF-IDF算法是一種新穎的權(quán)重算法,基于傳統(tǒng)的TF-IDF模型,通過挖掘文檔的結(jié)構(gòu)信息,增加了關(guān)鍵信息權(quán)重,考慮特征詞的類內(nèi)外分布密度,較好地聚焦在對(duì)文檔分類貢獻(xiàn)更大的詞語上。復(fù)旦大學(xué)分類數(shù)據(jù)集是較為廣泛使用的中文語料庫(kù),網(wǎng)頁(yè)數(shù)據(jù)集使用的是SEWM中文網(wǎng)頁(yè),本文基于這2個(gè)數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),在2個(gè)數(shù)據(jù)集上的結(jié)果表明本文的方法較傳統(tǒng)的方法效果相對(duì)較好。
傳統(tǒng)TF-IDF算法,詞文本中出現(xiàn)的頻率越小就越能區(qū)分開文本類別,反之,如果一個(gè)詞在文本中出現(xiàn)的頻率越大,該詞的重要性就越低[13]。事實(shí)是這樣的思想有一定的局限性,該算法并非有效地體現(xiàn)出詞的重要度,而且該算法也沒有考慮詞語出現(xiàn)的位置,這就導(dǎo)致該算法的精度并不理想。針對(duì)以上問題,本文基于該算法提出了一種新的NTF-IDF(New Term Frequency Inverse Document Frequency)算法,該算法考慮了關(guān)鍵信息的權(quán)重,對(duì)不同位置的詞賦予了不同的權(quán)重,在詞權(quán)重的處理中同時(shí)考慮詞密度分布,以使獲得的特征詞更加具有區(qū)分類別的能力。N-TF-IDF算法主要針對(duì)的應(yīng)用場(chǎng)景是網(wǎng)頁(yè)、論文和專利等文本的分類。這類文本往往包含,如:鏈接信息、標(biāo)題、頁(yè)面描述、關(guān)鍵詞、發(fā)表單位和摘要等等,這些信息對(duì)文本分類均有較大的作用。在預(yù)處理時(shí),關(guān)鍵位置詞語對(duì)文本分類貢獻(xiàn)更大,因而對(duì)不同位置出現(xiàn)的詞語賦予不同權(quán)重,如果一個(gè)詞越是能反映類別的特征那么該詞在類內(nèi)的分布密度就越均勻。
在文本中,特征分布對(duì)其權(quán)重有一定影響,對(duì)于這一點(diǎn),傳統(tǒng)TF-IDF算法并未考慮到。新NTF-IDF算法綜合考慮詞語的位置和出現(xiàn)的概率分布,獲取更好的能反映類特征的詞項(xiàng),對(duì)于這樣的詞賦予更高的權(quán)值。
對(duì)文檔的分類包括對(duì)網(wǎng)頁(yè)的分類和對(duì)純文本的分類,無論是對(duì)于網(wǎng)頁(yè)還是純文本,都需要獲取能更好區(qū)分類別的特征,因此對(duì)于期刊論文或者網(wǎng)頁(yè)文本的分類可以使用文本分類的相關(guān)方法。一般網(wǎng)頁(yè)包含正文、超文本標(biāo)記和錨文本等特殊元素,標(biāo)簽則反映網(wǎng)頁(yè)不同區(qū)域重要程度,錨文本文字描述鏈接所指向的網(wǎng)頁(yè)主題,其反映網(wǎng)頁(yè)內(nèi)容和性質(zhì),對(duì)建立相關(guān)主題網(wǎng)頁(yè)之間的聯(lián)系有著特別重要的意義;標(biāo)題、摘要及關(guān)鍵詞是期刊論文的重要元素,標(biāo)題讓人們快速了解文章的體裁,摘要使得人們快速準(zhǔn)確地把握文章的內(nèi)容,而關(guān)鍵詞則反映文章涉及的專業(yè)領(lǐng)域。網(wǎng)頁(yè)頁(yè)面和期刊論文中的這些特殊詞在很大程度上是對(duì)文本內(nèi)容的高度概括和提煉,因此要賦予更高的權(quán)重。在綜合分析文檔內(nèi)容和結(jié)構(gòu)的基礎(chǔ)上,獲取文本中不同位置的內(nèi)容,賦予這些關(guān)鍵特征更高的權(quán)值。獲取關(guān)鍵信息確定權(quán)重系數(shù)過程如圖1所示。
圖1 權(quán)重系數(shù)獲取流程圖
通過HtmlParser工具對(duì)頁(yè)面信息進(jìn)行抽取,過濾掉非法字符,頁(yè)面信息經(jīng)過預(yù)處理后,去除了停用詞,對(duì)于出現(xiàn)在網(wǎng)頁(yè)中不同位置的詞賦予了不同權(quán)重,權(quán)重系數(shù)對(duì)分類結(jié)果有一定的影響,經(jīng)過多次實(shí)驗(yàn)后,對(duì)分類結(jié)果進(jìn)行對(duì)比,確定TITLE、BODY、ANCHOR三者的最終權(quán)重比是2∶1∶1;對(duì)于期刊論文等文本,標(biāo)題中的詞和關(guān)鍵詞、摘要段落內(nèi)的詞及正文中的詞的權(quán)重之比為2∶1.5∶1。為了確定某個(gè)文檔所屬的類別,只要計(jì)算該文檔中的特征項(xiàng)在不同的類中聯(lián)合分布,然后對(duì)不同的類所對(duì)應(yīng)的值進(jìn)行比較,概率值較大者所對(duì)應(yīng)的類,即為該文檔的所屬類別。
傳統(tǒng)TF-IDF算法僅考慮某個(gè)特征項(xiàng)與其所在文本數(shù)量間的關(guān)系,計(jì)算方法比較簡(jiǎn)單,因此該算法認(rèn)為某個(gè)詞文本頻率越小那么就越能把文本類別區(qū)分開,反之文本頻率越大的詞對(duì)區(qū)分文本類別的能力越弱,這就忽略了詞語出現(xiàn)在所屬類別和類別外的概率。NTF-IDF算法在衡量特征詞的類別區(qū)分能力時(shí)考慮了詞的類內(nèi)分布密度和詞的類外分布密度這2個(gè)因素。詞的類內(nèi)分布密度度量該詞與類別的相關(guān)性,詞的類外分布密度度量該詞區(qū)分類別的能力。詞類內(nèi)分布密度表示該詞在其所屬類文本中的密度,記為TCI;詞的類外分布密度表示該詞出現(xiàn)在其他類的文本中的分布密度,記為TCO。
如果某詞在一個(gè)類所有文檔幾乎平均出現(xiàn),但是在其他類中出現(xiàn)率極低,那么該詞具有極強(qiáng)的類別代表性。基于這種思想,詞類內(nèi)外分布密度跟該詞在某類中每篇文檔的出現(xiàn)頻率有關(guān),用F(t,Cij)代表特征t出現(xiàn)在第j類中的第i篇文檔的頻率,F(xiàn)(t,Cij)代表特征t出現(xiàn)在第j類中的頻率
式中:n代表第j類中所有的文檔數(shù)量0≤TCI≤1。
式中:N為訓(xùn)練集總的類別數(shù)0≤TCO≤1。
當(dāng)TCI的值越小時(shí),表明特征詞t在j類中分布密度就越平均,也就越能體現(xiàn)該類別的特征,當(dāng)取極端值0時(shí),該特征極大體現(xiàn)此類的共性;反之,當(dāng)TCI的值越大時(shí),就越不具備代表性。當(dāng)TCO的值越小時(shí),表明特征詞Ti在不同類別中的分布密度就越均勻,那么該特征區(qū)分類別的能力就越弱,當(dāng)達(dá)到極端值0時(shí),該詞對(duì)分類貢獻(xiàn)幾乎為0;反之,當(dāng)TCO的值越大時(shí),表明特征詞t在不同類別中的分布密度就越不均勻,越能體現(xiàn)其所在密度分布較高的類的特征。因此,當(dāng)t使得TCI值較小而TCO值較大時(shí),應(yīng)該賦予t更大的權(quán)重,權(quán)重計(jì)算公式如下
SEWM和復(fù)旦大學(xué)分別提供了網(wǎng)頁(yè)訓(xùn)練和中文分類訓(xùn)練數(shù)據(jù)集,其在文本處理領(lǐng)域具有一定的代表性,因此本實(shí)驗(yàn)將采用這2個(gè)數(shù)據(jù)集進(jìn)行分析。
SEWM中文網(wǎng)頁(yè)分類語料庫(kù)共有11個(gè)大類,部分網(wǎng)頁(yè)結(jié)構(gòu)不夠完整,實(shí)驗(yàn)過程中剔除了這些網(wǎng)頁(yè)后共有11 000多個(gè)訓(xùn)練頁(yè)面和3 600個(gè)測(cè)試頁(yè)面。復(fù)旦大學(xué)數(shù)據(jù)集中有部分重復(fù)或者損壞的文檔,同樣對(duì)這部分文檔也進(jìn)行了剔除,該語料庫(kù)共有文檔19 630篇分布在20個(gè)類別中,其中有11個(gè)類別的正例訓(xùn)練文本數(shù)不到100篇,本實(shí)驗(yàn)中對(duì)該數(shù)據(jù)集按照1∶1的比例來劃分訓(xùn)練文本和測(cè)試文本。
對(duì)于SEWM中文網(wǎng)頁(yè)在預(yù)處理時(shí),將超文本轉(zhuǎn)化成普通文本,去除網(wǎng)頁(yè)中的停用詞,并對(duì)單詞做了詞干化。對(duì)于復(fù)旦大學(xué)數(shù)據(jù)集在預(yù)處理時(shí),首先剔除數(shù)據(jù)集中的稀有詞,然后使用中科院計(jì)算所分詞效果較好的開源項(xiàng)目。
文本分類技術(shù)中常用準(zhǔn)確率、召回率、F1值、微平均和宏平均來進(jìn)行評(píng)價(jià),本次試驗(yàn)將采用微平均、宏平均及F1值來對(duì)新的算法NTF-IDF進(jìn)行分析。在以上2個(gè)數(shù)據(jù)集上對(duì)傳統(tǒng)的特征選取方式和本文優(yōu)化后的特征選取方式進(jìn)行對(duì)比。
圖2和圖3都顯示了本文提出的新的優(yōu)化算法NTF-IDF,在2個(gè)數(shù)據(jù)集上的10個(gè)常見類F1值都比傳統(tǒng)的TF-IDF算法要高。
圖2 復(fù)旦大學(xué)數(shù)據(jù)集上2種方法實(shí)驗(yàn)結(jié)果對(duì)比圖
圖3 網(wǎng)頁(yè)分類語料庫(kù)上2種方法實(shí)驗(yàn)結(jié)果對(duì)比圖
表1表明了2種特征權(quán)重算法在同一分類器上的10個(gè)大類及在所有類別上的微平均和宏平均,本次實(shí)驗(yàn)表明新的算法有效提高了分類結(jié)果。
表1 在復(fù)旦數(shù)據(jù)集上2種方法微平均、宏平均對(duì)比表
由圖2和圖3可以看出,本文新算法的F1值比TFIDF算法要高,F(xiàn)1值的取值情況隨著數(shù)據(jù)集的數(shù)量增加而有所提高,當(dāng)數(shù)據(jù)集的數(shù)量800多時(shí),2種算法對(duì)應(yīng)的F1值較大,NTF-IDF對(duì)應(yīng)的F1值隨著數(shù)據(jù)集的增加基本呈現(xiàn)上升趨勢(shì)。本文NTF-IDF算法和原有TF-IDF算法相比較,增加考慮了特征詞的位置信息以及特征詞的類內(nèi)外分布密度。因TF-IDF算法未涉及詞的結(jié)構(gòu)特征而存在一定的局限性,故本文NTF-IDF算法比傳統(tǒng)的算法分類效果有所提升。
本文對(duì)訓(xùn)練文檔集進(jìn)行學(xué)習(xí),提出了一種有效的特征權(quán)重計(jì)算方法,該方法結(jié)合特征詞位置信息,考慮文本的結(jié)構(gòu)特征,增加考慮特征詞的類內(nèi)外分布密度,以獲得能更好地區(qū)分類別的特征信息。不同數(shù)據(jù)集上實(shí)驗(yàn)表明,本文新的計(jì)算特征權(quán)重的方法切實(shí)可行。未來將更進(jìn)一步完善和優(yōu)化算法,賦予較優(yōu)的權(quán)重分配比,并與其他經(jīng)典的算法進(jìn)行比較,以更進(jìn)一步提高分類性能。