• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      文本分類中基于CHI和PCA混合特征的降維方法

      2022-03-17 13:38:46唐加山段丹丹
      關(guān)鍵詞:特征詞特征選擇降維

      唐加山,段丹丹

      (南京郵電大學(xué) 理學(xué)院,南京 210023)

      0 引 言

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展以及信息傳播手段的不斷進步,網(wǎng)絡(luò)新聞與評論、電子郵件等電子文本數(shù)據(jù)逐漸增加,為了更有效地管理這些海量的文本數(shù)據(jù),文本自動分類技術(shù)發(fā)揮著重要的作用。文本自動分類技術(shù)是指利用給定的分類體系,對未知類別的文本數(shù)據(jù)根據(jù)其特征自動判定其類別歸屬的過程[1]。

      在文本分類過程中,由于文本數(shù)據(jù)的半結(jié)構(gòu)化甚至非結(jié)構(gòu)化的特點,通常需要使用向量空間模型(vector space model, VSM)[2]將文本表示成由一定數(shù)量特征詞構(gòu)成的空間向量,向量的維數(shù)即是文本集合中所有特征詞的數(shù)量,這個維度通??蛇_幾萬維,甚至更高,所以文本特征空間的高維性是導(dǎo)致本問題的研究難點之一[3]。需要注意的是,并不是高維數(shù)據(jù)的每個維度都對文本的分類有實質(zhì)性貢獻,實際上,不同的特征之間可能存在不相關(guān)或者是冗余的現(xiàn)象,這不僅增加了許多噪聲數(shù)據(jù),造成了時間和空間開銷的浪費,而且容易出現(xiàn)過擬合問題[4],顯然,文本的特征降維是解決此類問題的有效方法之一。

      1 相關(guān)工作

      文本特征降維包括特征選擇和特征抽取2個方法。特征選擇方法是在不改變原始特征空間的條件下,從原始特征空間中按照某種評估函數(shù)選擇一部分重要特征,組成一個新的低維空間用于后期的文本分類。常用的特征選擇方法有[4]:文檔頻率(document frequency,DF)、互信息(mutual information,MI)、信息增益(information gain,IG)以及卡方統(tǒng)計(Chi-square statistics,CHI)等。在眾多特征選擇方法中,Yang等[5]指出IG方法和CHI方法的效果最好,且CHI方法具備更低的時間復(fù)雜度,因此,在實際應(yīng)用中CHI是最好的特征選擇方法之一,但CHI方法有其自身的缺陷,它在計算過程中,只統(tǒng)計了特征詞是否在文本中出現(xiàn),并未考慮其詞頻以及特征詞的分布等信息。文獻[6]使用樣本方差來計算特征詞的分布信息,并用最大詞頻信息來改進經(jīng)典的CHI方法,在3個語料庫上均取得了較好的結(jié)果。文獻[7]通過在CHI方法中引入頻度、集中度、分散度、位置信息這4個特征因子,并基于改進的詞頻-逆文本頻率指數(shù)(term frequency-inverse document frequency,TF-IDF)權(quán)重計算公式,提出了降維后更能精確反映特征項權(quán)重分布的PCHI-PTFIDF(promoted CHI-promoted TF-IDF)算法。

      特征抽取是通過將原始的特征空間進行某種數(shù)學(xué)變換,重新生成一個低維且各維度之間更獨立的特征空間[4]。常用的特征抽取方法包括主成分分析(principal component analysis,PCA)、潛在語義索引(latent semantic indexing,LSI)、線性判別分析(linear discriminative analysis,LDA)等。其中,PCA適用于各種各樣的數(shù)據(jù),被視為用于特征抽取的有效技術(shù)[8]。文獻[8]先使用信息增益篩選出初始特征詞,再使用PCA進行二次降維,提出了一種基于PCA的特征混合選擇方法,實驗結(jié)果表明,該方法在英文數(shù)據(jù)集上可有效提高分類性能。文獻[9]使用PCA方法對原始文本特征空間進行降維,再通過多重特征提取算法,在降維后的特征空間中過濾掉代表性較弱的特征項,隨后使用支持向量機(support vector machines,SVM)分類器對文本進行分類,實驗結(jié)果表明,該方法可有效提高文本分類的正確率。

      針對特征選擇CHI方法固有的缺陷,學(xué)者們提出了一些改進的方法,但據(jù)筆者所知,那些方法沒有考慮特征選擇后特征詞之間是否仍存在某種相關(guān)性的問題,比如近義詞等。PCA方法可以充分考慮特征項之間相關(guān)性,在特征降維的同時仍保留了原始特征空間最多的特征信息?;诖耍疚睦肞CA方法對CHI方法特征選擇后的特征空間進行二次降維,提出一種基于CHI和PCA的混合特征降維方法(CHI-PCA),該方法可以進一步精簡CHI方法特征選擇后的特征空間,在降低特征維度的同時,還有利于提高分類性能,實驗結(jié)果表明了所提方法的有效性。

      2 基于CHI-PCA混合特征降維方法

      本文提出的基于CHI-PCA的混合特征降維方法,主要由數(shù)據(jù)預(yù)處理、CHI方法特征選擇以及PCA方法特征抽取3部分構(gòu)成。數(shù)據(jù)預(yù)處理的目的是將輸入的中文文本整理成CHI方法所需的輸入形式,并降低其他文本符號對特征選擇效果的影響,隨后,將預(yù)處理后的文本經(jīng)過CHI方法初篩出特征詞,形成特征初選子集,再采用VSM模型進行文本表示,并使用TF-IDF方法[10]作為特征加權(quán)方式,形成初始特征向量,最后再將該向量輸入PCA方法中進行二次特征抽取,得到最終特征向量。該特征向量即可輸入分類器中進行訓(xùn)練,達到文本分類的目的。

      2.1 數(shù)據(jù)預(yù)處理

      本文的數(shù)據(jù)預(yù)處理主要包括文本清洗、類別匹配和文本分詞3部分:①文本清洗包括去除特殊符號、去除多余空白以及去除停用詞等,這樣可以在一定程度上降低其他符號對后續(xù)分析的影響[11];②類別匹配是指將原始文本與其對應(yīng)的類別一一匹配,因為本文使用的文本分類算法是有監(jiān)督的,所以需要知道每一個樣本所屬的類別;③文本分詞是指將一段文本切分成字、詞或者短語的過程。

      中文文本大都是以連續(xù)的字符串形式出現(xiàn),切分粒度可以為字、詞或者短語,根據(jù)文獻調(diào)研,研究者們普遍認(rèn)為選擇詞作為特征詞要優(yōu)于字或者短語[12],因此,本文選擇詞作為文本分詞的粒度。假設(shè)經(jīng)過文本清洗和類別匹配后的樣本集為D={(d1,y1),…,(di,yi),…,(dn,yn)},其中,n為樣本集數(shù)量,di表示第i個樣本,yi為di對應(yīng)的類別,且有yi∈Y={y1,…,yc},c為類別數(shù)量。對每個di進行文本分詞后有di={wi1,…,wimi},其中,mi為第i個樣本分詞后特征詞個數(shù)?,F(xiàn)將特征詞集{wi1,…,wimi},i=1,2,…,n去重后合并形成初始特征詞集W={w1,…,wm},其中,m為去重合并后特征詞的個數(shù),該特征詞集作為下一步CHI方法的輸入。

      2.2 特征初選子集

      CHI方法的基本思想是通過計算實際值與理論值的偏差來確定理論的正確與否[13]。當(dāng)CHI方法應(yīng)用在文本特征選擇時,主要衡量特征詞與類別之間的相關(guān)性。假設(shè)有特征詞wi,類別yj,其中,wi∈W,yj∈Y為訓(xùn)練樣本所屬的類別集?,F(xiàn)假設(shè)特征詞wi與類別yj相互獨立,若原假設(shè)成立,則說明特征詞對該類別完全沒有表征作用;若原假設(shè)不成立,則認(rèn)為特征詞與類別之間具有相關(guān)性,即wi可以作為候選特征詞。特征詞與類別的關(guān)系表見表1,其中,n為樣本集數(shù)量,已知wi與yj具有如表1的關(guān)系。

      表1 特征詞與類別的關(guān)系表Tab.1 Relationship between feature words and categories

      特征詞wi與類別yj的CHI值為[14]

      (1)

      當(dāng)CHI值越大時,說明計算出的偏差越大,則原假設(shè)越不成立,即特征詞wi與類別yj越相關(guān)。當(dāng)c>2時,即處理多類別問題時,特征詞wi對于整個樣本集的CHI值通常取它與各個類別的CHI值的最大值,表示為[15]

      (2)

      按照上述方法,依次計算初始特征詞集W中每個特征詞對應(yīng)的CHI值,依次由大到小排列,取前k個特征詞作為特征初選子集WCHI={w1,…,wk},關(guān)于k的設(shè)定,由文獻[16]所述,對于高維的特征詞空間一般選擇2%~5%的原始特征詞集作為后續(xù)分析,即k的大小一般為0.02m~0.05m,其中,m為W的詞個數(shù)。

      根據(jù)VSM模型將訓(xùn)練樣本D表示成由WCHI構(gòu)成的特征向量矩陣,VSM的基本思想是將樣本di映射為特征空間中的一個特征向量V(di)={(w1,qi1),…,(wk,qik)},其中,wk∈WCHI,di∈D,qik是第k個特征詞wk在第i個樣本中的權(quán)重[17]。本文使用的權(quán)重計算方法是TF-IDF方法,計算公式為[18]

      (3)

      (3)式中:TF(di,wk)表示特征詞wk在樣本di中的詞頻;n表示樣本數(shù)量;nk表示樣本中包含特征詞wk的樣本數(shù)量;wk∈WCHI;di∈D。

      本文采用(3)式將qik計算出后,可得到經(jīng)過CHI方法特征選擇后的文本表示矩陣為

      ACHI=[q1,q2,…,qk]

      (4)

      (4)式中,任意qi=(q1i,q2i,…,qni)T,i=1,2,…,k。

      2.3 特征再選子集

      PCA方法的基本思想是將原來具有一定相關(guān)性的指標(biāo)進行重新線性組合,形成一組新的彼此之間互不相關(guān)的指標(biāo)進行后續(xù)的分析[19]。假設(shè)特征詞wk是樣本di的一個指標(biāo),則第2.2節(jié)中介紹的矩陣ACHI可看作是由n個樣本和k個指標(biāo)構(gòu)成的一個n×k的觀測樣本數(shù)據(jù)矩陣??芍?,這k個指標(biāo)的協(xié)方差矩陣為

      Sk×k=E((ACHI-E(ACHI))(ACHI-E(ACHI))T)

      (5)

      PCA方法旨在將原來的k個指標(biāo)進行綜合,形成k個互不相關(guān)的新指標(biāo),考慮以下線性組合

      Zi=ACHIai=a1iq1+…+akiqk,i=1,2,…,k

      (6)

      (6)式中,ai=(a1i,a2i,…,aki)T,i=1,2,…,k。

      本文使用PCA方法的目的旨在將經(jīng)過CHI方法特征初選后的k維特征進行二次降維,得到一組新的彼此之間互不相關(guān)的特征來進行后續(xù)的分類任務(wù)分析。根據(jù)線性組合(6)式得,經(jīng)PCA方法特征再選后的數(shù)據(jù)矩陣為

      Apca=ACHI×[a1,…,ap]=

      (7)

      降維后,矩陣Apca為n×p階矩陣。

      2.4 CHI-PCA方法流程

      綜上,本文提出的基于CHI-PCA的混合特征降維方法,具體流程可描述如下。

      輸出:經(jīng)過CHI-PCA混合特征降維后的文本特征矩陣。

      步驟1使用第2.1節(jié)中方法對樣本集D′進行文本清洗,得到文本清洗后的樣本集D={(d1,y1),…,(di,yi),…(dn,yn)},其中,di為預(yù)處理后的中文文本,yi∈Y為預(yù)處理后每個樣本所屬的類別,n為清洗后樣本集的數(shù)量。對每個樣本進行分詞后得到第2.1節(jié)中的初始特征詞集W,特征詞個數(shù)為m;

      步驟2使用第2.2節(jié)中CHI方法依次計算W中每個特征詞對應(yīng)的CHI值,由大到小排列,取前k(0.02m≤k≤0.05m)個特征詞作為特征初選子集WCHI={w1,w2,…,wk},之后根據(jù)VSM并采用TF-IDF權(quán)重將訓(xùn)練樣本表示成由WCHI構(gòu)成的特征向量矩陣ACHI;

      步驟3使用第2.3節(jié)中PCA方法針對步驟2中得到的矩陣ACHI進行特征再選,取CPV≥85%時的整數(shù)p作為主成分個數(shù),得到混合特征降維后的矩陣Apca為n×p階矩陣,p

      3 實驗分析

      3.1 實驗數(shù)據(jù)

      本文實驗數(shù)據(jù)使用的是搜狗實驗室提供的搜狐新聞數(shù)據(jù)[22],本文選取了具有代表性的6個類別:IT、體育、娛樂、教育、汽車和財經(jīng),每一類別隨機選取1 000條文本,共6 000條,再將總文本按照3∶1的比例進行訓(xùn)練集和測試集的劃分,即訓(xùn)練集4 500條、測試集1 500條。

      3.2 評價指標(biāo)

      本文研究的問題屬于文本分類問題,分類問題常用的評價指標(biāo)有精確率P、召回率R和F1值,計算過程中需要用到混淆矩陣,見表2。

      表2 混淆矩陣Tab.2 Confusion matrix

      但是以上定義都是針對某一個類別yi,為了全局評價多類別的分類效果,本文使用宏平均(macro-averaging)來綜合所有類別的F1值[15]。宏平均指的是每一個類別的F1值的算術(shù)平均值[18],假設(shè)|c|為樣本所屬的類別總數(shù),計算公式為

      (8)

      3.3 實驗過程與結(jié)果分析

      為了和本文提出的基于CHI-PCA混合特征降維方法作對比,本文選擇了傳統(tǒng)特征降維方法DF,IG,CHI以及PCA方法進行實驗,為了證明結(jié)果可靠性,實驗先后選擇了3種分類器,分別是Softmax回歸(softmax regression)[24]、SVM分類[25]和K近鄰(K-nearest neighbor, KNN)分類。根據(jù)第2.3節(jié)中介紹的方法流程,實驗過程如下。

      步驟1針對4 500條訓(xùn)練樣本進行數(shù)據(jù)清洗,并進行中文文本分詞,分詞工具使用的是jieba分詞,實驗共提取了96 221個初始特征詞;

      步驟2利用CHI方法依次計算每個特征詞對應(yīng)的CHI值,關(guān)于特征詞個數(shù)k的選擇, 根據(jù)第2.2節(jié)中介紹以及步驟1知,最佳選擇為1 924≤k≤4 811,根據(jù)此范圍,本文共設(shè)計了不同特征維度的實驗,分別取k=2 000,2 400,3 000,3 600,4 200,4 800,根據(jù)不同維度的特征詞分別將訓(xùn)練樣本表示成TF-IDF特征矩陣;

      步驟3利用PCA方法分別針對步驟2中的特征矩陣進行二次降維,選擇CPV≥85%時的整數(shù)p值作為主成分的個數(shù),分別是p=1 177,1 355,1 586,1 794,1 976,2 133,根據(jù)第2.3節(jié)中介紹的特征變換公式,得到不同特征維度下降維后的新數(shù)據(jù)矩陣。

      針對CHI-PCA方法,需依次完成上述3個步驟,再分別使用Softmax回歸、SVM分類和KNN分類進行訓(xùn)練,這3種分類器的實現(xiàn)均是基于python 3中sklearn模塊實現(xiàn)的。SVM分類器采用的是線性核函數(shù)[26],懲罰因子C使用的是網(wǎng)格搜索方法[27]來確定的,本文展示的實驗結(jié)果均是實驗中最優(yōu)參數(shù)C下的分類結(jié)果。KNN分類算法中k值采用的是交叉驗證方法選擇的。對比實驗中,分類器的參數(shù)選擇和上文保持一致。為了從全局評價多類別的分類效果,圖1—圖3的評價指標(biāo)使用的是F1的宏平均值,展示了在不同特征維度下DF,IG,CHI以及CHI-PCA方法結(jié)合3種分類器的實驗結(jié)果。

      圖1 使用Softmax回歸的實驗結(jié)果對比Fig.1 Comparison of experimental results using Softmax regression

      圖2 使用SVM分類的實驗結(jié)果對比Fig.2 Comparison of experimental results using SVM classification

      可知,在不同特征維度下,CHI-PCA方法的實驗效果整體上優(yōu)于其他3種方法。圖1中,當(dāng)使用Softmax回歸分類器時,CHI-PCA方法的F1宏平均值相比DF,IG和CHI方法分別平均高出1.3%,0.4%和0.1%;圖2中,當(dāng)使用SVM分類器時,CHI-PCA方法的F1宏平均值相比DF,IG和CHI方法分別平均高出1.5%,0.5%和0.3%;圖3中,當(dāng)使用KNN分類器時,CHI-PCA方法的F1宏平均值相比DF,IG和CHI方法分別平均高出2.7%,1.3%和0.7%。因此,CHI-PCA方法提取的特征對于本文實驗中所使用的3種分類器的分類性能均有所提升。

      圖3 使用KNN分類的實驗結(jié)果對比Fig.3 Comparison of experimental results using KNN classification

      在特征維度為2 000時,CHI-PCA方法的F1宏平均值相比DF方法提升最多,特別是在圖3中使用KNN分類器時,前者為0.898,后者為0.865,提升了3.3%,圖2中提升了2%,圖1中提升了1.4%,說明在特征維度較低時,CHI-PCA方法選擇出的特征比DF方法選擇出的特征質(zhì)量更高。

      在特征維度為4 200時,CHI-PCA方法的整體分類效果達到最優(yōu),比如圖1—圖3中的F1宏平均值分別為0.931,0.933和0.911,但當(dāng)維度繼續(xù)增加達到4 800時,分類效果略微下降或者持平,F(xiàn)1宏平均值分別為0.93,0.933和0.907,說明此時特征之間存在冗余,維度的增加不能對分類效果有很好的提升。

      為了更進一步驗證本文所提方法在每個類別上的分類效果,下面選擇在最佳特征維度4 200時,分別展示CHI-PCA方法以及DF,IG和CHI方法在各個類別上的F1值。此外,還加入了PCA方法進行對比,按照CPV≥85%準(zhǔn)則,降維后特征維度是3 646,隨后將矩陣分別輸入3種分類器,參數(shù)選擇方法和上文保持一致。結(jié)果見表3—表5。

      表3 使用Softmax回歸的各個類別的效果對比Tab.3 Comparison of the effects of various categories using Softmax regression

      表4 使用SVM分類的各個類別的效果對比Tab.4 Comparison of the effects of various categories classified by SVM

      表5 使用KNN分類的各個類別的效果對比Tab.5 Comparison of the effects of various categories using KNN classification

      從表3—表5可知,5種方法均在體育類別上F1值達到最高,而在IT和財經(jīng)類別上的分類性能欠佳,原因是語料庫中體育類別含有的特征詞更具有類別區(qū)分度,使得分類效果更好。

      由表3知,在使用Softmax回歸分類器時,CHI-PCA方法在IT、教育和財經(jīng)類別上的F1值均高于其他4種方法,最高提升了3.1%;表4中,CHI-PCA方法在所有類別上的F1值都高于DF方法,最高提升了3.2%;表5中,CHI-PCA方法在IT、體育、娛樂、汽車和財經(jīng)5個類別上的F1值均高于其他4種方法在相應(yīng)類別上的F1值,最高高出4.9%。這說明了CHI-PCA方法在各個類別上的分類性能也是可觀的。

      此外,由表3—表5可得,PCA方法在3種分類器下的F1宏平均值,即所有類別F1值的平均值分別為0.919,0.931和0.905,而CHI-PCA方法的F1宏平均值分別為0.931,0.933和0.911,可以看出,相比于PCA方法,CHI-PCA方法在整體上也表現(xiàn)出了更好的分類性能。

      4 結(jié)束語

      本文在解決中文文本分類特征降維的問題中,考慮CHI方法特征選擇后的特征仍有可能存在相關(guān)性,因此,使用PCA方法對CHI方法特征選擇后的特征空間進行二次降維,提出了一種基于CHI-PCA的混合特征降維方法。實驗結(jié)果表明,在不同特征維度下,CHI-PCA方法實驗效果整體上優(yōu)于DF,IG,CHI和PCA方法,在各個類別上的分類性能也是可觀的。本文所提方法說明了兩階段的CHI-PCA特征降維方法是可行的,不僅滿足了特征降維的需求,還提高了分類性能。本文所提方法不足在于未考慮類別特征詞的平衡性,當(dāng)某些類別特征詞個數(shù)較少時會導(dǎo)致該類別分類性能下降,這將是下一步的研究方向。另外,分類方法與語言的不同是否有關(guān)聯(lián)性,以及與文獻[8]的比較,也將作為下一步的研究方向和內(nèi)容。

      猜你喜歡
      特征詞特征選擇降維
      混動成為降維打擊的實力 東風(fēng)風(fēng)神皓極
      車主之友(2022年4期)2022-08-27 00:57:12
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      基于改進TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      面向文本分類的特征詞選取方法研究與改進
      拋物化Navier-Stokes方程的降維仿真模型
      計算物理(2014年1期)2014-03-11 17:00:18
      基于特征聯(lián)合和偏最小二乘降維的手勢識別
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      揭阳市| 始兴县| 安仁县| 徐闻县| 东方市| 饶平县| 涿州市| 鲜城| 菏泽市| 垦利县| 固镇县| 开平市| 南昌市| 洞口县| 平塘县| 元朗区| 山丹县| 莫力| 嘉义市| 扎鲁特旗| 松江区| 如东县| 蒙阴县| 湖州市| 德兴市| 望江县| 呼玛县| 英超| 庄河市| 富阳市| 辽宁省| 景洪市| 开化县| 特克斯县| 东安县| 乌拉特前旗| 东乡族自治县| 平谷区| 昭苏县| 高青县| 铁力市|