• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      Mixed-Fisher特征云模型聚類在文本情感分類中的應(yīng)用*

      2016-09-20 09:00:48邢玉娟
      計(jì)算機(jī)與生活 2016年9期
      關(guān)鍵詞:文檔準(zhǔn)確率聚類

      邢玉娟,郭 顯,譚 萍,李 明

      1.蘭州文理學(xué)院 數(shù)字媒體學(xué)院,蘭州 7300002.蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050

      Mixed-Fisher特征云模型聚類在文本情感分類中的應(yīng)用*

      邢玉娟1+,郭顯2,譚萍1,李明2

      1.蘭州文理學(xué)院 數(shù)字媒體學(xué)院,蘭州 730000
      2.蘭州理工大學(xué) 計(jì)算機(jī)與通信學(xué)院,蘭州 730050

      海量網(wǎng)絡(luò)信息的出現(xiàn),使得提取文本信息情感觀點(diǎn)成為研究的熱點(diǎn)。針對文本情感分類中文本信息模糊及分類準(zhǔn)確率低的問題,提出了一種基于Mixed-Fisher特征選擇的文本云向量模型聚類算法。該算法首先分別計(jì)算文檔中各個(gè)詞性特征項(xiàng)的Fisher判別比,根據(jù)Fisher判別比越大特征向量判別性越強(qiáng)的Fisher準(zhǔn)則,選擇Fisher比值較大的前q個(gè)特征,并按照詞性進(jìn)行組合生成文檔的Mixed-Fisher特征向量。然后在Mixed-Fisher特征向量集上構(gòu)建文檔的云向量模型,根據(jù)云向量模型間的差異度對模型進(jìn)行聚類和合并。將該算法應(yīng)用于文本情感觀點(diǎn)的分類,選擇核Fisher判別技術(shù)用于最終文本觀點(diǎn)的判定。仿真實(shí)驗(yàn)結(jié)果表明,基于Mixed-Fisher特征的云向量聚類模型的分類準(zhǔn)確率明顯優(yōu)于傳統(tǒng)向量空間模型,從而驗(yàn)證了核Fisher判別技術(shù)的有效性。

      文本情感分類;Fisher判別比;詞性特征;云向量模型;核Fisher判別

      1 引言

      互聯(lián)網(wǎng)的出現(xiàn)改變了人類表達(dá)觀點(diǎn)的方式,用戶多以博客、微博、論壇等作為表達(dá)個(gè)人觀點(diǎn)和愛好的平臺。隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,用戶的評論資源也在飛速地增加。作為文本傾向性分析和挖掘基礎(chǔ)工作的文本情感分類,是在海量的網(wǎng)絡(luò)評論資源中,對用戶所表達(dá)的觀點(diǎn)(肯定或否定)進(jìn)行判定的過程,在電影評論、產(chǎn)品質(zhì)量與服務(wù)評價(jià)、社會輿情分析、有害信息過濾、Blog評價(jià)、新聞報(bào)道評述、股票評論、圖書推薦、敵對信息檢測等領(lǐng)域具有廣闊的應(yīng)用前景和市場價(jià)值[1-2]。在文本情感分類中有效情感關(guān)鍵信息的提取以及判決技術(shù)的選擇是關(guān)鍵,直接影響到情感分類的準(zhǔn)確率。

      Salton等人[3]提出的向量空間模型(vector space model,VSM)為文本情感分類技術(shù)的研究開辟了新的途徑。隨著VSM的提出,多種機(jī)器學(xué)習(xí)算法,如支持向量機(jī)(support vector machine,SVM)、經(jīng)典樸素貝葉斯(na?ve Bayes,NB)、最大熵(maximum entropy,ME)和人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)等廣泛地應(yīng)用于文本情感分類領(lǐng)域。文獻(xiàn)[4]采用NB和ME對新聞及評論文本的情感觀點(diǎn)進(jìn)行判定,實(shí)驗(yàn)結(jié)果驗(yàn)證了兩種機(jī)器學(xué)習(xí)方法的有效性,并指出具有正負(fù)面情感語義傾向的詞語以及特征項(xiàng)權(quán)重對文本的分類性能具有重要的作用。文獻(xiàn)[5]在基于“詞-文檔”的語義距離向量空間上,采用SVM進(jìn)行文檔情感極性的分類,在測試Web語料集上的分類準(zhǔn)確率接近88%。Chen等人[6]將神經(jīng)網(wǎng)絡(luò)應(yīng)用于商業(yè)博客產(chǎn)品評論觀點(diǎn)的判定,獲得了良好的實(shí)驗(yàn)結(jié)果。以上多種機(jī)器學(xué)習(xí)分類算法的應(yīng)用都是基于文檔的VSM,將文檔映射為一高維的特征向量進(jìn)行處理。然而,文檔的初始特征向量具有驚人的維數(shù),使得判定算法計(jì)算復(fù)雜度較高,因此特征向量的約簡處理是文本挖掘中必不可少的環(huán)節(jié)。同時(shí),在文檔的原始特征集上,剔除與分類無關(guān)的冗余、噪聲信息,可以大大地提高機(jī)器學(xué)習(xí)的精度和速度。

      目前,特征選擇的方法大多基于對特征貢獻(xiàn)的獨(dú)立評估,選取評估值最大的預(yù)定數(shù)目的特征作為最終特征子集。常用的評估特征分類貢獻(xiàn)量的方法主要有信息增益(information gain,IG),期望交叉熵(expected cross entropy,ECE),互信息(mutual information,MI)等。Wang等人[7]提出了一種基于改進(jìn)的Fisher判別比的文本特征選擇方法,通過計(jì)算文本特征詞頻的Fisher判別比來衡量特征項(xiàng)的貢獻(xiàn)程度。實(shí)驗(yàn)結(jié)果表明,基于詞頻的Fisher比特征選擇具有較高的分類準(zhǔn)確率,然而在該文獻(xiàn)中只采用布爾值和詞頻計(jì)算特征的權(quán)值,忽略了特征項(xiàng)在整體文檔集上所具有的重要性。

      同時(shí),文本信息的模糊性和隨機(jī)性,同樣也會影響文本情感觀點(diǎn)的判決[8]。如人類對氣溫、味道、天氣、顏色等的描述,以及語句中出現(xiàn)的“可能”、“也許”等詞都具有模糊性和隨機(jī)性。如何將這些定性的語言值概念表示轉(zhuǎn)換為定量的描述,是自然語言處理的難題。李德毅院士針對信息的模糊性和隨機(jī)性,提出云模型概念[9-11],用于表示不確定因素,被廣泛地應(yīng)用于數(shù)據(jù)挖掘和智能控制等方面。文獻(xiàn)[12]提出一種基于云模型的模糊混合量子人工免疫聚類算法,用于解決數(shù)據(jù)隨機(jī)性問題。文獻(xiàn)[13]采用云模型構(gòu)造詞的區(qū)間值精簡表示模型,該模型具有計(jì)算復(fù)雜度低且存儲空間小的優(yōu)點(diǎn)。文獻(xiàn)[14]將云模型理論應(yīng)用于軟件可靠性的度量。文獻(xiàn)[15]在監(jiān)控系統(tǒng)中采用云模型理論將影響系統(tǒng)的可靠性因子轉(zhuǎn)換為環(huán)境因子,構(gòu)建了一種新的可靠性預(yù)判方法。文獻(xiàn)[16]利用云模型中云滴的分布對不確定性數(shù)據(jù)建模,并通過云綜合與云相似度計(jì)算來實(shí)現(xiàn)不確定性數(shù)據(jù)的分類?;谠颇P驮诿枋鰯?shù)據(jù)模糊性和隨機(jī)性方面的優(yōu)勢,研究者將其推廣到文本情感分類領(lǐng)域。Sui等人[17]提出基于云模型的用戶網(wǎng)絡(luò)評論情感傾向性對比判定算法,采用云模型計(jì)算文本的情感傾向性特征向量,并根據(jù)云模型向量間的最鄰近距離判定情感傾向性,獲得了較好的實(shí)驗(yàn)結(jié)果。文獻(xiàn)[18]利用云模型對文本情感詞進(jìn)行定性定量表示的轉(zhuǎn)換,并根據(jù)正態(tài)云模型的逆向云算法構(gòu)建情感分類器。仿真實(shí)驗(yàn)結(jié)果表明,該算法可以有效地處理語言值概念本身的模糊性和隨機(jī)性,使得情感分類準(zhǔn)確率提高了9%。

      在以上研究工作的啟發(fā)下,本文提出了一種基于Mixed-Fisher特征選擇的文本云向量模型聚類算法,在保證特征向量高判別性的情況下,對文檔的特征向量在維度和規(guī)模上進(jìn)行了約簡,同時(shí)解決了文本數(shù)據(jù)的不確定性問題。由于核Fisher判別(kernel Fisher discriminant,KFD)方法在求解中使用了所有的訓(xùn)練樣本而不僅僅是一些特殊樣本即“支持向量”,KFD的性能在某些方面優(yōu)于SVM[18],因此本文選擇KFD判定文檔觀點(diǎn)。

      2 相關(guān)研究基礎(chǔ)

      2.1向量空間模型

      向量空間模型[3]是基于統(tǒng)計(jì)的文本表示模型,將文本文檔映射為高維空間中的一個(gè)向量,文檔的每一個(gè)特征項(xiàng)對應(yīng)向量的一維,而每一維的權(quán)值表示該特征項(xiàng)在文本中的重要程度。假設(shè)文檔集D={D1,D2,…,DN},N表示文檔集中文本的篇數(shù),Di表示第i篇文本,則采用向量空間模型可將Di數(shù)字化表示為向量矩陣di=(w1,i,w2,i,…,wn,i),其中wji(j=1, 2,…,n)表示文檔Di中出現(xiàn)特征項(xiàng)tj的權(quán)重,n表示特征項(xiàng)的個(gè)數(shù)。權(quán)重值的計(jì)算方法主要有二值(binary)法、絕對詞頻(term frequency,TF)法、逆文檔頻率(inversedocument frequency,IDF)法和詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)法。

      (1)二值法

      二值法是最簡單的權(quán)重計(jì)算方法,如果文檔中出現(xiàn)詞tj,其權(quán)重為1,否則為0。

      (2)TF

      TF統(tǒng)計(jì)特征項(xiàng)tj在文檔Di中出現(xiàn)的次數(shù),是一種局部文本信息加權(quán)方法。計(jì)算公式為:

      其中,N表示文檔集的數(shù)目;nj表示文檔集中特征項(xiàng)tj出現(xiàn)的文檔數(shù)。

      (4)TF-IDF

      TF-IDF將詞頻法和逆文檔頻率法相結(jié)合,同時(shí)考慮到特征項(xiàng)的局部和全局的重要程度,因此該方法是目前使用最廣泛的權(quán)重計(jì)算方法。計(jì)算公式如下:

      IDF是一種全局信息特征加權(quán)方法,通過計(jì)算特征在不同文檔中出現(xiàn)的次數(shù),來衡量其重要程度,即特征同時(shí)出現(xiàn)在多個(gè)文檔中,其分類貢獻(xiàn)較低。計(jì)算公式如下:

      其中,freqji表示特征項(xiàng)tj在文檔Di中出現(xiàn)的次數(shù);|Di|表示文檔Di中特征項(xiàng)的數(shù)目。

      2.2云模型

      云模型是在概率論與模糊集的基礎(chǔ)上提出的一種定性定量轉(zhuǎn)換模型。假設(shè)U是精確數(shù)值表示的定量論域,C是U上的定性表示。若定量值x∈U是定性表示C的某次隨機(jī)實(shí)現(xiàn),則穩(wěn)定傾向隨機(jī)數(shù)μ(x)∈[0,1]是x對C的確定度,x在U上的分布稱為云C(X),而每一個(gè)x稱為云滴。若U是一個(gè)n維空間,則可將其延伸至n維云。

      云概念的整體性可通過云的期望值Ex、熵En和超熵He來表示,記為云向量C(Ex,En,He)。期望值Ex表示云滴x在論域U上分布的期望,是定性概念量化后的樣本點(diǎn);熵En反應(yīng)了云滴樣本的離散程度和范圍;超熵He用于度量En的不確定性,反應(yīng)云的厚度和離散度。定性概念“青年”的云模型例子如圖1所示[19]。文獻(xiàn)[18]以打靶為例詳細(xì)闡述了云模型的定量數(shù)據(jù)到定性概念的轉(zhuǎn)換過程。

      Fig.1 Cloud model of youth圖1“青年”云模型

      云模型的建立算法主要分為正向云算法和逆向云算法。正向云算法主要實(shí)現(xiàn)定性概念到定量數(shù)據(jù)的映射,而逆向云算法主要實(shí)現(xiàn)定量數(shù)據(jù)到定性概念的轉(zhuǎn)換。本文主要用到的是逆向云算法,其算法步驟如下:

      輸入:論域U上云滴xi(i=1,2,…,n,其中n是云滴的數(shù)量)。

      輸出:云向量C(Ex,En,He)。

      3 基于Mixed-Fisher特征選擇的文本云向量模型聚類算法

      為了選擇高判別性的文本特征,提高文本情感觀點(diǎn)判定的準(zhǔn)確率,本文提出了基于Mixed-Fisher特征選擇的文本云向量聚類算法,算法流程如圖2所示。

      Fig.2 Flow chart of Mixed-Fisher cloud vector clustering圖2 Mixed-Fisher特征云向量模型聚類流程圖

      3.1Mixed-Fisher特征選擇

      文本的詞性特征如名詞(N)、動(dòng)詞(V)、形容詞(A)、副詞(D)、代詞(R)、介詞(P)、成語(I)、習(xí)慣語(L)和連詞(C)等,以其出色的多義詞匯消岐特性,廣泛地應(yīng)用于情感分析和觀點(diǎn)挖掘。若選擇所有的詞性特征作為候選特征,將會導(dǎo)致文檔數(shù)字模型高維度的問題,不利于后續(xù)分類模型的訓(xùn)練。在文本的詞性中,名詞(N)表示語句主體,副詞(D)可以直接決定語子的情感態(tài)度,形容詞(A)的作用是對描述對象的評價(jià),這3種詞性具有較強(qiáng)的情感色彩,因此本文只選擇名詞、形容詞和副詞。將詞性組合“N+D+A”定義為一類特征,標(biāo)記為 f1;“D+A”定義為二類特征,標(biāo)記為 f2;“A”定義為三類特征,標(biāo)記為 f3。通過權(quán)重函數(shù)分別計(jì)算名詞(N)、副詞(D)、形容詞(A)的權(quán)重值,根據(jù)這3種詞性權(quán)重值的組合將文檔集數(shù)字化為原始輸入特征向量集。由于這3類特征在文檔中出現(xiàn)的次數(shù)較多,使得特征空間具有較高的維度。在Wang[7]提出的特征選擇算法中,特征項(xiàng)權(quán)重的計(jì)算基于二值法和詞頻法。然而,二值法只考慮特征項(xiàng)是否在文檔中出現(xiàn),詞頻法只計(jì)算特征項(xiàng)在文檔中出現(xiàn)的次數(shù),過度依賴高頻特征,從而忽略一些帶有大量類別信息的低頻特征。同時(shí)這兩種計(jì)算方法都是基于文檔的局部信息,忽略了特征項(xiàng)在文檔集上的全局分布信息。為了更好地選擇高判別性特征詞并對其加權(quán),本文提出基于TF-IDF法的Mixed-Fisher特征選擇方法。

      將式(6)、(7)、(8)和(9)帶入式(5)可得:

      中出現(xiàn)的全局頻率。對于特征項(xiàng)tk來說,E(tk|P)和在式(10)中,特征項(xiàng)tk的F(tk)值越大,表明該特征項(xiàng)對分類的貢獻(xiàn)越大,因此可根據(jù)該公式分別對文檔集中名詞(N)、形容詞(A)和副詞(D)的TF-IDF權(quán)重值計(jì)算其Fisher判別比值,并由大到小排序,選擇值最大的前q個(gè)特征項(xiàng)構(gòu)建文檔特征向量,將詞性組合 f1構(gòu)成的混合Fisher(Mixed-Fisher)特征記為,將 f2構(gòu)成的Mixed-Fisher特征記為,基于 f3的Mixed-Fisher特征記為。式(10)的時(shí)間復(fù)雜度為O(m+n)。

      3.2云向量模型生成

      將每個(gè)文檔的特征項(xiàng)當(dāng)作云滴,則根據(jù)逆向云算法計(jì)算Di的3個(gè)數(shù)字特征:

      根據(jù)式(11)、(12)、(13)和(14),文檔Di可以表示為云向量Ci=(Edi,Eni,Hei),則文檔集D數(shù)字化為云向量模型(cloud vector model,CVM)集合C={C1, C2,…,CN}。

      3.3聚類

      在VSM中,向量間的余弦值用于度量文本間的差異程度,文中將該差異度度量推廣至CVM,則文檔Di和Dj之間的差異度度量公式如下所示:

      由于文檔集中文檔數(shù)量較大且存在相似文檔,影響后續(xù)分類算法的計(jì)算復(fù)雜度,本文受到K均值聚類算法的啟發(fā),將文檔CVM間的余弦值作為閾值,設(shè)計(jì)如下CVM聚類算法。

      步驟1設(shè)定類別數(shù)為K,隨機(jī)指定K個(gè)文檔初始化聚類中心,Rs=0(s=1,2,…,K)用于記錄當(dāng)前類別s中聚類的文檔數(shù)目。

      步驟2根據(jù)式(15)計(jì)算文檔云向量Ci(i=1,2,…, N)和聚類中心向量Cs(s=1,2,…,K)之間的差異度。

      步驟3將與當(dāng)前聚類中心差異度最小的文檔云模型向量劃分到當(dāng)前的類中,Rs=Rs+1,重新計(jì)算文檔聚類中心云向量Cs。

      步驟4重復(fù)執(zhí)行步驟2和步驟3,直到聚類中心云向量不再變化為止。

      在上述算法中,文檔云模型與聚類中心模型的合并是關(guān)鍵[20]。假定將云模型Ci=(Edi,Eni,Hei)合并到聚類中心模型Cs=(Eds,Ens,Hes),成為新的聚類中心云模型Csn=(Edsn,Ensn,Hesn),模型合并計(jì)算公式如下:

      4 文本觀點(diǎn)判定

      KFD在Fisher線性判別(Fisher linear discriminant,F(xiàn)LD)的基礎(chǔ)上,通過非線性映射Φ將原始特征空間映射到一個(gè)新的特征空間H,在新的特征空間根據(jù)最大化類間離散度最小化類內(nèi)離散度的準(zhǔn)則,確定特征向量的投影方向,使各類之間最大程度地分離,從而達(dá)到正確的分類。經(jīng)過上述的特征選擇及模型聚類,假設(shè)原N個(gè)文檔CVM聚類為K個(gè)C={C1,C2,…,CK},Cs=(Eds,Ens,Hes),s=1,2,…,K,表示第s個(gè)云向量,R1={K1個(gè)肯定觀點(diǎn)文檔云向量},R2= {K2個(gè)否定觀點(diǎn)文檔云向量},K1+K2=K。

      在空間H中,目標(biāo)函數(shù)可定義為:

      求解式(20)即可得到測試云向量Φ(C)的最佳投影方向。最后采用式(21)判斷文本觀點(diǎn)(正面/負(fù)面)。

      5 仿真實(shí)驗(yàn)與分析

      5.1語料庫及預(yù)處理

      仿真實(shí)驗(yàn)采用中國科學(xué)院計(jì)算技術(shù)研究所譚松波博士提供的中文文本情感分析語料庫[21]。基于該語料庫中的酒店評論數(shù)據(jù),隨機(jī)選取數(shù)據(jù)中正面和負(fù)面評論各1 200篇,總共2 400篇評論用于模型的訓(xùn)練,選取1 600篇用于測試。實(shí)驗(yàn)樣本信息如表1所示。

      Table 1 Experimental samples表1 實(shí)驗(yàn)樣本信息

      采用ICTCLAS漢語分析系統(tǒng)對所有的語料文本進(jìn)行分詞,標(biāo)記詞性。本文不考慮標(biāo)點(diǎn)符號和助詞如“的”對語料情感的影響,將其去除。常見的語義傾向詞的表示如表2所示。

      5.2實(shí)驗(yàn)結(jié)果及對比分析

      實(shí)驗(yàn)結(jié)果以分類準(zhǔn)確率、正面查準(zhǔn)率(PP)、正面召回率(RP)、負(fù)面查準(zhǔn)率(PN)、負(fù)面召回率(RN)、正面綜合準(zhǔn)確率(FP)和負(fù)面綜合準(zhǔn)確率(FN)為評價(jià)指標(biāo)。為了提高實(shí)驗(yàn)結(jié)果的可靠性,以5階交叉檢驗(yàn)的方法對測試結(jié)果進(jìn)行統(tǒng)計(jì),5次統(tǒng)計(jì)結(jié)果的平均值作為最終分類結(jié)果。系統(tǒng)框圖如圖3所示。

      Table 2 Presentation of common part of speech表2 常見詞性標(biāo)記表示

      實(shí)驗(yàn)1詞性特征組合分析比較。

      由于不同的詞性對分類性能的影響不同,本實(shí)驗(yàn)將不同的詞性組合特征應(yīng)用于KFD、傳統(tǒng)SVM和經(jīng)典樸素貝葉斯方法中,以測試詞性特征組合對分類準(zhǔn)確率的影響,特征項(xiàng)權(quán)重計(jì)算采用TF-IDF法,實(shí)驗(yàn)結(jié)果如表3和圖4所示。

      由表3中的實(shí)驗(yàn)數(shù)據(jù)可知,在3種特征組合中“D+A”的性能最佳,且其特征維數(shù)遠(yuǎn)遠(yuǎn)小于“N+D+A”組合特征。“A”特征雖然維數(shù)較低,但是其數(shù)量太少,且其語義傾向一般和名詞共同體現(xiàn),或與不同的名詞體現(xiàn)不同的語義傾向,因此導(dǎo)致分類準(zhǔn)確率低。在3種分類算法中,KFD的分類準(zhǔn)確率最高。在“D+A”特征組合中,KFD分類準(zhǔn)確率達(dá)到89.31%,比SVM的分類準(zhǔn)確率高10.12%。主要由于KFD在訓(xùn)練過程中采用所有的特征參數(shù)而不是部分“支持向量”,其分類性能優(yōu)于SVM。同時(shí)KFD和NB算法相比,在最優(yōu)特征組合“D+A”中,分類準(zhǔn)確率提高23.75%。在其他詞性特征組合中KFD的分類準(zhǔn)確率同樣優(yōu)于其他算法。

      Fig.3 Text sentiment classification system based on Mixed-Fisher cloud vector clustering圖3 基于Mixed-Fisher特征云向量模型聚類的文本情感分類系統(tǒng)

      Table 3 Performance comparison of different part of speech combinations表3 不同詞性組合和分類算法性能比較

      Table 4 Performance comparison of 3 Fisher feature selection algorithms表43種Fisher特征選擇算法性能比較 %

      Fig.4 Comparison of different part of speech combinations圖4 不同詞性組合和分類算法性能比較

      實(shí)驗(yàn)2 Fisher特征選擇性能分析。

      該實(shí)驗(yàn)采用Fisher準(zhǔn)則提取低維高判別性TFIDF特征(記為tTF-IDF)。首先將其與文獻(xiàn)[6]提出的基于二值法的Fisher特征(記為tBinary)和基于詞頻法的Fisher特征(記為tTF)進(jìn)行對比分析,測試本文提出的Fisher特征選擇算法的性能,實(shí)驗(yàn)結(jié)果如表4所示。緊接著,將tTF-IDF與原始TF-IDF特征(記為tOriginal)進(jìn)行對比,測試Fisher特征選擇算法的降維性能,實(shí)驗(yàn)結(jié)果如表5所示。

      Table 5 Performance testing of proposed Fisher feature selection algorithm in this paper表5 本文Fisher特征選擇算法降維性能測試

      在表4中,tTF-IDF的各項(xiàng)性能指標(biāo)均優(yōu)于文獻(xiàn)[6]提出的兩種Fisher特征選擇算法。表5數(shù)據(jù)顯示本文提出的特征選擇算法的分類準(zhǔn)確率相比于原始TF-IDF特征提高將近10個(gè)百分點(diǎn),且文檔特征的維數(shù)降低52.27%。因此本文算法不僅具有較好的分類性能,同時(shí)具有顯著的降維特性。

      實(shí)驗(yàn)3 Mix-Fisher特征分析比較。

      由實(shí)驗(yàn)1可知,KFD具有良好的分類性能,然而隨著訓(xùn)練樣本數(shù)量增大以及特征項(xiàng)維數(shù)的增加,會導(dǎo)致KFD陷入高計(jì)算復(fù)雜度的問題,因此在混合詞性特征組合的基礎(chǔ)上采用Fisher判別準(zhǔn)則對文檔的特征向量進(jìn)行選擇,盡可能提取對分類貢獻(xiàn)大的特征作為輸入特征。本實(shí)驗(yàn)主要測試本文提出的Mixed-Fisher特征的性能,分類算法采用KFD,實(shí)驗(yàn)結(jié)果如表6所示。

      Table 6 Performance comparison of Mixed-Fisher features表6Mixed-Fisher特征性能比較 %

      實(shí)驗(yàn)4聚類算法性能分析比較。

      該實(shí)驗(yàn)將CVM和VSM分別應(yīng)用于本文提出的聚類算法(特征參數(shù)選擇),在分類準(zhǔn)確率和分類時(shí)間T上對二者的性能進(jìn)行對比分析,以測試本文提出的聚類算法的性能。實(shí)驗(yàn)結(jié)果如表7所示。

      Table 7 Performance comparison of clustering algorithms表7 聚類性能比較

      由表7可知,CVM和VSM的分類準(zhǔn)確率在聚類數(shù)目K=1 500時(shí)均達(dá)到最優(yōu),CVM的分類準(zhǔn)確率為94.75%,相比于VSM提高3.19%。主要因?yàn)镃VM模型考慮到文本信息的模糊性和隨機(jī)性,所以具有較高的分類準(zhǔn)確率。同時(shí),隨著聚類數(shù)目的減少,訓(xùn)練樣本數(shù)據(jù)會隨之減少,出現(xiàn)訓(xùn)練數(shù)據(jù)“不足”的問題,影響KFD模型的訓(xùn)練,導(dǎo)致分類準(zhǔn)確率的下降。然而,隨著聚類數(shù)目的增加,輸入樣本數(shù)據(jù)也隨之增加,進(jìn)而同樣會影響KFD的建模及訓(xùn)練速度。并且用于訓(xùn)練的2 400篇文本聚類為1 500篇,數(shù)目約簡率為37.5%。因此,云向量模型聚類(cloudvectormodel cluster,CVMC)算法不僅具有較高的分類性能,同時(shí)可以有效地節(jié)約存儲空間,降低KFD的計(jì)算復(fù)雜度。圖5為CVM和VSM在不同聚類數(shù)目下的分類準(zhǔn)確率比較。

      Fig.5 Classification accuracy curve of CVM and VSM圖5CVM和VSM聚類分類準(zhǔn)確率曲線比較

      在分類時(shí)間方面,隨著聚類數(shù)目的遞減,輸入樣本數(shù)據(jù)隨之減少,使得CVM和VSM的分類時(shí)間也都隨之降低。由于VSM的計(jì)算復(fù)雜度低于CVM,在K=2 400,K=2 000和K=1 800時(shí),VSM的分類時(shí)間略低于CVM。然而,隨著樣本數(shù)的減少,CVM和VSM建模復(fù)雜度的差異越來越小,當(dāng)K=1 500時(shí),CVM的分類時(shí)間為2 106 ms,反而比VSM減少97 ms。圖6為兩種模型在分類時(shí)間方面的比較。

      Fig.6 Classification time curve of CVM and VSM圖6CVM和VSM分類時(shí)間比較

      當(dāng)K=1 500時(shí),CVM和VSM的性能相比于K= 2 400(未聚類)時(shí)都有顯著的提高,分類準(zhǔn)確率分別提高7.00%和6.06%,同時(shí)分類時(shí)間分別降低2.998 s 和2.578 s。主要是因?yàn)榻?jīng)過聚類和Fisher混合特征的選擇,有效地縮小了未聚類前輸入文檔特征向量規(guī)模,并減少了噪聲樣本數(shù)量,且云向量模型可以抑制模糊文本數(shù)據(jù)對分類的影響。因此本文提出的聚類算法是高效的、可行的。

      實(shí)驗(yàn)5特征詞數(shù)量對聚類算法的影響。

      本實(shí)驗(yàn)測試數(shù)據(jù)集中特征詞數(shù)目變化對本文聚類算法的影響。設(shè)置聚類數(shù)目K=1 500,采用KFD判定最終觀點(diǎn)。實(shí)驗(yàn)結(jié)果如圖7所示。

      Fig.7 Influence on the number of features to classification accuracy圖7 特征詞數(shù)量對分類準(zhǔn)確率的影響

      在圖7中,當(dāng)特征詞數(shù)目在2 000~600之間時(shí),分類準(zhǔn)確率呈上升趨勢,直到特征詞數(shù)目為600時(shí),聚類算法的分類準(zhǔn)確率達(dá)到最高,緊接著隨著特征詞數(shù)目的減少,分類準(zhǔn)確率也隨之減少。因此,在酒店評論數(shù)據(jù)15 000個(gè)特征詞中,真正對分類有用的特征詞只有600個(gè)左右。

      6 結(jié)束語

      本文提出了一種基于Mixed-Fisher特征選擇的云向量模型聚類算法,應(yīng)用于文本情感分類。選擇情感色彩較強(qiáng)的名詞、形容詞、副詞的不同組合構(gòu)成候選特征集。利用TF-IDF表現(xiàn)特征項(xiàng)全局分布信息的優(yōu)勢,對特征項(xiàng)加權(quán)并采用Fisher準(zhǔn)則選擇高判別性特征,構(gòu)建Mixed-Fisher特征集。借助于云模型處理文本不確定性的特性,將Mixed-Fisher特征集中的每個(gè)特征項(xiàng)作為一個(gè)云滴,采用逆向云算法建立文檔的云向量模型,并根據(jù)模型之間的差異度,對相似文檔進(jìn)行聚類。該算法中的特征選擇和聚類有效地減少了文檔云向量的維度和數(shù)量,解決了KFD在大規(guī)模數(shù)據(jù)下訓(xùn)練速度慢的問題。實(shí)驗(yàn)結(jié)果表明,本文算法的分類準(zhǔn)確率為94.75%,明顯優(yōu)于向量空間模型,且特征選擇算法以及詞性的選擇對系統(tǒng)的分類準(zhǔn)確率影響較大。其中由于形容詞和副詞對情感傾向性的影響較大,使得基于該組合提取的特征的性能最優(yōu),且具有低維高判別性的特點(diǎn)。同時(shí)云模型有效地解決了文本信息中的模糊性和隨機(jī)性,提高了系統(tǒng)分類準(zhǔn)確率。然而,在本文工作的研究過程中發(fā)現(xiàn),TF-IDF特征的Fisher提取方法和云向量模型聚類的計(jì)算復(fù)雜度隨著輸入測試文檔數(shù)量的增加而提高,因此在后續(xù)的研究工作中,將側(cè)重于研究相關(guān)算法計(jì)算復(fù)雜度的約簡問題。

      References:

      [1]Yang Zhen,Lai Yingxu,Duan Lijuan,et al.Short text sentiment classification based on context reconstruction[J].Acta Automatica Sinica,2012,38(1):55-67.

      [2]Wang Suge,Li Deyu,Zhao Lidong,et al.Sample cutting method for imbalanced text sentiment classification based on BRC[J].Knowledge-Based Systems,2013,37(2):451-461.

      [3]Salton G,WangA,Yang C S.Avector space model for automatic indexing[J].Communication of the ACM,1975,18 (11):613-620.

      [4]Xu Jun,Ding Yuxin,Wang Xiaolong.Sentiment classification for Chinese news using machine learning methods[J]. Journal of Chinese Information Processing,2007,21(6):95-100.

      [5]Xiao Zheng,Liu Hui,Li Bing.SVM sentiment classifier based on semantic distance for Web comments[J].Computer Science,2014,41(9):248-252.

      [6]Zhu Jian,Xu Chen,Wang Hanshi.Sentiment classification using the theory of ANNs[J].Journal of China Universities of Posts&Telecommunications,2010,17(9):58-62.

      [7]Wang Suge,Li Deyu,Song Xiaolei,et al.A feature selection method based on improved fisher?s discriminant ratiofor text sentiment classification[J].Expert Systems with Application,2011,38(7):8696-8702.

      [8]Jiang J Y,Tsai S C,Lee S J.FSKNN:multi-label text categorization based on fuzzy similarity and k nearest neighbors [J].Expert Systems withApplication,2012,39(3):2813-2821.

      [9]Hu Shiyuan,Li Deren,Liu Yaolin,et al.Mining weights of land evaluation factors based on cloud model and correlation analysis[J].Geo-Spatial Information Science,2007,10 (3):218-222.

      [10]Li Deyi,Liu Changyu,Gan Wenyan.A new cognitive model: cloud model[J].International Journal of Intelligent Systems,2009,24(3):357-375.

      [11]Zhao Junmin,Zhang Kai,Wan Jian.Research of feature selection for text clustering based on cloud model[J].Journal of Software,2013,8(12):3246-3252.

      [12]Zhang Renlong,Shan Miyuan,Liu Xiaohong,et al.A novel fuzzy hybrid quantum artificial immune clustering algorithm based on cloud model[J].Engineering Applications ofArtificial Intelligence,2014,35(2):1-13.

      [13]Yang Xiaojun,Yan Liaoliao,Peng Hui,et al.Encoding words into cloud models from interval-valued data via fuzzy statistics and membership function fitting[J].Knowledge-Based Systems,2014,55:114-124.

      [14]Chen Si,Wang Shuyan,Sun Jiaze.Trusted software reliability measures based on cloud model[J].Application Research of Computers,2014,31(9):2729-2740.

      [15]Shao Ying,Yuan Lijun,Zhuang Biao.Simulation research of monitoring system reliability based on cloud model[J]. Computer Engineering&Science,2014,36(8):1430-1434.

      [16]Qin Li,Li Bing.Novel method of uncertain data modeling and classification based on cloud model[J].Computer Science,2014,41(8):233-240.

      [17]Geng Sui,Hong Qiao.Emotional tendency contrast recommendation algorithm based on cloud model[J].Journal of Networks,2014,9(2):437-442.

      [18]Sun Jinguang,Ma Zhifang,Meng Xiangfu.Classification method of texts sentiment based on sentiment word attributes and cloud model[J].Computer Engineering,2013,39 (12):211-215.

      [19]Dai Jin.Research on key problems in text mining based on cloud method[D].Chongqing:Chongqing University,2011.

      [20]Zhang Yufang,Xie Juan,Xiong Zhongyang.Text classification approach with cloud model[J].Computer Engineering andApplications,2014,50(15):117-119.

      [21]Tan Songbo.The corpus of Chinese sentiment mining—ChnSentiCorp[EB/OL].(2012-08-10)[2015-05-24].http:// www.searchforum.org.cn/tansongbo/corpus-senti.htm.

      附中文參考文獻(xiàn):

      [4]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào),2007,21(6):95-100.

      [5]肖正,劉輝,李兵.一種基于語義距離的Web評論SVM情感分類方法[J].計(jì)算機(jī)科學(xué),2014,41(9):248-252.

      [14]陳思,王曙燕,孫家澤.基于云模型的可信軟件可靠性度量模型[J].計(jì)算機(jī)應(yīng)用研究,2014,31(9):2729-2740.

      [15]邵英,袁立軍,莊飚.基于云模型的監(jiān)控系統(tǒng)可靠性仿真分析研究[J].計(jì)算機(jī)工程與科學(xué),2014,36(8):1430-1434.

      [16]秦麗,李兵.一種基于云模型的不確定性數(shù)據(jù)的建模與分類方法[J].計(jì)算機(jī)科學(xué),2014,41(8):233-240.

      [18]孫勁光,馬志芳,孟祥福.基于情感詞屬性和云模型的文本情感分類方法[J].計(jì)算機(jī)工程,2013,39(12):211-215.

      [19]代勁.云模型在文本挖掘應(yīng)用中的關(guān)鍵問題研究[D].重慶:重慶大學(xué),2011.

      [20]張玉芳,謝娟,熊忠陽.一種結(jié)合云模型的文本分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(15):117-119.

      [21]譚松波.中文情感挖掘語料——ChnSentiCorp[EB/OL]. (2012-08-10)[2015-05-24].http://www.searchforum.org.cn/ tansongbo/corpus-senti.htm.

      XING Yujuan was born in 1981.She received the M.S.degree in computer software and theory from Lanzhou University of Technology in 2009.Now she is an associate professor at Lanzhou University of Arts and Science,and the member of CCF.Her research interests include text sentiment classification and machine learning,etc.

      邢玉娟(1981—),女,甘肅天水人,2009年于蘭州理工大學(xué)獲得碩士學(xué)位,現(xiàn)為蘭州文理學(xué)院副教授,CCF會員,主要研究領(lǐng)域?yàn)槲谋厩楦蟹诸悾瑱C(jī)器學(xué)習(xí)等。發(fā)表學(xué)術(shù)論文20余篇,參與完成國家級、省級自然科學(xué)基金項(xiàng)目和甘肅省教育廳科研項(xiàng)目多項(xiàng),主持甘肅省教育廳科研項(xiàng)目1項(xiàng)。

      GUO Xian was born in 1971.He received the Ph.D.degree in network and information security from Lanzhou University of Technology in 2011.Now he is an associate professor at Lanzhou University of Technology.His research interests include network and information security and text mining,etc.

      郭顯(1971—),男,甘肅定西人,2011年于蘭州理工大學(xué)獲得博士學(xué)位,現(xiàn)為蘭州理工大學(xué)副教授,主要研究領(lǐng)域?yàn)榫W(wǎng)絡(luò)信息安全,文本挖掘等。主持國家自然科學(xué)基金項(xiàng)目、甘肅省高?;A(chǔ)研究項(xiàng)目多項(xiàng)。

      TAN Ping was born in 1973.She received the M.S.degree in computer software and theory from Lanzhou University of Technology in 2008.Now she is an associate professor at Lanzhou University of Arts and Science.Her research interests include text sentiment classification and machine learning,etc.

      譚萍(1973—),女,陜西寶雞人,2008年于蘭州理工大學(xué)獲得碩士學(xué)位,現(xiàn)為蘭州文理學(xué)院副教授,主要研究領(lǐng)域?yàn)槲谋厩楦蟹诸悾瑱C(jī)器學(xué)習(xí)等。

      LI Ming was born in 1959.He is a professor at Lanzhou University of Technology.His research interests include database theory and application,data mining,knowledge engineering,pattern recognition,image processing and software engineering,etc.

      李明(1959—),男,河北辛集人,蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院教授,主要研究領(lǐng)域?yàn)閿?shù)據(jù)庫理論與應(yīng)用,數(shù)據(jù)挖掘,知識工程,模式識別,圖像處理,軟件工程等。

      Text Sentiment Classification Based on Cloud Model Clustering and Mixed-Fisher Feature?

      XING Yujuan1+,GUO Xian2,TAN Ping1,LI Ming2
      1.School of Digital Media,Lanzhou University ofArts and Science,Lanzhou 730000,China
      2.School of Computer and Communication,Lanzhou University of Technology,Lanzhou 730050,China
      +Corresponding author:E-mail:xyj19811010@126.com

      XING Yujuan,GUO Xian,TAN Ping,et al.Text sentiment classification based on cloud model clustering and Mixed-Fisher feature.Journal of Frontiers of Computer Science and Technology,2016,10(9):1320-1331.

      The appearance of massive Web information turns the view extraction from documents into research hotspots.Aiming at the ambiguity in natural language and lower classification precision in text sentiment classification, this paper proposes a novel text sentiment classification algorithm based on Mixed-Fisher feature selection and cloud vector model clustering.In this algorithm,the Fisher?s discriminant ratio of different part-of-speech features is computed firstly.The q larger values of Fisher?s discriminant ratio features are selected as the candidate features to form Mixed-Fisher feature vector according to the Fisher criterion.These features are combined according to the parts of speech to generate the Mixed-Fisher feature set.And then,cloud vector model is generated based on this Mixed-Fisher feature set for each document.Immediately following,documents are clustered according to their similarity between cloud vector models.Finally,kernel Fisher discriminant(KFD)is adopted as the classifier to judge views.The experimental results demonstrate that the classification precision of the proposed algorithm outperforms traditional vector spacemodel,and the effectiveness of KFD is verified.

      2015-07,Accepted 2015-11.

      text sentiment classification;Fisher discriminant ratio;part-of-speech feature;cloud vector model;kernel Fisher discriminant

      *The National Natural Science Foundation of China under Grant No.61461027(國家自然科學(xué)基金);the Research Program of Education Department of Gansu Province under Grant No.2014A-125(甘肅省教育廳科研項(xiàng)目).

      CNKI網(wǎng)絡(luò)優(yōu)先出版:2015-11-12,http://www.cnki.net/kcms/detail/11.5602.TP.20151112.1621.008.html

      A

      TP181

      猜你喜歡
      文檔準(zhǔn)確率聚類
      有人一聲不吭向你扔了個(gè)文檔
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗(yàn)證法
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      基于改進(jìn)的遺傳算法的模糊聚類算法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      金湖县| 炎陵县| 清流县| 贵定县| 和林格尔县| 衡南县| 寻甸| 蓝山县| 融水| 汤原县| 长沙县| 吉安市| 嵩明县| 奇台县| 翁牛特旗| 山东省| 临澧县| 铅山县| 旺苍县| 都江堰市| 巧家县| 仲巴县| 连山| 云林县| 中西区| 都兰县| 珲春市| 鸡西市| 大城县| 花垣县| 麦盖提县| 龙陵县| 高要市| 历史| 邵武市| 土默特左旗| 蒙自县| 修武县| 新巴尔虎左旗| 彰武县| 麻江县|