黃賢英,陳紅陽,劉英濤,熊李媛
(重慶理工大學(xué)計算機科學(xué)與工程學(xué)院,重慶 400054)
一種新的微博短文本特征詞選擇算法*
黃賢英,陳紅陽,劉英濤,熊李媛
(重慶理工大學(xué)計算機科學(xué)與工程學(xué)院,重慶 400054)
針對微博短文本有效特征較稀疏且難以提取,從而影響微博文本表示、分類與聚類準確性的問題,提出一種基于統(tǒng)計與語義信息相結(jié)合的微博短文本特征詞選擇算法。該算法基于詞性組合匹配規(guī)則,根據(jù)詞項的TF-IDF、詞性與詞長因子構(gòu)造綜合評估函數(shù),結(jié)合詞項與文本內(nèi)容的語義相關(guān)度,對微博短文本進行特征詞選擇,以使挑選出來的特征詞能準確表示微博短文本內(nèi)容主題。將新的特征詞選擇算法與樸素貝葉斯分類算法相結(jié)合,對微博分類語料集進行實驗,結(jié)果表明,相比其它的傳統(tǒng)算法,新算法使得微博短文本分類準確率更高,表明該算法選取出來的特征詞能夠更準確地表示微博短文本內(nèi)容主題。
微博短文本;特征詞選擇;統(tǒng)計與語義信息;詞性組合;樸素貝葉斯分類算法
隨著微博的興起,基于微博的信息挖掘與應(yīng)用應(yīng)運而生[1],如微博短文本挖掘、話題趨勢檢測、情感傾向性分析等成為眾多學(xué)者研究的熱點,微博短文本特征詞選擇[2]算法是這些研究的基礎(chǔ)。它主要是將文本中冗余、不相關(guān)詞項剔除掉,保留對文本內(nèi)容主題表達貢獻度較大的詞項作為特征詞,在保證原文語義信息完整的情況下,準確地表示微博短文本內(nèi)容主題,從而降低了特征空間維度,為微博短文本后續(xù)處理環(huán)節(jié)奠定堅實的基礎(chǔ)。然而,微博短文本特征極度稀疏、高度冗余,且以幾何級增長,如何更有效地將表示微博短文本內(nèi)容主題的特征詞選取出來是一個亟待解決的問題。
研究人員基于傳統(tǒng)文本特征詞選擇算法[3]對微博短文本特征詞選擇算法進行了大量研究,主要分為基于統(tǒng)計和基于語義兩大類方法?;诮y(tǒng)計的微博短文本特征詞選擇算法有TF-IDF(Term Frequency-Inverse Document Frequency)算法[4]、基于詞長進行特征詞選擇的算法[5]及以詞性作為重要特征的特征詞選擇算法[6]等,但都只是從某一個方面來衡量詞項在文本中的重要性,考慮的因素不太全面。
目前,從語義角度對微博短文本進行特征詞的選取成為一種趨勢,文獻[7]基于HowNet對短文本中的名詞、動詞、形容詞與副詞進行語義擴展,來選擇特征詞;文獻[8]考慮了短文本中詞語之間的語義關(guān)聯(lián)信息,提出一種候選特征詞的特征度計算方法,選取特征度值較大的詞項作為微博短文本的特征詞;文獻[9]提出以概念作為特征詞,并基于語義知識庫《知網(wǎng)》對短文本中的詞項進行詞義消歧,進而選取特征詞。
這幾種方法均從語義角度考慮了詞項之間的語義關(guān)聯(lián)性,有效地選取出了文本的特征詞,對微博短文本特征詞選擇具有一定的啟發(fā)意義。
本文針對單一基于詞項的TF-IDF、詞性與詞長因子選取文本特征詞的片面性,并對詞項與文本內(nèi)容的語義相關(guān)度,以及短語作為文本特征詞時所具有的較強的語義表達能力這兩點因素加以分析考慮,提出一種統(tǒng)計與語義信息相結(jié)合的微博短文本特征詞選擇算法。該算法分為三個步驟對微博短文本進行特征詞的選擇:
首先,基于詞性組合匹配規(guī)則選取文本中的短語作為特征詞;
其次,根據(jù)詞項的TF-IDF、詞性與詞長因子構(gòu)造綜合評估函數(shù),將評估值高的詞項添加為特征詞;
然后,基于《知網(wǎng)》的詞匯語義相似度[10]來估量擬定的特征詞項與文本內(nèi)容的語義相關(guān)度,對特征詞進行篩選;
最后,將選取出來的特征詞組成集合,用以表示微博短文本內(nèi)容主題。
2.1 特征詞選擇的原則
在微博短文本中,特征詞一般也是以字、詞或者短語來表示。詞是反映語義信息的基本單位,與字相比能更好地體現(xiàn)出獨立、完整的語義信息,對文本內(nèi)容主題的表達能力較強;短語結(jié)構(gòu)穩(wěn)定、語義完整,與詞相比在文本中出現(xiàn)的頻率較低,更能反映出文本的內(nèi)容主題,也適合作為文本的特征詞。此外,特征詞的挑選通常應(yīng)該具備以下原則[11]:(1)能夠確實標識文本內(nèi)容,即與文本主題內(nèi)容應(yīng)密切相關(guān);(2)具備將目標文本與其他文本區(qū)分開的能力;(3)個數(shù)適中,不宜過多;(4)特征詞分離操作易實現(xiàn)。由此可知,如何采用有效的方法從微博短文本中選取滿足上述挑選規(guī)則的詞項作為特征詞;如何確定合適的特征詞粒度、提高特征詞的語義表達能力對微博短文本特征詞選擇至關(guān)重要,具有一定的實踐意義與研究價值。
2.2 TF-IDF的定義
TF-IDF是計算文本中詞項權(quán)重的一種常用方法,假設(shè)當前給定的文本集合所包含的文本數(shù)目是N,指定的文本為Dj,則TF代表某一詞項termi在文本Dj中出現(xiàn)的頻數(shù);而IDF代表文本集合中包含該詞項的文本數(shù),詞項在文本中出現(xiàn)的頻數(shù)越高,表征該文本的能力越強,相反,其IDF值越小,則該詞項區(qū)別于其他文本的性能越好??偟膩碚f,詞項的TF-IDF反映出其在文本中的重要性,也具備有效區(qū)別于其他文本的能力,具體表示如公式(1)所示:
(1)
其中, Weighttf-idf(termi)表示詞項termi的TF-IDF值, tij表示詞項termj在文本Dj中的詞頻,N指文本集合中文本數(shù)量,n表示文本Dj中所包含的詞項總數(shù),ni表示文本集合中包含詞項termi的文本數(shù)。
2.3 常見的特征詞選擇算法
(1)基于詞項的TF-IDF算法。
文獻[4]提出基于詞項的TF-IDF因子對微博短文本進行特征詞選取,主要是根據(jù)TF-IDF算法度量文本中每個詞項的權(quán)重,挑選具有較高權(quán)重的詞項作為文本的特征詞。首先,針對微博短文本中的每一個詞項termi,根據(jù)公式(1)統(tǒng)計其TF-IDF值Weighttf-idf(termi);然后,按照詞項TF-IDF值的高低對微博短文本中的詞項進行降序排列;最后,從該詞項集合中選取靠前的一定數(shù)量的詞項作為文本的特征詞。
(2)基于詞長的TF-IDF改進算法。
一個詞語的長度與其所蘊含的語義信息具有一定的關(guān)系。相較于短詞而言,長詞所包含的語義信息更多,且所表示的意思更清晰、明確。如果一個詞的長度愈長,那么該詞可以更好地反映文本主題,作為文本特征詞的可能性就愈大。文獻[5]將詞項的詞長因素融入TF-IDF計算每一個詞項的權(quán)重,然后挑選出權(quán)重較高的詞項作為文本的特征詞,所抽取出的特征詞較不加任何因素的TF-IDF方法更能準確地表征文本內(nèi)容。文中根據(jù)詞項的長度對其權(quán)重加權(quán),具體如公式(2)所示:
WLength(termi)=
(2)
其中,Length代表詞項termi的詞長,即該詞項所包含字的數(shù)目,Weighttf-idf(termi)指代采用TF-IDF方法計算得出的每一個詞項termi的權(quán)重。
(3)基于詞性進行特征詞選擇的算法。
文獻[6]的特征詞選擇算法中將詞性作為特征詞選取的一個重要特征,提出了一種根據(jù)詞性來進行特征詞選擇的方法。其主要思想是根據(jù)名詞、動詞、形容詞與副詞四種詞性在文本中不同的重要性,賦予每種詞性一定的權(quán)重值。對于文本中每一個詞項termi,判斷其所屬的詞性;然后根據(jù)不同的詞性所占據(jù)的權(quán)重值,賦予該詞項特定的權(quán)重值WPos(termi);然后按照該值對文本中的詞項進行降序排列,再從中選取一定數(shù)量的具有較高權(quán)重值的詞項作為文本的特征詞。它有效區(qū)分了停用詞等,也克服了TF-IDF等算法無法解決的高頻但無實際含義詞項的誤判問題,提高了文本特征詞選取的準確率。
本文基于詞性組合匹配規(guī)則,根據(jù)詞項的TF-IDF、詞性與詞長等因子構(gòu)造綜合評估函數(shù),結(jié)合詞項與文本內(nèi)容的語義相關(guān)度,逐步來選取微博短文本的特征詞,從而準確表示微博文本內(nèi)容主題。新的微博短文本特征詞選擇算法總體流程,如圖1所示,它主要由以下幾個步驟構(gòu)成:(1)首先采用常用的文本預(yù)處理方法對微博短文本D′進行預(yù)處理,得到詞項集合D;(2)其次,基于詞性組合匹配規(guī)則,從詞項集合D中選取出特征詞加入特征詞集合FeatureList,余下的詞項則放入剩余詞項集合TermList;(3)然后,使用本文所提出的融合詞項的TF-IDF、詞性與詞長等因子構(gòu)造的綜合評估函數(shù),從剩余詞項集合TermList中選取出特征詞放入過濾詞項集合LeftList;(4)最后,再結(jié)合詞項與文本內(nèi)容的語義相關(guān)度,從過濾詞項集合LeftList中選取出特征詞加入特征詞集合FeatureList,從而得到最終的微博短文本特征詞集合。
Figure 1 Flow chart of the feature selection algorithm on micro-blog short texts
3.1 微博短文本預(yù)處理
由于微博短文本內(nèi)容長度短,數(shù)量較多,語言表達口語化,形式不規(guī)范,存在過多的繁雜、冗余信息,在進行特征詞選擇前,通常都需要對原始文本進行預(yù)處理。微博短文本預(yù)處理主要包括微博信息過濾、微博文本分詞、詞性標注與停用詞去除。
通過以上幾種方法,原始微博短文本D′將被表示為D={〈term1,s1〉, 〈term2,s2〉,…, 〈termm,sm〉} ,該文本中第i個詞項及其對應(yīng)的詞性用〈termi,si〉(1≤i≤m)來表示,其中m代表經(jīng)過預(yù)處理后微博短文本D所包含詞項的個數(shù)。本文所提算法也采用上述方法對微博短文本進行預(yù)處理。
3.2 基于詞性組合匹配規(guī)則選取微博短文本特征詞
文本中不同詞性的詞項組合在一起蘊含著更加豐富、明確的語義信息,對文本內(nèi)容主題的表征力度更強。例如:形容詞與名詞組合(adj+n),“肥沃的土地”比獨立的“肥沃的”和“土地”兩個詞更能準確地表達出文字所蘊含的語義信息——土地是肥沃的等;動詞和副詞組合(adv+v),“快樂地奔跑”也比單個詞“快樂地”和“奔跑”更為準確地將文字所蘊含的信息表示出來——一個人奔跑的時候,心情是愉悅的等。因此,選取由這樣的詞性組合構(gòu)成的短語作為微博短文本的特征詞,有助于提高微博短文本內(nèi)容主題表示的準確性。
基于詞項組合匹配規(guī)則選取微博短文本特征詞的算法描述如下所示:
算法1基于詞性組合匹配規(guī)則的微博短文本特征詞選擇算法
輸入:經(jīng)預(yù)處理后的微博短文本D={〈term1,s1〉,〈term2,s2〉,…,〈termm,sm〉};
輸出:初始特征詞集合FeatureList={term1,term2,…,termn1}與剩余詞項集合TermList={〈termn1+1,sn1+1〉, 〈termn1+2,sn1+2〉,…, 〈termn1+k,sn1+k〉} ,n1 步驟1針對微博短文本D,依次遍歷該文本中的詞項termi(1≤i≤m); 步驟2根據(jù)詞項termi所對應(yīng)的詞性,判斷其是否屬于形容詞或副詞(adj or adv),如果屬于,轉(zhuǎn)步驟3,否則轉(zhuǎn)步驟5; 步驟3遍歷文本中下一個詞項termi+1,判斷其和前一個詞項termi組合在一起是否與詞性組合規(guī)則(adj+n)與(adv+v)相匹配,如果匹配,轉(zhuǎn)步驟4,否則,轉(zhuǎn)步驟5; 步驟4將組合在一起的詞項選取出來作為一個特征詞放入初始特征詞集合FeatureList中; 步驟5遍歷下一個詞項termi+1,重復(fù)步驟2~步驟4直到微博短文本D中的所有詞項處理完畢; 步驟6將微博短文本D中余下的詞項放入剩余詞項集合TermList中。 3.3 根據(jù)詞項的多因子構(gòu)造的新評估函數(shù)選取微博短文本特征詞 為解決由于單一使用一種基于統(tǒng)計的特征詞選擇算法的片面性,造成了文本中有效特征詞選取、文本內(nèi)容主題精確表示困難的問題,本文則綜合詞項的TF-IDF、詞性與詞長因子提出一種基于詞項多種因子的特征詞選擇算法,以挑選文本特征詞,更準確地表示微博文本內(nèi)容主題。首先,分別根據(jù)詞項的TF-IDF、詞性與詞長因子統(tǒng)計相應(yīng)的權(quán)重分值;然后將其綜合起來計算每個詞項的總權(quán)重分值,并選取總權(quán)重分值較高的詞項作為文本的特征詞。 基于詞項的TF-IDF、詞性以及詞長等因子計算表征文本D中每一個詞項termi重要性的總權(quán)重分值,如式(3)所示。 Score(termi)=α×Weighttf-idf(termi)+ β×WPos(termi)+γ×WLength(termi) (3) 其中,termi表示當前文本D中的第i個詞項,Weighttf-idf(termi)表示詞項termi對應(yīng)的TF-IDF權(quán)重分值,WPos(termi)表示詞性權(quán)重分值,WLength(termi)表示詞長權(quán)重分值,而α、β、γ則表示詞項termi的不同因子在決定其在文本中重要性的比例系數(shù)。 融合詞項多因子的微博短文本特征詞選擇算法具體描述如下: 算法2融合詞項多因子的微博短文本特征詞選擇算法 輸入:剩余詞項集合TermList={〈termn1+1,sn1+1〉,〈termn1+2,sn1+2〉,…,〈termn1+k,sn1+k〉},n1 輸出:過濾詞項集合LeftList={term1,…,termi,…,termk1}, k1表示過濾詞項集合LeftList中詞項的數(shù)目,且k1 步驟1針對剩余詞項集合TermList,首先遍歷該集合中的第一個詞項term1; 步驟2根據(jù)詞項的TF-IDF、詞性以及詞長因子分別統(tǒng)計詞項term1的TF-IDF權(quán)重分值、詞性權(quán)重分值與詞長權(quán)重分值; 步驟3根據(jù)式(3)將詞項term1的各個因子所對應(yīng)的權(quán)重分值進行融合,計算其總權(quán)重分值Score(term1); 步驟4重復(fù)步驟2 ~步驟3直到剩余詞項集合TermList中的所有詞項termi處理完畢; 步驟5按照每個詞項termi的總權(quán)重分值,對詞項集合TermList中的詞項進行降序排列,并選取前k1(詞項集合TermList中多數(shù)詞項為特征詞)個詞項加入過濾詞項集合LeftList中。 3.4 結(jié)合詞項與文本內(nèi)容的語義相關(guān)度篩選微博短文本特征詞 本文分析了詞項之間的語義關(guān)聯(lián)性,基于《知網(wǎng)》的詞匯語義相似度量化某一個詞項與微博短文本中每一個詞項之間的語義相似度,求和,取平均值,然后將平均值作為該詞項與文本內(nèi)容的語義相關(guān)度。運用此方法對過濾詞項集合LeftList再次進行特征詞選擇,從而將詞項集合TermList中誤選的特征詞去除,詞項termi與文本D內(nèi)容的語義相關(guān)度計算如式(4)所示: (4) 其中,sem(termi,terml)表示基于《知網(wǎng)》的詞匯語義相似度度量詞項termi與terml之間的語義相似性。 結(jié)合詞項與文本內(nèi)容的語義相關(guān)度選取微博短文本特征詞的算法描述如下所示: 算法3結(jié)合詞項與文本內(nèi)容的語義相關(guān)度選取微博短文本特征詞的算法 輸入:初始特征詞集合FeatureList={term1,term2,…,termn1}與過濾詞項集合LeftList={term1,…,termi,…,termk1}; 輸出:微博短文本D的最終特征詞集合FeatureList={term1,term2,…,termn1,termn1+1,…,termn},n 步驟1針對過濾詞項集合LeftList,首先遍歷該集合中的第一個詞項term1; 步驟2根據(jù)式(4)計算詞項term1與文本D之間的語義相關(guān)度Semantic(term1,D); 步驟3重復(fù)步驟2直至集合LeftList中所有的詞項處理完畢。然后根據(jù)語義相關(guān)度值對該集合中的詞項進行降序排列,抽取前n-n1(詞項集合LeftList中詞項數(shù)目的90%)個詞項加入初始特征詞集合FeatureList中,從而形成微博短文本D的最終特征詞集合FeatureList。 4.1 數(shù)據(jù)來源 實驗數(shù)據(jù)來源于科研共享平臺——數(shù)據(jù)堂所提供的微博分類語料集[12],共計21個類別,涉及IT、財經(jīng)、傳媒等多個領(lǐng)域,其中每個類別包含1 000~12 000的人工分類數(shù)據(jù)。從語料集中選取70%的數(shù)據(jù)作為微博短文本分類的訓(xùn)練集,剩余的30%作為測試集。 4.2 評價指標 采用兩個衡量文本分類效果的度量指標——準確率與召回率作為文本特征詞選擇算法的評判指標,如表1與式(5)所示。 Table 1 Binary classification contingency table表1 二值分類列聯(lián)表 (5) 其中,P指代準確率,表示正確分類的文本數(shù)與被分類器判別為屬于該類的文本數(shù)的比值;R則代表召回率,表示正確分類的文本數(shù)在測試數(shù)據(jù)集中屬于該類的文本數(shù)中所占的比重。按照公式(5)統(tǒng)計所有微博數(shù)據(jù)類別對應(yīng)的準確率與召回率。 4.3 實驗步驟 4.3.1 微博短文本預(yù)處理 本實驗采用的文本預(yù)處理方法分為四步。第一步是對微博短文本信息進行過濾。采用文獻[13]的方法:建立繁簡字庫,統(tǒng)一微博語言表達;根據(jù)微博短文本中特殊的數(shù)據(jù)格式,去除其所包含的無用信息;刪除微博短文本中一些無意義的固定詞組,從而去掉文本中的噪聲,保留重要的數(shù)據(jù)信息,達到凈化微博數(shù)據(jù)的目的。第二步,微博文本分詞。采用文獻[14]提出的中科院研發(fā)的ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)分詞工具對微博短文本進行分詞,將微博短文本表示成由一系列詞項構(gòu)成的詞項集合。第三步,詞性標注。利用ICTCLAS分詞工具所附帶的詞性標注功能對每一個詞項進行詞性標注。第四步,停用詞去除。文獻[15]提出構(gòu)建停用詞表對微博短文本進行停用詞去除,將一些無意義的虛詞等去除掉。 4.3.2 微博短文本特征詞選擇與分類 由于人工標注微博短文本特征詞具有一定的主觀性,且海量數(shù)據(jù)的標注極為耗時,將使用此種方法所得的微博短文本特征詞數(shù)據(jù)作為評判特征詞選擇算法優(yōu)劣的參考數(shù)據(jù)不太可行。因此,本文將新的特征詞選擇算法與樸素貝葉斯NB(Naive Bayeian)分類算法[16]相結(jié)合應(yīng)用于微博分類語料集,對微博短文本進行分類,觀測分類效果,以評判新算法的優(yōu)劣。 4.4 實驗結(jié)果及分析 公式(3)中的三個比例系數(shù)彼此之間的關(guān)系為α+β+γ=1,β>γ>α(考慮到詞項的總權(quán)重分值受詞性因子影響最大,詞長次之,TF-IDF最小),且每個系數(shù)在(0,1)之間取值。為確定一個最佳組合系數(shù),本文針對六種可能的取值情況(精度為0.1)對微博短文本分類語料集多次實驗,測試微博短文本分類的平均準確率。實驗結(jié)果表明,當(α,β,γ)=(0.2,0.5,0.3)時,平均準確率取得最大值,即85.35%,因此,α、β、γ分別取0.2、0.5、0.3。 將本文的新算法與單獨基于詞項的TF-IDF[4]、詞長[5]、詞性[6]等因子的特征詞選擇算法進行比較,觀測各個特征詞選擇算法與分類算法相結(jié)合時對微博短文本分類的效果。由于新算法綜合考慮了詞項的TF-IDF、詞性與詞長等因子共同度量詞項對微博短文本內(nèi)容主題表達所起的作用,避免了僅基于詞項某一方面因素的片面性;以詞性組合匹配規(guī)則選取文本的特征詞,提高了微博短文本特征詞的語義表達能力;從語義角度來衡量詞項與微博短文本內(nèi)容的語義相關(guān)度,充分考慮了詞項與文本內(nèi)容在語義上的密切相關(guān)度。因此,新算法可更好地提高微博短文本分類的準確率,改善分類的效果。 這一點可以從如圖2和圖3所示的數(shù)據(jù)中得到驗證:結(jié)合分類算法對微博短文本進行分類時,新算法與基于詞項的TF-IDF、詞性與詞長等因子的特征詞選擇算法相比,在各個微博數(shù)據(jù)類別對應(yīng)的準確率與召回率上均得到了提高,且平均值分別保持在85.35%與84.49%左右。新算法有效地提高了微博短文本分類的準確率,證明了該算法選取出的特征詞可更準確地表示微博文本內(nèi)容主題。 Figure 2 Comparison chart of the four text feature selection algorithms in accuracy rate Figure 3 Comparison chart of the four text feature selection algorithms in recall rate 本文首先基于詞性組合匹配規(guī)則選取微博短文本的特征詞,以提高微博短文本特征詞的語義表達能力;其次根據(jù)詞項的TF-IDF、詞性與詞長等因子構(gòu)造綜合評估函數(shù)估量詞項對微博短文本內(nèi)容主題表示的貢獻度,進而對微博短文本進行特征詞選擇;然后,從語義的角度理解微博短文本特征,結(jié)合詞項與文本內(nèi)容的語義相關(guān)度,最終完成對微博短文本特征詞的選取功能;最后與樸素貝葉斯分類算法結(jié)合使用,對微博短文本進行分類。實驗結(jié)果表明,與基于詞項的TF-IDF、詞性與詞長等因子選取特征詞的算法相比,該算法有效地提高了微博短文本分類的準確率,從而驗證了該算法的優(yōu)越性。 [1] Jiang Sheng-yi, Mai Zhi-kai, Pang Guan-song, et al. A survey of Micro-blog data mining[J]. Library and Information Service, 2012, 56(17):136-142.(in Chinese) [2] Wang Lian-xi.A literature review on pre-processing and learning of microtext[J]. Library and Information Service, 2013, 57(11):125-131.(in Chinese) [3] A survey on text feature extraction method[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101- aq2y.html.(in Chinese) [4] Liu Yan-wei.Research and implementation of Microblog topic tracking system[D]. Beijing:Beijing Jiaotong University, 2013.(in Chinese) [5] Ding Jin. Research and implementation of micro-blog hot topic detection[D]. Wuhan:Huazhong University of Science and Technology, 2012.(in Chinese) [6] Zhang Jian-e. Chinese text keyword extraction based on multiple feature fusion[J]. Information Studies:Theory and Application, 2013, 10(36):105-108.(in Chinese) [7] Liu Zi-tao, Yu Wen-chao, Chen Wei, et al. Short text feature selection for micro-blog mining[C]∥Proc of 2010 International Conference on IEEE Computational Intelligence and Software Engineering(CiSE), 2010:1-4. [8] Cheng Chuan-peng, Su An-jie. A short text feature word extraction method[J]. Computer Applications and Software, 2014, 31(6):162-164.(in Chinese) [9] Liu Jing-jiao. The study of short text classification algorithm based on semantic[D]. Zhengzhou:Zhengzhou University of Light Industry, 2013.(in Chinese) [10] Ge Bin, Li Fang-fang, Guo Si-lu,et al. Word’s semantic similarity computation method based on HowNet[J]. Application Research of Computers, 2010, 27(9):3329-3333.(in Chinese) [11] Lin Nan. Research on algorithms for text feature selection[D]. Dalian:Liaoning Normal University, 2010.(in Chinese) [12] The corpus used in classification for Micro-blog texts[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271.(in Chinese) [13] Xia Yang.Design and implementation of the micro-blog topic detection system based on incremental clustering[D]. Guangzhou:Sun Yat-sen University, 2012.(in Chinese) [14] ICTCLAS,ICTCLAS2012-SDK-0101.rar[EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/.(in Chinese) [15] Hua Bo-lin. Stop-word processing technique in knowledge extraction[J]. New Technology of Library and Information, 2007, 2(8):48-51.(in Chinese) [16] Zuo Min, Zeng Guan-ping, Tu Xu-yan. Study on an improved Naive Bayesian classifier used in the Chinese text categorization[C]∥Proc of the 2nd International Conference on Modeling, Simulation, and Visualization Methods, 2010:135-138. 附中文參考文獻: [1] 蔣盛益, 麥志凱, 龐觀松, 等. 微博信息挖掘技術(shù)研究綜述[J]. 圖書情報工作, 2012, 56(17):136-142. [2] 王連喜. 微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J]. 圖書情報工作, 2013, 57(11):125-131. [3] 文本特征提取方法研究[EB/OL]. [2012-12-18]. http:∥blog.sina.com.cn/s/blog_77ca69890101aq2y.html. [4] 劉彥偉. 微博話題追蹤系統(tǒng)的研究與實現(xiàn)[D]. 北京:北京交通大學(xué), 2013. [5] 丁藎. 微博熱點發(fā)現(xiàn)技術(shù)的研究與實現(xiàn)[D]. 武漢:華中科技大學(xué), 2012. [6] 張建娥. 基于多特征融合的中文文本關(guān)鍵詞提取方法[J].情報理論與實踐, 2013, 10(36):105-108. [8] 程傳鵬, 蘇安捷. 一種短文本特征的提取方法[J]. 計算機應(yīng)用與軟件, 2014, 31(6):162-164. [9] 劉婧嬌. 基于語義的短文本分類算法研究[D]. 鄭州:鄭州輕工業(yè)大學(xué), 2013. [10] 葛斌, 李芳芳, 郭絲路, 等. 基于知網(wǎng)的詞匯語義相似度計算方法研究[J]. 計算機應(yīng)用研究, 2010, 27(9):3329-3333. [11] 林楠. 文本特征選擇算法研究[D]. 大連:遼寧師范大學(xué), 2010. [12] 微博分類語料集, 用于微博數(shù)據(jù)分類訓(xùn)練[EB/OL]. [2013-07-03]. http:∥www.datatang.com/data/44271. [13] 夏陽. 基于增量聚類的微博話題檢測系統(tǒng)的設(shè)計與實現(xiàn)[D]. 廣州:中山大學(xué), 2012. [14] ICTCLAS,ICTCLAS2012-SDK-0101.rar [EB/OL].[2014-08-18]. http:∥www.nlpir.org/download/. [15] 化柏林. 知識抽取中的停用詞處理技術(shù)[J]. 現(xiàn)代圖書情報技術(shù), 2007, 2(8):48-51. 黃賢英(1967-),女,重慶人,教授,CCF會員(E20040739M),研究方向為信息檢索和移動計算。E-mail:hxy@cqut.edu.cn HUANG Xian-ying,born in 1967,professor,CCF member(E20040739M),her research interests include information retrieval, and mobile computing. 陳紅陽(1989-),女,河南南陽人,碩士生,研究方向為信息檢索。E-mail:15223091504@163.com CHEN Hong-yang,born in 1989,MS candidate,her research interest includes information retrieval. 劉英濤(1988-),男,山東煙臺人,碩士生,研究方向為信息檢索。E-mail:814462045@qq.com LIU Ying-tao,born in 1988,MS candidate,his research interest includes information retrieval. 熊李媛(1990-),女,河南南陽人,碩士生,研究方向為信息檢索。E-mail:623890251@qq.com XIONG Li-yuan,born in 1990,MS candidate,her research interest includes information retrieval. A novel algorithm for feature selection on micro-blog short texts HUANG Xian-ying,CHEN Hong-yang,LIU Ying-tao,XIONG Li-yuan (College of Computer Science and Engineering,Chongqing University of Technology,Chongqing 400054,China) The valid features of micro-blog short texts are sparse and difficult to extract, which reduces the accuracy of text representation, classification and clustering. We propose a novel algorithm for feature selection on micro-blog short texts based on statistics and semantic information. We utilize Term Frequency-Inverse Document Frequency (TF-IDF), POS and the length of term to construct the evaluation function, and together with the semantic relevance between term and micro-blog short texts, the feature selection on micro-blog short texts is achieved, which guarantees that the selected terms can represent the meaning of micro-blog short texts more accurately. The new feature selection algorithm is integrated with Naive Bayesian categorization algorithm, and the experiments on an open micro-blog corpus show the proposed algorithm can acquire a higher precision rate of text categorization compared with the traditional strategies, indicating that the selected terms by the proposed algorithm can represent the topic of micro-blog short text more accurately. micro-blog short text;feature selection;statistics and semantic information;POS grouping;Naive Bayesian classification algorithm 1007-130X(2015)09-1761-07 2014-10-28; 2014-12-18基金項目:國家自然科學(xué)基金資助項目(61173184);重慶市教委科技計劃項目(KJ100821);重慶市科委自然科學(xué)基金資助項目(CSTC2012jjA40030) TP391.1 A 10.3969/j.issn.1007-130X.2015.09.027 通信地址:400054 重慶市巴南區(qū)紅光大道69號重慶理工大學(xué)計算機科學(xué)與工程學(xué)院 Address:College of Computer Science and Engineering,Chongqing University of Technology,69 Hongguang Avenue, Banan District,Chongqing 400054,P.R.China4 實驗
5 結(jié)束語