李陽,杜垚
(1.中國農(nóng)業(yè)銀行山西省分行,太原030024;2.晉中學(xué)院,山西晉中030619)
文本情報(bào)信息篩選與聚類的一種處理方法
李陽1,杜垚2
(1.中國農(nóng)業(yè)銀行山西省分行,太原030024;2.晉中學(xué)院,山西晉中030619)
目前大數(shù)據(jù)時(shí)代情況下的信息有文本、圖像、語音和視頻等多種形式,而且信息的容量非常大,怎樣高效、正確地篩選、分類和處理、利用這些信息,為決策者提供指揮與控制的科學(xué)依據(jù)顯得尤為重要。據(jù)此對(duì)文本情報(bào)信息提出了一種文本聚類的特征選擇以及特征變換的方法,利用單詞在文本中的出現(xiàn)次數(shù)的概率來選擇參與聚類的單詞,并且對(duì)單詞出現(xiàn)概率模型定義了特征變換函數(shù),提高了文本信息的篩選、分類和處理的精度,能快速、準(zhǔn)確地提取所需要的情報(bào)信息提供給指揮與控制的決策者參考、使用。
信息,文本,聚類,處理
目前,大數(shù)據(jù)時(shí)代情況下的信息有文本、圖像、語音和視頻等多種形式,而且信息的容量非常大,怎樣高效、正確地篩選、分類和處理、利用這些信息,為當(dāng)事件的決策者提供指揮與控制的科學(xué)依據(jù)顯得尤為重要。
本文對(duì)文本情報(bào)信息提出了一種文本聚類的特征選擇以及特征變換的方法,利用單詞在文本中的出現(xiàn)次數(shù)的概率來選擇參與聚類的單詞,并且對(duì)單詞出現(xiàn)概率模型定義了特征變換函數(shù),提高了文本信息的篩選、分類和處理的精度,能快速、準(zhǔn)確地提取所需要的情報(bào)信息提供給指揮與控制的決策者參考、使用。
在文本分類中,特征選擇與特征變換的好壞直接影響到聚類的結(jié)果。在文本分類的特征選擇和特征變換中,雖然至今提出了IDF、TI、TfV等方法,但文本分類的精度仍有待提高,本文提出了使用表現(xiàn)單詞在文檔中出現(xiàn)次數(shù)的概率的K-mixture模型來進(jìn)行特征選擇和特征變換的方法。在特征選擇階段,使用K-mixture模型計(jì)算出的單詞出現(xiàn)0次(即單詞在文本中不出現(xiàn))的概率來篩選參與聚類的單詞。并在特征變換階段,使用本文定義的函數(shù)來進(jìn)行特征變換。最后使用經(jīng)過特征變換的向量來進(jìn)行聚類。
1.1 特征選擇方法介紹
特征選擇主要有Document Frequency(DF),mean Tfidf(TI),Term Frequency Variance(TfV)等方法。在這3種主流特征選擇方法中,TI與TfV的精度基本相當(dāng),高于DF[1]。由于相對(duì)于TfV,TI的實(shí)現(xiàn)簡單且計(jì)算量較少。故本文使用TI作為比較對(duì)象。1.1.1Document Frequency
DF是在特征選擇中較為常用的一種特征選擇方法。定義如下:
在由m個(gè)單詞構(gòu)成的n個(gè)文檔的文檔集X中。單詞t的DFt為出現(xiàn)單詞t的文檔的個(gè)數(shù)。在特征選擇中,選擇DF值高的前k個(gè)單詞。
1.1.2 Mean TfIdf
將文檔集中的文檔作為向量dj。每個(gè)單詞t針對(duì)文檔dj的tfidf為:
其中:
這里的Tr為文檔集中的文檔數(shù),DFt為單詞t的DF,tj為單詞t在文檔dj中的TF。之后求單詞的全文檔的平均tfidf,作為TI。
1.1.3 Term Frequency Variance
TfV的定義如下:
其中,tfj的定義與Mean TfIdf相同。
1.2 聚類方法介紹
1.2.1 K-means
K-means是非層次聚類方法中的代表方法。K-means將聚類的中心作為代表點(diǎn)。求解下式的最小值作為聚類的最優(yōu)解:
式中,k為聚類的個(gè)數(shù),Ci為第i個(gè)聚類,D求解距離的函數(shù)。
K-means的算法表示如下:
步驟1隨機(jī)選擇k個(gè)代表點(diǎn)c1,c2,...,ck。
步驟2對(duì)所有文檔,將其分配到使得D(x,ci)最小的代表點(diǎn)。
步驟3如果代表點(diǎn)的分配沒有發(fā)生變化,終止。否則將各聚類的重心作為代表點(diǎn),并跳轉(zhuǎn)到步驟2。
1.2.2 MMC
MMC是2005年提出的通過使用SVM來求解使得間隔最大化的超平面來聚類的方法。SVM是“Support Vector machine”的簡稱,是學(xué)習(xí)器的一種。MMC通過使用SVM來尋找使得間隔最大的聚類結(jié)果。即對(duì)于數(shù)據(jù)x1,...,xN,尋找使得聚類間距離最大的聚類結(jié)果yi∈{-1,+1}。即求解以下公式的最優(yōu)解:
1.3 單詞出現(xiàn)次數(shù)概率模型
描述單詞出現(xiàn)次數(shù)的概率模型,目前主要提出了Poisson模型,Two Poisson模型,K-mixture模型以及Negative Binomial模型。詳述如下:
1.3.1 Poisson模型
Poisson模型是通過兩個(gè)參數(shù)調(diào)節(jié)泊松分布來近似單詞在文章中出現(xiàn)次數(shù)的模型。公式如下:
1.3.2 Two Poisson模型
Two Poisson模型的定義如下:
其中,PrE(k)是單詞出現(xiàn)k詞的文檔的比率。
1.3.3 K-mixture模型
Katz針對(duì)單詞的出現(xiàn)次數(shù)的概率,提出了數(shù)個(gè)模型[2]。其中的2參數(shù)模型被稱為k-mixture模型。K-mixture模型中,假定單詞在文本中反復(fù)出現(xiàn)的條件概率由衰減系數(shù)決定。對(duì)于單個(gè)單詞k回出現(xiàn)的概率PrK(k)由以下的公式可以計(jì)算得出:
即:
其中,cf為文檔集中單詞的出現(xiàn)次數(shù),df為單詞出現(xiàn)的文檔數(shù)。n為全部的文檔數(shù)。
1.3.4 Negative Binomial模型
Negative Binomial模型是使用負(fù)二項(xiàng)分布來近似單詞出現(xiàn)次數(shù)的概率的模型。該模型的公式定義如下:
1.3.5 比較
在文獻(xiàn)[3]的研究中,比較了在文檔庫中said一詞實(shí)際出現(xiàn)次數(shù)的比率以及上述3種模型的預(yù)測(cè)值。結(jié)果如圖1所示。圖中,K代表K-mixture,NB代表Negative Binomial。由圖中可以看出。K-mixture更好的近似了單詞出現(xiàn)次數(shù)的概率。因此,本文中使用K-mixture來作為近似單詞出現(xiàn)次數(shù)的概率模型。
圖1 said一詞在文檔中的出現(xiàn)次數(shù)以及模型預(yù)測(cè)值的比較
2.1 特征選擇
本文提出的方法中,使用K-mixture計(jì)算出的PrK(0)(即單詞在文檔中不出現(xiàn)的概率)的值作為特征選擇的依據(jù),從中選擇PrK(0)值大于0.90,小于0.98的單詞中。原因?yàn)椋簡卧~主要分為對(duì)文檔內(nèi)容影響較大的名詞、動(dòng)詞、形容詞,以及對(duì)文檔內(nèi)容影響較小的副詞等語法功能詞。對(duì)文檔內(nèi)容影響較小的語法功能詞一般來講其在各篇文檔中的分布較為均勻,而對(duì)文檔內(nèi)容影響較大的詞則在各篇文檔中的分布有明顯的偏向性。因此,PrK(0)值越小,則表明單詞對(duì)文檔的內(nèi)容影響較小。PrK(0)越大,則表明單詞對(duì)文檔的內(nèi)容影響較大。通過觀察實(shí)際的統(tǒng)計(jì)值0.90是一個(gè)較好的分界線。同時(shí),由于文檔中存在噪音等原因。PrK(0)值最大的一部分詞是文檔中的一些數(shù)字等沒有實(shí)際意義的詞。為避免這些詞影響聚類結(jié)果,需要過濾掉。通過觀察統(tǒng)計(jì)值。0.98是一個(gè)較好的分界線。因此,在特征選擇中選擇PrK(0)值在0.90與0.98區(qū)間的詞。
2.2 特征變換
由于在文檔中,一個(gè)詞出現(xiàn)與不出現(xiàn),對(duì)于文檔內(nèi)容的影響較大,而隨著詞在文檔中出現(xiàn)次數(shù)的增加,這個(gè)詞對(duì)文檔內(nèi)容的影響逐漸遞減。并且根據(jù)上節(jié)中所述。根據(jù)PrK(0)值的不同。單詞對(duì)文檔意義的影響大小也不同。因此,定義了函數(shù)V來模擬單詞對(duì)文檔內(nèi)容影響程度的曲線。函數(shù)V的定義如下:
其目的為,通過K-mixture模型來拉大單詞不出現(xiàn)與單詞出現(xiàn)之前的距離,而逐級(jí)縮小單詞出現(xiàn)一次以上各出現(xiàn)次數(shù)的距離。如圖2所示。
圖2 單詞出現(xiàn)次數(shù)經(jīng)過V函數(shù)變換的演示
3.1 評(píng)價(jià)方法
本文中使用F值來驗(yàn)證聚類結(jié)果的優(yōu)劣。F值原本作為信息檢索的評(píng)估指標(biāo)提出,其綜合準(zhǔn)確率與召回率來評(píng)估結(jié)果。F值的計(jì)算公式如下:
在聚類結(jié)果評(píng)估中,針對(duì)各聚類和各結(jié)果集計(jì)算F值,選擇針對(duì)結(jié)果集最高的F值,并求平均值。
3.2 實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證本文提案方法的普適性,本文同時(shí)使用了英文和中文的語料庫進(jìn)行了實(shí)驗(yàn)。使用20newsgroups作為英文語料實(shí)驗(yàn)數(shù)據(jù),20newsgroups中包含了20個(gè)主題的英文新聞文檔,每個(gè)主題中包含600到1 000篇文章。為了測(cè)試混合了相近的主題和較大差異主題時(shí)的聚類結(jié)果,從中選擇了rec下的autos、motorcycles、baseball、hockey 4個(gè)主題。使用THUCNews作為中文語料實(shí)驗(yàn)數(shù)據(jù),THUCNews中包含14個(gè)主題的中文新聞,同英文語料相同,為了測(cè)試混合了相近的主題和較大差異主題時(shí)的聚類結(jié)果,選擇了股票、財(cái)經(jīng)、科技、教育4個(gè)主題。
3.3 實(shí)驗(yàn)結(jié)果
特征選擇和特征變換階段分別使用TI和本文中的方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理。處理后的數(shù)據(jù)使用K-means或MMC進(jìn)行聚類。聚類后使用3.1中所描述的方法統(tǒng)計(jì)F值。最后得到的實(shí)驗(yàn)結(jié)果如表1及表2所示:
表120 newsgroups聚類實(shí)驗(yàn)結(jié)果
表2 THUCNews聚類實(shí)驗(yàn)結(jié)果
從表1中可以看出。無論是結(jié)合K-means,還是結(jié)合MMC進(jìn)行聚類,在中英文語料上本方法都較傳統(tǒng)方法有明顯的提升。
由于不論是結(jié)合K-means,還是結(jié)合MMC算法進(jìn)行聚類,本方法都較傳統(tǒng)方法在F值上有明顯提升,故驗(yàn)證了本方法的有效性以及針對(duì)不同聚類算法的普遍適應(yīng)性。
文本信息是信息的一個(gè)重要分類,本文的研究可對(duì)文本信息進(jìn)行篩選處理,在目前大數(shù)據(jù)的環(huán)境下,高速與高精度的文本信息分類處理具有很強(qiáng)的現(xiàn)實(shí)意義。在指揮與控制活動(dòng)中,對(duì)收集到的文本信息情報(bào)進(jìn)行快速且高精度的處理,能夠?yàn)橹笓]人員提供準(zhǔn)確的決策依據(jù)。提高指揮與控制的時(shí)效性與準(zhǔn)確性,可使軍用、民用的指揮與控制活動(dòng)更及時(shí)、更準(zhǔn)確。
[1]TANG B,SHEPHERD M,MILIOS E,et al.Comparing and combining dimension reduction techniques for efficient text clustering[J].Workshop on Feature Selection for Data Mining,2005:17-26,
[2]SLAVAM K.Distribution of content words and phrases in text and language modelling[J].Natural Language Engineering,1996,3(1):15-59.
[3]KENNETH W.CHURCH,WILLIAM A.Poisson Mixtures[J].Natural Language Engineering,1995,2(1):163-190.
[4]CHEN X G,YIN W S,TU P H,et al.Weighted k-means algorithm based text clustering[C]//International Symposium on Information Engineering and Electronic Commerce,2009.
A Text Clustering Method Using Word Appearance Probability
LI Yang1,DU Yao2
(1.Shanxi Branch,Agricultural Bank of China,Taiyuan 030024,China;2.Jinzhong University,Jinzhong 030619,China)
Currently,in the big data era,information includes text,image,voice and video etc,and the volume of information is extremely large.So how to filter,classify,processing and use these information efficiently,and offering support for command and control becomes very import.As this,the proposed method which is a feature selection and feature transform method,uses the“word appearance probability”to select which term will be used as a feature while clustering and then convert word appearance frequency to a value calculated by a proposed function which defined with“word appearance probability”.The precision of filtering classify and processing for text information is improved,which can offering the information required by decision-maker fast and precise
information,text,clustering,processing
X913.3
A
1002-0640(2017)02-0172-04
2016-01-13
2016-03-08
李陽(1984-),男,山西運(yùn)城人,碩士研究生。研究方向:機(jī)器學(xué)習(xí)、自然語言處理。