金濤 戴玉剛
摘 要:文本聚類(lèi)技術(shù)是一種對(duì)文本信息進(jìn)行重新組織的重要手段,隨著人工智能的發(fā)展,文本聚類(lèi)技術(shù)得到了廣泛的研究,文本聚類(lèi)技術(shù)的算法眾多,標(biāo)準(zhǔn)眾多,但是沒(méi)有一個(gè)標(biāo)準(zhǔn)的評(píng)價(jià)體系,無(wú)法準(zhǔn)確的、科學(xué)的評(píng)價(jià)文本聚類(lèi)結(jié)果。因此本文通過(guò)對(duì)文本聚類(lèi)的評(píng)價(jià)方法進(jìn)行了一定的探討。
關(guān)鍵詞:文本聚類(lèi) 評(píng)價(jià) 標(biāo)準(zhǔn)
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-9082(2018)05-000-01
當(dāng)今是一個(gè)信息爆炸的時(shí)代,互聯(lián)網(wǎng)信息種類(lèi)繁多、內(nèi)容豐富,如何能夠在這樣繁雜的互聯(lián)網(wǎng)信息中提取有價(jià)值的、人們感興趣的信息是現(xiàn)階段的主要問(wèn)題。目前,人們對(duì)于文本聚類(lèi)技術(shù)的研究非常之多,但是目前研究中對(duì)于文本聚類(lèi)分析結(jié)果的有效性評(píng)價(jià)方法機(jī)制比較混亂,文本聚類(lèi)的算法不斷地涌現(xiàn),各說(shuō)各的好處,但是當(dāng)我們應(yīng)用到實(shí)際過(guò)程中的時(shí)候,這么多的算法中我們應(yīng)該選擇哪一個(gè)算法呢?因此,本文在通過(guò)大量研究前人的文獻(xiàn)中,總結(jié)了一些觀點(diǎn)與想法。
一、評(píng)價(jià)標(biāo)準(zhǔn)
在傳統(tǒng)的聚類(lèi)研究當(dāng)中,大致可以分為三個(gè)評(píng)價(jià)標(biāo)準(zhǔn),分別是外部評(píng)價(jià)標(biāo)準(zhǔn)、內(nèi)部評(píng)價(jià)標(biāo)準(zhǔn)和相對(duì)評(píng)價(jià)標(biāo)準(zhǔn),本文在過(guò)大量分析研究這些標(biāo)準(zhǔn)后,總結(jié)出了兩個(gè)評(píng)價(jià)的標(biāo)準(zhǔn),一是在聚類(lèi)結(jié)果分析研究中,團(tuán)內(nèi)越緊密、團(tuán)外越分離越好,另一種標(biāo)準(zhǔn)是聚類(lèi)分析的結(jié)果與人工評(píng)價(jià)的結(jié)果越接近越好。本文認(rèn)為,在不同的場(chǎng)合應(yīng)該使用不同的評(píng)價(jià)標(biāo)準(zhǔn),在某些情況下不能使用單一的標(biāo)準(zhǔn),必須將兩個(gè)或者幾個(gè)標(biāo)準(zhǔn)結(jié)合來(lái)使用才能達(dá)到更好地效果。首先是在更加緊密結(jié)合人工判定結(jié)果當(dāng)中,基于人工判定的結(jié)果表現(xiàn)更好,另外,基于人工判定的方法還能對(duì)不同的算法進(jìn)行橫向的比較,同時(shí)能夠?qū)λ惴ǖ男阅苓M(jìn)行分析,最重要的是能夠在我們?cè)O(shè)定算法參數(shù)時(shí)給予一定的指導(dǎo)作用,讓聚類(lèi)的結(jié)果更加的符合人工的判定結(jié)果。其次,函數(shù)指標(biāo)本身就可以作為算法的一部分,能夠更好地適用于計(jì)算目標(biāo)的選擇當(dāng)中去。實(shí)際在評(píng)價(jià)機(jī)制上,并不是直接使用這兩個(gè)指標(biāo),而是在這兩個(gè)指標(biāo)的指導(dǎo)下,衍生出來(lái)的一系列評(píng)價(jià)標(biāo)準(zhǔn)與方法?;诖藰?biāo)準(zhǔn)的判定,本文通過(guò)研究發(fā)現(xiàn)以下兩種評(píng)價(jià)標(biāo)準(zhǔn)在傳統(tǒng)評(píng)價(jià)當(dāng)中結(jié)果最好。
1.基于文檔的準(zhǔn)確率、召回率和F-Measure值的評(píng)價(jià)標(biāo)準(zhǔn)
2.熵的評(píng)價(jià)標(biāo)準(zhǔn)
針對(duì)語(yǔ)料X上的聚類(lèi)結(jié)果C={C1,C2,…,Cm},單獨(dú)衡量每一個(gè)簇Ci,計(jì)算簇Ci的熵 (人工判定結(jié)構(gòu)為 P={P1,P2,…,Ps}):
熵是一個(gè)非常好的指標(biāo),不僅能應(yīng)用到單獨(dú)一個(gè)簇的評(píng)價(jià),同時(shí)也可以利用簇的大小進(jìn)行加權(quán)計(jì)算,然后通過(guò)加權(quán)值對(duì)整個(gè)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià),該指標(biāo)具有很好的可比性,并且可以用于評(píng)價(jià)一個(gè)文檔屬于多個(gè)簇的聚類(lèi)結(jié)果。但是在實(shí)際的運(yùn)用過(guò)程中,單單一個(gè)熵是不能很好的評(píng)價(jià)的,必須與F值相結(jié)合使用,才能更加準(zhǔn)確的對(duì)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià)。
二、基于目標(biāo)函數(shù)的指標(biāo)
在我們上述的兩個(gè)標(biāo)準(zhǔn)中,我們提出了團(tuán)間越分離越好的觀點(diǎn),基于這個(gè)大的指標(biāo),可以衍生出的指標(biāo)可以稱(chēng)為是基于目標(biāo)函數(shù)的指標(biāo),在算法的設(shè)計(jì)當(dāng)中,函數(shù)的指標(biāo)是可以作為算法的其中一部分的,該指標(biāo)融入算法當(dāng)中,可以通過(guò)該指標(biāo)來(lái)判斷在聚類(lèi)算法當(dāng)中下一步的最優(yōu)的迭代方向,與此同時(shí),我們可以根據(jù)該指標(biāo)來(lái)判斷我們的算法是否滿(mǎn)足要求,得到結(jié)果是否達(dá)標(biāo)。
1.誤差平方和
K-means算法的目的就是通過(guò)自身的迭代去尋找一個(gè)能搞滿(mǎn)足誤差平方和最小的聚類(lèi)的方法。在上述公式當(dāng)中S表示的是一個(gè)聚類(lèi)的結(jié)果,我們可以用S={s1,s2…sk}表示聚類(lèi)的結(jié)果,其中的Sr表示的是一個(gè)簇,Cr表示的是簇的中心,應(yīng)用這個(gè)標(biāo)準(zhǔn),我們可以最小化簇與簇之間的內(nèi)部距離,使得聚類(lèi)文本當(dāng)中內(nèi)部之間的距離最小,獲得更好地聚類(lèi)結(jié)果。
從前面的討論我們可以知道,在實(shí)際運(yùn)用過(guò)程中,基于人工判定的指標(biāo)更加適合分析文本聚類(lèi)分析結(jié)果的質(zhì)量,基于函數(shù)的指標(biāo)有很多,這里只是簡(jiǎn)單提出了一種方法,函數(shù)指標(biāo)更加適用于作為算法的一部分。如果在算法設(shè)計(jì)過(guò)程中,遇到了難以設(shè)定的參數(shù),這時(shí)候我們就需要不斷的改變參數(shù)的值來(lái)獲得不同的試驗(yàn)及結(jié)果,然后利用例如K-Means算法中的方法,對(duì)結(jié)果進(jìn)行分析,選擇最優(yōu)的參數(shù)。
結(jié)語(yǔ)
隨著時(shí)代的發(fā)展,文本聚類(lèi)技術(shù)的研究也越來(lái)越重視,作為一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,聚類(lèi)文本技術(shù)具有一定的靈活性和自動(dòng)性,可以被廣泛的應(yīng)用到引擎搜索、自然語(yǔ)言處理等相關(guān)領(lǐng)域,這也是未來(lái)人工智能的一個(gè)重要的研究方向。
參考文獻(xiàn)
[1]周昭濤. 文本聚類(lèi)分析效果評(píng)價(jià)及文本表示研究[D].中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所),2005.
[2]曹曉.文本聚類(lèi)研究綜述[J].情報(bào)探索,2016(01):131-134.
[3]劉務(wù)華,羅鐵堅(jiān),王文杰.文本聚類(lèi)算法的質(zhì)量評(píng)價(jià)[J].中國(guó)科學(xué)院研究生院學(xué)報(bào),2006(05):640-646.
作者簡(jiǎn)介:金濤,(1991.10-),男,漢族,安徽省合肥人,學(xué)歷:在讀碩士研究生,研究方向:云計(jì)算。