• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      CMDC:一種差異互補(bǔ)的迭代式多維度文本聚類(lèi)算法

      2020-09-08 11:57:22黃瑞章白瑞娜陳艷平秦永彬程欣宇田有亮
      通信學(xué)報(bào) 2020年8期
      關(guān)鍵詞:多維度度量約束

      黃瑞章,白瑞娜,陳艷平,秦永彬,程欣宇,3,田有亮

      (1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽(yáng) 550025;2.貴州省公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽(yáng) 550025;3.貴州省智能人機(jī)交互工程技術(shù)研究中心,貴州 貴陽(yáng) 550025)

      1 引言

      文本聚類(lèi),旨在按照文本的相似性自動(dòng)挖掘文本的結(jié)構(gòu),是文本挖掘的重要任務(wù),被眾多應(yīng)用所關(guān)注[1]。傳統(tǒng)的文本聚類(lèi)多從單一的文本內(nèi)容維度出發(fā),根據(jù)文本內(nèi)容中的語(yǔ)義特征來(lái)挖掘文本數(shù)據(jù)集的結(jié)構(gòu)關(guān)系。隨著互聯(lián)網(wǎng)和數(shù)據(jù)分析技術(shù)的發(fā)展,文本數(shù)據(jù)的表示逐漸從傳統(tǒng)單一的內(nèi)容維度向立體的多維度發(fā)展[2]。例如,互聯(lián)網(wǎng)環(huán)境中的新聞文本數(shù)據(jù),除表示為以詞向量為代表的傳統(tǒng)內(nèi)容維度以外,還可表示為新聞文本的主題維度(如新聞?dòng)迷~所涵蓋的主題),以及新聞文本在互聯(lián)網(wǎng)傳播過(guò)程中獲得的傳播行為維度(如新聞的轉(zhuǎn)發(fā)用戶、閱讀用戶、點(diǎn)贊用戶等);研究類(lèi)論文的文本數(shù)據(jù)除表示為傳統(tǒng)的內(nèi)容維度以外,還可被描述為論文的研究行為維度,包含論文自身、引用論文和被引論文的作者等。這些多維度文本數(shù)據(jù)較傳統(tǒng)的表示方式更為全面立體,如何有效利用文本的多維度數(shù)據(jù)來(lái)分析挖掘文本數(shù)據(jù)集的結(jié)構(gòu),為傳統(tǒng)文本聚類(lèi)問(wèn)題帶來(lái)了新的機(jī)遇和挑戰(zhàn)。

      多維度文本聚類(lèi)可聯(lián)合利用多個(gè)維度的信息改善單維度信息在文本聚類(lèi)上的局限,為文本聚類(lèi)帶來(lái)了機(jī)遇。在實(shí)際的多維度文本聚類(lèi)過(guò)程中,數(shù)據(jù)的多個(gè)維度特征對(duì)文本結(jié)構(gòu)的發(fā)現(xiàn)有互補(bǔ)作用,傳統(tǒng)文本內(nèi)容維度中表現(xiàn)不佳的數(shù)據(jù)在其他維度可能獲得更好的聚類(lèi)結(jié)果。例如,在面向研究類(lèi)論文的文本聚類(lèi)問(wèn)題中,同領(lǐng)域的研究論文涉及的具體研究細(xì)節(jié)不同,使論文中的內(nèi)容和用詞不盡相同,這導(dǎo)致相同領(lǐng)域的論文在傳統(tǒng)文本內(nèi)容表達(dá)維度中具有較大的差異,難以被劃分到同一個(gè)聚類(lèi)分組中。然而在論文的研究行為維度,這些論文普遍被同一批學(xué)者所關(guān)注,更傾向于被劃分到同一類(lèi)簇中。相似地,在新聞?lì)I(lǐng)域的文本聚類(lèi)中,被相似人群關(guān)注的新聞一般具有相似的主題,但這些新聞文本聚類(lèi)的內(nèi)容表示往往因作者寫(xiě)作風(fēng)格或新聞事件演變等原因存在差異,增加了新聞文本聚類(lèi)的難度。

      除了機(jī)遇,文本的多維度表示亦為文本聚類(lèi)帶來(lái)挑戰(zhàn)。其中,多維度文本聚類(lèi)的一個(gè)核心問(wèn)題是如何從文本在多個(gè)維度的表示中獲得一致的聚類(lèi)結(jié)果。由于文本在不同維度上的表示具有差異性,使文本在維度上的距離測(cè)量不一致,導(dǎo)致各維度的聚類(lèi)劃分不一致。文本表示的差異性主要表現(xiàn)在以下2 個(gè)方面:1)不同維度的文本表示中特征的含義不同,例如,新聞內(nèi)容維度特征主要反映新聞的主題,新聞評(píng)論維度特征反映用戶對(duì)新聞的態(tài)度,新聞行為維度特征反映新聞內(nèi)容的傳播受眾群體;2)文本表示中的關(guān)鍵特征與噪聲特征的分布不同,例如新聞的主題維度中的噪聲信息相對(duì)較少,但新聞的內(nèi)容維度中普遍包含大量的噪聲信息,關(guān)鍵特征在距離測(cè)量中的貢獻(xiàn)容易被噪聲特征淹沒(méi),且各關(guān)鍵特征對(duì)距離度量的貢獻(xiàn)各異。因此,如何有效利用多維度文本聚類(lèi)的互補(bǔ)特性,設(shè)計(jì)合理的多維度文本聚類(lèi)算法以彌補(bǔ)多維度聚類(lèi)結(jié)果差異的問(wèn)題,非常值得研究。

      對(duì)于不同維度聚類(lèi)結(jié)果不一致的問(wèn)題,目前多維度文本聚類(lèi)算法大多采用首先對(duì)各維度進(jìn)行融合表示學(xué)習(xí),在此基礎(chǔ)上利用傳統(tǒng)的單維度聚類(lèi)實(shí)現(xiàn)文本聚類(lèi)的整體劃分,維度表示過(guò)程與聚類(lèi)過(guò)程被分割成2 個(gè)獨(dú)立的步驟,無(wú)法利用多維度聚類(lèi)的互補(bǔ)特點(diǎn)指導(dǎo)各維度特征的貢獻(xiàn)。針對(duì)以上問(wèn)題,本文構(gòu)建一種差異互補(bǔ)的迭代式多維度文本聚類(lèi)算法——CMDC(complementary multi-view document clustering)算法,使多維度文本聚類(lèi)過(guò)程與文本維度特征的調(diào)整互相促進(jìn),利用多維度文本的互補(bǔ)特性彌補(bǔ)多維度文本聚類(lèi)的劃分的差異,實(shí)現(xiàn)聚類(lèi)與特征調(diào)整過(guò)程的統(tǒng)一優(yōu)化。本文需要解決3 個(gè)問(wèn)題,具體如下。

      1) 如何從聚類(lèi)劃分中獲取互補(bǔ)文本,即在維度類(lèi)簇中聚類(lèi)意見(jiàn)不一致的文本數(shù)據(jù)。由于各維度聚類(lèi)類(lèi)簇含義不同,不能簡(jiǎn)單地認(rèn)為在各維度聚類(lèi)結(jié)果中未被劃分到同標(biāo)簽類(lèi)簇的文本為互補(bǔ)文本。因此,如何挑選維度間的互補(bǔ)文本是本文需要解決的問(wèn)題。

      2) 如何利用互補(bǔ)文本促進(jìn)聚類(lèi)的特征調(diào)優(yōu)。各維度聚類(lèi)類(lèi)簇關(guān)注的關(guān)鍵特征不同,需要有效利用互補(bǔ)文本改善各維度的特征在聚類(lèi)過(guò)程中的貢獻(xiàn),使互補(bǔ)文本在文本的多個(gè)維度中呈現(xiàn)一致的聚類(lèi)結(jié)果。

      3) 如何使維度特征調(diào)優(yōu)與聚類(lèi)劃分共同優(yōu)化。區(qū)別于傳統(tǒng)多維度文本聚類(lèi)算法,本算法將設(shè)計(jì)聚類(lèi)劃分與維度特征調(diào)優(yōu)的共同優(yōu)化,利用維度間的互補(bǔ)文本幫助聚類(lèi)劃分與維度特征的調(diào)優(yōu)互相迭代促進(jìn)。

      對(duì)互補(bǔ)文本的獲取問(wèn)題,CMDC 算法通過(guò)文本對(duì)的聚類(lèi)結(jié)果一致性(即是否同屬一個(gè)類(lèi)簇)來(lái)判斷文本對(duì)在不同維度中的聚類(lèi)意見(jiàn),并設(shè)計(jì)了一個(gè)可信因子綜合考慮當(dāng)前及其他維度中文本對(duì)的聚類(lèi)結(jié)果,評(píng)估文本對(duì)在當(dāng)前聚類(lèi)結(jié)果的可信程度?;诨パa(bǔ)文本,CMDC 算法以維度的度量一致性來(lái)解決多維度文本聚類(lèi)的劃分一致性問(wèn)題,通過(guò)度量學(xué)習(xí)調(diào)整維度特征對(duì)聚類(lèi)的貢獻(xiàn),在此基礎(chǔ)上本文提出了基于度量學(xué)習(xí)的約束文本聚類(lèi)算法,為各維度的每個(gè)類(lèi)簇設(shè)計(jì)了獨(dú)立的度量矩陣,利用互補(bǔ)文本調(diào)節(jié)各類(lèi)簇的度量計(jì)算方法,解決因文本差異性造成的維度和類(lèi)簇間的度量差異。在基于度量學(xué)習(xí)的約束文本聚類(lèi)中,設(shè)計(jì)了聚類(lèi)與度量學(xué)習(xí)的共同優(yōu)化目標(biāo)函數(shù),面向互補(bǔ)文本實(shí)現(xiàn)聚類(lèi)結(jié)果與度量學(xué)習(xí)的共同調(diào)優(yōu)。最終,令互補(bǔ)文本挑選及基于度量學(xué)習(xí)的約束文本聚類(lèi)算法迭代進(jìn)行,互相促進(jìn),提升各維度間聚類(lèi)結(jié)果的一致性。本文采用2 個(gè)真實(shí)的數(shù)據(jù)集進(jìn)行驗(yàn)證,并與多個(gè)先進(jìn)多維度文本聚類(lèi)算法進(jìn)行對(duì)比。從實(shí)驗(yàn)結(jié)果來(lái)看,CMDC 算法可有效地利用多維度數(shù)據(jù)的互補(bǔ)性改善多維度文本的差異性問(wèn)題,聚類(lèi)結(jié)果有明顯提升,驗(yàn)證了算法的有效性。

      2 相關(guān)工作

      多維度聚類(lèi)旨在通過(guò)對(duì)可用的多維度特征信息進(jìn)行組合,以在不同維度之間搜索一致的聚類(lèi)分配,將相似的主題分到同一類(lèi)簇中[3]。多維度聚類(lèi)問(wèn)題提出[4]以來(lái),相關(guān)算法受到了廣泛關(guān)注,并運(yùn)用于文本挖掘和信息檢索等領(lǐng)域。目前,大多算法都是直接關(guān)注聚類(lèi)目標(biāo),通過(guò)優(yōu)化算法尋求最佳的聚類(lèi)解決方案。與聚類(lèi)算法類(lèi)似,多維度聚類(lèi)也分為不同維度的特征表示學(xué)習(xí)和聚類(lèi)2 個(gè)階段。以是否將2 個(gè)階段融合為標(biāo)準(zhǔn),現(xiàn)有算法被分為2 類(lèi)。最具有代表性的是利用典型相關(guān)分析(CCA,canonical correlation analysis)將多維度數(shù)據(jù)投影到低維空間融合[5]進(jìn)行聚類(lèi)。文獻(xiàn)[6]針對(duì)2 個(gè)維度的數(shù)據(jù),基于協(xié)同訓(xùn)練思想提出了使用某一維度的拉普拉斯算子的特征向量對(duì)樣本進(jìn)行聚類(lèi),然后利用聚類(lèi)結(jié)果來(lái)修正另一維度中的拉普拉斯算子,直到得到具有足夠結(jié)構(gòu)信息的特征向量,并將其作為下游聚類(lèi)算法(k-means 或譜聚類(lèi)等)的輸入。該團(tuán)隊(duì)又從最小化數(shù)據(jù)不同維度的預(yù)測(cè)函數(shù)出發(fā),將拉普拉斯圖的特征向量矩陣作預(yù)測(cè)函數(shù),提出了2 種基于協(xié)同正則化的多維度譜聚類(lèi)算法[7]。將數(shù)據(jù)的多維度信息作為子空間特征,為了使多個(gè)子空間獲得一致的聚類(lèi)結(jié)果,文獻(xiàn)[8]通過(guò)強(qiáng)制最小化每對(duì)子空間系數(shù)矩陣來(lái)獲得共享公共系數(shù)矩陣。近年來(lái)隨著神經(jīng)網(wǎng)絡(luò)深入各個(gè)領(lǐng)域,基于深度學(xué)習(xí)框架的多維度聚類(lèi)算法也不容忽視。文獻(xiàn)[9]和文獻(xiàn)[10]都采用基于深度學(xué)習(xí)的框架來(lái)學(xué)習(xí)不同維度間的特征表示,進(jìn)行融合后再運(yùn)用圖聚類(lèi)或子空間聚類(lèi)等方法得到聚類(lèi)結(jié)果。為了改善多維度聚類(lèi)算法兩階段的斷層,逐步出現(xiàn)了統(tǒng)一特征表示和聚類(lèi)兩階段的多維度聚類(lèi)算法。文獻(xiàn)[11]將圖片的每種類(lèi)型的特征視為一個(gè)維度,提出了通過(guò)統(tǒng)一不同維度(即圖像特征)來(lái)學(xué)習(xí)共享的圖拉普拉斯矩陣的多模態(tài)光譜聚類(lèi)(MMSC,multi-modal spectral clustering)算法,并直接求解聚類(lèi)指標(biāo)矩陣。文獻(xiàn)[12]提出改進(jìn)的低秩表示模型,可對(duì)維度特征空間中的局部數(shù)據(jù)流形結(jié)構(gòu)進(jìn)行建模,基于譜聚類(lèi)實(shí)現(xiàn)多維度協(xié)議的共同優(yōu)化。在多維度深度聚類(lèi)的最新研究中,文獻(xiàn)[13]改進(jìn)單維度深度嵌入聚類(lèi)(DEC,deep embedding for clustering analysis)模型[14],利用文本聚類(lèi)的結(jié)果來(lái)調(diào)整多維度融合參數(shù)。文獻(xiàn)[15]運(yùn)用多維度聚類(lèi)解決對(duì)話意圖來(lái)學(xué)習(xí)任務(wù),提出了同時(shí)學(xué)習(xí)多維度特征表示和優(yōu)化聚類(lèi)的算法。目前,統(tǒng)一特征表示和聚類(lèi)兩階段的多維度聚類(lèi)算法中尚處于摸索階段,聚類(lèi)過(guò)程與特征表示過(guò)程雖然被同步優(yōu)化,卻忽視了多維度文本數(shù)據(jù)的差異性表示,未考慮利用具有爭(zhēng)議的聚類(lèi)文本改進(jìn)聚類(lèi)結(jié)果的不一致問(wèn)題。

      聚類(lèi)算法(如k-means 算法)依賴于底層距離函數(shù),針對(duì)由多個(gè)維度表示組成的高維稀疏的文本數(shù)據(jù),通常采用的距離函數(shù)或手動(dòng)調(diào)整的度量方式顯然是不適用的。文獻(xiàn)[16]提出距離度量學(xué)習(xí)算法尋求在半監(jiān)督或完全監(jiān)督的設(shè)置中自動(dòng)優(yōu)化距離函數(shù),其學(xué)習(xí)目標(biāo)是優(yōu)化反映當(dāng)前問(wèn)題領(lǐng)域特定概念的距離函數(shù)。文獻(xiàn)[17]在文獻(xiàn)[16]的基礎(chǔ)上提出了基于無(wú)監(jiān)督自適應(yīng)度量學(xué)習(xí)算法,同時(shí)執(zhí)行聚類(lèi)和度量矩陣學(xué)習(xí)。文獻(xiàn)[18]針對(duì)度量方式提出了一種非線性度量學(xué)習(xí)算法,通過(guò)學(xué)習(xí)非參數(shù)核矩陣來(lái)學(xué)習(xí)完全靈活的距離度量并用到聚類(lèi)中。文獻(xiàn)[19]也給出了運(yùn)用到圖像、分類(lèi)等任務(wù)上的度量學(xué)習(xí)算法的實(shí)證評(píng)估,并指出使用依賴成對(duì)約束的度量算法可以產(chǎn)生與有監(jiān)督算法相當(dāng)?shù)膶?shí)驗(yàn)效果。然而,上述基于度量學(xué)習(xí)的算法都是面向單維度數(shù)據(jù)的,其約束對(duì)或者標(biāo)簽數(shù)據(jù)都來(lái)自于數(shù)據(jù)自身。在多維度文本數(shù)據(jù)的聚類(lèi)上,文獻(xiàn)[20]將文本數(shù)據(jù)中其他維度信息與文本維度聚類(lèi)相結(jié)合,文獻(xiàn)[21]則使用了基于輔助數(shù)據(jù)約束的度量學(xué)習(xí)算法用于聚類(lèi),但這些算法在融入其他維度信息時(shí)也帶入了文本噪聲。

      3 模型設(shè)計(jì)

      3.1 符號(hào)與術(shù)語(yǔ)

      本文使用的數(shù)據(jù)集中都是文本數(shù)據(jù),為了方便數(shù)據(jù)及問(wèn)題的描述,給出如下定義。

      3.2 CMDC 算法的整體設(shè)計(jì)

      CMDC 算法利用多維度文本數(shù)據(jù)的互補(bǔ)性解決因多維度文本數(shù)據(jù)的差異性帶來(lái)的聚類(lèi)效果低下的問(wèn)題。CMDC 算法通過(guò)識(shí)別各維度聚類(lèi)結(jié)果中的互補(bǔ)文本數(shù)據(jù)來(lái)評(píng)估這些互補(bǔ)文本數(shù)據(jù)中的低質(zhì)量聚類(lèi)維度,應(yīng)用于后續(xù)的文本聚類(lèi)過(guò)程。在聚類(lèi)過(guò)程中,為各個(gè)維度的每個(gè)類(lèi)簇設(shè)計(jì)了一個(gè)度量矩陣,并自動(dòng)地利用互補(bǔ)文本來(lái)調(diào)節(jié),使互補(bǔ)文本在多個(gè)維度的度量具有相似的結(jié)果,以提升多維度文本聚類(lèi)結(jié)果的一致性,最終實(shí)現(xiàn)多維度文本聚類(lèi)整體效果的提升。CMDC 算法的具體過(guò)程如圖1 所示。

      CMDC 算法包含2 個(gè)關(guān)鍵組成部分,分別為互補(bǔ)文本挑選和約束文本聚類(lèi)?;パa(bǔ)文本挑選旨在自動(dòng)學(xué)習(xí)每個(gè)維度m聚類(lèi)結(jié)果中不一致的文本數(shù)據(jù)。本文以文本對(duì)(x i,xj) (i,j=1,2,…,|D|)來(lái)評(píng)估聚類(lèi)結(jié)果的一致性,若xi和xj在每個(gè)維度結(jié)果中都被分配到或都未被分配到同一類(lèi)簇中,則認(rèn)為xi和xj的聚類(lèi)意見(jiàn)一致,否則xi和xj在部分維度中屬于同一類(lèi)簇,在其他維度中被分配到不同的類(lèi)簇,則(xi,xj)為互補(bǔ)文本?;パa(bǔ)文本挑選為每個(gè)文本維度自動(dòng)學(xué)習(xí)互補(bǔ)文本集Cm,其中包含在維度m中聚類(lèi)質(zhì)量可信度低的互補(bǔ)文本?;パa(bǔ)文本集Cm將被加入后續(xù)的約束文本聚類(lèi)過(guò)程中,對(duì)文本聚類(lèi)進(jìn)行約束,學(xué)習(xí)聚類(lèi)過(guò)程中的合理距離度量。通過(guò)為各維度的每個(gè)類(lèi)簇k學(xué)習(xí)不同的局部度量矩陣(i=1,…,|Vm|),來(lái)調(diào)整各維度中各類(lèi)簇中各特征的貢獻(xiàn)權(quán)重,使關(guān)鍵特征在相似度測(cè)量中的貢獻(xiàn)權(quán)重更高,并相應(yīng)地降低噪聲特征的影響,最終令互補(bǔ)文本集mC中的文本對(duì)在約束文本聚類(lèi)過(guò)程的度量一致,改善聚類(lèi)結(jié)果。約束文本聚類(lèi)為各維度學(xué)習(xí)新的聚類(lèi)分配結(jié)果和局部度量矩陣,各聚類(lèi)分配用于輔助下一輪互補(bǔ)文本挑選。在CMDC 算法過(guò)程中,互補(bǔ)文本挑選與約束文本聚類(lèi)互相促進(jìn),循環(huán)迭代直至聚類(lèi)的結(jié)果收斂或互補(bǔ)文本的數(shù)量達(dá)到設(shè)置上限,CMDC 算法過(guò)程停止。聚類(lèi)停止后,挑選互補(bǔ)文本最少的維度輸出作為聚類(lèi)的整體結(jié)果。

      3.3 互補(bǔ)文本挑選

      互補(bǔ)文本挑選重點(diǎn)考慮與維度間聚類(lèi)結(jié)果不一致的文本對(duì)(x i,xj)。通過(guò)設(shè)計(jì)可信因子λ(xi,xj)m來(lái)估算文本對(duì)(x i,xj)在維度m中的聚類(lèi)可信度,該因子對(duì)(x i,xj)當(dāng)前維度和其他維度的聚類(lèi)被分配到同一類(lèi)簇的概率差異進(jìn)行對(duì)比。為減少計(jì)算量,首先選取在維度m不屬于同一類(lèi)簇中,但在其他維度中均屬于同一類(lèi)簇的文本來(lái)計(jì)算λ(xi,xj)m,如式(1)所示。

      λ(xi,xj)m的值越小,文本對(duì)(x i,xj)m在不同維度間的聚類(lèi)結(jié)果的差異越大,(x i,xj)m在維度m的聚類(lèi)結(jié)果中被歸屬于同一個(gè)類(lèi)別的概率越低,在除m以外的其他維度被聚到同類(lèi)簇的概率越高,則文本對(duì)在維度m的聚類(lèi)可信度越低。因此,通過(guò)置信閾值選取λ(xi,xj)m值合理小的文本對(duì)。設(shè)置閾值τ,并選取λ(xi,xj)m<τ的那些文本對(duì)Cm加入后續(xù)的約束文本聚類(lèi)中。

      3.4 約束文本聚類(lèi)模塊

      該模塊由約束文本聚類(lèi)算法構(gòu)成。針對(duì)每一個(gè)維度m,互補(bǔ)文本對(duì)抽取模塊依賴前序的文本聚類(lèi)結(jié)果,自動(dòng)學(xué)習(xí)互補(bǔ)文本集合Cm,互補(bǔ)文本(x i,xj)m∈Cm在單維度的聚類(lèi)中結(jié)果較差。在約束文本聚類(lèi)中,提出利用Cm改善維度m的聚類(lèi)結(jié)果。在此過(guò)程中,需要計(jì)算文本與文本之間、文本與類(lèi)簇質(zhì)心之間的距離。由于余弦相似計(jì)算無(wú)法區(qū)分特征在距離計(jì)算中的貢獻(xiàn),本文在聚類(lèi)過(guò)程中引入度量學(xué)習(xí)來(lái)進(jìn)行調(diào)整。文本xm與類(lèi)簇質(zhì)心之間的度量余弦相似如式(3)所示。

      其中,Ωm表示當(dāng)前維度m的聚類(lèi)目標(biāo),評(píng)估當(dāng)前聚類(lèi)的總體結(jié)果質(zhì)量;Φm表示約束目標(biāo),評(píng)估當(dāng)前維度的互補(bǔ)文本的符合情況。這2 個(gè)部分以參數(shù)α進(jìn)行線性連接。Ωm測(cè)量Dm中所有的文本數(shù)據(jù)到其分配類(lèi)簇的距離,對(duì)所有的文本數(shù)據(jù)以及類(lèi)簇的質(zhì)心進(jìn)行歸一化處理后,Ωm的計(jì)算如式(5)所示。

      Φm是約束目標(biāo),此目標(biāo)計(jì)算互補(bǔ)文本集Cm的符合度。判斷在互補(bǔ)文本集Cm中的文本對(duì)是否在聚類(lèi)中被劃分到一個(gè)類(lèi)別中,若否,則對(duì)文本對(duì)進(jìn)行懲罰。以文本對(duì)的λ(xi,xj)m結(jié)果計(jì)算懲罰的程度,具體計(jì)算方法如式(6)所示。

      其中,Sx表示文本x所屬的類(lèi)簇;δ表示指示函數(shù),δ(true)=1,δ(false)=0。

      本文采用循環(huán)迭代機(jī)制來(lái)計(jì)算式(4)所示目標(biāo)函數(shù)的最優(yōu)解,如算法1 所示。

      算法1約束文本聚類(lèi)算法

      輸入數(shù)據(jù)集D、文本維度m

      輸出Dm對(duì)應(yīng)的類(lèi)簇質(zhì)心、度量矩陣

      1) 初始化類(lèi)簇起始點(diǎn)。

      2) 給定聚類(lèi)的類(lèi)簇質(zhì)心點(diǎn),根據(jù)式(3)計(jì)算當(dāng)前維度的文本到各類(lèi)簇質(zhì)心的相似度,選擇相似度最高的類(lèi)簇分配文本數(shù)據(jù)。

      3) 給定聚類(lèi)分配。

      4) 更新各類(lèi)簇的質(zhì)心表示。

      6) 跳轉(zhuǎn)到2)重復(fù)直至收斂。

      其中,類(lèi)簇質(zhì)心根據(jù)被分配的所有文本進(jìn)行更新,計(jì)算方法如式(7)所示。

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集及評(píng)估方法

      實(shí)驗(yàn)使用2 個(gè)真實(shí)數(shù)據(jù)集以驗(yàn)證CMDC 算法的有效性。第一個(gè)真實(shí)數(shù)據(jù)集是英文論文數(shù)據(jù)集AMiner。此數(shù)據(jù)集包含3 個(gè)類(lèi)簇,每個(gè)文本表達(dá)為2 個(gè)維度,其中,以論文的摘要作為摘要維度,以論文的作者及參考文獻(xiàn)的第一作者作為用戶維度。本文爬取同一時(shí)期微博、百度和頭條新聞等數(shù)據(jù)源4 個(gè)重要新聞話題的熱點(diǎn)新聞,構(gòu)成一個(gè)多源熱點(diǎn)新聞數(shù)據(jù)集(MHN,multi-source hot news),作為實(shí)驗(yàn)的第二個(gè)數(shù)據(jù)集。MHN 共涉及3 個(gè)維度,包含從新聞的正文中提取的正文維度、從新聞的標(biāo)題中提取的關(guān)鍵內(nèi)容作為標(biāo)題維度,以及利用主題模型LDA(latent Dirichlet allocation)提取的主題維度。從數(shù)據(jù)維度的構(gòu)成上來(lái)看,AMiner 數(shù)據(jù)集的差異性大于MHN 數(shù)據(jù)集。表1展示了數(shù)據(jù)集的詳細(xì)信息。

      表1 數(shù)據(jù)集信息

      本文使用歸一化互信息指標(biāo)(NMI,normalized mutual information)來(lái)評(píng)價(jià)實(shí)驗(yàn)的聚類(lèi)效果,其計(jì)算式如式(9)所示。

      其中,R={r1,r2,…,rk}表示算法聚類(lèi)后的簇集合,S={s1,s2,…,sj}表示標(biāo)準(zhǔn)的聚類(lèi)標(biāo)簽;I(R;S)=H(R)?H(R|S)表示隨機(jī)變量間的互信息,H(R)表示R的熵,H(R|S)表示給定S時(shí)R的條件熵。NMI的取值范圍為[0,1],該值越大說(shuō)明聚類(lèi)效果越好。

      4.2 實(shí)驗(yàn)參數(shù)設(shè)置

      針對(duì)AMiner 數(shù)據(jù)集,考慮用戶維度覆蓋學(xué)者和其所研究的領(lǐng)域(即摘要維度)具有一定的一致性,因此利用用戶維度映射得出的表示也具有與摘要維度相同的意義,可以進(jìn)行降維,達(dá)到更好的提煉特征的效果。本文結(jié)合深度學(xué)習(xí)特征的表現(xiàn)方式,將AMiner 數(shù)據(jù)集提取的用戶維度的特征映射到摘要維度,訓(xùn)練關(guān)于用戶信息的嵌入(embedding)模型并以此來(lái)提取用戶維度的特征表示。而對(duì)MHN 數(shù)據(jù)集的標(biāo)題維度,本文則選用了包含語(yǔ)義信息的BERT(bidirectional encoder representation from transformer)模型[22]做文本表示,使輸入增加語(yǔ)義信息。2 個(gè)數(shù)據(jù)集的其他維度都使用原始的詞頻向量表示。

      對(duì)于3.2 節(jié)中CMDC 算法的停止條件,本文設(shè)置互補(bǔ)文本集數(shù)量上限為12 000;對(duì)于3.3 節(jié)中互補(bǔ)文本挑選模塊中的參數(shù),設(shè)置置信閾值τ∈(0,1)。為了更完善地捕獲多維度數(shù)據(jù)的互補(bǔ)性,通過(guò)對(duì)實(shí)驗(yàn)涉及的 2 個(gè)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)分析,將{λ(xi,xj)m;(x i,xj)m∈C m,i≠j} 的第三、四分位數(shù)設(shè)置為當(dāng)前維度閾值τ(針對(duì)不同的數(shù)據(jù)集特性,該算法需要根據(jù)自身任務(wù)及經(jīng)驗(yàn)設(shè)置合適的參數(shù),為獲得足夠數(shù)量的互補(bǔ)文本,閾值τ可進(jìn)行放大)。在本文的實(shí)驗(yàn)中,AMiner 數(shù)據(jù)集的摘要維度和用戶維度均設(shè)置為0.08,MHN 的標(biāo)題維度、正文維度以及主題維度設(shè)置為0.52。

      為使當(dāng)前維度的聚類(lèi)目標(biāo)和約束目標(biāo)同時(shí)發(fā)揮作用,實(shí)驗(yàn)中,對(duì)于式(4)所示的目標(biāo)函數(shù),本文設(shè)置α=0.5。

      4.3 對(duì)比實(shí)驗(yàn)及結(jié)果分析

      CMDC 算法的本質(zhì)是采用質(zhì)量互補(bǔ)文本挑選模塊及基于度量學(xué)習(xí)的約束文本聚類(lèi)模塊迭代進(jìn)行的,利用多維度文本數(shù)據(jù)的維度互補(bǔ)性來(lái)彌補(bǔ)文本數(shù)據(jù)在單個(gè)維度聚類(lèi)過(guò)程中質(zhì)量的不足,最終提升各維度間聚類(lèi)結(jié)果的一致性。本文通過(guò)2 個(gè)數(shù)據(jù)集共記5 個(gè)維度進(jìn)行分析,從單維度和多維度2 個(gè)方面對(duì)CMDC 算法進(jìn)行對(duì)比;除此之外,還對(duì)CMDC 算法的互補(bǔ)性和一致性進(jìn)行了探究。

      4.3.1 單維度聚類(lèi)實(shí)驗(yàn)

      為驗(yàn)證質(zhì)量互補(bǔ)文本挑選和基于度量學(xué)習(xí)的約束文本聚類(lèi)的作用,本文選取了幾種對(duì)比算法,具體如下。

      1) k-means 算法。該算法是傳統(tǒng)無(wú)監(jiān)督聚類(lèi),作為單維度聚類(lèi)性能比較的基線方法;

      2) MTCUBC[21](multi-dimensional text clustering with user behavior characteristics)算法。該算法是基于輔助維度的約束信息單向進(jìn)行基于度量學(xué)習(xí)的約束文本聚類(lèi)算法。

      實(shí)驗(yàn)設(shè)置互補(bǔ)文本對(duì)的數(shù)目為12 000 條,3 種算法的單維度聚類(lèi)性能如表2 所示,CMDC算法在所有的維度上都高于 k-means。相比于MTCUBC 算法,在除MHN 數(shù)據(jù)集的正文維度之外的其他4 個(gè)維度上,CMDC 算法分別有0.035、0.117、0.062 和0.135 的提升。同時(shí)也分析了不同數(shù)據(jù)集的提升差異,從k-means 算法的聚類(lèi)效果可以看出,AMiner 數(shù)據(jù)集中2 個(gè)維度的聚類(lèi)效果差距較小,而MHN 數(shù)據(jù)集中不同維度間的差異性雖然較低,但是各維度的性能相差高達(dá)0.3。因而在CMDC 算法過(guò)程不同維度相互迭代、相互促進(jìn)的過(guò)程中,AMiner 數(shù)據(jù)集的2 個(gè)單維度性能都得到了提高;而在MHN 數(shù)據(jù)集的3 個(gè)維度中,標(biāo)題維度和主題維度的性能都有了較大的提升,而這種提升在整個(gè)CMDC 算法中是以正文維度性能小提升(基于基線方法)為代價(jià)的,因此在正文維度,CMDC 算法的性能略低于MTCUBC算法。也正是出于對(duì)度量差異的極度不平衡性(而非來(lái)源差異性)的考慮,本文在數(shù)據(jù)預(yù)處理階段添加了語(yǔ)義嵌入來(lái)降低這種不平衡。在單維度聚類(lèi)的對(duì)比實(shí)驗(yàn)中,CMDC 算法在4 個(gè)維度上取得了最好的效果。從CMDC 算法和MTCUBC 算法的差異而言,充分說(shuō)明本文設(shè)計(jì)的互補(bǔ)文本集學(xué)習(xí)策略在聚類(lèi)過(guò)程中是有效的。

      表2 單維度聚類(lèi)性能NMI

      4.3.2 多維度聚類(lèi)實(shí)驗(yàn)

      針對(duì)多維度數(shù)據(jù)差異性和互補(bǔ)性2 個(gè)特點(diǎn),除了基線方法外,本文選取了多種算法進(jìn)行對(duì)比。

      1) Mv+k-means。對(duì)多維度信息進(jìn)行無(wú)差別拼接組合后進(jìn)行k-means 聚類(lèi),作為多維度聚類(lèi)基線方法。

      2) P-MLRSSC 和 C-MLRSSC 。MLRSSC(multi-view low-rank sparse subspace clustering)[23]系列算法通過(guò)構(gòu)造親和力矩陣,學(xué)習(xí)多維度之間共享的聯(lián)合子空間表示來(lái)改善多維度文本的差異性問(wèn)題,本文選取了適用于當(dāng)前數(shù)據(jù)集的2 個(gè)算法:P-MLRSSC(pairwise MLRSSC)、C-MLRSSC(centroid MLRSSC)用于對(duì)比,參數(shù)設(shè)置請(qǐng)見(jiàn)文獻(xiàn)[23]。

      3)MSC_IAS (multi-view subspace clustering with intactness-aware similarity)。為充分利用多維度數(shù)據(jù)的互補(bǔ)性,Wang 等[24]提出通過(guò)集成編碼的補(bǔ)充信息來(lái)學(xué)習(xí)完整空間,記為MSC_IAS。實(shí)驗(yàn)設(shè)置參數(shù)如下。AMiner 數(shù)據(jù)集:k=30,d=600。MHN數(shù)據(jù)集:k=6,d=1 500。參數(shù)釋義請(qǐng)見(jiàn)文獻(xiàn)[24]。

      同樣設(shè)置互補(bǔ)文本對(duì)的個(gè)數(shù)為1 2000 條來(lái)驗(yàn)證CMDC 算法在多維度的效果。由表3 可以看出,CMDC 算法在AMiner 數(shù)據(jù)集的提升效果最為明顯,其原因是論文在摘要維度中多關(guān)注論文解決的實(shí)際問(wèn)題和使用方法,用詞差異大,使用的用戶維度由相關(guān)文獻(xiàn)的第一作者組成,其共同關(guān)注度更高,AMiner 數(shù)據(jù)集的互補(bǔ)性更好。相比于AMiner數(shù)據(jù)集,MHN 數(shù)據(jù)集的3 個(gè)表示維度的關(guān)聯(lián)度更高,互補(bǔ)性更弱,因此多維度性能提升效果不顯著。

      表3 多維度聚類(lèi)性能NMI

      綜合單維度聚類(lèi)性能,由表 3 可以看出CMDC 算法在不同特點(diǎn)的AMiner 和MHN 數(shù)據(jù)集上性能都較為穩(wěn)定,而MSC_IAS 在差異性較大的數(shù)據(jù)集(AMiner 數(shù)據(jù)集)的性能低于基線方法,甚至可能導(dǎo)致丟失單維度數(shù)據(jù)的有效特征;面向文本數(shù)據(jù)低秩和稀疏等特點(diǎn),MLRSSC 系列算法也很好地改善了多維度間的度量差異,但相對(duì)于使用互補(bǔ)文本學(xué)習(xí)和約束文本聚類(lèi)迭代進(jìn)行的CMDC 算法,聚類(lèi)性能還有約0.02 的差距。由此證明,CMDC 算法利用多維度文本數(shù)據(jù)的互補(bǔ)性,有效地解決了因多維度文本數(shù)據(jù)差異性帶來(lái)的聚類(lèi)效果低下的問(wèn)題。多維度文本數(shù)據(jù)聚類(lèi)的維度來(lái)源差異性越大、互補(bǔ)性越好,CMDC 算法的聚類(lèi)結(jié)果越好。

      4.3.3 多維度文本的互補(bǔ)效果實(shí)驗(yàn)

      本節(jié)實(shí)驗(yàn)中,采用逐步提升互補(bǔ)文本對(duì)數(shù)量的方式來(lái)驗(yàn)證其對(duì)多維度聚類(lèi)結(jié)果的影響。實(shí)驗(yàn)結(jié)果如圖2 所示,從整體趨勢(shì)看,2 個(gè)數(shù)據(jù)集在迭代的過(guò)程中都有很好的表現(xiàn)。

      圖2(a)所示,在AMiner 數(shù)據(jù)集中,用戶維度嵌入的特征信息對(duì)摘要維度聚類(lèi)效果的影響表現(xiàn)很穩(wěn)定,明顯上升后開(kāi)始進(jìn)入收斂階段,充分說(shuō)明在互補(bǔ)性較強(qiáng)的數(shù)據(jù)集上CMDC 算法效果顯著。反觀MHN 數(shù)據(jù)集(如圖2(b)所示),正文維度初始聚類(lèi)NMI 達(dá)到0.86,加入挑選互補(bǔ)文本集初期有較為明顯的下降后進(jìn)入收斂,產(chǎn)生此結(jié)果的原因是MHN 數(shù)據(jù)集的維度之間有較強(qiáng)的關(guān)聯(lián)性,使正文維度在整體聚類(lèi)過(guò)程中有最好的結(jié)果,而從其他2 個(gè)維度提取的互補(bǔ)文本數(shù)據(jù)對(duì)正文維度的互補(bǔ)性不強(qiáng),甚至可能提取了含有噪聲的文本用于互補(bǔ),導(dǎo)致性能降低。相應(yīng)地,標(biāo)題維度和主題維度中包含的特征較少,效果不佳,而從正文維度中可提取更多的互補(bǔ)文本,呈現(xiàn)較明顯的提升趨勢(shì)。

      4.3.4 多維度文本聚類(lèi)一致性提升效果實(shí)驗(yàn)

      CMDC 算法使用互補(bǔ)文本對(duì)挑選和約束文本聚類(lèi)模塊改善了不同維度之間的差異性問(wèn)題,使置信度較高的樣本在不同維度中得到一致的聚類(lèi)結(jié)果。其中,互補(bǔ)文本旨在捕獲不同維度的互補(bǔ)性,通過(guò)度量學(xué)習(xí)調(diào)整不同維度、不同類(lèi)簇的測(cè)量方式,從而使式(4)所示的目標(biāo)函數(shù)最小化。以數(shù)據(jù)集AMiner 為例,多維度聚類(lèi)一致性的趨勢(shì)如圖3 所示。

      圖3 展示的是AMiner 數(shù)據(jù)集摘要維度使用3.3 節(jié)自動(dòng)挑選的900 對(duì)互補(bǔ)文本進(jìn)行約束聚類(lèi)的情況,其中694 對(duì)與實(shí)際樣本類(lèi)別一致,206 對(duì)為噪聲樣本。在約束文本聚類(lèi)的過(guò)程中,一致的約束互補(bǔ)文本對(duì)最高攀升到了568 對(duì),并平均維持在476 對(duì),說(shuō)明通過(guò)CMDC 算法使來(lái)自用戶維度的聚類(lèi)信息運(yùn)用到了摘要維度,通過(guò)約束文本聚類(lèi)模塊實(shí)現(xiàn)了聚類(lèi)信息的共享;同時(shí)統(tǒng)計(jì)了在這些一致樣本對(duì)中與實(shí)際樣本類(lèi)別相同的數(shù)量,可以看出與一致樣本對(duì)數(shù)量趨勢(shì)相同,并且差值保持在90 對(duì)左右,這些樣本是會(huì)影響聚類(lèi)的噪聲樣本對(duì)。聚類(lèi)過(guò)程中一致樣本對(duì)數(shù)量的震蕩也是聚類(lèi)性能趨勢(shì)的體現(xiàn)。

      圖2 CMDC 算法在2 種數(shù)據(jù)集的NMI 性能

      圖3 多維度聚類(lèi)一致性趨勢(shì)曲線

      總體而言,CMDC 算法自動(dòng)挑選各維度間的測(cè)量不一致的樣本作為互補(bǔ)文本,利用基于度量學(xué)習(xí)的約束文本聚類(lèi)模塊,通過(guò)遞增互補(bǔ)文本促進(jìn)聚類(lèi),提高不同維度間聚類(lèi)性能的一致性。CMDC 算法過(guò)程可以實(shí)現(xiàn)改進(jìn)不同類(lèi)別形狀達(dá)到更好的聚類(lèi)效果。

      5 結(jié)束語(yǔ)

      本文提出的CMDC 算法是一種多維度文本聚類(lèi)算法,算法中的互補(bǔ)文本挑選模塊和約束聚類(lèi)模塊通過(guò)相互促進(jìn)的迭代模式形成整體;有效地利用數(shù)據(jù)的互補(bǔ)性改善了多維度文本的差異性問(wèn)題,實(shí)現(xiàn)聚類(lèi)結(jié)果與度量學(xué)習(xí)的共同調(diào)優(yōu)。CMDC 算法是基于度量學(xué)習(xí)在多維度文本聚類(lèi)算法的改進(jìn),其思路亦可以應(yīng)用于其他算法中,具有很好的通用效果。

      本文算法還有需要進(jìn)一步改進(jìn)的地方,未來(lái)除了學(xué)習(xí)互補(bǔ)文本做約束外,將探索不同類(lèi)簇之間潛在的聚類(lèi)相關(guān)性語(yǔ)義[25],以及在選擇約束文本聚類(lèi)的過(guò)程中,解決由低基線維度導(dǎo)致的互補(bǔ)文本集噪聲問(wèn)題。

      猜你喜歡
      多維度度量約束
      有趣的度量
      模糊度量空間的強(qiáng)嵌入
      “碳中和”約束下的路徑選擇
      “多維度評(píng)改”方法初探
      約束離散KP方程族的完全Virasoro對(duì)稱(chēng)
      迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
      多維度市南
      商周刊(2017年7期)2017-08-22 03:36:22
      地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
      適當(dāng)放手能讓孩子更好地自我約束
      人生十六七(2015年6期)2015-02-28 13:08:38
      多維度巧設(shè)聽(tīng)課評(píng)價(jià)表 促進(jìn)聽(tīng)評(píng)課的務(wù)實(shí)有效
      體育師友(2012年4期)2012-03-20 15:30:10
      堆龙德庆县| 额尔古纳市| 淳化县| 安泽县| 澜沧| 北票市| 犍为县| 兴山县| 扎兰屯市| 靖宇县| 高清| 丘北县| 福贡县| 陇川县| 黑山县| 宜章县| 澄城县| 常德市| 马边| 枣庄市| 织金县| 惠来县| 溧水县| 班玛县| 菏泽市| 苏尼特左旗| 湘阴县| 洛川县| 伊吾县| 望都县| 抚宁县| 连南| 平罗县| 观塘区| 大荔县| 山阳县| 澜沧| 武川县| 武定县| 达日县| 临潭县|