摘 要:深度半監(jiān)督聚類旨在利用少量的監(jiān)督信息達(dá)到更好的聚類效果。然而,由于標(biāo)注成本昂貴,監(jiān)督信息的數(shù)量往往是有限的。因此,在監(jiān)督信息有限的情況下,如何選擇對聚類最有價(jià)值的監(jiān)督信息變得至關(guān)重要。針對以上問題,提出了基于主動學(xué)習(xí)的深度半監(jiān)督聚類模型(DASCM)。該模型設(shè)計(jì)了一種主動學(xué)習(xí)方法,能夠挑選出蘊(yùn)涵豐富信息的邊緣文本,并進(jìn)一步生成蘊(yùn)涵邊緣文本的高價(jià)值監(jiān)督信息。該模型利用這些監(jiān)督信息指導(dǎo)聚類,從而提升聚類性能。在5個(gè)真實(shí)文本數(shù)據(jù)集上的實(shí)驗(yàn)表明,DASCM的聚類性能有顯著提升。這一結(jié)果驗(yàn)證了利用主動學(xué)習(xí)方法生成的涵蓋邊緣文本的監(jiān)督信息對于提升聚類效果是有效的。
關(guān)鍵詞:深度半監(jiān)督聚類;主動學(xué)習(xí);邊緣文本
中圖分類號:TP181 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)10-011-2955-07
doi:10.19734/j.issn.1001-3695.2024.01.0025
Deep active semi-supervised clustering model
Fu Yanyan Huang Ruizhang Xue Jingjing Ren Lina Chen Yanping Lin Chuana,b,c
(a.Text Computing & Cognitive Intelligence Engineering Research Center of National Education Ministry, b.State Key Laboratory of Public Big Data, c.College of Computer Science & Technology, Guizhou University, Guiyang 550025, China)
Abstract:Deep semi-supervised clustering aims to achieve better clustering results using a small amount of supervised information. However, the amount of supervised information is often limited due to the expensive labelling cost. Therefore, with limited supervised information, it becomes crucial to select the most valuable supervisory information for clustering. To address the above problem, this paper proposed a deep active semi-supervised clustering model(DASCM) which designed an active learning method that was able to select marginal texts containing rich information and further generated high-value supervised information containing edge texts. The model used this supervised information to guide the clustering, thus improving the clustering performance. The experimental results on five real text datasets show that the clustering performance of DASCM is signi-ficantly improved. This result verifies that supervised information generated using active learning methods that cover marginal text is effective in improving clustering.
Key words:deep semi-supervised clustering; active learning; marginal text
0 引言
聚類是數(shù)據(jù)挖掘領(lǐng)域中一個(gè)非常重要且十分具有挑戰(zhàn)性的任務(wù)[1],旨在將數(shù)據(jù)在無監(jiān)督的情況下劃分為不同的類簇[2]。半監(jiān)督聚類方法[3]通過給予少量監(jiān)督信息可以進(jìn)一步提高聚類的準(zhǔn)確性。近年來,隨著深度學(xué)習(xí)的發(fā)展,結(jié)合神經(jīng)網(wǎng)絡(luò)[4]的半監(jiān)督深度聚類模型逐漸成為該領(lǐng)域研究熱點(diǎn)。
由于標(biāo)注成本昂貴,現(xiàn)有深度半監(jiān)督聚類方法的監(jiān)督信息數(shù)量往往是有限的[5]。在這種情況下,如何挑選高質(zhì)量的監(jiān)督信息變得至關(guān)重要。為了解決這一問題,主動學(xué)習(xí)成為一種有效的策略。主動學(xué)習(xí)旨在利用少量的標(biāo)記數(shù)據(jù)最大程度提升模型性能[6]。通常,它選擇最有價(jià)值的樣本進(jìn)行標(biāo)注,以達(dá)到預(yù)期效果。關(guān)于主動學(xué)習(xí)的研究不得不面臨一個(gè)關(guān)鍵的問題,即在聚類任務(wù)中,如何挑選最有價(jià)值的信息。
對于文本聚類任務(wù),處于類簇邊緣且難以明確判定其所屬類簇的邊緣文本對聚類效果的影響較大。正如圖1所示,被紅色(見電子版)圓圈標(biāo)記的文本位于類簇邊界,其所屬類簇的劃分也顯得極為模糊,這些文本被稱為邊緣文本。邊緣文本呈現(xiàn)出較高的不確定性,其所屬的類簇難以確定。在信息論[7]中,數(shù)據(jù)的不確定性越高,其蘊(yùn)涵的信息量就越大。面對聚類任務(wù)時(shí),具有更高不確定性的邊緣文本能夠提供更豐富的信息,因而具有更高的價(jià)值。現(xiàn)有深度半監(jiān)督聚類方法往往忽視了這些邊緣文本的存在,其監(jiān)督信息也未涵蓋擁有豐富信息量的邊緣文本,從而影響最終的聚類效果。
針對該問題,本文設(shè)計(jì)了基于主動學(xué)習(xí)的深度半監(jiān)督聚類模型(deep active semi-supervised clustering model, DASCM)(圖2),利用主動學(xué)習(xí)方法有效提高深度半監(jiān)督聚類的監(jiān)督信息質(zhì)量,明顯提升了聚類性能。DASCM構(gòu)造了一個(gè)基于主動學(xué)習(xí)的半監(jiān)督信息生成器,該生成器包含了兩個(gè)模塊。a)邊緣文本挑選模塊。該模塊基于主動學(xué)習(xí)的思想,設(shè)計(jì)了面向聚類任務(wù)的挑選機(jī)制,旨在挑選出具有豐富信息量的邊緣文本,即主動學(xué)習(xí)中的有效信息,并進(jìn)一步構(gòu)造“邊緣文本-中心文本”問題。b)基于主動學(xué)習(xí)的監(jiān)督信息生成模塊。該模塊使用主動學(xué)習(xí)的思想,旨在生成涵蓋邊緣文本的高質(zhì)量監(jiān)督信息進(jìn)而指導(dǎo)聚類。根據(jù)輸入的有關(guān)邊緣文本的問題,獲取真實(shí)的邊緣文本與類簇中心文本的關(guān)系,從而構(gòu)建“邊緣文本-中心文本”的關(guān)系對。此外,半監(jiān)督重構(gòu)目標(biāo)更新模塊將“邊緣文本-中心文本”的關(guān)系對作為半監(jiān)督聚類的監(jiān)督信息,從而進(jìn)一步提升聚類性能。DASCM面向聚類任務(wù),利用主動學(xué)習(xí)方法生成關(guān)于邊緣文本的高質(zhì)量監(jiān)督信息,提升了聚類效果。
本文的主要工作如下:
a)設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)基于主動學(xué)習(xí)的深度半監(jiān)督聚類模型,能夠使用少量的監(jiān)督信息最大程度地提升模型聚類性能;
b)提出了一種面向聚類結(jié)構(gòu)的主動學(xué)習(xí)方法,能夠自動選擇對聚類任務(wù)最具價(jià)值的樣本;
c)提出了一種監(jiān)督信息的生成方法,通過利用主動學(xué)習(xí)方法挑選出的樣本生成高質(zhì)量的聚類監(jiān)督信息,進(jìn)一步提升了聚類性能。
1 相關(guān)工作
1.1 半監(jiān)督聚類
半監(jiān)督聚類結(jié)合了聚類和半監(jiān)督學(xué)習(xí)的思想[8],通過數(shù)據(jù)集中少量的標(biāo)簽數(shù)據(jù)[9]或約束信息[10]來提高聚類性能。
大多數(shù)半監(jiān)督聚類方法主要是在已有的經(jīng)典聚類方法的基礎(chǔ)上,通過添加約束信息來優(yōu)化聚類結(jié)果[11]。當(dāng)約束信息是獨(dú)立的類標(biāo)簽時(shí),Basu等人[12]基于Seeds集對K-means進(jìn)行改進(jìn),提出了Seeded-Kmeans算法,其基本思想是將標(biāo)記樣本引入K-means[13]。Wagstaff等人[14]提出的COP-Kmeans算法將成對約束引入到K-means算法中,不同點(diǎn)在于要求數(shù)據(jù)必須滿足ML(must-link)或CL(cannot-link)約束,即任意兩個(gè)數(shù)據(jù)樣本要么滿足ML約束(這兩個(gè)樣本一定屬于同一類),要么滿足CL約束(這兩個(gè)樣本一定不屬于同一類),其聚類思想與K-means一致。
隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,深度聚類已經(jīng)取得了顯著的效果。目前比較有代表性的深度半監(jiān)督聚類是SDEC(semi-supervised deep embedded clustering)[15],在DEC(deep embedded clustering)的基礎(chǔ)上將成對約束引入到特征學(xué)習(xí)過程中。Ohi等人[16]提出的AutoEmbedder能夠基于成對約束生成可聚類的嵌入點(diǎn),這些嵌入點(diǎn)不僅維度更低,而且更能體現(xiàn)樣本點(diǎn)之間的聯(lián)系。Wang等人[17]提出的PCSA-DEC基于成對約束構(gòu)造了一個(gè)約束損失函數(shù)。該損失函數(shù)可以確保同類樣本的相似性遠(yuǎn)高于其他樣本。
半監(jiān)督聚類有效利用了監(jiān)督信息,相較于無監(jiān)督聚類,其聚能性能得到了顯著提升?,F(xiàn)有方法主要通過隨機(jī)選取樣本進(jìn)行標(biāo)注以獲取監(jiān)督信息,這使得監(jiān)督信息的質(zhì)量難以保證。
1.2 主動學(xué)習(xí)
主動學(xué)習(xí)在機(jī)器學(xué)習(xí)領(lǐng)域中被廣泛研究,通過標(biāo)注盡可能少的樣本,最大程度地提高模型的性能[18]。Lewis[19]提出基于池的主動學(xué)習(xí)查詢?nèi)绾螛?biāo)記最不確定的樣本。Seung等人[20]提出的QBC(query-by-committee)算法基于一個(gè)委員會模型,委員會對候選樣本的標(biāo)簽投票,被選出來的樣本是那些意見最不一致的數(shù)據(jù)樣本。Settles等人[21]提出用于判別概率模型類別的期望梯度長度(expected gradient length,EGL)方法,主要思想是挑選能夠給當(dāng)前模型帶來最大變化的樣本。Settles等人[22]又提出信息密度框架,其基本思想是挑選的樣本不僅是不確定的,而且還應(yīng)該代表輸入數(shù)據(jù)的分布情況。
近年來,隨著深度學(xué)習(xí)的發(fā)展,結(jié)合神經(jīng)網(wǎng)絡(luò)的深度主動學(xué)習(xí)逐漸成為領(lǐng)域研究熱點(diǎn)。Sinha等人[23]提出的VAAL模型引入生成對抗網(wǎng)絡(luò)用于標(biāo)記樣本的擴(kuò)充。VAAL可以在大規(guī)模數(shù)據(jù)集上學(xué)習(xí)有效的低維潛在表示,并通過聯(lián)合數(shù)據(jù)表示和不確定性進(jìn)一步提供了一種有效的采樣方法。后續(xù)Kim等人[24]提出TA-VAAL模型,同時(shí)利用了全局?jǐn)?shù)據(jù)分布和模型不確定性共同進(jìn)行樣本挑選。Cho等人[25]提出一種快速且易實(shí)現(xiàn)的框架,稱為主動學(xué)習(xí)的最大分類器差異(MCDAL)。該框架考慮利用多個(gè)分類器預(yù)測的差異性來構(gòu)建主動學(xué)習(xí)的采樣函數(shù),以挑選最不確定的樣本進(jìn)行標(biāo)記。
主動學(xué)習(xí)能夠使用較少的標(biāo)記樣本訓(xùn)練出優(yōu)秀的模型,從而在降低標(biāo)記成本的同時(shí)不犧牲性能。但是,在半監(jiān)督聚類任務(wù)中,主動學(xué)習(xí)如何挑選有價(jià)值的信息,目前的研究尚未提供清晰的解決思路。
2 模型設(shè)計(jì)
DASCM主要有文本語義表示學(xué)習(xí)模塊、基于主動學(xué)習(xí)的半監(jiān)督信息生成器和聚類模塊三個(gè)部分組成,如圖2所示。
2.1 文本語義表示學(xué)習(xí)模塊
為了方便聚類,本文利用詞袋模型[26]對文本數(shù)據(jù)進(jìn)行編碼,得到原始的向量表示X={x1,x2,…,xn}。
由于真實(shí)文本數(shù)據(jù)轉(zhuǎn)為向量后,維度通常會變得很高。所以,本文利用自動編碼器(auto-encoder,AE)對輸入向量X={x1,x2,…,xn}降維并提取文本語義表示[27]。自動編碼器使用了一組神經(jīng)網(wǎng)絡(luò)對輸入數(shù)據(jù)進(jìn)行非線性映射fθ:X→Z,其中θ是可學(xué)習(xí)的參數(shù),Z就是網(wǎng)絡(luò)學(xué)習(xí)到的文本語義表示。
AE主要分為編碼器和解碼器兩個(gè)部分,其工作過程描述為
H(l)=φ(W(l)H(l-1)+b(l))(1)
其中:φ表示ReLU激活函數(shù);W(l)和b(l)分別為第l層的權(quán)重和偏置。
AE通過縮小神經(jīng)網(wǎng)絡(luò)的輸出X^和訓(xùn)練目標(biāo)X的差距,根據(jù)式(2)優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù),使其學(xué)習(xí)到更能代表原始數(shù)據(jù)的文本語義表示Z。
LAE=1n‖X-X^‖2F(2)
2.2 基于主動學(xué)習(xí)的半監(jiān)督生成器
2.2.1 邊緣文本挑選模塊
在監(jiān)督信息數(shù)量有限的情況下,所選擇的監(jiān)督信息應(yīng)該對優(yōu)化類簇結(jié)構(gòu)具有較高的價(jià)值。在半監(jiān)督聚類任務(wù)中,處于類簇邊界的邊緣文本具有極高的不確定性,蘊(yùn)涵了更豐富的信息。因此,若監(jiān)督信息涵蓋邊緣文本,則能為類簇的劃分提供更多的信息,幫助優(yōu)化類簇結(jié)構(gòu)。本文提出的邊緣文本挑選模塊設(shè)計(jì)了基于主動學(xué)習(xí)方法的挑選機(jī)制,旨在發(fā)現(xiàn)類簇中蘊(yùn)涵豐富信息的邊緣文本,從而構(gòu)建關(guān)系問題,進(jìn)一步生成涵蓋邊緣文本的高質(zhì)量監(jiān)督信息。根據(jù)觀察結(jié)果,本文所挑選的邊緣文本滿足以下特點(diǎn):邊緣文本大多處于兩個(gè)或兩個(gè)以上的類簇邊界處,它們屬于周圍類的概率是相似的。例如,考慮第i個(gè)樣本是邊緣文本,該樣本位于空間位置上第j和k個(gè)類的類簇邊緣。在這種情況下,第i個(gè)樣本同時(shí)屬于第j和k個(gè)類的概率非常接近。這意味著邊緣文本對于其所屬類簇的歸屬是極其不確定的。基于上述特性,本文構(gòu)造了式(3)來發(fā)現(xiàn)邊緣文本。
E=argminxi-∑nj=1p(yj|xi)lg(p(yj|xi))(3)
其中:yj表示樣本被分配到第j個(gè)類的事件;p(yj|xi)表示xi這個(gè)樣本被分配到第j個(gè)類這個(gè)事件的概率;∑ni=1 ∑nj=1p(yj|xi)反映了當(dāng)前聚類結(jié)構(gòu)分布情況。本文基于最小化信息熵,挑選一批不確定性最高的邊緣文本。
在半監(jiān)督聚類中,監(jiān)督信息多以約束對的形式出現(xiàn)。因此在挑選出邊緣文本E={e1,e2,…,en}后,還需進(jìn)一步使用邊緣文本生成合適的約束對。本文的思路是:a)根據(jù)當(dāng)前類簇劃分確認(rèn)聚類中心文本,即與聚類質(zhì)心最相似的文本,聚類中心文本可以按照式(4)求得(μj表示第j個(gè)簇的聚類質(zhì)心,sim(·)表示相似度的度量,從X={x1,x2,…,xn}中選擇出文本ci,使得式(4)成立,即文本ci與聚類質(zhì)心μj有最大相似度,那么文本ci被認(rèn)定是第j個(gè)簇的中心文本)。b)構(gòu)建關(guān)于邊緣文本和中心文本的約束對。本文將獲取邊緣文本和中心文本的真實(shí)關(guān)系,進(jìn)一步形成邊緣文本-中心文本的關(guān)系對。這些關(guān)系對將作為半監(jiān)督聚類中的監(jiān)督信息,以優(yōu)化類簇結(jié)構(gòu),提升聚類效果。
因此,如何獲取邊緣文本和聚類中心文本的關(guān)系尤為重要。本文首先設(shè)計(jì)一批關(guān)于邊緣文本-中心文本的問題,該問題將邊緣文本與中心文本一一對應(yīng),以關(guān)系對〈ei,cj〉的形式呈現(xiàn),并將這些關(guān)系問題作為后續(xù)模塊的輸入,后續(xù)模塊將給出明確的關(guān)于關(guān)系的答案。
argmaxci∑kj=1sim(ci,μj)(4)
2.2.2 基于主動學(xué)習(xí)的監(jiān)督信息生成模塊
本節(jié)基于主動學(xué)習(xí)的思想,旨在生成涵蓋邊緣文本的高質(zhì)量監(jiān)督信息,并利用該監(jiān)督信息指導(dǎo)聚類過程。首先,將上一模塊構(gòu)建的關(guān)系問題通過標(biāo)注過程,查詢邊緣文本與中心文本之間的真實(shí)關(guān)系,從而構(gòu)建邊緣文本-中心文本關(guān)系對。具體來說,如果當(dāng)前的邊緣文本ei與中心文本cj屬于同一個(gè)類,那么在本文中,認(rèn)為它們是存在聯(lián)系的,將它們形成的關(guān)系對〈ei,cj〉加入到關(guān)系對集合R當(dāng)中。最終,將得到一批涵蓋了邊緣文本的關(guān)系對,這批關(guān)系對能為聚類提供更豐富的信息。
接下來,要考慮如何將關(guān)系對用于指導(dǎo)聚類,幫助優(yōu)化類簇結(jié)構(gòu)。DASCM利用關(guān)系對構(gòu)造半監(jiān)督信息矩陣,用于引導(dǎo)聚類。半監(jiān)督信息矩陣為n×n的對稱矩陣M,Mij記錄了樣本xi與xj之間的關(guān)系。在本文中,設(shè)定有兩種關(guān)系:a)ML約束,表示樣本xi與xj屬于同一類;b)CL約束,表示樣本xi與xj不屬于同一類。對稱矩陣的構(gòu)造如下:
Mij=1 (xi,xj)∈R0(xi,xj)R(5)
根據(jù)已獲取的關(guān)系對,本文將屬于同一類的邊緣文本ei和中心文本cj對應(yīng)的半監(jiān)督信息矩陣的第i行和第j列的值設(shè)置為1,由于半監(jiān)督信息矩陣為對稱矩陣,Mji的值也設(shè)置為1。不屬于同一類的文本所對應(yīng)的值設(shè)置為0。
DASCM利用監(jiān)督信息更新重構(gòu)目標(biāo),以此學(xué)習(xí)到更好的文本語義表示,從而提升聚類效果。本文設(shè)計(jì)了式(6),利用半監(jiān)督信息矩陣更新文本表示學(xué)習(xí)模塊的訓(xùn)練目標(biāo),監(jiān)督自編碼器對文本語義表示的學(xué)習(xí)。
Y=M·X+X(6)
其中:M表示半監(jiān)督信息矩陣;X表示文本向量表示。本文將重構(gòu)目標(biāo)更新,從而引導(dǎo)學(xué)習(xí)到的文本語義表示改變,進(jìn)一步提升聚類效果。
本文利用主動學(xué)習(xí)方法發(fā)現(xiàn)類簇中蘊(yùn)涵豐富信息的邊緣文本,并通過查詢邊緣文本與中心文本的實(shí)際關(guān)系,構(gòu)建基于邊緣文本的關(guān)系對。本文利用這些關(guān)系對構(gòu)造半監(jiān)督信息矩陣,并利用這些監(jiān)督信息指導(dǎo)聚類,從而提升聚類性能。
2.3 聚類模塊
本節(jié)將學(xué)習(xí)到的文本語義表示點(diǎn)進(jìn)行聚類,并不斷調(diào)整參數(shù)得到更好的聚類結(jié)果。
在得到新的訓(xùn)練目標(biāo)Y后,根據(jù)式(2),可進(jìn)一步得到如下所示的目標(biāo)函數(shù):
LAE=1n‖X^-(M·X+X)‖2F(7)
其中:X^是AE的輸出;M是利用監(jiān)督信息生成的半監(jiān)督信息矩陣,用于更新原來的重構(gòu)目標(biāo)。通過最小化損失函數(shù)LAE(式(7))得到所期望的文本語義表示Z。
給定文本語義表示學(xué)習(xí)模塊學(xué)習(xí)好的文本語義表示和初始聚類質(zhì)心,本文使用兩個(gè)步驟交替的算法來改進(jìn)聚類。a)計(jì)算文本語義表示點(diǎn)和類簇質(zhì)心之間的軟分配,即文本語義表示點(diǎn)屬于每個(gè)類的概率;b)更新深度映射fθ,即更新神經(jīng)網(wǎng)絡(luò)的參數(shù),旨在調(diào)整文本語義表示點(diǎn)以更好地對應(yīng)聚類質(zhì)心,并且利用輔助目標(biāo)分布來優(yōu)化聚類質(zhì)心。交替進(jìn)行這個(gè)過程,直到滿足收斂標(biāo)準(zhǔn)。
t-分布能夠減少異常點(diǎn)的影響,為了更好地適應(yīng)不同分布的數(shù)據(jù),本文采用t-分布來計(jì)算zi和μj之間的軟分配。qij表示第i個(gè)文本屬于第j個(gè)類的概率,公式如下:
qij=(1+‖zi-μj‖2/α)-α+12∑j′(1+‖zi-μj′‖2/α)-α+12(8)
其中:α是t-分布的自由度,在本文中設(shè)置為1。為了優(yōu)化聚類質(zhì)心,使用了如下所示的輔助目標(biāo)分布。
pij=q2ij/fj∑j′q2ij′/fj′(9)
其中: fi=∑jq2ij是軟類簇分配概率,輔助目標(biāo)分布pij能夠幫助強(qiáng)化預(yù)測。
DASCM通過匹配軟分配與輔助目標(biāo)分布來訓(xùn)練,為此,定義聚類損失函數(shù)為軟分配和目標(biāo)分布之間的KL散度損失(式(10))。
L=KL(P‖Q)=∑i ∑j(pijlogpijqij)(10)
算法1 DASCM模型的運(yùn)算過程
輸入:文本數(shù)據(jù)集;關(guān)系對數(shù)量b;最大迭代次數(shù) MaxIter,預(yù)訓(xùn)練次數(shù)epochs,待學(xué)習(xí)的DASCM模型。
輸出:文本聚類結(jié)果。
1)文本語義表示的學(xué)習(xí)
while 訓(xùn)練次數(shù)< epochs:
do 根據(jù)式(2)訓(xùn)練文本表示模塊,更新模塊神經(jīng)網(wǎng)絡(luò)參數(shù)W(l),b(l)
end
依據(jù)訓(xùn)練好的文本表示模塊,根據(jù)式(1)得到初步的文本表示H
return H
2)聚類
使用K-means算法初始化聚類中心μ
while迭代次數(shù)< MaxIter:
do 使用式(8),根據(jù)Z和μ計(jì)算Q分布
使用式(9),根據(jù)分布Q計(jì)算目標(biāo)分布P
根據(jù)式(10),更新模型參數(shù)
end
return 聚類結(jié)果
3)邊緣文本挑選
根據(jù)得到的聚類結(jié)果,利用式(3)發(fā)現(xiàn)類簇邊緣文本E
利用式(4)計(jì)算得到所有中心文本c,將每個(gè)邊緣文本ei與中心文本cj一一對應(yīng),生成關(guān)系問題〈ei,cj〉
4)基于主動學(xué)習(xí)的監(jiān)督信息生成
將所有關(guān)系問題組通過標(biāo)注查詢得到邊緣文本與中心文本的實(shí)際關(guān)系,屬于同一類的〈ei,cj〉加入關(guān)系對集R,最終得到數(shù)量為b的關(guān)系對
使用關(guān)系對集R通過式(5)構(gòu)造半監(jiān)督信息矩陣M
通過式(6),計(jì)算得到新的訓(xùn)練目標(biāo)Y
return Y
將新的訓(xùn)練目標(biāo)Y用于替換文本語義表示學(xué)習(xí)中的訓(xùn)練目標(biāo)
再次運(yùn)行1)2)兩個(gè)過程
return 聚類結(jié)果
2.4 參數(shù)優(yōu)化
在本文中,主要利用半監(jiān)督信息矩陣M更新訓(xùn)練目標(biāo),利用損失函數(shù)(式(7))使得AE能夠進(jìn)一步學(xué)習(xí)到更好的文本語義表示Z。AE的參數(shù)為W,偏置為b,給定神經(jīng)網(wǎng)絡(luò)輸出X^計(jì)算如式(11)所示。
X^=WX+b(11)
利用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化深度神經(jīng)網(wǎng)絡(luò)參數(shù)。損失函數(shù)LAE關(guān)于神經(jīng)網(wǎng)絡(luò)參數(shù)W求導(dǎo)為
LAE W=2n(WX+b-(MX+X))·XT(12)
對神經(jīng)網(wǎng)絡(luò)參數(shù)b求導(dǎo),如式(13)所示。
LAE W=2n(WX+b-(MX+X))(13)
參數(shù)W的更新如下所示,其中η為學(xué)習(xí)率。
Wnew→Wold-η· LAE W(14)
參數(shù)b的更新如下所示。
bnew→bold-η· LAE b(15)
由于蘊(yùn)涵豐富信息的半監(jiān)督矩陣M參與了神經(jīng)網(wǎng)絡(luò)參數(shù)的更新,模型生成的高價(jià)值監(jiān)督信息將正向引導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練。這能夠幫助AE學(xué)習(xí)到更好的文本語義表示Z,使用更新的Z可以促進(jìn)類簇的劃分,從而達(dá)到更好的聚類效果。
2.5 模型時(shí)空復(fù)雜度分析
為了更好地闡明DASCM的效率,本文對該模型的時(shí)間和空間復(fù)雜度進(jìn)行了分析。
本文設(shè)定輸入數(shù)據(jù)的維度為d,數(shù)量為n。對于文本語義表示模塊,設(shè)神經(jīng)網(wǎng)絡(luò)層數(shù)為L,各層輸出維度分別為d1,d2,…,dL。時(shí)間復(fù)雜度為O(nd21d22…d2L),空間復(fù)雜度為O(nd)。對于聚類模塊,設(shè)定類簇?cái)?shù)量為k, 該模塊與DEC的時(shí)空復(fù)雜度一致。時(shí)間復(fù)雜度為O(kn+n ln(n)),空間復(fù)雜度為O(kn)。
對于基于主動學(xué)習(xí)的監(jiān)督信息生成模塊,設(shè)定關(guān)系對數(shù)量為b,類簇?cái)?shù)量為k。首先是邊緣文本挑選部分,時(shí)間消耗主要在于邊緣文本的挑選過程,時(shí)間復(fù)雜度為O(kn)。該部分需要存儲邊緣文本和中心文本,因此空間復(fù)雜度為O(b/k+k)。然后是基于主動學(xué)習(xí)的監(jiān)督信息生成部分,因?yàn)楸疚哪P蛯⑦吘壩谋竞椭行奈谋疽灰粚?yīng)構(gòu)造成關(guān)系對,所以時(shí)間復(fù)雜度為O(b),空間復(fù)雜度為O(b)。因?yàn)楸疚哪P椭苯哟鎯α岁P(guān)系對所對應(yīng)的索引,所以半監(jiān)督信息矩陣的時(shí)間復(fù)雜度為O(b),空間復(fù)雜度為O(n2+b)。
綜上所述,本文DASCM總的時(shí)間復(fù)雜度為O(nd1d2…dL+2kn+n ln(n)+2b),總的空間復(fù)雜度為O(n2+(d+k)n+b/k+k+2b)。
3 實(shí)驗(yàn)與結(jié)果分析
本章將分析實(shí)驗(yàn)所需數(shù)據(jù)集,并在此基礎(chǔ)上驗(yàn)證DASCM的效果,分別從數(shù)據(jù)集描述和評估方法、模型參數(shù)設(shè)置、結(jié)果和分析三個(gè)部分進(jìn)行描述。
3.1 數(shù)據(jù)集描述
a)Abstract數(shù)據(jù)集(https://www.aminer.cn)。該數(shù)據(jù)集包含來自Aminer網(wǎng)站的 4 306 篇論文,從信息通信、數(shù)據(jù)庫和圖形三個(gè)研究領(lǐng)域中隨機(jī)選擇而來。該數(shù)據(jù)集通常應(yīng)用于文本聚類任務(wù),可參考文獻(xiàn)[28]。
b)BBC數(shù)據(jù)集(http://mlg.ucd.ie/datasets/bbc.html)。該數(shù)據(jù)集包含來自BBC新聞網(wǎng)站的2 250條文本數(shù)據(jù),對應(yīng)商業(yè)、娛樂、政治、體育和科技五個(gè)主題。BBC數(shù)據(jù)集不同類別的文章數(shù)量相同,且文本主題特征比較明顯,因此常被用于文本聚類任務(wù),可參考文獻(xiàn)[29]。
c)ACM數(shù)據(jù)集(https://paperswithcode.com/dataset/acm)。該數(shù)據(jù)集選擇了在KDD、SIGMOD、SIGCOMM、MobiCOMM和VLDB上發(fā)表的3 025篇英文論文,并根據(jù)研究領(lǐng)域?qū)⒄撐姆譃閿?shù)據(jù)庫、無線通信和數(shù)據(jù)挖掘三類。數(shù)據(jù)集適用于文本聚類任務(wù),可參考文獻(xiàn)[30]。
d)Citeseer數(shù)據(jù)集(https://paperswithcode.com/dataset/ citeseer)。該數(shù)據(jù)集是一個(gè)引文網(wǎng)絡(luò),包含3 327條數(shù)據(jù),涉及代理、人工智能、數(shù)據(jù)庫、信息檢索、機(jī)器語言和人機(jī)交互六個(gè)領(lǐng)域。數(shù)據(jù)集常應(yīng)用于文本聚類任務(wù),可參照文獻(xiàn)[31]。
e)Reuters-10k數(shù)據(jù)集(https://github.com/slim1017/VaDE /tree/master/dataset/reuters10k)。該數(shù)據(jù)集選取了來自路透社的10 000條英語新聞故事,包含公司/工業(yè)、政府/社會、市場和經(jīng)濟(jì)這四個(gè)類別,常用于文本聚類或分類任務(wù),可參考文獻(xiàn)[2]。
3.2 評測指標(biāo)
本文使用三種測量指標(biāo)來評價(jià)聚類效果,分別是聚類精度(accuracy, ACC)、歸一化信息(normalized mutual information,NMI)、調(diào)整蘭德系數(shù)(adjusted Rand index,ARI)。
1)NMI
NMI用于衡量聚類的預(yù)測結(jié)果與標(biāo)準(zhǔn)結(jié)果之間的相似性,NMI 的取值在[0, 1],值越高表示預(yù)測的聚類結(jié)果越接近標(biāo)準(zhǔn)結(jié)果。計(jì)算如式(16)所示。
NMI(C;K)=2I(C;K)H(C)+H(K)(16)
其中:H(C)為預(yù)測聚類結(jié)果C的熵;H(K)為標(biāo)準(zhǔn)結(jié)果K的熵。計(jì)算如式(17)所示。
H(C)=-∑ni=1p(ci)log p(ci)(17)
其中:I(C;K)是C和K之間的互信息,代表聯(lián)合分布p(C,K)與乘積分布p(C)p(K)的相對熵,其計(jì)算如式(18)所示。
I(C;K)=∑c ∑kp(c,k)logp(c,k)p(c)p(k)(18)
2)ACC
ACC是一種用于衡量聚類算法性能的指標(biāo),類似于分類問題中的準(zhǔn)確率。它衡量的是聚類結(jié)果中被正確歸類的樣本所占的比例,其計(jì)算如式(19)所示。
ACC=maxm∑ni=11{li=m(ci)}n(19)
其中:li是真實(shí)標(biāo)簽;ci是模型預(yù)測的聚類分配;m(·)按照真實(shí)標(biāo)簽的排列方式,將聚類分配映射成標(biāo)簽結(jié)果。
3)ARI
調(diào)整蘭德系數(shù)是一種用于衡量聚類算法性能的指標(biāo),通常用于評估聚類結(jié)果與真實(shí)標(biāo)簽之間的相似度。它的值越接近1,說明聚類結(jié)果越接近真實(shí)情況,計(jì)算如式(20)所示。
ARI=RI-E(RI)max(RI)-E(RI)(20)
RI(Rand index)是蘭德系數(shù),E(RI)是RI的期望。RI為
RI=TP+TNTP+FP+TN+FN(21)
其中:TP表示在真實(shí)標(biāo)簽中屬于同一個(gè)類簇且在聚類結(jié)果中也被分到同一個(gè)簇的樣本對的數(shù)量,這是聚類結(jié)果和真實(shí)標(biāo)簽都正確的樣本對的數(shù)量;TN表示在真實(shí)標(biāo)簽中屬于不同類簇且在聚類結(jié)果中也被分到不同簇的樣本對的數(shù)量,這是聚類結(jié)果和真實(shí)標(biāo)簽都正確的樣本對的數(shù)量;FP表示在真實(shí)標(biāo)簽中屬于不同類簇但在聚類結(jié)果中被分到同一個(gè)簇的樣本對的數(shù)量,這是聚類結(jié)果中錯(cuò)誤分類的樣本對的數(shù)量;FN表示在真實(shí)標(biāo)簽中屬于同一個(gè)類簇但在聚類結(jié)果中被分到不同類簇的樣本對的數(shù)量,這是聚類結(jié)果中錯(cuò)誤分類的樣本對的數(shù)量。
3.3 參數(shù)設(shè)置
本文使用自動編碼器對數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,編碼器維度設(shè)置為d-500-500-500-10,其中d為數(shù)據(jù)集的維度,解碼器為編碼器的鏡像網(wǎng)絡(luò)。針對所有數(shù)據(jù)集,均采用學(xué)習(xí)率η=0.01,β=0.9的優(yōu)化器,批次大小為256,收斂閾值為0.1%。所有數(shù)據(jù)集的關(guān)系對數(shù)量b取1 000。每個(gè)數(shù)據(jù)集結(jié)果總共運(yùn)行 10 次,并去掉最高值和最低值后算平均值,避免產(chǎn)生極端情況。
3.4 實(shí)驗(yàn)分析
3.4.1 文本聚類實(shí)驗(yàn)
本文在Abstract、BBC、ACM、Citesser、Reuters-10k共五個(gè)文本數(shù)據(jù)集上驗(yàn)證DASCM的聚類性能,并選擇了三類聚類模型進(jìn)行對比,分別是經(jīng)典的深度聚類模型、發(fā)掘文本之間關(guān)聯(lián)信息的聚類模型、深度半監(jiān)督聚類模型和帶主動學(xué)習(xí)模型。
a)經(jīng)典的深度聚類模型。本文選擇了三個(gè)經(jīng)典的深度聚類模型作比較。AE[32]是學(xué)習(xí)文本語義表示并進(jìn)行聚類的兩階段深度聚類模型。DEC基于AE引入KL散度,以聯(lián)合優(yōu)化文本語義表示和聚類兩個(gè)過程。IDEC[33]對DEC進(jìn)行改進(jìn),當(dāng)學(xué)習(xí)文本語義表示時(shí),在特征空間中保留了數(shù)據(jù)的局部結(jié)構(gòu)信息。
b)發(fā)掘文本之間關(guān)聯(lián)信息的聚類模型。GAE[34]將AE中的編碼器和解碼器換成圖卷積網(wǎng)絡(luò)(GCN)以學(xué)習(xí)圖結(jié)構(gòu)信息,SDCN[31]同時(shí)學(xué)習(xí)文本語義表示和文本結(jié)構(gòu)表示,并采用雙重自監(jiān)督以優(yōu)化學(xué)習(xí)表示和聚類兩個(gè)過程。
c)半監(jiān)督聚類模型。SDEC[15]是半監(jiān)督的深度聚類模型,它基于DEC引入先驗(yàn)知識,以進(jìn)一步優(yōu)化模型提高聚類效果。
d)帶主動學(xué)習(xí)的模型。ADC(active deep image clustering)[35]模型提出了一種新穎的深度主動聚類方法,該模型能主動選擇關(guān)鍵數(shù)據(jù)進(jìn)行人工標(biāo)注,并用以改進(jìn)深度聚類。
其他模型按照其文獻(xiàn)給出的最優(yōu)參數(shù)進(jìn)行實(shí)驗(yàn),ADC的約束對數(shù)量設(shè)置為1 000,訓(xùn)練輪次和批次的設(shè)置與DASCM一致。為進(jìn)一步驗(yàn)證通過主動學(xué)習(xí)發(fā)現(xiàn)的邊緣文本與聚類性能提升的相關(guān)性,DASCM選取不同數(shù)量的關(guān)系對(b=200、b=500、b=1 000)進(jìn)行實(shí)驗(yàn)對比,實(shí)驗(yàn)結(jié)果如表1所示。
在五個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)證明,DASCM 相較于其他無監(jiān)督聚類模型在文本聚類結(jié)果的各項(xiàng)評測指標(biāo)上都有明顯提升,相較于所有模型中最優(yōu)的聚類結(jié)果,NMI 指標(biāo)分別提升了8.35,12.3,10.65,4.68和5.77百分點(diǎn),這是因?yàn)楸疚奶岢龅闹鲃訉W(xué)習(xí)能夠挑選出蘊(yùn)涵豐富信息的邊緣文本,并生成了涵蓋邊緣文本的高質(zhì)量監(jiān)督信息,從而進(jìn)一步提升了聚類性能。這也證明了DASCM的有效性。
DASCM的各項(xiàng)評測指標(biāo)也高于同為深度半監(jiān)督聚類模型的SDEC,說明了基于主動學(xué)習(xí)的半監(jiān)督信息生成器產(chǎn)生的監(jiān)督信息比隨機(jī)產(chǎn)生的監(jiān)督信息對聚類更有意義。
然而含有主動學(xué)習(xí)的ADC表現(xiàn)較差,大概率是因?yàn)樗菫樘幚韴D像數(shù)據(jù)而設(shè)計(jì)的,所以在文本數(shù)據(jù)集上表現(xiàn)不佳。
為了更加直觀地展示模型性能隨著關(guān)系對數(shù)量變化而變化,本文繪制了各指標(biāo)對比的折線圖,如圖3所示。隨著關(guān)系對數(shù)量的增加,各項(xiàng)指標(biāo)也隨之提升,這是因?yàn)榻o的關(guān)系對越多,所提供的信息越豐富。對聚類任務(wù)而言,蘊(yùn)涵更多信息的關(guān)系對具有更高的價(jià)值,對聚類的指導(dǎo)作用更大。這一結(jié)果也證明了本文設(shè)計(jì)的主動學(xué)習(xí)方法的有效性。但同樣可以觀察到隨著關(guān)系對數(shù)量的增加,各項(xiàng)聚類指標(biāo)逐漸趨于平緩。這是因?yàn)殡S著關(guān)系對數(shù)量的增加,所生成的關(guān)系對可能會包含那些蘊(yùn)涵信息量較少的樣本,對聚類的指導(dǎo)作用不大,性能提升也不明顯。
3.4.2 消融實(shí)驗(yàn)
為了驗(yàn)證基于主動學(xué)習(xí)的半監(jiān)督信息生成器每個(gè)部分的有效性,本文在同樣的5個(gè)數(shù)據(jù)集上對每個(gè)部分逐一消融實(shí)驗(yàn),并與原模型的聚類性能對比,如表2所示。如果聚類性能都比原模型的低,則表明每個(gè)部分都是有效的。
DASCM-a去掉了基于主動學(xué)習(xí)的監(jiān)督信息生成部分,其他部分與參數(shù)均與原模型保持一致。DASCM-a實(shí)驗(yàn)結(jié)果明顯低于原模型,這是因?yàn)樵撃P蜎]有生成涵蓋邊緣文本的監(jiān)督信息,未能對聚類進(jìn)行有效指導(dǎo)。
在DASCM-r中,邊緣文本不再通過主動學(xué)習(xí)方法進(jìn)行挑選,而是隨機(jī)選取,其數(shù)量與DASCM模型中的設(shè)置保持一致。此外,DASCM-r的其余部分和參數(shù)也和原模型保持一致。DASCM-r的聚類性能同樣也比原模型低,這是因?yàn)殡S機(jī)挑選的文本質(zhì)量不佳,而通過主動學(xué)習(xí)方法挑選出的邊緣文本蘊(yùn)涵更豐富的信息。對聚類任務(wù)而言,涵蓋邊緣文本的監(jiān)督信息也具有更高的價(jià)值,能更好地指導(dǎo)聚類。
3.4.3 可視化實(shí)驗(yàn)
為了更加直觀體現(xiàn)模型的有效性,本文對比了去除基于主動學(xué)習(xí)的半監(jiān)督信息生成器的模型與DASCM的可視化聚類結(jié)果,可以直觀感受到DASC模型有效提升了聚類性能。
圖4展示了可視化聚類結(jié)果,其中圖(a)表示未加入基于主動學(xué)習(xí)的半監(jiān)督信息生成器的模型聚類結(jié)果,圖(b)展示了DASCM的聚類結(jié)果。圖4中紅色的點(diǎn)(見電子版)表示邊緣文本,在未加入基于主動學(xué)習(xí)的半監(jiān)督生成器時(shí),類簇的邊界之間存在許多邊緣文本,嚴(yán)重影響了聚類結(jié)構(gòu)的清晰度。
加入基于主動學(xué)習(xí)的半監(jiān)督生成器之后,聚類結(jié)構(gòu)清晰度大大提升了,這是因?yàn)槟P屠弥鲃訉W(xué)習(xí)方法挑選出蘊(yùn)涵豐富信息的邊緣文本,并生成監(jiān)督信息用于指導(dǎo)聚類過程。高價(jià)值的監(jiān)督信息對聚類起到了正向引導(dǎo)作用,使得邊緣文本所屬類簇更加明確,類簇結(jié)構(gòu)更加清晰。
3.4.4 主動學(xué)習(xí)代價(jià)分析
DASCM的代價(jià)主要由文本語義表示學(xué)習(xí)代價(jià)、主動學(xué)習(xí)挑選代價(jià)、標(biāo)注代價(jià)和聚類代價(jià)四個(gè)部分組成。其中,文本語義表示學(xué)習(xí)成本和聚類成本類似于其他深度聚類模型。利用主動學(xué)習(xí)方法進(jìn)行挑選的代價(jià)與數(shù)據(jù)集的規(guī)模密切相關(guān)。以BBC數(shù)據(jù)集為例(表3),可以觀察到使用主動學(xué)習(xí)進(jìn)行挑選的代價(jià)在整個(gè)模型中占比較小。
在主動學(xué)習(xí)中,人工標(biāo)注是不可避免的,并且其成本也與數(shù)據(jù)規(guī)模有關(guān),較大規(guī)模的數(shù)據(jù)集將需要更多的時(shí)間和資源進(jìn)行標(biāo)注。然而,相較于其他監(jiān)督模型和半監(jiān)督模型,DASCM花費(fèi)同樣的代價(jià)卻能更大程度地提升模型性能。如表4所示,本文對比使用隨機(jī)方法選取1 000對關(guān)系對作為監(jiān)督信息(DASCM-r)和用主動學(xué)習(xí)方法選取1 000對關(guān)系對(DASCM)的聚類結(jié)果??梢宰⒁獾?,當(dāng)花費(fèi)相同代價(jià)時(shí),使用主動學(xué)習(xí)方法的模型性能可以得到更大提升。此外,本文挑選的關(guān)系對均為1 000對,而每個(gè)數(shù)據(jù)集可以組成上百萬的關(guān)系對(n×n對),相較而言,這個(gè)代價(jià)也是可接受的。
3.5 實(shí)現(xiàn)過程
本文以Abstract數(shù)據(jù)集為例,詳細(xì)描述DASCM的實(shí)現(xiàn)過程。如圖2所示,首先模型學(xué)習(xí)數(shù)據(jù)的文本語義表示,接著將學(xué)習(xí)到的文本語義表示進(jìn)行聚類,得到初步的聚類結(jié)果。最后,DASCM根據(jù)當(dāng)前聚類結(jié)果挑選邊緣文本。如圖5所示,圖5(a)展示了基于初步聚類結(jié)果挑選邊緣文本的結(jié)果。本文將每個(gè)類的邊緣文本顏色高亮展示,以示區(qū)分。
邊緣文本處于各個(gè)類的交界處,具有極高的不確定性,同時(shí)它們也蘊(yùn)涵豐富的信息。為了進(jìn)一步利用這些邊緣文本指導(dǎo)聚類。本文選擇將它們與中心文本(第一幅圖中加粗加黑的文本點(diǎn))對應(yīng),以關(guān)系對的形式作為監(jiān)督信息。圖5(b)展示了關(guān)系對的構(gòu)造過程(因邊緣文本太多,本文只隨機(jī)選取5個(gè)邊緣文本點(diǎn)進(jìn)行演示)。本文將邊緣文本(紅圈標(biāo)明部分,參見電子版)與全部的中心文本一一對應(yīng),將這些文本對通過人工標(biāo)注,標(biāo)注過程詳見2.2.2小節(jié)。接著本文根據(jù)關(guān)系對構(gòu)造了一個(gè)半監(jiān)督信息矩陣,該矩陣是一個(gè)n×n的對稱矩陣,維度與數(shù)據(jù)集大小一致。
隨后矩陣將被用于更新重構(gòu)目標(biāo),方法如式(6)所示。本文選取其中一個(gè)邊緣文本觀察其重構(gòu)目標(biāo)的高頻詞變化(圖5(c))。該邊緣文本真實(shí)的類別應(yīng)該為數(shù)據(jù)庫,更新后增加了table、data等與數(shù)據(jù)庫主題相關(guān)的詞語,能夠幫助學(xué)習(xí)到更好的文本語義表示。最后模型將根據(jù)更新后的重構(gòu)目標(biāo)學(xué)習(xí)新的文本語義表示,進(jìn)而將其用于聚類。圖5(d)展示了新的聚類結(jié)果,與圖5(a)比較,邊緣文本更加靠近其所屬類簇,類簇劃分也更加清晰。
4 結(jié)束語
本文提出一種基于主動學(xué)習(xí)的深度半監(jiān)督聚類模型(DASCM),該模型利用主動學(xué)習(xí)方法挑選出類簇的邊緣文本,并構(gòu)建了邊緣文本-中心文本關(guān)系對,為半監(jiān)督聚類提供了高質(zhì)量的監(jiān)督信息。本文利用這些關(guān)系對進(jìn)一步構(gòu)建了半監(jiān)督信息矩陣,顯著提升了聚類效果。
在五個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明,相較于其他模型,DASCM在聚類性能上有明顯提升。然而,DASCM關(guān)系對的數(shù)量是給定的,當(dāng)聚類結(jié)果中邊緣文本數(shù)量較少時(shí),模型仍會挑選出給定數(shù)量的邊緣文本,這可能導(dǎo)致資源的浪費(fèi)。因此,下一步的研究方向是設(shè)計(jì)一種衡量已挑選的樣本和未挑選樣本之間關(guān)聯(lián)度的方法,以避免選取對類簇劃分貢獻(xiàn)相似的樣本。此外,在訓(xùn)練過程中,該方法設(shè)置合適的條件,一旦選取的樣本不再對類簇劃分產(chǎn)生優(yōu)化或其作用變得微不足道,將停止選取。
參考文獻(xiàn):
[1]Ezugwu A E, Ikotun A M, Oyelade O O,et al. A comprehensive survey of clustering algorithms: state-of-the-art machine learning applications, taxonomy, challenges, and future research prospects[J]. Engineering Applications of Artificial Intelligence, 2022, 110: 104743.
[2]Xie Junyuan, Girshick R, Farhadi A. Unsupervised deep embedding for clustering analysis [C]// Proc of the 33rd International Confe-rence on Machine Learning. [S.l.]: PMLR, 2016: 478-487.
[3]Cai Jianghui, Hao Jing, Yang Haifeng,et al. A review on semi-supervised clustering[J]. Information Sciences, 2023, 632: 164-200.
[4]Liu Yuqiao, Sun Yanan, Xue Bing,et al. A survey on evolutionary neural architecture search[J]. IEEE Trans on Neural Networks and Learning Systems, 2021, 34(2): 550-570.
[5]張賢坤, 劉淵博, 任靜, 等. 主動糾錯(cuò)式半監(jiān)督聚類社區(qū)發(fā)現(xiàn)算法[J]. 計(jì)算機(jī)應(yīng)用研究, 2019, 36(9): 2631-2635, 2660. (Zhang Xiankun, Liu Yuanbo, Ren Jing,et al. Active error-correcting community discovery algorithm based on semi-supervised clustering[J]. Application Research of Computers, 2019, 36(9): 2631-2635, 2660.)
[6]Ren Pengzhen, Xiao Yun, Chang Xiaojun,et al. A survey of deep active learning[J]. ACM Computing Surveys, 2021, 54(9): 1-40.
[7]Menin B. Unleashing the power of information theory: enhancing accuracy in modeling physical phenomena[J]. Journal of Applied Mathematics and Physics, 2023, 11(3): 760-779.
[8]李靜楠, 黃瑞章, 任麗娜. 用戶意圖補(bǔ)充的半監(jiān)督深度文本聚類[J]. 計(jì)算機(jī)科學(xué)與探索, 2023, 17(8): 1928-1937. (Li Jingnan, Huang Ruizhang, Ren Lina. Semi-supervised deep document clustering model with supplemented user intention[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(8): 1928-1937.)
[9]Bair E. Semi-supervised clustering methods[J]. Wiley Interdisciplinary Reviews: Computational Statistics, 2013, 5(5): 349-361.
[10]Taha K. Semi-supervised and un-supervised clustering: a review and experimental evaluation[J]. Information Systems, 2023, 114: 102178.
[11]Shen Baohua, Jiang Juan, Qian Fuan,et al. Semi-supervised hierarchical ensemble clustering based on an innovative distance metric and constraint information[J]. Engineering Applications of Artificial Intelligence, 2023, 124: 106571.
[12]Basu S, Bilenko M, Mooney R J. Comparing and unifying search-based and similarity-based approaches to semi-supervised clustering[C]// Proc of ICML-2003 Workshop on the Continuum from Labeled to Unlabeled Data in Machine Learning and Data Mining Systems. New York: ACM Press, 2003: 42-49.
[13]Kodinariya T M, Makwana P R. Review on determining number of cluster in K-means clustering[J]. International Journal, 2013, 1(6): 90-95.
[14]Wagstaff K, Cardie C. Clustering with instance-level constraints[C]// Proc of the 7th International Conference on Machine Learning. San Francisco: Morgan Kaufmann Publishers Inc., 2000: 1103-1110.
[15]Ren Yazhou, Hu Kangrong, Dai Xinyi,et al. Semi-supervised deep embedded clustering[J]. Neurocomputing, 2019, 325: 121-130.
[16]Ohi A Q, Mridha M F, Safir F B,et al. AutoEmbedder: a semi-supervised DNN embedding system for clustering[J]. Knowledge-Based Systems, 2020, 204: 106190.
[17]Wang Yalin, Zou Jiangfeng, Wang Kai,et al. Semi-supervised deep embedded clustering with pairwise constraints and subset allocation[J]. Neural Networks, 2023, 164: 310-322.
[18]Nguyen V L, Shaker M H, Hüllermeier E. How to measure uncertainty in uncertainty sampling for active learning[J]. Machine Learning, 2022, 111(1): 89-122.
[19]Lewis D D. A sequential algorithm for training text classifiers: corrigendum and additional data[C]// Proc of ACM SIGIR Forum. New York: ACM Press, 1995, 29(2): 13-19.
[20]Seung H S, Opper M, Sompolinsky H. Query by committee[C]// Proc of the 5th Annual Workshop on Computational Learning Theory. New York: ACM Press, 1992: 287-294.
[21]Settles B, Craven M, Ray S. Multiple-instance active learning[C]// Proc of the 20th International Conference on Neural Information Processing Systems. New York: Curran Associates Inc., 2007: 1289-1296.
[22]Settles B, Craven M. An analysis of active learning strategies for sequence labeling tasks[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2008: 1070-1079.
[23]Sinha S, Ebrahimi S, Darrell T. Variational adversarial active lear-ning[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 5972-5981.
[24]Kim K, Park D, Kim K I,et al. Task-aware variational adversarial active learning[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021:8166-8175.
[25]Cho J W, Kim D J, Jung Y,et al. MCDAL: maximum classifier discrepancy for active learning[J]. IEEE Trans on Neural Networks and Learning Systems, 2022, 34(11): 8753-8763.
[26]Gálvez-López D, Tardós J D. Real-time loop detection with bags of binary words[C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2011: 51-58.
[27]任麗娜, 秦永彬, 黃瑞章, 等. 基于多層子空間語義融合的深度文本聚類[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(1): 70-74, 79. (Ren Li’na, Qin Yongbin, Huang Ruizhang,et al. Deep document clustering model via multi-layer subspace semantic fusion[J]. Application Research of Computers, 2023, 40(1): 70-74, 79.)
[28]黃瑞章, 白瑞娜, 陳艷平, 等. CMDC: 一種差異互補(bǔ)的迭代式多維度文本聚類算法[J]. 通信學(xué)報(bào), 2020, 41(8): 155-164. (Huang Ruizhang, Bai Ruina, Chen Yanping,et al. CMDC: an iterative algorithm for complementary multi-view document clustering[J]. Journal on Communications, 2020, 41(8): 155-164.)
[29]Greene D, Cunningham P. Practical solutions to the problem of diagonal dominance in kernel document clustering[C]// Proc of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006: 377-384.
[30]Wang Xiao, Ji Houye, Shi Chuan,et al. Heterogeneous graph attention network[C]// Proc of World Wide Web Conference. New York: ACM Press, 2019: 2022-2032.
[31]Bo Deyu, Wang Xiao, Shi Chuan,et al. Structural deep clustering network[C]// Proc of Web Conference. New York: ACM Press, 2020: 1400-1410.
[32]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507.
[33]Guo Xifeng, Gao Long, Liu Xinwang,et al. Improved deep embedded clustering with local structure preservation[C]// Proc of the 26th International Joint Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017: 1753-1759.
[34]Wang Wei, Huang Yan, Wang Yizhou,et al. Generalized autoenco-der: a neural network framework for dimensionality reduction[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition Workshops. Piscataway, NJ: IEEE Press, 2014: 496-503.
[35]Sun Bicheng, Zhou Peng, Du Liang,et al. Active deep image clustering[J]. Knowledge-Based Systems, 2022, 252: 109346.