一種基于重疊社區(qū)標(biāo)簽傳播的學(xué)科劃分方法

2021-03-22 02:52:58遆慧穎

農(nóng)業(yè)圖書情報(bào)學(xué)刊 2021年1期

遆慧穎，耿騫，靳健

(北京師范大學(xué)政府管理學(xué)院，北京 100875)

1 引言

隨著網(wǎng)絡(luò)技術(shù)迅猛發(fā)展，網(wǎng)絡(luò)信息內(nèi)容主要呈現(xiàn)出信息總量大、增速快和來(lái)源多樣化等特征。同時(shí)，作為一種典型的非結(jié)構(gòu)性化數(shù)據(jù)，海量的文本信息也不斷涌現(xiàn)。普通用戶以及廣大學(xué)習(xí)者和研究人員可以通過(guò)Wikipedia、百度百科、必應(yīng)百科為代表的網(wǎng)絡(luò)全書類網(wǎng)站獲取各學(xué)科概念定義以及使用發(fā)展等信息。但是各學(xué)科在理論與實(shí)用領(lǐng)域不斷發(fā)展，并且不少研究都呈現(xiàn)了蓬勃的交叉融合、系統(tǒng)發(fā)展的趨勢(shì)。這使得不具備專業(yè)知識(shí)的普通用戶很難通過(guò)該類百科全書在短時(shí)間內(nèi)獲取目標(biāo)概念所屬學(xué)科的整體信息。因此，利用算法有效地、自動(dòng)地實(shí)現(xiàn)學(xué)科領(lǐng)域劃分將大大提高用戶獲取信息的效率。

同時(shí)，不同學(xué)科各具特點(diǎn)，且有的學(xué)科知識(shí)存在著一定的交叉融合。例如，藝術(shù)領(lǐng)域?qū)I(yè)性較強(qiáng)。但在數(shù)學(xué)領(lǐng)域，除核心的概念定理之外，不少概念還廣泛應(yīng)用于各個(gè)學(xué)科。而情報(bào)學(xué)中有的概念是由計(jì)算機(jī)科學(xué)和數(shù)學(xué)等學(xué)科交叉產(chǎn)生。正如有學(xué)者研究指出[1]，交叉學(xué)科在各個(gè)學(xué)科的知識(shí)、技術(shù)以及視野方面均有所交叉融合，而學(xué)科這一概念已經(jīng)不能通過(guò)簡(jiǎn)單的“三獨(dú)立說(shuō)”實(shí)現(xiàn)，即獨(dú)立的概念系統(tǒng)、獨(dú)立的研究方法和獨(dú)立的研究對(duì)象。傳統(tǒng)的簡(jiǎn)單的規(guī)則已很難從包含海量知識(shí)的網(wǎng)絡(luò)百科全書中獲取當(dāng)前的學(xué)科領(lǐng)域相關(guān)知識(shí)。而這一問(wèn)題對(duì)不斷發(fā)展的新興學(xué)科更為嚴(yán)重。

目前，學(xué)科領(lǐng)域的文本劃分多利用基于規(guī)則或統(tǒng)計(jì)的方式，在特定領(lǐng)域進(jìn)行實(shí)現(xiàn)[2]，缺乏系統(tǒng)性視角以及對(duì)語(yǔ)義之間的相互作用的整體性考慮。注意到學(xué)科概念與概念描述文本主題存在一定的相關(guān)度，而這種相關(guān)程度不能僅由文本相似度的絕對(duì)值大小來(lái)決定，還與概念間的聯(lián)系程度、重要概念間關(guān)聯(lián)程度等很多關(guān)聯(lián)因素有關(guān)。這些因素都影響著一個(gè)概念是否可以被劃入一個(gè)學(xué)科領(lǐng)域中。并且，實(shí)際中，一個(gè)詞條可能屬于多個(gè)領(lǐng)域。該現(xiàn)象與復(fù)雜網(wǎng)絡(luò)中的重疊社團(tuán)相對(duì)應(yīng)。

因此，本研究嘗試從復(fù)雜網(wǎng)絡(luò)的視角探索領(lǐng)域詞條劃分問(wèn)題。具體來(lái)說(shuō)，本研究將通過(guò)分析詞條間由相似度產(chǎn)生的語(yǔ)義相互作用，獲取學(xué)科領(lǐng)域邊界。首先，本研究將利用隱含狄利克雷分布（Latent Dirichlet Allocation，簡(jiǎn)稱LDA）主題模型構(gòu)建語(yǔ)義相似度網(wǎng)絡(luò)。然后，針對(duì)語(yǔ)義相似度網(wǎng)絡(luò)的特征，對(duì)復(fù)雜網(wǎng)絡(luò)中的標(biāo)簽傳播算法進(jìn)行改進(jìn)。最后，利用所提出的改進(jìn)算法，實(shí)現(xiàn)學(xué)科邊界的劃分。

本研究提出的方法具有理論和實(shí)際意義。在理論領(lǐng)域方面，本研究提出了改進(jìn)標(biāo)簽傳播算法，為將復(fù)雜網(wǎng)絡(luò)算法引入文本劃分領(lǐng)域做出了探索。在實(shí)際應(yīng)用方面，學(xué)科領(lǐng)域邊界的劃分可以提高用戶查詢效率，為建立相應(yīng)學(xué)科本體構(gòu)建基礎(chǔ)語(yǔ)料庫(kù)，幫助初學(xué)者更好地組織網(wǎng)絡(luò)百科全書中的大量信息和了解學(xué)科領(lǐng)域包含的內(nèi)容。

2 文獻(xiàn)綜述

2.1 多標(biāo)簽文本劃分

按照每個(gè)文本單元具有的標(biāo)簽數(shù)，從分類結(jié)果角度，文本分類可以分為單標(biāo)簽劃分和多標(biāo)簽劃分。多標(biāo)簽文本劃分算法在推薦系統(tǒng)、本體構(gòu)建以及評(píng)論挖掘等方面都有廣泛應(yīng)用。

LILLEBERG 等提出了基于詞向量和支持向量機(jī)的文本標(biāo)簽劃分[3]。PAVLINEK 提出了利用LDA 主題模型和半監(jiān)督學(xué)習(xí)方法展開(kāi)多標(biāo)簽文本劃分[4]。鄧三鴻利用多個(gè)二元分類器以深度學(xué)習(xí)的方法實(shí)現(xiàn)了中文圖書的多標(biāo)簽分類[5]。劉晉宏提出了利用圖結(jié)構(gòu)上的隨機(jī)游走算法確定標(biāo)簽分布概率，從而實(shí)現(xiàn)多標(biāo)簽分類的算法[6]。劉心惠等綜合神經(jīng)網(wǎng)絡(luò)、主題模型等提出了基于聯(lián)合模型的多標(biāo)簽文本分類方法[7]。

上述方法在精確率和召回率方法取得了較好的結(jié)果。但是這些算法大都將文本視為獨(dú)立個(gè)體或者均以整體進(jìn)行詞頻和概率展開(kāi)分析，沒(méi)有充分利用詞條相似性的結(jié)構(gòu)性信息。本研究的展開(kāi)是建立在詞條網(wǎng)絡(luò)上的，通過(guò)探索詞條間由相似度構(gòu)建的語(yǔ)義相互作用，獲取更大范圍和具有實(shí)踐意義的學(xué)科領(lǐng)域邊界。

本研究以復(fù)雜網(wǎng)絡(luò)的視角，立足詞條的具體語(yǔ)義，對(duì)大量的詞條及其它們之間的相互關(guān)系進(jìn)行網(wǎng)絡(luò)化的建模和結(jié)構(gòu)分析。復(fù)雜網(wǎng)絡(luò)作為系統(tǒng)科學(xué)研究的重要內(nèi)容，已經(jīng)廣泛應(yīng)用于電力系統(tǒng)[8]、社交網(wǎng)絡(luò)[9]、城市交通[10]、經(jīng)濟(jì)預(yù)測(cè)[11]、網(wǎng)絡(luò)劃分[12]等重要領(lǐng)域。近年來(lái)，學(xué)者嘗試將復(fù)雜網(wǎng)絡(luò)相關(guān)概念和算法引入文本劃分領(lǐng)域。趙輝等提出利用復(fù)雜網(wǎng)絡(luò)理論中的節(jié)點(diǎn)加權(quán)度、加權(quán)聚集系數(shù)、節(jié)點(diǎn)介數(shù)等指標(biāo)進(jìn)行文本特征選擇的分類算法[13]。尹麗英以最大公共子圖文本語(yǔ)義相似度計(jì)算方法為基礎(chǔ)來(lái)提取特征文本，從而構(gòu)建訓(xùn)練文本集的語(yǔ)義復(fù)雜網(wǎng)絡(luò)，并利用K 最近鄰算法進(jìn)行社團(tuán)劃分[14]。這些研究發(fā)現(xiàn)文本和實(shí)物同樣具有網(wǎng)絡(luò)結(jié)構(gòu)，而其網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)了文本之間的連接緊密的局部關(guān)系。

在這些研究中，盡管詞條網(wǎng)絡(luò)和文本網(wǎng)絡(luò)逐漸進(jìn)入研究視野，但是其語(yǔ)義分類尚未與復(fù)雜網(wǎng)絡(luò)聯(lián)系起來(lái)。而注意到學(xué)科領(lǐng)域內(nèi)詞條連接通常較明顯地強(qiáng)于領(lǐng)域外的連接。因此，本研究將文本間的關(guān)聯(lián)引申到學(xué)科領(lǐng)域，以實(shí)現(xiàn)學(xué)科詞條劃分。

2.2 詞條語(yǔ)義相似度

在自然語(yǔ)言處理領(lǐng)域，研究人員圍繞文本相似度的定義進(jìn)行了多方面的研究。一方面，基于詞頻的文本相似度往往常利用“詞頻-逆文檔頻率”的方法將文本轉(zhuǎn)化為詞頻加權(quán)向量，之后利用余弦相似度及類似方法計(jì)算相似度。在此基礎(chǔ)上，許多經(jīng)典研究希望可以挖掘詞語(yǔ)本身的相互關(guān)系。為此，經(jīng)典的研究利用字典來(lái)計(jì)算詞語(yǔ)間的相似性。另一方面，從文本的生成結(jié)構(gòu)的角度出發(fā)，研究人員構(gòu)建了生成概率模型。其中，潛在語(yǔ)義（Latent Semantic Analysis，簡(jiǎn)稱LSA）分析構(gòu)建了“單詞-文檔”矩陣[15]，概率潛在語(yǔ)義分析（Probabilistic Latent Semantic Analysis，簡(jiǎn)稱PLSA）在LSA 的基礎(chǔ)上構(gòu)建了“話題-文檔-單詞”三級(jí)概率模型[16]。為了解決上述兩種方法的參數(shù)隨文本增加問(wèn)題，BLEI 等引入了參數(shù)的先驗(yàn)分布模型，提出了LDA 主題模型，解決潛在導(dǎo)致的過(guò)擬合問(wèn)題[17]。LDA 是一種經(jīng)典的概率模型。在該模型中，文本被看作概率生成過(guò)程的結(jié)果。生成過(guò)程定義了觀測(cè)隨機(jī)變量和隱藏隨機(jī)變量的聯(lián)合概率分布。通過(guò)使用聯(lián)合分布，計(jì)算在給定觀測(cè)變量下隱藏變量的條件分布，并展開(kāi)數(shù)據(jù)分析。在LDA 中，觀測(cè)變量是文檔中的詞，而隱藏變量就是主題結(jié)構(gòu)。LDA 主題模型將從文檔中推測(cè)隱藏的主題結(jié)構(gòu)的問(wèn)題轉(zhuǎn)化為計(jì)算在給定文檔下隱藏變量的后驗(yàn)分布問(wèn)題。

本研究將利用LDA 主題模型獲取詞條相似度，為后續(xù)的處理構(gòu)建詞條相似度網(wǎng)絡(luò)。

2.3 社團(tuán)劃分算法

復(fù)雜網(wǎng)絡(luò)中的社團(tuán)劃分算法從研究思路上可以分為基于圖論的算法，如隨機(jī)游走算法[18]等，基于層次聚類和連邊性質(zhì)的算法，如Newman 快速算法等[19]，基于網(wǎng)絡(luò)性質(zhì)或網(wǎng)絡(luò)動(dòng)力學(xué)的算法[20]等。

以標(biāo)簽傳播類算法為代表的系列算法計(jì)算速度較快，可以適用于大規(guī)模語(yǔ)料庫(kù)。KOTHARI 等第一次提出標(biāo)簽傳播的算法思想[21]。RAGHAVAN 等提出了接近于線性的快速標(biāo)簽傳播社團(tuán)劃分算法[22]。在此基礎(chǔ)上，GREGORY 首次將標(biāo)簽傳播算法由非重疊社團(tuán)劃分拓展到重疊社團(tuán)劃分的領(lǐng)域，提出了Community Overlap PRopagation Algorithm（COPRA）算法，允許一個(gè)節(jié)點(diǎn)屬于多個(gè)社團(tuán)[23]。根據(jù)COPRA 算法，文獻(xiàn)[22]中提出的快速標(biāo)簽傳播社團(tuán)劃分算法可以看作將每個(gè)節(jié)點(diǎn)所屬的最大社團(tuán)數(shù)為1 的特殊情況。此外，還有學(xué)者對(duì)COPRA 算法做出改進(jìn)。例如，饒仁杰等利用LeaderRank 算法減少了COPRA 算法隨機(jī)性，加強(qiáng)了算法的魯棒性[24]，而杜長(zhǎng)江等則利用“K-核分解算法”決定了標(biāo)簽傳播的順序[25]。

除了適用于大規(guī)模網(wǎng)絡(luò)外之外，標(biāo)簽傳播算法中的“以周圍節(jié)點(diǎn)定義自身”的運(yùn)行邏輯與本研究預(yù)構(gòu)建的語(yǔ)義相似度網(wǎng)絡(luò)基本思想相符：在學(xué)科領(lǐng)域的語(yǔ)義相似度網(wǎng)絡(luò)中，概念與概念之間具有互相定義和解釋能力。另外，與實(shí)物網(wǎng)絡(luò)相比，語(yǔ)義相似度網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)目更多，連邊密度更大，各個(gè)節(jié)點(diǎn)的權(quán)重相近。因此，在節(jié)點(diǎn)選擇時(shí)，COPRA 算法及不少基于COPRA 的改進(jìn)算法將面臨多個(gè)權(quán)責(zé)差別較小的節(jié)點(diǎn)。該情況使得節(jié)點(diǎn)的選擇具有較大隨機(jī)性，這將影響算法整體性能。為降低節(jié)點(diǎn)選擇的隨機(jī)性，本研究將進(jìn)一步對(duì)COPRA 算法做出改進(jìn)，以適用于文本領(lǐng)域的概念劃分。

3 研究思路

3.1 研究目的

本文的研究問(wèn)題是在獲取目標(biāo)學(xué)科或者領(lǐng)域中的詞條的基礎(chǔ)上，提出智能算法，高效地實(shí)現(xiàn)學(xué)科領(lǐng)域地劃分，從而幫助查詢者提高信息獲取效率。本文的研究目標(biāo)是分析相互關(guān)聯(lián)的概念所屬的目標(biāo)領(lǐng)域，從而劃定目標(biāo)學(xué)科的領(lǐng)域邊界，以幫助確定與學(xué)科領(lǐng)域相關(guān)的概念。

為此，在指定領(lǐng)域內(nèi)的給定詞條情況下，本研究將以Wikipedia 為例對(duì)網(wǎng)絡(luò)知識(shí)庫(kù)中的概念展開(kāi)分析，明確與指定詞條相關(guān)的領(lǐng)域內(nèi)容。

3.2 研究框架

本研究的整體思路分為詞條的語(yǔ)義網(wǎng)絡(luò)構(gòu)建及基于改進(jìn)COPRA 算法的詞條社團(tuán)劃分兩個(gè)部分。研究框架如圖1 所示。原始數(shù)據(jù)來(lái)自于Wikipedia 的詞條及其百科說(shuō)明文本。在數(shù)據(jù)預(yù)處理步驟中，本研究主要對(duì)未知分類的詞條文本和目標(biāo)領(lǐng)域中人工篩選的已知文本做出小寫化、刪去標(biāo)點(diǎn)符號(hào)及停用詞、刪去無(wú)關(guān)鏈接等預(yù)處理，以得到初始文本。

在構(gòu)建詞條網(wǎng)絡(luò)步驟中，研究將以每一個(gè)詞條及其百科說(shuō)明文本作為研究個(gè)體，并使用LDA 主題模型訓(xùn)練初始文本中的詞條，以得到每個(gè)詞條的代表向量。在此基礎(chǔ)上，以余弦相似度的大小衡量節(jié)點(diǎn)間的連邊重要性，并去掉閾值以下的部分，得到初始網(wǎng)絡(luò)。

在劃分領(lǐng)域步驟中，本研究提出了改進(jìn)標(biāo)簽傳播算法。該算法將與給定領(lǐng)域的詞條屬于同一領(lǐng)域的詞條作為目標(biāo)領(lǐng)域的劃分結(jié)果，實(shí)現(xiàn)文本網(wǎng)絡(luò)的劃分。

3.3 詞條網(wǎng)絡(luò)的建立

為了有效地描述概念和概念之間的關(guān)系，本部分將Wikipedia 的詞條以及詞條之間的相似度映射到了詞條網(wǎng)絡(luò)上。本研究將建立以詞條作為網(wǎng)絡(luò)節(jié)點(diǎn)，以詞條相似度作為網(wǎng)絡(luò)連邊權(quán)重的詞條文本網(wǎng)絡(luò)。在該網(wǎng)絡(luò)中，節(jié)點(diǎn)用來(lái)描述概念本身的獨(dú)立性，連邊表現(xiàn)概念與概念之間的相互作用。

圖1 研究框架圖Fig.1 Research framework

在計(jì)算詞條相似度階段，本部分分別嘗試了Doc2vec 以及LDA 主題生成模型。經(jīng)過(guò)多組試驗(yàn)分析，由于Wikipedia 的詞條書寫較為自由，而Doc2vec 對(duì)于語(yǔ)言表達(dá)用詞的依賴性相對(duì)較強(qiáng)。這使得利用Doc2Vec 計(jì)算得出的詞條相似度與學(xué)科概念本身相似度差異較大。所以，本部分選擇使用LDA 主題生成模型對(duì)文本進(jìn)行向量化。利用LDA 主題模型，本研究可以得到指定主題數(shù)條件下的文本分布向量。

根據(jù)LDA 主題模型的結(jié)果，以詞條作為網(wǎng)絡(luò)節(jié)點(diǎn)，以詞條之間的余弦相似度作為連邊的權(quán)重，即可得到所有詞條的全連接網(wǎng)絡(luò)。然后，刪去相似度小于所設(shè)定的閾值的連邊即可得到文本的語(yǔ)義網(wǎng)絡(luò)。

3.4 COPRA 算法及其改進(jìn)

3.4.1 COPRA 算法

重疊社團(tuán)標(biāo)簽傳播算法（Community Overlap PRopagation Algorithm，COPRA 算法）是2002 年KOTHARI 提出的[21]。該算法將經(jīng)典標(biāo)簽傳播算法由非重疊社團(tuán)劃分拓展到重疊社團(tuán)劃分的社團(tuán)劃分算法。算法具體說(shuō)明如下：

與經(jīng)典的標(biāo)簽傳播算法一樣，COPRA 的核心思想是一個(gè)節(jié)點(diǎn)由其周圍相連的節(jié)點(diǎn)定義。假設(shè)第i個(gè)節(jié)點(diǎn)的標(biāo)簽是b。每個(gè)節(jié)點(diǎn)都由節(jié)點(diǎn)標(biāo)號(hào)x 和標(biāo)簽b 表示，即{xi：b}。在COPRA 算法中，每個(gè)節(jié)點(diǎn)可以由多個(gè)標(biāo)簽表示，而各個(gè)標(biāo)簽在對(duì)該節(jié)點(diǎn)的表示中的不同貢獻(xiàn)用不同的權(quán)重表示{xi0：bi0，xi1：b11，…}。并且，權(quán)重需要做歸一化計(jì)算。例如，一個(gè)節(jié)點(diǎn)a 可以由1/2 的e，1/3 的c 和1/6 的d 表示，那么a 在算法中表示為{a：1/2，e：1/3，d：1/6}。另外，COPRA 算法設(shè)定了每個(gè)節(jié)點(diǎn)可以屬于的最多社團(tuán)數(shù)v。在傳播結(jié)果中，刪去隸屬度小于1/v 的標(biāo)簽，以控制節(jié)點(diǎn)的所屬社團(tuán)小于等于v。

在算法的初始階段，每個(gè)節(jié)點(diǎn)的標(biāo)簽是自己本身。標(biāo)簽傳播開(kāi)始后，每一步每個(gè)節(jié)點(diǎn)的標(biāo)簽由與之相連的節(jié)點(diǎn)的標(biāo)簽決定。相同標(biāo)簽則累加其權(quán)重。之后，通過(guò)刪去標(biāo)準(zhǔn)化后權(quán)重小于1/v 的標(biāo)簽，控制每個(gè)節(jié)點(diǎn)所屬的社團(tuán)數(shù)。迭代到節(jié)點(diǎn)標(biāo)簽不變或社團(tuán)總數(shù)不變時(shí)，算法停止。此時(shí)，網(wǎng)絡(luò)中含有同一標(biāo)簽的節(jié)點(diǎn)屬于同一個(gè)社團(tuán)。圖2 描述了利用COPRA 算法實(shí)現(xiàn)4個(gè)節(jié)點(diǎn)且社團(tuán)數(shù)為2 的標(biāo)簽更新流程。

圖2 標(biāo)簽傳播算法說(shuō)明（最多社團(tuán)數(shù)v=2）Fig.2 A diagram of label propagation algorithm(Maximum number of communities v=2)

3.4.2 COPRA 算法的改進(jìn)

通過(guò)對(duì)經(jīng)典標(biāo)簽傳播算法的分析和實(shí)驗(yàn)，本研究發(fā)現(xiàn)在語(yǔ)義相似網(wǎng)絡(luò)中，因?yàn)楦拍钤~條兩兩之間計(jì)算了相似度，而相似度本身的取值在[0,1]之間，所以網(wǎng)絡(luò)的連邊密集并且各個(gè)連邊的權(quán)重都差距較小。這種特殊性使經(jīng)典的標(biāo)簽傳播算法在根據(jù)周圍節(jié)點(diǎn)確定節(jié)點(diǎn)標(biāo)簽時(shí)存在很嚴(yán)重的“過(guò)度篩選，隨機(jī)選擇”的問(wèn)題：因?yàn)楸姸噜従庸?jié)點(diǎn)的標(biāo)簽在定義節(jié)點(diǎn)自身時(shí)很難具有大于1/v 的權(quán)重，且權(quán)重常常相似。這使得常常會(huì)出現(xiàn)過(guò)度篩選掉了所有鄰居標(biāo)簽，從而使得可能在鄰居節(jié)點(diǎn)中任取一個(gè)社區(qū)標(biāo)簽的作為該節(jié)點(diǎn)的標(biāo)簽。這種情況會(huì)導(dǎo)致節(jié)點(diǎn)所屬社團(tuán)脫離實(shí)際，節(jié)點(diǎn)只屬于某一個(gè)社團(tuán)且算法過(guò)早收斂，無(wú)法達(dá)到學(xué)科領(lǐng)域劃分的預(yù)期效果。例如，在圖3 中，A、B、C 的標(biāo)簽均因?yàn)樾∮?/2，可能導(dǎo)致標(biāo)簽選擇的隨機(jī)性很高。

圖3 原標(biāo)簽傳播算法的過(guò)度收斂問(wèn)題（最多社團(tuán)數(shù)v=2）Fig.3 Overconvergence of the original label propagation algorithm(Maximum number of communities v=2)

為了提高算法的準(zhǔn)確度，本研究對(duì)于算法進(jìn)行了改進(jìn)。對(duì)于節(jié)點(diǎn)的所有標(biāo)簽隸屬度小于1/v，但是其含有多個(gè)隸屬度相同的標(biāo)簽時(shí)，本研究提出了“one more chance”的思路：給予在所有標(biāo)簽中權(quán)重最大的標(biāo)簽更多一次的機(jī)會(huì)，讓它們多一次不被過(guò)度篩選的機(jī)會(huì)。具體的說(shuō)，在標(biāo)簽篩選階段，如果存在某些節(jié)點(diǎn)權(quán)重大于其他標(biāo)簽，但該節(jié)點(diǎn)權(quán)重小于1/v，那么刪去其他節(jié)點(diǎn)。對(duì)于這些節(jié)點(diǎn)的標(biāo)簽進(jìn)行重新的整合和歸一化，再次根據(jù)1/v 的原則進(jìn)行篩選。該改動(dòng)減少了算法的隨機(jī)性，加強(qiáng)了算法的穩(wěn)定性，以充分挖掘網(wǎng)絡(luò)信息。COPRA 算法和改進(jìn)COPRA 算法的對(duì)比如表1 所示。

在改進(jìn)算法中，節(jié)點(diǎn)更新示例如圖4 所示。按照規(guī)則更新后，若某一標(biāo)簽權(quán)重大于閾值，則選擇保留該標(biāo)簽，以減少由于過(guò)度篩選引入的潛在的誤差。

圖4 改進(jìn)算法說(shuō)明（最多社團(tuán)數(shù)v=2）Fig.4 The improved algorithm(Maximum number of communities v=2)

4 實(shí) 驗(yàn)

4.1 數(shù)據(jù)及預(yù)處理

本實(shí)驗(yàn)以計(jì)算機(jī)、文學(xué)、數(shù)學(xué)、體育、情報(bào)學(xué)和音樂(lè)等6個(gè)領(lǐng)域?yàn)槔?，?duì)所提出的算法做出驗(yàn)證分析。這些領(lǐng)域是較為常見(jiàn)的且具有一定關(guān)注度，而對(duì)這些領(lǐng)域詞條的自動(dòng)歸檔將幫助初學(xué)者快速了解本學(xué)科的關(guān)注點(diǎn)。具體來(lái)說(shuō)，首先，對(duì)于一個(gè)領(lǐng)域，本研究首先人工選擇五個(gè)核心詞條作為種子。然后，在種子詞條的維基百科頁(yè)面中，本研究提取了“See Also”部分中展示出的相關(guān)詞條，將這些詞條作為與核心詞條相連接的詞條。在此基礎(chǔ)上，本研究根據(jù)這種方法逐層擴(kuò)展，以得到更多詞條。接著，對(duì)于一個(gè)領(lǐng)域，本研究從獲取的這些詞條中人工選取50個(gè)詞條，以構(gòu)建基礎(chǔ)數(shù)據(jù)集。例如，在計(jì)算機(jī)領(lǐng)域，本研究選取了“Computer science”“Database”“Algorithms”“Distributed computing”“Machine Learning”等6個(gè)詞條作為核心詞條，并以此擴(kuò)展為50個(gè)領(lǐng)域概念詞條。為此，本研究獲取了來(lái)自6個(gè)不同的領(lǐng)域的共計(jì)300個(gè)Wikipedia 的英文詞條文本作為實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)。為了提高處理效率，減少冗余數(shù)據(jù)的影響，實(shí)驗(yàn)對(duì)這些詞條做出如圖1 所示的數(shù)據(jù)預(yù)處理步驟中去除標(biāo)點(diǎn)、停用詞等操作。

表1 改進(jìn)標(biāo)簽傳播算法與原算法的對(duì)比Table 1 Comparison of the improved label propagation algorithm and the original one

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

由于學(xué)科之間存在交叉，而Wikipedia 中沒(méi)有說(shuō)明。所以，除300個(gè)詞條的已知分類，實(shí)驗(yàn)對(duì)于詞條的交叉分類進(jìn)行了人工標(biāo)注，并將這些人工分類得到結(jié)果作為基礎(chǔ)評(píng)價(jià)網(wǎng)絡(luò)。具體評(píng)價(jià)指標(biāo)如下。

（1）調(diào)整后的模塊度。為了衡量重疊社團(tuán)的緊密程度，本研究采用如公式（1）所示的拓展的集聚系數(shù)。

其中，ki，kj指的是節(jié)點(diǎn)i，j的度，m是邊的總數(shù)，Aij是鄰接矩陣，βic是i 對(duì)于社團(tuán)c 的隸屬度，kic指的是節(jié)點(diǎn)在社團(tuán)c 內(nèi)的連接總權(quán)重。

（2）精確率。假設(shè)C1是實(shí)際社團(tuán)，C2是估計(jì)社團(tuán)。精確率描述估計(jì)的劃分結(jié)果中屬于實(shí)際社團(tuán)的比例。計(jì)算如公式（2）所示。

（3）召回率。假設(shè)C1是實(shí)際社團(tuán)，C2是估計(jì)社團(tuán)。召回率描述估計(jì)的劃分結(jié)果中屬于實(shí)際社團(tuán)節(jié)點(diǎn)數(shù)占實(shí)際社團(tuán)節(jié)點(diǎn)數(shù)的比例。計(jì)算如公式（3）所示。

（4）F1-score。查全率和查準(zhǔn)率不能綜合說(shuō)明算法的有效性。實(shí)驗(yàn)將采用在節(jié)點(diǎn)層次的F1-score 對(duì)結(jié)果進(jìn)行評(píng)估。F1-score 是介于0～1 之間的用于衡量節(jié)點(diǎn)水平準(zhǔn)確度的一種指標(biāo)。假設(shè)C1是實(shí)際社團(tuán)，C2是估計(jì)社團(tuán)。F1（C1，C2）衡量重疊集合C1，C2的查全率和精確率的調(diào)和平均值。計(jì)算方法如公式（4）所示。

4.3 構(gòu)建文本網(wǎng)絡(luò)

首先，實(shí)驗(yàn)對(duì)文本進(jìn)行LDA 主題模型訓(xùn)練，獲取每個(gè)詞條的向量化表達(dá)。其次，通過(guò)詞條文本之間的余弦度計(jì)算，實(shí)驗(yàn)得到了初始的全連接文本網(wǎng)絡(luò)。本實(shí)驗(yàn)假設(shè)余弦相似度在0.05 以下的詞條主題語(yǔ)義相似度可忽略。因此，在實(shí)驗(yàn)數(shù)據(jù)集構(gòu)建的網(wǎng)絡(luò)中，刪去對(duì)應(yīng)連邊，最終得到基礎(chǔ)實(shí)驗(yàn)初始網(wǎng)絡(luò)：含有300個(gè)詞條節(jié)點(diǎn)，9 900 條連邊的加權(quán)網(wǎng)絡(luò)。初始網(wǎng)絡(luò)中文本的主題相似度分布圖5 所示。

圖5 實(shí)驗(yàn)數(shù)據(jù)分布說(shuō)明Fig.5 Distribution of experimental data

為了驗(yàn)證取樣的代表性，本實(shí)驗(yàn)對(duì)Wikipedia 所有詞條進(jìn)行隨機(jī)抽樣，得到3個(gè)抽樣數(shù)據(jù)集。3個(gè)抽樣數(shù)據(jù)集的詞條量及主題相似度統(tǒng)計(jì)特征如表2 所示。從表2 可以看出，實(shí)驗(yàn)數(shù)據(jù)集與兩組基于抽樣數(shù)據(jù)集構(gòu)造的網(wǎng)絡(luò)的節(jié)點(diǎn)相似度分布差異不大。因此，本研究假設(shè)在實(shí)驗(yàn)數(shù)據(jù)集得到的測(cè)試結(jié)果可以很好反映出不同算法的性能。

表2 實(shí)驗(yàn)數(shù)據(jù)詞條量及主題相似度統(tǒng)計(jì)特征Table 2 Entry numbers of experimental data and statistics of topic similarity features

4.4 社團(tuán)劃分結(jié)果

在實(shí)際應(yīng)用中，初始階段，實(shí)驗(yàn)需要給定一個(gè)主題，提供屬于該主題的一個(gè)或一定數(shù)量的種子詞條。在社團(tuán)劃分結(jié)果中，所有的詞條都被劃入了不同的社團(tuán)。本研究選取與初始階段提供的種子詞條屬于一個(gè)社團(tuán)的詞條的并集作為劃分結(jié)果。該詞條的集合被認(rèn)為屬于給定主題的學(xué)科領(lǐng)域。實(shí)驗(yàn)選用了每個(gè)學(xué)科領(lǐng)域名稱的詞條作為種子詞條。例如5 號(hào)計(jì)算機(jī)社團(tuán)選用Computer Science，則與該詞條在劃分結(jié)果中處于同一社團(tuán)的詞條均被劃入該主題，即使得這些詞條被劃入計(jì)算機(jī)領(lǐng)域。

在模型參數(shù)設(shè)置時(shí)，本次實(shí)驗(yàn)選定最大社團(tuán)數(shù)v為9。根據(jù)構(gòu)建的詞條網(wǎng)絡(luò)，實(shí)驗(yàn)利用改進(jìn)COPRA 算法，并選取集聚系數(shù)Q 值最大時(shí)的詞條劃分結(jié)果。集聚系數(shù)的最大保證其結(jié)果是當(dāng)前算法下社團(tuán)內(nèi)部的連接是最緊密的。劃分結(jié)果如圖6 所示。其中，圖6 中橫坐標(biāo)為標(biāo)簽，縱坐標(biāo)為含有該標(biāo)簽的節(jié)點(diǎn)。橫坐標(biāo)相同的點(diǎn)被劃分為同一社團(tuán)。在實(shí)驗(yàn)中，橫坐標(biāo)標(biāo)簽0～49、50～99、100～149、150～199、200～249、250～299分別是已知核心分類為音樂(lè)、體育、數(shù)學(xué)、情報(bào)學(xué)、文學(xué)、計(jì)算機(jī)的詞條。例如，圖6 中紅色和藍(lán)色的色塊交接處為與體育相關(guān)的核心詞條。

圖6 文本劃分結(jié)果Fig.6 Results of text classification

4.5 結(jié)果評(píng)價(jià)及說(shuō)明

4.5.1 基礎(chǔ)結(jié)果說(shuō)明

表3 和表4 分別列出了改進(jìn)的COPRA 算法和COPRA 算法在情報(bào)學(xué)領(lǐng)域及數(shù)學(xué)領(lǐng)域所獲取有關(guān)詞條劃分的部分結(jié)果。從結(jié)果可以看出，相比COPRA 算法，改進(jìn)COPRA 算法可以獲得更好的結(jié)果。

表3 改進(jìn)COPRA 算法及COPRA 算法在情報(bào)學(xué)領(lǐng)域獲取的部分詞條對(duì)比Table 3 Comparison of some entries obtained by the improved COPRA algorithm and the original one in theInformation Science field

圖7、圖8 和圖9 呈現(xiàn)了改進(jìn)COPRA 算法和COPRA 算法在6個(gè)不同領(lǐng)域上有關(guān)詞條社團(tuán)劃分的精確度、召回率和F1 值比較分析。如圖7 至圖9 所示，對(duì)于音樂(lè)、體育、計(jì)算機(jī)領(lǐng)域的詞條的社團(tuán)劃分，相比于COPRA 算法，改進(jìn)后的算法在精確度、召回率和F1 值都得到明顯改善，對(duì)文學(xué)領(lǐng)域詞條的劃分結(jié)果沒(méi)有明顯改善，但對(duì)情報(bào)學(xué)和數(shù)學(xué)領(lǐng)域的劃分結(jié)果略有下降。

改進(jìn)后的算法使得情報(bào)學(xué)和數(shù)學(xué)領(lǐng)域詞條的社團(tuán)劃分的精確率和F1 值偏低。其原因在于該算法的領(lǐng)域劃分結(jié)果比常用的領(lǐng)域定義相對(duì)較廣。例如，在數(shù)據(jù)集中，數(shù)學(xué)、計(jì)算機(jī)和情報(bào)學(xué)領(lǐng)域存在較大程度交叉。即部分計(jì)算機(jī)領(lǐng)域詞條被劃入情報(bào)學(xué)和數(shù)學(xué)領(lǐng)域，如Computer Science、Virtual Education、SQL、Data ControlLanguage 等被劃入情報(bào)學(xué)領(lǐng)域，而Atmospheric_Wave被劃入數(shù)學(xué)領(lǐng)域。而對(duì)于文學(xué)領(lǐng)域的詞條，改進(jìn)后的算法的劃分結(jié)果的F1 值沒(méi)有明顯的提高。這種情況表示，在所選數(shù)據(jù)集中，給予對(duì)應(yīng)領(lǐng)域的詞條增加“one more chance”的篩選過(guò)程并沒(méi)有對(duì)劃分結(jié)果有明顯的影響。即在詞條劃分中，某些領(lǐng)域標(biāo)簽已被賦予較大權(quán)重，則不需要在較小的權(quán)重的領(lǐng)域標(biāo)簽內(nèi)進(jìn)行二次選擇。此外，從6個(gè)領(lǐng)域的劃分結(jié)果中可以發(fā)現(xiàn)，除文學(xué)和體育領(lǐng)域外，其他領(lǐng)域的劃分結(jié)果均達(dá)到了較高的水平。這可能與文學(xué)、體育領(lǐng)域概念相對(duì)較為分散，相似度相對(duì)較低有關(guān)。

表4 改進(jìn)COPRA 算法及COPRA 算法在數(shù)學(xué)領(lǐng)域獲取的部分詞條對(duì)比Table 4 Comparison of some entries obtained by improved COPRA algorithm and original one in Mathematics

圖7 改進(jìn)算法精確率的對(duì)比Fig.7 Comparison of precision of the improved algorithm

圖8 改進(jìn)算法召回率度對(duì)比Fig.8 Comparison of recall of the improved algorithm

圖9 改進(jìn)算法F1 的對(duì)比Fig.9 Comparison of F1 of the improved algorithm

改進(jìn)后的算法對(duì)于領(lǐng)域劃分結(jié)果的集聚系數(shù)有明顯提高，如圖10 所示。從劃分結(jié)果來(lái)看，改進(jìn)算法解決了原算法過(guò)快收斂的問(wèn)題，可以得到合理的劃分結(jié)果，而不是大量的單節(jié)點(diǎn)社團(tuán)，提升了分類器的性能。除了劃分結(jié)果與學(xué)科的特異性有關(guān)之外，整體劃分結(jié)果表現(xiàn)出學(xué)科領(lǐng)域的形態(tài)是基礎(chǔ)學(xué)科范圍擴(kuò)張以及交叉學(xué)科內(nèi)部聚合。例如，從劃分結(jié)果中可以看出，盡管部分情報(bào)學(xué)的詞條同時(shí)屬于計(jì)算機(jī)科學(xué)和數(shù)學(xué)，但是依然存在大量概念是獨(dú)立屬于情報(bào)學(xué)的。此現(xiàn)象說(shuō)明，在原有學(xué)科概念拓展和交叉的基礎(chǔ)上，某些交叉學(xué)科具有一定的獨(dú)立性。而在其發(fā)展過(guò)程中，此類交叉學(xué)科也會(huì)演化出自身的概念，并不僅僅是簡(jiǎn)單的對(duì)來(lái)自不同領(lǐng)域?qū)W科概念的融合。

圖10 改進(jìn)算法集聚系數(shù)的對(duì)比Fig.10 Comparison of clustering coefficient of the Improved algorithm

4.5.2 參數(shù)敏感性分析

本章節(jié)在下面實(shí)驗(yàn)探討最大社團(tuán)v 和初始種子詞條數(shù)等參數(shù)對(duì)結(jié)果的影響。

（1）最大所屬社團(tuán)v。改進(jìn)的算法要預(yù)設(shè)每個(gè)節(jié)點(diǎn)所屬的最大社團(tuán)數(shù)v。利用6個(gè)領(lǐng)域的詞條數(shù)據(jù)，實(shí)驗(yàn)分析了不同最大社團(tuán)數(shù)對(duì)劃分結(jié)果的影響。圖11 表示了6個(gè)領(lǐng)域中不同的v 值對(duì)精確度和F1 值的影響。從圖11 可以看出，隨著最大社團(tuán)數(shù)v 的增加，精確率和F1 沒(méi)有明顯的正相關(guān)關(guān)系。即是該參數(shù)的調(diào)整對(duì)結(jié)果沒(méi)有顯著影響。

（2）初始種子詞條。本組實(shí)驗(yàn)將以情報(bào)學(xué)領(lǐng)域概念為例，分析初始種子詞條數(shù)對(duì)結(jié)果的影響。圖12 表示了不同初始種子詞條數(shù)對(duì)領(lǐng)域劃分的精確率、召回率、F1 的影響。

從圖12 可以看出，初始詞條的數(shù)量對(duì)領(lǐng)域詞條的劃分結(jié)果產(chǎn)生顯著的影響。精確率和F1 值隨種子詞條數(shù)量的增加呈明顯的上升趨勢(shì)，但是召回率沒(méi)有明顯的正向變化。本實(shí)驗(yàn)將學(xué)科的核心的、具有代表性的、內(nèi)容詳盡的詞條文本作為種子詞條、增加詞條數(shù)都可以提高算法的有效性。但增加詞條數(shù)量的同時(shí)，新加入的詞條本身可能屬于不同的學(xué)科社團(tuán)，降低了算法的召回率。

5 總結(jié)與展望

圖11 不同最大所屬社團(tuán)數(shù)v 對(duì)各領(lǐng)域劃分結(jié)果精確率和F1 的影響Fig.11 The influence of distinct maximum number of communities v on precision and F1 of divided results in different areas

圖12 初始種子詞條數(shù)對(duì)結(jié)果精確率、召回率、F1 的影響Fig.12 The influence of original seed entries on the precision,recall and F1 of the results

本研究從復(fù)雜網(wǎng)絡(luò)中社團(tuán)劃分的視角挖掘了詞條相似度的相互作用。本研究通過(guò)構(gòu)建主題文本網(wǎng)絡(luò)和改進(jìn)重疊社區(qū)標(biāo)簽傳播算法，實(shí)現(xiàn)了學(xué)科領(lǐng)域的邊界劃分。其重點(diǎn)在于以網(wǎng)絡(luò)的形式表現(xiàn)概念的內(nèi)容和概念之間的相互作用，以網(wǎng)絡(luò)的視角觀察概念之間的結(jié)構(gòu)，并最終以網(wǎng)絡(luò)的方法劃分海量概念的學(xué)科結(jié)構(gòu)。本研究將復(fù)雜網(wǎng)絡(luò)中相關(guān)算法的整體性、系統(tǒng)性引入文本語(yǔ)義分析中。這為文本的語(yǔ)義的分析引入新的方法。另外，本研究挖掘了詞條網(wǎng)絡(luò)的社團(tuán)結(jié)構(gòu)以及復(fù)雜性，以高效快速地在海量信息中獲取與領(lǐng)域相關(guān)的概念，為構(gòu)建相關(guān)學(xué)科知識(shí)庫(kù)、自動(dòng)化構(gòu)建語(yǔ)料庫(kù)等工作提供了有效的方法和思路。

在未來(lái)的工作中，相關(guān)研究可以將已有的基于各種特征的文本分析方法加入網(wǎng)絡(luò)分析的框架中。這會(huì)為文本分析領(lǐng)域注入新的視角，以提升學(xué)科領(lǐng)域的劃分性能。例如，本研究的工作重點(diǎn)在于利用網(wǎng)絡(luò)分析方法對(duì)相同層級(jí)的學(xué)科詞條做出劃分。然而，各個(gè)學(xué)科領(lǐng)域是具有多個(gè)層級(jí)的。在標(biāo)簽傳播等網(wǎng)絡(luò)分析方法的基礎(chǔ)上，如何結(jié)合文本分析方法并融入文本特征，實(shí)現(xiàn)詞條的多層級(jí)自動(dòng)分類、分析詞條間潛在的拓?fù)潢P(guān)系等將幫助對(duì)知識(shí)文本的高效歸檔。同時(shí)，本研究對(duì)于算法的改進(jìn)說(shuō)明語(yǔ)義相似網(wǎng)絡(luò)是具有其特異性的，不能直接搬用復(fù)雜網(wǎng)絡(luò)的方法展開(kāi)分析。如何有效地、合理地改進(jìn)相關(guān)方法，使其適應(yīng)于語(yǔ)義網(wǎng)絡(luò)也是研究人員需要進(jìn)一步分析探討的。