• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于動態(tài)語義網(wǎng)絡(luò)分析的主題演化路徑識別研究

      2021-06-14 02:12:54倪興興劉家潤曹曉麗王長天
      情報學報 2021年5期
      關(guān)鍵詞:信息科學時間段分段

      陳 翔,黃 璐,倪興興,劉家潤,曹曉麗,王長天

      (北京理工大學管理與經(jīng)濟學院,北京 100081)

      1 引 言

      主題演化路徑識別是指通過對以詞語為表征的研究主題在時間序列上的發(fā)展、變化趨勢以及不同主題之間的交互作用進行跟蹤分析,揭示技術(shù)領(lǐng)域發(fā)展脈絡(luò)和演化規(guī)律的研究[1]。它可以幫助科研人員追溯具體學科領(lǐng)域的發(fā)展趨勢,識別研究熱點和可能的新知識增長點[2];也可以為政府和企業(yè)制定學科和領(lǐng)域發(fā)展規(guī)劃提供重要的情報支持[3]。通常,主題的演化路徑由“主題的前驅(qū)者—主題—主題的后繼者”構(gòu)成[4],主題間的演化關(guān)系可以用主題間的相似度來度量,當相似度大于一定的閾值則被認為存在演化關(guān)系,即不同主題在相鄰時間段交界處存在新生、成長、衰減、合并、分裂以及衰亡六種演化方式[5]。

      大量學者從網(wǎng)絡(luò)分析和詞頻分析兩方面入手開展主題演化路徑識別研究,主要包括信息熵、引文分析、突發(fā)詞分析和共詞分析等方法[6]。近年來,基于關(guān)鍵詞網(wǎng)絡(luò)的主題演化路徑識別方法被學者廣泛使用[7]。例如,Katsurai等[8]構(gòu)建了動態(tài)共詞網(wǎng)絡(luò),對心理學領(lǐng)域的主題演化過程進行分析;侯劍華等[9]利用共詞網(wǎng)絡(luò)和聚類分析識別了我國哲學領(lǐng)域研究主題的演化過程。其中,如何準確識別關(guān)鍵主題是該類研究的核心[10],大量學者已開展相關(guān)研究。例如,Song等[11]學者使用馬爾可夫隨機場對關(guān)鍵詞進行聚類進而識別主題;王曰芬等[12]使用LDA(Latent Dirichlet Allocation)模型識別出知識流領(lǐng)域的主題;張嶷等[13]采用主題詞簇法通過詞表清洗與合并、模糊語義處理等步驟對主題詞表進行深度處理,解決了主題詞表存在噪音和冗余的問題,實現(xiàn)了清洗、鞏固主題詞表的目的;有助于生成更有意義的核心聚類[14]。此外,社區(qū)發(fā)現(xiàn)算法逐漸興起,展現(xiàn)出比傳統(tǒng)聚類方法更大的優(yōu)勢[15],例如,Blondel等[16]提出的Fast Unfolding算法可在不事先確定主題數(shù)的情況下更準確地進行主題識別。

      然而,當前研究還存在一些不足。首先,這些方法均假定關(guān)鍵詞之間相互獨立,未充分考慮關(guān)鍵詞之間的語義關(guān)聯(lián)關(guān)系[17],影響了關(guān)鍵詞相似度分析的準確性。例如,關(guān)系密切的關(guān)鍵詞對因沒有共同出現(xiàn)在同一篇文獻而被忽略。其次,傳統(tǒng)主題演化路徑識別研究往往憑經(jīng)驗或按照簡單平均的方法對時間段進行劃分,缺少科學依據(jù)。例如,時間段劃分過長,大量主題在設(shè)定時間段內(nèi)已完成演化;時間段劃分過短,一個主題會被重復劃分在多個時間段,導致主題割裂[9],均無法科學呈現(xiàn)主題間的演化關(guān)系。

      為有效挖掘關(guān)鍵詞之間的語義關(guān)系,準確識別領(lǐng)域中的熱點主題及發(fā)展趨勢,本文提出了基于動態(tài)網(wǎng)絡(luò)分析的主題演化路徑識別方法。首先,引入分段線性表示法(piecewiselinear representation,PLR)對時間段進行劃分,并利用Word2Vec模型[18]構(gòu)建動態(tài)關(guān)鍵詞語義網(wǎng)絡(luò)來體現(xiàn)關(guān)鍵詞之間的語義聯(lián)系;其次,利用Fast Unfolding社區(qū)發(fā)現(xiàn)算法識別動態(tài)網(wǎng)絡(luò)中的社區(qū),并基于Z-Score方法識別所有社區(qū)的主題標簽以代表某領(lǐng)域的研究主題;最后,通過度量相鄰時間段間的主題相似性來表現(xiàn)主題間的演化關(guān)系,進而識別主題的演化路徑。本文以信息科學領(lǐng)域為例開展實證分析,并對方法的有效性進行了驗證。

      2 方法框架

      本文的方法框架如圖1所示,包括動態(tài)關(guān)鍵詞語義網(wǎng)絡(luò)構(gòu)建、基于社區(qū)發(fā)現(xiàn)的主題識別、主題演化路徑識別及可視化三大部分。

      2.1 動態(tài)關(guān)鍵詞語義網(wǎng)絡(luò)構(gòu)建

      2.1.1 數(shù)據(jù)收集與預(yù)處理

      本方法首先從WoS(Web of Science)中下載特定領(lǐng)域的文獻數(shù)據(jù),并利用文本挖掘軟件Vantage‐Point①VantagePoint是面向文獻計量數(shù)據(jù)(如科技論文、專利以及學術(shù)項目申請書等)的文本挖掘與可視化軟件。更多詳情請訪問官網(wǎng):https://www.thevantagepoint.com/抽取關(guān)鍵信息,包括關(guān)鍵詞、標題、摘要以及年份;之后,對抽取的數(shù)據(jù)進行預(yù)處理,主要包括:去除標題及摘要中的亂碼、去除帶有亂碼的關(guān)鍵詞以及關(guān)鍵詞中的XML標簽等[5]。

      2.1.2 基于分段線性表示法的時間段劃分

      本部分的目的是基于分段線性表示法對關(guān)鍵詞序列進行時間段劃分。首先,對關(guān)鍵詞在等時間區(qū)間(月、季、年等)內(nèi)的數(shù)量變化進行統(tǒng)計,得到一條有效的關(guān)鍵詞數(shù)量序列,記為K={k1,k2,…,kt,…,kl},如圖2a所示,其中,kt表示某研究領(lǐng)域在第t(1≤t≤l)時間區(qū)間內(nèi)的關(guān)鍵詞數(shù)量。在統(tǒng)計單位時間內(nèi)的關(guān)鍵詞數(shù)量時,為了清除噪聲并使語義相同的關(guān)鍵詞不被重復統(tǒng)計,本文利用主題詞簇法[4]對關(guān)鍵詞進行清洗(包括基于專家知識整合同義詞、合并詞干相同的詞匯等)。

      圖1 基于動態(tài)網(wǎng)絡(luò)分析的主題演化識別方法框架

      其次,利用分段線性表示法將得到的關(guān)鍵詞數(shù)量序列K擬合為首尾銜接的分段線性結(jié)構(gòu)KPLR,如圖2b中的折線所示。

      這里,KPLR表示關(guān)鍵詞數(shù)量統(tǒng)計序列K的分段線性結(jié)構(gòu),其表達式為

      其中,Li(kti-1+1,kti-1+2,…,kti)表示KPLR中的第i(1≤i≤s)個線段,也是根據(jù)數(shù)據(jù)點kti-1+1,kti-1+2,…,kti擬合的線段(即趨勢段),這條線段的起始時間為ti-1+1,終止時間為ti。

      圖2b中,折線的轉(zhuǎn)折點便是本文要識別的趨勢轉(zhuǎn)折點,用TTP(trend turning points)表示,表達式為

      圖2 分段線性表示法示意圖

      其中,t1表示第一個線段結(jié)束時的時間節(jié)點;t2表示第二個線段結(jié)束時的時間節(jié)點。這些時間節(jié)點標志著主題演化趨勢開始發(fā)生轉(zhuǎn)折,依據(jù)這些趨勢轉(zhuǎn)折點可以劃分時間段,

      其中,T1表示起始時間點為1、終止時間點為t1的時間段;T2表示起始時間點為t1+1、終止時間點為t2的時間段;以此類推直到最后一個趨勢轉(zhuǎn)折點被劃入時間段內(nèi)。

      在分段線性表示法中,表示分段數(shù)量的參數(shù)s的設(shè)置非常關(guān)鍵,s越小會忽略越多的局部波動數(shù)據(jù),導致較大的整體擬合誤差;而s越大保留的局部波動數(shù)據(jù)越多,引入的噪聲也越多。本文參考了陳虹樞[19]的參數(shù)設(shè)置方法來平衡擬合的可靠性與趨勢的可捕捉性。

      首先,確定s的取值范圍,求出每個s對應(yīng)的均值根誤差(root mean square error,RMSE)并存入均值根誤差序列。在該序列中,隨著s值的增大,均值根誤差值不斷減小。RMSE是用來衡量觀測值與真值之間偏差的指標,可以更加直觀地表現(xiàn)觀測值對于真實值的擬合效果,本文用該指標來衡量分段線性擬合后的曲線與原曲線之間的誤差,其計算公式為

      其中,kt表示原曲線上t時刻的點;PLRt表示擬合后曲線上t時刻的點;N表示數(shù)據(jù)點的總個數(shù)。

      其次,利用求導的方式,選取在RMSE不斷減小過程中顯著放緩的那一點,以其對應(yīng)的s作為最優(yōu)結(jié)果,即求出RMSE序列近似導數(shù)最大值所對應(yīng)的s值。本文用sAD表示最優(yōu)分段數(shù),其計算公式為

      2.1.3 基于Word2Vec的詞向量獲取

      劃分好時間段后,本文先對各時間段內(nèi)的摘要和標題文本進行分句和分詞處理,然后將分詞后的語句序列作為語料庫輸入到待訓練的Word2Vec模型中,并選用skip-gram模型對語料進行訓練,最后,將得到的關(guān)鍵詞通過訓練好的Word2Vec模型映射為詞向量。由于該詞向量是基于關(guān)鍵詞與上下文之間的關(guān)系得出的,既包含每個詞從上位詞繼承來的公有屬性,也包含自身的私有屬性,可以體現(xiàn)關(guān)鍵詞的多重語義信息[20]。Word2Vec模型訓練過程如圖3所示。

      圖3 Word2Vec模型訓練示意圖

      2.1.4 構(gòu)建動態(tài)關(guān)鍵詞語義網(wǎng)絡(luò)

      本部分主要是構(gòu)建動態(tài)關(guān)鍵詞語義網(wǎng)絡(luò)。首先,基于關(guān)鍵詞的時間信息將抽取得到的關(guān)鍵詞分到劃分好的時間段內(nèi),并利用主題詞簇法對每個時間段內(nèi)的關(guān)鍵詞進行清洗。

      接下來,依次在各時間段內(nèi),利用清洗后的關(guān)鍵詞與其對應(yīng)的詞向量構(gòu)建關(guān)鍵詞語義網(wǎng)絡(luò),構(gòu)建過程闡述如下:

      (1)定義某領(lǐng)域在時間段Ti內(nèi)清洗后的關(guān)鍵詞集為表示屬于關(guān)鍵詞集WTi的第i個關(guān)鍵詞。

      最后,所有時間段內(nèi)的關(guān)鍵詞語義網(wǎng)絡(luò)組成了本文的動態(tài)語義網(wǎng)絡(luò)G,計算公式為

      其中,GTi為時間段Ti內(nèi)的關(guān)鍵詞語義網(wǎng)絡(luò)。

      2.2 基于社區(qū)發(fā)現(xiàn)的主題識別

      本部分將識別動態(tài)關(guān)鍵詞語義網(wǎng)絡(luò)中的主題。首先,利用Fast Unfolding算法識別語義網(wǎng)絡(luò)中的社區(qū)。Fast Unfolding是基于模塊度最大化的社區(qū)發(fā)現(xiàn)算法,模塊度是衡量社區(qū)劃分效果的指標,可以度量社區(qū)內(nèi)部連接的緊密度以及社區(qū)之間連接的稀疏度,模塊度越大,社區(qū)劃分的效果越好[21]。本文用R表示模塊度,計算公式為

      其中,A表示網(wǎng)絡(luò)中所有連邊的權(quán)重之和;Aij表示節(jié)點i和節(jié)點j之間的連邊權(quán)重;Ni為節(jié)點i所有連邊的權(quán)重之和,Nj為節(jié)點j所有連邊的權(quán)重之和;δ(Mi,Mj)用來表示節(jié)點i和節(jié)點j是否在同一社區(qū),如果在同一社區(qū),取值為1,否則,取值為0。

      為了避免弱關(guān)聯(lián)和負關(guān)聯(lián)(向量余弦值為負數(shù))的關(guān)鍵詞對在識別社區(qū)時引入噪聲,本文參考曾慶田等[17]的研究對構(gòu)建的關(guān)鍵詞語義網(wǎng)絡(luò)進行適當剪枝,去掉部分關(guān)系較弱關(guān)鍵詞對之間的連邊。本文將δ依次從0增至0.5(步長為0.05),利用Fast Unfolding算法識別δ對應(yīng)剪枝后網(wǎng)絡(luò)中的社區(qū),并計算最后的模塊度。這里,本文將模塊度最大值對應(yīng)的δ作為剪枝的閾值。識別出動態(tài)網(wǎng)絡(luò)中的社區(qū)后,參考Wang等[4]的方法,利用Z-Score指標為每個社區(qū)的內(nèi)部節(jié)點排序,選出Z-Score值最高的節(jié)點作為該社區(qū)的主題標簽,計算公式為

      其中,zi表示社區(qū)M中第i個節(jié)點的Z-Score值;N iM表示社區(qū)M的第i個節(jié)點與社區(qū)M其他節(jié)點連邊的權(quán)重之和;M o表示社區(qū)M的節(jié)點數(shù)量;B表示社區(qū)M內(nèi)所有節(jié)點與其他節(jié)點連邊的權(quán)重和的總和;Q表示社區(qū)M中所有節(jié)點與其他節(jié)點連邊的權(quán)重和的平方的總和。節(jié)點的Z-Score值越高,說明該節(jié)點與社區(qū)內(nèi)其他節(jié)點的關(guān)系越緊密,越能代表整個社區(qū)。參考Guimerà等[22]的研究,Z-Score值大于等于2.5的節(jié)點可以作為社區(qū)的核心節(jié)點。

      2.3 主題演化路徑識別及可視化

      本部分將識別主題的演化路徑并進行可視化。首先,基于對應(yīng)社區(qū)之間的相似度識別主題之間的演化關(guān)系。核心節(jié)點是社區(qū)內(nèi)最具代表性的節(jié)點,也是社區(qū)發(fā)展變化的關(guān)鍵[4]。因此,本文利用核心節(jié)點度量社區(qū)之間的相似性,定義t+1時間段內(nèi)的某個社區(qū)為Mt+1,t時間段內(nèi)的某個社區(qū)為Mt,則Mt+1與Mt的相似度為HS(Mt,Mt+1),計算公式為

      其中,H(Mt)表示Mt中核心關(guān)鍵詞節(jié)點集,H(Mt+1)表示Mt+1中核心關(guān)鍵詞節(jié)點集;Sim(H(Mt),H(Mt+1))表示H(Mt)與H(Mt+1)之間的相似度。

      考慮到主題之間的相似度很大程度上依賴于主題之間的語義相似性,本文基于核心關(guān)鍵詞節(jié)點的詞向量,并利用關(guān)鍵詞節(jié)點對應(yīng)的Z-Score值賦予權(quán)重,采用向量余弦值加權(quán)平均的方法度量Sim(H(Mt),H(Mt+1))。為了統(tǒng)一量綱,本文對每個社區(qū)的Z-Score值進行標準化處理。以社區(qū)Mt為例,設(shè)該社區(qū)的核心關(guān)鍵詞節(jié)點集H(Mt)中的某個關(guān)鍵詞為Wt,則Wt對應(yīng)的Z-Score值的標準化過程為

      其中,Z'Wt表示關(guān)鍵詞Wt對應(yīng)的Z-Score標準化后的值,ZWt表示W(wǎng)t對應(yīng)的Z-Score值;Zmax表示標準化前H(M t)對應(yīng)的Z-Score值中最大值,Zmin表示標準化前H(M t)對應(yīng)的Z-Score值中最小值。

      對Z-Score值標準化處理后,Sim(H(Mt),H(M t+1))的計算公式可以表示為

      其中,Z't表示核心關(guān)鍵詞節(jié)點集H(Mt)對應(yīng)的Z-Score值標準化后的集合;表示H(Mt)對應(yīng)標準化后的所有Z-Score值與H(Mt+1)對應(yīng)標準化后的所有Z-Score值之間的兩兩乘積的總和;vWt表示W(wǎng)t由Word2Vec模型映射后的詞向量;cos(vWt,vWt+1)則表示向量v Wt與向量vWt+1之間的余弦值。

      計算得到主題間的相似度后,可以剖析相鄰時間段中兩個主題之間的演化關(guān)系,即確定每個主題的前驅(qū)者與后繼者,以及由“前驅(qū)者—主題—后繼者”構(gòu)成主題的演化路徑。定義t+1時間段內(nèi)的某個社區(qū)為Mt+1,它的前驅(qū)者為Pre(Mt+1),則Mt+1為Pre(Mt+1)的后繼者,Pre(Mt+1)的表達式定義為

      其中,Gt表示t時間段內(nèi)的關(guān)鍵詞語義網(wǎng)絡(luò);Mt表示Gt中的某個社區(qū);δ為人工設(shè)定的閾值。

      最后,對整個領(lǐng)域的主題演化路徑進行可視化。本文以矩形代表主題,矩形上的文字代表主題標簽,矩形的高度與主題對應(yīng)社區(qū)的節(jié)點數(shù)量成正比,且同一時間段內(nèi)的主題按照矩形的高度從大到小排成一列。再利用一條從前驅(qū)者指向主題的弧線表示主題間的演化關(guān)系,弧線上標出兩個主題之間的相似度,不存在演化關(guān)系的主題將被描繪成淺灰色,演化路徑示意圖如圖4所示。

      具體來看,t-1時間段內(nèi)的主題A與C是t時間段內(nèi)主題D的前驅(qū)者,弧線上標了主題間的相似度,t+1時間段的主題F是t時間段內(nèi)主題D的后繼者。t+1時間段內(nèi)的主題H與其他主題不存在演化關(guān)系。

      根據(jù)學者Palla[23]的研究,社區(qū)的發(fā)展過程可以分為六種模式:新生、成長、合并、衰減、分裂以及衰亡。

      (1)新生:在t時間段內(nèi)不存在的社區(qū),在t+1時間段內(nèi)出現(xiàn)。

      (2)成長:在t時間段內(nèi)存在的社區(qū),繼續(xù)在t+1時間段內(nèi)存在且社區(qū)節(jié)點增多。

      (3)合并:兩個或者多個存在于t時間段內(nèi)的社區(qū)在t+1時間段內(nèi)合并為一個社區(qū)。

      (4)衰減:在t時間段內(nèi)存在的社區(qū),繼續(xù)在t+1時間段內(nèi)存在且社區(qū)節(jié)點減少。

      (5)分裂:存在于t時間段內(nèi)的社區(qū)在t+1時間段內(nèi)分裂成兩個或者多個社區(qū)。

      (6)衰亡:存在于t時間段內(nèi)的社區(qū)在t+1時間段內(nèi)消失。

      圖4 主題演化路徑示意圖

      2.4 方法驗證

      本文設(shè)計了定性與定量相結(jié)合的驗證方法。在定性驗證部分,我們將本文的分析結(jié)果與權(quán)威期刊文獻的結(jié)果進行了對比;在定量驗證部分,本文既對比了分段線性表示法與平均時間劃分法的分析結(jié)果,又將本方法與K-means和LDA兩大方法在主題識別中的效果進行了比較,并將準確率、召回率和F1值作為評價指標[24],用來驗證本方法的有效性。相關(guān)指標計算公式為

      3 實證分析

      信息科學是一門典型的交叉學科,近年來該領(lǐng)域文獻增長迅速,新的科學概念大量涌現(xiàn)[25],這使得該學科的主題演化過程更加復雜,其主題演化路徑識別研究更有意義。本文選擇信息科學領(lǐng)域作為實證分析對象,參考Hou等[25]學者的最新研究確定了信息科學領(lǐng)域的9種期刊,從WoS下載了2010—2019年10108條文獻數(shù)據(jù),如表1所示。

      表1 信息科學領(lǐng)域期刊文獻統(tǒng)計

      通過Vantage Point軟件提取得到31523個作者關(guān)鍵詞,去除帶有亂碼的關(guān)鍵詞和XML標簽后,獲得31276個有效關(guān)鍵詞;之后,將有效關(guān)鍵詞按月份劃分為120個關(guān)鍵詞子集,利用主題詞簇法進行清洗,得到一個隨時間變化的關(guān)鍵詞數(shù)量序列。這里,本文以2018年11月的關(guān)鍵詞子集為例來演示清洗過程,如表2所示。

      表2 2018年11月的關(guān)鍵詞清洗步驟(主題詞簇法)

      接下來,本文利用分段線性表示法中常用的三種方法(滑動窗口法、自上而下法以及自下而上法),對關(guān)鍵詞數(shù)量序列進行分段線性擬合,并將參數(shù)s的取值范圍設(shè)置為2到20[19]。遵循第2.1.2節(jié)的分析步驟,可以得到三種方法對應(yīng)的最優(yōu)分段數(shù)目s及其對應(yīng)的均值根誤差RMSE。最后,利用綜合加權(quán)平均法對三種方法的擬合結(jié)果進行評估。為統(tǒng)一量綱,本文對s及RMSE兩個指標進行標準化處理,使其均處于0到1之間,標準化的過程為

      其中,as表示某指標標準化后的值;ai表示該指標標準化前的值;amin表示所有指標的最小值;amax表示所有指標的最大值。然后,對標準化后的s和RMSE指標加權(quán)求和(本文認為這兩個指標同等重要,權(quán)值均為0.5),并用作評估指標。三種方法的擬合結(jié)果如表3所示。

      表3 三種分段線性表示法的分段擬合結(jié)果

      為了平衡趨勢可捕捉性和擬合可靠性,本文傾向于分段較少以及均值根誤差較小的擬合方法[19],故選擇了加權(quán)平均值最小的滑動窗口法(取值0.2301),該方法的擬合結(jié)果如圖5所示。

      這里,信息科學領(lǐng)域被劃分為6個時間段,各個時間段的起始點與終止點如表4所示。

      本案例中的關(guān)鍵詞集中有大量短語,如“Infor‐mation Retrieval”“Citation Analysis”等,而Word2Vec模型不能直接得出這些短語的向量,因此,我們將短語形式的關(guān)鍵詞轉(zhuǎn)換為相應(yīng)的駝峰形式進行模型訓練,如將短語“network analysis”轉(zhuǎn)換為“Net‐workAnalysis”,并將關(guān)鍵詞通過訓練好的Word2Vec模型映射為相應(yīng)的詞向量。這里,我們參考Wang等[26]的工作,將向量設(shè)置為300維,窗口大小設(shè)置為7,最小詞頻設(shè)置為3。之后,在每個時間段內(nèi)構(gòu)建關(guān)鍵詞語義網(wǎng)絡(luò)。首先,將關(guān)鍵詞集進一步劃分為6個時間段內(nèi)的關(guān)鍵詞子集,刪除詞頻小于3的關(guān)鍵詞(去除噪聲關(guān)鍵詞)并使用主題詞簇法進行清洗,清洗后的各時間段的關(guān)鍵詞數(shù)量如表5所示。

      圖5 關(guān)鍵詞數(shù)量序列的分段線性擬合結(jié)果

      表4 關(guān)鍵詞數(shù)量序列的時間段

      表5 各時間段內(nèi)的關(guān)鍵詞數(shù)量

      其次,依次在每個時間段內(nèi)計算關(guān)鍵詞對應(yīng)詞向量之間的余弦值,并以余弦值作為元素構(gòu)建關(guān)鍵詞關(guān)系矩陣?;诖丝傻玫?個關(guān)鍵詞關(guān)系矩陣,作為關(guān)鍵詞語義網(wǎng)絡(luò)。由于篇幅原因,這里只展示2010/01-2012/04時間段部分關(guān)鍵詞關(guān)系矩陣,如表6所示。

      表6 2010/01-2012/04關(guān)鍵詞關(guān)系矩陣(部分)

      得到動態(tài)關(guān)鍵詞語義網(wǎng)絡(luò)后,利用Fast Unfold‐ing進行剪枝并識別網(wǎng)絡(luò)中的社區(qū),最終輸出代表社區(qū)的關(guān)鍵詞列表。整個動態(tài)網(wǎng)絡(luò)共識別出154個社區(qū),各時間段網(wǎng)絡(luò)的剪枝閾值、社區(qū)數(shù)量以及對應(yīng)的模塊度如表7所示。

      表7 各時間段內(nèi)關(guān)鍵詞語義網(wǎng)絡(luò)的社區(qū)劃分結(jié)果

      這里需要為每個社區(qū)賦予主題標簽。首先,利用Python語言為154個社區(qū)中的每個節(jié)點計算其相應(yīng)的Z-Score值,選擇社區(qū)中Z-Score值最大的節(jié)點作為該社區(qū)的主題標簽,并以Z-Score值超過2.5的節(jié)點為該社區(qū)的核心節(jié)點。之后,基于社區(qū)的核心節(jié)點度量相鄰時間段間的社區(qū)相似度,參考Schwartz等[27]的研究,將主題相似度閾值δ設(shè)為0.7,即相似度大于0.7的主題存在演化關(guān)系。圖6顯示了信息科學領(lǐng)域2010—2019年的主題演化路徑圖。

      我們可以發(fā)現(xiàn),近十年間信息科學領(lǐng)域存在明顯的主題演化現(xiàn)象。例如,2013/10-2014/07時間段內(nèi)的“Collaboration Analysis”(合作分析)、“Col‐laboration Network”(合作網(wǎng)絡(luò))、“Social Network Analysis”(社交網(wǎng)絡(luò)分析)、“Co-authorship Net‐work”(合著網(wǎng)絡(luò))以及“Network Analysis”(網(wǎng)絡(luò)分析)五個研究主題融合為2014/08-2015/06中的“Network Analysis”(網(wǎng)絡(luò)分析),體現(xiàn)了主題合并;2013/10-2014/07時間段內(nèi)的“Text Mining”(文本挖掘)主題分裂成2014/08-2015/06中的“Text Mining”與“Social Media Analysis”主題,體現(xiàn)了主題的分裂;又如,2016/11-2019/12時間段內(nèi)產(chǎn)生了新的研究主題“Big Data”(大數(shù)據(jù)),2015/07-2016/10時間段內(nèi)的“Epistemology”主題在2016/11-2019/12中消失,這體現(xiàn)了主題的新生與衰亡;同時,“Cita‐tion Analysis”(引文分析)貫穿了整個過程,其對應(yīng)社區(qū)的大小也在不斷發(fā)生改變,體現(xiàn)了主題的成長和衰減。

      圖6 信息科學領(lǐng)域主題演化路徑圖(2010—2019年)

      基于圖6所示結(jié)果,我們可將近十年信息科學領(lǐng)域的研究主題劃分為計量、管理和技術(shù)三部分。①計量維度包括文獻計量、信息計量、科學計量以及網(wǎng)絡(luò)計量等定量化研究,如一直貫穿信息科學領(lǐng)域的“Citation Analysis”,以及演化過程中與其合并的“Academic Ranking”(學術(shù)排名)、“Author Ranking”(作者排名)等,它們是文獻計量學中的常用方法,致力于對期刊、學者以及科學研究的影響性進行定量化評估??梢钥闯觯炕芯渴切畔⒖茖W領(lǐng)域的重要研究方向與必然趨勢;②管理維度是管理學在信息科學領(lǐng)域進一步深化和拓展,如圖中的“Knowledge Management”(知識管理)、“Document Management”(文檔管理)及其演化出來的“Information Retrieval”(信息檢索)等;③技術(shù)維度是指信息科學領(lǐng)域不斷引入數(shù)學模型、計算機算法等工具展開新的研究,包括數(shù)學模型、深度學習等主題,如圖中的“Text Mining”(文本挖掘)、“Text Clustering”(文本聚類)、“Machine Learning”(深度學習)以及“Scientific Model”(科學模型)等。該維度的主題是信息科學領(lǐng)域重要的新興趨勢,應(yīng)當予以重視。

      下面,我們以“Citation Analysis”研究主題相關(guān)演化路徑(圖7)為例進行重點探討,并與權(quán)威期刊文獻的分析結(jié)果進行對比驗證。

      從圖7可以看出,2010/01-2012/04時間段中有“Citation Analysis”“Academic Ranking”“Journal Im‐pact Factor”(期刊影響因子)以及“Webometrics”(網(wǎng)絡(luò)計量學)四個研究主題,在2012/05-2013/09時間段內(nèi)融合為“Citation Analysis”,這說明越來越多的學術(shù)、期刊影響性以及網(wǎng)絡(luò)計量學研究用到引文分析方法,使四個主題之間的關(guān)系越來越緊密,進而融合。我們的結(jié)論也與很多學者的研究相一致,例如,學者Vaio等[28]明確指出,引文分析是評估期刊和學術(shù)研究的重要工具,并用引文分析研究經(jīng)濟學相關(guān)期刊的排名;同時,2014/08-2015/06中的“Text Mining”主題融入2015/07-2016/10中的“Citation Analysis”,例如,學者Kralj等[29]明確提出通過結(jié)合文本挖掘技術(shù)與引文網(wǎng)絡(luò)分析為研究問題帶來了新視角,利用“Text Mining”構(gòu)建新型的引文網(wǎng)絡(luò);此外,2014/08-2015/06時間段內(nèi)的“Alt‐metrics”(替代計量學)和2015/07-2016/10的“So‐cial Media Analysis”(社交媒體分析)均融入了“Citation Analysis”,這表明基于網(wǎng)絡(luò)媒體文本的新式計量學為“Citation Analysis”帶來了“新鮮血液”,例如,學者Sud等[30]指出通過挖掘轉(zhuǎn)發(fā)、評論等社交媒體關(guān)系可以準確地識別意見領(lǐng)袖。

      接下來,本文采用傳統(tǒng)的平均時間段劃分法對主題演變的時間段進行劃分,并對2010—2019年信息科學領(lǐng)域的主題演化路徑進行描繪,結(jié)果如圖8所示??梢悦黠@看出,圖8與圖6相比丟失了很多主題,如圖6中2012/05-2013/09時間段內(nèi)的“Tech‐nological Transition”(技 術(shù) 轉(zhuǎn) 型)、“Information Gain”(信息增益),2013/10-2014/07時間段內(nèi)的“Citing Behavior”(引用行為)、“Concept Map”(概念圖)以及2014/08-2015/06時間段內(nèi)的“Technolo‐gy Policy”(技術(shù)政策)、“Knowledge Organization System”(知識組織系統(tǒng))等主題均沒有在圖8中出現(xiàn),這也進一步體現(xiàn)出本文提出的分段線性法的優(yōu)越性。

      我們還將本方法與K-means和LDA兩類方法同時進行對比,以驗證本文在主題識別上的有效性。參照林江豪等[24]的研究,我們首先依據(jù)信息科學領(lǐng)域?qū)<乙庖娊⒁粋€標準“主題-關(guān)鍵詞”集(標準集),作為各類方法分析結(jié)果的對照標準;其次,分別基于本文方法、K-means和LDA得出相應(yīng)的關(guān)鍵詞集,并把分析結(jié)果與標準集進行對比。由于篇幅原因,這里只展示部分結(jié)果,如表8所示。首先,我們邀請了5名信息科學領(lǐng)域?qū)<覐?個時間段內(nèi)分別隨機挑選2個主題,共得到12個研究主題(表8第2列);然后,由專家確定與主題對應(yīng)的關(guān)鍵詞集(表8的第3列);接下來,我們分別使用本文方法、K-means和LDA三種方法進行主題識別,結(jié)果如表8的第4~6列所示。

      之后,我們以準確率、召回率和F1值作為評價指標將三種方法的分析結(jié)果與人工建立的標準集進行比較,對比結(jié)果如圖9所示。

      從圖9可以看出,本文方法分析結(jié)果所在的值基本都在圖的上部,這表明對于6個時間段內(nèi)的12個主題,本文方法的3個驗證指標值大多優(yōu)于Kmeans和LDA方法,顯示了本文提出的動態(tài)語義網(wǎng)絡(luò)分析方法具有更好的主題識別效果。

      圖7 以“Citation Analysis”主題為主的演化路徑圖

      圖8 信息科學領(lǐng)域主題演化路徑圖(平均時間段劃分法)

      表8 主題詞分析結(jié)果示例

      4 結(jié)論與不足

      本文提出了一種基于動態(tài)網(wǎng)路的主題演化路徑識別方法,一方面,引入分段線性表示法對主題演變的時間段進行劃分,解決了傳統(tǒng)主題演化路徑識別研究劃分時間段不合理的問題;另一方面,基于Word2Vec模型構(gòu)建動態(tài)網(wǎng)絡(luò),并利用社區(qū)發(fā)現(xiàn)算法在動態(tài)網(wǎng)絡(luò)中識別主題,充分考慮了關(guān)鍵詞之間的語義關(guān)系以使分析結(jié)果更加準確。

      本研究也存在一些不足。首先,分段線性表示法仍可以繼續(xù)改進,例如,最新的基于時序趨勢的分段線性化算法,在數(shù)據(jù)集上展現(xiàn)了分段少、逼近性好等優(yōu)點;其次,本文通過將短語形式的關(guān)鍵詞轉(zhuǎn)換為駝峰形式,對語料庫中相應(yīng)的關(guān)鍵詞進行了替換處理,這樣可能會因為改變語料庫的文本結(jié)構(gòu)而降低關(guān)鍵詞向量識別的準確度,在未來的研究中可以考慮利用Phrase2Vec模型對關(guān)鍵詞向量進行訓練。

      圖9 主題識別的結(jié)果對比

      猜你喜歡
      信息科學時間段分段
      山西大同大學量子信息科學研究所簡介
      一類連續(xù)和不連續(xù)分段線性系統(tǒng)的周期解研究
      夏天曬太陽防病要注意時間段
      三元重要不等式的推廣及應(yīng)用
      分段計算時間
      光電信息科學與工程專業(yè)模塊化課程設(shè)計探究
      發(fā)朋友圈沒人看是一種怎樣的體驗
      意林(2017年8期)2017-05-02 17:40:37
      3米2分段大力士“大”在哪兒?
      太空探索(2016年9期)2016-07-12 10:00:04
      基于文獻類型矯正影響因子在信息科學與圖書館學期刊中的實證分析
      不同時間段顱骨修補對腦血流動力學變化的影響
      呼和浩特市| 安仁县| 高雄县| 五华县| 清丰县| 托里县| 仪征市| 济阳县| 雅江县| 西吉县| 孟州市| 通辽市| 紫云| 台安县| 奉贤区| 阳朔县| 冀州市| 天镇县| 巩留县| 赣榆县| 墨脱县| 芒康县| 噶尔县| 临漳县| 岑溪市| 秀山| 固原市| 长葛市| 韩城市| 嘉荫县| 崇义县| 香河县| 枣阳市| 上高县| 石楼县| 长顺县| 莱西市| 马公市| 珠海市| 惠州市| 南汇区|