基于引證關系的“作者群體—關鍵字—引文”多重網(wǎng)絡構(gòu)建

2020-07-14 09:25:20劉愛琴吳瑞瑞

新世紀圖書館 2020年5期

劉愛琴吳瑞瑞

摘要本文從數(shù)據(jù)庫檢索因子優(yōu)化入手，以CNKI中國引文數(shù)據(jù)庫的數(shù)據(jù)作為依據(jù)，基于引證關系，對知識發(fā)現(xiàn)領域研究群體進行知識圖譜構(gòu)建和聚類分析，展示群體族群關系及整體知識架構(gòu)，并驗證將二次凝練因子作為基礎特征項進行應用的效果，挖掘出知識發(fā)現(xiàn)領域作者群體、關鍵字及引文之間的超網(wǎng)絡模型，提高了信息檢索的查全率和查準率，彌補信息檢索的缺陷。

關鍵詞知識圖譜知識關聯(lián) 多重共現(xiàn) 引證關系

分類號 G251.6

DOI 10.16810/j.cnki.1672-514X.2020.05.010

Abstract Based on the data of CNKI Chinese citation database， this paper starts with the optimization of database retrieval factors， builds knowledge map and cluster analysis on the research groups in the field of knowledge discovery based on citation relations， shows the relationship between groups and the overall knowledge structure， and verifies the effect of applying the second refinement factor as the basic feature item. The super network model among authors， keywords and citations in the field of knowledge discovery is mined， which improves the recall and precision of information retrieval and makes up for the defects of information retrieval.

Keywords Knowledge map. Knowledge association. Multiple co-occurrence. Citation relationship.

人們在對某一學科或某一領域進行研究分析時，為了尋找到事物或現(xiàn)象之間的背后因素，常常通過論文共現(xiàn)分析來發(fā)現(xiàn)研究對象之間的關聯(lián)程度，挖掘潛在知識，并揭示其內(nèi)在特征[1]。隨著可視化技術的不斷完善，知識圖譜成為形式化表述共現(xiàn)現(xiàn)象的一種重要方式。利用可視化工具描述知識資源及其載體，深層次地挖掘知識內(nèi)容及其結(jié)構(gòu)關系，表征知識之間的關聯(lián)，能夠有效提高信息檢索效率和準確率，實現(xiàn)數(shù)據(jù)庫服務模式創(chuàng)新[2]。為了更加清晰了解和應用共現(xiàn)分析方法，本文將基于引證關系，對知識發(fā)現(xiàn)領域研究群體進行知識圖譜構(gòu)建和聚類分析，一方面展示群體族群關系及整體知識架構(gòu)，挖掘作者群體、關鍵字及引文之間的超網(wǎng)絡模型;另一方面提高信息檢索的查全率和查準率，彌補信息檢索的缺陷。

1 研究現(xiàn)狀

知識圖譜最早出現(xiàn)在管理學領域，隨后向信息技術領域和圖情領域發(fā)展，慢慢滲透到各行各業(yè)[3]。國外對知識圖譜的研究起步相對較早，在文獻數(shù)量、質(zhì)量上占有一定優(yōu)勢。ODonnell認為，知識圖譜是一種節(jié)點鏈接，通過一系列的鏈接與其他概念相連，以知識圖譜作為認知加工的支架有助于人們在認知過程中快速產(chǎn)生有效響應[4]。Van Eck全面描述了VOSviewer顯示大型書目的強大功能，并通過構(gòu)建和顯示數(shù)千種主要期刊的共引圖來證明VOSviewer程序構(gòu)造的合理性[5]。Boyack通過直接引用、書目耦合、共引文分析以及基于引文與文內(nèi)耦合的多重方法，對生物醫(yī)學文獻的聚類情況進行研究，比較不同方法的聚類精確度[6]。Porter通過運用新的跨學科指標和科學制圖可視化方法研究不同領域的跨學科程度，發(fā)現(xiàn)跨學科指數(shù)呈現(xiàn)適度增長，但只略微增加了與遠距離認知領域的關系，主要分布仍然集中在鄰近學科，并認為疊加學科知識圖譜能夠為未來跨學科研究提供通用標準[7]。

2005年，由陳悅和劉則淵共同署名的《悄然興起的科學知識圖譜》在《科學學研究》上發(fā)表，標志著國內(nèi)知識圖譜領域研究的開始，其認為科學知識圖譜是科學計量學表達形式轉(zhuǎn)換的產(chǎn)物，在揭示科學知識內(nèi)涵、結(jié)構(gòu)及其活動規(guī)律的進程中起到了簡化作用[8]。侯海燕通過對科學計量學、應用數(shù)學及計算機科學等相關學科進行可視化研究，交叉整合各學科代表性成果并繪制圖譜，剖析科研熱點，同時預測演進趨勢[9]。陳悅給出知識圖譜發(fā)展歷程簡介，并將傳統(tǒng)知識圖譜與現(xiàn)代知識圖譜的類型和實現(xiàn)原理進行對比，表明了其作為知識管理工具的有效性[10]。秦長江和候漢靖主要講述構(gòu)建知識圖譜的理論及方法技術，并結(jié)合具體應用疏通知識圖譜的發(fā)展脈絡[11]。趙蓉英和王菊運用Cite SpaceⅡ，以圖書館為主題展開討論，對引文數(shù)據(jù)和主題詞數(shù)據(jù)進行分析，梳理了該學科的代表文獻和領軍人物[12]。龐宏燊優(yōu)化了交叉圖技術，以競爭情報研究領域為例，對其發(fā)展趨勢進行了多重共現(xiàn)可視化分析[13]。郭秋萍構(gòu)建基于作者—關鍵詞—引文3個子網(wǎng)的多重共現(xiàn)超網(wǎng)絡，并以圖書館、情報與文獻學學科領域的“知識服務”為主題進行實證分析，揭示科技文獻網(wǎng)絡不同節(jié)點之間的關聯(lián)關系，為研究文獻之間的隱性關聯(lián)關系提供了新的方法[14]。郭紅梅將一系列具有語義信息的術語進行疊加，檢測多重術語關系在識別文本核心主題方面的效用性，結(jié)果表明三種關系的疊加使文本主題更為凸顯，克服了單獨考慮一種關系時造成的信息缺失[15]。周娜等基于LDA主題模型構(gòu)建作者、內(nèi)容與方法的多重共現(xiàn)，為揭示學科領域隱性知識組合提供新的范式[1]。

綜上所述，在當前研究中，學者主要運用可視化工具對某一領域的基礎元素進行研究，并分析其具體應用和發(fā)展趨勢，沒有進行整合提升。本文以CNKI中國引文數(shù)據(jù)庫為數(shù)據(jù)源，首先通過作者間的引證關系形成同被引網(wǎng)絡知識圖譜，再運用社會網(wǎng)絡分析法對該群體進行凝聚子群分析，構(gòu)建作者群體與關鍵字、引文之間的多重共現(xiàn)超網(wǎng)絡模型，達到凝練整合效果。通過構(gòu)建三者之間更精準的關聯(lián)體系框架，有效提高信息檢索效率和準確率，實現(xiàn)數(shù)據(jù)庫服務模式的創(chuàng)新。

2 基于引證關系的作者“群體—關鍵字—引文”多重網(wǎng)絡構(gòu)建

2.1 群體可視化知識圖譜構(gòu)建與分析

在科學文獻體系結(jié)構(gòu)中，引證文獻是論文的基本屬性，也是文獻之間得以連接的內(nèi)在樞紐。基于引證文獻之間的關聯(lián)能夠構(gòu)建引文矩陣，著者同被引又是由引證文獻延伸而來，本文借助被引證文獻構(gòu)建著者同被引網(wǎng)絡，具體方法及數(shù)據(jù)處理如下。

第一步：在知識發(fā)現(xiàn)范圍內(nèi)進行檢索，統(tǒng)計CNKI中國引文數(shù)據(jù)庫中收錄的文獻。以發(fā)表數(shù)≥3，被引總數(shù)≥150作為篩選條件，選出47位高被引作者作為研究對象，見表1。

其中，群體A三位學者專注于數(shù)據(jù)庫方面的研究。李德仁與王新洲側(cè)重空間數(shù)據(jù)挖掘的理論方法與應用，李德毅則比較注重數(shù)據(jù)庫與知識發(fā)現(xiàn)的應用。從發(fā)文情況來看，多數(shù)作品均由其中兩人或三人共同署名，總發(fā)文數(shù)相差不多，但被引次數(shù)李德仁最多，為1881次，其次是李德毅1664次、王新洲1009次。從同被引頻次來看，李德仁與李德毅同被引頻次最高，達162次，李德毅與王新洲、李德仁與王新洲相差無幾，分別為61次和56次。李德毅的同被引頻次總和在整個網(wǎng)絡中最高，達1106次，其次是李德仁954次，王新洲423，三位學者總被引頻次整體排位靠前，在整個網(wǎng)絡中地位十分重要。

群體B四位學者的主要研究方向是空間數(shù)據(jù)挖掘。其中，邸凱昌偏重于相關理論與實際應用，其他三人則更傾向于方法、分類等。從該群體的同被引頻次分析，王樹良與史文中和邸凱昌分別為89和81，史文中和邸凱昌為57，王樹良和周成虎，邸凱昌和周成虎均為56，史文中和周成虎最少，為44。從同被引頻次總和看，王樹良是557，史文中555，邸凱昌718，周成虎433?？梢姡P昌不論是在該群體還是在整個網(wǎng)絡中，影響力都比較大。

群體C三位學者主要關注知識發(fā)現(xiàn)領域的人工智能、粗糙集等技術，且以算法為主。從該群體彼此間的同被引頻次來看，張文修和胡可云最多，有113次，其次是陸玉昌和胡可云，陸玉昌與張文修，分別為93次，65次。從同被引頻次總和看，陸玉昌742次，張文修750次，胡可云695次。由數(shù)據(jù)可知該群體成員關系較為親密，學術地位相當。

群體D三位學者研究方向集中在數(shù)據(jù)挖掘與關聯(lián)規(guī)則。其中，施鵬飛以算法運用為主，蔡慶生與黃亞樓則主要描述算法的實現(xiàn)過程。該群體成員同被引次數(shù)相對較少，蔡慶生與施鵬飛33次，蔡慶生與黃亞樓11次，施鵬飛與黃亞樓7次。從同被引頻次總和看，蔡慶生709，施鵬飛439，黃亞樓224，相較其作品數(shù)量而言，被引次數(shù)較多。

群體E九位學者的作品多屬同一時期，集中在該學科萌芽階段，側(cè)重于論證相關算法的形成過程。胡學鋼、劉宗田關注關聯(lián)規(guī)則，王秀峰和劉宗田研究決策樹，焦李成、商琳以及林士敏探索數(shù)據(jù)挖掘，石純一和史開泉則注重粗糙集。從該群體的同被引頻次看，劉明吉和王秀峰最多，為47次，其次是石純一和劉宗田，石純一和胡學鋼，石純一和王秀峰，分別為33次，21次，14次，剩余倆倆之間次數(shù)較少，均在10次以下，表明其研究成果關聯(lián)度不大。從同被引頻次總和看，石純一最多，為561次，之后依次是劉宗田，胡學鋼，王秀峰，焦李成，劉明吉，林士敏、商琳，史開泉。

群體F有18位學者，在整個網(wǎng)絡中占比最大。該群體研究范圍廣泛，在數(shù)據(jù)庫、算法、應用、關聯(lián)規(guī)則、數(shù)據(jù)挖掘等方面均有所涉足，研究方向有所交叉，又有所側(cè)重。例如唐常杰、程繼華、鄭誠、劉君強、李增智、歐陽為民、王清毅、陳恩紅均涉及關聯(lián)規(guī)則，但唐常杰圍繞基因表達式展開，歐陽為民以數(shù)據(jù)庫為主，陳恩紅則借助貝葉斯方法進行研究。從同被引頻次來看，次數(shù)較少，甚至多數(shù)人之間都沒有共被引關系;從同被引頻次總和來看，歐陽為民最高，之后依次是高文，程繼華，吉根林，鄭誠，陳恩紅，王清毅，潘云鶴，唐常杰，呂安民，朱紹文，劉君強，周傲英，盧正鼎，謝榕，張?zhí)鞈c，殷國富，李增智。

群體G四位學者的共同研究方向是圖書館的數(shù)字資源整合、圖書館的變革方向以及圖書館知識發(fā)現(xiàn)。溫有奎和畢強從語義檢索方向研究檢索方法的改進，張曉林和朱東華則從數(shù)據(jù)處理方面入手。從該群體的同被引頻次來看，張曉林與畢強和溫有奎次數(shù)較多，但也僅有16次和13次，剩余彼此之間次數(shù)很少，從同被引頻次總和而言，張曉林最多，其次是畢強、溫有奎。

群體H的三位學者主要研究知識發(fā)現(xiàn)在醫(yī)藥領域的應用。同被引頻次顯示，只有蔣永光與吳朝暉之間有同被引關系，頻次是8，其余倆倆之間沒有關聯(lián)，只是共同將知識發(fā)現(xiàn)作為工具，在其他領域加以應用，且3人的總被引頻次偏少，表明3人的研究方向與群體其他人員之間的一致程度較低。

通過對47位學者同被引網(wǎng)絡的可視化成果進行分析，揭示出了我國知識發(fā)現(xiàn)領域?qū)W術群體結(jié)構(gòu)分布、成員地位，明確了主要學者之間的關聯(lián)程度。

2.2 “作者群體—關鍵字—引文”的多重共現(xiàn)超網(wǎng)絡模型構(gòu)建

選定某一學科的科技文獻集合作為樣本，用A={a1，a2，a3，...，am}表示作者群體集合， K={k1，k2，k3，...kn}表示關鍵字集合，C={c1，c2，c3，...cp}表示引文集合，則對于作者群體、關鍵字和引文之間的關聯(lián)關系可做出如下定義：R={（ai，kt）|1≤i≤m， 1≤t≤n}∪{（ai，cv，）|1≤i≤m，1≤v≤p}∪{（kt，cv）|1≤t≤n， 1≤v≤p}∪{（ai，kt，cv）|1≤i≤m， 1≤t≤n，1≤v≤p}，該定義描述以下4種共現(xiàn)情況：作者群體ai與關鍵字kt的共現(xiàn);作者群體ai與引文cv的共現(xiàn);關鍵字kt與引文cv的共現(xiàn);作者群體ai與關鍵字kt、引文cv的共現(xiàn)。

2.2.1 “作者群體—關鍵字—引文”的多重共現(xiàn)超網(wǎng)絡模型構(gòu)建步驟

首先，按照作者、關鍵字和引文之間的對應關系，識別每篇文獻對應作者所屬子群，得到每篇文獻的作者、關鍵字和引文關系表;隨后，通過Bib Excel整理得到文獻標號與作者群體、關鍵字和引文之間的對應關系，以及作者群體共現(xiàn)矩陣、關鍵字共現(xiàn)矩陣和引文共現(xiàn)矩陣;第三，導入SQL Server，生成作者群體表、關鍵字表、引文表，并借助SQL Server的查詢功能和Excel的統(tǒng)計功能，對作者群體、關鍵字、引文之間的關聯(lián)關系進行整理記錄，得到作者群體、關鍵字、引文共現(xiàn)頻次表;第四，與關鍵字—引文共現(xiàn)頻次表、作者群體—關鍵字共現(xiàn)頻次表、作者群體——引文共現(xiàn)頻次表逐一對應進行轉(zhuǎn)換，生成作者群體—關鍵字—引文共現(xiàn)矩陣;最后，將共現(xiàn)矩陣導入Ucinet軟件，對作者群體—關鍵字—引文矩陣進行可視化操作，生成多重共現(xiàn)超網(wǎng)絡。