文章關(guān)鍵詞和標題分詞多樣性及其繪制知識圖譜的比較

2021-04-06 03:24李繼紅徐桂珍江珊王洪江

知識管理論壇 2021年1期

李繼紅徐桂珍江珊王洪江

摘要：[目的/意義]基于文章的關(guān)鍵詞和標題分詞，分析關(guān)鍵詞和標題分詞的多樣性以及基于二者繪制的知識圖譜的差異。[方法/過程]爬取中國知網(wǎng)2010-2019年研究主題為“學術(shù)不端”的相關(guān)論文，采用多樣性指數(shù)定量分析文章關(guān)鍵詞和標題分詞的特征，并通過CiteSpace軟件定性比較基于關(guān)鍵詞和標題分詞所繪制知識圖譜的架構(gòu)。[結(jié)果/結(jié)論]關(guān)鍵詞的豐富度（S）、多樣性（H）和均勻度指數(shù)（EH）均異于標題分詞，且兩個單元的相似性較弱，表明文章關(guān)鍵詞和標題分詞是兩個不同的單元;基于此繪制的知識圖譜雖有差異，但二者均能從各自的角度展示“學術(shù)不端”領(lǐng)域的研究主題。

關(guān)鍵詞：學術(shù)不端? 關(guān)鍵詞? 標題? 中文分詞? 多樣性? 知識圖譜

分類號：G250

DOI：10.13266/j.issn.2095-5472.2021.005

引用格式：李繼紅，徐桂珍，江珊，等. 文章關(guān)鍵詞和標題分詞多樣性及其繪制知識圖譜的比較[J/OL]. 知識管理論壇， 2021， 6（1）： 46-55[引用日期]. http：//www.kmf.ac.cn/p/239/.

知識圖譜是通過將應(yīng)用數(shù)學、圖形學、信息科學等學科的理論、方法與計量學引文分析、共現(xiàn)分析等方法結(jié)合，并利用可視化的圖譜形象地展示學科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)達到多學科融合的現(xiàn)代理論。它可以把復雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制顯示出來，揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律，為學科研究提供有價值的參考[1]。目前，知識圖譜的繪制工具有多種類型，主要包括CiteSpace、HistCite、Sci2 Tools、Leydesdorff、Ucinet、Pajek、VOSviewer等[2]。其中，CiteSpace是應(yīng)用最廣泛、功能最強大的信息可視化軟件，可通過選擇節(jié)點類型進行相應(yīng)的共被引網(wǎng)絡(luò)、共現(xiàn)網(wǎng)絡(luò)或合作網(wǎng)絡(luò)的分析，進而形成可視化、序列化的知識圖譜[3-5]。

在所發(fā)表的CiteSpace相關(guān)論文中，對關(guān)鍵詞進行共現(xiàn)分析的占了較大比例。關(guān)鍵詞是為了文獻標引工作，從報告、論文中選取出來以表示全文主題內(nèi)容信息款目的單詞或術(shù)語[6]。從文獻庫存儲信息的特點形式來說，關(guān)鍵詞是摘要的“摘要”，高度概括了論文主題，集中表達了論文內(nèi)容的核心和精髓。對論文的關(guān)鍵詞進行共現(xiàn)分析，可以探討研究領(lǐng)域的熱點、趨勢以及知識結(jié)構(gòu)等。而對于沒有關(guān)鍵詞的數(shù)據(jù)源（論文標題、基金項目、網(wǎng)絡(luò)輿情、影評）進行分析時，主要采用中文分詞的方法[7-9]。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。論文標題是標明文章內(nèi)容的簡短語句，是文章最重要的部分。對論文標題進行分詞，可以得到涵蓋文章內(nèi)容和主旨的詞語。

論文關(guān)鍵詞和標題分詞都能揭示論文的主題內(nèi)容，那么對于同一篇文章，關(guān)鍵詞和標題分詞有何關(guān)聯(lián)，基于二者繪制的知識圖譜又存在什么差異？本研究以中國知網(wǎng)（CSSCI來源期刊）為統(tǒng)計源，爬取以“學術(shù)不端”為主題的研究文獻，并采用多樣性指數(shù)定量分析關(guān)鍵詞和標題分詞的特征，依托CiteSpace軟件定性分析基于關(guān)鍵詞和標題分詞所繪制知識圖譜的架構(gòu)差異。該研究不僅可以為相關(guān)研究提供一定的理論基礎(chǔ)，還有著積極的應(yīng)用意義。

1? 數(shù)據(jù)來源及分析方法

1.1? 數(shù)據(jù)來源

筆者以中國知網(wǎng)（CSSCI來源期刊）為數(shù)據(jù)統(tǒng)計源，檢索研究主題為“學術(shù)不端”的學術(shù)論文。檢索式為：“主題=學術(shù)不端 or 學術(shù)造假 or 學術(shù)道德 or 科研誠信”;論文發(fā)表時間為2010-2019年。檢索時間為2019年10月24日，剔除通知、征文、聲明等，清洗后共得到757條學術(shù)論文，再爬取、匯總題錄信息，題錄信息主要包括論文標題、作者、關(guān)鍵詞等字段。

1.2? 分析方法

1.2.1? 標題分詞

對論文標題進行分詞處理應(yīng)遵循如下原則：①應(yīng)選擇能明確表達主題概念的詞語;②篩除無意義的詞語;③對名稱內(nèi)含義相同但是表述不同的詞匯進行合并。例如，學術(shù)不端、學術(shù)腐敗等詞規(guī)范化處理后統(tǒng)一為“學術(shù)不端行為”，AMLC、學術(shù)不端檢測系統(tǒng)等統(tǒng)一為“學術(shù)不端文獻檢測系統(tǒng)”。

基于以上分詞原則，采用武漢大學研發(fā)的ROSTCM6軟件對項目名稱進行分詞。直接獲得的關(guān)鍵詞的粒度比較粗糙，聚類效果不理想，可通過人工標注的方式補充添加用戶詞典，使其達到研究要求。再采用數(shù)據(jù)清洗器對分詞后的詞語進行清洗、合并。

1.2.2? 關(guān)鍵詞和標題分詞多樣性分析

多樣性一直常見于生態(tài)學名詞，常用的多樣性指數(shù)主要包括豐富度指數(shù)（Richness index，S）、Shannon-Wiener多樣性指數(shù)（Shannon-Wiener diversity index，H′）、Pielou均勻度指數(shù)（Pielou evenness index，EH）等，可用于判斷群落或生態(tài)系統(tǒng)的多樣性、復雜性[10-12]。本研究中，借用上述3個指數(shù)來描述關(guān)鍵詞和標題分詞的多樣性。

式中，S為關(guān)鍵詞或標題分詞的詞語數(shù)量;Pi為關(guān)鍵詞或標題分詞詞語i的相對豐度，代表某一詞語的數(shù)量在所有詞語總量中所占的比率，即Pi = ni/N，ni是關(guān)鍵詞或標題分詞詞語i的數(shù)量，N是所有關(guān)鍵詞或標題分詞的數(shù)量。

為了對關(guān)鍵詞和標題分詞兩個單元的相似性進行研究，筆者借用S?rensen指數(shù)（CS）和Jaccard指數(shù)（CJ）對二者進行分析。S?rensen指數(shù)和Jaccard指數(shù)是生態(tài)學中用于反映群落間物種組成相似性的指數(shù)[13]，這里用來反映單元間詞語的相似性。

式中，c為關(guān)鍵詞和標題分詞兩個單元的共有詞語數(shù);a和 b分別為關(guān)鍵詞和標題分詞的詞語數(shù)。

1.2.3? 標題分詞格式轉(zhuǎn)化

眾所周知，CiteSpace軟件只能分析特定數(shù)據(jù)庫中的文獻，還不能直接用于其他數(shù)據(jù)庫。筆者采用格式轉(zhuǎn)化軟件對非特定數(shù)據(jù)庫中的數(shù)據(jù)進行轉(zhuǎn)化處理，使之成為CiteSpace軟件能夠識別的數(shù)據(jù)，從而進行相關(guān)的分析。

1.2.4? 關(guān)鍵詞和標題分詞共現(xiàn)分析

關(guān)鍵詞或標題分詞共現(xiàn)分析就是對數(shù)據(jù)集中關(guān)鍵詞或標題分詞集合進行分析，通過對關(guān)鍵詞或標題分詞的可視化分析可以確定研究領(lǐng)域的學科結(jié)構(gòu)、研究熱點等。筆者分別采用“學術(shù)不端”研究文獻的關(guān)鍵詞和標題分詞集合為分析單元，依托CiteSpace繪制主題聚類圖，從而比較該領(lǐng)域的知識架構(gòu)。

可視化分析的參數(shù)設(shè)置如下：時間跨度設(shè)置為2010-2019年，時間切片（Time Slicing）為1年;節(jié)點類型（Node Types）確定為keyword;節(jié)點強度（Links）默認Cosine與Within Slices選項;選擇閾值（Selection Criteria）選取Top N per slice=50;網(wǎng)絡(luò)裁剪功能區(qū)（Pruning）默認不進行剪裁，最終生成關(guān)鍵詞和標題分詞共現(xiàn)知識圖譜。

2? 關(guān)鍵詞和標題分詞的多樣性比較

2.1? 關(guān)鍵詞和標題分詞的詞語組成

筆者對“學術(shù)不端”相關(guān)文獻的關(guān)鍵詞和標題分詞進行統(tǒng)計分析，分別得到3 131個關(guān)鍵詞和3 094個標題分詞，把各個單元的相同項進行整理，最終獲得1 541個關(guān)鍵詞詞語和1 432個標題分詞詞語。

關(guān)鍵詞和標題分詞出現(xiàn)的頻次以及該詞頻下詞語的數(shù)量見表1。從表1可以看出，出現(xiàn)頻次最高（344次）的關(guān)鍵詞是學術(shù)不端行為，然后依次是科研誠信（95次）和學術(shù)道德（77次），出現(xiàn)頻次最少的為1次。隨著詞頻的下降，該詞頻下關(guān)鍵詞的數(shù)量呈上升趨勢，例如，學術(shù)不端行為、科研誠信、學術(shù)道德、研究生的詞頻較高，該詞頻下的關(guān)鍵詞數(shù)量較少（1個）;而詞頻為3次以下的關(guān)鍵詞則較多，詞頻為2的關(guān)鍵詞為147個，詞頻為1的有1 254個，占比高達40%。出現(xiàn)頻次最高的標題分詞也是學術(shù)不端行為，達到268次;排名第2和第3的分別是研究生和高校，出現(xiàn)頻次分別為107和84次;出現(xiàn)最少的詞頻也是1次，出現(xiàn)頻次為1的詞語共有1 094個，占所有標題分詞的35.36%。

對于“學術(shù)不端”的研究，論文關(guān)鍵詞比標題分詞多37個;所整理的詞語，前者比后者多109個（7.61%），說明論文自帶的關(guān)鍵詞比標題分詞后的詞語要豐富。但出現(xiàn)頻次較高的一些詞語還是比較一致的，比如學術(shù)不端行為、研究生、高校、科研誠信、科技期刊等。說明不管用標題分詞還是論文關(guān)鍵詞，最核心的詞語是不變的，而且在這兩種方法中，隨著詞頻的下降，該詞頻下的詞語數(shù)量均呈現(xiàn)上升趨勢。

2.2? 關(guān)鍵詞和標題分詞的多樣性

基于文章關(guān)鍵詞和標題分詞的詞頻以及該詞頻下詞語的數(shù)量，本研究對這兩個單元（關(guān)鍵詞和標題分詞）的詞語多樣性進行了分析。用CiteSpace可視化軟件繪制知識圖譜時，詞語的出現(xiàn)頻次設(shè)定閾值為≥2次，因此除了對兩個單元內(nèi)所有詞語進行統(tǒng)計外，還對出現(xiàn)頻次≥2詞語的多樣性進行了分析。

研究主要采用豐富度指數(shù)（S）、Shannon-Wiener多樣性指數(shù)（H′）、均勻度指數(shù)（EH）、S?rensen指數(shù)（CS）和Jaccard指數(shù)（CJ），從單元內(nèi)、單元間兩個層面對文章的關(guān)鍵詞和標題分詞進行多樣性的分析，以探索表達相同主題而來源不同的詞語在數(shù)量、豐度、分布情況等方面的差異以及二者的相似性。其中，豐富度指數(shù)、Shannon-Wiener多樣性指數(shù)、均勻度指數(shù)屬于α多樣性指數(shù)，主要用于研究單元內(nèi)詞語的結(jié)構(gòu)多樣性。豐富度指數(shù)（S）的大小反映了詞語數(shù)量的多少;Shannon-Wiener多樣性指數(shù)（H′）是基于詞語數(shù)量來反映單元內(nèi)詞語的多樣性，H′值越大，表示單元所含的信息量就越大，詞語的多樣性就越高;均勻度指數(shù)（EH）可反映單元內(nèi)詞語的均勻度，EH數(shù)值越高，表明各個詞語的數(shù)量越接近;S?rensen指數(shù)和Jaccard指數(shù)屬于β多樣性指數(shù)，主要用于分析研究單元間詞語的相似性，數(shù)值越大，說明兩個單元越相似，一致性越高。

關(guān)鍵詞和標題分詞的多樣性見表2。從表2中可看出，對于所有詞頻的關(guān)鍵詞，其豐富度指數(shù)為1 541，Shannon-Wiener 指數(shù)為6.25，均勻度指數(shù)為0.85;對于所有詞頻的標題分詞，其豐富度指數(shù)為1 432，Shannon-Wiener 指數(shù)為6.26，均勻度指數(shù)為0.96。關(guān)鍵詞的豐富度大于標題分詞的，二者的Shannon-Wiener 指數(shù)較接近，關(guān)鍵詞的均勻度指數(shù)小于標題分詞的，這是由于后者各個詞語的數(shù)量比前者更接近，分布更均勻。因為兩個單元內(nèi)詞頻為1的詞語數(shù)量較多，所以詞頻≥2的關(guān)鍵詞和標題分詞的豐富度均大幅下降，關(guān)鍵詞的豐富度下降了81.38%，標題分詞的豐富度減少了76.40%，前者的豐富度（287）和多樣性（4.54）均小于后者的豐富度（338）和多樣性（4.86），但二者的均勻度相近。S?rensen指數(shù)（CS）和Jaccard指數(shù)（CJ）是用來衡量兩個單元相似度的指標。在本研究中，所有頻次的關(guān)鍵詞和標題分詞兩個單元的相似性較低，CS 和CJ 的數(shù)值分別為0.39和0.24;對于頻次≥2的詞語，兩個單元的相似性比前者稍高，CS 和CJ分別提高了17.95%和25%，但也是弱相關(guān)。

3? 利用關(guān)鍵詞和標題分詞繪制知識圖譜

3.1? 圖譜參數(shù)比較

基于2010-2019年間發(fā)表論文的關(guān)鍵詞和標題分詞，按照統(tǒng)一的參數(shù)設(shè)置，可以生成如圖1所示的共現(xiàn)網(wǎng)絡(luò)。需要說明的是，軟件選取每一年中被引次數(shù)排名居前50位的詞語，且每個詞語至少出現(xiàn)2次。在圖1中，數(shù)字代表聚類主題的ID號;每個節(jié)點代表一個關(guān)鍵詞，節(jié)點的大小表示關(guān)鍵詞的出現(xiàn)頻次。

知識圖譜左上角的數(shù)據(jù)是該圖譜的參數(shù)，主要包括使用軟件信息、運行時間、數(shù)據(jù)存放位置、時間切片（Timespan）、選擇標準（Selection Criteria）、生成網(wǎng)絡(luò)（Network）、裁剪方法（Pruning）、模塊度（Modularity）以及平均輪廓值（Mean Silhouette）等。其中，軟件信息、運行時間、數(shù)據(jù)存放位置、時間切片、選擇參數(shù)屬于軟件設(shè)置參數(shù)，生成網(wǎng)絡(luò)、最大的分支、裁剪方法、模塊度以及平均輪廓值屬于網(wǎng)絡(luò)生成參數(shù)，可用于解讀圖譜的信息。表3為分別采用關(guān)鍵詞和標題分詞所繪制圖譜的參數(shù)，包括N、E、Density、Modularity、Silhouette、Largest CC。N表示網(wǎng)絡(luò)節(jié)點數(shù)量;E表示連線數(shù)量;Density表示網(wǎng)絡(luò)的密度;Modularity表示網(wǎng)絡(luò)的模塊度，值越大表示網(wǎng)絡(luò)的聚類結(jié)果越好;Mean Silhouette表示聚類平均輪廓值，Silhouette值是用來衡量網(wǎng)絡(luò)同質(zhì)性的指標，越接近1，網(wǎng)絡(luò)的同質(zhì)性越高。

從表3可以看出，基于關(guān)鍵詞繪制的圖譜，其網(wǎng)絡(luò)節(jié)點數(shù)有115個，連線數(shù)有327條，網(wǎng)絡(luò)密度為0.049 9;基于標題分詞繪制的圖譜，網(wǎng)絡(luò)節(jié)點數(shù)和連線數(shù)分別為131個和420條，比前者分別增加了13.91%和28.44%，網(wǎng)絡(luò)密度為0.049 3，和前者相近。Modularity和Mean Silhouette是反映圖譜整體框架特征的重要參數(shù)。在采用關(guān)鍵詞繪制的圖譜中，Modularity值和Silhouette值分別為0.435 2和0.366 7。在采用標題分詞繪制的圖譜中，Modularity值為0.411 5，比前者低5.7%;Silhouette值為0.493 5，比前者高34.58%，說明前者所有集群的同質(zhì)化程度低于后者。二者的Modularity值均大于0.3，一般認為聚類模塊值>0.3意味著聚類結(jié)構(gòu)顯著，說明無論是采用關(guān)鍵詞還是標題分詞繪制的圖譜，其結(jié)構(gòu)均符合聚類要求。

3.2? 圖譜詞語比較

在圖譜中，詞語的頻次高低能夠反映出該領(lǐng)域研究的總體狀況，每一個詞語對應(yīng)圖譜上的一個節(jié)點。即采用關(guān)鍵詞和標題分詞繪制共現(xiàn)圖譜的詞語分別為115個和131個。

表4為基于關(guān)鍵詞和標題分詞繪制圖譜中詞頻≥30的詞語信息，包括詞語、詞語出現(xiàn)的詞頻以及其中介中心性。中介中心性是測定節(jié)點在網(wǎng)絡(luò)中重要性的一個指標，是一個用以量化點在網(wǎng)絡(luò)中地位重要性的圖論概念[2]。詞語的中介中心度越大，說明其在圖譜中的重要性越大。在采用關(guān)鍵詞繪制的圖譜中，詞頻≥30的詞語有9個，詞頻加起來共782次。其中，詞頻最高的學術(shù)不端行為，共出現(xiàn)340次，其次為科研誠信（92次）、學術(shù)道德（76次）、研究生（67次），其中介中心性分別為0.38、0.23、0.2、0.32。雖然詞語的頻次排序與中介中心度并非一一對應(yīng)，但在整體上是基本一致的。在采用標題分詞繪制的圖譜中，詞頻≥30的詞語有7個，詞頻639次，詞語和詞頻量均小于前者。但主要的詞語和前者的相近，都包括了學術(shù)不端行為、科研誠信、學術(shù)道德、研究生、科技期刊以及高校等，詞頻最高的詞語也是學術(shù)不端行為（262次），其中介中心性最高（0.39）。

3.3? 圖譜聚類比較

聚類分析法是一種探索性數(shù)據(jù)挖掘分析方法，可用于識別和分析特定研究領(lǐng)域中顯著術(shù)語和背景的分類，利用一系列的算法將收集到的數(shù)據(jù)轉(zhuǎn)換成幾個結(jié)構(gòu)化的集群，從而發(fā)現(xiàn)知識領(lǐng)域的主題分布和組織結(jié)構(gòu)[14]。

從圖1可以看出，采用關(guān)鍵詞繪制的圖譜，共聚合成6個主題，集群從大到小依次為#0學術(shù)道德、#1責任編輯、#2學術(shù)期刊、#3學位論文、#4科研管理和#5失范。在采用標題分詞繪制的圖譜中，也聚合成6個主題，從大到小依次為#0學術(shù)不端行為、#1科研誠信、#2實踐、#3學術(shù)道德失范、#4論文撤銷和#5慕課。兩個圖譜中每個集群的信息見表5，涵蓋了各個集群包含的節(jié)點以及該群的輪廓值（Silhouette）。從表5可以看出，在采用關(guān)鍵詞繪制的圖譜中，各個集群的輪廓值都較高;在采用標題分詞繪制的圖譜中，除了#1的輪廓值稍低（0.375），其他集群的同質(zhì)化程度都很高，再結(jié)合圖1中的參數(shù)情況，可以得出，兩幅圖在聚類方面是理想的。

根據(jù)聚類主題的語義結(jié)構(gòu)和研究主題的相關(guān)性，分別將二者的集群進行整合。采用關(guān)鍵詞繪制的圖譜可整合為三大知識域，分別是學術(shù)不端的行為和該方向研究的兩大主要領(lǐng)域（期刊和高校）。第一個知識域包括#0學術(shù)不端行為和#5失范，研究主題涵蓋學術(shù)不端的具體表現(xiàn);第二個知識域包括#1責任編輯和#2學術(shù)期刊，反映了期刊是該領(lǐng)域的研究重點;第三個知識域涵蓋#3學位論文和#4科研管理，體現(xiàn)了高校是學術(shù)不端研究的另一重要領(lǐng)域。采用標題分詞繪制的圖譜中的聚類也可整合為三大知識域：第一個知識域包括#0學術(shù)不端行為、#1科研誠信和#3學術(shù)道德失范，說明學術(shù)不端研究的問題主要集中在學術(shù)不端行為、科研誠信、學術(shù)道德失范等方面;第二個知識域涵蓋#2實踐和#5慕課，主要體現(xiàn)了學術(shù)不端的防范，這一問題又可以分為素養(yǎng)教育培訓和體系構(gòu)建兩個維度;第三個知識域即#4論文撤銷，主要研究學術(shù)不端的后果以及撤銷論文帶來的影響等。

采用關(guān)鍵詞和標題分詞繪制的圖譜，其聚類結(jié)構(gòu)既有相同，也存在一定的差異，這與詞語的來源相關(guān)。來源為關(guān)鍵詞的一部分屬于表達核心主題因素的詞語，可表達論文主題的關(guān)鍵性因素;一部分屬于非核心主題因素的詞語[15]，包括對核心主題因素起限定修飾作用的概念、核心主題因素的具體研究內(nèi)容、研究過程中所應(yīng)用的新方法及改進的常規(guī)方法、對核心主題因素起限定作用的時間和空間因素等，這兩類詞語共同概括了文章的主題、表達了內(nèi)容的核心。來源為標題分詞的是對文章標題進行分詞而產(chǎn)生的，標題是文章精要內(nèi)容的提煉、概括與濃縮，切分后大多數(shù)屬于表達核心主題因素的詞語，而非核心主題因素的詞語較少，可能會缺少某些非核心因素、補充性的詞語，從而在一定程度上有別于文章的關(guān)鍵詞。采用關(guān)鍵詞和標題分詞繪制的圖譜均可清晰、客觀地展現(xiàn)學術(shù)不端研究領(lǐng)域的研究主題，但由于詞語來源不同、性質(zhì)不同，圖譜所表達的側(cè)重點亦不同。采用關(guān)鍵詞繪制的圖譜側(cè)重于體現(xiàn)學術(shù)不端研究的問題，采用標題分詞繪制的圖譜更傾向于學術(shù)不端研究的方式方法。

4? 討論與結(jié)論

（1）CiteSpace軟件的應(yīng)用拓展。如何從海量的文獻信息中快速厘清從事領(lǐng)域的研究架構(gòu)，找到最重要、最關(guān)鍵的有效信息，了解其過去、現(xiàn)在及趨勢，是科學研究中面臨的難題。知識圖譜的出現(xiàn)為解決上述難題提供了有益的科學探索途徑。信息可視化軟件CiteSpace是一款功能強大的工具，所繪制的圖譜具有“一圖展春秋，一覽無余;一圖勝萬言，一目了然”的特點[2]，從其問世便得到廣泛的應(yīng)用。目前，CiteSpace軟件只能用于分析特定數(shù)據(jù)庫中的文獻信息，包括WoS、Scopus、ADS、arXiv、CNKI、CSSCI、NSF、CSCD、Derwent專利數(shù)據(jù)庫等，而對于上述數(shù)據(jù)庫以外的數(shù)據(jù)信息，還不能直接進行分析。筆者采用格式轉(zhuǎn)化軟件對非指定數(shù)據(jù)庫中的數(shù)據(jù)進行格式的轉(zhuǎn)化處理，使其成為CiteSpace軟件能夠識別分析的數(shù)據(jù)。研究結(jié)果顯示，該方法科學有效，拓展了CiteSpace 軟件的應(yīng)用數(shù)據(jù)源，可以為非CiteSpace指定數(shù)據(jù)庫數(shù)據(jù)的可視化分析提供參考。

（2）關(guān)鍵詞與標題分詞的多樣性。語言作為邏輯思維和推理工具，其基本要素是語詞[16]。筆者以學術(shù)文獻中的關(guān)鍵詞和標題分詞作為概念演化基礎(chǔ)，嘗試采用豐富度指數(shù)（S）、Shannon-Wiener多樣性指數(shù)（H）、均勻度指數(shù)（EH）、S?rensen指數(shù)（CS）和Jaccard指數(shù)（CJ）等比較兩種詞語的多樣性。

對于“學術(shù)不端”的研究，論文關(guān)鍵詞比標題分詞的詞語多109個，但出現(xiàn)頻次較高的一些詞語還是一致的。說明不管用標題分詞還是論文關(guān)鍵詞，其最核心的詞語是相同的。對于所有詞語而言，關(guān)鍵詞的豐富度大于標題分詞，多樣性指數(shù)二者較接近。因為標題分詞各個詞語的數(shù)量比前者分布更均勻，所以其均勻度稍高。由于去除了詞頻等于1的大量詞語，對于詞頻≥2的關(guān)鍵詞和標題分詞，其詞語的豐富度比所有詞語時均大幅下降。關(guān)鍵詞的豐富度和多樣性均小于后者，但二者的均勻度較相近。在本研究中，不管是所有頻次的關(guān)鍵詞和標題分詞還是詞頻大于2的詞語，兩個單元的相似性都較弱，說明二者是差異較大的兩個單元，這為后續(xù)知識圖譜的繪制提供了支撐。

（3）關(guān)鍵詞和標題分詞的共現(xiàn)網(wǎng)絡(luò)。關(guān)鍵詞是為了便于文獻索引、文獻標引和檢索全文，并從論文中選取出來表示全文主題內(nèi)容的詞或詞組。在對常規(guī)數(shù)據(jù)庫中的數(shù)據(jù)進行分析時，CiteSpace軟件會自動提取文獻的關(guān)鍵詞，這些關(guān)鍵詞既包括表達核心主題因素的詞語，又包括非核心主題因素的詞語。在本研究中，還通過對論文標題進行分詞來獲取詞語，所獲取的詞語大多數(shù)屬于表達核心主題因素的詞語，而非核心主題因素的詞語較少。關(guān)鍵詞和標題分詞都包含了表達核心主題因素的和非核心主題因素的詞語，但詞語的數(shù)量和內(nèi)容還是存在差異的，因此基于關(guān)鍵詞和標題分詞繪制的圖譜，既有相同，也存在一定的差異。相同的是，兩種方式繪制的知識圖譜均能清晰、客觀地展現(xiàn)“學術(shù)不端”研究領(lǐng)域的相關(guān)主題。不同的是，雖然采用同樣的參數(shù)設(shè)置，但兩種方式從各自的維度出發(fā)，揭示了不同的“學術(shù)不端”領(lǐng)域研究主題：采用關(guān)鍵詞繪制的圖譜更側(cè)重于體現(xiàn)學術(shù)不端研究的問題，采用標題分詞繪制的圖譜則更傾向于學術(shù)不端研究的方式方法。

參考文獻：

[1] 楊思洛，韓瑞珍. 國外知識圖譜繪制的方法與工具分析[J]. 圖書情報知識， 2012（6）： 101-109.

[2] 李杰，陳超美.? Citespace：科技文本挖掘及可視化[M]. 北京：首都經(jīng)濟貿(mào)易大學出版社， 2016.

[3] CHEN C M， IBEKWE-SANJUAN F， HOU J H. The structure and dynamics of co-citation clusters： a multiple-perspective co-citation analysis[J]. Journal of the American Society for Information Science and Technology， 2010， 61（7）： 1386-1409.

[4] 侯劍華，楊秀財，周莉娟.國際圖書情報領(lǐng)域研究的前沿主題及其演化趨勢分析[J]. 圖書情報工作， 2016， 60（13）： 82-90.

[5] 司紅運，施建剛，陳進道，等. 從《中國人口·資源與環(huán)境》審視國內(nèi)的可持續(xù)發(fā)展研究——主題脈絡(luò)、知識演進與新興熱點[J]. 中國人口·資源與環(huán)境， 2019， 29（7）： 166-176.

[6] 科學技術(shù)報告、學位論文和學術(shù)論文的編寫格式： GB 7713—87[S]. 北京：全國文獻工作標準化技術(shù)委員會， 1987.

[7] 陳必坤，詹長靜. 國家基金項目視角下“圖書情報與檔案管理”學科結(jié)構(gòu)的可視化分析[J]. 情報雜志， 2017， 36（7）： 105-110.

[8] 任中杰，張鵬，李思成，等. 基于微博數(shù)據(jù)挖掘的突發(fā)事件情感態(tài)勢演化分析——以天津8·12事故為例[J]. 情報雜志， 2019， 38（2）： 140-148.

[9] 單曉紅，龐世紅，劉曉燕，等. 基于事理圖譜的網(wǎng)絡(luò)輿情演化路徑分析——以醫(yī)療輿情為例[J]. 情報理論與實踐， 2019， 42（9）： 99-103， 85.

[10] 賴寶春，戴瑞卿，吳振強，等. 辣椒健康植株與患枯萎病植株根際土壤細菌群落多樣性的比較研究[J]. 福建農(nóng)業(yè)學報， 2019， 34（9）： 1073-1080.

[11] 劉政，李穎，朱培，等. 浙江省長興縣濕地維管植物多樣性及區(qū)系[J]. 浙江農(nóng)林大學學報， 2020，37（3）：465-471.

[12] 周育臻，吳鵬飛. 貢嘎山東坡森林小型土壤節(jié)肢動物群落多樣性與時空分布[J]. 生態(tài)學雜志， 2020， 39（2）： 586-599.

[13] 紀昌品，王華. 鄱陽湖濕地植物群落分布特征及其對土壤環(huán)境因子的響應(yīng)[J]. 生態(tài)環(huán)境學報， 2018， 27（8）： 1424-1431.

[14] OLAWUMI T O， CHAN D W M. A scientometric review of global research on sustainability and sustainable development[J]. Journal of cleaner production， 2018， 183： 231-250.

[15] 學術(shù)出版規(guī)范關(guān)鍵詞編寫規(guī)則： CY/T 173—2019[S]. 北京：國家新聞出版署， 2019.

[16] 黃晨，趙星，卞楊奕，等. 測量學術(shù)貢獻的關(guān)鍵詞分析法探析[J]. 中國圖書館學報， 2019， 45（6）： 84-99.

作者貢獻說明：

李繼紅：確定論文思路，分析數(shù)據(jù)，撰寫論文;

江珊：收集數(shù)據(jù);

徐桂珍：提出修改意見;

王洪江：提出修改意見。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

文章關(guān)鍵詞和標題分詞多樣性及其繪制知識圖譜的比較