內容摘要:本文運用Citespace這一科學計量學軟件,對CNKI數據庫收錄的核心期刊庫和CSSCI庫中敦煌學文獻做了詳細的可視化分析。繪制出了26年來敦煌學研究的趨勢圖,學者關系知識圖譜,關鍵詞知識圖譜,熱點演進知識圖譜、文獻共被引知識圖譜、發(fā)文機構和發(fā)文期刊圖;通過圖形分析,總結了敦煌學發(fā)展趨勢,學者研究團隊關系,指出了敦煌學的研究的演進軌跡和熱點,并對發(fā)文機構和發(fā)文刊物做了詳細梳理。這在一定程度上廓清了敦煌學研究的整體狀態(tài)、主題結構及歷史演變等特征,對敦煌學研究有良好的參考借鑒作用。
關鍵詞:敦煌學;知識圖譜;Citespace;可視化分析
中圖分類號:C7? 文獻標識碼:A? 文章編號:1000-4106(2020)04-0147-10
Abstract:Using the scientific metrology software Citespace, this paper conducts a detailed visual analysis of the journal collection in the CNKI academic research database and the Dunhuang literature in the CSSCI library. This method of analysis condenses the past 26 years of Dunhuang studies into various “maps,” including a map of relations between scholars, a knowledge map of keywords, a map of which topics have been most popular, and a map of the institutions that have published research and the academic journals through which their work was published. This visual analysis yields information on various areas of Dunhuang studies. In particular, trends in the development of Dunhuang studies and the relationship between research teams has been summarized by this process, which shows the evolutionary path this field of study has taken and the hotspots of research activity by which it has traveled. The strategy of mapping provides a clear look at the academic organizations and journals that manifest the current state of Dunhuang studies, and clarifies the characteristics, structure of themes, and historical evolution of the discipline.
Keywords:Dunhuang studies; knowledge map; Citespace; visual analysis
一 目的和意義
敦煌學自20世紀初發(fā)端以來,研究成果豐碩,相關研究論著目錄專著已有多部,尤以樊錦詩、李國、楊富學編《中國敦煌學論著目錄》最為全面,據統計截止2007年僅論文數量逾17000余篇[1];如此龐大數量的敦煌學研究論著信息為學者提供了極大的便利,也為分析研究提供了基礎數據支撐。由于這些論著多為目錄收集分類的定性研究,而與之關聯的反映學科現狀及熱點的定量研究卻鮮有論及。因此對敦煌學研究成果進行系統性的梳理,繪制出年敦煌學研究的趨勢圖、學者關系圖、關鍵詞知識圖譜、熱點演進知識圖譜、文獻共被引知識圖譜、發(fā)文機構圖與發(fā)文期刊圖,應用科學計量學、數據和信息可視化的方法對敦煌學進行多元、分時、動態(tài)分析是本次研究的主要目的。
鑒于中文核心期刊庫與中文社會科學引文索引庫(CSSCI)收錄的權威性、代表性,本文選取CNKI數據庫中的中文核心期刊庫與中文社會科學引文索引庫收錄的敦煌學研究論文為數據源,以知識圖譜分析軟件Citespace為工具,以期建立敦煌學研究知識圖譜;用知識圖譜研究中常用的文獻計量分析法和可視化呈現為手段,從敦煌學研究的發(fā)展歷史、人物關系、主題分布、機構分布和刊物分布等多方面梳理該領域的發(fā)展概況,識別敦煌學研究的整體發(fā)展脈絡,通過挖掘敦煌學研究隨時間的演進過程;掌握其前沿與熱點,最后利用數據分析的方法對研究機構及發(fā)文刊物進行解讀獲取其學科和刊載特征。因此,針對敦煌學的知識圖譜研究是非常必要的,其結果對于了解敦煌學研究整體狀態(tài)有良好的參考借鑒意義。
二 研究方法和數據來源
(一)分析工具
21世紀以來應用于信息科技及圖書情報領域的知識圖譜分析技術得到長足發(fā)展,已經形成基礎理論、方法和應用研究組成的完整的知識體系,知識圖譜的可視化技術與方法的應用在多學科領域中,已經有非常成熟分析軟件且有多種成功應用范例。目前國內最為常用的為美國德雷塞爾大學陳超美教授開發(fā)的軟件Citespace[2],具有完整的功能及應用說明文檔,重要的是具有相對較好的中文數據支持功能,是一款適合敦煌學研究的可視化分析工具。
(二)數據獲取及篩選
為保證數據的科學嚴謹,以及分析數據的真實規(guī)范性,數據獲取包含自1992年起中文核心期刊目錄、1998年起CSSCI目錄,截至日期為2018年12月31日,共收錄27年敦煌學研究目錄數據。敦煌學涉及學科廣泛,研究范圍囊括中國圖書分類22個類目的17個類目[3]。為了獲取最大量數據,檢索采用主題詞為“敦煌”,檢索文獻分類目錄去除了“農業(yè)科技”“經濟與管理科學” “社會科學I輯”部分無關子類目,按照初選寧多勿缺的原則,獲取最大量的初選目錄,然后再手工剔除無關文獻,以保證目錄數據完整。最后共獲取文獻7231條作為基本數據,逐條審查去除短訊、公告及不相關文獻以獲得數據以便分析使用,最終有效記錄6346條。
(三)分析結果
1. 發(fā)文量的時間分析
中文核心期刊及CSSCI的收錄原因,從圖中看出本次數據最早為1992年,相對敦煌學研究的起始時間較晚[4]。整體看,文章發(fā)表呈現增長的趨勢,其中增長突出的時間段為2000至2009年。圖中1994、2000、2009年這三個節(jié)點為論文發(fā)表突發(fā)年份,圖形中顯示為高峰點,經過統計比對刊物年度發(fā)文量找到原因:1994年《檔案》較前一年多發(fā)9篇,《敦煌研究》增加6篇,形成1994年小的峰值;2000年《敦煌研究》較1999年多發(fā)表26篇,發(fā)文刊物增加12家,其他刊物發(fā)文也略有增加因而形成小峰值;2009年較2008年《藝術百家》增加17篇,《中國藏學》增加7篇,《文獻》、《敦煌研究》等刊物的發(fā)文均有增加,最終形成本次統計的年發(fā)文量的高峰值。忽略三個峰值整體看趨勢是穩(wěn)定(2000年之前)至增長(2000—2009年)至穩(wěn)定(2009以后)的趨勢。
2. 作者共現分析
(1)通過作者共現分析,能夠識別出一個學科或領域的核心作者及其之間的合作強度和互引關系[5]。在Citespace中將為時間跨度為1992年—2018年,單個時間分割為1年,選取每1年發(fā)文最多的前50名作者形成關系網絡圖,圖譜顯示共有作者節(jié)點559個,404連線,網絡密度為0.0026。其中,節(jié)點大小代表作者發(fā)文次數,發(fā)文越多越高,圓點越大。結點之間的連線表示兩個作者之間的關系,連線越粗,表明共現次數越多,聯系越緊密。
圖2中節(jié)點最大的是鄭炳林、沙武田、楊富學三位學者,他們的名字分別出現為65次,53次,52次。發(fā)文10次以上有49名學者,反映出敦煌學研究學者群的強大實力。學者群分別以鄭炳林、沙武田、樊錦詩、王旭東、汪萬福為核心形成互相關聯網絡,在圖形上反映出兩個明顯的學者關系網:以鄭炳林教授為代表的敦煌學學者關系網顯示出敦煌學學者緊密的學術關聯關系;以王旭東為代表的石窟保護研究團體學者形成另一個學者協作關系網;其中樊錦詩、彭金章兩位先生是兩個學術團體的關聯者,兩位先生作為連接橋將文科、理工科緊密地結合起來,形成互相關聯的學者合作關聯網絡,是敦煌學研究和石窟保護研究互相關聯、齊頭共進的典型形象展示。同時也可以看出存在部分比較分散的研究團隊和個人,顯示出這些學術團隊、個人與其他學術團隊學術聯系較弱,長此以往將不利于個人或團隊的學術發(fā)展。
(2)學者發(fā)文排名統計
論文發(fā)表量前20名的作者排名如表1所示。
發(fā)文最多的為鄭炳林教授,其次為沙武田教授,第三為楊富學教授;發(fā)文量第四、第五的是王旭東、汪萬福博士為石窟保護研究的學者,另有排名第十的郭青林、第十九的蘇伯民博士也是石窟保護研究的學者,前20名中他們四位都為敦煌研究院學者,說明敦煌研究院在石窟保護領域研究中占主導地位,其他16位為敦煌學社科領域的學者,反映出石窟保護研究、敦煌學社科領域研究的協同發(fā)展的良好局面。
(3)關鍵詞分析
關鍵詞表達了論文的研究主題,是論文的核心與精髓??赏ㄟ^繪制高頻關鍵詞共現網絡,利用關鍵詞之間的緊密程度分析知識圖譜研究的主題[6]。Citespace對敦煌學關鍵詞進行分析,分析的時間跨度為1992—2018年,單個時間分區(qū)分割為2年,提取每2年的時間分區(qū)中被引頻次最高的50個關鍵詞,生成關鍵詞節(jié)點351個,連線1523條,網絡密度0.0248的知識圖譜。
高被引關鍵詞最早都出現在1992—1994年,且部分是中介中心性大于0.1的關鍵節(jié)點[7],在關系網絡中出現關鍵詞趨于集中接近重疊的狀態(tài),致使圖像顯示不清而不利于識別,因此將關鍵詞出現頻次大于100的關鍵詞視圖顯示設置為“不顯示”,得到如圖相對清晰的關鍵詞圖譜(圖3)。關鍵詞出現排名前20的詞匯數量多(“敦煌”作為檢索詞出現1194次,不具有圖形顯示意義,略去),出現頻率高,時間段集中,如表2所示。
圖3是經過優(yōu)化顯示后的關鍵詞知識圖譜(隱藏了頻次大于100的17個關鍵詞),顏色隨時間變化由紫色漸變?yōu)辄S色,黃色顯示為最新出現關鍵詞,節(jié)點越大關鍵詞字體越大意味著出現的次數越多,可以看到351個關鍵詞都是通過不同顏色的節(jié)點連線連接起來,說明敦煌學研究的主題豐富且關聯性良好,連線越粗關聯數量越大,反應出相關研究的數量多具有重要性,紫色連線和黃色的連線基本均勻分布且相互關聯顯示出早期和近期研究都基于核心基礎上且具有良好的學術繼承性。
表2為排名前20的敦煌學研究的關鍵詞。中心性測度了主題的重要程度[8],中心性大于等于0.1的詞匯有11個:莫高窟、敦煌壁畫、敦煌文獻、敦煌石窟、敦煌遺書、敦煌學、敦煌研究院、敦煌學研究、唐代、藏經洞文書、藏經洞,這些詞匯在圖譜中重點顯示,成為關聯各個不同主題的關鍵節(jié)點。大于100次的高頻關鍵詞出現在1992—1994年,這些關鍵詞節(jié)點在網絡中出現時間集中、關聯緊密,圖像顯示為重合節(jié)點,在一定程度上說明敦煌學知識圖譜的研究都是圍繞這些核心展開的,反映出敦煌學研究的核心詞匯有較好的繼承性。
(4)敦煌學研究熱點演變分析
關鍵詞是作者對文章核心研究內容的精煉,學科領域里高頻次出現的關鍵詞和從數據樣本中對每一篇文獻進行提取后分析出的名詞短語可被視為該領域的研究熱點[9]。在Citespace軟件中,高頻次關鍵詞被用來確定一個領域的研究熱點[10]。借助Citespace可視化軟件繪出關鍵詞的時區(qū)圖能夠清晰地展示時間維度上敦煌學研究的演進過程,每個時間分割區(qū)間內可見的高頻關鍵詞即可視為該區(qū)間的研究熱點。
為了視圖清晰,圖4為優(yōu)化顯示的時區(qū)分布視圖(只顯示了部分高頻關鍵詞)??梢钥闯鲫P鍵詞集中出現且與其他節(jié)點連線豐富,表明該時區(qū)積累了大量有影響的成果,密集的連線且不同顏色的均勻分布反映出研究的傳承良好,研究沒有中斷。隨著時間演變,高頻關鍵詞不斷變化,區(qū)間內的高頻關鍵詞即為區(qū)間內的研究熱點,每個區(qū)間內的前2位關鍵詞統計見表3。圖中也可見幾個時間段關鍵詞顯示相對較少,反映出時間段內研究相對分散、熱點不突出:區(qū)間如2010—2011年、2016—2017年。
按照每2年時間分區(qū)排名前50的關鍵詞統計排名統計方式,總計取得351個關鍵詞,其中最早出現在1992—1993年的關鍵詞有86個,接近四分之一的量。1992—1993年論文數量為242篇,占論文總數的3.8%,反映出這個時期敦煌學研究的范圍的廣泛性,同時也體現這個時期的學術研究成果的重要性,具有承上啟下的作用。
圖4中關鍵詞散亂復雜但是仍然可看出突出的幾個關鍵詞:敦煌學、歸義軍、唐代、文物保護、絲綢之路、一帶一路。這些詞匯在圖4時區(qū)分布視圖中體現為深紫色的圓點,且連線豐富,也是表3中的高頻詞,在時間趨勢上這些特征詞匯可解讀為區(qū)段內的研究熱點及趨勢:2000年前敦煌學、歸義軍、唐代這些關鍵詞的出現反映出基于藏經洞及敦煌石窟的研究為核心,研究數量多且廣泛,研究突出的典型為:歸義軍研究和唐代相關研究;2000年起敦煌學研究在以前的核心基礎上出現“文物保護”、“數字化”且成為研究熱點,與敦煌石窟關聯的“絲綢之路”相關研究也成為熱點;2010年后國家“一帶一路”戰(zhàn)略背景下與敦煌有關的民族研究、文化交流、宗教研究成為敦煌學研究的又一個熱點。
為了說明這些高頻關鍵詞的重要性,更清晰的看出關聯關系及演變過程,以“敦煌學”關鍵詞為例,從關鍵詞時區(qū)圖(圖4)中單獨將“敦煌學”時區(qū)圖子網絡提取顯示,如圖5。
可以看出“敦煌學”關鍵詞出現區(qū)間在區(qū)間1994年,出現次數170次,與各區(qū)間關鍵詞的連線較粗說明相關研究成果豐富,同時看出隨著時間序列的演進,關鍵詞“敦煌學”與其他關鍵詞的連線保持延續(xù)。排除與表2高頻關鍵詞的復雜關聯可以看出1994年以后與“敦煌學”關聯的研究有:王道士、唐研究、敦煌文化、目錄學、伯希和、絲綢之路、數字化、書法藝術、敦煌哲學、綜述,反映出在各個區(qū)間段與“敦煌學”關聯的主題由基于敦煌石窟和藏經洞出土文獻向綜合(“絲綢之路”“學術史”“綜述”)研究發(fā)展,并利用不同學科(“目錄學”“書法藝術”“數字化”)拓展研究方法。
(5)引用文獻分析
文獻的被引次數即參考文獻中被引次數,在一定程度上可以直接反映文獻本身的學術價值。被引次數越多,學術價值自然就越高。由于CNKI數據庫導出數據不支持文獻共被引分析,本次被引文獻分析采用CSSCI數據庫數據,檢索詞為“敦煌”條件為“所有字段”,時間為1998—2018年,可用分析數據4527條,參數設置為軟件初始默認。文獻共被引知識圖譜如圖6。
按時間序列共被引文獻的主要關系網有:
1998—2000年:彭金章沙武田1998年發(fā)表的《敦煌莫高窟北區(qū)洞窟清理發(fā)掘簡報》被引7次,是敦煌莫高窟北區(qū)石窟考古研究的重要成果,與其有共被引關系的文獻有榮新江的《敦煌歸義軍曹氏統治者為粟特后裔說》,以及沙武田的《吐蕃統治時期敦煌石窟供養(yǎng)人畫像考察》等。其次是郭宏等人1999發(fā)表的《敦煌莫高窟壁畫酥堿病害機理研究之三》被引6次,系列文章揭示敦煌壁畫發(fā)生酥堿病變的主要原因,為后來壁畫修復材料和工藝篩選提供了可靠的依據,與其關聯文獻有李最雄《敦煌石窟的保護現狀和面臨的任務》等。
2001—2010年:王旭東等2002年發(fā)表《銀川西夏3號陵的現狀及保護加固研究》被引8次,提出了木質錨桿錨固、裂隙灌漿、表面防風化加固與加強游客管理等綜合保護措施,是土遺址保護研究的范例,被后來的土遺址保護文獻廣泛引證,與其關聯的文獻有趙海英等《西北干旱區(qū)土遺址的主要病害及成因》等。
2011—2018年:楊富學2011年發(fā)表《《樂山堂神記》與福建摩尼教——霞浦與敦煌吐魯番等摩尼教文獻的比較研究》被引12次,是繼陳進國博士與林鋆先生后對摩尼教文獻《樂山堂神記》的深入解讀,通過與敦煌吐魯番出土摩尼教文獻對比分析了摩尼教在福建的演進史并確認了摩尼教的華化時間,是摩尼教研究的重要文章,與其相關文獻有馬小鶴《明教“五佛”考——霞浦文書研究》等。楊利民2013年發(fā)表《敦煌哲學:概念的界定與研究的價值》被引7次,對敦煌哲學這一概念界定并分析了研究價值,與其關聯文獻有范鵬2013年發(fā)表的《敦煌哲學:如何可能與怎樣可行》等文獻,敦煌哲學的提出對拓展敦煌學豐富中國哲學具有重要意義。
(6)發(fā)文機構分析
由圖7看出發(fā)文最多的三個機構為敦煌研究院、蘭州大學和西北師范大學,三個機構都位于甘肅省,在敦煌學研究上既有地域優(yōu)勢,又有學術優(yōu)勢;從作者排名表也可看出,論文發(fā)表數量前十名的作者除了一位浙江大學的張涌泉外,其他都來自排名前兩位機構。同時也可以看出敦煌學的研究排名前十的機構除了敦煌研究院、西北師范大學外其余都為全國重點高校,足見敦煌學研究具有較高的水準且廣泛地域分布,并非局限于區(qū)域性研究。機構中發(fā)文數量存在極大差別,也說明不同機構在敦煌學相關研究程度的差異。
(7)發(fā)文期刊分析
本次分析刊物總數為537種,圖表為發(fā)表論文前30的刊物,基本為社科、藝術類刊物,圖表為1992—2018年刊文數量,最多為《敦煌研究》,其次為《敦煌學輯刊》,《中國藏學》,《文獻》,《甘肅社會科學》,為發(fā)文排名前五的刊物。作為敦煌學研究的兩大重要刊物《敦煌研究》、《敦煌學輯刊》刊文占總數約為41%?!抖鼗脱芯俊芬越咏?000篇的數量遙遙領先,反映出在敦煌學研究的重要作用。需要說明本文分析數據與刊物實際數據存在差異,原因除了檢索無法百分之百囊括敦煌學及相關文獻外,還與CNKI數據庫收錄中文核心期刊庫及CSSCI收錄相關。因此,本文知識圖譜分析展示目前CNKI數據庫收錄所顯示的真實結果,反映了作為趨勢的客觀研究結果。
四 結論及不足
本文運用Citespace科學計量學軟件,對CNKI數據庫收錄的核心期刊庫和CSSCI數據庫中敦煌學研究的數據進行分析,繪制出26年敦煌學研究的趨勢圖,學者關系圖,關鍵詞知識圖譜,熱點演進知識圖譜及發(fā)文機構發(fā)文期刊圖,通過圖形分析,得出以下結論:
1. 26年來對敦煌學研究趨勢處于穩(wěn)定—增長—穩(wěn)定的趨勢,尤其2000年至2009年為敦煌學研究論著的高速發(fā)展期,研究成果豐碩,數量較前一階段翻番。
2. 整體學者團隊的學術圈子廣泛、聯系緊密且具有強大的學術實力,形成了敦煌學研究團隊穩(wěn)定的學術關系網。
3. 敦煌學研究關鍵詞數量主題豐富明確,不同主題的研究遍布各時間區(qū)段具有良好的繼承性,區(qū)段內熱點明顯,突出主題關鍵詞為敦煌學、歸義軍、唐代、文物保護、絲綢之路、一帶一路等。
4. 高被引文獻反映出文獻具有較高學術影響力,CSSCI數據庫中高被引學者有楊富學、王旭東等。
5. 發(fā)文機構多為高校和科研機構,具有較高的研究水準且地域分布廣泛。
6. 刊載論著的刊物有537種,以社科、藝術類居多,也有部分基礎科學類刊物,數據顯示《敦煌研究》、《敦煌學輯刊》為重要載文刊物。
本文分析基礎文獻源自核心期刊和CSSCI數據庫,基本能涵蓋敦煌學研究的大多數研究成果。一些與敦煌學相關的刊物:《敦煌吐魯番研究》、《敦煌學》、《出土文獻研究》等,以及歷年的研究論文集、會議論文集等刊載文獻因為沒有被核心期刊和CSSCI數據庫收錄,所以不在本次分析之內,因此分析結果展示解讀上存在一定的缺失和局限性。另外,在數據采集、軟件分析過程中各種因素的不足對結果有一定的影響,如:
1. 經過各種檢索方式測試,此次敦煌學研究文獻的檢索是通過主題方式最大限度地獲取敦煌學相關文獻后人工逐條剔除文檔而形成,文獻遺漏在所難免,因此對大量相關文獻的精確獲取方法有待繼續(xù)學習研究。
2. Citespace軟件對CNKI支持亟待完善,不能完成文獻、期刊的共被引分析,文獻耦合分析及雙圖疊加等功能[11]。為了分析的完整性,本文單獨對CSSCI數據庫相關文獻做了文獻被引分析,結果存在一定的局限性。
3. 由于核心期刊及CSSCI收錄期刊的原因,從CNKI采集原始數據受限定,數據收錄并非全部從1992年起,而是以數據庫最早收錄時間為起始時間,因此,數據統計結果的呈現是受條件限制的,并非包含所有時間段數據。如在CNKI數據庫中《敦煌學輯刊》CSSCI收錄時間為2004年起,核心期刊收錄《敦煌學輯刊》的時間為2008年起,本次數據采集起始時間采用2004年為起始時間。
4. 采集文獻數據比分析文獻數據多41條,原因為數據轉換時這些數據結構不一致,不被軟件識別而導致數量差異,因此,轉換軟件對CNKI數據的兼容性有待優(yōu)化。
5. 關鍵詞分析時由于敦煌學關鍵詞數量較大且關聯關系緊密造成圖像重疊嚴重,影響文字視圖和圖形分辨,需取消部分高頻關鍵詞后才呈現出較相對清晰視圖,希望后續(xù)軟件在顯示算法上有所改進。
6. 基于數據庫文獻分析的Citespace軟件在應用中并不能滿足所有需求,新型的文本可視化方法不斷涌現,尤其是使用自然語言處理和可視化結合的分析方法需要筆者不斷的學習,以做出更加完整和準確的評價。
參考文獻:
[1]樊錦詩,李國,楊富學,編.中國敦煌學論著目錄[M].甘肅人民出版社,2010:1.
[2]韓增林,李彬,張坤領,李漩.基于Citespace的中國海洋經濟研究的知識圖譜分析[J].地理科學,2016(5):643-650.
[3]師俊杰.專業(yè)圖書館館藏及借閱情況統計分析[J].甘肅科技,2018(1):57-60.
[4]季羨林,主編.敦煌學大辭典[M].上海:上海辭書出版社,1998:17-20.
[5]胡澤文,孫建軍,武夷山.國內知識圖譜應用研究綜述[J].圖書情報工作,2013(3):131-137.
[6]曹樹金,吳育冰,韋景竹,馬翠嫦.知識圖譜研究的脈絡、流派與趨勢——基于SSCI與CSSCI期刊論文的計量與可視化[J],中國圖書館學報.2015(5):16-34.
[7]邱均平,呂紅.近五年國際圖書情報學研究熱點、前沿及其知識基礎——基于17種外文期刊知識圖譜的可視化分析[J].圖書情報知識,2013(3):4-14.
[8]劉則淵,陳悅,侯海燕,等.科學知識圖譜:方法與應用[M].北京:人民出版社,2008:223.
[9]趙蓉英,許麗敏.文獻計量學發(fā)展演進與研究前沿的知識圖譜探析[J].中國圖書館學報,2010(5):60-68.
[10]聞麗俐,徐勤:基于Citespace的國內閱讀眼動研究(1992—2017)科學知識圖譜分析[J].河南工業(yè)大學學報,2018(2):83-93.
[11]李杰,陳超美,著.Citespace:科技文本挖掘及可視化[M].北京:首都經濟貿易大學出版社,2016:65-66.