科技文獻引文價值測度的改進方法

2016-03-24 08:04:22祝清松

中國科技期刊研究 2016年7期

■祝清松

中國電子科技集團公司第三十八研究所《雷達科學(xué)與技術(shù)》編輯部，安徽省合肥市高新區(qū)香樟大道199號 230088

1 引言

科技文獻之間的相互引用形成學(xué)術(shù)引文網(wǎng)絡(luò)，表明了新知識對原有知識的使用情況，揭示出學(xué)術(shù)研究的動態(tài)變化，這對于發(fā)現(xiàn)學(xué)科間的關(guān)聯(lián)及進行學(xué)科發(fā)展趨勢分析和預(yù)測具有重要作用［1］?？萍嘉墨I的引文價值是測度學(xué)術(shù)引文網(wǎng)絡(luò)中具有引用關(guān)系的科技文獻之間關(guān)聯(lián)程度的文獻計量指標，主要度量被引文獻對施引文獻的學(xué)術(shù)參考價值。

目前對科技文獻引文價值的測度主要基于引文分析展開研究。引文分析經(jīng)過數(shù)十年的發(fā)展，在理論研究和實踐應(yīng)用方面都取得了長足進展，已經(jīng)廣泛應(yīng)用于科學(xué)知識評價、科學(xué)發(fā)展模式揭示和科學(xué)前沿探測等方向［2］，對科技創(chuàng)新和決策具有重要的支撐作用。然而，傳統(tǒng)引文分析將所有引文賦予相同權(quán)重，在此基本假設(shè)下，引文分析的相關(guān)測度主要基于被引頻次這個核心計量指標展開。由于同一施引文獻引用不同被引文獻的動機并不相同，因此只通過被引頻次并不能揭示出被引文獻對施引文獻所貢獻的學(xué)術(shù)價值。隨著全文本文獻可獲取性的不斷提高和文本挖掘技術(shù)的持續(xù)發(fā)展，基于全文本內(nèi)容的引文分析將成為下一代的引文分析。Ding等［3］提出基于引文內(nèi)容的語法和語義分析框架，分析了引文內(nèi)容分析的潛在價值及應(yīng)用方向，并將其作為傳統(tǒng)引文分析的有效補充。目前引文價值測度還停留在傳統(tǒng)引文分析層面，有必要對其進行改進。

因此，本文在相關(guān)研究基礎(chǔ)上，深入全文本內(nèi)容來分析影響引文價值測度的關(guān)鍵因素，并提出基于關(guān)鍵影響因素的改進方法。改進方法能夠有效揭示施引與被引文獻之間的語法和語義關(guān)聯(lián)，從而更好地測度被引文獻對施引文獻所貢獻的學(xué)術(shù)價值?？萍计诳倪x題策劃和組稿約稿主要圍繞領(lǐng)域當(dāng)前的研究熱點和發(fā)展趨勢展開。改進方法可以識別出學(xué)科領(lǐng)域中具有高引文價值的一組科技文獻簇，并通過對文獻簇的主題演化分析，進而更有效地揭示出科技文獻簇所表征研究領(lǐng)域的研究熱點和前沿趨勢，有利于領(lǐng)域科技期刊更有針對性地開展選題策劃和組稿約稿等編輯出版工作。

2 有關(guān)引文價值測度的文獻綜述

引文關(guān)系是科技文獻引文價值測度的關(guān)鍵。引文關(guān)系包括直接引文關(guān)系和間接引文關(guān)系，前者即直接引用關(guān)系，引文之間是施引與被引文獻的關(guān)系，后者指引文之間需要通過另一篇引文進行關(guān)聯(lián)的關(guān)系。參照Small給出的定義［4］，間接引文關(guān)系可分為共引、耦合和傳遞三種關(guān)系。其中，傳遞關(guān)系的定義為：如果文獻A引用了文獻B，文獻B引用了文獻C，那么文獻A和文獻C之間即為傳遞關(guān)系。

目前具有代表性的引文價值測度方法包括Combined Linkage（CL）算法［4］、 Weighted Direct Citations（WDC）算法［5］、Normalized Similarity Index（NSI）算法［6］。這些代表性算法所涉及直接引文關(guān)系的情況及間接引文關(guān)系的類型如表1所示。

表1 引文價值測度方法

為凸顯直接引文關(guān)系的重要性，CL算法將直接引文關(guān)系的權(quán)重設(shè)置為間接引文關(guān)系的兩倍。CL算法的計算公式如下：

WDC算法沒有涉及直接引文關(guān)系，僅利用了共引和耦合兩種間接引文關(guān)系來測度引文價值。WDC算法的計算公式如下：

NSI算法使用Jaccard方法進行標準化處理，代替了CL算法的平方根方法，計算結(jié)果更加合理。NSI算法的計算公式如下：

式（1）～（3）中，i和 j分別表示施引與被引文獻，（Ai，mAj，m， Ai，mAm，j， Am，iAm，j）表示三種間接引文關(guān)系，Cij表示直接引文關(guān)系。因為基于傳統(tǒng)引文分析的學(xué)術(shù)引文網(wǎng)絡(luò)是二值圖，而且i和j為直接引文關(guān)系，所以Cij只能用1來表示。因此，目前引文價值測度方法充分考慮各種間接引文關(guān)系，但忽略了最直接、最本質(zhì)的直接引文關(guān)系。這是本文對引文價值測度方法改進的主要出發(fā)點。

引文價值測度忽略直接引文關(guān)系的問題本質(zhì)上而言是被引頻次的權(quán)重問題。很多學(xué)者都針對該問題展開了研究，旨在對被引頻次進行修正。如在期刊評價方面，Moed和Zitt等［7-8］文獻計量學(xué)家提出了從施引文獻的引文數(shù)量角度對被引頻次進行改進的建議；針對不同主題領(lǐng)域的學(xué)科特性差異導(dǎo)致引文影響力評價存在的比較有效性問題，Moed在Garfield領(lǐng)域“引用潛力”指標的基礎(chǔ)上，提出了可以測度不同主題領(lǐng)域引文影響力的SNIP指標，其利用了來源標準化的方法，通過篇均引文數(shù)來校正不同主題領(lǐng)域引用行為的差異。但是，這些對被引頻次的修正仍然是從引文數(shù)量的角度出發(fā)，而沒有從引文質(zhì)量的角度思考。

隨著基于全文本內(nèi)容引文分析的發(fā)展，引文分析的對象正在從篇向節(jié)、段、句深入，這使得引文分析的顆粒度更加精細化。如Ding等［9］提出了一種通過統(tǒng)計被引文獻在施引文獻全文中被提及的次數(shù)來計算總被引頻次的方法。這種基于全文本內(nèi)容的引文分析與傳統(tǒng)的引文分析相比，可以更全面地揭示引文真實的被引頻次，可以更好地用于預(yù)測和挖掘新的高被引論文，在科學(xué)評價和科學(xué)預(yù)見等領(lǐng)域有著非常重要的應(yīng)用價值［10］。以上這些研究為本文對引文價值測度的改進提供了借鑒作用。

3 關(guān)鍵影響因素分析

針對目前科技文獻引文價值測度存在的問題，本文從基于全文本內(nèi)容引文分析的視角出發(fā)，歸納出影響引文價值測度的關(guān)鍵因素，旨在為引文價值測度方法的改進提供思路。經(jīng)過總結(jié)與分析，本文將引文價值測度的關(guān)鍵影響因素歸納為語法和語義兩個層面，前者涉及引用頻次和引用位置，后者涉及引用類型和引用主題，如圖1所示。

圖1 引文價值測度的關(guān)鍵影響因素

3.1 引用頻次

3.2 引用位置

引用位置是指施引文獻在全文中引用被引文獻的章節(jié)。引用位置直接反映了施引文獻的引用動機，即出現(xiàn)在不同章節(jié)的被引文獻對施引文獻的貢獻不同，在方法、實驗、結(jié)論等部分引用的引文往往比在引言、研究現(xiàn)狀或背景等部分引用的引文對施引文獻的學(xué)術(shù)價值更大。Halevi等［13］將引用位置分為引言、文獻綜述、方法論、結(jié)果、討論和結(jié)論。劉盛博［14］將引用位置分為引言、背景、方法、數(shù)據(jù)、結(jié)果、應(yīng)用、討論和結(jié)論，并通過實驗發(fā)現(xiàn)在各個章節(jié)中引用文獻的目的性具有明顯差別：在引言中引用時，通常是陳述別人工作；在背景中引用時，除了陳述他人工作外，還會指出本文的研究特點；在方法中引用時，主要介紹施引文獻本身所使用的方法等。

3.3 引用類型

引用類型是指通過對引用內(nèi)容的語篇分析來識別施引文獻引用被引文獻的動機。引用內(nèi)容是被引文獻出現(xiàn)在施引文獻全文中的句子或上下文，是施引文獻對被引文獻的重新組織。Small［15］將引用內(nèi)容作為觀點表達的概念符號，認為將共被引聚類和被引內(nèi)容分析結(jié)合起來能夠更好地揭示研究領(lǐng)域的知識基礎(chǔ)。引用類型主要包括引用功能（被引文獻對施引文獻的作用，如背景、基礎(chǔ)、比較等）和觀點傾向（施引文獻對被引文獻的態(tài)度或立場，如肯定、否定、中立等）兩種定義。不同引用功能和觀點傾向的被引文獻對施引文獻的學(xué)術(shù)價值不同。Nanba等［16］將引用類型分為類型B（將其他研究者的理論或方法作為理論基礎(chǔ)）、類型C（與相關(guān)工作進行比較，指出存在的問題或差距）和類型O（其他類型）三種。許德山［17］將引用類型分為理念引用、論據(jù)引用、參考引用和敘述引用。

3.4 引用主題

科技文獻符合一定的主題分布規(guī)律，而且可以通過一組揭示其主要研究內(nèi)容的主題詞來表征。因此，施引與被引文獻都可以用一組主題詞來表征各自的主題分布，并通過主題分布的相似度來測度被引文獻對施引文獻的學(xué)術(shù)價值。與施引文獻主題分布越一致的被引文獻對施引文獻的貢獻和價值越大。Liu等［18］基于此假設(shè)提出了利用有監(jiān)督主題模型（LLDA）和網(wǎng)絡(luò)分析算法（PageRank）來提高傳統(tǒng)文獻計量分析的全文本引文分析方法。其中，利用LLDA來表示文獻和引文的主題分布，并用頂點表示文獻，邊表示引文。文獻和引文的主題概率分布就可以轉(zhuǎn)換成頂點的先驗概率分布和邊的轉(zhuǎn)移概率分布，形成主題加強的引文圖。

4 基于關(guān)鍵影響因素的改進方法

通過以上分析可知，引用頻次、引用位置、引用類型和引用主題都對科技文獻引文價值的測度有很大影響。在相關(guān)研究的基礎(chǔ)上，本文提出一種基于關(guān)鍵影響因素的引文價值測度改進方法。為了更有針對性地論述改進方法，本文對間接引文關(guān)系不再贅述，僅闡述對直接引文關(guān)系的改進，并用Vdir表示基于直接引文關(guān)系的引文價值。被引文獻的引文價值由引用頻次、引用位置、引用類型和引用主題四個分量構(gòu)成，分別用Vfre，Vpos，Vtyp和Vsub表示，其權(quán)重分別用a，b，c和d表示，且a+b+c+d=1。本文中測度引文價值的計算公式如下：

權(quán)重的設(shè)置表征了各個關(guān)鍵影響因素對引文價值測度的重要程度。本文對4個關(guān)鍵影響因素賦予相同權(quán)重，均設(shè)置為0.25。

4.1 實例分析

以韓國高麗大學(xué)Shin研究團隊有關(guān)碳納米管纖維的一篇科技文獻為例。這篇文獻的正文包含了引言、實驗、結(jié)果與討論、結(jié)論四部分，并引用了6篇參考文獻，例文章節(jié)結(jié)構(gòu)及引用情況如圖2所示。本文選取的實例主要是為了說明改進方法的基本思路，實際應(yīng)用時還需要根據(jù)科技文獻的篇章結(jié)構(gòu)、參考文獻情況等進行適當(dāng)調(diào)整。

被引文獻在施引文獻全文中以特定的形式進行標記，即引用標記，如例文中的［2，3］和［4-6］等。引用頻次即通過識別引用標記來獲得。

Maricic等［19］將引用位置分為引言、方法、結(jié)果、討論或結(jié)論四部分，權(quán)重分別設(shè)置為15、30、30、25。本文以此為參考，給出引用位置的權(quán)重，如表2所示。

表2 引用位置的權(quán)重設(shè)置

本文借鑒許德山［16］依據(jù)情感傾向和使用類型給出的引文利用價值量化強度指標，如表3所示。引用類型的確定利用線索詞匹配的方法。

圖2 例文章節(jié)結(jié)構(gòu)及引用情況

表3 引用類型的權(quán)重設(shè)置

利用C-value算法識別施引與被引文獻的主題分布，并選取排名前10的核心主題詞進行表征，結(jié)果如表4所示。通過核心主題詞匹配的方法測度施引與被引文獻的引用主題相關(guān)度。

4.2 結(jié)果與討論

根據(jù)實例分析的方法、數(shù)據(jù)和權(quán)重，得到例文的引文價值測度結(jié)果，如表5所示。

表4 施引與被引文獻的核心主題分布

由表5可知，被引文獻（4）的引文價值最大，其次是被引文獻（5）、（6）和（2），被引文獻（1）和（3）的引文價值最小。通過人工判讀分析可知：被引文獻（4）出現(xiàn)在施引文獻的實驗部分，借鑒其從多壁碳納米管紡出碳納米管纖維的方法，為施引文獻的研究提供了方法論，且被引了3次，表明其對施引文獻的貢獻較大；被引文獻（4）還與被引文獻（5）和（6）一起出現(xiàn)在結(jié)果和討論部分，為施引文獻實驗結(jié)果的討論提供了對比數(shù)據(jù)，且被引文獻（5）和（6）被引兩次；被引文獻（1）、（2）和（3）僅出現(xiàn)在引言部分，只提供了施引文獻研究的背景信息，表明其對施引文獻的貢獻較小。通過分析可知，實驗結(jié)果具有一定的合理性，在一定程度上驗證了本文改進方法的可行性。

實例分析針對的是單篇施引文獻中多篇被引文獻的引文價值測度情況，主要為了闡述改進方法的基本思路。在實際應(yīng)用中，單篇被引文獻在多篇施引文獻中的引文價值測度情況更有意義，其對應(yīng)傳統(tǒng)引文分析中的被引頻次。高引文價值的科技文獻相比高被引頻次的科技文獻對學(xué)科領(lǐng)域研究創(chuàng)新的學(xué)術(shù)價值更大。另外，除了對單篇文獻的引文價值測度，本文方法可推廣到科技期刊的引文價值測度，用于評價科技期刊在領(lǐng)域研究創(chuàng)新中所貢獻的實際學(xué)術(shù)價值。

5 結(jié)語

本文針對目前科技文獻引文價值測度存在的問題，從基于全文本內(nèi)容引文分析的視角出發(fā)，從語法和語義兩個層面歸納出了影響引文價值測度的關(guān)鍵影響因素。在此基礎(chǔ)上，本文提出了引文價值測度的改進方法，并通過實例分析驗證了改進方法的可操作性和可行性。

基于全文本內(nèi)容的引文分析使引文分析從數(shù)量角度轉(zhuǎn)向質(zhì)量角度。隨著科技文獻全文數(shù)據(jù)變得越來越易得，尤其是結(jié)構(gòu)化的全文數(shù)據(jù)，如Elsevier的XML全文數(shù)據(jù)，可以方便地從施引文獻全文中識別出引用頻次、引用位置、引用內(nèi)容等信息［20］。這為本文提出的改進方法提供了數(shù)據(jù)基礎(chǔ)。另外，基于間接引文關(guān)系的引文價值測度方法還受到文獻數(shù)據(jù)庫收錄范圍的限制，數(shù)據(jù)庫的差異會導(dǎo)致測度結(jié)果的不同，而基于直接引文關(guān)系的引文價值測度方法不受此限制，結(jié)果更加客觀有效。

本文研究更多還是理論分析，下一步工作需要通過更多的領(lǐng)域?qū)嶒瀬眚炞C改進方法的普適性和應(yīng)用性。尤其是需要進一步研究關(guān)鍵影響因素的權(quán)重設(shè)置，以及引用位置和引用類型的分類等問題。另外，引用類型的識別需要構(gòu)建線索詞庫，在相關(guān)研究的基礎(chǔ)上還要注意數(shù)據(jù)的差異性研究。

［1］Hey T，Tansley S，Tolle K.第四范式：數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)［M］.潘教峰，張曉林，等譯.北京：科學(xué)出版社，2012：199.

［2］梁永霞.引文分析學(xué)知識圖譜［M］.大連：大連理工大學(xué)出版社， 2012：118.

［3］Zhang G， Ding Y， M ilojevic S.Citation content analysis（CCA）： A framework for syntactic and semantic analysis of citation content［J］.Journal of the American Society for Information Science and Technology， 2013， 64（7）： 1490-1503.

［4］Small H.Update on sciencemapping： creating large document spaces［J］.Scientometrics， 1997， 38（2）： 275-293.

［5］Persson O.Identifying research themes w ith weighted direct citation links［J］.Journal of Informetrics， 2010， 4（3）： 415-422.

［6］Nassiri I， Masoudi-Nejad A， Jalili M， et al.Normalized sim ilarity index：An adjusted index to prioritize article citations［J］.Journal of Informetrics， 2013，7（1）： 91-98.

［7］Zitt M.Citing-side normalization of journal impact： A robust variant of the audience factor［ J］.Journal of Informetrics，2010， 4（3）：392-406.

［8］Moed H F.Measuring contextual citation impact of scientific journals［J］.Journal of Informetrics， 2009， 4（3）：265-277.

［9］Ding Y，Liu X， Guo C， et al.The distribution of references across texts： Some implications for citation analysis［J］.Journal of Informetrics， 2013，7（3）：583-592.

［10］胡志剛，陳超美，劉則淵，等.從基于引文到基于引用：一種統(tǒng)計引文總被引次數(shù)的新方法［J］.圖書情報工作，2013，57（21）：5-10.

［11］Herlach G.Can retrieval of information from citation indexesbe simplified？Multiplemention of a reference as a characteristic of link between cited and citing article［J］.Journal of the American Society for Information Science， 1978， 29 （6）：308-310.

［12］LieversW B， Pilkey A K.Characterizing the frequency of repeated citations： The effects of journal， subjectarea， and selfcitation［J］.Information Processing and Management， 2012，48（6）： 1116-1123.

［13］Halevi G， Moed H F.The thematic and conceptual flow of disciplinary research：A citation context analysis of the journal of informetrics， 2007 ［ J］.JournaI of the American Society for Information Science and Technology， 2013， 64（9）： 1903-1913.

［14］劉盛博.科學(xué)論文的引用內(nèi)容分析及其應(yīng)用［D］.大連：大連理工大學(xué)，2014.

［15］Small H G.Cited documents as concept symbols［J］.Social Studies of Science， 1978，8（3）： 327-340.

［16］許德山.科技論文引用中的觀點傾向分析［D］.北京：中國科學(xué)院文獻情報中心，2012.

［17］Nanba H， Kando N， Okumura M.Classification of research papersusing citation linksand citation types：Towards automatic review article generation［C］.Proceedings of the SIG Classification Research Workshop， 2000：117-134.

［18］Liu X， Zhang J， Guo C.Full-text citation analysis： A new method to enhance scholarly networks［J］.Journal of the American Society for Information Science and Technology，2013，64 （9）：1852-1863.

［19］Maricic S， Spaventi J， Pavicic L， et al.Citation context versus the frequency counts of citation histories［J］.Journal of the American Society for Information Science， 1998， 49（6）：530-540.

［20］胡志剛，陳超美，劉則淵，等.基于XML全文數(shù)據(jù)引文分析系統(tǒng)的設(shè)計與實現(xiàn)［J］.現(xiàn)代圖書情報技術(shù)，2012，28（11）：72-77.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看