孫海生
摘要:[目的/意義]已有研究對(duì)文獻(xiàn)耦合關(guān)系和同被引關(guān)系比較的研究較少,本文比較兩種關(guān)系在文獻(xiàn)間建立聯(lián)系的差異,并且比較耦合/同被引強(qiáng)度與文獻(xiàn)相似度的相關(guān)性,分析耦合分析和同被引分析各自更適合哪些方面的應(yīng)用。[方法/過程]根據(jù)復(fù)雜網(wǎng)絡(luò)理論,構(gòu)建文獻(xiàn)耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò),實(shí)證比較文獻(xiàn)耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)的拓?fù)湫再|(zhì)。利用QAP關(guān)聯(lián)分析,研究耦合關(guān)系、同被引關(guān)系與文獻(xiàn)內(nèi)容相似度的關(guān)系。[結(jié)果/結(jié)論]網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)分析表明,耦合關(guān)系在文獻(xiàn)之間建立的聯(lián)系更普遍而且更穩(wěn)定,更利于檢索被引用次數(shù)較少的大多數(shù)文獻(xiàn);同被引關(guān)系在高被引文獻(xiàn)之間建立的聯(lián)系更緊密,利于檢索和確定領(lǐng)域內(nèi)的核心文獻(xiàn)。QAP關(guān)聯(lián)分析表明耦合強(qiáng)度和文獻(xiàn)相似度的相關(guān)性更強(qiáng),在文獻(xiàn)聚類分析研究主題時(shí),耦合強(qiáng)度更可靠。
關(guān)鍵詞:文獻(xiàn)耦合;同被引;復(fù)雜網(wǎng)絡(luò);網(wǎng)絡(luò)特征;QAP關(guān)聯(lián)分析
DOI:10.3969/j.issn.1008-0821.2019.04.016
〔中圖分類號(hào)〕G250252〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2019)04-0134-09
Empirical Research Comparison of Bibliographic
Coupling Network? and Co-citation Network
——A Case Study of Articles Published in Scientometrics
Sun Haisheng
(Library,Liaocheng University,Liaocheng 252059,China)
Abstract:[Purpose/Significance]There are fewer compare studies? on bibliographic coupling and co-citation? analysis.In this paper,we? compared connection between? documents in bibliographic coupling network and co-citation network,furthermore,we studied? the correlation between document similarity and strength.finally,we analyzed what applications theyre more suitable for.[Method/Process]Based on complex network theory,bibliographic coupling network and co-citation network were constructed,and,some topological properties of bibliographic coupling network and co-citation network were compared empirically.QAP relational analysis was applied to study relationships between bibliographic coupling,co-citation and similarity of documents.[Result/Conclusion]From the point of view of topological properties of networks,bibliographic coupling established more common and more stable relations among documents,it was effective for retrieving most documents which were cited fewer times.Co-citation made higherly cited papers more connected,it was more effective for identifying and retrieving core documents of domains.QAP analysis showed that bibliographic coupling strength? was a more reliable indication of subject similarity than co-citation.
Key words:bibliographic coupling;co-citation;complex networks;network characteristics;QAP
科學(xué)文獻(xiàn)之間的引用是一種普遍的學(xué)術(shù)現(xiàn)象,在直接引用關(guān)系的基礎(chǔ)上,文獻(xiàn)之間形成耦合和同被引關(guān)系。文獻(xiàn)耦合(Bibliographic Coupling)的概念最早是Kessler M提出的[1],如果兩篇文獻(xiàn)引用了相同的參考文獻(xiàn),就稱它們具有耦合關(guān)系,耦合強(qiáng)度是兩篇文獻(xiàn)引用相同參考文獻(xiàn)的數(shù)量。Kessler M最初提出文獻(xiàn)耦合的目的是把耦合關(guān)系作為一種新的檢索方法,Glanzel W等進(jìn)一步提出文獻(xiàn)耦合可以用于信息檢索、科學(xué)結(jié)構(gòu)分析、探測(cè)研究前沿、確定學(xué)科領(lǐng)域核心文獻(xiàn)[2]。文獻(xiàn)同被引(Co-citation)的概念由美國(guó)情報(bào)學(xué)家Small和前蘇聯(lián)情報(bào)學(xué)家Marshakova分別在研究文獻(xiàn)引證結(jié)構(gòu)和文獻(xiàn)聚類時(shí)提出[3],是指兩篇文獻(xiàn)同時(shí)被后來發(fā)表的文獻(xiàn)引用的現(xiàn)象,同時(shí)被引用的次數(shù)稱為同被引強(qiáng)度,同被引強(qiáng)度越大,說明它們之間的關(guān)系越密切。科學(xué)文獻(xiàn)的耦合與同被引都可以反映文獻(xiàn)之間的聯(lián)系程度和結(jié)構(gòu)關(guān)系,從引文的角度揭示文獻(xiàn)的主題相似性,以及相互之間的聯(lián)系,因此這兩種分析方法都用于研究文獻(xiàn)關(guān)系、文獻(xiàn)檢索和揭示學(xué)科結(jié)構(gòu),并且在實(shí)踐中得到了大量應(yīng)用。
在概念層面,邱均平教授分析了耦合與同被引的異同,認(rèn)為它們的相同之處在于都是指兩篇論文通過其他文獻(xiàn)建立的關(guān)系,都反映文獻(xiàn)之間的引用規(guī)律和結(jié)構(gòu)關(guān)系,在引文分析中同屬于一種類型,從引文角度反映文獻(xiàn)主題的相似性,可以用于研究文獻(xiàn)關(guān)系、進(jìn)行文獻(xiàn)檢索、揭示學(xué)科結(jié)構(gòu)等。二者的區(qū)別在于:耦合關(guān)系是兩篇引證文獻(xiàn)主動(dòng)引用其它被引證文獻(xiàn)建立的關(guān)系,回溯性反映引證文獻(xiàn)信息來源,兩篇文獻(xiàn)一旦正式發(fā)表,耦合關(guān)系就完全確定下來,是靜態(tài)的;同被引關(guān)系是兩篇文獻(xiàn)由于被其它文獻(xiàn)引用而被動(dòng)建立的關(guān)系,展望性反映文獻(xiàn)發(fā)表后被使用的情況,隨著文獻(xiàn)發(fā)表時(shí)間的延長(zhǎng),兩篇文獻(xiàn)之間同被引的強(qiáng)度是動(dòng)態(tài)變化的,因此適合用于分析科學(xué)發(fā)展的動(dòng)態(tài)結(jié)構(gòu)[4]。
在實(shí)際應(yīng)用層面,研究人員對(duì)耦合分析方法和同被引分析方法也進(jìn)行了比較。Small H在提出同被引方法時(shí)認(rèn)為作為主題相似性的指標(biāo),耦合的可靠性比同被引差一些。Newman M則認(rèn)為強(qiáng)同被引關(guān)系局限于高被引文獻(xiàn)之間,文獻(xiàn)耦合是文獻(xiàn)之間相似性更為均勻的指標(biāo)[5]。這兩種觀點(diǎn)都沒有嚴(yán)格的理論證明,也缺乏實(shí)驗(yàn)結(jié)果的支持。有實(shí)證研究從研究前沿探測(cè)效果的角度,對(duì)耦合分析和同被引分析進(jìn)行了比較。Boyack K等通過對(duì)生物醫(yī)學(xué)研究前沿探測(cè)的實(shí)證研究,認(rèn)為耦合分析方法略優(yōu)于同被引分析方法,更準(zhǔn)確的分析結(jié)果來自對(duì)多種方法的綜合使用[6]。Shibata N等以氮化鎵半導(dǎo)體材料、復(fù)雜網(wǎng)絡(luò)和碳納米管3個(gè)研究領(lǐng)域?yàn)閷?shí)證研究對(duì)象,對(duì)文獻(xiàn)直接引證網(wǎng)絡(luò)、同被引網(wǎng)絡(luò)和文獻(xiàn)耦合網(wǎng)絡(luò)探測(cè)研究前沿的效果做了對(duì)比,他們認(rèn)為直接引證網(wǎng)絡(luò)的效果最好,能夠最快地探測(cè)到新興前沿的出現(xiàn),同被引分析的效果最差[7]。
總體來看,對(duì)耦合分析和同被引分析進(jìn)行比較的研究成果還較少,集中于概念層面和研究前沿探測(cè)效果的實(shí)證對(duì)比。一般認(rèn)為耦合分析和同被引分析都可以應(yīng)用于文獻(xiàn)檢索和揭示學(xué)科結(jié)構(gòu),但是對(duì)于耦合分析、同被引分析更適合于哪方面的應(yīng)用,還缺乏研究。實(shí)際上,大量文獻(xiàn)由于引證關(guān)系而形成相互關(guān)聯(lián)的復(fù)雜系統(tǒng),對(duì)耦合關(guān)系和同被引關(guān)系比較的研究有必要引入網(wǎng)絡(luò)科學(xué)理論和方法,為文獻(xiàn)引證網(wǎng)絡(luò)研究提供宏觀指導(dǎo)和具體手段,其中,網(wǎng)絡(luò)拓?fù)鋵W(xué)研究有助于人們對(duì)引證網(wǎng)絡(luò)結(jié)構(gòu)的認(rèn)知,網(wǎng)絡(luò)動(dòng)力學(xué)有助于揭示引證網(wǎng)絡(luò)的演化形成機(jī)制。早在1965年著名計(jì)量學(xué)家Price D就利用復(fù)雜網(wǎng)絡(luò)模型研究了文獻(xiàn)直接引證現(xiàn)象,把論文之間的引用關(guān)系抽象為有向網(wǎng)絡(luò),發(fā)現(xiàn)引文網(wǎng)絡(luò)的入度服從冪律分布,并提出了增長(zhǎng)和累積優(yōu)勢(shì)機(jī)制解釋網(wǎng)絡(luò)的形成[8]。Yan E等采用網(wǎng)絡(luò)模型研究了作者、論文的學(xué)術(shù)影響力[9-10],在文獻(xiàn)[11]中,他們研究了20個(gè)研究機(jī)構(gòu)的耦合網(wǎng)絡(luò)、引用網(wǎng)絡(luò)、同被引網(wǎng)絡(luò)、主題網(wǎng)絡(luò)、合作網(wǎng)絡(luò)和共詞網(wǎng)絡(luò)的相似度,發(fā)現(xiàn)耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)的相似度較高,和引用網(wǎng)絡(luò)的相似度最高。這是利用網(wǎng)絡(luò)模型對(duì)耦合和同被引關(guān)系進(jìn)行比較的典型文獻(xiàn)。他們采用的方法是把矩陣轉(zhuǎn)化為一維向量,計(jì)算向量的余弦相似度作為網(wǎng)絡(luò)的相似度,這樣的處理比較粗略,缺乏對(duì)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)更細(xì)致的比較。實(shí)際應(yīng)用中兩種方法所表現(xiàn)出的不同源于網(wǎng)絡(luò)特征的差異。因此,本文嘗試比較文獻(xiàn)耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)有什么差異?從結(jié)構(gòu)特征的角度分析它們更適合哪些方面的應(yīng)用?
另外,耦合和同被引都是從引文角度揭示文獻(xiàn)的主題相似性,對(duì)主題相似性的測(cè)度建立在一個(gè)重要的假設(shè)之上:耦合或同被引的強(qiáng)度越大,則文獻(xiàn)之間的相似度越大。這一假設(shè)本質(zhì)上是以文獻(xiàn)之間引證的次數(shù)測(cè)度文獻(xiàn)主題的相似性,而不是直接以文獻(xiàn)自身的內(nèi)容為依據(jù)。實(shí)際上,施引文獻(xiàn)和被引文獻(xiàn)之間的關(guān)系比較復(fù)雜,同一篇文獻(xiàn)被不同的研究人員引用,引用的具體內(nèi)容會(huì)存在很大差異,研究方法、研究結(jié)論、數(shù)據(jù)、圖表等都可能成為被引用的對(duì)象,Elkiss A把這一現(xiàn)象比喻為盲人摸象[12]。而且,研究人員的引用行為具有很強(qiáng)的主觀性,關(guān)于引用動(dòng)機(jī)的研究表明研究人員的引用行為具有復(fù)雜性和多樣性等特征,甚至還存在不良引用行為。耦合、同被引是建立在直接引用關(guān)系之上的二階特征,豐富了文獻(xiàn)之間的物理關(guān)聯(lián)形式,但是,文獻(xiàn)之間具有耦合或同被引關(guān)系是否一定意味著文獻(xiàn)的研究主題相似度高?以耦合、同被引關(guān)系作為文獻(xiàn)主題相似度的測(cè)度指標(biāo)值得關(guān)注。在比較網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的基礎(chǔ)上,本文嘗試探討耦合關(guān)系、同被引關(guān)系與文獻(xiàn)研究主題相似度之間的相關(guān)性;研究耦合或同被引網(wǎng)絡(luò)中強(qiáng)度的分布情況,強(qiáng)度越大,文獻(xiàn)之間的相似度是否越大?判斷文獻(xiàn)主題相似度時(shí),耦合強(qiáng)度和同被引強(qiáng)度哪一個(gè)更可靠?
1研究方法
復(fù)雜網(wǎng)絡(luò)理論:復(fù)雜網(wǎng)絡(luò)研究以數(shù)學(xué)、統(tǒng)計(jì)物理學(xué)、計(jì)算機(jī)科學(xué)等為分析工具,以復(fù)雜系統(tǒng)為研究目標(biāo),主要利用網(wǎng)絡(luò)特征描述物理、生物和社會(huì)等現(xiàn)象,建立這些現(xiàn)象的預(yù)測(cè)模型或分析模型,并利用網(wǎng)絡(luò)的靜態(tài)特征和動(dòng)力學(xué)特性來解釋這些現(xiàn)象,是描述自然科學(xué)、社會(huì)科學(xué)、管理科學(xué)和工程技術(shù)等領(lǐng)域復(fù)雜系統(tǒng)的理論模型[13]。其理論、研究方法成為廣泛的交叉科學(xué)思想方法,用來研究在自然界和人類社會(huì)中普遍存在的網(wǎng)絡(luò)現(xiàn)象,在情報(bào)學(xué)研究中已經(jīng)成為一種研究范式,應(yīng)用在引文分析、科學(xué)合作、共詞分析、網(wǎng)絡(luò)輿情等研究中。構(gòu)建文獻(xiàn)耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò),可以從網(wǎng)絡(luò)結(jié)構(gòu)特征的角度分析耦合和同被引在文獻(xiàn)之間建立聯(lián)系的差異。
向量空間模型:向量空間模型是常見的文本表示模型,把文本內(nèi)容看作它所含有的特征項(xiàng)的集合,根據(jù)描述文獻(xiàn)內(nèi)容的特征項(xiàng)測(cè)度文獻(xiàn)之間的相似度,一個(gè)文本對(duì)應(yīng)向量空間中的一個(gè)向量,向量之間的夾角余弦測(cè)度文檔之間的相似性。本研究提取表征文獻(xiàn)內(nèi)容的特征項(xiàng),樣本數(shù)據(jù)中的每一篇論文都表示為一個(gè)向量,以向量夾角的余弦作為文獻(xiàn)研究主題的相似度。
QAP方法:QAP方法可以用來研究關(guān)系之間的關(guān)系,通過比較兩個(gè)(或多個(gè))矩陣中的對(duì)應(yīng)元素,得出矩陣之間的相關(guān)系數(shù),同時(shí)對(duì)系數(shù)進(jìn)行非參數(shù)檢驗(yàn)。作為一種檢驗(yàn)關(guān)系矩陣之間關(guān)系的方法,QAP方法可以計(jì)算出顯著性水平,對(duì)關(guān)系性命題進(jìn)行檢驗(yàn)[14]。耦合關(guān)系、同被引關(guān)系、文獻(xiàn)之間的相似度均可以以矩陣的形式進(jìn)行描述,3個(gè)矩陣中的各個(gè)元素分別代表文獻(xiàn)之間的上述3種關(guān)系,QAP方法可以給出3個(gè)關(guān)系矩陣的相似性測(cè)量結(jié)果,以此來分析耦合、同被引與文獻(xiàn)研究?jī)?nèi)容相似度之間的關(guān)系,比較測(cè)度文獻(xiàn)主題相似性時(shí)耦合關(guān)系與同被引關(guān)系的可靠性。
2實(shí)證研究
21數(shù)據(jù)來源
期刊是文獻(xiàn)的發(fā)布類型之一,尤其是學(xué)術(shù)期刊,主要以刊載論文的形式展示本領(lǐng)域的最新研究成果,對(duì)于科學(xué)交流和信息傳播具有十分重要的作用。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,期刊數(shù)據(jù)庫建設(shè)日趨完善,利用引文數(shù)據(jù)庫能夠很方便地獲得學(xué)術(shù)論文的各種題錄信息,并且能提取論文之間的各種引證關(guān)系數(shù)據(jù),相比較而言,其他出版形式的學(xué)術(shù)文獻(xiàn)引證關(guān)系的提取還困難得多。因此本文選擇的文獻(xiàn)形式為期刊學(xué)術(shù)論文,研究論文之間的耦合關(guān)系和同被引關(guān)系。各學(xué)科已發(fā)表的學(xué)術(shù)論文數(shù)量龐大,僅Web of Science數(shù)據(jù)庫核心合集中的文獻(xiàn)記錄就已經(jīng)超過了幾千萬條,普通網(wǎng)絡(luò)用戶不易獲得全部數(shù)據(jù),因此,本文定位于實(shí)證研究中的個(gè)案研究,以科學(xué)計(jì)量學(xué)為例,利用上文提出的方法,對(duì)文獻(xiàn)耦合/同被引關(guān)系進(jìn)行對(duì)比。由于網(wǎng)絡(luò)的性質(zhì)與網(wǎng)絡(luò)規(guī)模有關(guān),網(wǎng)絡(luò)規(guī)模擴(kuò)大,有些網(wǎng)絡(luò)性質(zhì)會(huì)發(fā)生改變,比如,社交網(wǎng)絡(luò)隨著時(shí)間的演化,用戶增加,整個(gè)網(wǎng)絡(luò)會(huì)出現(xiàn)直徑收縮現(xiàn)象[15]。因此,根據(jù)比較研究的同一性原則,本文構(gòu)建了節(jié)點(diǎn)數(shù)相同的4個(gè)引證關(guān)系網(wǎng)絡(luò),以保證網(wǎng)絡(luò)的規(guī)模相同。學(xué)術(shù)論文被引用的高峰期在一般發(fā)表后的2~5年,本文以2008-2012年科學(xué)計(jì)量學(xué)專業(yè)學(xué)術(shù)期刊《Scientometrics》的題錄數(shù)據(jù)為樣本,構(gòu)建1 049篇論文之間的耦合關(guān)系和同被引關(guān)系網(wǎng)絡(luò),比較同一部分文獻(xiàn),耦合網(wǎng)絡(luò)與同被引網(wǎng)絡(luò)的差異;同被引方法在實(shí)際應(yīng)用時(shí),通常選擇領(lǐng)域內(nèi)的高被引文獻(xiàn),因此,選擇《Scientometrics》創(chuàng)刊以來1 049篇高被引文獻(xiàn)為第2部分樣本數(shù)據(jù),構(gòu)建這些文獻(xiàn)的耦合關(guān)系和同被引關(guān)系網(wǎng)絡(luò),研究高被引文獻(xiàn)耦合關(guān)系和同被引關(guān)系的差異。為行文方便,這兩部分樣本數(shù)據(jù)分別稱為數(shù)據(jù)Ⅰ和數(shù)據(jù)Ⅱ,對(duì)應(yīng)的關(guān)系網(wǎng)路分別為耦合網(wǎng)絡(luò)Ⅰ、同被引網(wǎng)絡(luò)Ⅰ、耦合網(wǎng)絡(luò)Ⅱ、同被引網(wǎng)絡(luò)Ⅱ。
22網(wǎng)絡(luò)構(gòu)建
以Web of Science為數(shù)據(jù)源,下載《Scientometrics》期刊的引文數(shù)據(jù),提取論文之間的耦合關(guān)系和同被引關(guān)系,采用復(fù)雜網(wǎng)絡(luò)分析方法,分別以耦合關(guān)系和同被引關(guān)系,構(gòu)建論文耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò),以論文為節(jié)點(diǎn),連線分別代表耦合關(guān)系或同被引關(guān)系,節(jié)點(diǎn)和連線構(gòu)成一個(gè)加權(quán)無向網(wǎng)絡(luò),對(duì)應(yīng)一個(gè)由節(jié)點(diǎn)和邊組成的圖G(V,E,W),其中,V是網(wǎng)絡(luò)中代表論文的節(jié)點(diǎn)集合,節(jié)點(diǎn)數(shù)N=V,E是代表耦合或同被引關(guān)系的邊的集合,邊數(shù)M=E,W為連線權(quán)重,在各自的網(wǎng)絡(luò)中分別等于耦合強(qiáng)度和同被引強(qiáng)度。
23網(wǎng)絡(luò)節(jié)點(diǎn)聯(lián)系緊密程度的比較
節(jié)點(diǎn)之間聯(lián)系的緊密程度可以用度和網(wǎng)絡(luò)密度兩個(gè)指標(biāo)來衡量。其中,密度是網(wǎng)絡(luò)的靜態(tài)指標(biāo),等于網(wǎng)絡(luò)中實(shí)際存在的邊數(shù)與最大可能的邊數(shù)的比值,從整體的角度測(cè)度網(wǎng)絡(luò)中節(jié)點(diǎn)之間聯(lián)系的緊密程度,耦合/同被引網(wǎng)絡(luò)的密度從整體上刻畫耦合/同被引使文獻(xiàn)之間建立聯(lián)系的緊密程度,密度越大,說明關(guān)系越普遍。從表1可以看出,同被引網(wǎng)絡(luò)Ⅱ的密度最大,達(dá)到了01214,是同被引網(wǎng)絡(luò)Ⅰ密度值的456倍。兩個(gè)耦合網(wǎng)絡(luò)的密度分別為0081和0088,差別比較小。節(jié)點(diǎn)的度分布從個(gè)體的角度,揭示節(jié)點(diǎn)之間連接的狀況,每個(gè)節(jié)點(diǎn)的度是和該節(jié)點(diǎn)直接相連的鄰居節(jié)點(diǎn)的個(gè)數(shù),網(wǎng)絡(luò)的平均度分布〈k〉等于平均每個(gè)節(jié)點(diǎn)連接鄰居節(jié)點(diǎn)的數(shù)目。度越大,說明與該文獻(xiàn)存在耦合/同被引關(guān)系的文獻(xiàn)越多,在耦合/同被引網(wǎng)絡(luò)中,平均度〈k〉分別是指每篇文獻(xiàn)所具有的耦合文獻(xiàn)或同被引文獻(xiàn)的平均數(shù)。由于復(fù)雜網(wǎng)絡(luò)的度分布呈不均勻狀態(tài),采用均值和基尼系數(shù)兩個(gè)參量描述4個(gè)網(wǎng)絡(luò)中節(jié)點(diǎn)度值的分布情況。從表1可以看出,兩個(gè)耦合網(wǎng)絡(luò)中度值的均值分別為80、88,基尼系數(shù)分別為039、045,說明兩個(gè)耦合網(wǎng)絡(luò)中度值的分布情況很相似,樣本數(shù)據(jù)不同對(duì)耦合關(guān)系的影響不大,耦合關(guān)系表現(xiàn)比較穩(wěn)定。兩個(gè)同被引網(wǎng)絡(luò)中度值的均值、中位數(shù)差別較大,高被引論文同被引網(wǎng)絡(luò)的平均度〈k〉為121,即:與每篇文獻(xiàn)具有同被引關(guān)系的文獻(xiàn)平均有121篇,同被引網(wǎng)絡(luò)Ⅰ的平均度只有26,前者是后者的465倍;而且同被引網(wǎng)絡(luò)Ⅱ度值的基尼系數(shù)明顯較小,說明該網(wǎng)絡(luò)中節(jié)點(diǎn)度值普遍較大,度值的差異程度相對(duì)較小,度分布相對(duì)均勻;同被引網(wǎng)絡(luò)Ⅰ中節(jié)點(diǎn)度值普遍較小,說明樣本數(shù)據(jù)Ⅰ中的文獻(xiàn)通過同被引關(guān)系建立的聯(lián)系要少于耦合關(guān)系,和高被引論文之間的同被引關(guān)系相比較,差距更大,而且該網(wǎng)絡(luò)中度分布不均衡的程度最大,基尼系數(shù)達(dá)到了0504。從節(jié)點(diǎn)聯(lián)系緊密程度來看,耦合網(wǎng)絡(luò)中節(jié)點(diǎn)的聯(lián)系更普遍,而且表現(xiàn)更穩(wěn)定,樣本數(shù)據(jù)不同,對(duì)耦合網(wǎng)絡(luò)密度和平均度的影響不大;而同被引關(guān)系把領(lǐng)域內(nèi)高影響力的文獻(xiàn)緊密聯(lián)系在一起。產(chǎn)生這種現(xiàn)象的原因在于引文的集中現(xiàn)象,研究人員在撰寫學(xué)術(shù)論文時(shí)都會(huì)引用一定數(shù)量的先前發(fā)表的研究成果作為參考文獻(xiàn),而在論文發(fā)表后,只有少數(shù)論文被大量引用,大多數(shù)論文很少被引用甚至被引用次數(shù)為0。對(duì)SCI數(shù)據(jù)庫的統(tǒng)計(jì)表明,SCI所有論文大約47%的論文從未被引用過,9%的論文只被引用過1次,6%的論文只被引用過2次,只有21%的論文被引次數(shù)大于等于10次[16]。著名文獻(xiàn)計(jì)量學(xué)家Egghe L等認(rèn)為絕大部分論文之間不會(huì)產(chǎn)生同被引關(guān)系[17]。論文的參考文獻(xiàn)的數(shù)量分布相對(duì)于被引次數(shù)的分布更均勻,而且,研究人員往往傾向于引用熱門文獻(xiàn)或權(quán)威性高的文獻(xiàn),這又造成參考文獻(xiàn)的集中化,因此論文因?yàn)橐孟嗤瑓⒖嘉墨I(xiàn)而產(chǎn)生耦合關(guān)系的概率大于同時(shí)被引用的概率,表現(xiàn)為耦合網(wǎng)絡(luò)中節(jié)點(diǎn)之間的聯(lián)系更緊密。
24小世界網(wǎng)絡(luò)特征的比較
小世界現(xiàn)象是復(fù)雜網(wǎng)絡(luò)的重要特征之一,表現(xiàn)為小的平均距離,與具有相同節(jié)點(diǎn)數(shù)和平均度的隨機(jī)網(wǎng)絡(luò)相比較大得多的聚類系數(shù)。網(wǎng)絡(luò)中兩個(gè)節(jié)點(diǎn)之間的最短路徑是連接這兩個(gè)節(jié)點(diǎn)的邊數(shù)最少的路徑,定義為連接這兩個(gè)節(jié)點(diǎn)的最短路徑上邊的數(shù)目。網(wǎng)絡(luò)的平均距離是任意兩個(gè)節(jié)點(diǎn)之間的距離的平均值,考慮到實(shí)際網(wǎng)絡(luò)中節(jié)點(diǎn)不連通造成計(jì)算的發(fā)散問題,實(shí)際網(wǎng)絡(luò)的平均距離定義為存在連通路徑的節(jié)點(diǎn)對(duì)之間距離的平均值。網(wǎng)絡(luò)直徑則是兩個(gè)存在有限距離節(jié)點(diǎn)之間距離的最大值[15]。文獻(xiàn)耦合/同被引關(guān)系網(wǎng)絡(luò)中,平均距離等于連接兩篇文獻(xiàn)最短關(guān)系鏈上節(jié)點(diǎn)的平均數(shù),直徑是所有相互連通的文獻(xiàn)之間相互到達(dá)需要的步數(shù)。從表2可以看出,兩個(gè)耦合網(wǎng)絡(luò)的平均距離都略大于21,而兩個(gè)同被引網(wǎng)絡(luò)的平均距離分別為256和191,在同被引網(wǎng)絡(luò)Ⅱ中只需要2步,就能到達(dá)連通的節(jié)點(diǎn)。兩個(gè)耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)Ⅰ中則需要3步,耦合網(wǎng)絡(luò)中文獻(xiàn)之間的距離比同被引網(wǎng)絡(luò)Ⅰ中的距離更近;4個(gè)網(wǎng)絡(luò)的最大直徑差異較大,同被引網(wǎng)絡(luò)Ⅱ的最大直徑為3,說明最多經(jīng)過3步就能到達(dá)所有連通節(jié)點(diǎn),而同被引網(wǎng)絡(luò)Ⅰ的最大直徑達(dá)到了9,是前者的3倍;耦合網(wǎng)絡(luò)的最大直徑分別為5和6,同被引網(wǎng)絡(luò)Ⅱ的連通性明顯高于其他3個(gè)網(wǎng)絡(luò)。從節(jié)點(diǎn)間的平均距離和網(wǎng)絡(luò)最大直徑來看,對(duì)于同一時(shí)間窗口內(nèi)的文獻(xiàn),耦合關(guān)系使文獻(xiàn)之間的距離更近,利用耦合關(guān)系進(jìn)行檢索更容易找到相關(guān)文獻(xiàn);而對(duì)于在領(lǐng)域內(nèi)影響力強(qiáng)的高被引文獻(xiàn),最遠(yuǎn)的距離也沒有超過3,對(duì)這部分文獻(xiàn)利用同被引關(guān)系進(jìn)行檢索,檢索效果更好。
聚類系數(shù)描述網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰居節(jié)點(diǎn)也互相連接的概率,刻畫網(wǎng)絡(luò)連接的聚集程度,即小集團(tuán)結(jié)構(gòu)的完美程度,若聚類系數(shù)較大,則說明網(wǎng)絡(luò)具有較強(qiáng)的集聚性。朋友關(guān)系網(wǎng)絡(luò)聚類系數(shù)的高低反映了朋友圈的緊密程度。平均距離測(cè)量網(wǎng)絡(luò)中關(guān)系的深度,聚類系數(shù)則測(cè)量網(wǎng)絡(luò)中關(guān)系的廣度。從表2可以看出,4個(gè)網(wǎng)絡(luò)的聚類系數(shù)明顯遠(yuǎn)遠(yuǎn)大于相同規(guī)模隨機(jī)網(wǎng)絡(luò)的聚類系數(shù),而平均距離則和隨機(jī)網(wǎng)絡(luò)的平均距離處于同一數(shù)量級(jí)。本文構(gòu)建的4個(gè)網(wǎng)絡(luò)都具有平均距離小,而聚類系數(shù)大的特征,說明都具有小世界網(wǎng)絡(luò)的拓?fù)湫再|(zhì)。同被引網(wǎng)絡(luò)Ⅱ的聚類系數(shù)大于同被引網(wǎng)絡(luò)Ⅰ,高影響力論文之間的同被引概率明顯大于一般論文同被引的概率;對(duì)同一文獻(xiàn)集合,耦合網(wǎng)絡(luò)的聚類系數(shù)都大于相對(duì)應(yīng)的同被引網(wǎng)絡(luò),說明耦合網(wǎng)絡(luò)中節(jié)點(diǎn)的鄰居節(jié)點(diǎn)之間也存在耦合關(guān)系的概率大于同被引網(wǎng)絡(luò)中鄰居節(jié)點(diǎn)之間存在同被引關(guān)系的概率,耦合網(wǎng)絡(luò)中節(jié)點(diǎn)聚集程度更高,網(wǎng)絡(luò)節(jié)點(diǎn)之間的聚集特征相對(duì)更穩(wěn)定。
25網(wǎng)絡(luò)同配性
度相關(guān)性是刻畫網(wǎng)絡(luò)的二階度分布特性,描述網(wǎng)絡(luò)中的節(jié)點(diǎn)和與其他節(jié)點(diǎn)連接的傾向性,對(duì)于揭示網(wǎng)絡(luò)自身組織結(jié)構(gòu)與形成機(jī)制有著重要意義。度相關(guān)性對(duì)信息在網(wǎng)絡(luò)中的傳播有重要影響,研究表明在度相關(guān)的無標(biāo)度網(wǎng)絡(luò)中,信息的傳播速度遠(yuǎn)遠(yuǎn)高于在非相關(guān)的無標(biāo)度網(wǎng)絡(luò)中的傳播速度。對(duì)于度相關(guān)的網(wǎng)絡(luò),如果總體上度大的節(jié)點(diǎn)傾向于連接度大的節(jié)點(diǎn),網(wǎng)絡(luò)是正相關(guān),或同配的;如果總體上度大的節(jié)點(diǎn)傾向于連接度小的節(jié)點(diǎn),網(wǎng)絡(luò)是負(fù)相關(guān)的,或異配的。同配系數(shù)r用來刻畫網(wǎng)絡(luò)是同配還是異配[15]。
r=S1S2-S22S1S3-S22(1)
其中,Se=2∑(i,j)∈Ekikj,S1=∑iki,S2=∑ik2i,S3=∑ik3i,ki,kj是節(jié)點(diǎn)的度值。r>0,網(wǎng)絡(luò)是同配的;r<0,網(wǎng)絡(luò)是異配的;r=0,網(wǎng)絡(luò)不具有度相關(guān)性。Newman發(fā)現(xiàn):和異配網(wǎng)絡(luò)相比,同配網(wǎng)絡(luò)更利于信息或疾病的傳播和擴(kuò)散,比如傳染病,更容易在具有同配性的社會(huì)網(wǎng)絡(luò)中傳播;同配網(wǎng)絡(luò)比異配網(wǎng)絡(luò)更加穩(wěn)健,魯棒性更強(qiáng),比如互聯(lián)網(wǎng)和電網(wǎng)這類異配網(wǎng)絡(luò),刪除度值大的hub節(jié)點(diǎn),容易導(dǎo)致網(wǎng)絡(luò)崩潰。
4個(gè)網(wǎng)絡(luò)的同配系數(shù)都大于0,說明耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)都是同配的,度值大的節(jié)點(diǎn)傾向于連接其他度值大的節(jié)點(diǎn)。同配性產(chǎn)生的原因在于研究人員傾向于引用一些受人關(guān)注的熱門文獻(xiàn)或影響力高的文獻(xiàn),這些文獻(xiàn)在受到同行關(guān)注方面獲得累積優(yōu)勢(shì),以它們?yōu)橹薪椋盟鼈兊氖┮墨I(xiàn)之間產(chǎn)生耦合關(guān)系的概率也相應(yīng)增大,因此,耦合網(wǎng)絡(luò)中度值大的節(jié)點(diǎn)更傾向于連接其它度值大的節(jié)點(diǎn);影響力高的文獻(xiàn)之間產(chǎn)生同被引關(guān)系時(shí),累積優(yōu)勢(shì)相加使它們?nèi)菀撰@得更多更持續(xù)的關(guān)注,擇優(yōu)連接特征在同被引網(wǎng)絡(luò)中表現(xiàn)得更明顯,尤其是在高被引文獻(xiàn)的同被引網(wǎng)絡(luò)中。研究人員在引用參考文獻(xiàn)時(shí),出于自身研究的需要,不僅僅會(huì)引用影響力強(qiáng)的高被引文獻(xiàn),還會(huì)大量引用被關(guān)注相對(duì)較少的文獻(xiàn),耦合網(wǎng)絡(luò)中節(jié)點(diǎn)連接傾向性不如同被引網(wǎng)絡(luò)明顯,同被引網(wǎng)絡(luò)的同配系數(shù)大于耦合網(wǎng)絡(luò)。
度是衡量網(wǎng)絡(luò)中節(jié)點(diǎn)重要性的基本指標(biāo),網(wǎng)絡(luò)中度值大的節(jié)點(diǎn)傾向于連接其它度值大的節(jié)點(diǎn),這些重要節(jié)點(diǎn)相互連接,形成文獻(xiàn)網(wǎng)絡(luò)的核心。同被引網(wǎng)絡(luò)的同配系數(shù)大于耦合網(wǎng)絡(luò),說明在同被引網(wǎng)絡(luò)中重要節(jié)點(diǎn)彼此連接的傾向性更強(qiáng),因此,利用同被引關(guān)系更利于研究人員確定研究領(lǐng)域內(nèi)的核心文獻(xiàn),而且同被引網(wǎng)絡(luò)比耦合網(wǎng)絡(luò)的魯棒性更強(qiáng)。通常,現(xiàn)實(shí)社會(huì)網(wǎng)絡(luò)往往會(huì)呈現(xiàn)明顯的同配特征,而互聯(lián)網(wǎng)和WWW等技術(shù)網(wǎng)絡(luò)都是異配的。耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)表現(xiàn)出現(xiàn)實(shí)社會(huì)網(wǎng)絡(luò)的特征,根本原因在于引證行為是無形學(xué)院內(nèi)部成員交流、互動(dòng)的重要表現(xiàn)形式,直接反映研究人員之間的思想與行為聯(lián)系,表面上是文獻(xiàn)之間的聯(lián)系,本質(zhì)上則是科學(xué)認(rèn)識(shí)結(jié)構(gòu)與科學(xué)社會(huì)結(jié)構(gòu)之間的相互作用。
26耦合網(wǎng)絡(luò)、同被引網(wǎng)絡(luò)、文獻(xiàn)相似度的相關(guān)性
261文獻(xiàn)相似矩陣
Web of Science數(shù)據(jù)庫題錄數(shù)據(jù)中包含關(guān)鍵詞和主題詞兩個(gè)檢索項(xiàng),關(guān)鍵詞是標(biāo)識(shí)文獻(xiàn)內(nèi)容的重要知識(shí)單元,是表示文獻(xiàn)主題內(nèi)容的術(shù)語,濃縮和提煉文章的核心內(nèi)容,能夠揭示文獻(xiàn)的主要內(nèi)容。主題詞是在標(biāo)引和檢索中用以表達(dá)文獻(xiàn)主題的人工語言,具有概念化和規(guī)范化的特征,能夠清楚、準(zhǔn)確地表達(dá)概念的含義。本文把關(guān)鍵詞和主題詞作為特征項(xiàng),構(gòu)建文獻(xiàn)——特征項(xiàng)矩陣,每篇文獻(xiàn)對(duì)應(yīng)一個(gè)特征項(xiàng)向量,向量夾角余弦測(cè)度文獻(xiàn)主題內(nèi)容的相似性。每篇文獻(xiàn)的標(biāo)題、關(guān)鍵詞、主題詞、摘要能夠反映出該文獻(xiàn)的主要內(nèi)容,因此,本文以題錄數(shù)據(jù)中的標(biāo)題、關(guān)鍵詞、主題詞和摘要作為文本處理的對(duì)象,抽取550個(gè)特征項(xiàng),使用Ri386 320軟件對(duì)樣本數(shù)據(jù)Ⅰ和Ⅱ分別構(gòu)建了1049×550的文獻(xiàn)——特征項(xiàng)矩陣A,再利用文獻(xiàn)——特征項(xiàng)矩陣計(jì)算出文獻(xiàn)相似度矩陣B。相似矩陣的元素Bi,j用公式(2)計(jì)算:
Bi,j=Ai·AjAiAj(2)
其中,Ai、Aj為矩陣A的行向量。
262耦合網(wǎng)絡(luò)、同被引網(wǎng)絡(luò)、相似度的相關(guān)性
研究耦合或同被引關(guān)系作為文獻(xiàn)研究主題相似性測(cè)度指標(biāo)的可靠性,需要分析耦合關(guān)系、同被引關(guān)系和文獻(xiàn)相似度是否具有相關(guān)性,相關(guān)性在統(tǒng)計(jì)意義上是否顯著,我們借助QAP關(guān)聯(lián)分析對(duì)這3種關(guān)系之間的關(guān)系進(jìn)行分析。利用Ucinet 60軟件,導(dǎo)入網(wǎng)絡(luò)數(shù)據(jù),分別計(jì)算同一樣本數(shù)據(jù)3個(gè)網(wǎng)絡(luò)之間的相關(guān)系數(shù),并進(jìn)行非參數(shù)檢驗(yàn),一般把P—Values值設(shè)定為005,計(jì)算結(jié)果如表4所示,表中括號(hào)內(nèi)的數(shù)值為對(duì)應(yīng)的P—Values值。
耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)的相關(guān)系數(shù)分別為0278、0264,顯著性水平為0000<005,說明在統(tǒng)計(jì)意義上兩個(gè)矩陣之間存在強(qiáng)關(guān)系,計(jì)算結(jié)果不是在矩陣置換過程中隨機(jī)造成的,耦合關(guān)系和同被引關(guān)系具有明顯的相關(guān)性,引用了相同參考文獻(xiàn)的學(xué)術(shù)論文,被后續(xù)發(fā)表的論文同時(shí)引用的概率也較大,這是科學(xué)研究的延續(xù)性和繼承性的反映。耦合網(wǎng)絡(luò)和相似度網(wǎng)絡(luò)的相關(guān)系數(shù)分別為0138、0143,顯著性水平為0000<005,同被引關(guān)系和文獻(xiàn)相似度之間也存在相關(guān)性,但是相關(guān)系數(shù)小于耦合關(guān)系,分別為008、012。說明存在耦合關(guān)系或同被引關(guān)系的文獻(xiàn)內(nèi)容是相關(guān)的,而且耦合關(guān)系意味著總體上文獻(xiàn)內(nèi)容的相似度更高。利用耦合關(guān)系更容易檢索到內(nèi)容相似的文獻(xiàn)。和普通論文相比較,高被引論文之間的同被引關(guān)系與文獻(xiàn)內(nèi)容的相關(guān)性強(qiáng),結(jié)合密度、平均度、平均距離和最大直徑等網(wǎng)絡(luò)特征,利用同被引關(guān)系進(jìn)行文獻(xiàn)檢索時(shí),對(duì)高被引論文的檢索效果優(yōu)于普通論文。對(duì)這些文獻(xiàn),基于同被引關(guān)系的引文索引不僅深度大,而且檢索到的文獻(xiàn)總體上主題內(nèi)容相關(guān)性得到增強(qiáng)。
263耦合/同被引強(qiáng)度與相似度的關(guān)系
QAP方法測(cè)量網(wǎng)絡(luò)的整體相關(guān)性,而耦合分析和同被引分析都假設(shè):耦合或同被引的強(qiáng)度越大,文獻(xiàn)的相似度越高。因此,引證網(wǎng)絡(luò)中強(qiáng)度的分布情況以及強(qiáng)度和文獻(xiàn)內(nèi)容相似度之間的關(guān)系值得關(guān)注。表5是4個(gè)網(wǎng)絡(luò)中強(qiáng)度的分布情況。從表5可以看出,小于等于3的強(qiáng)度所占的比例都超過了90%,大于5的強(qiáng)度在高被引論文的同被引網(wǎng)絡(luò)中出現(xiàn)頻次最高,共2 983次,所占比例為50%,耦合網(wǎng)絡(luò)中,分別為632次、681次,所占比例為15%,在同被引網(wǎng)絡(luò)Ⅰ中所占比例雖然為20%,但是頻次只有272次。由此可以看出,大多數(shù)耦合或同被引關(guān)系的強(qiáng)度都比較?。ㄐ∮诘扔?),樣本數(shù)據(jù)中只有少數(shù)文獻(xiàn)之間的耦合或同被引強(qiáng)度超過5,高被引論文同時(shí)被引用的概率遠(yuǎn)遠(yuǎn)大于普通文獻(xiàn)。
圖1是不同強(qiáng)度下,耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)中相似系數(shù)的核密度估計(jì)曲線。圖1(a)是耦合網(wǎng)絡(luò)Ⅰ中,耦合強(qiáng)度分別為1、2、3、4、5和大于5時(shí),核密度分布情況。圖1(b)是同被引網(wǎng)絡(luò)Ⅱ中,同被引強(qiáng)度1~5、6~10、11~15、16~20和強(qiáng)度大于20時(shí),核密度分布情況。在圖1(a)中,耦合強(qiáng)度增大,相似系數(shù)明顯表現(xiàn)出增大的趨勢(shì),尤其是在小于02的區(qū)域,核密度隨強(qiáng)度增大而減小,在大于02的整個(gè)區(qū)域,核密度都變大。文獻(xiàn)相似度隨耦合強(qiáng)度增長(zhǎng)而增長(zhǎng)的趨勢(shì)比較明顯。而在同被引網(wǎng)絡(luò)中,同被引次數(shù)增加,文獻(xiàn)相似度增長(zhǎng)的趨勢(shì)并不明顯,相似系數(shù)的核密度分布只在02附近增長(zhǎng)比較明顯,在大于03的區(qū)域沒有明顯的變化。說明文獻(xiàn)之間的相似度與同被引次數(shù)的相關(guān)性不如耦合次數(shù)強(qiáng),這與QAP分析的結(jié)果一致,而且文獻(xiàn)相似度對(duì)耦合強(qiáng)度的變化更靈敏,隨著強(qiáng)度增加,相似系數(shù)明顯增加。因此,就本文的樣本數(shù)據(jù)而言,如果僅僅根據(jù)強(qiáng)度對(duì)內(nèi)容相近的文獻(xiàn)進(jìn)行聚類,耦合分析比同被引分析效果更好。傳統(tǒng)同被引分析首先構(gòu)造原始同被引矩陣,然后把同被引矩陣轉(zhuǎn)化為相似矩陣,研究人員對(duì)于矩陣的轉(zhuǎn)化展開過討論,主張使用不同的方法將原始共被引矩陣轉(zhuǎn)化為相似系數(shù)矩陣[19]。從上面的分析結(jié)果來看,同被引次數(shù)多,兩文獻(xiàn)之間的引證關(guān)系更密切,但是其主題內(nèi)容相似度不一定相應(yīng)的增加。在同被引分析方法研究中,單純從方法的角度考慮原始同被引矩陣向相似系數(shù)矩陣轉(zhuǎn)化有待商榷。應(yīng)用同被引分析方法對(duì)文獻(xiàn)聚類揭示研究主題或?qū)W科結(jié)構(gòu)時(shí),文獻(xiàn)之間的同被引關(guān)系還需要深入挖掘,研究人員已經(jīng)注意到同被引的兩篇文獻(xiàn)在施引文獻(xiàn)中的位置關(guān)系與兩文獻(xiàn)內(nèi)容相似度之間的聯(lián)系,同被引距離越近,文獻(xiàn)內(nèi)容越相似。在同被引分析中考慮同被引位置的影響,能明顯提高聚類和檢索效果[20-21]。在同被引位置的基礎(chǔ)上,根據(jù)具體的引用內(nèi)容,提高同被引關(guān)系權(quán)重的計(jì)算,能夠更準(zhǔn)確地測(cè)度同被引文獻(xiàn)的相似度,使聚類內(nèi)的文獻(xiàn)關(guān)系更緊密[22]。因此,利于同被引關(guān)系進(jìn)行文獻(xiàn)聚類時(shí),共引強(qiáng)度與文獻(xiàn)相似度之間的關(guān)系值得深入研究。
3結(jié)論
對(duì)樣本數(shù)據(jù)的分析表明:不同時(shí)間窗口論文耦合網(wǎng)絡(luò)的密度、平均度和聚類系數(shù)差別較小,對(duì)多數(shù)文獻(xiàn)而言,耦合關(guān)系在文獻(xiàn)之間建立的聯(lián)系比同被引關(guān)系更緊密,而且相對(duì)穩(wěn)定,根據(jù)耦合關(guān)系進(jìn)行檢索,檢索的深度和廣度會(huì)更好;但是對(duì)于高被引文獻(xiàn),作為經(jīng)學(xué)術(shù)共同體的引證行為篩選出的特殊文獻(xiàn)集合,同被引關(guān)系比耦合關(guān)系把文獻(xiàn)更緊密地聯(lián)系在一起,網(wǎng)絡(luò)密度和平均度明顯較大,而且網(wǎng)絡(luò)的連通性更好,利于同被引關(guān)系更有利于確定和檢索領(lǐng)域內(nèi)的核心文獻(xiàn),而且利用同被引關(guān)系對(duì)高被引論文進(jìn)行檢索時(shí),檢索的深度和廣度明顯更好。耦合網(wǎng)絡(luò)和同被引網(wǎng)絡(luò)都具有同配性,度值大的節(jié)點(diǎn)傾向于連接度大的節(jié)點(diǎn),表現(xiàn)出現(xiàn)實(shí)社會(huì)網(wǎng)絡(luò)的特征,同被引網(wǎng)絡(luò)中擇優(yōu)連接的傾向性更強(qiáng)。
QAP關(guān)聯(lián)分析說明耦合網(wǎng)絡(luò)、同被引網(wǎng)絡(luò)和相似度網(wǎng)絡(luò)之間兩兩具有顯著相關(guān)性,說明引文來源相似的文獻(xiàn)同時(shí)被引用的概率較高,反映出科學(xué)研究的繼承性和延續(xù)性。耦合關(guān)系與相似系數(shù)的相關(guān)性更強(qiáng),文獻(xiàn)相似度對(duì)耦合強(qiáng)度的變化更靈敏,耦合強(qiáng)度增大,文獻(xiàn)主題相似度明顯增加。根據(jù)關(guān)系強(qiáng)度判斷文獻(xiàn)相似程度時(shí),耦合關(guān)系更可靠,利用耦合關(guān)系更利于實(shí)現(xiàn)研究主題相似文獻(xiàn)的聚類;利用同被引關(guān)系把內(nèi)容相近的文獻(xiàn)聚類,分析研究主題或?qū)W科結(jié)構(gòu)時(shí),有必要區(qū)分不同層次的共引關(guān)系。
本文的不足之處在于:本文僅僅是對(duì)科學(xué)計(jì)量學(xué)期刊《Scientometrics》刊載論文的實(shí)證研究,樣本數(shù)據(jù)較少,是從文獻(xiàn)網(wǎng)絡(luò)的視角對(duì)耦合關(guān)系和同被引關(guān)系比較的初步探討,結(jié)論是否具有普遍意義,有待更多實(shí)驗(yàn)數(shù)據(jù)的驗(yàn)證。計(jì)算文獻(xiàn)內(nèi)容相似度采用的是常見的空間矢量模型,以特征詞集合代表文獻(xiàn),建立在詞語獨(dú)立性假設(shè)之上,忽略了文本的結(jié)構(gòu)化信息和詞語之間的語義關(guān)聯(lián)。
參考文獻(xiàn)
[1]Kessler M.Bibliographic Coupling Between Scientific Papers[J].American Documentation,1996,14:10-25.
[2]Glnzel W,Czerwon H.A New Methodological Approach to Bibliographic Coupling and Its Application to the National,Regional and Institutional Level[J].Scientometrics,1996,37(2):195-221.
[3]Small H.Co-citation in the Scientific Literature:A New Measure of the Relationship Between Two Documents[J].Journal of the American Society for Information Science,1973,24:265-269.
[4]邱均平.論“引文耦合”與“同被引”[J].圖書館,1987,(3):13-19.
[5]Newman M.網(wǎng)絡(luò)科學(xué)引論[M].北京,電子工業(yè)出版社,2014:70-72.
[6]Boyack K,Klavans R.Co-citation Analysis,Bibliographic Coupling,and Direct Citation:Which Citation Approach Represents the Research Front Most Accurately?[J].Journal of the Association for Information Science & Technology,2010,61(12):2389-2404.
[7]Shibata N,Kajikawa Y,Takeda Y et al.Comparative Study on Methods of Detecting Research Fronts Using Different Types of Citation[J].Journal of the Association for Information Science & Technology,2009,60(3):571-580.
[8]Price D.Networks of Scientific Papers[J].Science,1965,149( 3683):510-515.
[9]Yan E,Ding Y.Discovering Author Impact:A PageRank Perspective[J].Information Processing & Management[J].2011,47(1):125-134.
[10]Yan E,Ding Y.Weighted Citation:An Indicator of an Articles Prestige[J].Journal of the American Society for Information Science & Technology,2010,61(8):1635-1643.
[11]Yan E,Ding Y.Scholarly Network Similarities:How Bibliographic Coupling Networks,Citation Networks,Cocitation Networks,Topical Networks,Coauthorship Networks,and Coword Networks Relate to Each Other[J].Journal of the American Society for Information Science and Technology,2012,63(7):1313-1326.
[12]Elkiss A,Shen S,F(xiàn)ader A,et al.Blind Men and Elephants:What Do Citation Summaries Tell Us About a Research Articles[J].Journal of the Association for Information Science & Technology,2008,59(1):51-62.
[13]汪小帆,李翔,陳關(guān)榮.復(fù)雜網(wǎng)絡(luò)理論及其應(yīng)用[M].北京,清華大學(xué)出版社,2006:3-27.
[14]劉軍.QAP:測(cè)量“關(guān)系”之間關(guān)系的一種方法[J].社會(huì),2007,(4):164-174.
[15]汪小帆,李翔,陳關(guān)榮.網(wǎng)絡(luò)科學(xué)導(dǎo)論[M].北京,高等教育出版社,2012:60-152.
[16]Newman M.網(wǎng)絡(luò)科學(xué)引論[M].北京:電子工業(yè)出版社,2014:70-75.
[17]Egghe L,Rousseau,R.情報(bào)計(jì)量學(xué)引論[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,1992:51-83.
[18]Newman M.Assortative Mixing in Networks[J].Physical Review Letters,2002,89(20):208701
[19]邱均平,馬瑞敏,李曄君.關(guān)于共被引分析方法的再認(rèn)識(shí)和再思考[J].情報(bào)學(xué)報(bào),2008,27(1):69-74.
[20]Boyack K,Small H,Klavans R.Improving the Accuracy of Co-citation Clustering Using Full Text[J].Journal of the Association Science & Technology,2013,64(9):1759-1767.
[21]Eto M.Evaluations of Context-based Co-citation Searching[J].Scientometrics,2013,94(2):651-673.
[22]劉盛博,張春博,丁堃 等.基于引用內(nèi)容與位置的共被引分析改進(jìn)研究[J].情報(bào)學(xué)報(bào),2013,32(12):1248-1256.
(責(zé)任編輯:郭沫含)