王 星 袁衛(wèi)
近年來,我國人文社會(huì)科學(xué)研究發(fā)展迅猛,學(xué)術(shù)成果激增,社會(huì)影響不斷擴(kuò)大。人文社會(huì)科學(xué)學(xué)術(shù)成果對(duì)社會(huì)的發(fā)展具有十分重要的意義。在學(xué)術(shù)成果的評(píng)價(jià)方面,劉大椿指出,目前對(duì)人文社會(huì)科學(xué)成果的復(fù)雜性研究不夠和對(duì)成果評(píng)價(jià)指標(biāo)的非單一性認(rèn)識(shí)不夠,已有評(píng)價(jià)方法存在很多局限,對(duì)本土化規(guī)律的揭示不夠。[1]跨學(xué)科、跨機(jī)構(gòu)、跨領(lǐng)域等學(xué)術(shù)合作催生出大量面向重大現(xiàn)實(shí)問題的新理論、新思想和新方法,這些新知識(shí)借助文獻(xiàn)網(wǎng)絡(luò)平臺(tái)迅速傳播,共同編織出一幅巨大的學(xué)術(shù)成果跨界影響網(wǎng)絡(luò)圖。所謂學(xué)術(shù)成果的跨界影響力,主要是指由學(xué)術(shù)成果所產(chǎn)生的某一領(lǐng)域?qū)ζ渌I(lǐng)域的影響程度,統(tǒng)稱為跨界影響力,主要反映學(xué)術(shù)影響廣度??缃缬绊懥Φ难芯磕繕?biāo)是揭示蘊(yùn)藏于文獻(xiàn)之中的跨界影響規(guī)律,并基于所發(fā)現(xiàn)的狀態(tài)規(guī)律,分析形成跨界輻射的差異。探索這一課題將為充實(shí)和發(fā)展人文社會(huì)科學(xué)成果評(píng)價(jià)體系提供新思路,為科研管理、學(xué)科建設(shè)和學(xué)術(shù)評(píng)審提供決策參考。[2]
選擇從文獻(xiàn)的角度探索學(xué)術(shù)合作規(guī)律和分析跨界影響的首要問題是從怎樣的數(shù)據(jù)出發(fā)研究跨界影響。學(xué)術(shù)影響力評(píng)價(jià)研究中的數(shù)據(jù)產(chǎn)生方法主要有兩類:第一類是直接測量法,即設(shè)計(jì)評(píng)價(jià)指標(biāo),收集同行專家意見,形成學(xué)術(shù)成果影響力評(píng)價(jià)得分,指標(biāo)體系設(shè)計(jì)的數(shù)據(jù)來自現(xiàn)成的數(shù)據(jù)。代表性的方法如同行評(píng)議法,它是期刊選文和學(xué)位論文審核中較為常見的一種反映學(xué)術(shù)成果影響力的方法。然而將同行評(píng)議法直接用于跨界影響評(píng)價(jià)存在著困難:一是跨界評(píng)審專家需要精通各個(gè)領(lǐng)域,跨行專家遴選很困難;二是得到的數(shù)據(jù)主觀性強(qiáng),成本高,可比性差。[3]第二類方法是客觀估計(jì)法,這種方法以關(guān)系估計(jì)為核心,測量數(shù)據(jù)并非現(xiàn)成的,而是在大量微觀的客觀數(shù)據(jù)基礎(chǔ)上估計(jì)產(chǎn)生的。代表性的研究如國際上著名的SCI、SSCI以及南京大學(xué)的CSSCI核心期刊評(píng)價(jià)方法。[4]這些方法都是以引文數(shù)據(jù)為基礎(chǔ),從文獻(xiàn)間的引證關(guān)系出發(fā)設(shè)計(jì)的期刊影響力評(píng)價(jià)方法。然而,引證關(guān)系在揭示中文跨界學(xué)術(shù)影響方面存在時(shí)間滯后、自引比例較大、跨學(xué)科指向不明和數(shù)據(jù)規(guī)模小等局限性。[5]來自科學(xué)網(wǎng)有關(guān)引文數(shù)據(jù)規(guī)模的報(bào)告顯示,根據(jù)引用率進(jìn)行的熱點(diǎn)論文統(tǒng)計(jì)中,2010年美國熱點(diǎn)論文數(shù)最多,為1 070篇;截至2011年11月,中國熱點(diǎn)論文數(shù)僅為196篇,占國際學(xué)術(shù)熱點(diǎn)論文數(shù)的9.9%。[6]學(xué)術(shù)熱點(diǎn)常常是理論與現(xiàn)實(shí)的結(jié)合點(diǎn),是領(lǐng)域交叉的重要成果,熱點(diǎn)不足暴露出引文數(shù)據(jù)作為反映時(shí)代客觀問題方面的設(shè)計(jì)不足,僅依賴引證關(guān)系將低估廣大哲學(xué)社會(huì)科學(xué)工作者的跨界實(shí)踐研究。目前關(guān)于學(xué)術(shù)專業(yè)深度的研究與評(píng)價(jià)較多,但對(duì)學(xué)術(shù)交叉廣度的跨界影響研究較少,2010年基于引文的學(xué)術(shù)影響力因子中擴(kuò)充了文獻(xiàn)對(duì)其他學(xué)科影響廣度和時(shí)間跨度的評(píng)價(jià)內(nèi)容,這一變化反映出學(xué)術(shù)界對(duì)跨學(xué)科和跨時(shí)間評(píng)價(jià)的廣泛需求。[7]
綜上所述,直接測量或僅使用引證關(guān)系而試圖揭示人文社會(huì)科學(xué)學(xué)術(shù)合作規(guī)律,很難把握人文社會(huì)科學(xué)學(xué)術(shù)思潮的相互作用、相互影響等客觀規(guī)律,也不足以反映不同學(xué)科、不同群體的學(xué)術(shù)交流活動(dòng)的差異性。本文從更易實(shí)現(xiàn)且可建立更為客觀、更具實(shí)時(shí)性和預(yù)見性的讀者文獻(xiàn)搜索數(shù)據(jù)入手,探討跨界關(guān)系矩陣的估計(jì)與算法建模問題。
我們從現(xiàn)代科學(xué)交流模式的變化和科學(xué)家文獻(xiàn)交流特點(diǎn)入手,來探討文獻(xiàn)的跨界學(xué)術(shù)影響力的數(shù)據(jù)構(gòu)成和定義。
美國社會(huì)學(xué)家羅伯特·默頓1985年在《科學(xué)的規(guī)范結(jié)構(gòu)》中提出了學(xué)術(shù)成果作用的定義,指出其價(jià)值是在科學(xué)家之間起著根本的交流作用。這個(gè)定義強(qiáng)調(diào)了交流能力對(duì)衡量學(xué)術(shù)成果價(jià)值的基礎(chǔ)性作用。文獻(xiàn)的跨界影響力研究的本質(zhì)是要在知識(shí)傳播的微觀結(jié)構(gòu)下,發(fā)現(xiàn)科學(xué)家通過所選文獻(xiàn)而產(chǎn)生的不同領(lǐng)域交流方面的差異,進(jìn)而揭示知識(shí)傳播的微觀結(jié)構(gòu)在連接不同領(lǐng)域之間彼此影響中的積極作用。
從交流關(guān)系看,基于引文關(guān)系的學(xué)術(shù)影響力因子是從知識(shí)創(chuàng)作和信息加工交流關(guān)系出發(fā)所建立的學(xué)術(shù)成果評(píng)價(jià)理論的代表,它反映了較大時(shí)間跨度上作者與作者之間的交流關(guān)系,表達(dá)了知識(shí)的繼承性與持續(xù)性交流信息,反映了知識(shí)縱向交流特征,是利用知識(shí)傳承關(guān)系衡量知識(shí)創(chuàng)造力的客觀工具。然而,文獻(xiàn)的橫向交流作為科學(xué)研究成果的影響作用不容忽視。橫向交流可以反映協(xié)作性和競爭性。建立在引文基礎(chǔ)上的學(xué)術(shù)影響力因子在反映橫向交流能力方面存在兩個(gè)基本的不足:一是引文網(wǎng)主要反映作者與作者通過最終成果所建立起來的交流,很難體現(xiàn)同時(shí)期作者與讀者之間的交流關(guān)系;二是引文關(guān)系更注重反映文獻(xiàn)對(duì)新成果的結(jié)果影響,但對(duì)文獻(xiàn)的社會(huì)化影響效果反映不充分。在橫向跨學(xué)科影響上,塔佳(Talja)、瓦卡瑞(Vakkari)、弗萊(Fry)和沃特斯(Wouters)指出跨學(xué)科性與一個(gè)領(lǐng)域的科學(xué)家使用其他學(xué)科的文獻(xiàn)有關(guān),科學(xué)家對(duì)文獻(xiàn)的選擇行為可用于度量學(xué)科之間聯(lián)系的程度。[8]從文獻(xiàn)的影響效果來看,跨界影響強(qiáng)調(diào)作品的影響應(yīng)貫穿于對(duì)其他學(xué)者的研究過程中,這個(gè)過程包含由學(xué)者選擇作品所建立的文獻(xiàn)對(duì)研究者的提供、傳遞、獲取和利用行為數(shù)據(jù)?;谝陨戏治?,使用學(xué)者下載文獻(xiàn)行為數(shù)據(jù)作為研究跨界影響力的基礎(chǔ)數(shù)據(jù)是合適的。
事實(shí)上,20世紀(jì)80年代之后,網(wǎng)絡(luò)和數(shù)字文獻(xiàn)革命對(duì)傳統(tǒng)文獻(xiàn)交流模式產(chǎn)生巨大沖擊。陳雅和鄭建明指出,專業(yè)知識(shí)的演進(jìn)規(guī)律和更新模式已不再是現(xiàn)代文獻(xiàn)交流的主要模式,知識(shí)如何通過載體流通所得到的交流規(guī)律和模式越來越受到重視,特別是網(wǎng)絡(luò)文獻(xiàn)交流模式。[9]文獻(xiàn)交流模式內(nèi)容的變化突出了文獻(xiàn)在溝通學(xué)術(shù)交流中的提供、傳遞、獲取和利用價(jià)值,也使其成為測量學(xué)術(shù)跨界影響力的重要渠道。通過知識(shí)庫的網(wǎng)絡(luò)交流數(shù)據(jù),不僅可以體現(xiàn)作者之間的交流,而且可以反映作者與讀者之間的交流。網(wǎng)絡(luò)文獻(xiàn)交流對(duì)于學(xué)術(shù)的跨界影響所起的作用是通過改善接收者的知識(shí)結(jié)構(gòu),形成接收者新的思考或?qū)κ挛锏膽B(tài)度和行為,從而影響到學(xué)者所屬學(xué)科對(duì)學(xué)術(shù)方向的把握、科研機(jī)構(gòu)對(duì)學(xué)術(shù)合作伙伴的選擇。由于在交流過程中接收者充當(dāng)了對(duì)知識(shí)認(rèn)可信息的發(fā)送者,通過文獻(xiàn)的交流形成了人與人之間雙向的知識(shí)交換,由此帶來不同機(jī)構(gòu)或?qū)W科之間的相互滲透。這種建立在學(xué)者與學(xué)者之間通過文獻(xiàn)所發(fā)生的學(xué)術(shù)交流所引起的宏觀層面不同學(xué)界的互相影響原理如圖1所示:
在圖1中,學(xué)者1通過閱讀學(xué)科文獻(xiàn)B實(shí)現(xiàn)了跨學(xué)科學(xué)術(shù)需求的一致性,學(xué)者1與學(xué)者2通過閱讀文獻(xiàn)B實(shí)現(xiàn)了學(xué)科和機(jī)構(gòu)學(xué)術(shù)需求的一致性,一旦這種一致性在統(tǒng)計(jì)規(guī)模上實(shí)現(xiàn)了顯著性,這一微觀數(shù)據(jù)可用于度量跨界影響關(guān)系。
從跨學(xué)科交流關(guān)系的估計(jì)樣本選擇來看,把握理性讀者的可長期跟蹤交流關(guān)系是產(chǎn)生可靠估計(jì)的關(guān)鍵。理性讀者有兩項(xiàng)基本假設(shè):第一,可表示性:理性讀者研究興趣由其文獻(xiàn)選擇來表示,即理性讀者的選文模式能夠體現(xiàn)其學(xué)術(shù)旨趣;第二,抗干擾性:理性讀者應(yīng)滿足時(shí)間稀缺性質(zhì),即理性讀者不會(huì)浪費(fèi)時(shí)間大量下載與自己研究不相關(guān)的文獻(xiàn),因而其選擇的文獻(xiàn)中不屬于其學(xué)術(shù)興趣的雜質(zhì)非常少。一些利用大型的公開網(wǎng)如Google、Baidu等搜索引擎的讀者,雖然瀏覽頁面數(shù)量很大,但讀者身份較為龐雜,瀏覽信息過于繁雜,精準(zhǔn)度不高,很難滿足這兩點(diǎn)基本要求,在反映讀者學(xué)術(shù)旨趣方面具有較大的隨意性,不易形成穩(wěn)定的結(jié)論。直接使用期刊網(wǎng)的用戶則不能保證人文社會(huì)科學(xué)讀者的代表性。為獲得充足的有代表性的樣本,我們認(rèn)為應(yīng)以人文社會(huì)科學(xué)讀者群為對(duì)象,將其對(duì)中文知識(shí)網(wǎng)的中文信息搜索作為基礎(chǔ)數(shù)據(jù),這樣,既反映了群體的學(xué)術(shù)旨趣,又可獲得長期跟蹤和驗(yàn)證結(jié)果的實(shí)驗(yàn)環(huán)境。
綜上所述,以科學(xué)家學(xué)術(shù)主旨為引導(dǎo)獲取文獻(xiàn)的交流數(shù)據(jù)提供了形成知識(shí)橫向傳遞和利用的微觀結(jié)構(gòu),以網(wǎng)絡(luò)文獻(xiàn)搜索行為數(shù)據(jù)為基礎(chǔ)建立跨界影響是可行的。
學(xué)術(shù)成果跨界影響力研究的關(guān)鍵是掌握跨界合作規(guī)律和一個(gè)學(xué)科對(duì)其他學(xué)科的輻射差異。從科學(xué)學(xué)的歷史和發(fā)展現(xiàn)狀來看,科研機(jī)構(gòu)和學(xué)科是學(xué)術(shù)發(fā)展的基本要素,科研機(jī)構(gòu)是學(xué)術(shù)活動(dòng)的基本單位,學(xué)科規(guī)定了學(xué)術(shù)共同體活動(dòng)的范疇與邊界,學(xué)術(shù)成果則構(gòu)成了學(xué)術(shù)共同體的實(shí)踐和理論,學(xué)術(shù)成果的跨機(jī)構(gòu)和跨學(xué)科規(guī)律是跨界影響力的主要內(nèi)容。[10]科學(xué)家是科學(xué)交流的主體并最終決定跨界影響,而且也是學(xué)科評(píng)價(jià)服務(wù)的最終用戶。于是,建立在以學(xué)者研究行為為基礎(chǔ)的學(xué)術(shù)共同體和學(xué)術(shù)機(jī)構(gòu)群體科學(xué)交流活動(dòng)不僅為跨界研究提供基礎(chǔ),而且基于文獻(xiàn)下載數(shù)據(jù)所獲得的跨界交流模式將有利于為學(xué)者研究提供更好的服務(wù)。從文獻(xiàn)來看,學(xué)者的研究身份主要是兩個(gè):一是作為成果的創(chuàng)作者,二是作為預(yù)備新成果的讀者。傳統(tǒng)的引文分析主要強(qiáng)調(diào)作者身份,而忽略讀者身份。事實(shí)上,讀者是創(chuàng)作中的主要身份,貫穿研究全程,它能夠記錄更廣泛的學(xué)術(shù)交流線索,通過學(xué)者對(duì)文獻(xiàn)的選擇行為可以幫助機(jī)構(gòu)選擇期刊,引導(dǎo)讀者閱讀文獻(xiàn),指導(dǎo)作者針對(duì)自己的研究成果進(jìn)行投稿。
跨機(jī)構(gòu)影響研究主要考慮跨機(jī)構(gòu)合作行為,目標(biāo)是對(duì)機(jī)構(gòu)合作建模和對(duì)合作結(jié)構(gòu)的估計(jì)??缈蒲袡C(jī)構(gòu)研究合作網(wǎng)絡(luò)可由科研機(jī)構(gòu)學(xué)者的合作網(wǎng)絡(luò)數(shù)據(jù)生成,跨學(xué)科關(guān)系網(wǎng)絡(luò)由科研機(jī)構(gòu)學(xué)者的合作網(wǎng)絡(luò)估計(jì)生成。一般來說,跨機(jī)構(gòu)發(fā)表的成果越多,越能說明這種跨界合作在學(xué)術(shù)領(lǐng)域中產(chǎn)生的影響力。對(duì)跨學(xué)科的研究主要考慮兩種對(duì)話行為:使用文獻(xiàn)和創(chuàng)作文獻(xiàn)。一個(gè)領(lǐng)域的研究人員使用其他學(xué)科文獻(xiàn)的程度可以用來衡量一個(gè)學(xué)科的跨學(xué)科性,跨學(xué)科創(chuàng)作關(guān)系定義為不同學(xué)科作者之間的合作關(guān)系;跨學(xué)科使用文獻(xiàn)影響則主要針對(duì)由讀者和作者針對(duì)共同的文本所產(chǎn)生的對(duì)話與共鳴所引起的。其中作品的學(xué)科歸屬比較容易定義,但是讀者的學(xué)科歸屬則受學(xué)術(shù)旨趣影響常常發(fā)生變化,需要基于讀者的學(xué)術(shù)旨趣分布定位獲得跨學(xué)科的影響強(qiáng)度。我們將著重給出基于共讀文獻(xiàn)的跨學(xué)科影響,即一學(xué)科的文獻(xiàn)被另一個(gè)學(xué)科的學(xué)者閱讀,以及文獻(xiàn)被兩個(gè)不同學(xué)科學(xué)者閱讀所產(chǎn)生的學(xué)術(shù)交流影響。
跨界影響力關(guān)系估計(jì)模型主要解決兩個(gè)問題:一是關(guān)系的識(shí)別,二是關(guān)系結(jié)構(gòu)的分布。目前的算法主要分為兩大類:一類是基于矩陣分解的模塊發(fā)現(xiàn)算法,典型的方法如模塊社群挖掘法(Block Models Community)[11]、連通社群挖掘法(Link Community)[12],這些算法的前提是關(guān)系定義清楚,算法主要解決關(guān)系的模塊分布,其優(yōu)點(diǎn)表現(xiàn)為可與并行計(jì)算結(jié)合,運(yùn)算快,不必事先確定群個(gè)數(shù),有較好的理解性,能處理大型網(wǎng)絡(luò)數(shù)據(jù)等,適用于互連結(jié)構(gòu)的發(fā)現(xiàn);另一類是將關(guān)系的識(shí)別與結(jié)構(gòu)的模塊分布結(jié)合起來的方法,如社群提取算法(Community Extraction)[13],適用于稀疏結(jié)構(gòu)的發(fā)現(xiàn)。在跨界問題研究中,跨學(xué)科的問題數(shù)量中等,可以采用二步圖和第一類方法結(jié)合的方法;跨機(jī)構(gòu)合作關(guān)系數(shù)量大,需要同時(shí)解決關(guān)系發(fā)現(xiàn)與結(jié)構(gòu)發(fā)現(xiàn)算法,比較適合用第二類方法來解決。下面是幾類模型和它們?cè)诳缃缪芯恐械膽?yīng)用。
社群挖掘算法是近年來發(fā)展較快的一種對(duì)關(guān)系分塊的算法,多用于社群發(fā)現(xiàn)。其中較為典型的方法是2004年紐曼(Newman)提出的模塊Q方法,Q方法的基本原理是使用模塊劃分評(píng)分函數(shù)實(shí)現(xiàn)最大化網(wǎng)絡(luò)模塊劃分。其中Q的表達(dá)式如下:
式中Wvw表示實(shí)際圖頂點(diǎn)v和w之間的邊數(shù)(在加權(quán)圖,為邊的權(quán)重),Pvw表示隨機(jī)圖模型中頂點(diǎn)v和w之間期望的邊數(shù);m是總邊數(shù)(在加權(quán)圖中,為權(quán)重之和),常數(shù)項(xiàng)1/2m是歸一化常數(shù);如果社群Cv=Cw(即頂點(diǎn)v和w屬于同一個(gè)社群),示性函數(shù)δ(Cv,Cw)=1,否則為0。Q定義了實(shí)際圖社群邊連通密度相對(duì)于隨機(jī)圖的差異,社群內(nèi)邊密度與隨機(jī)圖期望邊密度相比越大,表明社群結(jié)構(gòu)越明顯。我們將使用Q方法估計(jì)跨機(jī)構(gòu)合作關(guān)系矩陣和跨學(xué)科影響矩陣。
社群挖掘算法比較適用于模塊特征突出且不同模塊之間分割的社群挖掘問題。它的缺點(diǎn)是當(dāng)模塊之間的質(zhì)量差別比較懸殊時(shí),點(diǎn)數(shù)較小的模塊容易被與之相連的點(diǎn)數(shù)和度較大的模塊吞噬,不易在算法中被發(fā)現(xiàn)。[14]社群挖掘算法①社群挖掘算法需要考慮帶邊權(quán)重的WFN算法,我們將另文說明這些新用法??捎糜诳鐚W(xué)科和跨機(jī)構(gòu)關(guān)系模塊的提取。在跨學(xué)科研究中,學(xué)科合作具有規(guī)模不等和合作不平衡等特點(diǎn),直接使用Q算法,將掩蓋小學(xué)科的特色合作,在使用該算法時(shí)將設(shè)計(jì)基于學(xué)科規(guī)模和關(guān)系密切等因素的帶權(quán)重FN算法解決。
連通社群挖掘算法是近幾年比較流行的社群挖掘算法,與模塊算法側(cè)重于對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的劃分不同,它的主要特點(diǎn)是對(duì)邊聚類,由此可以發(fā)現(xiàn)連接多個(gè)群之間的節(jié)點(diǎn)。如果將其用于跨學(xué)科研究,則可以發(fā)現(xiàn)不同學(xué)科群之間起著橋梁作用的學(xué)科。連通社群挖掘算法由兩部分構(gòu)成:
第一步:計(jì)算邊的相似矩陣,然后利用分層聚類算法根據(jù)邊的相似矩陣對(duì)邊聚類。兩條邊的相似系數(shù)一般使用Jaccard系數(shù)如下:
其中eik、ejk為共享同一個(gè)節(jié)點(diǎn)k的兩個(gè)條,n+(i)表示節(jié)點(diǎn)i的所有鄰居(全文中有關(guān)節(jié)點(diǎn)的鄰居是指與該節(jié)點(diǎn)右邊相連的其他節(jié)點(diǎn))。S(eik,ejk)衡量的是節(jié)點(diǎn)i與節(jié)點(diǎn)j共同的鄰接數(shù)占它們所有不同鄰居總數(shù)的比例,比例越大,表明eik和ejk相似度越高。
第二步:連通社群挖掘算法采取用邊分離密度確定社群個(gè)數(shù)并對(duì)網(wǎng)絡(luò)聚類。分離密度D的具體定義如下:
其中,mc表示第c個(gè)社群中邊的個(gè)數(shù),nc表示第c個(gè)社群中節(jié)點(diǎn)的個(gè)數(shù),表示第c個(gè)社群的密度,Dc是圖的邊密度M—估計(jì)量。分離密度D越大,表示聚類的效果越好。該算法的優(yōu)點(diǎn)是可以發(fā)現(xiàn)連通社群,并產(chǎn)生跨社群的連接節(jié)點(diǎn),缺點(diǎn)是具有對(duì)稀疏結(jié)構(gòu)或發(fā)散結(jié)構(gòu)的排斥性。[15]
社群提取算法是彭捷和朱冀于2010年提出的算法,該算法試圖挖掘網(wǎng)絡(luò)中的主要結(jié)構(gòu)特征,其原理是根據(jù)社群的顯著性依次提取社群出來,而將剩余的節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)系當(dāng)做“背景”看待,適用于稀疏圖結(jié)構(gòu)提取。假設(shè)一個(gè)無向網(wǎng)絡(luò)圖G=(V,E),節(jié)點(diǎn)個(gè)數(shù)為n,那么這個(gè)網(wǎng)絡(luò)圖可以用n×n的鄰接矩陣A=[Aij]表示。如果Aij大于0,則表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間有邊存在;若Aij=0,則表示節(jié)點(diǎn)i和節(jié)點(diǎn)j之間沒有邊。由于是無向圖,因此矩陣A是一個(gè)對(duì)稱矩陣。記所要提取的社群為S,剩下的節(jié)點(diǎn)集合記為SC。社群選擇標(biāo)準(zhǔn)是使W值最大,W定義如下:
社群提取算法的原理是一個(gè)社群應(yīng)該是內(nèi)部節(jié)點(diǎn)之間的連接較稠密,與外部節(jié)點(diǎn)的連接稀疏,具體算法步驟如表1所示:
表1 社群提取算法主要計(jì)算步驟
該算法的優(yōu)點(diǎn)是可以產(chǎn)生按模塊顯著性排序的社群結(jié)構(gòu),缺點(diǎn)是模塊移除會(huì)影響到最初的連接結(jié)構(gòu),可能產(chǎn)生不穩(wěn)定的結(jié)構(gòu)。
不同科研機(jī)構(gòu)的學(xué)者因?yàn)橥谎芯恐黝}合作完成學(xué)術(shù)成果而產(chǎn)生機(jī)構(gòu)之間的互相滲透,將這樣的關(guān)系從合作文獻(xiàn)中提取出來,就形成了科研機(jī)構(gòu)合作網(wǎng)絡(luò)。
實(shí)證研究選擇了1 482所大學(xué)學(xué)術(shù)科研機(jī)構(gòu)作為圖的節(jié)點(diǎn),從文獻(xiàn)中產(chǎn)生了8 018條機(jī)構(gòu)合作關(guān)系,顯示機(jī)構(gòu)合作網(wǎng)絡(luò)圖中節(jié)點(diǎn)度數(shù)的分布近似冪律分布,這表明網(wǎng)絡(luò)存在“小世界”現(xiàn)象,是比較典型的一類稀疏網(wǎng)絡(luò)。
我們使用WFN-Q算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行了30次實(shí)驗(yàn),結(jié)果比較穩(wěn)定,共產(chǎn)生9大子群和103個(gè)機(jī)構(gòu)合作小社群,節(jié)點(diǎn)數(shù)為2或1的小群做忽略處理(見圖2)。
圖2 學(xué)術(shù)機(jī)構(gòu)社群結(jié)構(gòu)圖
仔細(xì)觀察圖2,9大子群中,北京地區(qū)高校處于機(jī)構(gòu)合作網(wǎng)絡(luò)的中心地位;每一個(gè)子群具有明顯的星型結(jié)構(gòu),反映了20世紀(jì)90年代后國家高等教育發(fā)展的非均衡性和區(qū)域分層帶動(dòng)高等教育建設(shè)格局;每一子群中處于中心地位的科研機(jī)構(gòu)的科研水平排在國內(nèi)前列。陜西省和東北三省屬于同一個(gè)群,但它們之間的地理距離相差很大。進(jìn)一步分析數(shù)據(jù)表明,陜西省與東北三省的聯(lián)系主要是以中國科學(xué)院為橋梁。作為中國主要自然科學(xué)研究機(jī)構(gòu)的中國科學(xué)院主要與理工科類院校有很強(qiáng)的合作關(guān)系。中國社會(huì)科學(xué)院、中國科學(xué)院、中國人民大學(xué)、北京大學(xué)、吉林大學(xué)、清華大學(xué)、南京大學(xué)、復(fù)旦大學(xué)等科研機(jī)構(gòu)在連接學(xué)術(shù)機(jī)構(gòu)的合作方面起著紐帶作用。
進(jìn)一步分析表明,每一子群具有明顯的地理區(qū)域特征,結(jié)果如圖3所示:具有相同紋理的?。ㄖ陛犑?、自治區(qū))屬于同一個(gè)社群,灰度由深至淺表示群組的節(jié)點(diǎn)數(shù)量由大到小,可以看出分為9個(gè)不同的群,這正好對(duì)應(yīng)著WFN算法得到的9個(gè)節(jié)點(diǎn)數(shù)最大的社群。星型結(jié)構(gòu)中的強(qiáng)校紐帶作用比較突出,呈現(xiàn)出明顯的差異序社會(huì)合作模式。
圖3 WFN算法得出的社群地理分布特征
學(xué)科機(jī)構(gòu)合作網(wǎng)絡(luò)提取的目標(biāo)是獲取一個(gè)學(xué)科與另一個(gè)學(xué)科的合作規(guī)律,這些規(guī)律包括社群的發(fā)現(xiàn)和連接社群之間的輻射帶的發(fā)現(xiàn),往往是那些集中了某些競爭力強(qiáng)的大學(xué)首先取得明顯的發(fā)展,既而形成與多個(gè)社群的輻射、帶動(dòng)整個(gè)學(xué)科的發(fā)展。這種資源趨優(yōu)集聚和輻射的現(xiàn)象,在高等教育領(lǐng)域比較普遍。既有比較宏觀的、大規(guī)模的集聚,又有帶狀的社群的溝通。
下面以歷史學(xué)科為例說明機(jī)構(gòu)合作網(wǎng)絡(luò)的功能。
其中相同線型的邊表示屬于相同的社群。餅圖的節(jié)點(diǎn)表示它們屬于不同的社群。節(jié)點(diǎn)越大表示相應(yīng)節(jié)點(diǎn)的中間性值越大。
圖4 歷史學(xué)科機(jī)構(gòu)合作網(wǎng)絡(luò)的社群挖掘
我們使用2011年上半年從中國知網(wǎng)對(duì)某大學(xué)博士生和教師相關(guān)文獻(xiàn)的搜索數(shù)據(jù),有效文獻(xiàn)53 268篇,學(xué)者300位分屬22個(gè)學(xué)科,文獻(xiàn)來自37個(gè)學(xué)科。對(duì)數(shù)據(jù)做二分圖轉(zhuǎn)化和過濾程序后,使用社區(qū)提取方法得到共讀文獻(xiàn)的跨學(xué)科影響,文獻(xiàn)學(xué)科網(wǎng)絡(luò)聚類將跨學(xué)科影響關(guān)系分為4類;人文社會(huì)科學(xué)類(人文:灰色圓形類和社會(huì)科學(xué):白色圓形類),理工類多為白色方形和灰色方形。見圖5。
可以看出,人文與社會(huì)科學(xué)兩類聯(lián)系很緊密;計(jì)算機(jī)科學(xué)與技術(shù)在理工科類和人文社會(huì)科學(xué)類中起到關(guān)鍵的聯(lián)系作用。
圖5 文獻(xiàn)跨學(xué)科影響社群結(jié)構(gòu)圖
其中最大群是社會(huì)科學(xué)及其相關(guān)學(xué)科社群,由政治學(xué)、經(jīng)濟(jì)學(xué)、法學(xué)、統(tǒng)計(jì)學(xué)、藥學(xué)、社會(huì)學(xué)、公共衛(wèi)生與預(yù)防醫(yī)學(xué)、環(huán)境科學(xué)與工程、臨床醫(yī)學(xué)、體育學(xué)、大氣科學(xué)、管理學(xué)、農(nóng)學(xué)、測繪科學(xué)與技術(shù)、水利工程、兵器科學(xué)與技術(shù)、核科學(xué)與技術(shù)、口腔醫(yī)學(xué)、石油與天然氣工程、動(dòng)力工程與工程熱物理學(xué)科20個(gè)機(jī)構(gòu)構(gòu)成。經(jīng)濟(jì)學(xué)在這個(gè)群中連通性最強(qiáng),其中跨學(xué)科最強(qiáng)的關(guān)系是兵法學(xué)與經(jīng)濟(jì)學(xué)、社會(huì)學(xué)與經(jīng)濟(jì)學(xué)、法學(xué)與政治學(xué)、管理學(xué)與經(jīng)濟(jì)學(xué)、公共衛(wèi)生與預(yù)防醫(yī)學(xué)-經(jīng)濟(jì)學(xué)、政治學(xué)與法學(xué)。
第二大群是人文學(xué)科及其相關(guān)學(xué)科社群,包括哲學(xué)、新聞傳播學(xué)、戲劇與影視學(xué)、中國語言文學(xué)、歷史學(xué)、外國語言文學(xué)、基礎(chǔ)醫(yī)學(xué)、其他醫(yī)學(xué)、美術(shù)學(xué)、設(shè)計(jì)學(xué)、民族學(xué)、中醫(yī)學(xué)、地理學(xué)、海洋科學(xué)、礦業(yè)工程、音樂與舞蹈學(xué)、藝術(shù)學(xué)理論、地質(zhì)學(xué)、紡織科學(xué)與工程。其中中心學(xué)科是中國語言文學(xué),跨學(xué)科最強(qiáng)的關(guān)系是哲學(xué)—中國語言文學(xué)、中國語言文學(xué)—新聞傳播學(xué)、新聞傳播學(xué)—哲學(xué)、歷史學(xué)—中國語言文學(xué)、歷史學(xué)—傳播學(xué)、外國語言文學(xué)—中國語言文學(xué)。
第三大群是工程類學(xué)科組成的群,包括計(jì)算機(jī)科學(xué)與技術(shù)、信息與通信工程、食品科學(xué)與工程、系統(tǒng)科學(xué)、化學(xué)、機(jī)械工程、軍事學(xué)、數(shù)學(xué)、生物學(xué)、化學(xué)工程與技術(shù)、其他工學(xué)、特種醫(yī)學(xué)、物理學(xué)、冶金工程。其中核心學(xué)科是計(jì)算機(jī)科學(xué)與技術(shù),跨學(xué)科最強(qiáng)的關(guān)系是計(jì)算機(jī)科學(xué)與數(shù)學(xué)、信息與通信工程—計(jì)算機(jī)科學(xué)、生物學(xué)—計(jì)算機(jī)科學(xué)。
第四大群是城鄉(xiāng)規(guī)劃學(xué)、建筑學(xué)、地球物理學(xué)學(xué)科組成的社群。
從跨學(xué)科文獻(xiàn)閱讀來看,自然科學(xué)向人文社會(huì)科學(xué)的滲透強(qiáng)于人文社會(huì)科學(xué)向自然科學(xué)的滲透,人文社會(huì)科學(xué)各門類之間的交融面上發(fā)揮連接橋梁的學(xué)科是經(jīng)濟(jì)學(xué)、政治學(xué)、法學(xué)、哲學(xué)、新聞學(xué)、語言文學(xué)等。
通過研究文獻(xiàn)中的跨界評(píng)價(jià)數(shù)據(jù)和模型,從科學(xué)家網(wǎng)絡(luò)文獻(xiàn)交流數(shù)據(jù)出發(fā),探討跨界影響力關(guān)系估計(jì)問題。我們將跨界關(guān)系映射到圖中的節(jié)點(diǎn)和節(jié)點(diǎn)之間的關(guān)系估計(jì)問題,綜合利用模塊社群挖掘算法、連通社群挖掘方法和社群提取方法,揭示了人文社會(huì)科學(xué)跨機(jī)構(gòu)合作和跨學(xué)科合作的基本模式。實(shí)驗(yàn)從多方面驗(yàn)證了方法的有效性,并給出了應(yīng)用于人文社會(huì)科學(xué)領(lǐng)域的實(shí)例和分析結(jié)果。主要結(jié)果包括跨機(jī)構(gòu)影響中的星型結(jié)構(gòu)和地域特點(diǎn),星型結(jié)構(gòu)中的強(qiáng)校紐帶作用比較突出,呈現(xiàn)出明顯的差序社會(huì)合作模式??鐚W(xué)科影響研究中,互連結(jié)構(gòu)揭示了經(jīng)濟(jì)學(xué)、社會(huì)學(xué)等學(xué)科對(duì)于溝通人文與社會(huì)科學(xué),計(jì)算機(jī)科學(xué)對(duì)于溝通人文與理工科之間的橋梁關(guān)系。
基于上述討論,我們認(rèn)為文獻(xiàn)的跨界評(píng)價(jià)方面還有如下有待研究的問題,希望對(duì)本領(lǐng)域的其他研究者有所啟發(fā):
第一,深入研究海量文獻(xiàn)的跨學(xué)科識(shí)別技術(shù)。當(dāng)前許多學(xué)術(shù)成果都是跨學(xué)科研究的結(jié)果,其中不僅有跨學(xué)科機(jī)構(gòu),也有跨學(xué)科的人員合作。我們僅在一級(jí)學(xué)科上進(jìn)行了跨學(xué)科影響關(guān)系的探討,如果能增強(qiáng)學(xué)術(shù)成果跨學(xué)科識(shí)別技術(shù)的識(shí)別,特別是基于文本和內(nèi)容的學(xué)科識(shí)別技術(shù),將有利于在跨界影響的基礎(chǔ)上開展有效率的海量復(fù)雜文獻(xiàn)的讀者推薦應(yīng)用。目前已有研究主要面向主題識(shí)別的有效性提出,著眼于如何有效判定兩篇文章是否描述同一主題,但是面向?qū)W科識(shí)別效率的工作較少,因此不能落實(shí)到合理定義兩篇文獻(xiàn)的學(xué)科相似性。
第二,算法挖掘模式的深入研究。本文所提及的幾個(gè)算法雖然都被證實(shí)能夠發(fā)現(xiàn)重要的關(guān)系模式,但也遺漏了一些模式,比如連通社群挖掘算法易于發(fā)現(xiàn)互連結(jié)構(gòu),散射結(jié)構(gòu)模式容易被忽略。改進(jìn)算法以適應(yīng)更廣泛的需求是一個(gè)待研究的問題。
第三,加強(qiáng)跨學(xué)科熱點(diǎn)文獻(xiàn)提取模型的研究,當(dāng)前對(duì)文獻(xiàn)的提取假設(shè)數(shù)據(jù)是不發(fā)生變化的靜態(tài)數(shù)據(jù),因而可以在其上建立宏觀的跨界關(guān)系等。但是對(duì)于熱點(diǎn)問題或主題提取等問題,則需要頻繁更新的復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)方法。
第四,加強(qiáng)學(xué)術(shù)影響力因子與跨界影響力數(shù)據(jù)的對(duì)比分析,對(duì)兩種不同的數(shù)據(jù)做深入的對(duì)比研究。由于受數(shù)據(jù)收集時(shí)間所限,結(jié)論的穩(wěn)定性還需要更長時(shí)間的比較與深入研究。
在我國,基于海量文獻(xiàn)數(shù)據(jù)的跨界影響力研究剛剛起步,本文主要研究基于客觀數(shù)據(jù)的跨界影響力方法。但無論是來自于客觀的數(shù)據(jù)還是評(píng)分?jǐn)?shù)據(jù),都有各自的優(yōu)點(diǎn),只有將兩者有效地結(jié)合起來,才能建立起更有價(jià)值的能經(jīng)得起實(shí)踐考驗(yàn)的文獻(xiàn)評(píng)價(jià)體系,從而為政府決策提供更可靠的數(shù)據(jù),為廣大學(xué)者提供更便捷的學(xué)術(shù)服務(wù)。
[1]劉大椿主編:《人文社會(huì)科學(xué)研究成果評(píng)價(jià)體系研究》,北京,經(jīng)濟(jì)科學(xué)出版社,2009。
[2]魏巍、劉仲林:《國外跨學(xué)科評(píng)價(jià)理論新進(jìn)展》,載《科學(xué)學(xué)與科學(xué)技術(shù)管理》,2011(4)。
[3]袁曦臨、劉宇:《人文社會(huì)科學(xué)評(píng)價(jià)的復(fù)雜性與引文評(píng)價(jià)指標(biāo)的修正》,載《圖書情報(bào)工作》,2010(14)。
[4]邱均平、熊尊妍:《中國人文社會(huì)科學(xué)著者的引文分析》,載《現(xiàn)代情報(bào)》,2008(8)。
[5]李燕:《關(guān)于引文評(píng)價(jià)指標(biāo)中的三個(gè)問題》,載《農(nóng)業(yè)圖書情報(bào)學(xué)刊》,2011(3)。
[6]潘鋒、張笑:《2010年中國科技論文統(tǒng)計(jì)結(jié)果發(fā)布》,見科學(xué)網(wǎng),http://news.sciencenet.cn/htmlnews/2011/12/256428.shtm。
[7]宋歌:《社會(huì)網(wǎng)絡(luò)分析在引文評(píng)價(jià)中的應(yīng)用研究》,載《圖書情報(bào)工作》,2010(14)。
[8]Talja,S.,Vakkari,P.,F(xiàn)ry,J.&Wouters,P.“The Impact of Research Cultures on the Use of Digital Library Resources”.Journal of the American Society for Information Science and Technology,2007,58:1674–1685.
[9]陳雅、鄭建明:《基于科學(xué)交流的網(wǎng)絡(luò)文獻(xiàn)交流模式分析》,載《情報(bào)科學(xué)》,2005(10)。
[10]谷景亮、賈培民、鐘彩霞等:《科研機(jī)構(gòu)創(chuàng)新能力綜合評(píng)價(jià)應(yīng)用研究》,載《醫(yī)學(xué)信息學(xué)雜志》,2007(6)。
[11]Newman M.“Fast Algorithm for Detecting Community Structure in Networks”.Physical Review,2004,69(6).
[12]Yong-Yeol Ahn,James P.Bagrow,Sune Lehmann.“Link Communities Reveal Multiscale Complexity in Networks”.Nature,2010,466:761-764.
[13]Yunpeng Zhao,Elezaveta Levina,Ji Zhu.“Community Extraction for Social networks”.Proceedings of the National Acadenny of Sciences of the United States of America,2011,108(18):7321-7326.
[14]S.Fortunato,M.Barthélemy.“Resolution Limit in Community detection”.Proceedings of the National Acadenny of Sciences of the United States of America,2007,104:36-41.
[15]Ernesto Estrada.“Community Detection Based on Network Communicability”.Chaos,2011,21,016103.
[16]武書連主編:《挑大學(xué)選專業(yè):2011高考志愿填報(bào)指南》,北京,中國統(tǒng)計(jì)出版社,2011。