盧 超 董 克
(1.河海大學(xué)商學(xué)院 南京 211100;2.武漢大學(xué)信息資源研究中心 武漢 430072;3.武漢大學(xué)信息管理學(xué)院 武漢 430072)
利用引用關(guān)系構(gòu)建各類網(wǎng)絡(luò)進(jìn)行文獻(xiàn)計(jì)量研究是圖情領(lǐng)域重要的研究內(nèi)容,引用關(guān)系衍生來的引文網(wǎng)絡(luò)、共被引網(wǎng)絡(luò)、耦合網(wǎng)絡(luò)廣泛應(yīng)用于科學(xué)主題探測、影響力評價、引文推薦等領(lǐng)域[1]。從復(fù)雜網(wǎng)路理論在文獻(xiàn)計(jì)量學(xué)中的應(yīng)用來看,通過文獻(xiàn)間互引關(guān)系構(gòu)建的引文網(wǎng)絡(luò)是將學(xué)術(shù)文獻(xiàn)抽象成點(diǎn),并保留點(diǎn)與點(diǎn)間的引用關(guān)系。因引用行為有其合法性和目的性,通過引用關(guān)系構(gòu)建的引文網(wǎng)絡(luò)對解決相關(guān)研究問題亦具有其合理性。
然而,從學(xué)術(shù)論文集到引文網(wǎng)絡(luò)的抽象過程存在許多局限。舉例來看,一個研究話題可表示為若干相關(guān)論文的集合,相關(guān)內(nèi)容可用其所有文獻(xiàn)的全文本內(nèi)容表征;通過引文網(wǎng)絡(luò)(或社區(qū)結(jié)構(gòu))表征研究話題,其抽象過程損失了研究話題本身大量的內(nèi)容特征。具體來看,一篇學(xué)術(shù)論文的內(nèi)容包括兩個方面[1]:全文本內(nèi)容,即其作者解決研究問題過程和結(jié)果的闡述;引文內(nèi)容,即其作者為更好陳述其研究報告而對所引文獻(xiàn)的述評。此種述評性的引文內(nèi)容構(gòu)成了學(xué)術(shù)論文間的引用關(guān)系。抽象學(xué)術(shù)文獻(xiàn)時,其全文本內(nèi)容被破壞性地壓縮甚至消除,其中的引文內(nèi)容也被簡化為引用數(shù)字0和1。這為研究話題的細(xì)粒度發(fā)現(xiàn)及影響力評價帶來極大阻礙[2]。
近年來,文獻(xiàn)內(nèi)容特征廣泛應(yīng)用于網(wǎng)絡(luò)結(jié)構(gòu)分析。研究表明,內(nèi)容特征加權(quán)作者共被引[3-4]、期刊耦合[5]網(wǎng)絡(luò),能優(yōu)化知識結(jié)構(gòu)和話題識別效果[2-3,6]。計(jì)量網(wǎng)絡(luò)分析和內(nèi)容分析的有機(jī)結(jié)合成為重要的研究方向[7]。同時,內(nèi)容特征對引文網(wǎng)絡(luò)構(gòu)建的影響機(jī)理尚未充分探索,這導(dǎo)致方法論層面的研究與應(yīng)用缺乏標(biāo)準(zhǔn)[8]。系統(tǒng)揭示內(nèi)容特征加權(quán)與引文網(wǎng)絡(luò)結(jié)構(gòu)形態(tài)間的關(guān)系,是研究話題識別[3]、學(xué)術(shù)影響力評價[9]等應(yīng)用研究有效實(shí)施的必要基礎(chǔ)。
作為一種典型的計(jì)量網(wǎng)絡(luò),文獻(xiàn)耦合網(wǎng)絡(luò)在影響力評價、引文推薦等研究中應(yīng)用廣泛,特別在研究前沿探測上有一定優(yōu)勢。與其他計(jì)量網(wǎng)絡(luò)相比,文獻(xiàn)耦合網(wǎng)絡(luò)雖基于引用關(guān)系建立,但其無需額外全文數(shù)據(jù)便可開展全文內(nèi)容和引文網(wǎng)絡(luò)相結(jié)合的研究[5],這一定程度上緩解全文內(nèi)容來源不足的局限性。然而,已有耦合網(wǎng)絡(luò)研究對其網(wǎng)絡(luò)形態(tài)的認(rèn)識依舊存在許多不足[10],特別是內(nèi)容特征與文獻(xiàn)耦合網(wǎng)絡(luò)的融合研究還較為少見。
針對上述問題,本文提出了一種基于多源數(shù)據(jù)的文獻(xiàn)耦合網(wǎng)絡(luò)與引文內(nèi)容數(shù)據(jù)融合的方法,在結(jié)構(gòu)化全文數(shù)據(jù)不足的現(xiàn)實(shí)情況下,提出文獻(xiàn)耦合網(wǎng)絡(luò)內(nèi)容加權(quán)的研究思路與技術(shù)路線,探索融合內(nèi)容特征的文獻(xiàn)耦合網(wǎng)絡(luò)形態(tài)基本特征,以求為相關(guān)研究的復(fù)現(xiàn)提供借鑒。
本文研究框架如圖1所示。首先,使用Python爬蟲腳本爬取PLoS學(xué)術(shù)論文全文數(shù)據(jù),并從WoS引文數(shù)據(jù)庫中獲取相應(yīng)的引文數(shù)據(jù)和學(xué)科信息;其次,對所獲取XML格式的全文數(shù)據(jù)進(jìn)行解析,獲取其元數(shù)據(jù)、引文內(nèi)容特征,并對抽取的內(nèi)容特征進(jìn)行量化;第三,選取目標(biāo)學(xué)科構(gòu)建引文網(wǎng)絡(luò),包括文獻(xiàn)元數(shù)據(jù)融合、耦合網(wǎng)絡(luò)構(gòu)建、加權(quán)策略設(shè)計(jì)以及內(nèi)容加權(quán)網(wǎng)絡(luò)構(gòu)建;最后,比較分析已構(gòu)建的經(jīng)典耦合網(wǎng)絡(luò)和內(nèi)容加權(quán)耦合網(wǎng)絡(luò)。
圖1 研究框架
1.1.1PLoS全文數(shù)據(jù)及其采集
目前,WoS和CSSCI是代表性的引文數(shù)據(jù)庫,能提供較少噪音的“清潔”數(shù)據(jù),但并不提供文獻(xiàn)全文。利用學(xué)術(shù)搜索引擎也可獲取引文數(shù)據(jù),但同樣缺乏結(jié)構(gòu)化全文。幾乎所有的全文數(shù)據(jù)庫均提供PDF全文,部分提供html格式結(jié)構(gòu)化全文,如Wiley Online和Elsevier[11]等。但這些數(shù)據(jù)庫均需付費(fèi)訪問,且限制用戶采集和使用數(shù)據(jù)。期刊方陣?yán)?,Nature、Science等頂級期刊以及圖情領(lǐng)域一些期刊也陸續(xù)提供全文數(shù)據(jù),但版權(quán)會限制數(shù)據(jù)的采集和使用,且單個期刊對研究主題限制明顯;PLoS旗下所有刊物均提供XML格式全文數(shù)據(jù),數(shù)據(jù)處理接口豐富,并且開放獲取,為內(nèi)容與網(wǎng)絡(luò)結(jié)合研究提供更多便利[12-13]。
本文選取PLoS中生物醫(yī)學(xué)領(lǐng)域?yàn)閿?shù)據(jù)對象,通過聯(lián)合PLoS全文數(shù)據(jù)和WoS數(shù)據(jù),構(gòu)建生物醫(yī)學(xué)領(lǐng)域的內(nèi)容特征加權(quán)文獻(xiàn)耦合網(wǎng)絡(luò)。PLoS全文數(shù)據(jù)的采集包括兩個步驟:數(shù)據(jù)的檢索與爬取。a.構(gòu)造檢索式進(jìn)行檢索。構(gòu)造檢索式“publication_date:[2003-01-01T00:00:00Z TO 2016-01-15T23:59:59Z]”,從PLoS網(wǎng)站共檢得2003年1月1日到2016年01月15日期間所有文獻(xiàn),共176,310篇(檢索鏈接:https://reurl.cc/GEVAWG),含研究163,389篇、綜述471篇,均為XML格式全文。b.爬取數(shù)據(jù)。根據(jù)檢索結(jié)果共獲得2,939個分頁網(wǎng)址,每個分頁面60條記錄。利用分頁源碼獲得所有PLoS論文絕對鏈接。利用論文鏈接,爬取XML格式文件。文件記錄了文章、作者與被引文獻(xiàn)等各類信息。最終,除缺少全文的文獻(xiàn)15篇,共獲取文獻(xiàn)176,295篇。
1.1.2WoS引文數(shù)據(jù)及其獲取
本研究所使用的WoS數(shù)據(jù)來自加拿大蒙特利爾大學(xué)Vincent Larivière博士提供的WoS引文數(shù)據(jù),共包括3張數(shù)據(jù)表格:a.WoS_citing。即WoS數(shù)據(jù)庫中所有PLoS論文信息表,包括doi、學(xué)科等數(shù)據(jù)。該表共含218 135篇論文。b.WoS_citation。即PLoS文獻(xiàn)及其引文的引用關(guān)系表,共有記錄16 646 196條。該表含WoS館藏號、doi等信息。c.WoS_ref。即PLoS文獻(xiàn)引文的元數(shù)據(jù)表,共有記錄6 808 405條。
其中,WoS_citing表包含的doi和學(xué)科信息用于與PLoS全文數(shù)據(jù)建立連接、識別PLoS文獻(xiàn)的學(xué)科歸屬;WoS_citation表用來構(gòu)建經(jīng)典文獻(xiàn)耦合網(wǎng)絡(luò);WoS_ref表用來和PLoS論文的引文信息表進(jìn)行匹配,預(yù)備后期的內(nèi)容加權(quán)網(wǎng)絡(luò)構(gòu)建。這3張數(shù)據(jù)表包含3種文獻(xiàn)身份識別碼:doi,WoS文獻(xiàn)館藏號和數(shù)據(jù)庫本地文獻(xiàn)序號,article_id。當(dāng)某一字段值大量缺失時,可用其他字段進(jìn)行數(shù)據(jù)融合,保證數(shù)據(jù)匹配度和準(zhǔn)確率。
1.2.1PLoS全文數(shù)據(jù)解析
本文使用NLTK處理全文數(shù)據(jù)的分句任務(wù),識別引文內(nèi)容邊界;使用re正則匹配全文數(shù)據(jù)中的關(guān)鍵節(jié)點(diǎn),如引文標(biāo)記、結(jié)構(gòu)標(biāo)記等;使用Elementtree解析XML文檔及其結(jié)構(gòu)信息。文獻(xiàn)全文數(shù)據(jù)解析包括文獻(xiàn)元數(shù)據(jù)解析、文獻(xiàn)全文解析和參考文獻(xiàn)解析三個模塊。a.文獻(xiàn)元數(shù)據(jù)解析。文獻(xiàn)元數(shù)據(jù)解析在
1.2.2PLoS文獻(xiàn)學(xué)科歸屬的確定
確定研究話題有利于利用統(tǒng)一口徑的學(xué)科標(biāo)準(zhǔn)對學(xué)術(shù)影響力進(jìn)行歸一化[16]。PLoS根據(jù)其機(jī)構(gòu)制定的學(xué)科體系為每篇發(fā)表的文獻(xiàn)提供了學(xué)科標(biāo)簽,數(shù)量一般為3~5個,故很難依據(jù)這些多分類的信息來劃分每篇文獻(xiàn)的學(xué)科歸屬。本研究采用了Vincent Lariviere提供的文獻(xiàn)學(xué)科分類數(shù)據(jù),該學(xué)科分類數(shù)據(jù)的分類體系來源于NSF的學(xué)科分類體系[17]。經(jīng)過PLoS和WoS數(shù)據(jù)集的匹配,得到180 293篇可識別身份的文獻(xiàn),其中140 305篇文獻(xiàn)能利用這種算法得到學(xué)科標(biāo)簽。這140 305篇文獻(xiàn)的學(xué)科分布如表1所示,其中,約45.4%的文獻(xiàn)從屬于臨床藥學(xué)研究、35.5%的研究從屬于生物醫(yī)學(xué)研究、9.6%的文獻(xiàn)屬于純生物學(xué),僅有約1%的文獻(xiàn)屬于人文社科學(xué)科。本文選取生物醫(yī)藥(Biomedical Research)和生物學(xué)(Biology)為目標(biāo)學(xué)科,因二者間的交叉度高,聯(lián)合二者可保證文獻(xiàn)集的完整性。下文使用“生物醫(yī)藥學(xué)”作為兩個學(xué)科的合稱。表2顯示生物醫(yī)藥學(xué)包含的子領(lǐng)域,共計(jì)文獻(xiàn)63 279篇。
表1 PLoS研究論文的學(xué)科分布表
表2 生物醫(yī)藥學(xué)科的領(lǐng)域分布
1.2.3引文提及次數(shù)相關(guān)特征的抽取與計(jì)算
學(xué)術(shù)文獻(xiàn)的影響力受引文的被提及次數(shù)影響較大[2-3,18],其形式上具有簡潔性強(qiáng)和可計(jì)算等優(yōu)勢,為應(yīng)用于網(wǎng)絡(luò)構(gòu)建提供便利[19-20]。故在使用相關(guān)特征加權(quán)文獻(xiàn)耦合網(wǎng)絡(luò)時,本文著重考慮利用引文被提及次數(shù)相關(guān)特征為文獻(xiàn)耦合網(wǎng)絡(luò)的邊加權(quán),即引文被提及次數(shù)和引文平均被提及次數(shù)。
(1)
(2)
(3)
如圖1所示,為構(gòu)建內(nèi)容加權(quán)的文獻(xiàn)耦合網(wǎng)絡(luò),首先,對WoS數(shù)據(jù)和PLoS數(shù)據(jù)進(jìn)行匹配與整合,消除無法匹配的數(shù)據(jù);其次,利用融合后的數(shù)據(jù)構(gòu)建文獻(xiàn)耦合網(wǎng)絡(luò),根據(jù)引文內(nèi)容特征,制定基于提及次數(shù)的內(nèi)容加權(quán)策略并構(gòu)建內(nèi)容加權(quán)的文獻(xiàn)耦合網(wǎng)絡(luò);最后,對構(gòu)建的多種文獻(xiàn)耦合網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)屬性(如度分布、聚類系數(shù))分析,比較其異同。
1.3.1異源數(shù)據(jù)的匹配
在PLoS的全文數(shù)據(jù)中,施引文獻(xiàn)的鍵值是doi;參考文獻(xiàn)間無完整的的身份識別字段。在WoS數(shù)據(jù)中,文獻(xiàn)記錄間的獨(dú)特識別字段是館藏號WoS_Id以及數(shù)據(jù)源提供的獨(dú)特識別字段Article_Id。由于WoS并沒有完整收錄所有文獻(xiàn)的doi信息,故構(gòu)建網(wǎng)絡(luò)的過程中需要對兩方數(shù)據(jù)進(jìn)行匹配和關(guān)聯(lián),包括關(guān)聯(lián)兩方施引文獻(xiàn)、被引文獻(xiàn)以及引文內(nèi)容與被引文獻(xiàn)。a.施引文獻(xiàn)的匹配。在確定WoS數(shù)據(jù)和PLoS數(shù)據(jù)之間施引文獻(xiàn)的身份時,我們利用了PLoS文獻(xiàn)中的doi字段,將所有在WoS中無法識別出PLoS文獻(xiàn)doi的文獻(xiàn)記錄刪除,為匹配到的文獻(xiàn)之間建立關(guān)聯(lián)。這樣做的三個理由:首先,PLoS中文獻(xiàn)之間的doi信息完整全面,匹配的準(zhǔn)確度高;其次,WoS數(shù)據(jù)庫中常有doi信息錯誤的情況存在,無法通過WoS數(shù)據(jù)進(jìn)行映射;最后,利用其它字段信息進(jìn)行匹配會引發(fā)其它問題,如字段信息的消歧問題等。在這三個步驟中,本研究從初始的WoS數(shù)據(jù)中得到生物醫(yī)學(xué)方面的PLoS文獻(xiàn)共計(jì)63 279篇,經(jīng)過匹配WoS中的引文數(shù)據(jù),得到PLoS中的施引文獻(xiàn)63 278篇,參考文獻(xiàn)1 354 225篇,引用關(guān)系共有2 851 627條。b.被引文獻(xiàn)的匹配。在PLoS數(shù)據(jù)庫中,參考文獻(xiàn)的各個字段需要從全文數(shù)據(jù)中的相關(guān)字段中進(jìn)行采集,因數(shù)據(jù)格式等問題,抽取質(zhì)量無法保證。故本文采用字符串匹配的方式對WoS和PLoS的被引文獻(xiàn)進(jìn)行匹配。匹配中,本研究利用參考文獻(xiàn)的標(biāo)題和第一作者信息構(gòu)成進(jìn)行匹配的字符串,過濾字符串中的非數(shù)字字母字符;在同一個施引文獻(xiàn)中(利用doi信息)找出兩個數(shù)據(jù)源中最相似的兩篇被引文獻(xiàn)建立關(guān)聯(lián)。這樣為所有的PLoS文獻(xiàn)中的參考文獻(xiàn)找到其在WoS中對應(yīng)的被引文獻(xiàn)。在匹配過程中,本研究發(fā)現(xiàn)存在極少數(shù)被引文獻(xiàn)的WoS_Id存在多條不同記錄的情況;同時存在4 031篇PLoS文獻(xiàn)的作者錯誤將同一條參考文獻(xiàn)進(jìn)行了重復(fù)引用。由于單篇數(shù)據(jù)量非常少,本研究選擇移除這些錯誤的數(shù)據(jù)。經(jīng)過匹配,得到PLoS文獻(xiàn)63 214篇,被引文獻(xiàn)989 016篇,合計(jì)直接引用關(guān)系2 038 854條。c.引文內(nèi)容與被引文獻(xiàn)的匹配。在對被引文獻(xiàn)進(jìn)行關(guān)聯(lián)之后,本研究利用在PLoS抽取的引文內(nèi)容與參考文獻(xiàn)的共同編號對進(jìn)行匹配過后的引文內(nèi)容以及被引文獻(xiàn)進(jìn)行關(guān)聯(lián)匹配,共得到PLoS文獻(xiàn)62 366條,被引文獻(xiàn)986 828,直接引用關(guān)系2 036 416條。對此次匹配造成的引用關(guān)系缺失,則利用前面步驟獲取的引文關(guān)系數(shù)據(jù)進(jìn)行填充處理。以上,本文實(shí)現(xiàn)了WoS數(shù)據(jù)與PLoS全文數(shù)據(jù)的匹配。
1.3.2文獻(xiàn)耦合網(wǎng)絡(luò)的內(nèi)容加權(quán)策略
PLoS中的文獻(xiàn)及其被引文獻(xiàn)經(jīng)過匹配和消歧過后,最終得到PLoS文獻(xiàn)63 026篇,耦合關(guān)系12 050 612條。進(jìn)一步地,本研究將施引文獻(xiàn)的引文被提及次數(shù)、引文平均被提及次數(shù)等兩個主要特征對得到的耦合網(wǎng)絡(luò)的邊進(jìn)行內(nèi)容特征加權(quán)。構(gòu)建經(jīng)典文獻(xiàn)耦合網(wǎng)絡(luò)時,兩篇耦合文獻(xiàn)所構(gòu)成邊的總權(quán)重等于這兩篇文獻(xiàn)耦合的次數(shù)。當(dāng)考慮被引文獻(xiàn)在施引文獻(xiàn)中被提及次數(shù)時,耦合文獻(xiàn)的邊權(quán)需重新調(diào)整,如圖 2所示。在經(jīng)典耦合網(wǎng)絡(luò)基礎(chǔ)上,本研究通過引入不同的內(nèi)容特征,設(shè)計(jì)了4種內(nèi)容權(quán)重處理策略s1,s2,s3,s4來進(jìn)一步探究引入內(nèi)容權(quán)重對構(gòu)建文獻(xiàn)耦合網(wǎng)絡(luò)的影響,并將耦合網(wǎng)絡(luò)構(gòu)建策略s0(即經(jīng)典文獻(xiàn)耦合網(wǎng)絡(luò)的構(gòu)建策略)的邊權(quán)結(jié)果作為研究分析的參照。
(4)
(5)
圖2 考慮內(nèi)容權(quán)重情境下文獻(xiàn)耦合網(wǎng)絡(luò)權(quán)重的計(jì)算問題
(6)
(7)
其中,PYi表示文獻(xiàn)i的發(fā)表時間。在計(jì)算出每一篇共被引文獻(xiàn)和耦合文獻(xiàn)對(A,B)的權(quán)重之后,利用公式(5)計(jì)算耦合文獻(xiàn)對(A,B)的總權(quán)重ωA,B。
(8)
1.3.3實(shí)驗(yàn)分析指標(biāo)
本文從網(wǎng)絡(luò)規(guī)模、節(jié)點(diǎn)度分布和網(wǎng)絡(luò)中心度三方面評估包含經(jīng)典耦合網(wǎng)絡(luò)在內(nèi)的5個耦合網(wǎng)絡(luò)的結(jié)構(gòu)形態(tài)異同。
a.網(wǎng)絡(luò)規(guī)模。本研究用網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)、邊數(shù)和網(wǎng)絡(luò)密度共同來分析這5個網(wǎng)絡(luò)的差異。通過考察不同網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù),可研究不同策略構(gòu)建的文獻(xiàn)耦合網(wǎng)絡(luò)的數(shù)據(jù)丟失情況。通過邊數(shù)和網(wǎng)絡(luò)密度,可準(zhǔn)確了解已構(gòu)建網(wǎng)絡(luò)內(nèi)部的連通性以及不同策略對引用關(guān)系構(gòu)建的影響。
b.網(wǎng)絡(luò)節(jié)點(diǎn)度分布。網(wǎng)絡(luò)中節(jié)點(diǎn)度分布可反映該網(wǎng)絡(luò)的基本結(jié)構(gòu)形態(tài)以及節(jié)點(diǎn)之間的基本的連通性質(zhì)。相關(guān)研究表明社交媒體中僅有少部分用戶擁有大量好友,顯示其意見領(lǐng)袖地位[21];冪律分布網(wǎng)絡(luò)中弱連接對網(wǎng)絡(luò)穩(wěn)定至關(guān)重要[22]。故本文將首先考察這5種網(wǎng)絡(luò)邊的權(quán)重分布,然后對網(wǎng)絡(luò)的度分布進(jìn)行分析,查看不同網(wǎng)絡(luò)間結(jié)構(gòu)的穩(wěn)定性以及不同權(quán)重設(shè)置策略對網(wǎng)絡(luò)結(jié)構(gòu)的影響[22]。
c.網(wǎng)絡(luò)中心度。中心度一直是度量網(wǎng)絡(luò)中節(jié)點(diǎn)連通性和網(wǎng)絡(luò)結(jié)構(gòu)的重要指標(biāo),因此本文將從中間中心度的視角分析本研究生成網(wǎng)絡(luò)的中心度的異同。中間中心度根據(jù)公式(9)可衡量整個網(wǎng)絡(luò)的流通效率,其中,x,y是網(wǎng)絡(luò)G中的任意兩個不同于節(jié)點(diǎn)i的兩個節(jié)點(diǎn),pxy指節(jié)點(diǎn)x,y間最短路徑數(shù),pxy(i)是指所有經(jīng)過節(jié)點(diǎn)i的x,y間最短路徑數(shù)。具有高中間中心度的節(jié)點(diǎn)往往顯示較高的新穎性[23]。
(9)
如圖3所示,總體上,利用提及次數(shù)特征構(gòu)建的文獻(xiàn)耦合網(wǎng)絡(luò)與經(jīng)典文獻(xiàn)耦合網(wǎng)絡(luò)具有相同的耦合文獻(xiàn)數(shù)量63,026。因?yàn)閭鹘y(tǒng)文獻(xiàn)耦合網(wǎng)絡(luò)在構(gòu)建耦合文獻(xiàn)對時考慮文獻(xiàn)在全文范圍內(nèi)的引用關(guān)系,這與利用提及次數(shù)特征構(gòu)建耦合關(guān)系對時所選取的文本范圍是一致的。通常,在施引文獻(xiàn)沒有出現(xiàn)錯誤引用的前提下,被引文獻(xiàn)一定會同時出現(xiàn)在正文中和參考文獻(xiàn)中。在本研究中,發(fā)現(xiàn)有極少數(shù)文獻(xiàn)在參考文獻(xiàn)部分重復(fù)標(biāo)注了同一篇被引文獻(xiàn)或者在正文處漏標(biāo)了參考文獻(xiàn)等錯誤。由于錯誤樣本極少,本研究直接過濾了這一部分有錯誤的數(shù)據(jù)。同時,我們也注意到由于本研究的匹配算法無法取得100%的召回率,因此利用策略s0得到的耦合關(guān)系對利用提及次數(shù)特征得到的耦合網(wǎng)絡(luò)進(jìn)行修正。對于修正的邊的權(quán)重,本研究利用了邊權(quán)的中間數(shù)對缺省值進(jìn)行填充??傊?,利用被提及次數(shù)能得到和傳統(tǒng)方式相同數(shù)量的文獻(xiàn)耦合關(guān)系。
圖3 不同策略下構(gòu)建的文獻(xiàn)耦合網(wǎng)絡(luò)的大小:(A)節(jié)點(diǎn)數(shù)目和(B)邊數(shù)目
邊數(shù)上,僅使用被提及次數(shù)信息構(gòu)建的耦合網(wǎng)絡(luò)具有邊12 050 613條,這與傳統(tǒng)方式構(gòu)建的文獻(xiàn)耦合網(wǎng)絡(luò)的邊的數(shù)量相同。本研究進(jìn)一步分析了不同權(quán)重計(jì)算策略下網(wǎng)絡(luò)密度的相互關(guān)系。總體來看,本研究中的文獻(xiàn)耦合網(wǎng)絡(luò)的密度都比較小,均為0.005。由于相關(guān)研究通常不報告這一指標(biāo),與Jarneving的研究對比分析,本試驗(yàn)得到網(wǎng)絡(luò)密度和該研究構(gòu)建的網(wǎng)絡(luò)密度相當(dāng)[24]。因使用提及次數(shù)不對網(wǎng)絡(luò)大小產(chǎn)生影響,故密度不變。
本研究構(gòu)建的5種網(wǎng)絡(luò)節(jié)點(diǎn)的權(quán)重分布如圖4(A)所示。總體來看,5種網(wǎng)絡(luò)的權(quán)重的分布函數(shù)在雙對數(shù)的坐標(biāo)系下近似呈直線,這表明網(wǎng)絡(luò)的權(quán)重分布近似服從冪律分布,網(wǎng)絡(luò)節(jié)點(diǎn)中的權(quán)重具有無標(biāo)度性。網(wǎng)絡(luò)大部分的節(jié)點(diǎn)權(quán)重較小,僅有一小部分節(jié)點(diǎn)具有很高的權(quán)重[25]。具體來看,在不使用內(nèi)容特征對文獻(xiàn)耦合網(wǎng)絡(luò)進(jìn)行加權(quán)時,耦合網(wǎng)絡(luò)中邊的權(quán)重大部分集中在[1,3],占所有邊數(shù)量的98%(如圖中策略s0所在曲線所示)。當(dāng)使用提及次數(shù)的特征時,邊的權(quán)重顯著超過了經(jīng)典策略,如策略s4所在曲線所示。同時,策略s1和s3,s2和s4分別顯示了相似的權(quán)重分布。這幾組權(quán)重分別使用了加權(quán)平均的方法計(jì)算兩施引文獻(xiàn)間被提及次數(shù)的值以及利用引文年齡調(diào)節(jié)施引文獻(xiàn)中被提及次數(shù)。這表明年份相近的文獻(xiàn)更有可能被引用在一起。引入平均共被提及后,耦合網(wǎng)絡(luò)的權(quán)重分布也出現(xiàn)了較大的變化。對比策略s1和s2,策略s1在圖中的曲線顯著高于s2所在的曲線。
圖4 不同策略下耦合網(wǎng)絡(luò)節(jié)點(diǎn)度分布互補(bǔ)累計(jì)分布圖:(A)節(jié)點(diǎn)的權(quán)重;(B)含邊權(quán)的節(jié)點(diǎn)度
綜上,我們可看到在利用被提及次數(shù)計(jì)算得到的權(quán)重間有較高相似性,多集中在[1,3],高權(quán)重值的邊數(shù)較少;在引入共被提及次數(shù)特征后,被放大的邊權(quán)重被明顯縮小,具備中等高的權(quán)重分布曲線;最后,被引文獻(xiàn)年齡并不能區(qū)別調(diào)節(jié)耦合文獻(xiàn)之間的權(quán)重分配。
5種網(wǎng)絡(luò)考慮邊權(quán)的節(jié)點(diǎn)度分布如圖4(B)所示。本文中,各網(wǎng)絡(luò)節(jié)點(diǎn)度分布考慮了節(jié)點(diǎn)間邊的權(quán)重。圖中網(wǎng)絡(luò)度分布不再像邊權(quán)重近似服從冪律分布,而更近似于服從指數(shù)分布(在雙對數(shù)坐標(biāo)軸上函數(shù)圖像呈拋物線狀)。從函數(shù)圖像上看,經(jīng)典文獻(xiàn)耦合網(wǎng)絡(luò)中,80%的節(jié)點(diǎn)的度小于700。與該方法得到近似度分布的權(quán)重策略有s2和s4。這兩種策略中,網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)與s0策略得到的網(wǎng)絡(luò)的節(jié)點(diǎn)與邊的數(shù)目相同,因?yàn)楸狙芯康亩确植加?jì)算考慮了邊權(quán)重。在考慮邊權(quán)重時,節(jié)點(diǎn)的度是所有連接該節(jié)點(diǎn)邊的權(quán)重之和。故策略s2和s4得到網(wǎng)絡(luò)邊的權(quán)重是利用共被提及次數(shù)進(jìn)行平均所得。對于一個節(jié)點(diǎn)的所有邊來看,這些權(quán)重之和就近似等于s0求得的權(quán)重的和。然而,在考慮被引文獻(xiàn)提及次數(shù)的情況下,相較于策略s0,由策略s1和s3得到的耦合網(wǎng)絡(luò)中的節(jié)點(diǎn)度分布具有更高的概率分布;當(dāng)度超過800時,差異更明顯,這部分的節(jié)點(diǎn)占據(jù)了網(wǎng)絡(luò)中總結(jié)點(diǎn)數(shù)的約90%。類似于上面權(quán)重計(jì)算的結(jié)論,引入時間方面的信息并不能對節(jié)點(diǎn)度的分布產(chǎn)生明顯的影響。
總的來看,文獻(xiàn)耦合網(wǎng)絡(luò)的度分布(考慮節(jié)點(diǎn)權(quán)重)近似符合指數(shù)分布,不具備長尾特性。在引入被提及次數(shù)特征時,我們得到文獻(xiàn)耦合網(wǎng)絡(luò)的度分布曲線處在較高位置,顯示了網(wǎng)絡(luò)中更強(qiáng)的連通性;當(dāng)考慮被引文線的共被提及次數(shù)時,耦合網(wǎng)絡(luò)的度分布退化為經(jīng)典文獻(xiàn)耦合網(wǎng)絡(luò)的度分布,網(wǎng)絡(luò)的連通性有一定減弱;被引文獻(xiàn)的年齡在這一部分同樣顯示了較弱的調(diào)節(jié)能力,其本質(zhì)原因是由于其在節(jié)點(diǎn)的邊權(quán)的確定上缺乏調(diào)節(jié)能力。
為進(jìn)一步探測5種文獻(xiàn)耦合網(wǎng)絡(luò)的結(jié)構(gòu)特性,本研究統(tǒng)計(jì)了這些網(wǎng)絡(luò)中節(jié)點(diǎn)的中間中心度。針對中間中心度的計(jì)算,本研究采用采樣估計(jì)的方式來計(jì)算各個點(diǎn)中間中心度,采樣的比率為整個網(wǎng)絡(luò)節(jié)點(diǎn)的1%[26]。為計(jì)算某結(jié)點(diǎn)的中間中心度,我們選取約6 200個點(diǎn)對該節(jié)點(diǎn)的中間中心度進(jìn)行估計(jì)(網(wǎng)絡(luò)節(jié)點(diǎn)大小見圖5 (A))。由于網(wǎng)絡(luò)中大部分節(jié)點(diǎn)的中間中心度的值普遍較小(<10-5),因此我們篩選了中間中心度值不小于10-4的節(jié)點(diǎn)進(jìn)行互補(bǔ)累計(jì)分布圖的繪制。各個網(wǎng)絡(luò)中篩選到的節(jié)點(diǎn)數(shù)目見圖5(A)。整體來看,由于整個網(wǎng)絡(luò)的密度較小,因此網(wǎng)絡(luò)中節(jié)點(diǎn)的中間中心度的值均普遍較低。其中,在利用提及次數(shù)構(gòu)建的耦合網(wǎng)絡(luò)中,我們篩選得到的高中間中心度的節(jié)點(diǎn)的個數(shù)最少。策略s1和s3僅分別得到了15個和22個值高于10-4的節(jié)點(diǎn),這樣的結(jié)果可能是由采樣的隨機(jī)性誤差造成的。
各個網(wǎng)絡(luò)節(jié)點(diǎn)中間中心度的分布見圖5(B)。從圖中可看出,使用被提及次數(shù)和共被提及次數(shù)特征的的耦合網(wǎng)絡(luò)(s2和s4曲線所示)顯示了較高的中間中心度的分布趨勢,表明網(wǎng)絡(luò)中可能存在更多的社區(qū)結(jié)構(gòu)。排除策略s1和s3,可發(fā)現(xiàn)傳統(tǒng)權(quán)重策略s0所呈現(xiàn)的分布曲線最低,表明傳統(tǒng)方法構(gòu)建的耦合網(wǎng)絡(luò)節(jié)點(diǎn)間中介性強(qiáng)度差異不明顯??赡茉蚴俏墨I(xiàn)間的耦合強(qiáng)度都比較接近,加之網(wǎng)絡(luò)也比較稀疏,節(jié)點(diǎn)的中介性也不容易區(qū)分開。
圖5 各網(wǎng)絡(luò)中中間中心度值高于10-4的節(jié)點(diǎn)數(shù)(A)及其分布(B)
本研究選取了PLoS中的生物醫(yī)藥學(xué)領(lǐng)域作為目標(biāo)學(xué)科領(lǐng)域。通過使用自然語言處理方法、復(fù)雜網(wǎng)絡(luò)相關(guān)方法,將PLoS文獻(xiàn)數(shù)據(jù)和WoS數(shù)據(jù)進(jìn)行了融合消歧。利用自然語言處理技術(shù)抽取了該學(xué)科的引文內(nèi)容,將引文內(nèi)容轉(zhuǎn)化成可量化的特征,設(shè)計(jì)了5種內(nèi)容加權(quán)策略(包含無內(nèi)容加權(quán)的方案)。通過網(wǎng)絡(luò)結(jié)構(gòu)形態(tài)分析,發(fā)現(xiàn)被提及次數(shù)相關(guān)特征的加權(quán)策略不改變網(wǎng)絡(luò)節(jié)點(diǎn)和邊的數(shù)目;在內(nèi)容加權(quán)處理的網(wǎng)絡(luò)中,節(jié)點(diǎn)的權(quán)重分布、度分布以及節(jié)點(diǎn)中心度等指標(biāo)均有顯著的變化。文獻(xiàn)耦合網(wǎng)絡(luò)中高中間中心度的節(jié)點(diǎn)略有減少,顯示內(nèi)容加權(quán)耦合網(wǎng)絡(luò)具備更好的連通性。
綜上,本研究有兩點(diǎn)啟示:
a.引文內(nèi)容能豐富耦合網(wǎng)絡(luò)中的節(jié)點(diǎn)關(guān)系。內(nèi)容加權(quán)后的文獻(xiàn)耦合網(wǎng)絡(luò)比傳統(tǒng)文獻(xiàn)耦合網(wǎng)絡(luò)有更豐富的節(jié)點(diǎn)關(guān)系。通過內(nèi)容加權(quán),網(wǎng)絡(luò)中節(jié)點(diǎn)有更高的度分布和權(quán)重分布,從而改變耦合網(wǎng)絡(luò)結(jié)構(gòu)。
b.結(jié)合內(nèi)容特征構(gòu)建引文網(wǎng)絡(luò)具有良好的應(yīng)用前景。日益豐富的內(nèi)容數(shù)據(jù)為構(gòu)建內(nèi)容加權(quán)的引文網(wǎng)絡(luò)提供更多支持。在不增加復(fù)雜性的基礎(chǔ)上,內(nèi)容特征的應(yīng)用能獲得更好的計(jì)量研究結(jié)果,提高研究成果的各方效益轉(zhuǎn)化[2-3]。
本研究也存在一定的局限性。本研究的主要數(shù)據(jù)來源于PLoS期刊上生物學(xué)學(xué)科論文。盡管PLoS期刊上生物學(xué)論文的學(xué)術(shù)影響力較高,研究結(jié)果具有一定代表性。但本研究尚未對其他學(xué)科作進(jìn)一步分析,以進(jìn)一步提高本研究結(jié)論的普適性。未來研究可在以下方面進(jìn)行深入研究和探索:
a.擴(kuò)大學(xué)科范圍和語料集。盡管本文選取的生物醫(yī)學(xué)領(lǐng)域在PLoS中占有重大比例,但由于PLoS并未包含更多的人文經(jīng)管等學(xué)科,該數(shù)據(jù)集在更廣泛的代表性仍存在一定欠缺。未來可擴(kuò)大語料,如使用PubMed等數(shù)據(jù)集開展更廣泛性的數(shù)據(jù)融合,擴(kuò)充更多研究數(shù)據(jù),得出更全面的實(shí)驗(yàn)結(jié)果,進(jìn)一步論證相關(guān)研究的普適性。
b.探索更多的引文內(nèi)容特征融合方案。本研究所構(gòu)建的內(nèi)容加權(quán)網(wǎng)絡(luò)并未使用位置相關(guān)的引文內(nèi)容特征和全文內(nèi)容特征[1]。在未來的工作中,可進(jìn)一步擴(kuò)大特征選擇范圍,探索其他特征在引文網(wǎng)絡(luò)構(gòu)建中的應(yīng)用,為新興研究話題發(fā)現(xiàn)以及其他重要的文獻(xiàn)計(jì)量領(lǐng)域[20]提供方法工具。