何春建
摘 要 各高校都需要統(tǒng)計(jì)本校各個(gè)二級機(jī)構(gòu)Web of Science (WOS)發(fā)文情況,論文提出一種基于正則表達(dá)式的半自動(dòng)數(shù)據(jù)清洗方法,可從WOS地址字段中提取出發(fā)文機(jī)構(gòu)排名、所屬二級機(jī)構(gòu)名稱以及對應(yīng)作者群,并以2015年南京師范大學(xué)WOS發(fā)文統(tǒng)計(jì)為例,進(jìn)行實(shí)證研究,分析出各院系發(fā)文情況和作者發(fā)文情況。
關(guān)鍵詞 二級機(jī)構(gòu) 正則表達(dá)式 數(shù)據(jù)清洗 WOS地址字段 科技查新
分類號 G250.78
DOI 10.16810/j.cnki.1672-514X.2017.08.012
A Semi-automatic Data Cleaning Method for Extracting Secondary Institutions Data from WOS Address Field
He Chunjian
Abstract Chinese higher education institutions need to count the articles included in Web of Science (WOS) by their secondary institutions. This paper puts forward a semi-automatic data cleaning method based on regular expressions for extracting ranking of the dispatch agency, name of the secondary institutions and the corresponding authors from WOS address fields. At last, it takes the statistics of articles included in WOS of Nanjing Normal University in 2015 as an example to conduct an empirical study, and analyze the situation of the articles issued by various faculties and authors.Keywords Secondary institutions. Regular expression. Data cleaning. WOS address field. Sci-tech novelty search.
0 引言
Web of Science(WOS)不僅是世界范圍內(nèi)最權(quán)威的科技文獻(xiàn)索引工具之一, 也是科研評價(jià)的一種依據(jù)??蒲袡C(jī)構(gòu)被WOS收錄的發(fā)文總量及被引用次數(shù), 反映整個(gè)機(jī)構(gòu)的科研, 尤其是基礎(chǔ)研究的水平。各高校均需對本校WOS發(fā)文進(jìn)行統(tǒng)計(jì),這些WOS論文的收錄及被引情況是機(jī)構(gòu)內(nèi)部重要的考核指標(biāo)。而在統(tǒng)計(jì)這些WOS論文的時(shí)候,需要將檢出的所有文獻(xiàn)全部準(zhǔn)確地劃分到各個(gè)二級機(jī)構(gòu),最終歸屬到具體作者,以便主管部門全面了解各院系科研情況并統(tǒng)計(jì)考核教職工的科研工作。然而直接從WOS數(shù)據(jù)庫下載的數(shù)據(jù)中沒有專門的二級機(jī)構(gòu)字段。二級機(jī)構(gòu)的信息包含在地址字段中,所以需要對地址字段進(jìn)行數(shù)據(jù)清洗,以便準(zhǔn)確快速地獲取二級機(jī)構(gòu)的信息。
梁桂英等[1]研究了如何構(gòu)建非特異性機(jī)構(gòu)論文檢索式,丁海德等[2]研究了地址信息著錄差異與錯(cuò)誤分析,苗艷榮、房文革[3-4]研究構(gòu)建合適的機(jī)構(gòu)檢索式,兼顧查準(zhǔn)率與查全率,這些文獻(xiàn)的焦點(diǎn)均是查準(zhǔn)查全一級機(jī)構(gòu)發(fā)文,沒有關(guān)注二級機(jī)構(gòu)。張晉輝等[5]提出一種SCI地址字段數(shù)據(jù)清洗方法,也不以二級機(jī)構(gòu)為研究對象。張紅燕、胡小洋等[6-7]提到了高校WOS發(fā)文的院系分布情況,但沒有提及是如何進(jìn)行文獻(xiàn)清洗的。劉賢玉[8]報(bào)道了一種快速統(tǒng)計(jì)學(xué)校中二級機(jī)構(gòu)學(xué)院論文的方法。本文通過分析、對比、擬選取WOS中的地址字段為研究對象,利用正則表達(dá)式對該字段進(jìn)行文本處理,清洗數(shù)據(jù)后可獲得二級機(jī)構(gòu)變名,再輔以人工識(shí)別將得到的二級機(jī)構(gòu)變名劃歸到具體的學(xué)院。本文不預(yù)設(shè)二級機(jī)構(gòu)的變名,不依賴于對作者的熟悉程度,最大程度地降低了人工排查的工作量,使得數(shù)據(jù)統(tǒng)計(jì)既快捷又準(zhǔn)確。
1 數(shù)據(jù)收集與清洗方法
1.1 數(shù)據(jù)收集
檢索策略及方法: 在WOS數(shù)據(jù)庫的檢索頁面中的地址欄輸入“Nanjing normal univ”, 在日期范圍內(nèi)輸入“2015—2015”。選擇數(shù)據(jù)SCI-EXPANDED、SSCI、A&HCI、CPCI-S、 CPCI-SSH,檢索時(shí)間2016年1月10日,共計(jì)檢索出982條記錄。
將檢索到的文獻(xiàn)記錄選擇“保存為其他文件格式”,選擇記錄內(nèi)容為“全記錄”,文件格式為“制表符分隔(win)”分批選擇“1-500”“501-982”,分批將檢索到的記錄下載并合并,獲得982條數(shù)據(jù)記錄,并以其中的地址字段(C1)為研究對象。
1.2 數(shù)據(jù)清洗
在2008年系統(tǒng)升級后,WOS數(shù)據(jù)庫的地址字段就比較規(guī)范,下面是其中一條典型的地址字段記錄:[Lu, Si-Yuan; Zhou, Xing-Xing; Zhang, Guang-Shuai] Nanjing Normal Univ, Sch Comp Sci & Technol, Nanjing 210023, Jiangsu, Peoples R China; [Wei, Ling] Shanghai Jiao Tong Univ, Sch Elect Informat & Elect Engn, Shanghai 200030, Peoples R China。
WOS的地址字段可以歸納為下面的模型:[authors(N,1)] address(N,1); …[authors(N,x)] address(N,x); …[authors(N,Y)] address(N,Y); 其中authors(N,x)是第N條記錄的第x個(gè)作者群,address(N,x)是第N條記錄的第x個(gè)作者群的共同署名機(jī)構(gòu)。
將得到的數(shù)據(jù)記錄中的C1字段復(fù)制到文本處理軟件Emeditor中,利用正則表達(dá)式,查找“; \[”,替換為“; /t[”。處理后的文本記錄可以表達(dá)為:[authors(N,1)] address(N,1);…[authors(N,x)] address(N,x);…[authors(N,Y)] address(N,Y); 再將處理后的數(shù)據(jù)復(fù)制到excel中,我們可以獲得第N條記錄中第x個(gè)作者群和機(jī)構(gòu)信息為C1(N,x)=[authors(N,x)] address(N,x);再對C1(N,x)分析,利用正則表達(dá)式,查找“] ”,并替換為“]/t”,進(jìn)而可以得到authors(N,x)以及相應(yīng)的address (N,x)。通過上述的文本處理和excel處理,就獲得了所有記錄的所有排序的署名作者群及相應(yīng)的署名作者機(jī)構(gòu)信息。
在excel中對address(N, x) 字段分析,依次遍歷x=1…Y,判斷address(N, x)是否包含“nanjing normal univ”, 假設(shè)address(N, k)是第N條記錄中第一個(gè)包含“nanjing normal univ”的地址信息,記錄jg (N)=k,taget(N)= address(N, k),authors(N)= authors(N, k)。在進(jìn)行上述數(shù)據(jù)分析時(shí)發(fā)現(xiàn)有一條記錄的整個(gè)C1字段中不包含“nanjing normal univ”,經(jīng)研究發(fā)現(xiàn)這條記錄之所以被檢出,是因?yàn)樵谕ㄓ嵶髡咦侄危≧P)中出現(xiàn)了“nanjing normal univ”。如果是第M條記錄的CI字段中沒有出現(xiàn)nanjing normal univ,則假定jg (M)=0,taget(M)=null。將address(N,x), N=1…982,進(jìn)行遍歷處理,數(shù)據(jù)清洗后獲得三組數(shù)列jg (N)、taget(N)、authors(N)。jg (N)是南京師范大學(xué)(以下簡稱“我?!保┰诘贜篇論文的機(jī)構(gòu)排名,taget(N)是我校的具體署名地址信息,authors(N)是對應(yīng)的作者群。
2 南京師范大學(xué)二級機(jī)構(gòu)及作者分析
2.1 一級機(jī)構(gòu)分析
對jg (N)分析可以了解982條記錄中不同署名排序的發(fā)文情況。我校發(fā)表的WOS論文中第一署名機(jī)構(gòu)發(fā)文573篇,占比58.4%,非第一作者機(jī)構(gòu)發(fā)文409篇。
對非第一作者機(jī)構(gòu)的發(fā)文部分,再分析它們的address(N,1)即第一署名機(jī)構(gòu),可知我校與144家機(jī)構(gòu)合作,共發(fā)表論文419篇。其中發(fā)文1篇的97家,發(fā)文2-3篇的22家。發(fā)文4篇以上的25家機(jī)構(gòu)共計(jì)發(fā)文259篇,占南京師范大學(xué)非第一機(jī)構(gòu)合作論文數(shù)的61.8%,見表1。從表1可知我校的主要合作機(jī)構(gòu)以中科院和江蘇高校為主,省外合作以及國際合作的論文較少。
2.2 二級機(jī)構(gòu)分析
從taget(N)數(shù)列的獲取方法可知:如果我校有多個(gè)二級機(jī)構(gòu)同時(shí)參與該論文,只取排序靠前的那個(gè)二級機(jī)構(gòu)。將taget(N)數(shù)列在excel中利用分類匯總顯示署名機(jī)構(gòu)共有467種不同寫法,直接分析taget(N)數(shù)列工作量很大。taget(N)數(shù)列中包含了二級機(jī)構(gòu)的信息,可以把它們提取出來。
首先來看一條典型的taget(N)的信息:“Nanjing Normal Univ, Sch Math Sci, Inst Math, Nanjing 210023, Jiangsu, Peoples R China”。從上述格式可以看出,署名機(jī)構(gòu)的一般格式中會(huì)包含“南京師范大學(xué),二級機(jī)構(gòu)名稱, 郵編,省, 國家”等信息。上述信息中我們關(guān)心的其實(shí)只有二級結(jié)構(gòu)名稱如“Sch Math Sci”,通過這個(gè)信息我們就可以判斷這條記錄屬于南京師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院。我校的二級機(jī)構(gòu)基本上是某學(xué)院、某系、某實(shí)驗(yàn)室、江蘇省某重點(diǎn)研究中心等,而這些二級機(jī)構(gòu)在taget(N)中大多以sch、coll、fac、inst、dept、lab、key、ctr、jiangsu開頭,也有作者署名時(shí)書寫不規(guī)范導(dǎo)致有少部分記錄的二級機(jī)構(gòu)名以sch、coll、fac、inst、dept、lab、ctr為結(jié)尾。利用這個(gè)規(guī)律,可通過對taget(N)的處理獲得對應(yīng)的二級機(jī)構(gòu)名稱。
將taget(N)數(shù)列復(fù)制到文本處理軟件“Emeditor”中,利用正則表達(dá)式,反復(fù)查找“(.*),[ ]?((coll|sch|dept|ctr|lab|inst|fac|Jiangsu |key)[^,]*)(.*)”,并替換為“\1\t\2\t\4”,通過這個(gè)步驟可以處理所有開頭是coll、sch、dept、ctr、lab、inst、fac、key、Jiangsu的二級機(jī)構(gòu)名稱,再反復(fù)查找“(, )([^,]*(coll|sch|dept|ctr|lab|inst|fac)),”并替換為“\1\t\2\t”,通過這個(gè)步驟可以處理所有結(jié)尾是“coll、sch、dept、ctr、lab、inst、fac”的二級機(jī)構(gòu)。通過上述兩次查找替換可以把taget(N)數(shù)列中所有的二級機(jī)構(gòu)前后均加上制表符,再把處理后的數(shù)據(jù)復(fù)制到excel中,就可以獲得二級機(jī)構(gòu)數(shù)列inst(N),其中有49條記錄的inst(N)為空,是因?yàn)閠aget(N)中不包含任何二級機(jī)構(gòu)信息,其署名信息如:“Nanjing Normal Univ, Nanjing 210023, Jiangsu, Peoples R China”。
將獲得的inst(N)數(shù)列在excel中匯總分析,非空的inst(N)共包含101種不同的二級機(jī)構(gòu)變名,共得到論文933篇。其中發(fā)文量前二十的我校二級機(jī)構(gòu)變名見表2,這二十個(gè)機(jī)構(gòu)變名合計(jì)發(fā)表論文761篇占全體記錄的77.5%。建立101種二級機(jī)構(gòu)變名與二級機(jī)構(gòu)名的映射表,利用建立的映射表通過excel的VLOOKUP函數(shù)可分析其中的930篇論文的二級機(jī)構(gòu)名。再將不能區(qū)分的3篇以及49篇inst(N)為空的記錄利用對應(yīng)的authors(N)字段進(jìn)行人工篩選,最后可將所有發(fā)文歸類到各二級機(jī)構(gòu)。對RP字段采用相同的數(shù)據(jù)清洗方法可以分析出通訊作者、通訊作者署名機(jī)構(gòu)等信息,最后獲得南京師范大學(xué)各二級機(jī)構(gòu)的WOS發(fā)文情況,見表3。
在對inst(N)分析的過程中發(fā)現(xiàn)僅生命科學(xué)學(xué)院對應(yīng)的機(jī)構(gòu)變名數(shù)就多達(dá)14種,包括“Coll Life Sci”“Sch Life Sci”“Dept Life Sci”等,建議由各二級機(jī)構(gòu)引導(dǎo)本單位作者規(guī)范署名,以方便將來的成果認(rèn)領(lǐng)。
2.3 作者分析
為了解我校哪些作者在WOS發(fā)文最多,需要將論文劃歸到具體作者。為避免一篇論文有多位作者認(rèn)領(lǐng),設(shè)計(jì)了如下的劃分方案:如果論文的通訊作者是我校作者A,則這篇論文歸作者A,如果有共同通訊作者則這篇論文歸共同通訊作者中排名靠前的那位;如果論文中我校作者雖非通訊作者但是第一作者,則這篇論文歸第一作者;如果我校作者既非通訊作者又非第一作者,則該論文歸論文中我校作者排序第一的作者。結(jié)合二級機(jī)構(gòu)信息初步區(qū)分本校同名作者,再按照劃分方案,可將所有982篇論文全部劃歸到具體作者,其中WOS發(fā)文數(shù)前十的作者見表4。
3 結(jié)語
本文利用正則表達(dá)式對WOS的地址字段進(jìn)行數(shù)據(jù)清洗,從C1字段提取出署名機(jī)構(gòu)排名、二級機(jī)構(gòu)以及對應(yīng)的作者群信息。以南京師范大學(xué)2015年的WOS發(fā)文的統(tǒng)計(jì)為例,展現(xiàn)如何獲得發(fā)文署名排序以及二級機(jī)構(gòu)發(fā)文一覽表,通過二級機(jī)構(gòu)和對應(yīng)的作者群信息,初步區(qū)分同校同名作者,將全校發(fā)文歸類到具體的作者,為高校職能部門全面了解各二級機(jī)構(gòu)以及具體作者的科研情況提供基礎(chǔ)數(shù)據(jù)。統(tǒng)計(jì)過程中還獲得了各二級機(jī)構(gòu)的多種機(jī)構(gòu)變名,并建立機(jī)構(gòu)變名與二級機(jī)構(gòu)的衍射表方便將來的數(shù)據(jù)統(tǒng)計(jì)工作。本文以具體案例向讀者展示了WOS論文統(tǒng)計(jì)的數(shù)據(jù)清洗過程,希望對其他學(xué)校的論文統(tǒng)計(jì)工作有所助益。
參考文獻(xiàn):
[1]梁桂英,袁潤.基于Web of Science的非特異性機(jī)構(gòu)論文檢索模式構(gòu)建[J].情報(bào)雜志,2015(4):176-180.
[2]丁海德,龐芳芳,李德成.SCI數(shù)據(jù)庫中地址信息著錄差異與錯(cuò)誤分析[J].現(xiàn)代情報(bào),2008(4):173-174.
[3]苗艷榮.機(jī)構(gòu)檢索在不同數(shù)據(jù)庫中的檢索方法及技巧[J].高校圖書館工作, 2015(6):59-62.
[4]房文革,王麗君,張紅.基于Web of Science的機(jī)構(gòu)檢索方法[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊, 2015(4):64-66.
[5]張晉輝,劉清.基于推理機(jī)的SCI地址字段數(shù)據(jù)清洗方法設(shè)計(jì)[J].情報(bào)科學(xué), 2010(5):741-746.
[6]張紅燕,董湧,邵晉蓉.基于SCI的寧夏大學(xué)科研論文產(chǎn)出統(tǒng)計(jì)與分析[J].寧夏大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2016(1):193-196.
[7]胡小洋,游俊,趙燕.文獻(xiàn)計(jì)量分析:專業(yè)編輯的可選學(xué)術(shù)研究方向:以江漢大學(xué)1980年以來三大索引收錄論文的統(tǒng)計(jì)分析為例[J].江漢大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012(4):54-58.
[8]劉賢玉,周小東.基于Web of Science快速統(tǒng)計(jì)學(xué)校(學(xué)院) 論文的技巧[J].圖書情報(bào)工作, 2013(S2):210-212.