侯海東 洪騰龍 徐建良
摘要:針對科研管理部門進行SCI論文統(tǒng)計時依賴人工判斷識別作者、工作繁重且容易出錯等問題,通過深入分析SCI論文文獻特征,設(shè)計一種利用論文作者姓名和署名單位進行作者自動識別的方法。基于中國海洋大學(xué)2012-2016年發(fā)表的SCI論文數(shù)據(jù)進行實驗和結(jié)果分析,針對作者識別過程中出現(xiàn)的作者重名問題,利用字符串模糊匹配和作者間合著關(guān)系對識別方法進行改進,再通過實驗對比改進前后的作者識別結(jié)果,評估改進方法。實驗結(jié)果表明,改進方法取得了比較理想的效果,達到了更高的識別精度。
關(guān)鍵詞:作者識別;重名消歧;合著關(guān)系;模糊匹配
DOIDOI:10.11907/rjdk.w173297
中圖分類號:TP301
文獻標識碼:A 文章編號文章編號:1672-7800(2018)008-0057-04
英文摘要Abstract:Author recognition in the statistics of papers indexed by SCI is done in the mannual way and in order to solve the problem of heavy and error-prone work in the process of manual author identification,we analyzed the document characteristics of papers indexed by SCI and designed a method which uses the authors' names and institutions to recognize authors automatically.Based on the SCI papers published by Ocean University of China from 2012 to 2016,we carried out the experiment and analyzed the results.Because the homonym problem that different persons share the same name occurred in the course of automatic author identification,the string fuzzy matching and author's co-authorship networks were applied to improve the recognition method.This study evaluates the improved method by comparing the results before and after improvement by experiment.The experimental results show that the improved method achieves better results and higher accuracy rate.
英文關(guān)鍵詞Key Words:author recognition;name disambiguation;co-authorship network;fuzzy matching
0 引言
近年來,我國高校越來越重視師生和科研人員學(xué)術(shù)論文被SCI收錄的情況[1-3],同時也積極推進各自機構(gòu)知識庫等學(xué)術(shù)成果管理系統(tǒng)的建設(shè)和實踐[4-5]。目前,科研管理機構(gòu)在對SCI論文信息進行收集和統(tǒng)計的過程中,通常采用兩種方式:由作者自行提交論文信息,科研管理部門審核后匯總;由科研管理部門收集整理論文信息,交由作者確認后匯總。但是,科研管理部門在進行SCI論文統(tǒng)計時,對論文作者的識別很大程度上依賴人工逐一判斷確認,工作量大、工作枯燥且容易出錯。尤其中文作者拼音寫法具有多樣性,易出現(xiàn)重名、引發(fā)混淆,從而導(dǎo)致科研管理部門獲取了大批SCI論文數(shù)據(jù)卻無法快速、準確地找出論文實際作者的問題。因此,設(shè)計一種能夠自動識別論文作者的方法顯得尤為重要。
作者身份識別技術(shù)廣泛應(yīng)用于文學(xué)作品、網(wǎng)絡(luò)評論的作者身份鑒別,近年來成為國內(nèi)外學(xué)者研究和關(guān)注的熱點[6-8]??梢圆捎靡宰髡邽闃酥镜奈谋痉诸愃惴▽崿F(xiàn)作者身份識別,即從文本中提取代表作者風格的識別特征,在評估不同文本風格特征相似度的基礎(chǔ)上,綜合各項特征參數(shù)比較結(jié)果,識別作者身份[9]。目前采用此種方法進行作者身份識別的研究較多。如郭舒[10]選擇文獻信息中的文獻標題、合作者和出版物名稱作為特征集合,進行文本聚類實現(xiàn)作者身份消歧。另一種解決作者身份識別問題的方法采用文獻特征中作者姓名和署名單位等信息,與已有的作者信息匹配進行作者識別。劉巍等[11]通過采集作者的別名、所在機構(gòu)以及任職時間等數(shù)據(jù)信息,根據(jù)從知識作品中提取的作者署名、機構(gòu)名稱、發(fā)表年限等信息進行匹配,但在識別過程中沒有處理作者重名的情況;于健等[12]設(shè)計的SCI論文作者甄別軟件利用作者單位的地址字段提取該機構(gòu)作者,并根據(jù)作者全、簡稱字段與機構(gòu)人員名單中的全、簡稱形式完成作者匹配,對于存在重名現(xiàn)象的作者采用作者自己輸入自定義唯一關(guān)鍵詞或合作者的方法實現(xiàn)識別區(qū)分。
針對科研管理系統(tǒng)在統(tǒng)計論文時存在的問題,本文在深入分析和挖掘論文文獻信息的基礎(chǔ)上,初步設(shè)計一種利用文獻中作者姓名和署名單位等信息進行作者識別的方法,并通過實驗對方法的有效性進行評估。對于在作者識別過程中發(fā)現(xiàn)的作者署名單位標注不規(guī)范和因署名方式相同導(dǎo)致作者重名的問題,提出利用字符串模糊匹配方法和基于合著關(guān)系的作者消歧方法對程序加以改進,達到了94.82%的查準率。
1 論文作者自動識別方法初步設(shè)計
1.1 論文作者身份識別流程
論文作者身份識別的關(guān)鍵問題是通過提取論文文獻中作者姓名和所屬單位名稱等信息,與已有的作者信息進行匹配來識別作者身份。
論文作者身份識別過程主要分為兩個階段:預(yù)處理階段和識別作者階段,如圖1所示。
(1) 預(yù)處理階段。從論文文獻信息中提取待識別作者的元數(shù)據(jù),包括作者姓名、所在單位、論文發(fā)表時間等信息,提取信息所需字段及說明,如表1所示。
(2)識別作者階段。根據(jù)提取的待識別信息,包括作者姓名、所在單位、論文發(fā)表時間,與數(shù)據(jù)庫中已有的專家姓名、所在部門、任職時間等信息進行匹配,查找候選作者。待識別作者的查找流程如圖2所示。
在預(yù)處理階段需要提取作者的姓名和所在單位,能否準確提取這兩種信息直接影響作者識別的準確率。
1.2 作者姓名與所屬單位提取方法
1.2.1 作者姓名提取方法
SCI論文的中文作者的姓名寫法具有多樣性[13],可能是姓氏在前名字在后,也可能是名字在前姓氏在后,同時名字還有可能是縮寫形式,比如“Song HuiQiao”、“HuiQiao Song”、“Song H.Q.”等。但數(shù)據(jù)庫中存儲的專家姓名格式為姓名拼音全稱、姓名拼音簡寫(姓氏全拼+逗號+名字所有單字首字母),因此為了后續(xù)姓名匹配方便,需要在提取論文作者姓名的過程中將作者姓名按數(shù)據(jù)庫中相應(yīng)的格式規(guī)范化。作者姓名提取方法如圖3所示。
1.2.2 作者單位提取方法
作者單位信息是論文作者署名的必要組成部分,在文獻檢索、信息傳遞等方面起到了重要作用[14]。SCI論文中作者署名單位信息通常包括單位名稱、所在地名稱、郵政編碼、省份名稱、國別。在單位名稱中,作者通常會標注自己所在部門。因此對于本單位的下屬部門,可以整理其常見的名稱寫法,根據(jù)這些部門名稱在作者署名單位信息中進行匹配。如果該部門名稱出現(xiàn)在作者的署名單位信息里,則提取為該作者的所屬單位。
1.3 實驗評估
本文選取中國海洋大學(xué)2012-2016年發(fā)表的SCI論文,共7 381篇作為測試數(shù)據(jù),通過與人工識別數(shù)據(jù)進行比較,計算論文作者識別的查準率、查全率和F1值,分析該論文作者識別方法的有效性。全部論文的作者總?cè)藬?shù)為39 173人,使用本方法進行作者識別后,正確識別的作者38 143人,未找到的校內(nèi)作者有1 030人,與實際作者重名但未分辨出的作者4 592人。經(jīng)過計算,論文作者識別的查準率為89.25%,查全率為97.37%,F(xiàn)1值為9314%。
對實驗結(jié)果進行分析,得出以下結(jié)論:
(1) 論文作者識別的查全率主要依賴于人員單位信息的準確性,數(shù)據(jù)庫中人員信息缺失導(dǎo)致部分校內(nèi)作者未找到。對于人員信息缺失而導(dǎo)致未找到的校內(nèi)作者,添加該作者的人員信息后即可識別該作者。
(2)識別結(jié)果中存在的作者重名現(xiàn)象影響查準率。由于作者姓名拼寫形式相同,導(dǎo)致識別結(jié)果存在不少重名作者的現(xiàn)象。而且部分作者在標注自己的署名單位時存在不規(guī)范的情況,使用的單位名稱不是常用名稱或者拼寫錯誤。這樣采用字符串精確匹配無法提取作者署名單位,從而只能在全校范圍內(nèi)查找該作者,增加了作者重名數(shù)量。因此下一步需要針對這兩個問題改進作者識別方法。
2 論文作者自動識別方法后續(xù)改進
2.1 基于模糊匹配的作者單位提取方法
由于論文文獻信息中作者單位標注不夠統(tǒng)一和規(guī)范,同一個單位或部門往往有幾種不同的標注形式,因此提取作者所屬單位信息時,適合采用粗粒度的模糊匹配算法。
從實驗結(jié)果來看,采用模糊匹配算法對作者單位提取方法進行改進后,重名作者數(shù)量減少,作者查準率提高,主要原因在于利用模糊匹配方法提取作者所在單位后,縮小了作者查找范圍,降低了重名現(xiàn)象發(fā)生的概率。
2.2 基于合著關(guān)系的重名作者消歧
合作者關(guān)系是眾多文獻特征元素中最具辨識度的特征元素之一[16],因此可以利用作者間的合著關(guān)系消歧重名作者。作者合著網(wǎng)絡(luò)是以作者為節(jié)點、以作者間合著關(guān)系為鏈接而形成的網(wǎng)絡(luò)。利用合著關(guān)系進行消歧的基本思路是:通過合著關(guān)系構(gòu)建作者的關(guān)聯(lián)網(wǎng)絡(luò),然后計算重名作者的合著者集合與論文作者集合的Jaccard相似度[17-18],來消歧重名作者?;诤现P(guān)系的重名作者消歧方法如圖4所示。
利用中國海洋大學(xué)歷年人工標注作者姓名的SCI論文數(shù)據(jù),采用上述方法挖掘、構(gòu)建作者合著網(wǎng)絡(luò)。在使用模糊匹配方法對程序改進的基礎(chǔ)上,利用作者合著關(guān)系對重名作者進行消歧后,實驗對比結(jié)果如表3所示。
從實驗結(jié)果來看,采用作者合著關(guān)系進行消歧后,重名作者數(shù)量減少了一半,達到了94.82%的查準率。
3 結(jié)語
本文設(shè)計了一種通過作者姓名和所在單位實現(xiàn)SCI論文作者自動識別的方法。針對識別過程中重名作者較多的問題,提出利用模糊匹配方法和作者合著關(guān)系對程序進行改進,效果比較理想,可提高科研論文管理效率。這種方法也可直接應(yīng)用于與WOS文獻數(shù)據(jù)字段格式相同的其它數(shù)據(jù)庫,同時其設(shè)計思想也適用于EI等其它數(shù)據(jù)庫。
目前,對于論文作者識別結(jié)果的確認和重名作者的處理,還沒有一個完善的人工干預(yù)系統(tǒng)。因此在下一步的工作中可以考慮加入論文認領(lǐng)服務(wù)機制,以實現(xiàn)作者和論文的準確關(guān)聯(lián)。
參考文獻:
[1] 魏曉,劉洋.東北大學(xué)2006—2015年SCI論文統(tǒng)計分析[J].圖書情報導(dǎo)刊,2016,1(12):138-142.
[2] 杜春芳.SCIE收錄科技論文統(tǒng)計分析——以河南科技大學(xué)為例[J].內(nèi)蒙古科技與經(jīng)濟,2016(10):60-62.
[3] 周環(huán),蘇莉娜.基于Web of Science的河北大學(xué)科研論文統(tǒng)計分析[J].科技情報開發(fā)與經(jīng)濟,2015,25(1):130-133.
[4] 朱立祿,宋世俊,王琳.國內(nèi)外機構(gòu)知識庫建設(shè)現(xiàn)狀及建議[J].現(xiàn)代情報,2017,37(3):109-115.
[5] 姚曉霞,聶華,顧立平,等.我國教育科研機構(gòu)知識庫建設(shè)現(xiàn)狀調(diào)查與分析[J].現(xiàn)代圖書情報技術(shù),2014,30(5):1-9.
[6] 祁瑞華,霍躍紅,胡潤波.文本作者身份識別研究綜述[J].圖書情報工作,2015(16):143-148.
[7] GAMON M.Linguistic correlates of style:authorship classification with deep linguistic analysis features[C].International Conference on Computational Linguistics,2004:611.
[8] FAN M,QIAN T,CHEN L,et al.Authorship attribution with very few labeled data:a co-training approach[C]Macau:International Conference on Web-Age Information Managemen,2014.
[9] 李曉軍,劉懷亮,杜坤.一種基于復(fù)雜網(wǎng)絡(luò)模型的作者身份識別方法[J].圖書情報工作,2015,59(18):102-107.
[10] 郭舒.文獻數(shù)據(jù)庫中作者名消歧算法研究[J].現(xiàn)代圖書情報技術(shù),2013,29(7):69-74.
[11] 劉巍,祝忠明,張旺強,等.機構(gòu)知識庫中作者標識與作品認領(lǐng)機制的研究與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2014,30(3):8-13.
[12] 于健,吳霞,趙春梅.SCI論文作者甄別軟件設(shè)計及應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2014,30(4):78-84.
[13] 姚戈,王淑華.科技期刊著者姓名規(guī)范控制及身份識別分析和探討[J].中國科技期刊研究,2015,26(1):41-46.
[14] 王萬紅.科技期刊作者單位英文信息的標注分析[J].中國科技期刊研究,2010,21(5):721-723.
[15] 何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用[J].飛行器測控學(xué)報,2015,34(4):389-394.
[16] 朱云霞.中文文獻題錄數(shù)據(jù)作者重名消解問題研究[J].圖書情報工作,2014,58(23):143-148.
[17] 王婭茜.基于節(jié)點相似度的網(wǎng)絡(luò)社團挖掘研究[D].成都:電子科技大學(xué),2015.
[18] 姜雅文,賈彩燕,于劍.基于節(jié)點相似度的網(wǎng)絡(luò)社團檢測算法研究[J].計算機科學(xué),2011,38(7):185-189.
(責任編輯:江 艷)