余敏櫧,王楊,顧睿琪,單桂華*,金鐘
1.中國科學(xué)院計算機網(wǎng)絡(luò)信息中心,北京 100190
2.中國科學(xué)院大學(xué),北京 100049
學(xué)術(shù)評價是對學(xué)者的學(xué)術(shù)水平、研究成果和學(xué)術(shù)貢獻進行客觀和系統(tǒng)的評估。學(xué)術(shù)評價不僅對學(xué)者的個人發(fā)展、科學(xué)研究具有重要意義,還可以為決策者確定優(yōu)秀學(xué)者、優(yōu)勢領(lǐng)域、資源分配以及交流合作提供輔助依據(jù),通過了解學(xué)者的學(xué)術(shù)水平和研究特長,決策者可以根據(jù)評價結(jié)果來制定相應(yīng)的人才引進、資源投入和項目支持政策,以推動學(xué)術(shù)和科研事業(yè)的發(fā)展。因此,對一個學(xué)者進行客觀、全面地學(xué)術(shù)評價至關(guān)重要。
在評價學(xué)者時,其中一個重要的參考依據(jù)是其發(fā)表的論文數(shù)據(jù)。發(fā)表論文數(shù)量和質(zhì)量可以客觀衡量一個學(xué)者的學(xué)術(shù)產(chǎn)出,從而對學(xué)者的學(xué)術(shù)能力進行初步評估。通過被引用的次數(shù),可以從一定程度上量化學(xué)者的學(xué)術(shù)影響力,反映學(xué)者研究成果對該領(lǐng)域的影響程度。同時,合作發(fā)表的論文也可以體現(xiàn)該學(xué)者與其他同行的合作關(guān)系和交流頻率,反映學(xué)者的合作能力,而與不同領(lǐng)域?qū)W者的合作也可以體現(xiàn)其跨學(xué)科研究和創(chuàng)新能力。
然而,論文的數(shù)量、被引用次數(shù)、合作次數(shù)等經(jīng)典的基于統(tǒng)計的評價方法無法全面評價一個學(xué)者的研究能力和學(xué)術(shù)貢獻。學(xué)者研究主題變化過程、研究的廣度和深度以及和不同合作者的具體合作情況的分析也是非常重要的評價方法,可以在一定程度上對全面評價起到補充作用。
領(lǐng)域重要學(xué)者研究主題的變化能在一定程度上揭示該領(lǐng)域的熱點問題,通過分析其研究主題的變化,能夠了解該領(lǐng)域研究的焦點和熱點,幫助決策者抓住學(xué)術(shù)發(fā)展的趨勢。同時,學(xué)者研究主題的變化也能夠反映出該學(xué)者的知識更新程度和頻率,有利于決策者尋找更合適的目標學(xué)者。
學(xué)者研究的廣度是指該學(xué)者研究工作覆蓋的主題范圍,表現(xiàn)在其論文所涉及的主題數(shù)量。研究的深度是指該學(xué)者在特定主題上研究深入的程度,表現(xiàn)出其在該主題上研究工作的連續(xù)性。具有廣泛研究興趣的學(xué)者能夠獲得更全面的知識和見解,并在多個主題的知識間建立聯(lián)系和交叉合作,從而形成更完整的理論框架和綜合性的研究觀點。而專注于某一主題的學(xué)者往往把更多的時間和精力投入到該主題的深度研究之中。
分析學(xué)者與不同合作者的合作歷程及具體合作情況對于了解其與各合作者之間的合作模式、優(yōu)勢以及取得的成果都具有重要的價值,以幫助決策者了解該學(xué)者的合作傾向和策略,為未來潛在的合作提供借鑒和引導(dǎo)。
學(xué)者畫像是刻畫學(xué)者特征的重要方法之一,可以支持對學(xué)者進行直觀、快速、全面的評價。然而現(xiàn)有的學(xué)者畫像方法無法同時支持學(xué)者主題變化、研究廣度深度和與每個合作者的合作歷程的可視分析,時間敘事性較欠缺。并且,學(xué)術(shù)評價的目的是為了使決策者對比區(qū)分學(xué)者,從而得到最合適的人選。而現(xiàn)有的學(xué)者畫像或可視分析系統(tǒng)在對比方法方面尚存在缺陷,無法將兩個學(xué)者的主題變化、研究廣度深度以及與合作情況同時在同一個視圖內(nèi)對比并突出二者異同之處,導(dǎo)致學(xué)者的特點不夠鮮明,用戶很難快速勾勒出學(xué)者的獨特印象,并迅速定位到關(guān)鍵信息。
因此,本文總結(jié)了以下幾點需求以更好地對學(xué)者進行畫像:
(1)學(xué)者研究歷程概覽:將學(xué)者的主題變化、研究廣度深度和與每個合作者的合作歷程等重要信息集中呈現(xiàn)在一個時序概覽圖中,幫助用戶快速勾勒學(xué)者印象,并迅速定位到關(guān)鍵信息。
(2)學(xué)者生涯對比分析:對兩個學(xué)者的主題變化、研究廣度深度和與合作情況同時進行對比分析,在同一視圖內(nèi)突出呈現(xiàn)二者在這些方面的異同,幫助用戶迅速區(qū)分兩位學(xué)者,進而選出更合適的對象。
(3)一個交互式可視分析工具:為用戶提供一個可交互的學(xué)者時序畫像可視分析系統(tǒng),幫助決策者自由切換不同的學(xué)者進行展示、分析和對比,并通過交互靈活獲取細節(jié)信息。
針對上述需求,本文提出了一種基于論文數(shù)據(jù)的時序?qū)W者畫像可視化方法,以時間維度為主線突出表現(xiàn)了學(xué)者在主題變化、研究廣度深度和與每個合作者的合作歷程等方面的重要特征和重大變化,設(shè)計了時序?qū)W者畫像對比分析方法,對不同學(xué)者在主題變化、研究廣度深度和與合作情況等方面的主要特征異同點進行了突出比較。最后,基于上述方法,本文實現(xiàn)了時序?qū)W者畫像可視化系統(tǒng)(Temporal Scholar Profile Visualization System,TSPVS),并通過可視化領(lǐng)域論文數(shù)據(jù)集驗證了方法的實用性和有效性。
1964 年,美國情報學(xué)家尤金·加菲爾德(Eugene Garfield)在《Science》雜志上提出了科學(xué)引文索引(Science Citation Index,SCI)的概念[1],使科研人員可以通過引文檢索尋找相關(guān)文獻。后來,科學(xué)引文索引逐漸被拓展到社會科學(xué)領(lǐng)域(Social Sciences Citation Index,SSCI)、藝術(shù)和人文科學(xué)領(lǐng)域(Arts & Humanities Citation Index,A&HCI)。隨著對引文研究的深入,引文分析不僅被用于檢索相關(guān)文獻,還被用于評價出版物、科研人員、科研機構(gòu)等科研實體,以及建立科技發(fā)展模型。通過分析引用和被引用的模式,可以研究學(xué)者科研活動的特征,包括學(xué)術(shù)影響力[2-3]、科研內(nèi)容的體系性等;通過分析文獻之間的引用關(guān)系及時間序列,可以研究領(lǐng)域的科學(xué)結(jié)構(gòu)和發(fā)展歷史[4-5],包括領(lǐng)域的研究重點、學(xué)術(shù)的傳承方向等。
在單個學(xué)者畫像方面,Latif 等人[6]提出了一個可視化系統(tǒng)VIS Author Profiles,采用文本描述與可視化描述相結(jié)合的方法,通過自然語言生成技術(shù)自動生成學(xué)者圖文畫像,描述學(xué)者的基本學(xué)術(shù)信息、研究領(lǐng)域、合作情況等。王楊等人[7]設(shè)計了學(xué)者學(xué)術(shù)狀態(tài)及競爭力可視化系統(tǒng),從學(xué)術(shù)狀態(tài)、研究興趣、合作機構(gòu)、研究團隊、論文信息等方面對單個學(xué)者的學(xué)術(shù)狀態(tài)進行了刻畫。但這些方法不能對學(xué)者進行對比分析。Sallaberry 等人[8]受到Contact Tree 的啟發(fā)提出了用植物界的樹來可視化學(xué)者在學(xué)術(shù)生涯中發(fā)表的論文、作者合作、論文被引情況等信息。他們將植物樹可視化與節(jié)點鏈接圖、鄰接矩陣做了比較分析,認為節(jié)點鏈接圖可以更好地表達復(fù)雜的關(guān)系但不能直接表達時間信息;鄰接矩陣可以清晰地顯示關(guān)系網(wǎng)絡(luò)的結(jié)構(gòu)和分布,但空間利用率較低;植物樹可視化既有靈活性又有局限性,通過特定的可視化編碼可以很好地表達數(shù)據(jù)的某些特征,但數(shù)據(jù)的某些信息會因為找不到合適的可視化編碼而無法被表達。
在學(xué)者科研態(tài)勢對比分析方面,Guo 等人[9]提出了一個交互式可視分析框架SD2,支持靈活地對文獻數(shù)據(jù)進行切片,可以滿足多種文獻數(shù)據(jù)分析需求,包括學(xué)者的論文數(shù)量、論文影響力、科研獨立性、科研活躍度以及對比兩個學(xué)者、兩個團隊的學(xué)術(shù)生涯軌跡等。他們使用了一個上下排布的、具有層次結(jié)構(gòu)的柱形圖,提供兩組學(xué)者的學(xué)術(shù)生涯發(fā)表論文情況的對比。同時,采用了可視化查詢邏輯,使用戶可以通過交互實現(xiàn)學(xué)者組合的邏輯運算。例如a 學(xué)者(or b學(xué)者)and c學(xué)者,通過簡單的交互即可實現(xiàn)ac學(xué)者組合和bc學(xué)者組合的對比分析。Wang等人[10]設(shè)計了可視分析系統(tǒng)VISPubComPAS,通過將兩個學(xué)者或者兩個機構(gòu)歷年在不同研究主題上發(fā)表的論文數(shù)量上下并置來對比分析學(xué)者研究內(nèi)容的側(cè)重點。但是這些設(shè)計均不能用于分析論文之間的引用關(guān)系,不能直接刻畫學(xué)者的研究內(nèi)容以及研究內(nèi)容之間的內(nèi)在聯(lián)系。
在學(xué)者合作網(wǎng)絡(luò)可視化方面,Zhao 等人[11]受地鐵線路圖的啟發(fā),設(shè)計了可視化系統(tǒng)Ego-Lines用于分析學(xué)者的動態(tài)自我中心網(wǎng)絡(luò)的時序模式。系統(tǒng)用以時間為前進方向的運行路線表示學(xué)者,用運行路線的顏色表示合作的緊密程度,能更好地跟蹤合作網(wǎng)絡(luò)中單個合作作者的加入和離開。Wu等人[12]設(shè)計了新穎的符號用于總結(jié)自我中心網(wǎng)絡(luò)的關(guān)鍵特征,實現(xiàn)了可視化系統(tǒng)EgoSlider 用于探索、比較和分析自我中心網(wǎng)絡(luò)的演化。
學(xué)者研究歷史往往和主題緊密相關(guān)。主題不僅可以用于表達學(xué)術(shù)論文的內(nèi)容,也可以用于表示學(xué)者在一定時段內(nèi)的研究興趣。而主題是建立在詞匯基礎(chǔ)之上的。本文涉及的數(shù)據(jù)處理包括關(guān)鍵詞提取和主題提取。提取關(guān)鍵詞主要有3 個原因:第一,有的論文沒有作者指定的關(guān)鍵詞[13-14];第二,部分作者的論文指定的關(guān)鍵詞并不能很好地涵蓋論文的研究內(nèi)容;第三,不同文獻數(shù)據(jù)庫提供的關(guān)鍵詞不同,需要統(tǒng)一的關(guān)鍵詞以對文獻進行標簽化。
本文采用文獻[10,15]的方法,使用1990-2018 年的IEEE VIS 論文數(shù)據(jù),首先用自然語言處理技術(shù)從標題、摘要、作者指定的關(guān)鍵詞中提取關(guān)鍵詞,接著用LDA 模型從論文數(shù)據(jù)中提取主題。這樣可以使每一篇論文有各個主題的概率分布,每一個主題有各個關(guān)鍵詞的概率分布。最終獲取的主題及其關(guān)鍵詞如表1所示。
表1 各主題對應(yīng)的關(guān)鍵詞Table 1 Keywords corresponding to each topic
步驟1:構(gòu)建初級語料。將每一篇論文的標題、摘要拼接起來,成為一段新的文本。將新文本中詞匯的大小寫進行統(tǒng)一,刪除新文本中的特殊字符,對新文本中的詞匯進行詞形還原,如將名詞復(fù)數(shù)還原成單數(shù),將動詞的過去時、現(xiàn)在時、完成時還原成動詞原形。這一步數(shù)據(jù)處理在很大程度上統(tǒng)一同一單詞的形式,減少對后續(xù)提取詞組產(chǎn)生的干擾。
步驟2:提取詞組。先用gensim 包對新文本進行分句,為每個句子標注詞性,再對每個句子進行分詞,再基于n-gram 模型提取由2~6 個單詞構(gòu)成的詞組。
步驟3:篩選詞組。通過詞頻和文檔共現(xiàn)頻次篩選出重要詞組。通過去除文檔頻率(包含詞組的文檔數(shù)量)小于5 的詞組,去除與其他詞組的共現(xiàn)次數(shù)≤2的詞組,最終得到1,799個關(guān)鍵詞組。其中,文檔頻率閾值和共現(xiàn)次數(shù)閾值是經(jīng)驗值。
步驟4:構(gòu)建LDA語料。把新文本中除了關(guān)鍵詞組之外的詞都刪掉,形成LDA 語料。此處理方式可以保證處理前后關(guān)鍵詞組在文檔中出現(xiàn)的次數(shù)不變。
步驟5:把LDA 語料輸入到gensim 包提供的LDA 模型[16]中,設(shè)置主題數(shù)量(本文參考文獻[10]設(shè)置了6 個主題),得到每篇文章在6 個主題上的概率分布以及每個主題在1,799 個關(guān)鍵詞組上的概率分布。
根據(jù)引言中提到的3項需求,本文設(shè)計了一種時序?qū)W者畫像方法,不僅可以突出單個學(xué)者在整個研究生涯中的科研特征,并且可以快速、直觀地對比不同學(xué)者科研活動特征的異同。最終基于該方法實現(xiàn)了時序?qū)W者畫像可視分析系統(tǒng),其界面如圖1 所示。系統(tǒng)由3 個主要部分組成:學(xué)者選擇面板、學(xué)者生涯時序畫像面板和論文詳情面板。
圖1 系統(tǒng)界面圖(以Huamin Qu為例)Fig.1 System interface(take Huamin Qu as an example)
學(xué)者選擇面板主要是為用戶提供學(xué)者選擇功能,方便用戶選擇感興趣的學(xué)者進行畫像或者對比分析。學(xué)者選擇面板主要分為學(xué)者列表和選中學(xué)者列表兩個區(qū)域。學(xué)者列表列出了所有學(xué)者條目,每個條目包含學(xué)者姓名、論文數(shù)量等信息。用戶可以通過點擊學(xué)者條目右側(cè)的“+”將學(xué)者加入到選中學(xué)者列表。此外,用戶還可以通過上方的檢索框?qū)π彰M行模糊搜索、選擇目標學(xué)者、將目標學(xué)者加入到選中學(xué)者列表中。選中學(xué)者列表最多可容納2個學(xué)者條目,通過學(xué)者條目的右側(cè)的“-”可以刪除學(xué)者條目。當選中學(xué)者列表中只有1 個學(xué)者條目時,點擊“確認”按鈕進行單個學(xué)者畫像;當選中學(xué)者列表中有2個學(xué)者時,點擊“確認”按鈕進行兩個學(xué)者的對比分析。
學(xué)者生涯時序畫像面板主要有兩大功能。首先是刻畫單個學(xué)者整個研究生涯的科研特征,包括所屬機構(gòu)、發(fā)表論文情況、科研影響力、研究主題、合作學(xué)者、合作機構(gòu)等基本信息和研究主題的變化、研究興趣的深度和廣度等重要信息。在此基礎(chǔ)上,支持快速、直觀、綜合地對比兩個學(xué)者的異同。下面首先將介紹單個學(xué)者畫像的設(shè)計,再介紹兩個學(xué)者對比分析的設(shè)計。
3.2.1 單個學(xué)者畫像
單個學(xué)者畫像主要包含5個部分:學(xué)者所屬機構(gòu)概覽[圖1(a)],研究主題分布圖[圖1(b1)],論文分布圖[圖1(b2)],合作學(xué)者概覽[圖1(c)]和合作機構(gòu)概覽[圖1(d)]。
學(xué)者所屬機構(gòu)概覽用于展示學(xué)者在不同機構(gòu)學(xué)習(xí)、任職期間發(fā)表論文的情況,用一個堆疊柱狀圖表示,其中一段柱子表示一個機構(gòu),柱子的高度表示學(xué)者在該機構(gòu)期間發(fā)表的論文數(shù)量占整個學(xué)術(shù)生涯期間發(fā)表論文數(shù)量的比重。每段柱子通過若干連線鏈接到研究主題分布圖中,反映了該作者在每個機構(gòu)的主要研究興趣點。
研究主題分布圖用于展示學(xué)者研究內(nèi)容的側(cè)重點,能從一定程度上反映學(xué)者的研究興趣。采用條形圖表示學(xué)者各個主題的論文數(shù)量,并使條形圖的縱坐標軸與論文分布圖的縱坐標軸重疊,有利于索引論文的主題。為了解決論文分布圖中可能產(chǎn)生太陽圖元相互遮擋的問題,本文設(shè)計了主題條形移動交互,可以對各個主題的順序進行調(diào)整,相應(yīng)地,論文分布圖中的論文位置同時更新。
論文分布圖用于展示學(xué)者歷年發(fā)表的論文情況,包括論文的主題、影響力以及研究興趣的廣度和深度。以太陽作為隱喻,設(shè)計了新穎的時序可視化方法,其設(shè)計思路如圖2所示。
圖2 太陽圖元的隱喻關(guān)系Fig.2 The metaphorical relationship of solar elements
太陽圖元的核心部分用一個獎?wù)卤硎驹撜撐牡谋灰螖?shù)在該領(lǐng)域所有論文中的水平。對于被引次數(shù)排名在前1%的論文,其太陽圖元的核心用金牌表示;對于被引次數(shù)排名在前1%~20%的論文,其太陽圖元的核心用銀牌表示;對于被引次數(shù)排名在前20%~50%的論文,其太陽圖元的核心用銅牌表示;對于被引次數(shù)排名未進入前50%的論文,其太陽圖元的核心則沒有獎牌。太陽圖元光球?qū)拥闹睆酱笮∨c該論文的總被引用次數(shù)成正比。太陽圖元的色球?qū)邮且粋€尺寸比例固定的圓環(huán),圓環(huán)的寬度是光球?qū)又睆降?/10。太陽圖元的色球?qū)颖硎驹搶W(xué)者在這篇論文中的所屬機構(gòu),其顏色與學(xué)者所屬機構(gòu)概覽圖中一致。當該作者在一篇論文中所屬多個機構(gòu)時,該環(huán)對應(yīng)填充多個顏色。太陽圖元的日冕層表示該論文歷年被引用次數(shù)的變化,從0 點鐘方向開始順時針環(huán)繞一周,對應(yīng)從論文發(fā)表年份開始到當前年份的時間跨度,日冕的高度正比于該論文在對應(yīng)年度的被引用次數(shù)。每個太陽圖元中心位置的橫坐標為該論文的發(fā)表年份,縱坐標的計算方法如公式(1)所示。
其中,yi是第i個主題的縱坐標,pi是該論文是第i個主題的概率。這樣計算太陽圖元中心位置的縱坐標可以使論文靠近最相關(guān)主題所在的位置并減輕遮擋問題。兩個太陽圖元之間的連線表示它們所對應(yīng)的論文之間存在引用和被引用的關(guān)系。當用戶通過交互選中某個太陽圖元時,與所選太陽圖元具有引用和被引用關(guān)系的太陽圖元均會被高亮顯示,用戶可以直觀地感知歷年來學(xué)者在相關(guān)研究方向上的一系列成果,快速獲知所選論文是基于學(xué)者的哪些研究基礎(chǔ)創(chuàng)新而來,基于這些研究基礎(chǔ)是否有進一步的創(chuàng)新。
合作學(xué)者概覽圖和合作機構(gòu)概覽圖均采用柱狀圖展示學(xué)者的科研合作情況。一個柱子表示一個合作學(xué)者或者合作機構(gòu),柱子的高度表示合作論文數(shù)量。當用戶選擇代表某篇論文的太陽圖元時,太陽圖元與合作學(xué)者、合作機構(gòu)之間會分別生成曲線將其鏈接起來,代表合作學(xué)者、合作機構(gòu)的柱子會部分高亮,高亮的比例為合作數(shù)量占總合作數(shù)量的比例,如圖3所示。當用戶選擇一個合作學(xué)者時,與所選合作學(xué)者合作的太陽圖元會被高亮顯示并鏈接到所選合作學(xué)者、所選合作學(xué)者的所屬機構(gòu)上。代表所選合作學(xué)者的柱子整個被高亮,代表所選合作學(xué)者的所屬機構(gòu)的柱子的高亮比例為所選合作學(xué)者在該所屬機構(gòu)與當前學(xué)者合作的論文數(shù)量占該所屬機構(gòu)與當前學(xué)者合作的論文數(shù)量的比例。如圖4(a)所示:Weiwei Cui 在Hong Kong University of Science and Technology 期間與Huamin Qu 合作了4 篇論文,占比為4/31,在Microsoft 期間與Huamin Qu 合作了7 篇論文,占比7/10。
圖3 合作對象與太陽圖元鏈接映射Fig.3 Link mapping between cooperative scholar,cooperative institutions and papers
圖4 Huamin Qu的合作學(xué)者Weiwei Cui和Shixia LiuFig.4 Huamin Qu's collaborators Weiwei Cui and Shixia Liu
3.2.2 兩個學(xué)者對比分析
兩個學(xué)者A 和B 的對比分析與單個學(xué)者的畫像在可視化設(shè)計和隱喻映射方面基本一致,如圖5所示。不同之處在于以下幾點:
圖5 Huamin Qu和Shixia Liu對比Fig.5 Comparison between Huamin Qu and Shixia Liu
(1)采用顏色來突出和區(qū)分兩個學(xué)者的異同之處。本文采用藍色表示只屬于A 的內(nèi)容,橙色表示只屬于B的內(nèi)容,綠色表示二者的共同部分。
(2)學(xué)者所屬機構(gòu)概覽圖中,學(xué)者A 的所屬機構(gòu)用藍色表示,學(xué)者B 的所屬機構(gòu)用橙色表示。如果學(xué)者A和學(xué)者B有相同的所屬機構(gòu),則用綠色表示。當學(xué)者有多個所屬機構(gòu)時,會有多段柱子與之一一對應(yīng)。
(3)主題分布圖中采用堆疊條形圖表示學(xué)者A 和學(xué)者B 在各研究主題上發(fā)表的論文數(shù)量。藍色條形的長度表示論文作者中只有學(xué)者A的論文數(shù)量,橙色條形的長度表示論文作者中只有學(xué)者B的論文數(shù)量,綠色條形的長度表示論文作者中同時有學(xué)者A和學(xué)者B的論文數(shù)量。
(4)論文分布圖中太陽圖元的光球?qū)宇伾硎驹撜撐牡淖髡邔傩?。藍色表示該論文作者里只有A,橙色表示該論文作者里只有B,綠色表示該論文作者里既有學(xué)者A又有學(xué)者B。太陽圖元的色球?qū)宇伾硎菊撐牡臋C構(gòu)屬性。如果該論文不是學(xué)者A和學(xué)者B的合作論文,那么光球?qū)拥念伾c色球?qū)宇伾恢?;如果該論文是學(xué)者A 和學(xué)者B 的合作論文,那么當學(xué)者A 和學(xué)者B屬于同一機構(gòu)時,光球?qū)拥念伾珵榫G色;否則,光球?qū)右话氲念伾珵樗{色,另一半的顏色為橙色。
(5)合作學(xué)者概覽圖和合作機構(gòu)概覽圖中,根據(jù)合作性質(zhì)將合作對象分為3 種情況進行展示:跟A 合作過但未跟B 合作過的學(xué)者,跟B 合作過但未跟A 合作過的學(xué)者以及跟AB 都合作過的學(xué)者。其中第3 種情況采用堆疊柱狀圖的形式呈現(xiàn),藍色柱子表示該學(xué)者只跟A 合作的論文數(shù),橙色柱子表示該學(xué)者只跟B合作的論文數(shù),綠色柱子表示該學(xué)者同時跟A和B一起合作的論文數(shù)。
詳細信息面板根據(jù)用戶交互選擇的不同展示相應(yīng)的論文列表,呈現(xiàn)相關(guān)論文的題目、作者、發(fā)表年份,期刊名稱、被引用次數(shù),摘要等附加信息。當用戶選擇了單個學(xué)者進行畫像時,詳細信息面板展示該學(xué)者所有論文的列表和附加信息。當用戶選擇了兩個學(xué)者進行對比分析時,詳細信息面板展示二人合作論文和各自獨立發(fā)表論文的列表和詳細信息。當用戶點選一篇論文對應(yīng)的太陽圖元時,詳細信息面板展示該論文以及與其存在引用迭代關(guān)系的系列論文的列表和附加信息。當用戶點選某一合作學(xué)者/機構(gòu)時,詳細信息面板展示該學(xué)者與選中的學(xué)者/機構(gòu)合作的論文列表和附加信息。論文列表可根據(jù)被引用次數(shù)或發(fā)表年份進行排序。
本文通過2 個實際案例詳細演示了系統(tǒng)的分析過程,并與AMiner學(xué)者畫像進行對比,以此驗證本文方法和系統(tǒng)的實用性和有效性。
如圖1所示,左側(cè)的學(xué)者選擇面板中列出了學(xué)者姓名及其論文數(shù)量等信息。點擊學(xué)者條目最右端的“+”按鈕,將Huamin Qu 添加到“選中學(xué)者”的列表中,點擊“確認”按鈕生成Huamin Qu的時序概覽畫像以及論文詳細信息。
學(xué)者所屬機構(gòu)概覽圖中的兩段柱子分別代表了Stony Brook University(以下簡稱SBU)和Hong Kong University of Science and Technology(以下簡稱HKUST),且HKUST 的柱子高度要遠大于SBU 的柱子高度,這意味著Huamin Qu 曾在SBU 和HKUST 兩個機構(gòu)從事研究工作,其絕大部分論文是在HKUST發(fā)表的。
在主題分布圖中,主題0 和主題1 對應(yīng)的條形長度較其他主題的高,說明Qu 研究生涯的總體研究方向集中在主題0和主題1。結(jié)合論文分布情況,可以看到2003 年之前的論文太陽圖元集中在主題3,而2008年以后的論文太陽圖元絕大部分集中在主題0 和主題1,這意味著Huamin Qu 在2003 年之前的論文研究集中在主題3(volume rendering),而從2008年開始轉(zhuǎn)向主題0(visual analysis)和主題1(information visualization)的研究。
在論文太陽圖元分布圖中,可以看到太陽圖元之間的鏈接非常密集,說明其論文之間存在大量引用迭代和繼承關(guān)系,這意味著其研究興趣較穩(wěn)定且具有很強的持續(xù)性。大部分太陽圖元的核心區(qū)域有銀牌和銅牌標志,這說明Huamin Qu 的大部分論文都具有較高的影響力。特別值得關(guān)注的是,Huamin Qu 在2008 年和2011 年分別有兩個尺寸很大很突出的太陽圖元。這兩個太陽圖元中心的銀牌標志表示這兩篇論文的被引用次數(shù)排名在所有論文的前20%,在整個論文數(shù)據(jù)集中算是比較優(yōu)秀的論文。此外,這兩個太陽圖元分別與早于其發(fā)表的論文不存在鏈接,說明這兩篇論文的研究內(nèi)容并非是基于其前期工作的。因此,可以認為這兩篇論文是Huamin Qu 分別在對應(yīng)研究方向上的開篇之作。為了描述方便,本文把2008 年發(fā)表的論文稱作A 論文,2011 年發(fā)表的論文稱作B 論文。AB 對應(yīng)的兩個太陽圖元的日冕尺寸整體比較豐滿、平滑,說明這兩篇論文從發(fā)表到現(xiàn)在每年都能獲得相當?shù)谋灰昧?,這表明這兩篇論文的研究成果久經(jīng)考驗,一直保持著重要學(xué)術(shù)價值。
分別點擊這AB 兩個圖元可以進行深入分析,如圖6(a)和圖6(b)所示。從6(a)可以看到,在2008 年之后的太陽圖元中,只有2 個與A 存在直接鏈接關(guān)系,并且沒有任何其他太陽圖元與A 有間接鏈接關(guān)系。這說明在Huamin Qu 的后續(xù)工作中,僅有2 篇論文的研究與A 有關(guān),且這兩篇論文并未再衍生出其他論文。從6(b)可以看出,在2011 年之后的太陽圖元中,有5 個太陽圖元與B 存在直接鏈接關(guān)系,有2 個圖元與B存在間接鏈接關(guān)系,這意味著該學(xué)者的后續(xù)研究中,有多達7 篇論文與B 論文有關(guān),并且存在一系列衍生和交叉關(guān)系。由此可以看出:相較于以A 論文為代表的研究方向,Huamin Qu在以B論文為代表的研究方向上的研究更深入、更持久。通過詳細信息面板可以獲取A 和B 對應(yīng)的論文的標題、作者、摘要等信息,如圖6(c)和圖6(d)所示,從而知道A 論文的是關(guān)于圖可視化算法的,B論文是關(guān)于文本/主題可視化方法的。
圖6 Huamin Qu的重要論文對比Fig.6 Comparison between Huamin Qu’s two important papers
在合作學(xué)者概覽圖中,柱子高度最高的是Weiwei Cui 和Shixia Liu,由此可知,與Huamin Qu 合作最多的是Weiwei Cui 和Shixia Liu。通過點選兩位學(xué)者對應(yīng)的柱子可以深入分析各自的合作模式,如圖4(a)和圖4(b)所示。
圖4(a)展示了Weiwei Cui 與Huamin Qu 的合作歷程。從圖中可以得知Cui與Qu 合作發(fā)表論文共11篇。Cui與Qu合作論文的太陽圖元明顯集中在兩個區(qū)域(圖中用紅色虛線框標出),這說明Cui 與Qu 的合作歷程可以分為兩個階段:2008-2012 階段,2016-2018 階段。從合作機構(gòu)概覽圖中可以看到,有兩個機構(gòu)對應(yīng)的柱子有鏈接接入,說明Cui在2個不同的機構(gòu)與Qu合作,一個是HKUST,另一個是Microsoft。這兩個機構(gòu)對應(yīng)的柱子的文字標簽后面括號里的分數(shù)4/31 和7/10 分別表示Qu 與HKUSAT 合作發(fā)表論文31 篇,其中有4 篇是與在HKUSAT 時期的Cui 合作的;Qu 與Microsoft 合作論文10 篇,其中有7 篇是與在Microsoft 時期的Cui 合作的。從論文分布圖還可以看到,2008-2012 年間的太陽圖元大多連接到代表HKUSAT 的柱子上,2016-2018 年間的太陽圖元大多連接到代表Microsoft 的柱上,且Qu 最大的兩個太陽圖元AB 都連接到代表HKUSAT 的柱子上。據(jù)此可以推測,Cui 跟Qu 早期曾在HKUST 一起開展科研工作,Cui參與了Qu 的AB 兩個重要論文的研究工作,二者合作緊密,產(chǎn)出了不少高水平的論文成果。后來Cui 離開了HKUST,兩人的合作告一段落。直至2016 年,Cui 已就職Microsoft,兩人又恢復(fù)了緊密合作并每年都有論文產(chǎn)出。
圖4(b)展示了Shixia Liu 與Huamin Qu 的合作歷程。從圖中可以得知:Shixia Liu 與Huamin Qu 的合作集中在2010-2014 年,此期間Liu與Qu 合作緊密,產(chǎn)出不少優(yōu)秀論文,并且Liu 也參與了Qu的重要論文B的研究工作。
從4.1 的分析中可以得知Huamin Qu 和Shixia Liu合作緊密且研究興趣具有相似性。通過二者的對比畫像來進一步分析他們研究歷程的異同。Huamin Qu 與Shixia Liu 對比畫像如圖5 所示,其中藍色表示只與Qu 相關(guān)的信息,橙色表示只與Liu 相關(guān)的信息,綠色表示與Qu 和Liu同時相關(guān)的信息。
從學(xué)者機構(gòu)視圖中可以看到,其中只有藍色和橙色部分而沒有綠色部分,這說明兩位學(xué)者在所屬機構(gòu)上并無交集。
在主題分布視圖中,二者主題0 和主題1 條形圖的藍色、橙色和綠色部分的長度都比其他主題條形圖對應(yīng)部分要長,其中主題1的綠色部分要遠大于其他主題,這表明二者的研究興趣點比較相近,集中在主題0和主題1,特別是在主題1曾有過不少合作。
從圖5 中可以看到Qu 和Liu 的論文太陽圖元分布呈現(xiàn)比較明顯的3 個階段:2000-2009,2010-2014,2015-2018。在第一個階段,圖中只有藍色太陽圖元分布且相互鏈接不多,這意味著在此階段Qu 已經(jīng)開始在此領(lǐng)域開展研究并且發(fā)表了多篇論文,Liu 尚未進入此領(lǐng)域的研究或者剛剛開展此領(lǐng)域的研究但尚無研究成果。在第二個階段,圖中又較多綠色太陽圖元,尺寸較大且鏈接關(guān)系逐漸增加,這意味著該階段二者合作密切并且論文質(zhì)量普遍較高,Qu 的研究興趣的廣度和深度都有所增加。在第三階段,圖中無綠色圖元,藍色和橙色太陽圖元數(shù)量分布相當且鏈接復(fù)雜,這意味著Liu 在前面合作的基礎(chǔ)上逐漸開始獨立研究。此外,如圖7 所示,Liu 后期的很多論文太陽圖元與Qu 的兩篇重要論文A和B存在直接或間接的連接關(guān)系,這說明Qu 的這兩篇重要論文對Liu 后來的系列研究具有重要影響,Liu也逐漸形成了自己的系列研究,且從研究的質(zhì)量和數(shù)量上與Qu不相上下。
圖7 Qu的兩篇重要論文與Liu論文研究的關(guān)系Fig.7 The relationship between Qu's two important papers and Liu's research papers
合作學(xué)者和合作機構(gòu)圖的中間區(qū)域展現(xiàn)了與二者都合作過的學(xué)者和機構(gòu)的情況,從圖中可以看到,這部分柱狀圖的高度相對較高,說明二者的主要合作對象十分相似。
AMiner 是一個基于GPT,Language Model,Human Feedback,CLIP, LLaMA 等技術(shù)的AI 賦能科技情報挖掘系統(tǒng),提供學(xué)術(shù)搜索、論文檢索、論文專利、學(xué)者畫像、文獻追蹤等服務(wù)。
AMiner 學(xué)者畫像提供了學(xué)者的簡介、教育背景、工作經(jīng)歷等基本信息,總論文數(shù)量、總被引次數(shù)、H-index等基本學(xué)術(shù)指標,研究興趣及其變化,以及論文清單、專利清單、合作機構(gòu)清單、合作學(xué)者清單等詳細信息,如圖8所示。
圖8 AMiner學(xué)者畫像(Huamin Qu)Fig.8 Huamin Qu’s profile from AMiner
Aminer 雖然提供了全面、詳細的學(xué)者信息,但是數(shù)值型指標、研究成果、合作信息的簡單羅列只能提供表層的信息,不能夠快速、高效地深入分析學(xué)者的學(xué)術(shù)影響力、系列研究、合作模式等特點,讀者仍然需要自行綜合這些信息進行分析才能清晰地梳理出學(xué)者的深層次研究特點。并且,AMiner不能提供兩個學(xué)者的對比。
而TSPVS,將研究成果、研究興趣、學(xué)術(shù)影響力、合作信息等通過時間維度有機整合,以時間為主線,自然地敘述學(xué)者的研究生涯,不僅可以呈現(xiàn)學(xué)者歷年發(fā)表的論文及其影響力、合作機構(gòu)、合作作者等常見的學(xué)者屬性,還能通過論文之間的引用迭代關(guān)系快速了解學(xué)者的研究體系,通過簡單的點擊交互快速發(fā)現(xiàn)時序合作模式、高效挖掘?qū)W者代表作的主要合作對象。
綜上所述,TSPVS 在對學(xué)者進行時序描述時能生動形象地呈現(xiàn)學(xué)者的重要特征和重大變化,較AMiner而言可以更高效、更深入地分析學(xué)者的學(xué)術(shù)水平、研究體系、合作模式等。
本文針對當前學(xué)者畫像的相關(guān)研究不能在時間維度上綜合呈現(xiàn)學(xué)者的論文數(shù)量、研究興趣變化、研究興趣的深度和廣度等重要信息,且不能全面對比學(xué)者科研特征的異同等問題,提出了一種基于論文數(shù)據(jù)的時序?qū)W者畫像可視化方法,以時間為主線突出表現(xiàn)了學(xué)者研究生涯中發(fā)表論文、研究興趣、合作學(xué)者、合作機構(gòu)等重要時序特征及其變化趨勢,并且支持快速、直觀地對比不同學(xué)者科研特征的異同點。在此基礎(chǔ)上,實現(xiàn)了時序?qū)W者畫像可視化系統(tǒng)TSPVS,幫助決策者快速、全面掌握學(xué)者研究的活躍性、穩(wěn)定性、可持續(xù)性、合作模式等方面的特點,為最終決策提供信息支撐。最終,通過可視化領(lǐng)域論文數(shù)據(jù)集進行驗證,用真實案例說明了該方法的實用性和有效性。
當然,本文還有一些不足之處有待深入研究。首先,本文所用關(guān)鍵詞和主題為算法提取,如何更好地提取主題并讓主題更符合人類認知仍將值得深入研究。其次,由于主題分布圖中的主題呈線性分布,每一篇論文對應(yīng)多個主題,因此,一個太陽圖元的位置可以對應(yīng)多種主題概率分布,這可能對確定論文主題有一定影響。本文通過交互以及設(shè)置主題和太陽圖元的鏈接粗細來解決了這個問題,但是否可以通過算法來解決這個問題需要后續(xù)繼續(xù)研究。最后,本文工作雖然在可視化領(lǐng)域的數(shù)據(jù)集上得到了驗證,尚需要把數(shù)據(jù)集擴展到其他領(lǐng)域來驗證我們方法的通用性。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。