劉巍 祝忠明 張旺強(qiáng) 姚曉娜 王思麗
摘 要:文章首先描述了知識(shí)分析及可視化技術(shù)的發(fā)展歷程及現(xiàn)狀,并以中科院機(jī)構(gòu)知識(shí)庫(kù)的使用情況為例提出用戶的應(yīng)用需求,根據(jù)用戶需求給出一系列關(guān)鍵技術(shù)的解決方案,并在中科院機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)中實(shí)現(xiàn)了知識(shí)分析及可視化功能??梢暬δ艿膶?shí)現(xiàn)主要通過對(duì)機(jī)構(gòu)知識(shí)庫(kù)中資源的元數(shù)據(jù)進(jìn)行重組和索引,在此基礎(chǔ)上進(jìn)行分析和聚類,并將結(jié)果構(gòu)建為動(dòng)態(tài)圖表和知識(shí)圖譜,以此向科研人員和管理人員可視化的展示機(jī)構(gòu)知識(shí)資產(chǎn)分布狀況,學(xué)術(shù)貢獻(xiàn)狀況以及知識(shí)資產(chǎn)關(guān)聯(lián)和作者合作網(wǎng)絡(luò)。文章不僅擴(kuò)展了基于機(jī)構(gòu)知識(shí)庫(kù)可提供的知識(shí)服務(wù)的外延,在一定程度上體現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)建設(shè)的意義和價(jià)值,也為用戶科研創(chuàng)新和管理提供文獻(xiàn)分析的支持和保障。
關(guān)鍵詞:知識(shí)分析;可視化;機(jī)構(gòu)知識(shí)庫(kù);知識(shí)圖譜
中圖分類號(hào): G203;G250.25 文獻(xiàn)標(biāo)識(shí)碼: A DOI:10.11968/tsyqb.1003-6938.2016064
Implementation of Knowledge Analysis and Visualization Function Based on Institutional Repository
Abstract The development and current situation of the knowledge analysis and visualization technology are described first. The usage of the CASIR reflects the user requirements, and a series of key technology solutions is given according to the user requirements. These solutions were applied to develop the visualization and knowledge analysis functions based on the CASIR system. The resources in CASIR system were reorganized and indexed, and the analysis and clustering techniques were used to build the dynamic charts base on the results. Knowledge analysis and visualization function were provided, which can display the relationship between resources based on institutional repository. This study can extend service for institutional repository and improve literature analysis and utilization for researchers and managers.
Key words knowledge analysis; visualization; institutional repository; mapping knowledge domain
機(jī)構(gòu)知識(shí)庫(kù)作為機(jī)構(gòu)知識(shí)管理的重要機(jī)制,如何有效地挖掘和利用其中豐富的知識(shí)資源,支持科研人員的知識(shí)創(chuàng)造,同時(shí)支持基于知識(shí)的戰(zhàn)略規(guī)劃[1],成為面向未來機(jī)構(gòu)知識(shí)庫(kù)發(fā)展的重要挑戰(zhàn)和機(jī)遇。將知識(shí)分析與可視化技術(shù)應(yīng)用到機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)中,對(duì)其中蘊(yùn)藏的大量深層次知識(shí)進(jìn)行分析和挖掘,并將結(jié)果轉(zhuǎn)化為可視化形式提供給終端用戶,可以有效提高機(jī)構(gòu)知識(shí)庫(kù)資源傳播、管理和利用的能力和效果。本文基于中科院機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng),對(duì)其中知識(shí)資源開發(fā)知識(shí)分析和可視化功能,使用多種知識(shí)分析及可視化的模型為用戶提供多角度的知識(shí)發(fā)現(xiàn)與揭示服務(wù),以增強(qiáng)機(jī)構(gòu)知識(shí)庫(kù)建設(shè)支撐科研創(chuàng)新和科學(xué)管理的能力。
1 研究現(xiàn)狀
從可視化技術(shù)發(fā)展的角度來看,1987年,美國(guó)國(guó)家科學(xué)基金會(huì)發(fā)表了一份研究報(bào)告《科學(xué)計(jì)算中的可視化》[2]被認(rèn)為是科學(xué)可視化領(lǐng)域誕生的標(biāo)志。隨著計(jì)算機(jī)圖形學(xué)的發(fā)展,人們使用計(jì)算機(jī)創(chuàng)建圖形圖表,可視化展示提取出來的數(shù)據(jù)并將數(shù)據(jù)的各種屬性和變量呈現(xiàn)出來,逐步形成了數(shù)據(jù)可視化[3]的研究領(lǐng)域。1989年 , Robertson,Card和 Mackinlay首次提出了 “信息可視化”[4]概念,并用來可視化地表現(xiàn)大數(shù)據(jù)集中非空間、非數(shù)值和高維度信息之間的關(guān)系。2004年,M.J.Eppler和 R.A.Burkard提出了“知識(shí)可視化”[5]的概念,用可視化的方法傳輸、重構(gòu)和應(yīng)用知識(shí)。同時(shí)期,可視化的知識(shí)分析以及知識(shí)圖譜的概念和相關(guān)技術(shù)、應(yīng)用也得到快速發(fā)展和成熟,并被廣泛使用。如湯森路透的TDA(Thomson Data Analyzer)系統(tǒng),可以對(duì)文本數(shù)據(jù)進(jìn)行多角度的數(shù)據(jù)挖掘和可視化的全景分析[6]。由陳超美研發(fā)的CiteSpace系統(tǒng),基于引文分析理論,可以提供知識(shí)領(lǐng)域可視化圖譜的繪制,并強(qiáng)調(diào)對(duì)領(lǐng)域發(fā)展過程中轉(zhuǎn)折點(diǎn)和關(guān)鍵點(diǎn)的研究[7],目前已被廣泛應(yīng)用于文獻(xiàn)情報(bào)分析領(lǐng)域。
從可視化技術(shù)在知識(shí)倉(cāng)儲(chǔ)系統(tǒng)中應(yīng)用的角度來看,近年來也涌現(xiàn)出很多成功的范例,如康奈爾大學(xué)的VIVO系統(tǒng),在用戶的VIVO個(gè)人主頁(yè)(VIVO Profile)中嵌入了作者合作網(wǎng)絡(luò)(Co-author Network)和針對(duì)作者的科學(xué)地圖(Map of Science)[8],很直觀地展示了作者的科研背景和研究現(xiàn)狀。國(guó)內(nèi)的機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)如香港大學(xué)學(xué)術(shù)庫(kù)將作者合作網(wǎng)絡(luò)和訪問統(tǒng)計(jì)信息進(jìn)行可視化的表示[9]。西安交通大學(xué)機(jī)構(gòu)知識(shí)門戶[10]將可視化的技術(shù)與資源統(tǒng)計(jì)功能相結(jié)合,實(shí)現(xiàn)統(tǒng)計(jì)結(jié)果和分析對(duì)比結(jié)果的可視化展示。
2 應(yīng)用需求及關(guān)鍵技術(shù)實(shí)現(xiàn)
2.1 應(yīng)用需求
中科院自2008年開始啟動(dòng)研究所機(jī)構(gòu)知識(shí)庫(kù)的推廣建設(shè)以來,經(jīng)過各個(gè)研究所七年多時(shí)間的建設(shè)和維護(hù),相當(dāng)多的研究所機(jī)構(gòu)知識(shí)庫(kù)已經(jīng)積累了一定規(guī)模的知識(shí)資源。而在此基礎(chǔ)上如何提升機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)對(duì)研究人員科研和機(jī)構(gòu)管理的支撐水平,成為擺在機(jī)構(gòu)知識(shí)庫(kù)未來發(fā)展面臨的重要課題和研究方向之一。本研究基于中科院機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)的資源及其存儲(chǔ)結(jié)構(gòu),結(jié)合研究所機(jī)構(gòu)知識(shí)庫(kù)應(yīng)用中反饋的有關(guān)需求,設(shè)計(jì)開發(fā)了中科院機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)的知識(shí)分析和可視化功能。主要提供從不同角度統(tǒng)計(jì)知識(shí)資源分布、作者發(fā)文量和作品被引頻次排行以及基于網(wǎng)絡(luò)分析理論繪制關(guān)聯(lián)知識(shí)圖譜等三類知識(shí)分析和可視化服務(wù)。
多角度統(tǒng)計(jì)知識(shí)資源分布的功能,有助于機(jī)構(gòu)知識(shí)庫(kù)的推廣和應(yīng)用,首先該功能便于瀏覽者直觀 地了解機(jī)構(gòu)知識(shí)庫(kù)中知識(shí)資源的數(shù)量和分布結(jié)構(gòu)情況,同時(shí),通過對(duì)數(shù)據(jù)構(gòu)成條件的設(shè)置,實(shí)現(xiàn)在不同數(shù)據(jù)范圍內(nèi)的多角度知識(shí)資源分布及可視化視圖,也為機(jī)構(gòu)管理人員提供了對(duì)知識(shí)資產(chǎn)審計(jì)的有效依據(jù)和靈活的工具。
作者發(fā)文量以及收錄(SCI、EI、CSCD)數(shù)量的排行,可以幫助瀏覽者和研究人員快速定位機(jī)構(gòu)中學(xué)術(shù)貢獻(xiàn)度高的作者,而被引頻次的排行可以輔助研究人員和管理人員快速發(fā)現(xiàn)機(jī)構(gòu)內(nèi)學(xué)術(shù)能力突出的科研人員和高質(zhì)量的知識(shí)作品。
基于網(wǎng)絡(luò)分析理論繪制的知識(shí)圖譜從關(guān)鍵詞共獻(xiàn)網(wǎng)絡(luò)和作者共著網(wǎng)絡(luò)兩個(gè)方面為用戶提供知識(shí)分析服務(wù)。前者有利于發(fā)現(xiàn)機(jī)構(gòu)的主要研究熱點(diǎn)以及研究熱點(diǎn)之間的關(guān)聯(lián),并可通過設(shè)置作品的發(fā)表時(shí)間范圍來了解機(jī)構(gòu)各個(gè)時(shí)期研究熱點(diǎn)的變化,同時(shí)也可以輔助科研人員發(fā)現(xiàn)新的研究熱點(diǎn)。后者則可使瀏覽者了解機(jī)構(gòu)各階段中主要研究團(tuán)隊(duì)的構(gòu)成以及各研究團(tuán)隊(duì)間的關(guān)聯(lián)關(guān)系。
2.2 關(guān)鍵技術(shù)實(shí)現(xiàn)
2.2.1 信息采集和重組機(jī)制
中科院機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)為中科院蘭州文獻(xiàn)情報(bào)中心開發(fā)的CSpace系統(tǒng)。在CSpace系統(tǒng)中,每個(gè)條目在提交時(shí)都會(huì)與預(yù)定義的內(nèi)容類型建立映射關(guān)系,這保證了條目可以按照內(nèi)容類型分布進(jìn)行統(tǒng)計(jì)和重組;收錄類別是期刊論文和會(huì)議論文默認(rèn)模版中推薦采集的元數(shù)據(jù)信息,絕大多數(shù)研究所在機(jī)構(gòu)知識(shí)庫(kù)資源建設(shè)的過程中對(duì)該元數(shù)據(jù)的采集都給予了相當(dāng)?shù)闹匾?,?shù)據(jù)質(zhì)量相對(duì)較好,這保證了條目按收錄類別分布進(jìn)行重組以及作品收錄排行功能實(shí)現(xiàn)的可行性;從CSpace 4.0版開始,系統(tǒng)可以通過iSwitch[11]接口和CSCD接口定期獲取條目的被引頻次信息,解決了作品按被引頻次發(fā)布排行的數(shù)據(jù)基礎(chǔ)問題;同時(shí),CSpace系統(tǒng)還內(nèi)嵌一套作者別名庫(kù)和作品認(rèn)領(lǐng)機(jī)制[12],條目在提交后可以通過別名等信息自動(dòng)建立映射關(guān)系,并推送給相關(guān)的作者進(jìn)行認(rèn)領(lǐng)確認(rèn)和建立索引,用戶認(rèn)領(lǐng)后就建立了準(zhǔn)確的從條目到作者,再到歸屬部門以及歸屬機(jī)構(gòu)的映射關(guān)系,這為建立作者合作網(wǎng)絡(luò)做好了數(shù)據(jù)準(zhǔn)備。
2.2.2 數(shù)據(jù)組織和映射機(jī)制
作品在提交或認(rèn)領(lǐng)后,所有信息會(huì)按照預(yù)先定義的格式,即時(shí)地組織到solr索引中。
……
所有與知識(shí)分析和可視化功能相關(guān)的信息經(jīng)過預(yù)處理后,都?xì)w入適當(dāng)?shù)膕olr索引中,便于檢索、統(tǒng)計(jì)和分析。在構(gòu)建知識(shí)資源分布和作品排行的可視化功能時(shí),根據(jù)功能需求和所選參數(shù),構(gòu)造對(duì)應(yīng)的solr分面檢索式,然后將分面檢索的結(jié)果轉(zhuǎn)化為可視化組件要求的數(shù)據(jù)格式。關(guān)聯(lián)網(wǎng)絡(luò)圖譜則需要將符合條件的數(shù)據(jù)檢出后,通過關(guān)聯(lián)分析構(gòu)造多個(gè)對(duì)象間的二維表,然后將二維表轉(zhuǎn)化為可視化組件要求的數(shù)據(jù)格式。最終通過可視化控件自動(dòng)生成可視化圖形和圖譜。
整個(gè)可視化的過程用戶只需要設(shè)置簡(jiǎn)單的參數(shù),數(shù)據(jù)的檢索、整理、分析、映射到最終的可視化輸出全部由系統(tǒng)自動(dòng)完成(流程見圖1)。
2.2.3 可視化插件的應(yīng)用及功能實(shí)現(xiàn)
本研究為嵌入到CSpace系統(tǒng)中的知識(shí)分析和
可視化功能。因此,后臺(tái)是基于J2EE框架開發(fā),通過J2EE框架實(shí)現(xiàn)數(shù)據(jù)的檢索、整理、統(tǒng)計(jì)、分析、挖掘及對(duì)結(jié)果的格式化封裝。在視圖轉(zhuǎn)化方面,目前國(guó)內(nèi)外支持構(gòu)建可視化視圖的組件很多,通過前期調(diào)研和對(duì)比,我們選擇了echarts圖表組件作為可視化視圖創(chuàng)建工具。echarts是一個(gè)免費(fèi)且功能強(qiáng)大的圖表庫(kù),使用javascript開發(fā),可以通過javascript將echarts組件無縫的集成到CSpace系統(tǒng)中。根據(jù)echarts組件對(duì)數(shù)據(jù)格式的要求,所有統(tǒng)計(jì)分析的結(jié)果最終都轉(zhuǎn)化為對(duì)應(yīng)的json格式,并通過javascript的jquery庫(kù)實(shí)現(xiàn)echars組件與系統(tǒng)后臺(tái)間的數(shù)據(jù)通信。這種方式有效的解決了數(shù)據(jù)集多樣性及數(shù)據(jù)通信等問題(見圖2)。
3 機(jī)構(gòu)知識(shí)庫(kù)知識(shí)分析及可視化功能實(shí)現(xiàn)
3.1 功能設(shè)計(jì)
本研究所述功能采用B/S架構(gòu),以J2EE為主要技術(shù)進(jìn)行開發(fā),通過javascript的jquery庫(kù)實(shí)現(xiàn)后臺(tái)數(shù)據(jù)與可視化組件的通信及可視化組件的嵌入,使用Postgresql數(shù)據(jù)和Solr索引作為數(shù)據(jù)存儲(chǔ)及預(yù)處理的工具,共同構(gòu)成了知識(shí)分析及可視化應(yīng)用的開發(fā)環(huán)境。該環(huán)境具有靈活可擴(kuò)展且易維護(hù)的特點(diǎn)。
本研究所提供的功能及應(yīng)用場(chǎng)景包括:(1)從知識(shí)分布的角度對(duì)機(jī)構(gòu)知識(shí)庫(kù)中的資源按內(nèi)容類型、研究單元和收錄類別進(jìn)行重組,并以數(shù)據(jù)可視化的方式向用戶提供不同類別的知識(shí)分布信息;(2)從統(tǒng)計(jì)作者發(fā)文量及被引頻次的角度,輔助用戶快速發(fā)現(xiàn)機(jī)構(gòu)在不同時(shí)間區(qū)間中較活躍和學(xué)術(shù)貢獻(xiàn)較高的科研人員以及高質(zhì)量的知識(shí)資源;(3)從網(wǎng)絡(luò)分析的角度對(duì)機(jī)構(gòu)知識(shí)庫(kù)中作品的關(guān)鍵詞和作者分別進(jìn)行分析、挖掘并映射為可視化的關(guān)聯(lián)網(wǎng)絡(luò)圖譜,為科研人員及機(jī)構(gòu)管理人員提供分析機(jī)構(gòu)學(xué)術(shù)主題發(fā)展及科研團(tuán)隊(duì)發(fā)展的依據(jù)和工具。
3.2 多角度統(tǒng)計(jì)知識(shí)資源分布
知識(shí)資源分布可視化包括從內(nèi)容類型、研究單元和收錄類別的角度,向用戶提供機(jī)構(gòu)知識(shí)資產(chǎn)構(gòu)成的數(shù)據(jù)可視化服務(wù)。首先,向用戶提供條件設(shè)置接口,可設(shè)置的條件包括:發(fā)表時(shí)間區(qū)間、所屬機(jī)構(gòu)、部門或內(nèi)容類型,當(dāng)數(shù)據(jù)處理程序接收到用戶設(shè)置的參數(shù)后,會(huì)根據(jù)參數(shù)組合檢索機(jī)構(gòu)知識(shí)庫(kù)中符合條件的知識(shí)資源并按照分布類型對(duì)資源進(jìn)行重組和排序,并轉(zhuǎn)化為特定格式供可視化組件生成視圖。
知識(shí)資源可視化功能的結(jié)果呈現(xiàn)包括條形圖和餅圖兩部分。其中:(1)條形圖展示的信息包括根據(jù)用戶設(shè)置的條件檢索到的可用于構(gòu)圖的作品總量,數(shù)據(jù)的最后更新時(shí)間,以及各分布指標(biāo)的名稱和數(shù)量某機(jī)構(gòu)中作品被收錄的類別名稱及被收錄的數(shù)量(見圖3)。此外,可視化系統(tǒng)還提供多個(gè)可操作的功能,如條形圖可轉(zhuǎn)化為線形圖,且圖形可被導(dǎo)出為PNG格式的文件保存和使用;(2)餅圖展示的信息除了作品總量、更新時(shí)間、分布指標(biāo)名稱和數(shù)量外,還提供每個(gè)分布指標(biāo)在所有資源中所占的比例(見圖4)。此外可操作功能還包括可以只選擇某幾個(gè)用戶關(guān)心的分布指標(biāo)進(jìn)行單獨(dú)的對(duì)比和分析。在點(diǎn)擊數(shù)據(jù)視圖按鈕后,會(huì)向用戶提供文本格式的數(shù)據(jù)分布信息。同樣,餅圖也可以導(dǎo)出為PNG格式的文件供用戶保存和使用。
3.3 發(fā)文量與被引頻次排行
發(fā)文量與被引頻次排行包括研究人員發(fā)文量排行(見圖5)和被引頻次排行(見圖6)兩大類,其中發(fā)文量排行包括研究人員總發(fā)文量、SCI發(fā)文量和CSCD發(fā)文量排行三個(gè)子功能,被引頻次排行分為研究人員發(fā)表論文總被引頻次、SCI被引頻次和CSCD被引頻次排行以及論文SCI被引頻次和CSCD被引頻次排行五個(gè)子功能。用戶可以通過設(shè)置發(fā)表時(shí)間
區(qū)間了解機(jī)構(gòu)在不同時(shí)間區(qū)間內(nèi),有較高學(xué)術(shù)貢獻(xiàn)
的研究人員和有較高學(xué)術(shù)價(jià)值的知識(shí)作品。每一類排行按發(fā)文數(shù)量或被引頻次選擇排在最前的20位進(jìn)行展示。
研究人員發(fā)文量和發(fā)文被引頻次排行展示的信息包括作者姓名、總發(fā)文數(shù)量、被SCI收錄或SCI被引頻次數(shù)量、被EI收錄的作品數(shù)量、被CSCD收錄或CSCD被引頻次數(shù)量以及作者所屬的研究單元,同時(shí)在排行的下方會(huì)說明構(gòu)成排行數(shù)據(jù)的條件、數(shù)據(jù)最近更新時(shí)間以及一些術(shù)語(yǔ)的釋義。此外,用戶通過點(diǎn)擊排行中的作者姓名可以鏈接到以該作者姓名為檢索詞的作者作品檢索結(jié)果界面,供用戶進(jìn)一步瀏覽和分析。
論文被引頻次排行展示的信息包括論文的題名、(SCI、CSCD)被引頻次數(shù)量以及論文的作者。同時(shí),用戶可以點(diǎn)擊論文題名,跳轉(zhuǎn)到作品詳細(xì)信息及在線閱覽界面。此外,同樣提供排行選取數(shù)據(jù)的說明、數(shù)據(jù)最近更新時(shí)間以及一些術(shù)語(yǔ)的釋義。
3.4 關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)圖譜
關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)圖譜包括關(guān)鍵詞共獻(xiàn)和作者合作網(wǎng)絡(luò)兩類(見圖7)。用戶可以通過設(shè)置發(fā)表時(shí)間區(qū)間了解機(jī)構(gòu)在不同時(shí)間區(qū)間內(nèi)研究主題的演化過程,以及研究團(tuán)隊(duì)的變化情況。同時(shí),還可以查看在所選時(shí)間區(qū)間內(nèi)主題詞群的聚合情況以及主要研究團(tuán)隊(duì)的構(gòu)成,并可反映研究主題以及研究團(tuán)隊(duì)之間的關(guān)聯(lián)關(guān)系。
論文關(guān)鍵詞共現(xiàn)圖譜中每個(gè)節(jié)點(diǎn)代表一個(gè)關(guān)鍵詞,為了提高圖譜的表現(xiàn)力和可讀性,在構(gòu)圖前系統(tǒng)已經(jīng)對(duì)節(jié)點(diǎn)進(jìn)行了篩選和分類。其中紅色節(jié)點(diǎn)表示熱點(diǎn)關(guān)鍵詞,即在條件設(shè)定的范圍內(nèi)被多個(gè)條目標(biāo)注的關(guān)鍵詞。熱點(diǎn)關(guān)鍵詞節(jié)點(diǎn)的數(shù)量不多于50個(gè)。此外,還有藍(lán)色節(jié)點(diǎn)表示的相關(guān)關(guān)鍵詞。相關(guān)關(guān)鍵詞是與熱點(diǎn)關(guān)鍵詞有共現(xiàn)關(guān)系的其他非熱點(diǎn)關(guān)鍵詞。圖譜中所有節(jié)點(diǎn)的大小表示當(dāng)前關(guān)鍵詞被條目標(biāo)注數(shù)量的多少。圖譜中的連線表示兩個(gè)關(guān)鍵詞間有共現(xiàn)關(guān)系,連線的粗細(xì)表示兩個(gè)關(guān)鍵詞間關(guān)聯(lián)度的強(qiáng)弱,關(guān)聯(lián)度越強(qiáng)的關(guān)鍵詞在圖譜中聚合的越緊密(見圖7(a))。此外,從可操作的角度,圖譜還支持對(duì)節(jié)點(diǎn)的拖拽以及選擇只瀏覽熱點(diǎn)關(guān)鍵詞或關(guān)聯(lián)關(guān)鍵詞網(wǎng)絡(luò)的功能。同時(shí)也可以將圖譜導(dǎo)出為PNG格式文件。另外,從支持信息可視化的角度,當(dāng)用戶點(diǎn)擊圖譜中的節(jié)點(diǎn)時(shí),會(huì)返回以當(dāng)前關(guān)鍵詞為檢索詞的條目檢索結(jié)果;點(diǎn)擊連線后,會(huì)返回以所點(diǎn)擊連線相關(guān)的兩個(gè)關(guān)鍵詞以“AND”邏輯關(guān)系組合后查詢得到的檢索結(jié)果。
作者合作網(wǎng)絡(luò)圖譜中,每個(gè)節(jié)點(diǎn)代表一個(gè)作者。同樣,在構(gòu)圖前系統(tǒng)已經(jīng)對(duì)節(jié)點(diǎn)進(jìn)行了篩選和分類。其中紅色節(jié)點(diǎn)表示活躍作者,即在條件設(shè)定的時(shí)間區(qū)間內(nèi)發(fā)文量較多的作者?;钴S作者節(jié)點(diǎn)的數(shù)量不多余30個(gè)。藍(lán)色節(jié)點(diǎn)表示相關(guān)作者。相關(guān)作者是與活躍作者有共現(xiàn)關(guān)系的其他非活躍作者。在圖譜中的所有節(jié)點(diǎn)的大小表示當(dāng)前作者在條件設(shè)定時(shí)間區(qū)間內(nèi)發(fā)文量的多少。圖譜中的連線,表示兩個(gè)作者間有共著關(guān)系,連線的粗細(xì)表示兩個(gè)作者間關(guān)聯(lián)度的強(qiáng)弱。關(guān)聯(lián)度越強(qiáng)的作者在圖譜中的位置越靠近(見圖7(b))。此外,作者合作網(wǎng)絡(luò)圖譜也支持對(duì)節(jié)點(diǎn)的拖拽以及選擇某一類節(jié)點(diǎn)構(gòu)成合作網(wǎng)絡(luò)的功能,同時(shí)也導(dǎo)出為圖像的功能。在信息可視化方面,當(dāng)點(diǎn)擊圖譜中的節(jié)點(diǎn)時(shí),會(huì)返回以當(dāng)前作者為檢索詞的條目檢索結(jié)果;點(diǎn)擊連線,會(huì)返回所有兩個(gè)作者合著的作品。
4 案例及應(yīng)用效果
目前,本文所述的知識(shí)分析及可視化功能已經(jīng)嵌入到中科院機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)CSpace 4.0中,并已在中科院100多家研究所完成部署。從目前該功能在已部署研究所的使用情況來看,整體反映良好,可以展現(xiàn)出研究所機(jī)構(gòu)知識(shí)庫(kù)的建設(shè)概況、機(jī)構(gòu)的主要研究方向以及研究團(tuán)隊(duì)的構(gòu)成和關(guān)聯(lián)情況,初步達(dá)到了該應(yīng)用最初設(shè)計(jì)的目標(biāo)。
但是知識(shí)分析的結(jié)果,以及最終圖形化表現(xiàn)的效果,與機(jī)構(gòu)知識(shí)庫(kù)中資源的數(shù)量和元數(shù)據(jù)質(zhì)量有著直接的關(guān)系。以目前的情況來看,以中科院文獻(xiàn)情報(bào)中心和山地災(zāi)害與環(huán)境研究所為代表的30多家機(jī)構(gòu)和研究所因在機(jī)構(gòu)知識(shí)庫(kù)資源建設(shè)過程中比較重視元數(shù)據(jù)的質(zhì)量和作品認(rèn)領(lǐng)信息的完善,分析結(jié)果和可視化的作用與表現(xiàn)力相對(duì)較好;另有40多家機(jī)構(gòu)和研究所因作品認(rèn)領(lǐng)和用戶信息暫時(shí)不太完善,在作者合作網(wǎng)絡(luò)的可視化效果上仍有欠缺;其余研究所因關(guān)鍵詞、收錄信息等元數(shù)據(jù)建設(shè)不完善,導(dǎo)致學(xué)術(shù)貢獻(xiàn)排行和關(guān)聯(lián)網(wǎng)絡(luò)圖譜的展示效果不夠理想。針對(duì)以上問題,項(xiàng)目組也在繼續(xù)跟蹤并努力解決資源數(shù)量及元數(shù)據(jù)質(zhì)量的問題。如通過iSwitch接口,幫助研究所用機(jī)器的方式,提高機(jī)構(gòu)知識(shí)資源存繳的效率并輔助完善元數(shù)據(jù)的質(zhì)量。同時(shí),根據(jù)研究所機(jī)構(gòu)知識(shí)庫(kù)的數(shù)據(jù)量,動(dòng)態(tài)調(diào)整一些構(gòu)圖的參數(shù),使視圖具有更好的可讀性。
5 結(jié)語(yǔ)
本研究主要是基于中科院機(jī)構(gòu)知識(shí)庫(kù)系統(tǒng)進(jìn)行知識(shí)分析和可視化功能的開發(fā)和應(yīng)用,為用戶提供了多角度知識(shí)資源分布、發(fā)文量和被引頻次排行以及關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)圖譜三項(xiàng)服務(wù)功能。通過豐富的可視化模型,良好的人機(jī)交互環(huán)境,輔助科研人員進(jìn)行知識(shí)創(chuàng)新并為機(jī)構(gòu)管理人員利用機(jī)構(gòu)知識(shí)庫(kù)開展基于知識(shí)的發(fā)展規(guī)劃提供數(shù)據(jù)依據(jù)。同時(shí)也是在機(jī)構(gòu)知識(shí)庫(kù)資源建設(shè)達(dá)到一定程度后,為機(jī)構(gòu)知識(shí)庫(kù)賦予的一種新的服務(wù)模式。
知識(shí)分析和可視化技術(shù)在機(jī)構(gòu)知識(shí)庫(kù)中的應(yīng)用有著非常廣闊的前景,本研究目前的成果還只是這個(gè)研究方向中的冰山一角。如何利用機(jī)構(gòu)知識(shí)庫(kù)中的大量資源去分析和挖掘深層次的信息,并以數(shù)據(jù)可視化、信息可視化以及知識(shí)可視化的形式無縫的嵌入到科研人員的知識(shí)創(chuàng)新流程和管理人員的機(jī)構(gòu)發(fā)展規(guī)劃過程中,將是項(xiàng)目未來繼續(xù)努力和追求的目標(biāo)。
參考文獻(xiàn):
[1] 張曉林.機(jī)構(gòu)知識(shí)庫(kù)的發(fā)展趨勢(shì)與挑戰(zhàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2014(2):1-7.
[2] McCormick B,Defanti T,Brown M.Visualization in scientific Computing:Report of the NSF Advisory Panel on Graphics[R].Image Processing and Workstations,1987.
[3] Vitaly Friedman.Data Visualization:Modern Approaches[EB/OL].[2015-07-12].http://www.smashingmagazine.com/2007/08/02/data-visualization-modern-approaches/.
[4] Robertson G,CARD S K,Mackinlay J D.The Cognitive Co-processor for Interactive User Interfaces[C].In:Proceedings of the ACM SIGGRAPH Symposium on User Interface Software and Technology,1989:10-18.
[5] EPPLER M J,BRUKARD R A.Knowledgevisualization:towards a new discipline and its fields of application[D].Lugano:University of Lugano,2004.
[6] Thomson Data Analyzer[EB/OL].[2015-07-12].http://www.thomsonscientific.com.cn/productsservices/TDA/.
[7] Chaomei Chen.CiteSpace II:Detecting and visualizing emerging trends and transient patterns in scientific literature[J].Journal of the American Society for Information Science and Technology,2006,57(3):359–377.
[8] Cornell University VIVO[EB/OL].[2015-07-12].http://vivo.cornell.edu/.
[9] 香港大學(xué)學(xué)術(shù)庫(kù)[EB/OL].[2015-07-12].http://hub.hku.hk.
[10] 西安交通大學(xué)機(jī)構(gòu)知識(shí)門戶[EB/OL].[2015-07-12].http://www.ir.xjtu.edu.cn/jspui/index.
[11] 錢力,師洪波,張曉林,等.開放獲取論文推送轉(zhuǎn)發(fā)服務(wù)系統(tǒng)iSwitch:論文分發(fā)推送[J].現(xiàn)代圖書情報(bào)技術(shù),2015(6):7-12.
[12] 劉巍,祝忠明,張旺強(qiáng),等.機(jī)構(gòu)知識(shí)庫(kù)中作者標(biāo)識(shí)與作品認(rèn)領(lǐng)機(jī)制的研究與實(shí)現(xiàn)[J].現(xiàn)代圖書情報(bào)技術(shù),2014(3):8-13.
作者簡(jiǎn)介: 劉巍(1980-),男,中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心副研究館員;祝忠明(1968-),男,中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心研究館員;張旺強(qiáng)(1985-),男,中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心館員;姚曉娜(1985-),女,中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心館員;王思麗(1985-),女,中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心館員。