摘 要:在互聯(lián)網(wǎng)發(fā)達和信息膨脹的時代,文獻信息數(shù)量激增、多維屬性特征和信息之間的隱含關系等問題增加了科研用戶文獻信息理解的難度,文獻信息管理成為學術界關注的問題。本文著眼于文獻信息管理的視覺,從文獻信息的網(wǎng)絡收集和提取入手,利用網(wǎng)絡可視化工具,研究文獻信息管理的網(wǎng)絡可視化作用機理,構建了文獻信息傳遞對網(wǎng)絡可視化影響框架,進一步探討了網(wǎng)絡可視化促進文獻信息管理的積極作用,從而說明網(wǎng)絡可視化在文獻信息管理中的重要性。本文的研究結果豐富了現(xiàn)有的文獻信息管理體系。
關鍵詞:網(wǎng)絡可視化;信息管理;網(wǎng)絡信息
0 引言
文獻信息管理是圖書情報領域研究的重要部分,在信息管理和情報研究等方面發(fā)揮了積極作用[1-3]。在互聯(lián)網(wǎng)環(huán)境下,管理者通過系統(tǒng)的信息收集、提取、加工和分析,利用網(wǎng)絡資源,整合文獻信息資源,形成文獻信息管理系統(tǒng),應用多種方式從多個維度動態(tài)的追蹤文獻信息,發(fā)揮文獻信息管理作用,從而滿足科研用戶需求并為科研管理和咨詢服務。文獻信息管理工作的最終目標是任何人在任何時候、任何地點,均可從任一文獻信息源獲得任何文獻信息資源。經(jīng)過近一個世紀的發(fā)展,文獻信息管理被廣泛應用于多個研究領域,并形成了特有的研究體系。
文獻數(shù)據(jù)具有多樣化特征,主要來源于圖書、學術期刊、學位論文、專利等,是文獻信息管理研究的基礎[4]。隨著科學技術和創(chuàng)新知識體系的發(fā)展,文獻數(shù)量呈現(xiàn)幾何倍數(shù)的增長。由于互聯(lián)網(wǎng)技術的廣泛應用,文獻呈多樣化形式,越來越多的文獻以電子文件、文本文件等形式出現(xiàn)在網(wǎng)絡上。面對如此龐大的文獻數(shù)據(jù),人工收集文獻信息已經(jīng)變得如此繁瑣和困難。與此同時,互聯(lián)網(wǎng)技術為文獻信息收集提供了便利。對文獻信息歸納、總結、分類等,利用計量方法將其轉化為文獻數(shù)據(jù)。但是,由于有效信息提取難度大,人們無法直接獲知龐大數(shù)據(jù)中隱含的信息和未被認知的知識。如何從海量的、復雜的文獻數(shù)據(jù)中提取有效信息成為文獻計量學待解決的問題。數(shù)據(jù)處理技術在不斷的發(fā)展以適應時代的需求,且在處理海量數(shù)據(jù)方面獲得突破性進展[5]??蒲腥藛T通過數(shù)據(jù)處理技術獲取文獻數(shù)據(jù)包含的信息規(guī)律和知識結構。
網(wǎng)絡可視化技術作為信息可視化的一種,利用人類視覺感知,直觀地展示文獻信息多元要素的內(nèi)在聯(lián)系,從而解釋網(wǎng)絡結構數(shù)據(jù)隱含的語義信息,揭示隱藏在數(shù)據(jù)背后的知識結構[6,7]。隨著信息技術在文獻信息管理領域的應用,文獻互引網(wǎng)絡、科研人員合著等數(shù)據(jù)越來越多,傳統(tǒng)的表達方式無法充分展現(xiàn)信息關聯(lián)的網(wǎng)絡結構。網(wǎng)絡可視化借助文獻計量學方法將龐大的文獻信息要素及要素間關系進行圖形展示,從而揭示特定主題、研究熱點、發(fā)展趨勢等問題,有助于理清文獻信息的知識脈絡、分析知識結構的演化過程,輔助科研人員對文獻信息進行管理和評估,有助于預測未來發(fā)展[8,9]。
本文圍繞文獻信息管理的網(wǎng)絡可視化技術,著重分析網(wǎng)絡可視化方法的作用機理。文獻信息的網(wǎng)絡可視化一直是可視化研究中的熱門問題,受到了國內(nèi)外學者廣泛關注。本文以文獻信息管理和認知科學為基礎,針對科技文獻的自有特征和本質(zhì)屬性,利用文獻計量學方法,探索網(wǎng)絡可視化在文獻信息管理領域的系統(tǒng)研究,為網(wǎng)絡可視化在文獻信息管理領域的科學實踐提供理論指導,促進文獻信息管理水平的全方位提升。
1 文獻信息提取研究
隨著互聯(lián)網(wǎng)的普及,文獻信息存儲方式由傳統(tǒng)的儲存轉變到網(wǎng)絡存儲。專業(yè)學術網(wǎng)絡數(shù)據(jù)庫通過科學數(shù)據(jù)存儲與文獻資料庫的資源整合實現(xiàn)了電子文獻和傳統(tǒng)文獻的關聯(lián)[8]。網(wǎng)絡數(shù)據(jù)庫為文獻信息存儲提供了平臺。當前,學術機構購買了學術網(wǎng)絡數(shù)據(jù)庫,科研用戶通過指定查詢渠道能夠獲取文獻信息。學術網(wǎng)絡數(shù)據(jù)庫中文獻信息以不同形式在網(wǎng)頁上顯示出來。此外,科技文獻官方網(wǎng)站、第三方信息檢索平臺、研究機構的信息管理系統(tǒng)等為文獻數(shù)據(jù)網(wǎng)絡化提供了數(shù)據(jù)來源。但是,不同的文獻信息系統(tǒng)沒有統(tǒng)一標準,并且不同國家和區(qū)域對科技文獻出版物管理要求不一致。因此。到目前為止沒有統(tǒng)一的文獻信息管理系統(tǒng)??蒲杏脩敉ㄟ^網(wǎng)絡數(shù)據(jù)庫、網(wǎng)站等收集科學研究所需的文獻信息,并分析文獻信息獲取知識信息、研究科技動態(tài)以滿足科研需求,為文獻信息管理提供決策支持建議。在信息化時代,文獻信息是對文獻數(shù)量、屬性、特征和相互關系的概括,作為一種社會資源受到廣泛的關注[10]。如何通過網(wǎng)絡提取有效的文獻信息是科學研究的重要組成部分。
經(jīng)過半個世紀的發(fā)展,文獻信息提取技術經(jīng)歷了從自然語言中獲取結構化的信息到從互聯(lián)網(wǎng)的網(wǎng)頁中獲取結構化或者非結構化信息的過程,由此出現(xiàn)了多種文獻提取方法?;谧匀徽Z言的信息提取方法[11,12]、基于本體的信息提取方法[13]、基于隱形馬爾科夫的信息提取方法[14]和基于DOM樹結構的方法[15,16]是常用的網(wǎng)絡信息提取方法。雖然這些方法大大提高了文獻信息提取效率,并擴大文獻信息提取范圍,但是這五種方法在提取網(wǎng)絡文獻信息過程中存在不同方面的缺陷,分別表現(xiàn)在,大量不完整信息被采集、不適用于新生領域的文獻信息提取、模型參數(shù)設置需要花費較高的人力和無關噪聲信息被提取。文獻信息提取的基本步驟如下,首先,對學術信息的結果進行收集和歸納;其次,提取符合需求的信息[12,15]。因此,有序的信息提取操作步驟保障了文獻數(shù)據(jù)的精準性。
隨著研究的深入,自動化、智能化文獻信息提取方式不斷出現(xiàn)。計算機技術的發(fā)展為從互聯(lián)網(wǎng)中提取文獻信息提供了便利。借助計算機技術,國外研發(fā)機構開發(fā)了網(wǎng)絡信息提取系統(tǒng),例如,SRI機構開發(fā)的FASTUS 系統(tǒng),BBN公司的SIFT系統(tǒng)和美國紐約大學的Proteus系統(tǒng)被應用于網(wǎng)絡信息提取。這些系統(tǒng)在信息提取方面具有通用性,但是這些系統(tǒng)依賴于網(wǎng)頁結構化。對于非結構化網(wǎng)頁,這些系統(tǒng)提取信息的效率較低。
上述研究是關于網(wǎng)絡信息提取方法在文獻信息管理領域的應用,文獻信息提取為研究網(wǎng)絡可視化提供了一個數(shù)據(jù)集。提取到的文獻信息用計量學方法進行處理后得到這個數(shù)據(jù)集,即文獻信息被轉換成一個數(shù)據(jù)集。這個數(shù)據(jù)集包含了大量信息,覆蓋了文獻信息的多個方面。網(wǎng)絡數(shù)據(jù)提取文獻信息的方法被廣泛用于科技評價和科研管理中,實現(xiàn)了文獻信息的有效采集,有助于信息共享,為科研數(shù)據(jù)采集提供了便利條件。
2 網(wǎng)絡可視化作用機理分析
網(wǎng)絡可視化本質(zhì)是將抽象的、難以理解的、復雜結構的文獻數(shù)據(jù)以圖形或圖像展示出來,作為協(xié)助科研用戶了解知識網(wǎng)絡結構并發(fā)現(xiàn)隱含文獻信息的一種方式。網(wǎng)絡可視化利用人類視覺系統(tǒng)對圖形或圖像識別能力,達到快速理解和認知文獻數(shù)據(jù)的目的。信息可視化理論是網(wǎng)絡可視化理論基礎[17,18]。在信息技術不斷發(fā)展的背景下,文獻信息管理與文獻管理需求之間的矛盾不斷升級。網(wǎng)絡可視化能夠提升信息認知效率,因此,網(wǎng)絡可視化為文獻信息管理的重要內(nèi)容和新發(fā)展趨勢,并且具有綜合化、網(wǎng)絡化和復雜化趨勢[19]。網(wǎng)絡可視化以計算機圖形學和圖像處理技術為基礎,把提取的文獻信息轉化為數(shù)據(jù)集通過信息處理和編碼技術以多維圖形形式展示出來,從而將所需的知識結構從海量的數(shù)據(jù)里識別出來。這是一個文獻信息傳遞的過程。
如圖1所示,從文獻信息傳遞過程來說,可以從網(wǎng)絡數(shù)據(jù)庫、互聯(lián)網(wǎng)媒介、文獻信息收集和網(wǎng)絡可視化這條路徑入手。圖1的上半部分是網(wǎng)絡可視化的基本步驟,下半部分是文獻信息數(shù)據(jù)挖掘過程,作為文獻信息傳遞的非逆向路徑,可以發(fā)現(xiàn)文獻信息數(shù)據(jù)處理流程,結合美學布局要求將節(jié)點和邊放置在合適位置,從而使網(wǎng)絡結構以科學的、合理的方式展示出來,進而解讀文獻信息的知識結構,引導文獻信息有效傳遞。文獻信息在正向傳遞中流動,實現(xiàn)從文獻信息到知識結構解讀之間的協(xié)調(diào)運轉。
結合圖1中信息傳遞過程,接下來闡述網(wǎng)絡可視化影響路徑。網(wǎng)絡可視化的信息傳遞過程涉及到文獻數(shù)據(jù)、網(wǎng)絡可視化方式、信息接收對象的認知水平和認知能力三方面內(nèi)容。也就是,研究人員選定具體的研究對象,將研究所需文獻信息進行收集,通過網(wǎng)絡可視化方式向科研用戶展示知識信息和知識結構。該流程是文獻信息管理過程中信息流向的步驟。網(wǎng)絡可視化方式對文獻信息管理的影響作用路徑如圖2所示。
在文獻信息傳遞過程中,網(wǎng)絡可視化方式展示文獻知識信息,對信息資源的傳遞有直接影響。文獻信息表達方式發(fā)生變化會影響信息質(zhì)量傳遞,從而干涉科研人員的判斷,直接影響文獻信息管理水平。多種可視化表達形式和輔助手段將文獻信息生動、形象的展示出來,提高科研用戶對文獻信息的認知能力,從而促進文獻信息管理的進一步提升。文獻信息的網(wǎng)絡可視化方式有利于海量數(shù)據(jù)、復雜性研究等問題的轉化。因此,網(wǎng)絡可視化是提升文獻信息管理的一種有效途徑。
文獻信息管理的網(wǎng)絡可視化方式是借助互聯(lián)網(wǎng)媒介或其他載體,通過科研人員收集-提取-傳遞-利用的過程,最終實現(xiàn)信息傳遞與信息管理系統(tǒng)關聯(lián)。文獻信息屬性和特征分別體現(xiàn)在文獻信息傳遞對象和傳遞內(nèi)容中,文獻信息質(zhì)量保障信息傳遞的真實性和準確性,因此,科研人員需要對文獻信息進行深入分析,使網(wǎng)絡可視化方式科學、合理的應用于科研人員分析文獻信息,文獻信息對網(wǎng)絡可視化影響效果如圖3所示。
在網(wǎng)絡可視化過程中,一方面,由于缺乏統(tǒng)一的文獻信息管理管理平臺,文獻信息數(shù)據(jù)來源于多個數(shù)據(jù)庫或網(wǎng)頁導致大量多源異構文獻信息數(shù)據(jù)的存在,因此文獻信息數(shù)據(jù)多樣性和標準不一致的問題暴露出來。另一方面,提取文獻信息在空間和時間有一定的局限性,文獻信息管理面臨著信息資源開發(fā)利用的限制,導致了文獻信息共享能力差和信息挖掘不足。這些因素都影響了網(wǎng)絡可視化的展示(如圖3所示)。
3 可視化網(wǎng)絡展示和分析
圖形是表達信息的一種視覺語言,在多元信息轉換中,圖形能夠憑借直觀、清晰、易懂的優(yōu)勢成為網(wǎng)絡可視化的表達形式。本文研究了網(wǎng)絡可視化在文獻信息管理中應用的機理,探索網(wǎng)絡可視化展示??蒲腥藛T對文獻信息進行處理,構建數(shù)據(jù)集,選取符合需求的數(shù)據(jù)進行圖形化展示,即網(wǎng)絡可視化將繁雜信息用圖形化語言呈現(xiàn)。網(wǎng)絡可視化是在傳統(tǒng)信息表達方式上發(fā)展起來的,同時保障信息表達的準確,成為信息表達的重要方式[6,17]。
本文借助網(wǎng)絡可視化工具,通過網(wǎng)絡屬性和網(wǎng)絡特征,構建可視化網(wǎng)絡。從文獻信息資源視覺而言,網(wǎng)絡可視化是對文獻數(shù)據(jù)可視化處理后,從文獻數(shù)據(jù)中獲取文獻信息點及其相互間聯(lián)系的文獻信息結構。具體的過程是,首先,以網(wǎng)絡數(shù)據(jù)庫和網(wǎng)頁為數(shù)據(jù)源,定義節(jié)點屬性,確立節(jié)點間關系;然后,利用網(wǎng)絡表達方式,直觀的展示信息網(wǎng)絡結構。其中,節(jié)點間關系是網(wǎng)絡屬性的固有特征,因此,網(wǎng)絡節(jié)點間關系是不隨網(wǎng)絡可視化技術和網(wǎng)絡可視化方式的變化而改變。網(wǎng)絡可視化工具是可視化網(wǎng)絡展示的載體,常用的網(wǎng)絡可視化工具主要有計算機語言(JAVA、Visual Basic、C、Visual C++、VS、FORTRAN等)、編程軟件(R語言、MATLAB等)和專業(yè)的網(wǎng)絡構建工具(iCharts、Fusion Charts Suit XTZ、RAW等)。
可視化網(wǎng)絡是將文獻信息的關聯(lián)關系反映在一個相互聯(lián)系的網(wǎng)絡圖中,即一個圖形中的節(jié)點相互聯(lián)系,構成一個相互作用的網(wǎng)絡。網(wǎng)絡屬性的差異直接影響網(wǎng)絡可視化結果和網(wǎng)絡拓撲學屬性??梢暬W(wǎng)絡圖由節(jié)點和節(jié)點間連線兩大要素構成。從節(jié)點類別來說,可視化網(wǎng)絡圖包括單元素網(wǎng)絡圖和多元素網(wǎng)絡圖;從節(jié)點間連線指向來說,可視化網(wǎng)絡圖分為有向網(wǎng)絡圖和無向網(wǎng)絡圖(如圖4所示)。
可視化網(wǎng)絡在圖書情報領域的應用推動了文獻信息管理的深化。根據(jù)可視化網(wǎng)絡圖形,分析某一類別或某一范圍內(nèi)的文獻,研究文獻的科學事實、概念、原理、定律、公式等理論和方法有機組合或者主體、客體、媒介等在多維度空間中的趨勢或動態(tài)、相互關聯(lián)關系。文獻數(shù)據(jù)的可視化網(wǎng)絡為文獻信息管理服務。由于文獻信息管理是一個復雜系統(tǒng),有自身特有的屬性和過程,受到學科分類、科技水平、社會需求等多種因素的影響[20]。文獻數(shù)據(jù)的網(wǎng)絡可視化加深了人們對復雜文獻數(shù)據(jù)的認知和理解。因此,解讀文獻數(shù)據(jù)的可視化網(wǎng)絡圖應結合文獻信息的特性,這樣才能為文獻信息管理提供可靠的理論基礎和現(xiàn)實指導。
4 結論
在信息時代,海量文獻數(shù)據(jù)的分析和處理是科研人員面對的重要問題。從這些復雜、不規(guī)則的文獻文本或者文件中找出有價值的信息和知識,從而為文獻信息管理服務,是一個有意義的研究課題。網(wǎng)絡可視化為文獻數(shù)據(jù)展示提供了技術支持,被廣泛應用于多個研究領域,并在科學研究過程發(fā)揮重要作用[6,19]。為了推廣網(wǎng)絡可視化應用和簡化網(wǎng)絡可視化過程,網(wǎng)絡可視化軟件提供了信息交互平臺,使科研用戶在不同層面和多個維度觀察文獻信息的知識結構。為了進一步滿足科研用戶對文獻信息追蹤的需求,部分網(wǎng)絡可視化軟件還能提供動態(tài)監(jiān)測功能,使科研用戶隨時觀察到可視化網(wǎng)絡圖的結構變化,從而進一步提升文獻信息網(wǎng)絡可視化展示的質(zhì)量。
本文針對海量文獻數(shù)據(jù)的現(xiàn)狀,給出了網(wǎng)絡可視化技術在文獻信息管理中的機理分析,并闡述了網(wǎng)絡可視化展示方式。通過文獻信息的可視化網(wǎng)絡圖,科研人員發(fā)現(xiàn)文獻信息要素的關聯(lián)關系和文獻信息中包含的知識結構。本文主要著眼于網(wǎng)絡可視化技術解決文獻信息管理中的信息展示問題,此方法借用計算機科學技術研究數(shù)據(jù)挖掘的方法,通過文獻信息提取,對數(shù)據(jù)進行加工和處理。本文利用節(jié)點和連線構建網(wǎng)絡圖,遵循視覺感知和網(wǎng)絡構建規(guī)則優(yōu)化可視化結果,形象展示了節(jié)點間的關聯(lián)關系,從而為文獻信息管理服務,豐富文獻信息管理體系。
基金項目:本研究得到2016年度中國博士后科學基金項目的資助(項目編號:2016M591265)。
參考文獻
[1] Weingart P. Impact of bibliometrics upon the science system: Inadvertent consequences? [J].Scientometrics, 2005,62(1):117-131.
[2] Adams J. Bibliometrics: The citation game [J]. Nature, 2014,510(7506):470-471.
[3] Xiao Y, Lu L, Liu J, Zhou Z. Knowledge diffusion path analysis of data quality literature: A main path analysis [J]. Journal of Informetrics, 2014,8(3):594-605.
[4] Pooladian A, Borrego ?. A longitudinal study of the bookmarking of library and informationscience literature in mendeley [J]. Journal of Informetrics, 2016,10(4):1135-1142.
[5] Chen H, Chiang RHL, Storey VC. Business intelligence and analytics: From big data to big impact [J].Mis Quarterly, 2012,36(4):1165-1188.
[6] Xia M, Wang J, He Y. Brainnet viewer: A network visualization tool for human brain connectomics[J]. PloS one, 2013,8(7):1932-6203.
[7] 毛進, 李綱. 一種基于OKM的研究領域專家圖譜構建方法 [J]. 圖書情報工作, 2014,58(14):34-40.
[8] 陳葉葉, 周通. 國內(nèi)網(wǎng)絡輿情治理研究的可視化分析——基于科學知識圖譜的方法(CNKI) [J]. 情報科學, 2016,34(11):101-106.
[9] Salavert F, Garcíaalonso L, Sánchez R, et al. Web-based network analysis and visualization usingcellmaps [J]. Bioinformatics, 2016,32(19):3041-3043.
[10] 丁敬達, 朱夢月. 信息管理學科計量學研究的新突破——評邱均平教授等著的《知識計量學》[J]. 圖書情報工作, 2014,58(22):146-148.
[11] 盧延鑫. 基于自然語言處理技術的循證醫(yī)學信息提取研究[D]. 復旦大學, 2011.
[12] Nath C, Albaghdadi MS, Jonnalagadda SR. A natural language processing tool for large-scale dataextraction from echocardiography reports [J]. PloS one, 2016,11(4):1932-6203.
[13] 司成, 張紅旗, 汪永偉, 楊英杰. 基于本體的網(wǎng)絡安全態(tài)勢要素知識庫模型研究 [J]. 計算機科學,2015,42(5):173-177.
[14] Ghamisi P, Benediktsson JA, Ulfarsson MO. Spectral–spatial classification of hyperspectral imagesbased on hidden markov random fields [J]. IEEE Transactions on Geoscience and Remote Sensing,2014,52(5):2565-2574.
[15] 朱學芳, 馮曦曦. 基于文本內(nèi)容的農(nóng)業(yè)網(wǎng)頁信息抽取和分類研究 [J]. 情報科學, 2012,30(7):1012-1015.
[16] 馬金娜. 基于DOM樹節(jié)點重要度的Web主題信息提取研究[D]. 西南大學, 2016.
[17] 楊良斌, 周新麗, 劉益佳, 胡林莉, 曾錦霖. 近10年來國際網(wǎng)絡安全領域研究現(xiàn)狀與趨勢的可視化分析 [J]. 情報雜志, 2017,36(1):92-100.
[18] 尹麗春, 殷福亮, 姜春林, 王友強. 基于CSCD和SCI的跨省區(qū)科學合作網(wǎng)絡可視化分析 [J]. 圖書情報工作, 2007,51(8):62-64.
[19] 梁艷琪, 彭博, 高勁松. 基于JASIS的科研合著網(wǎng)絡可視化研究 [J]. 情報雜志, 2015,34(8):87-91.
[20] Galliers RD, Leidner DE. Strategic information management: Challenges and strategies inmanaging information systems [M]. Routledge, 2014.
作者簡介
宋鴻芳,1983年生,女,博士,博士后,研究方向:文獻計量,科技評價。