秦長江 侯漢清
摘要概述知識圖譜的概念和主要應(yīng)用領(lǐng)域,明確與知識地圖、信息可視化、知識管理之間的關(guān)系,簡介構(gòu)建知識圖譜的理論、關(guān)鍵技術(shù)、相關(guān)軟件,總結(jié)知識圖譜的發(fā)展歷史、國內(nèi)研究存在的不足和國內(nèi)外最新研究進(jìn)展,提出建議和對策。
關(guān)鍵詞知識圖譜信息管理知識管理
1955年加菲爾德發(fā)表題為《引文索引用于科學(xué)》的論文,系統(tǒng)地提出用引文索引檢索科技文獻(xiàn)的方法,1961年開始編制面向全部科技領(lǐng)域的綜合性引文索引《科學(xué)引文索引》(簡稱SCI)并于1963年出版1965年,普賴斯借助《SCI》發(fā)表了論文《科學(xué)論文的網(wǎng)絡(luò)》,這篇論文研究了科學(xué)論文之間的引證和被引證關(guān)系,以及由此形成的引證網(wǎng)絡(luò)。普賴斯指出在這個網(wǎng)絡(luò)圖上,有密集分布的小條或小塊,如果把這些小條小塊研究清楚,就可以繪制當(dāng)代科學(xué)的“地形圖”。由此引文分析普遍開展起來,而信息技術(shù)的廣泛運用,更使得引文分析、共現(xiàn)分析等方法如虎添翼。進(jìn)入新世紀(jì)以來,知識圖譜的理論與方法,以其理論上的綜合化、方法上的可視化、描繪上的形象化等諸多特征,獲得迅猛的發(fā)展,一躍成為當(dāng)代科學(xué)計量學(xué)的研究熱點與最新前沿,研究極為活躍。但在文獻(xiàn)計量學(xué)的發(fā)源地——圖書館學(xué)情報學(xué)領(lǐng)域,知識圖譜卻不是非常重視。當(dāng)代著名情報學(xué)家加菲爾德和權(quán)威科學(xué)學(xué)家默頓都認(rèn)為:科學(xué)計量學(xué)、文獻(xiàn)計量學(xué)、信息計量學(xué)都屬于同一門學(xué)科—科學(xué)計量學(xué)。因此,本文擬對知識圖譜的理論與方法作一簡要介紹,以期引起國內(nèi)同行的重視和研究。
1知識圖譜概述
1.1知識圖譜的概念
知識圖譜(Mapping Knowledge Domain,在圖書情報界也稱為知識域可視化或知識領(lǐng)域映射地圖),是顯示知識發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識及它們之間的相互聯(lián)系。具體來說,知識圖譜是把應(yīng)用數(shù)學(xué)、圖形學(xué)、信息可視化技術(shù)、信息科學(xué)等學(xué)科的理論與方法與計量學(xué)引文分析、共現(xiàn)分析等方法結(jié)合,用可視化的圖譜形象地展示學(xué)科的核心結(jié)構(gòu)、發(fā)展歷史、前沿領(lǐng)域以及整體知識架構(gòu)的多學(xué)科融合的一種研究方法。它把復(fù)雜的知識領(lǐng)域通過數(shù)據(jù)挖掘、信息處理、知識計量和圖形繪制而顯示出來,揭示知識領(lǐng)域的動態(tài)發(fā)展規(guī)律,為學(xué)科研究提供切實的、有價值的參考。迄今為止,其實際應(yīng)用在發(fā)達(dá)國家已經(jīng)逐步拓展并取得了較好的效果,但它在我國仍屬研究的起步階段。
1.2知識圖譜與知識地圖、信息可視化、知識管理之間的關(guān)系
為了確切地理解知識圖譜的概念,首先要明確它與知識地圖、信息可視化、知識管理之間的關(guān)系:
1.2.1知識圖譜是知識地圖的一種高級表現(xiàn)形式
英國著名的情報學(xué)家布魯克斯(B.c.Brooks)在他的經(jīng)典著作《情報學(xué)基礎(chǔ)》中最早提出了“知識地圖”的概念。布魯克斯指出情報學(xué)的真正任務(wù)應(yīng)該是組織、加工和整理人類客觀知識,將知識結(jié)構(gòu)繪制成以各個知識單元概念為節(jié)點的學(xué)科“認(rèn)識地圖”,通過對文獻(xiàn)中的邏輯內(nèi)容進(jìn)行分析,找到人們思想的相互影響及聯(lián)系的結(jié)合點,從而為用戶提供知識之間關(guān)系的一種知識組織的理想狀態(tài)。布魯克斯所提出的“知識地圖”是從知識網(wǎng)絡(luò)的形式出發(fā),說明知識單元發(fā)展變化的過程,促進(jìn)知識的變化過程向理想的狀態(tài)發(fā)展。而目前信息管理界研究的應(yīng)用于知識管理的知識地圖,其思想來源于布魯克斯,但與他提出的“知識地圖”的概念是不同的。目前研究的知識地圖就是對組織知識資源總體分布情況的可視化描述,包括組織知識資源的存在情況及其載體,以及資源之間可能存在的聯(lián)系。實質(zhì)上就是利用現(xiàn)代信息技術(shù)制作的組織知識資源的總目錄和各知識條目之間關(guān)系的綜合體以及組織專家的導(dǎo)航系統(tǒng)。是利用構(gòu)造地圖的方法將各類知識資源中的知識關(guān)聯(lián)起來,使之成為一個網(wǎng)絡(luò)。IBM的The Lotus Knowledge Discovery System推出了強大的知識地圖集成方案;微軟公司的知識地圖包含了137項顯性知識及200項隱性知識。由此可見,目前研究的知識地圖建立的只是文獻(xiàn)信息之間的,最多是知識之間的一種關(guān)聯(lián),而無法說明知識單元發(fā)展變化的過程,因此,并不能稱為嚴(yán)格意義上的知識地圖。而知識圖譜正是實證研究科學(xué)共同體結(jié)構(gòu)與發(fā)展的方法,通過把最先進(jìn)的信息技術(shù)運用于知識圖譜的繪制,來實現(xiàn)動態(tài)發(fā)展著的學(xué)科知識的可視化,揭示學(xué)科發(fā)展規(guī)律。在知識圖譜中,學(xué)科前沿之間的交互關(guān)系是以空間的形式展現(xiàn)出來的,這樣就能夠探明有關(guān)學(xué)科之間的親緣關(guān)系和結(jié)構(gòu),劃定某學(xué)科的作者集體以及“無形學(xué)院”(無形學(xué)院是特定的學(xué)術(shù)社群,即具有共同信念的合作群體中的學(xué)者形成的交流網(wǎng)絡(luò)),分析推測學(xué)科間的交叉、滲透和衍生趨勢,對某一學(xué)科的產(chǎn)生背景、發(fā)展歷史、突破性成就、今后發(fā)展方向進(jìn)行分析,從而揭示學(xué)科的動態(tài)結(jié)構(gòu)。因此,知識圖譜遵循了布魯克斯“知識地圖”的思想,可以說是布魯克斯所提出的“知識地圖”的真正雛形,并向著這一理想目標(biāo)邁出了堅實的一步。
1.2.2知識圖譜是信息可視化的一個分支
信息可視化是利用計算機支撐的、交互的、對抽象數(shù)據(jù)的可視表示??梢暬夹g(shù)不僅在揭示信息資源的廣度與深度上有很大的優(yōu)勢,還能夠?qū)㈦[藏在信息資源內(nèi)部的、復(fù)雜的、抽象的語義以直觀的圖形方式呈現(xiàn)給用戶,為用戶直觀、方便獲取、過濾、理解大規(guī)模數(shù)據(jù)和信息提供了有效途徑,從而發(fā)現(xiàn)信息之間的關(guān)系特征和規(guī)律。知識可視化是將數(shù)據(jù)挖掘和知識發(fā)現(xiàn)等方法所獲得的知識和規(guī)律,尤其是知識的構(gòu)成和知識之間的邏輯關(guān)系,以及具有復(fù)雜結(jié)構(gòu)的知識,利用可視化的方法表現(xiàn)出來,使得知識便于理解。該類型的可視化可以是靜態(tài)的關(guān)聯(lián)、聚類、分類知識,也可以是反映系統(tǒng)演化規(guī)律的知識。知識圖譜就是利用信息可視化技術(shù),根據(jù)共引分析、共現(xiàn)分析等理論基礎(chǔ),構(gòu)建的一種知識之間關(guān)系的網(wǎng)絡(luò)圖,常見的網(wǎng)絡(luò)有時序網(wǎng)絡(luò)、共引網(wǎng)絡(luò)、共詞網(wǎng)絡(luò)、耦合網(wǎng)絡(luò)、合作網(wǎng)絡(luò)等。它包含了以文獻(xiàn)等信息為節(jié)點、以它們之間關(guān)系為邊的鏈型、樹型、網(wǎng)型等結(jié)構(gòu)的圖形。這些關(guān)系聚類圖的可視化包括作者、文章、期刊、關(guān)鍵詞、學(xué)科等類型,節(jié)點分別是作者、文章或期刊等,邊即權(quán)重。知識圖譜這種擴展到深層次的知識發(fā)現(xiàn)和數(shù)據(jù)挖掘領(lǐng)域中的可視化方法,在信息管理界被稱為知識領(lǐng)域可視化。因此,知識圖譜和信息檢索過程可視化、信息檢索結(jié)果可視化一樣都屬于信息可視化的一個重要分支。
1.2.3知識圖譜是知識管理中數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的有效手段
數(shù)據(jù)挖掘是從大量數(shù)據(jù)中挖掘隱含的、先前未知的、具有潛在價值的知識或規(guī)則。這些規(guī)則蘊含了數(shù)據(jù)之間的特定關(guān)系,揭示出有價值的知識¨…。數(shù)據(jù)挖掘的主要模式有聚類、關(guān)聯(lián)規(guī)則、序列模式、分類等。聚類是把一組個體按照相似屬性歸成若干類別,其目的是使得屬于同一類別的個體之間的距離盡可能小,而不同類別的個體間的距離盡可能大;
序列模式主要是分析數(shù)據(jù)間的前后序列關(guān)系;分類要解決的問題是為一個事件或?qū)ο髿w類。知識圖譜就是將數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的有關(guān)方法和模式移植到文獻(xiàn)信息之間的共引、共現(xiàn)關(guān)系上,采用關(guān)聯(lián)、序列、聚類、分類等方法進(jìn)行深層次的分析,發(fā)揮它能夠從大量的、不完全、模糊的、隨機的、事先未知的數(shù)據(jù)中自動、有效、智能地提取隱含于其中的有用信息和知識的優(yōu)勢??茖W(xué)發(fā)展的繼承性可以從引證關(guān)系上體現(xiàn)出來;通過對引證關(guān)系的挖掘分析,發(fā)現(xiàn)科學(xué)理論和方法的歷史演變過程;用共現(xiàn)、共引、耦合關(guān)系按年代分布所構(gòu)成的歷史圖和網(wǎng)狀關(guān)系進(jìn)行研究,能夠揭示學(xué)科結(jié)構(gòu)特點、研究熱點、發(fā)展源流、專業(yè)相關(guān)程度以及突破性成就、未來發(fā)展方向等。知識管理提供容易使人們理解和使用的知識,而不是分散的、復(fù)雜的、難以理解的信息單元。知識管理強調(diào)系統(tǒng)化地處理和利用信息,發(fā)掘知識內(nèi)涵,建立以先進(jìn)信息技術(shù)為基礎(chǔ)的知識管理系統(tǒng),促進(jìn)知識的廣泛共享。因此,知識圖譜方法就是知識管理的一種有效形式,在揭示信息關(guān)聯(lián)及規(guī)律方面具備其他許多方法不可比擬的優(yōu)越性和獨到之處。
1.3知識圖譜的主要應(yīng)用領(lǐng)域
知識圖譜的主要應(yīng)用領(lǐng)域包括:(1)從事科學(xué)技術(shù)活動的學(xué)術(shù)共同體和作為其知識載體的網(wǎng)絡(luò);(2)某一學(xué)科主要研究領(lǐng)域之間的內(nèi)部聯(lián)系,各研究領(lǐng)域之間的知識輸入與知識輸出;(3)研究主題的衍生、滲透與擴散趨勢;(4)學(xué)科領(lǐng)域內(nèi)顯性或編碼化的知識(作者、機構(gòu)、專利、期刊和其他出版物等)之間的關(guān)系;(5)科學(xué)社會網(wǎng)絡(luò)(科學(xué)合作網(wǎng)絡(luò))等。
2構(gòu)建知識圖譜的理論
2.1引文分析理論與共引、耦合網(wǎng)絡(luò)
所謂引文分析,就是利用各種數(shù)學(xué)及統(tǒng)計學(xué)的方法和比較、歸納、概括等邏輯方法,對科學(xué)期刊、論文、著者等各種對象的引用與被引用現(xiàn)象進(jìn)行分析,揭示其數(shù)量特征和內(nèi)在規(guī)律的一種文獻(xiàn)計量方法??茖W(xué)文獻(xiàn)的引用與被引用,說明了科學(xué)知識的繼承和利用。通過引文間的網(wǎng)狀關(guān)系進(jìn)行研究,能夠探明有關(guān)學(xué)科間的關(guān)系和某些發(fā)展規(guī)律。當(dāng)兩篇文獻(xiàn)共同出現(xiàn)在第3篇文獻(xiàn)的參考文獻(xiàn)中,這兩篇文獻(xiàn)就成為被共引的關(guān)系。共引頻率定義為這兩篇文獻(xiàn)一起被引用的頻率。一對文獻(xiàn)被共引的頻率越高,它們就越相似。兩篇文獻(xiàn)共同引用第3篇文獻(xiàn),這兩篇文獻(xiàn)就成為耦合關(guān)系,耦合頻率與共引頻率相同。利用文獻(xiàn)間的相似性特征,就能夠構(gòu)造學(xué)科的層次結(jié)構(gòu),為洞察其變化趨勢提供直觀的工具。同傳統(tǒng)的學(xué)者個人歸納、訪談?wù){(diào)查等主觀分類方法相比,共被引分析最大的優(yōu)勢是它的客觀性、分類原則的科學(xué)性和數(shù)據(jù)的有效性。共被引分析又可以分為文獻(xiàn)、期刊、作者、學(xué)科分析等。引文分析理論與共引、耦合網(wǎng)絡(luò)可以:(1)揭示科學(xué)研究間的隱含關(guān)系,發(fā)現(xiàn)學(xué)科歷史淵源,作為分析科學(xué)史的依據(jù);(2)反映學(xué)科間的交叉融合,生成學(xué)科關(guān)系圖,分析科學(xué)結(jié)構(gòu);(3)用于探索交叉學(xué)科研究前沿,尋找新的研究方向,促進(jìn)交叉學(xué)科發(fā)展等。
2.2詞頻分析理論與共詞網(wǎng)絡(luò)
詞頻分析法是利用能夠揭示或表達(dá)文獻(xiàn)核心內(nèi)容的關(guān)鍵詞或主題詞在某一研究領(lǐng)域中出現(xiàn)的頻次高低來確定該領(lǐng)域研究熱點和發(fā)展動向的文獻(xiàn)計量方法。由于一篇文獻(xiàn)的關(guān)鍵詞或主題詞是文章核心內(nèi)容的濃縮和提煉,因此,如果某一關(guān)鍵詞或主題詞在其所在領(lǐng)域的文獻(xiàn)中反復(fù)出現(xiàn),則可反映出該關(guān)鍵詞或主題詞所表征的研究主題是該領(lǐng)域的研究熱點。共詞分析方法屬于內(nèi)容分析方法的一種,它通過對一組詞兩兩統(tǒng)計它們在同一文獻(xiàn)中出現(xiàn)的次數(shù),并以此為基礎(chǔ)對這些詞進(jìn)行聚類分析,從而反映出這些詞之間的親疏關(guān)系,進(jìn)而分析這些詞所代表的學(xué)科研究熱點、主題的結(jié)構(gòu)變化和轉(zhuǎn)移趨勢。這種方法的優(yōu)點是方法靈活,結(jié)果直觀,同時詞和詞共現(xiàn)不僅出現(xiàn)在科學(xué)期刊中,也出現(xiàn)在專利和政策報告等灰色文獻(xiàn)中。共詞分析法是對當(dāng)前發(fā)表文獻(xiàn)的直接統(tǒng)計,所尋找的是當(dāng)前論文所集中關(guān)注的主題,適合尋找前沿領(lǐng)域。因為前沿領(lǐng)域的研究往往人數(shù)眾多而不集中,作品比較分散,被引用情況不穩(wěn)定,而關(guān)鍵詞卻很好地體現(xiàn)了該學(xué)科的研究熱點、發(fā)展方向。
2.3社會網(wǎng)絡(luò)分析理論與科研合作網(wǎng)絡(luò)
社會網(wǎng)絡(luò)分析(SNA)是人、集團(tuán)、組織或者其他信息與知識處理實體的關(guān)系和流動的映射和測量。網(wǎng)絡(luò)中的節(jié)點是人和集團(tuán)而鏈接表示節(jié)點間的關(guān)系或者流動。它將社會結(jié)構(gòu)界定為一個網(wǎng)絡(luò),強調(diào)的是每個行動者都與其他行動者有或多或少的關(guān)系,更多地聚焦于成員之間的聯(lián)系而非個體的特征,一個社會網(wǎng)絡(luò)是一個人群的集合,其中的每一個人都與其中某個子群體的人相互熟悉。這樣一個網(wǎng)絡(luò)可以用點(或矢量)的集合來代表人,用線的連接來表示相識。在理論上,社會網(wǎng)絡(luò)分析可以為任何共同體構(gòu)建一個社會網(wǎng)絡(luò),建立這些網(wǎng)絡(luò)關(guān)系的模型,描述群體關(guān)系的結(jié)構(gòu),研究這種結(jié)構(gòu)對群體功能或者群體內(nèi)部個體的影響。在一個科學(xué)合作網(wǎng)絡(luò)中,如果兩個科學(xué)家共同發(fā)表了一篇合作文獻(xiàn),就被界定為他們之間存在聯(lián)系。除了作者間的合作外,合作網(wǎng)絡(luò)還包括合作者的數(shù)量、合作論文數(shù)、聚類的度等等。社會網(wǎng)絡(luò)分析提出了若干定量分析的指標(biāo),主要概念有:緊密性、中介性、中心性、橋、簇、團(tuán)、叢等,通過這些概念,可以借助可視化技術(shù)了解有重要地位的作品、作者、學(xué)科力量和群體分布等。
3構(gòu)建知識圖譜的關(guān)鍵技術(shù)方法
知識圖譜的關(guān)鍵技術(shù)最主要的是解決在圖形生成過程中的數(shù)據(jù)降維問題,傳統(tǒng)的映射技術(shù)有多元統(tǒng)計分析方法,包括因子分析(主要是主成分分析)、多維尺度分析和聚類分析,目前比較先進(jìn)的映射技術(shù)有:尋徑網(wǎng)絡(luò)、自組織特征映射、力矢量布局算、潛在語義分析、最小生成樹算法、三角測量等新的先進(jìn)算法,這些都只在國外有試驗報道,在國內(nèi)只有尋徑網(wǎng)絡(luò)的方法有實驗報道,其他都是簡單的評介,還無相關(guān)實驗研究。共詞分析采用的主要可視化方法包括包容圖、臨近圖、戰(zhàn)略坐標(biāo)圖等方法,戰(zhàn)略坐標(biāo)圖更為常用。戰(zhàn)略坐標(biāo)圖可以可視化的形式概括地表現(xiàn)一個知識領(lǐng)域的結(jié)構(gòu)。
4構(gòu)建知識圖譜可用軟件評介
目前構(gòu)建知識圖譜應(yīng)用較多的是一些用于社會網(wǎng)絡(luò)分析的軟件,下面就國內(nèi)外文獻(xiàn)報道所使用的軟件做一簡要分析介紹。
4.1Pajekt
Pajek是一個網(wǎng)絡(luò)分析和可視化的程序,專門為處理大型數(shù)據(jù)集而設(shè)計,是基于Windows的免費社會科學(xué)軟件,它允許用戶對大量抽象的數(shù)據(jù)進(jìn)行分析。它能夠同時處理若干網(wǎng)絡(luò),包括雙模式網(wǎng)絡(luò)、時間事件網(wǎng)絡(luò)、縱向網(wǎng)絡(luò)等的分析功能,用戶也能夠生成一系列局部交叉的網(wǎng)絡(luò)進(jìn)行各種分析。軟件的結(jié)構(gòu)是建立在幾種數(shù)據(jù)結(jié)構(gòu)(網(wǎng)絡(luò)、分區(qū)、轉(zhuǎn)置、群、層級和向量)和這些結(jié)構(gòu)的轉(zhuǎn)換之上的。繪圖功能較強,繪圖窗口給用戶很多選項來處理圖表。能夠支持二維、三維網(wǎng)絡(luò)和3D的可視化,能使用多種格式存儲:EPS、SVG、KIN、BMP以及VRML。
4.2UCINETE
UCINET是網(wǎng)絡(luò)分析集成軟件,其中包括一維與二維數(shù)據(jù)分析的Netdraw,還有正在發(fā)展應(yīng)用的三維展示分析軟件Mage等,同時集成了Pajek用于大型網(wǎng)絡(luò)分析的Free應(yīng)用軟件程序。UCINET5,O是菜單驅(qū)動的Windows程序,通過速度按鈕能夠輸出到Pajek和Mage,能夠登錄到Netdraw,這3個程序和UCINET是搭配的。它有兩種輸出形式:文本型(保存成日志型在屏幕上顯示)和數(shù)據(jù)型(能夠作為其他程序的輸入)。UCINET是面向矩陣的,數(shù)據(jù)集合是一個或多個矩陣的集合。一個簡單的UCINET文件包含兩個文件:事實數(shù)據(jù)和關(guān)于數(shù)據(jù)的信息。UCINET數(shù)據(jù)可以直接導(dǎo)入也可以新建表單直接錄入。UCINET提供大量的數(shù)據(jù)管理和轉(zhuǎn)換工具,例如選擇子集、合并數(shù)據(jù)集、序化、轉(zhuǎn)化或記錄數(shù)據(jù)。UCINET不包含可視化的過程,但是它卻和軟件Mage、Netdraw和Pajek集成在一起,從而能夠?qū)崿F(xiàn)可視化。
4.3Netdraw
Netdraw是簡單的繪制網(wǎng)絡(luò)圖的工具,它可以讀取UCINET系統(tǒng)文件、UCINET文本文件、Pajek文本文件。繪制的圖片以WMF、BMP和JPG文件格式保存。它可以同時處理多種關(guān)系,并可以根據(jù)節(jié)點的特性設(shè)置顏色、形狀和節(jié)點的大小。是一個非常靈活的可視化軟件,并可做數(shù)據(jù)分析,如中心性分析、子圖分析、角色分析等,也具有很強的矩陣運算能力。
4.4bibexcel
Bibexcel是由瑞典科學(xué)計量學(xué)家開發(fā)的用于科學(xué)研究的科學(xué)計量學(xué)免費軟件。其功能包括:文獻(xiàn)計量學(xué)分析、引文、共引、藕合分析、聚類分析、知識圖譜繪制等等。
4.5WordStat
該軟件是Simstat的一個模塊,具有所有基本分析功能,還有一些注釋功能和各種信息的計量統(tǒng)計功能,如按各個字段來統(tǒng)計人名、作者、關(guān)鍵詞、主題詞等的出現(xiàn)頻率,這種統(tǒng)計功能可用于文獻(xiàn)計量學(xué)的分析。Winisis1.4版漢化版命名為C_Winisis,可供國內(nèi)圖書情報機構(gòu)免費使用。
4.6Wordsmith
是英國牛津大學(xué)開發(fā)的商業(yè)性詞頻分析軟件。其主要功能是Wordlist和Concord tool兩種。Wordlist可以將一個文本中的所有單詞按出現(xiàn)頻次進(jìn)行排序;應(yīng)用Concord tool可以找到與任意一個單詞搭配的詞組。該軟件在國外計量學(xué)領(lǐng)域中得到了大量的應(yīng)用。
4.7Citespace
是2003年由Drexel大學(xué)Chaomei Chen開發(fā)的,該系統(tǒng)的首要目標(biāo)就是利用可視化技術(shù)在知識域中幫助用戶進(jìn)行突發(fā)趨勢和技術(shù)預(yù)測的分析。對某一領(lǐng)域根據(jù)時間順序進(jìn)行“快照”,然后把這些“快照”連接起來,演繹出這一領(lǐng)域研究熱點的變化過程和發(fā)展趨勢。
4.8HistCite
2003年Garfield博士等開發(fā)了HistCite軟件包,它是一個很好的引文歷史可視化分析工具。該工具利用共引理論通過一系列相關(guān)數(shù)據(jù)產(chǎn)生時代和其他類型的表格及編年圖表,以此實現(xiàn)知識領(lǐng)域的分析功能。
4.9xInsight
該工具是知識可視化工具,通過相似性組織大規(guī)模的數(shù)據(jù)元素,用3D虛擬風(fēng)景畫描繪數(shù)據(jù)元素的密度,國外已將其成功用于可視化核物理領(lǐng)域。
5國內(nèi)外知識圖譜研究的發(fā)展歷程
5.1共詞圖譜的發(fā)展
詞頻分析方法被國內(nèi)外的許多文獻(xiàn)和科學(xué)計量學(xué)研究者應(yīng)用于學(xué)科前沿的研究。例如,中國科學(xué)計量學(xué)家梁立明借助詞頻分析方法研究了56位情報學(xué)家對科學(xué)的關(guān)注視角及解讀方法;荷蘭科學(xué)計量學(xué)家用共引分析與詞頻分析相結(jié)合的方法,繪制出了生物化學(xué)領(lǐng)域研究前沿的知識圖譜等等。1973年,法國文獻(xiàn)計量學(xué)家最早提出共詞分析法這個概念,1986年,法國國家科學(xué)研究中心CNRS的Callon、Law和Rip出版了《Mapping the Dynamics ofScience and Technology》一書,該書的出版是共詞分析方法的重要里程碑。隨后法國的Law等率先運用共詞分析法分析環(huán)境酸化研究中的政策和科學(xué)變化地圖,并撰文驗證共詞分析方法,Qin也撰文專門探討如何用共詞分析法發(fā)現(xiàn)學(xué)科知識結(jié)構(gòu),Courtial等人對專利文獻(xiàn)的題目詞做了共詞聚類分析,得到食品類專利的研究熱點問題,同時用戰(zhàn)略坐標(biāo)將這些研究熱點顯示出來。國內(nèi)的張晗等對生物信息學(xué)文獻(xiàn)做了高頻主題詞的共詞聚類分析,很好地顯示了該主題的研究熱點,同時做了戰(zhàn)略坐標(biāo)圖,定量地分析了各熱點的發(fā)展階段。中國醫(yī)科大學(xué)的崔雷等人從1996年開始,通過采用共主題詞和共關(guān)鍵詞聚類分析的方法發(fā)表了多篇以醫(yī)學(xué)和生物類為主題的文獻(xiàn)計量學(xué)文章,探究該領(lǐng)域的研究熱點及學(xué)科結(jié)構(gòu)變化。
5.2共引圖譜的發(fā)展
1981年White和Griffith合作發(fā)表的《作者共引:科學(xué)結(jié)構(gòu)的文獻(xiàn)測量方法》一文開創(chuàng)了同引研究的先河,該文通過對1972~1979年39位情報學(xué)家的共引情況,描繪了他們在學(xué)科中的位置和情報學(xué)的學(xué)科結(jié)構(gòu)。此后20多年間的研究主要有:1989年White和McCain通過共引分析,將情報學(xué)分為兩個主要領(lǐng)域——計量學(xué)(包括引文分析)和情報檢索;Small等人開發(fā)了基于共引理論的單機系統(tǒng)SCt-Map來描繪科學(xué)文獻(xiàn)間的結(jié)構(gòu);1997年美國肯塔基大學(xué)的Linxia首先嘗試將自組織映射技術(shù)用于共引矩陣,并在2000年生成了一個將情報學(xué)家聚到幾個主題域的圖譜;1998年,White和Mc—Cain再次采用ACA技術(shù),通過對1972—1995年24年間的一些代表性的文獻(xiàn)特征(作者共引數(shù)目)歸納總結(jié)情報學(xué)領(lǐng)域的結(jié)構(gòu)特征和24年來的發(fā)展情況,并做出情報學(xué)科的知識圖譜。1999年Cha-omei Chen把尋徑網(wǎng)絡(luò)(Pathfinder Network,簡稱PF-NET)技術(shù)引入作者同被引分析,并生成了有關(guān)超文本研究的同被引圖譜。后來他還用該方式生成的新的知識圖譜,是一種三維空間彩色圖,用不同的色彩、動畫展示其中的突出點。2003年他還用同被引分析對物理學(xué)的前沿及發(fā)展趨勢進(jìn)行了深入研究,繪制出一系列的知識圖譜。2005年LoetLeydesdorff等人運用新型知識圖譜分析軟件Pajek和傳統(tǒng)的多元統(tǒng)計分析方法相結(jié)合,將同被引研究延伸到網(wǎng)絡(luò)領(lǐng)域,為同被引分析開辟了一片新天地,近些年他還致力于研究期刊間的引用關(guān)系,通過對期刊間引用頻次的可視化分析,圖示它們的網(wǎng)絡(luò)關(guān)系,他利用從SCI和SSCI套錄的數(shù)據(jù),通過計算2000年7349種期刊的引用和被引用頻次,利用VxInsi曲t作為知識圖譜軟件,構(gòu)造了期刊引用和同被引關(guān)系的知識圖譜。西班牙的FelixMoya—Anegon搜集西班牙在2000年被SCI和SSCI以及A&HCI收錄的文獻(xiàn),根據(jù)發(fā)表這些文獻(xiàn)的期刊在
ISI-JCR中所屬的類別,對應(yīng)到西班牙分類法的25個大類中去,從而得到西班牙大科學(xué)結(jié)構(gòu)分析的知識圖譜。國內(nèi)同被引分析研究的也不少,武漢大學(xué)、大連理工、中科院圖書館等都有不少成果。具有代表性的有:中國醫(yī)科大學(xué)的崔雷利用SCI數(shù)據(jù),對丙型肝炎這一專題文獻(xiàn)4年間的高被引論文進(jìn)行連續(xù)的同被引聚類分析,反映了該專題研究的結(jié)構(gòu)及這些結(jié)構(gòu)的發(fā)展過程。
5.3知識圖譜研究的最新進(jìn)展
5.3.1與信息檢索可視化結(jié)合
HistCite、CitespaceⅡ、Vxlnsight都是面向知識域分析開發(fā)的,可視化分析能力強,形式豐富,但卻沒有將可視化技術(shù)運用到信息檢索領(lǐng)域。美國Drexel大學(xué)的White帶領(lǐng)研究小組開展了實時環(huán)境下AcA繪圖及主題檢索研究,利用Dialog和SCI的數(shù)據(jù),開發(fā)出了AuthorLink檢索系統(tǒng),成為用實時共引映射圖譜實現(xiàn)檢索重要數(shù)據(jù)庫的開創(chuàng)者。利用Au—thorLink檢索時,用戶從該系統(tǒng)得到的不僅是一個作者的信息,而是與該作者高頻共引的24位作者,以及基于共引強度以圖的形式展示的作者間的相互關(guān)系。后來他們又相繼開發(fā)了基于共引分析理論的PNASLink和基于共詞的ConceptLink系統(tǒng),都是運用PFNET、SOM等多種可視化映射算法實現(xiàn)的。ConceptLink主要特征是利用基于不同算法的可視化圖形揭示概念之間的關(guān)系,系統(tǒng)目前與PubMed搜索引擎連接提供文獻(xiàn)檢索,根據(jù)與查詢匹配的前200篇文獻(xiàn)的同現(xiàn)頻率列出所有這些文獻(xiàn)的MeSH詞。用戶可以選擇任何一個MeSH詞來構(gòu)建概念圖,通過區(qū)域、鏈接和距離近似等概念圖來可視化醫(yī)學(xué)概念之間的復(fù)雜關(guān)系。PNASLink除了包括兩個系統(tǒng)的所有特征外,還能映射作者、關(guān)鍵詞及期刊間的關(guān)系,同時還提供許多檢索功能,可以通過專門設(shè)計的列表如“熱點主題”,“NAS成員”或“引用最多的作者”進(jìn)行瀏覽。
5.3.2知識圖譜研究向網(wǎng)絡(luò)結(jié)構(gòu)的延伸和移植
網(wǎng)絡(luò)站點的鏈接關(guān)系類似于文獻(xiàn)的引用關(guān)系,因而文獻(xiàn)的共引分析可以移植到網(wǎng)絡(luò)站點。用共鏈分析反映網(wǎng)絡(luò)本身的結(jié)構(gòu),并揭示發(fā)掘網(wǎng)絡(luò)中蘊涵的知識結(jié)構(gòu)。
5.3.3知識圖譜應(yīng)用于識別學(xué)科研究前沿
研究前沿的可視化能提供重要的學(xué)科發(fā)展趨勢,使研究人員能更好地融入主流研究領(lǐng)域。研究前沿可視化的應(yīng)用范例是ISI的科學(xué)前沿分析。ISI利用共引分析進(jìn)行科學(xué)前沿可視化分析,定期以熱點問題、研究前沿等形式對分析結(jié)果進(jìn)行跟蹤報道。分析過程是通過識別5年內(nèi)多學(xué)科中引用率最高的文獻(xiàn),用共引強度來確定研究前沿需要處理的共引文獻(xiàn)集,將關(guān)系緊密的文獻(xiàn)聚類。然后從符合臨界值的一個共引對開始,進(jìn)行單連結(jié)聚類,以此構(gòu)建研究前沿的知識圖譜,進(jìn)行學(xué)科跟蹤、趨勢預(yù)測。例如,在2006年《自然》最后一期中刊登了一幅由80萬篇ISI公司提供的科學(xué)文獻(xiàn)分析產(chǎn)生的科學(xué)地圖。將這樣大規(guī)模的文獻(xiàn)通過聚類分析,產(chǎn)生700多個聚類,以此為節(jié)點,文獻(xiàn)之間引用關(guān)系作為邊,同時將聚類文獻(xiàn)關(guān)鍵詞作為描述,繪出了各學(xué)科及子學(xué)科的關(guān)聯(lián)分布圖和國家和地區(qū)維度的科學(xué)地圖,通過對比分析就可清晰得到各國家和地區(qū)的科學(xué)研究戰(zhàn)略重點及優(yōu)勢領(lǐng)域。
5.3.4知識圖譜應(yīng)用于技術(shù)跟蹤的可視化
通過可視化技術(shù),將共引關(guān)系、共現(xiàn)關(guān)系、網(wǎng)絡(luò)關(guān)系等各種關(guān)聯(lián)規(guī)則轉(zhuǎn)化成可視化形式,獲得該技術(shù)領(lǐng)域的發(fā)展圖譜,以識別重要技術(shù),挖掘重點研究領(lǐng)域,觀測技術(shù)轉(zhuǎn)移,對比國家間、機構(gòu)問的研發(fā)實力和創(chuàng)新能力、技術(shù)優(yōu)勢和劣勢。
5.3.5知識圖譜應(yīng)用于技術(shù)創(chuàng)新的可視化
由于專利數(shù)據(jù)具有易得、完整、準(zhǔn)確、時間序列長的特點,故常用專利數(shù)據(jù)測度一定時期內(nèi)的技術(shù)創(chuàng)新狀況,通過專利共引、共現(xiàn)分析,將與專利相關(guān)的大量數(shù)據(jù)轉(zhuǎn)化成成某一領(lǐng)域的技術(shù)創(chuàng)新可視化圖譜,較好的識別和把握當(dāng)今技術(shù)前沿潛在的技術(shù)創(chuàng)新機會。
6國內(nèi)外知識圖譜研究的不足
大量的文獻(xiàn)調(diào)研表明:國外的知識圖譜研究存在的突出問題是:雖然很多先進(jìn)的算法和優(yōu)秀的軟件都不斷涌現(xiàn),但在學(xué)界和社會上都沒有廣泛推廣應(yīng)用,也沒有建立起評判這些工具和軟件功能優(yōu)劣的有效方法和標(biāo)準(zhǔn),影響了進(jìn)一步的集成、大規(guī)模的研究。而國內(nèi)知識圖譜的研究與國外相比有極大的差距,主要問題有以下幾個方面;
6.1研究手段和方法的嚴(yán)重滯后
國內(nèi)近幾年有關(guān)知識圖譜的研究也有一些,如大連理工大學(xué)的劉則淵教授帶領(lǐng)的團(tuán)隊進(jìn)行了科學(xué)計量學(xué)、管理學(xué)人機工程學(xué)學(xué)科以及國內(nèi)所有工程領(lǐng)域研究前沿的知識圖譜構(gòu)建;武漢大學(xué)的馬費成、劉青林、社科院的蔣穎等也對國內(nèi)外知識管理、數(shù)字資源管理、戰(zhàn)略管理、文獻(xiàn)計量學(xué)等領(lǐng)域進(jìn)行了共詞圖譜的繪制;南京大學(xué)的鄧三鴻、浙江大學(xué)的潘有能等初步建立了圖書情報學(xué)科的學(xué)科知識地圖;金瑩以CSSCI的數(shù)據(jù)粗略構(gòu)建了我國社會科學(xué)的學(xué)科知識地圖;中科院、中信所的研究人員也進(jìn)行了研究。但幾乎所有的研究都是采用最傳統(tǒng)的多元統(tǒng)計分析方法(因子分析、多維尺度分析和聚類分析),最先進(jìn)的就是使用了Pajek軟件。截止2008年5月,國內(nèi)文獻(xiàn)分別僅有一篇使用了PFNET算法,另一篇運用了最新的商用軟件Thomson Data Analyzer對人類基因組領(lǐng)域進(jìn)行共詞圖譜繪制的實例。
6.2研究層次低
對一些比較先進(jìn)的技術(shù)(算法、軟件)更多的都是理論上的探討和介紹,國內(nèi)對HistCite、CitespaceⅡ、PFNET、SOM、潛在語義分析和最小生成樹算法都有零星的介紹,但很少進(jìn)行實際的試驗研究。這可能與相關(guān)軟件獲取比較困難、有些是商用軟件,研究經(jīng)費缺乏等有關(guān)。
6.3研究對象范圍過窄
目前國內(nèi)知識圖譜構(gòu)建研究的領(lǐng)域都是范圍很窄的某一學(xué)科方向的國際化研究,數(shù)據(jù)來源一般都選自SCI、SSCI等大型英文引文數(shù)據(jù)庫,很少一部分選自中國的引文數(shù)據(jù),而文獻(xiàn)報道國內(nèi)開發(fā)成功的兩個共現(xiàn)系統(tǒng)卻沒有任何實證研究的報道,這些都阻礙了知識圖譜這一先進(jìn)方法在國內(nèi)的發(fā)展。這一現(xiàn)象產(chǎn)生的原因是中國目前已有的引文數(shù)據(jù)庫系統(tǒng)提供的檢索入口和數(shù)據(jù)套錄功能很有限,用戶很難獲取大量的原始數(shù)據(jù),從而影響了研究的積極性。
7幾點建議和對策
7.1組織力量,聯(lián)合攻關(guān),促進(jìn)知識圖譜在國內(nèi)的進(jìn)一步研究
知識圖譜的研究需要人力、物力和財力的支撐。圖書情報界應(yīng)該利用選聘學(xué)科館員、專業(yè)館員的契機,在研究院所、大學(xué)圖書館中開展此項研究,同時和重點學(xué)科知識服務(wù)、學(xué)科導(dǎo)航、學(xué)科專業(yè)咨詢等工作結(jié)合開展。同時要取得相關(guān)專業(yè)人員的支持和配合,最好能協(xié)同攻關(guān),因為知識圖譜的構(gòu)建專業(yè)性很強,不僅僅需要圖書情報人員就可以把此項研究作好,中科院圖書館的經(jīng)驗就很值得借鑒。如果形成了良性循環(huán),這項工作可以大大提高圖書情報界知識服務(wù)的質(zhì)量和效益。
7.2應(yīng)加強與國內(nèi)大型數(shù)據(jù)庫商的合作
應(yīng)加強宣傳,在數(shù)據(jù)庫商中宣傳國外數(shù)據(jù)庫商的最新技術(shù)成果,使國內(nèi)數(shù)據(jù)庫商提高技術(shù)和服務(wù)水平,促進(jìn)數(shù)據(jù)資源共享,方便用戶獲取原始數(shù)據(jù),改進(jìn)引文數(shù)據(jù)庫的數(shù)據(jù)套錄等功能,力爭取得用戶和數(shù)據(jù)庫商的雙贏。