孫倩
[摘要]計算機科學領(lǐng)域的信息可視化技術(shù)正在被圖書館資源整合與知識服務所需要,國內(nèi)外將可視化技術(shù)投入到館藏資源揭示與知識服務中的實踐已越來越多。通過科學的信息組織模式與技術(shù)手段的結(jié)合,可視化應用可以提高資源發(fā)布和關(guān)聯(lián)關(guān)系的揭示程度,并大幅提升用戶體驗的滿意度。
[關(guān)鍵詞]信息可視化;資源揭示;知識服務
[中圖分類號]G25076[KG22mm][文獻標志碼]A[文章編號]1005-6041(2017)02-0053-05
近年來網(wǎng)絡技術(shù)的提升和進步對數(shù)字內(nèi)容的存儲和運算提供了重要的技術(shù)保障,人們獲取信息和閱讀的方式也向多元化拓展。龐大的信息數(shù)據(jù)來源也為大眾從中獲取精準有效的信息帶來了困擾,面對無處不在的信息洪流,要讓大型數(shù)據(jù)集變得親切和易于理解,可視化無疑是最有效的途徑。信息可視化作為一門涉及多個領(lǐng)域的綜合性學科,是對海量信息或數(shù)據(jù)中知識的高度壓縮,依托計算機技術(shù)借助人腦的視覺思維能力,幫助人們從大量的數(shù)據(jù)信息中發(fā)現(xiàn)數(shù)據(jù)隱藏的規(guī)律,從而提高數(shù)據(jù)的使用效率。
可視化強調(diào)生動性與準確性兼得,目的在于對信息或數(shù)據(jù)的深度挖掘與利用。在數(shù)字圖書館領(lǐng)域,海量數(shù)據(jù)與資源之間以不同維度形成縱橫交錯的網(wǎng)狀集合,利用信息可視化做好數(shù)據(jù)與資源的揭示工作,不僅能夠發(fā)揮現(xiàn)有資源的服務價值,也能在挖掘、分析和展現(xiàn)數(shù)據(jù)的關(guān)聯(lián)關(guān)系時,為用戶提供更有用、有效的信息渠道,更加精準地滿足用戶信息需求。
1信息可視化概念及范圍
11 信息可視化概念
信息可視化來源于早期的數(shù)據(jù)圖形學,即人們希望通過抽象信息的視覺表達來揭示數(shù)據(jù)及其他隱藏關(guān)系的一門科學。20世紀90年代開始普及計算機以及互聯(lián)網(wǎng)帶來的爆炸式信息流,使人們直接使用可視化信息的愿望變得迫切,從而造就和帶動了信息可視化研究。關(guān)于信息可視化的概念界定,在不同的文獻中有不同的說法。1999年卡德等人在早期將信息可視化引入視線的著作中,對其給出的定義是:“使用計算機支撐的、交互性的、對抽象數(shù)據(jù)的可視表示法,以增強人們對抽象信息的認知?!敝男畔⒖梢暬瘜嵺`者Manuel Lima提到,信息可視化主要用于解釋數(shù)據(jù),“換句話說,就是歸納數(shù)據(jù)內(nèi)在的模式、關(guān)聯(lián)和結(jié)構(gòu)”,“它既涉及科學也有關(guān)設(shè)計:信息可視化設(shè)計師和平面設(shè)計師一樣,不僅要能夠迅速、準確地呈現(xiàn)信息,而且需要掌握準確表達數(shù)據(jù)的技巧和視覺表達能力,呈現(xiàn)數(shù)據(jù)背后的觀點,喚起讀者的內(nèi)心情感”[1]。
可視化技術(shù)是將數(shù)據(jù)庫中的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,然后以數(shù)據(jù)的各個屬性為展示維度進行表示,從而獲得不同的維度的觀察結(jié)果,實現(xiàn)對數(shù)據(jù)深入的觀察和分析。
12 信息可視化范圍
信息可視化包括數(shù)據(jù)可視化、信息圖形、知識可視化、科學可視化以及視覺設(shè)計等多方面。廣義的信息可視化,囊括了以信息可視化和科學可視化為基礎(chǔ)衍生出的數(shù)據(jù)可視化以及知識可視化。
科學可視化比信息可視化的概念出現(xiàn)得更早[2]。1987年美國國家科學基金會報告《Visualization in Scientific Computing》“科學計算之中的可視化”就是后來“Scientific Visualization”
即科學可視化的始源,主要指科學實踐中對計算機建模和模擬的運用。隨著來自商業(yè)、數(shù)字媒體、信息管理等行業(yè)大型異質(zhì)數(shù)據(jù)集的密集出現(xiàn),數(shù)據(jù)可視化成為涵蓋科學可視化與信息可視化的新生術(shù)語。
知識可視化又是從信息可視化的領(lǐng)域中分支出來的又一獨立概念。知識可視化指的是用來解構(gòu)復雜知識的圖形化展現(xiàn)手段。其目標更側(cè)重于傳達主觀性的見解、觀點和預測等,并以這種方式幫助他人正確地重構(gòu)、記憶和應用這些知識。
在我們討論的信息可視化領(lǐng)域,涉及數(shù)據(jù)、信息與知識三者的關(guān)系。三者關(guān)聯(lián)性十分密切,數(shù)據(jù)是信息的載體,信息是數(shù)據(jù)的含義,知識是由信息加工和提煉而成的結(jié)晶。而可視化,就是把三者轉(zhuǎn)化為可視的表示形式的過程[3]。實際上,我們所談及的信息可視化,就包含了數(shù)據(jù)可視化和知識的可視化。
從狹義上來說,信息可視化適用于大規(guī)模非數(shù)字型信息資源的可視化表達,這里的信息范圍主要包括各類抽象的數(shù)據(jù)集,大致可以概括為異構(gòu)的文本信息及數(shù)據(jù)、計算機程序中的運行數(shù)據(jù),以及萬維網(wǎng)站內(nèi)容和數(shù)據(jù)庫檢索內(nèi)容等,最后一項集中的應用領(lǐng)域就是在數(shù)字圖書館當中。當然除此之外,信息可視化與科學可視化在眾多技術(shù)和方法上的融合發(fā)展,使可視化的范圍深入到眾多相關(guān)領(lǐng)域。
2信息可視化在數(shù)字圖書館的應用領(lǐng)域
數(shù)字圖書館的出現(xiàn)開始就與數(shù)據(jù)信息息息相關(guān),如何以嶄新的數(shù)字信息服務為讀者提供友好的知識學習環(huán)境,是數(shù)字圖書館的核心目標。相對于傳統(tǒng)圖書館的資源構(gòu)成,數(shù)字圖書館環(huán)境下的數(shù)字資源類型變得復雜而多樣,既有系統(tǒng)技術(shù)資源,也有占據(jù)核心作用的數(shù)字信息資源,有實體文獻數(shù)字化資源也有虛擬電子資源,這又包括了館藏書目數(shù)據(jù)庫,館藏實體文獻數(shù)字化后的自建數(shù)字資源數(shù)據(jù)庫,由外購或其他渠道獲得的商用文獻資源數(shù)據(jù)庫,以及解決版權(quán)問題的網(wǎng)絡資源庫等。另外圖書館積累的讀者數(shù)據(jù),也隱藏著大量有價值的信息,對這些信息的挖掘和利用十分重要。
可視化技術(shù)在數(shù)字圖書館環(huán)境中主要應用于兩個領(lǐng)域:一是對數(shù)字圖書館服務場景的優(yōu)化升級,能夠為用戶提供超越傳統(tǒng)的空間認知工具,如最早用于揭示館藏資源分布的電子地圖,隨著科技的發(fā)展現(xiàn)在又增添了虛擬現(xiàn)實(Virtual Reality)、增強現(xiàn)實(Augmented Reality)等;二是通過強化數(shù)據(jù)的直接應用改變服務方式、提升用戶體驗,包括可視化信息資源描述、可視化信息導航、可視化信息檢索,以及可視化知識發(fā)現(xiàn)和數(shù)據(jù)挖掘等。具體可以歸結(jié)為以下5個熱點主題:
1)館藏資源分布的可視化,以直觀的圖形或圖像方式為用戶展示出資源分布的情況,可以說是可視化服務于數(shù)字圖書館領(lǐng)域的基礎(chǔ)性應用;2)信息描述的可視化,信息描述可以以聚類的方式將信息進行可視化,主要通過聚類方法創(chuàng)造主題,同時以圖形化方式進行揭示;3)信息檢索的可視化,可視化在信息檢索中的應用包括檢索過程的可視化和檢索結(jié)果的可視化兩方面,當前在圖情領(lǐng)域成為重視程度最高的研究主題;4)知識可視化,更注重知識的圖解表示以及傳播利用,在研究知識可視化的一些學者關(guān)于理論基礎(chǔ)、知識表征、研究框架的成果基礎(chǔ)上,數(shù)字圖書館領(lǐng)域關(guān)于信息檢索可視化的方向已經(jīng)向知識檢索可視化發(fā)展;5)用戶界面的可視化,用戶界面的設(shè)計與研究是人機交互領(lǐng)域重要的一部分?,F(xiàn)階段多數(shù)是以二維圖形為主的用戶界面(GUI)和多媒體用戶界面,未來的發(fā)展則是更廣泛的多媒體交互集成,通過人工語音、多維圖形、人的動作指令等人工智能技術(shù)實現(xiàn)更人性化的人機交互效果??梢暬缑嬖O(shè)計通常會采取各種界面比擬來表現(xiàn),如時間軸、拓撲圖、熱力圖等。
3可視化在數(shù)字圖書館資源揭示中的應用實踐
目前,國內(nèi)外將可視化技術(shù)投入到優(yōu)化數(shù)字圖書館館藏資源揭示并進行知識服務提供的實踐已越來越多。多數(shù)集中在特定數(shù)據(jù)集或數(shù)據(jù)庫的信息檢索過程、信息檢索結(jié)果的揭示效果上,局部試驗轉(zhuǎn)換為整體性布局還尚待成熟完善。數(shù)字圖書館在資源整合方面發(fā)展的理論成果和計算機與信息科技發(fā)展帶來的技術(shù)支撐,為可視化作為一種建設(shè)理念深入數(shù)字圖書館資源揭示中帶來了可能性與實施基礎(chǔ)。
31 世界數(shù)字圖書館的時間軸、地域軸展示
世界數(shù)字圖書館在網(wǎng)站資源展示的可視化效果上已經(jīng)形成了一定的影響力。
它在館藏揭示方式上,直觀地提供給讀者“時間線”和“互動式”地圖兩種較為通用的可視化選擇。圍繞“世界歷史”“中國書籍、手稿、地圖和印刷品”“歐洲的泥金裝飾手抄本”以及“美國歷史”四個分類文獻,網(wǎng)站分別給出時間軸和地域軸兩種展示方式。以“時間線”為例,當選擇“中國書籍、手稿、地圖和印刷品”時,可以看到下方的時間標尺,在時間標尺上對文獻類型又進行了細分,分為“地圖”“手稿”“圖書”“印刷品”,如圖1所示:
以帶有互操作性的時間標尺加上圖文最大限度地簡化了文獻資源的檢索過程,同時為用戶提供了文獻資源的整體景觀,使用戶對此類文獻收藏布局一目了然,也對歷史發(fā)展進程有直觀了解。
同樣以“中國書籍、手稿、地圖和印刷品”為例,網(wǎng)站為我們提供了“互動式地圖”的區(qū)域性資源揭示方式。互動式地圖是由美國“Leaflet”基于Javascript的開源交互地圖數(shù)據(jù)庫,這種基于GIS(地理信息系統(tǒng))的可視化應用是由Natural Earth提供了開放的地理數(shù)據(jù),該網(wǎng)站提供了全球1∶10 000 000、1∶50 000 000、1∶110 000 000比例尺的矢量和柵格數(shù)據(jù)下載。這種帶有交互性的地域展示方式使世界范圍內(nèi)的文獻資源典藏分布更加清晰明了,間接地也對跨區(qū)域、跨國家的資源共建共享、資源服務范圍擴大帶來方便(詳見圖2)。
值得一提的是,世界數(shù)字圖書館網(wǎng)站把時間軸和地圖的概念貫徹在了網(wǎng)站各個維度的資源展示中。不論在“專題”“條目類型”還是“典藏單位”分類中,都將地圖嵌入其中,充分體現(xiàn)了“世界”區(qū)域性的特點。
32 國際虛擬規(guī)則文檔項目(VIAF)可視化
由OCLC牽頭負責的虛擬國際規(guī)范文檔(Virtual International Authority File,VIAF)項目,建設(shè)目的是要為用戶提供全球范圍內(nèi)主要名稱規(guī)范文檔的便捷獲取服務,從個人名稱虛擬規(guī)范文檔逐步擴展到團體名稱和地名規(guī)范[4]。每一條規(guī)范記錄都有分配的唯一標識符,且均可以鏈接到由合作機構(gòu)維護的文檔。目前VIAF數(shù)據(jù)已成為關(guān)聯(lián)數(shù)據(jù)云圖中最大的規(guī)范名稱數(shù)據(jù)集,也是互聯(lián)網(wǎng)中各類開放數(shù)據(jù)項目利用圖書館規(guī)范數(shù)據(jù)的途徑和方式,在與各種社會開放性項目的互通共享中自身也得到豐富、增強。VIAF與維基百科、ISNI、SNAC等項目都建立了合作,成為構(gòu)建關(guān)聯(lián)數(shù)據(jù)環(huán)境的重要內(nèi)容。VIAF的用戶檢索界面也是采用了可視化的交互操作形式(見圖3),以檢索“魯迅”為例[5],索引選擇為所有VIAF,在檢索頁面上方顯示的是標題詞、作者姓名在不同規(guī)范文檔中的形式、VIAF ID(唯一標識符)、永久鏈接以及ISNI號;檢索結(jié)果頁面下方中包括了其他作者頁面信息項,如優(yōu)選形式、4XX字段中備用名稱形式、5XX字段中相關(guān)名稱、作品、出版國家和地區(qū)等。在優(yōu)選形式中,用戶可以看到不同圖書館所貢獻的相關(guān)記錄,并以超鏈接形式直接鏈接到相應的記錄內(nèi)容。右下方的拓撲圖是通過一定的匹配方式,將不同國家的規(guī)范文檔進行匹配連接,并顯示相應的匹配方式及標識號,如,某相連節(jié)點顯示“(Match:title)RERO-vtls000107707”,則表示當前節(jié)點與標識號為RERO-vtls000107707的節(jié)點“名稱”匹配,使用戶對規(guī)范文檔有了整體性的感官認知,起到了在用戶進行數(shù)據(jù)選擇時的輔助作用。
33 挪威FRBR概念模型可視化
隨著RDA(資源描述與檢索)規(guī)則逐漸在圖書館編目領(lǐng)域的普及和應用,F(xiàn)RBR(書目記錄的功能需求)所構(gòu)建的“實體—關(guān)系”模型也逐漸成為書目數(shù)據(jù)編目中的研究重點。要想把基于FRBR模型的所有潛在的數(shù)據(jù)關(guān)系與實體完整地揭示出來,傳統(tǒng)的線性表單式的書目記錄組織與展示方式已經(jīng)無法做到。由斯洛尼亞盧布爾雅那大學的Tanja Mercun、Maja Zumer以及挪威科技大學的Trond Aalberg為主要成員組成的FRBRVIS項目組,將研究焦點落在了旨在更好地在用戶界面展現(xiàn)FRBR作品家族的信息可視化上。項目組從廣泛的書目數(shù)據(jù)中選取了不同復雜程度的作品家族樣例,每個作品家族中又通過人工選取40—100條記錄以囊括實體、關(guān)系以及屬性中盡可能出現(xiàn)的復雜情況和變化。與大部分FRBR實踐探索保持記錄樣本原樣的做法不同的是,項目實驗數(shù)據(jù)按照最新的RDA規(guī)則手動改造了原書目記錄中不規(guī)范的著錄項與缺少的關(guān)系,以及不支持計算機自動處理的數(shù)據(jù)。利用FRBR工具,項目建立了XML格式的基于FRBR的實驗數(shù)據(jù),并確保了其實體準確建立、關(guān)系完整。在三種主要關(guān)系的基礎(chǔ)上,作品記錄被分為三層標簽:“版本”層用來展示作品的內(nèi)容表達以及載體表現(xiàn);“相關(guān)作品”層用來展示其他與該作品相關(guān)的作品;“作者其他或作者相關(guān)作品”層用來展示同作者的其他作品或與該作者相關(guān)的作品。
在展示具體標簽層時,左側(cè)標簽圖用來使用戶了解文獻整體情況,用戶可以下拉點擊了解更深層的編目內(nèi)容,并從右側(cè)了解到詳細內(nèi)容(如圖4):
34 上海圖書館家譜本體可視化
上海圖書館基于22 000余種的家譜影像資源庫建立起的CNMARC格式元數(shù)據(jù),在當前互聯(lián)網(wǎng)環(huán)境下文獻揭示與使用中面臨無法滿足需求的現(xiàn)實。家譜中所包含的豐富的人、地、時、事等關(guān)系,被認為用MARC這樣限定性、專業(yè)性較強的格式系統(tǒng)已無法充分描述和揭示,更加靈活的、多維度展示和操控工具成為家譜文獻服務的需要[6]。在這種背景下,上海圖書館采用目標為取代并兼容Marc的書目框架模型(BIBFRAME)建立家譜信息本體。根據(jù)書目框架的核心模型,家譜被分為作品和實例兩部分,依據(jù)元數(shù)據(jù)不同的著錄項分別歸為作品和實例中,而規(guī)范和注釋都通過作品和實例各自的屬性所定義的關(guān)聯(lián)關(guān)系與作品和實例相關(guān)聯(lián)。
上海圖書館家譜知識庫在揭示資源的文獻特征及內(nèi)容特征、在各數(shù)據(jù)實體之間建立起易被理解的關(guān)聯(lián)關(guān)系并實現(xiàn)機器處理方面進行了突破性的探索和嘗試。目前該系統(tǒng)可視化效果可以在其試驗網(wǎng)站設(shè)計中看到基于時間軸和地域軸的展示(如圖6):[FL)]
圖8是以動態(tài)熱力圖的方式,根據(jù)宗族遷徙時間、地點,計算出家族的遷徙路線及后代散居地,將家族遷徙的過程演示了出來,對宗族歷史深入發(fā)掘,跳出了對文獻載體本身進行收藏和管理的資源服務范圍,講活了“故事”。
4總結(jié)與展望
信息可視化進入圖書館視野已經(jīng)逐步深入,應用于文獻資源揭示與知識組織服務的研究主題也漸漸得到細分。然而囿于針對包括書目數(shù)據(jù)在內(nèi)的各類資源數(shù)據(jù)在聚合、挖掘以及高效管理利用方面的探索尚未定型,
以數(shù)字圖書館內(nèi)部海量資源為基礎(chǔ)的信息可視化并沒有得到大規(guī)模的應用,在互聯(lián)網(wǎng)環(huán)境中數(shù)字圖書館的資源信息組織與服務方式面臨重構(gòu)與轉(zhuǎn)變的情況下,國內(nèi)外很多圖書館機構(gòu)都在針對某一特定領(lǐng)域進行資源整合以及可視化服務方面的探索,如上文提到的基于FRBR數(shù)目模型的可視化實踐項目(FRBRVIS項目)和上海圖書館家譜本體知識庫建立,也有諸如清華大學圖書館建立的學者知識庫等。另一方面,互聯(lián)網(wǎng)行業(yè)蓬勃發(fā)展以及大數(shù)據(jù)給各行各業(yè)帶來的源源不斷的增值驅(qū)動,使數(shù)據(jù)挖掘、數(shù)據(jù)整合以及相應的數(shù)據(jù)和信息可視化技術(shù)成果不斷在數(shù)據(jù)開放共享的氛圍下轉(zhuǎn)化為改變社會信息形態(tài)的創(chuàng)新動力,數(shù)字圖書館本身就是數(shù)據(jù)與信息的組織者與提供者,因此在數(shù)字圖書館的資源生命周期建設(shè)中,隨著數(shù)據(jù)模型結(jié)構(gòu)與數(shù)據(jù)關(guān)系的不斷立體化與完善,信息可視化在數(shù)字圖書館領(lǐng)域的全面深入利用也成為必然。
今后信息可視化在數(shù)字圖書館網(wǎng)站應用方面將會逐步擴展到知識組織與數(shù)據(jù)挖掘的整體過程中,如按照科學分類體系對數(shù)字資源進行深度標引,進一步實現(xiàn)文獻層的整合,使之成為物理或邏輯上的整體;基于學科、主題、時間、地域和讀者群體等多維度對國家圖書館現(xiàn)有數(shù)字化館藏文獻資源重新進行標引和聚類,便于資源的發(fā)現(xiàn)與獲取,從而推進資源發(fā)現(xiàn)與獲取的質(zhì)的飛躍,解決用戶資源檢索的實際需求。
[參考文獻]
[1]Manuel Lima.視覺繁美[M].杜明翰,陳楚君,譯.北京:機械工業(yè)出版社,2013:6.
[2]Bruce H.McCormick,Thomas A.DeFanti,Maxine D.Brown.Visualization in Scientific Computing[J].IEEE Computer Graphics and Applications,1987(Vol.7,ISSUE 10):69.
[3]周寧,張會平,陳勇躍.信息可視化進展研究[J].數(shù)字圖書館論壇,2007(2):2.
[4]崔春,畢強.虛擬國際規(guī)范文檔(VIAF)項目進展[J].圖書情報工作,2014(6):129.
[5]VIAF(Virtual International Authority File).[EB/OL].[2016-07-11].http:∥www.viaf.org/viaf/29537230/#Lu,_Xun,_1881-1936.
[6]夏翠娟,劉煒,張磊,等.基于書目框架(BIBFRAME)的家譜本體設(shè)計[J].圖書館論壇,2014(11):6—8.