基于web3.0的高校數(shù)字圖書館信息服務平臺構建研究

2012-11-08 09:45:08許建林

無錫職業(yè)技術學院學報 2012年6期

許建林，毛燁

（江蘇畜牧獸醫(yī)職業(yè)技術學院，江蘇泰州 225300）

數(shù)字圖書館的發(fā)展，對高校圖書館提供的服務要求也越來越高，圖書館海量資源的數(shù)字化、服務手段的網(wǎng)絡化，使圖書館由傳統(tǒng)的資源管理、資源服務向知識化、個性化管理和服務轉(zhuǎn)變。知識化、個性化業(yè)已成為現(xiàn)代高校數(shù)字圖書館信息服務工作的重要內(nèi)涵，那么提供怎樣的知識化、個性化的信息服務，這需要構建與之相適應的信息服務平臺。傳統(tǒng)的信息服務平臺大多是基于web1.0和web2.0技術，而實現(xiàn)知識化、個性化信息服務，則需借助于web3.0技術。構建基于web3.0的數(shù)字圖書館信息服務平臺，可以實現(xiàn)圖書館信息服務的個性化、智能化、精準化和高效化。

1 web1.0、web2.0、web3.0的發(fā)展

web1.0是一個靜態(tài)的、以資源為中心并單向傳遞信息的網(wǎng)絡，讀者需主動訪問基于web1.0的網(wǎng)站，才會獲取相關信息，否則不會產(chǎn)生信息的流動，此時讀者只是單純的信息接受者。即在高校圖書館信息服務中，高校圖書館提供什么樣的信息，讀者只能被動的、單方面的接受什么樣的信息，這種基于web1.0的信息服務是信息服務的機械化階段。

web2.0是一個動態(tài)的、以讀者為中心并雙向互動的網(wǎng)絡，讀者在這里不僅可以接受服務，也可以參與到圖書館提供服務的過程中。基于web2.0的信息服務網(wǎng)站不僅具有信息推送、訂閱、篩選等功能，它還允許讀者上傳信息、建立個人空間。在這里，讀者既是信息的接受者，也是信息的生產(chǎn)者。這種信息服務模式，體現(xiàn)了人機的雙向互動，實現(xiàn)了信息服務的半智能化。

web3.0是繼 web1.0、web2.0后的進一步提升，它具有更好的互動性，可以為讀者提供一個智能化、知識化、個性化的信息服務平臺，是更加智能化的人機雙向互動的網(wǎng)絡模式。這種基于web3.0的信息服務平臺具有強大的語義概念，使計算機能夠智能化的滿足讀者的需求。讀者只需要登錄平臺就可以獲得個性化的服務，通過輸入自然語言就可以迅速檢索到一整套范圍廣、準確率高的信息。

2 構建基于web3.0信息服務平臺的關鍵技術

傳統(tǒng)的信息獲取方式是基于關鍵詞的匹配技術，對被檢索的語義并不需要了解，因此檢索結果就會因歧義、多義等因素而出現(xiàn)偏差?；趙eb 3.0信息平臺的信息獲取方式不再是單純的關鍵詞匹配模式，它理解檢索者的需求，自動分析、篩選出符合要求的信息，使檢索到的信息更為精確。下面是兩種不同獲取信息方式，如圖1、圖2所示：

信息服務平臺能夠理解檢索者的需求，這需要借助于 web3.0中的語義網(wǎng)（Semantic Web）技術，它是一種能理解人類語言的智能網(wǎng)絡，不同于因特網(wǎng)，它是因特網(wǎng)的擴展與延伸，而且因特網(wǎng)是面向文檔的，而語義網(wǎng)的對象是文檔所表示的數(shù)據(jù)，語義網(wǎng)相對于因特網(wǎng)更利于計算機理解讀者的真實想法。在web3.0時代構建基于語義網(wǎng)的高校數(shù)字圖書館信息服務平臺，讓計算機為讀者實現(xiàn)個性化、智能化的信息服務。這需要解決兩個關鍵的技術，即本體（Ontology）和概念圖（Conceptual Graph）。

（1）本體一詞起源于哲學，是研究客觀事物存在及其本質(zhì)的通用理論，本義為對世界上客觀存在物的系統(tǒng)地描述、解釋或說明，在圖書館信息服務平臺中，它是對某一專業(yè)領域知識的共同理解。通過對某一領域知識定義其領域術語，用相同的術語對資源進行詳細準確的描述，從而在具體應用中可以通過共享語言達到相互的理解，進而對其進行語義標注，使其具有語義功能，就能在計算機系統(tǒng)中表征和交換知識，并能夠被自動解析和識別。所以本體的構建是實現(xiàn)語義網(wǎng)的根本，即要實現(xiàn)語義網(wǎng)首先要構建領域本體。

一個本體的構建一般也是針對現(xiàn)實生活中的某一特定的領域，構建時首先是掌握本體應用的背景、需求，以確定好本體應用的領域；其次是查詢正在構建的領域本體與已存在的本體庫是否重復，如有重復則直接可以套用；第三是盡量列舉出該領域內(nèi)所有的重要術語，經(jīng)過領域?qū)＜业姆治?、整理，提取出該領域重要的、精準無二義性的術語并編輯形成概念匯總表；第四是對收集來的術語進行定義成類及各類之間的關系；第五是對領域本體進行編碼，以便于計算機理解和處理，目前本體描述語言使用較多的是 OWL（Web Ontology Language）語言；最后就是需要進行檢驗和評價，以便發(fā)現(xiàn)問題進行完善。

（2）概念圖是一種圖形化的表示工具，是自然語言和計算機領域之間的橋梁，作為自然語言和計算機之間的語言，它為計算機進一步處理語句，理解語句的語義作了很好的鋪墊。概念圖的構造是由結點經(jīng)有向弧連接而成的，其結點有兩類，分別是概念結點和關系結點。概念結點一般由兩實體構成，包括概念類型及實體對象，一般采用矩形來表示，用來表示實體、屬性、狀態(tài)或事件，關系結點一般用橢圓表示，用來表示概念間的交互關系。它們之間通過有向弧連接起來，這是三元組結構。

本體論從一定程度上來說其實就是一種特殊的概念圖，將本體其中的類、實例及屬性值與概念圖中的結點相對應，類間的關系與概念圖中的弧相對應。這樣，本體的概念就可以通過概念圖進行表達。從兩者之間的關系，就可以使用基于概念圖的匹配算法來計算本體論中用戶查詢請求和事實數(shù)據(jù)的相關度。所以，概念圖在信息服務平臺中起著承前啟后的作用，如何準確判斷出概念圖中概念之間的關聯(lián)關系對于計算機能否理解語義，實現(xiàn)語義的推理和計算有著關鍵的意義。

3 基于web3.0的信息服務平臺模型構建

在高校數(shù)字圖書館中，由于web3.0技術的引入，使檢索服務由傳統(tǒng)的基于關鍵詞匹配的模式上升到了語義知識的層次。讀者在使用數(shù)字圖書館的過程中，使計算機能夠理解讀者的真實想法，與讀者進行良好的人機交互，從而能夠達到更好的共建共享、信息交流的服務。

圖3 基于web3.0的數(shù)字圖書館個性化信息服務Fig.3 Web3.0based digital library personalized information service

構建基于web3.0的高校數(shù)字圖書館信息服務平臺模型（圖3），其操作流程是先由讀者登陸平臺界面開始，平臺根據(jù)讀者賬號調(diào)動讀者偏好庫里相關數(shù)據(jù)自動構建個性化界面；讀者在該平臺界面里提出信息檢索需求，平臺系統(tǒng)根據(jù)對其進行語義分析處理，生成概念圖形式；根據(jù)生成的概念圖，平臺一方面將其與個人偏好庫進行匹配，若偏好庫中包含與之相同的數(shù)據(jù)則增加其權重，否則對讀者行為庫進行更新，另一方面平臺在領域本體庫中采用概念圖匹配算法進行匹配及相似度計算，然后對檢索結果進行相關性排序后輸出，最后平臺還需將讀者對檢索出結果的評價、使用情況等信息反饋給個性偏好庫，以更新并完善個性偏好庫。

信息服務平臺模型主要由語義分析處理、個性化、信息資源整合處理三個主要模塊組成。

3.1 語義分析處理模塊

本體可通過類、實例及其屬性組成的三元組來表示，概念圖中的結點可以與本體中的類、實例及其屬性相對應，概念圖中的弧可表示為類間的關系，所以本體可看做是一種特殊的概念圖，而概念圖也可看做是一種特殊的本體表現(xiàn)形式。于是，語義分析處理模塊通過對讀者的檢索需求進行分析處理，通過對檢索式進行抽詞、詞性標注、句法分析、概念識別等操作抽取出檢索式中的詞語，并向概念圖進行映射，表示成概念圖的模式，以便進行語義檢索。

讀者采用自然語言的方式來進行檢索，語義分析處理模塊在對讀者信息需求進行抽詞處理時，利用領域知識本體庫所含有的專業(yè)詞典，對檢索式中包含的專有詞匯進行一一映射、挖掘，提煉出檢索表達式中有意義的詞。抽詞之后，將抽詞結果進行詞性標注處理，并進一步進行語法分析，然后通過概念識別，從而了解讀者檢索的類型，并最終可將讀者需求表達為概念圖模式，通過概念圖匹配算法來計算讀者查詢請求與事實之間的相關度，反映出讀者的真實需求。

3.2 個性化模塊

個性化模塊主要根據(jù)讀者專業(yè)的側(cè)重、檢索的歷史行為等，實現(xiàn)為不同的讀者提供全面的、準確的個性化需求的信息。實現(xiàn)該功能需要對讀者進行長期行為的跟蹤，當讀者登錄信息服務平臺時，平臺會自動生成適合讀者的個性化頁面和內(nèi)容。同樣，在檢索時，平臺也會根據(jù)讀者的個性偏好，即使不同讀者提出相同要求，平臺也會輸出不同的檢索結果。

讀者在初次登錄該平臺時，須先進行注冊，通過提供個人興趣方向、專業(yè)背景、研究領域等信息，以便信息平臺系統(tǒng)對讀者進行個性化設置。當然，未免讀者所填信息不全或者后期興趣的轉(zhuǎn)移，還需要求讀者對自己提供的信息進行更改外，信息服務平臺也可以根據(jù)讀者的檢索行為、檢索結果的反饋、瀏覽記錄等進行挖掘，實現(xiàn)對個性化偏好庫的更新。

3.3 信息資源整合處理模塊

目前，高校數(shù)字圖書館都擁有了大量的信息資源，傳統(tǒng)的關鍵詞檢索方式，需要其檢索對象，也就是這些資源提煉出相應的詞語以供檢索匹配。而基于web3.0的信息服務平臺則需要通過語義方式檢索，所以需要對圖書館中存儲的信息資源創(chuàng)建本體模型，進而構建領域本體庫。

在創(chuàng)建領域本體庫的過程中，需要創(chuàng)建人員與領域?qū)＜疫M行溝通，在領域?qū)＜业膮f(xié)助下，充分挖掘領域的知識，達到對領域概念的一致性理解，形成一致認可的領域詞匯。同時，由于元數(shù)據(jù)所描述的結構化數(shù)據(jù)容易被計算機所理解及處理，所以對數(shù)字圖書館信息資源元數(shù)據(jù)信息的挖掘也顯得尤為重要，因為數(shù)量龐大，我們可以使用圖書館中成熟的元數(shù)據(jù)（MARC）。領域本體庫的構建并不是一勞永逸的，隨著數(shù)字圖書館的信息資源不斷的積累發(fā)展，讀者的信息需求也在不斷發(fā)展，因此，領域本體庫也需要不停的維護更新。

4 結束語

web3.0作為 web1.0與 web2.0的繼承與發(fā)展，使計算機的運用達到了語義的級別，計算機所識別的不再是簡單的一堆字符標志及字符處理，更能夠理解字符中所包含的語義。本文探討基于web3.0時代的語義網(wǎng)技術，改善目前高校數(shù)字圖書館信息資源服務中利用傳統(tǒng)技術難以查全、查準相關資源的狀況，并探索本體構建的方法和過程，利用概念圖匹配來表示語義網(wǎng)的理論和方法，提出開發(fā)基于本體的語義信息服務平臺的框架，體現(xiàn)信息聚合的個性化、信息檢索的精準化和智能化、信息服務的整合化和高效化。當然由于基于web3.0的數(shù)字圖書館個性化信息服務平臺是建立在語義網(wǎng)技術之上的，平臺的建立和完善還需要進一步完善領域知識本體的構建，這是一個工作量很大也很復雜的工程。

［1］朱巧明，李培峰，吳嫻，等.中文信息處理技術教程［M］.北京：清華大學出版社，2005.

［2］陳剛.基于Web3.0的數(shù)字圖書館個性化信息服務平臺的研究［D］.南京：南京信息工程大學計算機與軟件學院，2011.

［3］吳一平.基于 Web3.0思想的圖書館3.0服務新模式的研究與應用［J］.圖書館，2011（1）：90－92.