吳煜煌
摘要:在網(wǎng)絡(luò)大數(shù)據(jù)時代,數(shù)字圖書館已經(jīng)取代了傳統(tǒng)的圖書館成為人們獲取知識的主要途徑。隨著人們對查詢效率和個性化服務(wù)要求的提高,數(shù)字圖書館的如何更有效準(zhǔn)確地為用戶服務(wù)是眾多研究者和使用者關(guān)注的問題。在數(shù)字圖書館知識組織方面,已有大量的研究成果。本體能夠清晰地描述概念,概念格能夠揭示概念之間的層次關(guān)系,基于本體和基于概念格的數(shù)字圖書館知識組織也成為該領(lǐng)域的一個研究熱點。
關(guān)鍵字:數(shù)字圖書館;本體;概念格
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)31-0142-02
1 概述
數(shù)字化圖書館是網(wǎng)絡(luò)環(huán)境下的分布式知識網(wǎng)絡(luò)系統(tǒng),是一種新型的信息知識組織形式,能夠為用戶提供知識服務(wù)機(jī)制,涉及知識資源加工、存儲、檢索、傳輸和利用的全過程。近年來隨著大數(shù)據(jù)、大媒體的迅速發(fā)展,為了更好地為用戶提供知識服務(wù),數(shù)字圖書館如何對海量信息中的知識進(jìn)行發(fā)掘和組織變得尤為重要。尤其是隨著語義web的出現(xiàn),數(shù)字圖書館知識組織面臨著新的挑戰(zhàn),傳統(tǒng)的圖書館知識組織方法(如分類法和組織法)已無法適應(yīng)信息的非結(jié)構(gòu)化以及增長的速度,基于本體的數(shù)字圖書館知識組織和基于概念格的數(shù)字圖書館知識組織成為目前的兩個研究熱點。
2 數(shù)字圖書館
數(shù)字圖書館是一個電子化信息的倉儲,能夠存儲大量各種形式的信息,用戶可以通過網(wǎng)絡(luò)方便地訪問它,以獲得這些信息,并且其信息存儲和用戶訪問不受地域限制。"數(shù)字圖書館"概念一經(jīng)提出,就得到了世界廣泛的關(guān)注,紛紛組織力量進(jìn)行探討、研究和開發(fā),進(jìn)行各種模型的試驗。數(shù)字圖書館的服務(wù)是以知識概念引導(dǎo)的方式,將文字、圖像、聲音等數(shù)字化信息,通過互聯(lián)網(wǎng)傳輸,從而做到信息資源共享。每個擁有任何電腦終端的用戶只要通過聯(lián)網(wǎng),登錄相關(guān)數(shù)字圖書館的網(wǎng)站,都可以在任何時間、任何地點方便快捷地享用世界上任何一個"信息空間"的數(shù)字化信息資源。數(shù)字化資源、網(wǎng)絡(luò)化存取和分布式管理是數(shù)字圖書館的三要素。信息源、圖書館和讀者組成了數(shù)字圖書館的三角結(jié)構(gòu)。在大數(shù)據(jù)環(huán)境下,隨著人們對檢索效率和準(zhǔn)確率要求的提高,如何更有效的組織數(shù)字圖書館知識,為用戶提供更好地個性化服務(wù)成為數(shù)字圖書館領(lǐng)域面臨的一個關(guān)鍵問題。
3 基于本體的數(shù)字圖書館知識組織
3.1 本體(Ontology)的概念
“本體(Ontology)“一詞最初屬于哲學(xué)范疇,后來隨著人工智能的出現(xiàn)被引入到信息系統(tǒng)和知識系統(tǒng)等領(lǐng)域。從概念形式上看,不同的研究者對Ontology有不同的定義,目前對本體概念的普遍認(rèn)識認(rèn)為Ontology 是共享概念模型的明確的形式化規(guī)范說明,其中包含四個方面的含義:概念模型、明確、形式化和共享。主體的目標(biāo)是定義基本詞匯及其關(guān)系,組成主題領(lǐng)域的詞匯表以及將它們結(jié)合在一起成為規(guī)則體系,包括對象、屬性和關(guān)聯(lián)。后來隨著語義web的提出和發(fā)展,不同的研究者都認(rèn)為本體是某一領(lǐng)域內(nèi)部不同主體進(jìn)行交流的語義基礎(chǔ),它能夠描述語義規(guī)則以及一系列的推理規(guī)則以實現(xiàn)自動化推理。隨著語義web在圖書館領(lǐng)域的應(yīng)用,基于本體的數(shù)字圖書館知識組織也成為一個研究熱點。
3.2 本體(Ontology)在數(shù)字圖書館知識組織的作用
1)明確描述知識及其之間的語義關(guān)系
利用本體方法可以清晰規(guī)范地描述知識概念,減少知識概念的歧義,并且可以通過對知識概念添加屬性值、定義關(guān)系及屬性的知識范疇更加細(xì)致地描述知識間的關(guān)系。通過明確知識概念及其關(guān)系,確定了數(shù)字圖書館領(lǐng)域內(nèi)共同認(rèn)可的詞匯,使不同背景的研究者能夠保持在數(shù)字圖書館領(lǐng)域內(nèi)語義上的一致性。
2)實現(xiàn)異構(gòu)系統(tǒng)的互操作
本體在系統(tǒng)互操作也就是信息系統(tǒng)的集成方面的應(yīng)用最普遍,主要體現(xiàn)在三個方面:基于本體的信息檢索;基于本體共享的信息訪問和基于本體映射的信息訪問。在信息檢索方面,本體可以清晰地描述概念,并通過屬性能清晰地描述概念間的關(guān)系。在信息檢索中利用本體對信息的描述檢索知識數(shù)據(jù)庫,可以提高檢索的效率和準(zhǔn)確率。在數(shù)字圖書館應(yīng)用方面,首先用本體規(guī)范描述各領(lǐng)域概念,并基于本體組織數(shù)字圖書館知識,才能實現(xiàn)基于語義的數(shù)字圖書館知識檢索。在信息的共享方面,本體是概念化的詳細(xì)說明,其作用在于定義某一領(lǐng)域的專業(yè)詞匯及他們之間的關(guān)系。在一系列概念的支持下,知識的積累和共享的效率大大提高,從而在組織數(shù)字圖書館知識時實現(xiàn)各學(xué)科之間的知識重用和共享。在信息訪問方面,不同的應(yīng)用程序擁有各自獨立的本體,通過不同本體間的映射來實現(xiàn)信息共享。
3.3 利用本體(Ontology)組織數(shù)字圖書館知識
基于本體的數(shù)字圖書館知識組織主要經(jīng)過以下流程:領(lǐng)域知識模塊的建立、領(lǐng)域知識本體范圍及目標(biāo)的確立、可用本體的考察、領(lǐng)域知識本體的設(shè)計、本體的評價、本體的實現(xiàn)和本體的集成幾個階段。數(shù)字圖書館知識涉及很多學(xué)科和領(lǐng)域,為了構(gòu)建領(lǐng)域知識本體,第一步需要對現(xiàn)有知識領(lǐng)域進(jìn)行具體劃分,形成不同的領(lǐng)域知識。第二步是規(guī)劃階段,即通過分析領(lǐng)域知識本體的需求和制定相關(guān)計劃來確立其范圍和目標(biāo)。第三步是考察本體階段,根據(jù)現(xiàn)有本體集中有無可用本體來決定是優(yōu)化現(xiàn)有本體還是設(shè)計新本體。第四步是設(shè)計本體階段,通過使用知識獲取常用工具或者咨詢專家準(zhǔn)確的收集與獲取領(lǐng)域知識,全面地描述其術(shù)語、概念、屬性及其之間的關(guān)系,從而創(chuàng)建本體實例。第五步是評價本體階段,對前面構(gòu)建的本體進(jìn)行評價,主要從完整性、清晰性、一致性、擴(kuò)展性和可兼容性上檢查本體是否能滿足知識組織的要求。第七步是實現(xiàn)本體階段,即用形式化語言表示本體從而實現(xiàn)異構(gòu)系統(tǒng)的互操作。最后是集成本體階段,即將前面建立的各領(lǐng)域知識本體進(jìn)行集成,形成一個完整的本體知識庫,以便進(jìn)行信息查詢和檢索。
4 基于概念格的數(shù)字圖書館知識組織
4.1 概念格的概念
概念格是人類進(jìn)行知識表達(dá)的一種手段,概念格是一個形式概念,是知識的一種表達(dá)模型,它從本質(zhì)上描述了對象與屬性之間的關(guān)系,依據(jù)知識體在內(nèi)涵和外延上的依賴或因果關(guān)系建立概念層次模型。概念格作為一種有效的知識發(fā)現(xiàn)工具被應(yīng)用于機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、決策分析和信息檢索等領(lǐng)域。概念格在知識發(fā)現(xiàn)領(lǐng)域中,可以解決各種規(guī)則的提取,實現(xiàn)信息的有機(jī)組織。目前,概念格已成功地應(yīng)用于數(shù)字圖書館和文獻(xiàn)檢索領(lǐng)域。
4.2 概念格在數(shù)字圖書館領(lǐng)域的應(yīng)用
數(shù)字圖書館知識組織既要考慮外顯知識,也要考慮內(nèi)隱知識。概念格能夠提取關(guān)聯(lián)規(guī)則、蘊(yùn)含規(guī)則與分類規(guī)則,從而發(fā)現(xiàn)和提取內(nèi)隱知識,幫助完成知識的構(gòu)建。目前概念格在數(shù)字圖書館組織中的應(yīng)用,主要集中于以下幾個方面:對用戶市場進(jìn)行細(xì)分、對用戶用法進(jìn)行細(xì)分、利用概念格對用戶檢索行為進(jìn)行挖掘以及對圖書關(guān)聯(lián)規(guī)則進(jìn)行挖掘等。
數(shù)字圖書館的目標(biāo)是為用戶提供信息服務(wù),傳統(tǒng)的用戶劃分和知識組織方式已不能滿足數(shù)字圖書館的需求。滕廣青研究了基于概念格的用戶市場細(xì)分的模型,通過概念格聚類來得到對應(yīng)的概念格,支撐用戶市場細(xì)分,并分析概念格聚類,在描述市場用戶與屬性及其關(guān)系的同時,以層次性的結(jié)構(gòu)揭示出用戶市場的概念與聯(lián)系,可以調(diào)節(jié)細(xì)分的粒度。
關(guān)聯(lián)規(guī)則挖掘被廣泛地應(yīng)用于多種領(lǐng)域,作為一種知識形式化工具,一種數(shù)據(jù)分析工具,可以發(fā)現(xiàn)大數(shù)據(jù)的內(nèi)在關(guān)聯(lián)。目前關(guān)于概念格在關(guān)聯(lián)規(guī)則挖掘方面的研究已有很多,李欣提出了一種基于概念格的圖書關(guān)聯(lián)規(guī)則挖掘,通過調(diào)節(jié)關(guān)聯(lián)規(guī)則的閾值,挖掘用戶圖書借閱的關(guān)聯(lián)規(guī)則,提高圖書推薦服務(wù)能力。在數(shù)字圖書館知識組織應(yīng)用領(lǐng)域,滕廣青將概念格理論擴(kuò)展到認(rèn)知與開發(fā)方面,豐富了概念格的應(yīng)用范圍。
5 基于本體與概念格融合的數(shù)字圖書館知識應(yīng)用
本體作為語義web環(huán)境下的知識描述工具,缺乏概念格中概念的層次結(jié)構(gòu),將概念格融入到本體構(gòu)建中,能夠更加清晰地揭示潛在知識規(guī)律,形成更大的知識網(wǎng)絡(luò),為實現(xiàn)多本體協(xié)同提供基礎(chǔ)。本體與概念格的融合可以取長補(bǔ)短,促進(jìn)數(shù)字圖書館知識組織從信息到知識的轉(zhuǎn)變。如圖1所示,在知識管理方面,概念格和本體融合可以應(yīng)用在知識組織、知識挖掘、知識推理和知識檢索方面。
圖1 基于本體的概念格應(yīng)用
5.1基于概念格的本體構(gòu)建在數(shù)字圖書館知識組織中的應(yīng)用
近年來,有關(guān)本體與概念格融合的數(shù)字圖書館知識組織也越來越受到研究者的關(guān)注與重視。滕廣青重點關(guān)注了異構(gòu)領(lǐng)域內(nèi)基于概念格的本體構(gòu)建,在提出了相關(guān)的技術(shù)路線的基礎(chǔ)上,通過對異構(gòu)資源進(jìn)行選擇和形式化處理,分別構(gòu)建了兩種概念格:主題詞表概念格和文本概念格,并探討了知識地圖中的多本體映射與協(xié)同。畢強(qiáng)等提出了基于概念格與本體融合的數(shù)字圖書館知識組織路徑,主要從本體概念描述、本體概念分析和本體建模三個方面闡述了概念格的作用,列舉了概念格在本體構(gòu)建中的應(yīng)用,提出了基于概念格構(gòu)建本體的技術(shù)路線。
基于概念格的本體構(gòu)建流程如圖2所示,主要包括以下步驟:
1)數(shù)據(jù)預(yù)處理:對主題詞表和標(biāo)簽進(jìn)行規(guī)范處理,對信息形成一致性認(rèn)識。
2)形式背景構(gòu)建:對數(shù)據(jù)預(yù)處理后的資源集和標(biāo)簽集進(jìn)行形式化,描述概念和屬性之間的關(guān)系,對相關(guān)主體進(jìn)行合并。
3)概念格分析:進(jìn)行概念聚類,利用概念格構(gòu)造工具從形式背景生成概念格。
4)本體構(gòu)建:采用模型化方法,使用概念格分析的結(jié)果構(gòu)建本體。
5)本體評估:通過某種評估策略對生成的實驗本體進(jìn)行評估,檢驗其概念和語義的正確性和完整性,并參考大眾意見進(jìn)行修改和完善。
圖2 基于概念格的本體構(gòu)建流程 (下轉(zhuǎn)第147頁)
(上接第143頁)
5.2基于本體和概念格的圖書推送服務(wù)
圖書推送服務(wù)是網(wǎng)絡(luò)環(huán)境下一種新型的主動服務(wù)模式,提供個性化的圖書服務(wù)。數(shù)字圖書館需要根據(jù)用戶的興趣需求、專業(yè)特征等進(jìn)行信息挖掘,找出圖書關(guān)聯(lián)規(guī)則。從知識挖掘角度來講,本體和概念格可以從不同層次揭示概念的隱含知識。概念格可以挖掘概念屬性之間的關(guān)系,在圖書推送服務(wù)方面通過設(shè)置相關(guān)的閾值建立圖書關(guān)聯(lián)概念格,可以挖掘出圖書之間的關(guān)聯(lián)規(guī)則,從而發(fā)現(xiàn)圖書借閱歷史中隱含的關(guān)聯(lián),以便更準(zhǔn)確地向讀者推薦圖書目錄推送服務(wù)。
互聯(lián)網(wǎng)環(huán)境下科技的發(fā)展和進(jìn)步推動了知識組織體系的演進(jìn),復(fù)雜網(wǎng)絡(luò)的興起使得知識網(wǎng)絡(luò)的概念日趨普及,知識組織體系更加豐富,數(shù)字圖書館知識組織方式必然會隨之發(fā)展,未來會出現(xiàn)更高效和人性化的知識組織服務(wù),為用戶提供更大的異構(gòu)知識網(wǎng)絡(luò)。
參考文獻(xiàn):
[1] 畢強(qiáng),鮑玉來. 數(shù)字圖書館知識組織體系構(gòu)建的發(fā)展路徑—概念格與本體的互補(bǔ)融合[J].華中師范大學(xué)學(xué)報(人文社會科學(xué)版),2011,50(5):130-136.
[2] 滕廣青.基于概念格的數(shù)字圖書館知識組織研究[D].吉林大學(xué),2012.
[3] 王任棟,宋濤.基于本體的數(shù)字圖書館知識組織研究[J].長春師范大學(xué)學(xué)報(自然科學(xué)版),2014,33(6):180-182.
[4] 李欣.基于概念格的圖書關(guān)聯(lián)規(guī)則挖掘研究[J].圖書館學(xué)研究,2015(8):71-74.