館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑*

2015-10-23 12:15:08劉學(xué)平濰坊學(xué)院圖書館山東濰坊261061

圖書館建設(shè) 2015年6期

劉學(xué)平（濰坊學(xué)院圖書館山東濰坊 261061）

網(wǎng)絡(luò)技術(shù)的發(fā)展使館藏數(shù)字資源的環(huán)境由傳統(tǒng)文件網(wǎng)絡(luò)環(huán)境向充滿語義關(guān)聯(lián)資源的新環(huán)境轉(zhuǎn)變。這為知識發(fā)現(xiàn)活動越來越多地基于網(wǎng)絡(luò)資源展開增加了新的發(fā)展機(jī)遇。圖書館是數(shù)字資源的聚集地，從迅速增長的館藏數(shù)字資源中發(fā)現(xiàn)有效的知識，與圖書館知識服務(wù)的趨勢正適切，而對館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的研究，正好為知識服務(wù)的知識推送提供了實現(xiàn)路徑。因此，尋求資源關(guān)聯(lián)對知識發(fā)現(xiàn)效率和能力的影響，優(yōu)化二者之間的關(guān)系，促進(jìn)資源關(guān)聯(lián)背景下的知識發(fā)現(xiàn)，實現(xiàn)發(fā)現(xiàn)知識對讀者需求的針對性，提升圖書館的知識服務(wù)能力，成為實現(xiàn)館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的目的。這一目的決定了館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑要分兩個維度展開：一是從微機(jī)角度出發(fā)，強(qiáng)調(diào)微機(jī)的計算能力和人工智能，以各種高性能處理算法、智能搜索與挖掘算法等為主要實現(xiàn)內(nèi)容；二是從讀者對知識的需求角度出發(fā)，強(qiáng)調(diào)基于人機(jī)交互的、符合人的認(rèn)知規(guī)律的分析方法，將人所具備的、微機(jī)并不擅長的認(rèn)知能力融入知識發(fā)現(xiàn)過程[1]，具體表現(xiàn)如下。

1 動力

實現(xiàn)館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的動力主要來自兩方面，一是讀者快速獲取知識的準(zhǔn)確性需求。目前館藏數(shù)字資源檢索結(jié)果采用一維線性排列方式，讀者需要逐條閱讀篩選出自己需要的資源，在浪費讀者時間的同時降低了資源的查全率與查準(zhǔn)率。二是讀者對館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)的期望。網(wǎng)絡(luò)時代，快節(jié)奏的學(xué)習(xí)方式致使讀者期望一個高效、便捷的知識獲取平臺，能夠在同一張網(wǎng)頁上直觀地看到獲取到的有用資源并顯示出各知識之間的關(guān)聯(lián)關(guān)系。館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)，為讀者這一期望的實現(xiàn)提供了實現(xiàn)的路徑，即知識發(fā)現(xiàn)過程能將檢索結(jié)果用有效關(guān)聯(lián)、建立數(shù)據(jù)聯(lián)系、二次開發(fā)等方法實現(xiàn)，使資源具有相關(guān)性，再通過二維圖形和圖表、三維圖形和動畫、多維模擬空間等可視化的方式[2]，將檢索結(jié)果呈現(xiàn)給讀者，實現(xiàn)讀者一站式獲取資源的期望。讀者的這種需求和期望成為館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程實現(xiàn)的動力源泉。

2 技術(shù)

2.1 網(wǎng)頁抓取技術(shù)

由于館藏數(shù)字資源主要以網(wǎng)頁的形式存在，所以頁面資源的抓取至關(guān)重要。網(wǎng)頁抓取技術(shù)主要是對HTML頁面的抓取和分析，配合HTML connector即網(wǎng)頁連接器一起使用，抓取雙層鏈接并保存頁面內(nèi)容。常見的網(wǎng)頁抓取方法有三種，一是URL（Uniform Resource Locator，統(tǒng)一資源定位符）地址中包含分頁信息；二是通過Asp.net開發(fā)的網(wǎng)站分頁控件，通過POST方式提交分頁信息到后臺代碼；三是翻頁過程中找不到頁碼信息，所以只能用代碼模擬手動翻頁，然后抓取[3]。

2.2 資源挖掘技術(shù)

資源挖掘是利用路徑分析技術(shù)、關(guān)聯(lián)規(guī)則、序列模式、分類聚類等技術(shù)，挖掘出有效的、可能被理解的資源和知識。常用的方法有貝葉斯方法、遺傳算法、神經(jīng)網(wǎng)絡(luò)等。在此基礎(chǔ)上，圖書館利用可視化技術(shù)、知識查詢技術(shù)等，將得到的資源轉(zhuǎn)換為讀者可以理解的資源，并刪除無用資源[3]。

2.3 索引技術(shù)

索引技術(shù)是資源庫與讀者需求之間的橋梁，貫穿于整個資源發(fā)現(xiàn)過程中，它包括內(nèi)容索引和結(jié)構(gòu)索引。結(jié)構(gòu)索引即圖書館將網(wǎng)頁中的頁面和鏈接作為索引的節(jié)點和邊的有向圖，有了節(jié)點和邊的有向圖就可以對超鏈接創(chuàng)建索引。內(nèi)容索引主要是Web頁面的文本資源[3]，是在資源挖掘時查詢內(nèi)容相關(guān)度的主要方法。

3 方法

3.1 語義聚焦爬蟲發(fā)現(xiàn)法

語義聚焦爬蟲發(fā)現(xiàn)法分為發(fā)現(xiàn)目標(biāo)的定義和描述、發(fā)現(xiàn)策略的分析與制定、頁面語義標(biāo)注和分析三步。首先，以事先遴選好的URL作為種子樣本來決定爬行的起點，從而達(dá)到對爬蟲為發(fā)現(xiàn)新目標(biāo)頁面URL而進(jìn)行漫游的深度控制和引導(dǎo)；其次，采用傳統(tǒng)的深度優(yōu)先、廣度優(yōu)先和啟發(fā)式搜索等策略，對提取到的URL列表進(jìn)行鏈接排序和下載，得到不含任何語義關(guān)聯(lián)信息的數(shù)據(jù)和相關(guān)的元數(shù)據(jù)；最后，對得到的資源進(jìn)行分析和分類，從語義化的網(wǎng)頁或文件格式中（如URL文件、OWL文件、XTM文件、XML文件）嵌入相關(guān)語義標(biāo)記（如RDFa、Microdata的HTML和XHTML），并從文件中提取和分離出語義標(biāo)注信息。常采用的方法是編寫自定義的解析程序或者采用語義分離器RDF API等。對非語義化標(biāo)注的網(wǎng)頁文檔，此方法則通過一些自動化語義標(biāo)注軟件或人工輔助標(biāo)注方式補(bǔ)充語義信息[4]，實現(xiàn)對獲取到相關(guān)實體數(shù)據(jù)和元數(shù)據(jù)語義標(biāo)注的完善，最終根據(jù)語義標(biāo)注信息發(fā)現(xiàn)新知識。

3.2 領(lǐng)域本體發(fā)現(xiàn)法

領(lǐng)域本體發(fā)現(xiàn)法與語義聚焦爬蟲發(fā)現(xiàn)方法有相同之處，由于它增加了領(lǐng)域本體庫的支持，因而也增加了多道處理工序，主要表現(xiàn)有：其一，在頁面語義標(biāo)注和分析環(huán)節(jié)，并不僅僅是對當(dāng)前頁面進(jìn)行語義分析，而是結(jié)合領(lǐng)域本體庫的知識對頁面進(jìn)行擴(kuò)展解析。其二，在完成頁面解析后，能夠把得到的相關(guān)語義標(biāo)注信息重新返回給領(lǐng)域本體庫，由領(lǐng)域本體庫進(jìn)行基于三元組的拆解和保存，從而達(dá)到擴(kuò)展和豐富現(xiàn)有本體庫的目的。其三，在資源存儲和索引環(huán)節(jié)，利用本體映射技術(shù)對本體庫中新增的異構(gòu)本體進(jìn)行本體和實體的映射，同時利用實體融合技術(shù)對映射結(jié)果庫中相同或相似的實體進(jìn)行實體融合或?qū)嶓w關(guān)聯(lián)，然后將最終形成的實體關(guān)系和數(shù)據(jù)交給索引分析模塊進(jìn)行處理[4]，從而形成索引庫以進(jìn)行存儲和索引。

3.3 RDF查詢語言發(fā)現(xiàn)法

在數(shù)據(jù)結(jié)構(gòu)上，語義網(wǎng)主要采用“資源－屬性－值”的RDF三元組形式去描述網(wǎng)絡(luò)知識源。一個RDF三元組又可以表示為一個RDF有向圖。因此，對于微機(jī)來說，一個有效的語義網(wǎng)資源站點可以被定義為一個或多個RDF有向圖組成的集合。因而基于RDF的查詢，該方法能夠借助于RDF數(shù)據(jù)模型和語義網(wǎng)自身的優(yōu)勢，對查詢需求進(jìn)行明確語義和強(qiáng)結(jié)構(gòu)化的表達(dá)，從而查詢到精確滿足特定目標(biāo)需求的數(shù)據(jù)，而返回的查詢結(jié)果仍然是一個RDF三元組的集合，這有利于進(jìn)一步的語義關(guān)聯(lián)和語義挖掘。目前，國際上具有代表性的RDF查詢語言主要包括SPARQL、RQL、RDQL、SERQL、N3、TRIPLE、Versa等[4]。

3.4 關(guān)聯(lián)數(shù)據(jù)發(fā)現(xiàn)法

該方法首先利用語義搜索引擎或關(guān)聯(lián)數(shù)據(jù)源提供的接口，在根據(jù)應(yīng)用需求遴選出的相關(guān)關(guān)聯(lián)數(shù)據(jù)源中，通過訪問這些數(shù)據(jù)源中的RDF鏈接發(fā)現(xiàn)更多的相關(guān)資源數(shù)據(jù)。其次，通過關(guān)聯(lián)映射實現(xiàn)關(guān)聯(lián)數(shù)據(jù)（不同的關(guān)聯(lián)數(shù)據(jù)通常采用不同的本體或敘詞表來標(biāo)注同一實體概念的語義信息）、不同本體或敘詞表中對同一個實體進(jìn)行定義或描述的術(shù)語的標(biāo)準(zhǔn)，并能夠?qū)⑵淙哭D(zhuǎn)換或使用某種統(tǒng)一的目標(biāo)規(guī)范格式進(jìn)行表示，以避免后續(xù)處理出現(xiàn)誤解和混亂。最后，通過實體〔不同的關(guān)聯(lián)數(shù)據(jù)源也通常采用不同的URI（Uniform Resource Identifier，統(tǒng)一資源標(biāo)識符）去標(biāo)示同一個實體〕融合，對實體中所有使用標(biāo)記指向的數(shù)據(jù)源進(jìn)行資源獲取和審核，用于對當(dāng)前實體關(guān)系的語義補(bǔ)充和完善，并產(chǎn)生和分配給該實體一個主體的新的URI，形成一個新的關(guān)于該實體的RDF聲明，同時將通過審核的RDF鏈接作為來源數(shù)據(jù)源仍然使用標(biāo)記在新的RDF聲明中。同時也為了保證知識資源發(fā)現(xiàn)的可靠性[4]，盡可能地摒棄無效的RDF鏈接和實體關(guān)聯(lián)信息。

4 策略保障

4.1 以“發(fā)現(xiàn)”的理念引領(lǐng)知識發(fā)現(xiàn)過程的新思維

“發(fā)現(xiàn)”是一個從無到有的過程。就館藏數(shù)字資源知識發(fā)現(xiàn)過程而言，它不是通常的知識呈現(xiàn)的過程，而是超出館藏資源范圍以外，用新思維、新方法發(fā)現(xiàn)新知識的過程。館藏數(shù)字資源的動態(tài)增長，會不斷地給知識發(fā)現(xiàn)過程提供新的數(shù)據(jù)和信息，產(chǎn)生更多的新知識。這樣的知識發(fā)現(xiàn)過程會使我們意識到，由于讀者對館藏資源需求的滿足永遠(yuǎn)是不全面、暫時的，因而知識發(fā)現(xiàn)過程是一個動態(tài)、不飽和的過程，它會以“發(fā)現(xiàn)”更多知識的新思維督促知識發(fā)現(xiàn)過程時刻準(zhǔn)備著去獲取和挖掘更多的最新知識，而不是停留在原有、靜止的某個層面[5]。這樣的新思維會在調(diào)動圖書館知識發(fā)現(xiàn)主動性的同時，提升知識發(fā)現(xiàn)率，達(dá)到提高館藏數(shù)字資源利用率的目的。

4.2 以新技術(shù)跟蹤提高館藏數(shù)字資源關(guān)聯(lián)知識的可發(fā)現(xiàn)性

發(fā)現(xiàn)技術(shù)的日新月異要求知識發(fā)現(xiàn)必須及時跟蹤與關(guān)注聚焦爬蟲、領(lǐng)域本體、RDF查詢語言、關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、資源發(fā)現(xiàn)、資源組織等相關(guān)領(lǐng)域的前沿技術(shù)發(fā)展動態(tài)，及時對其理論、方法、技術(shù)和工具進(jìn)行了解和掌握，并在知識發(fā)現(xiàn)過程中，根據(jù)每種發(fā)現(xiàn)技術(shù)和發(fā)現(xiàn)工具的優(yōu)劣點，按知識發(fā)現(xiàn)過程的需要，選擇最佳的技術(shù)與工具完成發(fā)現(xiàn)過程的設(shè)計和發(fā)現(xiàn)任務(wù)。這也是館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程實現(xiàn)的基礎(chǔ)條件和必備條件。因為館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程通常被要求能夠同時支持檢索驅(qū)動和知識推理驅(qū)動的過程。檢索驅(qū)動是指基于頁面分析的標(biāo)記處理和語義標(biāo)注的過程，知識推理驅(qū)動是指推理引擎借助領(lǐng)域本體和知識庫進(jìn)行新規(guī)則和關(guān)聯(lián)知識發(fā)現(xiàn)的過程[4]。這兩個過程的實現(xiàn)必須借助知識發(fā)現(xiàn)領(lǐng)域的最新技術(shù)和最新工具才能完成。

4.3 以讀者知識需求實現(xiàn)知識發(fā)現(xiàn)過程的針對性

由于發(fā)現(xiàn)知識的最終目的是滿足讀者的知識需求，因而發(fā)現(xiàn)過程應(yīng)在以讀者知識需求為中心的同時，鼓勵讀者參與到知識發(fā)現(xiàn)過程中，使發(fā)現(xiàn)知識對讀者的知識需求更具有針對性。讀者的知識需求一般來源于讀者對館藏資源的檢索與閱讀，因而可利用讀者日志、讀者cookie進(jìn)行讀者需求的提取和收集。采取的方法是對讀者的資源檢索行為進(jìn)行統(tǒng)計分析，對讀者的閱讀習(xí)慣進(jìn)行聚類，然后根據(jù)聚類得到的各類指標(biāo)（如檢索關(guān)鍵詞、關(guān)鍵詞出現(xiàn)頻率、讀者登錄頻率、檢索頻率、下載頁數(shù)、瀏覽時長等）的相關(guān)性、邏輯性，對數(shù)據(jù)進(jìn)行過濾，去除無效數(shù)據(jù)，保留一些能夠體現(xiàn)讀者對資源感興趣的信息，建立讀者需求數(shù)據(jù)庫，運用分類、聚類、關(guān)聯(lián)分析等方法，研究出讀者知識需求的內(nèi)在聯(lián)系和普遍規(guī)律，如使用習(xí)慣、知識背景及知識取向等[6]，據(jù)此采用知識關(guān)聯(lián)對發(fā)現(xiàn)知識進(jìn)行有針對性的組織與管理，使其目的明確、方向清晰。讀者參與知識發(fā)現(xiàn)過程，是在發(fā)現(xiàn)需求調(diào)查階段采用角色扮演、預(yù)演和模擬的方式獲得讀者對知識的需求和期望，在發(fā)現(xiàn)過程中采用滿意度調(diào)查和可用性測試方法收集讀者對知識發(fā)現(xiàn)效果的評價，在發(fā)現(xiàn)知識使用階段采用問卷調(diào)查和使用統(tǒng)計來評估館藏數(shù)字資源利用率的變化和讀者期望的滿足程度[7]。可見，以讀者知識需求為導(dǎo)向的知識發(fā)現(xiàn)過程，在使發(fā)現(xiàn)知識更具針對性的同時，對館藏數(shù)字資源的建設(shè)也有很好的指導(dǎo)作用。

5 路徑

作為一種新型知識發(fā)現(xiàn)的探索，館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑尚處于摸索階段，它需要進(jìn)一步規(guī)范和完善。筆者將館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的特殊性擬合到知識發(fā)現(xiàn)的一般過程中，得到的實現(xiàn)路徑為：利用相關(guān)技術(shù)和方法，從館藏資源數(shù)據(jù)中收集目標(biāo)數(shù)據(jù)，對數(shù)據(jù)進(jìn)行提取、清理、序化、集成等預(yù)處理，再將處理過的數(shù)據(jù)轉(zhuǎn)換為能夠進(jìn)行數(shù)據(jù)關(guān)聯(lián)與挖掘的格式進(jìn)行數(shù)據(jù)的關(guān)聯(lián)與挖掘，從中發(fā)現(xiàn)相關(guān)知識，再將知識進(jìn)行呈現(xiàn)、推送與評價。由于知識發(fā)現(xiàn)本身是一個循環(huán)求精的過程，根據(jù)評價結(jié)果的反饋，可以循環(huán)回到知識發(fā)現(xiàn)過程的前續(xù)階段，進(jìn)一步獲得更為準(zhǔn)確和符合需求的結(jié)果[8]，完成整個知識發(fā)現(xiàn)過程，如圖1所示。

圖1 館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程

圖1展示出這一實現(xiàn)路徑的獨特之處在于：一是發(fā)現(xiàn)過程以資源關(guān)聯(lián)方法（數(shù)據(jù)、技術(shù)、資源環(huán)境、標(biāo)準(zhǔn)、機(jī)制）作為邏輯控制。因為知識發(fā)現(xiàn)被視為基于資源關(guān)聯(lián)的特殊應(yīng)用，因而發(fā)現(xiàn)過程的邏輯控制遵循基于資源關(guān)聯(lián)數(shù)據(jù)應(yīng)用的一般規(guī)律。資源準(zhǔn)備、資源獲取、資源處理和資源挖掘處理過程，都需要根據(jù)資源關(guān)聯(lián)的特殊需求進(jìn)行重新的設(shè)計和解決。二是過程方法控制。流程以知識發(fā)現(xiàn)作為基本方法，采用分層結(jié)構(gòu)，很自然地將資源關(guān)聯(lián)數(shù)據(jù)與知識發(fā)現(xiàn)方法融合在一起，發(fā)揮各自優(yōu)勢。三是功能操作控制。流程各層之間和各功能模塊之間依靠功能操作進(jìn)行銜接、互動和控制，實現(xiàn)流程中資源的調(diào)用、組織和生成[9]，它是資源關(guān)聯(lián)知識發(fā)現(xiàn)過程能否實現(xiàn)的關(guān)鍵。

5.1 資源問題的理解與定義

問題理解是對館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的問題進(jìn)行分析與定位。問題分析是對發(fā)現(xiàn)基礎(chǔ)的問題（通過知識發(fā)現(xiàn)的方法實現(xiàn)數(shù)字資源關(guān)聯(lián)的核心價值——關(guān)聯(lián)發(fā)現(xiàn)）、如何發(fā)現(xiàn)的問題（通過數(shù)據(jù)和資源之間的關(guān)聯(lián)關(guān)系去發(fā)現(xiàn)新的關(guān)系和新的知識）、發(fā)現(xiàn)什么的問題（如何發(fā)現(xiàn)和產(chǎn)生語義關(guān)聯(lián)的新知識[9]）進(jìn)行分析。問題定位是將館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程問題定位為多任務(wù)、多路徑、多步驟：多任務(wù)是將資源關(guān)聯(lián)定位為詞表映射（用以實現(xiàn)兩個異構(gòu)資源之間的轉(zhuǎn)換）、資源比對（用以計算兩個資源之間的相似度）、資源鑒別（根據(jù)一個資源的屬性，通過與規(guī)范記錄比對，獲得該資源的規(guī)范名稱）、去重（根據(jù)資源對比的結(jié)果，將兩個被認(rèn)為同指的資源進(jìn)行合并）、顯示化（將發(fā)現(xiàn)知識進(jìn)行可視化顯示）等多種任務(wù)類型[10]；多路徑是指館藏數(shù)字資源關(guān)聯(lián)知識的發(fā)現(xiàn)過程同時存在著多條發(fā)現(xiàn)路徑；多步驟是將館藏數(shù)字資源關(guān)聯(lián)知識的發(fā)現(xiàn)過程分解成多個連續(xù)的步驟。

5.2 資源的收集與挖掘

資源收集是將形式多樣、異質(zhì)異構(gòu)、數(shù)量龐大的館藏數(shù)字資源聚集在一起，為知識發(fā)現(xiàn)的數(shù)量、質(zhì)量及其覆蓋面奠定基礎(chǔ)。收集方式以集中獲取為主、針對數(shù)字資源的特性而異，如針對資源的多樣性，收集過程采用網(wǎng)絡(luò)技術(shù)、發(fā)現(xiàn)技術(shù)，確保資源收集的全面性、系統(tǒng)性；針對資源的動態(tài)性，采用資源分析技術(shù)，經(jīng)過設(shè)置收集資源的時間和關(guān)鍵詞等需求，實現(xiàn)對選定資源相關(guān)內(nèi)容的定期監(jiān)視和自動收集[7]；針對內(nèi)容復(fù)雜、信息量大的資源，采用資源挖掘、數(shù)據(jù)分析等技術(shù)，對其進(jìn)行收集和整理。同時，為使館藏資源知識發(fā)現(xiàn)更有針對性，圖書館還要將散存在讀者的個人網(wǎng)站、博客、微博、QQ 群等各種網(wǎng)絡(luò)交流工具中有價值的需求資源進(jìn)行收集。

由于通過以上諸方式收集起來的大量來自不同渠道、不同格式的數(shù)字資源是由多個孤立的子網(wǎng)組成，它們彼此之間是獨立自治、弱關(guān)聯(lián)的，缺乏互操作接口，因此尚不具備支持資源知識發(fā)現(xiàn)的能力[10]，圖書館需要對其資源進(jìn)行挖掘。資源挖掘的核心是建立結(jié)構(gòu)化、關(guān)聯(lián)的資源表示。其方法是通過資源計量統(tǒng)計分析（利用文獻(xiàn)計量工具，如SPSS、TDA、SATI、UCINET 等，對數(shù)字資源進(jìn)行基本統(tǒng)計與挖掘）、引證文獻(xiàn)關(guān)系（在簡單統(tǒng)計分析的基礎(chǔ)上更進(jìn)一步，包括對參考文獻(xiàn)、引文索引等引文關(guān)系的分析）、高相關(guān)度資源（解決讀者問題的重要參考資料）、交叉資源（從宏觀的角度挖掘數(shù)字資源之間的隱含關(guān)系）等[11]先進(jìn)的技術(shù)手段，對收集來的數(shù)字資源進(jìn)行處理、分析與挖掘，將資源揭示由表面的信息深入到資源之間的復(fù)雜關(guān)系，使不同資源節(jié)點之間的多重關(guān)聯(lián)關(guān)系充分揭示出來，展現(xiàn)給讀者的資源不再是一個點到點的線性結(jié)果表示，而是深入分析讀者需要的、揭示各資源關(guān)聯(lián)關(guān)系的立體資源體系[12]，為發(fā)現(xiàn)潛藏在資源背后的知識做好充分的準(zhǔn)備。

5.3 資源數(shù)據(jù)的清洗與序化

經(jīng)過挖掘的資源，我們要對其合法性進(jìn)行檢查，清理錯誤資源，進(jìn)行初步轉(zhuǎn)換，即利用一定的技術(shù)工具，實現(xiàn)多種格式數(shù)字資源的標(biāo)準(zhǔn)轉(zhuǎn)換，以此獲取規(guī)范元數(shù)據(jù)信息，并對資源的元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)和規(guī)范接口，對各類資源加以描述和標(biāo)引，將各類資源統(tǒng)一組織和深層揭示，實現(xiàn)各類收錄資源的統(tǒng)一檢索和利用[13]；并在轉(zhuǎn)換過程中進(jìn)行資源的創(chuàng)建、修改、刪除、克隆等，將其存入臨時數(shù)據(jù)區(qū)；對臨時數(shù)據(jù)區(qū)內(nèi)的資源，選擇資源相關(guān)的屬性子集，并去除冗余屬性，采用資源采樣、資源轉(zhuǎn)換、資源表達(dá)等方式[14]，對資源進(jìn)行相關(guān)性排序，即通過合并、去重及內(nèi)容補(bǔ)充等，保證元數(shù)據(jù)的品質(zhì)；通過搜索引擎針對規(guī)范化的元數(shù)據(jù)進(jìn)行快速索引，建立不同屬性的規(guī)范詞表，實現(xiàn)讀者分面查詢和結(jié)果關(guān)聯(lián)。以此實現(xiàn)異構(gòu)資源有序化的轉(zhuǎn)換，即資源數(shù)據(jù)能進(jìn)行普通瀏覽、檢索瀏覽、分類瀏覽等操作，使資源達(dá)到序化的最佳匹配。

5.4 資源的關(guān)聯(lián)與知識發(fā)現(xiàn)

資源關(guān)聯(lián)是在挖掘與序化的資源數(shù)據(jù)中發(fā)現(xiàn)資源數(shù)據(jù)項之間的關(guān)系，生成新的資源數(shù)據(jù)鏈接的過程，其方法是：用URI來指代資源，用RDF三段式（事物—特性—值）來描述和聯(lián)接資源，RDF三段式資源中的任何一部分都可以集中很多信息，既可以回答檢索問題[15]，也可通過HTTP協(xié)議揭示并獲取這些資源數(shù)據(jù)。此方法可實現(xiàn)館藏資源的以下關(guān)聯(lián)：一是文獻(xiàn)本身信息的糅合，如在圖書信息中，通過與網(wǎng)絡(luò)圖書封面、摘要、目次及網(wǎng)絡(luò)書評等信息的關(guān)聯(lián)，實現(xiàn)了圖書詳細(xì)信息的無縫集成。二是構(gòu)建以檢索信息為核心的資源網(wǎng)絡(luò)，實現(xiàn)引文關(guān)聯(lián)、知識元引用關(guān)聯(lián)、相似文獻(xiàn)關(guān)聯(lián)、概念關(guān)系詞關(guān)聯(lián)等，如分析圖書作者、相關(guān)合作者及期刊、會議、文章等不同文獻(xiàn)之間的關(guān)系，建立圖書、期刊及學(xué)位論文等不同文獻(xiàn)之間相互引用的立體引用關(guān)系；分析文獻(xiàn)作者、作者單位等信息的引文網(wǎng)狀，為讀者提供全方位的知識內(nèi)容信息等。三是通過海量數(shù)據(jù)聚類學(xué)科，進(jìn)行學(xué)科趨勢的分析，提供學(xué)科發(fā)展的基本脈絡(luò)和走勢，為讀者了解不同時期學(xué)科研究熱點與發(fā)展方向提供重要信息[16]。關(guān)聯(lián)化館藏資源數(shù)據(jù)對于資源的發(fā)現(xiàn)、融合與互操作具有重要作用，它是知識發(fā)現(xiàn)和知識創(chuàng)造的起點。

知識發(fā)現(xiàn)不僅取決于知識結(jié)點之間的邏輯關(guān)系，也取決于知識之間的有機(jī)關(guān)聯(lián)，更取決于讀者對知識的需求和利用。資源的動態(tài)性決定了知識發(fā)現(xiàn)應(yīng)在資源進(jìn)行實時性節(jié)點定位的同時，將定位節(jié)點不終止于單一資源，應(yīng)考慮資源間語義關(guān)聯(lián)關(guān)系，進(jìn)行知識的鏈?zhǔn)桨l(fā)現(xiàn)[17]，即對資源數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換和歸類，形成發(fā)現(xiàn)軟件可識別的不同特征的數(shù)據(jù)集（如期刊影響力數(shù)據(jù)集、論文被引數(shù)據(jù)集等），并對不同的數(shù)據(jù)集采用不同的參數(shù)預(yù)算和維度表達(dá)，形成發(fā)現(xiàn)多維索引體系，以滿足各種發(fā)現(xiàn)檢索需求。在此基礎(chǔ)上，再通過資源發(fā)現(xiàn)技術(shù)，在深入分析讀者搜索行為的基礎(chǔ)上，圖書館運用技術(shù)手段進(jìn)行快速匹配，對數(shù)字資源進(jìn)行充分的挖掘、關(guān)聯(lián)和升值，深入揭示資源的整體性，使得資源的查找和定位更加細(xì)化、快捷、準(zhǔn)確，幫助讀者發(fā)現(xiàn)所需資源的信息、知識、節(jié)點、來源等[12]。知識關(guān)聯(lián)挖掘具體可以分為兩個層級的任務(wù)，一是在整合的關(guān)聯(lián)數(shù)據(jù)集上，調(diào)度和運行傳統(tǒng)的數(shù)據(jù)挖掘，完成既定模式的知識發(fā)現(xiàn)。這一層級的工作需要考慮將關(guān)聯(lián)數(shù)據(jù)的檢索過程從數(shù)據(jù)挖掘過程中分離出來，以便減輕讀者使用和了解關(guān)聯(lián)數(shù)據(jù)的底層邏輯（本體、語義）的負(fù)擔(dān)。第二個層面是利用關(guān)聯(lián)數(shù)據(jù)自身的特點，通過鏈接挖掘與發(fā)現(xiàn)關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)中隱藏的、豐富的、潛在有用的關(guān)系。這一層級的工作目標(biāo)是創(chuàng)建針對關(guān)聯(lián)數(shù)據(jù)特性的挖掘算法、知識模式，以便在已有的語義關(guān)聯(lián)基礎(chǔ)上，推斷和發(fā)現(xiàn)任意資源之間的進(jìn)一步關(guān)聯(lián)或者通過特定模式重新組織和架構(gòu)形成新的關(guān)聯(lián)知識[18]。

5.5 知識的呈現(xiàn)、推送與評價

知識呈現(xiàn)一方面要借助發(fā)現(xiàn)過程中一站式檢索來完成對檢索結(jié)果的呈現(xiàn)和獲取，另一方面在一站式檢索中嵌入更多的發(fā)現(xiàn)軟件，實現(xiàn)發(fā)現(xiàn)知識的多維呈現(xiàn)與關(guān)聯(lián)呈現(xiàn)。呈現(xiàn)方式主要有發(fā)現(xiàn)知識呈現(xiàn)、發(fā)現(xiàn)知識流程呈現(xiàn)和發(fā)現(xiàn)知識關(guān)聯(lián)呈現(xiàn)三種類型[13]。發(fā)現(xiàn)知識呈現(xiàn)是利用映射將數(shù)字知識轉(zhuǎn)化為圖示表達(dá)，以利于讀者的觀察和理解；發(fā)現(xiàn)知識流程呈現(xiàn)是利用錄像、音響等技術(shù)手段將某些實驗流程、示范片段或者研究報告等進(jìn)行視頻傳播，使知識發(fā)現(xiàn)流程更為顯性透明；發(fā)現(xiàn)知識關(guān)聯(lián)呈現(xiàn)是利用相關(guān)發(fā)現(xiàn)工具，將某個領(lǐng)域的資源知識進(jìn)行關(guān)聯(lián)，以此展示或發(fā)現(xiàn)該領(lǐng)域的研究熱點和發(fā)展趨勢等。

知識的推送是圖書館在發(fā)掘讀者潛在資源知識需求的同時，針對特定讀者的需求，通過RSS、E-mail、收藏推薦等方式，借助于信息推送技術(shù)，將發(fā)現(xiàn)的館藏資源關(guān)聯(lián)知識主動傳遞到讀者界面，提高知識服務(wù)的主動性。

知識評價是根據(jù)知識發(fā)現(xiàn)本身是一個循環(huán)求精的過程而設(shè)定，是一個需要專家、讀者共同參與的人工過程，其方法是：召集資源發(fā)現(xiàn)領(lǐng)域?qū)＜?，對發(fā)現(xiàn)的知識進(jìn)行多維度的測評，并將評價結(jié)果與讀者在使用資源知識過程中的反饋意見進(jìn)行合并，根據(jù)對讀者知識需求問題的解決情況，對讀者不滿意的知識重復(fù)知識發(fā)現(xiàn)過程，將知識進(jìn)行修復(fù)和完善，直至讀者滿意為止[8]，以實現(xiàn)知識發(fā)現(xiàn)過程的經(jīng)驗積累、知識修復(fù)和目標(biāo)的完善，進(jìn)而體現(xiàn)知識發(fā)現(xiàn)過程循環(huán)求精的不爭事實。

6 結(jié) 語

網(wǎng)絡(luò)環(huán)境下，知識服務(wù)成為圖書館服務(wù)的趨勢，也是使命使然。因此，如何利用館藏數(shù)字資源關(guān)聯(lián)知識來提升圖書館知識服務(wù)力，滿足讀者知識需求，對館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程實現(xiàn)路徑探究，既為此問題提供了解決的方案，也適應(yīng)了圖書館提供知識服務(wù)的需求。它標(biāo)志著資源知識的傳播與交流價值凸顯，作為一種新的資源知識發(fā)現(xiàn)方式，從資源獲取、關(guān)聯(lián)揭示、知識發(fā)現(xiàn)到知識的呈現(xiàn)、推送與評價，發(fā)現(xiàn)過程貫穿其建設(shè)推廣和功能擴(kuò)展的整個流程，有著不可替代的作用。按照研究思路，文章在對發(fā)現(xiàn)過程中的問題進(jìn)行了分析與定位，將館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的特殊性擬合到知識發(fā)現(xiàn)的一般過程中，把知識發(fā)現(xiàn)規(guī)律和資源關(guān)聯(lián)技術(shù)、標(biāo)準(zhǔn)、資源環(huán)境和知識發(fā)現(xiàn)的方法融合，構(gòu)建了實現(xiàn)館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的完整路徑，擴(kuò)展和融合了知識發(fā)現(xiàn)和館藏數(shù)字資源關(guān)聯(lián)的研究體系，并得出了如下結(jié)論：一是館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑是在建立起兩個或者多個資源關(guān)聯(lián)對象之間直接關(guān)聯(lián)的基礎(chǔ)上，構(gòu)建多類資源之間的關(guān)聯(lián)知識網(wǎng)絡(luò)，其本質(zhì)是資源關(guān)聯(lián)知識網(wǎng)絡(luò)不斷演變的過程。二是資源關(guān)聯(lián)知識發(fā)現(xiàn)過程是一個“多任務(wù)、多路徑、多步驟”、無法一步到位的過程。數(shù)字資源的動態(tài)性決定其關(guān)聯(lián)知識發(fā)現(xiàn)過程是一個常態(tài)化任務(wù)；發(fā)現(xiàn)過程的復(fù)雜性決定館藏數(shù)字資源關(guān)聯(lián)知識的發(fā)現(xiàn)過程能真正打破知識在物理和邏輯上的分割和獨立，能在廣泛、動態(tài)和完整的基礎(chǔ)上完成知識的發(fā)現(xiàn)和創(chuàng)新。三是知識發(fā)現(xiàn)本身是一個多發(fā)的過程，通常要涉及到多個資源數(shù)據(jù)集的信息查找和知識組織過程，因而尋找資源信息之間相關(guān)點的能力尤為關(guān)鍵。館藏數(shù)字資源關(guān)聯(lián)的實現(xiàn)恰恰為讀者增強(qiáng)了這一能力，也為知識的發(fā)現(xiàn)提供了新的可能。

當(dāng)然，館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑不僅是對發(fā)現(xiàn)知識的顯性揭示，還需從讀者多角度需求和資源關(guān)聯(lián)度出發(fā)，對多來源資源進(jìn)行定向的分析，預(yù)測知識發(fā)現(xiàn)規(guī)律，對新發(fā)現(xiàn)的資源知識進(jìn)行一致性、效用性處理，挖掘資源子類結(jié)構(gòu)的層與發(fā)現(xiàn)知識庫中知識要素結(jié)點間的一一對應(yīng)關(guān)系，從一個特定角度揭示知識發(fā)現(xiàn)的潛在規(guī)律與復(fù)雜性，實現(xiàn)內(nèi)容知識的智能化發(fā)現(xiàn)和擴(kuò)展[16]。這是館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程實現(xiàn)路徑的長遠(yuǎn)之道，也是我們未來的研究方向。

[1]任磊, 杜一, 馬帥, 等. 大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報,2014,25(9):1909-1936.

[2]田寧. 讀者服務(wù)視角下的資源發(fā)現(xiàn)系統(tǒng)可視化服務(wù)研究[J].圖書館學(xué)研究, 2014(17):71-75.

[3]許微. 基于知識發(fā)現(xiàn)機(jī)制的企業(yè)決策支持系統(tǒng)構(gòu)建研究[D].湘潭:湘潭大學(xué)公共管理學(xué)院, 2013:11-16..

[4]王思麗, 劉巍, 祝忠明, 等. 語義化的知識資源發(fā)現(xiàn)方法探析[J]. 圖書館學(xué)研究, 2014(9):2-6.

[5]董岳珂. 發(fā)現(xiàn)系統(tǒng)引發(fā)的關(guān)于信息素養(yǎng)教育的思考[J]. 圖書館論壇, 2014,34(4):58-63.

[6]張為江. 基于用戶需求分析的數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)研究[J].圖書館理論與實踐, 2014(9):83-85.

[7]郝飛. 圖書館資源發(fā)現(xiàn)系統(tǒng)應(yīng)用研究[J]. 電子世界, 2014(4):48-49.

[8]李楠. 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究[D].北京:中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所研究生院, 2012:93-99.

[9]李楠, 張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)用體系研究[J]. 圖書情報工作, 2013,57(6):127-133.

[10]沈志宏, 黎建輝, 張曉林. 面向LOD關(guān)聯(lián)發(fā)現(xiàn)過程的定位目標(biāo)與復(fù)雜性分析[J]. 中國圖書館學(xué)報, 2013,39(6):101-108.

[11]李迎迎, 王娟, 鄭春厚. 高校圖書館數(shù)字資源服務(wù)評價指標(biāo)體系構(gòu)建[J]. 情報雜志, 2014,33(3):192-197,142.

[12]劉江玲. 面向大數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)研究[J]. 情報科學(xué), 2014,32(3):90-92,101.

[13]解金蘭, 王穎. 發(fā)現(xiàn)視角下機(jī)構(gòu)庫的建設(shè)與功能研究[J]. 圖書館學(xué)研究, 2014(8):52-57.

[14]劉段. 發(fā)現(xiàn)系統(tǒng)在學(xué)術(shù)研究中的應(yīng)用研究[D]. 武漢:華中師范大學(xué)信息管理學(xué)院, 2014:16-26.

[15]田寧. 基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合[J]. 圖書館學(xué)刊, 2014(1):37-39.

[16]楊會, 汪榮. 網(wǎng)絡(luò)級知識發(fā)現(xiàn)服務(wù)的功能分析及問題探討[J]. 情報雜志, 2013,32(11):149-153.

[17]李丹丹. 應(yīng)急制造資源動態(tài)發(fā)現(xiàn)與優(yōu)化配置方法[D]. 哈爾濱:哈爾濱理工大學(xué)機(jī)械動力工程學(xué)院, 2013:22-32.

[18]李楠,張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型研究[J]. 圖書館學(xué)研究, 2013(1):73-77,67.