劉學(xué)平 (濰坊學(xué)院圖書館 山東 濰坊 261061)
網(wǎng)絡(luò)技術(shù)的發(fā)展使館藏數(shù)字資源的環(huán)境由傳統(tǒng)文件網(wǎng)絡(luò)環(huán)境向充滿語義關(guān)聯(lián)資源的新環(huán)境轉(zhuǎn)變。這為知識發(fā)現(xiàn)活動越來越多地基于網(wǎng)絡(luò)資源展開增加了新的發(fā)展機(jī)遇。圖書館是數(shù)字資源的聚集地,從迅速增長的館藏數(shù)字資源中發(fā)現(xiàn)有效的知識,與圖書館知識服務(wù)的趨勢正適切,而對館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的研究,正好為知識服務(wù)的知識推送提供了實現(xiàn)路徑。因此,尋求資源關(guān)聯(lián)對知識發(fā)現(xiàn)效率和能力的影響,優(yōu)化二者之間的關(guān)系,促進(jìn)資源關(guān)聯(lián)背景下的知識發(fā)現(xiàn),實現(xiàn)發(fā)現(xiàn)知識對讀者需求的針對性,提升圖書館的知識服務(wù)能力,成為實現(xiàn)館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的目的。這一目的決定了館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑要分兩個維度展開:一是從微機(jī)角度出發(fā),強(qiáng)調(diào)微機(jī)的計算能力和人工智能,以各種高性能處理算法、智能搜索與挖掘算法等為主要實現(xiàn)內(nèi)容;二是從讀者對知識的需求角度出發(fā),強(qiáng)調(diào)基于人機(jī)交互的、符合人的認(rèn)知規(guī)律的分析方法,將人所具備的、微機(jī)并不擅長的認(rèn)知能力融入知識發(fā)現(xiàn)過程[1],具體表現(xiàn)如下。
實現(xiàn)館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的動力主要來自兩方面,一是讀者快速獲取知識的準(zhǔn)確性需求。目前館藏數(shù)字資源檢索結(jié)果采用一維線性排列方式,讀者需要逐條閱讀篩選出自己需要的資源,在浪費讀者時間的同時降低了資源的查全率與查準(zhǔn)率。二是讀者對館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)的期望。網(wǎng)絡(luò)時代,快節(jié)奏的學(xué)習(xí)方式致使讀者期望一個高效、便捷的知識獲取平臺,能夠在同一張網(wǎng)頁上直觀地看到獲取到的有用資源并顯示出各知識之間的關(guān)聯(lián)關(guān)系。館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn),為讀者這一期望的實現(xiàn)提供了實現(xiàn)的路徑,即知識發(fā)現(xiàn)過程能將檢索結(jié)果用有效關(guān)聯(lián)、建立數(shù)據(jù)聯(lián)系、二次開發(fā)等方法實現(xiàn),使資源具有相關(guān)性,再通過二維圖形和圖表、三維圖形和動畫、多維模擬空間等可視化的方式[2],將檢索結(jié)果呈現(xiàn)給讀者,實現(xiàn)讀者一站式獲取資源的期望。讀者的這種需求和期望成為館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程實現(xiàn)的動力源泉。
由于館藏數(shù)字資源主要以網(wǎng)頁的形式存在,所以頁面資源的抓取至關(guān)重要。網(wǎng)頁抓取技術(shù)主要是對HTML頁面的抓取和分析,配合HTML connector即網(wǎng)頁連接器一起使用,抓取雙層鏈接并保存頁面內(nèi)容。常見的網(wǎng)頁抓取方法有三種,一是URL(Uniform Resource Locator,統(tǒng)一資源定位符)地址中包含分頁信息;二是通過Asp.net開發(fā)的網(wǎng)站分頁控件,通過POST方式提交分頁信息到后臺代碼;三是翻頁過程中找不到頁碼信息,所以只能用代碼模擬手動翻頁,然后抓取[3]。
資源挖掘是利用路徑分析技術(shù)、關(guān)聯(lián)規(guī)則、序列模式、分類聚類等技術(shù),挖掘出有效的、可能被理解的資源和知識。常用的方法有貝葉斯方法、遺傳算法、神經(jīng)網(wǎng)絡(luò)等。在此基礎(chǔ)上,圖書館利用可視化技術(shù)、知識查詢技術(shù)等,將得到的資源轉(zhuǎn)換為讀者可以理解的資源,并刪除無用資源[3]。
索引技術(shù)是資源庫與讀者需求之間的橋梁,貫穿于整個資源發(fā)現(xiàn)過程中,它包括內(nèi)容索引和結(jié)構(gòu)索引。結(jié)構(gòu)索引即圖書館將網(wǎng)頁中的頁面和鏈接作為索引的節(jié)點和邊的有向圖,有了節(jié)點和邊的有向圖就可以對超鏈接創(chuàng)建索引。內(nèi)容索引主要是Web頁面的文本資源[3],是在資源挖掘時查詢內(nèi)容相關(guān)度的主要方法。
語義聚焦爬蟲發(fā)現(xiàn)法分為發(fā)現(xiàn)目標(biāo)的定義和描述、發(fā)現(xiàn)策略的分析與制定、頁面語義標(biāo)注和分析三步。首先,以事先遴選好的URL作為種子樣本來決定爬行的起點,從而達(dá)到對爬蟲為發(fā)現(xiàn)新目標(biāo)頁面URL而進(jìn)行漫游的深度控制和引導(dǎo);其次,采用傳統(tǒng)的深度優(yōu)先、廣度優(yōu)先和啟發(fā)式搜索等策略,對提取到的URL列表進(jìn)行鏈接排序和下載,得到不含任何語義關(guān)聯(lián)信息的數(shù)據(jù)和相關(guān)的元數(shù)據(jù);最后,對得到的資源進(jìn)行分析和分類,從語義化的網(wǎng)頁或文件格式中(如URL文件、OWL文件、XTM文件、XML文件)嵌入相關(guān)語義標(biāo)記(如RDFa、Microdata的HTML和XHTML),并從文件中提取和分離出語義標(biāo)注信息。常采用的方法是編寫自定義的解析程序或者采用語義分離器RDF API等。對非語義化標(biāo)注的網(wǎng)頁文檔,此方法則通過一些自動化語義標(biāo)注軟件或人工輔助標(biāo)注方式補(bǔ)充語義信息[4],實現(xiàn)對獲取到相關(guān)實體數(shù)據(jù)和元數(shù)據(jù)語義標(biāo)注的完善,最終根據(jù)語義標(biāo)注信息發(fā)現(xiàn)新知識。
領(lǐng)域本體發(fā)現(xiàn)法與語義聚焦爬蟲發(fā)現(xiàn)方法有相同之處,由于它增加了領(lǐng)域本體庫的支持,因而也增加了多道處理工序,主要表現(xiàn)有:其一,在頁面語義標(biāo)注和分析環(huán)節(jié),并不僅僅是對當(dāng)前頁面進(jìn)行語義分析,而是結(jié)合領(lǐng)域本體庫的知識對頁面進(jìn)行擴(kuò)展解析。其二,在完成頁面解析后,能夠把得到的相關(guān)語義標(biāo)注信息重新返回給領(lǐng)域本體庫,由領(lǐng)域本體庫進(jìn)行基于三元組的拆解和保存,從而達(dá)到擴(kuò)展和豐富現(xiàn)有本體庫的目的。其三,在資源存儲和索引環(huán)節(jié),利用本體映射技術(shù)對本體庫中新增的異構(gòu)本體進(jìn)行本體和實體的映射,同時利用實體融合技術(shù)對映射結(jié)果庫中相同或相似的實體進(jìn)行實體融合或?qū)嶓w關(guān)聯(lián),然后將最終形成的實體關(guān)系和數(shù)據(jù)交給索引分析模塊進(jìn)行處理[4],從而形成索引庫以進(jìn)行存儲和索引。
在數(shù)據(jù)結(jié)構(gòu)上,語義網(wǎng)主要采用“資源-屬性-值”的RDF三元組形式去描述網(wǎng)絡(luò)知識源。一個RDF三元組又可以表示為一個RDF有向圖。因此,對于微機(jī)來說,一個有效的語義網(wǎng)資源站點可以被定義為一個或多個RDF有向圖組成的集合。因而基于RDF的查詢,該方法能夠借助于RDF數(shù)據(jù)模型和語義網(wǎng)自身的優(yōu)勢,對查詢需求進(jìn)行明確語義和強(qiáng)結(jié)構(gòu)化的表達(dá),從而查詢到精確滿足特定目標(biāo)需求的數(shù)據(jù),而返回的查詢結(jié)果仍然是一個RDF三元組的集合,這有利于進(jìn)一步的語義關(guān)聯(lián)和語義挖掘。目前,國際上具有代表性的RDF查詢語言主要包括SPARQL、RQL、RDQL、SERQL、N3、TRIPLE、Versa等[4]。
該方法首先利用語義搜索引擎或關(guān)聯(lián)數(shù)據(jù)源提供的接口,在根據(jù)應(yīng)用需求遴選出的相關(guān)關(guān)聯(lián)數(shù)據(jù)源中,通過訪問這些數(shù)據(jù)源中的RDF鏈接發(fā)現(xiàn)更多的相關(guān)資源數(shù)據(jù)。其次,通過關(guān)聯(lián)映射實現(xiàn)關(guān)聯(lián)數(shù)據(jù)(不同的關(guān)聯(lián)數(shù)據(jù)通常采用不同的本體或敘詞表來標(biāo)注同一實體概念的語義信息)、不同本體或敘詞表中對同一個實體進(jìn)行定義或描述的術(shù)語的標(biāo)準(zhǔn),并能夠?qū)⑵淙哭D(zhuǎn)換或使用某種統(tǒng)一的目標(biāo)規(guī)范格式進(jìn)行表示,以避免后續(xù)處理出現(xiàn)誤解和混亂。最后,通過實體〔不同的關(guān)聯(lián)數(shù)據(jù)源也通常采用不同的URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識符)去標(biāo)示同一個實體〕融合,對實體中所有使用標(biāo)記指向的數(shù)據(jù)源進(jìn)行資源獲取和審核,用于對當(dāng)前實體關(guān)系的語義補(bǔ)充和完善,并產(chǎn)生和分配給該實體一個主體的新的URI,形成一個新的關(guān)于該實體的RDF聲明,同時將通過審核的RDF鏈接作為來源數(shù)據(jù)源仍然使用標(biāo)記在新的RDF聲明中。同時也為了保證知識資源發(fā)現(xiàn)的可靠性[4],盡可能地摒棄無效的RDF鏈接和實體關(guān)聯(lián)信息。
“發(fā)現(xiàn)”是一個從無到有的過程。就館藏數(shù)字資源知識發(fā)現(xiàn)過程而言,它不是通常的知識呈現(xiàn)的過程,而是超出館藏資源范圍以外,用新思維、新方法發(fā)現(xiàn)新知識的過程。館藏數(shù)字資源的動態(tài)增長,會不斷地給知識發(fā)現(xiàn)過程提供新的數(shù)據(jù)和信息,產(chǎn)生更多的新知識。這樣的知識發(fā)現(xiàn)過程會使我們意識到,由于讀者對館藏資源需求的滿足永遠(yuǎn)是不全面、暫時的,因而知識發(fā)現(xiàn)過程是一個動態(tài)、不飽和的過程,它會以“發(fā)現(xiàn)”更多知識的新思維督促知識發(fā)現(xiàn)過程時刻準(zhǔn)備著去獲取和挖掘更多的最新知識,而不是停留在原有、靜止的某個層面[5]。這樣的新思維會在調(diào)動圖書館知識發(fā)現(xiàn)主動性的同時,提升知識發(fā)現(xiàn)率,達(dá)到提高館藏數(shù)字資源利用率的目的。
發(fā)現(xiàn)技術(shù)的日新月異要求知識發(fā)現(xiàn)必須及時跟蹤與關(guān)注聚焦爬蟲、領(lǐng)域本體、RDF查詢語言、關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、資源發(fā)現(xiàn)、資源組織等相關(guān)領(lǐng)域的前沿技術(shù)發(fā)展動態(tài),及時對其理論、方法、技術(shù)和工具進(jìn)行了解和掌握,并在知識發(fā)現(xiàn)過程中,根據(jù)每種發(fā)現(xiàn)技術(shù)和發(fā)現(xiàn)工具的優(yōu)劣點,按知識發(fā)現(xiàn)過程的需要,選擇最佳的技術(shù)與工具完成發(fā)現(xiàn)過程的設(shè)計和發(fā)現(xiàn)任務(wù)。這也是館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程實現(xiàn)的基礎(chǔ)條件和必備條件。因為館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程通常被要求能夠同時支持檢索驅(qū)動和知識推理驅(qū)動的過程。檢索驅(qū)動是指基于頁面分析的標(biāo)記處理和語義標(biāo)注的過程,知識推理驅(qū)動是指推理引擎借助領(lǐng)域本體和知識庫進(jìn)行新規(guī)則和關(guān)聯(lián)知識發(fā)現(xiàn)的過程[4]。這兩個過程的實現(xiàn)必須借助知識發(fā)現(xiàn)領(lǐng)域的最新技術(shù)和最新工具才能完成。
由于發(fā)現(xiàn)知識的最終目的是滿足讀者的知識需求,因而發(fā)現(xiàn)過程應(yīng)在以讀者知識需求為中心的同時,鼓勵讀者參與到知識發(fā)現(xiàn)過程中,使發(fā)現(xiàn)知識對讀者的知識需求更具有針對性。讀者的知識需求一般來源于讀者對館藏資源的檢索與閱讀,因而可利用讀者日志、讀者cookie進(jìn)行讀者需求的提取和收集。采取的方法是對讀者的資源檢索行為進(jìn)行統(tǒng)計分析,對讀者的閱讀習(xí)慣進(jìn)行聚類,然后根據(jù)聚類得到的各類指標(biāo)(如檢索關(guān)鍵詞、關(guān)鍵詞出現(xiàn)頻率、讀者登錄頻率、檢索頻率、下載頁數(shù)、瀏覽時長等)的相關(guān)性、邏輯性,對數(shù)據(jù)進(jìn)行過濾,去除無效數(shù)據(jù),保留一些能夠體現(xiàn)讀者對資源感興趣的信息,建立讀者需求數(shù)據(jù)庫,運用分類、聚類、關(guān)聯(lián)分析等方法,研究出讀者知識需求的內(nèi)在聯(lián)系和普遍規(guī)律,如使用習(xí)慣、知識背景及知識取向等[6],據(jù)此采用知識關(guān)聯(lián)對發(fā)現(xiàn)知識進(jìn)行有針對性的組織與管理,使其目的明確、方向清晰。讀者參與知識發(fā)現(xiàn)過程,是在發(fā)現(xiàn)需求調(diào)查階段采用角色扮演、預(yù)演和模擬的方式獲得讀者對知識的需求和期望,在發(fā)現(xiàn)過程中采用滿意度調(diào)查和可用性測試方法收集讀者對知識發(fā)現(xiàn)效果的評價,在發(fā)現(xiàn)知識使用階段采用問卷調(diào)查和使用統(tǒng)計來評估館藏數(shù)字資源利用率的變化和讀者期望的滿足程度[7]。可見,以讀者知識需求為導(dǎo)向的知識發(fā)現(xiàn)過程,在使發(fā)現(xiàn)知識更具針對性的同時,對館藏數(shù)字資源的建設(shè)也有很好的指導(dǎo)作用。
作為一種新型知識發(fā)現(xiàn)的探索,館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑尚處于摸索階段,它需要進(jìn)一步規(guī)范和完善。筆者將館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的特殊性擬合到知識發(fā)現(xiàn)的一般過程中,得到的實現(xiàn)路徑為:利用相關(guān)技術(shù)和方法,從館藏資源數(shù)據(jù)中收集目標(biāo)數(shù)據(jù),對數(shù)據(jù)進(jìn)行提取、清理、序化、集成等預(yù)處理,再將處理過的數(shù)據(jù)轉(zhuǎn)換為能夠進(jìn)行數(shù)據(jù)關(guān)聯(lián)與挖掘的格式進(jìn)行數(shù)據(jù)的關(guān)聯(lián)與挖掘,從中發(fā)現(xiàn)相關(guān)知識,再將知識進(jìn)行呈現(xiàn)、推送與評價。由于知識發(fā)現(xiàn)本身是一個循環(huán)求精的過程,根據(jù)評價結(jié)果的反饋,可以循環(huán)回到知識發(fā)現(xiàn)過程的前續(xù)階段,進(jìn)一步獲得更為準(zhǔn)確和符合需求的結(jié)果[8],完成整個知識發(fā)現(xiàn)過程,如圖1所示。
圖1 館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程
圖1展示出這一實現(xiàn)路徑的獨特之處在于:一是發(fā)現(xiàn)過程以資源關(guān)聯(lián)方法(數(shù)據(jù)、技術(shù)、資源環(huán)境、標(biāo)準(zhǔn)、機(jī)制)作為邏輯控制。因為知識發(fā)現(xiàn)被視為基于資源關(guān)聯(lián)的特殊應(yīng)用,因而發(fā)現(xiàn)過程的邏輯控制遵循基于資源關(guān)聯(lián)數(shù)據(jù)應(yīng)用的一般規(guī)律。資源準(zhǔn)備、資源獲取、資源處理和資源挖掘處理過程,都需要根據(jù)資源關(guān)聯(lián)的特殊需求進(jìn)行重新的設(shè)計和解決。二是過程方法控制。流程以知識發(fā)現(xiàn)作為基本方法,采用分層結(jié)構(gòu),很自然地將資源關(guān)聯(lián)數(shù)據(jù)與知識發(fā)現(xiàn)方法融合在一起,發(fā)揮各自優(yōu)勢。三是功能操作控制。流程各層之間和各功能模塊之間依靠功能操作進(jìn)行銜接、互動和控制,實現(xiàn)流程中資源的調(diào)用、組織和生成[9],它是資源關(guān)聯(lián)知識發(fā)現(xiàn)過程能否實現(xiàn)的關(guān)鍵。
問題理解是對館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的問題進(jìn)行分析與定位。問題分析是對發(fā)現(xiàn)基礎(chǔ)的問題(通過知識發(fā)現(xiàn)的方法實現(xiàn)數(shù)字資源關(guān)聯(lián)的核心價值——關(guān)聯(lián)發(fā)現(xiàn))、如何發(fā)現(xiàn)的問題(通過數(shù)據(jù)和資源之間的關(guān)聯(lián)關(guān)系去發(fā)現(xiàn)新的關(guān)系和新的知識)、發(fā)現(xiàn)什么的問題(如何發(fā)現(xiàn)和產(chǎn)生語義關(guān)聯(lián)的新知識[9])進(jìn)行分析。問題定位是將館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程問題定位為多任務(wù)、多路徑、多步驟:多任務(wù)是將資源關(guān)聯(lián)定位為詞表映射(用以實現(xiàn)兩個異構(gòu)資源之間的轉(zhuǎn)換)、資源比對(用以計算兩個資源之間的相似度)、資源鑒別(根據(jù)一個資源的屬性,通過與規(guī)范記錄比對,獲得該資源的規(guī)范名稱)、去重(根據(jù)資源對比的結(jié)果,將兩個被認(rèn)為同指的資源進(jìn)行合并)、顯示化(將發(fā)現(xiàn)知識進(jìn)行可視化顯示)等多種任務(wù)類型[10];多路徑是指館藏數(shù)字資源關(guān)聯(lián)知識的發(fā)現(xiàn)過程同時存在著多條發(fā)現(xiàn)路徑;多步驟是將館藏數(shù)字資源關(guān)聯(lián)知識的發(fā)現(xiàn)過程分解成多個連續(xù)的步驟。
資源收集是將形式多樣、異質(zhì)異構(gòu)、數(shù)量龐大的館藏數(shù)字資源聚集在一起,為知識發(fā)現(xiàn)的數(shù)量、質(zhì)量及其覆蓋面奠定基礎(chǔ)。收集方式以集中獲取為主、針對數(shù)字資源的特性而異,如針對資源的多樣性,收集過程采用網(wǎng)絡(luò)技術(shù)、發(fā)現(xiàn)技術(shù),確保資源收集的全面性、系統(tǒng)性;針對資源的動態(tài)性,采用資源分析技術(shù),經(jīng)過設(shè)置收集資源的時間和關(guān)鍵詞等需求,實現(xiàn)對選定資源相關(guān)內(nèi)容的定期監(jiān)視和自動收集[7];針對內(nèi)容復(fù)雜、信息量大的資源,采用資源挖掘、數(shù)據(jù)分析等技術(shù),對其進(jìn)行收集和整理。同時,為使館藏資源知識發(fā)現(xiàn)更有針對性,圖書館還要將散存在讀者的個人網(wǎng)站、博客、微博、QQ 群等各種網(wǎng)絡(luò)交流工具中有價值的需求資源進(jìn)行收集。
由于通過以上諸方式收集起來的大量來自不同渠道、不同格式的數(shù)字資源是由多個孤立的子網(wǎng)組成,它們彼此之間是獨立自治、弱關(guān)聯(lián)的,缺乏互操作接口,因此尚不具備支持資源知識發(fā)現(xiàn)的能力[10],圖書館需要對其資源進(jìn)行挖掘。資源挖掘的核心是建立結(jié)構(gòu)化、關(guān)聯(lián)的資源表示。其方法是通過資源計量統(tǒng)計分析(利用文獻(xiàn)計量工具,如SPSS、TDA、SATI、UCINET 等,對數(shù)字資源進(jìn)行基本統(tǒng)計與挖掘)、引證文獻(xiàn)關(guān)系(在簡單統(tǒng)計分析的基礎(chǔ)上更進(jìn)一步,包括對參考文獻(xiàn)、引文索引等引文關(guān)系的分析)、高相關(guān)度資源(解決讀者問題的重要參考資料)、交叉資源(從宏觀的角度挖掘數(shù)字資源之間的隱含關(guān)系)等[11]先進(jìn)的技術(shù)手段,對收集來的數(shù)字資源進(jìn)行處理、分析與挖掘,將資源揭示由表面的信息深入到資源之間的復(fù)雜關(guān)系,使不同資源節(jié)點之間的多重關(guān)聯(lián)關(guān)系充分揭示出來,展現(xiàn)給讀者的資源不再是一個點到點的線性結(jié)果表示,而是深入分析讀者需要的、揭示各資源關(guān)聯(lián)關(guān)系的立體資源體系[12],為發(fā)現(xiàn)潛藏在資源背后的知識做好充分的準(zhǔn)備。
經(jīng)過挖掘的資源,我們要對其合法性進(jìn)行檢查,清理錯誤資源,進(jìn)行初步轉(zhuǎn)換,即利用一定的技術(shù)工具,實現(xiàn)多種格式數(shù)字資源的標(biāo)準(zhǔn)轉(zhuǎn)換,以此獲取規(guī)范元數(shù)據(jù)信息,并對資源的元數(shù)據(jù)統(tǒng)一標(biāo)準(zhǔn)和規(guī)范接口,對各類資源加以描述和標(biāo)引,將各類資源統(tǒng)一組織和深層揭示,實現(xiàn)各類收錄資源的統(tǒng)一檢索和利用[13];并在轉(zhuǎn)換過程中進(jìn)行資源的創(chuàng)建、修改、刪除、克隆等,將其存入臨時數(shù)據(jù)區(qū);對臨時數(shù)據(jù)區(qū)內(nèi)的資源,選擇資源相關(guān)的屬性子集,并去除冗余屬性,采用資源采樣、資源轉(zhuǎn)換、資源表達(dá)等方式[14],對資源進(jìn)行相關(guān)性排序,即通過合并、去重及內(nèi)容補(bǔ)充等,保證元數(shù)據(jù)的品質(zhì);通過搜索引擎針對規(guī)范化的元數(shù)據(jù)進(jìn)行快速索引,建立不同屬性的規(guī)范詞表,實現(xiàn)讀者分面查詢和結(jié)果關(guān)聯(lián)。以此實現(xiàn)異構(gòu)資源有序化的轉(zhuǎn)換,即資源數(shù)據(jù)能進(jìn)行普通瀏覽、檢索瀏覽、分類瀏覽等操作,使資源達(dá)到序化的最佳匹配。
資源關(guān)聯(lián)是在挖掘與序化的資源數(shù)據(jù)中發(fā)現(xiàn)資源數(shù)據(jù)項之間的關(guān)系,生成新的資源數(shù)據(jù)鏈接的過程,其方法是:用URI來指代資源,用RDF三段式(事物—特性—值)來描述和聯(lián)接資源,RDF三段式資源中的任何一部分都可以集中很多信息,既可以回答檢索問題[15],也可通過HTTP協(xié)議揭示并獲取這些資源數(shù)據(jù)。此方法可實現(xiàn)館藏資源的以下關(guān)聯(lián):一是文獻(xiàn)本身信息的糅合,如在圖書信息中,通過與網(wǎng)絡(luò)圖書封面、摘要、目次及網(wǎng)絡(luò)書評等信息的關(guān)聯(lián),實現(xiàn)了圖書詳細(xì)信息的無縫集成。二是構(gòu)建以檢索信息為核心的資源網(wǎng)絡(luò),實現(xiàn)引文關(guān)聯(lián)、知識元引用關(guān)聯(lián)、相似文獻(xiàn)關(guān)聯(lián)、概念關(guān)系詞關(guān)聯(lián)等,如分析圖書作者、相關(guān)合作者及期刊、會議、文章等不同文獻(xiàn)之間的關(guān)系,建立圖書、期刊及學(xué)位論文等不同文獻(xiàn)之間相互引用的立體引用關(guān)系;分析文獻(xiàn)作者、作者單位等信息的引文網(wǎng)狀,為讀者提供全方位的知識內(nèi)容信息等。三是通過海量數(shù)據(jù)聚類學(xué)科,進(jìn)行學(xué)科趨勢的分析,提供學(xué)科發(fā)展的基本脈絡(luò)和走勢,為讀者了解不同時期學(xué)科研究熱點與發(fā)展方向提供重要信息[16]。關(guān)聯(lián)化館藏資源數(shù)據(jù)對于資源的發(fā)現(xiàn)、融合與互操作具有重要作用,它是知識發(fā)現(xiàn)和知識創(chuàng)造的起點。
知識發(fā)現(xiàn)不僅取決于知識結(jié)點之間的邏輯關(guān)系,也取決于知識之間的有機(jī)關(guān)聯(lián),更取決于讀者對知識的需求和利用。資源的動態(tài)性決定了知識發(fā)現(xiàn)應(yīng)在資源進(jìn)行實時性節(jié)點定位的同時,將定位節(jié)點不終止于單一資源,應(yīng)考慮資源間語義關(guān)聯(lián)關(guān)系,進(jìn)行知識的鏈?zhǔn)桨l(fā)現(xiàn)[17],即對資源數(shù)據(jù)進(jìn)行分析、轉(zhuǎn)換和歸類,形成發(fā)現(xiàn)軟件可識別的不同特征的數(shù)據(jù)集(如期刊影響力數(shù)據(jù)集、論文被引數(shù)據(jù)集等),并對不同的數(shù)據(jù)集采用不同的參數(shù)預(yù)算和維度表達(dá),形成發(fā)現(xiàn)多維索引體系,以滿足各種發(fā)現(xiàn)檢索需求。在此基礎(chǔ)上,再通過資源發(fā)現(xiàn)技術(shù),在深入分析讀者搜索行為的基礎(chǔ)上,圖書館運用技術(shù)手段進(jìn)行快速匹配,對數(shù)字資源進(jìn)行充分的挖掘、關(guān)聯(lián)和升值,深入揭示資源的整體性,使得資源的查找和定位更加細(xì)化、快捷、準(zhǔn)確,幫助讀者發(fā)現(xiàn)所需資源的信息、知識、節(jié)點、來源等[12]。知識關(guān)聯(lián)挖掘具體可以分為兩個層級的任務(wù),一是在整合的關(guān)聯(lián)數(shù)據(jù)集上,調(diào)度和運行傳統(tǒng)的數(shù)據(jù)挖掘,完成既定模式的知識發(fā)現(xiàn)。這一層級的工作需要考慮將關(guān)聯(lián)數(shù)據(jù)的檢索過程從數(shù)據(jù)挖掘過程中分離出來,以便減輕讀者使用和了解關(guān)聯(lián)數(shù)據(jù)的底層邏輯(本體、語義)的負(fù)擔(dān)。第二個層面是利用關(guān)聯(lián)數(shù)據(jù)自身的特點,通過鏈接挖掘與發(fā)現(xiàn)關(guān)聯(lián)數(shù)據(jù)網(wǎng)絡(luò)中隱藏的、豐富的、潛在有用的關(guān)系。這一層級的工作目標(biāo)是創(chuàng)建針對關(guān)聯(lián)數(shù)據(jù)特性的挖掘算法、知識模式,以便在已有的語義關(guān)聯(lián)基礎(chǔ)上,推斷和發(fā)現(xiàn)任意資源之間的進(jìn)一步關(guān)聯(lián)或者通過特定模式重新組織和架構(gòu)形成新的關(guān)聯(lián)知識[18]。
知識呈現(xiàn)一方面要借助發(fā)現(xiàn)過程中一站式檢索來完成對檢索結(jié)果的呈現(xiàn)和獲取,另一方面在一站式檢索中嵌入更多的發(fā)現(xiàn)軟件,實現(xiàn)發(fā)現(xiàn)知識的多維呈現(xiàn)與關(guān)聯(lián)呈現(xiàn)。呈現(xiàn)方式主要有發(fā)現(xiàn)知識呈現(xiàn)、發(fā)現(xiàn)知識流程呈現(xiàn)和發(fā)現(xiàn)知識關(guān)聯(lián)呈現(xiàn)三種類型[13]。發(fā)現(xiàn)知識呈現(xiàn)是利用映射將數(shù)字知識轉(zhuǎn)化為圖示表達(dá),以利于讀者的觀察和理解;發(fā)現(xiàn)知識流程呈現(xiàn)是利用錄像、音響等技術(shù)手段將某些實驗流程、示范片段或者研究報告等進(jìn)行視頻傳播,使知識發(fā)現(xiàn)流程更為顯性透明;發(fā)現(xiàn)知識關(guān)聯(lián)呈現(xiàn)是利用相關(guān)發(fā)現(xiàn)工具,將某個領(lǐng)域的資源知識進(jìn)行關(guān)聯(lián),以此展示或發(fā)現(xiàn)該領(lǐng)域的研究熱點和發(fā)展趨勢等。
知識的推送是圖書館在發(fā)掘讀者潛在資源知識需求的同時,針對特定讀者的需求,通過RSS、E-mail、收藏推薦等方式,借助于信息推送技術(shù),將發(fā)現(xiàn)的館藏資源關(guān)聯(lián)知識主動傳遞到讀者界面,提高知識服務(wù)的主動性。
知識評價是根據(jù)知識發(fā)現(xiàn)本身是一個循環(huán)求精的過程而設(shè)定,是一個需要專家、讀者共同參與的人工過程,其方法是:召集資源發(fā)現(xiàn)領(lǐng)域?qū)<?,對發(fā)現(xiàn)的知識進(jìn)行多維度的測評,并將評價結(jié)果與讀者在使用資源知識過程中的反饋意見進(jìn)行合并,根據(jù)對讀者知識需求問題的解決情況,對讀者不滿意的知識重復(fù)知識發(fā)現(xiàn)過程,將知識進(jìn)行修復(fù)和完善,直至讀者滿意為止[8],以實現(xiàn)知識發(fā)現(xiàn)過程的經(jīng)驗積累、知識修復(fù)和目標(biāo)的完善,進(jìn)而體現(xiàn)知識發(fā)現(xiàn)過程循環(huán)求精的不爭事實。
網(wǎng)絡(luò)環(huán)境下,知識服務(wù)成為圖書館服務(wù)的趨勢,也是使命使然。因此,如何利用館藏數(shù)字資源關(guān)聯(lián)知識來提升圖書館知識服務(wù)力,滿足讀者知識需求,對館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程實現(xiàn)路徑探究,既為此問題提供了解決的方案,也適應(yīng)了圖書館提供知識服務(wù)的需求。它標(biāo)志著資源知識的傳播與交流價值凸顯,作為一種新的資源知識發(fā)現(xiàn)方式,從資源獲取、關(guān)聯(lián)揭示、知識發(fā)現(xiàn)到知識的呈現(xiàn)、推送與評價,發(fā)現(xiàn)過程貫穿其建設(shè)推廣和功能擴(kuò)展的整個流程,有著不可替代的作用。按照研究思路,文章在對發(fā)現(xiàn)過程中的問題進(jìn)行了分析與定位,將館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的特殊性擬合到知識發(fā)現(xiàn)的一般過程中,把知識發(fā)現(xiàn)規(guī)律和資源關(guān)聯(lián)技術(shù)、標(biāo)準(zhǔn)、資源環(huán)境和知識發(fā)現(xiàn)的方法融合,構(gòu)建了實現(xiàn)館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的完整路徑,擴(kuò)展和融合了知識發(fā)現(xiàn)和館藏數(shù)字資源關(guān)聯(lián)的研究體系,并得出了如下結(jié)論:一是館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑是在建立起兩個或者多個資源關(guān)聯(lián)對象之間直接關(guān)聯(lián)的基礎(chǔ)上,構(gòu)建多類資源之間的關(guān)聯(lián)知識網(wǎng)絡(luò),其本質(zhì)是資源關(guān)聯(lián)知識網(wǎng)絡(luò)不斷演變的過程。二是資源關(guān)聯(lián)知識發(fā)現(xiàn)過程是一個“多任務(wù)、多路徑、多步驟”、 無法一步到位的過程。數(shù)字資源的動態(tài)性決定其關(guān)聯(lián)知識發(fā)現(xiàn)過程是一個常態(tài)化任務(wù);發(fā)現(xiàn)過程的復(fù)雜性決定館藏數(shù)字資源關(guān)聯(lián)知識的發(fā)現(xiàn)過程能真正打破知識在物理和邏輯上的分割和獨立,能在廣泛、動態(tài)和完整的基礎(chǔ)上完成知識的發(fā)現(xiàn)和創(chuàng)新。三是知識發(fā)現(xiàn)本身是一個多發(fā)的過程,通常要涉及到多個資源數(shù)據(jù)集的信息查找和知識組織過程,因而尋找資源信息之間相關(guān)點的能力尤為關(guān)鍵。館藏數(shù)字資源關(guān)聯(lián)的實現(xiàn)恰恰為讀者增強(qiáng)了這一能力,也為知識的發(fā)現(xiàn)提供了新的可能。
當(dāng)然,館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程的實現(xiàn)路徑不僅是對發(fā)現(xiàn)知識的顯性揭示,還需從讀者多角度需求和資源關(guān)聯(lián)度出發(fā),對多來源資源進(jìn)行定向的分析,預(yù)測知識發(fā)現(xiàn)規(guī)律,對新發(fā)現(xiàn)的資源知識進(jìn)行一致性、效用性處理,挖掘資源子類結(jié)構(gòu)的層與發(fā)現(xiàn)知識庫中知識要素結(jié)點間的一一對應(yīng)關(guān)系,從一個特定角度揭示知識發(fā)現(xiàn)的潛在規(guī)律與復(fù)雜性,實現(xiàn)內(nèi)容知識的智能化發(fā)現(xiàn)和擴(kuò)展[16]。這是館藏數(shù)字資源關(guān)聯(lián)知識發(fā)現(xiàn)過程實現(xiàn)路徑的長遠(yuǎn)之道,也是我們未來的研究方向。
[1]任 磊, 杜 一, 馬 帥, 等. 大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報,2014,25(9):1909-1936.
[2]田 寧. 讀者服務(wù)視角下的資源發(fā)現(xiàn)系統(tǒng)可視化服務(wù)研究[J].圖書館學(xué)研究, 2014(17):71-75.
[3]許 微. 基于知識發(fā)現(xiàn)機(jī)制的企業(yè)決策支持系統(tǒng)構(gòu)建研究[D].湘潭:湘潭大學(xué)公共管理學(xué)院, 2013:11-16..
[4]王思麗, 劉 巍, 祝忠明, 等. 語義化的知識資源發(fā)現(xiàn)方法探析[J]. 圖書館學(xué)研究, 2014(9):2-6.
[5]董岳珂. 發(fā)現(xiàn)系統(tǒng)引發(fā)的關(guān)于信息素養(yǎng)教育的思考[J]. 圖書館論壇, 2014,34(4):58-63.
[6]張為江. 基于用戶需求分析的數(shù)字圖書館知識發(fā)現(xiàn)系統(tǒng)研究[J].圖書館理論與實踐, 2014(9):83-85.
[7]郝 飛. 圖書館資源發(fā)現(xiàn)系統(tǒng)應(yīng)用研究[J]. 電子世界, 2014(4):48-49.
[8]李 楠. 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)研究[D].北京:中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所研究生院, 2012:93-99.
[9]李 楠, 張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)應(yīng)用體系研究[J]. 圖書情報工作, 2013,57(6):127-133.
[10]沈志宏, 黎建輝, 張曉林. 面向LOD關(guān)聯(lián)發(fā)現(xiàn)過程的定位目標(biāo)與復(fù)雜性分析[J]. 中國圖書館學(xué)報, 2013,39(6):101-108.
[11]李迎迎, 王 娟, 鄭春厚. 高校圖書館數(shù)字資源服務(wù)評價指標(biāo)體系構(gòu)建[J]. 情報雜志, 2014,33(3):192-197,142.
[12]劉江玲. 面向大數(shù)據(jù)的知識發(fā)現(xiàn)系統(tǒng)研究[J]. 情報科學(xué), 2014,32(3):90-92,101.
[13]解金蘭, 王 穎. 發(fā)現(xiàn)視角下機(jī)構(gòu)庫的建設(shè)與功能研究[J]. 圖書館學(xué)研究, 2014(8):52-57.
[14]劉 段. 發(fā)現(xiàn)系統(tǒng)在學(xué)術(shù)研究中的應(yīng)用研究[D]. 武漢:華中師范大學(xué)信息管理學(xué)院, 2014:16-26.
[15]田 寧. 基于關(guān)聯(lián)數(shù)據(jù)的信息資源整合[J]. 圖書館學(xué)刊, 2014(1):37-39.
[16]楊 會, 汪 榮. 網(wǎng)絡(luò)級知識發(fā)現(xiàn)服務(wù)的功能分析及問題探討[J]. 情報雜志, 2013,32(11):149-153.
[17]李丹丹. 應(yīng)急制造資源動態(tài)發(fā)現(xiàn)與優(yōu)化配置方法[D]. 哈爾濱:哈爾濱理工大學(xué)機(jī)械動力工程學(xué)院, 2013:22-32.
[18]李 楠,張學(xué)福. 基于關(guān)聯(lián)數(shù)據(jù)的知識發(fā)現(xiàn)模型研究[J]. 圖書館學(xué)研究, 2013(1):73-77,67.