宋 翠
(河南水利與環(huán)境職業(yè)學(xué)院,鄭州 450000)
基于云計算的數(shù)字圖書館研究
宋 翠
(河南水利與環(huán)境職業(yè)學(xué)院,鄭州 450000)
為提高數(shù)字圖書館智能化與個性化服務(wù),借助云計算強大的計算及后臺處理能力,實現(xiàn)數(shù)字圖書館的智能化服務(wù)。首先,對云環(huán)境下數(shù)字圖書館的自適應(yīng)系統(tǒng)內(nèi)容及形式做詳細介紹;其次,對關(guān)鍵模塊進行了詳細闡述;最后,運用實例仿真,驗證本文方法在數(shù)字圖書館智能化及個性化服務(wù)的性能表現(xiàn)。
云計算;數(shù)字圖書館;自適應(yīng)系統(tǒng);FCM聚類;Apriori關(guān)聯(lián)規(guī)則
1.1自適應(yīng)系統(tǒng)作用
數(shù)字圖書館的自適應(yīng)系統(tǒng)在傳統(tǒng)數(shù)字圖書館的基礎(chǔ)上增加了智能反饋,負(fù)責(zé)適應(yīng)性推送和更新閱讀內(nèi)容、智能檢索以及個性化首頁呈現(xiàn)。這種自適應(yīng)系統(tǒng),能夠更好地增強數(shù)字圖書館的智能化、個性化和交互性。
自適應(yīng)的其他作用還有個人首頁的定制,界面風(fēng)格的個性化等。用戶首頁提示用戶的登陸次數(shù),用戶關(guān)注領(lǐng)域的信息更新動態(tài),如新書預(yù)告,資源預(yù)覽等。
1.2自適應(yīng)主要表現(xiàn)形式
1.2.1自適應(yīng)信息檢索
信息檢索是用戶查找資源的主要方法,現(xiàn)有的數(shù)字圖書館大部分沒有考慮用戶的差異,對于所有用戶,輸入相同,反饋搜索結(jié)構(gòu)就相同,用戶要找到自己的需求,還需要在大量的搜索結(jié)果中逐一尋找,搜索效率低。這種方法沒有考慮用戶的知識背景、興趣愛好,自適應(yīng)檢索根據(jù)不同用戶的只是背景及興趣愛好返回不同的結(jié)果,最接近用戶專業(yè)的結(jié)果將返回在最前頁。
自適應(yīng)檢索將用戶檢索條件列為關(guān)鍵字列表,將用關(guān)鍵字列表搜索得到的結(jié)果與用戶個性化信息相結(jié)合,最后返回搜索結(jié)果至頁面,可以運用向量空間和矢量模型將用戶信息進行節(jié)點歸類,并與關(guān)鍵字搜索結(jié)果匹配后進行結(jié)果輸出。
1.2.2自適應(yīng)推薦
自適應(yīng)推薦是根據(jù)用戶信息將滿足用戶習(xí)慣的資源進行線上線下的個性化推薦,用戶登錄圖書館系統(tǒng)后,進行在線推送符合用戶習(xí)慣的信息,比如新書推薦、用戶感興趣領(lǐng)域新文獻等,不再呈現(xiàn)統(tǒng)一的登陸首頁;同時在線下推薦,當(dāng)有了滿足用戶需求的文獻資料后,及時通過郵件和短信方式通知用戶。
2.1用戶數(shù)據(jù)標(biāo)準(zhǔn)化
可以得到原始數(shù)據(jù)矩陣為
獲得原始數(shù)據(jù)之后,便可以對數(shù)據(jù)進行標(biāo)準(zhǔn)差變換:
變換之后,所有變量單位量綱都去除,且均值為0,標(biāo)準(zhǔn)差為1,下面進行極差變換:
變換之后,所有變量取值均為[0,1]之間。
已經(jīng)建立了原始矩陣后,根據(jù)原始矩陣,建立模糊相似矩陣,模糊相似矩陣表示的是各對象之間的相似程度,計算ijr的方法主要有如下6種:
夾角余弦法求解相似系數(shù)
相關(guān)系數(shù)法求解相似系數(shù)
最大最小值法
算術(shù)平均與最小值法
幾何平均與最小值法:
計算出rij后便可以得到模糊相似矩陣,得到的是不同元素之間的相似度,比如現(xiàn)在可以確定某一用戶的專業(yè)為工科專業(yè),且計算機專業(yè)還是通信專業(yè)這兩者之間的相似程度較高,至于用戶具體是什么專業(yè)還需要通過聚類來完成。
2.2FCM聚類
數(shù)字圖書館的聚類主要實現(xiàn)三方面內(nèi)容:圖書館資源項聚類、用戶檢索項聚類、用戶推薦項聚類。
根據(jù)圖書資源項聚類,可以根據(jù)所有用戶的搜索情況,及用戶的專業(yè)及學(xué)歷,聚類分析得到不同圖書類別的需求情況,從而及時補充供給相應(yīng)圖書;用戶檢索項聚類主要是根據(jù)用戶的檢索情況,記錄用戶的搜索偏好,以便為用戶提供個性化服務(wù),聚類分析根據(jù)用戶多次的搜索情況及模糊矩陣結(jié)果,進行歸類,判斷該用戶檢索分類屬于哪個類別;用戶推薦類是根據(jù)用戶的訪問數(shù)據(jù)進行聚類,決定給用戶推薦相關(guān)類型的文獻資料。
本文采用模糊聚類C算法(FCM)進行用戶數(shù)據(jù)聚類。首先需要明確4個基本定義:
定義二:數(shù)據(jù)樣本XA的完整率η:
定義三:數(shù)據(jù)樣本kx對聚類分析的影響因子kα
定義四:數(shù)據(jù)樣本xi與xj之間的相似度βij:
樣本kx與子集的隸屬關(guān)系用來表示,為了記錄多個子集的隸屬函數(shù),采用矩陣的方式來完成,記作
X的模糊C劃分空間fcM:
FCM算法的計算過程是在保證目標(biāo)函數(shù)mJ最小的同時,求解劃分矩陣與聚類原型的過程。mJ的計算表達式為:
迭代規(guī)則公式如下:
2.3Apriori關(guān)聯(lián)規(guī)則應(yīng)用
關(guān)聯(lián)規(guī)則為自適應(yīng)檢索和自適應(yīng)推薦提供過濾標(biāo)準(zhǔn)的,當(dāng)用戶輸入關(guān)鍵字進行信息檢索時,系統(tǒng)首先會返回所有關(guān)于該關(guān)鍵字的搜索結(jié)果,然后將這些結(jié)果通過關(guān)聯(lián)規(guī)則過濾,優(yōu)先顯示與用戶訪問習(xí)慣相關(guān)的內(nèi)容,與用戶搜索習(xí)慣不一致的內(nèi)容放在后續(xù)頁面顯示,以便最大程度地保證客戶在首頁就能找到用戶需要的內(nèi)容。
關(guān)聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)大量數(shù)據(jù)中項集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,可以根據(jù)用戶檢索資源的某一項因素來多用戶資源需求的整個行為模式進行判別。
定義1:關(guān)聯(lián)規(guī)則的關(guān)聯(lián)度:即同時包含X和Y的事務(wù)集與所有事務(wù)集之間的比例,記為support(X?Y)。即:
定義2:關(guān)聯(lián)規(guī)則的可信度:即同時包含X和Y的事務(wù)集與僅包含X的事務(wù)集之間的比例,記為confidence(X?Y),即:
定義3:當(dāng)項目集關(guān)聯(lián)度support(X)大于閾值minsup,稱該項目集是頻繁項目集。
云計算為數(shù)字圖書館建設(shè)提供了便捷,本文從數(shù)字圖書館的智能化與個性化服務(wù)角度出發(fā),分析云計算在數(shù)字圖書館建設(shè)中所起作用,借助云計算的強大計算能力的優(yōu)勢,建立數(shù)字圖書館的自適應(yīng)系統(tǒng),為用戶提供個性化服務(wù),這對數(shù)字圖書館建設(shè)具有深遠意義,擁有廣闊的市場應(yīng)用前景。
主要參考文獻
[1]邱瑾,吳丹.協(xié)同信息檢索用戶行為研究方法綜述[J].信息資源管理學(xué)報,2012(1).
[2]王偉.基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[J].情報科學(xué),2012(3).
10.3969/j.issn.1673-0194.2015.02.125
G250.76
A
1673-0194(2015)02-0170-02
2014-12-26