• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SOM神經(jīng)網(wǎng)絡(luò)的高校圖書館個(gè)性化需求挖掘系統(tǒng)研究

      2017-11-22 07:38:33劉愛琴李永清
      數(shù)字圖書館論壇 2017年10期
      關(guān)鍵詞:神經(jīng)元聚類向量

      劉愛琴,李永清

      (1.山西大學(xué)經(jīng)濟(jì)與管理學(xué)院,太原 030006;2.中國石油大學(xué)[華東]經(jīng)濟(jì)與管理學(xué)院,青島 266555)

      基于SOM神經(jīng)網(wǎng)絡(luò)的高校圖書館個(gè)性化需求挖掘系統(tǒng)研究

      劉愛琴1,李永清2

      (1.山西大學(xué)經(jīng)濟(jì)與管理學(xué)院,太原 030006;2.中國石油大學(xué)[華東]經(jīng)濟(jì)與管理學(xué)院,青島 266555)

      借助SOM神經(jīng)網(wǎng)絡(luò)聚類算法無參數(shù)、精準(zhǔn)度高的特點(diǎn),本文對山西大學(xué)圖書館的Web訪問行為進(jìn)行聚類和優(yōu)化分析。將聚類行為分為指數(shù)函數(shù)粗調(diào)整和線性函數(shù)微調(diào)整兩個(gè)優(yōu)化階段,有效提升聚類速率和聚類效果?;趯τ脩舴治鼋Y(jié)果的輸出,將用戶個(gè)人特征信息、用戶行為數(shù)據(jù)以及文獻(xiàn)數(shù)據(jù)庫進(jìn)行篩選整合,形成可靠性和可用性更高的關(guān)聯(lián)數(shù)據(jù)集,并結(jié)合語義檢索和屬性值匹配等技術(shù)建構(gòu)用戶個(gè)性化服務(wù)推薦系統(tǒng),進(jìn)行有效性驗(yàn)證,實(shí)現(xiàn)圖書館內(nèi)部主題推薦、圖書推薦和專家推薦三個(gè)子系統(tǒng)的協(xié)同。

      SOM神經(jīng)網(wǎng)絡(luò);聚類分析;個(gè)性化推薦;關(guān)聯(lián)數(shù)據(jù)集

      1 引言

      MOOCs大規(guī)模開放課程的出現(xiàn),極大地顛覆用戶網(wǎng)絡(luò)學(xué)習(xí)方式,圖書館提供個(gè)性化服務(wù)已經(jīng)成為現(xiàn)代高效能圖書館建設(shè)的重中之重[1]。朱曉云認(rèn)為個(gè)性化服務(wù)就是對用戶群進(jìn)行研究,根據(jù)用戶需求從龐大的資源中提取用戶真正需要的部分[2];張莉萍則更強(qiáng)調(diào)知識(shí)整合,認(rèn)為圖書館應(yīng)當(dāng)著眼用戶需要,積極為其提供完善的知識(shí)信息服務(wù)[3]。

      現(xiàn)代化高校圖書館擁有大量利于讀者學(xué)習(xí)的紙質(zhì)和電子資源,根據(jù)用戶需求實(shí)現(xiàn)資源的個(gè)性化推薦,該功能的實(shí)現(xiàn)能有效促進(jìn)高校圖書館服務(wù)質(zhì)量和高校師生教研質(zhì)量的綜合進(jìn)步。通過獲取用戶的Web訪問數(shù)據(jù)對用戶行為進(jìn)行聚類,是完成個(gè)性化推薦的首要步驟。

      山西大學(xué)圖書館記錄了大量學(xué)生和老師的訪問數(shù)據(jù),其中包含用戶IP地址、上網(wǎng)時(shí)間、訪問時(shí)長以及訪問資源內(nèi)容等信息[4]。本文借助SOM神經(jīng)網(wǎng)絡(luò)對讀者Web訪問行為聚類,實(shí)現(xiàn)對讀者有針對性的圖書館資源個(gè)性化服務(wù)推薦,從而實(shí)現(xiàn)圖書館內(nèi)部主題推薦、圖書推薦和專家推薦三個(gè)子系統(tǒng)的協(xié)同。

      2 神經(jīng)網(wǎng)絡(luò)聚類體系構(gòu)建

      2.1 SOM神經(jīng)網(wǎng)絡(luò)聚類

      聚類指基于一定特征的相似程度分組,實(shí)現(xiàn)組內(nèi)相似度最大,組間相似度最小的過程[5],常用于信息歸納分析和糾錯(cuò)處理。聚類方法在數(shù)據(jù)挖掘過程中需要滿足能夠處理分析大規(guī)模數(shù)據(jù)、有效處理高維數(shù)據(jù)、對異常數(shù)據(jù)值不敏感、結(jié)果與數(shù)據(jù)輸入次序無關(guān)以及結(jié)果可行等目標(biāo)要求[6]。

      BIRCH算法是一種增量性分步聚類方法,只適用于數(shù)據(jù)分布呈現(xiàn)凸形等部分特殊情況。DBSCAN算法雖然能夠自動(dòng)處理異常數(shù)據(jù),但是必須建立和依據(jù)K-dist圖對數(shù)據(jù)的整合進(jìn)行處理,且從時(shí)間和存儲(chǔ)空間上看,該方法難以適用大規(guī)模數(shù)據(jù)處理。K-means算法具有很強(qiáng)的伸縮性,廣泛應(yīng)用于處理類間距離較大的數(shù)據(jù),無法對未知數(shù)據(jù)進(jìn)行很好的預(yù)測處理。K值的選取對數(shù)據(jù)處理效果有至關(guān)重要的作用,且基于不同的場景有很大差異,對于未知數(shù)據(jù)難以進(jìn)行準(zhǔn)確的K值初始設(shè)置,隨著輸入數(shù)據(jù)維度的提升和數(shù)據(jù)量的增加,該算法在時(shí)間成本上消耗較大。

      SOM神經(jīng)網(wǎng)絡(luò)算法是通過模擬哺乳動(dòng)物大腦學(xué)習(xí)和行為過程開發(fā)的一種前饋神經(jīng)網(wǎng)絡(luò)聚類算法。相比其他方法,SOM網(wǎng)絡(luò)基于人工智能神經(jīng)系統(tǒng)實(shí)施聚類,具有無導(dǎo)師自組織學(xué)習(xí)、無參數(shù)、精準(zhǔn)化和穩(wěn)定性強(qiáng)的特點(diǎn),能夠?qū)⒏呔S數(shù)據(jù)映射為一維或二維數(shù)據(jù),在聚類時(shí)間和聚類效果上比其他方法更好,主要應(yīng)用于智慧神經(jīng)網(wǎng)絡(luò)構(gòu)建分析、大數(shù)據(jù)分析處理和用戶個(gè)性化服務(wù)[7]。針對高校圖書館,該方法可用于圖書館文獻(xiàn)和用戶聚類分析,即根據(jù)用戶訪問行為的聚類結(jié)果推斷用戶需求,對用戶精準(zhǔn)定位,提供個(gè)性化推薦服務(wù)。本文將用戶個(gè)人特征信息、用戶行為數(shù)據(jù)、文獻(xiàn)數(shù)據(jù)庫數(shù)據(jù)進(jìn)行整合,形成可靠性和可用性更高的關(guān)聯(lián)數(shù)據(jù)集,搭建用戶的個(gè)性化推薦服務(wù)系統(tǒng)。

      徐涌等在進(jìn)行Web用戶聚類時(shí)采用標(biāo)準(zhǔn)的Kohonen神經(jīng)網(wǎng)絡(luò)方法,但該方法聚類速度慢,難以應(yīng)用于規(guī)模較大的數(shù)據(jù)分析[8];段隆振等基于標(biāo)準(zhǔn)的Kohonen神經(jīng)網(wǎng)絡(luò)算法,在數(shù)據(jù)調(diào)整中分為粗調(diào)整和微調(diào)整,并采用不同的函數(shù)形式來實(shí)現(xiàn)整體模型的優(yōu)化訓(xùn)練[9]。在解決多興趣度的問題時(shí),段隆振等借助隸屬度的概念進(jìn)行解決,會(huì)出現(xiàn)資源重復(fù)和超量發(fā)掘的情況,使查全率達(dá)到預(yù)期效果,但精準(zhǔn)化推薦效果會(huì)有折扣[9]。

      本文基于分階段聚類思想,選取2016年1月5日—9月30日用戶訪問的相關(guān)數(shù)據(jù)進(jìn)行模型優(yōu)化。通過在粗調(diào)整優(yōu)化階段采用指數(shù)函數(shù),微調(diào)整階段采用線性函數(shù)的形式,保證聚類收斂的速度和效果。在解決用戶多興趣度問題上,本文通過構(gòu)建多個(gè)聚類中心,選取2016年10月1日—2017年1月17日的用戶訪問數(shù)據(jù)進(jìn)行仿真,仿真結(jié)果顯示該模型能夠很好地選擇向用戶推薦多樣化資源的比例,提升用戶個(gè)性化推薦服務(wù)的精準(zhǔn)度和體驗(yàn)效果。

      由于用戶行為存在不確定性,進(jìn)行用戶行為聚類時(shí),如果根據(jù)權(quán)值距離進(jìn)行聚類,閾值設(shè)置太大,會(huì)使聚類結(jié)果數(shù)據(jù)冗余,難以將不同用戶的多樣化興趣比例進(jìn)行區(qū)分;如果設(shè)置閾值太小,會(huì)出現(xiàn)用戶行為難以聚類的情況,不利于個(gè)性化推薦服務(wù)的開展。所以,本文選擇用戶行為與權(quán)值向量最小歐式距離進(jìn)行聚類描述,以解決上述兩個(gè)問題。

      2.2 數(shù)據(jù)選取和預(yù)處理

      實(shí)現(xiàn)個(gè)性化推薦服務(wù)與用戶興趣需求相結(jié)合,需要篩選大量有價(jià)值的數(shù)據(jù)信息進(jìn)行SOM網(wǎng)絡(luò)聚類,同時(shí)構(gòu)建相應(yīng)的評價(jià)指標(biāo)體系[10]。為保證實(shí)驗(yàn)結(jié)果的可行性和可靠性,本文根據(jù)山西大學(xué)圖書館的訪問數(shù)據(jù)選取管理學(xué)和企業(yè)管理學(xué)兩個(gè)主題的部分研究熱點(diǎn)為研究對象進(jìn)行篩選、聚類分析和數(shù)據(jù)預(yù)測。選擇的相關(guān)研究指標(biāo)如表1所示。

      表1 用戶訪問數(shù)據(jù)指標(biāo)體系

      為避免數(shù)據(jù)錯(cuò)誤帶來的影響,本文以周為單位,選取調(diào)查期內(nèi)訪問時(shí)長在30—120分鐘的用戶訪問數(shù)據(jù)進(jìn)行分析。其中,總文獻(xiàn)閱讀數(shù)量=下載文獻(xiàn)量+在線瀏覽文獻(xiàn)量,初步篩選顯示可用數(shù)據(jù)信息有3 211條。

      2.3 網(wǎng)絡(luò)模型

      基于原始SOM的網(wǎng)絡(luò)構(gòu)架,將網(wǎng)絡(luò)體系劃分為輸入和輸出兩個(gè)層次。其中,輸入層包含m個(gè)輸入神經(jīng)元,對應(yīng)一個(gè)一維m階序列;根據(jù)Web預(yù)處理信息規(guī)劃,將輸入層向量中m所對應(yīng)的值設(shè)置為15,輸出層中所對應(yīng)n的值設(shè)置為8,故輸出層共包含64個(gè)神經(jīng)元用于聚類競爭輸出。在模型中,一維輸入層和二維輸出層的所有神經(jīng)元間存在縱向全連接,輸入層中各神經(jīng)元間相互獨(dú)立,不存在權(quán)連接;在輸出層中,為更好地對模型訓(xùn)練,部分神經(jīng)元間通過橫向權(quán)連接來實(shí)現(xiàn)反饋?zhàn)饔?以提升模型訓(xùn)練的精準(zhǔn)度和速度。

      2.4 算法模型

      通過自組織特征神經(jīng)網(wǎng)絡(luò)算法并結(jié)合模糊數(shù)學(xué)中隸屬度相關(guān)概念,將整個(gè)算法學(xué)習(xí)過程分為三步。第一步,粗調(diào)整學(xué)習(xí)運(yùn)算,通過計(jì)算來確定輸出層中對應(yīng)獲勝的神經(jīng)元坐標(biāo),實(shí)現(xiàn)初步聚類;第二步,提升聚類速度,在鄰域縮小的過程中采用指數(shù)函數(shù)作為鄰域函數(shù);第三步,微調(diào)整學(xué)習(xí)運(yùn)算,將獲勝神經(jīng)元進(jìn)一步集中優(yōu)化,以獲取更精準(zhǔn)的聚類關(guān)鍵點(diǎn)。在此過程中,需要對較集中的連接神經(jīng)元間的權(quán)值進(jìn)行優(yōu)化調(diào)整,以解決聚類精準(zhǔn)度低、學(xué)習(xí)速率相對較慢的問題。在鄰域函數(shù)權(quán)值優(yōu)化調(diào)整中,不斷采用線性遞減函數(shù),直至最終模型訓(xùn)練優(yōu)化完成。如圖1所示,x1,x2,…xm表示輸入層的m維輸入向量,ω11,ω12,…ωmn為n維對應(yīng)輸出層全連接權(quán)系數(shù)向量。

      圖1 SOM自組織神經(jīng)網(wǎng)絡(luò)

      2.4.1 獲勝神經(jīng)元的選取

      模型的競爭優(yōu)化過程,實(shí)質(zhì)是通過計(jì)算輸入向量和全連接權(quán)向量間的相似性來進(jìn)行篩選優(yōu)化。常見可用性較高的度量輸入向量和權(quán)向量間相似程度的計(jì)算方法為歐式距離法和余弦法[11]。本文選擇輸入和權(quán)值系數(shù)向量相似度最高(即歐式距離值最?。┑妮敵鰧由窠?jīng)元作為獲勝神經(jīng)元,獲勝神經(jīng)元比其他輸出層神經(jīng)元存在更高程度的優(yōu)化,并依據(jù)相應(yīng)規(guī)則進(jìn)行權(quán)值處理,實(shí)現(xiàn)整個(gè)模型訓(xùn)練優(yōu)化效果。

      2.4.2 模型優(yōu)化

      整個(gè)算法模型優(yōu)化分為初始模型構(gòu)建、數(shù)據(jù)預(yù)處理和調(diào)整優(yōu)化三個(gè)階段。當(dāng)達(dá)到初始設(shè)置的優(yōu)化學(xué)習(xí)次數(shù)后,存儲(chǔ)并導(dǎo)出全部全連接權(quán)系數(shù),模型優(yōu)化結(jié)束。

      初始模型構(gòu)建階段,整個(gè)SOM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型采用MATLAB語言表達(dá),并對輸入層與輸出層、輸出層神經(jīng)元間的數(shù)量和相互關(guān)系進(jìn)行定義。輸入層與輸出層神經(jīng)元間的全權(quán)連接向量通過MATLAB軟件隨機(jī)定義生成,同時(shí)保證各權(quán)連接向量間線性無關(guān),為后續(xù)模型權(quán)值優(yōu)化提供初始環(huán)境。

      數(shù)據(jù)預(yù)處理階段,對初始全權(quán)連接向量和輸入向量進(jìn)行歸一化調(diào)整處理。歸一化處理是一種無量綱化數(shù)據(jù)處理方式,使各向量間主要表現(xiàn)為相對關(guān)系,以保證在向量間進(jìn)行下一步運(yùn)算時(shí)的科學(xué)性和可用性,減少非量綱因素對試驗(yàn)結(jié)果的干擾。

      調(diào)整優(yōu)化階段是整個(gè)SOM神經(jīng)網(wǎng)絡(luò)算法的核心,是決定實(shí)際應(yīng)用效果的關(guān)鍵。高校圖書館資源和使用人員眾多,采用標(biāo)準(zhǔn)Kohonen模型中的線性函數(shù)優(yōu)化難以滿足時(shí)效性要求,本文采用將模型優(yōu)化過程分為粗調(diào)整優(yōu)化和微調(diào)整優(yōu)化兩個(gè)階段的方式,并根據(jù)不同階段的特征進(jìn)行鄰域和學(xué)習(xí)率調(diào)整。

      粗調(diào)整優(yōu)化階段的任務(wù)是迅速實(shí)現(xiàn)初步聚類,節(jié)約優(yōu)化調(diào)整時(shí)間。學(xué)習(xí)函數(shù)是粗調(diào)整優(yōu)化階段主要的操作單元,該階段采用指數(shù)函數(shù)作為學(xué)習(xí)率調(diào)整函數(shù),進(jìn)行500次調(diào)整,實(shí)現(xiàn)初步輸出層神經(jīng)元聚類。初始階段設(shè)置較大的鄰域能保證初始輸入神經(jīng)元有更大的影響效果,提升收斂速度;隨著學(xué)習(xí)率的調(diào)整,采用指數(shù)衰減法來迭代調(diào)整鄰域尺寸,以保證聚類的穩(wěn)定性。

      微調(diào)整優(yōu)化階段主要保證聚類優(yōu)化效果的可靠性,減少錯(cuò)誤和誤差對試驗(yàn)結(jié)果的影響。此階段采用線性函數(shù)進(jìn)行學(xué)習(xí)率調(diào)整,進(jìn)行300次計(jì)算。在根據(jù)鄰域函數(shù)進(jìn)行權(quán)向量調(diào)整時(shí),借助墨西哥草帽函數(shù)模型進(jìn)行優(yōu)化調(diào)整。

      2.5 模型應(yīng)用

      針對模型優(yōu)化結(jié)果,在進(jìn)行試驗(yàn)應(yīng)用時(shí),需要遵循以下步驟:第一,向量歸一化,即將輸入向量和權(quán)連接向量進(jìn)行歸一化調(diào)整,以保證不同向量間比較時(shí)的科學(xué)性和可用性;第二,選取輸入向量并計(jì)算該向量與所有連接權(quán)向量間所對應(yīng)的歐式距離;第三,通過計(jì)算比較得出輸出層獲勝神經(jīng)元即為該輸入向量所屬的聚類類別點(diǎn)。

      2.6 實(shí)驗(yàn)結(jié)果

      本實(shí)驗(yàn)?zāi)P蛢?yōu)化算法結(jié)合標(biāo)準(zhǔn)Kohonen算法優(yōu)勢進(jìn)行一定程度改進(jìn),在粗調(diào)整階段采用指數(shù)函數(shù),微調(diào)整階段采用線性函數(shù),并借助墨西哥草帽函數(shù)模型調(diào)整鄰域強(qiáng)度,以提升收斂效果和可靠性。通過對前期搜集數(shù)據(jù)進(jìn)行分析優(yōu)化,形成可對用戶行為聚類的代表性神經(jīng)網(wǎng)絡(luò)系統(tǒng)。

      本文算法在Intel(R)Core(TM)2/4G RAM/windows 10/MATLAB R2011b進(jìn)行500次粗調(diào)整優(yōu)化和300次微調(diào)整優(yōu)化,再進(jìn)行樣本仿真。為便于對神經(jīng)網(wǎng)絡(luò)聚類效果進(jìn)行可靠性驗(yàn)證,在2016年10月25日—12月30日用戶訪問數(shù)據(jù)中隨機(jī)抽取560條數(shù)據(jù)進(jìn)行聚類。由于選擇輸入和輸出神經(jīng)元的維數(shù)限制,最終聚類結(jié)果以示意圖形式給出,對應(yīng)的輸入向量和激活神經(jīng)元模型仿真結(jié)果如圖2所示。結(jié)果顯示,共有63個(gè)神經(jīng)元被激活,分別代表不同輸入向量個(gè)體對應(yīng)的聚類簇,保存到相對應(yīng)的數(shù)據(jù)庫存儲(chǔ)。

      圖2 輸入向量神經(jīng)聚類結(jié)果

      3 個(gè)性化推薦服務(wù)實(shí)現(xiàn)

      3.1 實(shí)體數(shù)據(jù)描述

      實(shí)施圖書館有針對性的個(gè)性化推薦服務(wù),僅對Web訪問行為聚類還不夠,必須將聚類結(jié)果與用戶個(gè)人特征及圖書館文獻(xiàn)數(shù)據(jù)進(jìn)行對應(yīng)。

      (1)用戶實(shí)體特征信息描述。在實(shí)驗(yàn)中,山西大學(xué)圖書館主要面向的用戶為教師和學(xué)生,針對不同群體,需要搜集用戶的所屬群體特征,對用戶進(jìn)行定位。根據(jù)個(gè)性化推薦服務(wù)需求,通過SQL語言選擇訪問用戶實(shí)體對應(yīng)有價(jià)值的屬性實(shí)體進(jìn)行分析。

      (2)用戶Web訪問數(shù)據(jù)聚類結(jié)果描述。SOM神經(jīng)網(wǎng)絡(luò)的聚類模型通過粗調(diào)整和微調(diào)整兩階段優(yōu)化后,15個(gè)輸入層神經(jīng)元對應(yīng)64個(gè)輸出神經(jīng)元內(nèi)部以及兩層連接的權(quán)向量已經(jīng)構(gòu)成聚類系統(tǒng)。由于用戶搜索存在不確定性和模糊性,需要通過借助行為聚類分析更好地獲知用戶需求,并借助EDOAL語言標(biāo)準(zhǔn)對行為聚類結(jié)果進(jìn)行描述。

      (3)圖書館文獻(xiàn)檢索結(jié)果描述。語義檢索技術(shù)是基于人工智能的一項(xiàng)新興技術(shù),通過對文獻(xiàn)資源數(shù)據(jù)構(gòu)建語義數(shù)據(jù)庫,根據(jù)用戶的需求進(jìn)行智能化檢索。在獲得用戶的聚類結(jié)果后,本文通過搜集此類用戶的檢索語義和關(guān)鍵詞,對用戶進(jìn)行個(gè)性化文獻(xiàn)篩選和傳遞[12]。

      3.2 實(shí)體鏈接發(fā)現(xiàn)與構(gòu)建

      原始數(shù)據(jù)包含很多有價(jià)值的信息,然而這些數(shù)據(jù)并不全面,同時(shí)包含無價(jià)值的噪音數(shù)據(jù)。為實(shí)現(xiàn)個(gè)性化服務(wù)和推薦的目標(biāo),必須對篩選后的用戶信息數(shù)據(jù)集、用戶興趣屬性集和文獻(xiàn)檢索結(jié)果描述集整合鏈接[13],具體發(fā)現(xiàn)過程模型如圖3所示。在進(jìn)行數(shù)據(jù)實(shí)體鏈接和發(fā)現(xiàn)過程中,需要對相關(guān)屬性和鏈接進(jìn)行匹配,根據(jù)對應(yīng)的實(shí)體數(shù)據(jù)選擇相應(yīng)的屬性作為原碼和外碼,最終將多個(gè)數(shù)據(jù)集進(jìn)行整合,形成一個(gè)更完善的數(shù)據(jù)集合體。為保證數(shù)據(jù)鏈接的有效性,要求描述實(shí)體信息的相關(guān)屬性和類不為空。

      圖3 實(shí)體鏈接發(fā)現(xiàn)過程示意圖

      基于此模型,實(shí)體鏈接匹配后,通過SOM神經(jīng)網(wǎng)絡(luò)算法對用戶實(shí)體根據(jù)相似度進(jìn)行自動(dòng)聚類。神經(jīng)網(wǎng)絡(luò)聚類能很好地完成用戶間的相似性比較,在進(jìn)行模型優(yōu)化時(shí)能減少不同屬性間的比較時(shí)間,提升實(shí)體聚類的匹配效率和準(zhǔn)確性[14]。

      3.3 個(gè)性化推薦服務(wù)實(shí)現(xiàn)

      通過集合以上三種數(shù)據(jù),形成完善的綜合數(shù)據(jù)集。該數(shù)據(jù)集合主要包括用戶基本信息、用戶聚類信息以及用戶聚類檢索關(guān)鍵詞查找的對應(yīng)文獻(xiàn)資源相關(guān)信息。從宏觀上看,該數(shù)據(jù)集合可以展現(xiàn)用戶個(gè)性化需求;從微觀上看,可以使數(shù)據(jù)集內(nèi)部的實(shí)體屬性等信息進(jìn)行多樣化描述。

      對用戶提供有針對性的個(gè)性化推薦服務(wù)具體流程包括:(1)選擇要進(jìn)行個(gè)性化服務(wù)的實(shí)體類目,獲取對應(yīng)有價(jià)值屬性的信息集合;(2)獲取該屬性實(shí)體對應(yīng)的聚類信息,如果沒有獲得有效的用戶聚類信息,需要再一次將相關(guān)數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)系統(tǒng)聚類分析得出最終結(jié)果;(3)對獲得的信息進(jìn)行整理,依據(jù)檢索關(guān)鍵詞與數(shù)據(jù)文獻(xiàn)庫進(jìn)行匹配對比,將結(jié)果以直觀形式展現(xiàn)給用戶(見圖4)。

      圖4 服務(wù)個(gè)性化推薦過程

      3.4 模型分析

      在針對性的個(gè)性化推薦服務(wù)系統(tǒng)建設(shè)中,SOM模型的構(gòu)建對整體可用性起關(guān)鍵作用。本模型在優(yōu)化過程中采取5種方案。(1)選取時(shí)長在30—120分鐘的用戶訪問數(shù)據(jù)進(jìn)行分析,結(jié)果顯示不但有效規(guī)避特殊數(shù)據(jù)對模型優(yōu)化的影響,而且提升了整個(gè)模型的精準(zhǔn)性。(2)由于用戶個(gè)體的差異較大,通過提供多個(gè)競爭層神經(jīng)元,分別進(jìn)行500次粗調(diào)整優(yōu)化、300次微調(diào)整優(yōu)化,結(jié)果顯示該模型能夠顯著提升用戶聚類行為的可靠性。(3)通過對粗調(diào)整和微調(diào)整采用不同的學(xué)習(xí)函數(shù),在提升模型優(yōu)化速率的同時(shí)保證權(quán)值向量優(yōu)化的有效性。(4)通過對不同學(xué)科構(gòu)建不同的模型優(yōu)化子系統(tǒng),有效地避免在權(quán)值優(yōu)化時(shí)向量太多、運(yùn)算時(shí)間太長和不同學(xué)科間權(quán)值向量互相影響帶來的總體優(yōu)化結(jié)果可用性弱的問題。(5)通過弱化閾值的使用,可對用戶的興趣點(diǎn)推薦進(jìn)行比例規(guī)劃,避免資源推薦冗余,提升總體服務(wù)質(zhì)量。

      此外,本模型需要結(jié)合語義搜索才能發(fā)揮其最優(yōu)作用效果。SILK語言進(jìn)行語義搜索中的屬性值匹配計(jì)算,通過RDF來鏈接和描述實(shí)體間的相互關(guān)系,并將檢索結(jié)果輸出。本模型通過弱化閾值概念提升查準(zhǔn)率,但也降低了查全率,為保證查準(zhǔn)率和查全率間的協(xié)調(diào)性,在實(shí)際優(yōu)化中需要對學(xué)習(xí)速率、鄰域調(diào)整函數(shù)中的相關(guān)參數(shù)進(jìn)行調(diào)整。

      為進(jìn)一步提高系統(tǒng)推薦服務(wù)的精準(zhǔn)性,可對模型進(jìn)行修正。如在輸入數(shù)據(jù)選取中,進(jìn)一步修正選擇用戶文獻(xiàn)閱讀量的計(jì)算方法;在模型優(yōu)化中,對用戶聚類信息保存時(shí)長和文獻(xiàn)推薦引入時(shí)效性概念;定期搜集、整合和篩選用戶訪問數(shù)據(jù),進(jìn)行個(gè)性化反饋推薦。其中,在模型優(yōu)化階段,基于現(xiàn)有推薦資源采納率設(shè)定采納閾值階梯,并根據(jù)用戶行為進(jìn)行系統(tǒng)推薦優(yōu)化調(diào)整。當(dāng)采納率值高于最高采納閾值時(shí),系統(tǒng)自動(dòng)存儲(chǔ)相關(guān)數(shù)據(jù)至一個(gè)更新周期,以備后續(xù)個(gè)性化推薦和為其他用戶數(shù)據(jù)分析作參考;當(dāng)采納率值處于最低閾值和最高閾值之間時(shí),針對用戶行為采用即時(shí)存儲(chǔ)、即時(shí)優(yōu)化修正的方式,對用戶需求進(jìn)行實(shí)時(shí)更新,以提升用戶檢索結(jié)果滿意度;針對用戶個(gè)性化需求偏轉(zhuǎn)和偏移行為,當(dāng)用戶個(gè)性化需求低于最低閾值時(shí),系統(tǒng)釋放所有存儲(chǔ)數(shù)據(jù),重新對用戶行為進(jìn)行SOM神經(jīng)網(wǎng)絡(luò)聚類分析。

      3.5 推薦系統(tǒng)的有效性驗(yàn)證

      在圖書館個(gè)性化服務(wù)推薦中,將推薦方案細(xì)分為主題推薦、專家推薦和圖書推薦三個(gè)不同的子系統(tǒng)。這三種推薦依托于用戶興趣點(diǎn),分別提供熱點(diǎn)資源和專題文獻(xiàn)等一系列服務(wù),基于用戶不同類型的需要提供有差異的精準(zhǔn)推薦。

      選取2016年10月1日—2017年1月17日的用戶訪問數(shù)據(jù)進(jìn)行分析,在系統(tǒng)仿真期間,每天對用戶的訪問數(shù)據(jù)進(jìn)行分析并實(shí)時(shí)更新,通過用戶使用過程中的點(diǎn)擊量計(jì)算系統(tǒng)推薦量數(shù)據(jù),計(jì)算系統(tǒng)的推薦吻合度。其中,推薦吻合度(%)=用戶采納文獻(xiàn)數(shù)÷推薦系統(tǒng)推薦文獻(xiàn)數(shù)。

      從圖5可見,在初始階段三種推薦數(shù)據(jù)都會(huì)有較大波動(dòng),不同的系統(tǒng)發(fā)展情況有較大差異,隨著系統(tǒng)數(shù)據(jù)的完善和計(jì)算更新,整體系統(tǒng)的穩(wěn)定性逐漸提升,推薦吻合度也呈上升趨勢,于第93天后三個(gè)子系統(tǒng)的推薦吻合度趨于穩(wěn)定,實(shí)現(xiàn)三個(gè)數(shù)據(jù)子系統(tǒng)間的有效協(xié)同。

      圖5 服務(wù)個(gè)性化推薦系統(tǒng)間的協(xié)同

      為更好證明系統(tǒng)可用性,本文將新推薦算法與舊檢索算法用戶采納率進(jìn)行對比。選取2015年11月16日—2016年1月4日經(jīng)濟(jì)管理類用戶檢索采納數(shù)據(jù),結(jié)果顯示,平均用戶采納率為47.53%,用戶采納率主要集中在35%—55%(共33天),其中超過70%的僅為兩天,采納率分別為73.7%和79.91%。相關(guān)數(shù)據(jù)充分證明在有約束情況下系統(tǒng)算法的可靠性。

      4 總結(jié)

      SOM神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中應(yīng)用廣泛,具有無參數(shù)、精準(zhǔn)度高和客觀性強(qiáng)的特點(diǎn)。本文基于原始SOM神經(jīng)網(wǎng)絡(luò)算法,對聚類分析過程進(jìn)行粗調(diào)整和微調(diào)整兩個(gè)優(yōu)化階段,在保證聚類效果的同時(shí)提升聚類速率,并基于修正后的神經(jīng)網(wǎng)絡(luò)算法,規(guī)劃整體個(gè)性化推薦服務(wù)流程。在個(gè)性化服務(wù)推薦中,基于用戶信息數(shù)據(jù)集、用戶Web訪問數(shù)據(jù)和圖書館文獻(xiàn)數(shù)據(jù)庫相關(guān)數(shù)據(jù)資源進(jìn)行篩選整合,形成關(guān)聯(lián)數(shù)據(jù)集并進(jìn)行存儲(chǔ),結(jié)合不同用戶的偏好和Web訪問行為數(shù)據(jù),為用戶提供基于集群并針對個(gè)體的個(gè)性化資源推薦。借助現(xiàn)有山西大學(xué)圖書館數(shù)據(jù),對整體系統(tǒng)有效性進(jìn)行驗(yàn)證,得出新系統(tǒng)體系優(yōu)于原始系統(tǒng)體系的結(jié)果。

      高校圖書館對現(xiàn)代社會(huì)發(fā)展具有重要作用,優(yōu)質(zhì)有效資源的提供對整個(gè)高校學(xué)科建設(shè)和地區(qū)經(jīng)濟(jì)發(fā)展都有非常積極的意義。神經(jīng)網(wǎng)絡(luò)算法在現(xiàn)代數(shù)據(jù)挖掘中應(yīng)用廣泛,相信在現(xiàn)代高校圖書館構(gòu)建中能夠發(fā)揮越來越大的作用。

      [1] 劉恩濤,李國俊,邱小花,等.MOOCs對高校圖書館的影響研究[J].圖書館雜志,2014,33(2):67-71.

      [2] 朱曉云.Web數(shù)據(jù)挖掘與個(gè)性化信息服務(wù)中用戶研究[J].情報(bào)技術(shù),2004(2):34-35.

      [3] 張莉萍.論圖書館個(gè)性化服務(wù)中用戶信息的Web數(shù)據(jù)挖掘[J].情報(bào)資料工作,2007(2):101-104.

      [4] 歐陽烽.Web數(shù)據(jù)挖掘與高校數(shù)字圖書館的個(gè)性化服務(wù)[J].現(xiàn)代情報(bào),2008,28(1):103-104.

      [5] 項(xiàng)冰冰,錢光超.聚類算法研究綜述[J].電腦知識(shí)與技術(shù)(學(xué)術(shù)交流),2007,2(12):30-31.

      [6] THAMARAISELVI G,KALIAMMAL A.Datamining:conceptsand techniques[M].[S.1.]:Morgan Kaufmann Publishers Inc.,2006.

      [7] 張德豐.MATLAB神經(jīng)網(wǎng)絡(luò)應(yīng)用技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012.

      [8] 徐涌,陳恩紅,王熙法.基于神經(jīng)網(wǎng)絡(luò)的Web用戶進(jìn)行聚類分析[J].小型微型計(jì)算機(jī)系統(tǒng),2001,22(6):700-702.

      [9] 段隆振,朱敏,王靚明.基于雙Kohonen神經(jīng)網(wǎng)絡(luò)的Web用戶訪問模式挖掘算法[J].計(jì)算機(jī)工程與科學(xué),2009,31(9):95-98.

      [10] 李賽,鄒麗華.人工神經(jīng)網(wǎng)絡(luò)在聚類分析中的運(yùn)用[J].經(jīng)濟(jì)視野,2016(15):238-239.

      [11] 柳勝國.數(shù)字圖書館個(gè)性化服務(wù)與Web日志挖掘數(shù)據(jù)預(yù)處理技術(shù)[J].現(xiàn)代情報(bào),2007,27(7):65-67.

      [12] 黃敏,賴茂生.語義檢索研究綜述[J].圖書情報(bào)工作,2008,52(6):63-66.

      [13] HIENERT D,ZAPILKO B,SCHAER P,et al.Vizgr:linking data in visualizations[M].[S.1.]:Springer Berlin Heidelberg,2011.

      [14] 高勁松,周習(xí)曼,梁艷琪.面向關(guān)聯(lián)數(shù)據(jù)的實(shí)體鏈接發(fā)現(xiàn)方法研究[J].中國圖書館學(xué)報(bào),2016,42(6):85-101.

      劉愛琴,女,1974年生,博士,講師,碩士生導(dǎo)師,研究方向:信息服務(wù),E-mail:km_aql@sina.com.cn。

      李永清,男,1995年生,碩士研究生,研究方向:管理系統(tǒng)優(yōu)化與戰(zhàn)略管理。

      2017-08-26)

      《數(shù)字圖書館論壇》在2016年度復(fù)印報(bào)刊資料轉(zhuǎn)載指數(shù)排名中喜獲佳績

      由中國人民大學(xué)人文社會(huì)科學(xué)學(xué)術(shù)成果評價(jià)研究中心聯(lián)合書報(bào)資料中心研制的2016年度復(fù)印報(bào)刊資料轉(zhuǎn)載指數(shù)排名于2017年3月28日正式發(fā)布。

      在“圖書館、情報(bào)與檔案管理學(xué)科期刊”全文轉(zhuǎn)載排名中,《數(shù)字圖書館論壇》轉(zhuǎn)載率位列第15名,綜合指數(shù)位列第20名。

      該排名根據(jù)人大復(fù)印報(bào)刊資料近100種學(xué)術(shù)系列期刊在2015年度轉(zhuǎn)載的學(xué)術(shù)論文數(shù)據(jù),從轉(zhuǎn)載量、轉(zhuǎn)載率、綜合指數(shù)三個(gè)維度對中國人文社科期刊和教學(xué)科研機(jī)構(gòu)進(jìn)行統(tǒng)計(jì)形成。

      Research on Personalized Demand Mining System of University Library Based on SOM

      LIU AiQin, LI YongQing
      (1.School of Economics and Management, Shanxi University, Taiyuan 030006, China;2.School of Economics and Management, China University of Petroleum, Qingdao 266555, China)

      According to the characteristics of high precision and no parameter of the SOM neural network clustering algorithm, the paper, taking the web access behaviors of users in Shanxi University Library as an example, carried on optimized cluster analysis. The progress of clustering behavior could be divided into two stages, the rough adjustment training and the micro-adjustment training, which could improve the clustering rate and effect. Based on the output of analysis results,screening and integrating the user’s personal characteristic information, users’ behavior data and literature database, to linked data set reliable and available highly. And combining with the semantic retrieval and attributing matching technology, the user personalized service recommendation system was formed and veri fi ed effective. It realized the coordination among internal subjects recommending, books recommending and experts recommending.

      SOM Neural Network; Cluster Analysis; Personalized Recommendation; Linked Data Sets

      G250.73

      10.3772/j.issn.1673-2286.2017.10.006

      猜你喜歡
      神經(jīng)元聚類向量
      向量的分解
      《從光子到神經(jīng)元》書評
      自然雜志(2021年6期)2021-12-23 08:24:46
      聚焦“向量與三角”創(chuàng)新題
      躍動(dòng)的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      向量垂直在解析幾何中的應(yīng)用
      基于改進(jìn)的遺傳算法的模糊聚類算法
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      基于二次型單神經(jīng)元PID的MPPT控制
      毫米波導(dǎo)引頭預(yù)定回路改進(jìn)單神經(jīng)元控制
      淳化县| 根河市| 黔江区| 太原市| 祁门县| 长海县| 永安市| 永福县| 黎川县| 黑水县| 仲巴县| 连山| 垦利县| 肥城市| 张家港市| 富锦市| 辽阳县| 大荔县| 闽侯县| 阿鲁科尔沁旗| 临城县| 井陉县| 民丰县| 澄迈县| 建始县| 沾化县| 栾川县| 潞城市| 彭阳县| 宁明县| 咸宁市| 鄂托克前旗| 寻甸| 监利县| 辽宁省| 张家界市| 巴林左旗| 昭通市| 安达市| 汶川县| 剑川县|