盛銓 方嵩松
摘要:以O(shè)PAC后臺日志數(shù)據(jù)為基礎(chǔ),從中提取相關(guān)的有效字段,運(yùn)用K-means法與Aprior算法等大數(shù)據(jù)分析方法,對高職院校圖書館用戶行為與需求進(jìn)行聚類與挖掘,揭示出高職院校的用戶行為特征、規(guī)律及其關(guān)聯(lián)性,這對于高職院校改進(jìn)服務(wù)有重要的借鑒意義。
關(guān)鍵詞:大數(shù)據(jù);高職院校;圖書館;用戶行為;K-means;Aprior算法
中圖分類號:G434? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)18-0001-03
隨著移動電話、平板電腦等移動設(shè)備以及在此基礎(chǔ)上產(chǎn)生的移動社交平臺等新媒體發(fā)展速度十分迅速,由此也使得高職院校圖書館服務(wù)面臨著新的機(jī)遇與挑戰(zhàn),新媒體為所帶來的移動圖書館、圖書館微信公眾號以及桌面端網(wǎng)站,都極大地豐富了用戶使用圖書館資源與服務(wù)的手段,而用戶在借助于新媒體與圖書館進(jìn)行交互的過程中又產(chǎn)生了海量的行為日志數(shù)據(jù),對這些海量數(shù)據(jù)進(jìn)行挖掘與分析,能夠有效揭示用戶的行為規(guī)律及其需求,進(jìn)而有針對性地為用戶提供更具個性化的資源與服務(wù),以實(shí)現(xiàn)高職院校圖書館服務(wù)方式的創(chuàng)新。
1 數(shù)據(jù)獲取與數(shù)據(jù)處理
本研究于2018年4月和5月期間,收集了浙江省某高職院校圖書館在該年在4月1日至5月31日的OPAC后臺日志數(shù)據(jù),所獲取的數(shù)據(jù)跨越61天,數(shù)據(jù)總量共達(dá)到了3.67GB。該OPAC日志數(shù)據(jù)詳細(xì)記錄了用戶利用圖書館OPAC從事相關(guān)活動的信息,如用戶每次點(diǎn)擊行為起始與終止時間、用戶自身設(shè)備信息及其接入網(wǎng)絡(luò)的IP地址、用戶向OPAC系統(tǒng)提交的訪問請求內(nèi)容信息、用戶訪問請求內(nèi)容以及其他相關(guān)信息等。
由于OPAC原始的日志數(shù)據(jù)包含了很多個維度,本研究在對OPAC原始的日志數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,根據(jù)研究目標(biāo)確定了對數(shù)據(jù)挖掘有用的相關(guān)日志數(shù)據(jù)字段,包括:用戶每次點(diǎn)擊行為起始與終止時間、用戶自身設(shè)備信息及其接入網(wǎng)絡(luò)的IP地址、用戶向OPAC系統(tǒng)提交的訪問請求內(nèi)容信息、用戶訪問請求內(nèi)容以及其他相關(guān)信息等。我們對所獲取的數(shù)據(jù)進(jìn)行了更進(jìn)一步的篩選和清洗,相關(guān)工作包括數(shù)據(jù)噪聲的去除(包括數(shù)據(jù)中的空缺值和異常值等),去除了數(shù)據(jù)中許多字段不完整或者沒有意義的數(shù)據(jù)[1],最終形成了本研究的數(shù)據(jù)基礎(chǔ),保留下來的數(shù)據(jù)比重占原數(shù)據(jù)的64.8%?;谶@些數(shù)據(jù),我們應(yīng)用K-means算法對高職院校圖書館用戶行為與需求進(jìn)行了挖掘。
為進(jìn)一步明確高職院校圖書館用戶行為與其對圖書館資源與服務(wù)的需求,我們從中篩選了部分登陸過OPAC系統(tǒng)中“我的圖書館”的用戶,對其利用圖書館服務(wù)的相關(guān)數(shù)據(jù)信息進(jìn)行了獲取與挖掘。通過對用戶登陸“我的圖書館”的行為數(shù)據(jù)與其IP地址和其預(yù)留在圖書館中的個人信息進(jìn)行匹配,我們獲得了用戶個人信息、用戶點(diǎn)擊OPAC系統(tǒng)的信息均具備的用戶數(shù)據(jù),這些數(shù)據(jù)約占到了總記錄數(shù)的42.75%。用戶通過OPAC檢索系統(tǒng)和“我的圖書館”服務(wù)系統(tǒng)所能夠獲得的圖書館服務(wù)主要有查詢服務(wù)、查看信息、借閱服務(wù)、信息修改、圖書預(yù)約、圖書續(xù)借、參考咨詢、新書推薦、借閱排行、圖書薦購等服務(wù)。
2 基于K-means方法的高職院校圖書館用戶行為與需求挖掘
2.1 數(shù)據(jù)分析流程
對高職院校圖書館用戶行為與需求進(jìn)行挖掘和分析所采取的方法為大數(shù)據(jù)分析中常用的K-means算法,在具體執(zhí)行該算法的過程中,通常需要先確定將數(shù)據(jù)聚類成多少個目標(biāo)簇,聚類的簇?cái)?shù)并沒有明確的規(guī)定,數(shù)據(jù)分析要人員可以根據(jù)自身已有的知識結(jié)構(gòu)以及該算法在數(shù)據(jù)挖掘過程中的具體結(jié)果進(jìn)行相應(yīng)的嘗試[2]。但在很多情況下,K-means算法所設(shè)置的聚類簇?cái)?shù)仍然有一個相對固定的范圍,通常該數(shù)量為10個左右。考慮到高職院校圖書館的用戶對象主要以本校的師生為主,用戶具有比較高的同質(zhì)性,因此所設(shè)置的聚類簇?cái)?shù)不宜過多,否則會導(dǎo)致聚類效果較差[3]。我們根據(jù)高職院校圖書館用戶的大致分類情況,將擬采用的K-means算法所獲得的聚類簇?cái)?shù)設(shè)置為6個,其具體分析過程包含原始數(shù)據(jù)獲取、數(shù)據(jù)篩選、圖書館服務(wù)使用類別數(shù)量、點(diǎn)擊次數(shù)比較、檢索行為比重、系統(tǒng)服務(wù)操作行為比重、數(shù)據(jù)類型設(shè)置、數(shù)據(jù)過濾、K-means聚類等環(huán)節(jié)(見圖1)。
2.2 聚類分析結(jié)果
本研究通過K-means聚類分析算法所得出的聚類分析結(jié)果如表1所示。由于將K-means聚類簇?cái)?shù)設(shè)置為6個,我們可以因此獲得六個聚類結(jié)果。在這六個類中,聚類3僅包含兩個記錄,且該聚類下的檢索行為點(diǎn)擊次數(shù)、系統(tǒng)服務(wù)操作行為點(diǎn)擊次數(shù)、點(diǎn)擊行為次數(shù)、持續(xù)時間、利用圖書館服務(wù)數(shù)量的值均要遠(yuǎn)大于其他五個類,說明聚類3所包含的兩個記錄存在異常的情況,因此我們不需要對該類的相關(guān)信息進(jìn)行更進(jìn)一步的分析。
聚類1所包含了記錄數(shù)最多,記錄數(shù)占所有數(shù)據(jù)總量的18.57%,該類下聚集了大量用戶,共有827個用戶,是包含用戶數(shù)最多的類。該類下的用戶使用智能終端(如智能手機(jī)、平板電腦等)在OPAC上進(jìn)行相關(guān)操作的比重最高,達(dá)到了75%。該類用戶在數(shù)據(jù)采集期間向圖書館OPAC系統(tǒng)所發(fā)起的會話數(shù)量平均值為3.025個,發(fā)起對話所包含的點(diǎn)擊行為數(shù)量平均有55.764個,在所有類中處于中等水平,說明該類用戶使用圖書館OPAC系統(tǒng)相關(guān)服務(wù)的行為比較正常。該類用戶訪問OPAC系統(tǒng)所實(shí)施的系統(tǒng)服務(wù)操作行為比重相對較低,所進(jìn)行的檢索行為點(diǎn)擊次數(shù)和系統(tǒng)服務(wù)操作行為點(diǎn)擊次數(shù)分別為4.578次和2.226次,也都處于比較中間的水平,用戶點(diǎn)擊行為的持續(xù)時間大約為44.357秒。在該類中,用戶發(fā)起的會話包含的點(diǎn)擊行為次數(shù)也并不多,只有25.764次,所利用的圖書館服務(wù)數(shù)量為1.542個,說明這類用戶利用圖書館OPAC的目的比較統(tǒng)一和集中,主要利用的是圖書館某一個服務(wù)。總體來看,該類用戶對圖書館OPAC的利用處于中午水平,其目的主要以檢索為主,利用OPAC進(jìn)行其他相關(guān)系統(tǒng)操作的次數(shù)并不高,因此圖書館可重點(diǎn)關(guān)注這類用戶在系統(tǒng)中到底檢索了什么信息,根據(jù)其檢索記錄,有針對性地為這些讀者推薦一些圖書信息,以使?jié)M足這類讀者的文獻(xiàn)信息需求。
聚類2所包含的記錄數(shù)其次多,記錄數(shù)占到了所有數(shù)據(jù)總量的12.42%,該類下包含的用戶數(shù)量為443個,是用戶數(shù)量其次多的類。在該類下使用智能設(shè)備的用戶數(shù)量比較并不算高,只有26%,說明該類用戶大多使用的是桌面端的設(shè)備訪問圖書館OPAC。該類用戶發(fā)起的會話次數(shù)平均值為2.049個,比聚類1的用戶會話數(shù)量相對要少,該類用戶檢索行為的比重也比較高,達(dá)到了58%,該類用戶的系統(tǒng)服務(wù)操作行為比重也不算低,達(dá)到了24.6%,要高于聚類1,說明該類用戶在進(jìn)行檢索的同時,也會發(fā)起比較多的系統(tǒng)服務(wù)操作??傮w來看,該類用戶發(fā)起的會話數(shù)及其點(diǎn)擊行為數(shù)量都相對較少,且系統(tǒng)服務(wù)操作行為所占的比重相對較高,其桌面端的用戶占多數(shù),這與本研究之前所得出的結(jié)論保持一致。針對這類用戶,圖書館在進(jìn)行檢索結(jié)果精確推送的同時,還可在OPAC檢索頁面為其推薦更多的服務(wù)、資源供其選擇[4]。
聚類4和聚類5所包含的記錄數(shù)占所有數(shù)據(jù)記錄的比重分別為6.63%和4.27%,這兩類用戶屬于兩類行為相反的用戶群。其中,聚類4的用戶屬于以檢索為主要目的,主要利用桌面端設(shè)備進(jìn)行操作,會在OPAC中反復(fù)修改檢索式,以獲取精確的檢索結(jié)果的用戶群,該類用戶進(jìn)行其他的情況相對較少;聚類5的用戶屬于更愿意利用OPAC系統(tǒng)中其他服務(wù)的用戶,這類用戶以利用智能設(shè)備為主。另外,聚類6的用戶在檢索行為和系統(tǒng)服務(wù)操作行為的頻次上都不算多,但其點(diǎn)擊行為次數(shù)卻達(dá)到了117.54次,說明這類用戶喜歡比較喜歡漫無目的在OPAC系統(tǒng)進(jìn)行相關(guān)無關(guān)操作,這類用戶利用圖書館的需求并不明確,需要圖書館為之提供必要的指導(dǎo)。
3 基于Apriori的高職院校圖書館用戶行為與需求挖掘
3.1 分析流程
Apriori算法的基本思想是以遞歸的方式反映從數(shù)據(jù)集中尋找出現(xiàn)頻次多的項(xiàng)集,進(jìn)而產(chǎn)生選項(xiàng)集,對達(dá)到最小支持度要求的候選項(xiàng)集進(jìn)行保留,而刪除那些不滿足要求的數(shù)據(jù)。在該算法執(zhí)行的過程中,通常將最大前項(xiàng)數(shù)據(jù)的閾值設(shè)置為1,而小最置信度數(shù)據(jù)設(shè)置為10%,其具體流程如圖2所示。
3.2 關(guān)聯(lián)規(guī)則分析結(jié)果
表2顯示了基于Apriori算法的高職院校圖書館用戶數(shù)據(jù)聚類結(jié)果??梢钥闯鐾ㄟ^數(shù)據(jù)聚類,OPAC系統(tǒng)各項(xiàng)服務(wù)之間的關(guān)聯(lián)規(guī)則被揭示出來。新書推薦和借閱服務(wù)兩項(xiàng)服務(wù)之間的關(guān)聯(lián)性最強(qiáng),其次是借閱排行和查詢服務(wù)兩項(xiàng)服務(wù),說明圖書館的新書推薦和借閱排行兩項(xiàng)服務(wù)還是起到了相應(yīng)的作用,但這兩項(xiàng)結(jié)果的置信度并不算高。置信度最高的關(guān)聯(lián)規(guī)則是查詢服務(wù)與借閱服務(wù)之間關(guān)聯(lián)規(guī)則,說明高職院校的大部分用戶在OPAC系統(tǒng)進(jìn)行相關(guān)查詢操作后,主要還是會選擇將該書從圖書館借出來。此外,我們還發(fā)出了查詢服務(wù)、查看信息服務(wù)與圖書預(yù)約、信息修改、參考咨詢、圖書薦購和圖書續(xù)借等服務(wù)之間關(guān)聯(lián)性,這些關(guān)聯(lián)規(guī)則的揭示,都有利于高職院校圖書館對當(dāng)前的OPAC系統(tǒng)進(jìn)行改進(jìn),更好地提升用戶對圖書館服務(wù)與資源的利用率。
4 討論
本研究運(yùn)用K-means算法和Apriori算法,對高職院校圖書館用戶行為與需求進(jìn)行了挖掘。通過K-means算法進(jìn)行聚類分析,我們得出了六個類:第1類用戶對圖書館OPAC的利用處于中午水平,其目的主要以檢索為主,利用OPAC進(jìn)行其他相關(guān)系統(tǒng)操作的次數(shù)并不高,因此圖書館可重點(diǎn)關(guān)注這類用戶在系統(tǒng)中到底檢索了什么信息,根據(jù)其檢索記錄,有針對性地為這些讀者推薦一些圖書信息,以使?jié)M足這類讀者的文獻(xiàn)信息需求;第2類用戶發(fā)起的會話數(shù)及其點(diǎn)擊行為數(shù)量都相對較少,且系統(tǒng)服務(wù)操作行為所占的比重相對較高,其桌面端的用戶占多數(shù),這與本研究之前所得出的結(jié)論保持一致。針對這類用戶,圖書館在進(jìn)行檢索結(jié)果精確推送的同時,還可在OPAC檢索頁面為其推薦更多的服務(wù)、資源供其選擇;第3類僅包含兩個記錄,且該聚類下的檢索行為點(diǎn)擊次數(shù)、系統(tǒng)服務(wù)操作行為點(diǎn)擊次數(shù)、點(diǎn)擊行為次數(shù)、持續(xù)時間、利用圖書館服務(wù)數(shù)量的值均要遠(yuǎn)大于其他五個類,該類存在異常的情況,故而舍去;第4類和第5類用戶屬于兩類行為相反的用戶群,第4類的用戶屬于以檢索為主要目的,主要利用桌面端設(shè)備進(jìn)行操作,會在OPAC中反復(fù)修改檢索式,以獲取精確的檢索結(jié)果的用戶群,該類用戶進(jìn)行其他的情況相對較少,而第5類的用戶屬于更愿意利用OPAC系統(tǒng)中其他服務(wù)的用戶,這類用戶以利用智能設(shè)備為主;第6類用戶在檢索行為和系統(tǒng)服務(wù)操作行為的頻次上都不算,但其點(diǎn)擊行為次數(shù)卻達(dá)到了117.54次,說明這類用戶喜歡比較喜歡漫無目的在OPAC系統(tǒng)進(jìn)行相關(guān)無關(guān)操作,這類用戶利用圖書館的需求并不明確,需要圖書館為之提供必要的指導(dǎo)。
另外,從基于Apriori算法的高職院校圖書館用戶數(shù)據(jù)聚類結(jié)果揭示的各項(xiàng)服務(wù)之間的關(guān)聯(lián)規(guī)則來看,新書推薦和借閱服務(wù)兩項(xiàng)服務(wù)之間的關(guān)聯(lián)性最強(qiáng),其次是借閱排行和查詢服務(wù)兩項(xiàng)服務(wù),說明圖書館的新書推薦和借閱排行兩項(xiàng)服務(wù)還是起到了相應(yīng)的作用,但這兩項(xiàng)結(jié)果的置信度并不算高。置信度最高的關(guān)聯(lián)規(guī)則是查詢服務(wù)與借閱服務(wù)之間關(guān)聯(lián)規(guī)則,說明高職院校的大部分用戶在OPAC系統(tǒng)進(jìn)行相關(guān)查詢操作后,主要還是會選擇將該書從圖書館借出來。高職院校圖書館可基于這些關(guān)聯(lián)規(guī)則,對現(xiàn)有的圖書館OPAC系統(tǒng)及其相關(guān)服務(wù)進(jìn)行改進(jìn),以提升圖書館資源與服務(wù)的利用率。
參考文獻(xiàn):
[1] 劉魯川, 王菲. 移動瀏覽器用戶的感知匹配與持續(xù)使用意向研究[J]. 情報科學(xué), 2014(2):106-111.
[2] 陳臣. 基于大數(shù)據(jù)的圖書館個性化服務(wù)用戶行為分析研究[J]. 圖書館工作與研究, 2015, 1(2):28-31.
[3] 何勝, 馮新翎, 武群輝,等. 基于用戶行為建模和大數(shù)據(jù)挖掘的圖書館個性化服務(wù)研究[J]. 圖書情報工作, 2017(1):40-46.
[4] 陳廉芳. 大數(shù)據(jù)環(huán)境下圖書館用戶小數(shù)據(jù)的采集、分析與應(yīng)用[J]. 國家圖書館學(xué)刊, 2016, 25(3):069-074.
【通聯(lián)編輯:王力】