段 薇, 金 征
(1.江西科技師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,江西 南昌 330038;2.東華理工大學(xué) 圖書(shū)館,江西 南昌 330013)
高校圖書(shū)館擔(dān)負(fù)著為高校教學(xué)和科研服務(wù)的任務(wù),其服務(wù)水平的高低,直接影響著高校教學(xué)、科研的發(fā)展。高校移動(dòng)圖書(shū)館作為我國(guó)移動(dòng)圖書(shū)館中的重要成員,近幾年來(lái)發(fā)展迅速。過(guò)去圖書(shū)館提供的服務(wù)主要是以館藏的圖書(shū)資源為中心,現(xiàn)在移動(dòng)圖書(shū)館的信息服務(wù)已逐步轉(zhuǎn)化為以用戶為中心,除了要能實(shí)現(xiàn)在移動(dòng)設(shè)備上對(duì)圖書(shū)館的資源信息的查詢功能,還需要滿足用戶日益增長(zhǎng)的對(duì)信息服務(wù)的個(gè)性化需求。
用戶信息行為是用戶研究的重要領(lǐng)域,對(duì)用戶信息行為研究能為信息機(jī)構(gòu)開(kāi)展信息服務(wù)提供目標(biāo)和決策依據(jù),因而一直受到圖書(shū)館學(xué)和情報(bào)學(xué)界的重視。移動(dòng)圖書(shū)館用戶的信息行為是指用戶在信息需求支配下利用移動(dòng)圖書(shū)館過(guò)程中的表現(xiàn),是用戶信息需求的外在化與延伸化[1]。
大數(shù)據(jù)具有全面性、多樣性和時(shí)效性的特征,是科學(xué)進(jìn)步的產(chǎn)物。利用大數(shù)據(jù)技術(shù)對(duì)高校移動(dòng)圖書(shū)館用戶信息行為分析,不僅能夠較全面、準(zhǔn)確地把握用戶的信息需求,發(fā)現(xiàn)用戶的信息行為規(guī)律,為圖書(shū)館有針對(duì)性地做好資源建設(shè)提供可靠依據(jù),同時(shí)也是圖書(shū)館為用戶提供個(gè)性化服務(wù)的前提。
隨著高校圖書(shū)館資源建設(shè)的推進(jìn),高校移動(dòng)圖書(shū)館的資源愈加豐富。智能手機(jī)等移動(dòng)設(shè)備的普及以及移動(dòng)互聯(lián)網(wǎng)環(huán)境下信息服務(wù)的費(fèi)用逐步降低,尤其是在WIFI環(huán)境下用戶的上網(wǎng)費(fèi)用幾乎可以不計(jì)。這些因素促使高校移動(dòng)圖書(shū)館的用戶信息行為的發(fā)生總量、頻次呈快速增長(zhǎng)態(tài)勢(shì),高校移動(dòng)圖書(shū)館的用戶信息行為數(shù)據(jù)量迅猛增長(zhǎng)。目前,高校移動(dòng)圖書(shū)館所存儲(chǔ)的用戶信息行為數(shù)據(jù)信息已具備“大數(shù)據(jù)”的4V特征,即數(shù)據(jù)體量巨大、數(shù)據(jù)類型多、價(jià)值密度低、數(shù)據(jù)增長(zhǎng)的速度快,處理的時(shí)效性要求高。
近些年來(lái),大數(shù)據(jù)技術(shù)得到了快速發(fā)展,每年都會(huì)涌現(xiàn)出大量新的技術(shù),成為大數(shù)據(jù)獲取、存儲(chǔ)、處理分析以及可視化的有效手段。這些技術(shù)大多以開(kāi)源為主,如:分布式處理的軟件框架Hadoop、用來(lái)進(jìn)行挖掘和可視化的軟件環(huán)境、非關(guān)系型數(shù)據(jù)庫(kù)Hbase,CounchDB和MongoDb等開(kāi)源軟件。利用這些技術(shù)可以幫助我們對(duì)高校移動(dòng)圖書(shū)館的用戶信息行為進(jìn)行大數(shù)據(jù)分析。
傳統(tǒng)的數(shù)據(jù)分析大多是針對(duì)關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行的,這些數(shù)據(jù)是結(jié)構(gòu)化數(shù)據(jù)且數(shù)據(jù)規(guī)模相對(duì)較小,因此分析處理起來(lái)比較容易。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)不僅規(guī)模大且多為半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)。這些錯(cuò)綜復(fù)雜的信息數(shù)據(jù),既提供了豐富的信息分析素材,又對(duì)數(shù)據(jù)的存儲(chǔ)、處理能力提出了更高的要求,加大了分析、處理信息的難度。
基于大數(shù)據(jù)的高校移動(dòng)圖書(shū)館用戶信息行為研究面臨的困難包括海量數(shù)據(jù)的存儲(chǔ)、處理,復(fù)雜分析模型的實(shí)現(xiàn)。要解決這些問(wèn)題首先要實(shí)現(xiàn)低成本、快速地對(duì)海量、多類別的數(shù)據(jù)進(jìn)行抽取和存儲(chǔ)。其次要使用新的技術(shù)對(duì)海量數(shù)據(jù)進(jìn)行快速地分析和挖掘。
Hadoop是由Apache基金會(huì)開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)[2],是目前構(gòu)建大數(shù)據(jù)平臺(tái)的主流技術(shù)。Hadoop具有高可靠性、高拓展性、高容錯(cuò)性和高效性,能實(shí)現(xiàn)在大量廉價(jià)計(jì)算機(jī)組成的集群中對(duì)海量數(shù)據(jù)進(jìn)行處理[3]。
Hadoop發(fā)展至今已形成一個(gè)生態(tài)體系,除了核心技術(shù) (MapReduce,HDFS)之外,各種基于Hadoop的工具應(yīng)運(yùn)而生,對(duì)其提供多方面的業(yè)務(wù)支撐。常用的工具有:寬表數(shù)據(jù)庫(kù)HBase;可伸縮的機(jī)器學(xué)習(xí)算法庫(kù)Mahout;高級(jí)數(shù)據(jù)處理工具:Hive,Pig等[4]。
HBase是基于Google BigTable模型開(kāi)發(fā)的典型的key/value系統(tǒng),它是一個(gè)NoSql數(shù)據(jù)庫(kù),適合于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。利用HBase技術(shù)可在PC Server上構(gòu)建大規(guī)模分布式存儲(chǔ)集群,降低存儲(chǔ)成本,從而解決大數(shù)據(jù)存儲(chǔ)問(wèn)題。HBase是基于列的而不是基于行的模式,能通過(guò)水平擴(kuò)展讀寫(xiě)負(fù)載提高訪問(wèn)性能。Mahout是開(kāi)源數(shù)據(jù)挖掘模型庫(kù),它包含了多種可擴(kuò)展的數(shù)據(jù)挖掘經(jīng)典算法,它支持Hadoop并行計(jì)算框架,用戶可以直接利用這些算法進(jìn)行數(shù)據(jù)挖掘,或在此基礎(chǔ)上對(duì)算法進(jìn)行改進(jìn)以滿足數(shù)據(jù)挖掘的需求。Hive適合于構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),且能利用SQL語(yǔ)言進(jìn)行數(shù)據(jù)分析的操作。Pig是一種數(shù)據(jù)流語(yǔ)言,它可以非常方便地處理HDFS和HBase的數(shù)據(jù)。當(dāng)需要在數(shù)據(jù)上做一些轉(zhuǎn)換,并且不想編寫(xiě)MapReduce jobs就可以用Pig。
目前Hadoop的生態(tài)體系成為大數(shù)據(jù)領(lǐng)域中應(yīng)用最廣泛的開(kāi)源框架。因此,對(duì)高校移動(dòng)圖書(shū)館用戶信息行為進(jìn)行大數(shù)據(jù)分析可通過(guò)構(gòu)建基于Hadoop的大數(shù)據(jù)應(yīng)用系統(tǒng)平臺(tái)來(lái)實(shí)現(xiàn)。
基于Hadoop的大數(shù)據(jù)應(yīng)用系統(tǒng)平臺(tái)的架構(gòu)分為四層,四層結(jié)構(gòu)從下到上由基礎(chǔ)層、數(shù)據(jù)層、業(yè)務(wù)邏輯層、應(yīng)用層組成,如圖1所示。各層的功能如下。
基礎(chǔ)層:該層主要是對(duì)整個(gè)系統(tǒng)提供平臺(tái)支撐功能,是對(duì)構(gòu)成系統(tǒng)的硬件、操作系統(tǒng)和網(wǎng)絡(luò)的抽象。
數(shù)據(jù)層:提供數(shù)據(jù)集成、數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理功能。本層將利用HBase與Hadoop中的HDFS分布式文件進(jìn)行數(shù)據(jù)的交互處理,并將應(yīng)用層所需的數(shù)據(jù)存儲(chǔ)在HBase數(shù)據(jù)庫(kù)里;重點(diǎn)關(guān)注如何對(duì)數(shù)據(jù)層進(jìn)行優(yōu)化,提高系統(tǒng)的整體數(shù)據(jù)處理能力。
業(yè)務(wù)邏輯層:處于數(shù)據(jù)層與應(yīng)用層中間,主要用來(lái)處理項(xiàng)目中的業(yè)務(wù)流程。在對(duì)MapReduce編程模型和Mahout中常用算法研究的基礎(chǔ)上①利用Hadoop的MapReduce來(lái)處理HBase中的海量數(shù)據(jù)。②利用Hive構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),利用HQL語(yǔ)言進(jìn)行數(shù)據(jù)的查詢處理,或者利用Pig對(duì) HDFS和Hbase中的數(shù)據(jù)進(jìn)行快速查詢操作。③利用Mahout中聚類、分類、協(xié)同過(guò)濾算法對(duì)數(shù)據(jù)進(jìn)行深度分析。通過(guò)以上這些操作滿足應(yīng)用層的需求。
應(yīng)用層:根據(jù)用戶需求實(shí)現(xiàn)信息的推薦、搜索,推送等功能,以滿足個(gè)性化需求。
圖1 基于Hadoop的大數(shù)據(jù)應(yīng)用系統(tǒng)架構(gòu)
高校移動(dòng)圖書(shū)館用戶信息行為是指用戶在信息需求的支配下,利用移動(dòng)通訊設(shè)備對(duì)圖書(shū)館的資源進(jìn)行檢索、選擇和利用的行為。這些行為的實(shí)質(zhì)是一系列的數(shù)據(jù)交換過(guò)程,最終體現(xiàn)為用戶信息行為事件。一個(gè)用戶信息事件通常應(yīng)包括:“時(shí)間、地點(diǎn)、人物、交互、交互的內(nèi)容”五方面的內(nèi)容。通過(guò)用戶事件觀察,最終可以從這些事件中獲知用戶的行為規(guī)律。
WEB日志記錄了網(wǎng)站訪問(wèn)記錄數(shù)據(jù)內(nèi)容,可以依據(jù)WEB日志中的信息對(duì)高校移動(dòng)圖書(shū)館用戶的信息檢索行為、信息選擇行為以及信息利用行為進(jìn)行定義。目前WEB訪問(wèn)日志最常用的是NCSA擴(kuò)展日志格式(ECLF)。表1中顯示了ECLF日志格式中最重要的內(nèi)容。
表1 ECLF常用屬性
3.1.1用戶的信息檢索行為事件定義
用戶發(fā)出的每個(gè)搜索請(qǐng)求背后都隱含著潛在的搜索意圖,由此產(chǎn)生了對(duì)特定信息的需求,通過(guò)分析用戶的信息檢索行為,了解用戶的信息需求。
信息檢索行為事件L:=<{用戶的IP地址remotehost}{用戶帳號(hào)authuser}{訪問(wèn)的日期時(shí)間Date time}{檢索詞Query}{檢索頁(yè)URL resource}>
在信息檢索行為事件中,remotehost,authuser,Date time以及resource的值都可以從WEB日志中直接獲取。而搜索關(guān)鍵字Query的值,網(wǎng)頁(yè)瀏覽日志中并不直接提供,但當(dāng)客戶端用GET方法向服務(wù)器發(fā)出請(qǐng)求時(shí),即當(dāng)日志中method的值等于GET時(shí),搜索引擎會(huì)將查詢關(guān)鍵字以GET的形式存放在URL中,因此可從resource的值中截取用戶的搜索關(guān)鍵字。
3.1.2用戶的信息選擇行為事件定義
用戶的信息選擇行為包括對(duì)信息源的選擇、對(duì)所需信息的選擇以及信息選擇的順序等。用戶對(duì)信息選擇路徑偏好,在某種程度上可以反映用戶對(duì)網(wǎng)站的域名的熟悉程度以及對(duì)網(wǎng)站資源的喜愛(ài)程度。
信息檢索行為事件L:=<{用戶IP地址remotehost}{用戶帳號(hào)authuser}{訪問(wèn)的日期時(shí)間Date time}{檢索頁(yè)URL referrer}{鏈接訪問(wèn)的頁(yè)面URL resource}>
3.1.3 用戶信息利用行為事件定義
通過(guò)對(duì)用戶信息利用行為中的數(shù)字資源下載、書(shū)籍借閱信息進(jìn)行分析,評(píng)價(jià)移動(dòng)圖書(shū)館信息資源的利用程度,為圖書(shū)館的資源建設(shè)提供科學(xué)依據(jù)。
信息利用行為事件L1:=<{用戶IP地址remotehost}{用戶帳號(hào)authuser}{訪問(wèn)的日期時(shí)間Date time}{檢索頁(yè)URL referrer }{下載鏈接的URL resource}>
信息利用行為事件L2:=<{用戶IP地址remotehost}{用戶帳號(hào)authuser}{訪問(wèn)的日期時(shí)間Date time}{檢索頁(yè)URLresource }{借閱信息info}>
信息利用行為事件L1表達(dá)的是數(shù)字資源下載事件,信息利用行為事件L2表達(dá)的是館藏書(shū)籍借閱事件。在L1中檢索頁(yè)URL表示的是數(shù)字資源所在網(wǎng)頁(yè)的URL,在L2中檢索頁(yè)URL表示的是OPAC系統(tǒng)所在服務(wù)器的IP地址。在信息檢索行為事件序列中,remotehost,authuser,Date time以及referrer,resource的值都可以從WEB日志中直接獲取。而L2中的借閱信息info的值,網(wǎng)頁(yè)瀏覽日志中也不直接提供,但當(dāng)客戶端用GET方法向服務(wù)器發(fā)出請(qǐng)求時(shí),搜索引擎會(huì)將查詢關(guān)鍵字以GET的形式存放在URL中,因此可從resource的值中截取用戶的借閱信息info。
在對(duì)用戶信息行為事件定義后,就可以對(duì)所需分析的數(shù)據(jù)按照用戶信息行為事件定義的格式進(jìn)行數(shù)據(jù)預(yù)處理,為下一步的數(shù)據(jù)分析做準(zhǔn)備。對(duì)WEB日志的原始數(shù)據(jù)進(jìn)行預(yù)處理,主要進(jìn)行數(shù)據(jù)的清理和會(huì)話的劃分的操作。數(shù)據(jù)清理主要是刪除WEB日志中與用戶行為無(wú)關(guān)的數(shù)據(jù),以提高信息分析的效率。因?yàn)閃EB日志挖掘的目的是為了獲取用戶的行為模式,只有日志中HTML文件與用戶會(huì)話相關(guān),所以需要?jiǎng)h除不相關(guān)的圖片文件和腳本文件。不相關(guān)的數(shù)據(jù)類型主要有后綴為GIF,JPEG,JPG,GIF,CGI的文件。會(huì)話劃分是通過(guò)對(duì)用戶瀏覽網(wǎng)頁(yè)的時(shí)間設(shè)置一個(gè)最大閾值來(lái)實(shí)現(xiàn)的,一旦網(wǎng)頁(yè)的瀏覽時(shí)間超過(guò)了這個(gè)閾值,則認(rèn)為在該頁(yè)面終止了訪問(wèn)[5]。
在移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶對(duì)獲取信息的質(zhì)量有更高的要求,需要在海量的數(shù)據(jù)中獲取精準(zhǔn)的價(jià)值信息,從而得到更人性化、更精準(zhǔn)的信息與服務(wù)。在基于Hadoop的大數(shù)據(jù)應(yīng)用平臺(tái)的支持下,利用Mahout提供的關(guān)聯(lián)分析、分類、聚類、協(xié)同過(guò)濾等數(shù)據(jù)挖掘算法結(jié)合Hive和Pig對(duì)用戶的信息行為數(shù)據(jù)進(jìn)行分析,獲取用戶信息行為的特征,有利于推測(cè)用戶信息需求的發(fā)展趨勢(shì),提高用戶獲取有效信息的準(zhǔn)確度,為用戶提供優(yōu)質(zhì)的信息服務(wù)。
3.2.1聚類分析
聚類分析是源自“物以類聚”的思想,根據(jù)數(shù)據(jù)集中數(shù)據(jù)的某種特性,對(duì)數(shù)據(jù)集進(jìn)行分類,使得在同一類中的數(shù)據(jù)之間相似度較高,而在不同類中的數(shù)據(jù)之間差別較大。對(duì)用戶信息行為事件數(shù)據(jù)進(jìn)行聚類分析,將具有不同的信息行為的用戶聚類成不同用戶組,以便向同類用戶推薦感興趣的信息,為不同的組提供不同的信息服務(wù)。
3.2.2分類分析
分類分析通過(guò)給出識(shí)別一個(gè)類的公共屬性的描述構(gòu)建分類模型,利用分類模型將數(shù)據(jù)映射到事先定義的類中,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)集分類。分類分析為人們對(duì)海量信息聚合性不足提供了解決的思路。在大數(shù)據(jù)環(huán)境下對(duì)高校移動(dòng)圖書(shū)館用戶信息行為進(jìn)行分析時(shí),可在聚類分析的基礎(chǔ)上根據(jù)用戶所學(xué)的專業(yè)、年齡、性別、用戶對(duì)網(wǎng)頁(yè)的訪問(wèn)次數(shù)等指標(biāo)對(duì)用戶進(jìn)行分類,通過(guò)分類分析將有同樣信息需求的用戶分成一組,以便向同類用戶推薦感興趣的資源。
3.2.3關(guān)聯(lián)規(guī)則分析
關(guān)聯(lián)的規(guī)則依據(jù)事物之間的關(guān)聯(lián)性,從一件事的發(fā)生來(lái)推測(cè)發(fā)生另一件事,從而更好地了解事物的發(fā)展規(guī)律。在對(duì)用戶信息利用行為進(jìn)行研究時(shí),運(yùn)用關(guān)聯(lián)規(guī)則對(duì)用戶的數(shù)字資源下載以及書(shū)籍借閱信息分析,了解用戶借閱的圖書(shū)之間、下載的數(shù)字資源之間的關(guān)聯(lián)性,及時(shí)地發(fā)現(xiàn)這些數(shù)據(jù)中潛在的、有價(jià)值的關(guān)聯(lián)規(guī)則,以此為依據(jù)向用戶提供個(gè)性化的資源推薦服務(wù)。此外,利用關(guān)聯(lián)信息,高校圖書(shū)館可以加強(qiáng)資源整合。
3.2.4序列模式分析
某些用戶借閱圖書(shū)具有時(shí)序性,通過(guò)時(shí)間序列分析找到這種規(guī)則,在此基礎(chǔ)上預(yù)測(cè)用戶信息需求的變化趨勢(shì),從而引導(dǎo)用戶進(jìn)一步的借閱行為并適時(shí)向他們進(jìn)行圖書(shū)推薦。挖掘、分析用戶借閱圖書(shū)的時(shí)間特性,還可以有利于保證圖書(shū)館工作科學(xué)、有序地進(jìn)行。
3.2.5協(xié)同過(guò)濾
協(xié)同過(guò)濾是利用興趣相似,擁有共同經(jīng)驗(yàn)群體的愛(ài)好向用戶推薦感興趣的信息。一般采用最近鄰技術(shù),計(jì)算用戶之間的相似度,以便向同類用戶推薦感興趣的資源,提供更精準(zhǔn)的信息推送服務(wù)。在基于大數(shù)據(jù)的用戶行為分析中,由于需要處理的是海量數(shù)據(jù),因此可以首先通過(guò)聚類、分類算法找到與用戶興趣相似的用戶群,然后在用戶興趣相似的用戶群中,尋找興趣相似的“最近鄰居”,根據(jù)類中其他用戶的評(píng)價(jià)預(yù)測(cè)目標(biāo)用戶對(duì)資源的喜好程度,最后用協(xié)同過(guò)濾算法的實(shí)現(xiàn)用于基于用戶相似度的推薦[6-8]。
3.2.6路徑分析
除了用戶自身的信息需求,圖書(shū)館信息組織、服務(wù)質(zhì)量、移動(dòng)互聯(lián)技術(shù)等也是影響用戶信息行為的重要因素。目前,許多高校圖書(shū)館提供的移動(dòng)信息服務(wù)多處于測(cè)試試用階段,存在連接狀態(tài)不穩(wěn)定,瀏覽速度普遍不快,一些移動(dòng)圖書(shū)館的界面設(shè)計(jì)沒(méi)有考慮用戶的操作方式和使用習(xí)慣,操作復(fù)雜,有的功能甚至無(wú)法正常使用等問(wèn)題[9]。這些問(wèn)題給用戶使用帶來(lái)了障礙,產(chǎn)生了不好的體驗(yàn)效果,阻礙了移動(dòng)圖書(shū)館的推廣和普及。
路徑分析可以用來(lái)確定網(wǎng)站上的頻繁訪問(wèn)路徑。通過(guò)統(tǒng)計(jì)方法對(duì)用戶訪問(wèn)路徑進(jìn)行分析,發(fā)現(xiàn)高校移動(dòng)圖書(shū)館的用戶信息選擇路徑的偏好,探求用戶訪問(wèn)資源的來(lái)源以及用戶喜愛(ài)的信息資源集合,有助于發(fā)現(xiàn)資源組織問(wèn)題,從而對(duì)高校移動(dòng)圖書(shū)館中導(dǎo)航、鏈接、分類系統(tǒng)等功能的設(shè)置進(jìn)行調(diào)整和優(yōu)化,提高資源使用效率。
移動(dòng)互聯(lián)網(wǎng)時(shí)代,用戶的信息行為受新技術(shù)的影響而逐步發(fā)生變化。高校移動(dòng)圖書(shū)館信息服務(wù)中用戶信息行為有其新的表現(xiàn)形式及特征,各行為之間的相互關(guān)系亦發(fā)生著新的變化。高校圖書(shū)館移動(dòng)信息服務(wù)應(yīng)該以滿足用戶需求為目標(biāo),在保證服務(wù)移動(dòng)性、及時(shí)性的基礎(chǔ)上,注重提供個(gè)性化服務(wù),而不是僅僅在移動(dòng)設(shè)備上實(shí)現(xiàn)圖書(shū)館資源的查詢。在大數(shù)據(jù)技術(shù)的支持下,研究用戶的信息需求、信息行為,發(fā)現(xiàn)用戶的信息行為規(guī)律,在此基礎(chǔ)上對(duì)高校移動(dòng)圖書(shū)館信息服務(wù)的模式進(jìn)行優(yōu)化、完善,對(duì)高校圖書(shū)館實(shí)現(xiàn)以讀者需求為中心的高質(zhì)量服務(wù)具有重要意義。
東華理工大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2018年2期