孫龍杰 俞凱君
摘 ?要: 大數(shù)據(jù)人工智能時代實時產(chǎn)生的大量圖書館用戶行為數(shù)據(jù)需要更高效更科學(xué)的分析技術(shù)幫助圖書館提升個性化服務(wù)水平和質(zhì)量,同時日益普及的校園物聯(lián)網(wǎng)系統(tǒng)需要更加積極的網(wǎng)絡(luò)安全防范措施,主動檢測出網(wǎng)絡(luò)不可信的異常行為并反饋警告用戶,提升安全意識。針對上述需求,本文在國內(nèi)外權(quán)威數(shù)據(jù)庫輸入用戶行為分析等關(guān)鍵詞查找相關(guān)文獻(xiàn),根據(jù)文獻(xiàn)分析法綜合比較剔除篩選出55篇核心技術(shù)文獻(xiàn)進(jìn)行細(xì)讀研究,梳理了技術(shù)發(fā)展歷程,明確了用戶行為個性分析和可信性分析的核心技術(shù)和方法并做了重點拓展性研究,根據(jù)文獻(xiàn)研究成果結(jié)合圖書館當(dāng)前實際發(fā)展的需要,探究出一套基于傳統(tǒng)數(shù)據(jù)挖掘和分類學(xué)習(xí)的用戶行為大數(shù)據(jù)分析模型,該模型將用戶個性分析和異常行為的檢測高度有機結(jié)合能有效解決上述兩大難題。
關(guān)鍵詞: 數(shù)據(jù)挖掘;監(jiān)督學(xué)習(xí);用戶畫像;支持向量機
中圖分類號: TP393.02 ? ?文獻(xiàn)標(biāo)識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.06.025
本文著錄格式:孫龍杰,俞凱君. 基于物聯(lián)網(wǎng)的圖書館用戶行為大數(shù)據(jù)分析模型探究[J]. 軟件,2019,40(6):113118
【Abstract】: A large number of library user behavior data generated in real time in the era of big data artificial intelligence requires more efficient and scientific analysis technology to help libraries improve the level and quality of personalized services, while the increasingly popular campus Internet of Things system needs to be more Active network security precautions, proactively detect unreliable abnormal behavior of the network and feedback users to improve security awareness. In view of the above requirements, this paper searches for relevant literatures by inputting user behavior analysis and other keywords in authoritative databases at home and abroad. According to the literature analysis method, 55 core technical documents are selected and selected for detailed study, and the technical development process is sorted out. The core technologies and methods of user behavioral personality analysis and credibility analysis are clarified and key extended research is carried out.Based on the research results of the literature and the needs of the current real development of the library, a set of traditional data mining is explored. And the user behavior big data analysis model of classification learning, which combines the user personality analysis and the detection of abnormal behaviors to effectively solve the above two problems.
【Key words】: Data mining; Supervised learning; User portrait; SVM
0 ?引言
大數(shù)據(jù)物聯(lián)網(wǎng)時代下,信息交互手段更加豐富便捷、個性化趨勢日益明顯,筆記本、智能手機、IPAD、Kindle等移動終端設(shè)備早已成為人們閱讀的主要工具,用戶對知識信息的獲取、認(rèn)知、利用、交流的主要方式逐步轉(zhuǎn)移到各大互聯(lián)網(wǎng)平臺上,隨著人工智能技術(shù)的不斷發(fā)展,圖書館各種智慧交互設(shè)備的不斷涌現(xiàn),每天圖書館用戶在使用服務(wù)產(chǎn)品時需進(jìn)行頻繁的操作和數(shù)據(jù)傳送,產(chǎn)生大量的用戶行為日志數(shù)據(jù)不斷傳送到服務(wù)器存儲后臺中形成海量數(shù)據(jù)。這樣一方面造成現(xiàn)有網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)難以及時分析處理這些更新迅速內(nèi)容豐富的數(shù)據(jù)導(dǎo)致對用戶行為分析的滯后缺失,難以及時推出具有個性豐富的服務(wù)產(chǎn)品;另一方面實時頻繁的用戶登錄、瀏覽、下載、發(fā)布等操作行為給用戶自身賬戶信息等帶來安全隱患,也對圖書館數(shù)字資源網(wǎng)絡(luò)安全提出更高要求,需要及時檢測出網(wǎng)絡(luò)異常有害行為,避免由此帶來的損失。本文通過檢索知網(wǎng)、萬方、維普、IEEE Springer Link等國內(nèi)外權(quán)威數(shù)據(jù)庫,輸入用戶行為關(guān)鍵技術(shù)等關(guān)鍵詞,搜索出近百篇文獻(xiàn),研究細(xì)讀后運用文獻(xiàn)分析法綜合比對主題相似、邏輯關(guān)聯(lián)的文獻(xiàn),從中剔除陳舊、重復(fù)篩選出55篇核心技術(shù)文獻(xiàn)再仔細(xì)歸類、整理,梳理了用戶行為數(shù)據(jù)分析技術(shù)發(fā)展歷程,明確了用戶行為個性分析和可信性分析的核心技術(shù),對照圖書館用戶行為特征,最終選取7種核心數(shù)據(jù)分析技術(shù)作為構(gòu)建本文用戶行為大數(shù)據(jù)分析模型的骨架。文獻(xiàn)具體研究情況見表1。
1 ?數(shù)據(jù)分析技術(shù)演變
1.1 ?數(shù)理統(tǒng)計分析
國內(nèi)在上世紀(jì)90年代初就已有通過過借閱記錄、問卷調(diào)查等方式進(jìn)行數(shù)理統(tǒng)計分析用戶行為的論文[1]發(fā)表,隨著21世紀(jì)初互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,基于數(shù)據(jù)統(tǒng)計原理開發(fā)出的網(wǎng)站統(tǒng)計和定制軟件業(yè)逐步開始商業(yè)化使用[2-4],如eXTReMeTracking提供URL實時跟蹤服務(wù)及用戶網(wǎng)站瀏覽各項統(tǒng)計信息,WebSiteTrafficreport以email的形式發(fā)送用戶訪問流量統(tǒng)計結(jié)果,MiniTab軟件統(tǒng)計分析用戶使用習(xí)慣調(diào)查問卷等,雖然預(yù)設(shè)固化程序僅提供部分統(tǒng)計學(xué)參量數(shù)據(jù),對預(yù)測用戶行為的范圍和準(zhǔn)確度有限,但對于進(jìn)入web2.0時代的數(shù)字圖書館來說具有重要意義,深度的數(shù)據(jù)挖掘分析研究開始逐步延伸到圖書館各項業(yè)務(wù)中,如李盼池[5]根據(jù)聚類算法分析用戶借閱信息,魏育輝[6]等人使用關(guān)聯(lián)規(guī)則挖掘分析圖書館流通數(shù)據(jù),溫嶸生[7]等人對OPAC數(shù)據(jù)利用SQL、數(shù)據(jù)倉庫技術(shù)進(jìn)行關(guān)聯(lián)挖掘等。
1.2 ?數(shù)據(jù)挖掘
近年來隨著物聯(lián)網(wǎng)的發(fā)展,圖書館相關(guān)業(yè)務(wù)數(shù)據(jù)也呈現(xiàn)逐年翻倍遞增的趨勢,用戶行為信息數(shù)據(jù)程現(xiàn)多樣性和復(fù)雜性特征,也給數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用研究提供了絕佳機會。對于用戶日常瀏覽圖書館網(wǎng)頁、數(shù)字資源查詢、下載文獻(xiàn)資料、流通借閱等行為均有web日志記錄數(shù)據(jù),使用python等工具高效獲得可靠豐富詳實的用戶行為原始數(shù)據(jù);通過聚類、關(guān)聯(lián)、決策樹、時間序列等主流數(shù)據(jù)挖掘分析方法,能較為準(zhǔn)確地把握圖書館用戶基本使用概況,如趙衛(wèi)軍[8]對web和文本數(shù)據(jù)挖掘?qū)Ω咝?shù)字圖書館應(yīng)用領(lǐng)域的影響和價值,張金鐲[9]探討了決策樹算法在用戶活躍度的應(yīng)用,熊擁軍[10]等利用關(guān)聯(lián)挖掘技術(shù)構(gòu)建個性化推送服務(wù)模型,張煒[11]等通過MAR-FP算法挖掘OPAC檢索中用戶行為數(shù)據(jù)探究用戶規(guī)律性知識需求,王偉[12]則基web和書目挖掘的基礎(chǔ)探討了用戶行為分析和偏好模型所依賴的主要數(shù)據(jù)挖掘模式等等。下面就以上主要數(shù)據(jù)挖掘的技術(shù)原理和思路做一下重點介紹。
聚類分析[13]就是把一個集合中各元素間按照某種相似度分組后,形成各自聚集的類,類的內(nèi)部元素之間的差異距離較?。丛刂g更加相似),分析各類的統(tǒng)計特性,在數(shù)據(jù)挖掘中找到感興趣的分組結(jié)果。聚類更為嚴(yán)格的數(shù)學(xué)描述如下:被研究的樣本集為K,類M定義為K的一個非空子集,即M K,且M K,滿足以下2個條件的不同類 (i=1,2,3,4,…)就是聚類:
由條件一可知,每個樣本必定屬于聚類中某一個類,條件二可知每個樣本屬于不超過1個類。聚類是數(shù)據(jù)挖掘中非常重要的組成部分,也是人工智能、模式識別領(lǐng)域中機器學(xué)習(xí)[14]的重要技術(shù),屬于無監(jiān)督學(xué)習(xí)的一種。聚類本身并不是一個特定的算法,而是一個普遍性的任務(wù)。有許多不同聚類算法可以用來完成這個任務(wù),主要的聚類算法有6大類分別是基于分割的算法、基于層次的、基于密度的、基于網(wǎng)格的、基于模型的[15]。但這些算法互相之間關(guān)于什么樣的數(shù)據(jù)應(yīng)當(dāng)組成一個類,以及如何找到這些元素這兩個問題有著巨大的差異。國內(nèi)外專家學(xué)者經(jīng)過長期不懈的努力不斷改善基于層次、密度等主要的聚類算法的魯棒性:Karypis[16]等人針對基于層次的聚類算法擴展性差的問題在總結(jié)以往的K-means, PAM, CLARANS, DBSCAN, CURE, and ROCK等算法的不足綜合考慮了互連性、近似度及內(nèi)部特征提出動態(tài)Chameleon算法提高了聚類速度,改善了聚類質(zhì)量;裴繼法等人[17]針對基于密度的聚類劃分提出利用樣本分布密度函數(shù)作為FCM聚類算法初始隸屬度矩陣,從而改善了FCM聚類算法的魯棒性、收斂時間和分類精度。
關(guān)聯(lián)分析又稱為關(guān)聯(lián)挖掘,用于發(fā)現(xiàn)大量數(shù)據(jù)項集中不同項之間的相關(guān)或關(guān)聯(lián)聯(lián)系的過程,這些聯(lián)系可以有兩種形式,一是頻繁項集,指的出現(xiàn)頻率較高的物品或者項目的集合,另一種是關(guān)聯(lián)規(guī)則,指的是兩種物品或者項目之間存在著很強烈的關(guān)系,關(guān)聯(lián)分析的目標(biāo)是找出強關(guān)聯(lián)規(guī)則,支持度和置信度是判定一個關(guān)聯(lián)分析方法是否成功的重要依據(jù),現(xiàn)有的基于關(guān)聯(lián)規(guī)則的挖掘算法絕大部分都需要使用支持度和置信度來過濾掉關(guān)聯(lián)效果或者說可靠度低的方法和模式,主要有6種關(guān)聯(lián)算法:Apriori算法[18]及其優(yōu)化算法、多維關(guān)聯(lián)挖掘、多層次關(guān)聯(lián)挖掘、基于約束的關(guān)聯(lián)挖掘、基于統(tǒng)計的關(guān)聯(lián)、非結(jié)構(gòu)化復(fù)雜類型關(guān)聯(lián)[19]。
傳統(tǒng)的關(guān)聯(lián)挖掘的算法也如聚類一樣自1993年Agrawal 等人針對購物籃分析問題而提出Apriori算法后一直受到國內(nèi)外數(shù)據(jù)挖掘研究者的關(guān)注和改進(jìn),像賀超波[20]等人利用粗糙集的特征屬性約簡算法進(jìn)行屬性約簡,然后在構(gòu)建約簡決策表的基礎(chǔ)上應(yīng)用改進(jìn)的Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘;而JHan等[21]人提出的FP-growth的方法也是一種典型的優(yōu)化算法:針對所有頻繁集進(jìn)行壓縮形成頻繁模式樹(FP-tree)再將其分化為一些與長度為為1的頻繁集相關(guān)的條件庫進(jìn)行挖掘,同時保留關(guān)聯(lián)信息,此方法在長期的實驗和應(yīng)用中,體現(xiàn)了對長度不同的規(guī)則都能運行良好、效率高的特點。上述傳統(tǒng)的算法多為同一屬性之間的單維關(guān)聯(lián)關(guān)系,掃描挖掘數(shù)據(jù)需要多遍,且產(chǎn)生和驗證候選頻繁項集的操作實現(xiàn)復(fù)雜難以實現(xiàn)對多維關(guān)聯(lián)規(guī)則的挖掘,彭銀香等[22]人根據(jù)免疫記憶特性提出基于免疫算法的多維關(guān)聯(lián)規(guī)則挖掘算法把挖掘的關(guān)聯(lián)規(guī)則存入記憶庫,加快了關(guān)聯(lián)規(guī)則的挖掘速度能快速、有效地進(jìn)行全局優(yōu)化搜索;吳少瑩等[23]對基于數(shù)據(jù)倉庫和 OLAP的多維數(shù)據(jù)分析法和多維關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行了相關(guān)研究,實現(xiàn)在一定范圍內(nèi)的多維關(guān)聯(lián)規(guī)則研究、滿足人們一定范圍內(nèi)的對多維屬性的要求。
時間序列[24]是指將某一統(tǒng)計指標(biāo)的數(shù)據(jù)值按其發(fā)生的時間先后順序排列而成的序列,其典型的特點是數(shù)據(jù)規(guī)模大、數(shù)據(jù)維度高、含有噪音。時間序列分析技術(shù)己經(jīng)廣泛應(yīng)用于各行各業(yè)的發(fā)展中,技術(shù)十分成熟。時間序列的分析技術(shù)目前按階段發(fā)展分為兩類,第一類早期基于數(shù)理統(tǒng)計的時間序列分析方法,該分析方法側(cè)重于統(tǒng)計分析離散指標(biāo)的隨機過程。第二類為本文采用的基于數(shù)據(jù)挖掘的時間序列分析技術(shù),是數(shù)據(jù)挖掘研究的一個重要領(lǐng)域,主要研究數(shù)據(jù)類型是時間序列的數(shù)據(jù),如金融分析、環(huán)境分析、交通分析、計算機仿真等[25-28],研究的熱點主要集中在時間序列的近似表示、相似性度量、分類、聚類、模式挖掘、異常檢測等[29-34]。
1.3 ?監(jiān)督學(xué)習(xí)分析
以上大數(shù)據(jù)時代下的數(shù)據(jù)挖掘分析技術(shù)給予了圖書館各項業(yè)務(wù)有力的支撐,實現(xiàn)了數(shù)字圖書館的目標(biāo)和要求,但隨著人臉識別、語音識別等智能化產(chǎn)品的不斷涌現(xiàn),傳統(tǒng)數(shù)據(jù)挖掘技術(shù)需要增添新的活力,才能完成圖書館智慧服務(wù)的自我革命。
2017年《國務(wù)院新一代人工智能發(fā)展規(guī)劃》[35]發(fā)布,標(biāo)志著我國進(jìn)入第二代人工智能發(fā)展時期,這一階段由個體智能到群體智能、由可解釋的機器學(xué)習(xí)到廣泛的機器學(xué)習(xí)、由智能機器到人機協(xié)同,因此借助該機遇智慧圖書館的各項目標(biāo)也將逐步實現(xiàn);在人工智能時代下,圖書館借助于人臉識別、語音識別、機器翻譯等交互設(shè)備將主動獲取用戶操作行為實時產(chǎn)生的瀏覽數(shù)據(jù)、借閱數(shù)據(jù)、位置數(shù)據(jù)等信息并傳輸至大數(shù)據(jù)處理中心,而人工智能的機器學(xué)習(xí)算法會對這些實時海量數(shù)據(jù)的處理和分析更加全面和豐富,并通過智能反饋機制完成個性化服務(wù),形成以用戶行為智慧分析為導(dǎo)向的圖書館服務(wù)新模式,更能精準(zhǔn)地把握用戶行為的規(guī)律與特點,為各項業(yè)務(wù)提供準(zhǔn)確依據(jù)。機器學(xué)習(xí)算法是人工智能應(yīng)用的核心領(lǐng)域,機器學(xué)習(xí)主要分為三類:監(jiān)督學(xué)習(xí),非監(jiān)督學(xué)習(xí),半監(jiān)督學(xué)習(xí)。人工智能發(fā)展階段對圖書館用戶行為大數(shù)據(jù)的分析需要增添監(jiān)督學(xué)習(xí)[36]分類預(yù)測實現(xiàn)達(dá)到基于用戶行為分析向用戶推薦個性化服務(wù)的目的,主要的分類算法有樸素貝葉斯、支持向量機、集成學(xué)習(xí)等,下面我們將逐一介紹。
在數(shù)據(jù)挖掘和機器學(xué)習(xí)領(lǐng)域中,樸素貝葉斯(Bayes)分析是一種運用先驗的概率進(jìn)行分類和預(yù)測的算法[37]。它基于貝葉斯定理,計算一個未知類別的數(shù)據(jù)樣本屬于各類別的可能性大小,選擇其中可能性最大的作為最終類別。樸素貝葉斯分類要求特征屬性必須有條件獨立或基本獨立,此分類工作首先是在訓(xùn)練集的數(shù)據(jù)樣本中計算每個數(shù)據(jù)特征對應(yīng)的各個類別的條件概率和個類別出現(xiàn)的頻率,然后對測試集的數(shù)據(jù)特征采用貝葉斯定理計算其各類別出現(xiàn)的可能性;若不獨立則需由一個有向無環(huán)圖(DAG)和一個條件概率構(gòu)成的貝葉斯網(wǎng)絡(luò)進(jìn)行訓(xùn)練來解決。樸素貝葉斯分析主要步驟可分為:1. 劃分?jǐn)?shù)據(jù)特征屬性及屬性類別;2. 計算訓(xùn)練數(shù)據(jù)樣本中各類別特征屬性的條件概率估計;3. 若該特征獨立,則計算測試數(shù)據(jù)在該類別下的條件概率,取得最大值作為測試數(shù)據(jù)的類別。
支持向量機(SVM,Support Vector Machine)[38]是根據(jù)統(tǒng)計學(xué)VC理論和結(jié)構(gòu)風(fēng)險最小化準(zhǔn)則基礎(chǔ)上提出的一種新的學(xué)習(xí)方法。SVM 方法是通過一個非線性映射K,把訓(xùn)練數(shù)據(jù)樣本低維空間映射到一個高維特征空間中(Hilbert空間),使得原本的線性不可分問題轉(zhuǎn)化為在高維空間中的線性可分問題。但一般升維運算龐大復(fù)雜,易造成“維數(shù)災(zāi)難”,所以SVM中為解決上述問題特引入核函數(shù)法。簡單來說對于只用到內(nèi)積運算的SVM來說,設(shè)x,z∈X,X屬于低維空間,非線性函數(shù) 實現(xiàn)輸入低維空間X到高維空間F的映射。根據(jù)核函數(shù)技術(shù)[39]有:
通過上述變換就可以找到一個線性超平面[40]用來進(jìn)行分類分析任務(wù),所以核函數(shù)是SVM最為重要的部分。這種方法的引入是為了處理非線性、高維數(shù)、局部極小點等各種問題,提高了模型的泛化能力。較好地解決了非線性、高維數(shù)、局部極小點等問題。在機器監(jiān)督學(xué)習(xí)模型中,支持向量機與神經(jīng)網(wǎng)絡(luò)[41]都是非常實用的,可以分析數(shù)據(jù)、識別模式,進(jìn)行高效地分類和回歸分析。
面對復(fù)雜的用戶個性化行為分析,往往一種分類方法并不能滿足需求需要融合各種分類器的學(xué)習(xí)能力形成優(yōu)勢互補,減少誤差的更強分類器,因此引入了集成學(xué)習(xí)在個性化推薦應(yīng)用中的相關(guān)理論[42]。集成學(xué)習(xí)的基本思路就是將多個學(xué)習(xí)算法連續(xù)調(diào)用,獲得更強的學(xué)習(xí)能力,整合多個學(xué)習(xí)機制進(jìn)而整合這些學(xué)習(xí)能力使其達(dá)到處理同一個問題的能力。但到目前為止集成學(xué)習(xí)還沒有一致的分類,多數(shù)學(xué)者通過各自研究的成果傾向于歸為4大類:
1. Bagging:作為第一個最簡單有效的集成學(xué)習(xí)法,是模型平均的一種特殊情形,應(yīng)用范圍廣,幾乎涵蓋了所有分類和回歸問題,從早期的分類擴展至決策樹模型,是目前對不穩(wěn)定的非線性模型唯一有用的方法。
2. Boosting:作為目前應(yīng)用最為廣泛的集成學(xué)習(xí)法,通過在同樣的訓(xùn)練數(shù)據(jù)集上改變權(quán)值分布來反復(fù)迭代形成最終的模型,其中目前最為流行的AdaBoost法在此基礎(chǔ)上還可以任意組合多個基分類器,本文探究的分類預(yù)測中即使用該種方法。
3. Stacked Generalization:是一種有思想的方法,不同種類的基學(xué)習(xí)器非線性組合起來。雖然目前為止還未被廣泛接受但隨著研究的深入,會不斷挖掘出潛力。
4. Random Subspace Method:訓(xùn)練數(shù)據(jù)集采用非傳統(tǒng)的隨機選擇的輸入子空間,如訓(xùn)練數(shù)據(jù)集的特征空間,輸出采用多數(shù)投票的方式進(jìn)行組合。
協(xié)同過濾算法[43]的主要功能為預(yù)測和推薦。而基于用戶行為的協(xié)同過濾個性化推薦算法主要采用了三大步驟近鄰查詢、匹配相似、分類推薦,思路如下:首先對以上分類器得出的用戶行為的大量歷史特征數(shù)據(jù)進(jìn)行分析,從而勾勒出各個用戶行為的使用畫像,針對每個用戶獨特的喜好,推送用戶喜好相似或一致的產(chǎn)品服務(wù)信息。具體實現(xiàn):
1. 收集盡可能多用戶的基本背景信息、瀏覽習(xí)慣信息等
2. 匹配相似習(xí)慣或背景信息的用戶、尋找相似或一致的產(chǎn)品服務(wù),劃分不同類別;
3. 針對不同類別用戶,推送用戶喜好的產(chǎn)品服務(wù)。
2 ?用戶行為大數(shù)據(jù)分析模型
上文對大數(shù)據(jù)時代下圖書館用戶實時產(chǎn)生的海量數(shù)據(jù)提供了多種實用高效的分析技術(shù),可以分析用戶行為個性化。
2.1 ?用戶行為個性化分析
圖書館用戶行為個性化分析是基于圖書館內(nèi)人機交互日志記錄、網(wǎng)頁瀏覽記錄、數(shù)字資源下載量、平臺互動信息等,通過對以上行為數(shù)據(jù)的采集并進(jìn)行監(jiān)督學(xué)習(xí)分析預(yù)測用戶畫像,具體為性別信息可根據(jù)用戶對圖書館各模塊的響應(yīng)時間的不同構(gòu)造兩個訓(xùn)練數(shù)據(jù)樣本——粗粒度訓(xùn)練數(shù)據(jù)和細(xì)粒度訓(xùn)練數(shù)據(jù)[51]進(jìn)行交叉驗證訓(xùn)練二分類SVM分類器獲得;以用戶瀏覽興趣、閱讀興趣等細(xì)粒度為數(shù)據(jù)特征的訓(xùn)練數(shù)據(jù),將相鄰矩陣R[52]與用戶關(guān)聯(lián)并統(tǒng)計用戶分布概率可作為貝葉斯分類器的先驗概率,計算出用戶和類別的相似度來選擇用戶鄰居和類別鄰居,就可預(yù)測以價格為導(dǎo)向的終端級別;通過對用戶發(fā)布在貼吧、留言板、聊天平臺上的圖像特征和文字特征提取構(gòu)建訓(xùn)練數(shù)據(jù),采用支持向量機和梯度提升[53]的集成學(xué)習(xí)分類器就可以分析預(yù)測用戶發(fā)布習(xí)慣;通過每天用戶習(xí)慣發(fā)布信息的時間累積發(fā)布函數(shù)F[54],按照時間序列數(shù)據(jù)分析設(shè)定不同閾值,劃分活躍等級;以上用戶性別、終端級別、平臺發(fā)布習(xí)慣、興趣愛好、活躍度、學(xué)科背景等圖書館用戶畫像[55]的基本元素逐漸清晰明了,最后協(xié)同過濾構(gòu)成完整用戶行為畫像,推送用戶個性化服務(wù)產(chǎn)品,如推薦用戶喜愛的圖書、講座、活動等信息,完成用戶行為大數(shù)據(jù)分析。
2.2 ?用戶行為可信性數(shù)據(jù)分析
智慧圖書館本身無時無刻不處于互聯(lián)網(wǎng)中,不可避免地會遭受各種網(wǎng)絡(luò)安全問題,交互設(shè)備各種應(yīng)用操作頻繁、個人賬戶設(shè)置的疏忽、軟件更新的滯后,極易造成用戶信息的丟失和篡改[44],導(dǎo)致賬戶被他人盜用并快速傳播各種網(wǎng)絡(luò)病毒、反動、暴力、黃色等異常行為;如何防微杜漸及時檢測發(fā)現(xiàn)識別不可信的用戶行為成為本文研究的另一重點。
目前網(wǎng)絡(luò)安全廠商用于終端的反病毒軟件、防火墻、加密軟件的技術(shù)基本都是基于已有的病毒簽名數(shù)據(jù)庫和掃描引擎進(jìn)行數(shù)據(jù)對比查驗安全[45-46],這里我們將這些已有的病毒特征數(shù)據(jù)庫和用戶異常行為數(shù)據(jù)特征統(tǒng)一存放一起稱為先驗知識庫,雖然這樣可以過濾大部分已知異常行為但對于實時產(chǎn)生的各種異常行為就無能為力,現(xiàn)有知識庫破解病毒更新的速度遠(yuǎn)不及最新的變種傳播方式;針對上述問題國內(nèi)外學(xué)者進(jìn)行了大量新技術(shù)的嘗試并取得了不俗的進(jìn)展如Rieck等人[47]提出使用機器學(xué)習(xí)分類算法對惡意行為進(jìn)行自動分析不僅能檢測已有的特征類別還可以形成新的類別增添先驗知識庫中,Xin等人[48]根據(jù)聚類分析等傳統(tǒng)數(shù)據(jù)挖掘方法,對病毒樣本進(jìn)行特征提取獲取其特征,對大量的病毒樣本實現(xiàn)了有效分類不斷豐富先驗知識庫。Burguera等人[49]提出基于安卓平臺的云檢測方式和Rajab等 ?人[50]提出瀏覽器內(nèi)置病毒檢測系統(tǒng)的分析網(wǎng)絡(luò)下載文件的方法,此方法意義在于大數(shù)據(jù)時代下的圖書館大數(shù)據(jù)分析中心可以實時監(jiān)控圖書館用戶操作行為,應(yīng)將將病毒防范檢測工作納入日常管理中并及時反饋檢測結(jié)。這樣一方面可以有效克服由于用戶終端計算和存儲資源有限而導(dǎo)致的檢測滯后;另一方面充分發(fā)揮傳統(tǒng)數(shù)據(jù)挖掘和監(jiān)督學(xué)習(xí)分析技術(shù)的功效,不僅可以推送用戶個性產(chǎn)品服務(wù)信息,也能及時發(fā)出網(wǎng)絡(luò)安全警告,真正體現(xiàn)出智慧圖書館的服務(wù)特色,提供良好的用戶體驗。下面將重點介紹圖書館用戶行為大數(shù)據(jù)分析模型。
首先對實時產(chǎn)生的用戶行為所有數(shù)據(jù)包在大數(shù)據(jù)中心網(wǎng)關(guān)處進(jìn)行匯集,通過初步的數(shù)據(jù)預(yù)處理等步驟后開始進(jìn)行由先驗知識庫為依據(jù)的數(shù)據(jù)檢測,若判定正常則繼續(xù)下一步訓(xùn)練分類學(xué)習(xí)技術(shù)的數(shù)據(jù)集;若不正常則對其行為日志進(jìn)行數(shù)據(jù)挖掘,這里主要以聚類分析為主,配合多維關(guān)聯(lián)規(guī)則和時間序列分析加速進(jìn)行大規(guī)模數(shù)據(jù)的深度全局優(yōu)化搜索,若確認(rèn)為新異常行為則提取特征后添加先驗庫知識中并對該用戶發(fā)出警告,若無法確認(rèn)再進(jìn)行二次檢測;同理在進(jìn)行分類預(yù)測用戶個性分析時也可以發(fā)揮機器學(xué)習(xí)對病毒變種的檢測能力,將新的特征類別添加至先驗知識庫中,剩下的正常行為通過一系列分分析預(yù)測形成用戶個性信息,經(jīng)過協(xié)同過濾后勾勒出用戶畫像,最后將個性推薦信息發(fā)送至用戶終端完成整個用戶行為分析過程。具體流程圖如下:
3 ?結(jié)語
目前圖書館正在大數(shù)據(jù)人工智能技術(shù)發(fā)展的牽引下逐步轉(zhuǎn)型為智慧圖書館,借助新型的智能交互設(shè)備和分析技術(shù)讓許多夢寐以求的圖書館服務(wù)理念得以真正實現(xiàn),本文從用戶行為分析的角度出發(fā),研究相關(guān)文獻(xiàn)技術(shù)得出兼具網(wǎng)絡(luò)安全檢測和用戶個性行為分析雙重功效的大數(shù)據(jù)分析模型,除了讓圖書館能更加及時準(zhǔn)確地向用戶推送個性化服務(wù)外,還時刻維護(hù)著用戶的安全隱私和圖書館網(wǎng)絡(luò)安全,將有害行為產(chǎn)生的影響降至最低。
參考文獻(xiàn)
[1] Leon A—Jakobovits, Diane Nahl—Jakobovits, 陸冰. 利用圖書館: 用戶行為分析[J].豫西農(nóng)專學(xué)報, 1990(3): 131- 134.
[2] JW Hsieh, LW Huang, YS Huang. Multiple-Person Tracking System for Content Analysis [J]. Springer Berlin Heidelberg, 2001, 2195(4): 897-902.
[3] P Alpar, M Porembski, S Pickerodt. Measuring the Efficiency of Web Site Traffic Generation [J]. International Journal of Electronic Commerce, 2001, 6(1): 53-74.
[4] D Farris. Design of Experiments With MiNITAB[J]. Quality Progress, 2005, 38(5): 205-205.
[5] 李盼池. 基于核聚類算法的高校圖書借閱信息分析方法[J]. 現(xiàn)代情報, 2003, 23(9): 186-188.
[6] 魏育群, 潘潔. 圖書流動數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J]. 現(xiàn)化情報, 2005, 25(11): 108-110.
[7] 溫嶸生, 邱春蘭 . 基于 OPAC 信息庫圖書借閱數(shù)據(jù)關(guān)聯(lián)挖掘分析與應(yīng)用[J]. 情報雜志, 2007 , (7): 61-63.
[8] 趙衛(wèi)軍. 數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應(yīng)用[J]. 圖書館論壇, 2007, 27(4): 126-128.
[9] 張金鐲. 基于數(shù)據(jù)挖掘的圖書館活躍讀者研究[J]. 現(xiàn)代圖書情報技術(shù), 2008, 167(7): 96-99.
[10] 熊擁軍, 陳春穎.基于關(guān)聯(lián)挖掘技術(shù)的數(shù)字圖書館個性化推送服務(wù)[J]. 圖書情報工作, 2010, 54(1): 125-129.
[11] 張煒, 洪霞. 基于 OPAC讀者行為的知識發(fā)現(xiàn)研究[J]. 圖書館論壇, 2011, 31(1): 17-19, 49.
[12] 王偉. 基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[J]. 情報科學(xué), 2012(3): 391-394.
[13] AK Jain, MN Murty, PJ Flynn. Data clustering: a review[J]. Acm Computing Surveys, 1999 , 31(3): 264-323.
[14] 李斌, 李蓉, 周蕾. 分布式 K-means 聚類算法研究與實現(xiàn)[J]. 軟件, 2018, 39(01): 35-38.
[15] 蒲杰方, 盧熒玲. 基于聚類算法和神經(jīng)網(wǎng)絡(luò)的客戶分類模型構(gòu)建[J]. 軟件, 2018, 39(4): 130-136.
[16] G Karypis, EH Han, V Kumar. CHAMELEON A hierarchical clustering algorithm using dynamic modeling[J]. Computer , 2008, 32 (8): 68-75.
[17] 裴繼法, 謝維信. 聚類的密度函數(shù)方法[J]. 西安電子科技大學(xué)學(xué)報, 1997 (4): 463-467.
[18] R. Agrawal, T. Imielinski, A. Swami. Mining Association ?Rules Between Sets of Items in Large Databases. Proc. 1993 ACM SIGMOD ?IntConf. Management of Data. Washington, D. C, 1993: 207-216.
[19] 李強. 數(shù)據(jù)挖掘中關(guān)聯(lián)分析算法研究[D]. 哈爾濱: 哈爾濱工程大學(xué). 2010.
[20] 賀超波, 陳啟買. 基于粗糙集的關(guān)聯(lián)規(guī)則挖掘方法[J]. 計算機應(yīng)用, 2010, 30(1): 25-28.
[21] J Han, J Pei , Y Yin. Mining frequent patterns without candidate generation[J]. ACM SIGMOD Record, 2000, 29 (2): 1-12.
[22] 彭銀香, 何小東, 朱志勇. 基于免疫算法的多維關(guān)聯(lián)規(guī)則挖掘方法[J]. 微計算機信息. 2007, 23(3): 171-173.
[23] 吳少瑩. 基多維關(guān)聯(lián)規(guī)則挖掘算法研究[D]. 天津理工大學(xué), 2008.
[24] 龍婧, 車文剛, 權(quán)鵬宇, 等. 金融時間序列 K 線形態(tài)的 Motif 模式挖掘研究[J]. 軟件, 2018, 39(2): 147-151.
[25] 陸珩瑱, 徐立平. 基于時間序列頻域分析的期貨市場周期研究[J]. 統(tǒng)計與決策》, 2011 (6): 146-147.
[26] 潘磊, 沙斐. 非線性時間序列門限自回歸模型在環(huán)境空氣質(zhì)量預(yù)報中的應(yīng)用[J]. 上海環(huán)境科學(xué). 2007(5): 212-214.
[27] 許倫輝, 唐德華, 鄒娜, 夏新海. 基于非線性時間序列分析的短時交通流特性分析[J]. 重慶交通大學(xué)學(xué)報(自然科學(xué)版). 2010, 29(1): 110-113.
[28] 邵晨曦, 童松桃, 楊明, 王子才. 非線性時間序列高性能仿真算法研究[J]. 系統(tǒng)仿真學(xué)報. 2009, 21(15): 4598-4602.
[29] 龔薇, 肖輝, 曾海泉. 基于變化點的時間序列近似表示[J]. 計算機工程與應(yīng)用, 2006 , 42(10): 169-171.
[30] 陳海燕, 劉晨暉, 孫博. 時間序列數(shù)據(jù)挖掘的相似性度量綜述[J]. 控制與決策. 2017, 32(1): 1-11.
[31] 楊一鳴, 潘嶸, 潘嘉林, 楊強, 李磊. 時間序列分類問題的算法比較[J]. 計算機學(xué)報. 2007, 30(8): 1259-1266.
[32] 謝福鼎, 趙曉慧, 嵇敏, 平宇. 一種時間序列動態(tài)聚類的算法[J]. 計算機應(yīng)用研究. 2012, 29(10): 3677-3680.
[33] 張可佳, 李春生, 姜海英, 趙森. 時間序列下模式挖掘模型設(shè)計[J]. 計算機工程與應(yīng)用, 2015 , 51 (19): 146-151.
[34] 李海林, 郭崇慧, 楊麗彬. 基于時間序列數(shù)據(jù)挖掘的故障檢測方法[J]. 數(shù)據(jù)采集與處理. 2016, 31(4): 782-790.
[35] 中華人民共和國國務(wù)院. 新一代人工智能發(fā)展計劃[R/OL]. [2018-03-15]. http://www.gov.cn/zhengce/content/2017-07 /20/content_5211996.htm.
[36] 沈敏, 楊新涯, 王楷. 基于機器學(xué)習(xí)的高校圖書館用戶偏好檢索系統(tǒng)研究[J]. 圖書情報工作, 2015(11): 143-148.
[37] 文志誠, 曹春麗, 周浩. 基于樸素貝葉斯分類器的網(wǎng)絡(luò)安全態(tài)勢評估方法[J]. 計算機應(yīng)用, 2015, 35(8): 2164-2168.
[38] 郭明瑋, 趙宇宙, 項俊平 , 張陳斌 , 陳宗海. 基于支持向量機的目標(biāo)檢測算法綜述[J]. 控制與決策, 2014(2): 193-200.
[39] 楊鐘瑾. 核函數(shù)支持向量機[J]. 計算機工程與應(yīng)用, 2008, 44(33): 1-6.
[40] Z. R. Gabidullina. A Linear Separability Criterion for Sets of Euclidean Space[J]. Journal of Optimization Theory and Applications. 2013, 158(1): 145-171.
[41] 沈正維, 李秋菊. 支持向量機與神經(jīng)網(wǎng)絡(luò)的關(guān)系研究[J]. 生物數(shù)學(xué)學(xué)報, 2006 , 21(2): 204-208.
[42] 方育柯. 集成學(xué)習(xí)理論研究及其在個性化推薦中的應(yīng)用[D]. 四川: 電子科技大學(xué), 2011.
[43] 張峻瑋, 楊洲. 一種基于改進(jìn)的層次聚類的協(xié)同過濾用戶推薦算法研究[J]. 計算機科學(xué), 2014, 41(12): 176-178.
[44] 蘇嘯宇. 物聯(lián)網(wǎng)在維護(hù)公共安全中的作用[J]. 軟件, 2016, 37(3): 127-130.
[45] 金海峰. 基于數(shù)據(jù)挖掘的移動互聯(lián)網(wǎng)數(shù)據(jù)包安全檢測技術(shù)研究[D]. 北京: 北京郵電大學(xué), 2016.
[46] 馮倩. 基于服務(wù)器端的 XSS 攻擊防御[J]. 軟件, 2018, 39(01): 45-49.
[47] K Rieck, P Trinius, C Willems. Automatic analysis of malware behavior using machine learning[J]. Journal of Computer Security, 2011, 19(4): 639-668.
[48] H Xin , S Bhatkar , K Griffin , GS Kang: scalable malware clustering based on static features[C]//Usenix Conference on Technical Conference , 2013: 187-198.
[49] I Burguera, U Zurutuza, S Nadjm-Tehrani: Crowdroid: behavior- based malware detection system for Android [C]//Acm Workshop on Security & Privacy in Smartphones, 2011: 15-26.
[50] M Rajab, L Ballard, N Lutz. CAMP: Content-agnostic malware protection[C]//Annual Network and Distributed System Security Symposium, NDSS(February 2013). 2013.
[51] 史大偉, 袁天偉. 一種粗細(xì)粒度結(jié)合的動態(tài)污點分析方法[J]. 計算機工程, 2014 , 40(3): 12-17.
[52] 賀毅朝, 田海燕, 張新祿, 高鎖剛. 基于相鄰矩陣快速構(gòu)建虛擬主干網(wǎng)的近似算法[J]. 計算機科學(xué), 2012, 39(3): 83-87.
[53] 龔越, 羅小芹, 王殿海, 楊少輝. 基于梯度提升回歸樹的城市道路行程時間預(yù)測[D]. 浙江:浙江大學(xué)學(xué)報(工學(xué)版), 2018(3).
[54] 王亦雷. 移動互聯(lián)網(wǎng)中數(shù)據(jù)服務(wù)的關(guān)鍵技術(shù)研究[D]. 四川: 電子科技大學(xué), 2018.
[55] 王慶, 趙發(fā)珍. 基于"用戶畫像"的圖書館資源推薦模式設(shè)計與分析[J]. 現(xiàn)代情報, 2018(3).