李微麗 羅汝 一鳴
摘要:隨著互聯(lián)網(wǎng)的日益普及,網(wǎng)民每天的網(wǎng)絡(luò)行為帶來了網(wǎng)絡(luò)數(shù)據(jù)的爆炸式增長。網(wǎng)絡(luò)用戶行為數(shù)據(jù)中蘊(yùn)含著大量有價(jià)值、有意義的信息,網(wǎng)絡(luò)用戶行為分析系統(tǒng)通過對這些數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析,結(jié)果通過前臺直觀的報(bào)表展示,并進(jìn)行智能推薦。一方面可以幫助營銷商從中發(fā)現(xiàn)用戶使用產(chǎn)品的規(guī)律,并將這些規(guī)律與網(wǎng)站的營銷策略、產(chǎn)品功能、運(yùn)營策略相結(jié)合,優(yōu)化用戶體驗(yàn)、實(shí)現(xiàn)更精細(xì)化和精準(zhǔn)的運(yùn)營與營銷,讓產(chǎn)品獲得更好的增長。另一方面還可以應(yīng)用于公安部門兼顧打擊罪犯、獲取證據(jù)、提前管控、縮小影響范圍從而保護(hù)人民、不阻礙互聯(lián)網(wǎng)的正常發(fā)展軌跡。
關(guān)鍵詞:互聯(lián)網(wǎng);大數(shù)據(jù);用戶行為分析
一、緒論
隨著科學(xué)技術(shù)的飛速發(fā)展和社會(huì)經(jīng)濟(jì)水平的不斷進(jìn)步,互聯(lián)網(wǎng)規(guī)模迅速膨脹,網(wǎng)絡(luò)流量、用戶規(guī)模等互聯(lián)網(wǎng)組成部分快速增長。根據(jù)《第33次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中的數(shù)據(jù)統(tǒng)計(jì),截止2013年12月底,中國網(wǎng)民規(guī)模已達(dá)到6.18億,互聯(lián)網(wǎng)普及率為45.8%。這充分說明了互聯(lián)網(wǎng)已經(jīng)逐漸成為人類生活、學(xué)習(xí)所依賴的一部分。
網(wǎng)民每天的網(wǎng)絡(luò)行為帶來了網(wǎng)絡(luò)用戶行為數(shù)據(jù)的爆炸式增長,網(wǎng)絡(luò)用戶行為數(shù)據(jù)中蘊(yùn)含著大量有價(jià)值、有意義的信息,通過對用戶行為日志進(jìn)行統(tǒng)計(jì)、分析,結(jié)果通過前臺直觀的報(bào)表展示,可以幫助營銷商大致掌握用戶的喜好,從中發(fā)現(xiàn)用戶使用產(chǎn)品的規(guī)律,將這些規(guī)律與網(wǎng)站的營銷策略、產(chǎn)品功能、運(yùn)營策略相結(jié)合,對用戶進(jìn)行智能推薦,以優(yōu)化用戶體驗(yàn)、實(shí)現(xiàn)更精細(xì)化和精準(zhǔn)的運(yùn)營與營銷,讓產(chǎn)品獲得更好的增長。此外,可以通過數(shù)據(jù)分析來預(yù)測用戶的行為傾向,為有關(guān)部門對網(wǎng)絡(luò)輿論進(jìn)行合理的監(jiān)控和干預(yù)提供了理論依據(jù),還可以幫助公安部門針對犯罪嫌疑人進(jìn)行網(wǎng)絡(luò)行為監(jiān)控等。
二、用戶行為分析系統(tǒng)架構(gòu)設(shè)計(jì)
(1)數(shù)據(jù)采集層。使用傳統(tǒng)的JS為網(wǎng)站定制埋點(diǎn)方案以采集數(shù)據(jù),經(jīng)過Flume日志收集系統(tǒng)進(jìn)行高可用、高可靠、分布式的海量日志監(jiān)聽和采集。根據(jù)其業(yè)務(wù)需求可在任意地點(diǎn)任意場景進(jìn)行數(shù)據(jù)采集,通過植入多段代碼,追蹤用戶在每個(gè)界面上的系列行為,采集到用戶的全量行為。
(2)數(shù)據(jù)分析層。Flume將采集后的數(shù)據(jù)發(fā)送到kafka消息隊(duì)列進(jìn)行緩存,發(fā)送到Hdfs分布式文件系統(tǒng)對海量用戶行為日志進(jìn)行存儲(chǔ),以達(dá)到高容錯(cuò)、高可靠性、高可擴(kuò)展性、高獲得性、高吞吐率等。SparkStreaming消費(fèi)kafka消息隊(duì)列中的數(shù)據(jù)。為了提高分析計(jì)算效率,使用Spark的Transformation算子和Action算子進(jìn)行實(shí)時(shí)分析。Hive使用sql語句的形式結(jié)合多個(gè)優(yōu)化MapReduce算法,以天為單位讀取Hdfs分布式文件系統(tǒng)中的數(shù)據(jù)進(jìn)行離線分析,并將結(jié)果放入Mysql關(guān)系型數(shù)據(jù)庫,根據(jù)計(jì)算結(jié)果進(jìn)行可視化展示。
(3)數(shù)據(jù)應(yīng)用層。分為數(shù)據(jù)展示、智能推薦、行為預(yù)測三大塊。數(shù)據(jù)展示:后臺使用Mybatis持久化框架連接數(shù)據(jù)庫,通過Sprintboot提供數(shù)據(jù)訪問接口。前臺使用Angular組件Asynclack異步消息處理與后臺進(jìn)行交互,加快了響應(yīng)速度。最后通過Echarts圖表動(dòng)態(tài)直觀的展示用戶的各種行為指標(biāo)。還支持報(bào)告數(shù)據(jù)用API形式導(dǎo)出,以更靈活、便捷、個(gè)性化的方式完成網(wǎng)站數(shù)據(jù)的展現(xiàn)、分析等操作;智能推薦:使用基于內(nèi)容過濾的推薦算法和基于雙重聚類的協(xié)同過濾推薦算法融合后的混合推薦技術(shù),對用戶行為日志進(jìn)行分析并對用戶進(jìn)行智能推薦服務(wù),此技術(shù)在保證推薦準(zhǔn)確率的同時(shí),還能有效提高推薦結(jié)果的多樣性,解決了傳統(tǒng)推薦算法推薦結(jié)果單一、數(shù)據(jù)稀疏、冷啟動(dòng)等問題;行為預(yù)測:根據(jù)已有的用戶行為數(shù)據(jù),設(shè)計(jì)數(shù)據(jù)包重組算法,實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的重新組合。采用協(xié)議解析技術(shù),還原網(wǎng)頁的組成元素?;赟harpPcap與PacketDotNet類庫對模型進(jìn)行實(shí)現(xiàn),最后采用多重分形的思想建立用戶行為模型,用LUBAM模型計(jì)算出某時(shí)間段內(nèi)用戶的行為過程,并預(yù)測下一時(shí)間段內(nèi)用戶的行為過程。以最小均方誤差值作為估算誤差指標(biāo),判定用戶行為的傾向程度。
三、研究內(nèi)容
(1)智能推薦:智能推薦即根據(jù)對用戶的了解,推送用戶可能會(huì)感興趣的產(chǎn)品。假設(shè)我們將此系統(tǒng)應(yīng)用在一個(gè)商城平臺上,那么當(dāng)用戶在挑選商品時(shí)勢必會(huì)過濾掉不感興趣的商品,搜索一些感興趣的商品,我們對相應(yīng)的按鈕填上埋點(diǎn),就可以收集用戶感興趣的關(guān)鍵詞,從而使用智能推薦算法,對用戶推送一些產(chǎn)品。而傳統(tǒng)推薦算法缺少對個(gè)體多樣性的考慮,推薦結(jié)果過于單一,還具有冷啟動(dòng)、數(shù)據(jù)稀疏性等問題。為解決這些問題,本系統(tǒng)使用基于內(nèi)容過濾的推薦算法和基于雙重聚類的協(xié)同過濾推薦算法,將兩種推薦算法進(jìn)行融合后的混合推薦技術(shù)作為系統(tǒng)的推薦引擎,完成智能推薦系統(tǒng)模型的設(shè)計(jì)與實(shí)現(xiàn)。
(2)用戶行為預(yù)測:抽取行為報(bào)告中含有敏感信息的行為序列,基于多重分形思想建立用戶行為模型,計(jì)算某時(shí)間段內(nèi)用戶的行為過程,并預(yù)測估計(jì)下一時(shí)間段內(nèi)用戶的行為過程,以最小均方誤差值作為誤差判斷參數(shù)。如果基于LUBAM的行為過程預(yù)測方差值較小,則說明用戶在未來一段時(shí)間內(nèi)仍可能有敏感行為發(fā)生,若預(yù)測方差值較大,則表明用戶未來一段時(shí)間內(nèi)發(fā)生敏感行為的概率相對較小。
參考文獻(xiàn):
[1]谷紅勛,楊珂.基于大數(shù)據(jù)的移動(dòng)用戶行為分析系統(tǒng)與應(yīng)用案例[J].電信科學(xué),2016,32(3):139-146.
[2]任思穎.基于大數(shù)據(jù)的網(wǎng)絡(luò)用戶行為分析[D].北京郵電大學(xué),2015.