江三鋒 王元亮
摘要:針對于傳統(tǒng)對海量數(shù)據(jù)處理和計算的瓶頸,提出了一種基于Hive的海量web日志分析機(jī)制。通過Hadoop分布式系統(tǒng)架構(gòu)以及Hive數(shù)據(jù)倉庫對海量web日志做了分析處理,并對用戶的瀏覽行為進(jìn)行了分析研究。對用戶瀏覽行為中的瀏覽量和跳出率、IP數(shù)、版塊熱度排行的分析結(jié)果對于網(wǎng)站建設(shè)和大數(shù)據(jù)分析系統(tǒng)優(yōu)化都具有一定的指導(dǎo)意義。
關(guān)鍵詞:Hive;Web日志;Hadoop;網(wǎng)站建設(shè)
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A DOI:10.3969/j.issn.1003-6970.2015.04.021
0.引言
隨著互聯(lián)網(wǎng)技術(shù)的普及,網(wǎng)絡(luò)上的信息量呈指數(shù)級增長。毋庸置疑,web已經(jīng)是世界上最大的信息系統(tǒng)。作為這個系統(tǒng)中重要的組成部分之一,web日志記錄了用戶瀏覽網(wǎng)頁的所有信息。通過處理和分析這些日志信息,我們可以了解到用戶的行為特征,從而改造網(wǎng)頁的布局,提高網(wǎng)站的流量,進(jìn)而給企業(yè)帶來更高的收益。
通過數(shù)據(jù)分析技術(shù)和數(shù)據(jù)挖掘技術(shù),從web日志中獲取用戶的行為特征已經(jīng)成為商業(yè)界關(guān)注的焦點(diǎn)。早在1996年,Cockburn,Jones等人就對網(wǎng)頁用戶瀏覽行為做了調(diào)研分析。20世紀(jì)90年代末,Sliverstein,Maraus等人對Web搜索引擎日志進(jìn)行了大規(guī)模的分析。
然而,隨著用戶量的急劇增加,web日志記錄的信息量也越來越龐大。傳統(tǒng)方法在處理海量數(shù)據(jù)集的時候一般都是通過分治的思想或者采用多線程多任務(wù)的方法來處理。如果僅僅靠提升計算機(jī)的存儲量以及性能顯然不能從本質(zhì)上解決這一問題。本文通過采用hadoop平臺,設(shè)計并實現(xiàn)了基于Hive的海量web日志分析系統(tǒng)。
1.相關(guān)技術(shù)介紹
1.1Hadoop分布式系統(tǒng)
HadoopTM作為Apache軟件基金會下的一個分布式開源框架,在眾多的大型企業(yè)中得到了廣泛的應(yīng)用。分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和Map/Reduce并行編程模型是Hadoop的兩大核心。Hadoop主要是通過HDFS來實現(xiàn)分布式存儲的底層支持,并且通過Map/Reduce來實現(xiàn)分布式并行計算任務(wù)處理的程序支持。所以用戶能夠在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序。endprint