王兵
摘要:移動互聯(lián)網(wǎng)大數(shù)據(jù)時代的到來,使企業(yè)的運(yùn)營商面臨著極大的挑戰(zhàn),該文針對大數(shù)據(jù)背景下用戶行為分析引擎提出了設(shè)計方案,有利于實現(xiàn)供應(yīng)商新業(yè)務(wù)的開發(fā)。
關(guān)鍵詞:云計算技術(shù);大數(shù)據(jù);用戶行為;引擎設(shè)計
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)05-0001-02
近年來,我國的移動互聯(lián)網(wǎng)技術(shù)得到了充分的發(fā)展,這使我國的互聯(lián)網(wǎng)運(yùn)營商面臨著一個新的發(fā)展機(jī)遇,開始走向話務(wù)量經(jīng)營向流量經(jīng)營的道路,并對用戶的行為規(guī)律進(jìn)行深入分析,發(fā)掘市場與廣大用戶的真實需求。為了能夠充分滿足用戶日新月異的需求變化,運(yùn)營商必須不斷開發(fā)、推出新產(chǎn)品,加強(qiáng)計算機(jī)技術(shù)的功能發(fā)揮。而云計算技術(shù)正是這樣一種能夠滿足海量數(shù)據(jù)分析與處理的強(qiáng)大引擎系統(tǒng)。
1 云計算技術(shù)下的大數(shù)據(jù)用戶行為引擎系統(tǒng)設(shè)計
1.1 總體構(gòu)架
在本次研究中,主要是利用云計算技術(shù)的海量數(shù)據(jù)計算能力,建立完善的移動互聯(lián)網(wǎng)數(shù)據(jù)挖掘分析系統(tǒng),實現(xiàn)對互聯(lián)網(wǎng)用戶行為引擎的分析,并根據(jù)用戶的上網(wǎng)習(xí)慣與行為偏好,為用戶提供具有針對性的個性化服務(wù),使數(shù)據(jù)的采集、分析與服務(wù)類型、營銷策略能夠形成一個統(tǒng)一的有機(jī)整體,提升企業(yè)的營銷效率。另外,云計算系統(tǒng)主要是借助FTP服務(wù)器來實現(xiàn)對數(shù)據(jù)的采集,然后在系統(tǒng)的接口處對數(shù)據(jù)進(jìn)行分布式計算以及批量處理,并將這些大數(shù)據(jù)一并存入Hbase數(shù)據(jù)庫,該系統(tǒng)不僅能夠?qū)崿F(xiàn)海量數(shù)據(jù)存儲,而且對于那些非結(jié)構(gòu)化的數(shù)據(jù)也能夠存儲[1]。然后再經(jīng)過Hive整合層與匯總層EIL處理,利用MapReduce數(shù)據(jù)分析模型,將處理的結(jié)果傳入數(shù)據(jù)庫,其系統(tǒng)總體構(gòu)架見圖1 。
1.2 系統(tǒng)拓?fù)渑c功能分布
系統(tǒng)的拓?fù)渲饕侵笇⒁慌_服務(wù)器作為Hapdoop平臺的主節(jié)點服務(wù)器,其他都作為Hapdoop平臺的從節(jié)點服務(wù)器。一般情況下,從節(jié)點服務(wù)器可以根據(jù)實際需要進(jìn)行動態(tài)擴(kuò)展,而主節(jié)點服務(wù)器不僅要將任務(wù)與流量分配給從節(jié)點服務(wù)器,而且還要監(jiān)督從節(jié)點服務(wù)器的工作執(zhí)行情況,由多臺從節(jié)點服務(wù)器共同參與完成任務(wù),能夠提升數(shù)據(jù)處理效率,主節(jié)點服務(wù)器的軟件運(yùn)行情況如圖2所示。
將所有匯聚到系統(tǒng)的移動互聯(lián)網(wǎng)用戶行為數(shù)據(jù)進(jìn)行分析,主要借助了MapReduce用戶行為分析模型資源,能夠?qū)τ脩舻纳暇W(wǎng)習(xí)慣、偏好,甚至包括用戶的社會關(guān)系進(jìn)行有效的分析,并提供全面的業(yè)務(wù)服務(wù),給用戶推薦具體的內(nèi)容。一般來說,從節(jié)點服務(wù)器與主節(jié)點服務(wù)器在軟件的結(jié)構(gòu)上沒有太大的差異,唯一不同的是從節(jié)點服務(wù)器不具備部署任務(wù)以及管理調(diào)度的功能[2]。以搜狗公司數(shù)據(jù)分析為例,根據(jù)第三方互聯(lián)網(wǎng)數(shù)據(jù)統(tǒng)計機(jī)構(gòu)CNZZ公布的2015年9月的中國網(wǎng)民搜索引擎使用情況統(tǒng)計報告,搜狗搜索的市場份額已經(jīng)達(dá)到15.68%,成為中國第三大互聯(lián)網(wǎng)搜索公司,其用戶行為數(shù)據(jù)分析格式如表1所示:
2 用戶行為分析大數(shù)據(jù)入庫組件設(shè)計
通常,對移動互聯(lián)網(wǎng)用戶的行為分析引擎的數(shù)據(jù)主要是通過應(yīng)用平臺數(shù)據(jù)與DPI數(shù)據(jù)兩個渠道獲取的,這兩個數(shù)據(jù)源有著明顯的不同。首先,應(yīng)用平臺數(shù)據(jù)比較集中,在一個訪問行為表中就能夠完整的呈現(xiàn),每天表現(xiàn)為一個文件,且文件的大小以GB分級;DPI數(shù)據(jù)則是眾多分散的小文件,這些文件一般都不超過10MB,其最重要的一個特點就是文件的來源特別快,平均每2min就能夠接收到多個新文件,大約一個省一天可收集到1TB左右的數(shù)據(jù)量,效率極高。針對這兩種數(shù)據(jù)源的特點,分別采取了不同的設(shè)計方案。在獲得用戶訪問基本數(shù)據(jù)信息的情況下,對這些數(shù)據(jù)進(jìn)行統(tǒng)計分析,能夠從中獲取用戶行為的基本特征與規(guī)律。采用Hadoop平臺的用戶行為分析系統(tǒng)對搜狗實驗室提供的搜索引擎日志數(shù)據(jù)集進(jìn)行分析處理,源文件大小共4.4G,行數(shù)為43545444行。用戶查詢關(guān)鍵詞的排名、點擊URL排名以及用戶搜索記錄、時間段等用戶行為特征都能夠有效的呈現(xiàn)出來,詳見表2。
2.1 應(yīng)用平臺數(shù)據(jù)入庫
該平臺主要采用的是批量入庫的方式,每天進(jìn)行一次數(shù)據(jù)入庫,文件的大小一般為GB級。通常對于大型數(shù)據(jù)文件多采用Hadoop平臺進(jìn)行入庫,然而經(jīng)過實踐證明,MapReduce分布式處理Hbase入庫效率普遍不高,因此,可對這一系統(tǒng)進(jìn)行優(yōu)化處理,在MapReduce分布處理的基礎(chǔ)上,進(jìn)而實行批量入庫處理。在Hadoop系統(tǒng)應(yīng)用過程中,多使用TextInputFormat,其在map中多顯示的是文件的單行記錄[3],因此,可采用NLineInputFormat類使其能夠在MapREduce中實現(xiàn)批量入庫,在這種系統(tǒng)的支持下,每個分片都會留下N行記錄,然后通過適當(dāng)?shù)膮?shù)配置,實現(xiàn)每次可讀取N行記錄,進(jìn)而在map中行批量入庫的相關(guān)操作,能夠在一定程度上提升數(shù)據(jù)分析的效率。
2.2 DPI數(shù)據(jù)入庫設(shè)計
DPI數(shù)據(jù)入庫主要針對的是大量的小型數(shù)據(jù)文件,這些文件盡管所含數(shù)據(jù)量不大,但是數(shù)據(jù)來源的頻率特別高,對這些文件的處理有中方式。首先,可采用SequenceFiles軟件將這些小文件進(jìn)行壓縮打包,在文件打包的初期就要采取措施降低小文件的數(shù)量。然而,對其讀取卻會受到一定的限制,無論是Hadoop shell軟件還是Map讀取軟件,都很難實現(xiàn)對數(shù)據(jù)的靈活讀取。而采用HAR軟件對小文件進(jìn)行歸檔,這盡管能夠在一定程度上減少小文件的數(shù)量,卻仍然達(dá)不到數(shù)據(jù)的靈活讀取,這很大程度上是由于HAP軟件的讀取性能較低。另外Hadoop append系統(tǒng)盡管能夠?qū)⑦@些小文件追加到同一個文件中,然而,這些小文件的大小千差萬別,且數(shù)據(jù)來源頻率廣,有峰值與低谷之分,因此,對這些數(shù)據(jù)的控制也較為繁瑣。除此之外還有Flume、FLumeNG以及Scribbe系統(tǒng),這些系統(tǒng)能夠?qū)χ虚g層的數(shù)據(jù)進(jìn)行處理,有效降低小文件的數(shù)量,然而這兩者傳輸與壓縮文件功能不強(qiáng),具有一定的缺陷。由此可見,以上這4種方式都不能實現(xiàn)數(shù)據(jù)文件的有效處理,因此,要對DPI數(shù)據(jù)的特征進(jìn)行科學(xué)分析,對CombineFile InputFornt進(jìn)行有效繼承,將數(shù)據(jù)的分片大小進(jìn)行設(shè)置,以便實現(xiàn)CreateRecordReader,這種方式也能夠促進(jìn)DPI大數(shù)據(jù)實現(xiàn)入庫[4-5]。
3 結(jié)語
隨著我國社會主義現(xiàn)代化建設(shè)的不斷發(fā)展,我國的計算機(jī)信息技術(shù)取得了卓有成效的進(jìn)步,并由此進(jìn)入一個信息時代,使人們的生產(chǎn)與生活方式發(fā)生了一系列的變革。然而隨著信息多元化與多用戶模式的出現(xiàn),傳統(tǒng)的計算機(jī)信息技術(shù)已經(jīng)不能夠滿足人們的需求,開始轉(zhuǎn)向?qū)υ朴嬎慵夹g(shù)的開發(fā)與應(yīng)用。云計算技術(shù)下的大數(shù)據(jù)用戶行為引擎設(shè)計,能夠?qū)τ脩粜纬筛咝У母?,且運(yùn)行成本低廉,在企業(yè)的營銷中有著極大的應(yīng)用價值,值得推廣應(yīng)用。
參考文獻(xiàn):
[1] 謝曉頔. 大數(shù)據(jù)環(huán)境下云計算分布式數(shù)據(jù)管理和分析技術(shù)工具的研究[J]. 科技風(fēng), 2015(19):51-51.
[2] 王寧, 楊揚(yáng), 孟坤,等. 云計算環(huán)境下基于用戶體驗的成本最優(yōu)存儲策略研究[J]. 電子學(xué)報, 2014, 42(1):20-27.
[3] 尹天驕. 云計算時代下的數(shù)據(jù)管理技術(shù)探討[J]. 計算機(jī)光盤軟件與應(yīng)用, 2015(3):179-180.
[4] 李曉飛. 基于云計算技術(shù)的大數(shù)據(jù)處理系統(tǒng)的研究[J]. 長春工程學(xué)院學(xué)報:自然科學(xué)版, 2014, 15(1).
[5] 李進(jìn)生, 楊東陵. 云計算環(huán)境下大型電氣數(shù)據(jù)庫存儲性能分析與優(yōu)化[J]. 電氣應(yīng)用, 2015(6).