王曦
摘要:為解決傳統(tǒng)數(shù)據(jù)分析方法存在分析準(zhǔn)確率較低的不足,提出了基于hadoop技術(shù)的電商大數(shù)據(jù)分析,基于hadoop電商大數(shù)據(jù)分析模型的搭建,依托關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析,實現(xiàn)了基于hadoop技術(shù)的電商大數(shù)據(jù)分析,試驗數(shù)據(jù)表明,提出的數(shù)據(jù)分析方法較傳統(tǒng)數(shù)據(jù)分析方法,分析準(zhǔn)確率提高29.55%,適合電商大數(shù)據(jù)的分析。
關(guān)鍵詞:hadoop技術(shù);分析模型;大數(shù)據(jù);電子商務(wù)
中圖分類號:TP311 ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)15-0297-02
近年來,眾多企業(yè)都開始認(rèn)識到數(shù)據(jù)資產(chǎn)規(guī)?;瘯o企業(yè)帶來無限的可能性與潛在的價值,但這些不斷在增長的數(shù)據(jù)資產(chǎn)大概可以分為兩種類型即非結(jié)構(gòu)化與半結(jié)構(gòu)化。如何去利用最低成本并使用最快的效率來對這些大量的數(shù)據(jù)去進(jìn)行處理和應(yīng)用,成為人們目前需要解決的很大的難題[1]。Google公司第一個提出了Mapreduce的編程框架(Hadoop框架的基本構(gòu)成單元),而GFS的文件系統(tǒng)與BigTable的存儲系統(tǒng)同時開始成為大數(shù)據(jù)處理技術(shù)的核心領(lǐng)導(dǎo)者,并且這三種技術(shù)也成了此項目的實施標(biāo)準(zhǔn),用最快的速度普及到各個互聯(lián)網(wǎng)企業(yè)當(dāng)中。大數(shù)據(jù)處理模式是一種新興起的新技術(shù)模式,并依托于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展而不斷進(jìn)步,不但能夠有效地處理大批量的數(shù)據(jù)信息,還能保證信息的安全性與可靠性[2]?;趆adoop技術(shù)的大數(shù)據(jù)分析,以大數(shù)據(jù)處理模式,突破了以往的信息搜索和信息存儲形式,無論是從決策力還是洞察力都有了很大提升,從而效率越來越高,信息變得更加多樣化。
1搭建hadoop的電商大數(shù)據(jù)分析模型
Hadoop屬于開源框架,其本質(zhì)為一種能夠應(yīng)用于縮寫于運行的分布式處理的大規(guī)模數(shù)據(jù)。Hadoop與其他框架進(jìn)行對比,自身具有便捷、擴(kuò)展性強、操作方便等特點,特別是Hadoop的便捷性使其在編寫程序過程中占有絕大部分的優(yōu)勢。從而使更多的用戶借助Hadoop能夠在分布式計算法則中帶來最大程度的優(yōu)勢[3]。其利用分布式存儲與遷移代碼等技術(shù)、在數(shù)據(jù)處理過程中能夠更好地解決耗費時間數(shù)據(jù)的傳輸問題[4]。為了對電商大數(shù)據(jù)進(jìn)行分析,搭建基于hadoop技術(shù)的電商大數(shù)據(jù)分析模型。
基于hadoop技術(shù)的電商大數(shù)據(jù)分析模型主要分為四個部分,即數(shù)據(jù)的收集部分、數(shù)據(jù)的預(yù)處理部分、數(shù)據(jù)的分析(數(shù)據(jù)挖掘分析)、應(yīng)用部分,你設(shè)計的基于hadoop技術(shù)電商大數(shù)據(jù)分析模型整體框架如圖1所示:
數(shù)據(jù)的收集是依托電商數(shù)據(jù)平臺、移動端數(shù)據(jù)平臺、社交網(wǎng)絡(luò)數(shù)據(jù)平臺獲取的大數(shù)據(jù)信息,基于此的大數(shù)據(jù)信息,對數(shù)據(jù)進(jìn)行預(yù)預(yù)處理,分析模型數(shù)據(jù)的預(yù)處理共分為三個階段,即數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的轉(zhuǎn)化、數(shù)據(jù)的抽取?;陔娚虜?shù)據(jù)平臺獲得交易數(shù)據(jù),同理,基于移動數(shù)據(jù)平臺獲取觀測數(shù)據(jù)(瀏覽該電商網(wǎng)頁、商品等信息),基于社交數(shù)據(jù)平臺獲取互動數(shù)據(jù)(電商商品評價、潛在購買欲望等)。利用準(zhǔn)備的數(shù)據(jù),進(jìn)行數(shù)據(jù)轉(zhuǎn)化,利用hadoop框架,將數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù),通過數(shù)據(jù)結(jié)構(gòu)化的轉(zhuǎn)變,利用數(shù)據(jù)關(guān)聯(lián)融合機制,根據(jù)數(shù)據(jù)的過濾和映射對數(shù)據(jù)進(jìn)行提取,將提取的數(shù)據(jù)進(jìn)行挖掘分析,最后顯示分析結(jié)果。
2實現(xiàn)電商大數(shù)據(jù)分析
Hadoop框架的構(gòu)成涵蓋了分布式文件HDFS以及Mapreduce。Hadoop的主要作用是進(jìn)行對文件系統(tǒng)的名字的管理,并負(fù)責(zé)文件的訪問。并同時處理客戶端發(fā)來的文件讀寫請求,并能夠在數(shù)據(jù)模塊下進(jìn)行創(chuàng)建和復(fù)制。此外,Hadoop還能夠同時完成分布式計算,將總?cè)蝿?wù)劃分為眾多子任務(wù),并且每個子任務(wù)都能夠在集群節(jié)點進(jìn)行處理的完成,從而確保各個子任務(wù)的節(jié)點計算的準(zhǔn)確性。由于選擇性的分布式文件以及Mapreduce的模型,可以讓Hadoop具有更高的容錯率和讀寫吞吐率,從而對失敗的節(jié)點進(jìn)行處理[5]。
針對電商大數(shù)據(jù)的分析,主要包括關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析三部分。關(guān)聯(lián)規(guī)則分析是指根據(jù)電商數(shù)據(jù)平臺、移動端數(shù)據(jù)平臺、社交網(wǎng)絡(luò)數(shù)據(jù)平臺獲取的數(shù)據(jù),求出參數(shù)變化對消費者與電商平臺的影響,電商可將此數(shù)據(jù)作為經(jīng)營的有效參考,其電商關(guān)聯(lián)規(guī)則分析函數(shù)可用公式(1)表示:
式中,I代表消費者消費意愿;P代表消費者瀏覽該電商平臺的時長;U代表消費者瀏覽所有電商平臺的時長。
分類與聚類分析是指,對電商的主要消費人群進(jìn)行分類和聚類分析,其分析過程是根據(jù)數(shù)據(jù)的提取再擬合實現(xiàn)的,針對用戶的分類信息,電商可有針對地進(jìn)行廣告的推送、消費習(xí)慣的分析以及消費的預(yù)判,鎖定消費人群進(jìn)行電子商務(wù)營銷。
與分類與聚類分析相類似,變化和偏差分析是根據(jù)電子商務(wù)主要消費對象,最近的瀏覽記錄、歷史記錄、消費行為進(jìn)行客戶的變化分析,以及偏差分析,其變化和偏差分析函數(shù)可用公式(2)表示:
式中,PD代表消費者的行為能力;R代表消費者的瀏覽記錄;I代表環(huán)境變化,如季節(jié)交替等;a代表消費者消費沖動系數(shù);
基于hadoop電商大數(shù)據(jù)分析模型的構(gòu)建,以及關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析,實現(xiàn)了基于hadoop技術(shù)的電商大數(shù)據(jù)分析。
3實例分析
為了驗證提出的基于Hadoop技術(shù)的電商大數(shù)據(jù)分析的準(zhǔn)確性,進(jìn)行了相關(guān)的仿真實驗。在相同環(huán)境條件下實驗,將對提出的基于Hadoop技術(shù)的電商大數(shù)據(jù)分析和傳統(tǒng)電商數(shù)據(jù)分析的準(zhǔn)確性進(jìn)行比較。
實驗過程中使用三臺已安裝win操作系統(tǒng)和Hadoop分布式文件系統(tǒng)的計算機,其中一臺計算機作為記錄數(shù)據(jù)節(jié)點使用,第二臺計算機作為記錄影子節(jié)點使用,最后一臺則作為記錄電子商務(wù)物流大數(shù)據(jù)儲存節(jié)點使用。
采取大型網(wǎng)絡(luò)網(wǎng)站的電子商務(wù)物流相關(guān)數(shù)據(jù)進(jìn)行輔助仿真實驗,所有采取的仿真實驗數(shù)據(jù)時間范圍控制在2019年2月1日到2019年4月1日。在該仿真實驗過程中進(jìn)行了五次的子實驗對比,對基于Hadoop技術(shù)的電商大數(shù)據(jù)分析方法和傳統(tǒng)電商數(shù)據(jù)分析方法進(jìn)行比較,兩者的數(shù)據(jù)對比結(jié)果如表1所示。
從仿真實驗結(jié)果表明,基于Hadoop技術(shù)的電商大數(shù)據(jù)分析在所有數(shù)據(jù)整合分析過程中要比傳統(tǒng)電商數(shù)據(jù)分析更為準(zhǔn)確。經(jīng)統(tǒng)計計算得出提出的數(shù)據(jù)分析方法,較傳統(tǒng)的數(shù)據(jù)分析方法,分析準(zhǔn)確率提高29.55%,適合電商大數(shù)據(jù)的分析。
4總結(jié)
本文提出了基于hadoop技術(shù)的電商大數(shù)據(jù)分析,利用基于hadoop電商大數(shù)據(jù)分析模型的構(gòu)建,基于關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析,實現(xiàn)了本文的研究,為保證大數(shù)據(jù)分析的有效性,進(jìn)行仿真試驗,試驗數(shù)據(jù)表明,提出的數(shù)據(jù)分析方法能夠滿足電商大數(shù)據(jù)的分析。實現(xiàn)了本文的研究,希望本文的研究能夠為電商大數(shù)據(jù)的分析提供理論數(shù)據(jù)。
參考文獻(xiàn):
[1] 吳潤澤, 包正睿, 王文韜, 等. Hadoop架構(gòu)下基于模式匹配的短期電力負(fù)荷預(yù)測方法[J]. 電工技術(shù)學(xué)報, 2018, 33(7): 1542-1551.
[2] 曾志強, 何小東, 王穎,等. 基于Hadoop和Spark的森林火災(zāi)混合大數(shù)據(jù)分析系統(tǒng)研究[J]. 世界林業(yè)研究, 2018, 31(2): 55-59.
[3] 馬躍, 余騁遠(yuǎn), 于碧輝. 基于資源簽名與遺傳算法的Hadoop參數(shù)自動調(diào)優(yōu)系統(tǒng)[J]. 計算機應(yīng)用研究, 2017(11):24-27+33.
[4] 王雪蓉, 萬年紅. 基于跨境電商可控關(guān)聯(lián)性大數(shù)據(jù)的出口產(chǎn)品銷量動態(tài)預(yù)測模型[J]. 計算機應(yīng)用, 2017(04):130-135+142.
[5] 謝彥祥, 劉天琪, 蘇學(xué)能. Hadoop架構(gòu)下基于分布式粒子群算法的暫態(tài)穩(wěn)定評估特征量選擇[J]. 電網(wǎng)技術(shù), 2018, 12(12).
【通聯(lián)編輯:光文玲】