基于hadoop技術(shù)的電商大數(shù)據(jù)分析

2019-07-16 03:14:59王曦

電腦知識與技術(shù) 2019年15期

王曦

摘要：為解決傳統(tǒng)數(shù)據(jù)分析方法存在分析準(zhǔn)確率較低的不足，提出了基于hadoop技術(shù)的電商大數(shù)據(jù)分析，基于hadoop電商大數(shù)據(jù)分析模型的搭建，依托關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析，實現(xiàn)了基于hadoop技術(shù)的電商大數(shù)據(jù)分析，試驗數(shù)據(jù)表明，提出的數(shù)據(jù)分析方法較傳統(tǒng)數(shù)據(jù)分析方法，分析準(zhǔn)確率提高29.55%，適合電商大數(shù)據(jù)的分析。

關(guān)鍵詞：hadoop技術(shù);分析模型;大數(shù)據(jù);電子商務(wù)

中圖分類號：TP311 ? ? ?文獻(xiàn)標(biāo)識碼：A

文章編號：1009-3044（2019）15-0297-02

近年來，眾多企業(yè)都開始認(rèn)識到數(shù)據(jù)資產(chǎn)規(guī)?；瘯o企業(yè)帶來無限的可能性與潛在的價值，但這些不斷在增長的數(shù)據(jù)資產(chǎn)大概可以分為兩種類型即非結(jié)構(gòu)化與半結(jié)構(gòu)化。如何去利用最低成本并使用最快的效率來對這些大量的數(shù)據(jù)去進(jìn)行處理和應(yīng)用，成為人們目前需要解決的很大的難題[1]。Google公司第一個提出了Mapreduce的編程框架（Hadoop框架的基本構(gòu)成單元），而GFS的文件系統(tǒng)與BigTable的存儲系統(tǒng)同時開始成為大數(shù)據(jù)處理技術(shù)的核心領(lǐng)導(dǎo)者，并且這三種技術(shù)也成了此項目的實施標(biāo)準(zhǔn)，用最快的速度普及到各個互聯(lián)網(wǎng)企業(yè)當(dāng)中。大數(shù)據(jù)處理模式是一種新興起的新技術(shù)模式，并依托于信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展而不斷進(jìn)步，不但能夠有效地處理大批量的數(shù)據(jù)信息，還能保證信息的安全性與可靠性[2]?；趆adoop技術(shù)的大數(shù)據(jù)分析，以大數(shù)據(jù)處理模式，突破了以往的信息搜索和信息存儲形式，無論是從決策力還是洞察力都有了很大提升，從而效率越來越高，信息變得更加多樣化。

1搭建hadoop的電商大數(shù)據(jù)分析模型

Hadoop屬于開源框架，其本質(zhì)為一種能夠應(yīng)用于縮寫于運行的分布式處理的大規(guī)模數(shù)據(jù)。Hadoop與其他框架進(jìn)行對比，自身具有便捷、擴(kuò)展性強、操作方便等特點，特別是Hadoop的便捷性使其在編寫程序過程中占有絕大部分的優(yōu)勢。從而使更多的用戶借助Hadoop能夠在分布式計算法則中帶來最大程度的優(yōu)勢[3]。其利用分布式存儲與遷移代碼等技術(shù)、在數(shù)據(jù)處理過程中能夠更好地解決耗費時間數(shù)據(jù)的傳輸問題[4]。為了對電商大數(shù)據(jù)進(jìn)行分析，搭建基于hadoop技術(shù)的電商大數(shù)據(jù)分析模型。

基于hadoop技術(shù)的電商大數(shù)據(jù)分析模型主要分為四個部分，即數(shù)據(jù)的收集部分、數(shù)據(jù)的預(yù)處理部分、數(shù)據(jù)的分析（數(shù)據(jù)挖掘分析）、應(yīng)用部分，你設(shè)計的基于hadoop技術(shù)電商大數(shù)據(jù)分析模型整體框架如圖1所示：

數(shù)據(jù)的收集是依托電商數(shù)據(jù)平臺、移動端數(shù)據(jù)平臺、社交網(wǎng)絡(luò)數(shù)據(jù)平臺獲取的大數(shù)據(jù)信息，基于此的大數(shù)據(jù)信息，對數(shù)據(jù)進(jìn)行預(yù)預(yù)處理，分析模型數(shù)據(jù)的預(yù)處理共分為三個階段，即數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的轉(zhuǎn)化、數(shù)據(jù)的抽取?；陔娚虜?shù)據(jù)平臺獲得交易數(shù)據(jù)，同理，基于移動數(shù)據(jù)平臺獲取觀測數(shù)據(jù)（瀏覽該電商網(wǎng)頁、商品等信息），基于社交數(shù)據(jù)平臺獲取互動數(shù)據(jù)（電商商品評價、潛在購買欲望等）。利用準(zhǔn)備的數(shù)據(jù)，進(jìn)行數(shù)據(jù)轉(zhuǎn)化，利用hadoop框架，將數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)和半/非結(jié)構(gòu)化數(shù)據(jù)，通過數(shù)據(jù)結(jié)構(gòu)化的轉(zhuǎn)變，利用數(shù)據(jù)關(guān)聯(lián)融合機制，根據(jù)數(shù)據(jù)的過濾和映射對數(shù)據(jù)進(jìn)行提取，將提取的數(shù)據(jù)進(jìn)行挖掘分析，最后顯示分析結(jié)果。

2實現(xiàn)電商大數(shù)據(jù)分析

Hadoop框架的構(gòu)成涵蓋了分布式文件HDFS以及Mapreduce。Hadoop的主要作用是進(jìn)行對文件系統(tǒng)的名字的管理，并負(fù)責(zé)文件的訪問。并同時處理客戶端發(fā)來的文件讀寫請求，并能夠在數(shù)據(jù)模塊下進(jìn)行創(chuàng)建和復(fù)制。此外，Hadoop還能夠同時完成分布式計算，將總?cè)蝿?wù)劃分為眾多子任務(wù)，并且每個子任務(wù)都能夠在集群節(jié)點進(jìn)行處理的完成，從而確保各個子任務(wù)的節(jié)點計算的準(zhǔn)確性。由于選擇性的分布式文件以及Mapreduce的模型，可以讓Hadoop具有更高的容錯率和讀寫吞吐率，從而對失敗的節(jié)點進(jìn)行處理[5]。

針對電商大數(shù)據(jù)的分析，主要包括關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析三部分。關(guān)聯(lián)規(guī)則分析是指根據(jù)電商數(shù)據(jù)平臺、移動端數(shù)據(jù)平臺、社交網(wǎng)絡(luò)數(shù)據(jù)平臺獲取的數(shù)據(jù)，求出參數(shù)變化對消費者與電商平臺的影響，電商可將此數(shù)據(jù)作為經(jīng)營的有效參考，其電商關(guān)聯(lián)規(guī)則分析函數(shù)可用公式（1）表示：

式中，I代表消費者消費意愿;P代表消費者瀏覽該電商平臺的時長;U代表消費者瀏覽所有電商平臺的時長。

分類與聚類分析是指，對電商的主要消費人群進(jìn)行分類和聚類分析，其分析過程是根據(jù)數(shù)據(jù)的提取再擬合實現(xiàn)的，針對用戶的分類信息，電商可有針對地進(jìn)行廣告的推送、消費習(xí)慣的分析以及消費的預(yù)判，鎖定消費人群進(jìn)行電子商務(wù)營銷。

與分類與聚類分析相類似，變化和偏差分析是根據(jù)電子商務(wù)主要消費對象，最近的瀏覽記錄、歷史記錄、消費行為進(jìn)行客戶的變化分析，以及偏差分析，其變化和偏差分析函數(shù)可用公式（2）表示：

式中，PD代表消費者的行為能力;R代表消費者的瀏覽記錄;I代表環(huán)境變化，如季節(jié)交替等;a代表消費者消費沖動系數(shù);

基于hadoop電商大數(shù)據(jù)分析模型的構(gòu)建，以及關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析，實現(xiàn)了基于hadoop技術(shù)的電商大數(shù)據(jù)分析。

3實例分析

為了驗證提出的基于Hadoop技術(shù)的電商大數(shù)據(jù)分析的準(zhǔn)確性，進(jìn)行了相關(guān)的仿真實驗。在相同環(huán)境條件下實驗，將對提出的基于Hadoop技術(shù)的電商大數(shù)據(jù)分析和傳統(tǒng)電商數(shù)據(jù)分析的準(zhǔn)確性進(jìn)行比較。

實驗過程中使用三臺已安裝win操作系統(tǒng)和Hadoop分布式文件系統(tǒng)的計算機，其中一臺計算機作為記錄數(shù)據(jù)節(jié)點使用，第二臺計算機作為記錄影子節(jié)點使用，最后一臺則作為記錄電子商務(wù)物流大數(shù)據(jù)儲存節(jié)點使用。

采取大型網(wǎng)絡(luò)網(wǎng)站的電子商務(wù)物流相關(guān)數(shù)據(jù)進(jìn)行輔助仿真實驗，所有采取的仿真實驗數(shù)據(jù)時間范圍控制在2019年2月1日到2019年4月1日。在該仿真實驗過程中進(jìn)行了五次的子實驗對比，對基于Hadoop技術(shù)的電商大數(shù)據(jù)分析方法和傳統(tǒng)電商數(shù)據(jù)分析方法進(jìn)行比較，兩者的數(shù)據(jù)對比結(jié)果如表1所示。

從仿真實驗結(jié)果表明，基于Hadoop技術(shù)的電商大數(shù)據(jù)分析在所有數(shù)據(jù)整合分析過程中要比傳統(tǒng)電商數(shù)據(jù)分析更為準(zhǔn)確。經(jīng)統(tǒng)計計算得出提出的數(shù)據(jù)分析方法，較傳統(tǒng)的數(shù)據(jù)分析方法，分析準(zhǔn)確率提高29.55%，適合電商大數(shù)據(jù)的分析。

4總結(jié)

本文提出了基于hadoop技術(shù)的電商大數(shù)據(jù)分析，利用基于hadoop電商大數(shù)據(jù)分析模型的構(gòu)建，基于關(guān)聯(lián)規(guī)則分析、分類與聚類分析、變化與偏差分析，實現(xiàn)了本文的研究，為保證大數(shù)據(jù)分析的有效性，進(jìn)行仿真試驗，試驗數(shù)據(jù)表明，提出的數(shù)據(jù)分析方法能夠滿足電商大數(shù)據(jù)的分析。實現(xiàn)了本文的研究，希望本文的研究能夠為電商大數(shù)據(jù)的分析提供理論數(shù)據(jù)。

參考文獻(xiàn)：

[1] 吳潤澤，包正睿，王文韜，等. Hadoop架構(gòu)下基于模式匹配的短期電力負(fù)荷預(yù)測方法[J]. 電工技術(shù)學(xué)報， 2018， 33（7）： 1542-1551.

[2] 曾志強，何小東，王穎，等. 基于Hadoop和Spark的森林火災(zāi)混合大數(shù)據(jù)分析系統(tǒng)研究[J]. 世界林業(yè)研究， 2018， 31（2）： 55-59.

[3] 馬躍，余騁遠(yuǎn)，于碧輝. 基于資源簽名與遺傳算法的Hadoop參數(shù)自動調(diào)優(yōu)系統(tǒng)[J]. 計算機應(yīng)用研究， 2017（11）：24-27+33.

[4] 王雪蓉，萬年紅. 基于跨境電商可控關(guān)聯(lián)性大數(shù)據(jù)的出口產(chǎn)品銷量動態(tài)預(yù)測模型[J]. 計算機應(yīng)用， 2017（04）：130-135+142.

[5] 謝彥祥，劉天琪，蘇學(xué)能. Hadoop架構(gòu)下基于分布式粒子群算法的暫態(tài)穩(wěn)定評估特征量選擇[J]. 電網(wǎng)技術(shù)， 2018， 12（12）.

【通聯(lián)編輯：光文玲】

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于hadoop技術(shù)的電商大數(shù)據(jù)分析