劉海 宋陽(yáng)陽(yáng) 王寶 孫瑞霜 蘇云飛 于改露
摘 要:隨著信息技術(shù)的高速發(fā)展,網(wǎng)絡(luò)購(gòu)物已經(jīng)走進(jìn)千家萬(wàn)戶。網(wǎng)絡(luò)購(gòu)物便捷化的方式使得人們可以隨時(shí)隨地選購(gòu)自己喜歡的物品和服務(wù)。在此背景下,網(wǎng)絡(luò)購(gòu)物行為數(shù)據(jù)呈現(xiàn)爆發(fā)式增長(zhǎng)。本文通過(guò)使用Hadoop大數(shù)據(jù)處理技術(shù)對(duì)網(wǎng)絡(luò)購(gòu)物行為數(shù)據(jù)進(jìn)行了系統(tǒng)性分析,并使用SSM框架技術(shù)對(duì)大數(shù)據(jù)分析的結(jié)果進(jìn)行了可視化展示。系統(tǒng)的實(shí)現(xiàn)將為網(wǎng)購(gòu)賣(mài)家提供更加具有實(shí)際指導(dǎo)意義的進(jìn)貨需求服務(wù)和客服服務(wù),也可以為買(mǎi)家提供較為精準(zhǔn)的購(gòu)物參考服務(wù),以幫助買(mǎi)家找到理想商品,提高購(gòu)物效率。
關(guān)鍵詞:Hadoop技術(shù);SSM框架;購(gòu)物行為;大數(shù)據(jù)技術(shù)
中圖分類(lèi)號(hào):F713.55;TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2021)28-00-03
Abstract: With the rapid development of information technology, online shopping has entered thousands of households. The convenient way of online shopping allows people to buy their favorite items and services anytime and anywhere. In this context, online shopping behavior data has shown explosive growth. This paper uses the Hadoop big data processing technology in the big data technology to systematically analyze the online shopping behavior data, and uses the SSM framework technology to visualize the results of the big data analysis. The implementation of the system will provide online shopping sellers with more practical guidance for purchase demand services and customer service. At the same time, it can also provide buyers with more accurate shopping reference services to help buyers find ideal products and improve shopping efficiency.
Keywords: Hadoop technology;SSM framework;shopping behavior;big data technology
隨著網(wǎng)絡(luò)信息技術(shù)越來(lái)越成熟,網(wǎng)絡(luò)購(gòu)物逐漸改變了人們的生活。如今的網(wǎng)絡(luò)購(gòu)物可以讓人們實(shí)現(xiàn)足不出戶,動(dòng)動(dòng)手指,產(chǎn)品就會(huì)隨著物流及時(shí)送到消費(fèi)者的手中[1]。日常生活中所需要的衣服、食品、電器甚至汽車(chē)等商品,都可以通過(guò)互聯(lián)網(wǎng)來(lái)進(jìn)行購(gòu)買(mǎi),因此互聯(lián)網(wǎng)購(gòu)物給人們的生活帶來(lái)了極大的便利。在網(wǎng)購(gòu)領(lǐng)域,目前淘寶、京東、拼多多等購(gòu)物平臺(tái)銷(xiāo)售額逐年增長(zhǎng),已在市場(chǎng)中占據(jù)主導(dǎo)地位。尤其是京東每年推出的“618”購(gòu)物節(jié)和淘寶推出的“雙11”購(gòu)物節(jié),當(dāng)天銷(xiāo)售額更是成為全民關(guān)注的焦點(diǎn)?!半p11”購(gòu)物節(jié)誕生以來(lái),淘寶和天貓銷(xiāo)售額2009年為0.52億元,到2020年時(shí)已經(jīng)達(dá)到了4 982億元[2]。在此背景下,網(wǎng)絡(luò)購(gòu)物行為數(shù)據(jù)量迅速增長(zhǎng),數(shù)據(jù)的增多給數(shù)據(jù)處理帶來(lái)了挑戰(zhàn)。如何快速高效地處理購(gòu)物行為數(shù)據(jù),并從中提取出有價(jià)值的信息,成為近年來(lái)的研究熱點(diǎn)。筆者將對(duì)網(wǎng)絡(luò)購(gòu)物行為大數(shù)據(jù)處理與分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)過(guò)程進(jìn)行詳述。
1 系統(tǒng)需求分析
對(duì)于數(shù)據(jù)分析,首要的工作是確定數(shù)據(jù)集的來(lái)源。本系統(tǒng)的數(shù)據(jù)集全部來(lái)自天池大數(shù)據(jù)眾智平臺(tái)(https://tianchi.aliyun.com/),通過(guò)注冊(cè)申請(qǐng)即可得到公開(kāi)的淘寶用戶行為數(shù)據(jù)集。該數(shù)據(jù)集中約有100萬(wàn)條用戶行為信息數(shù)據(jù),每一條數(shù)據(jù)內(nèi)容包括用戶ID、商品ID、商品類(lèi)目ID、行為類(lèi)型和時(shí)間戳等信息。數(shù)據(jù)集中包含商品類(lèi)目數(shù)量9 439個(gè),用戶數(shù)量987 994個(gè),商品數(shù)量4 162 024個(gè),所有行為數(shù)量之和高達(dá)1億個(gè)。面對(duì)如此龐大的數(shù)據(jù)集,傳統(tǒng)的MySQL或者Oracle數(shù)據(jù)庫(kù)已經(jīng)不足以支撐數(shù)據(jù)的分析和查詢操作,而大數(shù)據(jù)技術(shù)中的Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)數(shù)據(jù)存儲(chǔ)技術(shù)是專(zhuān)門(mén)針對(duì)大量數(shù)據(jù)而設(shè)計(jì)的。HDFS的高可靠性、高獲得性和分布式等特點(diǎn)為龐大的數(shù)據(jù)集存儲(chǔ)提供了保障,完全可以滿足數(shù)據(jù)存儲(chǔ)的需求。數(shù)據(jù)存儲(chǔ)完畢之后,它可按照功能需求對(duì)數(shù)據(jù)進(jìn)行系統(tǒng)性的處理和分析。目前,市場(chǎng)上的大數(shù)據(jù)分析工具較多。Hadoop作為出現(xiàn)較早的典型開(kāi)源分布式計(jì)算平臺(tái),因其可以運(yùn)行在Linux平臺(tái)上,且具有可靠性、可擴(kuò)展性、容錯(cuò)性、低成本和支持多種編程語(yǔ)言等優(yōu)點(diǎn),被廣泛應(yīng)用于各種大數(shù)據(jù)處理的場(chǎng)景。百度、網(wǎng)易、華為、中國(guó)移動(dòng)及淘寶等企業(yè)都用Hadoop處理大量的數(shù)據(jù)信息[3],再加上Hadoop與HDFS的完美兼容性,完全可以滿足數(shù)據(jù)處理與分析的需求??紤]到前端的數(shù)據(jù)可視化SSM技術(shù)需要頻繁地訪問(wèn)數(shù)據(jù)分析的結(jié)果,將數(shù)據(jù)分析結(jié)果存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中是比較合理的一種方案。
通過(guò)對(duì)數(shù)據(jù)集進(jìn)行查看可知,每一條行為數(shù)據(jù)主要包含用戶ID、商品ID、商品類(lèi)目ID、行為類(lèi)型和時(shí)間戳5個(gè)字段。其中,行為類(lèi)型字段包括點(diǎn)擊、購(gòu)買(mǎi)、加購(gòu)及喜歡4種屬性。通過(guò)分析消費(fèi)者的行為類(lèi)型占比,可以滿足各店家調(diào)整營(yíng)銷(xiāo)策略的需求;通過(guò)分析一天中各個(gè)時(shí)間段的購(gòu)物人數(shù),可以滿足賣(mài)家了解消費(fèi)者購(gòu)物時(shí)間的需求;通過(guò)分析每日的購(gòu)物人數(shù),可以滿足賣(mài)家了解消費(fèi)者購(gòu)物時(shí)間傾向的需求;通過(guò)分析商品數(shù)量排名,可以滿足賣(mài)家了解消費(fèi)者商品喜好的需求;通過(guò)分析商品類(lèi)目排名,可以滿足商家及時(shí)調(diào)整商品營(yíng)銷(xiāo)策略以適應(yīng)消費(fèi)者購(gòu)物導(dǎo)向的需求。
2 系統(tǒng)可行性分析
2.1 技術(shù)可行性
本系統(tǒng)所有的操作都計(jì)劃在Linux操作系統(tǒng)下實(shí)現(xiàn)。Linux操作系統(tǒng)操作命令簡(jiǎn)單,較易上手。整個(gè)大數(shù)據(jù)技術(shù)環(huán)境的搭建,包括JDK、Hadoop、Sqoop和MySQL數(shù)據(jù)庫(kù)也都計(jì)劃在Linux系統(tǒng)上完成。Linux與大數(shù)據(jù)技術(shù)的兼容性良好,將使整個(gè)搭建過(guò)程更具簡(jiǎn)潔性和易操作性。對(duì)于大數(shù)據(jù)分析結(jié)果的數(shù)據(jù)可視化,本系統(tǒng)計(jì)劃使用易學(xué)易用的SSM框架技術(shù)實(shí)現(xiàn),且前端與后端之間通過(guò)MySQL數(shù)據(jù)庫(kù)實(shí)現(xiàn)分離。綜上所述,本系統(tǒng)在技術(shù)層面完全可行。
2.2 操作可行性
本平臺(tái)計(jì)劃采用交互性較強(qiáng)的Web界面,操作簡(jiǎn)單、直觀,對(duì)使用者沒(méi)有太多的技術(shù)要求[4]。用戶使用系統(tǒng)之前不需要經(jīng)過(guò)專(zhuān)業(yè)的培訓(xùn)指導(dǎo),并且系統(tǒng)對(duì)用戶的計(jì)算機(jī)專(zhuān)業(yè)素養(yǎng)要求也不高,只要具備日常的上網(wǎng)能力和一些基本的計(jì)算機(jī)操作常識(shí),就可以理解并且熟練地使用系統(tǒng)。綜上所述,本系統(tǒng)在操作層面完全可行。
2.3 經(jīng)濟(jì)可行性
本系統(tǒng)所計(jì)劃使用的開(kāi)發(fā)工具都是開(kāi)源的,數(shù)據(jù)集全部來(lái)自天池大數(shù)據(jù)眾智平臺(tái),通過(guò)注冊(cè)申請(qǐng)可以免費(fèi)得到。本系統(tǒng)計(jì)劃由團(tuán)隊(duì)成員獨(dú)立完成,遇到難以解決的問(wèn)題一般通過(guò)互聯(lián)網(wǎng)查詢即可解決,沒(méi)有產(chǎn)生其他額外費(fèi)用。此外,本系統(tǒng)面向的用戶也極其廣泛,無(wú)論是商家還是消費(fèi)者,應(yīng)用價(jià)值都頗高。綜上所述,本系統(tǒng)在經(jīng)濟(jì)層面也完全可行。
3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
3.1 數(shù)據(jù)處理流程設(shè)計(jì)
在搭建好大數(shù)據(jù)系統(tǒng)環(huán)境的基礎(chǔ)上,按照大數(shù)據(jù)的數(shù)據(jù)處理流程,需要先將申請(qǐng)下載好的原始淘寶用戶行為數(shù)據(jù)集進(jìn)行篩選,篩選后的數(shù)據(jù)上傳到分布式文件存儲(chǔ)系統(tǒng)HDFS中,而后在數(shù)據(jù)倉(cāng)庫(kù)Hive中進(jìn)行數(shù)據(jù)分析。Hive是Hadoop的一個(gè)數(shù)據(jù)倉(cāng)儲(chǔ)工具,可將結(jié)構(gòu)化數(shù)據(jù)文件映射為數(shù)據(jù)庫(kù)表并存儲(chǔ)到HDFS上,可把SQL語(yǔ)句轉(zhuǎn)換為MapReduce程序運(yùn)行[5]。數(shù)據(jù)分析完畢后,因?yàn)榻Y(jié)果數(shù)據(jù)一般不大,因此可將分析結(jié)果數(shù)據(jù)存儲(chǔ)到MySQL數(shù)據(jù)庫(kù)中,使數(shù)據(jù)看起來(lái)井然有序,直觀易懂。服務(wù)端通過(guò)讀取MySQL數(shù)據(jù)庫(kù)中的數(shù)據(jù),利用數(shù)據(jù)可視化SSM框架技術(shù)將分析結(jié)果進(jìn)行更加直觀的圖表化展示。綜上所述,數(shù)據(jù)整體處理流程設(shè)計(jì)過(guò)程如圖1所示。
3.2 功能設(shè)計(jì)
下載好的數(shù)據(jù)集中,每一條用戶行為數(shù)據(jù)主要包含用戶ID、商品ID、商品類(lèi)目ID、行為類(lèi)型和時(shí)間戳5個(gè)字段。
通過(guò)分析可知,行為類(lèi)型字段又包括點(diǎn)擊、購(gòu)買(mǎi)、加購(gòu)、喜歡4種行為屬性。通過(guò)對(duì)所有用戶的行為類(lèi)型屬性進(jìn)行統(tǒng)計(jì),可得到每種屬性在4種行為屬性中的占比,對(duì)于賣(mài)家進(jìn)一步提升自己的服務(wù)讓更多的用戶購(gòu)買(mǎi)甚至是回購(gòu)至關(guān)重要。
已知數(shù)據(jù)集中包括各個(gè)商品ID字段,通過(guò)統(tǒng)計(jì)各個(gè)商品的銷(xiāo)售數(shù)據(jù),可以分析出商品銷(xiāo)售量排名;已知數(shù)據(jù)集中包括各個(gè)商品類(lèi)目ID字段,通過(guò)統(tǒng)計(jì)各個(gè)商品類(lèi)目銷(xiāo)售數(shù)據(jù),可以分析出商品銷(xiāo)售類(lèi)目排名;已知數(shù)據(jù)集中消費(fèi)者購(gòu)物的具體時(shí)間字段,通過(guò)切分時(shí)間,只保留具體的日份值,可以分析出用戶購(gòu)物的日份人數(shù)和比例;通過(guò)切分時(shí)間,只保留精確的小時(shí)值,并對(duì)小時(shí)值的數(shù)量進(jìn)行統(tǒng)計(jì)分析,就可確定一天中各時(shí)間段具體的購(gòu)物人數(shù)和比例,對(duì)于賣(mài)家集中時(shí)間點(diǎn)提升服務(wù)人員數(shù)量和質(zhì)量以充分滿足消費(fèi)者購(gòu)物需求具有重要價(jià)值。
3.3 系統(tǒng)實(shí)現(xiàn)
上述設(shè)計(jì)完成之后,通過(guò)大數(shù)據(jù)編程和前端編程實(shí)現(xiàn)本系統(tǒng)。本系統(tǒng)在數(shù)據(jù)可視化方面選用了SSM框架實(shí)現(xiàn),主要原因在于SSM中的Spring MVC組件和MyBatis組件均屬于比較輕量級(jí)的功能開(kāi)發(fā)組件,其部署應(yīng)用對(duì)于平臺(tái)的資源要求比較低,且邏輯處理過(guò)程充分發(fā)揮了輕量級(jí)的優(yōu)點(diǎn),可以獲得較高的處理效率,降低系統(tǒng)的編碼難度[6]。
從圖2可以看出,買(mǎi)家點(diǎn)擊行為數(shù)量在各個(gè)時(shí)間點(diǎn)都要遠(yuǎn)高于同時(shí)間段的其他行為,在一天24 h中,買(mǎi)家點(diǎn)擊、購(gòu)買(mǎi)、添加購(gòu)物車(chē)和收藏等行為數(shù)量從18:00開(kāi)始增長(zhǎng),直到22:00到達(dá)頂峰后開(kāi)始減少,到晚上23:00后各種行為數(shù)量開(kāi)始趨于平緩。因此,對(duì)于商家和賣(mài)家來(lái)說(shuō),服務(wù)的主要精力應(yīng)該放在18:00—23:00。
4 結(jié)語(yǔ)
隨著互聯(lián)網(wǎng)和移動(dòng)開(kāi)發(fā)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)購(gòu)物人數(shù)日益增多,海量的商品使人應(yīng)接不暇,一定程度上給消費(fèi)者和商家造成了困擾。消費(fèi)者如何在大量的商品中購(gòu)買(mǎi)到理想的高性價(jià)比商品,商家如何掌握消費(fèi)者的喜好對(duì)產(chǎn)業(yè)進(jìn)行系統(tǒng)優(yōu)化調(diào)整成為了當(dāng)務(wù)之急,而購(gòu)物行為分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)有助于解決這一難題。通過(guò)分析各個(gè)商品的排名和商品類(lèi)目排名,可以幫助消費(fèi)者在琳瑯滿目的商品中鎖定心儀商品,并且進(jìn)行初步了解和客觀判斷,極大地節(jié)省挑選商品的時(shí)間,同時(shí)可以使商家了解消費(fèi)者的需求和喜好,以便對(duì)產(chǎn)業(yè)及時(shí)作出相應(yīng)的調(diào)整。通過(guò)了解一天中各個(gè)時(shí)間段的購(gòu)物人數(shù),商家可以及時(shí)對(duì)客服和工作人員的數(shù)量做出調(diào)整,以改善消費(fèi)者的購(gòu)物體驗(yàn),提高銷(xiāo)售量。
綜上所述,本系統(tǒng)中商品排名和商品類(lèi)目排名、消費(fèi)者行為類(lèi)型占比等各個(gè)功能的實(shí)現(xiàn),不論是對(duì)商家還是消費(fèi)者都助益良多,具有極高的參考價(jià)值,能夠滿足用戶的需要,適應(yīng)市場(chǎng)的需求。
參考文獻(xiàn):
[1]顧璟.智慧物流企業(yè)配送效率影響因素分析[J].時(shí)代汽車(chē),2021(19):21-22.
[2]任曉寧.雙十一“靜悄悄”[N].經(jīng)濟(jì)觀察報(bào),2021-11-15(18).
[3]石方夏,高屹.Hadoop大數(shù)據(jù)技術(shù)應(yīng)用分析[J].現(xiàn)代電子技術(shù),2021(19):153-157.
[4]劉海,王壯壯,喬昭源,等.基于SSM框架的校園幫平臺(tái)的設(shè)計(jì)與開(kāi)發(fā)[J].數(shù)字化用戶,2020(45):20-22.
[5]張鳳斌.高校圖書(shū)館學(xué)科服務(wù)小數(shù)據(jù)系統(tǒng)的構(gòu)建與優(yōu)化[J].圖書(shū)館,2021(11):64-68.
[6]尤洋.供電公司機(jī)房環(huán)境集中監(jiān)控系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].成都:電子科技大學(xué),2019:58-60.
3534500338261