• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)據(jù)挖掘在跨境電商客戶特征分析中的應(yīng)用

      2021-07-19 21:41:44孫海波
      電腦知識(shí)與技術(shù) 2021年15期
      關(guān)鍵詞:跨境電子商務(wù)特征分析數(shù)據(jù)挖掘

      孫海波

      摘要:近些年來(lái),經(jīng)濟(jì)全球化程度逐步加深,互聯(lián)網(wǎng)信息技術(shù)迅速發(fā)展,跨境電子商務(wù)已然變成了中外貿(mào)易的新增長(zhǎng)點(diǎn)。同時(shí),在跨境電商平臺(tái)上,銷(xiāo)售的商品日益豐富。對(duì)于消費(fèi)者來(lái)說(shuō),要在這么海量的商品里面,選擇符合他需求的商品是一個(gè)普遍存在的問(wèn)題困境。通過(guò)統(tǒng)計(jì)分析和挖掘跨境電商客戶自身的一些屬性特征和其購(gòu)買(mǎi)的商品的一些屬性特征,為跨境電商企業(yè)的營(yíng)銷(xiāo)策略和物流布局提供參考,幫助消費(fèi)者快速挑選到滿意的商品。

      關(guān)鍵詞:數(shù)據(jù)挖掘; 跨境電子商務(wù); 特征分析; Hadoop; FP-Growth算法

      中圖分類(lèi)號(hào):F272.3? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2021)15-0239-03

      Abstract:In recent years, with the deepening of economic globalization and the rapid development of Internet information technology, cross-border e-commerce has become a new growth point of Sino foreign trade. At the same time, on the cross-border e-commerce platform, more and more goods are sold. It is a common problem for consumers to choose the products that meet their needs in such a large number of commodities. Through statistical analysis and mining some attribute characteristics of cross-border e-commerce customers and their purchased goods, this paper provides reference for marketing strategy and logistics layout of cross-border e-commerce enterprises, and helps consumers quickly select satisfactory goods.。

      Key words:data mining; cross border e-commerce; feature analysis; hadoop;? fp-growth algorithm

      1 引言

      11月4日晚,第三屆中國(guó)國(guó)際進(jìn)口博覽會(huì)開(kāi)幕式在上海舉行,盡管受到疫情影響,今年中國(guó)擴(kuò)大開(kāi)放的步伐仍在加快。對(duì)企業(yè)來(lái)說(shuō),跨境電子商務(wù)構(gòu)建的開(kāi)放、多維、立體的多邊經(jīng)貿(mào)合作模式,極大地拓寬了進(jìn)入國(guó)際市場(chǎng)的路徑,大大促進(jìn)了多邊資源的優(yōu)化配置與企業(yè)間的互利共贏[1];對(duì)于消費(fèi)者來(lái)說(shuō),跨境電子商務(wù)使他們非常容易地獲取其他國(guó)家的信息并買(mǎi)到物美價(jià)廉的商品。通過(guò)數(shù)據(jù)分析和數(shù)據(jù)挖掘的方法分析以往的跨境電商業(yè)務(wù)數(shù)據(jù)來(lái)分析跨境電商客戶的特征,給出對(duì)于企業(yè)的一個(gè)更好的營(yíng)銷(xiāo)策略和消費(fèi)者更好的一個(gè)消費(fèi)體驗(yàn)。

      2 算法及數(shù)據(jù)預(yù)處理

      2.1 算法

      在本研究中,我們采用FP-Growth算法挖掘頻繁項(xiàng)集,F(xiàn)P-Growth算法的主要思想是:將代表頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮存儲(chǔ)在頻繁模式樹(shù)中,每條事務(wù)數(shù)據(jù)中的項(xiàng)之間的關(guān)系被保留在頻發(fā)模式樹(shù)中。然后,將頻繁模式樹(shù)按照條件模式基拆分成一組條件FP樹(shù),并分別挖掘這些條件FP樹(shù)[2]。

      FP-Growth算法的步驟:

      1) 第一次掃描數(shù)據(jù)庫(kù),尋找頻繁1-項(xiàng)集,并按照由大到小的順序排序;

      2) 創(chuàng)建FP模式樹(shù)的根結(jié)點(diǎn),記為“null”;

      3) 根據(jù)頻繁1-項(xiàng)集的順序?qū)?shù)據(jù)庫(kù)中的每條事務(wù)數(shù)據(jù)進(jìn)行排序,并存儲(chǔ)在FP模式樹(shù)中,并建立項(xiàng)頭表;

      4) 為每一個(gè)頻繁1-項(xiàng)集尋找前綴路徑,組成條件模式基,并建立條件FP樹(shù);

      5) 遞歸挖掘條件FP樹(shù),獲得頻繁項(xiàng)集。

      2.2 數(shù)據(jù)預(yù)處理

      由于跨境電商業(yè)務(wù)的多年開(kāi)展,其中的數(shù)據(jù)庫(kù)中存儲(chǔ)著大量的數(shù)據(jù)包括商品的物流信息、商品信息、訂單信息、報(bào)關(guān)信息等[3]。這些信息中很大程度上可以代表了消費(fèi)者的消費(fèi)習(xí)慣,但這些數(shù)據(jù)中同時(shí)也包含了大量對(duì)本次實(shí)驗(yàn)無(wú)用的數(shù)據(jù)和噪音,因此要再分析數(shù)據(jù)的構(gòu)成和意義,篩選其中有用的數(shù)據(jù),并預(yù)處理后作為本次實(shí)驗(yàn)的分析對(duì)象[4],本文從存儲(chǔ)在SqlServer數(shù)據(jù)庫(kù)中的物流信息表、商品信息明細(xì)表等四張表中獲取實(shí)驗(yàn)所需的數(shù)據(jù)進(jìn)行數(shù)據(jù)的預(yù)處理。以下是對(duì)于各表的介紹。

      在物流信息表(Tbl_ImportLogisticsInfo)中包含了很多消費(fèi)者購(gòu)買(mǎi)物品后的物流相關(guān)信息,但是本次實(shí)驗(yàn)所需字段僅兩個(gè)即省份ConsigneeProvince和城市ConsingeeCity字段。省份字段可以根據(jù)省份代碼對(duì)照表找出消費(fèi)者所在省份,根據(jù)城市字段和城市等級(jí)劃分表得出消費(fèi)者所在城市的等級(jí) 。 在商品信息明細(xì)表(Tbl_IDX_CUSTOM_IE_DETAILS)中,選取CreateTime(下單時(shí)間)、ORIGIN_COUNTRY(原產(chǎn)國(guó))、DECL_PRICE(商品單價(jià))、DECL_TOTAL(商品總價(jià))、CODE_TS(商品編碼) 作為實(shí)驗(yàn)的數(shù)據(jù)。根據(jù)下單時(shí)間劃分出下單時(shí)間范圍區(qū)間,根據(jù)商品原產(chǎn)國(guó)代碼和國(guó)家代碼對(duì)照表找出商品的原產(chǎn)國(guó)家,根據(jù)商品的單價(jià)和商品的總價(jià)分別處理,得到消費(fèi)者的消費(fèi)金額區(qū)間。報(bào)關(guān)信息表(Tbl_IDX_CUSTOM_IE_HEADER)中包含的是通關(guān)過(guò)程中所需的一些信息,其中本文只獲取公司代碼CompanyID這一字段,根據(jù)公司代碼字段判斷出消費(fèi)者所在的消費(fèi)平臺(tái)。(訂單信息表)Tbl_ImportOrder中選取ConsigneeCard身份證號(hào)字段,根據(jù)身份證的編碼規(guī)則判斷出訂單消費(fèi)的性別信息,以及年齡段信息

      據(jù)上述的數(shù)據(jù)進(jìn)行處理得出表1客戶及其購(gòu)買(mǎi)商品屬性維度及維度值,該圖表從多個(gè)維度出發(fā)用于描述出跨境電商客戶所可能具有的一些特征。

      3 實(shí)驗(yàn)

      由于本次實(shí)驗(yàn)的數(shù)據(jù)倉(cāng)庫(kù)采用的Hadoop集群,程序采用的是Maven框架所以需要搭建Hadoop的集群環(huán)境和Maven框架的搭建及編碼。

      3.1 Hadoop集群環(huán)境搭建

      由于本次實(shí)驗(yàn)所采用的Hadoop集群采用的是主從結(jié)構(gòu),slave1、slave2做兩條從機(jī),master服務(wù)器作為主機(jī)。三臺(tái)服務(wù)器的IP地址如圖1所示。在實(shí)驗(yàn)中各服務(wù)器所需要安裝的軟件如圖2所示。

      在圖3中是將SqlServer數(shù)據(jù)經(jīng)過(guò)處理后存儲(chǔ)在Hive中的部分?jǐn)?shù)據(jù)。

      3.2 Maven框架項(xiàng)目搭建

      實(shí)驗(yàn)的相關(guān)業(yè)務(wù)是在Maven框架下采用Java語(yǔ)言進(jìn)行實(shí)現(xiàn)的,故首先需要搭建一個(gè)Maven項(xiàng)目然后進(jìn)行實(shí)際的業(yè)務(wù)處理。相關(guān)業(yè)務(wù)模塊包括,源數(shù)據(jù)處理模塊、源數(shù)據(jù)分析模塊和Hadoop數(shù)據(jù)挖掘分析模塊。

      項(xiàng)目框架搭建之后進(jìn)行各模塊的編碼工作,在源數(shù)據(jù)處理模塊中首先需要進(jìn)行SqlServer數(shù)據(jù)庫(kù)的連接,程序采用JDBC的連接方式獲取到程序所需的源數(shù)據(jù),在獲取到源數(shù)據(jù)之后進(jìn)行源數(shù)據(jù)的一個(gè)數(shù)據(jù)預(yù)處理的工作,數(shù)據(jù)的預(yù)處理包括根據(jù)物流信息表中的城市字段判斷出用戶所在的城市等級(jí)和所在區(qū)域,根據(jù)商品信息中的商品編碼判斷出商品的類(lèi)別,根據(jù)訂單表中的身份證信息判斷出客戶的年齡信息和性別信息。在源數(shù)據(jù)分析模塊中將上一步獲取的源數(shù)據(jù)根據(jù)客戶的年齡、客戶所在區(qū)域和客戶購(gòu)物的時(shí)間統(tǒng)計(jì)分析各個(gè)節(jié)點(diǎn)的單量,從而判斷出客戶購(gòu)買(mǎi)跨境電商商品的一些特征。在Hadoop數(shù)據(jù)挖掘分析模塊中利用Maven中的相關(guān)依賴將預(yù)處理過(guò)后的數(shù)據(jù)導(dǎo)入到Hive中,并采用FP-Growth算法對(duì)數(shù)據(jù)進(jìn)行挖掘分析,找出頻繁項(xiàng)集。序采用的是Maven框架所以需要搭建Hadoop的集群環(huán)境和Maven框架的搭建及編碼。

      3.3 實(shí)驗(yàn)結(jié)果

      1)在挖掘出的頻繁項(xiàng)集中可以發(fā)現(xiàn),little、f、SZBH出現(xiàn)多次,其中l(wèi)ittle代表是購(gòu)買(mǎi)少量商品,f代表的女性客戶,SZBH代表的是一家跨境電商公司。從頻繁項(xiàng)集中可以分析得出,大部分人還是購(gòu)買(mǎi)跨境電商的貨物都是少量并且女性購(gòu)買(mǎi)者居多,這也符合跨境電子商務(wù)小包裹數(shù)量少的特點(diǎn),同時(shí)結(jié)合日常生活經(jīng)驗(yàn),相比男性可能女性更熱衷于網(wǎng)上購(gòu)物。通過(guò)程序運(yùn)行后的實(shí)際情況如圖4所示。

      2)在根據(jù)下單時(shí)間進(jìn)行單量的統(tǒng)計(jì)是發(fā)現(xiàn)跨境電商消費(fèi)者在購(gòu)買(mǎi)時(shí)間上的特征比如在凌晨5點(diǎn)的時(shí)候訂單量是最少的而上午10點(diǎn)的時(shí)候是訂單最多的時(shí)候,分析原因也合乎邏輯,上午5點(diǎn)的時(shí)候大部分人還在休息自然下單量最少,而上午10點(diǎn)單量最多,說(shuō)明大家更加傾向于在這個(gè)時(shí)間段進(jìn)行消費(fèi)。根據(jù)下單時(shí)間統(tǒng)計(jì)的實(shí)際單量統(tǒng)計(jì)如圖5所示。

      3)在根據(jù)年齡段的分析中發(fā)現(xiàn),90后是購(gòu)買(mǎi)的主力,而00后或更小60后或更大的年齡群體購(gòu)買(mǎi)力下降明顯。分析原因可能是00后或更小的經(jīng)濟(jì)實(shí)力較差,而60后或更大的年齡層消費(fèi)者對(duì)于跨境電商業(yè)務(wù)可能不是太感興趣,而90后消費(fèi)者從經(jīng)濟(jì)方面和新業(yè)務(wù)的了解和接受方面分析都優(yōu)于其他年齡層次消費(fèi)者。根據(jù)年齡段統(tǒng)計(jì)的實(shí)際單量統(tǒng)計(jì)如圖6所示。

      4)在購(gòu)買(mǎi)區(qū)域上統(tǒng)計(jì)分析中發(fā)現(xiàn)發(fā)達(dá)城市是購(gòu)買(mǎi)主力,比如深圳、上海,而在寧夏是最少的,這也符合人們合理的預(yù)期。在發(fā)達(dá)城市消費(fèi)的經(jīng)濟(jì)能力較好,而且發(fā)達(dá)城市的物流也比較有優(yōu)勢(shì),更適合業(yè)務(wù)的開(kāi)展。而在發(fā)展較為落后地區(qū)則有消費(fèi)者購(gòu)買(mǎi)力不足,物流成本高等問(wèn)題。

      根據(jù)購(gòu)買(mǎi)區(qū)域統(tǒng)計(jì)的實(shí)際單量統(tǒng)計(jì)如圖7所示。

      4 結(jié)論

      本文實(shí)驗(yàn)采用Maven框架,運(yùn)用Java語(yǔ)言進(jìn)行編碼實(shí)現(xiàn)了FP-Growth算法并將該算法運(yùn)用于處理后的數(shù)據(jù)進(jìn)行了分析。在搭建好的hadoop集群平臺(tái)上以及預(yù)處理過(guò)的數(shù)據(jù)和跨境電商客戶特征分析系統(tǒng)的設(shè)計(jì)的基礎(chǔ),上針對(duì)實(shí)際的情況進(jìn)行了測(cè)試。分析了實(shí)驗(yàn)所產(chǎn)生的頻繁項(xiàng)集以及數(shù)據(jù)本身的一些特性并得出符合邏輯的結(jié)論。根據(jù)實(shí)驗(yàn)結(jié)果可以得出,一些跨境電商客戶的消費(fèi)特征,從而滿足企業(yè)的營(yíng)銷(xiāo)效果,將相應(yīng)的跨境電商商品推薦給滿足該特征的跨境電商客戶,另一方面也給跨境電商客戶購(gòu)買(mǎi)跨境電商商品帶來(lái)了方便,使得他們可以快速地購(gòu)買(mǎi)到自己想要的商品。

      參考文獻(xiàn):

      [1] 李延光.基于Hadoop的海量工程數(shù)據(jù)處理技術(shù)研究[D].北京:北京交通大學(xué),2013.

      [2] 周詩(shī)慧.基于Hadoop的改進(jìn)的并行Fp-Growth算法[D].濟(jì)南:山東大學(xué),2013.

      [3] 馬盈.基于MapReduce構(gòu)造多維數(shù)據(jù)及關(guān)聯(lián)規(guī)則挖掘算法的研究與應(yīng)用[D].長(zhǎng)春:東北師范大學(xué),2013.

      [4] 李明江,盧玉.基于數(shù)據(jù)挖掘的電商中貴州茶葉產(chǎn)品分類(lèi)分析[J].黔南民族師范學(xué)院學(xué)報(bào),2015,35(4):78-82.

      [5] 王海青,呂曉安.數(shù)據(jù)挖掘在網(wǎng)購(gòu)商品特征分析中的應(yīng)用[J].廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2015,15(2):35-37.

      [6] 黃雅萍,馬可辛,周余洪,等.面向中小企業(yè)的電商平臺(tái)挖掘系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)時(shí)代,2015(4):18-20.

      [7] 雷玄.服裝篇:發(fā)貨延遲退貨率高[J].中國(guó)質(zhì)量萬(wàn)里行,2014(12):12-13.

      [8] 楊欣,呂本富,彭賡,等.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的突發(fā)事件對(duì)股票市場(chǎng)影響分析[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2013,43(23):17-28.

      [9] 羅紅梅.電商企業(yè)基于數(shù)據(jù)進(jìn)行精準(zhǔn)營(yíng)銷(xiāo)的探討[J].武漢商業(yè)服務(wù)學(xué)院學(xué)報(bào),2013,27(3):46-48.

      【通聯(lián)編輯:李雅琪】

      猜你喜歡
      跨境電子商務(wù)特征分析數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      2012 年南海夏季風(fēng)特征分析
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于專(zhuān)業(yè)群建設(shè)背景下高職國(guó)際貿(mào)易專(zhuān)業(yè)發(fā)展的探討
      文教資料(2016年20期)2016-11-07 12:04:28
      中小企業(yè)發(fā)展跨境電子商務(wù)的SWOT分析
      科技視界(2016年18期)2016-11-03 23:20:37
      國(guó)外跨境電子商務(wù)稅收發(fā)展經(jīng)驗(yàn)對(duì)我國(guó)的啟示
      我國(guó)跨境電商貿(mào)易平臺(tái)商業(yè)模式探析
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于PowerPC的脈內(nèi)特征分析算法的工程實(shí)現(xiàn)
      不良汽車(chē)駕駛行為特征分析
      河南科技(2014年16期)2014-02-27 14:13:27
      朝阳区| 双峰县| 二手房| 扬中市| 高州市| 永胜县| 星子县| 崇州市| 长沙县| 武邑县| 七台河市| 理塘县| 潞城市| 修文县| 玉门市| 西青区| 定边县| 四会市| 张掖市| 湖口县| 广河县| 罗山县| 赤城县| 黄浦区| 宁武县| 巴青县| 小金县| 青海省| 观塘区| 桐梓县| 罗源县| 河东区| 积石山| 宜黄县| 敦煌市| 华容县| 长治市| 芷江| 恩施市| 抚松县| 开平市|