• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Spark平臺的電子商務(wù)實(shí)時(shí)推薦系統(tǒng)建設(shè)和應(yīng)用

      2020-12-21 12:26:42蔣叢萃陳巧靈
      電子商務(wù) 2020年11期
      關(guān)鍵詞:電子商務(wù)

      蔣叢萃 陳巧靈

      摘要:隨著大數(shù)據(jù)時(shí)代的到來,大數(shù)據(jù)機(jī)器學(xué)習(xí)已然成為當(dāng)前研究的一項(xiàng)熱點(diǎn)。但是現(xiàn)如今的電商推薦系統(tǒng)存在著不同程度上的計(jì)算緩慢,無法根據(jù)根據(jù)用戶的實(shí)際需求進(jìn)行實(shí)時(shí)推薦。在這一背景下,本研究基于Spark平臺建設(shè)和實(shí)現(xiàn)電子商務(wù)實(shí)時(shí)推薦系統(tǒng)。相較于傳統(tǒng)的推薦系統(tǒng),本研究的系統(tǒng)通過以Spark平臺為基礎(chǔ),構(gòu)建了分布式日志采集和傳輸模塊,希望通過該系統(tǒng)來解決電子商務(wù)跨系統(tǒng)數(shù)據(jù)源的收集問題。其次,基于Spark平臺的矩陣分解推薦模型進(jìn)行離線訓(xùn)練,以此來提高離線訓(xùn)練的效率。最后,對電子商務(wù)網(wǎng)站的實(shí)時(shí)推薦系統(tǒng)進(jìn)行試驗(yàn)。

      關(guān)鍵詞:Spark平臺;實(shí)時(shí)推薦系統(tǒng);電子商務(wù)

      ★基金項(xiàng)目:2020年度廣西高校中青年教師基礎(chǔ)能力提升項(xiàng)目“基于大數(shù)據(jù)技術(shù)的快遞與電子商務(wù)產(chǎn)業(yè)聯(lián)動(dòng)模型構(gòu)建”階段性成果(2020KY47014);2017年度廣西高校中青年教師基礎(chǔ)能力提升項(xiàng)目“‘一帶一路戰(zhàn)略背景下廣西商務(wù)服務(wù)業(yè)創(chuàng)新創(chuàng)業(yè)的路徑研究”階段性成果(2017KY1267)。

      近幾年以來,隨著電子商務(wù)的發(fā)展,大數(shù)據(jù)成為了各個(gè)電商平臺發(fā)展的重點(diǎn)。電子商務(wù)平臺上所擁有的大量商品種類和大概的商品分類導(dǎo)致用戶在選擇商品時(shí)無法實(shí)現(xiàn)高效快速,所以,如何使用戶可以更加高效的選擇所需商品已經(jīng)成為當(dāng)前電子商務(wù)平臺的研究重點(diǎn)。在這一背景下,電子商務(wù)推薦系統(tǒng)出現(xiàn)在人們的視線中,該系統(tǒng)可以根據(jù)用戶以往的搜尋記錄準(zhǔn)確的推薦商品,提高了電商的商品轉(zhuǎn)化率。雖然傳統(tǒng)平臺的推薦系統(tǒng)已經(jīng)可以處理絕大部分的問題,但是其問題在于離線訓(xùn)練速度慢。而在Spark平臺的基礎(chǔ)上進(jìn)行研究,其計(jì)算能力更為強(qiáng)大,可以更加快速的處理并行數(shù)據(jù)。

      1、基于Spark平臺的系統(tǒng)架構(gòu)

      1.1 系統(tǒng)架構(gòu)

      1.1.1 設(shè)計(jì)理念

      電商平臺中含有大量的用戶隱式行為,并且因?yàn)殡娚滔到y(tǒng)規(guī)模的擴(kuò)大化,導(dǎo)致系統(tǒng)的日志文件四處分散。而傳統(tǒng)的推薦系統(tǒng)無法對于用戶隱式行為日志進(jìn)行匯總,更別提進(jìn)行分析,所以無法實(shí)現(xiàn)實(shí)時(shí)推薦的目的[1]。本文設(shè)計(jì)理念是采用用戶隱式行為進(jìn)行用戶評分的構(gòu)建,并基于隱式數(shù)據(jù)源,將傳統(tǒng)平臺上的推薦系統(tǒng)轉(zhuǎn)移到Spark平臺,通過結(jié)合用戶實(shí)時(shí)點(diǎn)擊流,對于用戶行為進(jìn)行分析,將適合用戶的實(shí)時(shí)反饋到推薦列表。

      在上圖中,基于Spark平臺的電子商務(wù)實(shí)時(shí)推薦系統(tǒng)可以分為三層,第一層為離線處理層,第二層為服務(wù)層,第三層則是實(shí)時(shí)處理層。在服務(wù)層中,系統(tǒng)會(huì)將請求下發(fā),而采用網(wǎng)關(guān)集群前,利用HTTP服務(wù)器負(fù)載均衡之后,構(gòu)建分布式日志框架,并將分布式日志采集Agentility安裝到網(wǎng)關(guān)服務(wù)器上,以此來對于各業(yè)務(wù)系統(tǒng)的日志信息進(jìn)行采集、訪問。因?yàn)殡娮由虅?wù)平臺的日志具有海量的產(chǎn)出,所以必須要有可靠地信息傳送出中間件,將其作為模型訓(xùn)練和數(shù)據(jù)源采集之間的橋梁,實(shí)現(xiàn)日志數(shù)據(jù)的統(tǒng)一下發(fā)。因?yàn)槿罩緮?shù)據(jù)中不僅含有眾多業(yè)務(wù)系統(tǒng)日志,還具有用戶點(diǎn)擊流日志,所以在進(jìn)行實(shí)時(shí)推薦的過程中,需實(shí)施統(tǒng)一的數(shù)據(jù)清洗。本系統(tǒng)基于Spark平臺中的相關(guān)技術(shù)來對于日志進(jìn)行處理,對于在固定時(shí)間間隔所收集到的數(shù)據(jù),Spark Streaming技術(shù)能夠根據(jù)時(shí)間分片進(jìn)行處理,以此來實(shí)現(xiàn)實(shí)時(shí)處理的目的[2]。

      其次,在離線處理層中,對于數(shù)據(jù)源中的用戶行為分級權(quán)重,該方式可以獲得用戶對商品的基本評價(jià)。傳統(tǒng)方案是通過利用離線推薦模型訓(xùn)練,但是其問題在于:抽象層次低,需要編寫冗余代碼;傳統(tǒng)平臺僅僅能夠提供兩個(gè)操作,分別為Map、 Reduce,所以在表達(dá)能力方面十分缺乏。而本研究則是通過利用Spark平臺進(jìn)行抽象,所得到的數(shù)據(jù)邏輯要更加的間斷,并且還可以提供多種操作和轉(zhuǎn)換,表達(dá)力相對較強(qiáng)。除此之外,Spark平臺相較于傳統(tǒng)平臺,其中間計(jì)算結(jié)果能夠緩存到內(nèi)存中,從而提高計(jì)算效率。

      離線處理層中,系統(tǒng)需及時(shí)處理用戶行為,同時(shí)還需要與離線推薦結(jié)果相結(jié)合,從而提高電商的實(shí)時(shí)推薦效果。由于傳統(tǒng)平臺只適合應(yīng)用在批處理的場景中,基于Spark平臺針對用戶訪問,可以實(shí)時(shí)過濾針日志信息,并在過濾過程中收集所需信息。另外,通過采取混合處理的方式,對于該商品類似的商品列表可以進(jìn)行重新排序,可以使電子商務(wù)平臺得到用戶最新行為,從而提高電子商務(wù)平臺的轉(zhuǎn)化率。

      基于Spark平臺的實(shí)時(shí)推薦系統(tǒng)相較于傳統(tǒng)的離線推薦系統(tǒng),能夠得到更快的訓(xùn)練速度以及反饋速度[3]。

      1.1.2 實(shí)時(shí)推薦系統(tǒng)環(huán)節(jié)

      在Spark Streaming端獲得數(shù)據(jù)之后,系統(tǒng)通過數(shù)據(jù)聚合、傳輸以及過濾等環(huán)節(jié),實(shí)現(xiàn)離線和實(shí)時(shí)推薦,最終返回到推薦列表中,而該推薦列表中融合了離線推薦和實(shí)時(shí)推薦結(jié)果。

      首先,計(jì)算隱式評分。電子商務(wù)平臺根據(jù)配置規(guī)則來分發(fā)用戶請求,但是需要分發(fā)給多臺應(yīng)用網(wǎng)關(guān),并通過應(yīng)用網(wǎng)關(guān)來調(diào)用各業(yè)務(wù)系統(tǒng)的請求。在應(yīng)用網(wǎng)關(guān)中植入分布式日志采集工具,然后收集日志信息,將信息進(jìn)行匯集發(fā)送到消息及群眾。而集群可以接入Spark Streaming,并進(jìn)行日志過濾,在過濾期間同樣可以得到用戶的商品瀏覽和交易行為的數(shù)據(jù),然后利用Shark來對于商品評分計(jì)算。

      其次,離線推薦模型訓(xùn)練。對于隱式評分計(jì)算結(jié)束后,能夠得到用戶ID、商品ID以及評分。而這些信息同樣也是離線推薦模型的數(shù)據(jù)源,因?yàn)樵谕粋€(gè)電商平臺上,用戶的購買數(shù)據(jù)總量較低,所以采用交替最小二成算法來計(jì)算隱式因子,經(jīng)過訓(xùn)練后能夠得出離線推薦模型。

      再次,生成離線推薦列表。在模型中依次放入電子商務(wù)平臺中的用戶,該步驟可以得到注冊用戶的離線推薦列表。為了可以有效的降低數(shù)據(jù)庫訪問壓力,可以將全部的推薦列表轉(zhuǎn)移到緩存系統(tǒng)[4]。

      最后,形成實(shí)時(shí)推薦列表。通過Spark平臺,將日志信息進(jìn)行過濾,得到日志點(diǎn)擊流,從其中抽取商品ID和用戶ID。已經(jīng)訓(xùn)練好的離線推薦模型來對于商品根據(jù)相似程度進(jìn)行排序,經(jīng)過排序后能夠得到商品中排名靠前的商品。根據(jù)推薦列表來進(jìn)行列表的構(gòu)建工作,對于系統(tǒng)的實(shí)時(shí)響應(yīng)速度加以優(yōu)化,推薦列表為用戶id和商品ID。

      1.2 系統(tǒng)的架構(gòu)設(shè)計(jì)

      1.2.1 實(shí)時(shí)采集分布式日志

      如下圖二所示為分布式日志采集模塊。電子商務(wù)平臺中的實(shí)時(shí)推薦系統(tǒng)中必須要具有大量隱式的用戶行為,而其主要是基礎(chǔ)數(shù)據(jù)。因?yàn)樵慈罩拘畔?huì)在眾多系統(tǒng)中分布,因此需要構(gòu)建分布式系統(tǒng),基于這一方式來進(jìn)行日志的收集工作。通過利用分布式日志收集工具Logstash來收集各業(yè)務(wù)子系統(tǒng)的日志[5]。

      在下圖二中,系統(tǒng)置入應(yīng)用在日志監(jiān)控方面能夠?qū)τ谌罩疚募l(fā)生的變化情況進(jìn)行實(shí)時(shí)監(jiān)測,同時(shí)還可以根據(jù)偏移量來讀取最新的日志信息,最后將日志進(jìn)行緩存。

      1.2.2 基于Kafka集群的數(shù)據(jù)傳輸

      實(shí)時(shí)采集模塊可以采集用戶行為日志,但是日志在進(jìn)行過濾前,因?yàn)槿罩玖鞯臄?shù)量非常大,所以飲食用戶行為日志數(shù)據(jù)的收集過程中,如何保障數(shù)據(jù)的實(shí)時(shí)性、避免數(shù)據(jù)丟失問題等,成為了關(guān)鍵問題。而Kafka是一種分布式消息訂閱和發(fā)布的系統(tǒng),基于電子商務(wù)平臺實(shí)時(shí)推薦系統(tǒng),為了可以承載大量的用戶行為日志信息,所以選擇構(gòu)建Kafka集群,為日志過濾提供了可靠的傳輸[6]。

      而Kafka集群的組成可以分為三個(gè)部分。分別是生產(chǎn)者、消費(fèi)者以及代理。其中,生產(chǎn)者意味著日志來源;消費(fèi)者代表消費(fèi)的使用者;而代理則表示消息的中間存儲(chǔ)層。其中,生產(chǎn)者回收集消息,并推送到代理中,而帶列在接收消息之后會(huì)對消息進(jìn)行本地持久化,消費(fèi)者才是消息最終的使用人員。Logstash日志監(jiān)控將會(huì)把處理好的日志傳送給Logstash日志聚合索引,最終根據(jù)實(shí)時(shí)推薦需求采取不同的過濾處理措施。

      1.2.3 基于Spark Streaming的日志過濾

      在進(jìn)行數(shù)據(jù)傳輸后,系統(tǒng)可以通過Spark Streaming來統(tǒng)一過濾日志,從而具有實(shí)時(shí)推薦的日志過濾模塊。Spark Streaming能夠接收到的日志信息中的噪聲數(shù)據(jù)非常多,所以要在其中選擇有效的信息。如下表一所示為Logstash的格式化日志。在實(shí)時(shí)推薦流程中,在點(diǎn)擊流日志數(shù)據(jù)選擇商品以及用戶的ID。利用電機(jī)商品調(diào)用的接口獲取商品詳情信息,并在代理層拉取日志信息,此時(shí)將會(huì)把用戶請求調(diào)用的接口記錄下來[7]。

      因?yàn)樵摫硪恢袃H僅只是Logstash所提供的前端,所以仍舊需要調(diào)用Spark Streaming對接收的日志調(diào)用filter函數(shù),過濾出其中所含有的商品詳情方法的日志,從而得到請求日志,并在消息中對于變量字段相對應(yīng)的內(nèi)容展開解析工作,這一步驟能夠獲得商品id,從而得到關(guān)鍵信息,為電子商務(wù)平臺的實(shí)時(shí)推薦提供了數(shù)據(jù)源。

      2、實(shí)驗(yàn)分析

      因?yàn)镾park平臺在對于人物進(jìn)行處理時(shí)具有著良好的效果,本文基于Spark平臺構(gòu)建電子商務(wù)平臺的實(shí)時(shí)推薦系統(tǒng)。為了對于Spark平臺和傳統(tǒng)平臺在對于任務(wù)處理計(jì)算過程中的性能差異,本次對于兩種平臺在作業(yè)執(zhí)行方面的性能上進(jìn)行對比。

      其中,Spark平臺在計(jì)算不同作業(yè)類型時(shí),性能平均的提升速度為4倍。ALS模型訓(xùn)練時(shí),由于需進(jìn)行多次迭代計(jì)算,所以,性能提升的效果十分明顯。這意味著Spark平臺的優(yōu)越性[8]。這意味著基于Spark平臺的電子商務(wù)網(wǎng)站的實(shí)時(shí)推薦系統(tǒng)可以承載日志信息,并且還可以根據(jù)用戶行為進(jìn)行及時(shí)推薦,有效的促進(jìn)網(wǎng)站的銷售提升,并且還提高了用戶的購物體驗(yàn)。

      3、結(jié)語

      當(dāng)前,幾乎所有的電商網(wǎng)站都在應(yīng)用推薦系統(tǒng),該系統(tǒng)可以針對用戶的需求進(jìn)行反饋,從而提高電子商務(wù)平臺的服務(wù)水平。本研究基于Spark平臺對于電商網(wǎng)站的實(shí)時(shí)推薦系統(tǒng)進(jìn)行了設(shè)計(jì),提出來實(shí)時(shí)推薦的相關(guān)流程,并且設(shè)計(jì)了分布式日志采集、傳輸模塊。通過利用Spark平臺來設(shè)計(jì)實(shí)時(shí)推薦系統(tǒng),Spark平臺在粗粒大數(shù)據(jù)上具有非常高的運(yùn)算性能,所以具備一定程度上的可行性,并且相較于傳統(tǒng)的平臺其運(yùn)行速度明顯更高,所以在電子商務(wù)網(wǎng)站中的實(shí)時(shí)推薦系統(tǒng)的設(shè)計(jì)中,Spark平臺的使用價(jià)值非常高。

      參考文獻(xiàn)

      [1] 岑凱倫,于紅巖,楊騰霄.大數(shù)據(jù)下基于Spark的電商實(shí)時(shí)推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī),2016,(24):61-69.

      [2] 劉志強(qiáng),顧榮,袁春風(fēng),等.基于 SparkR 的分類算法并行化研究[J]. 計(jì)算機(jī)科學(xué)與探索,2015,9(11):1281-1294.

      [3] 童啟,劉強(qiáng),許賽華, 等.基于相關(guān)物品的電子商務(wù)智能推薦系統(tǒng)研究[J].企業(yè)科技與發(fā)展,2019,(12):79-80.

      [4] 張光.基于離群數(shù)據(jù)挖掘的電子商務(wù)推薦系統(tǒng)研究[J].自動(dòng)化與儀器儀表,2017,(8):21-22,25.

      [5] 曾賢灝,趙錫英.基于關(guān)聯(lián)規(guī)則和 ART 的電子商務(wù)推薦系 統(tǒng)應(yīng)用研究[J].自動(dòng)化與儀器儀表,2016,(12):109-111.

      [6] 程芳.農(nóng)業(yè)電子商務(wù)中基于用戶興趣變化的協(xié)同過濾推薦技術(shù)研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2016,(5):41-44,47.

      [7] 陳虹君.基于Hadoop平臺的Spark框架研究[J].電腦知識 與技術(shù),2014(12X):8407-8408.

      [8] 胡德敏,龔燕.基于Spark的混合推薦算法研究[J].計(jì)算機(jī)應(yīng)用研究,2017,34(12):3585-3588.

      作者簡介:

      蔣叢萃,碩士,柳州城市職業(yè)學(xué)院講師,研究方向:電子商務(wù)、軟件開發(fā)。

      陳巧靈,碩士,柳州城市職業(yè)學(xué)院講師,研究方向:物流管理。

      猜你喜歡
      電子商務(wù)
      2025年我國農(nóng)村電子商務(wù)交易額達(dá)到2.8萬億元
      《電子商務(wù)法》如何助力直銷
      淺析中小企業(yè)電子商務(wù)服務(wù)外包
      電子商務(wù)實(shí)踐能力的提升探析
      電子商務(wù)
      電子商務(wù)模式創(chuàng)新的相關(guān)研究
      關(guān)于加快制定電子商務(wù)法的議案
      跨境電子商務(wù)中的跨文化思考
      基于AS仿真的電子商務(wù)交易系統(tǒng)研究
      電子商務(wù)人的核心能力
      西平县| 宿迁市| 威海市| 六盘水市| 昭觉县| 桑植县| 崇信县| 屯昌县| 武山县| 隆安县| 贵南县| 交城县| 巴中市| 合山市| 武城县| 徐闻县| 和龙市| 罗定市| 岳普湖县| 体育| 灵石县| 阜新市| 乌审旗| 花莲市| 德钦县| 高台县| 湖北省| 柳州市| 长宁县| 南阳市| 宝丰县| 奇台县| 陆川县| 揭西县| 资兴市| 许昌市| 剑河县| 涟源市| 汉川市| 德兴市| 乌兰县|