• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      一種融合歷史均值與提升樹的客流量預測模型

      2019-04-19 05:24:58白智遠溫從威楊錦浩
      計算機技術與發(fā)展 2019年4期
      關鍵詞:客流量均值銷量

      白智遠,溫從威,楊錦浩,陳 智,呂 品

      (上海電機學院 電子信息學院,上海 201306)

      0 引 言

      移動定位服務的發(fā)展使得互聯(lián)網(wǎng)商家“線上線下”的交易數(shù)據(jù)急劇增長[1-4]。分析這些數(shù)據(jù)中隱藏的用戶交易習慣和傾向性[5-6]對優(yōu)化商家的運營具有重要作用。近來年,出現(xiàn)了許多關于移動定位服務預測的研究。例如,付全興等[7]使用邏輯回歸和支持向量機,以4個月的電商數(shù)據(jù)為研究對象,預測用戶的購買行為;陳傳波等[8]把平滑加權的思想應用于實時模型預測,通過提取包含有趨勢的特征來提高預測模型的精確度;張昊等[9]利用XGBoost(extreme gradient boost)算法[10]實現(xiàn)了商品推薦中的用戶購買行為預測。他們將決策樹[11]、隨機森林[12]作為基線對比方法,研究發(fā)現(xiàn)變量的重要性對模型的構建有較大影響。

      文中借鑒上述研究的思想,提出了歷史均值與提升樹融合的互聯(lián)網(wǎng)商家客流量預測模型。該模型的本質(zhì)是提升樹模型與歷史均值模型,按照計算公式所求出的權重系數(shù),按照一定比例而融合的加權和,不僅考慮了如何提高模型的預測精度,而且還考慮了客流量的預測與時間的依賴關系。并且對不同模型的預測結(jié)果做出了對比分析。最后,將融合了歷史均值與提升樹的客流量預測模型所得到的結(jié)果與傳統(tǒng)的零售業(yè)結(jié)合,粗略進行了分析,對商家今后的運營提出了一些實質(zhì)性的建議。

      1 數(shù)據(jù)預處理

      1.1 數(shù)據(jù)描述

      文中使用的數(shù)據(jù)來自天池大數(shù)據(jù)平臺,共包含某年7月1日至次年10月31日的商家完整行為數(shù)據(jù),分為“商家特征”數(shù)據(jù)、“用戶支付行為”數(shù)據(jù)和“用戶瀏覽行為”數(shù)據(jù)。商家特征反映了商家的熱度,評分高以及評論好的商家,是提高用戶購買力的因素之一,除此之外,門店的等級、菜品的豐富程度也作為商家的考量之一。它的數(shù)據(jù)共包含7個屬性:商家ID、店鋪所在地、人均消費、評分、評論數(shù)、門店等級以及食品分類名稱;用戶支付行為特征反映了用戶的支付習慣方式,包含3個屬性:用戶ID、商家ID和用戶的支付時間;用戶瀏覽行為則反映了用戶的購買習慣,如果用戶經(jīng)常訪問同一個商家,結(jié)合其他兩個特征可以推斷出用戶所喜愛的商品種類、個人口味等信息,包含3個屬性:用戶ID、商家ID和用戶瀏覽商家的時間。

      1.2 數(shù)據(jù)預處理方法

      由于直接使用原始數(shù)據(jù)訓練模型不僅會產(chǎn)生誤差,還會耗費大量的計算資源,因此,對原始數(shù)據(jù)集進行了預處理,將原始數(shù)據(jù)中存在的異常值進行剔除、去重、歸一化等處理。一方面,由于商家從入駐口碑平臺到銷售量增加存在一定的啟動時間,并且可能出現(xiàn)某段時間銷量中斷的現(xiàn)象,因此,商家開業(yè)前7天的數(shù)據(jù)以及銷量中斷前后3天的數(shù)據(jù)不作為訓練數(shù)據(jù);另一方面,由于原始數(shù)據(jù)中存在短時間內(nèi)單個用戶大量購買的情況,為消除這種異常消費對預測的影響,采用了基于規(guī)則的方法對原始數(shù)據(jù)進行歸一化;另外,原始數(shù)據(jù)中還存在一些特殊時間節(jié)點和難以預計的大幅波動,如大型節(jié)假日(如中秋節(jié)、國慶節(jié)等)、停業(yè)、商家開展促銷活動時單個用戶大量購買的情況。對于這些基于規(guī)則的方法難以處理的異常值,文中采用了模型預訓練方法,即采用欠擬合算法對模型預訓練,清除原始數(shù)據(jù)中殘差為10%和25%的數(shù)據(jù)。由于預測目標是商家的日銷量,因此預處理后用于訓練的數(shù)據(jù)是按小時統(tǒng)計的商家的總銷量。

      此外,為提高模型預測的準確性,實驗中還采集了全國各省市的天氣數(shù)據(jù)以及節(jié)假日天氣數(shù)據(jù)作為原始數(shù)據(jù)的補充。在額外采集的氣溫、濕度、氣壓等數(shù)據(jù)中,根據(jù)經(jīng)驗,將天氣狀況簡單轉(zhuǎn)換為降水指數(shù)和天晴指數(shù)兩個指標。由于人體對于氣象參數(shù)的感受不成線性關系,故生成人體舒適度指數(shù)(comfort index of human body,SSD)作為模型訓練的一個重要特征。最終,模型訓練與預測使用的特征與標簽如表1所示。

      表1 模型訓練與預測使用的特征

      2 歷史均值與提升樹融合的客流量預測

      2.1 XGBoost的基本思想

      XGBoost是一種極限提升樹的機器學習方法,具有良好的擴展性,以及計算速度快、模型表現(xiàn)好等特點。對于數(shù)據(jù)集D={(xi,yi)},提升樹方法的核心是最小化式1所示的正則化目標函數(shù)。

      (1)

      一般,對上述目標函數(shù)進行二階泰勒展開(如式2),然后進行優(yōu)化。

      (2)

      假設樹結(jié)構q(x)已知,并且Ij={i|q(xi)=j}為葉節(jié)點j的樣本集合,可得葉節(jié)點j的最優(yōu)權重:

      (3)

      最后,采用貪心算法,從某一葉子開始,反復向樹中添加分支。假設IL和IR是分割后左右節(jié)點的實例集合。令I=IL∪IR,則分裂后的損失可由式4計算。

      (4)

      與傳統(tǒng)的GBDT模型對比,XGBoost還支持線性分類器,并且加入正則化因子,用于控制模型的復雜度。正則項里包含了樹的葉子節(jié)點個數(shù)等信息,它降低了模型的方差,使學習出來的模型更加簡單,防止過擬合,這也是XGBoost優(yōu)于傳統(tǒng)GBDT的一個特性。

      2.2 歷史均值模型的基本思想

      歷史均值模型是以預測日為基準,求出預測日之前到某一天的平均客流量、銷量增量等信息,再以權重系數(shù)作為融合的比例,預測未來14天的客流量。

      2.3 融合方法

      為獲得精確度高的客流量預測模型,文中采用了二個階段的訓練方法。第一次階段的訓練中,使用了XGBoost與GBDT(gradient boosting decision tree)模型。模型訓練的參數(shù)如表2和表3所示。每一種模型分別使用了2組參數(shù)進行訓練,總共獲得4個模型。

      表2 XGBoost算法的不同參數(shù)

      表3 GBDT算法的不同參數(shù)

      為了減小預測誤差,調(diào)整XGBoost與GBDT算法中樹的深度、學習率以及迭代次數(shù)的參數(shù),在XGBoost算法的1號模型中,一般情況下,學習率的值默認為0.1,而樹的最大深度默認為3。但是,對于不同的問題,理想的學習率有時會在一些特定的區(qū)間范圍之間波動。樹的深度越大,則對數(shù)據(jù)的擬合程度越高。因此,文中在確定XGBoost算法的2號模型的學習率以及樹的最大深度時,引入XGBoost算法中內(nèi)置的cv函數(shù),cv函數(shù)在每一輪迭代中使用交叉驗證,根據(jù)算法參數(shù)的調(diào)整,返回理想的決策樹數(shù)量。因此,通過cv函數(shù)較為精確的計算,將2號模型的學習率調(diào)至0.03,樹的最大深度為5。

      第二階段的訓練使用了歷史均值模型。歷史均值模型以預測日為基準,首先求出預測日之前的21天的銷量平均值,得到每天的平均銷量;其次,以周為單位,統(tǒng)計每周的銷量的中位數(shù)和平均值,通過線性擬合得到每周的銷量增量;最后,將每天的均值銷量與每周的銷量增量疊加,以此預測未來兩周的銷量。該模型把過去21天的歷史銷量的相關度矩陣作為輸入;將未來兩周的銷量和歷史均值模型與第一階段的模型融合的權重系數(shù)作為輸出。均值模型的融合比例最大為0.75。融合的權重系數(shù)計算如下:

      (5)

      由此,將XGBoost、GBDT和歷史均值模型得到的過去三周的平均銷量和銷量值,分別代入式5,可求出相應的權重系數(shù)為:0.47,0.34,0.19。最終,將訓練得到的2組XGBoost模型和2組GBDT的不同結(jié)果分別與歷史均值模型按0.47,0.34,0.19的比例融合,得到預測未來14天的客流量。

      3 實驗分析

      3.1 實驗設置

      該實驗采用的硬件為Inter(R) Core(TM) i5-5200U CPU @ 2.20 GHz。軟件環(huán)境中操作系統(tǒng)為Windows 7,開發(fā)環(huán)境為Python3.6。原始數(shù)據(jù)為2.13 GB,預處理后的數(shù)據(jù)為220 MB。為判斷XGBoost方法預測的有效性,實驗中引入了時間序列加權回歸的算法作為基線對比方法[8]。

      3.2 預測結(jié)果對比分析

      由于時間序列反映了實體屬性在時間順序上的特征[13],因此,實現(xiàn)了時間序列加權回歸算法,分析2種算法的預測結(jié)果后,得到的前500位互聯(lián)網(wǎng)商家在未來14天的客流量發(fā)展趨勢,如圖1和圖2所示。

      圖1 歷史均值與提升樹融合模型預測

      分析客流量發(fā)展趨勢可知:

      (1)與瀏覽動作相關的變量對模型的貢獻程度最大,這是因為瀏覽是用戶交互的最主要方式,其信息豐富程度遠高于其他特征;

      (2)部分商家可能所經(jīng)營的商品評價較高,顧客的返回率使得部分商家的客流量穩(wěn)步上升;

      (3)大部分的商家十四天總客流量已經(jīng)突破了5 000,少量甚至達到了約25 000的級別。這極有可能是商家近期的某種促銷活動所導致的。比如通過平臺派發(fā)不同程度的優(yōu)惠券、現(xiàn)金紅包、買滿一定金額優(yōu)惠等活動。但如何調(diào)整自己的運營策略,吸引到更多的客流量顯得至關重要。

      圖2 時間序列加權回歸模型預測

      3.3 性能分析

      通過優(yōu)化算法參數(shù),采用測試集樣本對建模結(jié)果進行評測[14],算法運行結(jié)果和精度測試如表4所示。

      表4 歷史均值與提升樹融合模型精度測試

      實驗中利用XGBoost自定義的評價函數(shù)對提出的模型進行了性能評估。調(diào)用評價函數(shù)時,傳入驗證集和驗證集上的預測值作為函數(shù)參數(shù),返回一個浮點類型的評估值fevalerror。fevalerror的值越大,模型預測精度越低。反之,fevalerror的值越小,模型預測精度越高。結(jié)果表明,隨著訓練集樣本大小的增加,運算時間增加,fevalerror值逐漸減小,精度上卻逐漸增加。由此,歷史均值與提升樹的融合模型具有預測精度較高、運算速度較快的優(yōu)勢。

      4 結(jié)束語

      將歷史均值模型與提升樹方法進行了融合,對互聯(lián)網(wǎng)商家的線上線下的真實用戶數(shù)據(jù)進行了特征提取和建模預測。并將提出的模型與時間序列加權回歸進行了預測結(jié)果與性能比較。實驗結(jié)果表明,融合歷史均值模型與提升樹模型的方法能有效實現(xiàn)互聯(lián)網(wǎng)商家客流量的預測。在互聯(lián)網(wǎng)高速發(fā)展的今天,對比傳統(tǒng)的零售行業(yè),互聯(lián)網(wǎng)商家的營銷對用戶消費給予了更多的關注,在產(chǎn)品詳情頁的介紹、客服服務、便捷的移動支付等方面都致力于為用戶帶來更好的消費體驗。通過這次客流量預測模型的構建和對用戶數(shù)據(jù)進行的挖掘,商家利用互聯(lián)網(wǎng)這一渠道,能夠更好地與用戶及時溝通,了解用戶感受,使互聯(lián)網(wǎng)商家與用戶建立了信任關系,吸引到更多忠實的用戶。這對互聯(lián)網(wǎng)商家的運營決策、降低成本、改善用戶體驗有著重要的現(xiàn)實意義。

      猜你喜歡
      客流量均值銷量
      同比增長130%!劍指3萬噸銷量,豐華黃顙料迎來大爆發(fā)
      盤點2018年車企銷量
      汽車觀察(2019年2期)2019-03-15 06:00:12
      基于嵌入式系統(tǒng)的商場客流量統(tǒng)計算法
      均值不等式失效時的解決方法
      均值與方差在生活中的應用
      上汽通用172萬銷量下的陰影
      家用汽車(2016年4期)2016-02-28 02:23:37
      基于AFC數(shù)據(jù)的城軌站間客流量分布預測
      關于均值有界變差函數(shù)的重要不等式
      對偶均值積分的Marcus-Lopes不等式
      從客流量推算公交出行PA矩陣的方法
      新绛县| 无锡市| 厦门市| 静海县| 宁蒗| 柘荣县| 彭泽县| 朔州市| 西乡县| 故城县| 永善县| 隆昌县| 资溪县| 婺源县| 九龙县| 宜阳县| 盘山县| 雅江县| 大名县| 冷水江市| 阿鲁科尔沁旗| 福安市| 宁国市| 富川| 浦城县| 师宗县| 盐亭县| 花莲县| 张家港市| 石渠县| 清原| 乌兰察布市| 普格县| 南和县| 三亚市| 伊吾县| 南汇区| 洛阳市| 株洲市| 常德市| 德昌县|