喬 媛,姜 江,夏江江,白 帆,蔣 志
(1.北京市氣象服務(wù)中心,北京100089;2.中國(guó)科學(xué)院大氣物理研究所,北京 100029;3.北京市門頭溝區(qū)氣象局,北京 102300)
客流量單數(shù)(以下簡(jiǎn)稱為客單數(shù))的實(shí)際含義是指客流量中有效的收入來源部分,即達(dá)到商場(chǎng)后的顧客真實(shí)買單的單數(shù)??蛦螖?shù)是經(jīng)營(yíng)環(huán)節(jié)中非常重要的指標(biāo),因?yàn)榭蛦螖?shù)越多,經(jīng)營(yíng)者的收入自然也越多。事實(shí)上,經(jīng)營(yíng)者常感到客單數(shù)變化的不可測(cè)、不可控。原因在于客單數(shù)受到很多因素的影響,且短期內(nèi)的客單數(shù)會(huì)呈現(xiàn)出比較復(fù)雜的非線性特征。加之國(guó)內(nèi)大部分經(jīng)營(yíng)者的信息化起步較晚,存在著歷史數(shù)據(jù)不連續(xù)或數(shù)據(jù)量較少的問題,致使以往的研究很難對(duì)客單數(shù)的影響因素進(jìn)行深入分析,造成了客單數(shù)的相關(guān)研究中,預(yù)測(cè)值和真實(shí)值之間存在著較大的偏差,難以開展進(jìn)一步的業(yè)務(wù)化應(yīng)用工作。
以往的客流量相關(guān)研究當(dāng)中,更多的是針對(duì)各類自然風(fēng)景區(qū)[1],而對(duì)居民區(qū)附近超市的客單數(shù)研究較少??紤]到景區(qū)是門票制,景區(qū)的門票數(shù)可以相當(dāng)于超市的客單數(shù),因而前人的研究方法同樣可以借鑒。早期的景區(qū)客流量預(yù)測(cè)方法以傳統(tǒng)的時(shí)間序列預(yù)測(cè)思路為主,如指數(shù)平滑模型[2]、時(shí)間序列模型[3-4]、多元回歸[5-6]、網(wǎng)絡(luò)搜索方法[7]等,但這些模型缺少對(duì)樣本學(xué)習(xí)的過程,重點(diǎn)放在時(shí)間趨勢(shì)的外推,對(duì)具有線性特征的客流量有很好的預(yù)測(cè)效果,但往往難以實(shí)現(xiàn)復(fù)雜的非線性客流量預(yù)測(cè)。隨著機(jī)器學(xué)習(xí)理論的深入推進(jìn),一些新的人工智能算法在電力、交通、旅游、氣象等短期非線性序列預(yù)測(cè)中得到了大量應(yīng)用[8-9]。如BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、最小二乘支持向量機(jī)、反向傳播神經(jīng)網(wǎng)絡(luò)等[10-13],均在客流量短期預(yù)測(cè)中取得了很好的應(yīng)用效果。
由于經(jīng)濟(jì)學(xué)與氣象學(xué)領(lǐng)域的學(xué)科交叉性,在預(yù)測(cè)要素的選擇時(shí),氣象因子在其中發(fā)揮的作用總是一定程度上被忽視[14-16]。實(shí)際上,氣象因子對(duì)客流主體的影響是不可忽略的。比如,天氣的“好”“壞”是可以直接感受到的。好的天氣會(huì)讓潛在的顧客感覺身體舒適、心情舒暢,使其出行購(gòu)買的欲望得到提升。反之,當(dāng)天氣條件不好的時(shí)候,會(huì)讓潛在顧客的出行購(gòu)物欲望降低。另外,從交通角度來說,天氣條件也影響著顧客目的地可達(dá)的難易程度。天氣條件有利,目的地可達(dá)程度容易,促使購(gòu)買變?yōu)楝F(xiàn)實(shí)。反之,天氣條件不利,目的地可達(dá)程度變難,導(dǎo)致購(gòu)買行為減少。當(dāng)然,“好天氣”“舒適的氣候”或“感到舒服的天氣”,在不同的人群中可能存在著一定的差異[17-18]。Martin等[19]的研究中也明確指出這些概念是相對(duì)的,對(duì)于一些人來說感到“舒適”時(shí),可能對(duì)另一些人來說則是相反的。就此問題,前人在相關(guān)的預(yù)測(cè)研究中會(huì)加入“氣候舒適度”作為一項(xiàng)輸入因素,以此來減弱客體主觀感受的差異,從而能夠盡可能地代表多數(shù)人的感受[20-21]。
鑒于此,建立一個(gè)科學(xué)準(zhǔn)確的、且能夠反映出客流量與天氣等要素之間定量關(guān)系的短期超市客單數(shù)預(yù)測(cè)模型,對(duì)超市經(jīng)營(yíng)團(tuán)體乃至整個(gè)商業(yè)服務(wù)行業(yè)的實(shí)用價(jià)值是非常明顯的。本文將基于2019年北京西北部地區(qū)42家同一品牌下,且規(guī)模大致相同的超市逐日客單數(shù)資料,結(jié)合超市地理位置相對(duì)應(yīng)的氣象要素?cái)?shù)據(jù),在梳理氣象因子與客單數(shù)之間關(guān)系的基礎(chǔ)上,試驗(yàn)多種機(jī)器學(xué)習(xí)方法來建立與天氣有關(guān)的客單數(shù)逐日預(yù)測(cè)模型。所得研究結(jié)果能夠較為準(zhǔn)確地預(yù)測(cè)客單數(shù),有助于經(jīng)營(yíng)者對(duì)商業(yè)行為開展提前規(guī)劃和科學(xué)決策,充分利用人力和物力成本,進(jìn)行節(jié)能減排。
客單數(shù)的數(shù)據(jù)來自北京西北部地區(qū)42家中型超市。它們均不是新開超市,不存在由于超市環(huán)境、商品結(jié)構(gòu)和補(bǔ)貨能力的差異影響。同時(shí),它們均隸屬于同一品牌,也不會(huì)存在不同的商品價(jià)格差異,以及不同的員工銷售技能差別。研究中曾指出空間距離、經(jīng)濟(jì)收入、人口密度都是影響熱點(diǎn)客源市場(chǎng)客流量的主要因素[22-25]。本文所選擇的42家超市都是以周邊穩(wěn)定的居民區(qū)為主要對(duì)象的中型超市,各個(gè)超市的購(gòu)買能力較為穩(wěn)定,因而也會(huì)更多地產(chǎn)生對(duì)天氣因素的依賴。2020年年初開始受限于疫情的影響,客單數(shù)的數(shù)據(jù)較為特殊,為避免信息干擾,僅獲取2019年有完整記錄以來共365天的樣本進(jìn)行數(shù)據(jù)分析。由于整體數(shù)據(jù)量過小,為避免缺測(cè)數(shù)據(jù)量過高對(duì)預(yù)測(cè)結(jié)果帶來的影響,則從42家不同超市中,篩選出缺測(cè)數(shù)據(jù)量低于5%的超市,共34家。其中,海淀區(qū)31家,豐臺(tái)區(qū)1家,東城區(qū)1家,昌平區(qū)1家。
根據(jù)缺測(cè)數(shù)據(jù)量低于5%的34家超市具體的經(jīng)緯度坐標(biāo),分別將其對(duì)應(yīng)到地理位置最接近的氣象站點(diǎn)(表1)。共匹配到氣象站點(diǎn)12個(gè),分別為A1001、A1024、A1029、A1034、A1054、A1061、A1065、A1068、A1069、A1074、A1076和A1445,涉及的基礎(chǔ)氣象要素為日平均氣溫、日相對(duì)濕度、日平均風(fēng)速和日總降水量。
表1 北京西北部地區(qū)34家超市店號(hào)及其地理位置最近的氣象站點(diǎn)
1.3.1 輸入因子
在預(yù)測(cè)模型中輸入的氣象因子包括氣溫、相對(duì)濕度、風(fēng)速和降水量。同時(shí),考慮到天氣現(xiàn)象的“好”與“壞”不易描述,也較難統(tǒng)一,在輸入因子選擇時(shí),還采用了舒適度指數(shù)(Effective Temperature,ET)來反映氣溫、相對(duì)濕度、風(fēng)速對(duì)人體舒適度的綜合影響[26],計(jì)算公式如下:
(1)
其中,t為氣溫(單位:℃),RH為相對(duì)濕度(單位:%),V為風(fēng)速(單位:m/s)。ET指數(shù)能夠覆蓋從寒冷到炎熱的各種氣候類型,可反映出人體的普遍感知。其中,降水量不同于其他的氣象因子,降水量具有不連續(xù)的非正態(tài)分布的特點(diǎn),因而單獨(dú)將降水量按日累積雨/雪量進(jìn)行了等級(jí)轉(zhuǎn)化(表2)。
表2 降水量等級(jí)表
另外,超市經(jīng)營(yíng)者認(rèn)為“星期”“是否節(jié)假日”和“是否節(jié)氣”都與北京地區(qū)的購(gòu)買習(xí)慣有一定的關(guān)聯(lián)。比如顧客偏向于周五至周日、或者在節(jié)假日和節(jié)氣當(dāng)天去采購(gòu)商品。綜合考慮,最終可輸入的因子共為8項(xiàng),其中氣象因子5項(xiàng),非氣象因子3項(xiàng),具體見表3。
表3 機(jī)器學(xué)習(xí)模型的輸入因子
1.3.2 機(jī)器學(xué)習(xí)方法
鑒于經(jīng)濟(jì)學(xué)與氣象學(xué)領(lǐng)域的學(xué)科交叉性,在預(yù)測(cè)方法選擇時(shí),使用了多種解決回歸問題的機(jī)器學(xué)習(xí)方法,以充分利用各種方法的特點(diǎn),盡可能地降低預(yù)測(cè)值和真實(shí)值之間的偏差。具體如下:
(1)多元回歸方法(Multiple Regression,MR):常被用來研究一個(gè)因變量與多個(gè)自變量之間的關(guān)系問題。具體公式如下:
yj=β0+β1x1+β2x2+…+βmxm+εj
(2)
式中,β0,β1,…,βm均為模型的回歸系數(shù),εj為隨機(jī)殘差。
(2)支持向量機(jī)(Support Vector Machine,SVM):SVM方法通過核函數(shù)將輸入低維的原始數(shù)據(jù)映射到高維的新特征空間,同時(shí)將非線性回歸問題轉(zhuǎn)化成線性回歸問題。其中,SVM的線性回歸模型為
f(x)=wφ(x)+b
(3)
式中,w、b是待估參數(shù),φ(x)是非線性映射。
(3)隨機(jī)森林(Random Forest,RF):隨機(jī)森林構(gòu)造出多棵決策樹,當(dāng)需要對(duì)某個(gè)樣本進(jìn)行預(yù)測(cè)時(shí),統(tǒng)計(jì)每棵決策樹對(duì)該樣本的預(yù)報(bào)結(jié)果,然后通過投票法從這些預(yù)報(bào)結(jié)果中選出最后的結(jié)果。隨機(jī)森林算法本質(zhì)上是在決策樹的訓(xùn)練過程中引入隨機(jī)屬性,對(duì)樣本進(jìn)行有放回采樣,對(duì)屬性進(jìn)行無(wú)放回采樣。
(4)迭代決策樹(Gradient Boost Regression Tree,GBRT):?jiǎn)螞Q策樹由于功能太簡(jiǎn)單,并且非常容易出現(xiàn)過擬合的現(xiàn)象,于是引申出了許多變種決策樹,就是將單決策樹進(jìn)行模型組合,形成多決策樹,比較典型的就是迭代決策樹和隨機(jī)森林。GBRT是一種迭代的決策樹算法,算法由多棵決策樹組成,所有樹的結(jié)論累加起來做最終結(jié)果。
(5)K最鄰近分類算法(K-Nearest Neighbor,KNN):如果一個(gè)樣本在特征空間中的K個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。該方法在定類決策上只依據(jù)最鄰近的一個(gè)或者幾個(gè)樣本的類別來決定待分樣本所屬的類別。
(6)多層感知器(Muti-Layer Perception,MLP):多層感知器主要是模擬生物神經(jīng)系統(tǒng)對(duì)真實(shí)世界物體所做出的交互反應(yīng),通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,達(dá)到處理信息的目的。通常在測(cè)試的過程中可以不斷調(diào)整節(jié)點(diǎn)數(shù)以取得最佳預(yù)報(bào)效果。其中,輸入層的每個(gè)節(jié)點(diǎn),都要通過加權(quán)求和和激活函數(shù)(激活函數(shù)有很多種,本文使用的是比較常用的Sigmoid函數(shù))來與隱藏層每個(gè)節(jié)點(diǎn)做點(diǎn)對(duì)點(diǎn)的計(jì)算。輸入層的數(shù)值通過計(jì)算分別傳播到隱藏層,再以相同的方式傳播到輸出層,得到最終的輸出值,同時(shí)也要將輸出值和樣本值作比較,根據(jù)計(jì)算所得誤差再對(duì)神經(jīng)網(wǎng)絡(luò)中的權(quán)重和閾值進(jìn)行調(diào)整。
1.3.3 檢驗(yàn)方法
為客觀地對(duì)比多種方法得到的預(yù)報(bào)差異,選用均方根誤差(Root Mean Squard Error,RMSE)來檢驗(yàn)預(yù)報(bào)效果,公式如下:
(4)
式中,ri為某樣本的客單數(shù)預(yù)報(bào)值,ti為相對(duì)應(yīng)的客單數(shù)的真實(shí)值,n為試驗(yàn)樣本總數(shù)。在本文中由于樣本量較少,很難單獨(dú)分月或者分季節(jié)去進(jìn)行預(yù)測(cè),所以在檢驗(yàn)環(huán)節(jié)的均方根誤差計(jì)算中,采取樣本總量(365天)的5%(18天)進(jìn)行交叉驗(yàn)證。
不同超市的客單數(shù)與氣象因子相關(guān)關(guān)系的差異是非常明顯的,有的甚至與氣象因子基本不存在相關(guān)關(guān)系,如店號(hào)為A235和A236這兩家超市。經(jīng)與超市的銷售部門溝通和實(shí)地調(diào)研發(fā)現(xiàn),A235和A236兩家超市均位于北京地區(qū)的五環(huán)外,居民區(qū)和人口密集程度相對(duì)其他超市的差距非常大。同時(shí),這兩家超市所在的小區(qū)附近0-3 km內(nèi)均沒有大型正規(guī)的品牌商場(chǎng)和超市,沒有可替代的實(shí)體購(gòu)買渠道,并且這兩家超市的位置均位于小區(qū)居民樓內(nèi),其銷售模式波動(dòng)或更依賴于“是否節(jié)假日”,與氣象因子的關(guān)聯(lián)性相對(duì)較低(表4)。因此,在下文的預(yù)測(cè)試驗(yàn)中去掉了A235、A236兩家超市。
另外32家超市的相關(guān)分析結(jié)果中,客單數(shù)與氣象因子間相關(guān)性最高的為氣溫(相關(guān)系數(shù)為0.11~0.71,平均值為0.45,有97%的超市通過0.01的顯著性檢驗(yàn)),其次為舒適度(相關(guān)系數(shù)為0.11~0.70,平均值為0.44,同樣有97%的超市通過了0.01的顯著性檢驗(yàn))??蛦螖?shù)與氣溫及舒適度均呈現(xiàn)正相關(guān)關(guān)系,反映出隨著氣溫和舒適度指數(shù)的升高,客流量會(huì)在一定程度上增加??蛦螖?shù)與風(fēng)速(相關(guān)系數(shù)為-0.37~0.08,平均值為-0.11,有31%的超市通過0.01的顯著性檢驗(yàn))、相對(duì)濕度(相關(guān)系數(shù)為-0.18~0.24,平均值為0.08,有47%的超市通過0.01的顯著性檢驗(yàn))和降水量(相關(guān)系數(shù)為-0.18~0.06,平均值為-0.05,有6%的超市通過0.01的顯著性檢驗(yàn))多呈現(xiàn)負(fù)相關(guān)關(guān)系,這表明隨著風(fēng)速、相對(duì)濕度和降水量的降低,客流量會(huì)在一定程度上有所增加(表4)。
表4 北京西北部地區(qū)34家超市2019年客單數(shù)與氣象要素的相關(guān)性
32家超市的日平均客單數(shù)為358~5490單,平均單數(shù)為2241單(圖1)。各個(gè)超市本身的日客單數(shù)的差異為363~6653單。客單數(shù)本身的波動(dòng)性變化是非常明顯的,而8項(xiàng)輸入因子的變化也是造成這種波動(dòng)性的主要原因。
圖1 北京西北部地區(qū)32家超市2019年平均客單數(shù)
根據(jù)相關(guān)分析的結(jié)果,首先嘗試將氣溫、舒適度、風(fēng)速、相對(duì)濕度和降水量5項(xiàng)氣象因子作為輸入因子,6種模型預(yù)測(cè)結(jié)果顯示,對(duì)逐日客單數(shù)預(yù)測(cè)效果最佳的是SVM模型(圖2)。
圖2 北京西北部地區(qū)32家超市基于5項(xiàng)氣象因子的6種模型預(yù)測(cè)效果對(duì)比
對(duì)5項(xiàng)氣象輸入因子的預(yù)測(cè)效果利用RMSE進(jìn)行對(duì)比發(fā)現(xiàn),分別有43.75%的超市采用SVM模型,21.88%的超市采用MR模型,12.50%的超市采用GBRT模型,12.50%的超市采用KNN模型,6.25%的超市采用RF模型,3.12%的超市采用MLP模型。其中,平均預(yù)測(cè)效果最好的店號(hào)是A245,其平均日客單數(shù)為358單。6種方法預(yù)測(cè)結(jié)果的RMSE為33.9~38.0單。平均預(yù)測(cè)效果最差的店號(hào)是A035,其平均日客單數(shù)為5358單。6種方法預(yù)測(cè)結(jié)果的RMSE為519.5~632.5單。
當(dāng)僅選擇星期、是否節(jié)假日、是否節(jié)氣3個(gè)非氣象因子作為輸入因子時(shí),同樣利用相同的95%的樣本作為訓(xùn)練集,5%作為測(cè)試集,結(jié)果顯示,6種預(yù)測(cè)方法對(duì)逐日客單數(shù)預(yù)測(cè)效果最佳的是RF模型(圖3)。
圖3 北京西北部地區(qū)32家超市基于3項(xiàng)非氣象因子的6種模型預(yù)測(cè)效果對(duì)比
利用RMSE結(jié)果進(jìn)行對(duì)比,分別有34.38%的超市采用RF模型,31.25%的超市采用SVM模型,21.88%的超市采用GBRT模型,9.38%的超市采用MR模型,3.11%的超市采用MLP模型;沒有超市采用KNN模型。平均預(yù)測(cè)效果最好的店號(hào)是A245,其平均日客單數(shù)為358單。6種方法預(yù)測(cè)結(jié)果的RMSE為43.0~46.7單。平均預(yù)測(cè)效果最差的店號(hào)是A035,其平均日客單數(shù)為5358單。6種方法預(yù)測(cè)結(jié)果的RMSE為537.0~639.7單。
當(dāng)選擇氣溫、風(fēng)速、相對(duì)濕度、降水量級(jí)別、ET指數(shù)共5個(gè)氣象因子,加上星期、是否節(jié)假日、是否節(jié)氣3個(gè)非氣象因子,共8項(xiàng)混合輸入因子,利用同樣的訓(xùn)練集和測(cè)試集,預(yù)測(cè)結(jié)果顯示,6種預(yù)測(cè)方法中對(duì)逐日客單數(shù)預(yù)測(cè)效果最佳的是GBRT模型(圖4)。
圖4 北京西北部地區(qū)32家超市輸入為8項(xiàng)因子的6種預(yù)測(cè)模型效果對(duì)比
利用RMSE結(jié)果進(jìn)行對(duì)比,分別有28.13%的超市采用GBRT模型,25.00%的超市采用MR模型,21.88%的超市采用SVM模型,15.63%的超市采用RF模型,9.36%的超市采用KNN模型;沒有超市采用MLP模型。平均預(yù)測(cè)效果最好的店號(hào)是A245,其平均日客單數(shù)為358單。6種方法預(yù)測(cè)結(jié)果的RMSE為29.3~39.4單。平均預(yù)測(cè)效果最差的店號(hào)是A035,其平均日客單數(shù)為5358單。6種方法預(yù)測(cè)結(jié)果的RMSE為446.8~555.4單。
當(dāng)5項(xiàng)氣象因素作為輸入因子時(shí),有43.75%的最優(yōu)結(jié)果來自SVM模型,基于GBRT、KNN、MR、RF、SVM、MLP得到的平均RMSE及6種方法得到的平均RMSE的均值分別為191.4、195.5、169.6、190.9、164.3、187.8和183.2單。
當(dāng)3項(xiàng)非氣象因素作為輸入因子時(shí),有34.38%的最優(yōu)結(jié)果來自RF模型,相應(yīng)順序的平均RMSE分別為174.4、136.7、153.0、138.7、182.9、187.4和162.2單。
當(dāng)全因素作為輸入因子時(shí),有28.13%的最優(yōu)結(jié)果來自GBRT模型,相應(yīng)順序的平均RMSE分別為146.1、157.3、134.4、145.0、138.8、175.1和149.4單。全因子的平均預(yù)測(cè)效果最佳(圖5)。
圖5 北京西北部地區(qū)32家超市不同輸入因子的6種方法平均預(yù)測(cè)效果對(duì)比
當(dāng)全因素作為輸入因子時(shí),GBRT、KNN、MR、RF、SVM、MLP預(yù)測(cè)結(jié)果及6種預(yù)測(cè)方法平均預(yù)測(cè)結(jié)果相比于3項(xiàng)非氣象因子預(yù)測(cè)得到的RMSE分別減少了16.2%、-15.1%、12.2%、-4.5%、24.1%、6.6%和7.8%,預(yù)測(cè)效果提升最多的模型是SVM方法。同樣,當(dāng)全因素作為輸入因子,GBRT、KNN、MR、RF、SVM、MLP預(yù)測(cè)結(jié)果及6種預(yù)測(cè)方法平均預(yù)測(cè)結(jié)果相比于僅5項(xiàng)氣象因子預(yù)測(cè)得到的RMSE分別減少了23.7%、19.5%、20.8%、24.0%、15.5%、6.8%和18.4%,預(yù)測(cè)效果提升最多的模型是RF方法。整體而言,全因素作為輸入因子時(shí)的預(yù)測(cè)效果相對(duì)于其他兩種方案都是提升的(圖6),且提升效果最多的模型也是預(yù)測(cè)效果最好的模型,如SVM、RF和GBRT。
圖6 北京西北部地區(qū)32家超市不同預(yù)測(cè)方案的客單數(shù)均方根誤差的降低比率
(1)在通過0.01的顯著性檢驗(yàn)的結(jié)果當(dāng)中,客單數(shù)與氣象因素間的相關(guān)性反映出隨著氣溫和舒適度指數(shù)的升高,客流量會(huì)在一定程度上有所增加。而隨著風(fēng)速、相對(duì)濕度和降水量的降低,客流量會(huì)在一定程度上有所增加。預(yù)測(cè)結(jié)果的分析顯示,6種方法預(yù)測(cè)效果最好的超市均為A245,預(yù)測(cè)效果最差的均為A035。相對(duì)其他超市而言,A245客單數(shù)最低,A035客單數(shù)最高。整體上,客單數(shù)偏低的超市預(yù)測(cè)效果更優(yōu)。
(2)在6種預(yù)測(cè)方法中,當(dāng)輸入因子選擇為氣溫、風(fēng)速、相對(duì)濕度、降水量級(jí)別、ET指數(shù),加上星期、是否節(jié)假日、是否節(jié)氣3個(gè)非氣象因素,共8個(gè)進(jìn)行全因子訓(xùn)練后,預(yù)測(cè)效果是最佳的。就32家超市的平均預(yù)測(cè)效果而言,GBRT、KNN、MR、RF、SVM、MLP及6種方法的平均預(yù)測(cè)效果相比于僅5項(xiàng)氣象因子作為輸入的預(yù)測(cè)模型的RMSE減少了6.8%~24.0%;相比于3項(xiàng)非氣象因子預(yù)測(cè)得到的RMSE減少了-15.1%~24.1%。相對(duì)而言,漸進(jìn)梯度回歸樹預(yù)測(cè)效果最佳,支持向量機(jī)和隨機(jī)森林的次之,K最鄰近分類算法和多層感知器的效果較差。
(3)通過試驗(yàn)6種機(jī)器學(xué)習(xí)方法來建立與天氣有關(guān)的客流單數(shù)逐日預(yù)測(cè)模型,結(jié)果發(fā)現(xiàn)機(jī)器學(xué)習(xí)回歸方法是可以有效地進(jìn)行客單數(shù)預(yù)測(cè)的,且考慮的關(guān)聯(lián)因素越多,預(yù)測(cè)效果也就越好。在后續(xù)的業(yè)務(wù)使用中,只需要輸入未來不同地理位置的逐日天氣預(yù)報(bào)結(jié)論,即可得到相應(yīng)超市的客單數(shù)逐日預(yù)測(cè)情況,從而使經(jīng)營(yíng)者對(duì)商業(yè)行為開展提前規(guī)劃。但需要指出的是,客單數(shù)越大的超市預(yù)測(cè)誤差也相對(duì)越大,原因在于客單數(shù)越大的超市,影響客單數(shù)的不可知因素越多且越復(fù)雜,比如小區(qū)居民的集中程度、年齡分布、文化習(xí)慣、周圍可替代超市的數(shù)量和距離等,并且這些因素都很難獲取,導(dǎo)致了不同超市的客單數(shù)與氣象因素的相關(guān)關(guān)系差異非常明顯,需要未來繼續(xù)積累相關(guān)數(shù)據(jù),進(jìn)一步提高預(yù)測(cè)效果。