摘 要:數據挖掘技術運用于餐飲行業(yè)具有一定的社會價值,通過預測餐飲行業(yè)客流量,根據客流量多少餐廳合理為顧客準備用餐,有利于提升顧客用餐體驗,提高餐飲質量的同時讓餐飲行業(yè)更高效運作。本文通過研究線性回歸算法與隨機森林算法理論,提出將線性回歸算法與隨機森林算法融合的思想,將其應用在餐廳顧客回訪數量預測,并通過實驗證明該思路的合理性和可實施性。通過實驗對比,算法融合思路比線性回歸算法準確率提高了約3.004%,比隨機森林算法提高了約2.022%。比以往大部分研究取得更優(yōu)的預測效果,為數據挖掘技術在餐飲行業(yè)的應用提供了新的思路。
關鍵詞:數據挖掘;線性回歸;隨機森林;算法融合;餐飲行業(yè)
中圖分類號:TP312 文獻標識碼:A
文章編號:2096-1472(2018)-07-24-04
1 引言(Introduction)
數據挖掘運用相關的算法從大量的、不完全的、有噪聲的、模糊的、隨機的數據中提取正確的、有用的、未知的、綜合的,以及用戶感興趣的知識,建立模型,用于決策支持的模型,提供預測性決策支持的方法、工具和過程[1]。數據挖掘一般是指從大量的數據中通過算法搜索隱藏于其中的信息的過程。隨著互聯(lián)網時代的到來和數據大爆發(fā),數據挖掘技術普遍而且迫切地應用于各個領域,比如金融、電信、保險、醫(yī)療、餐飲等行業(yè)。它通過運用整理、分析、總結、推理等方法對大量地數據進行處理,從而對實際問題進行指導和分析,得出相關地預測結果,從而做出更加有利的決策[2]。
本文主要針對餐飲行業(yè)對餐廳客流量進行預測。餐飲是我們日常生活的重要一部分,同時也伴隨著巨大的行為數據產生。如果能更好地利用這些數據,運用數據挖掘技術對數據進行分析、預測,讓餐飲行業(yè)能更合理地做出方案和決策,這有利于顧客用餐體驗,提高餐飲質量,同時也可以讓餐飲行業(yè)經營更好,商家獲得更大的利潤。筆者查閱相關資料得知,數據挖掘在餐飲領域運用的普遍性還有待提高,數據挖掘運用在餐飲行業(yè)的相關技術還有待提高。如以往有不少人研究的線性回歸模型或隨機森林模型運用在餐飲行業(yè)仍然存在準確性不夠的不足。本文針對這一不足提出了一個新的解決方法,整合兩個模型的優(yōu)點,避開它們的缺點,融合成一個新的模型,提高數據挖掘技術在餐飲行業(yè)應用的水平。
本文通過介紹線性回歸和隨機森林兩種模型,運用數據挖掘工具對餐飲行業(yè)大量數據進行分析預測,對比線性回歸、隨機森林和兩個模型融合后的新模型之間的預測結果,通過對比結果數據,從而得出合理的論斷,融合后的模型在餐飲行業(yè)客流量預測中的效果更好,準確性更高。
2 算法介紹(Algorithm introduction)
2.1 線性回歸模型簡介[3,4]
對于,其中n組結果值為取值為0或1的隨機變量,滿足與的關系為:
選取的估值,使式(6)達到最大值。
2.2 隨機森林算法簡介
隨機森林(random forest)是一種基于分類樹(classification tree)的算法(Breiman,2001)。這個算法需要模擬和迭代,被歸類為機器學習中的一種方法。經典的機器學習模型是神經網絡(Hopfield,1982),有半個多世紀的歷史了。神經網絡預測精確,但是計算量很大。20世紀80年代Breiman等人(1984)發(fā)明了分類和回歸樹(Classification And Regression Tree,簡稱CART)的算法,通過反復二分數據進行分類或回歸,計算量大大降低[5]。
RF是由一系列樹型分類器{h(x,Θ)}k,其中k=1,…,組合成的分類器,其中Θk是獨立同分布隨機向量,且每棵樹對輸入向量x所屬的最受歡迎類投一票[6]。RF生成步驟如圖1所示:(1)從總訓練樣本集D中用Bootstrap采樣選取k個子訓練樣本集D1,D2,…,Dk,并預建k棵分類樹;(2)在分類樹的每個節(jié)點上隨機地從n個指標中選取m個,選取最優(yōu)分割指標進行分割;(3)重復步驟(2)遍歷預建的k棵分類樹;(4)由k棵分類樹形成隨機森林。
Bootstrap隨機抽樣得到輸入訓練集和節(jié)點隨機選取指標進行分割,使得RF對噪聲有很好的容忍性,且降低了分類樹之間的相關性。單棵樹不剪枝任意生長的特點可獲得低偏差分類樹,且能夠保證對新測試數據分類的正確率。
RF的生成和單棵風險分類樹如圖1和圖2所示[7]。
2.3 線性回歸和隨機森林算法融合原理
本文使用的模型融合是加權平均法。首先,根據兩個模型的預測效果和模型得分,對其求權重;然后對兩個模型預測值求加權平均值為最終的預測結果。
其中,表示最終的預測結果,表示線性回歸模型的預測結果,表示線性回歸模型的預測結果,a表示求得的線性回歸模型的權重,b表示求得的隨機森林模型的權重。
2.4 模型評價標準
對于客流量的預測,我們更加關注的是所預測的客流量與實際客流量之間的誤差[8],因此,本文采用均方根誤差RMLSE作為評價模型效果優(yōu)良的標準。
表示真實訪客數量,表示預測的訪客數量。
當RMLSE越小時,表明誤差越小,模型效果越好。
3 模型數據分析(Data analysis of model)
3.1 數據預處理與特征工程
餐飲店客流量預測的數據來源與kaggle數據競賽平臺Recruit Restaurantor Visitor Forecasting賽題中的數據。本文經過數據清洗和預處理[10]后提取出對本次實驗有用的328298條記,每條記錄12個字段,見表1。
預處理后的數據并不能滿足實驗的要求,仍然有大量的潛在特征價值未被挖掘,此時需要進行相應的特征工程,本次實驗對訪客數量做log處理、時序問題趨勢穩(wěn)定處理、關于顧客就餐是否為周末等時間問題處理等特征工程,充分挖掘了數據中隱藏的大量價值。特征處理后每條記錄62個字段,如表2。
3.2 模型構建
在對數據進行預處理和特征工程之后,就可以輸入數據進行模型訓練,其中除表2中的visitors_log屬性外為輸入數據集的X,visitors_log屬性為標簽輸入。模型輸入數據如表3所示。
表4為模型輸出的示例,以Logistic回歸作為預測模型。其中,Id表示店鋪的地址和該店鋪對應的日期,visitors表示該店鋪在對應日期訪客量的預測人數。
3.3 實驗結果與分析
3.3.1 各模型預測值與真實值對比
為了便于觀察實驗現象和分析實驗結果,本文在數據規(guī)模一致且合理的情況下分別對線性回歸模型、隨機森林模型和兩個模型融合后預測的訪客量數與真實訪客量數進行對比,并作圖分析。由圖3—圖5分析可得,線性回歸模型、隨機森林模型和融合后的模型在一定程度上三個模型的預測值和真實值是吻合的。分析可得,三個模型適用于本文實驗,模型應用合理。
3.3.2 不同數據集大小的情況下各模型誤差對比
分別取全部數據的20%、40%、60%和100%,分別訓練以上三個模型,得出三個不同模型的錯誤率,并作圖對比,如圖6所示。
其中,圖6圖例LR、RFR和Fusion model分別表示線性回歸模型、隨機森林模型和融合后的模型的錯誤率。
3.3.3 實驗結果分析
由圖3—圖5分析可得,線性回歸模型、隨機森林模型和融合后的模型在一定程度上三個模型的預測值和真實值是吻合的。分析可得,三個模型適用于本文實驗,模型應用合理。分析圖6,對于某一模型,隨著數據量不斷增加,模型預測預測訪客的錯誤率不斷降低,模型效果不斷提高,并且當數據量大到一定范圍時,模型預測訪客數量的錯誤率下降趨緩;對比三個模型可得,在相同的數據規(guī)模下,融合后的模型預測訪客數量的錯誤率明顯低于線性回歸模型和隨機森林模型。
4 結論(Conclusion)
本文介紹了線性回歸和隨機森林算法,以及兩個算法融合思路及原理,把數據挖掘技術運用于餐飲行業(yè),并通過實驗證明兩個算法融合這一思路在餐飲行業(yè)預測餐廳某一時間段訪客數量的應用是可行合理的,具有較大的社會價值,讓餐飲行業(yè)能更合理地做出方案和決策,這有利于顧客用餐體驗,提高餐飲質量,同時也可以讓餐飲行業(yè)經營更好,商家獲得更大的利潤。本文線性回歸和隨機森林算法融合思想彌補了之前單模型研究的不足,降低餐廳訪客量預測的錯誤率,模型效果更優(yōu),使模型在餐飲行業(yè)使用范圍更廣,更容易泛化和推廣;在一定范圍內,隨著訓練數據規(guī)模增加,模型的效果不斷優(yōu)化。
參考文獻(References)
[1] 張晴,高廣銀,賈波.數據挖掘技術在超市營銷系統(tǒng)中的應用[J].軟件工程,2016,19(5):35-38.
[2] 張慧,徐勇.數據挖掘中SVM模型與貝葉斯模型的比較分析——基于電信客戶的流失分析[J].平頂山學報,2016,31(2):68-73.
[3] 冷建飛,高旭,朱嘉平.多元線性回歸統(tǒng)計預測模型的應用[J].統(tǒng)計與決策,2016,16(7):82-85.
[4] 王朋,呂寒,李若詩.基于logisitic回歸的《中國好聲音》受眾行為分析[J].廣州大學學報,2013,12(11):54-58.
[5] 李欣海.隨機森林模型在分類與回歸分析中的應用[J].應用昆蟲學報,2013,50(4):1190-1197.
[6] Jonathan D W,Jennifer L I,Suzana J C.Coastal flooding by tropical cyclones and sea-level rise[J].Nature,2013,504(8):44-52.
[7] 賴成光,陳曉宏,趙仕威,等.基于隨機森林的洪災風險評價模型及其應用[J].水利學報,2015,46(1):58-66.
[8] 劉偉,徐鵬濤.O2O電商平臺在線點評有用性影響因素的識別研究——以餐飲行業(yè)O2O模式為例[J].中國管理科學,2016,24(5):168-176.
[9] Dong L J,Li X B,Peng K.Prediction of rockburst classification using Random Forest[J].Transactions of Non-ferrous Metals Society of China,2013,23(2):472-477.
[10] 李強,趙晨杰,羅先錄.基于大數據應用技術的學情分析系統(tǒng)架構分析與設計[J].軟件工程,2018,21(5):34-37.
作者簡介:
楊森彬(1993-),男,碩士生.研究領域:數據挖掘,機器學習,文本挖掘.