吳學成
(凱里學院,貴州 凱里 556011)
對景區(qū)客流量進行建模與預測,可以幫助景區(qū)管理人員了解景區(qū)客流量的變化動態(tài),制定一些更加合理的管理措施,增強景區(qū)管理水平,因此景區(qū)客流量預測成為經濟領域研究的一個熱點課題[1?3]。
當前景區(qū)客流量預測模型分為三類:線性回歸方法、時間序列分析法、神經網絡[4]。其中線性回歸方法主要有多元回歸、逐步回歸,對景區(qū)客流量數據直接進行建模,景區(qū)客流量預測誤差大[5];時間序列分析法根據時間先后對景區(qū)客流量進行組合,然后對其進行建模[6?7],該類方法主要針對季節(jié)性、周期性等變化規(guī)律的景區(qū)客流量,通用性差[8?10];人工神經網絡可以深層次挖掘景區(qū)客流量變化特點,是當前主要的建模工具[11?13]。在實際應用中,當前景區(qū)客流量預測模型同樣存在一些不足,如景區(qū)客流量預測誤差比較大,景區(qū)客流量預測穩(wěn)定性比較差[14?16]。
為了解決回聲狀態(tài)網絡的參數優(yōu)化問題,以提高景區(qū)客流量預測效果為目標,提出了數據挖掘的景區(qū)客流量預測模型,并通過具體景區(qū)客流量預測仿真對比實驗,驗證了本文模型的有效性和優(yōu)越性。
回聲狀態(tài)網絡是一種數據挖掘技術,具有短期記憶數據的功能,其結構如圖1所示。其中,Win,Wout分別表示輸入層和儲備層、儲備層和輸出層之間的連接權重矩陣。
圖1 回聲狀態(tài)網絡結構
回聲狀態(tài)網絡的工作狀態(tài)方程可以采用如下形式進行描述:
式中:W x為連接矩陣;u(t),x(t)分別為輸入向量和儲備池內部向量。
回聲狀態(tài)網絡的輸出形式可以描述為:
式中y(t)為輸出向量。
采用最小二乘法對輸出權值進行求解,那么目標函數可以描述為:
式中:X=[x(1),x(2),…,x(l)]T,X∈Rl×N,N為儲備池節(jié)點數,l為訓練樣本數;Y=[y(1),y(2),…,y(l)]T。
對于大規(guī)模網絡流量數據,訓練樣本數常大于儲備池節(jié)點數,那么,根據式(3)得到解:
X的奇異值分解可以描述為:
式中:U=(u1,u2,…,ul)和V=(v1,v2,…,vl)是酉矩陣;Σ=diag(σ1,…,σr,σr+1,…,σN)。
當前X的秩是r,那么可以得到:
X的逆矩陣為X+,那么可以采用式(7)進行表示:
這樣可以得到:
傳統(tǒng)回聲狀態(tài)網絡的魯棒性差,為了克服該缺陷,選擇拉普拉斯分布描述高斯分布,可得到:
這樣,w的先驗分布計算公式可以表示為:
那么可以得到:
式中p(y|a,β)為邊際函數,且有:
基于邊際優(yōu)化原則有:
式中ε=y-Aw。
得到:
p(w|y)和p(y|a,β)替代函數分別為:
綜合式(10)、式(16)以及式(18)產生如下公式:
其中:
最后得到w的計算公式為:
其中:
式中A表示對角矩陣。
對于參數a和β可以根據證據函數方法確定,通過對輸出權值w積分,可得邊際似然函數為:
式中,C=β-1Λ+ΦA-1ΦT。
將lnp分別對參數a和β求偏導,并令導數為零,可以得到a和β估計公式具體如下:
式中γj=1-aj Σij。
1)收集景區(qū)客流量預測數據,并根據時間先后順序組成景區(qū)客流量的學習樣本集合。
2)對原始的景區(qū)客流量時間序列數據進行重構,得到景區(qū)客流量預測的訓練集和測試集合。
3)回聲狀態(tài)網絡對景區(qū)客流量的訓練集進行學習,并確定回聲狀態(tài)網絡的參數。
4)根據參數建立景區(qū)客流量預測模型,采用測試樣本對景區(qū)客流量預測模型性能進行分析。
為了測試基于數據挖掘的景區(qū)客流量預測性能,采用黔東南地區(qū)某景區(qū)客流量歷史數據作為研究對象,如圖2 所示。圖2 景區(qū)客流量數據具有一定的隨機性和混沌性,因此不能采用原始的景區(qū)客流量數據進行建模與預測,需要對其進行相應的變換。
圖2 景區(qū)客流量的歷史數據
景區(qū)客流量數據嵌入維和延遲時間如圖3 所示。從圖3 可以看出,景區(qū)客流量數據嵌入維和延遲時間最優(yōu)值為3 和5,對圖2 景區(qū)客流量重構,選擇50 個樣本作為景區(qū)客流量,其他景區(qū)客流量數據用于訓練回聲狀態(tài)網絡,建立景區(qū)客流量預測模型。
圖3 景區(qū)客流量數據的嵌入維和延遲時間
為了檢測基于數據挖掘的景區(qū)客流量預測的優(yōu)越性,選擇BP 神經網絡的景區(qū)客流量預測模型、時間序列分析法的景區(qū)客流量預測模型進行對比實驗,預測結果如圖4 所示。
對圖4的景區(qū)客流量預測結果進行對比和分析可知:
圖4 不同模型的景區(qū)客流量預測結果對比
1)時間序列分析法的景區(qū)客流量預測值與實際的景區(qū)客流量值之間的偏差最大,這表明時間序列分析法無法描述景區(qū)客流量的變化態(tài)勢,使得景區(qū)客流量預測誤差大。
2)BP 神經網絡的景區(qū)客流量預測值與實際的景區(qū)客流量值之間的偏差不大,這表明BP 神經網絡可以描述景區(qū)客流量的變化態(tài)勢,但是其個別景區(qū)客流量預測誤差比較大,使得景區(qū)客流量預測結果不穩(wěn)定,導致景區(qū)客流量預測整體精度比較低。
3)相對于時間序列分析法的景區(qū)客流量預測模型和BP 神經網絡的景區(qū)客流量預測模型,本文模型的預測值與實際景區(qū)客流量之間的偏差最小,這表明本文模型可以更好地擬合景區(qū)客流量的變化態(tài)勢,減少了景區(qū)客流量預測誤差,獲得了更加理想的景區(qū)客流量預測結果,體現(xiàn)了本文模型的優(yōu)越性。
為了分析基于數據挖掘的景區(qū)客流量預測模型的通用性,采用全國10 個熱門景區(qū)客流量作為研究對象,統(tǒng)計每一個景區(qū)客流量的預測精度,結果如表1 所示。
表1 不同景區(qū)客流量預測精度 %
對表1 的景區(qū)客流量預測精度進行對比可以發(fā)現(xiàn),相對于BP 神經網絡的景區(qū)客流量預測模型和時間序列分析法的景區(qū)客流量預測模型,本文模型的景區(qū)客流量預測精度得到了提高,景區(qū)客流量預測精度平均值超過了90%,景區(qū)客流量預測誤差處于景區(qū)客流量實際管理范圍內,獲得了較好的通用性。
針對當前景區(qū)客流量預測效果差的弊端,以改善景區(qū)客流量預測結果為目標,本文提出了基于互聯(lián)網大數據的景區(qū)客流量預測模型。仿真實驗結果表明,本文模型是一種精度高、通用性好的景區(qū)客流量平均預測模型,具有廣泛的應用前景。