大數(shù)據(jù)分析的景區(qū)客流量預(yù)測模型研究

2021-03-17 08:13:08李冬

微型電腦應(yīng)用 2021年2期

李冬

(云南機(jī)電職業(yè)技術(shù)學(xué)院工業(yè)信息技術(shù)系, 云南昆明 650203)

0 引言

隨著人們生活水平的日益提高，人們對生活質(zhì)量要求也越來越高，出去旅游成為人們享受生活，休閑度假的一種重要方式，這使得景區(qū)管理面臨的壓力越來越大。在節(jié)假日，景區(qū)客流量急劇增加，而淡季時，景區(qū)客流量很少，如何對景區(qū)客流量進(jìn)行有效管理，提高景區(qū)的經(jīng)濟(jì)收益，同時又不破壞景區(qū)生態(tài)顯得越來越重要，而景區(qū)客流量的預(yù)測可以描述景區(qū)客流量的變化態(tài)勢，因此景區(qū)客流量預(yù)測與建模研究具有十分重要的理論意義，同時具有一定的經(jīng)濟(jì)價值[1-3]。

幾十年以來，景區(qū)客流量預(yù)測的研究一直沒有中斷過，主要有定性的景區(qū)客流量預(yù)測建模技術(shù)和定量的景區(qū)客流量預(yù)測建模技術(shù)，其中定性的景區(qū)客流量預(yù)測建模技術(shù)主要從整體上對景區(qū)客流量變化態(tài)勢進(jìn)行分析和研究，但是其景區(qū)客流量預(yù)測結(jié)果的可解釋性比較差[4]，而定量的景區(qū)客流量預(yù)測建模技術(shù)可以更加細(xì)致地對景區(qū)客流量變化特點(diǎn)進(jìn)行分析，其實(shí)際應(yīng)用范圍更加廣泛，成為當(dāng)前景區(qū)客流量預(yù)測建模方向[5]。當(dāng)前定量的景區(qū)客流量預(yù)測建模技術(shù)主要有線性建模和非線性建模兩種。線性建模方法最常用為自回歸積分滑動平均模型(Autoregressive Integrated Moving Average Model，ARIMA)，其主要對景區(qū)客流量的季節(jié)性變化特點(diǎn)進(jìn)行描述，當(dāng)景區(qū)客流量具有隨機(jī)性時，ARIMA模型的景區(qū)客流量預(yù)測缺陷就體現(xiàn)出來了，如景區(qū)客流量預(yù)測誤差大等[6]；非線性建模方法最常用為人工神經(jīng)網(wǎng)絡(luò)，主要有RBF神經(jīng)網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)[7-9]，其主要對景區(qū)客流量的隨機(jī)性變化特點(diǎn)進(jìn)行描述，無法對景區(qū)客流量的季節(jié)性、周期性等變化特點(diǎn)進(jìn)行描述，因此局限性也十分明顯，得到的景區(qū)客流量預(yù)測結(jié)果并非真正的最優(yōu)，經(jīng)常出現(xiàn)一些偏差比較大的景區(qū)客流量預(yù)測結(jié)果[10]。

由于景區(qū)客流量變化十分復(fù)雜，具有一定的季節(jié)性變化特點(diǎn)，并且具有隨機(jī)性變化特點(diǎn)，單一的ARIMA模型或者人工神經(jīng)網(wǎng)絡(luò)無法有效的反映景區(qū)客流量的全部變化特點(diǎn)，為了提高景區(qū)客流量預(yù)測結(jié)果，降低景區(qū)客流量預(yù)測誤差，提出了大數(shù)據(jù)分析的景區(qū)客流量預(yù)測模型，該方法集成了ARIMA模型和BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)，對景區(qū)客流量的季節(jié)性、隨機(jī)性變化特點(diǎn)同時進(jìn)行描述，并與其他景區(qū)客流量預(yù)測模型進(jìn)行了對比實(shí)例分析，結(jié)果表明，大數(shù)據(jù)分析是一種精度高、時間少的景區(qū)客流量預(yù)測模型。

1 大數(shù)據(jù)分析的景區(qū)客流量預(yù)測模型設(shè)計

1.1 ARIMA模型

ARIMA是一種常用的時間序列分析方法，可以對具體問題不需要詳細(xì)的描述就可以找到適合的預(yù)測模型，常用的形式為ARIMA(p,d,q)，其中p表示自回歸過程的階數(shù)、d表示差分的階數(shù)、q表示移動平均階數(shù)，ARIMA(p,d,q)的結(jié)構(gòu)，如式(1)—式(4)。

(1)

式中，

d=(1-B)d

(2)

Φ(B)=1-φ1B-…-φpBp

(3)

Θ(B)=1-θ1B-…-θqBq

(4)

ARIMA的建模流程如下。

Step1：數(shù)據(jù)預(yù)處理。

Step2：時間序列平穩(wěn)性的檢驗(yàn)。

Step3：差分運(yùn)算。

Step4：自回歸移動平均定階。

Step5：對回歸擬合結(jié)果進(jìn)行顯著性檢驗(yàn)。

Step6：選擇效果最好的ARIMA(p,d,q)作為最終的預(yù)測模型。

1.2 BP神經(jīng)網(wǎng)絡(luò)

BP神經(jīng)網(wǎng)絡(luò)屬于多層前饋網(wǎng)絡(luò)，相對于其他人工神經(jīng)網(wǎng)絡(luò)，最大的優(yōu)點(diǎn)為：誤差反向傳播機(jī)制，對一般的回歸問題，可以對其輸入和輸出的非線性映射關(guān)系進(jìn)行自適應(yīng)學(xué)習(xí)，工作過程為：

第1階段：信號前向傳播，具體步驟如下。

Step1：隱含層第i個節(jié)點(diǎn)的輸入和輸出，如式(5)、式(6)。

(5)

(6)

Step2：輸出層第k個節(jié)點(diǎn)的輸入和輸出，如式(7)、式(8)。

(7)

(8)

第2階段：誤差反向傳播，具體步驟如下。

Step1：第p個訓(xùn)練樣本的誤差計算式，如式(9)。

(9)

Step2：所有訓(xùn)練樣本的誤差計算式,如式(10)。

(10)

Step3：根據(jù)誤差梯度下降法對各層的連接權(quán)值和閾值進(jìn)行修正，直到誤差滿足實(shí)際應(yīng)用要求為止，權(quán)值和閾值修正公式，如式(11)—式(14)。

(11)

(12)

(13)

(14)

1.3 大數(shù)據(jù)分析的景區(qū)客流量預(yù)測模型的工作步驟

(1) 收集景區(qū)客流量的歷史樣本數(shù)據(jù)，并將這些數(shù)據(jù)根據(jù)時間先后順序組成一個時間序列樣本集合。

(2) 采用ARIMA對景區(qū)客流量時間序列樣本集合進(jìn)行建模，得到ARIMA的景區(qū)客流量預(yù)測結(jié)果。

(3) 采用BP神經(jīng)網(wǎng)絡(luò)對景區(qū)客流量時間序列樣本集合進(jìn)行建模，得到BP神經(jīng)網(wǎng)絡(luò)的景區(qū)客流量預(yù)測結(jié)果。

(4) 確定ARIMA的景區(qū)客流量預(yù)測結(jié)果和BP神經(jīng)網(wǎng)絡(luò)的景區(qū)客流量預(yù)測結(jié)果的權(quán)值w1和w2。

(5) 根據(jù)w1和w2對ARIMA的景區(qū)客流量預(yù)測結(jié)果和BP神經(jīng)網(wǎng)絡(luò)的景區(qū)客流量預(yù)測結(jié)果進(jìn)行加權(quán)操作，得到最終的景區(qū)客流量預(yù)測結(jié)果。

2 實(shí)例分析

2.1 數(shù)據(jù)來源

為了分析大數(shù)據(jù)分析的景區(qū)客流量預(yù)測有效性，選擇10個景區(qū)一段時間內(nèi)客流量作為分析目標(biāo)，每一個景區(qū)的客流量樣本數(shù)據(jù)量不一樣，將樣本數(shù)據(jù)劃分為訓(xùn)練樣本集合和驗(yàn)證樣本集合，其中訓(xùn)練樣本集合用于構(gòu)建景區(qū)客流量預(yù)測模型，并對景區(qū)客流量預(yù)測模型的擬合效果進(jìn)行分析，驗(yàn)證樣本集合用于測試景區(qū)客流量預(yù)測模型的預(yù)測能力，它們的樣本數(shù)量，如表1所示。

表1 景區(qū)客流量預(yù)測的實(shí)驗(yàn)分析數(shù)據(jù)源

采用VC++6.0編程實(shí)現(xiàn)景區(qū)客流量預(yù)測仿真實(shí)驗(yàn)。

2.2 景區(qū)客流量擬合精度比較

選擇文獻(xiàn)[11]的景區(qū)客流量預(yù)測模型進(jìn)行對比測試，統(tǒng)計它們的擬合精度，如圖1所示。

圖1 景區(qū)客流量的擬合精度對比

從圖1的景區(qū)客流量擬合精度可以看出，兩種模型的景區(qū)客流量擬合精度都比較高，大數(shù)據(jù)分析的景區(qū)客流量擬合精度平均值為95.32%，文獻(xiàn)[11]的景區(qū)客流量擬合精度平均值為91.55%，相對于文獻(xiàn)[11]的景區(qū)客流量預(yù)測模型，大數(shù)據(jù)分析的景區(qū)客流量擬合精度提升了3.67%，可以更好地描述景區(qū)客流量的變化特點(diǎn)，對比結(jié)果驗(yàn)證了大數(shù)據(jù)分析的景區(qū)客流量預(yù)測模型的優(yōu)越性。

2.3 景區(qū)客流量預(yù)測精度比較

對于一個景區(qū)客流量預(yù)測模型來說，擬合結(jié)果只能描述其對過去景區(qū)客流量變化特點(diǎn)的描述，無法對將來的景區(qū)客流量變化特點(diǎn)進(jìn)行描述，因此需要通過對驗(yàn)證樣本集合進(jìn)行測試，統(tǒng)計選擇文獻(xiàn)[11]和本文模型對景區(qū)客流量的驗(yàn)證樣本的預(yù)測精度，如圖2所示。

圖2 景區(qū)客流量的預(yù)測精度對比

從圖2的景區(qū)客流量預(yù)測精度可以看出，兩種模型的景區(qū)客流量預(yù)測精度相差比較大，大數(shù)據(jù)分析的景區(qū)客流量預(yù)測精度平均值為90.69%，文獻(xiàn)[11]的景區(qū)客流量預(yù)測精度平均值為83.20%，相對于文獻(xiàn)[11]的景區(qū)客流量預(yù)測模型，大數(shù)據(jù)分析的景區(qū)客流量預(yù)測精度有了較大的提升，有效減少了景區(qū)客流量預(yù)測誤差，對比結(jié)果再次驗(yàn)證了大數(shù)據(jù)分析的景區(qū)客流量預(yù)測模型的優(yōu)越性。

2.4 建模時間比較

為了測試景區(qū)客流量建模時間，分別統(tǒng)計所有預(yù)測模型的平均擬合時間和預(yù)測時間，如表2所示。

從表2可以看出，本文模型的景區(qū)客流量的擬合時間和預(yù)測時間均少于對比模型，精簡了景區(qū)客流量建模過程，獲得了較好的景區(qū)客流量建模效率。

3 總結(jié)

景區(qū)客流量變化具有一定的季節(jié)性，即周期性，同時具有一定的非平穩(wěn)性，即隨機(jī)性，使得當(dāng)前傳統(tǒng)模型的景區(qū)客流量預(yù)測偏差較大，不能對景區(qū)游客的管理工作提供更有價值的指導(dǎo)意見。為此，提出了大數(shù)據(jù)分析的景區(qū)客流量預(yù)測模型，實(shí)例分析結(jié)果表明，大數(shù)據(jù)分析模型集成了當(dāng)前經(jīng)典模型的優(yōu)點(diǎn)，解決了當(dāng)前景區(qū)客流量預(yù)測誤差大的難題，獲得了比當(dāng)前其他模型更優(yōu)的景區(qū)客流量預(yù)測結(jié)果，可以應(yīng)用于實(shí)際的景區(qū)游客的管理工作中。

表2 不同的景區(qū)客流量建模時間比較