許晨
(中國石油集團東方地球物理勘探有限責任公司,河北 涿州 072750)
人口問題一直是影響城市發(fā)展與國土空間格局的重要因素,人口的規(guī)模會影響經(jīng)濟、社會的發(fā)展及資源的利用。不論人口問題、資源問題還是環(huán)境與發(fā)展問題,最終都是因為人口數(shù)量失控而引起的。因此科學地預測人口有助于合理制定符合實際需求的遠景規(guī)劃,保持適度的人口規(guī)模是經(jīng)濟、社會、資源和環(huán)境保護協(xié)調發(fā)展的強有力保證。因此,人口規(guī)模的預測及控制是各個國家重點研究和關注的問題。但是人口數(shù)量的變化受自然環(huán)境、社會環(huán)境、文化觀念、醫(yī)療水平、政策導向等多種因素的影響,很難用一個確定的數(shù)學模型去描述。
目前預測人口數(shù)量的方法主要有人口年增長法、灰色預測模型、回歸模型、logistic模型、馬爾薩斯模型、時間序列法、修正指數(shù)曲線、人口指數(shù)增長模型、神經(jīng)網(wǎng)絡模型等方法。但目前所采用的方法大多具有一定的限制條件,如logistic模型需要較大的樣本量,并且在人口出現(xiàn)負增長的時候無法預測;馬爾薩斯模型相對簡單,計算起來方便,但是其考慮的因素比較單一;灰色預測模型適用于小樣本數(shù)據(jù)即短期人口數(shù)量預測,且對于不均勻增長趨勢的人口序列預測效果并不明顯。
神經(jīng)網(wǎng)絡算法(Artificial Neural Network, ANN)是一種受生物神經(jīng)系統(tǒng)啟發(fā)而來的數(shù)學模型,具有強大的非線性映射能力??奢^好的表征數(shù)據(jù)間的復雜關聯(lián),擁有良好的數(shù)據(jù)處理能力且對樣本數(shù)據(jù)的質量要求較低,運算靈活機動。因此,在數(shù)據(jù)處理與運算方面得到了廣泛的使用。非線性自回歸(Nonlinear Auto Regressive, NAR)神經(jīng)網(wǎng)絡是一種用于分析時間序列的動態(tài)神經(jīng)網(wǎng)絡模型。從本質上來說,是以時間序列自身作為回歸變量,通過一段時間內(nèi)的變量值的線性組合來表示之后某一時刻的變量值。相較于BP神經(jīng)網(wǎng)絡,NAR神經(jīng)網(wǎng)絡在信息傳遞過程中會向上一層進行反饋,參與下一層計算。因而,其輸出并不只是一種靜態(tài)的映射,還是之前動態(tài)結果的綜合利用。NAR神經(jīng)網(wǎng)絡在提出之后在時間序列分析、預測領域均得到了廣泛的應用。本文將探討利用NAR神經(jīng)網(wǎng)絡模型進行人口總數(shù)預測的方法與效果。
NAR(Nonlinear Auto-Regressive)神經(jīng)網(wǎng)絡全稱為非線性自回歸模型,屬于動態(tài)神經(jīng)網(wǎng)絡中的一種。模型的輸入輸出之間的變量關系并不僅僅是一種靜態(tài)方式的映射,每一時刻的輸出都是基于當前時刻以前系統(tǒng)的動態(tài)結果綜合而得,即具有反饋和記憶的功能。使該神經(jīng)網(wǎng)絡同時具備動態(tài)和完整系統(tǒng)信息的特征。因而NAR神經(jīng)網(wǎng)絡不僅繼承了傳統(tǒng)時間序列模型的優(yōu)點,對于非線性數(shù)據(jù)具有更好的適應能力和預測效果。NAR神經(jīng)網(wǎng)絡的模型可描述為:
式中:()為當前時刻的變量值;((-1),(-2),(-3),…,(-)為歷史時刻的變量值;為延遲階數(shù)。
一般情況下,NAR神經(jīng)網(wǎng)絡由靜態(tài)神經(jīng)元與網(wǎng)絡輸出反饋兩部分組成。一個完整的NAR神經(jīng)網(wǎng)絡一般由輸入層、隱含層、輸出層構成,如圖1所示,數(shù)據(jù)()由輸入層進入,進入隱藏層,經(jīng)過訓練、傳遞、學習之后到達輸出層,進而得到預測結果。
圖1 NAR神經(jīng)網(wǎng)絡
圖中,()表示神經(jīng)網(wǎng)絡的輸入;隱藏層中的1:3為延時階數(shù),表示利用時間序列中某一點前的三個點來預測該點的值;為連接權,為閾值。各個神經(jīng)元輸出可表示為:
式中:為激活函數(shù);w為第個輸出時延信號和隱含層第個神經(jīng)元之間的連接權值。
本文擬利用NAR神經(jīng)網(wǎng)絡進行中國人口數(shù)量預測,圖2為1949年—2017年中國總人口數(shù)量統(tǒng)計,數(shù)據(jù)來源為中國統(tǒng) 計 局(https://data.stats.gov.cn/easyquery.htm?cn=C01)。從圖中可以看出自1949年以來,除1960年左右存在一個小規(guī)模的下降階段外,我國人口總量整體呈逐年上升趨勢,至2017年底全國人口總數(shù)接近14億。
圖2 1949—2017年中國人口總數(shù)
利用1949年—2010年之間的62個數(shù)據(jù)作為神經(jīng)網(wǎng)絡訓練樣本,將2011年—2017年之間的7個數(shù)據(jù)作為驗證樣本。其中訓練樣本中70%參與神經(jīng)網(wǎng)絡訓練(training);15%進行交叉檢驗(validation);剩余15%進行測試(test)。本文所構建的NAR神經(jīng)網(wǎng)絡延時階數(shù)為3,即利用時間序列中某一點的前3個點來預測該點數(shù)值;隱藏層神經(jīng)元個數(shù)為10;最大迭代次數(shù)為1 000。在NAR神經(jīng)網(wǎng)絡訓練階段,利用訓練集中數(shù)輸出據(jù)輸出與原始數(shù)據(jù)相關系數(shù)和訓練誤差的Ljung-Box Q檢驗來確定訓練所得的神經(jīng)網(wǎng)絡是否可靠。圖3為最終采用的神經(jīng)網(wǎng)絡模型的訓練誤差圖。該神經(jīng)網(wǎng)絡在迭代15次之后,誤差即達到最小。從圖3可以看出訓練輸出(藍色)、交叉檢驗輸出(綠色)與測試輸出(紅色)均與原時間序列具有較高的吻合度。且訓練集中數(shù)輸出據(jù)輸出與原始數(shù)據(jù)相關系數(shù)為0.99,Ljung-Box Q檢驗結果為0。表明該神經(jīng)網(wǎng)絡較為可靠,可用于下一步預測。
圖3 NAR神經(jīng)網(wǎng)絡訓練誤差
在訓練得出可靠的神經(jīng)網(wǎng)絡之后,即可進行預測。圖4(a)為預測結果圖4(b)為預測誤差。從圖中可以看出利用NAR神經(jīng)網(wǎng)絡預測獲得的2011年—2017年人口總數(shù)與實際人口數(shù)量具有較高的吻合度。預測絕對誤差在50萬人之內(nèi)。因而利用該神經(jīng)網(wǎng)絡模型可進一步預測全國人口總數(shù)的規(guī)模及趨勢。
圖4 NAR神經(jīng)網(wǎng)絡預測結果
本文利用NAR神經(jīng)網(wǎng)絡模型,以1949年—2010年人口數(shù)為訓練樣本,對我國2011—2017年人口數(shù)量進行了預測,從對比結果來看具有較高的預測精度。而在利用NAR神經(jīng)網(wǎng)絡進行時間序列預測時,需設置兩個參數(shù):延時階數(shù)和隱藏層神經(jīng)元個數(shù)。本文在進行預測時,延時階數(shù)為3,隱藏層神經(jīng)元個數(shù)為10。但目前對于以上兩個參數(shù)的設置尚無有明確的標準,通常情況下是根據(jù)經(jīng)驗給出相應參數(shù)值。
為了研究不同延時階數(shù)與隱藏層神經(jīng)元的個數(shù)對于預測結果的影響,本文分別設置了延時階數(shù)分別為5和10、隱藏層神經(jīng)元個數(shù)分別為5和10的不同神經(jīng)網(wǎng)絡模型對人口數(shù)據(jù)進行預測。測試結果如圖5所示。其中圖5(a)為延時階數(shù)和隱藏層神經(jīng)元個數(shù)均為10時的預測結果;圖5(b)為延時階數(shù)為5、隱藏層神經(jīng)元個數(shù)為10時的預測結果;圖5(c)為延時階數(shù)為10、隱藏層神經(jīng)元個數(shù)為5時的預測結果;圖5(d)為延時階數(shù)和隱藏層神經(jīng)元個數(shù)均為5時的預測結果。
圖5 不同延時階數(shù)和隱藏層神經(jīng)元個數(shù)預測結果對比
從預測結果對比中可以看出當隱藏層神經(jīng)元個數(shù)相同時,隨著延時階數(shù)的增加預測誤差在增大;而當延時階數(shù)相同時,隱藏層神經(jīng)元個數(shù)越少預測誤差越大。
從以上測試結果可以看出,延時階數(shù)和隱藏層神經(jīng)元個數(shù)的選擇對于最終預測結果具有較大的影響。當選擇不當式,可能會造成較大的預測錯誤。因此在利用NAR神經(jīng)網(wǎng)絡進行預測時應當留出部分數(shù)據(jù)作為驗證數(shù)據(jù),通過預測結果與驗證數(shù)據(jù)之間的誤差來控制參數(shù)選取,以期獲得較為準確的預測結果。
本文以1949年—2010年人口總數(shù)作為輸入,利用NAR神經(jīng)網(wǎng)絡模型對我國2011年—2017年人口總數(shù)進行了預測,預測結果與實際人口總數(shù)吻合程度較高。主要得出以下結論:
(1)利用NAR神經(jīng)網(wǎng)絡模型進行人口數(shù)量預測,無需對原時間序列進行過多的預處理操作,且收斂速度較快,使用方便。根據(jù)預測結果與實際人口數(shù)的對比,其預測結果具有較高的準確性。
(2)NAR神經(jīng)網(wǎng)絡模型預測結果受延時階數(shù)和隱藏層神經(jīng)元個數(shù)影響較大。因此,在進行預測時應當充分利用先驗信息進行約束和檢驗。選取合理的參數(shù)設置,從而獲得更加可靠地預測結果。