基于NAR神經(jīng)網(wǎng)絡的人口數(shù)量預測方法

2022-10-14 08:53:38許晨

現(xiàn)代信息科技 2022年16期

許晨

(中國石油集團東方地球物理勘探有限責任公司，河北涿州 072750)

0 引言

人口問題一直是影響城市發(fā)展與國土空間格局的重要因素，人口的規(guī)模會影響經(jīng)濟、社會的發(fā)展及資源的利用。不論人口問題、資源問題還是環(huán)境與發(fā)展問題，最終都是因為人口數(shù)量失控而引起的。因此科學地預測人口有助于合理制定符合實際需求的遠景規(guī)劃，保持適度的人口規(guī)模是經(jīng)濟、社會、資源和環(huán)境保護協(xié)調發(fā)展的強有力保證。因此，人口規(guī)模的預測及控制是各個國家重點研究和關注的問題。但是人口數(shù)量的變化受自然環(huán)境、社會環(huán)境、文化觀念、醫(yī)療水平、政策導向等多種因素的影響，很難用一個確定的數(shù)學模型去描述。

目前預測人口數(shù)量的方法主要有人口年增長法、灰色預測模型、回歸模型、logistic模型、馬爾薩斯模型、時間序列法、修正指數(shù)曲線、人口指數(shù)增長模型、神經(jīng)網(wǎng)絡模型等方法。但目前所采用的方法大多具有一定的限制條件，如logistic模型需要較大的樣本量，并且在人口出現(xiàn)負增長的時候無法預測；馬爾薩斯模型相對簡單，計算起來方便，但是其考慮的因素比較單一；灰色預測模型適用于小樣本數(shù)據(jù)即短期人口數(shù)量預測，且對于不均勻增長趨勢的人口序列預測效果并不明顯。

神經(jīng)網(wǎng)絡算法(Artificial Neural Network, ANN)是一種受生物神經(jīng)系統(tǒng)啟發(fā)而來的數(shù)學模型，具有強大的非線性映射能力?？奢^好的表征數(shù)據(jù)間的復雜關聯(lián)，擁有良好的數(shù)據(jù)處理能力且對樣本數(shù)據(jù)的質量要求較低，運算靈活機動。因此，在數(shù)據(jù)處理與運算方面得到了廣泛的使用。非線性自回歸（Nonlinear Auto Regressive, NAR）神經(jīng)網(wǎng)絡是一種用于分析時間序列的動態(tài)神經(jīng)網(wǎng)絡模型。從本質上來說，是以時間序列自身作為回歸變量，通過一段時間內(nèi)的變量值的線性組合來表示之后某一時刻的變量值。相較于BP神經(jīng)網(wǎng)絡，NAR神經(jīng)網(wǎng)絡在信息傳遞過程中會向上一層進行反饋，參與下一層計算。因而，其輸出并不只是一種靜態(tài)的映射，還是之前動態(tài)結果的綜合利用。NAR神經(jīng)網(wǎng)絡在提出之后在時間序列分析、預測領域均得到了廣泛的應用。本文將探討利用NAR神經(jīng)網(wǎng)絡模型進行人口總數(shù)預測的方法與效果。

1 NAR神經(jīng)網(wǎng)絡

NAR(Nonlinear Auto-Regressive)神經(jīng)網(wǎng)絡全稱為非線性自回歸模型，屬于動態(tài)神經(jīng)網(wǎng)絡中的一種。模型的輸入輸出之間的變量關系并不僅僅是一種靜態(tài)方式的映射，每一時刻的輸出都是基于當前時刻以前系統(tǒng)的動態(tài)結果綜合而得，即具有反饋和記憶的功能。使該神經(jīng)網(wǎng)絡同時具備動態(tài)和完整系統(tǒng)信息的特征。因而NAR神經(jīng)網(wǎng)絡不僅繼承了傳統(tǒng)時間序列模型的優(yōu)點，對于非線性數(shù)據(jù)具有更好的適應能力和預測效果。NAR神經(jīng)網(wǎng)絡的模型可描述為：

式中：()為當前時刻的變量值；((-1),(-2),(-3),…,(-)為歷史時刻的變量值；為延遲階數(shù)。

一般情況下，NAR神經(jīng)網(wǎng)絡由靜態(tài)神經(jīng)元與網(wǎng)絡輸出反饋兩部分組成。一個完整的NAR神經(jīng)網(wǎng)絡一般由輸入層、隱含層、輸出層構成，如圖1所示，數(shù)據(jù)()由輸入層進入，進入隱藏層，經(jīng)過訓練、傳遞、學習之后到達輸出層，進而得到預測結果。

圖1 NAR神經(jīng)網(wǎng)絡

圖中，()表示神經(jīng)網(wǎng)絡的輸入；隱藏層中的1:3為延時階數(shù)，表示利用時間序列中某一點前的三個點來預測該點的值；為連接權，為閾值。各個神經(jīng)元輸出可表示為：

式中：為激活函數(shù)；w為第個輸出時延信號和隱含層第個神經(jīng)元之間的連接權值。

2 實例研究

本文擬利用NAR神經(jīng)網(wǎng)絡進行中國人口數(shù)量預測，圖2為1949年—2017年中國總人口數(shù)量統(tǒng)計，數(shù)據(jù)來源為中國統(tǒng) 計局（https://data.stats.gov.cn/easyquery.htm?cn=C01）。從圖中可以看出自1949年以來，除1960年左右存在一個小規(guī)模的下降階段外，我國人口總量整體呈逐年上升趨勢，至2017年底全國人口總數(shù)接近14億。

圖2 1949—2017年中國人口總數(shù)

利用1949年—2010年之間的62個數(shù)據(jù)作為神經(jīng)網(wǎng)絡訓練樣本，將2011年—2017年之間的7個數(shù)據(jù)作為驗證樣本。其中訓練樣本中70%參與神經(jīng)網(wǎng)絡訓練(training)；15%進行交叉檢驗(validation)；剩余15%進行測試(test)。本文所構建的NAR神經(jīng)網(wǎng)絡延時階數(shù)為3，即利用時間序列中某一點的前3個點來預測該點數(shù)值；隱藏層神經(jīng)元個數(shù)為10；最大迭代次數(shù)為1 000。在NAR神經(jīng)網(wǎng)絡訓練階段，利用訓練集中數(shù)輸出據(jù)輸出與原始數(shù)據(jù)相關系數(shù)和訓練誤差的Ljung-Box Q檢驗來確定訓練所得的神經(jīng)網(wǎng)絡是否可靠。圖3為最終采用的神經(jīng)網(wǎng)絡模型的訓練誤差圖。該神經(jīng)網(wǎng)絡在迭代15次之后，誤差即達到最小。從圖3可以看出訓練輸出(藍色)、交叉檢驗輸出(綠色)與測試輸出(紅色)均與原時間序列具有較高的吻合度。且訓練集中數(shù)輸出據(jù)輸出與原始數(shù)據(jù)相關系數(shù)為0.99，Ljung-Box Q檢驗結果為0。表明該神經(jīng)網(wǎng)絡較為可靠，可用于下一步預測。

圖3 NAR神經(jīng)網(wǎng)絡訓練誤差

在訓練得出可靠的神經(jīng)網(wǎng)絡之后，即可進行預測。圖4(a)為預測結果圖4(b)為預測誤差。從圖中可以看出利用NAR神經(jīng)網(wǎng)絡預測獲得的2011年—2017年人口總數(shù)與實際人口數(shù)量具有較高的吻合度。預測絕對誤差在50萬人之內(nèi)。因而利用該神經(jīng)網(wǎng)絡模型可進一步預測全國人口總數(shù)的規(guī)模及趨勢。

圖4 NAR神經(jīng)網(wǎng)絡預測結果

3 結果與討論

本文利用NAR神經(jīng)網(wǎng)絡模型，以1949年—2010年人口數(shù)為訓練樣本，對我國2011—2017年人口數(shù)量進行了預測，從對比結果來看具有較高的預測精度。而在利用NAR神經(jīng)網(wǎng)絡進行時間序列預測時，需設置兩個參數(shù)：延時階數(shù)和隱藏層神經(jīng)元個數(shù)。本文在進行預測時，延時階數(shù)為3，隱藏層神經(jīng)元個數(shù)為10。但目前對于以上兩個參數(shù)的設置尚無有明確的標準，通常情況下是根據(jù)經(jīng)驗給出相應參數(shù)值。

為了研究不同延時階數(shù)與隱藏層神經(jīng)元的個數(shù)對于預測結果的影響，本文分別設置了延時階數(shù)分別為5和10、隱藏層神經(jīng)元個數(shù)分別為5和10的不同神經(jīng)網(wǎng)絡模型對人口數(shù)據(jù)進行預測。測試結果如圖5所示。其中圖5(a)為延時階數(shù)和隱藏層神經(jīng)元個數(shù)均為10時的預測結果；圖5(b)為延時階數(shù)為5、隱藏層神經(jīng)元個數(shù)為10時的預測結果；圖5(c)為延時階數(shù)為10、隱藏層神經(jīng)元個數(shù)為5時的預測結果；圖5(d)為延時階數(shù)和隱藏層神經(jīng)元個數(shù)均為5時的預測結果。

圖5 不同延時階數(shù)和隱藏層神經(jīng)元個數(shù)預測結果對比

從預測結果對比中可以看出當隱藏層神經(jīng)元個數(shù)相同時，隨著延時階數(shù)的增加預測誤差在增大；而當延時階數(shù)相同時，隱藏層神經(jīng)元個數(shù)越少預測誤差越大。

從以上測試結果可以看出，延時階數(shù)和隱藏層神經(jīng)元個數(shù)的選擇對于最終預測結果具有較大的影響。當選擇不當式，可能會造成較大的預測錯誤。因此在利用NAR神經(jīng)網(wǎng)絡進行預測時應當留出部分數(shù)據(jù)作為驗證數(shù)據(jù)，通過預測結果與驗證數(shù)據(jù)之間的誤差來控制參數(shù)選取，以期獲得較為準確的預測結果。

4 結論

本文以1949年—2010年人口總數(shù)作為輸入，利用NAR神經(jīng)網(wǎng)絡模型對我國2011年—2017年人口總數(shù)進行了預測，預測結果與實際人口總數(shù)吻合程度較高。主要得出以下結論：

（1）利用NAR神經(jīng)網(wǎng)絡模型進行人口數(shù)量預測，無需對原時間序列進行過多的預處理操作，且收斂速度較快，使用方便。根據(jù)預測結果與實際人口數(shù)的對比，其預測結果具有較高的準確性。

（2）NAR神經(jīng)網(wǎng)絡模型預測結果受延時階數(shù)和隱藏層神經(jīng)元個數(shù)影響較大。因此，在進行預測時應當充分利用先驗信息進行約束和檢驗。選取合理的參數(shù)設置，從而獲得更加可靠地預測結果。