熊萍萍, 石 佳, 姚天祥, 閆書麗
(1.南京信息工程大學 管理工程學院,江蘇 南京 210044; 2.南京信息工程大學 風險治理與應急管理研究院,江蘇 南京 210044; 3.南京信息工程大學 數學與統計學院,江蘇 南京 210044)
些年來,霧霾作為我國較嚴重的一種空氣污染問題,不僅對我國的自然環(huán)境造成了不良影響[1],而且對人類的身體健康也帶來極大的負面作用[2]。因此,對霧霾進行準確的預測,對社會和人類而言意義重大。
國內外的眾多研究人員為了更好地解決霧霾問題并進行有效防控和治理,建立了回歸模型[3]、時間序列模型[4]、神經網絡模型[5]等并對霧霾展開了預測分析。因為在霧霾期間的霧霾衡量指標以及因素變量數據都是以小數據特點展現出來,所以研究人員便通過灰色系統理論來探討霧霾,得到預測精度較高的結果。Wu等[6]為了預測京津冀地區(qū)的空氣質量數據,采用累加生成的階數為分數的形式,構建預測模型;為了較準確地預測淮安市和南京市的空氣質量,王志祥[7]和熊萍萍[8]等則采用GM(1,1)和MGM(1,m,N)模型。
灰色系統理論是一門新興的學科,主要解決不確定性問題,它以貧信息、少數據建模為特點,對已有信息進行深入挖掘,進而探究不確定系統中的運行規(guī)律[9]。GM(1,1)模型是常見的一種預測模型,許多研究人員從多種視角對該模型進行改進[10~12],并在經、管、農、林、理、工、醫(yī)等眾多領域都有著廣泛的應用。在GM(1,1)模型的基礎上拓展可得到GM(1,N)模型,目前,對GM(1,N)模型的改進主要集中于背景值改進[13,14]、驅動項優(yōu)化[15,16]、模型離散化[17,18]等方面。還有一些學者根據系統中存在的滯后性效應,對GM(1,N)模型[19,20]進行改進。
在對實驗數據分析的過程中,往往不能用精確的數值來表達已存在的變動參數,這是因為外界原因會對數據的測量產生影響。所以這一區(qū)別于一般預測模型的灰色預測模型——在非精確數值區(qū)間建立模型被人們重視起來。曾波[21]和黨耀國等[22]分別通過核和灰度序列、殘差思想,針對區(qū)間灰數構建了GM(1,1)模型,石佳等[23]在核和灰度序列的基礎上,引入線性時變參數,建立了GM(1,N)模型,上述優(yōu)化模型是將實驗數據中的實數范疇擴大到區(qū)間灰數范疇,以便于灰色模型在不同條件下的合理應用,使得灰色系統理論更加的完整且豐富。
在目前的實際應用過程中,原始GM(1,N)模型[24]只能適用于在同一時間下的變量,在建模的過程中沒有過多地考慮時間滯后變化關系,因此常常在預測過程中產生或多或少的模擬預測偏差。本文將分析當期系統特征數據在往期相關因素作用下的滯后效應,在可能度函數為已知條件下,構建時滯GM(1,N)模型,并求解滯后參數。本文將會研究在大氣污染物的影響下,霧霾可能受到的滯后影響,并將新構建的模型應用到南京市霧霾的模擬預測中。
定義1設行為特征序列為:
與之對應的影響因素序列如下:
影響因素的第τi期時滯序列記為:
(1)
同理,基于新灰度序列建立的時滯GM(1,N)模型為:
(2)
特別地,當τi=0時,意味著行為特征序列與影響因素序列都處在同一時期,此時新型核與灰度的時滯GM(1,N)模型,退化為新型核與灰度的GM(1,N)模型。
(1)白化方程
的解為:
(3)
的近似時間響應式為:
(4)
(3)累減還原式為:
(5)
(6)
其累減還原式為:
(7)
證明同定理2。
為了提高模型預測精度,以新型核序列為例,給出新型核的時滯GM(1,N)模型關于滯后參數的目標函數:
(8)
同樣地,可給出新型灰度序列的時滯GM(1,N)模型關于滯后參數的目標函數。利用MATLAB求解滯后參數,求出滯后參數τi的最優(yōu)解之后,對模型中的結構參數進行辨識,最后,根據時間響應函數確定模擬值和預測值。
根據下列方程組,求得每個區(qū)間灰數的上界及下界的模擬值和預測值[24]:
(9)
預測模型的好壞,其中一個重要的評價標準,就是模型的預測精度和預測效果。預測精度越高,則認為預測效果越好。在本文中規(guī)定,當平均相對誤差控制在10%之內時,認為預測模型具有較好的預測效果,預測精度較高[25]。
PM10是一種粒徑非常小的顆粒物,其粒徑小于10微米,PM10濃度與NO2濃度密切相關[26],因此可以將NO2濃度選作PM10濃度的影響因素。本節(jié)將選擇南京市2019年11月6日至11月21日的PM10濃度和NO2濃度展開探究剖析。
11月6日~11月21日區(qū)間灰數的上下界確定規(guī)則如下:將11月4日至11月6日實際值的最高值和最低值作為11月6日對應區(qū)間灰數的上界和下界,根據對比,可以獲得7日至21日相對應區(qū)間灰數的上下界。記PM10濃度的灰數序列為X1(?),NO2濃度的灰數序列為X2(?),取6~10日的數據為前期數據,11~17日為當期數據。各區(qū)間灰數的可能度函數由專家打分法求得,初始數據如表1所示。結合南京市近兩年NO2濃度和PM10濃度的統計觀測值,確定它們的論域為Ω1=Ω2∈[0,500]。
表1 PM10濃度、NO2濃度區(qū)間灰數及可能度函數
步驟1結合表1的數據,訓練集選取2019年11月11日到17日的相關觀測數據,測試集選取18日到21日的相關統計數據,根據新型核和灰度的計算公式,分別得到NO2和PM10濃度的核與灰度序列。
步驟2先后建立基于新型核和灰度序列的時滯GM(1,2)模型,利用滯后參數的求解方法,確定出兩個模型中的滯后參數均為1。
步驟3構建PM10濃度關于新型核以及灰度序列的時滯GM(1,2)模型,可得到:
依據所得到的模型,計算出PM10濃度新型核以及灰度序列的模擬、預測值。
步驟4計算區(qū)間灰數的上、下界的模擬值和預測值,可直接由步驟3得到的PM10濃度新型核與灰度序列的模擬、預測值還原計算得出,具體結果詳見表2和表3。
步驟5在步驟4的基礎上,進一步計算對應的相對誤差及平均相對誤差,結果如表2和表3所示。本文通過比較一元回歸模型和新構建的時滯GM(1,2)模型,以此驗證本文所提出模型的有效性和適用性,兩個模型的相關結果詳見表2、表3所示。
表2 PM10濃度區(qū)間灰數的下界模擬預測值及相對誤差
表3 PM10濃度區(qū)間灰數的上界模擬預測值及平均相對誤差
為了更清晰地對比基于新型核與灰度序列的時滯GM(1,2)模型和GM(1,2)模型、一元回歸模型的結果,結合表2、和表3的數據,可以畫出PM10濃度上下界相對誤差對比圖,如圖1、圖2所示。
圖1 PM10濃度下界相對誤差
圖2 PM10濃度上界相對誤差
從表2與表3的數據中可以發(fā)現,文中提出的優(yōu)化時滯預測模型適用于處理具有時滯特征的小數據、貧信息的不確定系統問題。從模擬值來看,對比一元回歸模型5%左右的上、下界平均相對誤差,本文所提出的時滯GM(1,2)模型和傳統的GM(1,2)模型的平均相對誤差更低,均處于2%以下。從預測值來看,本文提出的時滯模型GM(1,2)相較于傳統GM(1,2)模型和一元回歸模型,上、下界的平均相對誤差前者明顯均低于后兩個模型,為3.46%。這主要是由于后兩個模型未將NO2濃度與PM10濃度之間的時滯效應考慮在內而導致相對誤差偏大?;谝陨戏治?,本文提出的在新型核與灰度基礎上建立的時滯GM(1,2)模型,由于將大氣污染物濃度之間存在的滯后關系考慮進來,所以能夠降低傳統GM(1,2)模型的平均相對誤差,提升預測效果。
本文在對滯后參數的識別和對模型機理的探索過程中,將影響因素的滯后特征考慮在內,建立了基于新型核與灰度的時滯GM(1,2)模型。在已給出可能度函數的情形下,將滯后參數引入到傳統GM(1,N)模型的驅動項中,得到本文所提出的優(yōu)化模型。該模型在計算、應用過程以及計算機操作中都具有較強優(yōu)勢,不僅可以對小數據樣本進行處理,還能解決因素變量的滯后效應帶來的相關問題。通過案例實證,結果顯示:在考慮南京市PM10濃度與NO2濃度的滯后關系后,模型對污染物濃度的預測精度更高,高達96%以上。由此可見,本文提出的考慮了相關因素滯后影響的新模型進一步完善了灰色預測模型,并拓展了其應用范圍。