彭思嶺
(1.廣東利通信息科技投資有限公司 智能交通研究院,廣東 廣州 510641)
氣象要素空間插值方法優(yōu)化研究
彭思嶺1
(1.廣東利通信息科技投資有限公司 智能交通研究院,廣東 廣州 510641)
運用反距離加權插值法(IDW)和梯度反距離加權插值法(GIDW)對全國183個氣象站的2001年、2002年平均氣溫進行了內插,并在此基礎上進行了冪指數優(yōu)化和鄰近點選擇優(yōu)化。交叉驗證結果表明,對于IDW方法,冪指數為3、鄰近點選擇采用三角網法的插值結果最優(yōu);對于GIDW方法,冪指數為2、鄰近點選擇采用固定數目法的插值結果最優(yōu)。在冪指數和鄰近點選擇優(yōu)化的基礎上,比較了IDW方法與GIDW方法的插值結果,考慮經緯度和海拔高程的GIDW方法明顯優(yōu)于IDW方法。在此基礎上,提出了基于K-means聚類的空間插值優(yōu)化方法,實踐證明聚類后再插值比直接插值效果更佳,聚類為插值前的數據預處理提供了一種新的思路。
IDW;GIDW;冪指數;聚類
氣象要素信息數據是多種地學模型和氣候學模型的基礎[1]。準確獲取氣候要素信息數據的方法之一是建立高密度的氣象觀測站點,但由于經濟水平、技術手段和地形條件的限制,很多地方的氣象數據獲取較困難。為了獲取站點外區(qū)域的氣象數據,研究人員通常將統計學方法與GIS相結合,根據已有站點的觀測值估算(氣象信息空間插值)全局空間范圍內各點位的氣象數據。常用的空間插值方法有:反距離加權插值法(IDW)、梯度反距離加權插值法(GIDW)、樣條函數插值法、克里金插值法、多項式插值法和趨勢面法等[2-3]。本文對IDW和GIDW插值方法的參數進行了優(yōu)化,得出最優(yōu)的插值結果,并在此基礎上提出了基于K-means聚類的空間插值方法。實驗結果表明,該方法優(yōu)于傳統插值方法。
圖1 中國氣象站點分布圖(審圖號:GS(2008)1400)
1.1 數據來源
本文所采用的氣溫數據來自中國氣象科學數據共享服務網,中國行政區(qū)劃數據來自從中國地球科學數據共享網申請的中國1∶400萬全要素基礎數據;以2001年、2002年全國183個氣象站的年均氣溫數據作為插值分析數據源。183個氣象站分布狀況如圖1所示:數據采用的地理坐標系為GCS_Beijing_1954,投影坐標系為Lambert_Conformal_Conic。
1.2 插值方法
1.2.1 IDW方法
IDW方法是以待插點與實際觀測樣本點之間的距離為權重的插值方法,離插值點越近的樣本點被賦予的權重越大,其權重貢獻與距離成反比。其計算公式為[2]:
式中,z(xe)為xe處待插點的估算值;z(xi)為xi處的實際觀測值;di為xi到xe的距離;m為參與計算的實測樣本個數;n為距離的冪,一般取值為2。
1.2.2 GIDW方法
GIDW方法于1998年由Nalder等提出,在IDW方法的基礎上,考慮了氣象要素隨海拔和經緯度的梯度變化。其計算公式為[4]:
式中,Xe、Ye、Ue分別為xe處待插點的經度、緯度和海拔高程值;Xi、Yi、Ui分別為xi處實測樣本點的經度、緯度和海拔高程值;Cx、Cy、Cu分別為站點氣象要素值與經度、緯度和海拔高程值的回歸系數。
1.3 檢驗方法
采用交叉驗證法來驗證插值效果[5],即假定各站點的氣象要素值均未知,需通過周圍站點的值來估算,再計算所有站點實際觀測值與估算值的誤差,以此來評估誤差方法的優(yōu)劣。一般情況下采用平均絕對誤差(MAE)和插值誤差平方和的均方根(RMSIE)作為評估不同插值方法的標準[6]。MAE可評估估算值可能的誤差范圍,RMSIE可反映利用樣點的估算靈敏度和極值效應[7],MAE和RMSIE的表達式分別為:
式中,zo,i為第i個站點的實際觀測值;ze,i為第i個站點的插值估算值;m為用于參與驗證的站點數目。
2.1 冪指數優(yōu)化
在IDW方法和GIDW方法中,權重的選擇直接影響插值的精度,而冪指數的選取直接影響權重的大小,因此冪指數的選取十分關鍵。國外許多學者取冪指數為2的IDW法對氣象數據進行插值[8-9],本文通過實例驗證,冪指數為2并不是最精確的。目前國內外研究者通常采用交叉驗證法來驗證冪指數的選取對插值精度的影響,以RMSIE作為評估標準,其值越接近0,插值精度越高[10]。根據RMSIE最小的選擇標準,冪指數分別選取1~6,采用逐步迭代法對研究區(qū)2001 年、2002年氣溫的冪指數進行篩選,選出最優(yōu)的冪指數。對于每一個待插值點,均選其周圍最近的15 個站點數據進行插值。由表1可知,對于IDW方法,冪指數為3時的插值精度最高;對于GIDW方法,冪指數為2時的插值精度最高。
表1 不同冪指數下的插值精度比較
2.2 鄰近點選擇優(yōu)化
在IDW方法和GIDW方法中,鄰近點的個數直接影響插值精度。鄰近點的選擇是空間數據信息處理技術的一個重要研究方向,相關的算法主要可以分為[3]:①固定數目點選擇,即選擇最近的n個點(n預先指定)。該算法簡單且運算矩陣的維數固定,但對于樣點分布不均勻可能導致外推。②固定距離點選擇,即選擇以待預測點為圓心,預先指定的距離為半徑的圓所包含的點。該算法遇到樣點分布不均勻的情況時,選擇的點會過多或過少,且也不能避免外推。③三角網點選擇,即選擇與離待預測點距離最近的樣本點有鄰接關系的所有樣本點。該算法在處理外圍點時會不可避免地出現離待預測點較遠的樣本點仍被作為插值計算點的情況,明顯與實際不符。本文運用IDW方法和GIDW方法對3種鄰近點選擇方法進行了比較,冪指數選取3,其中固定數目點為15個,固定距離選擇東西方向或南北方向最大距離的1/3。3種鄰近點選擇方法的精度見表2。
表2 不同鄰近點選擇方法插值精度比較
由表2可知,綜合比較2 a的MAE和RMSIE,對于IDW方法,插值精度大小排序為三角網>固定數目>固定距離;對于GIDW方法,插值精度大小排序為固定數目>固定距離>三角網。當冪指數發(fā)生變化時,插值精度大小排序也會發(fā)生變化。
2.3 IDW方法與GIDW方法結果比較
在冪指數優(yōu)化和鄰近點選擇優(yōu)化的基礎上,運用IDW與GIDW兩種方法進行插值。對于IDW法:冪指數取3,鄰近點選擇采取三角網法的插值結果最優(yōu);對于GIDW法:冪指數取2,鄰近點選擇采取固定數目法的插值結果最優(yōu),見表3。
表3 IDW方法與GIDW方法插值精度比較
由表3可知,GIDW方法的MAE、RMSIE明顯低于IDW方法,GIDW方法顯示了較強的優(yōu)越性。氣溫的地理分布及變化受經緯度、地形等因素綜合影響,綜合考慮經緯度和海拔高程的GIDW插值方法提高了插值精度。MAE和RMSIE可反映插值方法的總體精度,各站點的插值精度可用相對誤差(RE,插值估算值與實際觀測值之差的絕對值占實際觀測值的絕對值的百分比)來評估。以2002年年均氣溫數據為例,站點相對誤差分布見表4。通過比較RE也可得出GIDW方法優(yōu)于IDW方法的結論,在RE較低的區(qū)間(<10%),GIDW方法的站點百分比高出IDW方法10個百分點;而在RE較高區(qū)間(>50%),GIDW方法的站點百分比低于IDW方法7個百分點。
表4 氣象站點RE分布/%
根據聚類后結果簇內相似度高、簇間相似度低的原理,將183個氣象站分簇,簇內區(qū)域用簇內的氣象站點數據進行插值,簇外的氣象站點數據不參與插值,理論上可獲得更高的插值精度。
常用的空間聚類算法很多,本文采用K-means聚類算法,其處理流程為[11]:首先隨機選擇k個對象,每個對象代表一個簇的初始均值或中心,對剩余的每個對象,根據其與各個簇均值的距離,將其指派到最相似的簇;然后計算每個簇的新均值,不斷重復,直到準則函數收斂。
根據中國氣溫分布的基本特征,大致可劃分為東北、華北、西北與南方4個區(qū)域,空間聚類后形成空間上的4個簇[12]。本文采用與參考文獻[12]中相同的分簇個數,將183個氣象站點分成4簇,結果見圖2。
圖2 氣象站點分簇后結果圖(審圖號:GS(2008)1400)
簇內區(qū)域用簇內氣象站點進行插值,簇外的點即使距離很近也不參與計算。聚類前與聚類后的精度見表5(以2002年的數據為例);可以看出聚類后再插值比直接插值具有更高的精度。站點的RE分布見表 6。對于IDW方法,在RE較低的區(qū)間(<10%),聚類后再插值的站點百分比高出直接插值3個百分點;而在RE較高的區(qū)間(>50%),聚類后再插值的站點百分比低于直接插值2個百分點。對于GIDW方法,在RE較低的區(qū)間(<10%),聚類后再插值的站點百分比高出直接插值3個百分點;而在RE較高的區(qū)間(>50%),聚類后再插值的站點百分比低于直接插值0.6個百分點。
表5 聚類前后插值結果比較
表6 氣象站點RE分布/%
本文運用IDW方法和GIDW方法對年平均氣溫進行插值,并進行了冪指數和鄰近點選擇的優(yōu)化;在此基礎上比較了兩種方法的插值效果,進一步提出了基于K-means聚類的空間插值方法,得出以下結論:
1)許多學者采取冪指數為2的IDW法對氣象數據進行插值,本文通過實驗驗證,冪指數為3時,IDW方法插值效果更好;冪指數為2時,GIDW方法插值效果更好。由此可見,插值方法不同時,最佳冪指數取值也不同。
2)對于本文提到的3種鄰近點選擇方法,實驗結果表明,對于IDW方法,三角網法選擇鄰近點插值效果最佳;而對于GIDW方法,固定數目法選擇鄰近點插值效果最佳。
3)GIDW方法的MAE和RMSIE都明顯小于IDW方法,可見考慮經緯度和高程的GIDW插值結果優(yōu)于IDW方法。
4)對全國氣象站聚類后再插值,IDW方法和GIDW方法的插值結果均有明顯提高。該方法為插值之前氣象站點數據的預處理提供了另一種思路。
[1]劉志紅,McVicar T R,VanNie T G,等.基于ANUSPLIN的時間序列氣象要素空間插值[J].西北農林科技大學學報(自然科學版),2008,36(10):227-234
[2]鄔倫,劉瑜,張晶,等.地理信息系統:原理、方法和應用[M].北京:科學出版社,2001:180-191
[3]杜宇健,蕭德云.Delaunay-固定距離滑動鄰域Kriging算法[J].工程圖學學報,2005(2):64-68
[4]Nalder I A, Wein R W. Spatial Interpolation of Climatic Normals: Test of a New Method in the Canadian Boreal Forest[J]. Agricultural and Forest Meteorology,1998,92(4):211-225
[5]Holdaway M R. Spatial Modeling and Interpolation of Monthly Temperature Using Kriging[J].Annals of Physics,1996,6(3):215-225
[6]潘耀忠,龔道溢,鄧磊,等.基于DEM的中國陸地多年平均溫度插值方法[J].地理學報,2004,59(3):366-374
[7]林忠輝,莫興國,李宏軒,等.中國陸地區(qū)域氣象要素的空間插值[J].地理學報,2002,57(1):47-56
[8]Patrick M B. Multivariate Interpolation to Incorporate Thematic Surface Data Using Inverse Distance Weighting(IDW) [J]. Computers & Geosciences,1996,22(7):795-799
[9]Goovaerts P. Geostatistical Approaches for Incorporating Elevation into the Spatial Interpolation of Rainfall[J]. Journal of Hydrology,2000,228(1/2):113-129
[10]Efron B, Gong G.A Leisurely Look at the Bootstrap, the Jackknife, and Cross-validation[J].The American Statistician, 1983,37(1):36-48
[11]Muhammad A, Loftis J C, Hubbard KG. Application of Geostatistics to Evaluate Partial Weather Station Networks[J]. Agricultural and Forest Meteorology,1997,84(3):255-271
[12]劉啟亮,鄧敏,王佳璆,等.時空一體化框架下時空異常探測[J].遙感學報,2011,15(3):457-474
P208
B
1672-4623(2017)07-0086-04
10.3969/j.issn.1672-4623.2017.07.026
彭思嶺,碩士研究生,主要從事GIS的開發(fā)研究工作。
2015-09-01。