王 鶴,曾永年
1. 中南大學地球科學與信息物理學院,湖南 長沙 410083; 2. 中南大學空間信息技術與可持續(xù)發(fā)展研究中心,湖南 長沙 410083
進入21世紀,我國的城市化水平得到大幅度的提高,目前已進入城鎮(zhèn)化快速發(fā)展時期。城市化的快速發(fā)展在帶來巨大經(jīng)濟、社會效益的同時,也引發(fā)了社會與環(huán)境的問題。城市生活用地、工業(yè)生產(chǎn)用地的擴展與農(nóng)業(yè)生產(chǎn)用地、生態(tài)用地的矛盾日益突出[1-2],城市作為對生態(tài)環(huán)境影響最為深刻的區(qū)域,城市化過程對區(qū)域生態(tài)環(huán)境產(chǎn)生很大的影響[3]。為促進城市化過程的健康、可持續(xù)發(fā)展,城市土地資源的科學規(guī)劃與管理就顯得尤為重要。而城市空間結構及其擴展的科學模擬與預測是城市科學管理與規(guī)劃的重要前提。為此,城市空間擴展過程的模擬與預測成為當前研究熱點之一。
元胞自動機(CA)模型作為一種時間和空間都離散的網(wǎng)格動力型模型,能基于局部行為模擬復雜的全局變化。因此,CA模型具有模擬地理復雜系統(tǒng)演化的能力[4]。利用CA模型能夠顧及城市區(qū)域宏觀自然經(jīng)濟環(huán)境和土地利用局部變化[5],從而實現(xiàn)對復雜城市化過程的模擬與預測。
在CA模型的構建與城市擴展模擬應用中,轉換規(guī)則的確定是CA模型的關鍵,在CA模型中,有許多代表著經(jīng)濟或自然約束的變量,這些變量對應的參數(shù)代表著對應變量的貢獻值,如何求取這些參數(shù),是CA模型的難點[6-13]。邏輯回歸較早的應用于元胞轉換規(guī)則的提取,文獻[14]基于線性Logistic回歸獲得CA模型轉換規(guī)則并成功應用于廣州城市的擴展模擬;文獻[15]將邏輯回歸、馬爾科夫鏈和CA模型結合,有效地提高了模擬的精度;文獻[16]利用邏輯回歸探索了城市擴展驅(qū)動力對于城市發(fā)展的影響,以沈陽市1997—2010年城市建成區(qū)變化作為因變量,Logistic回歸分析得到影響沈陽城市擴展的前幾位驅(qū)動因子依次是開發(fā)區(qū)、距1997年城區(qū)距離、DEM、距高速公路和鐵路距離、人口密度。已有研究表明邏輯回歸較多元分析更能充分的揭示城市擴展規(guī)律,但在處理復雜的變量關系時難以表達研究區(qū)域的非線性變化。為了有效解決復雜城市系統(tǒng)模擬的問題,文獻[17]將神經(jīng)網(wǎng)絡引入CA模型,利用神經(jīng)網(wǎng)絡獲取土地利用轉換規(guī)則,獲得了比邏輯回歸更高的模擬精度;文獻[18]將神經(jīng)網(wǎng)絡與元胞自動機結合,從不同時相的遙感數(shù)據(jù)中挖掘城市擴展的演變規(guī)律,并對義烏市作了實證分析和模擬預測,與同期義烏市的發(fā)展基本吻合;文獻[19]將神經(jīng)網(wǎng)絡與CA模型結合獲取了理想的模擬結果。然而,已有的研究表明神經(jīng)網(wǎng)絡屬于黑箱操作,且存在容易陷入局部最優(yōu)解和收斂慢的問題。為此,將智能算法與CA模型結合的研究成為當前研究的熱點之一,文獻[20—21]提出了將蟻群智能算法和遺傳算法等智能算法和元胞自動機相結合的模型,成功地應用于城市的模擬并取得了較好的結果;文獻[22]利用多智能體與元胞自動機相結合的方法并成功模擬了上海市2005年城市擴展動態(tài);文獻[23]構建了一個基于博弈論的Cellular模型,并模擬了武漢市城市的發(fā)展進程,研究表明城市開發(fā)進程中不同利益相關者的權益沖突可以用博弈論來解決,相比于純粹的CA模型,基于博弈論的Cellular模型擁有更高的模擬精度。智能算法所提取的規(guī)則不需要數(shù)學式表達,能方便地描述土地利用復雜的關系。然而,利用智能算法提取轉換規(guī)則的過程相對復雜,算法復雜度較高,從而影響CA模型應有的簡潔性。因此,構建結構簡單,又能充分挖掘元胞轉換規(guī)律的城市擴展模型是值得進一步探討的問題。
近年來,在傳統(tǒng)神經(jīng)網(wǎng)絡的基礎上發(fā)展的極限學習機能夠較好地解決神經(jīng)網(wǎng)絡算法速度慢、易陷入局部最優(yōu)解等問題[24-25]。相比于智能算法,極限學習機的結構更為簡單,能有效降低模型的復雜度;相比于神經(jīng)網(wǎng)絡,極限學習機不需要迭代求解,運行速度高且不易陷于局部最優(yōu)解。因此,本文基于極限學習機,構建城市擴展的CA模型(ELM-CA)。在城市元胞結構設計的基礎上,基于極限學習機自學習特性,有效挖掘城市空間擴展轉換規(guī)則,以期為城市空間擴展模擬與預測提供更為準確、客觀的技術方法。
極限學習機是一種簡單有效的單隱層前饋神經(jīng)網(wǎng)絡學習算法,能逼近復雜的非線性函數(shù),具有泛化性能好、學習速度快等特點[26]。
極限學習機的網(wǎng)絡結構如圖1所示,其網(wǎng)絡模型分為輸入層、隱藏層和輸出層。輸入層有n個輸入神經(jīng)元,對應著輸入數(shù)據(jù)的n個屬性值;隱藏層有L個隱藏神經(jīng)單元;輸出層有m個輸出神經(jīng)單元,對應著數(shù)據(jù)的m個標簽。Wij是第i個隱藏層神經(jīng)單元與第j個輸入層神經(jīng)單元的鏈接權值,bi是第i個隱藏層神經(jīng)單元的偏置值,βij是第i個隱藏層神經(jīng)單元與第j個輸出層神經(jīng)單元的鏈接權值。假設有N個不同的樣本(Xi,Yi),其中i=1,2,…,N,Xi是屬性數(shù)據(jù),Xi=[xi1xi2…xin],Yi是標簽,Yi=[yi1yi2…yim]。極限學習機的網(wǎng)絡可以表示為
(1)
式中,g(·)為激勵函數(shù),在極限學習機中激勵函數(shù)要求無限可微。本文選擇Sigmoid函數(shù),上述方程用矩陣可以表示為
Hβ=Y
(2)
式中
(3)
(4)
圖1 極限學習機結構網(wǎng)絡Fig.1 The structure of ELM
在極限學習機中,權值Wij和偏置bi被隨機確定,所以上述矩陣方程中矩陣H是確定的,只有β是未知量。因此,極限學習機中參數(shù)的求解轉換為解方程組Hβ=Y,可以得出
(5)
式中,Ht是H的Moore-Penrose廣義逆,經(jīng)過證明得到的解是唯一的??梢钥闯鰳O限學習機的求解不需要迭代,所以非常高效,而且克服了傳統(tǒng)基于梯度法所帶來的局部最小解與過擬合的弊端。
1.2.1 元胞狀態(tài)及轉換概率
以30 m×30 m分辨率的柵格空間作為元胞空間,元胞狀態(tài)設置為:城市用地、耕地、林地、水域、裸地。在元胞的轉換過程中,作如下假定:河流、湖泊等水域不發(fā)生轉化,城市用地不向非城市用地轉化。
非城市用地轉換為城市用地的概率(P)一般取決于元胞轉換為城市用地的潛力(PELM)、元胞鄰域影響(Pneighbor)、隨機因素(Prandom)影響。為此,本模型中元胞轉換概率(P)可表達為
P=PELM·Pneighbor·Prandom
(6)
元胞轉換潛力(PELM):極限學習機能夠很好解決復雜的非線性問題,非常適合地理等復雜現(xiàn)象。因此,本文利用極限學習機分別提取各主要非城市用地(耕地、林地、裸地)元胞轉換為城市用地的潛力(PELM)。
每一個模擬的元胞單元有n個驅(qū)動因子(空間距離變量、自然屬性要素),對應于輸入層的n個神經(jīng)單元,而極限學習機的輸出層對應于該元胞單元轉化為城市的潛力。由式(1)可得,元胞的轉化潛力PELM為
(7)
為了充分考慮不同用地類型轉化為城市用地的差異,按主要非城市用地(耕地、林地、裸地)的歷史數(shù)據(jù)分別采樣,獲得不同用地類型轉換為城市用地的數(shù)據(jù),并分別計算出各用地類型對應的模型參數(shù),這樣在計算中心元胞城市化潛力的時候,就用與中心元胞用地類型相同的模型參數(shù),這樣就可以充分考慮不同用地類型帶來的影響。
鄰域影響(Pneighbor):Pneighbor是鄰域城市元胞對中心元胞城市化的貢獻值,Pneighbor由公式得出
(8)
關于中心元胞鄰域的定義,本研究采用擴展摩爾型,其中con是條件函數(shù),Sij是該元胞的狀態(tài)。
隨機因素影響(Prandom):Prandom是0~1之間的隨機值,用來模擬實際中的隨機因素的影響,使模擬結果更加符合真實情況。
1.2.2 模型流程
CA模型通過多次的循環(huán)迭代,將鄰域元胞的影響納入模型,體現(xiàn)出元胞間局部相互作用,因為每次循環(huán)城市用地都會增加,所以鄰域影響每次循環(huán)后也會改變。假設從初始年份到目標年份,城市元胞數(shù)目增加數(shù)量Q,總的循環(huán)次數(shù)為N,則每次循環(huán)增加的城市元胞個數(shù)為Q/N,模型的運行過程如下:
(1) 首先利用訓練好的極限學習機根據(jù)驅(qū)動因子計算出每個元胞的轉換潛力值(PELM),基于初始年份的城市用地空間分布計算出鄰域影響值(Pneighbor),隨機生成隨機因素影響值(Prandom),然后將三者相乘得到轉化概率(P)。根據(jù)轉化概率的大小,選擇前Q/N個元胞作為新的城市元胞。
(2) 根據(jù)新的城市用地空間分布計算新的鄰域影響值(Pneighbor),隨機生成新的隨機因素影響值(Prandom),轉換潛力值(PELM)不變。然后根據(jù)得到的新的轉化概率(P),按大小選擇前Q/N個元胞作為新一輪迭代增加的城市元胞。
(3) 重復第(2)步,直到總共新增的城市元胞等于Q,或者循環(huán)次數(shù)達到N。
模型運行的流程如圖2所示。
圖2 模型運行流程Fig.2 The flow chart of the model
本文的研究區(qū)域是長沙市主城區(qū)。長沙市位于中國東南部,湘江下游地區(qū),是湖南省政治、經(jīng)濟、文化中心。地理區(qū)域為111°53′E—114°15′E,27°51′N—28°41′N。長沙市氣候溫和、降雨充沛,屬于亞熱帶季風性氣候。長沙市地形起伏大,東西部山地環(huán)繞,中部較為緩和;地貌類型多樣,以山地、丘陵、平原為主;土壤以紅壤和水稻土為主,適合多種農(nóng)作物生長。試驗區(qū)如圖3所示。
利用2006、2010年兩個時相的LandsatTM遙感影像監(jiān)督分類得到的土地利用數(shù)據(jù),該土地利用數(shù)據(jù)中將土地利用類型劃分為城市用地、耕地、林地、水域和裸地。兩期遙感影像的分類精度都達到80%以上,滿足模擬試驗的要求。本文試驗使用的交通道路數(shù)據(jù)為1∶400 000的湖南省城市電子地圖(2006年),DEM數(shù)據(jù)來源于中國科學院計算機網(wǎng)絡信息中心國際科學數(shù)據(jù)鏡像網(wǎng)站。
圖3 試驗區(qū)示意圖Fig.3 Location of the research area
為了確定城市的擴展因子對中心元胞城市化潛力的影響大小,本模型選擇了空間距離、自然屬性兩大類城市擴展驅(qū)動因子(表1)作為極限學習機的輸入變量,各空間距離變量利用ARCGIS軟件中的“距離分析”工具獲得;自然屬性變量中的坡度數(shù)據(jù)基于DEM數(shù)據(jù),利用ARCGIS軟件中的“坡度”計算模塊獲得;地形起伏度數(shù)據(jù)基于DEM數(shù)據(jù),利用式(9)通過移動網(wǎng)格計算獲得
R=H+[ΔH×(1-S/A)]
(9)
式中,R為中心單元的地形起伏度;H為網(wǎng)格內(nèi)的平均高程;ΔH為網(wǎng)格內(nèi)的高差;S為網(wǎng)格內(nèi)的平地面積;A為網(wǎng)格面積。
表1 城市擴展驅(qū)動因子
在輸入極限學習機之前,對上述驅(qū)動因子進行歸一化處理,以消除量綱的影響,同時也加快模型的訓練速度。
為了構建ELM-CA模型,首先,基于歷史數(shù)據(jù)對極限學習機進行訓練,將2006—2010年期間轉變?yōu)槌鞘杏玫氐脑幋a為1,沒有發(fā)生轉變的元胞編碼為0,作為模型預測的目標變量。其次,利用隨機分層采樣的方法,從轉變?yōu)槌鞘杏玫氐脑蜎]有轉變?yōu)槌鞘杏玫氐脑须S機選擇20 000個元胞作為樣本,獲取這些樣本對應的歸一化處理后的驅(qū)動因子和目標變量,由此構成樣本數(shù)據(jù)集。然后,把樣本數(shù)據(jù)集分為訓練數(shù)據(jù)和測試數(shù)據(jù),比例約為7∶3,訓練數(shù)據(jù)用于訓練模型獲取學習器參數(shù),測試數(shù)據(jù)用于測試所訓練的學習器的泛化能力。
極限學習機有兩個比較重要的參數(shù)。一個參數(shù)是隱藏層單元個數(shù),該參數(shù)決定了學習器的復雜度,隱藏層單元個數(shù)越多,學習器的復雜度就越高,也就能更有效地捕捉數(shù)據(jù)所蘊含的信息;但隱藏層單元數(shù)越多,就越容易受噪聲的影響,從而增加過擬合的風險。如圖4所示,可以看出隨著隱藏層單元個數(shù)的增加,訓練集和測試集的精度不斷增高,但增高的幅度越來越小,綜合考慮計算機運算性能和試驗精度,本文選取900作為隱藏層單元個數(shù)。另一個參數(shù)是極限學習機的正則化項系數(shù)λ,該參數(shù)可以降低模型的過擬合程度。但從圖4中可以看出學習器并沒有發(fā)生過擬合,所以λ設置為0.000 1。本文選用的驅(qū)動因子有12個,目標變量是取值為0或1的二值變量,由此確定極限學習機的網(wǎng)絡結構是輸入層為12個單元,隱藏層900個單元,輸出層1個單元,正則化系數(shù)λ設置為0.000 1。
圖4 隱層單元個數(shù)與精度的關系Fig.4 Relationship between number of hidden layer units and accuracy
作為對比,本文也用同一批數(shù)據(jù)對邏輯回歸和神經(jīng)網(wǎng)絡(單隱層)進行訓練。表2是各學習器在訓練集上耗費的訓練時間以及在測試集上的總體精度和AUC指標。從訓練時間可以看出邏輯回歸的平均用時最短,因為其模型的復雜度最低,而極限學習機的訓練時間明顯低于同為單隱層的神經(jīng)網(wǎng)絡,體現(xiàn)了極限學習機在訓練速度上的優(yōu)越性。從整體精度上來看,極限學習機也要好于邏輯回歸和神經(jīng)網(wǎng)絡。相比于邏輯回歸,極限學習機將輸入數(shù)據(jù)映射到高維特征空間中,解決了線性不可分的問題,從而可以學習更復雜的函數(shù),而邏輯回歸是線性分類器,在面對復雜的數(shù)據(jù)關系時表現(xiàn)不好;相比于神經(jīng)網(wǎng)絡,極限學習機可以化簡為求解一個線性系統(tǒng),從而求出全局最優(yōu)唯一解,而神經(jīng)網(wǎng)絡是基于梯度下降算法迭代求解,不僅訓練時間長,而且可能陷入局部最優(yōu)解,要得出滿意的解需要做更多的嘗試。
表2極限學習機、邏輯回歸和神經(jīng)網(wǎng)絡的訓練耗時及在測試集上的總體精度和AUC指標
Tab.2Extremelearningmachine,logisticregressionandneuralnetworktrainingtime-consumingandoverallaccuracyandAUCindicatorsontestsets
參數(shù)極限學習機神經(jīng)網(wǎng)絡邏輯回歸訓練耗時/s376.81168.4254.5總體精度0.82050.79240.7339AUC0.90340.85300.8164
極限學習機、邏輯回歸和神經(jīng)網(wǎng)絡會為每個測試樣本產(chǎn)生一個實值概率預測,這個實值概率預測的好壞,直接決定了學習器的泛化性能,ROC曲線根據(jù)實值概率預測的結果,將測試樣本進行排序,預測概率值最高的排在前面,概率值低的排在后面,排序本身質(zhì)量的好壞,體現(xiàn)了綜合考慮學習器在不同任務下“期望泛化性能”的好壞。AUC(area under ROC curve)是衡量不同學習器ROC曲線質(zhì)量的一個重要指標,因此本文用AUC衡量不同學習器的泛化能力。圖5即為不同學習器的ROC曲線及其對應的AUC值,可以看出極限學習機的AUC指標高于邏輯回歸和神經(jīng)網(wǎng)絡。
圖5 極限學習機、邏輯回歸和神經(jīng)網(wǎng)絡在測試集上的ROC曲線及對應的AUC指標Fig.5 Extreme learning machine, logistic regression and neural network ROC curves on test sets and corresponding AUC indicators
上述試驗是在樣本較多的情況下進行的,作為對比,采用小樣本數(shù)據(jù)(上述試驗樣本數(shù)量的1/3)以和上述相同的方法進行試驗,試驗結果表明極限學習機的測試精度為0.798 4,邏輯回歸為0.718 1,神經(jīng)網(wǎng)絡為0.720 4,說明了極限學習機在小樣本的情況下仍然具有較高的精度,而神經(jīng)網(wǎng)絡的性能卻大幅下降,具體情況見表3。
表3小樣本情況下不同學習器在測試集上的總體精度和AUC指標
Tab.3OverallaccuracyandAUCindicatorsofdifferentlearnersonthetestsetinsmallsamplecases
參數(shù)極限學習機神經(jīng)網(wǎng)絡邏輯回歸總體精度0.79480.72040.7181AUC0.87700.80680.8034
使用ELM-CA做城市擴展的模擬時,首先利用訓練好的極限學習機學習器求出試驗區(qū)每個元胞轉化潛力,在此基礎上根據(jù)式(6)計算出元胞受鄰域影響和隨機因素影響的綜合轉化概率,模擬以2006年遙感影像分類數(shù)據(jù)作為初始狀態(tài)開始循環(huán)迭代,每輪迭代中選取綜合概率最大的前若干個元胞轉化,每輪迭代后由于城市用地發(fā)生變化,需要重新計算鄰域影響。當模型轉換量達到實際2006—2010年間的城市轉換總量時,則停止迭代,輸出結果見圖6。
圖6 2010年模擬城市空間分布圖與實際城市空間分布圖Fig.6 Simulated urban spatial distribution map and actual urban spatial distribution map in 2010
作為檢驗,根據(jù)從2006—2010年提取的轉換規(guī)則,以2006年作為起始年份,預測2010—2013年間的城市擴展。當模型轉換量達到實際2006—2013年間的城市轉換總量時,則停止迭代,輸出結果見圖7。
圖7 2013年模擬城市空間分布圖與實際城市空間分布圖Fig.7 Simulated urban spatial distribution map and actual urban spatial distribution map in 2013
城市擴展模型檢驗的方法有兩種,一種是逐點對比的方法,即將模擬的結果與實際的圖層疊加,逐點對比計算模擬的精度,假設2006年到2010年實際新增城市用地元胞個數(shù)為Q,模擬的新增城市元胞與實際新增城市元胞在空間上位置一致的元胞個數(shù)為S,即正確模擬元胞數(shù)為S,則精度P=S/Q,這里只討論城市的模擬精度;另一種是整體比較,即比較模擬結果的空間格局與實際的空間格局的符合程度,這里使用Kappa系數(shù)。
為了進一步的驗證模型,用邏輯回歸和神經(jīng)網(wǎng)絡模擬同一地區(qū)2006—2010年時間段的城市擴展。將從遙感影像解譯得到的實際用地與極限學習機、邏輯回歸與神經(jīng)網(wǎng)絡的模擬結果進行比較,得到混淆矩陣表4,從表中可以看出,極限學習機模型的城市模擬精度70.30%,Kappa系數(shù)0.669 7,Logistic模型的城市模擬精度68.09%,Kappa系數(shù)0.645 0,神經(jīng)網(wǎng)絡模型的城市模擬精度68.76%,Kappa系數(shù)0.652 8。極限學習機模型相比于邏輯回歸和神經(jīng)網(wǎng)絡,城市模擬精度分別提高了2.21%和1.54%,說明極限學習機模型有更好的精度,而Kappa系數(shù)分別提高了0.024 7和0.016 9,說明ELM模型模擬結果與實際城市擁有更好的一致性。同時進一步的比較了不同模型的FoM(Figure of Merit)系數(shù),ELM模型的FoM系數(shù)為0.542 1,分別比Logistic(0.516 2)模型和神經(jīng)網(wǎng)絡(0.524 2)模型分別提高了0.025 9和0.017 9,說明了ELM模型擁有更好的模擬能力。FoM系數(shù)的計算公式如下
(10)
式中,A為實際中發(fā)生轉化但模擬中沒發(fā)生轉化的錯誤區(qū)域面積;B為實際中和模擬中都發(fā)生轉化的正確區(qū)域面積;C為實際中未發(fā)生轉化但模擬中發(fā)生轉化的錯誤區(qū)域面積。
本文增加了2006—2013年時間段的城市擴展預測,來檢驗模型的有效性。根據(jù)2006—2010年時間段提取的轉換規(guī)則,以2006年土地利用為初始狀態(tài),預測2010—2013年城市擴展,將預測結果與實際用地比較,得到混淆矩陣見表4,極限學習機模型的城市預測精度分別高于邏輯回歸和神經(jīng)網(wǎng)絡模型1.87%和1.2%,Kappa系數(shù)分別高于邏輯回歸和神經(jīng)網(wǎng)絡模型0.023 3和0.015 9,F(xiàn)oM系數(shù)分別提高了0.022 2和0.015 7,證實了極限學習機模型的可靠性。
表4 極限學習機、邏輯回歸和神經(jīng)網(wǎng)絡模擬結果的混淆矩陣
試驗的結果與2.3節(jié)中的對學習器的精度評價一致。值得指出的是,本文在模擬城市擴展過程中,每次迭代會選擇本輪中綜合轉化概率最高的前若干個元胞轉化為城市用地,因此,城市擴展模擬結果的好壞高度依賴于學習器給出的預測概率的排序的好壞,在圖5中可以看出極限學習機的ROC曲線的AUC值明顯高于邏輯回歸和神經(jīng)網(wǎng)絡,而模擬試驗的結果也驗證了這一觀點。
另外,本文也計算了實際結果與模擬結果的形態(tài)指數(shù),以檢驗模擬結果與實際情況空間格局的一致性。本文采用Moran I指數(shù)反映試驗結果的空間聚集與分散程度,計算結果見表5。從表中可以看出,極限學習機的試驗結果的Moran I指數(shù)較邏輯回歸和神經(jīng)網(wǎng)絡更接近于實際值,這說明極限學習機模型模擬結果的空間格局都與實際情況比較接近。
表5 Moran I指數(shù)對比
為了考察樣本數(shù)據(jù)量大小對模擬結果的影響,利用在2.3節(jié)中在小樣本情況下訓練的不同模型,分別對2010年和2013年的城市用地進行模擬和預測,試驗結果見表6。
表6小樣本情況下不同學習器的性能表現(xiàn)
Tab.6Performanceofdifferentlearnersinsmallsamplecases
年份參數(shù)極限學習機邏輯回歸神經(jīng)網(wǎng)絡2006—2010年精度0.68640.62790.6270Kappa0.65110.58610.5851FoM0.52250.45760.45662006—2013年精度0.68450.62870.6035Kappa0.61180.54310.5130FoM0.52040.45850.4321
在2006—2010年的城市擴張模擬中,小樣本相比于大樣本的情況下,極限學習機模擬精度、Kappa系數(shù)和FoM系數(shù)分別下降了1.6%、0.018 6、0.001 6,而邏輯回歸和神經(jīng)網(wǎng)絡分別下降了5.3%、0.058 9、0.058 6和6.09%、0.067 7、0.067 6(表4、6)。
在2006—2013年的城市擴張預測中,極限學習機的預測精度、Kappa系數(shù)和FoM系數(shù)分別下降了1.75%、0.021 7、0.020 7,而邏輯回歸和神經(jīng)網(wǎng)絡分別下降了5.46%、0.067 1、0.060 4和8.5%、0.104 8、0.093 9(表4、6)。
可以看出,樣本數(shù)據(jù)量的大小對極限學習機的影響較小,邏輯回歸次之,對神經(jīng)網(wǎng)絡的影響最大。因為神經(jīng)網(wǎng)絡的模型較為復雜,在數(shù)據(jù)量較少時容易發(fā)生過擬合,需要正則化機制來防止過擬合,而極限學習機算法內(nèi)嵌良好的正則化機制,在樣本較少時仍可以較好地工作。極限學習機的這一特點使其在樣本較少或樣本獲取困難的情況下,仍然可以獲取相對較高的模擬精度。
(1) 本文提出的基于極限學習機的城市擴展元胞自動機模型(ELM-CA),有效地簡化了CA模型的復雜度,極限學習機通過歷史數(shù)據(jù)訓練得到CA的轉化規(guī)則,減少了人為主觀因素的影響,適合復雜的土地利用變化模擬,能夠模擬出復雜的城市空間形態(tài)及其變化。
(2) 本文模型充分考慮了不同土地利用類型轉換為城市用地的差異和強度,分別求出耕地、林地、水域三種主要用地類型所對應的轉換參數(shù),在獲取中心元胞城市化潛力的時候,就用中心元胞用地類型對應的轉換參數(shù),這樣就減小了用地類型的不同所帶來的影響。
(3) 對比試驗分析表明,ELM-CA模型的城市模擬精度和預測精度均高于邏輯回歸和神經(jīng)網(wǎng)絡,能有效模擬與預測城市擴展的空間形態(tài)及其變化,而且ELM模型的訓練時間僅為神經(jīng)網(wǎng)絡的1/3左右,體現(xiàn)了ELM學習速度快的優(yōu)勢。
(4) 對比大樣本和小樣本情況下不同學習器的性能表明:在小樣本情況下,邏輯回歸和神經(jīng)網(wǎng)絡的性能受到較大的影響,而極限學習機仍能保持較為良好的性能,使其在樣本難以獲取的情況下具有明顯優(yōu)勢。
(5) 本文模擬過程分為兩個階段,第一階段通過學習器對采樣數(shù)據(jù)進行學習,獲取驅(qū)動因子與城市發(fā)展?jié)摬氐膹碗s關系,第二階段利用訓練好的學習器進行城市擴張模擬與預測。不難發(fā)現(xiàn),雖然在第一階段的樣本數(shù)據(jù)學習中,極限學習機的性能表現(xiàn)明顯好于邏輯回歸和神經(jīng)網(wǎng)絡,但在第二階段的城市擴張模擬與預測中,極限學習機的試驗結果相對于邏輯回歸和神經(jīng)網(wǎng)絡提高的并不顯著。其中一個重要原因是,在第一階段中,利用學習器對采樣數(shù)據(jù)進行學習的時候并沒有將空間關系考慮在內(nèi),而僅是在第二階段的模擬與預測中,通過式(6)將空間相關性納入模型中,這樣會導致學習器并沒有學習到樣本數(shù)據(jù)中所蘊含的空間關系,而空間相關性在城市擴張中具有重要的影響,從而使得學習器在城市空間分布模擬與預測的表現(xiàn)有一定的折扣。所以在后續(xù)的研究中,將進一步試驗直接利用學習器學習樣本數(shù)據(jù)的空間相關性,以期使得試驗方法更為科學,減少主觀因素的影響。