劉凱
(新疆財經(jīng)大學(xué)統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院,新疆烏魯木齊 830012)
新疆作為我國西北邊陲大省,自然環(huán)境相較于我國東部地區(qū)相對惡劣,地區(qū)經(jīng)濟發(fā)展仍然是相對滯后,基礎(chǔ)設(shè)施建設(shè)不太完善、城市化進程相對緩慢。部分學(xué)者在針對區(qū)域城市群的城市化發(fā)展戰(zhàn)略,提出走有層次性的網(wǎng)絡(luò)化的區(qū)域城市化發(fā)展模式——層級增長極網(wǎng)絡(luò)發(fā)展的道路。對于新疆這一特殊區(qū)域,建立這種層級的開放性網(wǎng)絡(luò)系統(tǒng),合理部署開發(fā)戰(zhàn)略就顯得尤為重要。而以何種方式來劃分各城市所處于區(qū)域網(wǎng)絡(luò)體系中的層級則是合理部署開發(fā)戰(zhàn)略的前提;因此,本文探索性的用一種定量的標準化的算法作為區(qū)域?qū)蛹墑澐址椒?并以新疆這一區(qū)域為例做出實證。
層級增長極網(wǎng)絡(luò)是一個開放的網(wǎng)絡(luò),匯集了各級不同的增長極。各個層級之間發(fā)展水平都有所差異,區(qū)域工業(yè)創(chuàng)新能力、資源、地理位置、運輸條件等對于促進整個區(qū)域的發(fā)展都有其自身的優(yōu)勢[1-4]。經(jīng)濟增長本身的動態(tài)和驅(qū)動力位于不同的地理位置和不同的經(jīng)濟發(fā)展水平,而增長水平的層次網(wǎng)絡(luò)一般都是如此,通常來說,將處于不同的增長水平的增長極分為核心增長極、次核心增長極和邊緣增長極。關(guān)于層級增長極網(wǎng)絡(luò)的運行機理,張建軍(2008)給出如下論述,以交通網(wǎng)絡(luò)和信息網(wǎng)絡(luò)為通道,高層次增長極輻射帶動低層次增長極,低層次增長極聚合高層次增長極,形成相互作用的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。層級增長極網(wǎng)絡(luò)系統(tǒng)的內(nèi)部,根據(jù)比較優(yōu)勢的原則來確定不同層級的增長極發(fā)展的強勢型產(chǎn)業(yè)與戰(zhàn)略布局方向,降低產(chǎn)業(yè)同構(gòu)、重復(fù)建設(shè)等現(xiàn)象在區(qū)域內(nèi)的出現(xiàn)概率;除此之外,以區(qū)域交通主干道為核心軸,通過分層增長極網(wǎng)絡(luò)的極化和輻射效應(yīng),形成層次化的增長極網(wǎng)絡(luò)結(jié)構(gòu),即層級增長極輻射圈(也有學(xué)者稱之為層級增長極輻射帶),讓區(qū)域內(nèi)的工業(yè)生產(chǎn)行為與人口遷移在輻射圈內(nèi)實現(xiàn)合理的聚集和極化式分布。
對于一個地區(qū)的城市化建設(shè),從土地城市化的視角來看城市建設(shè)面積越高,則一定程度上說明該增長極城市化水平越高,在新疆的輻射效應(yīng)與極化效應(yīng)越明顯,對全域的影響越大,故本文選取城區(qū)建設(shè)用地面積較高的市、縣作為進入層級網(wǎng)絡(luò)的增長極,分別是烏魯木齊市、克拉瑪依市、庫爾勒市、昌吉市、哈密市、石河子市、伊寧市、阿克蘇市、庫車縣、喀什市、吐魯番市、阿拉爾市、阜康市、五家渠市、奎屯市、莎車縣、烏蘇市、博樂市、鄯善縣、霍爾果斯市。選取了增長極樣本點后,依據(jù)無監(jiān)督算法對各增長極進行劃分。選取各增長極的各類城市建設(shè)用地面積指標數(shù)據(jù),對增長極進行聚類,并劃分增長極層級(如表1)。最后根據(jù)增長極地理位置與增長極層級,構(gòu)建層級增長極網(wǎng)絡(luò)。
層級增長極網(wǎng)絡(luò)中,增長極按對全域內(nèi)的影響可分為核心增長極(也可成為第一增長極)、次核心增長極(第二增長極)、邊緣增長極(第三增長極)以及腹地。對于各區(qū)域內(nèi)各增長極層級的確定,本文采用聚類算法來劃分各增長極的層級,聚類方法法采用譜聚類算法。
譜聚類(Spectral Clustering)是廣泛使用的聚類算法,該算法首先根據(jù)給定的樣本數(shù)據(jù)集定義一個描述成對數(shù)據(jù)點相似度的拉普拉斯矩陣,計算矩陣的特征值和特征向量,然后選擇合適的維度構(gòu)建新的特征向量,以此聚類不同的數(shù)據(jù)點[5]。相比起傳統(tǒng)的K-means聚類算法,譜聚類對數(shù)據(jù)分布有更強的魯棒性,非常適合非線性、高維度的數(shù)據(jù)結(jié)構(gòu)。譜聚類算法是從圖論發(fā)展而來的,后來在聚類中得到了廣泛的應(yīng)用,其主要思想是以一種數(shù)據(jù)點云的數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ),將點云的各個數(shù)據(jù)點用邊連接起來,距離較近的兩點之間的邊的權(quán)重較高,距離較遠的兩點之間的邊的權(quán)重較低。通過切圖,使得切圖后各個子圖內(nèi)邊權(quán)重和盡量大,而不同的子圖之間邊的權(quán)重和盡量小,以此達到聚類的目的。還可將譜聚類算法理解為,通過對樣本數(shù)據(jù)中的拉普拉斯矩陣的特征向量進行聚類,從而達到對樣本聚類的目的(將高維空間的數(shù)據(jù)映射到低維空間,然后用其他聚類算法如K-means算法進行聚類)。譜聚類算法主要有如下優(yōu)點:由于計算了拉普拉斯矩陣的特征值和特征向量,達到降維的效果,在處理高維數(shù)據(jù)聚類時相比于傳統(tǒng)聚類算法計算量大大減少;譜聚類算法用于處理稀疏數(shù)據(jù)集的聚類效果良好,非常有效[6]。
表1 新疆地區(qū)各類城市建設(shè)用地面積(部分) 單位:km2Tab.1 Areas (parts) of construction land in various cities in Xinjiang Unit: km2
譜聚類是是在圖論的基礎(chǔ)上提出的,一般用點的集合V和邊的集合E來描述一個圖G,記為G(V,E)。里面的V就是數(shù)據(jù)集(或點云)里面所有的點 (V1,V2,...VN)。對于V中的任意兩個點,是否一定要有邊存在,譜聚類算法不做要求。定義權(quán)重wij為點vi和點vj之間的權(quán)重,且wij=wji。若兩點vi和vj之間存在相連的邊,wij>0,若兩點vi和vj不存在相連的邊,wij=0。對于圖中的任意一個點vi的度di定義成和該點相連接的所有邊的權(quán)重和,即:
根據(jù)公式對數(shù)據(jù)點度的定義,不難得到一個n×n的度矩陣D,度矩陣D是一個對角陣,主對角線對應(yīng)了各個數(shù)據(jù)點度的值,即對應(yīng)第i行的第i個點的度數(shù),矩陣其余位置均為0,度矩陣定義如下:
鄰接矩陣W是由任意兩點之間邊的權(quán)重值wij組成的矩陣,可由所有點之間的權(quán)重值得到,W是一個n×n的矩陣,第i行的第j個值對應(yīng)點和點之間邊的權(quán)重值wij。在譜聚類算法中,并沒有直接給出這個鄰接矩陣,依據(jù)距離較遠的兩個點之間的邊權(quán)重值小,而距離較近的兩個點之間的邊權(quán)重值大,通過樣本點距離度量的相似矩陣S來獲得鄰接矩陣W。
構(gòu)建鄰接矩陣W的方法主要是以下三種,分別是∈-NN,KNN和全連接法。在實際應(yīng)用中,最常用的是全連接法建立鄰接矩陣,而高斯徑向核RBF是全連接法中最常用的。因此,本文采用全連接法,使用高斯徑向核RBF,采用K-means方法作為層級增長極譜聚類的模型方法參數(shù)。
本文中用到的譜聚類具體的算法步驟如下:
輸入:樣本集S={x1,x2, LxN}、相似矩陣的生成方式(如全連接)、聚類方法的算法(如DBSCAN、層次聚類)、降維后的維度k、聚類的簇的個數(shù)m。
輸出:簇劃分Cluster= {c1,c2LcM},其中m為聚類維度,即類的個數(shù)。
(1)根據(jù)相似矩陣的構(gòu)建方法(本文為全連接法)構(gòu)建數(shù)據(jù)樣本的相似矩陣S;(2)根據(jù)相似矩陣S構(gòu)建鄰接矩陣W,根據(jù)公式(1)計算數(shù)據(jù)樣本點的度,于是就得到矩陣D;(3)將度矩陣與相似矩陣相減L=D-S計算得到Laplacian矩陣;(4)將Laplacian矩陣標準化處理后得到所有特征值,并取前k個特征值的特征向量構(gòu)建成Laplacian特征矩陣;(5)用K-means聚類算法對Laplacian特征矩陣進行聚類,就得到了分類簇劃分Cluster= {c1,c2LcM}。
表2 新疆增長極層級劃分表Tab.2 Classification of growth poles in Xinjiang
在本文中,對于增長極層級的劃分標準,增長極不同層級之間都存在一些典型的層級特征,根據(jù)無監(jiān)督模型算法聚類結(jié)果,對各類分別定義為核心增長極、次核心增長極、邊緣增長極。采用譜聚類確定各增長極所處的層級是一個相對合適的方法。
本文基于python的numpy計算庫、pandas數(shù)據(jù)分析庫以及sklearn機器學(xué)習(xí)庫對增長極各維度的數(shù)據(jù)進行處理、拼接以及模型學(xué)習(xí)。sklearn中的譜聚類函數(shù)spectral Clustering可直接通過譜聚類算法計算出聚類結(jié)果,設(shè)置譜聚類算法參數(shù)n_cluster分為3類,gamma值為1,得到聚類結(jié)果(如表2):
譜聚類算法聚類結(jié)果:第一類只有烏魯木齊市,是新疆唯一的特大型城市,城市化發(fā)展領(lǐng)先于新疆其他地區(qū),是明顯的核心層,具有拉動烏昌地區(qū)周邊城市發(fā)展,影響全疆城市化進程的城市功能,故將聚類結(jié)果中的第一類定義為層級增長極網(wǎng)絡(luò)中的核心增長極這一層次;第二類的城市有克拉瑪依市、庫爾勒市、昌吉市、哈密市、石河子市、吐魯番市,都是新疆各地州區(qū)域內(nèi)的核心城市,是小區(qū)域和經(jīng)濟圈中的“領(lǐng)頭羊”和“風(fēng)向標”,帶動著周邊市縣的發(fā)展,故將聚類結(jié)果中的第二類定義為層級增長極網(wǎng)絡(luò)結(jié)構(gòu)中的次核心增長極;聚類結(jié)果的第三類包括了伊寧市、阿克蘇市、庫車縣、喀什市、阿拉爾市、阜康市、五家渠市、奎屯市、莎車縣、烏蘇市、博樂市、鄯善縣、霍爾果斯市,是一些經(jīng)濟體量較小城市化發(fā)展相對于核心增長極地區(qū)還存在差距的市、縣,但同樣這些行政區(qū)劃對于周邊地區(qū)乃至農(nóng)村腹地都有一定程度的影響力,將第三類增長極定義為層級增長極網(wǎng)絡(luò)中的邊緣增長極。
本文基于以上聚類結(jié)果,將各增長極劃分為三類,其中第一類對應(yīng)核心增長極,第二類對應(yīng)次核心增長極,第三類對應(yīng)邊緣增長極。譜聚類算法聚類得到得層級增長極網(wǎng)絡(luò)結(jié)構(gòu)。增長極隨著層級的差異所展現(xiàn)外向功能的輻射效應(yīng)也有所差異,增長極層級越高,則輻射范圍越廣,強度越大;以烏魯木齊為核心的區(qū)域增長極比較集中;從這個角度也反映出以烏魯木齊為核心增長極的層級網(wǎng)絡(luò)體系中,烏昌地區(qū)以及其輻射周邊地區(qū)有較好的城市化發(fā)展。烏昌地區(qū)在經(jīng)過十幾年一體化的建設(shè)和發(fā)展后,已經(jīng)成為全疆城市化發(fā)展的龍頭地區(qū),其內(nèi)的幾個市對其他增長極的城市化發(fā)展均有帶動作用。