李 贊,王朝霞,隋 昊
(中國(guó)人民解放軍陸軍勤務(wù)學(xué)院 軍事物流系, 重慶 401331)
中國(guó)是全世界機(jī)場(chǎng)數(shù)目第一的國(guó)家。截至2017年底,中國(guó)共有228座機(jī)場(chǎng)建成通航,其中有28家機(jī)場(chǎng)旅客吞吐量已突破千萬(wàn)人次。機(jī)場(chǎng)規(guī)模的快速擴(kuò)大,使得機(jī)場(chǎng)之間的聯(lián)系也變得愈發(fā)關(guān)鍵。
當(dāng)前,中國(guó)已初步形成多個(gè)區(qū)域性機(jī)場(chǎng)體系,典型的有以北京首都機(jī)場(chǎng)為主體的北方(華北和東北)機(jī)場(chǎng)體系,以上海浦東機(jī)場(chǎng)為主體的華東機(jī)場(chǎng)體系,以廣州白云機(jī)場(chǎng)為主體的中南機(jī)場(chǎng)體系。同時(shí),以成都雙流機(jī)場(chǎng)、重慶江北機(jī)場(chǎng)和昆明長(zhǎng)水機(jī)場(chǎng)為主的和以西安咸陽(yáng)機(jī)場(chǎng)、烏魯木齊地窩堡機(jī)場(chǎng)為主的西南、西北2大區(qū)域性機(jī)場(chǎng)體系雛形也逐漸形成,呈現(xiàn)集群化發(fā)展趨勢(shì)。
近年來(lái),隨著航空運(yùn)輸需求增強(qiáng)和區(qū)域內(nèi)機(jī)場(chǎng)聯(lián)系更加密切,機(jī)場(chǎng)體系相關(guān)問(wèn)題得到了部分學(xué)者的關(guān)注。文獻(xiàn)[1]通過(guò)利用模糊自修正多目標(biāo)粒子群算法,分析了多機(jī)場(chǎng)體系進(jìn)場(chǎng)航班調(diào)度過(guò)程中時(shí)空資源的相關(guān)情況,有效地提高了多機(jī)場(chǎng)終端區(qū)的時(shí)空資源利用率。文獻(xiàn)[2]圍繞航線網(wǎng)絡(luò),將最短路算法與搜索禁忌算法結(jié)合使用,就我國(guó)多機(jī)場(chǎng)體系加以改進(jìn)。這些研究?jī)H從理論上實(shí)現(xiàn)了機(jī)場(chǎng)體系多方面運(yùn)營(yíng)優(yōu)化,而未涉及最根本的體系劃分,特別是機(jī)場(chǎng)體系的空間分布和規(guī)劃,而現(xiàn)有的一些對(duì)機(jī)場(chǎng)體系劃分的研究也僅是從經(jīng)濟(jì)、政治、交通等方面分析區(qū)域機(jī)場(chǎng)體系的形成規(guī)律,并未利用這些規(guī)律對(duì)機(jī)場(chǎng)體系進(jìn)行合理劃分。
因此,本文根據(jù)機(jī)場(chǎng)群以空間分布為主導(dǎo)的集聚模式,利用基于密度的聚類算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)對(duì)機(jī)場(chǎng)地理位置數(shù)據(jù)進(jìn)行聚類分析,進(jìn)一步劃分機(jī)場(chǎng)體系,旨在為區(qū)域機(jī)場(chǎng)體系的規(guī)劃布局實(shí)施提供可用的樣式參考。
民用機(jī)場(chǎng)追求盈利最大化,其服務(wù)對(duì)象面向民航客機(jī),提供的是集社會(huì)性和盈利性為一身的公共商品。機(jī)場(chǎng)體系劃分除需要滿足區(qū)域交通運(yùn)輸體系的需求外,還要求迎合區(qū)域經(jīng)濟(jì)發(fā)展及區(qū)域城鎮(zhèn)發(fā)展的需求[3]。在進(jìn)行機(jī)場(chǎng)體系配置時(shí),需考慮以下5項(xiàng)原則。
1) 區(qū)位原則。旅客和貨物到達(dá)與離開機(jī)場(chǎng)的最短時(shí)間、最低成本和最短距離構(gòu)成了機(jī)場(chǎng)的區(qū)位要素,形成了民航運(yùn)輸要素的吸引與輻射空間,符合遞遠(yuǎn)遞減規(guī)律。同一機(jī)場(chǎng)體系的機(jī)場(chǎng)要實(shí)現(xiàn)空間資源的有效整合,必須具有一定的替代性和互補(bǔ)性,反映到具體的體系規(guī)劃工作上,即表現(xiàn)為輻射面積和吸引空間相交的重合部分在一定程度上足夠大,同時(shí)該區(qū)域中所含的運(yùn)輸要素要大于一定臨界值[4]。
2) 服務(wù)原則。機(jī)場(chǎng)體系配置應(yīng)滿足可達(dá)性、機(jī)動(dòng)性、安全性和高效性的服務(wù)要求。
3) 社會(huì)原則。機(jī)場(chǎng)體系配置應(yīng)與社會(huì)公平、社會(huì)保障、國(guó)家管理、國(guó)防建設(shè)等要求相契合。
4) 經(jīng)濟(jì)原則。機(jī)場(chǎng)體系布局應(yīng)在一定程度上滿足經(jīng)濟(jì)可持續(xù)發(fā)展的要求,在空間布局,合理安排航空活動(dòng),使航空活動(dòng)達(dá)到臨界經(jīng)濟(jì)規(guī)模。
5) 消費(fèi)原則。在一些特殊地區(qū),如青藏高原、島嶼和叢林地區(qū),當(dāng)旅游需求足夠大時(shí),可以建立空中觀光和旅游的專用機(jī)場(chǎng)。在經(jīng)濟(jì)發(fā)達(dá)地區(qū),可以設(shè)立專門的機(jī)場(chǎng)進(jìn)行空中運(yùn)動(dòng)。
在上述機(jī)場(chǎng)體系配置原則中,區(qū)位原則是第一要素。空間資源的優(yōu)化配置和布局是首要目標(biāo)。其次才是在該空間范圍內(nèi),根據(jù)一定的準(zhǔn)則選擇最滿意的機(jī)場(chǎng)組合,并確定它們之間的協(xié)同作用。
當(dāng)前機(jī)場(chǎng)主流布局模式如表1所示[5]??梢钥闯?,機(jī)場(chǎng)體系在地理區(qū)域、經(jīng)濟(jì)區(qū)劃和行政區(qū)劃上保持相對(duì)統(tǒng)一,并且在空間范疇上和城市群對(duì)應(yīng),而同一地理區(qū)域內(nèi)的近鄰機(jī)場(chǎng)往往有可能集聚成為同一機(jī)場(chǎng)群。可以看出,不論何種布局,地理空間距離要素都在機(jī)場(chǎng)群的形成過(guò)程中發(fā)揮了不可忽視的重要作用。以地理空間距離為核心的集聚方式,一方面有利于滿足各機(jī)場(chǎng)間的差異化需求定位與分工合作、運(yùn)營(yíng)需求,另一方面,也可以促進(jìn)機(jī)場(chǎng)群內(nèi)資源的優(yōu)化配置,有效提高機(jī)場(chǎng)群的整體運(yùn)營(yíng)能力[6]。
聚類是在無(wú)先驗(yàn)知識(shí)的情況下根據(jù)某種準(zhǔn)則,將數(shù)據(jù)對(duì)象劃分為多個(gè)簇,使得同一個(gè)簇中的對(duì)象達(dá)到較高的相似度[7],被廣泛應(yīng)用于數(shù)據(jù)分析。聚類算法的選擇主要取決于數(shù)據(jù)的類型、聚類的目標(biāo)和運(yùn)用。本文以機(jī)場(chǎng)體系劃分為研究對(duì)象,地理集聚可作為識(shí)別機(jī)場(chǎng)體系最主要的依據(jù),即在地理空間上顯著鄰近的機(jī)場(chǎng)可被視為一個(gè)集群??臻g聚類是定量識(shí)別區(qū)域劃分的高效方法,在地理學(xué)領(lǐng)域,傳統(tǒng)的基于劃分的聚類方法已經(jīng)得到一定程度的應(yīng)用,如鄭運(yùn)鵬等[8]采用K-Means算法辨別了南京市的交通熱點(diǎn)地區(qū)。然而該聚類方式存在不足,表現(xiàn)為只適合在指定聚類數(shù)目下找出球狀簇?,F(xiàn)實(shí)中的機(jī)場(chǎng)集群往往有著多種多樣的形態(tài),基于劃分的聚類方法對(duì)于非球狀簇顯得無(wú)能為力。所以本文引入基于密度的DBSCAN聚類算法予以改進(jìn)。
DBSCAN算法[9]最初由Ester等學(xué)者提出,該算法要求在聚類中給定半徑的區(qū)域內(nèi)即鄰域(Eps),數(shù)據(jù)對(duì)象個(gè)數(shù)必需超過(guò)某個(gè)指定值,即鄰域密度必需大于某一閾值(MinPts),將具備高密度的區(qū)域劃定為簇,可以避免空間數(shù)據(jù)庫(kù)中的噪聲干擾,幫助發(fā)現(xiàn)不受形狀限制的簇。
DBSCAN算法是由樣本本身的向量(坐標(biāo)值)決定了其在n維空間里的絕對(duì)位置,根據(jù)Eps和MinPts兩個(gè)參數(shù)的組合設(shè)置,自動(dòng)構(gòu)成不固定形狀的、不固定規(guī)模的簇,彌補(bǔ)了K-Means算法忽略樣本密度的不足,旨在找到密度相連數(shù)據(jù)對(duì)象的最大集合[10]。
利用DBSCAN算法不需要預(yù)先指定K值以及可以發(fā)現(xiàn)任意形狀的簇的優(yōu)勢(shì),對(duì)機(jī)場(chǎng)進(jìn)行體系劃分,可以適應(yīng)各機(jī)場(chǎng)地理分布不均的狀況,同時(shí)不受噪音點(diǎn)干擾,可以得到較好的聚類效果。
表1 民用機(jī)場(chǎng)群主流布局基本模式
本文關(guān)于機(jī)場(chǎng)體系劃分方法是基于機(jī)場(chǎng)體系以空間分布為主導(dǎo)的集聚模式,采用DBSCAN空間聚類算法,對(duì)機(jī)場(chǎng)進(jìn)行體系劃分。DBSCAN算法的具體實(shí)現(xiàn)流程如圖1。
Algo-rithm基于密度的DBSCAN算法Input:指定半徑Eps(單個(gè)機(jī)場(chǎng)間距)指定閾值MinPts(機(jī)場(chǎng)體系內(nèi)單個(gè)機(jī)場(chǎng)數(shù)量)原始數(shù)據(jù)集D(單個(gè)機(jī)場(chǎng)經(jīng)緯度的數(shù)據(jù)集)={x1,x2,…,xm}過(guò)程:1: 標(biāo)記所有的機(jī)場(chǎng)經(jīng)緯度樣本數(shù)據(jù)對(duì)象為未訪問(wèn)(unvisited);2: do3: 隨機(jī)選擇一個(gè)未訪問(wèn)的對(duì)象p; 標(biāo)記p為已訪問(wèn)(visited);4: If(p的Eps-鄰域至少有MinPts個(gè)對(duì)象) Then創(chuàng)建新的簇C,將p合并到簇C中 同時(shí)令候選集N為p的Eps-領(lǐng)域中的對(duì)象集合;5: For(N中的每個(gè)鄰域?qū)ο髉')6: If(p'未訪問(wèn)) Then標(biāo)記為已訪問(wèn)(visited);7: If(p'的Eps-鄰域至少有MinPts個(gè)對(duì)象) Then將這些對(duì)象添加到候選集N中;8: If(p'還不是任何簇的成員) Then將p'添加到簇C;9: End for10: 輸出C;11: Else標(biāo)記p為噪聲;12: Until未標(biāo)記為未訪問(wèn)(unvisited)的對(duì)象Output:機(jī)場(chǎng)體系劃分階段C={C1,C2,…,Ck};
圖1 DBSCAN算法流程
DBSCAN算法的關(guān)鍵在于Eps和MinPts這兩個(gè)參數(shù)的合理設(shè)置[11],在MinPts確定的情況下,Eps越大,構(gòu)成簇的所需密度越低。當(dāng)Eps一定時(shí),MinPts越大,核心點(diǎn)形成越困難,噪聲點(diǎn)越多,簇的數(shù)目相應(yīng)增加。DBSCAN算法的聚類質(zhì)量和距離公式的選取緊密相關(guān),常見(jiàn)的距離度量方法眾多,代表的有歐式距離、切比雪夫公式、曼哈頓距離等[12]。因此,本文通過(guò)設(shè)置不同Eps、MinPts參數(shù),選擇不同的距離度量公式對(duì)樣本數(shù)據(jù)集進(jìn)行聚類嘗試,最終確定和選擇聚類效果較好的參數(shù)和距離公式。相應(yīng)的聚類實(shí)現(xiàn)流程如圖2所示。
數(shù)據(jù)獲取:采用DBSCAN算法基于地理位置數(shù)據(jù)對(duì)機(jī)場(chǎng)進(jìn)行體系劃分,首先要獲取各機(jī)場(chǎng)的準(zhǔn)確地理位置數(shù)據(jù)集,即機(jī)場(chǎng)所在位置的經(jīng)緯度數(shù)據(jù)集,包括機(jī)場(chǎng)的ID以及所在位置的經(jīng)度、維度3項(xiàng)內(nèi)容,如表2所示。實(shí)驗(yàn)的硬件環(huán)境及軟件環(huán)境如表3所示。
表2 民用機(jī)場(chǎng)部分經(jīng)緯度數(shù)據(jù)集
表3 實(shí)驗(yàn)環(huán)境
距離度量方面,數(shù)據(jù)中兩點(diǎn)之間的距離是其密度的體現(xiàn),決定了他們是否可以劃分為同一類。聚類質(zhì)量的好壞與距離公式的選取是否適宜緊密相關(guān)。DBSCAN算法采取的是近鄰思維,通常選擇閔可夫斯基距離(Minkowski Distance)這一距離度量公式,來(lái)對(duì)樣本距離進(jìn)行計(jì)算,其定義如下:
(1)
其中,p≥1。當(dāng)p=1時(shí),為曼哈頓距離;當(dāng)p=2時(shí),為歐式距離;當(dāng)p∈(2,+∞)時(shí),為切比雪夫距離。曼哈頓距離針對(duì)兩點(diǎn)在標(biāo)準(zhǔn)坐標(biāo)系上的絕對(duì)軸距總和進(jìn)行計(jì)算,而切比雪夫距離公式適用的數(shù)據(jù)維度最少為3,由于本文計(jì)算的是二維空間下的兩機(jī)場(chǎng)樣本點(diǎn)間最短距離,故選用歐式距離。
在數(shù)據(jù)樣本呈少量、低維分布的情況下,最近鄰的尋找一般選擇歐式距離公式直接計(jì)算全部樣本的距離。若樣本量很大且呈復(fù)雜多維分布,則利用KD樹或者球樹方法對(duì)空間進(jìn)行劃分更為適合[13]??紤]本文應(yīng)用的數(shù)據(jù)維度較低,并且是對(duì)歷史數(shù)據(jù)點(diǎn)進(jìn)行聚類分級(jí),要求從數(shù)據(jù)各個(gè)維度的數(shù)值大小中體現(xiàn)數(shù)據(jù)點(diǎn)之間的差異,故選擇歐式距離進(jìn)行度量,其數(shù)據(jù)維度為2時(shí)定義如下:
(2)
其中,x=(x1,x2,…,xm),y=(y1,y2,…,ym)各自代表兩個(gè)2維的對(duì)象。
輸入?yún)?shù)選擇方面,對(duì)參數(shù)Eps,通常預(yù)先指定K值,然后通過(guò)觀察k-dist圖的方法判斷Eps[14]。其中,k-dist值定義為:給定K鄰域參數(shù)k,對(duì)于數(shù)據(jù)集D中的每個(gè)點(diǎn),計(jì)算其映射到第k個(gè)最近鄰域的距離。如果按照k-dist值的升序順序?qū)?shù)據(jù)集D的點(diǎn)加以排序,則稱該圖為升序k-dist圖。若是選擇任意點(diǎn)p,將參數(shù)Eps設(shè)置為k-dist(p),并將參數(shù)MinPts設(shè)置為k,則全部具備相等或更小的k-dist值的點(diǎn)都是核心點(diǎn)。如果能在數(shù)據(jù)集D中找到具有最大k-dist值的閾值,將得到期望的參數(shù)值。閾值點(diǎn)是升序后的k-dist圖的第一個(gè)急劇變化的拐點(diǎn)。
Ester等人已通過(guò)實(shí)驗(yàn)表明K>4的k-dist圖與K=4時(shí)的k-dist圖沒(méi)有顯著差異,而且它們需要更多的計(jì)算。MinPts的選擇有一個(gè)關(guān)鍵的指導(dǎo)公式,即MinPts≥dim+1,式中dim代表待聚類數(shù)據(jù)的維度。若設(shè)置維度為1,則每一個(gè)獨(dú)立點(diǎn)都是一個(gè)簇,若MinPts≤2時(shí),則與層次距離最近鄰域結(jié)果相同,關(guān)于MinPts的設(shè)置都不合理,是以MinPts值的設(shè)置只能在3以上。當(dāng)值選擇過(guò)小時(shí),稀疏簇中結(jié)果因?yàn)槊芏刃∮贛inPts,出現(xiàn)邊界點(diǎn)不被用于類的進(jìn)一步擴(kuò)展的情況。若該值設(shè)置過(guò)大,則密度較大的兩個(gè)鄰近簇有可能被歸為同一簇。
故此,一般預(yù)先指定K值為4,然后根據(jù)繪制升序k-dist圖[51]的方法來(lái)選擇Eps,具體步驟如下:
1) 計(jì)算每一個(gè)機(jī)場(chǎng)位置數(shù)據(jù)樣本點(diǎn)與其他全部點(diǎn)之間的球面距離;
2) 計(jì)算各點(diǎn)的k-dist值,隨后對(duì)所有點(diǎn)的k-dist集合進(jìn)行升序操作,得到排序后的k-距離值;
3) 將所有點(diǎn)的k-dist值,在Excel中用散點(diǎn)圖顯示k-dist變化趨勢(shì),如圖3所示;
4) 通過(guò)觀察,將急劇發(fā)生變化的位置所對(duì)應(yīng)的k-dist值,確定為半徑Eps的值,對(duì)于選取的民用機(jī)場(chǎng)經(jīng)緯度數(shù)據(jù)集,對(duì)其聚類的最佳Eps值為1.9。
MinPts參數(shù)方面,在Eps保持一定的情況下,MinPts選取[3,4,5…,10]等不同數(shù)值進(jìn)行聚類,聚類個(gè)數(shù)的變化呈遞減趨勢(shì),對(duì)聚類結(jié)果進(jìn)行觀察,選擇聚類個(gè)數(shù)達(dá)到最大穩(wěn)定時(shí)對(duì)應(yīng)的MinPts值作為最佳MinPts值。
在Eps=1.9,MinPts∈{3,4,…,10}的情況下進(jìn)行反復(fù)多次聚類,觀察到在Eps=1.9,MinPts=5時(shí)噪聲點(diǎn)個(gè)數(shù)較少,聚類效果最好,聚類結(jié)果如圖4所示。
從集聚結(jié)果來(lái)看,機(jī)場(chǎng)被分為6個(gè)集群,機(jī)場(chǎng)體系分布主要集中在東經(jīng)100°~125°,北緯20°~45°的范圍,其中簇4集群最大,分布最廣。機(jī)場(chǎng)地理位置數(shù)據(jù)被分為6簇,各樣本點(diǎn)類簇與“十三五”《全國(guó)民用機(jī)場(chǎng)布局規(guī)劃》中提出的六大民用機(jī)場(chǎng)體系劃分擁有較好的耦合性[15]。具體表現(xiàn)在六大機(jī)場(chǎng)體系區(qū)域分布的數(shù)量規(guī)模和密度與我國(guó)區(qū)域經(jīng)濟(jì)社會(huì)發(fā)展水平和經(jīng)濟(jì)地理格局基本順應(yīng),包括有以北京為主的華北機(jī)場(chǎng)體系、以沈陽(yáng)為主的東北機(jī)場(chǎng)體系、以上海為主的華東機(jī)場(chǎng)體系、以成都、重慶和昆明為主的西南機(jī)場(chǎng)體系、以廣州為主的中南機(jī)場(chǎng)體系和以西安、烏魯木齊為主的s西北機(jī)場(chǎng)體系。這種結(jié)果的吻合也印證了采用DBSCAN算法基于地理位置數(shù)據(jù)對(duì)機(jī)場(chǎng)進(jìn)行體系劃分的可行性。但也存在以下問(wèn)題:① 東南沿海地區(qū)機(jī)場(chǎng)分布密集,導(dǎo)致該算法將華東部分地區(qū)和中南地區(qū)聚類為一簇,與機(jī)場(chǎng)體系實(shí)際劃分存在偏差;② 同樣是分布密度不均問(wèn)題,西部地區(qū)機(jī)場(chǎng)分布稀疏,各機(jī)場(chǎng)相距甚遠(yuǎn),采用DBSCAN算法進(jìn)行聚類會(huì)導(dǎo)致像烏魯木齊地窩堡機(jī)場(chǎng)、拉薩貢嘎機(jī)場(chǎng)等重要機(jī)場(chǎng)很可能被判定為噪聲點(diǎn)。
本文對(duì)機(jī)場(chǎng)聚類分析作了初步的探討,借鑒機(jī)場(chǎng)體系以空間分布為主導(dǎo)的集聚模式,采用DBSCAN聚類算法對(duì)機(jī)場(chǎng)體系進(jìn)行合理劃分。這對(duì)于有效發(fā)揮機(jī)場(chǎng)集聚模式的優(yōu)勢(shì)以及利用機(jī)場(chǎng)體系提高航空運(yùn)輸?shù)倪\(yùn)輸效率,進(jìn)一步優(yōu)化區(qū)域航空運(yùn)輸?shù)慕Y(jié)構(gòu)和布局具有現(xiàn)實(shí)和長(zhǎng)遠(yuǎn)的意義。下一步將著眼于噪聲數(shù)據(jù)的不良干擾問(wèn)題,進(jìn)行進(jìn)一步數(shù)據(jù)清理,以優(yōu)化聚類算法,提高聚類效率和質(zhì)量。同時(shí),在劃分機(jī)場(chǎng)體系的基礎(chǔ)上,探討對(duì)區(qū)域機(jī)場(chǎng)體系運(yùn)營(yíng)效率進(jìn)行評(píng)價(jià)的可行性。