葉博嘉,鮑序,劉博,田勇
1.南京航空航天大學(xué) 民航學(xué)院,南京 211106 2.中國民航華東空管局江蘇空管分局,南京 211100
隨著航空運輸業(yè)持續(xù)高速發(fā)展,民航飛行對空域需求與日俱增,空域緊張的局面已然呈現(xiàn)由點到面的發(fā)展趨勢。進近(終端)管制區(qū)作為最為繁忙的空域類型,空中交通流量日趨飽和,管制員調(diào)配難度和工作負(fù)荷急劇增加,由此引發(fā)的飛行延誤以及沖突問題日益嚴(yán)峻[1]。為有效緩解空中交通擁堵態(tài)勢,中國民航業(yè)界對進近管制區(qū)空域和交通流的運行優(yōu)化展開了深入研究[2-6],航空器進近飛行時間預(yù)測則是相關(guān)研究的重要基礎(chǔ)。
航空器進近飛行時間是指航空器在機場附近完成高度、速度和構(gòu)型調(diào)整直至降落所需的時間。從研究角度,進近飛行時間是進離場管理、沖突探測與解脫和終端區(qū)流量管理等問題的重要依托,如果缺乏準(zhǔn)確的預(yù)測,則難以保障調(diào)配和優(yōu)化方案的安全性和有效性。實際運行中,進近飛行時間是管制員為進場航空器進行匯聚排序、沖突解脫、安排落地次序的基本依據(jù),如果缺乏準(zhǔn)確預(yù)判,管制員需根據(jù)航班動態(tài)持續(xù)修正航班進近次序,不僅增加了管制工作負(fù)荷,還會影響航班地面滑行、引導(dǎo)和停機位分配等后續(xù)人員及車輛保障工作。因此,準(zhǔn)確預(yù)測航空器的進近時間不僅有助于提高進近管制區(qū)的運行效率,降低管制員工作負(fù)荷,還能為機場和航空公司在航班落地后的工作提供精確指導(dǎo),具有重要的研究價值和應(yīng)用前景。
國內(nèi)外學(xué)者關(guān)于航空器飛行時間預(yù)測的研究一直非常關(guān)注,現(xiàn)有方法大體可分為2類:行為建模方法和數(shù)據(jù)驅(qū)動方法。
行為建模方法旨在通過對航空器飛行軌跡建模,仿真航空器的狀態(tài)和飛行過程,預(yù)測航空器的進近飛行時間。飛機制造商發(fā)布性能軟件,如:波音的BPS(Boeing Production System)和空客PEP (Performance Engineer’s Program)等是建模最佳工具,但軟件模型復(fù)雜、參數(shù)繁多且存在商業(yè)保密問題。因此,Roy等[7]則提出一種隨機混合線性系統(tǒng)框架,建立包括:航空器位置、速度和加速度的連續(xù)狀態(tài),直線、轉(zhuǎn)彎飛行離散狀態(tài)的系統(tǒng),并采用混合狀態(tài)評估方法IMM(Interacting Multiple Model)進行求解,預(yù)測航空器進近飛行時間。Konyak[8]和Yepes[9]等將航空器意圖信息引入研究,提出動態(tài)更新航空器的起始下降點和側(cè)向轉(zhuǎn)彎信息,以改進預(yù)測的準(zhǔn)確性。Zhang等[10]則融合在線的ADS-B (Automatic Dependent Surveillance-Broadcast)信息,以增加模型預(yù)測準(zhǔn)確性。Lee等[11]則融合飛行計劃和程序,提出改進隨機混合系統(tǒng),采用狀態(tài)相關(guān)的混合評估算法,求解模型并改進預(yù)測結(jié)果。隨著未來機載設(shè)備的升級,航空器與地面信息的交互能力不斷增強,實時數(shù)據(jù)有助于進一步提升航空器行為模型的預(yù)測精度。然而,在預(yù)測航空器進近飛行時間方面,行為模型并不關(guān)注航空器意圖變更原因,模型難以融合空域動態(tài)變化信息、交通態(tài)勢、管制因素、駕駛員行為等諸多運行要素。而實際運行中,進近空域是航空器匯聚和發(fā)散的密集空域,管制員需對進離場航空器飛行進行頻繁調(diào)整,解脫潛在沖突、安排匯聚和著陸次序,對航空器進近飛行時間會產(chǎn)生較大影響。因此,數(shù)據(jù)驅(qū)動的航空器進近飛行時間預(yù)測方法逐漸引起諸多關(guān)注。
數(shù)據(jù)驅(qū)動的方法是近些年較為流行的方法,其本質(zhì)是通過采用數(shù)據(jù)挖掘、統(tǒng)計分析和機器學(xué)習(xí)等方法,基于樣本數(shù)據(jù)建立、訓(xùn)練并驗證關(guān)鍵特征與預(yù)測值的數(shù)學(xué)模型,以預(yù)測航空器的進近飛行時間。Leege等[12]引入了廣義線性模型,在固定進場路線上預(yù)測15海里至45海里范圍內(nèi)的航空器軌跡和飛行時間,模型考慮的因素包括:機型、速度、高度和風(fēng)速信息。Tastambekov等[13]基于航空器歷史雷達運行數(shù)據(jù),采用小波分解的方法建立線性回歸模型,預(yù)測航空器在10~30分鐘期間的運行軌跡。Hong和Lee[14]以前序航班軌跡為先驗數(shù)據(jù)建立貝葉斯概率模型,預(yù)測在管制員實施雷達引導(dǎo)時,航空器在終端區(qū)的飛行軌跡和時間。Kim[15]則考慮了離場時間、空中飛行時間、航空公司和天氣和季節(jié)因素。Wang等[16]基于ADS-B數(shù)據(jù)對航空器歷史運行航跡進行聚類和降維,采用基于多單元神經(jīng)網(wǎng)絡(luò)方法建立回歸模型,預(yù)測進近航空器的四維航跡和飛行時間。Barratt等[17]對基于雷達點數(shù)據(jù)對航空器歷史航跡進行重組和聚類,重新生成航空器的航跡信息,并采用高斯混合模型預(yù)測航空器的進近飛行時間。
上述研究主要從航空歷史運行數(shù)據(jù)出發(fā),試圖構(gòu)建航空器初始進場狀態(tài)與典型航空器飛行軌跡的關(guān)聯(lián),再根據(jù)預(yù)計的軌跡預(yù)測航空器預(yù)測進近飛行時間,部分研究引入了對航空器行為、管制因素和高空風(fēng)等因素的考慮,但對造成進近空域飛行時間差異的諸多原因缺乏全面、系統(tǒng)的分析,預(yù)測模型的泛化能力也存在瓶頸。
本文旨在從分析影響進近飛行時間的主要因素出發(fā),以準(zhǔn)確預(yù)測航空器進近飛行時間為目標(biāo),綜合考慮航空公司因素、航空器類型、進場狀態(tài)、繁忙程度、運行模式、天氣情況、空域因素和管制因素,提取重要特征并與航空器飛行時間直接關(guān)聯(lián),建立基于機器學(xué)習(xí)的進近飛行時間預(yù)測模型。研究從一線管制單位采集實際運行數(shù)據(jù),以南京進近為實例展開了實例分析,分別建立了基于嶺回歸、支持向量機、隨機森林和神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)模型,以調(diào)整決定系數(shù)、均方誤差、平均絕對值誤差為指標(biāo),訓(xùn)練、驗證了模型的準(zhǔn)確性和精度,并對模型中重要的特征和影響因素展開分析。
在進近管制空域,航空器通常按照儀表進近程序(Instrument Approach Procedure,IAP)飛行,即對障礙物保持規(guī)定的安全超障余度,參照飛行儀表所進行的一系列預(yù)定的機動飛行[18]。儀表進近程序一般包括5個單獨的航段,分別是進場、起始進近、中間進近、最后進近和復(fù)飛航段[19],如圖1所示。其中,進場航段指航空器從航路一點至起始進近定位點之間的飛行路線,旨在下降飛行高度、降低航空器速度以完成從航路飛行到進近飛行的過渡。起始進近、中間進近和最后進近指航空器逐步完成飛行外形、位置、速度和高度的調(diào)整,直至對準(zhǔn)跑道完成著陸的航段。復(fù)飛航段則是指航空器在無法完成進近時所遵循的飛行程序,通過改變形態(tài)、爬升高度以重新加入航線或開始另一次進近。
圖1 進近飛行示意圖Fig.1 Aircraft approach procedure
實際運行中,進近管制員為防止航空器與航空器、航空器與地面障礙物相撞,在收到進場航空器進入進近管制空域的位置報告后,向駕駛員通報空中有關(guān)飛行活動和飛行情報,指示其按照標(biāo)準(zhǔn)儀表進場程序飛行或采用雷達引導(dǎo)的方式,指示航空器按照某一具體的“航向、速度、高度”飛行,調(diào)配飛行沖突、安排落地次序、配備落地間隔,并在中間進近或最后進近階段將航空器移交給塔臺管制員。塔臺管制員根據(jù)機場場面運行情況發(fā)布落地許可或復(fù)飛指令,依次安排航空器落地??偟膩碚f,航空器在進近飛行過程中,會受到諸多內(nèi)部與外部因素的影響。內(nèi)部因素包括航空器的性能(機型)、飛行員操作經(jīng)驗等;外部因素包括所使用進場航線、跑道結(jié)構(gòu)、運行模式、天氣情況和管制員經(jīng)驗等。
本研究旨在與實際管制工作緊密結(jié)合,綜合考慮航空器在進近管制區(qū)飛行時的航空公司因素、航空器類型、進場狀態(tài)、繁忙程度、運行模式、天氣情況、空域因素和管制因素,預(yù)測航空器在進近管制區(qū)內(nèi)的飛行時間,即從航空器到達進場點開始到航空器落地時的飛行時長。本研究將該實際問題可轉(zhuǎn)換為機器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)問題,旨在建立重要影響因素與航空器進場飛行時間的函數(shù)關(guān)系。研究關(guān)鍵包括:采集并處理與進近飛行相關(guān)的重要數(shù)據(jù),準(zhǔn)確分析影響進近飛行的關(guān)鍵因素,提取出建模所需重要的特征,建立并訓(xùn)練出具備良好預(yù)測能力的機器學(xué)習(xí)模型。
本研究所采集的原始數(shù)據(jù)分為航行資料匯編數(shù)據(jù)(Aeronautical Information Publication,AIP)、航班運行數(shù)據(jù)、氣象數(shù)據(jù)和管制班組數(shù)據(jù)4大類。其中,航行資料匯編數(shù)據(jù)包括標(biāo)準(zhǔn)儀表進場航線圖、儀表進近圖、機場圖等,來源于中國民用航空局。航班運行數(shù)據(jù)、氣象數(shù)據(jù)和管制班組數(shù)據(jù)來自江蘇空管分局,主要是航班在南京進近運行時的相關(guān)數(shù)據(jù)。南京進近管制區(qū)位于華東地區(qū)西部,是中國東部沿海航空運輸熱線的樞紐區(qū)域,是連接中國西部地區(qū)至東南沿海、華南和港澳臺地區(qū)的主要航空通道。南京進近管制區(qū)現(xiàn)劃分為4個管制扇區(qū),主要負(fù)責(zé)包括南京祿口國際機場在內(nèi)的11個機場的起降和飛越航班提供管制服務(wù),如圖2所示。本文以南京祿口國際機場到達航班為研究對象,故對紅框范圍內(nèi)(南京進近01/02/03扇區(qū))的進近航班展開研究。
圖2 南京進近區(qū)域范圍Fig.2 Area of Nanjing approach
根據(jù)航行資料匯編數(shù)據(jù),南京祿口國際機場的航班進出口主要有4個方向,本文分別用A、B、C、D分別表示,如圖3所示。其中,2種最常使用的進場模式為:向東運行模式(07號跑道落地、06號跑道起飛)和向西運行模式(25號跑道落地、24號跑道起飛)。向東運行模式下的航空器常規(guī)路徑有4種,路徑相對固定的;向西運行模式下的航空器常規(guī)路徑有6種,部分情況下A1和B1路徑無法使用,需采用A2、B2路徑進場。根據(jù)管制協(xié)議,不同運行模式下使用的跑道、進離場方式和航空器移交高度會有所不同。
圖3 進場程序圖Fig.3 Arrival procedure charts for Nanjing approach
航班運行數(shù)據(jù)包括航班號、機型、進場點、進場高度、進場速度、進場航線、使用跑道、進場時間和落地時間,如表1所示。其中,進場速度為單位為10 km/h,進場高度基準(zhǔn)單位為10 m。
表1 航班運行數(shù)據(jù)Table 1 Flight operational data
氣象數(shù)據(jù)包括南京進近的修正海壓值、風(fēng)向、風(fēng)速、能見度和天氣特征,如表2所示。修正海壓值的變化會引起航空器實際飛行高度的變化,從而影響航空器的進近時間;風(fēng)速、風(fēng)向因素會影響飛機的地速;能見度因素會影響航空器間的進近排序間隔;天氣特征,如小雨、霧霾、晴空和雷雨等不同天氣現(xiàn)象影響到進場航線和空域的使用,導(dǎo)致進近順序和進近時間的變化。
表2 氣象數(shù)據(jù)Table 2 Meteorological data
其他相關(guān)數(shù)據(jù)包括:管制班組數(shù)據(jù)和可用數(shù)據(jù)。其中,管制班組數(shù)據(jù)統(tǒng)計了管制員的在崗值班情況,旨在將航班運行數(shù)據(jù)與管制班組相關(guān)聯(lián),以獲取管制員指揮差異??捎每沼蛐畔⑹怯绊懞娇掌髟谶M近階段飛行的重要因素,部分空域可用時會改變管制指揮方式,增加可用機動空域,顯著改變航空器的進近時間。
基于采集到的原始數(shù)據(jù),根據(jù)航空器在進近空域飛行特點,研究并提出了影響航空器進近飛行時間的8類因素和17個特征,并對數(shù)據(jù)進行清洗和標(biāo)準(zhǔn)化。影響進近飛行時間的8類因素包括:公司因素、航空器因素、進場狀態(tài)、繁忙程度、運行模式、天氣情況、空域因素和管制員因素。
其中,公司因素旨在反應(yīng)飛行員操作對進近飛行的影響,提取特征為航空器所屬航空公司。不同航空公司的飛行員操作手冊和公司管理規(guī)定會有所差異,因此不同公司的駕駛員會采用不同的調(diào)速時機和下降率,進而影響進近飛行時間。
航空器因素旨在反應(yīng)不同類型航空器在進近飛行階段性能的差異,提取特征為:航空器機型。不同機型在飛機載重、最小光潔速度等性能參數(shù)上可能存在差異,可能會在飛行能力方面影響進近飛行時間。
繁忙程度旨在獲取進近空域中同時服務(wù)航空器的數(shù)量信息,提取特征包括:進場航班數(shù)量和離場航班數(shù)量。當(dāng)進近空域存在多架航空器時,管制員需向航空器依次發(fā)送包括速度調(diào)整、高度調(diào)整和飛行路線調(diào)整在內(nèi)的多種管制指令,以調(diào)整航空器間潛在沖突、保持安全間隔、按照指定順序依次降落。
運行模式可能影響進近飛行的路線和總距離,提取特征包括:航空器進場時所使用標(biāo)準(zhǔn)進場航線和降落時使用的跑道。
天氣情況可影響航空器的飛行性能、飛行路徑和排序間隔,提取特征包括:修正海壓值、風(fēng)速、風(fēng)向、能見度和天氣特征。
空域因素旨在反應(yīng)當(dāng)部分進近空域不可用時對航空器進近飛行的影響,提取特征為:空域受限類型。通常在進近空域內(nèi)存在部分空域受限,此時管制員無法引導(dǎo)航空器在空域內(nèi)靈活飛行,進而會影響其飛行路線和運行效率。
管制員因素旨在獲取管制員值班狀態(tài)、指揮技能、管制協(xié)同等一系列復(fù)雜的、難以量化的管制能力,提取特征為:管制班組。日常值班中,管制班組成員相對固定,不同班組間的值班習(xí)慣相對穩(wěn)定,因此可用班組來分析管制員因素。研究分析出的主要影響因素及提取特征如表3所示。
表3 影響因素與提取特征Table 3 Influencing factors and characteristics
從原始數(shù)據(jù)中提取研究所需特征,分為:定量和定性2種類型。其中,航空公司、機型、進場點、進場航線、使用跑道、風(fēng)向、天氣特征、空域受限類型為定性數(shù)據(jù),需對其進行編碼并換為定量表示。表4為對航空公司、機型和天氣情況進行的編碼示意圖,包括:在南京祿口國際機場運營的43家航空公司和17種機型,以及輕霧、晴空、無云、中雨、中雨輕霧5種常見天氣情況。
表4 數(shù)據(jù)編碼表Table 4 Data encoding table
進場開始時間、進場速度、進場高度、進場航班數(shù)、離場航班數(shù)、風(fēng)速、能見度、空域受限類型、管制班組等為定量數(shù)據(jù),但需對其進行清洗和標(biāo)準(zhǔn)化,以防止不同的量綱和量綱單位對算法性能的影響。本文采用標(biāo)準(zhǔn)化的方法對各個特征進行轉(zhuǎn)換,如式(1)所示。
2.2 病原菌排位 2012-2016年病原菌的排位中,居前三位的革蘭陰性菌依次是大腸埃希菌、肺炎克雷伯菌、鮑曼不動桿菌;居前三位的革蘭陽性菌依次是金黃色萄萄球菌、凝固酶陰性葡萄球菌、腸球菌,這六種菌占檢出菌的38.01%;真菌以白色念珠菌最常見,占檢出真菌的55.10%;具體見表2。
(1)
表5 數(shù)據(jù)的機器學(xué)習(xí)格式Table 5 Machine learning format of data
本節(jié)將進近飛行時間預(yù)測問題轉(zhuǎn)換為機器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí)問題,擬基于嶺回歸、支持向量機、隨機森林和神經(jīng)網(wǎng)絡(luò)4種機器學(xué)習(xí)算法,建立航空器進近飛行時間預(yù)測模型,用以測試和分析各種模型的預(yù)測精度和效果。
將提取的進近飛行特征與實際進近飛行時間相關(guān)聯(lián),組成機器學(xué)習(xí)建模所需的數(shù)據(jù)集并進行劃分,進近飛行特征為2.2節(jié)提出的8類因素和17個特征。其中,航空器實際進近飛行時間,是指航空器從進入進近空域的進場點開始到航空器落地時經(jīng)過的飛行時間。根據(jù)實際運行需求,本文采用分鐘作為航空器飛行時間的最小度量單位,將航空器落地時間與進場時間相減并轉(zhuǎn)化為非整數(shù)分鐘作為數(shù)據(jù)標(biāo)簽,并選擇嶺回歸、支持向量機、隨機森林和神經(jīng)網(wǎng)絡(luò)4種流行的算法進行機器學(xué)習(xí)建模,算法主要內(nèi)容如下:
嶺回歸是一種可解決多重共線問題的線性回歸算法,其本質(zhì)是一種改良的最小二乘估計法,以損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際、更可靠的結(jié)果,常用于建立具有大量參數(shù)的線性模型[20]。在使用嶺回歸進行建模時,目標(biāo)函數(shù)可表示為
(2)
(3)
式中:I為單位矩陣;λ作為參數(shù)可用以平衡模型的方差和偏差。在模型優(yōu)化過程中,可通過優(yōu)化拉格朗日乘子λ和求解器算法等來改進模型預(yù)測結(jié)果。
支持向量機(SVM)是一種非常流行的監(jiān)督學(xué)習(xí)方法,可用于分類問題和回歸問題,具有良好的泛化能力,可嵌入更高維度的空間,在靈活表示復(fù)雜函數(shù)的同時可以抵抗過度擬合。支持向量機回歸是由Cortes和Vapnik提出[21],算法通過構(gòu)造極大邊距分離器、生成線性分離超平面、采用非參數(shù)方法建立回歸模型。支持向量機的基本理念是考慮一個n維歐式空間中的超平面(線性函數(shù)),如式(4)所示:
〈w,x〉+b=0
(4)
(5)
約束條件為
(6)
隨機森林一種魯棒并且實用的決策樹學(xué)習(xí)方法,通過訓(xùn)練多個弱模型(決策樹)來組成一個強模型,屬于一種集成的機器學(xué)習(xí)方法[22]。在訓(xùn)練階段,隨機森林采用bootstrap采樣方法從訓(xùn)練集中采集不同子集來訓(xùn)練多個不同決策樹;在預(yù)測階段,隨機森林將內(nèi)部多個決策樹的預(yù)測結(jié)果取平均作為最終結(jié)果。
以二叉決策樹為弱模型為例,在訓(xùn)練階模型的時候需要考慮怎樣切分變量(特征)和切分點,以及怎樣衡量一個切分變量和切分點的好壞。其中,針對切分變量和切分點的好壞,一般以切分后節(jié)點的不純度來衡量,即各個子節(jié)點不純度的加權(quán)和G(xl,vlk),計算公式為
(7)
式中:xl為切分向量的一個特征;vlk為切分變量的一個切分值;nleft、nright和Ns分別為切分后左子節(jié)點的訓(xùn)練樣本個數(shù)、右子節(jié)點的訓(xùn)練樣本個數(shù)以及當(dāng)前階段所有訓(xùn)練樣本個數(shù);Xleft、Xright分為左右子節(jié)點的訓(xùn)練樣本集合;H(X)為衡量節(jié)點不純度的函數(shù),常用的回歸不純度函數(shù)包括平方平均誤差(MSE)和絕對平均誤差(MAE)。MSE計算方法是求預(yù)測值與實際值之間距離的平方和,其數(shù)值越小則表明模型的預(yù)測精度越高。MAE旨在測量預(yù)測值和實際值之差的絕對值之和,能更好的反應(yīng)實際問題預(yù)測結(jié)果的好壞。MSE和MAE計算方法如式(8)和式(9)所示:
(8)
(9)
(10)
在基于隨機森林算法的模型優(yōu)化中,可調(diào)整的主要參數(shù)包括:決策樹的最大深度、特征值數(shù)量、葉子樹的最大樣本數(shù)、葉子節(jié)點樣本數(shù)、決策樹的個數(shù)等。
神經(jīng)網(wǎng)絡(luò)是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的數(shù)學(xué)模型,也是一類常見和有效的機器學(xué)習(xí)系統(tǒng)[23]。神經(jīng)網(wǎng)絡(luò)具有很強的非線性映射、自適應(yīng)、容錯性和泛化能力,其基本結(jié)構(gòu)由非線性變化單元組成,包括:輸入層、隱含層和輸出層。以xi表示特征向量樣本,神經(jīng)網(wǎng)絡(luò)輸出可表示為
(11)
式中:M和N分別為隱含層和輸入層節(jié)點數(shù);wji和bi為從輸入層到隱含層的權(quán)重系數(shù)和偏置;aj和c為從隱含層到輸出層的權(quán)重系數(shù)和偏置;fj表示激活函數(shù),通常采用連續(xù)、光滑且處處可導(dǎo)的sigmoid函數(shù)。為最小化預(yù)測模型結(jié)果的誤差,以yi表示樣本觀察值,基于神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)模型可轉(zhuǎn)化為最小均方誤差問題,
(12)
其中,激活函數(shù)對算法收斂的速度和效果有顯著影響,在設(shè)定激活函數(shù)后我們可以通過改變運算器、隱藏神經(jīng)網(wǎng)絡(luò)層數(shù)和最大迭代次數(shù)的設(shè)定來改進模型預(yù)測結(jié)果。
本文采集的數(shù)據(jù)為2019年3月份到達南京祿口國際機場的進近航班數(shù)據(jù),采用分時段的方式從雷達管制自動化系統(tǒng)中采集,共計3 015條。在數(shù)據(jù)實際采集過程中,航空器經(jīng)過進場點的位置通常會有偏差,本研究采用在進場點劃設(shè)等時線的方法,統(tǒng)一了航空器達到進場點時間的計算方式,并剔除了少部分明顯無法判定進場點的特情航班[13]。同時,為防止落地時間統(tǒng)計錯誤,本研究對航空器距離落地點10 km處的時間也進行記錄,方便后續(xù)對數(shù)據(jù)正確性的校驗和修正[14]。
為保證所建模型可以無偏的預(yù)測航空器進近飛行時間,本實例將采集到的數(shù)據(jù)集合劃分為:訓(xùn)練集、驗證集和測試集3類。其中,訓(xùn)練集用以訓(xùn)練機器學(xué)習(xí)模型的參數(shù),驗證集用于無偏的評估模型效率和調(diào)節(jié)超參數(shù),測試集用以測試最終的模型性能。本實驗的數(shù)據(jù)集合的劃分方式如圖4所示:隨機劃設(shè)20%原始數(shù)據(jù)為測試集,如灰色所示;剩余的數(shù)據(jù)采用10-折交叉驗證的方法,90%為訓(xùn)練集(淺灰色部分),10%為驗證集(藍(lán)色部分)。其中,隨機森林采用集成學(xué)習(xí)的裝袋(Bagging)模型,以100棵決策樹為模型構(gòu)建Bagging集成,通過從原始訓(xùn)練集中有放回的隨機重復(fù)采樣,并每次從原始特征集的29個特征中隨機抽取20個特征進行模型的訓(xùn)練。
圖4 本文數(shù)據(jù)集劃分方式Fig.4 Dataset division method in this study
實驗結(jié)果首先采用調(diào)整決定系數(shù)(AdjustedR2)來衡量各模型的回歸效果是否顯著。通常,決定系數(shù)(R2)值可用于評估回歸模型擬合效果,其定義為回歸平方和與總離差平方和的比值。該值越大則表示模型越精確,回歸效果越顯著。然而,R2值會隨著模型特征增加而增加,且與樣本量也有一定關(guān)系,進而造成擬合度的虛假提升。因此,本文采用調(diào)整決定系數(shù)來衡量擬合效果,該值介于0~1之間,越接近1,回歸擬合效果越好,一般認(rèn)為超過度0.8的模型擬合優(yōu)度比較高。R2的計算方法為
(13)
AdjustedR2值的計算方法為
(14)
本實驗采用網(wǎng)格搜索方法實現(xiàn)超參數(shù)優(yōu)化,不同模型在驗證集與測試集上的調(diào)整決定系如表6 所示??傮w來說,測試集與驗證集的調(diào)整決定系數(shù)值相近,即表明模型的泛化能力較好。根據(jù)測試集實驗結(jié)果,基于隨機森林預(yù)測模型的調(diào)整決定系數(shù)為最高值0.991 2,模型的精確度高,回歸效果越顯著?;趲X回歸的預(yù)測模型的調(diào)整決定系數(shù)為最低值0.516 6,模型的精度較低,回歸效果較差。支持向量機和神經(jīng)網(wǎng)絡(luò)模型的精度和回歸效果總體也較好,調(diào)整決定系數(shù)分別為0.984 4 和0.979 6。
表6 不同模型在驗證集與測試集上的調(diào)整決定系數(shù)R2Table 6 Adjusted R2 score of different models on validation set and test set
表7顯示了4種模型的MSE和MAE值。其中,基于隨機森林的預(yù)測模型的結(jié)果最好,MSE和MAE值同為最低,分別為0.07和0.18 min。嶺回歸效果最差,MSE和MAE值分別為4.11與1.54 min。支持向量機和神經(jīng)網(wǎng)絡(luò)的預(yù)測效果也較好,但損失函數(shù)均略高于基于隨機森林的模型。該表同時表明,基于本文提出特征建立的預(yù)測模型,最優(yōu)模型的平均預(yù)測偏差為0.18 min(10.8 s)。與現(xiàn)有理論和實際指標(biāo)比較,南京進近管制自動化系統(tǒng)3月份實際預(yù)測偏差為1.8 min(108 s);基于行為驅(qū)動的方法,在不考慮飛行意圖變化的情況下,最小預(yù)測偏差為11.33 s[10],而現(xiàn)有基于數(shù)據(jù)驅(qū)動的方法較小預(yù)測偏差分別為106.8 s和135.62 s[12-16]。
表7 不同模型的預(yù)測性能Table 7 Prediction performance of different models
圖5為4種算法在測試集上誤差絕對值的累計分布情況。由圖可見,隨機森林模型累積分布曲線(綠色)上升最為陡峭,表明該模型的誤差絕對值整體較小。支持向量機模型的累積分布曲線(黃色)上升陡峭度略低,表明其誤差絕對值整體大于隨機森林模型;然而,需要關(guān)注的是支持向量機模型誤差絕對值的最小值比隨機森林模型的更小,體現(xiàn)了其在預(yù)測最差情況下具有一定優(yōu)勢。神經(jīng)網(wǎng)絡(luò)模型的誤差絕對值分布與支持向量機模型相近,但誤差絕對值的最大值在2 min以上。嶺回歸的誤差絕對值分布最為分散,最大誤差值在8 min以上,說明該預(yù)測模型的魯棒性較差。圖6以實際進近時間樣本數(shù)據(jù)為橫坐標(biāo),觀察誤差絕對值的分布情況。由圖可見,嶺回歸模型預(yù)測誤差絕對值整體都較大,神經(jīng)網(wǎng)絡(luò)模型在實際進近時間為17~20 min出現(xiàn)部分較大誤差,隨機森林在15和20 min樣本點出現(xiàn)了較大誤差值,支持向量機模型整體穩(wěn)定性最好。
圖5 測試集上誤差值的累積分布Fig.5 Cumulative distribution of errors on test set
圖6 預(yù)測誤差絕對值隨實際進近時間的分布散點圖Fig.6 Prediction error values of proposed models with actual approach time
本節(jié)將實驗結(jié)果與實際相結(jié)合,分別對預(yù)測模型17個特征的重要程度和8類因素展開分析,旨在進一步探討影響進近飛行時間的內(nèi)在原因。
圖7以預(yù)測性能最好的基于隨機森林的進近飛行時間預(yù)測模型為基礎(chǔ),對提出特征重要度展開分析。其中,特征重要度以Gini系數(shù)進行衡量,取值為0~1之間,數(shù)值越大表明該特征對預(yù)測結(jié)果貢獻程度越大。由圖10可見,進場點是最為重要的特征,特征重要度在0.2以上,該特征屬于航空器進場狀態(tài)因素,與進近飛行的水平距離與較大關(guān)系。進場高度和進場航班數(shù)是特征重要度在0.1~0.2之間的2個特征,與進近飛行需要下降的高度和管制員需同時指揮進近的航空器數(shù)量有關(guān)。進場開始時間和風(fēng)速是排序第4和第5重要的特征,特征重要度在0.05~0.1之間,表明進近飛行時間可能存在繁忙時段,且風(fēng)速對飛行還是存在明顯影響。另外,值得關(guān)注的是管制班組特征,該特征重要度是17個特征中最小的,表明管制班組間差異性并不明顯,這應(yīng)該與管制員長期嚴(yán)格與專業(yè)的訓(xùn)練有關(guān)。
圖7 17個特征的預(yù)測特征重要度Fig.7 Prediction importance of 17 features
圖8將17個特征重新并入8類影響因素,生成因素權(quán)重圖以定量分析各類因素對預(yù)測結(jié)果的影響程度。由圖可見,進場狀態(tài)時對航空器進近飛行時間影響最大的因素,占比達到60.83%;繁忙程度、天氣情況和公司因素影響也較大,占比分別為12.59%、10.58%和8.81%;航空器因素、空域因素、運行模式和管制員因素占比較小,分別為4.27%,1.49%,1.37%和0.06%。
圖8 因素權(quán)重圖Fig.8 Factor weight chart
結(jié)合實際進近階段的飛行特點,對8類因素的影響程度進行分析。航空器在進入進近管制空域后,為避免與其他航空器產(chǎn)生沖突風(fēng)險,管制員通常按照 “先到場先進近”的原則對其進行排序,依次指揮航空器調(diào)整飛行高度和速度,沿標(biāo)準(zhǔn)儀表進近程序或雷達引導(dǎo)路徑飛行并降落。
進場狀態(tài)因素中的進場點、進場高度和進場速度基本決定了航空器在進近過程中的水平、垂直飛行距離和平均飛行速度,而進場開始時間則與管制工作繁忙程度存在一定關(guān)聯(lián),進而成為影響進近飛行的最重要因素。繁忙程度因素中的進場航班和離場航班數(shù)量,是反映進近管制空域繁忙程度的重要特征,該特征決定航空器在進近過程中是否需要進行減速、排序和空中等待,是實際運行中重點關(guān)注的因素。天氣情況應(yīng)該通常是一個影響進近飛行的重要因素,雖然實驗采集的數(shù)據(jù)為南京進近3月份的數(shù)據(jù),天氣情況相對良好,但也占據(jù)了10%以上的權(quán)重;而當(dāng)雷雨、低能見度等特殊天氣現(xiàn)象發(fā)生時,天氣情況對航空器進近飛行時間的影響還應(yīng)更為顯著。公司因素和航空器因素主要體現(xiàn)在不同公司的操作規(guī)章、駕駛習(xí)慣和航空器運行性能上,由圖可見這幾個因素對航空器的進近時間還是有明顯影響。空域因素是本次研究較為關(guān)注的問題,然而結(jié)果顯示其權(quán)重遠(yuǎn)低于預(yù)期,一方面應(yīng)該是因為3月份空域占用活動較為簡單,基本是常規(guī)空域活動,另一方面隨著中國近年來空域精細(xì)化管理的進程不斷推進,常規(guī)空域活動對民航航班飛行影響正在逐漸減小。運行模式和管制員因素是權(quán)重最小的2個因素,由于南京進近中相同進場點的不同進場航線距離差距不大,管制員在管制過程中基本都遵循相同的原則,因此這2個因素對結(jié)果影響不大。
1) 研究航空器在進近空域飛行的實際特點,提出了影響航空器在進近空域運行的8類因素和17個特征,可以于分析航空器在進近管制空域飛行時間產(chǎn)生差異的原因。
2) 基于提出的17個重要特征,以航空器在進近飛行時間為標(biāo)簽,采用嶺回歸、支持向量機、隨機森林和神經(jīng)網(wǎng)絡(luò)算法,建立了4種基于機器學(xué)習(xí)的航空器進近飛行時間預(yù)測模型。
3) 以南京進近為實例,對4種機器學(xué)習(xí)模型進行訓(xùn)練、驗證和測試,對模型的性能指標(biāo)、特征重要性和影響因素展開分析,模型可以為空中交通管理理論研究和實際管制指揮提供支持。