■ 闞士行 王崢/山東航空股份有限公司工程技術(shù)公司
航空公司航線網(wǎng)絡(luò)具有點(diǎn)多、面廣、線長(zhǎng)的特征。為保障航線網(wǎng)絡(luò)的暢通,航空公司需要在主基地之外的航站配放一定量的過(guò)站常用航材。目前,大部分航空公司采用歷史經(jīng)驗(yàn)數(shù)據(jù)決定某一航站是否配放航材,決策過(guò)程缺少數(shù)據(jù)定量分析支撐,存在標(biāo)準(zhǔn)不一、經(jīng)濟(jì)性低的情況。本文以SC 航空公司外站配放航材為例,通過(guò)建立Logistic 回歸模型,為外站航材配放提供決策數(shù)據(jù)支撐,并通過(guò)ROC 曲線選定最優(yōu)閾值,評(píng)估模型的優(yōu)劣。
針對(duì)連續(xù)型因變量,可以應(yīng)用線性回歸對(duì)因變量進(jìn)行解釋或預(yù)測(cè)。但對(duì)離散型因變量,尤其是二分類因變量,只有“行”與“不行”、“0”與“1”的區(qū)別,這時(shí)就要應(yīng)用Logistic 回歸進(jìn)行分析。
對(duì)線性回歸表達(dá)式y(tǒng)=wTx,y的取值為(-∞,∞),但想獲得的是一個(gè)在[0,1]之間的值。因此,需要一個(gè)轉(zhuǎn)換函數(shù)將y值轉(zhuǎn)換成[0,1]之間的值。這個(gè)函數(shù)稱為L(zhǎng)ogistic函數(shù),又稱為Sigmoid函數(shù),如圖1 所示。
圖1 Sigmoid函數(shù)
構(gòu)造Sigmoid 函數(shù)為
式中,對(duì)分類結(jié)果分別為1 和0 的概率為
一般設(shè)定閾值為0.5,即
ROC 曲 線(Receiver Operating Characteristic Curve)又稱為受試者工作特征曲線。簡(jiǎn)單來(lái)講,對(duì)一個(gè)二分問(wèn)題,即實(shí)際分為正類(Positive)和負(fù)類(Negative),針對(duì)該實(shí)例進(jìn)行預(yù)測(cè),會(huì)有4 種結(jié)果,如表1 所示。
表1 二分問(wèn)題混淆矩陣
定義
其中,TPR(靈敏度,sensitivity)為在所有實(shí)際為1(Positive)的樣本中,將其正確地判斷為1(Positive)的比率;TNR(特異度,Specificity)為在所有實(shí)際為0(Negative)的樣本中,將其正確地判斷為0(Negative)的比率;FPR(1-Specificity)為在所有實(shí)際為0(Negative)的樣本中,將其錯(cuò)誤地判斷為1(Positive)的比率。
如果一種預(yù)測(cè)方法能夠使TPR 變高、FPR 變低,那么這種方法能夠有效區(qū)分樣本。但這兩個(gè)指標(biāo)相互制約。若某方法比較敏感,稍有指征即判斷為1(Positive),則TPR 會(huì)很高,但同時(shí)也會(huì)將很多實(shí)際為0(Negative)的誤判為1(Positive),即FPR 會(huì)很高。在最極端的情形下,所有樣本都判斷為1(Positive),那么TPR 值為1,F(xiàn)PR 的值也為1。
根據(jù)不同的閾值,將大于該閾值的判斷為1(Positive),小于該閾值的判斷為0(Negative),則會(huì)得到相應(yīng)的(FPR,TPR)值,將其描繪在坐標(biāo)軸中,得到相應(yīng)的ROC 曲線??梢?jiàn),ROC 曲線是一個(gè)很好的分類器。
圖2 是一個(gè)ROC 曲線的例子,圖中黑色曲線為ROC 曲線,淺藍(lán)色區(qū)域的面積 為AUC(Aera Under Curve)。AUC為衡量分類器優(yōu)劣的一個(gè)指標(biāo)。一般來(lái)講,若AUC 為0.5,即圖中正方形對(duì)角線(灰色直線),則該分類器沒(méi)有預(yù)測(cè)價(jià)值,等同于隨機(jī)猜測(cè);AUC 越大越好,一般在0.8 左右,該分類器即有較大的應(yīng)用價(jià)值。使AUC 最大的閾值,是所需要的。
圖2 ROC曲線
以本文為例,因變量為二分類變量,
自變量包含4 個(gè)參數(shù),分別為SC公司過(guò)去1 年在該航站的航班量(X1)、該航站距離最近基地航司的距離(X2)、SC 公司在該航站歷史上是否發(fā)生過(guò)故障(X3)以及該航站其他航司相應(yīng)資源數(shù)量(X4),其中X3樣為二分類變量。
對(duì)SC 公司69 個(gè)航站收集數(shù)據(jù)如表2 所示。
表2 SC公司航站數(shù)據(jù)
通過(guò)R 語(yǔ)言應(yīng)用Logistic 回歸,得到如表3 所示的結(jié)果。
表3 Logistic回歸結(jié)果
X2的P 值稍大于0.05,結(jié)果不顯著。但若將X2剔除后重新進(jìn)行Logistic 回歸,得到如表4 所示的結(jié)果。
表4 將X2剔除后的Logistic回歸結(jié)果
包含X1、X2與X4三個(gè)自變量的Logistic 模型的AIC(赤池信息量)為56.11;包含X1、X4兩個(gè)自變量的Logistic 模型的AIC(赤池信息量)為59.76。從AIC 看,應(yīng)當(dāng)選擇包含X1、X2與X4三個(gè)自變量的Logistic 模型。
綜合考慮,認(rèn)為包含X1、X2與X4三個(gè)自變量的Logistic模型較為合理。最終Logistic 模型公式為
根據(jù)公式(1),利用R 語(yǔ)言做出ROC 曲線,如圖3 所示。使得AUC 最大的閾值為0.76,即Y值大于0.76 的,預(yù)測(cè)為1(positive),否則預(yù)測(cè)為0(Negative)。
圖3 模型應(yīng)用得到的ROC曲線
當(dāng)閾值為0.76 時(shí),針對(duì)原始數(shù)據(jù)應(yīng)用回歸模型測(cè)算混淆矩陣如表5 所示。
表5 預(yù)測(cè)結(jié)果混淆矩陣
此時(shí),AUC 為0.902,區(qū)分度較好,此閾值下ROC 曲線為一個(gè)較好的分類器。同時(shí),若按照預(yù)測(cè)結(jié)果進(jìn)行配放,則能節(jié)約13%的配置成本。假設(shè)SC 公司外站配置航材總成本為200 萬(wàn)元,可通過(guò)該模型減少26 萬(wàn)元的航材配置。
若選用包含X1、X4兩個(gè)自變量的Logistic 模型測(cè)算AUC,其AUC 僅為0.695,此時(shí)閾值為0.6。此閾值下ROC曲線的AUC 僅稍高于0.5,分類效果較差。
若某新開(kāi)飛航站預(yù)計(jì)未來(lái)一年航班量為360 班次,與最近的基地航司距離為500km,該航站其他航司資源數(shù)量為0,計(jì)算得到的Logistic 模型的概率為0.96,大于閾值0.76,則應(yīng)在當(dāng)?shù)嘏浞藕讲摹?/p>
本文通過(guò)以上分析建立了較好的分類模型,可為后續(xù)在外站是否配放航材提供了定量的數(shù)據(jù)支持,便于施行統(tǒng)一的航材外站配放標(biāo)準(zhǔn),節(jié)約航空公司外站配放成本。