郗偉杰,李東輝
(大連交通大學 電氣信息工程學院,遼寧 大連 116028)*
由于長期運作在外部環(huán)境的原因,接觸網故障與外界氣象因素息息相關.因此研究氣象因素與接觸網故障的相關性就非常重要.文獻[1-6]都從定性的角度分析了氣象因素對接觸網故障的影響,但缺少數據證明.文獻[7]采用逐步回歸法研究牽引供電系統(tǒng)故障的相關問題,但是很多接觸網故障與導致故障的因素之間并不是線性相關的,所以在面對非線性問題,邏輯回歸擁有很大的優(yōu)勢.文獻[8]研究的故障內容屬于有序邏輯回歸.然而接觸網故障之間往往是無序的,而且由于樣本數據的不均衡問題使得該文采取的后向逐步選擇法不能很好地提取出相關的氣象因素,很多實際情況都可以證明接觸網故障與濕度,溫度,等氣象因素息息相關,而該文只是提取了雷擊和風速兩個相關因素,因此為了更加細致地描述接觸網故障與氣象因素的相關性,本文通過SMOTE算法對數據進行優(yōu)化,然后采取無序多分類Logistic回歸建立接觸網故障與影響因素之間的關聯(lián)模型,可以更有效地預測接觸網在氣象因素影響下發(fā)生的概率.
分類問題的探究過程對不同類別數據的平衡性有著很高的要求.當分類數據的樣本量存在較大差異時,分類結果將向樣本多的類別傾斜.大大降低了結果的準確性.由于接觸網故障種類繁多復雜.而不同故障類別的檢測數據樣本量存在這很大的差異,這使得直接對未處理的數據進行研究的結果很不理想.因此為了解決這一問題.本文采用了SMOTE算法,對樣本量少的數據進行處理,在這些小樣本距離較近的位置插入新樣本,使得不同類別樣本數量達到盡可能的均衡.
接觸網故障種類繁多復雜,由于天氣因素導致使的故障類型是隨機的沒有順序性.所以本文采用無序多分類邏輯回歸對不同故障類型與氣象因素建立關聯(lián)模型,分析它們之間的相關性.
經過對接觸網故障數據分析不難發(fā)現影響接觸網故障的主要氣象因素有風速,濕度,溫度等天氣狀況.
(1)風速影響
接觸網在大風的作用下導致線間距離小于安全距離,因而導致附加導線、承力索燒傷,大風引起異物掛在線路上造成線路短路,大風致使接觸網不斷抖動,以至于受電弓很難受流,甚至致使導線斷裂.
(2)溫度影響
溫度過高或過低都會導致線路弛度發(fā)生變化而引起斷線,在一定的溫度條件下會使導線覆冰從而發(fā)生過荷載、絕緣子覆冰閃絡、導線覆冰舞動等故障.
(3)濕度影響
接觸網裝置的絕緣效果與濕度息息相通.當絕緣子表面積污在一定的濕度條件下很容易發(fā)生污閃,而濕度也會影響覆冰情況.當絕緣子覆冰在融冰過程中很容易發(fā)生因水流在設備表面而造成短路的情況.
根據隨機采樣進一步創(chuàng)新的SMOTE算法的思路為:
(1)選取擁有少量數據的樣本中的各個樣本x,運用歐式距離進行距離計算.得到每一個樣本到其它樣本之間的距離,從而得到K個近鄰值;
(2)通過對研究數據的分析,得到一個學習比例用來當作接下來的采樣倍數N,在計算得到的K個近鄰值中選取一個近鄰x′;
(3)進而運用選取的近鄰x′,根據下面的公式進行相應的計算:
xnew=x+rand(0,1)*(x′-x)
(1)
如果假設少量的樣本個數為T,則通過SMOTE算法.可以獲得NT個這樣的新樣本.同時我們規(guī)定N一定是正整數,倘若現在的N<1,則SMOTE算法在進行運算時會主動使N=1.
在對數據的分析過程中,由于收集到的數據中有關于高溫導致的接觸網斷線的故障樣本只有14個,而風速導致的接觸網斷線故障樣本數為92.為了使樣本數據達到盡可能的均衡.就可以采用上述過程,對高溫導致的接觸網故障數據進行處理,利用SPSS Modeler數據分析軟件中的SMOTE算法,定義K=5,進行新樣本數據的合成.最終得到新的樣本庫,高溫導致的接觸網故障樣本為84,由風速導致的接觸網故障樣本為92.進而再利用得到的新的樣本庫進行多分類邏輯回歸分析.由表5得到的預測概率可以看到由高溫導致的故障概率可以達到84.6%.
采用與氣象因素相關的覆冰,斷線,異物故障為因變量,用Y=1,2,3表示.溫度(X1),濕度(X2),風速(X3),天氣(X4)為與Y相關的自變量.多分類邏輯回歸的分析是基于二元邏輯回歸基礎上的,通過將多分類邏輯回歸看作多個獨立的二元邏輯回歸.將第k個類別作為主類別,則具體計算過程如下:
(2)
(3)
…
(4)
即:
P(Y=1|X)=P(Y=k|X)exp(β1X)
(5)
P(Y=2|X)=P(Y=k|X)exp(β2X)
(6)
…
P(Y=k-1|X)=P(Y=k|X)exp(βk-1X)
(7)
由于概率的總和為1,因此:
(8)
即:
(9)
式中,β0,β1,…,βK為回歸系數,作為需要估算的參數可以通過最大似然函數進行求解[9].本文用Y=3異物故障作為主類別進行分析,通過IBM SPSS Statistics數據分析軟件,設置變量,輸入數據進行無序多分類邏輯回歸建模得到結果如表1所示.表1中的B值即為所構建的回歸模型中的回歸系數.從而得到如式(15),(16)所示的基于異物故障的接觸網故障關聯(lián)模型.
表1 參數估算值
(1)對數似然值:
(10)
(2)擬合優(yōu)度
(11)
(3)某個自變量XK對時間A發(fā)生概率的影響U檢驗及Wald檢驗
(12)
(13)
(14)
當W=U2時,可以說W漸近的滿足自由度是1的χ2分布[9],表示為W~χ2(1).
基于W檢驗假設H0:βK=0?H1:βK≠0的方法稱為Wald檢驗,檢驗P值為PH0(W≥W0),其中W0為W的觀測值.
因變量Y為常見的受天氣因素影響的接觸網故障.其中Y=1代表接觸網覆冰故障,Y=2代表接觸網斷線故障,Y=3代表異物故障.自變量分別為溫度(X1),濕度(X2),風速(X3),天氣(X4)通過SPSS數據分析軟件進行分析并構建相應的模型.具體模型構建過程如圖1所示.
圖1 無序多分類邏輯回歸模型示意圖
數據分析結果如表2所示.
表2 步驟摘要
借助表3對最終模型和只含有常數項的初始模型進行比較,可以觀察到一開始-2LL值是263.667,通過模型的建立-2LL的值下降為118.986,相對減少了144.681,從結果也可以看出P值是小于0.05,也就是說得到的模型整體是有效的.
表3 模型擬合信息
通過對表4的研究,該表結果表明溫度,天氣等變量在接觸網故障的問題研究中都具有很高的顯著性.
表4 似然比檢驗
本文以異物(Y=3)為參照,由表1可以得到:
0.997X3+0.394X4
(15)
0.997X3+0.394X4
(16)
覆冰的回歸系數值不為零,表明相對于異物故障,覆冰故障對濕度和風速的變化更加敏感.從表1中的B值還可以得到在斷線故障中天氣狀況對斷線故障的影響更加明顯,也就是說在極端惡劣的天氣狀況下,接觸網發(fā)生斷線的可能性很高.由表1分析可以得到相對于異物故障,溫度的回歸系數為-0.276,P=0.000<0.05意味著溫度對故障產生顯著的影響.同理可以對相關因素進行分析.根據表1的結果可以根據氣象數據對接觸網的運行情況做一定的預估,在一定的氣象條件下,接觸網發(fā)生覆冰,斷線或是異物的概率是多少,進而就可以運用具體措施對接觸網安全運營予以保障.
由表5的預測結果可以看出,該關聯(lián)模型的準確率很高,說明模型擬合的很好,從而可以表明獲得的模型是恰當的.為其在管理接觸網故障問題方面的效用性提供了理論依據.
表5 故障預測概率
(1)邏輯回歸對不平衡數據敏感的問題通過SMOTE算法得到了有效的解決;
(2)通過無序多分類邏輯回歸建立關聯(lián)模型,并在模型參數估計后,運用對數似然值,擬合優(yōu)度,Wald統(tǒng)計量的計算方法進行驗證.從而判斷模型的合理性;
(3)通過對實際結果與預測結果的對比可以證明該模型應用于接觸網故障檢測是可行的;
總之,一個好的模型往往很大程度上取決于一個優(yōu)秀的數據集,隨著高鐵事業(yè)的飛速發(fā)展,我們擁有了大量的數據積累.如何從這些龐大的數據中提取出我們需要的數據是今后我們要努力的方向.