李至立, 卻立勇, 劉興惠
(山東緯橫數(shù)據科技有限公司, 山東 煙臺 264003)
半潛式鉆井平臺是重要的海洋工程裝備[1-2],往往作業(yè)于深海區(qū),時刻面對著惡劣多變的海洋環(huán)境,平臺系統(tǒng)運行穩(wěn)定性受到挑戰(zhàn),故障警報信號頻發(fā)[3-7]。平臺系統(tǒng)組成非常復雜,信號點位眾多,難以追蹤平臺系統(tǒng)運行不穩(wěn)定的誘發(fā)因素。機器學習、深度學習等人工智能算法基于大數(shù)據可進行復雜的關聯(lián)映射,比如構建平臺系統(tǒng)能否穩(wěn)定運行與其重要影響因素間的關聯(lián)模型。本文將平臺系統(tǒng)是否發(fā)出警報信號作為系統(tǒng)是否穩(wěn)定的標志,研究平臺系統(tǒng)能否穩(wěn)定運行的重要影響因素,基于若干重要因素采用機器學習、深度學習算法構建平臺系統(tǒng)穩(wěn)定性預測模型。
大型裝備故障發(fā)生的征兆主要與電壓狀態(tài)有關[8]。采用發(fā)電機功率、配電盤各類負載的功率、配電盤各類負載的電壓、配電盤各類負載的電流、推進器功率、風速等信號數(shù)據作為平臺系統(tǒng)能否穩(wěn)定運行的影響因素。
收集半潛式平臺某年5月1日—5月31日上述信號點位的瞬時數(shù)據與警報信號數(shù)據,將各指標數(shù)據中的負值作為異常值設為空值,將毫秒級數(shù)據取均值轉換為秒級數(shù)據。
平臺共有8臺發(fā)電機,但每一時刻只有部分發(fā)電機在工作,因此對每一時刻取所有發(fā)電機功率的均值作為這一時刻的發(fā)電機工作功率,并將其作為建模特征。同理,對每一時刻取8臺推進器功率的均值作為這一時刻的推進器工作功率,并將其作為建模特征。配電盤各類負載的功率、電壓與電流采用相同的方法得到對應的配電盤綜合負載功率、綜合負載電壓與綜合負載電流,將其作為建模特征。將處于同時刻的發(fā)電機功率、配電盤綜合負載功率、配電盤綜合負載電壓、配電盤綜合負載電流、推進器功率與風速數(shù)據作為樣本數(shù)據,同時剔除空值及離群值所在的樣本。將與警報信號處于同時刻的樣本輸出標記為1,無警報信號的樣本輸出標記為0。
分別以符號DG_power、Thr_power、fzI、fzU、fzW、windspeed代表特征發(fā)電機功率、推進器功率、配電盤綜合負載電流、配電盤綜合負載電壓、配電盤綜合負載功率和風速,分析特征間的相關性。采用Spearman相關因數(shù),特征相關因數(shù)如表1所示。
表1 特征相關因數(shù)
由表1可知,發(fā)電機功率與配電盤綜合負載功率呈完全強相關性,可剔除其中一個,與配電盤綜合負載電流、配電盤綜合負載電壓呈中等相關性。
采用隨機森林(Random Forest,RF)對特征重要性進行排序。RF是一種利用Bagging思想,將多個分類回歸樹(Classification and Regression Tree, CART)決策樹作為弱學習器組合為一個強學習器的集成算法,具有良好的抗過擬合能力和較高的準確性,在訓練過程中能夠識別特征間的相互影響并得出重要性排序。6個特征重要性排序結果如圖1所示。
圖1 特征重要性柱形圖
由圖1可知,6個因素對系統(tǒng)穩(wěn)定性均有一定程度的影響,但配電盤綜合負載電流、配電盤綜合負載電壓、配電盤綜合負載功率是系統(tǒng)穩(wěn)定性的主要影響因素,其次是發(fā)電機功率、風速和推進器功率,其中推進器功率重要性最低,可以剔除。
綜上所述,配電盤綜合負載的功率、電壓、電流,發(fā)電機功率和風速是決定平臺系統(tǒng)能否穩(wěn)定運行的主要因素,為了保證平臺系統(tǒng)的穩(wěn)定運行,應更關注配電盤各種負載和發(fā)電機的運行狀態(tài)以及防范大風大浪惡劣天氣。
選擇風速、配電盤綜合負載功率、配電盤綜合負載電流和配電盤綜合負載電壓作為模型的輸入特征。共收集樣本476 823個,其中類別1為7 505個,類別0為469 318個,可看成類別不平衡二分類問題。針對類別數(shù)量不平衡問題,現(xiàn)有的解決方法可以分為預處理方法、代價敏感方法、算法中心方法和混合方法等4種[9-11],常用的處理方法包括預處理方法中的采樣法與代價敏感方法中的權重法。由于不同類別樣本數(shù)量差距過大且類別1樣本數(shù)相對輸入特征數(shù)足夠多,因此采用下采樣方式使數(shù)據集類別平衡,得到15 012個樣本,然后分別采用深度神經網絡(Deep Neural Network,DNN)與邏輯回歸(Logistics Regression,LR)模型、K近鄰查詢(K-Nearest Neighbor query,KNN)、支持向量機(Support Vector Machine,SVM)、樸素貝葉斯模型(Naive Bayesian Model,NBM)等傳統(tǒng)機器學習算法構建平臺系統(tǒng)穩(wěn)定性預測模型并比較其預測效果。
多層神經網絡是一種基于感知機的擴展。如圖2所示,感知機的結構由輸入、輸入的權重、激活函數(shù)和輸出等4部分組成,將輸入值與其對應權重的乘積進行求和,并將該和值作為激活函數(shù)的輸入,不同的激活函數(shù)將會得到不同的輸出。
注:x1,x2,…,xm為輸入;w0,w1,…,wm為輸入的權重;m為輸入的數(shù)量
在感知機中間增加多層隱藏層,即可得到如圖3 所示的多層神經網絡。
圖3 多層神經網絡
多層神經網絡中神經元的計算方式為
z=∑wixi+b
(1)
式中:z為神經元的值;wi為輸入的權重;xi為輸入;b為偏置值。同時,為了增強神經網絡的表達能力,引入非線性函數(shù)(tanh)作為激勵函數(shù),計算式為
(2)
結合反向傳播(Back Propagation,BP)算法能夠實現(xiàn)對高維抽象特征的提取,在平臺系統(tǒng)穩(wěn)定性預測問題上實現(xiàn)高精度的分類及擬合效果。由此可知,DNN依靠多層的神經網絡結構和非線性激活函數(shù)能較好地擬合平臺系統(tǒng)穩(wěn)定性各影響因素與其之間復雜的非線性映射關系。
對樣本數(shù)據進行歸一化后,固定隨機種子將數(shù)據集劃分為訓練集與測試集,測試集比例為20%,用于評估模型,為了防止過擬合將訓練集進一步劃分出20%作為驗證集,同時采用曲線下面積(Area Under Curve,AUC)與準確率作為模型的評估指標。
2.2.1 DNN隱藏層節(jié)點數(shù)的確定
固定神經網絡隱藏層層數(shù)為1,通過比較神經網絡在采用不同隱藏層節(jié)點數(shù)的情況下網絡經過1 000 次迭代后的驗證集Loss的大小來確定合適的隱藏層節(jié)點數(shù)。試驗結果如圖4所示。
圖4 不同隱藏層節(jié)點數(shù)單隱藏層神經網絡經過1 000次迭代后的驗證集Loss值
由圖4可知,當隱藏層節(jié)點數(shù)為14時網絡經過1 000次迭代收斂后驗證集Loss值損失最小,因此選擇隱藏層節(jié)點數(shù)為14。
2.2.2 DNN隱藏層層數(shù)的確定
固定隱藏層節(jié)點數(shù)為14,通過比較神經網絡在采用不同隱藏層層數(shù)的情況下網絡經過1 000次迭代后驗證集Loss值的大小來確定合適的隱藏層層數(shù)。試驗結果如圖5所示。
圖5 不同隱藏層層數(shù)神經網絡經過1 000次迭代后的驗證集Loss值
由圖5可知,當隱藏層層數(shù)為3時,神經網絡經過1 000次迭代收斂后的驗證集Loss值最小,因此DNN隱藏層層數(shù)為3。最終確定DNN拓撲網絡結構為4-14-14-14-2,即4層神經網絡結構,輸入層節(jié)點數(shù)為4,輸出層節(jié)點數(shù)為2,3層隱藏層的神經元節(jié)點數(shù)均為14。網絡結構如圖6所示。
圖6 DNN拓撲網絡結構
2.2.3 DNN隱藏層激活函數(shù)的確定
不同的隱藏層激活函數(shù)會給神經網絡帶來不同的擬合效果,常用的隱藏層激活函數(shù)有Sigmoid、Tanh、ReLU和其他變種等,通過比較DNN在分別采用Sigmoid、tanh、ReLU等3種不同的隱藏層激活函數(shù)時網絡經過1 000次迭代收斂后驗證集Loss值的大小來選擇合適的激活函數(shù)。結果如圖7所示。
圖7 采用不同隱藏層激活函數(shù)的DNN訓練效果
由圖7可知,雖然網絡訓練前期ReLU激活函數(shù)表現(xiàn)較好,但后期tanh激活函數(shù)能夠使驗證集Loss值收斂至更低,訓練效果更好,因此DNN隱藏層采用tanh激活函數(shù)更合適。
2.2.4 DNN的訓練與驗證
在確定DNN拓撲網絡結構和隱藏層激活函數(shù)之后,確定DNN的輸出層激活函數(shù)為Softmax,損失函數(shù)為交叉熵,優(yōu)化算法采用Adam,學習率為0.01,網絡參數(shù)初始化方式采用Pytorch默認的kaiming_normal。網絡訓練迭代2 000步后訓練集Loss值穩(wěn)定在0.10,驗證集Loss值穩(wěn)定在0.12,網絡收斂。網絡訓練迭代過程如圖8所示。
由圖8可知,在網絡訓練迭代2 000步后訓練集和驗證集Loss值都收斂至0.1,AUC都穩(wěn)定在0.98,網絡得到了較好的訓練,泛化能力較強,可以用來預測。采用測試集對該模型進行評估,預測測試集的AUC為0.983,準確率為96.7%。
圖8 DNN迭代收斂曲線
調用Sklearn庫的train_test_split API并采用相同的隨機種子以便產生相同的訓練集與測試集來訓練與評估LR、KNN、SVM、NBM等機器學習模型。DNN與傳統(tǒng)機器學習模型預測測試集的評估指標AUC與準確率結果對比如圖9所示。
圖9 DNN與傳統(tǒng)機器學習模型預測測試集的評估指標對比
由圖9可知:DNN預測測試集的AUC為0.983,比其他機器學習模型的AUC提高1.3%~16.1%;DNN預測測試集的準確率為96.7%,比其他機器學習模型的準確率提高3.0%~25.6%。因此,采用DNN構建平臺系統(tǒng)穩(wěn)定性預測模型比傳統(tǒng)機器學習算法具有更好的擬合效果和泛化能力。
采用半潛式平臺工作信號點位數(shù)據集研究影響平臺系統(tǒng)運行穩(wěn)定性的重要因素,研究結果表明,配電盤綜合負載的功率、電壓、電流,發(fā)電機功率和風速是影響平臺系統(tǒng)運行穩(wěn)定性的主要因素,也是平臺系統(tǒng)產生報警信號的主要觸發(fā)因素,因此為了保證平臺系統(tǒng)的穩(wěn)定運行,應確保配電盤各種負載的工作狀態(tài)穩(wěn)定并且防范大風大浪等惡劣天氣。在此基礎上,提出基于DNN的平臺系統(tǒng)穩(wěn)定性預測模型,經過測試集評估,該模型的AUC較LR、KNN、SVM、NBM等傳統(tǒng)機器學習模型提高1.3%~16.1%,準確率提高3.0%~25.6%,表明DNN模型具有較好的擬合能力和泛化能力。