• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于混合采樣與Stacking集成的半潛式平臺(tái)警報(bào)預(yù)測(cè)模型

      2022-07-06 08:37:48李至立劉興惠李媛盧緒迪
      現(xiàn)代信息科技 2022年6期
      關(guān)鍵詞:集成學(xué)習(xí)警報(bào)

      李至立?劉興惠?李媛?盧緒迪

      摘? 要:文章旨在基于半潛式平臺(tái)系統(tǒng)故障警報(bào)分類數(shù)據(jù)集構(gòu)建故障警報(bào)預(yù)測(cè)模型。采用SMOTE過采樣與隨機(jī)欠采樣相結(jié)合的混合采樣方法對(duì)訓(xùn)練集進(jìn)行采樣,實(shí)驗(yàn)結(jié)果表明,最佳采樣率為過采樣率0.3、欠采樣率0.6,此時(shí)隨機(jī)森林在采樣后訓(xùn)練集上采用五折交叉驗(yàn)證訓(xùn)練后得到的AUC得分均值最高。同時(shí)說明了該混合采樣方法在采用了最佳的采樣率后可以較好地改善訓(xùn)練集類別不平衡問題,較大地提高模型的泛化能力。

      關(guān)鍵詞:半潛式平臺(tái);警報(bào);混合采樣;集成學(xué)習(xí)

      中圖分類號(hào):TP18;U661? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)06-0079-03

      Alarm Prediction Model of Semi Submersible Platform Based on Composite Sampling and Stacking Integration

      LI Zhili1, LIU Xinghui1, LI Yuan1, LU Xudi2

      (1.Shandong Vheng Data Technology Co., Ltd., Yantai? 264003, China; 2.CIMC Offshore Engineering Institute Co., Ltd, Yantai? 264003, China)

      Abstract: The purpose of this paper is to build a fault alarm prediction model based on the fault alarm classification data set of semi submersible platform system. The composite sampling method combining SMOTE with random under sampling is used to sample the training set. The experimental results show that the optimal sampling rate is 0.3 for over sampling and 0.6 for under sampling. At this time, the random forest is trained on the training set after sampling using five fold cross validation, and the mean value of AUC scores is highest. At the same time, it shows that the composite sampling method after using the best sampling rate can improve the class imbalance problem of training set and greatly improve boost the generalization ability of the model.

      Keywords: semi submersible platform; alarm; composite sampling; Ensemble Learning

      0? 引? 言

      作為資源開發(fā)的重要海洋工程裝備[1,2],半潛式平臺(tái)一般作業(yè)于環(huán)境惡劣多變的深海區(qū),平臺(tái)系統(tǒng)運(yùn)行穩(wěn)定性受到嚴(yán)峻挑戰(zhàn),故障警報(bào)信號(hào)頻發(fā)[3-7]。根據(jù)故障的嚴(yán)重性和緊急程度,警報(bào)信號(hào)分為低、中、高三個(gè)級(jí)別,其中低級(jí)警報(bào)信號(hào)數(shù)量占比98%,中高級(jí)警報(bào)信號(hào)數(shù)量?jī)H占2%。由于不同等級(jí)的警報(bào)信號(hào)數(shù)量差異巨大,收集到的故障警報(bào)分類數(shù)據(jù)集存在類別極度不均衡的問題,使分類模型具有很嚴(yán)重的偏向性,因此難以構(gòu)建泛化能力強(qiáng)的警報(bào)信號(hào)分類預(yù)測(cè)模型。機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法基于大數(shù)據(jù)可進(jìn)行復(fù)雜的關(guān)聯(lián)映射,構(gòu)建故障警報(bào)信號(hào)與其誘發(fā)因素間的關(guān)聯(lián)模型。本文首先采用混合采樣方法將故障警報(bào)類別不平衡訓(xùn)練數(shù)據(jù)集轉(zhuǎn)換為類別平衡訓(xùn)練數(shù)據(jù)集,然后基于該類別平衡訓(xùn)練數(shù)據(jù)集采用機(jī)器學(xué)習(xí)算法構(gòu)建平臺(tái)系統(tǒng)故障警報(bào)預(yù)測(cè)模型。

      1? 類別不平衡數(shù)據(jù)集的混合采樣方法研究

      目前解決類別不平衡問題一般采用預(yù)處理方法、算法中心方法、代價(jià)敏感方法和混合方法四種,其中預(yù)處理方法又可以細(xì)分為特征選擇方法、欠采樣方法、過采樣方法和混合采樣方法[8-10]。單一的過采樣方法容易產(chǎn)生過擬合,而僅通過欠采樣來使類別平衡容易丟失大量信息,造成欠擬合,因此本文采用將過采樣與欠采樣相結(jié)合的混合采樣方法來產(chǎn)生類別平衡訓(xùn)練數(shù)據(jù)集,設(shè)置合適的采樣率,降低類別不平衡比,既能合成少數(shù)類新樣本,彌補(bǔ)少數(shù)類樣本數(shù)量的不足,又能防止過度欠采樣,使多數(shù)類損失大量有用的信息。

      本文將配電盤綜合負(fù)載功率、綜合負(fù)載電壓、綜合負(fù)載電流、發(fā)電機(jī)功率、風(fēng)速與推進(jìn)器功率等六個(gè)因素作為建模輸入特征,將中高級(jí)故障警報(bào)信號(hào)標(biāo)記為1,低級(jí)信號(hào)標(biāo)記為0,共收集樣本20 771個(gè),其中類別1為619個(gè),類別0為20 152個(gè)。數(shù)據(jù)集劃分比例為訓(xùn)練集70%,測(cè)試集30%,測(cè)試集數(shù)據(jù)用于評(píng)估模型的泛化能力。采用SMOTE過采樣與隨機(jī)欠采樣相結(jié)合的混合采樣方法來減輕訓(xùn)練數(shù)據(jù)集的類別不平衡問題。

      采用單一的過采樣或欠采樣方法默認(rèn)將類別比例轉(zhuǎn)變?yōu)?:1,但往往不是最合適的類別比例,分類模型性能并不理想。為了獲得最佳的采樣率,本文設(shè)計(jì)了不同的過采樣率與欠采樣率組合,得到不同的混合采樣訓(xùn)練集,然后分別在不同混合采樣訓(xùn)練集上采用隨機(jī)森林算法通過五折交叉驗(yàn)證的方式以ROC_AUC作為模型的評(píng)估指標(biāo),通過比較驗(yàn)證集ROC_AUC均值的大小來獲得最佳的采樣率。SMOTE過采樣與隨機(jī)欠采樣分別通過調(diào)用類別不平衡處理庫(kù)imblearn庫(kù)中的SMOTE與RandomUnderSampler包來實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果如表1所示。E79B5F08-E8C1-4FB6-BEB0-3E7CA3828A31

      由表1可看出,隨機(jī)森林算法在由采樣組合2得到的混合采樣訓(xùn)練集上采用五折交叉驗(yàn)證訓(xùn)練后得到的驗(yàn)證集AUC得分均值最高,因此最佳采樣率是過采樣率0.3,欠采樣率0.6,即首先應(yīng)用SMOTE,將少數(shù)類別1的分布提高到多數(shù)類別0的30%,然后使用欠采樣將多數(shù)類別0的比例降低到少數(shù)類別1的60%。采樣前訓(xùn)練數(shù)據(jù)集中類別1樣本個(gè)數(shù)為440,類別0樣本個(gè)數(shù)為14 099,不平衡比為32.0;混合采樣后訓(xùn)練數(shù)據(jù)集中類別1樣本個(gè)數(shù)為4 229,類別0樣本個(gè)數(shù)為7 048,不平衡比降為0.7。

      2? 基于Stacking集成的RBXS平臺(tái)系統(tǒng)故障警報(bào)預(yù)測(cè)模型

      集成學(xué)習(xí)方法是一種通過構(gòu)建并結(jié)合多個(gè)基學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)的機(jī)器學(xué)習(xí)方法。集成學(xué)習(xí)根據(jù)基學(xué)習(xí)器集成的方式方法的不同主要分為Boosting、Bagging、Stacking以及均值法、投票法等常規(guī)結(jié)合方法。本文主要涉及Boosting、Bagging、Stacking集成方法。

      2.1? 模型設(shè)計(jì)

      單一的分類器往往并不能獲得理想的擬合效果和泛化能力,因此本文提出了基于Stacking 集成的RBXS(RF-Bagging-XGBoost Stacking)模型。其中Stacking集成的第一層基分類器主要采用 RF、Bagging和XGBoost三個(gè)強(qiáng)分類模型,每一個(gè)模型都采用五折交叉驗(yàn)證的方法訓(xùn)練并輸出預(yù)測(cè)結(jié)果到第二層元分類器。第二層元分類器過于復(fù)雜易造成過擬合,所以選擇簡(jiǎn)單的邏輯回歸作為元分類器,利用第一層得到的預(yù)測(cè)數(shù)據(jù)進(jìn)行訓(xùn)練并得出最終的預(yù)測(cè)結(jié)果。模型基本結(jié)構(gòu)如圖1所示。

      2.2? 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      本文首先采用隨機(jī)森林(Random Forest, RF)、引導(dǎo)聚集算法(Bootstrap aggregating, Bagging)、梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)、自適應(yīng)提升(Adaptive Boost, Adaboost)、XGBoost(Extreme Gradient Boosting)、LightGBM(Light Gradient Boosting Machine)等單分類器建模,在混合采樣訓(xùn)練數(shù)據(jù)集上用網(wǎng)格搜索結(jié)合五折交叉驗(yàn)證的方式進(jìn)行調(diào)參。最優(yōu)參數(shù)組合如表2所示。

      為了獲得分類效果最好的Stacking集成分類器,本文設(shè)計(jì)了四種Stacking第一層基分類器組合,具體如表3所示,使用邏輯回歸作為第二層分類器。采用5折交叉驗(yàn)證訓(xùn)練這些Stacking集成模型,AUC得分取5次訓(xùn)練后驗(yàn)證集得分的均值,對(duì)比采用不同分類器組合的Stacking集成模型及各個(gè)單分類器的AUC得分。

      由表3可知,第一個(gè)基分類器組合都屬于Boosting類算法,采用Stacking集成后產(chǎn)生了過擬合,集成模型AUC得分相比單模型XGBoost及LightGBM得分有一定程度下降;第二個(gè)基分類器組合都屬于Bagging類算法,Stacking集成后相比單一基分類器的泛化能力有較大提高;第三個(gè)基分類器組合是在第二個(gè)基分類器組合基礎(chǔ)上加入泛化能力最好的單一基分類器XGBoost后,Stacking模型AUC得分略有提高;若將所有基分類器進(jìn)行Stacking集成,泛化能力反而下降。因此本文提出的Stacking集成的第一層基分類器采用 RF、Bagging和XGBoost,并選擇邏輯回歸作為元分類器。

      2.3? 模型評(píng)估

      首先在測(cè)試集上使用ROC_AUC評(píng)估指標(biāo)對(duì)采用了最優(yōu)基分類器組合的RBXS模型進(jìn)行評(píng)估,然后采用RBXS模型在原始訓(xùn)練數(shù)據(jù)集上訓(xùn)練并使用相同的測(cè)試集進(jìn)行評(píng)估,對(duì)比采樣前后模型在測(cè)試集上的泛化能力,同時(shí)繪制ROC曲線如圖2所示。

      由圖2可知,RBXS模型在未混合采樣的原始訓(xùn)練集上訓(xùn)練后,在測(cè)試集上的AUC得分為0.857(藍(lán)色虛線所示);經(jīng)過混合采樣的訓(xùn)練集上訓(xùn)練后,在相同測(cè)試集上的AUC得分提高至0.903(紅色實(shí)線所示),AUC得分提高了5.4%。由此說明SMOTE過采樣與隨機(jī)欠采樣相結(jié)合的混合采樣方法較好地改善了訓(xùn)練集類別不平衡問題,增強(qiáng)了模型對(duì)少數(shù)類別的分類效果,較大地提高了模型的泛化能力。

      3? 結(jié)? 論

      鑒于收集到的半潛式平臺(tái)系統(tǒng)故障警報(bào)數(shù)據(jù)集類別極度不均衡,難以訓(xùn)練出泛化能力強(qiáng)的警報(bào)信號(hào)分類預(yù)測(cè)模型,本文首先采用將SMOTE過采樣與隨機(jī)欠采樣相結(jié)合的混合采樣方法改善訓(xùn)練集的類別不均衡問題,然后提出了基于Stacking 集成的RBXS平臺(tái)系統(tǒng)故障警報(bào)預(yù)測(cè)模型,在混合采樣訓(xùn)練集訓(xùn)練后經(jīng)測(cè)試集評(píng)估,該模型的AUC得分達(dá)到0.903,較訓(xùn)練集未經(jīng)過采樣的測(cè)試集AUC得分提高5.4%,表明該模型具有較好的擬合效果和泛化能力,能夠較準(zhǔn)確地分辨出低級(jí)警報(bào)信號(hào)與中高級(jí)警報(bào)信號(hào)。同時(shí)說明了混合采樣方法較好地改善了訓(xùn)練集類別不平衡問題,提升了模型對(duì)少數(shù)類別的分類質(zhì)量,較大地提高了模型的泛化能力。

      參考文獻(xiàn):

      [1] 任仲福.海洋石油鉆井平臺(tái)安全風(fēng)險(xiǎn)以及風(fēng)險(xiǎn)管控分析 [J].科技創(chuàng)新與應(yīng)用,2017(27):124+126.

      [2] 閆會(huì)賓.海洋平臺(tái)結(jié)構(gòu)與設(shè)備的可靠度與風(fēng)險(xiǎn)評(píng)估 [D].杭州:浙江大學(xué),2016:1-22.

      [3] 白旭,湯榮鏗,羅小芳,等.基于故障樹分析和貝葉斯網(wǎng)絡(luò)方法的半潛式鉆井平臺(tái)系統(tǒng)多狀態(tài)可靠性分析 [J].中國(guó)造船,2020,61(2):220-228.

      [4] 羅小芳,孫宇,白旭,等.基于動(dòng)態(tài)故障樹的半潛式鉆井平臺(tái)鉆井系統(tǒng)失效風(fēng)險(xiǎn)分析 [J].船舶工程,2019,41(3):107-114.

      [5] 賈占橋. 船舶機(jī)電設(shè)備診斷方法研究 [J].內(nèi)燃機(jī)與配件,2020(19):131-132.

      [6] 李科文,冷阿偉,劉慶江,等.半潛式鉆井平臺(tái)開發(fā)方案綜合評(píng)價(jià)研究 [J].航海工程,2018,47(A01):97-100.

      [7] 劉子健,李飛.半潛式平臺(tái)適用性影響因素研究 [J].中國(guó)造船,2019(Z1):392-397.

      [8] KAUR H,PANNU H S,MALHI A K. A systematic review on imbalanced data challenges in machine learning:Applications and solutions [J].ACM Computing Surveys(CSUR),2019,52(4):1-36.

      [9] KRAWCZYK B. Learning from imbalanced data:open challenges and future directions [J]. Progress in Artificial Intelligence,2016,5(4):221-232.

      [10] GUO,H X,LI Y J,SHANG J,et al. Learning from class-imbalanced data:Review of methods and applications [J]. Expert Systems with Applications,2017,73:220-239.

      作者簡(jiǎn)介:李至立(1988.01—),男,漢族,山東濟(jì)寧人,中級(jí)工程師,碩士,2011年畢業(yè)于哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),主要研究方向:大規(guī)模數(shù)據(jù)處理、分布式存儲(chǔ)與分析、商務(wù)智能等。

      收稿日期:2022-02-17

      基金項(xiàng)目:煙臺(tái)市重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020JMRH010)E79B5F08-E8C1-4FB6-BEB0-3E7CA3828A31

      猜你喜歡
      集成學(xué)習(xí)警報(bào)
      基于北斗三號(hào)的人防警報(bào)控制系統(tǒng)及應(yīng)用
      疫情防控“警報(bào)”不除 我決不撤退
      假期終結(jié)者
      一種針對(duì)失智老人走失的警報(bào)裝置
      電子制作(2018年11期)2018-08-04 03:25:48
      是誰的責(zé)任?
      基于局部有效性的選擇性決策樹集成
      拉響夏日警報(bào)定格無痕跡美肌
      Coco薇(2017年8期)2017-08-03 20:40:58
      基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究
      基于稀疏編碼器與集成學(xué)習(xí)的文本分類
      基于屬性權(quán)重的Bagging回歸算法研究
      呼伦贝尔市| 平舆县| 宜黄县| 祁阳县| 北海市| 寿宁县| 哈尔滨市| 曲阳县| 五家渠市| 扎兰屯市| 普宁市| 鄂伦春自治旗| 皮山县| 铜陵市| 新营市| 治县。| 张北县| 鞍山市| 都安| 灌云县| 仁怀市| 平山县| 本溪市| 沁源县| 东兴市| 来宾市| 丘北县| 临潭县| 徐州市| 舞钢市| 宜昌市| 万州区| 绥阳县| 自治县| 阿勒泰市| 河北省| 南涧| 盐津县| 昌乐县| 定州市| 太保市|