• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于隨機(jī)森林的航材不平衡樣本集數(shù)據(jù)分析方法研究

      2021-10-21 08:51:30任宇軒
      科技信息·學(xué)術(shù)版 2021年15期
      關(guān)鍵詞:隨機(jī)森林航材分類器

      任宇軒

      摘要:不平衡樣本集一般指在多數(shù)類樣本個(gè)數(shù)與少數(shù)類樣本個(gè)數(shù)相差較大的數(shù)據(jù)集合,對(duì)這類數(shù)據(jù)進(jìn)行分類時(shí),結(jié)果會(huì)偏向于多數(shù)類,導(dǎo)致分類錯(cuò)誤。為解決不平衡樣本集在數(shù)據(jù)分析時(shí)的問題,使用了一種基于代價(jià)敏感的隨機(jī)森林方法,并在飛機(jī)航材保障數(shù)據(jù)分析中應(yīng)用,結(jié)果表明該方法能夠?qū)Σ黄胶鈹?shù)據(jù)進(jìn)行較為準(zhǔn)確的分析。

      關(guān)鍵詞:隨機(jī)森林;不平衡數(shù)據(jù);分類器;航材

      1 引言

      航材保障是為飛機(jī)檢修維修提供所需航材的重要工作,其直接關(guān)系到飛機(jī)能否正常執(zhí)行任務(wù)。缺材停飛指飛機(jī)因缺乏航材導(dǎo)致無法飛行,為掌握航材保障工作規(guī)律,對(duì)保障數(shù)據(jù)進(jìn)行分析,預(yù)判缺材停飛事件發(fā)生具有重要的意義。但是航材保障工作中缺材停飛屬于小概率事件,導(dǎo)致缺材停飛的航材占比一般不足百分之五,導(dǎo)致樣本集內(nèi)正樣本與負(fù)樣本比例極不平衡,對(duì)這類樣本集進(jìn)行數(shù)據(jù)分析會(huì)導(dǎo)致結(jié)果出現(xiàn)偏差,算法會(huì)使得分類結(jié)果偏向于樣本容量大的一類,如何解決不平衡樣本集對(duì)數(shù)據(jù)分析結(jié)果帶來的影響是當(dāng)前的熱點(diǎn)研究方向。

      2 代價(jià)敏感的隨機(jī)森林算法

      代價(jià)敏感的思想對(duì)于不平衡數(shù)據(jù)分析有很好的效果,在對(duì)于不平衡數(shù)據(jù)的分類器中把少數(shù)類錯(cuò)分為多數(shù)類的代價(jià)設(shè)為較大,能夠使得分類器對(duì)于少數(shù)類樣本更加關(guān)注。其主要思想與我們對(duì)待不平衡樣本集的思想相同,與其他對(duì)于不平衡樣本集的處理方法相比較,代價(jià)敏感矩陣擁有更低的時(shí)間復(fù)雜度,更適合大數(shù)據(jù)處理,但大家敏感矩陣的具體值確定較為困難,代價(jià)敏感矩陣方法分類方法一般有三種。

      一是將誤分類的代價(jià)以權(quán)重的形式直接作用到數(shù)據(jù)集中,這種方法其實(shí)相當(dāng)于通過改變數(shù)據(jù)權(quán)重的方式來修改數(shù)據(jù)的分布,使分類器朝著誤分類代價(jià)減少的方向?qū)W習(xí)。受到AdaBoost的啟發(fā),有一些用于不平衡數(shù)據(jù)的代價(jià)敏感的Boosting算法已經(jīng)提出,一個(gè)典型的算法就是AdaCost,它是AdaBoost的變種形式,只是將誤分類代價(jià)作為數(shù)據(jù)空間中權(quán)重更新的策略而引入。

      二是把代價(jià)最小化技術(shù)同集成方法結(jié)合。先使用傳統(tǒng)的集成學(xué)習(xí)方法訓(xùn)練模型,然后將訓(xùn)練出的傳統(tǒng)模型與代價(jià)最小化技術(shù)相結(jié)合形成代價(jià)敏感模型。MetaCost是一種將傳統(tǒng)的分類器轉(zhuǎn)換為代價(jià)敏感模型的方法,傳統(tǒng)分類器通過一個(gè)“元學(xué)習(xí)”過程,根據(jù)最小期望代價(jià)修改訓(xùn)練樣本的類標(biāo)記,并使用修改后的訓(xùn)練集重新學(xué)習(xí)新的模型。使用 MetaCost 的優(yōu)勢(shì)就是它將分類器視為黑箱,不需要知道分類器的內(nèi)部結(jié)構(gòu),同時(shí)可以應(yīng)用到任何個(gè)數(shù)的基分類器上以及任何形式的代價(jià)矩陣上。

      三是直接構(gòu)造一個(gè)代價(jià)敏感模型,將代價(jià)敏感函數(shù)或者特征同分類器直接結(jié)合,通過學(xué)習(xí)器的學(xué)習(xí)過程將代價(jià)敏感函數(shù)擬合到分類器中。文獻(xiàn)將代價(jià)敏感方法和決策樹結(jié)合,提出了基于代價(jià)敏感的剪枝方法。該方法將代價(jià)函數(shù)作為剪枝評(píng)判的標(biāo)準(zhǔn),對(duì)決策樹的過擬合問題起到一定的緩解作用。同時(shí),經(jīng)過剪枝后,分類器泛化能力和分類準(zhǔn)確率得到了一定程度的提高。然而,剪枝操作對(duì)閾值的設(shè)定十分敏感,將閾值進(jìn)行少量的變動(dòng),會(huì)引起整棵樹很大的變動(dòng)。另外,將剪枝操作加入到分類器的學(xué)習(xí)中,無疑會(huì)加大分類器學(xué)習(xí)所需的時(shí)間。

      隨機(jī)森林分類器是一種將多個(gè)決策樹組合為一個(gè)算法的機(jī)器學(xué)習(xí)方法,多棵決策樹表示為{h(X,θk),k=1,2,…,k},k表示隨機(jī)森林里基分類器的個(gè)數(shù),決策樹基于Bagging的隨機(jī)有放回抽樣,在隨機(jī)空間進(jìn)行魔性訓(xùn)練,保證了基分類器的多樣性。由于在樣本選擇過程中的隨機(jī)性提高看分類的精準(zhǔn)度,避開了過擬合問題。隨機(jī)森林方法組合多棵決策樹的分類結(jié)果,結(jié)果選擇多數(shù)決策樹的結(jié)果。

      式中,hk(x)是決策樹模型,y是決策樹的分類結(jié)果,I(·)為指示器函數(shù)

      代價(jià)函數(shù)是根據(jù)數(shù)據(jù)集特征得來,通過計(jì)算樣本分布,構(gòu)造代價(jià)因子,詳細(xì)步驟如下。

      第一步,計(jì)算整個(gè)數(shù)據(jù)集、多數(shù)類樣本、少數(shù)類樣本的的數(shù)據(jù)中心。

      第二步,計(jì)算各類別數(shù)據(jù)中心到數(shù)據(jù)集數(shù)據(jù)中心的全中距離,在數(shù)據(jù)集中,重要特征相對(duì)較少,計(jì)算類別中心到整個(gè)數(shù)據(jù)集中心的歐式距離構(gòu)造代價(jià)對(duì)重要特征不公平,本算法引入權(quán)重距離,利用信息增益衡量每個(gè)特征在不同類別中的重要性。

      第三步,設(shè)多數(shù)類c1,少數(shù)類c0,其中樣本數(shù)分別為N1,N2,能夠定義γ系數(shù)如下:

      3 實(shí)例驗(yàn)證

      實(shí)例選擇某保障單位一段時(shí)間內(nèi)的保障數(shù)據(jù)進(jìn)行分析,共1121條數(shù)據(jù)中,缺材數(shù)據(jù)占比約為百分之5,屬于不平衡數(shù)據(jù)集,采用代價(jià)敏感的隨機(jī)森林方法進(jìn)行分析。為消除不同屬性之間量綱不同對(duì)結(jié)果的影響對(duì)數(shù)據(jù)集采用歸一化處理。

      將代價(jià)敏感的隨機(jī)森林算法與普通隨機(jī)森林算法結(jié)果相比較,0表示未發(fā)生缺材,1表示發(fā)生缺材。下表中1/0表示實(shí)際為1算法分類結(jié)果為0,以此類推。是研究過表明傳統(tǒng)隨機(jī)森林算法會(huì)將絕大多數(shù)樣本歸類為多數(shù)類,而代價(jià)敏感的隨機(jī)森林算法能提高分類器對(duì)少數(shù)類樣本的分類準(zhǔn)確度。

      可見代價(jià)敏感隨機(jī)森林算法在處理不平衡數(shù)據(jù)時(shí)總準(zhǔn)確率明顯提高,且將少數(shù)類樣本分類正確率也有極大的提升。

      4 結(jié)論

      不平衡樣本數(shù)據(jù)集對(duì)數(shù)據(jù)分析工作提出了更高的要求,傳統(tǒng)的機(jī)器學(xué)習(xí)算法會(huì)受到樣本容量不均的影響,對(duì)少數(shù)類樣本的分類能力較差。本文采用了一種代價(jià)敏感的隨機(jī)森林方法,使算法更加關(guān)注少數(shù)類樣本的分類結(jié)果,隨機(jī)森林綜合了多棵決策樹的結(jié)果,實(shí)例驗(yàn)證表明該算法相較于傳統(tǒng)隨機(jī)森林方法,在處理不平衡數(shù)據(jù)時(shí)有著更高的準(zhǔn)確率。

      參考文獻(xiàn)

      [1]曹正鳳.隨機(jī)森林算法優(yōu)化研究[D].首都經(jīng)濟(jì)貿(mào)易大學(xué),2014.

      [2]姚登舉.面向醫(yī)學(xué)數(shù)據(jù)的隨機(jī)森林特征選擇及分類方法研究[D].哈爾濱工程大學(xué),2016.

      [3]肖堅(jiān).基于隨機(jī)森林的不平衡數(shù)據(jù)分類方法研究[D].哈爾濱工業(yè)大學(xué),2013.

      [4]尹華,胡玉平.一種代價(jià)敏感隨機(jī)森林算法[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2014,47(05):707-711.

      [5]楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成.基于代價(jià)敏感的隨機(jī)森林不平衡數(shù)據(jù)分類算法[J].科學(xué)技術(shù)與工程,2018,18(06):285-290.

      [6]高聰.基于隨機(jī)森林的不平衡大數(shù)據(jù)分類算法研究[D].東北電力大學(xué),2018.

      [7]王平,單文英.改進(jìn)的隨機(jī)森林算法在乳腺腫瘤診斷中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(04):252-257+264.

      猜你喜歡
      隨機(jī)森林航材分類器
      考慮航材共享的國(guó)產(chǎn)民機(jī)航材配置技術(shù)研究
      從“人”的角度淺談對(duì)航材管理的認(rèn)識(shí)
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
      淺談我國(guó)通用航空航材共享業(yè)務(wù)
      科技傳播(2016年14期)2016-08-11 21:26:33
      中江县| 武功县| 黄龙县| 丰顺县| 湖南省| 台北县| 邵武市| 丰顺县| 汕头市| 昂仁县| 静安区| 湘阴县| 府谷县| 长子县| 沧州市| 句容市| 邵阳县| 六枝特区| 且末县| 阿克苏市| 中牟县| 武义县| 繁昌县| 高密市| 宽甸| 宜兰市| 城口县| 湟中县| 庄浪县| 福贡县| 津市市| 驻马店市| 平和县| 太仆寺旗| 汽车| 富民县| 广饶县| 图们市| 精河县| 古田县| 酉阳|