• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于主成分分析的隨機森林鋼材缺陷檢測算法

      2024-02-21 00:14:54王純杰譚佳偉
      關(guān)鍵詞:正例決策樹特征提取

      王純杰,張 鉞,譚佳偉

      (長春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,吉林 長春 130012)

      0 引言

      鋼材是廣泛應(yīng)用于汽車、建筑等行業(yè)的重要材料,具有高強度和強耐久性等特點.然而,在生產(chǎn)加工過程中,鋼材往往會出現(xiàn)劃痕、污漬等缺陷.這些缺陷不僅影響鋼材的整體質(zhì)量,還對產(chǎn)品的安全和性能產(chǎn)生巨大影響.缺陷檢測是制造生產(chǎn)過程中的關(guān)鍵步驟,對于質(zhì)量控制和生產(chǎn)效率來說至關(guān)重要.傳統(tǒng)的缺陷檢測算法往往效率較低且準確性有限.因此,本文提出一種基于主成分分析[1-2](Principal Component Analysis,PCA)和隨機森林[3](Random Forest)的鋼材缺陷檢測方法,提高對不同類型的鋼材缺陷的檢測效率和準確性.

      本文首先利用PCA方法,對鋼材數(shù)據(jù)進行特征提取,然后利用隨機森林算法,對PCA提取的特征進行快速準確分類,最后為了進一步提高模型缺陷檢測的性能,引入合成少數(shù)類過采樣算法[4](Synthetic Minority Over-sampling Technique,SMOTE),用于解決在鋼材缺陷檢測數(shù)據(jù)集中的樣本類別不均衡問題.

      1 缺陷檢測方法

      1.1 主成分分析

      PCA是一種經(jīng)典的降維方法,常用于特征提取和去除數(shù)據(jù)冗余信息,其主要通過線性變換將數(shù)據(jù)映射到一組新的正交特征上,使這些特征能夠最大程度地解釋原始數(shù)據(jù)的方差,保留信息最大化.PCA的算法步驟如下:

      標準化后的數(shù)據(jù)Xij和樣本矩陣X分別為

      (2)計算標準化后樣本的協(xié)方差矩陣為

      (3)計算協(xié)方差矩陣的特征值λ1≥λ1≥…≥λp≥0和特征向量a1,a2,…,ap.

      (5)得出主成分.一般選取累積貢獻率超過80%的特征值所對應(yīng)的第一、第二、…、第m(m≤p)個主成分,其中第i個主成分為

      Fi=a1iX1+a2iX2+…+apiXp,i=1,2,…,m.

      PCA通過將原始的高維數(shù)據(jù)投影到低維空間中進行降維,減少了數(shù)據(jù)冗余和噪聲,較大程度提高了模型的精度和可解釋性.

      1.2 SMOTE

      SMOTE作為一種過采樣算法,常用于解決樣本分布不均衡的問題,其主要是基于樣本的特征空間,通過對少數(shù)類樣本進行插值處理,生成新的少數(shù)類樣本來增加該類在數(shù)據(jù)集中的樣本量,以達到數(shù)據(jù)集的樣本均衡,起到提高分類模型性能的作用.SMOTE算法流程如下:

      (1)對于每一個少數(shù)類樣本,利用歐氏距離計算其到所有其他少數(shù)類樣本間的距離,得到其k近鄰;

      (2)從k近鄰中隨機選擇一個樣本,計算該樣本與當前樣本的差異;

      (3)根據(jù)差異比例,生成一個新的合成樣本,該樣本位于兩個樣本間的連線上;

      (4)重復(fù)上述步驟,直到生成指定數(shù)量的合成樣本.

      通過SMOTE算法,少數(shù)類樣本的特征空間得到有效擴展,模型能夠完整地學(xué)習(xí)到少數(shù)類樣本的特征,降低模型過擬合的趨勢,提高模型的泛化能力、預(yù)測準確性和穩(wěn)健性.

      1.3 隨機森林算法

      隨機森林是一種常用于解決分類和回歸問題的有監(jiān)督學(xué)習(xí)算法,其本質(zhì)是集成多個決策樹的估計預(yù)測方法.在隨機森林中,各決策樹通過對原始數(shù)據(jù)進行有放回抽樣得到的一部分樣本進行訓(xùn)練,每個決策樹得到一個分類結(jié)果,將所有分類結(jié)果取眾數(shù)即為最終預(yù)測結(jié)果.值得注意的是,隨機森林中的各決策樹間沒有關(guān)聯(lián),同時在每個節(jié)點上,隨機森林還可以通過隨機特征選擇機制進一步增強模型的泛化能力[5-7].

      隨機森林通過集成多個決策樹模型來提高預(yù)測準確率,同時能夠有效處理高維數(shù)據(jù)和大規(guī)模數(shù)據(jù)集,且對噪聲和異常值的敏感性較低,使得模型對噪聲和異常值帶來的影響反應(yīng)較小,具有良好的魯棒性.

      2 實驗結(jié)果與分析

      2.1 實驗對象

      實驗數(shù)據(jù)選取UCI鋼板缺陷數(shù)據(jù)集,該數(shù)據(jù)集收集了1 941個樣本和對應(yīng)的27種特征數(shù)據(jù)與7種故障類型,分別是Pastry、Z_Scratch、K_Scatch、Stains、Dirtiness、Bumps和Other_Faults.

      在建立模型前先對樣本數(shù)據(jù)進行分析處理.首先,統(tǒng)計27種不同特征下的數(shù)據(jù)分布,判斷是否存在異常值、缺失值等情況.不同特征下的箱型圖如圖1所示.

      圖1 27種特征的數(shù)據(jù)分布箱型圖

      根據(jù)圖1可知,不同特征的取值范圍均不同且數(shù)據(jù)值分布范圍較廣,數(shù)據(jù)集中不存在數(shù)據(jù)缺失等情況.然后,對數(shù)據(jù)集中的7種故障類型數(shù)量進行統(tǒng)計,判斷樣本類別分布是否均衡.不同故障類型的數(shù)量和故障數(shù)據(jù)分布直方圖如表1和圖2所示.

      表1 不同故障類型的數(shù)量

      圖2 7種故障的數(shù)據(jù)分布直方圖

      結(jié)合表1和圖2可知,UCI鋼材缺陷檢測數(shù)據(jù)集存在明顯的樣本分布不均衡情況,因此,利用SMOTE算法進行數(shù)據(jù)擴充,將7種故障的樣本數(shù)均擴充至673進行分析.

      然后,利用PCA進行降維和特征提取.首先進行數(shù)據(jù)歸一化,提取出主成分特征并構(gòu)建新的數(shù)據(jù)集,再將數(shù)據(jù)隨機打亂進行訓(xùn)練集和測試集的劃分,兩者比例為4∶1.

      最后,分別建立Logistic回歸、支持向量機(Support Vactor Machine,SVM)、決策樹、梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)和隨機森林模型進行方法對比,并使用網(wǎng)格搜索法尋求最優(yōu)參數(shù)組合,利用精確率(Precision)、召回率(Recall)和F1值(F1-score)進行模型評價.

      2.2 評價指標

      本文選取精確率、召回率和F1值對模型的性能進行評價.精確率常用于衡量模型對正例樣本的預(yù)測準確性,表示為正確預(yù)測為正的樣本占全部預(yù)測為正的樣本的比例,召回率常用于評價模型對于正例樣本的識別程度,表示為預(yù)測為正的正例占全部真值為正例的樣本的比例.為了能夠直觀地判斷預(yù)測值與真實值之間的差異,引入如表2所示的混淆矩陣.

      表2 混淆矩陣

      其中xTP表示預(yù)測值為正例真值也為正例的真正例,xFP表示預(yù)測值為正例真值卻為負例的假正例,xFN表示預(yù)測值為負例真值卻為正例的假負例,xTN表示預(yù)測值為負例真值也為負例的真負例.根據(jù)混淆矩陣,可得精確率與召回率的表達式為

      由于精確率和召回率間存在相互影響和相互制約的關(guān)系,無法達到理想狀態(tài)下兩個評價指標都高的情況,因此將F1值作為綜合指標進行評價更加全面.F1值是對精確率和召回率取調(diào)和平均值,F1值越大,模型效率越高,分類預(yù)測效果越好.F1值的表達式為

      2.3 實驗結(jié)果與分析

      實驗對是否施加PCA特征提取的Logistic回歸、SVM、決策樹、GBDT和隨機森林模型進行對比.對比結(jié)果如表3和表4所示.

      表4 不同模型F1值對比

      根據(jù)表3可知,當不經(jīng)過PCA特征提取處理時,GBDT和隨機森林方法的精確率和召回率值較高且相差不大,說明模型對正例樣本的預(yù)測準確度和識別程度較高.經(jīng)過PCA特征提取處理后,隨機森林方法的精確率和召回率最高,均大于0.92,相較于不經(jīng)過PCA處理提升了2%,說明基于主成分分析的隨機森林算法在正例樣本的預(yù)測準確度和識別度上都有很好的表現(xiàn).結(jié)合表4的結(jié)果可得,在經(jīng)過PCA特征提取處理后,隨機森林的F1值最大,相較于不經(jīng)過PCA處理,有3%的提升,說明模型效率高,分類預(yù)測效果好,進一步確定了本文提出的基于主成分分析的隨機森林算法有較好的效果.

      對比表3和表4中五種算法在是否經(jīng)過PCA特征提取處理的評價指標值可知,本文提出的基于主成分分析的隨機森林算法與傳統(tǒng)的分類算法和未經(jīng)PCA處理后的各算法在精確率和召回率上都有較大提升,對分類效果有較好改善,進一步驗證了算法的有效性.

      3 結(jié)論

      本研究引入特征提取和數(shù)據(jù)降維方法PCA、數(shù)據(jù)過采樣算法SMOTE以及隨機森林算法,提出一種基于主成分分析的隨機森林鋼材缺陷檢測方法,用于鋼材制造生產(chǎn)過程中不同缺陷的分類識別.通過實驗分析,可以得到以下結(jié)論:(1)通過PCA進行特征提取處理,有效剔除冗余信息并降維,提高檢測性能;(2)引入SMOTE進行數(shù)據(jù)擴充,彌補了數(shù)據(jù)類別分布不均衡的問題,對不同缺陷類型都能做到有效檢測,提高檢測效率;(3)與傳統(tǒng)的四種分類方法相比,本文提出的基于主成分分析的隨機森林算法得到的精確率、召回率和F1值均是最優(yōu)的.因此本文提出的方法能有效提升缺陷檢測效率.

      猜你喜歡
      正例決策樹特征提取
      小學(xué)生舉例表現(xiàn)與概念理解的相關(guān)性研究
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      基于概念形成的教學(xué)研究
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      Bagging RCSP腦電特征提取算法
      基于決策樹的出租車乘客出行目的識別
      高中數(shù)學(xué)概率教學(xué)中的誤區(qū)與應(yīng)對策略分析
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      “絕不”與“決不”的區(qū)別
      电白县| 柳州市| 大渡口区| 土默特右旗| 织金县| 柳河县| 盈江县| 九台市| 扶沟县| 霍林郭勒市| 新巴尔虎右旗| 涡阳县| 和静县| 壤塘县| 渭源县| 布尔津县| 余江县| 甘洛县| 湾仔区| 海宁市| 南溪县| 罗江县| 惠东县| 屯门区| 曲阜市| 沾益县| 阿坝| 南宫市| 河北省| 青龙| 台湾省| 大丰市| 鹤岗市| 巢湖市| 禹城市| 津市市| 封丘县| 莱州市| 仪征市| 晋城| 咸丰县|