• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Stacking的鋼板表面顏色預測

      2020-09-15 16:30劉媛媛趙希慶
      計算機時代 2020年8期
      關鍵詞:分類

      劉媛媛 趙希慶

      摘要:鋼板表面顏色是判定鋼板表面耐蝕性能的重要指標,提前預測鋼板表面顏色可以為控制鋼板表面耐蝕性能提供指導。針對單一模型預測精度較低的情況,提出一種基于Stacking的組合模型。該模型采用兩層模式,第一層使用支持向量機、隨機森林、GBDT等七個個體學習器作為初級學習器,第二層使用XGBoost作為次級學習器。使用該方法對鋼板表面顏色進行預測,結果表明,基于Stacking的組合模型與單一模型相比,在多個性能指標上取得了明顯的提升。

      關鍵詞:鋼板表面顏色;分類;集成學習;Stacking方法

      中圖分類號:TP181 文獻標識碼:A 文章編號:1006-8228(2020)08-65-04

      0 引言

      鋼板表面顏色是判定鋼板表面耐蝕性能一種重要指標,普通熱軋鋼板最常見的顏色有紅褐色和青黑色兩種,顏色的不同對鋼板耐銹蝕能力有很大影響,紅褐色主要是結構疏松的Fe2O3,容易吸收水分和鹽分加速銹蝕,而青黑色主要是結構致密的Fe3O4,可以有效延緩鋼板的銹蝕,對于鋼板下線后的保存、運輸、加工和使用等過程比較有利[1-2],因此生產中更希望獲得青黑色的表面,避免紅褐色的表面。在這種情況下,如果能提前預測鋼板顏色,將能夠為鋼板工藝參數(shù)的調整提供指導,達到獲得青黑色表面的目的。機器學習為分類預測提供了大量的模型,本文嘗試了一系列單一模型后,發(fā)現(xiàn)效果并不理想,在此基礎上,提出了一種基于Stacking的鋼板表面顏色分類算法,以兩層堆疊的方式組合多種分類模型,借助多種模型的優(yōu)勢進一步提高預測精度,并使用交叉驗證防止過擬合,以達到更好的預測效果[3-5]。

      1 stacking算法原理

      集成學習通過構建和結合多個學習器來完成學習任務,通常采用一定的策略將多個弱學習器組合到一起,從而獲得比單一學習器更好的性能和泛化能力。集成學習的常用算法有bagging,boosting和stacking等。本文在模型的集成算法選擇上,選取了stacking算法,這種算法通常用于異質集成。Stacking算法是由Wolpert[6]于1992年提出的,也稱之為stacked generalization,是一種用于異質模型的組合策略。Stacking算法通常采用兩層結構,本文使用周志華n,在《機器學習》中的叫法,將第一層學習器稱為初級學習器,將第二層學習器稱為次級學習器。首先,第一層訓練出多個不同的初級學習器,然后,將初級學習器的預測結果作為次級學習器的輸入特征,并在此基礎上進行訓練。在這個過程中,為了防止過擬合現(xiàn)象,通常采用K折交叉驗證的方法,這里以五折交叉驗證為例,介紹stacking的基本步驟[8-10]。

      (1)首先將原始樣本分為訓練集train和測試集test。

      (2)假設我們有n個初級學習器,對任一個初級學習器Ci在訓練集train上進行訓練,訓練集采用五折交叉驗證,每次選擇其中四份進行訓練,在第五份上進行預測,并得到預測結果Ai。同時,將訓練得到的模型在測試集上進行測試,得到結果E。這一輪n個初級學習器訓練完,將得到n個預測結果和n個測試結果。

      (3)把n個預測結果合并成新的訓練集train2,把n個測試結果合并成新的測試集test2。

      (4)在新的訓練集train2上訓練次級學習器,并將預測結果在測試集test2上進行驗證,測試模型的性能。

      2 stacking模型構建

      2.1數(shù)據(jù)標準化

      本文所選用的數(shù)據(jù)由于具有不同的量綱和量綱單位,在計算過程中會導致模型精度下降,為了避免數(shù)據(jù)之間的量綱影響,需要在訓練前對自變量做標準化處理。本文選用Z-score標準化方法,其公式如下所示:其中,x*為標準化后的自變量,x.為標準化前的自變量,μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標準差。

      2.2 stacking模型構建

      本文模型使用stacking的方式,建立兩層架構,第一層組合不同的初級學習器,包括邏輯回歸(IR)、K近鄰(KNN)、支持向量機(SVM)、決策樹(DecisionTree)、隨機森林(RandomForest)、AdaBoost、GBDT七個基學習器,第二層使用XGBoost作為次級學習器,使用第一層預測的結果作為特征并對最終的結果進行預測,模型構建過程中,為了減少過擬合,使用了五折交叉驗證,模型的總體架構如圖1所示。

      將數(shù)據(jù)集按照7:3的比例劃分為訓練集和測試集,按照圖1的框架,構建七個不同的初級學習器,對每一個初級學習器使用五折交叉驗證,其中四份用于訓練,剩余的一份用于預測,五次計算完畢后,根據(jù)索引重新聚合預測結果,得到與原訓練集相同樣本數(shù)的新訓練集,即為次級學習器的新訓練集;而原始數(shù)據(jù)集的測試集,在每次初級學習器完成訓練后都需要在該測試集上進行測試,由于使用五折交叉驗證,每個初級學習器完成訓練都會進行五次預測,將這五次預測的結果進行平均,就得到了與原測試集相同樣本數(shù)的新測試集,即為次級學習器的新測試集。完成第一層建模后,第二層使用XGBoost模型,在上一層生成的新訓練集上進行訓練,并在新測試集上測試,以得到組合模型的性能參數(shù)。

      3 基于stacking的鋼板顏色預測

      本文使用數(shù)據(jù)集為鋼廠的真實數(shù)據(jù)集,該數(shù)據(jù)集共647條數(shù)據(jù),包含了20個與鋼板表面顏色相關的工藝參數(shù),如待溫厚度比,軋制道次數(shù),在爐時間,二階段溫度,終軋溫度,返紅溫度,軋制方式等,預測的目標顏色為青黑色和紅褐色,為典型的分類問題。本文使用python語言進行數(shù)據(jù)處理、模型搭建及模型評估。

      3.1 模型評價指標

      本文使用準確率(Accuracy),精確率(Precision)、召回率(RecaI)及Fl值來衡量模型的性能。其中,TP為青黑色樣本分類正確的數(shù)量,TN為紅褐色樣本分類正確的數(shù)量,F(xiàn)N為青黑色樣本分類錯誤的數(shù)量,F(xiàn)P為紅褐色樣本分類錯誤的數(shù)量。則準確率公式描述為:

      3.2 單一模型和stacking組合模型性能比較

      本文的Stacking模型使用了兩層的架構,其中,初級學習器使用了lr、KNN、SVM、DecisionTree、Ran-domForest、AdaBoost、GBDT,次級學習器使用了XG-Boost。下面將單一模型和組合模型就準確率、精確率、召回率和Fl值四種指標進行了對比,結果如表l和圖2所示。

      從表l和圖2可以看到,單一模型分類準確率大部分在70%-80%.Fl值也集中在0.7-0.8,模型精度比較低,無法滿足模型在實際生產中應用的需求。使用Stacking的方法進行模型集成后,各項指標較單一模型均有了一定程度的提升,主要的判定標準準確率和Fl值分別提高到了89.15%和0.8919,模型精度提高明顯??梢钥吹剑瑢τ阡摪灞砻骖伾诸惸P?,基于Stacking的集成模型達到了更好的模型性能,為模型在實際生產中的應用打下了良好的基礎。

      4 結束語

      本文研究了鋼板表面顏色預測的問題,針對普通分類模型精度較低的情況,提出了一種基于Stacking的鋼板表面顏色分類算法,以兩層堆疊的方式組合多種分類模型,借助多種模型的優(yōu)勢進一步提高預測精度,并使用五折交叉驗證防止過擬合。使用python進行數(shù)據(jù)處理及建模分析后,發(fā)現(xiàn)stacking組合模型相較于單一分類模型在準確率、Fl值等重要指標上都取得了明顯的提升。但由于樣本數(shù)量偏少,模型的精度還有待提高,后續(xù)工作將增加樣本及特征數(shù)量,進一步優(yōu)化模型,提高模型的各項性能。

      參考文獻(References):

      [1]劉振宇,于洋,郭曉波,關菊,王國棟.板帶熱連軋中氧化鐵皮的控制技術[J].軋鋼,2009.26(1):5-9

      [2]王健.熱軋鋼板表面紅色氧化鐵皮缺陷成因分析[J].河南冶金,2017.25(4):22-23

      [3]盧光躍,閏真光,呂少卿,吳洋.基于混合采樣和Stacking集成的電信用戶網別預測[J].西安郵電大學學報,2019.24(4):1-5

      [4]李強,翟亮.基于Stacking算法的員工離職預測分析與研究[J].重慶工商大學學報:自然科學版,2019.36(1):117-123

      [5]梁超.基于Stacking模型融合的工程機械核心部件壽命預測研究[J].毅件工程,2019.22(12):1-4

      [6]Wolpert D H. Stacked generaliation[J]. Neural Networks,1992.5(2):241-259

      [7]周志華.機器學習[M].清華大學出版社,2016.

      [8]羅智青,莫漢培,王汝輝,胡順東,方紹懷,陳世濤.基于Stacking模型融合的失壓故障識別算法[J].能源與環(huán)保,2019.41(2):41-45

      [9]樸楊鶴然,任俊玲.基于Stacking的惡意網頁集成檢測方法[J].計算機應用,2019.39:1018-1088

      [10]董克源,徐建.基于Stacking的Android惡意檢測方法研究[J]計算機與數(shù)字工程,2019.47(5):1184-1188

      *基金項目:運城學院博士科研啟動項目(YQ-2019003)

      作者簡介:劉媛媛(1985-),女,河北保定人,碩士,工程師/助教,主要研究方向:機器學習。

      猜你喜歡
      分類
      2021年本刊分類總目錄
      分類算一算
      垃圾分類的困惑你有嗎
      星星的分類
      我給資源分分類
      垃圾分類,你準備好了嗎
      分類討論求坐標
      數(shù)據(jù)分析中的分類討論
      按需分類
      教你一招:數(shù)的分類
      百色市| 海阳市| 松阳县| 宜良县| 尚志市| 芜湖市| 天镇县| 大城县| 江都市| 锦州市| 东港市| 平顶山市| 循化| 辽宁省| 惠州市| 鄯善县| 乌鲁木齐市| 宾川县| 习水县| 清流县| 金门县| 廉江市| 龙岩市| 无极县| 荔波县| 大理市| 沙雅县| 乌拉特中旗| 萝北县| 白银市| 博兴县| 紫云| 汶上县| 沙雅县| 盐津县| 图片| 东台市| 富源县| 交口县| 渭南市| 永福县|