• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于梯度提升決策樹的氣體傳感器陣列識別模型研究

      2020-10-14 08:34:40董曉睿
      關(guān)鍵詞:決策樹分類器梯度

      董曉睿

      (中國石油大學(xué)勝利學(xué)院 基礎(chǔ)科學(xué)學(xué)院,山東 東營 257000)

      電子鼻系統(tǒng)是近年來工程領(lǐng)域的研究熱點(diǎn)之一,涉及化學(xué)、材料、傳感器、模式識別、電子技術(shù)、計(jì)算機(jī)和應(yīng)用數(shù)學(xué)等多個學(xué)科,它包括一組化學(xué)傳感器、一個信號處理系統(tǒng)和一個模式識別系統(tǒng),可以對混合氣體中的各種氣體成分進(jìn)行定性或定量分析。電子鼻系統(tǒng)克服傳統(tǒng)單氣體傳感器在檢測交叉靈敏度等方面的缺點(diǎn),被廣泛應(yīng)用于化工、環(huán)保、能源、食品、醫(yī)療、交通運(yùn)輸?shù)戎T多應(yīng)用工程領(lǐng)域[1]。傳感器陣列是電子鼻系統(tǒng)的關(guān)鍵,它用于采集氣體類型和濃度的信息,其參數(shù)選擇主要選擇有:傳感器類型、陣列大小和選擇性、穩(wěn)定性、噪聲水平等。傳感器陣列通常由若干離散元件組成,能夠?qū)χ辽僖环N待測氣體的作出反應(yīng),響應(yīng)范圍廣,但對不同種類氣體的響應(yīng)程度有所不同。傳感器陣列對氣體的檢測過程是可逆的,響應(yīng)時間和恢復(fù)時間要保證盡可能的短,性能要保持穩(wěn)定可靠。如何提高氣體傳感器陣列的穩(wěn)定性、靈敏度和選擇性是重要的研究方向之一。

      1 相關(guān)理論技術(shù)

      氣體傳感器陣列的性能直接決定電子鼻系統(tǒng)的識別能力、識別距離和使用壽命。Prajapati[2]提出了用于監(jiān)測空氣污染物CO、CO2、NO2和SO2的四元?dú)怏w傳感器陣列的設(shè)計(jì)方法。Akamatsu[3]提出了一種利用主成分分析(Principal Component Analysis,PCA)對傳感器信號進(jìn)行分析,增加兩個批量響應(yīng)傳感器來提高識別能力的方法。Ziyatdinov[4]提出了一種新的基于公共主成分分析的漂移補(bǔ)償方法,該方法在最佳擬合參考?xì)怏w的情況下與傳統(tǒng)方法具有相同的性能。Padilla[5]提出了一種正交信號校正(Orthogonal Signal Correction,OSC)算法用于漂移補(bǔ)償,以對抗傳感器老化、記憶效應(yīng)和環(huán)境干擾。Zhen[6]嘗試使用帶有兩層隱層和決策樹學(xué)習(xí)的反向傳播神經(jīng)網(wǎng)絡(luò)(Back-Propagation Neural Network,BPNN)來估計(jì)揮發(fā)性有機(jī)物(VOCs)的濃度。可見,傳感器陣列性能的提升主要從兩個方面進(jìn)行:一是提高傳感器本身的性能;二是優(yōu)化模式識別算法。然而這兩種方法都以強(qiáng)規(guī)則的形式對傳感器數(shù)據(jù)進(jìn)行補(bǔ)償或分析,過分依賴于歷史數(shù)據(jù)和經(jīng)驗(yàn),存在較大程度的主觀性。針對這一問題,本次研究提出了一種基于梯度提升樹和信息熵權(quán)特征法的氣體傳感器陣列識別模型,決策旨在自適應(yīng)補(bǔ)償時間漂移和剔除識別異常信息,同時采用集成學(xué)習(xí)方法整合多個基分類器以提高氣體傳感器識別精度,該模型在UCI氣體傳感器陣列漂移數(shù)據(jù)集(Gas Sensor Array Drift Dataset,GSAD)上進(jìn)行了試驗(yàn),取得了良好的試驗(yàn)結(jié)果。

      梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)[7]是一種迭代的決策樹算法,可被用來處理分類或回歸任務(wù)。GBDT由若干決策樹組成,運(yùn)用加法模型和前向分布算法,對模型擬合殘差進(jìn)行修復(fù)而逐步趨近最優(yōu)模型。GBDT方法可以減少多種因素之間的冗余程度,對異常值擁有較強(qiáng)的魯棒性。本研究充分利用GBDT魯棒性強(qiáng)、去除異常值和精度高等優(yōu)勢,彌補(bǔ)傳感器的脆弱性引發(fā)的異常信號和時間漂移問題,以提高最終的氣體識別準(zhǔn)確度。

      熵權(quán)特征法[8]是一種基于信息熵理論的可用于多對象、多指標(biāo)的綜合評價方法。熵作為度量不確定性信息的一個準(zhǔn)則,采用離散的概率分布進(jìn)行表示,分布越廣表示系統(tǒng)越不穩(wěn)定,越集中表示系統(tǒng)越穩(wěn)定。采用熵權(quán)特征法動態(tài)調(diào)整各傳感器權(quán)值,克服在常規(guī)均權(quán)評價過程中不穩(wěn)定傳感器和異常信號對最終評估結(jié)果的影響。

      集成學(xué)習(xí)[9]是通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),可獲得比單一學(xué)習(xí)器更加顯著的泛化性能,對弱學(xué)習(xí)器尤為明顯。結(jié)合策略主要有平均法、投票法和學(xué)習(xí)法等。本研究對不同批次的數(shù)據(jù)訓(xùn)練得到若干基分類器,在預(yù)測環(huán)節(jié)對不同基分類器采用Bagging法[10]進(jìn)行集成,以增強(qiáng)整體分類器的泛化能力。

      2 算法設(shè)計(jì)

      假設(shè)傳感器陣列S有I個傳感器,每個傳感器有J個檢測項(xiàng)(即特征屬性),si,{j=1,2,…,J}為第i個傳感器檢測項(xiàng),X為隨機(jī)森林模型的輸入向量,Y為模型的理想輸出向量,則

      X={x1,x2,…,xj,…,xJ},

      (1)

      (2)

      式中,wij為第i個傳感器第j個檢測項(xiàng)的權(quán)重,其計(jì)算公式為:

      (3)

      式中,ej為第j個檢測項(xiàng)根據(jù)信息論的輸出熵,其計(jì)算公式為:

      (4)

      傳感器數(shù)據(jù)采用Z-score規(guī)范化,如下式所示:

      (5)

      式中,μ是區(qū)間數(shù)據(jù)均值,σ是區(qū)間數(shù)據(jù)標(biāo)準(zhǔn)差。

      采用梯度提升決策樹方法,融合多個CART決策樹模型,通過比較每次迭代的損失函數(shù)梯度,逐步建立高精度模型。選擇交叉熵作為損失函數(shù),可表示為:

      (6)

      式中,pk是第k類的預(yù)測概率。將損失函數(shù)轉(zhuǎn)換到odds,可表示為:

      L(yk,F(X))=-yk*log(odds)+log(1+elog(odds)).

      (7)

      第t輪的第i個樣本對應(yīng)類別l的負(fù)梯度誤差可由下式計(jì)算得出:

      (8)

      進(jìn)而對樹進(jìn)行累加,隨著對模型擬合殘差進(jìn)行修復(fù)而逐步趨近最優(yōu)。

      最后通過準(zhǔn)確率Accuracy、精確度Precision、召回率Recall和F1得分來評價模型的性能,定義為:

      Accuracy=(TP+TN)/(TP+FP+FN+TN),

      (9)

      Precision=TP/(TP+FP),

      (10)

      Recall=TP/(TP+FN),

      (11)

      (12)

      式中,TP為被判定為正樣本的正樣本數(shù),TN為被判定為負(fù)樣本的負(fù)樣本數(shù),FP為被判定為正樣本的負(fù)樣本數(shù),FN為被判定為負(fù)樣本的正樣本數(shù)。

      3 試驗(yàn)與分析

      使用UCI氣體傳感器陣列漂移(GSAD)數(shù)據(jù)集[11]作為試驗(yàn)研究對象。GSAD數(shù)據(jù)集由亞歷山大·維加拉(Alexander Vergara)在2012年創(chuàng)建并捐贈,共包含10批次13910條傳感器化學(xué)氣體數(shù)據(jù),數(shù)據(jù)來自于16個化學(xué)氣體傳感器,用于識別6種不同濃度的氣體。GSAD數(shù)據(jù)集無缺失值,除batch10數(shù)據(jù)外,batch1到batch9均存在一定程度的數(shù)據(jù)集偏斜,其中batch3、batch4、batch5甚至不包括甲苯數(shù)據(jù)。GSAD數(shù)據(jù)集各批次數(shù)據(jù)的數(shù)據(jù)分布如圖1所示。

      圖1 GSAD數(shù)據(jù)集數(shù)據(jù)分布

      采用Anaconda(Python 3.7)為開發(fā)環(huán)境,試驗(yàn)環(huán)境CPU為Intel Xeon W-2145 3.70GHz、內(nèi)存為32GB RAM。試驗(yàn)首先根據(jù)公式(1)~(4)完成數(shù)據(jù)集的預(yù)處理,適當(dāng)縮減數(shù)據(jù)集的規(guī)模;其次,采用公式(5)完成數(shù)據(jù)標(biāo)準(zhǔn)化,使得處理后數(shù)據(jù)符合均值為0和標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布;然后,如公式(6)~(8)所示,建立基于梯度提升樹的識別模型,學(xué)習(xí)率設(shè)為0.01,梯度提升迭代次數(shù)為100,個體回歸估計(jì)器最大深度為3;最后,根據(jù)公式(9)~(12)完成模型評價與結(jié)果分析。該模型對GSAD數(shù)據(jù)集的10批次數(shù)據(jù)進(jìn)行識別分類,試驗(yàn)結(jié)果如圖2所示。

      由圖2可見,該模型對10批數(shù)據(jù)的識別分類任務(wù)取得了良好的效果。在處理batch4時,模型的準(zhǔn)確率和召回率達(dá)到1.0,在處理batch2、batch3、batch6和batch9時,準(zhǔn)確率和召回率接近1.0。由圖1可知,batch7和batch10是10個批次數(shù)據(jù)中最具代表性和最大的兩個數(shù)據(jù)集,區(qū)別在于batch10數(shù)據(jù)分布均勻,而batch7數(shù)據(jù)分布不均勻。模型在處理這兩個數(shù)據(jù)集時性能表現(xiàn)也較為穩(wěn)定,幾乎所有指標(biāo)都在0.9以上。同時,發(fā)現(xiàn)存在某些批次試驗(yàn)效果不佳,例如在對batch2的識別中,由于數(shù)據(jù)集存在嚴(yán)重的偏斜情形,導(dǎo)致模型未能成功識別出甲苯類型的數(shù)據(jù);由于batch1和batch8的數(shù)據(jù)集規(guī)模較小,同時存在一定程度的數(shù)據(jù)集偏斜,導(dǎo)致batch1中的氨和甲苯的識別準(zhǔn)確度較低,而對乙烯的識別召回率較低,batch8中的丙酮的識別準(zhǔn)確度較低,而對甲苯的識別召回率較低。整體上看本次研究提出的氣體傳感器陣列模型對復(fù)雜氣體的識別精度取得較好效果,尤其是在提高氣體數(shù)據(jù)充足的情況下,模型的各指標(biāo)均較為優(yōu)秀。

      4 結(jié)束語

      氣體傳感器的使用易受到設(shè)備老化、記憶效應(yīng)和環(huán)境干擾等因素影響。傳統(tǒng)的傳感器陣列優(yōu)化方法,通常是以強(qiáng)規(guī)則的形式對傳感器數(shù)據(jù)進(jìn)行補(bǔ)償或分析,過分依賴于歷史數(shù)據(jù)和經(jīng)驗(yàn),存在較大程度的主觀性。針對這一問題,本次研究提出一種基于梯度提升樹分類器和信息熵權(quán)的氣體傳感器陣列識別模型,采用熵權(quán)來降低異常信號對最終結(jié)果的影響,以梯度提升決策樹作為主體算法,挖掘數(shù)據(jù)間的潛在規(guī)則,同時輔以集成學(xué)習(xí)思想來整合多批次傳感器數(shù)據(jù),旨在自適應(yīng)補(bǔ)償時間漂移和剔除識別異常信息,提高氣體傳感器識別精度,該模型在UCI氣體傳感器陣列漂移數(shù)據(jù)集(Gas Sensor Array Drift Dataset,GSAD)上進(jìn)行了試驗(yàn),取得良好試驗(yàn)結(jié)果。本次研究所提出的識別模型的設(shè)計(jì)與實(shí)現(xiàn)方法對相關(guān)領(lǐng)域的研究具有一定的參考價值。

      猜你喜歡
      決策樹分類器梯度
      一個改進(jìn)的WYL型三項(xiàng)共軛梯度法
      一種自適應(yīng)Dai-Liao共軛梯度法
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      一類扭積形式的梯度近Ricci孤立子
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      基于決策樹的出租車乘客出行目的識別
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      商洛市| 大足县| 武鸣县| 鞍山市| 茌平县| 新建县| 沙湾县| 星子县| 蒙自县| 申扎县| 察哈| 招远市| 堆龙德庆县| 西昌市| 大方县| 晋宁县| 开远市| 阳原县| 观塘区| 南投市| 紫金县| 涞源县| 阜新| 东丰县| 新余市| 璧山县| 高安市| 富川| 西贡区| 涟水县| 峨边| 巴中市| 荣昌县| 丹寨县| 凤庆县| 大关县| 荥经县| 原阳县| 济源市| 宁德市| 海宁市|