• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進AdaBoost算法對環(huán)柄菇毒性判別研究*

      2021-04-09 03:21:38李健熊琦胡雅婷
      中國農(nóng)機化學(xué)報 2021年3期
      關(guān)鍵詞:權(quán)值分類器邏輯

      李健,熊琦,胡雅婷

      (吉林農(nóng)業(yè)大學(xué)信息技術(shù)學(xué)院,長春市,130118)

      0 引言

      隨著社會經(jīng)濟發(fā)展和人類對生活質(zhì)量要求的不斷提高,食用菌出現(xiàn)在人們的餐桌上的頻率越來越高,但食用菌的安全性問題一直存在很大的爭議。由于中國地大物博,食用菌種類繁多,對食用菌毒性判定的方式也是多種多樣[1]。其中民間對蘑菇毒性的判別方式主要依賴觀察其外形外觀,顏色和菌類的特征,聞菌類的氣味等方法,這些方法對判別人的經(jīng)驗有較大依賴性,判別誤差率高等缺點。學(xué)術(shù)界則是通過研究菌類的成分進行毒性判別[2]。這類方法雖然準確率大大提高,但是存在檢測效率不高,實驗要求苛刻等缺點。

      近年來,隨著機器學(xué)習(xí)在人工智能領(lǐng)域的大火,近年來,隨著機器學(xué)習(xí)在人工智能領(lǐng)域的大火,機器學(xué)習(xí)算法對解決工業(yè)問題提供了新的思路,眾多學(xué)者[3-5]開始將機器學(xué)習(xí)模型開始與工業(yè)領(lǐng)域相結(jié)合,比如李卓識等[6]將機器學(xué)習(xí)算法引入到真菌分類問題中,王聃,毛彥棟等[7-8]將機器學(xué)習(xí)算法引入到病蟲害識別問題中,陳桂芬等[9]將機器學(xué)習(xí)算法引入到遙感圖像分類中,這些模型均能與各自領(lǐng)域的實際情況與存在的問題相結(jié)合,提供了有效的解決辦法。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)的種類、數(shù)量都有極大的提升,由于某些機器學(xué)習(xí)模型針對海量數(shù)據(jù)存在著運行時間慢,準確率低等問題,特征篩選方法[10-12]被提出,該方法可以解決數(shù)據(jù)集高維度,高密集的問題,降低了模型的復(fù)雜度,使得機器學(xué)習(xí)更好地融入各個領(lǐng)域之中。

      由于菌類的特征值存在不連續(xù),多維度等特點,非常適合用機器學(xué)習(xí)中的分類算法進行判別,目前業(yè)界中有很多使用機器學(xué)習(xí)算法對蘑菇毒性判別的案例,均取得了不錯的準確率,對蘑菇毒性判別具有重要意義。劉斌等[13]將基于貝葉斯算法應(yīng)用到了蘑菇毒性判別之中,這種算法必須滿足樣本特征獨立分布的前提,且這種算法不存在很好的實際物理意義,不易于理解,對數(shù)據(jù)要求較高等缺點。樊哿等[14]利用了支持向量機算法,這種算法預(yù)測的準確率很高,但是這種算法基于較小的數(shù)據(jù)集為前提才會獲取到較好的效果,不適用于規(guī)模較大的數(shù)據(jù)集。李旺等[15]提出了基于寬度學(xué)習(xí)的蘑菇毒性判別方法,該模型具有極高的準確率,但是需要極高的數(shù)據(jù)量作為訓(xùn)練基礎(chǔ),對數(shù)據(jù)集的要求非??量?,適用的領(lǐng)域并不廣泛。因此,集成學(xué)習(xí)方法[16]被引入。集成學(xué)習(xí)是一種通過構(gòu)建多個弱分類,再將其組合成一個強分類器的學(xué)習(xí)方法,AdaBoost算法作為目前最具有價值的集成學(xué)習(xí)算法,眾多學(xué)者[17-18]將該算法引入工業(yè)界解決分類問題。但該算法的權(quán)值更新機制容易造成不公平的權(quán)值分配,且容易導(dǎo)致噪聲樣本權(quán)值的無限增大,不少學(xué)者針對該缺點對算法進行了改進[19-20]。

      本文針對AdaBoost算法存在的問題,提出了一種改進權(quán)值更新方式的AdaBoost算法,該算法基于邏輯回歸為弱分類器,在弱分類器訓(xùn)練階段和弱分類器的組合階段,兩部分對原算法進行了改進,刪去了特征中權(quán)值系數(shù)過小的特征,針對多次分錯的樣本,添加懲罰系數(shù)降低該樣本的權(quán)值,以提高整體分類的準確度,為食用菌毒性判別問題提供了新的思路和解決方案。

      1 材料和方法

      1.1 數(shù)據(jù)采集

      本文使用的公用數(shù)據(jù)集是加州大學(xué)歐文分校提供的環(huán)柄菇數(shù)據(jù)集,該數(shù)據(jù)集中共包含8 124組樣本,共22個特征,分別為帽形,帽面,帽色,瘀傷,氣味,鰓附著,鰓間距,鰓大小,鰓顏色,莖形,莖根,莖表面在環(huán)上,莖—表面—環(huán)下,莖—顏色—環(huán)上,莖—顏色—環(huán)下,面紗類型,面紗顏色,環(huán)號,環(huán)狀型,孢子印刷色,種群,棲息地。部分數(shù)據(jù)集如表1所示。

      表1 部分環(huán)柄菇數(shù)據(jù)集

      1.2 研究方法

      1.2.1 傳統(tǒng)AdaBoost算法

      AdaBoost算法是一種通過迭代將多個弱分類器組合成一種強分類器的算法。算法本身是通過不斷改變數(shù)據(jù)的權(quán)值來實現(xiàn)的,針對弱分類器中錯誤分類的樣本,算法會逐漸加大錯誤分類樣本的權(quán)重,并降低分類正確的樣本的權(quán)值,使得算法在下一次弱分類器選定數(shù)據(jù)樣本時,會著重于上一次迭代中錯誤分類的樣本,通過這種方式,AdaBoost的訓(xùn)練過程會聚焦于容易分類錯誤的樣本,最終將每次訓(xùn)練得到的弱分類器加權(quán)求和,形成了最終的決策強分類器。算法框架如圖1所示。

      圖1 AdaBoost算法框架

      相比較單個的分類器,經(jīng)過AdaBoost算法集成的最終決策強分類器具有更好的穩(wěn)定性和分類準確率,但是AdaBoost算法的缺點也很明顯,在算法的數(shù)據(jù)劃分階段,AdaBoost算法的迭代次數(shù)不好確定,如果定的過少,算法擬合不足,如果迭代次數(shù)過多,則會導(dǎo)致弱分類器的運行時間過長。在算法的迭代過程中,噪聲樣本點在迭代的過程中權(quán)值會無限增大,從而使非噪聲樣本點選入到新的弱分類器的概率降低,從而降低最終的強分類器的準確率。

      1.2.2 邏輯回歸算法

      邏輯回歸實際上是一種線性分類器,是基于線性回歸變化而來的一種模型,由于滿足線性規(guī)律的真實場景并不多,為了解決該問題,線性回歸在實際應(yīng)用中引入了諸多變化形式,將對數(shù)函數(shù)融到線性回歸中就得到了邏輯回歸的基本表達式,函數(shù)如式(1)所示。

      (1)

      二元邏輯回歸的樣本服從伯努利分布(即0~1分布),由此可得預(yù)測標簽分別為0和1時的概率如式(2)和式(3)所示。

      P(y=1|x)=y(x)

      (2)

      P(y=0|x)=1-y(x)

      (3)

      由式(2)和式(3)可得P(y|x)的表達式如式(4)所示。

      P(y|x)=y(x)y×[1-y(x)]1-y

      (4)

      假設(shè)樣本獨立且同分布,求得式(4)的最大對數(shù)似然估計就得到了最終的損失函數(shù),如式(5)所示。

      (1-y)×log[1-yθ(xi)]}

      (5)

      采用梯度下降法求取損失函數(shù)的極小值,就可以得到該邏輯回歸算法的最優(yōu)的系數(shù),達到該邏輯回歸模型的最好效果,同樣邏輯回歸的缺點也很明顯:在特征空間很大時,計算的復(fù)雜度會很高,會大大降低邏輯回歸算法的性能,所以在特征數(shù)目很多的數(shù)據(jù)集下,通常不使用邏輯回歸算法。

      1.2.3 改進的AdaBoost算法模型

      通過分析作為弱分類器的邏輯回歸算法和AdaBoost算法,可以很直觀的得到算法的缺點,針對上述問題,本文提出了一種基于改進數(shù)據(jù)特征篩選和弱分類器權(quán)值更新的AdaBoost算法,該算法分為弱分類器訓(xùn)練和弱分類器組合兩個階段。

      在改進之后的AdaBoost算法的弱分類器階段,針對作為弱分類器的邏輯回歸算法無法很好的處理樣本特征空間過大的問題,本文提出了根據(jù)各個樣本特征所占的權(quán)重大小,逐步減去樣本特征數(shù)目的方法。本文提出了根據(jù)各個樣本特征所占的權(quán)重大小,逐步減去樣本特征數(shù)目的方法。該方法首先將全部特征帶入到算法中運行,計算出每一個特征的特征權(quán)重,將特征權(quán)重最小的特征刪除,就能得到新的特征子集,將新的特征子集帶入算法之中重新計算新的特征權(quán)重并刪除特征權(quán)重最小的特征,重復(fù)執(zhí)行該過程,直到算法準確率小于閾值,特征篩選結(jié)束,得到了最佳特征子集。流程如圖2所示。

      圖2 數(shù)據(jù)集特征空間篩選方法

      樣本特征的權(quán)值系數(shù)代表了每個特征在對樣本預(yù)測值得重要性,信息熵是度量樣本幾何純度的最常用的一種指標,假設(shè)樣本集合D中第k類樣本所占的比例為Pk,則D的信息熵如式(6)所示。

      (6)

      假定離散的屬性a有V個可能的取值,若使用a來對樣本D進行劃分,則會產(chǎn)生V個子集,其中第V個子集包含了D中所有在屬性a上取值為av的樣本,記作Dv,根據(jù)式(6)得到信息增益的公式如式(7)所示。

      (7)

      假設(shè)樣本集D上第j個特征,可以計算出每個訓(xùn)練集D下的信息增益,在對得到的K個信息增益值進行歸一化處理,就可以得到每個特征所占的權(quán)重,如式(8)所示。

      (8)

      根據(jù)式(8)對弱分類器數(shù)據(jù)集中的每個特征分別計算權(quán)重,并從大到小進行排序,根據(jù)設(shè)定的權(quán)值系數(shù)的閾值ω0對特征空間進行篩選,使得下一次迭代的弱分類器的數(shù)據(jù)集中刪去了權(quán)值系數(shù)過小的特征,從而提高了運算效率,解決了弱分類器邏輯回歸中由于特征空間太大,使邏輯回歸算法效果不好的缺點。

      針對迭代過程中噪聲點權(quán)值系數(shù)過大的問題,本文提出了在權(quán)值過大的樣本點加上懲罰項的方法,如果迭代結(jié)束的樣本權(quán)重大于閾值w,則會在權(quán)重加上懲罰項,降低該樣本的權(quán)重,減少了由于樣本噪聲點對整個模型的影響,如果迭代之后的樣本權(quán)重小于閾值w,則不會對該樣本點加上懲罰項。對于給定的數(shù)據(jù)集x={(x1,y1),(x2,y2},…(xn,yn)},首先計算出在第i次迭代后,樣本X的權(quán)重Dx并對所有樣本的權(quán)重進行歸一化,本文使用了混淆矩陣中的FN值和FP值的比值作為權(quán)重的懲罰項,混淆矩陣如表2所示。

      表2 混淆矩陣

      混淆矩陣中的列元素代表了真實樣本中的標簽,所有的行元素代表了模型輸出的預(yù)測標簽,將FN/FP的比值ψ作為懲罰項是為了能夠更好地看清該樣本是對標簽為0的樣本分類能力較差還是標簽為1的樣本分類能力較差,可以更好地鍛煉模型。每次迭代之后的樣本的錯誤率如式(9)所示,根據(jù)錯誤率可得樣本的權(quán)重如式(10)所示。

      (9)

      (10)

      根據(jù)本文設(shè)計的改進之后更新權(quán)值方法,當預(yù)測值等于真實值時,樣本在下一輪迭代時的權(quán)重如式(11)所示。

      (11)

      在預(yù)測值不等于真實值,權(quán)重小于等于閾值時,樣本在下一輪迭代時的權(quán)重如式(12)所示。

      hi(xi)≠yi,Dt(xj)≤Wt

      (12)

      在預(yù)測值不等于真實值,權(quán)重大于閾值時,樣本在下一輪迭代時的權(quán)重如式(13)所示。

      hi(xi)≠yi,Dt(xj)>Wt

      (13)

      1.2.4 改進的AdaBoost算法模型

      上述的兩點改進措施分別針對了AdaBoost算法和邏輯回歸中的兩種缺點,整個改進后的算法流程如下。

      輸入:訓(xùn)練數(shù)據(jù)集x={(x1,y1),(x2,y2),…,(xn,yn)},權(quán)值系數(shù)的閾值ω0。

      輸出:最終得到的強分類器F(X)。

      1)對數(shù)據(jù)進行歸一化處理,使樣本值分布在[0,1]之間。

      2)初始化訓(xùn)練樣本的權(quán)值分布并初始化訓(xùn)練數(shù)據(jù)的權(quán)重分布值:Dm表示第m個弱學(xué)習(xí)器的樣本點的權(quán)值D1=(ω11,ω12,ω13,…,ω1N),ω1i=1/N,i=1,2,…,N。

      2 結(jié)果與分析

      2.1 環(huán)柄菇毒性判別模型

      本文提出的環(huán)柄菇毒性判別模型首先將數(shù)據(jù)集的特征進行數(shù)值化處理,再進行歸一化處理,采用3∶7的比例,隨機劃分數(shù)據(jù)集之后,得到了測試集和訓(xùn)練集,對訓(xùn)練集集樣本進行特征篩選,建立起了改進后的AdaBoost模型,將測試集帶入模型并對模型進行評分,根據(jù)模型分數(shù)再進行調(diào)參,得到最終的模型,輸出最終的預(yù)測結(jié)果,如圖3所示。

      圖3 模型流程圖

      2.2 結(jié)果分析

      本文為了突出改進之后的AdaBoost模型的優(yōu)化效果,分別建立了單一的邏輯回歸分類器和傳統(tǒng)的AdaBoost分類器模型進行比較,本文采用了混淆矩陣作為算法模型的評判指標,根據(jù)混淆矩陣可以得到該模型的準確率,精度,召回率和F1-值。準確率是混淆矩陣中的TP值和TN值的和除以樣本總數(shù),表示了分類模型中所有判斷正確的結(jié)果占總樣本數(shù)的比例,精度是由混淆矩陣中的TP值除以TP值和FP值的和,表示了在模型預(yù)測為1的所有樣本中,真實值也為1的比重,召回率是由混淆矩陣中TP值除以TP值和FN值的和,表示了真實值為1的所有樣本中,模型預(yù)測正確的比重,而F1-值是結(jié)合了精度和召回率的指標,取值范圍在0到1之間,越靠近1表示模型的預(yù)測效果越好。同時也分別計算了真實值為0和1時的各個指標的大小,各項指標的平均值和加權(quán)平均值。

      按照上述試驗流程分別對三種不同的算法進行了測試,測試樣本總數(shù)為2 438個樣本,最后將三種算法的指標值簡化整合后,得到了最終的測試對比結(jié)果如表3所示。

      表3 不同算法測試結(jié)果對比

      由表3可以看出本文提出的改進的AdaBoost算法在各項指標中均有極高的評分,模型分類效果遠超其他兩種算法。通過對比三種算法的準確度可得,單一的邏輯回歸分類器達到了94.85%的準確率,傳統(tǒng)AdaBoost算法易受噪聲點的影響只達到了91.76%的準確率,而本文提出的改進后的AdaBoost算法解決了這一問題,準確率達到了99.96%,比單一的弱分類器模型和傳統(tǒng)的AdaBoost分類器的準確率平均提高了7.5%,且并不易受噪聲點影響??紤]到模型是為了判定環(huán)柄菇是否具有毒性這一目的,召回率的大小對模型優(yōu)劣起到了很大影響,邏輯回歸算法成功分類出95%的有毒樣本,傳統(tǒng)AdaBoost算法只成功分類出90%的有毒樣本,而改進后的AdaBoost算法成功分出了所有的有毒樣本,改進后的模型在判定環(huán)柄菇是否含有毒性的問題上具有很高的穩(wěn)定性和安全性。

      為了更直觀的觀察到改進后的算法的性能,本文引入了ROC曲線,ROC曲線可以很容易的查出任意界限值時對性能的識別能力,從而選擇最佳的界限值,本文提出的改進后的算法的ROC曲線如圖4所示。

      圖4 改進的AdaBoost分類器的ROC曲線

      ROC曲線越靠近左上角,實驗的準確性就越高,亦可通過計算ROC曲線下的面積AUC進行比較,AUC越大,模型的效果越好,由圖4可以觀察到,改進后AdaBoost算法的ROC曲線下的面積AUC為1,達到了AUC的極大值。

      通過在公用數(shù)據(jù)集的實驗表明,本文提出的改進后的AdaBoost算法性能遠高于單一的邏輯回歸分類器和傳統(tǒng)的AdaBoost分類器,在對環(huán)柄菇毒性判定中取得了完美的效果,在一定程度上改進了傳統(tǒng)AdaBoost分類器中權(quán)值更新中存在的缺陷導(dǎo)致拉低模型評分的局限性。

      3 結(jié)論

      1)本文提出的改進后的AdaBoost分類器模型,通過添加了對數(shù)據(jù)樣本的特征篩選環(huán)節(jié)和在集成迭代的過程中調(diào)整樣本權(quán)值更新的方式,以避免樣本產(chǎn)生過大的權(quán)值并對新建的弱分類器產(chǎn)生影響為目標,運用了混淆矩陣中的FN值和FP值,并將兩者的比值作為了懲罰項,添加到了更新權(quán)值的公式中。

      2)該改進后的模型遠優(yōu)于單一的邏輯回歸弱分類器和傳統(tǒng)的AdaBoost分類器模型,分類的準確率平均提高了7.5%,在一定程度上解決了蘑菇毒性判定的問題,并樹立了新的判別模型,但改進之后的模型存在計算量較大,運行時間較長的問題,將成為日后蘑菇毒性判別模型改進的研究方向??傮w而言,本文提出的模型確實提高了預(yù)測的準確率,在蘑菇毒性分類問題上有較高的實際利用價值。

      猜你喜歡
      權(quán)值分類器邏輯
      刑事印證證明準確達成的邏輯反思
      法律方法(2022年2期)2022-10-20 06:44:24
      一種融合時間權(quán)值和用戶行為序列的電影推薦模型
      邏輯
      創(chuàng)新的邏輯
      CONTENTS
      CONTENTS
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      女人買買買的神邏輯
      37°女人(2017年11期)2017-11-14 20:27:40
      基于權(quán)值動量的RBM加速學(xué)習(xí)算法研究
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      鹤壁市| 五家渠市| 肥城市| 朝阳市| 贵溪市| 安吉县| 莫力| 赣州市| 正蓝旗| 策勒县| 惠来县| 东光县| 阜新| 晋江市| 江城| 两当县| 克东县| 井研县| 崇仁县| 南雄市| 抚宁县| 天峨县| 广南县| 敦化市| 和硕县| 集安市| 连平县| 奎屯市| 大安市| 商河县| 商城县| 德州市| 大悟县| 沂南县| 黄山市| 珲春市| 玛多县| 汕尾市| 达孜县| 无极县| 绥芬河市|