• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于改進的C4.5算法對玉米病蟲害治理方案分類研究

      2023-12-18 18:13:49左爽李文靜陳鵬徐會杰
      計算機時代 2023年11期
      關(guān)鍵詞:標簽聚類病蟲害

      左爽 李文靜 陳鵬 徐會杰

      關(guān)鍵詞:玉米;病蟲害治理;方案決策;C4.5 算法

      中圖分類號:TP399 文獻標識碼:A 文章編號:1006-8228(2023)11-120-04

      0 引言

      玉米是我國當前種植面積最大的糧食作物[1]。玉米病蟲害的治理,傳統(tǒng)方案分為人工篩選和機器決策。當病蟲害的種類、數(shù)量或感染面積呈現(xiàn)不規(guī)則的區(qū)域性分布時,傳統(tǒng)方法無法實現(xiàn)對病田網(wǎng)格的精細化管理,導(dǎo)致治理效果差、成本大幅提高[2-3]。運用基于深度學(xué)習(xí)的決策樹算法,將病田細分為N*N 塊單元格,經(jīng)過提取單元格內(nèi)的玉米生長周期、病蟲代數(shù)、玉米品種等特征后,進行訓(xùn)練,對病田感染情況做出分類,同時基于單元格細化方案,進一步精確匹配農(nóng)藥品種與農(nóng)藥噴灑量[4-5]。相比傳統(tǒng)方法,可以顯著降低治理成本、提高防治效果。

      針對傳統(tǒng)C4.5 算法在玉米病蟲害治理方案選擇中面臨大容量數(shù)據(jù)集時表現(xiàn)出精確度低、時效性差等問題[6],本文基于C4.5 算法提出一種改進的決策算法。該算法利用K-means++算法對測試數(shù)據(jù)集進行離散化處理,在構(gòu)建包含六種常見玉米病蟲害數(shù)據(jù)集的過程中,生成二個以上的聚類中心來處理連續(xù)性數(shù)值,并以標簽值出現(xiàn)的概率作為權(quán)重,生成測試集缺失值。目標函數(shù)值選用F1-Score 值和AUC 值,從而對測試集和聚類中心數(shù)量進行優(yōu)化迭代。最終采用投票方式選擇最優(yōu)解進行治理方案的決策。在不同容量的數(shù)據(jù)集中,該算法保證了選擇治理方案的精確度和高效性,特別是當測試集出現(xiàn)缺失值時,其表現(xiàn)優(yōu)異。

      1 C4.5 算法原理

      C4.5 算法的核心原理是針對輸入的樣本信息,采用信息增益率(GainRatio)最高的特征與標簽值作為子樹節(jié)點,構(gòu)建決策樹,并將測試集樣本與決策樹進行匹配,返回最終解決方案。訓(xùn)練集樣本出現(xiàn)缺失值時,會抽出缺失值樣本進行信息增益率計算,在特征節(jié)點選取完成后,將含有缺失值的樣本按特征概率分配權(quán)重,劃分進子樹中。

      設(shè)S 為訓(xùn)練樣本集,它包括n 個類別的樣本,樣本特征的標簽值用Ci 表示,以下列出C4.5 算法的主要數(shù)學(xué)計算公式。

      選取Ration 最大的特征作為子樹節(jié)點,并選取特征標簽值作為下一級子樹節(jié)點。重復(fù)以上步驟,直到?jīng)Q策樹構(gòu)建完成。

      2 改進C4.5 算法

      2.1 數(shù)據(jù)集制作

      數(shù)據(jù)集樣本取自2021 年7、8 月采集于河南省洛陽市宜陽縣李王屯村等地的玉米葉片數(shù)據(jù),針對缺少的病蟲害樣本,采用中國農(nóng)技推廣信息服務(wù)平臺發(fā)布的部分數(shù)據(jù)進行補充。最終數(shù)據(jù)集共包括多個玉米品種針對玉米薊馬、黏蟲等病蟲害的6000 多條治理方案。數(shù)據(jù)集按照60%、20%、20% 的比例分為初次訓(xùn)練集、迭代訓(xùn)練集、測試數(shù)據(jù)集三組,保存為csv 文件。

      2.2 數(shù)據(jù)預(yù)處理算法改進

      C4.5 算法中傳統(tǒng)的離散化處理方式是對屬性值進行升序排序,挑選信息增益最大的點作為二分點,不僅包含大量耗時的對數(shù)運算,而且面對不同周期以及藥物需求不同的病蟲害時,無法滿足對精確度的要求。在這里,本文保留缺失值并基于K-means++聚類算法對數(shù)據(jù)值進行離散化處理[7]。具體步驟為:

      步驟1 隨機選取一個樣本的標簽值作為第一個聚類中心M0;

      步驟2 計算所有標簽值與第一個聚類中心的距離,并取距離最大的標簽值作為第二個聚類中心點M1;

      步驟3 計算所有標簽值與距離最近的聚類中心的距離,并取距離最大的標簽值作為下一個聚類中心點M2;

      步驟4 重復(fù)步驟3,直至所有初始中心點篩選完畢;

      步驟5 用生成的K 個聚類中心點替代K-means算法隨機生成的初始中心點。

      2.3 測試集缺失值處理改進

      在測試集具有缺失值時,C4.5 算法采用當前特征出現(xiàn)頻率最高的標簽值對缺失值進行補充,會出現(xiàn)最終分類結(jié)果會趨向特定結(jié)果的問題。參考C4.5 算法對于訓(xùn)練集缺失值的處理方式,本文采用標簽出現(xiàn)的概率作為權(quán)重,將缺失值補充至訓(xùn)練集中,并采用投票方式選取最優(yōu)解。其填補缺失值原理如下:

      2.4 基于梯度的訓(xùn)練集優(yōu)化

      由于初次訓(xùn)練集可能無法全面地反映整個數(shù)據(jù)集的特征和規(guī)律,導(dǎo)致訓(xùn)練算法出現(xiàn)過擬合現(xiàn)象。為提高訓(xùn)練算法效果,本文將數(shù)據(jù)集分為初次訓(xùn)練集、迭代訓(xùn)練集、測試數(shù)據(jù)集三組,并每次從迭代數(shù)據(jù)集中抽選x 條樣本對初次訓(xùn)練集進行替換,如果AUC 值更高則進行保存。在此基礎(chǔ)上,算法不斷調(diào)整聚類中心的數(shù)量,以提高算法的聚類效果。其部分實現(xiàn)偽代碼如下:

      3 試驗與結(jié)果分析

      3.1 評價指標

      本文通過F1-Score 值、AUC 值兩個指標對算法進行綜合評價,其中F1-Score 值是精確率與召回率的調(diào)和平均數(shù),AUC 值是ROC(以FPR 假陽率為X 軸坐標,TPR 真陽率為Y 軸坐標)曲線下的面積。公式如下:

      其中,TP、TN 為預(yù)測為正例、負例時,算法預(yù)測正確的數(shù)量,F(xiàn)P、FN 為預(yù)測為正例、負例時,算法預(yù)測錯誤的數(shù)量。

      3.2 檢測效果對比與分析

      本文選取C4.5 算法、改進C4.5 算法、CART 算法對1000 條數(shù)據(jù)集進行檢測,分別計算3 種算法的F1-Score 值評價指標值(如表1 所示),并作如下分析:

      ⑴ C4.5 算法采用的悲觀剪枝方法,用遞歸的方式從底向上針對每一個非葉子節(jié)點,評估用一個最佳葉子節(jié)點去代替這棵子樹是否有益。該算法通過訓(xùn)練數(shù)據(jù)集上的錯誤分類數(shù)量來估算未知樣本上的錯誤率,所以該算法在數(shù)據(jù)集容量較小的情況下F1-Score 值與改進C4.5 算法相近,但高于CART 算法。

      ⑵ CART 算法采用二分遞歸分割的技術(shù),采用GINI 值作為分裂節(jié)點的依據(jù),運用一種“基于代價復(fù)雜度的剪枝”方法進行后剪枝,故而在低樣本量的情況下,該算法受限于樣本數(shù)據(jù)過少,導(dǎo)致其決策的準確度降低,在判斷病蟲害的F1-Score 值上明顯低于改進C4.5 算法。

      ⑶ 由表1 可知在針對銹病的治理方案時三種算法的準確率發(fā)生明顯下降,處于70%-72% 區(qū)間中,這可能與數(shù)據(jù)集中關(guān)于銹病的特征值不夠,算法難以匹配檢測目標有關(guān)。

      ⑷ 在針對黏蟲的治理方案時,改進C4.5 算法的F1-Score 值明顯高于C4.5 算法和CART 算法。這是因為在對不完整的黏蟲樣本數(shù)據(jù)(即缺失值)處理時,改進C4.5 算法對訓(xùn)練集缺失值數(shù)據(jù)進行按權(quán)分配生成,并采用投票方式選取最優(yōu)解。CART 算法此時F1-Score值最低,是由于若采用代理特征分裂(surrogatesplits)的方式進行處理,會造成計算量過大且提升有限的問題,故此時CART 算法未對缺失值進行處理。

      3.3 性能對比與分析

      為綜合評價算法優(yōu)劣,選擇測試集中玉米蚜的部分數(shù)據(jù)(100 條)進行低數(shù)據(jù)情況下的檢測,檢測完成后,三種算法的檢測結(jié)果及性能指標如表2 所示。

      AUC 值是衡量算法分類性能的重要指標。低數(shù)據(jù)量的情況下:從整體決策的精確度來看,改進C4.5算法的準確性最高,匹配各種治理方案的AUC 值指標達到了0.7308。結(jié)合AUC 值來看,改進C4.5 算法整體的決策正確率相比其他兩種算法要高。

      為了增強可信度,選擇測試集中的部分數(shù)據(jù)(5000 條)進行高數(shù)據(jù)量情況下的檢測。

      由表3 可知,當TPR=0.03 時,三種算法開始出現(xiàn)明顯區(qū)別,且傳統(tǒng)C4.5 算法AUC 值明顯小于改進C4.5算法與CART 算法。且改進C4.5 算法的AUC 值為0.9584,可知該算法在大數(shù)量上的預(yù)測效果較為優(yōu)異。

      將兩次測量數(shù)據(jù)匯總并記錄運行時間,如表4所示。

      由表4 可知改進C4.5 算法在高數(shù)據(jù)量條件下時間為21.79s,相比原C4.5 算法的40.35s 具有明顯提升。

      4 結(jié)論

      針對傳統(tǒng)病蟲害治理決策的C4.5 算法存在的精確度不足、大數(shù)據(jù)量處理效率低以及測試數(shù)據(jù)值缺失問題,本文提出了一種改進C4.5 算法。該算法采用K-means++算法對數(shù)據(jù)進行離散化處理,并對訓(xùn)練集缺失值數(shù)據(jù)進行按權(quán)分配并生成,參考遺傳算法對訓(xùn)練集與聚類中心點進行優(yōu)化處理。實驗結(jié)果表明,改進C4.5 算法在處理小數(shù)據(jù)量時,其F1-Score 值相較于CART 算法和C4.5 算法分別提高了5.53% 和3.33%。同時,相較于C4.5 算法,該算法的運行時間提高了2.92s。處理高容量數(shù)據(jù)集時,該算法的AUC 值指標相對于CART 算法和C4.5 算法分別提高了0.0426 和0.1011。由此可見,改進的C4.5 算法不僅能夠保證處理不同容量數(shù)據(jù)集時的精確度,而且通過簡化運算量,可以大幅提高運行速度。此外,該算法還能有效應(yīng)對數(shù)據(jù)缺失的情況,提高治理效率。

      猜你喜歡
      標簽聚類病蟲害
      春季葡萄苗病蟲害咋樣防治
      夏季玉米主要病蟲害有哪些
      三招搞定花卉病蟲害
      中老年保健(2021年5期)2021-08-24 07:08:52
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      標簽化傷害了誰
      基于改進的遺傳算法的模糊聚類算法
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      玉门市| 历史| 无锡市| 株洲县| 株洲市| 县级市| 林口县| 临漳县| 平度市| 甘洛县| 大宁县| 龙南县| 普兰县| 黄大仙区| 柳河县| 铁岭市| 全椒县| 济源市| 绥宁县| 綦江县| 秭归县| 苗栗市| 阿勒泰市| 久治县| 两当县| 班戈县| 龙里县| 宁明县| 金阳县| 左云县| 金塔县| 湖口县| 彰化市| 九江市| 昆山市| 新和县| 虞城县| 浮山县| 高密市| 保定市| 桑植县|