• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      人工智能

      2020-02-29 10:39:27袁志聰
      科技創(chuàng)新與應(yīng)用 2020年6期
      關(guān)鍵詞:隨機(jī)森林訓(xùn)練樣本決策樹(shù)

      袁志聰

      摘? 要:文章深入簡(jiǎn)出的介紹了隨機(jī)森林體系這一比較常用的人工智能算法,分別從其算法原理進(jìn)行介紹,列舉其決策樹(shù)的運(yùn)用技巧以及應(yīng)用場(chǎng)景。對(duì)隨機(jī)森林技術(shù)目前存在的優(yōu)點(diǎn)以及缺點(diǎn)和現(xiàn)今主流的算法進(jìn)行對(duì)比分析,并著重介紹了其未來(lái)應(yīng)用的構(gòu)思以及改進(jìn)空間。同時(shí)將隨機(jī)森林技術(shù)運(yùn)用到電力稽查中的表現(xiàn),詳細(xì)分析了其在電力稽查中的運(yùn)用成果,隨機(jī)森林體系在電力稽查規(guī)則識(shí)別以及歸類(lèi)異常問(wèn)題中有比較突出的表現(xiàn)成果。

      關(guān)鍵詞:隨機(jī)森林;決策樹(shù);訓(xùn)練樣本

      中圖分類(lèi)號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號(hào):2095-2945(2020)06-0151-02

      Abstract: This paper gives an in-depth and brief introduction of the random forest system, which is a commonly used artificial intelligence algorithm, introduces its algorithm principle respectively, and enumerates the application skills and application scenarios of its decision tree. This paper makes a comparative analysis of the advantages and disadvantages of random forest technology and the current mainstream algorithms, and focuses on the conception of its future application and the space for improvement. At the same time, the random forest technology is applied to electric power inspection, and its application results in electric power inspection are analyzed in detail. Random forest system has more outstanding results in electric power inspection rule identification and classification abnormal problems.

      Keywords: random forest; decision tree; training sample

      1 概述

      隨機(jī)森林決策樹(shù)結(jié)構(gòu)是一種用算法進(jìn)行建模,并且利用枝葉之前的投票進(jìn)行決策分析。樹(shù)上每個(gè)節(jié)點(diǎn)代表一個(gè)輸入變量(x)與一個(gè)基于該變量的分離點(diǎn)(假定這個(gè)變量是數(shù)字)。葉節(jié)點(diǎn)包含了用于預(yù)測(cè)的輸出變量(y)。預(yù)測(cè)是通過(guò)遍歷樹(shù)的分離點(diǎn)開(kāi)始,直到抵達(dá)每一個(gè)葉節(jié)點(diǎn),并輸出該葉節(jié)點(diǎn)的分類(lèi)值。

      決策樹(shù)算法學(xué)習(xí)起來(lái)很快,預(yù)測(cè)速度也很快。決策樹(shù)對(duì)于各種各樣的問(wèn)題都能做出準(zhǔn)確的預(yù)測(cè),并且無(wú)需對(duì)數(shù)據(jù)做任何特殊的預(yù)處理。

      2 算法原理

      它的應(yīng)用原理是根據(jù)決策樹(shù)的算法,然后通過(guò)擬合算法,將分散的決策樹(shù)進(jìn)行整合,每棵樹(shù)都是建立在獨(dú)立抽取樣本上的,隨機(jī)森林中樹(shù)的類(lèi)別分布具有共同性,類(lèi)別的區(qū)分來(lái)自于單體數(shù)的類(lèi)別區(qū)分能力和與之配合的相關(guān)性。特征區(qū)分用到的算法基礎(chǔ)為隨機(jī)的節(jié)點(diǎn)自由組合。單一樹(shù)的個(gè)體能力很小,與隨機(jī)不規(guī)則的大量樹(shù)體進(jìn)行融合后,能夠通過(guò)分類(lèi)結(jié)果進(jìn)行統(tǒng)計(jì)后的運(yùn)算。隨機(jī)森林的機(jī)器模型運(yùn)用決策樹(shù)的隨機(jī)組合來(lái)達(dá)到算法目的。決策樹(shù)是一個(gè)分層選擇的類(lèi)型結(jié)構(gòu)。每個(gè)點(diǎn)面節(jié)點(diǎn)所描述的特征與點(diǎn)邊所描述的特征有不同差異。每個(gè)點(diǎn)邊分類(lèi)特征代表其在這個(gè)區(qū)域坐標(biāo)上的貢獻(xiàn)值,每個(gè)點(diǎn)邊為一個(gè)根目錄。隨機(jī)森林算法的運(yùn)用和決策的流程從根目錄開(kāi)始進(jìn)行運(yùn)算,匹配每個(gè)子目錄的運(yùn)算值,直到每一個(gè)子目錄的點(diǎn)值都能夠作為最后的變量輸出結(jié)果。

      3 隨機(jī)森林模型的優(yōu)缺點(diǎn)

      隨機(jī)森林的優(yōu)點(diǎn)有:(1)隨機(jī)森林模型的學(xué)習(xí)速度是非常迅速的。(2)隨機(jī)森林模型在產(chǎn)生一定誤差時(shí),可以繼續(xù)根據(jù)內(nèi)部調(diào)整完成不偏差的結(jié)果輸出。(3)可以檢測(cè)variable interactions。(4)在分類(lèi)類(lèi)別時(shí),能夠出色的完成歸類(lèi)選擇。(5)運(yùn)用模型中的決策樹(shù)結(jié)構(gòu)能夠計(jì)算親進(jìn)度,對(duì)圖像識(shí)別,視角識(shí)別,殘差分析有關(guān)鍵作用。(6)隨機(jī)森林模型能夠運(yùn)用在檢測(cè)普通基準(zhǔn)誤差模型上。

      缺點(diǎn):(1)隨機(jī)森林模型被證明在某些誤差較大,識(shí)別不明顯的分類(lèi)或者問(wèn)題上會(huì)產(chǎn)生過(guò)擬行為。(2)對(duì)于分類(lèi)類(lèi)別超出閾值,而且明細(xì)劃分并不明顯的數(shù)據(jù),隨機(jī)森林模型并不能夠快速分辨出值的對(duì)錯(cuò)。

      隨機(jī)森林算法擁有廣泛的應(yīng)用前景,從市場(chǎng)營(yíng)銷(xiāo)到醫(yī)療保健保險(xiǎn),既可以用來(lái)做市場(chǎng)營(yíng)銷(xiāo)模擬的建模,統(tǒng)計(jì)客戶來(lái)源,保留和流失,也可用來(lái)預(yù)測(cè)疾病的風(fēng)險(xiǎn)和病患者的易感性。那么隨之而來(lái)有幾個(gè)問(wèn)題是需要明確的:

      (1)為什么要隨機(jī)抽樣訓(xùn)練集?如果不進(jìn)行隨機(jī)抽樣,每棵樹(shù)的訓(xùn)練集都一樣,那么最終訓(xùn)練出的樹(shù)分類(lèi)結(jié)果也是完全一樣的,這樣的話完全沒(méi)有bagging的必要;

      (2)為什么要有放回地抽樣?按照目前的大部分?jǐn)?shù)據(jù)顯示:舉個(gè)例子,如果不是這種形式的放回抽樣,根據(jù)我們過(guò)往的實(shí)踐經(jīng)驗(yàn),這樣是毫無(wú)意義的,這樣每棵樹(shù)都是“有偏的”,都是絕對(duì)“片面的”,也就是說(shuō)每棵樹(shù)訓(xùn)練出來(lái)都是有很大的差異的;而隨機(jī)森林最后分類(lèi)取決于多棵樹(shù)(弱分類(lèi)器)的投票表決,這種表決應(yīng)該是“求同”,因此使用完全不同的訓(xùn)練集來(lái)訓(xùn)練每棵樹(shù)對(duì)最終分類(lèi)結(jié)果是沒(méi)有幫助的,這樣無(wú)異于是“盲人摸象”。

      如果每個(gè)樣本的特征維度為M,指定一個(gè)常數(shù)m<

      每棵樹(shù)都有自己的生長(zhǎng)周期,并且沒(méi)有能夠進(jìn)行分割的樹(shù)枝一開(kāi)始我們提到的隨機(jī)森林中的“隨機(jī)”就是指的這里的兩個(gè)隨機(jī)性。兩個(gè)隨機(jī)性的引入對(duì)隨機(jī)森林的分類(lèi)性能至關(guān)重要。由于它們的引入,使得隨機(jī)森林不容易陷入過(guò)擬合,并且具有很好的抗噪能力(比如:對(duì)缺省值不敏感)。

      4 隨機(jī)森林在電力稽查中的應(yīng)用

      4.1 隨機(jī)森林模型電力特征分析

      (1)群組1(聚類(lèi)號(hào)為0)特征分析

      由圖1可以看出,對(duì)于群組1,平均異常數(shù)主要集中在0~40左右,反映該類(lèi)異常出現(xiàn)次數(shù)較小;平均異常斜率集中在-5~-1,反映異常數(shù)逐漸下降,管理水平在提升;異常頻度集中在0.01%~0.03%之間,反映該類(lèi)異常出現(xiàn)幾率很小。

      該類(lèi)異常在不同用電類(lèi)別的分布情況如下:

      由圖1,說(shuō)明該類(lèi)異常主要集中在商業(yè),約占65%。從圖1可以看出,主要異常點(diǎn)集中在商業(yè),說(shuō)明商業(yè)用電這部分異常內(nèi)容具有非正常性,并且明顯具有不正常的異常特征基因。

      (2)群組2(聚類(lèi)號(hào)為1)特征分析

      三個(gè)特征變量的頻率密度圖如下:

      由圖2可以看出,對(duì)于群組2,平均異常數(shù)主要集中在20~60左右,反映該類(lèi)異常出現(xiàn)次數(shù)較高;平均異常斜率集中在2~6,反映異常數(shù)逐漸上升,管理不力;異常頻度集中在6%~12%之間,反映該類(lèi)異常出現(xiàn)幾率很高。

      (3)群組2(聚類(lèi)號(hào)為1)特征分析

      (4)群組3(聚類(lèi)號(hào)為2)特征分析

      (5)群組4(聚類(lèi)號(hào)為3)特征分析

      (6)群組5(聚類(lèi)號(hào)為4)特征分析

      4.2 隨機(jī)森林模型專(zhuān)家系統(tǒng)

      專(zhuān)家系統(tǒng)是一個(gè)智能計(jì)算機(jī)程序系統(tǒng),通過(guò)大量獲取數(shù)據(jù)端采集數(shù)據(jù),然后根據(jù)機(jī)器學(xué)習(xí)模型,不斷升級(jí)優(yōu)化系統(tǒng)所具有的模型,通過(guò)學(xué)習(xí)模型累計(jì)不同端的算法操作以及人工經(jīng)驗(yàn),不斷更新模型,達(dá)到擬人化的操作知識(shí)水平。 所以這方面的應(yīng)用就可以利用到隨機(jī)森林決策樹(shù)方面的決策能力,把有需求的知識(shí)進(jìn)行決策樹(shù)分辨,分類(lèi)成不同的根目錄,它應(yīng)用人工智能技術(shù)和計(jì)算機(jī)技術(shù),根據(jù)某領(lǐng)域一個(gè)或多個(gè)專(zhuān)家提供的知識(shí)和經(jīng)驗(yàn),進(jìn)行推理和判斷,模擬人類(lèi)專(zhuān)家的決策過(guò)程,以便解決那些需要人類(lèi)專(zhuān)家處理的復(fù)雜問(wèn)題,簡(jiǎn)而言之,專(zhuān)家系統(tǒng)是一種模擬人類(lèi)專(zhuān)家解決領(lǐng)域問(wèn)題的計(jì)算機(jī)程序系統(tǒng)。

      4.3 隨機(jī)森林模型與知識(shí)圖譜結(jié)合的運(yùn)用

      運(yùn)用隨機(jī)森林模型具有的決策樹(shù)功能,與知識(shí)圖譜相結(jié)合,產(chǎn)生新的智能稽查模式,在現(xiàn)有稽查創(chuàng)新的探索基礎(chǔ)上進(jìn)行深化應(yīng)用,將稽查線索采用知識(shí)圖譜的技術(shù)構(gòu)建稽查知識(shí)圖譜庫(kù),通過(guò)圖譜方式對(duì)稽查樣本的多發(fā)問(wèn)題進(jìn)行全息展現(xiàn),深度擴(kuò)線分組,進(jìn)行對(duì)多發(fā)問(wèn)題的根源分析,從而建立起稽查專(zhuān)業(yè)的第一個(gè)專(zhuān)業(yè)知識(shí)圖譜,實(shí)現(xiàn)智能精準(zhǔn)稽查。并且運(yùn)用不斷優(yōu)化的模型系統(tǒng),全息展示知識(shí)圖譜的關(guān)聯(lián)構(gòu)造。

      在現(xiàn)有稽查創(chuàng)新的探索基礎(chǔ)上進(jìn)行深化應(yīng)用,將稽查線索運(yùn)用隨機(jī)森林模型進(jìn)行識(shí)別分類(lèi),然后通過(guò)決策樹(shù)結(jié)構(gòu)進(jìn)行深層次的取樣識(shí)別驗(yàn)證,采用知識(shí)圖譜的技術(shù)構(gòu)建稽查知識(shí)圖譜庫(kù),通過(guò)圖譜方式對(duì)稽查樣本的多發(fā)問(wèn)題進(jìn)行全息展現(xiàn),深度擴(kuò)線分組,進(jìn)行對(duì)多發(fā)問(wèn)題的根源分析,從而建立起稽查專(zhuān)業(yè)的第一個(gè)專(zhuān)業(yè)知識(shí)圖譜,實(shí)現(xiàn)智能精準(zhǔn)稽查。

      5 結(jié)束語(yǔ)

      隨機(jī)森林作為一種快捷有效的機(jī)器學(xué)習(xí)方法,在回歸和決策方面起到了強(qiáng)大的作用。其對(duì)噪聲不敏感,具有較好的容噪能力的特點(diǎn)能夠在目前機(jī)器學(xué)習(xí)的數(shù)據(jù)識(shí)別中有很好的引用效果,但它的缺點(diǎn)同樣明顯,需要我們?cè)诓粩嗟膶?shí)踐中進(jìn)行技術(shù)改進(jìn)以及難題功課,隨機(jī)森林的機(jī)器學(xué)習(xí)方法會(huì)在未來(lái)人工智能領(lǐng)域創(chuàng)造其用處。

      參考文獻(xiàn):

      [1]孫明喆,畢瑤家,孫馳.改進(jìn)隨機(jī)森林算法綜述[J].現(xiàn)代信息科技,2019,3(20):28-30.

      [2]吳青衡.基于大數(shù)據(jù)時(shí)代視角下人工智能實(shí)踐[J].電子技術(shù)與軟件工程,2019(01):243.

      [3]何曉露.大數(shù)據(jù)時(shí)代的人工智能范式探討[J].通訊世界,2018(10):14.

      猜你喜歡
      隨機(jī)森林訓(xùn)練樣本決策樹(shù)
      基于英語(yǔ)翻譯應(yīng)用視角下的計(jì)算機(jī)智能校對(duì)系統(tǒng)開(kāi)發(fā)研究
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      隨機(jī)森林在棉蚜蟲(chóng)害等級(jí)預(yù)測(cè)中的應(yīng)用
      基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類(lèi)算法
      軟件(2016年7期)2017-02-07 15:54:01
      拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
      寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
      基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
      融合原始樣本和虛擬樣本的人臉識(shí)別算法
      基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
      皮山县| 福建省| 罗山县| 比如县| 遂昌县| 横山县| 嵩明县| 邮箱| 东乌珠穆沁旗| 乌海市| 包头市| 米泉市| 绥中县| 容城县| 镇雄县| 凌源市| 龙州县| 满城县| 木兰县| 紫阳县| 河曲县| 阿勒泰市| 察隅县| 河源市| 扶沟县| 安仁县| 抚远县| 金门县| 桃园市| 长泰县| 固始县| 宁安市| 务川| 丰原市| 夏邑县| 任丘市| 孟津县| 新民市| 镇巴县| 大丰市| 黎川县|