• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向高維數(shù)據(jù)的隨機(jī)森林算法優(yōu)化探討

      2016-03-24 20:41:50羅超
      2016年4期
      關(guān)鍵詞:優(yōu)化

      作者簡介:羅超,2003年畢業(yè)于湘潭大學(xué)測控技術(shù)與儀器專業(yè);2013年至2016年,就讀于人民大學(xué)統(tǒng)計(jì)學(xué)院;現(xiàn)任職于霍尼韋爾航空航天部門,專注于航空航天和空中交通管理大數(shù)據(jù)方向的研究和挖掘。

      摘要:面向高位數(shù)據(jù)的隨機(jī)森林算法屬于數(shù)據(jù)挖掘領(lǐng)域中的一部分內(nèi)容,做好隨機(jī)森林算法的優(yōu)化工作,對(duì)于高維數(shù)據(jù)的分析及處理效率的提高有著極大的促進(jìn)作用。文章主要論述的便是有關(guān)這方面的內(nèi)容。首先,文章針對(duì)隨機(jī)森林算法的定義及其泛化誤差進(jìn)行了簡要的概述,繼而在此基礎(chǔ)上分析了高維數(shù)據(jù)的可視化及基于隨機(jī)森林的有監(jiān)督降維技術(shù),最后,文章對(duì)整個(gè)實(shí)驗(yàn)的結(jié)果進(jìn)行了分析,得出了最終優(yōu)化結(jié)論,希望能夠?yàn)閿?shù)據(jù)挖掘領(lǐng)域提供具有參考價(jià)值的意見,同時(shí)也為面向高維數(shù)據(jù)的隨機(jī)森林算法優(yōu)化奠定堅(jiān)實(shí)的基礎(chǔ)。

      關(guān)鍵詞:高維數(shù)據(jù);隨機(jī)森林算法;優(yōu)化

      一、引言

      互聯(lián)網(wǎng)技術(shù)的出現(xiàn)及發(fā)展使得計(jì)算機(jī)逐漸進(jìn)入了千家萬戶,并成為了各個(gè)領(lǐng)域處理數(shù)據(jù)的一個(gè)主要手段,目前,隨著社會(huì)的不斷進(jìn)步,高維數(shù)據(jù)的增長速度也開始越來越快,海量的高維數(shù)據(jù)為其分析與處理過程帶來了困難。就目前的情況看,我國在對(duì)高維小樣本數(shù)據(jù)進(jìn)行挖掘時(shí)還存在一定的問題,而將隨機(jī)森林算法應(yīng)用到高維數(shù)據(jù)的處理方面對(duì)其準(zhǔn)確性以及分析效率的提高都具有重要作用,因此,相關(guān)領(lǐng)域必須認(rèn)識(shí)到這一點(diǎn),要做好其利用與優(yōu)化工作,這樣才能最大程度的保證我國數(shù)據(jù)挖掘技術(shù)的進(jìn)一步提高。

      二、隨機(jī)森林算法

      想要做好面向高維數(shù)據(jù)的隨機(jī)森林算法優(yōu)化工作,首先就必須要對(duì)隨機(jī)森林算法達(dá)到一定程度的了解,這是優(yōu)化工作的基礎(chǔ),同時(shí)也是工作人員必須具備的基礎(chǔ)性知識(shí)。

      (一)隨機(jī)森林算法定義

      總的來說,隨機(jī)森林是一個(gè)樹形分類器的集合,其中元分類器是使用CART算法來構(gòu)建的未剪枝的分類回歸樹,在樹形分類器的集合中,分別存在代表輸入向量的部分以及代表獨(dú)立同分布的隨機(jī)向量的部分,一般情況下,想要得出隨機(jī)森林算法的結(jié)果,主要應(yīng)通過投票法來實(shí)現(xiàn)。

      隨機(jī)森林這一算法的核心特點(diǎn)體現(xiàn)在其隨機(jī)性,主要表現(xiàn)為以下兩方面:首先,在選取訓(xùn)練樣本集時(shí),隨機(jī)森林算法要求必須用Bagging算法來實(shí)現(xiàn),且必須要隨機(jī)對(duì)樣本進(jìn)行選擇,這是這一算法隨機(jī)性的第一點(diǎn)體現(xiàn)。其次,在對(duì)隨機(jī)森林算法進(jìn)行應(yīng)用時(shí),需要選取分裂屬性集,而這一算法隨機(jī)性的第二點(diǎn)體現(xiàn)便在于對(duì)分裂屬性集的選取方面。例如:假設(shè)樣本一共存在X個(gè)屬性,可以指定其中一個(gè)屬性數(shù)Y小于等于X,這樣一來,可以通過全部樣本X中隨機(jī)抽取Y個(gè)屬性,將其作為分裂屬性集,而分裂方式則可以有多種選擇,通常情況下,為提高分裂效率,節(jié)省分裂時(shí)間,相關(guān)人員往往會(huì)選擇最容易分裂的方式進(jìn)行分裂。

      (二)隨機(jī)森林的泛化誤差

      作為隨機(jī)森林算法中的一項(xiàng)重要內(nèi)容,對(duì)隨機(jī)森林泛化誤差進(jìn)行了解對(duì)于了解以及應(yīng)用整個(gè)隨機(jī)森林算法具有重要作用。

      對(duì)此,可以對(duì)學(xué)習(xí)器的輸入向量以及輸出標(biāo)記進(jìn)行假設(shè),前者可以假設(shè)為X,后者可以假設(shè)為Y,除此之外,還需要對(duì)角色樹節(jié)點(diǎn)特征的隨機(jī)向量進(jìn)行表示,通過對(duì)各向量的整合,可以得出隨機(jī)向量的間隔函數(shù),如下所示:

      mg(X,Y)=Pθ(h(X,Θ)=j)

      在函數(shù)中,等號(hào)前邊的mg(X,Y)通常用來表示樣本數(shù)據(jù)被分對(duì)與分措的概率之差,因此,對(duì)隨機(jī)森林泛化性能的確定便可以通過分類器的分類效果來確定,而分類器的分類效果則可以通過間隔函數(shù)看出,通常情況下,三者成正比。

      分類器集合的泛化誤差如下所示:

      PE*=PX,Y(mg(X,Y)<0)

      隨機(jī)森林分類強(qiáng)度如下所示:

      S=EX,Y(mg(X,Y))

      隨機(jī)森林的泛化誤差的估計(jì)結(jié)果如下所示:

      PE*≤P〖TX-〗(1-S2)/S2

      根據(jù)對(duì)隨機(jī)森林泛化誤差估計(jì)結(jié)果的分析,可以發(fā)現(xiàn),隨著隨機(jī)森林中分類樹數(shù)目的增長,這一算法不會(huì)導(dǎo)致過擬合。

      三、基于隨機(jī)森林的可視化

      (一)高維數(shù)據(jù)可視化

      人們?cè)趯?duì)世界已經(jīng)事物的了解過程中,往往首先利用的感覺器官便為眼睛,高維數(shù)據(jù)的可視化便利用了人類的這一特征。目前,面對(duì)海量的高維數(shù)據(jù),其數(shù)據(jù)挖掘過程十分困難,高維數(shù)據(jù)的可視化可以將數(shù)據(jù)以直觀的圖像形式呈現(xiàn)給工作人員,這對(duì)于其了解數(shù)據(jù)的特征及分布情況具有重要意義,因此對(duì)于數(shù)據(jù)挖掘的結(jié)果也便能夠很好的理解。高維數(shù)據(jù)的可視化充分利用了人腦功能,相對(duì)于以往傳統(tǒng)的分析方法講得到了很大程度的進(jìn)步。

      在數(shù)據(jù)挖掘領(lǐng)域,應(yīng)用效果較好的高維數(shù)據(jù)可視化方法包括很多種,其中平行坐標(biāo)法便屬于其中一種,所謂的平行坐標(biāo)法主要指的是通過對(duì)多為空間的各屬性對(duì)應(yīng)映射到二位空間中等距離的多個(gè)平行坐標(biāo)軸上的方法,去使每個(gè)樣本都能夠用多個(gè)坐標(biāo)軸上點(diǎn)之間的連接線段連接來表示??偟膩碚f,平行坐標(biāo)法具有使用簡單、容易理解的特點(diǎn),因此得到了數(shù)據(jù)挖掘領(lǐng)域足夠的重視。

      臉譜圖也是高維數(shù)據(jù)可視化中的一種方法,這一方法是通過事先設(shè)置好的人臉去對(duì)多維信息進(jìn)行表示的一種方法,其中,每一個(gè)設(shè)置好的人臉中,其器官都是存在差別的,根據(jù)對(duì)不同人臉器官大小以及形狀方面差別的分析,便可以得出多維信息不同的屬性。臉譜圖這一方法充分利用了人眼睛這一器官的特性,由于眼睛對(duì)于人臉種種特征的分析及處理具有相當(dāng)精確的特點(diǎn),因此,利用臉譜圖的方法對(duì)多維數(shù)據(jù)進(jìn)行分析也會(huì)較其他方法更為精確,同時(shí),可視化的特點(diǎn)也使其分析效率得到了極大程度的提高。

      可視化的方法對(duì)于多維數(shù)據(jù)屬性等方面的分析具有巨大價(jià)值,但一旦數(shù)據(jù)達(dá)到了更高的維度,其分析過程便會(huì)相應(yīng)變得困難,此時(shí),傳統(tǒng)的可視化方法明顯已經(jīng)無法滿足具體的分析需要,將PCA與平行坐標(biāo)的數(shù)據(jù)可視化結(jié)合起來進(jìn)行應(yīng)用對(duì)于解決這一方面的困難具有重要價(jià)值。PCA的應(yīng)用可以將高維數(shù)據(jù)降維,這樣一來,可視化方法的應(yīng)用便能夠很好的發(fā)揮其效果。

      (二)基于隨機(jī)森林的有監(jiān)督降維技術(shù)

      從本質(zhì)上講,隨機(jī)森林算法屬于一種分類器算法,這一算法作用的實(shí)現(xiàn)是在分類與回歸樹兩者結(jié)合的基礎(chǔ)上完成的,總的來說,隨機(jī)森林是采用Bagging這一方法去對(duì)分類樹進(jìn)行創(chuàng)建的,并利用隨機(jī)子空間方法對(duì)上述分類樹進(jìn)行處理。所謂的隨機(jī)子空間方法主要指的是通過對(duì)特征的隨機(jī)選擇來將其作為每個(gè)節(jié)點(diǎn)處的候選特征個(gè)數(shù)的一種方法,通過這一方法的定義可以看出,其主要特征是具有隨機(jī)性,這一性質(zhì)是造成其分類樹之間差異度巨大的一個(gè)主要原因,因此在對(duì)數(shù)據(jù)進(jìn)行分類的過程中會(huì)較容易。巨大的差異度使得這一方法別越來越多的應(yīng)用在了實(shí)踐過程中,同時(shí)其應(yīng)用均取得了良好的效果。

      四、實(shí)驗(yàn)和結(jié)果分析

      實(shí)驗(yàn)過程對(duì)于分析面向高維數(shù)據(jù)的隨機(jī)

      森林算法優(yōu)化的實(shí)現(xiàn)具有重要作用。實(shí)驗(yàn)過程首先需要對(duì)數(shù)據(jù)及實(shí)驗(yàn)進(jìn)行設(shè)計(jì),繼而可以通過對(duì)圖像的繪制對(duì)隨機(jī)森林可視化結(jié)果進(jìn)行分析,最后將其與無監(jiān)督降維可視化進(jìn)行對(duì)比,分析出哪一種更適應(yīng)可視化過程的完成。

      (一)數(shù)據(jù)和實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)所采用的樣本集如下:

      通過樣本集列表可以看出,本次實(shí)驗(yàn)主要采用了五個(gè)高維數(shù)據(jù)集,分別是Prostate Tumor、Leukemia、SRBCT、LungCancer以及Madelon五種、前四個(gè)高維數(shù)據(jù)集的來源為基因數(shù)據(jù)庫網(wǎng)站,而后者的主要來源則是UCI數(shù)據(jù)庫。

      本次試驗(yàn)是在R語言的基礎(chǔ)上完成的,實(shí)驗(yàn)對(duì)象主要為帶類標(biāo)的數(shù)據(jù)集,數(shù)據(jù)集中數(shù)據(jù)的分類情況較為清晰,同時(shí)也遵循可視化方法應(yīng)用的原理,因此通過本次實(shí)驗(yàn)以及對(duì)實(shí)驗(yàn)結(jié)果的分析,是有條件得出可視化的應(yīng)用水平及效果的,同時(shí)也能夠得出面向高維數(shù)據(jù)的隨機(jī)森林算法優(yōu)化的方法。

      (二)基于隨機(jī)森林的可視化結(jié)果與分析

      對(duì)降維前后數(shù)據(jù)可視化結(jié)構(gòu)的分析是基于隨機(jī)森林的可視化結(jié)構(gòu)分析的基礎(chǔ)??偟膩碚f,未經(jīng)降維的原樣本集具有非線性復(fù)雜度,因此,必須要對(duì)未經(jīng)降維的數(shù)據(jù)進(jìn)行散點(diǎn)圖矩陣可視化。在上述過程完成之后,相關(guān)人員需要做的便是利用RF對(duì)源數(shù)據(jù)進(jìn)行進(jìn)行有監(jiān)督的降維處理。降維處理的過程需要通過對(duì)圖像的繪制來完成,通過對(duì)繪制過后圖像的分析,各類數(shù)據(jù)能夠被有效分開,這對(duì)于可視化過程的順利實(shí)現(xiàn)十分有利。

      上述降維過程主要針對(duì)前四個(gè)數(shù)據(jù)集,而對(duì)于第五個(gè)數(shù)據(jù)集來說,由于其具有可分性差的特點(diǎn),因此也就對(duì)降維過程提出了很大的挑戰(zhàn),大量的實(shí)驗(yàn)以及實(shí)踐經(jīng)驗(yàn)表明,基于RF默認(rèn)參數(shù)的降維方法對(duì)于這一數(shù)據(jù)集可視化的實(shí)現(xiàn)并不適用,因此,有必要對(duì)RF參數(shù)進(jìn)行調(diào)整,使其可視化過程能夠得到最大程度的保證。對(duì)RF參數(shù)進(jìn)行調(diào)整以計(jì)算出最適合Madelon數(shù)據(jù)集的可視化的過程同樣需要通過對(duì)圖像的繪制來完成,通過各個(gè)參數(shù)下所繪制的圖像的對(duì)比,工作人員可以很容易看出哪一參數(shù)對(duì)于其可視化的完成比較有利。

      (三)與無監(jiān)督降維可視化結(jié)果對(duì)比與分析

      作為高維數(shù)據(jù)可視化中的一種降維方法,RF不僅可以實(shí)現(xiàn)有監(jiān)督降維,同時(shí)也適用于無監(jiān)督降維,所謂的無監(jiān)督降維主要指的是通過無監(jiān)督學(xué)習(xí)后得出的樣本相似度度量。相對(duì)于有監(jiān)督降維來說,無監(jiān)督降維的主要特點(diǎn)是沒有真實(shí)數(shù)據(jù)的參與,通過繪制完成的圖像可以發(fā)現(xiàn),相對(duì)于有監(jiān)督降維可視化技術(shù)來說,無監(jiān)督降維可視化技術(shù)在有效性方面還有所欠缺。因此,在對(duì)RF降維技術(shù)進(jìn)行利用的過程中,要盡可能的利用有監(jiān)督降維可視化技術(shù)來完成,如果其中存在諸如Madelon這種數(shù)據(jù)集,則可以通過對(duì)RF參數(shù)進(jìn)行修改的方式來實(shí)現(xiàn)降維,從而實(shí)現(xiàn)對(duì)有監(jiān)督降維可視化技術(shù)的應(yīng)用。

      五、結(jié)束語

      通過上述文章可以看出,在高維數(shù)據(jù)不斷出現(xiàn)并發(fā)展的今天,對(duì)數(shù)據(jù)進(jìn)行分析已近成為了數(shù)據(jù)挖掘領(lǐng)域的一大難題。將隨機(jī)森林算法應(yīng)用到高維數(shù)據(jù)的分析中,對(duì)于分析結(jié)果準(zhǔn)確性及有效性的保證十分重要。高維數(shù)據(jù)的可視化對(duì)于其分析效率的提高具有重要作用,可視化過程可以通過RF降維來實(shí)現(xiàn),而RF降維又包括有監(jiān)督降維由無監(jiān)督降維兩種,實(shí)驗(yàn)結(jié)果證明,前者相對(duì)于后者來說具有更高的利用價(jià)值。在利用隨機(jī)森林算法對(duì)高維數(shù)據(jù)進(jìn)行分析與運(yùn)算的過程中需要嚴(yán)格保證其隨機(jī)性,這對(duì)于計(jì)算過程十分重要。(作者單位:霍尼韋爾航空航天部門)

      參考文獻(xiàn):

      [1]姚登舉;楊靜;詹曉娟.基于隨機(jī)森林的特征選擇算法[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),2014(01).

      [2]吳瀟雨;和敬涵;張沛;胡駿.基于灰色投影改進(jìn)隨機(jī)森林算法的電力系統(tǒng)短期負(fù)荷預(yù)測[J].電力系統(tǒng)自動(dòng)化,2015(12).

      [3]黃哲學(xué);曹付元;李俊杰;陳小軍.面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)關(guān)鍵技術(shù)研究[J].網(wǎng)絡(luò)新媒體技術(shù),2012(06).

      [4]尹華;胡玉平.基于隨機(jī)森林的不平衡特征選擇算法[J].中山大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(05).

      [5]吳瓊;李運(yùn)田;鄭獻(xiàn)衛(wèi).面向非平衡訓(xùn)練集分類的隨機(jī)森林算法優(yōu)化[J].工業(yè)控制計(jì)算機(jī),2013(07).

      [6]張雷;王琳琳;張旭東;劉世榮;孫鵬森;王同立.云南松分布模擬為例[J].生態(tài)學(xué)報(bào),2014(03).

      猜你喜歡
      優(yōu)化
      超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
      PEMFC流道的多目標(biāo)優(yōu)化
      能源工程(2022年1期)2022-03-29 01:06:28
      民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
      關(guān)于優(yōu)化消防安全告知承諾的一些思考
      一道優(yōu)化題的幾何解法
      由“形”啟“數(shù)”優(yōu)化運(yùn)算——以2021年解析幾何高考題為例
      圍繞“地、業(yè)、人”優(yōu)化產(chǎn)業(yè)扶貧
      事業(yè)單位中固定資產(chǎn)會(huì)計(jì)處理的優(yōu)化
      4K HDR性能大幅度優(yōu)化 JVC DLA-X8 18 BC
      幾種常見的負(fù)載均衡算法的優(yōu)化
      電子制作(2017年20期)2017-04-26 06:57:45
      伊宁市| 包头市| 礼泉县| 梨树县| 于田县| 定兴县| 阜南县| 宜黄县| 阿坝县| 楚雄市| 屯门区| 灵石县| 阿城市| 隆安县| 五家渠市| 山西省| 玉屏| 璧山县| 渑池县| 瓮安县| 洛南县| 泾川县| 南木林县| 囊谦县| 清镇市| 册亨县| 建始县| 绵竹市| 栾川县| 聊城市| 洛阳市| 乐陵市| 云霄县| 巴里| 隆回县| 普兰县| 高青县| 龙游县| 靖远县| 寿宁县| 普安县|