• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向高新企業(yè)審計數(shù)據(jù)的特征選擇算法研究

      2020-09-08 11:26:30賴文輝朱定局鄭泳智
      關(guān)鍵詞:互信息馬爾可夫特征選擇

      賴文輝,朱定局,賀 超,黃 立,鄭泳智,李 英

      (華南師范大學,廣東廣州 510631)

      0 引言

      傳統(tǒng)的審計活動一般根據(jù)靜態(tài)的數(shù)據(jù)和固定的模式進行,但隨著科技的發(fā)展及審計需求的變化,審計的方式與手段也發(fā)生改變。審計大數(shù)據(jù)系統(tǒng)能同時處理靜態(tài)與動態(tài)的數(shù)據(jù),用戶在獲得實時數(shù)據(jù)后,將數(shù)據(jù)代入審計模型,得出實時審計結(jié)果以及對結(jié)果的診斷。

      動態(tài)數(shù)據(jù)一般以時間序列的形式進行采集和存儲。動態(tài)審計大數(shù)據(jù)(系統(tǒng))的研究,就是對大數(shù)據(jù)建立動態(tài)數(shù)學模型,基于模型對系統(tǒng)進行分析、診斷、控制和優(yōu)化。對于本文所涉及的動態(tài)公司數(shù)據(jù),采用二階段特征選擇算法進行特征篩選與建模分析。

      隨著近年來模式識別和數(shù)據(jù)挖掘等領(lǐng)域中數(shù)據(jù)規(guī)模和特征維數(shù)的快速增加,特征選擇已成為去除數(shù)據(jù)中非相關(guān)和冗余特征的重要手段。在特征選擇中,最好的特征子集是維數(shù)最少且滿足對分類準確性貢獻最大的子集[1]。本文從二階段特征選擇算法展開,基于過濾式(Filter)和包裹式(Wrapper)的特征選擇算法進行設(shè)計建模,論證所提出的特征選擇方法的有效性。

      1 基于最大互信息系數(shù)的第一階段特征選擇算法

      在原特征子集中存在大量的噪聲數(shù)據(jù),對類別的劃分有不良影響,還會降低特征選擇算法的效率。在本文提出的二階段特征選擇算法中,第一階段使用最大互信息系數(shù)對原特征子集進行數(shù)據(jù)預(yù)處理,有利于提高后續(xù)第二階段算法的運算效率和最優(yōu)特征子集的驗證結(jié)果。

      最大互信息系數(shù)(MIC)由Reshef等人[2]提出,用于衡量2個特征之間線性或非線性的關(guān)系,獲知特征之間廣泛的相關(guān)關(guān)系。定義如式(1)所示:

      式(1)中:a、b分別表示在二維空間x、y方向上劃分的網(wǎng)格數(shù);B為一個表示樣本大小的變量,一般設(shè)置為樣本量n的0.6次方效果最好;I(x、y)為x×y的網(wǎng)格內(nèi)部互信息計算,互信息用于衡量兩個隨機變量之間的關(guān)聯(lián)程度。

      本文在特征選擇的第一階段使用最大化互信息系數(shù)計算特征與類別的相關(guān)程度,去除一些不相關(guān)的數(shù)據(jù)。由于MIC值經(jīng)過歸一化處理,取值范圍在[0,1]之間,根據(jù)各個特征和類別的MIC值直接進行排序和比較。

      2 基于近似馬爾可夫毯和隨機森林的第二階段特征選擇算法

      在通過第一階段的特征預(yù)選擇后,在此基礎(chǔ)上進行第二階段的特征選擇,進一步去除不相關(guān)及冗余特征,優(yōu)化所選特征子集的分類效果。本文選用近似馬爾科夫毯和隨機森林作為第二階段的主要算法。

      2.1 基于近似馬爾可夫毯的第二階段特征選擇算法流程

      馬爾可夫毯(Markov Blanket)算法由Koller等[4]提出,在特征選擇過程中去除冗余的特征,馬爾可夫毯的定義為:在隨機變量的全集U中,對于給定的變量X∈U和變量集若有:

      則稱能滿足上述條件的最小變量集MB為X的馬爾可夫毯(Markov Blanket)。

      快速相關(guān)性濾波算法(FCBF)由Yu等[5]提出,主要應(yīng)用對稱不確定性(SU)代替信息增益(IG)作為衡量一個特征是否與分類相關(guān)或者是否冗余。

      本文在FCBF二階段特征選擇算法基礎(chǔ)上,對第二階段使用近似馬爾可夫毯算法中去除冗余值的方法進行改進和優(yōu)化。馬爾可夫毯算法獲得最優(yōu)特征子集屬于非確定性多項式在時間復(fù)雜度內(nèi)規(guī)約到的NP-hard問題,目前一般使用近似馬爾可夫毯(Approximate Markov Blankets)算法查找最相關(guān)的K個冗余特征[6],采用該近似方法進行特征選擇。

      在第一階段通過MIC進行特征預(yù)選擇后,仍存在的問題是在特征數(shù)為λ的候選子集中,還存在弱相關(guān)和冗余的特征沒有處理。對于該問題,F(xiàn)CBF二階段特征選擇算法通過結(jié)合對稱不確定性和近似馬爾可夫毯的二階段特征選擇算法,再進行特征相關(guān)性比較,去除冗余的特征。

      特征冗余性和相關(guān)性的不同之處在于,相關(guān)性衡量特征和類別之間線性或非線性的程度;冗余性衡量特征子集內(nèi)部的關(guān)系,相比于相關(guān)性的計算,冗余性的復(fù)雜性更加高。FCBF算法將特征主要分為4類:無關(guān)特征、弱相關(guān)且冗余特征、弱相關(guān)非冗余特征和強相關(guān)特征。按照FCBF算法的定義,去除冗余特征后的最佳子集為強相關(guān)特征和弱相關(guān)非冗余的特征,主要通過近似馬爾可夫毯方法實現(xiàn)去除冗余特征,獲得最優(yōu)特征子集(見圖1)。

      圖1 FCBF算法的特征分類定義

      在FCBF算法的基礎(chǔ)上,本文提出通過最大互信息系數(shù)的新特征衡量準則,結(jié)合基于近似馬爾可夫毯的優(yōu)化。使用基于最大互信息系數(shù)和近似馬爾科夫毯的兩階段特征選擇方法,在衡量特征相關(guān)性和冗余性的同時,使特征選擇算法的分類效果更加準確和穩(wěn)定。

      綜合兩階段特征選擇算法的弱相關(guān)和冗余性特征去除過程為:在輸入原數(shù)據(jù)集后,通過特征預(yù)選擇階段得到候選特征子集,然后根據(jù)改進的近似馬爾可夫毯方法提高分類準確率,最后輸出最終特征子集(見圖2)。

      圖2 基于MIC和近似馬爾可夫毯的二階段特征選擇算法流程

      2.2 基于隨機森林的第二階段特征選擇算法

      相較于傳統(tǒng)的過濾式特征,封裝式特征選擇算法在特征選擇過程綁定分類器,使用分類準確率作為衡量準則,最終數(shù)據(jù)集可在某些分類器上獲得更好的分類效果。在隨機森林的基礎(chǔ)上,本文使用封裝式的特征選擇算法去除冗余特征,建立一種結(jié)合過濾式和封裝式的二階段特征選擇算法。

      隨機森林是一種基于裝袋算法(Bagging)的集成學習算法,并使用分類回歸樹(CART)作為弱學習器。決策樹算法一般會在節(jié)點處對所有的樣本特征進行選擇,將最優(yōu)的特征作為決策樹的左右子樹進行劃分,這樣在訓練數(shù)據(jù)上獲得的結(jié)果錯誤率較低,但模型的泛化能力較差。隨機森林在決策樹的基礎(chǔ)上,通過在節(jié)點上隨機地選擇一部分樣本特征,然后在這些樣本特征中選擇最優(yōu)的特征去劃分左右子樹,提高模型的泛化能力,最后再組合弱學習器,通過弱學習器的投票得到最終的分類結(jié)果。

      相比于過濾式(Filter)方法,包裹式(Wrapper)方法將特征選擇與分類器綁定在一起,通過學習算法的分類準確率作為特征選擇的評價準則,使算法的特征選擇結(jié)果分類更加準確;但Wrapper方法需要使用算法模型計算,計算時間更長,在面對高維的數(shù)據(jù)時不如Filter方法適用。Filter和Wrapper方法有各自的優(yōu)勢和缺點,通過二階段的方式可以結(jié)合者兩種方法的優(yōu)點。例如,Alexe等人[7]提出利用信息增益、相關(guān)系數(shù)等方法選擇進行預(yù)選擇,篩選掉與類別無關(guān)或相關(guān)性弱的特征,然后再利用分類器對經(jīng)過預(yù)選擇處理的候選特征子集進行冗余性特征的去除;Zhang等人[8]提出使用F檢驗進行無關(guān)特征的去除,然后通過巴氏距離對候選特征子集進行冗余性的衡量,提高了特征的區(qū)分能力。

      2.2.1 第一階段的Filter算法選擇

      通過將基于隨機森林的特征重要度評價準則和基于最大互信息系數(shù)算法所選擇的特征進行分類,分析比較其分類效果,選擇效果提升更明顯的方法作為第一階段的特征選擇算法。分類效果的評估方法為:使用隨機森林作為分類器并結(jié)合10折交叉驗證的方法計算特征分類結(jié)果的準確率。如圖3所示,以公司審計數(shù)據(jù)為例,橫坐標表達的是通過選擇方法保留的10到50個特征數(shù),縱坐標表達通過保留候選特征子集進行分類學習結(jié)果準確率。進行橫向和縱向?qū)Ρ瓤梢钥闯?,基于最大互信息系?shù)的特征選擇方法,在去除無關(guān)或相關(guān)性弱的特征后分類準確率提升明顯,而通過隨機森林重要度進行選擇的特征,準確率變化不大且保持在較低水平。當高維數(shù)據(jù)中存在較多的噪聲特征時,使用基于最大互信息系數(shù)的特征預(yù)選擇方法去除無關(guān)特征,可以提高第二階段Wrapper方法的特征選擇效果。

      圖3 通過MIC和隨機森林重要度特征選擇的分類準確率比較

      2.2.2 第二階段的Wrapper算法設(shè)計

      在通過最大互信息系數(shù)對原數(shù)據(jù)集中無關(guān)和相關(guān)性低的特性進行去除后,需要考慮進一步的特征縮減并提高分類的效果。本文提出在特征選擇第二階段,使用啟發(fā)式搜索策略中的序列后向選擇算法并結(jié)合隨機森林的分類準確率作為評價函數(shù)進行候選子集的篩選,加入10折交叉驗證方法和引入帶權(quán)重的均值計算方法,提高評價函數(shù)的穩(wěn)定性和有效性,解決審計數(shù)據(jù)集中不同標簽的樣本數(shù)不均衡的問題,提高篩選的特征的準確度。

      根據(jù)候選子集為通過最大互信息系數(shù)值進行排序的集合,弱相關(guān)的特征一般會處于集合的后面,冗余的特征排序位置較為接近,從候選子集開始,通過序列后向選擇搜索策略迭代地計算去除當前特征后的局部特征子集分類準確率是否有提高。其中,局部特征子集的分類準確率指的是,通過隨機森林判斷未刪除特征的特征子集的分類準確率ai是否小于刪除特征后特征子集的分類準確率,如果結(jié)果滿足條件ai≤ai-1,則將全局最優(yōu)準確率amax與刪除特征后的候選特征子集的分類準確率進行比較,當滿足的條件時,更新。算法的搜索策略屬于貪心搜索,使特征選擇結(jié)果的分類準確率接近最優(yōu),搜索的停止條件設(shè)定為當?shù)旰蜻x子集中所有的特征后,沒有產(chǎn)生局部分類準確率提高的結(jié)果時,停止循環(huán)。使用這一算法的優(yōu)勢在于,通過隨機森林的分類準確率對每個特征子集的分類性能進行評估和比較,在不降低或提升分類準確率的前提下降低特征子集中的噪聲,去除相關(guān)性較小和冗余的特征,去取得接近分類器準確率最優(yōu)的結(jié)果。

      假設(shè)候選特征子集的特征個數(shù)為λ,樣本數(shù)為n,隨機森林的基學習器數(shù)為k,則第二階段特征選擇算法的時間復(fù)雜度為。

      將第一階段過濾式特征選擇和第二階段封裝式特征選擇算法的弱相關(guān)和冗余特征去除過程進行綜合,在輸入原數(shù)據(jù)集后,通過Filter特征預(yù)選擇階段得到候選特征子集,根據(jù)Wrapper方法提高分類準確率并輸出最終特征子集(見圖4)。

      圖4 基于MIC和隨機森林的二階段特征選擇算法流程

      3 面向高新企業(yè)審計數(shù)據(jù)的分析和驗證

      為了驗證本文提出的二階段特征選擇算法的有效性,本次實驗除了采用廣東省審計廳的高新企業(yè)審計數(shù)據(jù)外,還加入來自美國加州大學歐文分校用于機器學習的數(shù)據(jù)庫(UCI)的Musk數(shù)據(jù)集,在不同的分類器上進行比較最終特征子集的準確率、精確率、召回率和F1-Score值的結(jié)果。本研究中所有數(shù)據(jù)實驗測試均基于2.3 GHz Intel核與16 G內(nèi)存的Windows 10平臺與Python 3.6編譯環(huán)境上進行。

      3.1 實驗設(shè)計

      本次實驗采用的高新企業(yè)審計數(shù)據(jù)集包含有89個特征屬性,樣本數(shù)為2839個,內(nèi)容主要包括企業(yè)的業(yè)務(wù)信息、創(chuàng)新投入、創(chuàng)新產(chǎn)出和財務(wù)信息等;標簽數(shù)據(jù)為審計專家對企業(yè)的打分數(shù)據(jù),主要分為3個類別:較差、一般和優(yōu)秀。本次實驗采用的Musk數(shù)據(jù)集包含有166個特征屬性,樣本數(shù)為6588個,內(nèi)容主要包括分子的形狀或構(gòu)造,共分為2個類別。見表1所示。

      表1 實驗數(shù)據(jù)集 單位:個

      針對本文提出的二階段特征選擇算法有效性評估,使用經(jīng)過第一階段預(yù)處理后的高新企業(yè)審計和Musk實驗數(shù)據(jù)集進行第二階段的算法性能和特征數(shù)目的對比實驗。本次實驗選擇隨機森林算法作為分類器,高新企業(yè)審計數(shù)據(jù)集和Musk數(shù)據(jù)集進行10折交叉驗證,最終的特征子集特征數(shù)比較結(jié)果如表2所示。

      表2 最終特征子集的特征數(shù)目比較 單位:個

      基于隨機森林的第二階段特征選擇算法在高新企業(yè)審計數(shù)據(jù)集和Musk數(shù)據(jù)集上的具體特征選擇過程分別如圖5和圖6所示,分類的準確率和F1-Score在去除相關(guān)性弱和冗余的特征的同時穩(wěn)定上升。其中,根據(jù)預(yù)選擇個數(shù)的公式,經(jīng)過第一階段特征選擇處理后,高新企業(yè)審計數(shù)據(jù)集的特征數(shù)約為46個,Musk數(shù)據(jù)集的特征數(shù)則約為75個。基于隨機森林算法的第二階段特征選擇算法由于不需要通過閾值篩選冗余或者相關(guān)性弱的特征,算法的搜索策略是在不影響隨機森林分類準確率降低的前提下去除弱相關(guān)和冗余的特征,經(jīng)過在第二階段特征選擇后,高新企業(yè)審計數(shù)據(jù)集的最優(yōu)特征數(shù)為14個,Musk數(shù)據(jù)集的最優(yōu)特征數(shù)則為6個。

      圖5 高新企業(yè)審計數(shù)據(jù)集基于RF的第二階段特征選擇過程

      圖6 Musk數(shù)據(jù)集基于RF的第二階段特征選擇過程

      基于MIC和近似馬爾可夫毯的第二階段特征選擇算法在高新企業(yè)審計數(shù)據(jù)集和Musk數(shù)據(jù)集上特征選擇的過程分別如圖7和圖8所示,圖中橫軸表示第二階段的弱相關(guān)冗余性閾值所分別對應(yīng)的特征數(shù),豎軸表示對應(yīng)的分類效果。根據(jù)預(yù)選擇個數(shù)的公式λ=[n/logn],高新企業(yè)審計數(shù)據(jù)集的特征數(shù)約為46個,Musk數(shù)據(jù)的特征數(shù)則約為75個。在高新企業(yè)審計數(shù)據(jù)集中,當閾值θ定為0.3時,分類準確率和F1-Score表現(xiàn)最好,對應(yīng)的特征數(shù)為8個;在Musk數(shù)據(jù)集中,當閾值θ設(shè)定為0.3時,表現(xiàn)最好,對應(yīng)的特征數(shù)為4個。根據(jù)特征選擇算法的計算方法可知,MIC_MB算法在第二階段通過尋找特征的近似馬爾可夫毯,然后計算特征的弱相關(guān)冗余性進行篩選,對于篩選掉的特征占比和子集內(nèi)部冗余程度的大小完全相關(guān)。

      圖7 高新企業(yè)審計數(shù)據(jù)集基于MIC和近似馬爾可夫毯的第二階段特征選擇過程

      圖8 Musk數(shù)據(jù)集基于MIC和近似馬爾可夫毯的第二階段特征選擇過程

      3.2 實驗結(jié)果對比與分析

      在特征選擇領(lǐng)域,多變量過濾式特征選擇算法因為能夠同時考慮到特征的相關(guān)性和冗余性,因此在實際中被廣泛地使用。本次實驗使用經(jīng)典的多變量特征選擇算法進行相互的比較,主要有ReliefF算法、mRMR算法;同時,為了更加有效地分析本文提出的二階段特征選擇算法效果,加入了同類二階段特征選擇的FCBF算法。

      ReliefF算法是基于Relief算法的一種特征權(quán)重算法[9],通過考察衡量特征和類別的相關(guān)性,對不同的特征賦予不同的權(quán)重。對于特征和類別相關(guān)性的衡量,主要是根據(jù)特征在相同類別的近鄰樣本與不同類別的近鄰樣本之間的差異來度量:如果特征在同類樣本之間差異值較小,而在異類樣本之間差異值較大,則說明該特征和類別的相關(guān)性強,應(yīng)該提高該特征的權(quán)重值。不過,由于Relief只能處理二分類的問題,Kononei[10]在Relief算法的基礎(chǔ)上提出了用于處理多分類問題的ReliefF算法。ReliefF算法的貢獻在于,使用回歸算法支持處理多分類數(shù)據(jù)和使用K近鄰法更新權(quán)重。ReliefF算法因其性能高效而無需使用全局搜索或啟發(fā)式搜索策略,在處理高維數(shù)據(jù)上有廣泛的應(yīng)用。假設(shè)為特征數(shù),p為迭代次數(shù),n為樣例數(shù),則該算法的復(fù)雜度為由于沒有特征的預(yù)處理,ReliefF的計算復(fù)雜度在比較的算法中最高。

      mRMR(Max-Relevance and Min-Redundancy)算法是一種實現(xiàn)特征和類別相關(guān)性最大(Max-Relevance)和特征內(nèi)部之間相關(guān)性最?。∕in-Redundancy)的多變量過濾式特征選擇算法。mRMR算法的度量方法使用的是互信息,最大相關(guān)性主要是計算各個特征和類別間互信息的均值,最小冗余性則主要是對特征內(nèi)部之間的互信息進行求和再除去特征個數(shù)的平方,最后通過使用增量搜查策略得到近似最優(yōu)解。具體的mRMR標準計算方法如式(3)所示,其中m為特征的個數(shù),需要總共計算次互信息計算復(fù)雜度為

      本次實驗將基于最大互信息系數(shù)和馬爾可夫毯的二階段特征選擇方法與基于最大互信息系數(shù)和隨機森林的二階段特征選擇方法、ReliefF算法、mRMR算法進行比較,驗證特征選擇算法結(jié)果的分類器選擇決策樹CART、隨機森林(RF)、支持向量機(SVM)和K最近鄰(KNN)。

      對于不同特征選擇算法生成的最終子集,在不同分類器驗證下的評價結(jié)果可進行對比和分析,得出特征選擇算法的實際有效性。為完全對比各個特征選擇算法的有效性,實驗采用4種不同的特征選擇方法進行比較,分類準確率均值、精確率、召回率均值和F1-Score見表3至表6。

      表3 最終特征子集在不同分類器上的準確率均值對比

      表4 最終特征子集在不同分類器上的精確率均值對比

      表5 最終特征子集在不同分類器上的召回率均值對比

      表6 最終特征子集在不同分類器上的F1-Score均值對比

      表3至表6中加粗字體表示該分類器中表現(xiàn)最好的特征選擇算法。由表中分類效果對比信息,可以得出:

      (1)使用決策樹分類器中,本文提出的MIC_RF算法在Musk數(shù)據(jù)集上的分類效果明顯好于其他的特征選擇算法,F(xiàn)CBF算法在高新企業(yè)審計數(shù)據(jù)集上除了分類精確率的其他方面表現(xiàn)均為最好,而MIC_MB在分類精確率上表現(xiàn)次之;

      (2)使用KNN分類器中,MIC_RF算法在高新企業(yè)審計數(shù)據(jù)集上的分類準確率和F1-Score效果最好,其次為MRMR算法在精確率和ReliefF算法在召回率上的表現(xiàn)最好,而MIC_MB算法在Musk數(shù)據(jù)集上表現(xiàn)明顯最好;

      (3)使用SVM分類器中,所有特征選擇算法在高新企業(yè)審計數(shù)據(jù)集中的分類表現(xiàn)無法區(qū)分,而在Musk數(shù)據(jù)集上MIC_MB算法的表現(xiàn)明顯好于其他的特征選擇算法;

      (4)使用RF分類器中,在高新企業(yè)審計數(shù)據(jù)集上MIC_RF算法的分類準確率和F1-Score表現(xiàn)最好,而MIC_MB算法在分類精確率和召回率上表現(xiàn)最好,在Musk數(shù)據(jù)上MIC_RF算法在分類準確率和召回率的表現(xiàn)最優(yōu),而mRMR算法在分類精確率和F1-Score上表現(xiàn)最優(yōu)。

      綜合以上特征選擇算法的分類結(jié)果對比,mRMR算法僅在Musk數(shù)據(jù)集上隨機森林的分類效果較好,而ReliefF算法的表現(xiàn)最差,完全不如其他的特征選擇算法;未使用特征選擇算法處理的原特征集,從整體的分類效果來看,要比其他經(jīng)過特征選擇處理的數(shù)據(jù)集表現(xiàn)都更差。本文提出的MIC_MB和MIC_RF特征選擇算法的有效性,整體好于多變量特征選擇的mRMR和ReliefF算法,即使是和同類的二階段特征選擇FCBF算法相比較,分類性能表現(xiàn)也是好于后者。

      從實驗效果可以看出,本文提出的二階段特征選擇算法可在第一階段有效地篩選掉無關(guān)和弱相關(guān)的特征,減少第二階段特征選擇算法的計算時間;在第二階段能夠去除絕大部分的弱相關(guān)和冗余性特征,提高在分類器上的實驗效果。

      MIC_MB和MIC_RF特征選擇算法的相同之處在于,在分類性能方面都取得了最好的表現(xiàn)。而這兩類算法的最大區(qū)別則是:MIC_MB算法是基于特征選擇算法FCBF,算法的復(fù)雜度要優(yōu)于MIC_RF算法,特別是在特征高維的數(shù)據(jù)集中的表現(xiàn)更為有效;MIC_RF算法的第二階段特征選擇的評價函數(shù)是和分類器一起綁定,最終子集在特定分類器的結(jié)果要好于傳統(tǒng)過濾式特征選擇算法。因此,在面對候選子集特征數(shù)不高、計算的復(fù)雜度不大的情況下,MIC_RF表現(xiàn)會更加有效;相應(yīng)的,對于特征維度較大、更加需要縮減特征數(shù)的情況下,MIC_MB算法的優(yōu)勢更大。

      4 結(jié)論

      通過特征選擇算法中相關(guān)性和冗余性的衡量,本文提出了兩類二階段特征選擇算法。因單變量的特征選擇算法只能度量特征的相關(guān)性而無法考慮到特征的冗余性,本文在第一階段去除無關(guān)和弱相關(guān)性特征的基礎(chǔ)上,提出在第二階段進一步提高候選子集的有效性。相比于傳統(tǒng)的二階段特征選擇算法在第二階段僅考慮最終特征子集滿足強相關(guān)、弱相關(guān)且非冗余的特點,本文提出在最大互信息系數(shù)去除無關(guān)特征的前提上,在第二階段優(yōu)化衡量特征弱相關(guān)和冗余性的方法,進一步對有用的類別特征進行有效選擇。

      本研究的實驗中,為了綜合比較本文提出的二階段特征選擇算法的表現(xiàn),除了使用高新企業(yè)審計數(shù)據(jù)集外,還添加了UCI的Musk數(shù)據(jù)集。從實驗結(jié)果來看,本文提出的算法整體上好于傳統(tǒng)的多變量特征選擇算法,在高新企業(yè)審計數(shù)據(jù)集上取得有效結(jié)果。

      猜你喜歡
      互信息馬爾可夫特征選擇
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      保費隨機且?guī)в屑t利支付的復(fù)合馬爾可夫二項模型
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學習
      聯(lián)合互信息水下目標特征選擇算法
      基于SOP的核電廠操縱員監(jiān)視過程馬爾可夫模型
      應(yīng)用馬爾可夫鏈對品牌手機市場占有率進行預(yù)測
      改進的互信息最小化非線性盲源分離算法
      電測與儀表(2015年9期)2015-04-09 11:59:22
      基于增量式互信息的圖像快速匹配方法
      認知無線網(wǎng)絡(luò)中基于隱馬爾可夫預(yù)測的P-CSMA協(xié)議
      基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
      大渡口区| 南昌市| 上林县| 南开区| 曲沃县| 高雄市| 西峡县| 宁强县| 玉溪市| 黄山市| 博白县| 依安县| 武宁县| 扬中市| 辉县市| 盐城市| 吴旗县| 涿鹿县| 文成县| 农安县| 怀安县| 锡林浩特市| 邹平县| 凌源市| 富裕县| 当涂县| 谷城县| 都昌县| 德安县| 朝阳县| 麻栗坡县| 江津市| 屏东市| 江城| 灌阳县| 舒兰市| 措美县| 彝良县| 林周县| 平阴县| 文水县|