• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      特征選擇穩(wěn)定性方法研究*

      2021-11-21 18:19:02王吉川劉藝
      關(guān)鍵詞:特征選擇子集擾動(dòng)

      王吉川 劉藝

      (國(guó)防科技創(chuàng)新研究院,北京 100071)

      0 引言

      特征選擇是重要且常用的降維方法,然而長(zhǎng)期以來,特征選擇的研究聚焦于提升學(xué)習(xí)算法的預(yù)測(cè)性能,忽視了穩(wěn)定性的重要性。

      特征選擇穩(wěn)定性是指特征選擇方法對(duì)樣本的微小擾動(dòng)具有一定的魯棒性。通過提升特征選擇方法的穩(wěn)定性,能夠提高特征子集的相似性,進(jìn)而增強(qiáng)領(lǐng)域?qū)<业目尚哦?提升發(fā)現(xiàn)相關(guān)特征和領(lǐng)域知識(shí)的概率,有效降低數(shù)據(jù)采集和存儲(chǔ)的復(fù)雜度,同時(shí)一定程度上提升學(xué)習(xí)算法的預(yù)測(cè)能力[1]。

      特征選擇穩(wěn)定性的研究在國(guó)際上已經(jīng)展開了十幾年,形成了較為系統(tǒng)的研究體系,并在諸多領(lǐng)域得到了深入的應(yīng)用,然而國(guó)內(nèi)鮮有這方面的成果。根據(jù)采用的策略不同,特征選擇穩(wěn)定性提升方法可以分為擾動(dòng)法、特征法,其中擾動(dòng)法包括數(shù)據(jù)擾動(dòng)法、函數(shù)擾動(dòng)法和混合法;特征法包括組特征法和特征信息法。本文對(duì)近年來的特征選擇穩(wěn)定性提升方法做深入的總結(jié),闡述每種方法的特點(diǎn)和典型代表,給出未來的研究方向。

      1 擾動(dòng)法研究進(jìn)展

      擾動(dòng)法是基于集成學(xué)習(xí)的思想,融合多個(gè)特征子集構(gòu)成穩(wěn)定特征集合的方法,包括數(shù)據(jù)擾動(dòng)法、函數(shù)擾動(dòng)法和混合法。

      數(shù)據(jù)擾動(dòng)法是對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行劃分或采樣,生成多個(gè)數(shù)據(jù)子集,在數(shù)據(jù)子集上選擇特征,融合多個(gè)特征子集得到結(jié)果。文獻(xiàn)[2]為了提升特征選擇的穩(wěn)定性,每次抽樣訓(xùn)練數(shù)據(jù)的一半,并通過不同超參數(shù)的結(jié)構(gòu)化稀疏性的貝葉斯多類非負(fù)矩陣分解模型進(jìn)行選擇。文獻(xiàn)[3]提出基于重復(fù)交叉驗(yàn)證的集成特征選擇方法,并采用支持向量機(jī)和遞歸特征消除方法評(píng)估對(duì)其進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)結(jié)果表明,數(shù)據(jù)集規(guī)模與交叉折數(shù)的比值越高,重復(fù)交叉驗(yàn)證的特征選擇穩(wěn)定性與分類性能相比于傳統(tǒng)的Bootstrap擾動(dòng)越好,但是如果數(shù)據(jù)集的規(guī)模較小,則效果并不明顯。文獻(xiàn)[4]為了進(jìn)一步發(fā)現(xiàn)微陣列數(shù)據(jù)中基因型和表型的因果關(guān)系,采用Bootstrap選擇規(guī)模為B的訓(xùn)練樣本子集,提取穩(wěn)定的候選基因,增強(qiáng)結(jié)果的穩(wěn)定性和置信度。傳統(tǒng)的數(shù)據(jù)擾動(dòng)法為了模擬數(shù)據(jù)擾動(dòng),只單純地對(duì)數(shù)據(jù)集劃分采樣,忽視了對(duì)數(shù)據(jù)集各條記錄自身的研究。事實(shí)上,數(shù)據(jù)集中各條記錄的概率分布越統(tǒng)一,數(shù)據(jù)方差越小,越容易篩選出穩(wěn)定的特征子集。近年來,在以往抽樣數(shù)據(jù)集形成多個(gè)數(shù)據(jù)子集的基礎(chǔ)上,對(duì)數(shù)據(jù)記錄的分布與特征選擇穩(wěn)定性關(guān)系的研究也越來越深入。文獻(xiàn)[5]引入差異系數(shù)和最近相似樣本和異類樣本平均距離,評(píng)估樣本之間的差異性;然后采用杰卡德系數(shù)更新特征權(quán)重;最后基于鄰域互信息評(píng)估候選特征,在此基礎(chǔ)上通過改進(jìn)的多標(biāo)簽ReliefF算法進(jìn)行特征選擇。本方法很好地平衡了特征選擇穩(wěn)定性和分類性能,但是計(jì)算效率較低,為了提升計(jì)算效率,需要進(jìn)一步研究基于多標(biāo)簽鄰域粗糙集的更有效的搜索策略和不確定性測(cè)度。文獻(xiàn)[6]首先根據(jù)樣本和特征的相關(guān)性的對(duì)樣本進(jìn)行權(quán)重評(píng)估,并將加權(quán)后的樣本作為特征選擇方法的輸入。文獻(xiàn)[7]認(rèn)為特征選擇不穩(wěn)定性本質(zhì)上與數(shù)據(jù)方差有關(guān),提出了一種基于Bagging技術(shù)的集成方法,通過減少數(shù)據(jù)方差來提高醫(yī)學(xué)數(shù)據(jù)集特征選擇的穩(wěn)定性,在每個(gè)數(shù)據(jù)集上,應(yīng)用了五種著名的特征選擇算法來選擇不同數(shù)量的特征。該方法在保持分類精度的同時(shí),顯著提高了選擇的穩(wěn)定性,但是該方法對(duì)選擇子特征的數(shù)量要求較高,一旦子特征數(shù)量較多或較少,都會(huì)影響穩(wěn)定性。文獻(xiàn)[8]提出了基于能量的正則化學(xué)習(xí)(Feature weighting as Regularized Energy-based Learning,FREL)。利用L1或L2正則化方法研究了FREL的穩(wěn)定性,此外,作為增強(qiáng)穩(wěn)定性的一種常用實(shí)現(xiàn)策略,還提出了一種集成FREL。與傳統(tǒng)的數(shù)據(jù)擾動(dòng)發(fā)相比,近年來的改進(jìn)增加了各個(gè)數(shù)據(jù)樣本對(duì)特征選擇穩(wěn)定性影響的研究,更好地利用了數(shù)據(jù)集本身的性質(zhì)。然而,難點(diǎn)在于很多數(shù)據(jù)集的分布較為模糊,以及選擇什么樣的指標(biāo)來衡量樣本對(duì)特征選擇穩(wěn)定性的影響,不同的數(shù)據(jù)集對(duì)應(yīng)著不同的指標(biāo)。因此針對(duì)不同數(shù)據(jù)集選擇不同的指標(biāo)需要進(jìn)一步深入的研究。

      函數(shù)擾動(dòng)法是在同一數(shù)據(jù)集上采用多種方法選擇特征子集,然后得出穩(wěn)定的特征集合。文獻(xiàn)[9]為了提升基于傳感器的人類行為活動(dòng)識(shí)別的準(zhǔn)確率,提出了基于集成的過濾特征選擇方法,通過信息增益、增益率、卡方檢驗(yàn)和ReliefF在訓(xùn)練樣本上選擇特征,并通過權(quán)重聚合四種方法的特征排序。文獻(xiàn)[10]在訓(xùn)練數(shù)據(jù)上隨機(jī)選擇90%的數(shù)據(jù)樣本,然后采用神經(jīng)網(wǎng)絡(luò)、ReliefF、SVM-RFE、F-test以及互信息對(duì)特征進(jìn)行排序,提升算法的穩(wěn)定性。函數(shù)擾動(dòng)法彌補(bǔ)了數(shù)據(jù)擾動(dòng)法的缺點(diǎn),適用于小樣本數(shù)據(jù)集,然而函數(shù)擾動(dòng)法的效果取決于集成時(shí)使用的特征選擇方法。對(duì)于不同的數(shù)據(jù)集而言,由于數(shù)據(jù)分布和特征結(jié)構(gòu)不同,合適的特征選擇方法是不同的,因此難以針對(duì)具體數(shù)據(jù)集選擇最合適的集成方法[11]。函數(shù)擾動(dòng)法通常同時(shí)采用集成單變量和多變量方法,這樣能夠在保證分類性能的情況下提升穩(wěn)定性。然而,這導(dǎo)致了方法的時(shí)間開銷增加,在一定程度上影響了方法的廣泛使用。

      混合法是同時(shí)使用數(shù)據(jù)擾動(dòng)和函數(shù)擾動(dòng)的方法。文獻(xiàn)[12]提出了結(jié)合穩(wěn)定性的集成特征選擇框架,該框架同時(shí)結(jié)合了數(shù)據(jù)擾動(dòng)法和函數(shù)擾動(dòng)法,在Bootstrap生成多個(gè)數(shù)據(jù)子集的基礎(chǔ)上,采用多種方法選擇特征,結(jié)論表明該框架能夠在保持分類性能的同時(shí)提升穩(wěn)定性,此外,還驗(yàn)證了僅用函數(shù)擾動(dòng)法提升能力較弱。使用Bootstrap抽樣生成多個(gè)訓(xùn)練樣本,然后采用10 種不同的方法在訓(xùn)練樣本上進(jìn)行特征選擇,并將特征排序結(jié)果進(jìn)行集成。由于混合法融合了數(shù)據(jù)擾動(dòng)和函數(shù)擾動(dòng)兩種方法,因此它具備了兩種方法的優(yōu)點(diǎn)和缺點(diǎn),這對(duì)研究者提出了更高的要求。研究人員需要同時(shí)設(shè)計(jì)數(shù)據(jù)擾動(dòng)的策略和特征選擇方法。良好設(shè)計(jì)的混合法對(duì)穩(wěn)定性的提升要強(qiáng)于僅采用數(shù)據(jù)擾動(dòng)和函數(shù)擾動(dòng)的方法,而且泛化性能較好。

      2 特征法研究進(jìn)展

      特征法是通過特征本身或特征之間的關(guān)聯(lián)性構(gòu)建穩(wěn)定特征子集的方法。特征法包括組特征法和特征信息法。

      組特征法是通過識(shí)別或轉(zhuǎn)換原始特征,構(gòu)成高度相關(guān)的多組特征(新特征),在特征組中選擇穩(wěn)定的特征構(gòu)建特征子集。提出了一種基于粒子群優(yōu)化和粗糙集的特征選擇和分類方法,該方法首先提出快速規(guī)約算法,根據(jù)特征的依賴度得到盡可能小的規(guī)約特征子集,然后采用不一致處理算法,移除可能導(dǎo)致不一致決策的特征,最后將分類質(zhì)量、特征數(shù)量和近似精度作為粒子群算法的優(yōu)化目標(biāo)求解特征子集。提出一種集成特征組的方法,首先在訓(xùn)練樣本上進(jìn)行隨機(jī)抽樣,生成多組數(shù)據(jù)子樣本,然后通過基于核密度、相關(guān)性和信息增益的方法在數(shù)據(jù)子樣本上生成特征組。到目前為止,組特征法的成果較多,特別是基于核密度和正則化技術(shù)的方法,但是組特征法缺乏可解釋性,仍然是通過實(shí)驗(yàn)結(jié)果觀察而來,對(duì)組特征法提升特征選擇穩(wěn)定性的理論研究較少。此外,同數(shù)據(jù)擾動(dòng)法一樣,組特征法也并不適用于數(shù)據(jù)集規(guī)模較小的情況。

      特征信息法是采用某種度量方式評(píng)估特征的信息量,然后結(jié)合信息量及特定的方法選擇特征集合。提出了基于疊加評(píng)分的特征選擇方法,首先給出通過熵定義的對(duì)稱不確定指標(biāo),然后基于該指標(biāo)提出疊加評(píng)分的計(jì)算方式,并采用疊加評(píng)分選擇具有判別能力的特征,顯著提升相關(guān)特征的選擇概率。提出了一種魯棒的特征選擇方法,基于皮爾遜相關(guān)系數(shù)從36 0個(gè)放射學(xué)特征中選擇穩(wěn)定特征;然后引入無監(jiān)督K均值算法,從第一步中選擇的特征中刪除冗余特征,并獲得K組候選特征的集合;最后,通過K組特征集訓(xùn)練四個(gè)預(yù)測(cè)模型,選擇具有最佳預(yù)測(cè)性能的最終特征集和最終預(yù)測(cè)模型。提出了一種基于相關(guān)性、冗余度和互補(bǔ)性的特征選擇方法,該方法使用對(duì)稱不確定度量特征和類別之間的相關(guān)性,然后通過近似馬爾可夫毯度量特征的冗余度,移除冗余特征,最后采用互信息評(píng)估特征的互補(bǔ)性,保留與當(dāng)前選擇特征子集具有最大互補(bǔ)性分值的特征。與函數(shù)擾動(dòng)法類似,特征信息法適用于數(shù)據(jù)集規(guī)模較小的情況。但是正如函數(shù)擾動(dòng)法的難點(diǎn)在于選擇合適的特征選擇方法一樣,特征信息法對(duì)度量準(zhǔn)則的要求較高,難以針對(duì)具體的數(shù)據(jù)集選用最合適的度量準(zhǔn)則。

      3 結(jié)論

      當(dāng)前,國(guó)際上已經(jīng)形成了較為完整的特征選擇穩(wěn)定性提升方法研究體系,但是國(guó)內(nèi)在該方向的發(fā)展較為緩慢,同時(shí),特征選擇穩(wěn)定性研究的空白領(lǐng)域仍然較多,可以從以下幾個(gè)方面展開探索和深入分析。

      目前的特征選擇穩(wěn)定性一般注重于傳統(tǒng)的二分類、多分類問題,多標(biāo)簽數(shù)據(jù)的穩(wěn)定特征選擇研究則鮮見報(bào)道,因此亟待開展相關(guān)研究。在當(dāng)前的大數(shù)據(jù)中,分布不平衡的情況較為常見,針對(duì)不平衡數(shù)據(jù)的特征選擇穩(wěn)定性研究亦是值得探討的課題。由于采集和存儲(chǔ)可能面臨的各種異常,系統(tǒng)常面臨嚴(yán)重的數(shù)據(jù)缺失情況,缺失數(shù)據(jù)的特征選擇穩(wěn)定性研究仍然是空白研究領(lǐng)域,亟待開展該方向的研究。

      猜你喜歡
      特征選擇子集擾動(dòng)
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      Bernoulli泛函上典則酉對(duì)合的擾動(dòng)
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      關(guān)于奇數(shù)階二元子集的分離序列
      (h)性質(zhì)及其擾動(dòng)
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      小噪聲擾動(dòng)的二維擴(kuò)散的極大似然估計(jì)
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      用于光伏MPPT中的模糊控制占空比擾動(dòng)法
      每一次愛情都只是愛情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      类乌齐县| 运城市| 沁源县| 集安市| 繁峙县| 佛冈县| 伊金霍洛旗| 天水市| 木兰县| 纳雍县| 赣榆县| 延边| 方城县| 辽中县| 夏河县| 荆门市| 应用必备| 蒲江县| 阿荣旗| 五华县| 湘潭市| 读书| 江西省| 黑水县| 紫云| 遂平县| 鹤岗市| 中卫市| 景德镇市| 澄城县| 静乐县| 炉霍县| 玛纳斯县| 怀远县| 安福县| 阳新县| 永德县| 肥乡县| 平顺县| 南城县| 宾阳县|