梁伍七,王榮華,劉克禮,李 斌
(安徽廣播電視大學(xué) 信息與工程學(xué)院,合肥 230022)
特征選擇在文本分類、文本檢索、基因分析和藥物診斷等場(chǎng)合有廣泛應(yīng)用,是模式識(shí)別領(lǐng)域的研究熱點(diǎn)之一。例如,自動(dòng)文本分類是指按照給定的分類體系,依據(jù)文本的內(nèi)容自動(dòng)進(jìn)行文本所屬類別判別的過(guò)程,是一種有監(jiān)督的學(xué)習(xí)過(guò)程。自動(dòng)文本分類在信息過(guò)濾、信息檢索、搜索引擎和數(shù)字圖書館等領(lǐng)域有廣泛應(yīng)用。分類系統(tǒng)主要包括數(shù)據(jù)預(yù)處理、文檔分詞、特征表示、特征選擇、文本表示、分類器選擇和訓(xùn)練以及分類結(jié)果評(píng)價(jià)等過(guò)程。1975年,文獻(xiàn)[1]提出向量空間模型(Vector Space Model,VSM),文檔被表示成特征空間中的一個(gè)向量。文本分類中文本表示方法通常使用向量空間模型,采用詞干抽取和去停用詞處理后,特征詞向量空間的維數(shù)雖有所降低,但特征空間的維數(shù)仍然是不可接受的。對(duì)于分類器來(lái)說(shuō),高維特征空間既增加了分類的時(shí)間復(fù)雜度和空間復(fù)雜度,也影響分類精度。
文本分類系統(tǒng)中高維特征空間的降維通常有兩種方法,即特征選擇(feature selection)和特征抽取(feature extraction)。二者都是在分類之前,針對(duì)原始特征的不足,降低特征維數(shù),提高分類器的分類性能。特征抽取也稱作特征重參數(shù)化(feature re-parameterization),通過(guò)對(duì)原始特征進(jìn)行組合或者變換,新的低維空間是原來(lái)特征的一個(gè)映射。特征選擇作為文本分類預(yù)處理模塊的關(guān)鍵步驟,任務(wù)是從原始特征空間中選擇最重要的特征組成特征子集,從而實(shí)現(xiàn)特征空間降維。
特征選擇的過(guò)程包括四個(gè)主要環(huán)節(jié)[2-3],包括子集生成(subset generation)、子集評(píng)估(subset evaluation)、停止準(zhǔn)測(cè)(stopping criterion)和結(jié)果驗(yàn)證(result validation),如圖1所示。生成子集的過(guò)程是一個(gè)搜索過(guò)程,根據(jù)特定的搜索策略得到候選特征子集。對(duì)每個(gè)候選子集,根據(jù)評(píng)價(jià)準(zhǔn)則進(jìn)行評(píng)價(jià)。若新子集的評(píng)價(jià)結(jié)果優(yōu)于以前最好的子集,則將其更新為當(dāng)前最優(yōu)子集。子集生成和子集評(píng)價(jià)不斷循環(huán),直至滿足給定的停止準(zhǔn)測(cè),最后對(duì)最優(yōu)特征子集進(jìn)行結(jié)果驗(yàn)證。特征選擇在數(shù)據(jù)挖掘、模式識(shí)別和機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域內(nèi)均得到了廣泛的研究。根據(jù)不同的標(biāo)準(zhǔn),特征選擇分類方法也有所不同,典型的分類標(biāo)準(zhǔn)及其分類方法如下。
圖1 特征選擇的四個(gè)主要環(huán)節(jié)
搜索過(guò)程需要考慮兩個(gè)基本問(wèn)題[3-4]:一是確定搜索起點(diǎn)??梢詮囊粋€(gè)空的集合開(kāi)始,然后不斷添加特征,也可以從一個(gè)完整的集合開(kāi)始,然后不斷移除特征,或者從兩端開(kāi)始,然后同時(shí)加入和移除特征;二是確定搜索策略。根據(jù)搜索策略的不同,特征選擇可分為完全搜索(complete search)、隨機(jī)搜索(random search)和啟發(fā)式搜索(heuristic search)等。
完全搜索方法:完全搜索需要遍歷特征空間中所有可能的特征組合,它能夠找到性能最好的子集。對(duì)于具有n個(gè)特征的數(shù)據(jù)集,存在2n個(gè)候選子集,這個(gè)搜索空間是指數(shù)級(jí)的,可以使用分支定界(branch and bound)算法[5]等啟發(fā)式方法來(lái)縮小搜索空間。
隨機(jī)搜索方法:該方法首先隨機(jī)選擇特征子集,后續(xù)采用兩種方式進(jìn)行:第一種在傳統(tǒng)的序列搜索中注入隨機(jī)因素,稱為概率隨機(jī)方法,例如,隨機(jī)開(kāi)始爬山算法(random-start-hill-climbing)和模擬退火算法(simulated annealing)[6]等;另一種稱為完全隨機(jī)方法,候選子集的產(chǎn)生方式是完全隨機(jī)的,例如,Las Vegas算法[7]等。這些方法中,隨機(jī)過(guò)程有助于避免在搜索空間中陷入局部最優(yōu),但其能否搜索到最優(yōu)結(jié)果取決于可用的資源。
啟發(fā)式搜索方法:?jiǎn)l(fā)式搜索可以消除組合爆炸,根據(jù)特定的啟發(fā)式規(guī)則設(shè)計(jì)次優(yōu)搜索策略,利用啟發(fā)信息來(lái)引導(dǎo)搜索,可以得到近似最優(yōu)解。常用的算法包括[3,8]序列前向選擇(SFS,sequential forward selection)、序列后向選擇(SBS,sequential backward selection)和雙向選擇(BDSS,bidirectional selection)等。該方法運(yùn)算速度較快,對(duì)于包含n個(gè)特征的集合,搜索時(shí)間往往低于O(n2)。
每一個(gè)生成的候選子集都必須使用一個(gè)評(píng)價(jià)準(zhǔn)則來(lái)進(jìn)行評(píng)價(jià)。根據(jù)評(píng)價(jià)準(zhǔn)則是否獨(dú)立于學(xué)習(xí)算法,可以分為過(guò)濾式(Filter)、封裝式(Wrapper)和混合式(Hybrid)三種類型。
(1)過(guò)濾式[4]:過(guò)濾式特征選擇作為一種數(shù)據(jù)預(yù)處理過(guò)程,評(píng)價(jià)準(zhǔn)則和學(xué)習(xí)算法無(wú)關(guān),可以快速排除不相關(guān)的噪聲特征,計(jì)算效率高?;谶^(guò)濾式的評(píng)價(jià)函數(shù)包括距離度量(distance measure)[9-10]、信息度量(information measure)[11]、相關(guān)性度量(correlation measure)[12]和一致性度量(consistency measure)[8]等,評(píng)價(jià)準(zhǔn)則不同得到的結(jié)果子集也不同。
(2)封裝式[13]:封裝式和所使用的學(xué)習(xí)算法有關(guān),特征選擇算法作為學(xué)習(xí)算法的組成部分,將學(xué)習(xí)算法的性能作為衡量特征優(yōu)劣的標(biāo)準(zhǔn)。在特征選擇過(guò)程中直接用所選特征來(lái)訓(xùn)練分類器,根據(jù)分類器在驗(yàn)證集上的性能作為特征重要程度的評(píng)價(jià)標(biāo)準(zhǔn),封裝式能選出更適合特定學(xué)習(xí)算法的特征。對(duì)每個(gè)候選子集,分類器都需要重新訓(xùn)練,故該方法在速度上比過(guò)濾式要慢,優(yōu)點(diǎn)是所選的優(yōu)化特征子集的規(guī)模相對(duì)要小很多。基于啟發(fā)式搜索策略的封裝器方法是目前較實(shí)用的特征選擇研究熱點(diǎn)。
(3)混合式[14]:綜合利用過(guò)濾式與封裝式的優(yōu)勢(shì),提出混合式方法來(lái)處理大規(guī)模的數(shù)據(jù)集。最理想的情況是和過(guò)濾式的時(shí)間復(fù)雜度相近,和封裝式的算法性能相似?;旌鲜椒椒ǖ奶幚磉^(guò)程是,先使用過(guò)濾式基于數(shù)據(jù)集本身固有的特性快速進(jìn)行特征選擇,保留少量特征,減少進(jìn)一步搜索的特征規(guī)模,然后再用封裝式方法進(jìn)一步優(yōu)化,得到分類性能最優(yōu)的特征子集。
監(jiān)督信息是文本內(nèi)容的重要組成部分,文本分類系統(tǒng)中,通常將類別信息作為監(jiān)督信息。特征選擇過(guò)程中,監(jiān)督信息起著重要的指導(dǎo)作用??梢曰诓煌谋O(jiān)督信息,對(duì)特征選擇方法進(jìn)行分類。
(1)根據(jù)訓(xùn)練集中給定類別標(biāo)簽樣本和未給定類別標(biāo)簽樣本的相對(duì)數(shù)量,可分為有監(jiān)督特征選擇(supervised feature selection)、半監(jiān)督特征選擇(semi-supervised feature selection)和無(wú)監(jiān)督特征選擇(unsupervised feature selection)[3-4],反映了選擇特征過(guò)程中對(duì)類別信息的依賴程度。
監(jiān)督式特征選擇:利用類別信息進(jìn)行指導(dǎo),通過(guò)計(jì)算特征與類別之間的關(guān)系,選擇最具類別區(qū)分力的特征子集[2]131-156。關(guān)于特征選擇的研究最初大多聚焦于監(jiān)督式特征選擇,通過(guò)度量特征之間和特征與類別之間的相互關(guān)系來(lái)確定特征子集。
半監(jiān)督式特征選擇:半監(jiān)督式學(xué)習(xí)主要考慮如何利用少量的具有類別信息的樣本和大量的不帶類別信息的樣本進(jìn)行分類學(xué)習(xí)的問(wèn)題。Miller等人提出了一種分類器架構(gòu)和學(xué)習(xí)算法,算法可以有效利用未標(biāo)記數(shù)據(jù)提高學(xué)習(xí)算法的性能[15]。隨著半監(jiān)督學(xué)習(xí)的發(fā)展,半監(jiān)督式特征選擇的研究也越來(lái)越受到重視。
無(wú)監(jiān)督式特征選擇:沒(méi)有類別信息指導(dǎo),通過(guò)對(duì)特征空間的樣本進(jìn)行聚類或無(wú)監(jiān)督學(xué)習(xí)對(duì)特征進(jìn)行分組,并對(duì)特征重要性進(jìn)行評(píng)估,根據(jù)特征的重要性程度進(jìn)行特征選擇。文獻(xiàn)[16]考慮了無(wú)監(jiān)督學(xué)習(xí)的特征選擇問(wèn)題,提出了一種新的算法,能夠識(shí)別嵌入在高維空間中支持復(fù)雜結(jié)構(gòu)的信息特征,算法通過(guò)一個(gè)目標(biāo)函數(shù)將其表示為一個(gè)優(yōu)化問(wèn)題,并用迭代法求解。
(2)根據(jù)類別數(shù)目,可分為二元特征選擇(binary feature selection)和多類特征選擇(multi-class feature selection)[3]。當(dāng)某個(gè)樣本數(shù)據(jù)可以同時(shí)屬于多個(gè)類別,稱為多類特征選擇,也稱為多標(biāo)簽特征選擇(multi-label feature selection)。根據(jù)類別的組織方式,多類問(wèn)題可以分為平鋪結(jié)構(gòu)和層次化結(jié)構(gòu)。平鋪結(jié)構(gòu)的各個(gè)類別間關(guān)系是平等的,若類別間的關(guān)系不是獨(dú)立的,而是具有某種復(fù)雜的關(guān)系,可利用層次化特征選擇進(jìn)行處理[17]。
1963年,文獻(xiàn)[18]在解決模式識(shí)別問(wèn)題時(shí)提出了基于支持向量機(jī)(support vector machine,SVM)方法。1995年,文獻(xiàn)[19]正式提出統(tǒng)計(jì)學(xué)習(xí)理論,并提出用廣義分類面來(lái)解決線性不可分問(wèn)題,據(jù)此構(gòu)成了SVM的理論基礎(chǔ)。SVM已被證明是具有最小化分類誤差和最大化泛化能力的強(qiáng)有力的分類工具,它建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)以及結(jié)構(gòu)風(fēng)險(xiǎn)的線性組合原理基礎(chǔ)上[20-21]。但SVM是作為模式識(shí)別領(lǐng)域中逐步發(fā)展而來(lái)的分類工具,標(biāo)準(zhǔn)的SVM并不能進(jìn)行特征選擇。文獻(xiàn)[22]基于梯度最小化泛化邊界方法來(lái)減少特征,指出當(dāng)存在不相關(guān)的特征時(shí),標(biāo)準(zhǔn)SVM分類的性能會(huì)大大降低。這一結(jié)論導(dǎo)致了眾多學(xué)者對(duì)基于SVM的特征選擇算法進(jìn)行研究。
根據(jù)評(píng)價(jià)準(zhǔn)則是否和學(xué)習(xí)算法相關(guān),特征選擇可以分為過(guò)濾式(Filter)、封裝式(Wrapper)和混合式(hybrid)三類[3]?;赟VM的特征選擇算法,本質(zhì)就是在特征選擇過(guò)程中融入SVM學(xué)習(xí)算法,因此基于SVM的特征選擇算法也可以劃分成三類:基于SVM的Wrapper特征選擇、基于SVM的Embedded特征選擇和基于SVM的混合特征選擇。
基于SVM的Wrapper特征選擇利用SVM分類器的性能作為特征選擇的評(píng)價(jià)準(zhǔn)則。文獻(xiàn)[23]提出了一種基于SVM的Wrapper特征選擇算法,即SVM-RFE(SVM recursive feature elimination)特征選擇算法。SVM-RFE的算法流程是[21]:利用當(dāng)前數(shù)據(jù)集訓(xùn)練SVM分類器,得到分類器的參數(shù);計(jì)算權(quán)重向量;根據(jù)特征排序準(zhǔn)則,計(jì)算所有特征的排序準(zhǔn)則得分;移除得分最小的特征;上述過(guò)程多次迭代直至特征集中剩余最后一個(gè)特征。SVM-RFE方法是一個(gè)序列后向選擇的過(guò)程,目標(biāo)是在d個(gè)特征中找出大小為r的特征子集,使得SVM分類的學(xué)習(xí)性能最優(yōu)。該方法首先訓(xùn)練SVM分類器,得到分類器的參數(shù),利用參數(shù)信息對(duì)特征進(jìn)行遞歸移除,在特征選擇的過(guò)程中存在參數(shù)不確定問(wèn)題。
文獻(xiàn)[24]針對(duì)SVM-RFE方法的不足提出了改進(jìn)算法。在SVM-RFE方法的基礎(chǔ)上,由支持向量機(jī)理論的泛化誤差界推導(dǎo)出評(píng)分準(zhǔn)則,每次迭代過(guò)程中移除最小得分的特征;文獻(xiàn)[25]提出了增強(qiáng)的SVM-RFE特征選擇算法,采用最小冗余和最大相關(guān)MRMR作為評(píng)分準(zhǔn)則。與SVM-RFE算法相比,在多數(shù)基因數(shù)據(jù)集上,算法選擇的特征個(gè)數(shù)較少。針對(duì)SVM-RFE算法中SVM參數(shù)難以確定的問(wèn)題,文獻(xiàn)[26]采用粒子群算法搜索SVM的參數(shù)。
和SVM算法一樣,SVM-RFE最初設(shè)計(jì)是用來(lái)解決兩類基因選擇問(wèn)題的。文獻(xiàn)[27]針對(duì)不同的多類SVM框架,推廣了SVM-RFE算法,用來(lái)解決多類基因特征選擇問(wèn)題。文獻(xiàn)[28]針對(duì)多類分類問(wèn)題,使用標(biāo)準(zhǔn)兩類SVM-RFE算法來(lái)排序問(wèn)題,該算法能夠較好地解決多類問(wèn)題。
SVM-RFE是一種簡(jiǎn)單有效的特征選擇算法,已在許多領(lǐng)域得到應(yīng)用,基于SVM-RFE理論框架的特征選擇方法得到眾多研究者的關(guān)注,算法以SVM分類器的性能作為特征重要性的評(píng)價(jià)準(zhǔn)則,優(yōu)點(diǎn)是所選的特征子集的規(guī)模相對(duì)較小,缺點(diǎn)是算法的時(shí)間復(fù)雜度較高。文獻(xiàn)[29]提出了一種基于SVM的Wrapper特征選擇算法,算法采用序列后向選擇,特征排序準(zhǔn)則使用驗(yàn)證子集的錯(cuò)分樣本個(gè)數(shù),每一輪迭代過(guò)程中,將特征所引起的錯(cuò)分樣本個(gè)數(shù)最少的那個(gè)特征移除,最后得到最優(yōu)的特征子集。
與一般的Embedded方法類似,基于SVM的Embedded特征選擇,特征選擇過(guò)程融于學(xué)習(xí)過(guò)程中,但該類方法的學(xué)習(xí)算法依據(jù)SVM理論[21]。
文獻(xiàn)[30]通過(guò)構(gòu)造非線性SVM,提出了一種新的特征選擇算法RFSVM。該算法的基本思想:在SVM思想的基礎(chǔ)上,通過(guò)一個(gè)正的參數(shù)σ來(lái)加權(quán)特征抑制項(xiàng)eTEe,該問(wèn)題可以轉(zhuǎn)化為一個(gè)混合整數(shù)規(guī)劃求解問(wèn)題。算法的目標(biāo)函數(shù)為:
(1)
其中,A表示數(shù)據(jù)集矩陣,K表示核函數(shù),v為正常數(shù),u、s和γ為分類器的待求量,e表示全1的矢量,y表示正的變量,E表示對(duì)角元素為0或1的對(duì)角矩陣。(1)式是一個(gè)混合整數(shù)規(guī)劃問(wèn)題,混合整數(shù)規(guī)劃問(wèn)題是一個(gè)NP難問(wèn)題??梢酝ㄟ^(guò)固定E,將(1)式變?yōu)橐粋€(gè)線性規(guī)劃問(wèn)題,通過(guò)求解得到(u,γ,y,s)的解,計(jì)算目標(biāo)函數(shù),上述過(guò)程多次迭代,直到函數(shù)值小于某一設(shè)定的閾值。該算法收斂于局部最小值,最終選擇的特征個(gè)數(shù)最少。
針對(duì)多類別分類特征選擇的問(wèn)題,文獻(xiàn)[31]提出了一種基于SVM的Embedded方法L1MSVM,該算法通過(guò)加入l1范數(shù),修改標(biāo)準(zhǔn)SVM的目標(biāo)函數(shù),為自適應(yīng)特征選擇計(jì)算整個(gè)正則化解決方案路徑。該算法的目標(biāo)函數(shù)為:
(2)
l1范數(shù)SVM是標(biāo)準(zhǔn)l2范數(shù)SVM的變體,在處理高維問(wèn)題和冗余噪聲特征時(shí),l1范數(shù)SVM比l2范數(shù)SVM有一些優(yōu)勢(shì),但l1范數(shù)SVM不適合處理存在強(qiáng)相關(guān)特征組合的場(chǎng)合。為了較好地解決這一問(wèn)題,文獻(xiàn)[32]提出特征選擇算法DrSVM(doubly regularized support vector machine)。該算法混合了l2范數(shù)和l1范數(shù),在標(biāo)準(zhǔn)SVM的目標(biāo)函數(shù)加人l1范數(shù),算法的優(yōu)點(diǎn)是能夠同時(shí)移除或選擇一組強(qiáng)相關(guān)的重要特征。DrSVM算法等價(jià)于解決下面的問(wèn)題:
(3)
其中,λ1和λ2均是調(diào)整參數(shù),[1-z]+=max(1-z,0),(xi,yi)表示訓(xùn)練數(shù)據(jù),yi表示第i個(gè)樣本的類別,yi∈{+1,-1}。l1范數(shù)的作用是來(lái)進(jìn)行特征選擇,而l2范數(shù)的作用是同時(shí)選擇一組強(qiáng)相關(guān)的特征。文獻(xiàn)[32]研究表明,l2范數(shù)傾向于產(chǎn)生強(qiáng)相關(guān)的特征,且這些特征對(duì)應(yīng)的系數(shù)幾乎相等,稱這種現(xiàn)象為分組效應(yīng)。
DrSVM算法是基于SVM的Embedded特征選擇算法,和基于SVM的Embedded特征選擇算法l1-SVM相比,二者相同點(diǎn)是特征選擇過(guò)程和學(xué)習(xí)過(guò)程融于一體,在學(xué)習(xí)過(guò)程中自動(dòng)地進(jìn)行特征選擇;不同點(diǎn)是DrSVM算法能夠同時(shí)選擇或舍棄一組強(qiáng)相關(guān)的特征,而l1-SVM不考慮特征間的相關(guān)性,只能從強(qiáng)相關(guān)的特征中選擇一個(gè)[21]。DrSVM算法適用于維數(shù)高于訓(xùn)練樣本數(shù)的場(chǎng)合,而l1-SVM選擇的特征數(shù)目不超過(guò)訓(xùn)練樣本數(shù)。
基于SVM的Embedded特征選擇算法,特征選擇過(guò)程作為組成部分嵌入到學(xué)習(xí)算法里,這類算法效率較高,得到的學(xué)習(xí)算法有較好的性能。但如何基于標(biāo)準(zhǔn)SVM算法,來(lái)構(gòu)造算法的目標(biāo)函數(shù)是目前算法研究的熱點(diǎn)。
基于SVM的混合特征選擇先使用Filter算法快速進(jìn)行特征選擇,然后利用Wrapper特征選擇算法進(jìn)一步細(xì)化,得到更為有效的特征子集。
文獻(xiàn)[33]提出基于SVM的混合特征選擇算法FS_SFS(Filtered and Supported Sequential forward search),和傳統(tǒng)的采用序列前向選擇的Wrapper方法比較,該算法有兩個(gè)重要的特性來(lái)減少計(jì)算時(shí)間。該算法首先使用Filter算法對(duì)原始特征進(jìn)行預(yù)處理,然后對(duì)預(yù)處理后的特征子集,利用Wrapper算法進(jìn)一步細(xì)化。該算法提出了一種新的評(píng)分準(zhǔn)則,該準(zhǔn)則既考慮了單個(gè)特征的區(qū)分能力,又考慮了特征之間的相關(guān)性,從而有效地過(guò)濾非本質(zhì)特征。
文獻(xiàn)[34]提出的基于SVM的混合特征選擇算法F_SSFS(F-score and Supported Sequential Forward Search),該算法結(jié)合了F-score和序列前向選擇,結(jié)合了Filter方法和Wrapper方法各自的優(yōu)勢(shì)來(lái)選擇最優(yōu)特征子集,該算法可應(yīng)用于股票市場(chǎng)預(yù)測(cè)??紤]到Filter算法和Wrapper算法各自的優(yōu)缺點(diǎn),即Filter方法的計(jì)算成本低,但分類可靠性不足,而Wrapper方法具有較高的分類精度,但需要很大的計(jì)算能力,文獻(xiàn)[35]將二者整合成一個(gè)序列搜索算法,用以提高所選擇特征對(duì)于分類算法的性能。該算法添加預(yù)選擇步驟,以提高特征選擇的效率,利用ROC(receiver operating characteristic) 曲線作為搜索策略,利用SVM作為分類器,算法在生物數(shù)據(jù)分類上得到了很好的應(yīng)用。
文獻(xiàn)[36]提出了一種新的基于隊(duì)列智能算法的特征選擇與支持向量機(jī)(SVM)模型選擇混合方法SVM_SACI。方法將自適應(yīng)隊(duì)列智能(SACI)算法與SVM集成,形成了一種新的混合方法,用于同時(shí)進(jìn)行特征選擇和SVM模型選擇,在多個(gè)數(shù)據(jù)集上的檢驗(yàn)結(jié)果表明,SACI在支持向量機(jī)分類精度和降維方面優(yōu)于其他啟發(fā)式方法。針對(duì)樣本量遠(yuǎn)小于數(shù)據(jù)集特征個(gè)數(shù)的小樣本可能帶來(lái)的奇異性問(wèn)題,文獻(xiàn)[37]提出了一種0 文獻(xiàn)[38]提出了一種基于蝗蟲(chóng)優(yōu)化算法(GOA)和SVM的混合方法,該方法對(duì)支持向量機(jī)模型的參數(shù)進(jìn)行優(yōu)化,同時(shí)找到最佳特征子集。在多個(gè)低維和高維數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果表明,該方法在分類精度上優(yōu)于其他方法,同時(shí)最小化了所選特征的數(shù)目。文獻(xiàn)[39]提出了一種基于SVM方法的特征選擇分類問(wèn)題的MILP模型,利用精確算法和啟發(fā)式算法,分析了該模型的不同求解方法。通過(guò)在多個(gè)數(shù)據(jù)集的檢驗(yàn)和經(jīng)典分類方法的比較,對(duì)模型進(jìn)行了驗(yàn)證。文獻(xiàn)[40]提出了一種新穎的進(jìn)化算法(lion算法)和SVM的混合方法,利用lion算法選擇高維數(shù)據(jù)集的特征子集,解決分類問(wèn)題。特征選擇過(guò)程識(shí)別并刪除無(wú)關(guān)/冗余特征,以減少特征維數(shù),從而提高分類的效率和準(zhǔn)確性。 本文闡述了自動(dòng)文本分類中特征選擇的算法框架,探討了特征選擇的分類方法,介紹了SVM用于特征選擇的意義,對(duì)基于SVM的特征選擇算法進(jìn)行了歸納總結(jié),重點(diǎn)總結(jié)了基于SVM的Wrapper特征選擇、Embedded特征選擇以及混合特征選擇算法,分析對(duì)比了基于SVM的三類特征選擇的優(yōu)缺點(diǎn)。SVM算法的效率和性能主要取決于內(nèi)核類型及其參數(shù),在處理高維數(shù)據(jù)集時(shí),用于SVM模型的特征子集選擇是影響分類精度的另一個(gè)重要因素。如何利用已有的算法或提出新穎的算法用于高維數(shù)據(jù)集的特征選擇并訓(xùn)練SVM模型的參數(shù),是基于SVM特征選擇的研究熱點(diǎn)和分類應(yīng)用發(fā)展方向。四、結(jié)語(yǔ)
安徽開(kāi)放大學(xué)學(xué)報(bào)2019年4期