• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于CFS-GA 特征選擇算法的中文網(wǎng)頁(yè)自動(dòng)分類

      2012-07-06 10:01:20喻春萍黃曉霞
      關(guān)鍵詞:特征選擇適應(yīng)度網(wǎng)頁(yè)

      喻春萍,黃曉霞

      (上海海事大學(xué) 信息工程學(xué)院,上海 201306)

      0 引言

      自進(jìn)入信息化時(shí)代以來(lái),因特網(wǎng)上的網(wǎng)頁(yè)數(shù)量增長(zhǎng)迅猛.為了提高信息的檢索效率,很有必要對(duì)因特網(wǎng)上的一些網(wǎng)頁(yè)進(jìn)行分類.盡管目前有Google,Yahoo,搜狐等分類目錄式的中文網(wǎng)站目錄,但由于其均為人工編纂,效率低下,而且更新速度慢,無(wú)法滿足當(dāng)前因特網(wǎng)對(duì)信息實(shí)時(shí)性的要求.[1]因此,網(wǎng)頁(yè)自動(dòng)分類的研究對(duì)基于內(nèi)容的信息檢索、Web 數(shù)據(jù)挖掘具有深遠(yuǎn)的意義.

      中文網(wǎng)頁(yè)分類一般包括預(yù)處理、特征選擇和構(gòu)造分類器等3個(gè)階段.[2]預(yù)處理包括文本標(biāo)記(html標(biāo)簽和JavaScript 代碼)的處理、分詞處理和停用詞處理.對(duì)中文網(wǎng)頁(yè)中的海量信息進(jìn)行預(yù)處理后所形成的特征向量的維數(shù)高達(dá)幾萬(wàn)、甚至幾十萬(wàn),這無(wú)疑會(huì)造成維災(zāi)難.這些高維數(shù)據(jù)中含有大量的噪聲以及與類別不相關(guān)的信息,用其直接進(jìn)行分類既降低分類效率又影響分類的精確度,因此特征選擇成為中文網(wǎng)頁(yè)分類中的一項(xiàng)關(guān)鍵技術(shù).[3]特征選擇是一個(gè)NP 難題.[4]按照分類算法評(píng)價(jià)標(biāo)準(zhǔn)可以將特征選擇算法分成兩大類:過(guò)濾型(filter)和封裝型(wrapper).過(guò)濾型不考慮具體的學(xué)習(xí)算法,而是直接從原始數(shù)據(jù)出發(fā)得到各個(gè)特征的貢獻(xiàn)評(píng)價(jià);封裝型則考慮具體的學(xué)習(xí)算法,由分類器的結(jié)果評(píng)價(jià)特征好壞.過(guò)濾型算法可以很快從原始特征集合中選出較優(yōu)的特征子集,但是該特征子集并不是最小的,且其中還可能含有與類別信息不相關(guān)的噪聲,從而與后續(xù)的分類算法產(chǎn)生較大偏差.封裝型算法具有很好的降維效果,選擇結(jié)果較好,但因其與特定的學(xué)習(xí)算法有關(guān),特征選擇過(guò)程耗時(shí)較長(zhǎng).[5-6]

      常用的文本分類算法有信息增益(IG)、χ2統(tǒng)計(jì)(CHI)、互信息(MI)和文檔頻率(DF),其中IG和CHI 的性能較好[7-8].基于關(guān)聯(lián)的特征選擇(Correlation-based Feature Selection,CFS)作為一種過(guò)濾型算法,是以屬性與類別之間的相關(guān)性以及屬性與屬性之間的冗余度為衡量依據(jù)的[9-11],該算法雖然具有較好的降維能力,但其所得到的解不一定是全局最優(yōu)的.在文本分類中,遺傳算法(Genetic Algorithm,GA)因其具有全局搜索特性常被作為一種封裝型算法對(duì)特征進(jìn)行降維處理.[12-14]本文將CFS 與GA 相結(jié)合,以CFS 的相關(guān)度度量作為GA 的適應(yīng)度函數(shù)評(píng)價(jià)遺傳算法中的每個(gè)新個(gè)體.實(shí)驗(yàn)證明,利用該算法進(jìn)行特征選擇,可以有效降低特征向量的維度、減少學(xué)習(xí)分類器所需的數(shù)據(jù)量,具有泛化能力強(qiáng)、可找到全局最優(yōu)解等優(yōu)點(diǎn).

      1 基于CFS-GA 的中文網(wǎng)頁(yè)分類

      1.1 CFS

      CFS是一種經(jīng)典的過(guò)濾型特征選擇算法,其啟發(fā)式地評(píng)價(jià)單一特征對(duì)應(yīng)于每個(gè)類別的作用,從而得到最終的特征子集.其評(píng)估方法如下:

      假設(shè)屬性為Y,y為Y 的每一個(gè)可能的取值,則Y 的熵的計(jì)算方法為

      已知屬性X,計(jì)算Y 的熵的方法為

      差值H(Y)-H(Y|X)(即特征Y 的熵的減少量)可反映特征X 提供給特征Y 的附加信息,被稱為信息增益.信息增益可反映屬性X 提供給屬性Y 的信息的多少,因此信息增益值越大,那么X 與Y 的相關(guān)度就越高.由于信息增益是一種對(duì)稱性的測(cè)量方法,其缺點(diǎn)是傾向于選擇那些有更多取值的屬性.因此,為確保各個(gè)屬性可相互比較,使不同的屬性選擇產(chǎn)生相同的效果,需要對(duì)信息增益進(jìn)行歸一化.這里使用對(duì)稱不確定性方法將其歸一到[0,1].

      1.2 基于CFS-GA 的中文網(wǎng)頁(yè)分類

      在運(yùn)用GA 進(jìn)行特征選擇時(shí),常將其自身設(shè)計(jì)成封裝型特征選擇算法.GA 在運(yùn)行中基本上不需要外界信息,只需要依據(jù)適應(yīng)度函數(shù)控制種群的更新,因此適應(yīng)度函數(shù)的設(shè)計(jì)對(duì)特征子集的選擇至關(guān)重要,關(guān)系到特征選擇時(shí)的收斂速度和找到的最優(yōu)解.在基于GA 的封裝型特征選擇中,常采用學(xué)習(xí)算法的分類精度和最終選擇出的特征子集的大小作為適應(yīng)度函數(shù).盡管該方法可以利用GA 的全局搜索能力找到全局最優(yōu)解,但是在處理大規(guī)模數(shù)據(jù)時(shí)效率極其低下,且復(fù)雜度較大.因此,考慮將GA 設(shè)計(jì)成一種過(guò)濾型的特征選擇算法,即將適應(yīng)度函數(shù)設(shè)置成一種過(guò)濾型的算法,從而使其具有GA 的全局最優(yōu)特性和過(guò)濾性算法的高效率特性.接著就是考慮選用何種過(guò)濾型算法進(jìn)行特征選擇.

      在遺傳算法的遺傳操作中,比較優(yōu)秀的個(gè)體需要滿足兩個(gè)特性:(1)個(gè)體對(duì)分類的貢獻(xiàn)要盡可能大;(2)個(gè)體中包含的特征數(shù)要盡可能小(要使這樣的個(gè)體能夠遺傳到下一代,就要使其適應(yīng)度值比較大).因此,需要選擇滿足上述兩個(gè)特性的過(guò)濾型算法作為適應(yīng)度函數(shù).

      在常用的文本特征選擇算法中,IG和CHI 的性能較好,且兩者性能大體相當(dāng).[7-8]IG 通過(guò)信息增益度量屬性與屬性之間的相關(guān)性,盡管能起到一定的降維作用,但其所選特征未必對(duì)分類的貢獻(xiàn)大,且其分類性能受樣本分布的影響;而CHI 只統(tǒng)計(jì)某個(gè)特征項(xiàng)是否出現(xiàn),卻不考慮該特征項(xiàng)出現(xiàn)的次數(shù),因此該算法對(duì)低頻詞有一定的夸大作用.綜合看,這兩種效果好的過(guò)濾型算法都不能滿足上述兩個(gè)特性.

      文獻(xiàn)[9]提出的CFS 通過(guò)計(jì)算屬性與屬性之間的冗余度以及屬性與類別之間的相關(guān)度來(lái)度量所選特征的優(yōu)劣.屬性與類別的相關(guān)度越大(即對(duì)分類的貢獻(xiàn)越大)、屬性與屬性的冗余度越小(即所選特征數(shù)量越小),CFS 的啟發(fā)值就越大.從CFS 的特性來(lái)看,它完全滿足比較優(yōu)秀個(gè)體的特性.因此,本文將GA 與CFS 相結(jié)合(CFS-GA),將特征子集看作GA中的個(gè)體,利用CFS 的啟發(fā)值作為GA 的適應(yīng)度函數(shù).啟發(fā)值越大的個(gè)體被遺傳到下一代的概率就越大,而CFS 啟發(fā)值越大表明特征與類別的平均相關(guān)性越大、特征與特征之間的平均冗余度越小,因此將CFS 啟發(fā)值大的個(gè)體遺傳到下一代就可保證所選個(gè)體中特征與類別的相關(guān)性大、特征維度小.結(jié)合GA 的全局搜索特性,本文算法可以得到全局最優(yōu)解.

      CFS-GA 算法設(shè)計(jì)主要包括編碼方案、選擇算子、交叉算子和變異算子等4個(gè)問(wèn)題.編碼方案中采用經(jīng)典的二進(jìn)制編碼:假設(shè)有n個(gè)候選特征,則染色體長(zhǎng)度為n,用n 位的0和1 構(gòu)成的字符串表示一種特征組合;第i 位為1表示存在該詞,第i 位為0表示不存在該詞.對(duì)特征子集進(jìn)行選擇時(shí),采用經(jīng)典的輪盤(pán)賭選擇算子,每個(gè)個(gè)體被選中的概率與其適應(yīng)度值成正比.在進(jìn)行交叉時(shí),采用單點(diǎn)交叉,即在屬性對(duì)中隨機(jī)產(chǎn)生交叉點(diǎn),然后互換交叉點(diǎn)后的部分結(jié)構(gòu),產(chǎn)生新個(gè)體.變異采用基本位變異算子,即在二進(jìn)制編碼中,0 變1,1 變0.在交叉率和變異率的選擇方面,為了產(chǎn)生較多的新個(gè)體,同時(shí)不致過(guò)多地破壞較好的特征子集,交叉率一般在0.40~0.99之間選取,變異率一般在0.000 1~0.100 0 之間選取.CFS-GA 算法描述和基于CFS-GA 的分類模型流程見(jiàn)圖1和2.

      圖1 CFS-GA 算法描述

      圖2 基于CFS-GA 的分類模型流程

      基于CFS-GA 的特征選擇算法的網(wǎng)頁(yè)分類的時(shí)間復(fù)雜度是由特征選擇算法的復(fù)雜度和分類算法的復(fù)雜度兩部分組成的(這里沒(méi)有考慮預(yù)處理部分).若原始特征數(shù)為s,經(jīng)過(guò)特征選擇后的特征數(shù)為t(t≤s),那么特征選擇的時(shí)間是一個(gè)關(guān)于s 的函數(shù)g(s),分類的時(shí)間是一個(gè)關(guān)于t 的函數(shù)h(t),則整個(gè)分類模型的時(shí)間為g(s)+h(t).

      1.3 分類評(píng)估標(biāo)準(zhǔn)

      網(wǎng)頁(yè)分類中一般采用的性能指標(biāo)是準(zhǔn)確率P(precision)和召回率R(recall)[15].準(zhǔn)確率為分類的正確網(wǎng)頁(yè)數(shù)與應(yīng)有網(wǎng)頁(yè)數(shù)的百分比,即該類樣本被分類器正確識(shí)別的概率.準(zhǔn)確率體現(xiàn)系統(tǒng)分類的準(zhǔn)確程度.召回率為分類的正確網(wǎng)頁(yè)數(shù)與分到該類的網(wǎng)頁(yè)數(shù)的百分比.召回率體現(xiàn)系統(tǒng)分類的完備性.準(zhǔn)確率和召回率分別反映分類質(zhì)量的兩個(gè)不同的方面,是互補(bǔ)的.為了獲得比較高的召回率通常要犧牲準(zhǔn)確率;同樣,為了獲得較高的準(zhǔn)確率就要犧牲召回率.因此,需要有一種綜合考慮召回率和準(zhǔn)確率的方法對(duì)分類器進(jìn)行評(píng)價(jià).F1值是常用的一種組合評(píng)價(jià)方式:F1=2RP/(R+P).

      2 實(shí) 驗(yàn)

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)的數(shù)據(jù)集采用搜狗實(shí)驗(yàn)室提供的中文網(wǎng)頁(yè)數(shù)據(jù)集.由于原數(shù)據(jù)集總的大小達(dá)500 G,且其中含有詞性標(biāo)注等信息,本文使用該數(shù)據(jù)集的mini 版.考慮到實(shí)驗(yàn)機(jī)器的性能問(wèn)題,從原語(yǔ)料庫(kù)中抽取5個(gè)類共288 篇文檔,其中:IT 類59 篇,教育類61 篇,醫(yī)學(xué)類53 篇,體育類56 篇,交通類59 篇.

      2.2 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

      硬件平臺(tái)為:操作系統(tǒng)Windows XP Professional SP3,CPU Intel?Celeron?M processor 1.30 GHz,512 MB內(nèi)存,80 G 硬盤(pán).實(shí)現(xiàn)語(yǔ)言為Java,實(shí)現(xiàn)平臺(tái)為eclipse+jdk1.6,在代碼中分類調(diào)用開(kāi)源的數(shù)據(jù)挖掘平臺(tái)的weka中的分類算法(由新西蘭的Waikato 大學(xué)開(kāi)發(fā)的一款開(kāi)源的數(shù)據(jù)挖掘平臺(tái),集成一系列的機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)語(yǔ)言是Java)分詞工具為中國(guó)科學(xué)院的imdict-chinese-analyzer,它是開(kāi)源項(xiàng)目ICTCLAS 的Java 版本,其算法是基于隱馬爾科夫模型,其開(kāi)源代碼可以在開(kāi)源中國(guó)社區(qū)獲得.GA中的相關(guān)參數(shù):初始化種群規(guī)模為20;交叉率為0.6;變異率為0.033;種群迭代次數(shù)為100.

      2.3 實(shí)驗(yàn)步驟

      (1)對(duì)原始數(shù)據(jù)集進(jìn)行初步整理后,調(diào)用imdict-chinese-analyzer中的ChineseAnalyzer 類進(jìn)行分詞,并擴(kuò)充停用詞表,對(duì)特征集合進(jìn)行粗降維.

      (2)調(diào)用weka.jar中的TextDirectoryLoader,將*.txt 文件轉(zhuǎn)化成weka 能接受的*.arff 文件,然后利用weka.jar中的StringToWordVector 類構(gòu)建向量空間模型.考慮到GA中要求文檔編碼是0-1 編碼,在StringToWordVector中設(shè)置屬性值為0-1 編碼形式,即將m_OutputCounts 的值設(shè)置為false.

      (3)按圖1 的算法描述,根據(jù)weka 接口利用Java 語(yǔ)言編寫(xiě)GA,然后按圖2 進(jìn)行特征選擇,并調(diào)用weka中的分類算法進(jìn)行分類,采用3 折交叉驗(yàn)證的方式得到最終的分類結(jié)果.

      2.4 對(duì)比實(shí)驗(yàn)結(jié)果

      為了驗(yàn)證文中CFS-GA 特征選擇算法的有效性,將CFS-GA 與IG和CHI 算法進(jìn)行比較,分類算法采用weka 的NaiveBayesMultinomial 算法.實(shí)驗(yàn)結(jié)果見(jiàn)表1和2.

      表1 各特征選擇算法的分類正確率、特征維度比較

      表2 各特征選擇算法所得到的P,R,F(xiàn)1值比較

      2.5 實(shí)驗(yàn)結(jié)果分析

      從表1和2可知:(1)經(jīng)過(guò)特征選擇后,分類正確率顯著提高,因此特征選擇在中文網(wǎng)頁(yè)分類中意義重大;(2)CFS-GA 降維能力好,其分類性能也優(yōu)于IG和CHI,這是因?yàn)樵谶x擇特征時(shí),本文算法不僅考慮特征與類別之間的相關(guān)性,而且考慮特征與特征之間的冗余性,從而能有效降低最優(yōu)特征空間的維度;(3)IG 與CHI 性能大體相當(dāng),這與文獻(xiàn)[7-8]所得的結(jié)論基本一致.總之,本文提出的算法對(duì)中文網(wǎng)頁(yè)自動(dòng)分類具有一定的實(shí)用價(jià)值.

      3 結(jié)束語(yǔ)

      特征選擇的目的是降低特征向量空間的維度,提高分類效率.本文將CFS 與GA 相結(jié)合,用CFS 評(píng)價(jià)作為GA 適應(yīng)度函數(shù)來(lái)評(píng)價(jià)個(gè)體.實(shí)驗(yàn)證明,這種特征選擇算法能有效降低特征空間的維度,且其分類性能與當(dāng)前比較成熟的特征選擇算法相比也有所提高.

      進(jìn)一步工作可以考慮網(wǎng)頁(yè)的結(jié)構(gòu)特征.網(wǎng)頁(yè)含有豐富的結(jié)構(gòu)信息,除純文本之外,還有其他一些對(duì)分類有貢獻(xiàn)的信息:如用Head和Title 標(biāo)注網(wǎng)頁(yè)的標(biāo)題和段落子標(biāo)題,meta 標(biāo)記中的name 屬性和content 屬性值是對(duì)網(wǎng)頁(yè)主題的描述,網(wǎng)頁(yè)中的超鏈接指向的內(nèi)容有可能是與該網(wǎng)頁(yè)主題相關(guān)的內(nèi)容.在下一步的工作中,可以利用這些信息提高分類的準(zhǔn)確率.

      [1]劉超.中文網(wǎng)頁(yè)自動(dòng)分類研究及分類算法的設(shè)計(jì)與實(shí)現(xiàn)[J].中國(guó)科技論文在線,2003:1-2.

      [2]馮是聰,張志剛,李曉明.一種中文網(wǎng)頁(yè)自動(dòng)分類方法的實(shí)現(xiàn)及應(yīng)用[J].計(jì)算機(jī)工程,2004,30(5):19-20.

      [3]CUI Zifeng,XU Baowen,ZHANG Weifeng,et al.CLDA:feature selection for text categorization[C]//ICSC 07'Proc Int Conf on Semantic Computing.Washington,DC,USA,2007:703-704.

      [4]葉吉祥,龔希齡.一種快速的Wrapper 式特征子集選擇新方法[J].長(zhǎng)沙理工大學(xué)學(xué)報(bào):自然科學(xué)版,2010,7(4):69.

      [5]ELALAMI M E.A filter model for feature subset selection based on genetic algorithm[J].Knowledge-Based Systems,2009,22(5):357-358.

      [6]HUANG Cheenjung,YANG Dianxiu,CHUANG Yita.Application of wrapper approach and composite classifier[J].Expert Systems with Application,2008,34(4):2871.

      [7]單松巍,馮是聰,李曉明.幾種典型特征選取方法在中文網(wǎng)頁(yè)分類上的效果比較[J].計(jì)算機(jī)工程與應(yīng)用,2003,39(22):147.

      [8]YANG Yiming,PEDERSEN J O.A comparative study on feature selection in text categorization[C]// Proc ACM SIGIR Conf on Res & Dev in Inform Retrieval(SIGIR01),2001.

      [9]HALL M A.Correlation based feature selection for machine learning[D].Hamilton,New Zealand:Univ of Waikato,1999:51-69.

      [10]HALL M A,SMITH L A.Featrue selection for machine learning:comparing a correlation-based filter approach to the wrapper[C]//Proc Twelfth Int FLAIRS Conf.Florida,USA,1999:247-254.

      [11]孫寧青.基于神經(jīng)網(wǎng)絡(luò)和CFS 特征選擇的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)[J].計(jì)算機(jī)工程與科學(xué),2010,32(6):38.

      [12]鄭濱,金永興.基于屬性約簡(jiǎn)的海事人為失誤致因分析[J].上海海事大學(xué)學(xué)報(bào),2010,31(1):92-93.

      [13]任江濤,孫婧昊,黃煥宇,等.一種基于信息增益及遺傳算法的特征選擇算法[J].計(jì)算機(jī)科學(xué),2006,33(10):194.

      [14]宋淑彩,龐慧,丁學(xué)鈞.GA-SVM 算法在文本分類中的應(yīng)用研究[J].計(jì)算機(jī)仿真,2011,28(1):223-225.

      [15]熊忠陽(yáng),劉道群,張玉芳.用改進(jìn)的遺傳算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)構(gòu)造分類器[J].計(jì)算機(jī)應(yīng)用,2005,25(1):32-33.

      [16]黃曉霞,程論.綜合評(píng)價(jià)與數(shù)據(jù)挖掘的比較[J].上海海事大學(xué)學(xué)報(bào),2007,28(4):55-56.

      猜你喜歡
      特征選擇適應(yīng)度網(wǎng)頁(yè)
      改進(jìn)的自適應(yīng)復(fù)制、交叉和突變遺傳算法
      基于CSS的網(wǎng)頁(yè)導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      基于URL和網(wǎng)頁(yè)類型的網(wǎng)頁(yè)信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      基于空調(diào)導(dǎo)風(fēng)板成型工藝的Kriging模型適應(yīng)度研究
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      網(wǎng)頁(yè)制作在英語(yǔ)教學(xué)中的應(yīng)用
      10個(gè)必知的網(wǎng)頁(yè)設(shè)計(jì)術(shù)語(yǔ)
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      晋州市| 阿尔山市| 咸阳市| 浦城县| 临城县| 新邵县| 巢湖市| 进贤县| 天水市| 黔南| 尚志市| 定陶县| 九寨沟县| 轮台县| 思茅市| 白城市| 永安市| 梧州市| 谢通门县| 苏尼特左旗| 天门市| 扶绥县| 都匀市| 丹东市| 赤峰市| 贵定县| 萍乡市| 读书| 盈江县| 察雅县| 元江| 永寿县| 柘荣县| 赤峰市| 百色市| 轮台县| 宁德市| 环江| 长顺县| 尤溪县| 大埔县|