• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于支持向量的迭代修正質(zhì)心文本分類算法

      2013-08-07 10:52:00王德慶
      關(guān)鍵詞:集上質(zhì)心語料

      王德慶 張 輝

      (北京航空航天大學(xué)軟件開發(fā)環(huán)境國家重點(diǎn)實(shí)驗(yàn)室,北京100191)

      文本分類(TC,Text Categorization)是一項(xiàng)將未標(biāo)記的自然語言文本分配到事先定義的主題類別中的任務(wù)[1].文本分類技術(shù)已經(jīng)被廣泛應(yīng)用到在線新聞分類[1]、軟件 bug分類[2]及垃圾郵件過濾等實(shí)際的應(yīng)用中.由于語料的高維、稀疏等特點(diǎn),特征選擇也是文本分類的重要組成部分[1].

      基于質(zhì)心的分類算法 (CC,Centroid-based Classification)由于其簡單性、高效性等特點(diǎn)受到研究人員越來越多的關(guān)注,并且Han等人已經(jīng)證明質(zhì)心分類算法對于文本分類來說是一個(gè)有效的、魯棒的分類模型[3].質(zhì)心分類算法的基本觀點(diǎn)是利用屬于同類的訓(xùn)練實(shí)例來構(gòu)造一個(gè)類別的質(zhì)心向量 (Centroid Vector),然而傳統(tǒng)CC的分類精度要明顯地低于其他分類器,如支持向量機(jī)分類器(SVMs,Support Vector Machines)[4].導(dǎo)致分類精度低的原因之一是質(zhì)心向量的構(gòu)造函數(shù)存在問題[5].因此研究人員針對質(zhì)心向量的構(gòu)造或者修正提出了很多改進(jìn)型的算法,例如Class Feature Centroid 分 類 器[5]、DragPushing[6-7]、基 于 Term Distribution 方 法[8]、Weight Adjustment 方 法[9].這些改進(jìn)型方法的性能要優(yōu)于傳統(tǒng)質(zhì)心分類算法與k最近鄰等,但與最好的SVMs仍存在一定的差距.

      值得注意的是:不論傳統(tǒng)的還是改進(jìn)的質(zhì)心分類算法,它們都是將全部的訓(xùn)練實(shí)例作為支持集.然而,這樣極有可能引起過度擬合問題,并且影響到質(zhì)心分類器的泛化能力,即越多的訓(xùn)練樣本不一定得到越準(zhǔn)確的分類模型[10].同時(shí),支持向量機(jī)的出現(xiàn)及其在文本領(lǐng)域的成功應(yīng)用[11-12],激發(fā)對傳統(tǒng)算法的重新思考與改進(jìn).通過大量實(shí)驗(yàn)發(fā)現(xiàn):選擇“部分”的訓(xùn)練實(shí)例來構(gòu)造質(zhì)心向量可能有助于推導(dǎo)出更加準(zhǔn)確的分類預(yù)測模型.

      盡管文本分類中最優(yōu)子集選擇的理論還沒有建立,但是存在很多可以用來識別邊界實(shí)例的成熟技術(shù).例如,SVMs具有完備的理論與數(shù)學(xué)基礎(chǔ),并且SVMs擅長區(qū)分一個(gè)訓(xùn)練實(shí)例是靠近類別邊界還是類別中心.因而,聯(lián)合SVMs和迭代修正策略研究并提出基于支持向量的迭代修正質(zhì)心分類算法 (IACC_SV,Support-Vector-based Iteratively Adjusted Centroid Classifier).

      1 質(zhì)心分類算法的問題分析

      在將質(zhì)心分類算法應(yīng)用到文本分類之前,每篇文檔通常采用向量空間模型[13]進(jìn)行表示,權(quán)重計(jì)算采用 tf-idf(termfrequencyandinverse document frequency)[14]的標(biāo)準(zhǔn)形式 ltc[15],為了消除文本長度對于項(xiàng)權(quán)重的影響,需要對權(quán)重進(jìn)行歸一化處理.

      與SVMs相比,質(zhì)心分類算法更加的簡單與高效.但是,質(zhì)心分類算法同樣存在著明顯的缺點(diǎn),即在實(shí)際的系統(tǒng)中其分類精度較低.如圖1所示,類別A在特征空間中的分布要比類別B更加廣.如果一個(gè)來自類別A的訓(xùn)練實(shí)例向量dA落在該類別的質(zhì)心向量CA附近(如圖1中dA左箭頭所指實(shí)心圓所示),那么dA很容易被正確分類.但是,如果dA落在類別A與B的邊界MidLine(CA,CB)附近,則dA很容易被誤分(如圖1中右箭頭所指實(shí)心圓所示).為了避免上述情況發(fā)生,一種可行的方式就是通過訓(xùn)練集誤差(training-set error)來迭代修正質(zhì)心向量,即從CA到C'A.基于這種思路出現(xiàn)了很多的研究文獻(xiàn)[5-7,9],并且改進(jìn)的算法確實(shí)能夠提高傳統(tǒng)的質(zhì)心分類算法的性能.然而,改進(jìn)算法的性能仍然劣于最新的分類算法,如SVMs.這意味著僅僅通過迭代修正策略是不夠的,還需采用其他的技術(shù)來進(jìn)一步提高質(zhì)心分類算法的效能.

      圖1 經(jīng)典質(zhì)心分類器誤分樣本的可視化示例

      仔細(xì)觀察圖1,如果類別A的初始質(zhì)心向量是C'A而不是CA,則將出現(xiàn)如下情況:即圖1中類別A與B的分類邊界由MidLine(CA,CB)變?yōu)镸idLine(C'A,C'B),更加靠近最優(yōu)分類邊界 OptimalMidline(虛線所示).但是,以C'A作為初始質(zhì)心向量,必須選擇“部分”的樣本而不是全部樣本來構(gòu)造質(zhì)心向量,這是本文的第1個(gè)研究動機(jī).

      問題1 在傳統(tǒng)的質(zhì)心分類器中,選擇部分樣本構(gòu)造的質(zhì)心向量要優(yōu)于采用全部樣本構(gòu)造的質(zhì)心向量嗎?

      問題1的答案很可能是肯定的,因?yàn)镾VMs就是一個(gè)很好的例子.SVMs通過從訓(xùn)練集中選擇出的支持向量構(gòu)建的分類模型具有較高的模型泛化能力,完成較高的分類預(yù)測準(zhǔn)確率.因此,需要研究的第2個(gè)問題隨之而來.

      問題2 如何準(zhǔn)確地和自動地選擇部分樣本才能使得構(gòu)造的質(zhì)心向量能夠完成比傳統(tǒng)的質(zhì)心向量更優(yōu)的分類性能?

      對于文本分類來說,文本訓(xùn)練集往往是高維度、稀疏的向量,想要找到2類之間明確的邊界是很困難的.一種可行的方法是借助于著名的SVMs,因?yàn)镾VMs中的支持向量就是在映射后的高維空間中處于類別邊界的訓(xùn)練實(shí)例,與需要的邊界實(shí)例是相似的.

      2IACC_SV算法

      IACC_SV算法具有2個(gè)重要特點(diǎn):①IACC_SV算法只利用由SVMs發(fā)現(xiàn)的支持向量構(gòu)造初始的質(zhì)心向量;②最終的質(zhì)心向量是通過訓(xùn)練集誤差迭代修正獲得.IACC_SV算法的具體描述如下:

      在IACC_SV算法中,首先利用線性SVMs找到所有的支持向量SV(第1行);然后,利用支持向量構(gòu)造每類的初始質(zhì)心向量(第2行);第3~10行用來迭代修正質(zhì)心向量,即用已有的質(zhì)心向量來預(yù)測支持向量SV中的訓(xùn)練實(shí)例,如果實(shí)例被誤分,則按照公式(1)和公式(2)來調(diào)整質(zhì)心向量.

      其中,d為類別Ci中的一個(gè)實(shí)例向量,但是被第l步迭代獲得的質(zhì)心向量C(l)i誤分到類別Cj中,|Ci|為類別Ci中文本總數(shù).迭代修正直到最大迭代次數(shù)m.為避免過度擬合,m默認(rèn)設(shè)定為3.同時(shí),為避免實(shí)例讀入順序?qū)τ谫|(zhì)心的影響,采用隨機(jī)無放回的方式讀取樣本d(第4行);最后,第11行返回最終的質(zhì)心向量用于后續(xù)的分類預(yù)測過程.

      IACC_SV算法中有2點(diǎn)特別值得注意:

      1)邊界實(shí)例的選擇問題,對于多類問題,采用“1對1”策略來獲得每個(gè)類別的邊界實(shí)例;

      2)質(zhì)心向量的迭代修正問題,不同于Tan的DragPushing[6-7],IACC_SV 算法每發(fā)現(xiàn)一個(gè)誤分樣本都要對質(zhì)心向量進(jìn)行修正,這樣做的好處是減少了誤分樣本的數(shù)量,從而加快了迭代收斂的速度.

      時(shí)間復(fù)雜度.IACC_SV算法的時(shí)間由2部分組成:第1部分為獲得支持向量SV所需的時(shí)間;第2部分為迭代修正質(zhì)心向量所需的時(shí)間,與|SV|成線性關(guān)系.因此IACC_SV算法訓(xùn)練時(shí)間近似于SVMs的訓(xùn)練時(shí)間.分類預(yù)測時(shí)間復(fù)雜度為O(|T|KW),其中|T|為測試集T的樣本總數(shù),K為類別總數(shù),W為單詞總數(shù).

      3 實(shí)驗(yàn)環(huán)境

      3.1 實(shí)驗(yàn)語料

      實(shí)驗(yàn)語料共 8 個(gè)常用的文本數(shù)據(jù)集[1,5-7,12],表1列出了所有數(shù)據(jù)集的基本信息,其中變異系數(shù)(CV,Coefficient of Variation)[16]的值越大,說明數(shù)據(jù)集越不均衡.

      表1 8個(gè)文本語料集基本信息

      Reuters-21578[17]根據(jù)“ModApte”劃分得到單標(biāo)簽語料共9100篇文檔,52個(gè)類別.通過??吭~過濾、詞根還原等文檔預(yù)處理,總的單詞數(shù)是 27953.通過刪除重復(fù)文檔,20Newsgroup[18]得到18828個(gè)文檔,訓(xùn)練集和測試集按2∶1的比例隨機(jī)劃分,最終的單詞總數(shù)為178456.

      從 Tmdata[15]中選取 oh0,wap,fbis,tr11,tr21和tr23共6個(gè)語料,其特征維數(shù)分別為3 182,8460,2000,6429,7902 及5832.在每次實(shí)驗(yàn)中,訓(xùn)練集與測試集按4∶1的比例隨機(jī)劃分[3].對于Tmdata中的數(shù)據(jù)集,采用10次實(shí)驗(yàn)取平均值的方式獲得宏平均F1(macro-F1)與微平均F1(micro-F1)[19].

      3.2 分 類 器

      為了比較分類算法的性能,設(shè)計(jì)實(shí)現(xiàn)了一系列的分類器,分別是支持向量機(jī)(SVMs)[11-12,20],加權(quán) k 近鄰(kNN)[21],經(jīng)典的質(zhì)心算法(CC)[3],批量更新的質(zhì)心算法(BUCC)[6-7],迭代修正質(zhì)心(IACC)算法,基于支持向量的質(zhì)心分類器 (CC_SV),基于支持向量的迭代修正質(zhì)心分類器(IACC_SV).其中SVMs分類器采用開源軟件LIBSVM[22]實(shí)現(xiàn),選擇線性核函數(shù),并使用 5-fold交叉驗(yàn)證獲取最佳參數(shù)C;其余的分類器采用Java編程實(shí)現(xiàn).對于 kNN 分類器,設(shè)定 k=10[3].BUCC的參數(shù)“Learnrate”根據(jù)文獻(xiàn)[6]中的建議設(shè)為0.5.CC_SV與IACC_SV都是采用支持向量作為算法的輸入,除了后者采用迭代修正策略來調(diào)整質(zhì)心向量.

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 支持向量的作用

      為了驗(yàn)證支持向量在CC的積極作用,首先比較CC與CC_SV在8個(gè)數(shù)據(jù)集上的性能.圖2展示了在macro-F1指標(biāo)上的比較.很明顯,在所有的8個(gè)數(shù)據(jù)集中,CC_SV在6個(gè)數(shù)據(jù)集上的性能要優(yōu)于CC,僅有2個(gè)略劣于CC分類器 (tr21與tr11).在micro-F1指標(biāo)上的比較結(jié)果如圖3所示,再一次驗(yàn)證了支持向量在質(zhì)心分類器中起到的積極作用.相比于傳統(tǒng)的CC算法,通過使用支持向量作為質(zhì)心分類算法的輸入,CC_SV算法在Reuters-21578語料上的macro-F1與micro-F1分別提高4.3%和3.2%,而在20 Newsgroup語料上的提高分別是2.2%與2.4%.

      圖2 采用支持向量與采用全部樣本的macro-F1比較圖

      圖3 采用支持向量與采用全部樣本的micro-F1比較圖

      進(jìn)一步觀察到在迭代修正質(zhì)心分類中,支持向量的作用仍然是正面的.如圖2與圖3所示,IACC_SV在7個(gè)數(shù)據(jù)集上取得優(yōu)于IACC算法的macro-F1和 micro-F1,除了 oh0.盡管 IACC_SV 提高的程度不如CC_SV和CC之間的明顯.

      總之,使用支持向量來構(gòu)造質(zhì)心向量確實(shí)能夠提高質(zhì)心分類算法的泛化能力,這也回答了前面提出的問題1,即在文本分類中計(jì)算初始質(zhì)心向量時(shí)選擇部分實(shí)例要優(yōu)于選擇全部實(shí)例.

      4.2 迭代修正策略的作用

      圖4與圖5顯示了CC_SV與IACC_SV在macro-F1及micro-F1上的性能比較圖,其中迭代次數(shù)m設(shè)為3.圖中可見,IACC_SV算法在8個(gè)數(shù)據(jù)集上都要優(yōu)于CC_SV算法.相比于CC_SV算法,IACC_SV算法在tr23語料庫上將macro-F1提高了8%,在Reuters-21578,fbis及tr21提高了5%;而對于micro-F1,IACC_SV在5個(gè)數(shù)據(jù)集上相比于CC_SV算法提高了3%,分別是Reuters-21578,20 Newsgroup,fbis,tr21 與 tr23.值得注意的是,迭代修正策略也有助于經(jīng)典的質(zhì)心分類算法CC性能的提高.從圖2和圖3可知,IACC算法的性能要優(yōu)于CC算法.這些結(jié)果說明,利用訓(xùn)練集誤差來迭代修正質(zhì)心向量的方法能夠提高基于質(zhì)心的分類器的性能和分類預(yù)測的準(zhǔn)確率.

      圖4 CC_SV與IACC_SV在macro-F1上的比較圖

      圖5 CC_SV與IACC_SV在micro-F1上的比較圖

      4.3 參數(shù)確定

      IACC_SV算法中,質(zhì)心向量的最大迭代次數(shù),即參數(shù)m,是需要人為設(shè)定的.越大的m意味著更多的時(shí)間消耗并且有可能導(dǎo)致過度擬合.圖6給出了 IACC_SV算法的準(zhǔn)確率在Reuters-21578與fbis上隨參數(shù)m遞增的變化情況.可以看出,當(dāng)m由0增加到1時(shí),IACC_SV算法的準(zhǔn)確率提高比較明顯,然而當(dāng)m>1,分類器的性能提升就趨向于平穩(wěn).例如,在Reuters-21578數(shù)據(jù)集上,當(dāng)m=3時(shí),IACC_SV算法取得最高的準(zhǔn)確率:93.6%,大約比CC_SV算法提高5.4%;當(dāng)m>3時(shí),分類器的準(zhǔn)確率的提高趨于平穩(wěn)甚至降低.相似的結(jié)果同樣發(fā)生在fbis語料集上.因此,在所有實(shí)驗(yàn)中,將參數(shù)m的值設(shè)定為3.

      圖6 最大迭代次數(shù)m對分類算法準(zhǔn)確率的影響

      4.4 與其他分類算法的比較

      本節(jié)繼續(xù)比較IACC_SV算法與其他分類算法的性能比較,表2列出了5種分類算法的macro-F1值.從表中可以看出,在8個(gè)語料集上,IACC_SV,SVMs,BUCC,CC 分別完成 6,2,1 與 1個(gè)最優(yōu)macro-F1,而kNN沒有取得最優(yōu)結(jié)果.最優(yōu)結(jié)果用粗體標(biāo)出.

      表2 5種分類算法的macro-F1比較

      首先,8個(gè)語料集上,IACC_SV在7個(gè)語料集上的macro-F1值都高于SVMs分類器,除了20 Newsgroup,并且在某些語料集上IACC_SV算法的提高幅度很明顯.例如,在不均衡的 Reuters-21578數(shù)據(jù)集上,IACC_SV算法較SVMs算法提高了6%,同樣在不均衡tr21語料集上,提高幅度高達(dá) 8%,這種提高主要是基于 2個(gè)方面:①SVMs分類算法是一個(gè)全局最優(yōu)的算法,它可能導(dǎo)致分類器對于稀有類別的嚴(yán)重誤分;②macro-F1給每個(gè)類別賦予相同的權(quán)重,因而可以懲罰分類器在稀有類別上的分類錯(cuò)誤率.

      接下來,比較IACC_SV與BUCC的性能,兩者的不同是BUCC采用全部訓(xùn)練實(shí)例作為算法輸入并且其迭代修正的公式與IACC_SV算法略有不同,其迭代公式參見文獻(xiàn)[6].從表2中可知,IACC_SV算法在7個(gè)數(shù)據(jù)集上的macro-F1值高于BUCC算法,這也驗(yàn)證了使用訓(xùn)練實(shí)例的子集,比如支持向量,可以提高CC的分類準(zhǔn)確率.

      IACC_SV算法要明顯地提高經(jīng)典的CC算法的性能,特別是在 Reuters-21578,20Newsgroup,fbis,tr21及tr23等5個(gè)數(shù)據(jù)集上.例如,相比于經(jīng)典的CC算法,IACC_SV算法在 tr23語料庫上提高了10%,在 Reuters-21578語料庫上提高了8.8%,在20Newsgroup,fbis及tr21等3個(gè)語料庫上提高了5%.但是,IACC_SV算法在oh0上的性能與CC相同,這是由于迭代次數(shù)過多引起的過度擬合問題,如果將IACC_SV算法的迭代次數(shù)由3次變?yōu)?次,那么IACC_SV算法在上述語料集上的性能就高于CC算法.

      最后,從表2最后一行可知,在平均macro-F1上,本文提出的IACC_SV算法在比SVMs,kNN,CC,BUCC 分別提高 2.7%,9%,4.6% 和 1.3%,因此IACC_SV算法優(yōu)于其他的分類算法.

      5種分類器的micro-F1值如表3所示,在所有的8個(gè)數(shù)據(jù)集上,IACC_SV,SVMs及CC分別完成了5,2及1個(gè)最好的結(jié)果.可以看到IACC_SV算法在 micro-F1指標(biāo)上同樣優(yōu)于BUCC,CC及kNN等3種分類算法.然而,IACC_SV與SVMs在micro-F1指標(biāo)上的比較不同于macro-F1指標(biāo),兩者在micro-F1上的差異要小的多.這是因?yàn)閙icro-F1指標(biāo)給每個(gè)測試實(shí)例的權(quán)重相同,而不考慮類別特性,這就抵消了算法在稀有類別上較差的結(jié)果.同時(shí),當(dāng)SVMs取得最優(yōu)結(jié)果的時(shí)候,IACC_SV算法都取得了次優(yōu)的結(jié)果.在平均micro-F1上,IACC_SV 算法在比 SVMs,kNN,CC,BUCC 分別提高 0.1%,7.1%,4.9%及 1.1%.因此在micro-F1上,IACC_SV算法略優(yōu)于其他的分類算法.

      表3 5種分類算法的micro-F1比較

      在所有的分類算法中,kNN算法的性能最差,IACC_SV算法的分類準(zhǔn)確率與著名的SVMs分類器相接近,并且IACC_SV算法在macro-F1指標(biāo)上要明顯地優(yōu)于SVMs分類算法.因此,本文提出的IACC_SV分類算法借助于SVMs選擇出具有代表性的訓(xùn)練實(shí)例,然后利用迭代修正策略來調(diào)整質(zhì)心向量,新的算法在8個(gè)文本數(shù)據(jù)集上的性能要優(yōu)于 SVMs,BUCC,經(jīng)典的 CC及 kNN算法.

      4.5 在不均衡語料上的性能比較

      IACC_SV算法在處理非均衡語料集的文本分類時(shí)具有很多的優(yōu)勢,選擇了不均衡的語料集tr21,對應(yīng)CV值為1.553.表4列出了5種分類算法在不均衡語料tr21中每個(gè)類別(只統(tǒng)計(jì)前4大類,第5、第6類由于文檔數(shù)太小,不具統(tǒng)計(jì)意義而過濾掉)的F1值,其中|Tr|與|Te|分別表示該類訓(xùn)練集文檔數(shù)及測試集文檔數(shù),從表中可以看出該語料集為一個(gè)不均衡的數(shù)據(jù)集.可以看到,IACC_SV在每個(gè)類別上的F1值都高于其他的分類算法;SVMs在大類上 (No.1)的準(zhǔn)確率接近于IACC_SV算法,但是其在稀有類別上的準(zhǔn)確率要明顯地低于IACC_SV算法.整體上,IACC_SV算法比SVMs算法的平均F1高出10%.

      表4 不均衡語料集tr21上的F1比較

      5 結(jié)論

      本文提出一種基于支持向量的迭代修正質(zhì)心文本分類算法.該算法通過使用線性SVMs選出的支持向量作為質(zhì)心分類算法的輸入,并通過訓(xùn)練集誤分樣本來迭代修正初始的質(zhì)心向量.新的算法在8個(gè)常用文本語料的分類效果要優(yōu)于使用最佳參數(shù)訓(xùn)練的線性SVMs,BUCC,kNN及傳統(tǒng)的質(zhì)心分類算法,驗(yàn)證了新算法的有效性.特別是在非均衡語料集上的性能要明顯地優(yōu)于SVMs分類器及k最近鄰分類.

      References)

      [1]Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47

      [2]Wang D,Zhang H,Liu R,et al.Predicting bugs’components via mining bug reports [J].JournalofSoftware,2012,7(5):1149-1154

      [3]Han E H,Karypis G.Centroid-based document classification:analysis & experimental results[C]//Proceedings of PKDD’00.London:Springer-Verlag,2000:424-431

      [4]Tam V,Santoso A,Setiono R.A comparative study of centroidbased,neighborhood-based and statistical approaches for effective document categorization[C]//Proceedings of 16th ICPR.Washington:IEEE Computer Society,2002:235-238

      [5]Guan H,Zhou J,Guo M.A class-feature-centroid classifier for text categorization[C]//Proceedings of WWW.New York:ACM,2009:201-210

      [6]Tan S.An improved centroid classifier for text categorization[J].Expert Systems with Applications,2008,35(1/2):1279-1285

      [7]Tan S,Wang Y,Wu G.Adapting centroid classifier for document categorization [J]. Expert Systems with Applications,2011,38(8):10264-10273

      [8]Lertnattee V,Theeramunkong T.Effect of term distributions on centroid-based text categorization[J].Information Sciences,2004,158:89-115

      [9]Shankar S,Karypis G.Weight adjustment schemes for a centroid based classifier[R].TR 00-035,2000

      [10]Foody G M.Issues in training set selection and refinement for classification by a feedforward neuralnetwork[C]//Proceedings of IGARSS.Seattle:IEEE,1998:409-411

      [11]Cortes C,Vapnik V.Support-vector networks[J].Machine Learning,1995,20:273-297

      [12]Joachims T.Text categorization with support vector machines[R].TR-23,University of Dortmund,1997

      [13]Salton G,Buckley C.Term-weighting approaches in automatic text retrieval[J].Information Processing & Management,1988,24(5):513-523

      [14]Jones K S.A statistical interpretation of term specificity and its application in retrieval[J].J Documentation,1972,28(1):11-21

      [15]HanE H.Tmdata[DB/OL].Minnesota:Universityof Minnesota,2000[2011-07-02].http://www.cs.umn.edu/~han/data/tmdata.tar.gz

      [16]Xiong H,Wu J,Chen J.K-means clustering versus validation measures:a data-distribution perspective[J].IEEE Transactions on Systems,Man,and Cybernetics Part B,2009,39(2):318-331

      [17]Lewis D.Reuters-21578[DB/OL].Dublin:Trinty College,2007[2011-07-01].http://ronaldo.cs.tcd.ie/esslli07/sw/step01.tgz

      [18]Lang Ken. 20Newsgroup [ DB/OL ]. Massachusetts:Massachusetts Institute of Technology,2007[2011-07-01].http://people.csail.mit.edu/jrennie/20Newsgroups/

      [19]Lewis D D.Evaluating and optimizing autonomous text classification systems[C]//Proceedings of 18thSIGIR.New York:ACM,1995:246-254

      [20]Yu H,Hsieh C J,Chang K W,et al.Large linear classification when data cannot fit in memory[C]//Proceedings of KDD'10.New York:ACM,2010:833-842

      [21]Yang Y,Liu X.A re-examination of text categorization methods[C]//ProceedingsofSIGIR ’99.New York:ACM,1999:42-49

      [22]Chang C C,Lin C J.Libsvm:a library for support vector machines[CP/OL].Taiwan:Department of Computer Science and Information Engineering,National Taiwan University,2001[2011-07-01].http://www.csie.ntu.edu.tw/~ cjlin/libsvm

      猜你喜歡
      集上質(zhì)心語料
      重型半掛汽車質(zhì)量與質(zhì)心位置估計(jì)
      基于GNSS測量的天宮二號質(zhì)心確定
      Cookie-Cutter集上的Gibbs測度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      復(fù)扇形指標(biāo)集上的分布混沌
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      一種海洋測高衛(wèi)星質(zhì)心在軌估計(jì)算法
      航天器工程(2014年5期)2014-03-11 16:35:53
      万载县| 隆安县| 大悟县| 察隅县| 河北区| 正定县| 塔河县| 什邡市| 盐池县| 潞西市| 江达县| 札达县| 纳雍县| 正宁县| 科技| 甘洛县| 郯城县| 莱阳市| 九寨沟县| 宜兴市| 汝州市| 奉贤区| 赣榆县| 井冈山市| 敦煌市| 济南市| 普格县| 台湾省| 桂平市| 当涂县| 嫩江县| 汾阳市| 九龙坡区| 拉孜县| 新蔡县| 洪江市| 芦山县| 宁明县| 胶南市| 桦川县| 延寿县|