• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征選擇的M-SVM中文文本分類

      2019-11-14 08:17劉永芬程麗陳志安
      軟件 2019年9期
      關(guān)鍵詞:特征選擇分詞文檔

      劉永芬 程麗 陳志安

      摘 ?要: 在文本分類領(lǐng)域,中文文本需要經(jīng)過數(shù)據(jù)處理,將文檔表達(dá)成計(jì)算機(jī)可以理解并處理的信息。本文采用TF-IDF作為文本表示方法,針對(duì)中文文章的多分類問題,對(duì)傳統(tǒng)支持向量機(jī)進(jìn)行改進(jìn),提出了一種基于特征選擇的多類支持向量機(jī)分類方法。在中文文章數(shù)據(jù)集的對(duì)比實(shí)驗(yàn)結(jié)果表明,本文的方法在多分類性能上較優(yōu)于其他模式識(shí)別方法。

      關(guān)鍵詞?M-SVM;特征選擇;中文文本分類

      中圖分類號(hào): TP391????文獻(xiàn)標(biāo)識(shí)碼?A????DOI:10.3969/j.issn.1003-6970.2019.09.016

      本文著錄格式:劉永芬,程麗,陳志安. 基于特征選擇的M-SVM中文文本分類[J]. 軟件,2019,40(9):71-74

      Chinese Text Classification of M-SVM Based on Feature Selection

      LIU Yong-fen1,?CHENG Li1,?CHEN Zhi-an2

      (1.?Jinshan College of Fujian Agricultural and Forestry University, Fuzhou Fujian 350002;2.?China Mobile Communication Group Company Limited Fujian Branch, Fuzhou Fujian 350001)

      Abstract: In the field of text classification, Chinese text needs to be processed through data processing, and the document can be reached into information that can be understood and processed by computer. In this paper, TF-IDF is used as the text representation method to improve the traditional support vector machine (SVM) for the multi-classification problem of Chinese articles, and a multi-class support vector machine classification method based on feature selection is proposed. The experimental results show that the proposed method is superior to other pattern recognition methods in multi-classification performance.

      Key words: Feature selection;?Chinese text classification

      0??引言

      在網(wǎng)絡(luò)信息高速傳輸并呈爆炸式增長(zhǎng)的時(shí)代,中文信息處理也迎來了前所未有的挑戰(zhàn)?;ヂ?lián)網(wǎng)產(chǎn)生的文本數(shù)據(jù)呈現(xiàn)出半結(jié)構(gòu)化或非結(jié)構(gòu)化等特點(diǎn)[1],不利于計(jì)算機(jī)直接處理,因此如何從互聯(lián)網(wǎng)中文信息中獲取知識(shí),快速有效地組織成用戶所需的信息成為文本挖掘的主要任務(wù)。自動(dòng)文本分類作為其中的一個(gè)重要分支,也逐漸成為學(xué)者們研究的熱點(diǎn)。支持向量機(jī)SVM由Cortes在1995年提出的[2],基本思想是通過構(gòu)造一個(gè)非線性的超平面,實(shí)現(xiàn)對(duì)輸入空間的分類。支持向量機(jī)的求解主要是解決二次規(guī)劃優(yōu)化問題,通過求解得到的支持向量所描述的最大邊緣間隔來區(qū)分兩類,當(dāng)數(shù)據(jù)集特征較稀疏時(shí),SVM也擁有較好的分類能力[3]。許多學(xué)者將其應(yīng)用于圖像處理、人臉識(shí)別、仿真預(yù)測(cè)等領(lǐng)域[4-5]。Goudjil等[6]提出了一種新的基于SVM的文本分類主動(dòng)學(xué)習(xí)方法,實(shí)驗(yàn)表明將SVM應(yīng)用于文本分類領(lǐng)域的可行性。Zainuddin等[7]通過實(shí)驗(yàn)證明特征選擇在情感分析中起到了重要的作用。陳海紅[8]將多核SVM應(yīng)用于文本分類。也有學(xué)者提出了一種將SVM與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的分類方法[9]。王非[10]提出了基于微博的情感新詞發(fā)現(xiàn)方法。然而多數(shù)文獻(xiàn)將SVM應(yīng)用于英文文本分類,而情感分析通常是二分類問題,針對(duì)中文文章分類的多類問題還需要將傳統(tǒng)的二分SVM算法進(jìn)行改進(jìn),以期能夠解決序列數(shù)據(jù)的多分類問題。

      為此,本文提出了一種基于特征選擇的M-SVM中文文章多分類方法。通過文本預(yù)處理,對(duì)文章進(jìn)行分詞、去除停用詞,設(shè)置最小/最大文檔頻率閾值進(jìn)行特征選擇,將文本的TF-IDF特征表示作為層次SVM分類模型的輸入。通過多次對(duì)比實(shí)驗(yàn)實(shí)驗(yàn)結(jié)果表明,本文的方法較其他方法具有較高的分類精度。

      1??文本預(yù)處理

      1.1中文分詞

      在自然語(yǔ)言處理技術(shù)中,由于英文每個(gè)單詞間都以空格作為分隔符,因此處理英文文本并對(duì)一篇英文文章提取特征要比處理中文文本簡(jiǎn)單許多。中文文本中字字相連,詞和詞組的邊界模糊,要獲取特征必須有分詞這道工序。不同的中文分詞方法會(huì)產(chǎn)生不同的切分效果,例如語(yǔ)句“你說的確實(shí)在理”,存在多種切分,分成的詞可能的情況有?“的確”、“確實(shí)”、“實(shí)在”,然而結(jié)合語(yǔ)義,將語(yǔ)句分為“你說的/確實(shí)/在理”更為恰當(dāng)。再如語(yǔ)句“2018年底部隊(duì)友誼球賽”,可能存在的歧義有“底部”、“部隊(duì)”、“隊(duì)友”,而分詞不能曲解原文的含義,因此尋找一個(gè)合適的分詞方法顯得尤為重要。jieba分詞采用一種有序的字典樹構(gòu)造詞條字典,用于保存關(guān)聯(lián)數(shù)組,通過該技術(shù)分詞的結(jié)果為“2018/年底/部隊(duì)/友誼/球賽”,由此可見該分詞方法在一定程度上有效地解決了交叉歧義的問題。

      1.2?TF-IDF文本表示

      TF-IDF是一種統(tǒng)計(jì)方法,在給定的語(yǔ)料中,TF(Term Frequency)詞頻指的是特定詞語(yǔ)在文檔中出現(xiàn)的次數(shù)除以文檔的詞語(yǔ)總數(shù)。IDF(Inverse Document Frequency)逆向文檔頻率指數(shù)表示一個(gè)詞語(yǔ)的權(quán)重指數(shù),可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,再取對(duì)數(shù)得到。計(jì)算出每個(gè)詞的詞頻和權(quán)重指數(shù)后相乘,可得到該詞在文檔中的重要程度。如果某一特定語(yǔ)料中的有一個(gè)詞有高詞語(yǔ)頻率,以及該詞語(yǔ)在整個(gè)語(yǔ)料中的低文件頻率,可以得到較高的TF-IDF值[11]

      1.3特征選擇

      特征選擇就是從一組特征集(包含特征數(shù)量為m)中挑選出一些最有效的特征特征子集(包含特征數(shù)量為d)以達(dá)到降低特征空間維度的目的,即建立一個(gè)從高維特征空間到低維特征空間的映射f:Rm→Rd,其中d2??SVM算法

      傳統(tǒng)SVM算法假設(shè)分類問題在H上是線性可分的,那么在H空間中構(gòu)造最優(yōu)超平面為:

      (1)

      求解的初始優(yōu)化問題轉(zhuǎn)化為:

      (2)

      其中,C為懲罰因子,表示對(duì)錯(cuò)分樣本的懲罰程度,C值越大,對(duì)目標(biāo)函數(shù)的損失也越大。上式的求解在保持基于VC維的上界小的基礎(chǔ)上,通過最小化達(dá)到經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化。引入松弛變量能夠消除個(gè)別樣本點(diǎn)對(duì)分類器的不良影響,在訓(xùn)練錯(cuò)誤和泛化能力間有所折中,所以它具有一定的魯棒性。滿足式(2)中約束條件的最小松弛變量為:

      (3)

      從圖1-3可以看出,(1)當(dāng)=0時(shí),表示樣本點(diǎn)位于分類邊界之外或者在邊界上,分類正確;(2)當(dāng)0<1時(shí),表示樣本點(diǎn)位于分類面內(nèi),分類正確;(3)當(dāng)>1時(shí),樣本點(diǎn)被錯(cuò)誤分類。

      對(duì)偶問題為:

      (4)

      通過非線性映射::Rm→Hx→,將輸入空間映射到Hilbert 空間H中,如果高維空間中只涉及的內(nèi)積運(yùn)算,即,而沒有單獨(dú)的出現(xiàn),則可以用原始空間的函數(shù)實(shí)現(xiàn)高維空間的這種內(nèi)積運(yùn)算,無需知道非線性映射的具體形式。根據(jù)泛函的有關(guān)理論,只要一種核函數(shù)Kxi,xj)滿足Mercer條件[12],它就對(duì)應(yīng)某一變換空間中的內(nèi)積,使得

      (5)

      因此,非線性支持向量機(jī)對(duì)應(yīng)的判別函數(shù)為:

      (6)

      根據(jù)Hilbert-Schmidt理論,核函數(shù)是滿足Mercer條件的任意對(duì)稱函數(shù)。常見的核函數(shù)如下:

      (1)poly多項(xiàng)式核函數(shù):,d表示多項(xiàng)式的梯度。

      (2)Sigmoid感知核函數(shù):

      (3)高斯核函數(shù):

      最常用是高斯核函數(shù),此外,還有疊加核函數(shù)、樣條核函數(shù)和傅里葉序列等。由于支持向量機(jī)允許使用不同的核函數(shù),即允許使用不同的假設(shè)空間,所以它在解決多樣應(yīng)用問題時(shí),具有一定的柔韌性。顯然,支持向量機(jī)的魯棒性和柔韌性也是我們?cè)O(shè)計(jì)解決其他問題算法時(shí)所渴求的[13]。然而傳統(tǒng)的SVM只能解決二值問題,針對(duì)多類別文本分類問題,還需對(duì)其進(jìn)行改進(jìn)。

      3 ?M-SVM算法

      針對(duì)多類問題,彌補(bǔ)現(xiàn)有多類支持向量機(jī)算法的不足,本文提出了一種多類支持向量機(jī)M-SVM(Multiclass Support Vector Machine)方法。首先將所有類別分成兩個(gè)子類,再將子類進(jìn)一步劃分成兩個(gè)次級(jí)子類,如此循環(huán)直到每個(gè)子類只包含一個(gè)單獨(dú)的類別為止,包含了不同類別的子類作為層次樹的分支結(jié)點(diǎn),只包含一類樣本的子類作為層次樹的葉子結(jié)點(diǎn),從而形成了層次樹結(jié)構(gòu)模型。從某種程度上說,層次樹模型是一種先驗(yàn)知識(shí),其作用是指導(dǎo)支持向量機(jī)對(duì)待測(cè)樣本做最后的分類。多類支持向量機(jī)的訓(xùn)練過程如圖2所示。

      對(duì)于待測(cè)樣本x,先從根結(jié)點(diǎn)分類器對(duì)其進(jìn)行劃分,根據(jù)判別函數(shù)將其歸為左子結(jié)點(diǎn)或者右子結(jié)點(diǎn),逐層往下直至待測(cè)樣本x被分配到某個(gè)葉子結(jié)點(diǎn),則將待測(cè)樣本x歸到葉子結(jié)點(diǎn)所屬的類別,分類過程結(jié)束。

      4??實(shí)驗(yàn)結(jié)果與分析

      實(shí)驗(yàn)數(shù)據(jù)為搜狐文章語(yǔ)料庫(kù)24000篇文章,包含教育、新聞、體育、科技、健康、財(cái)經(jīng)等12個(gè)類別,每篇文章采用jieba進(jìn)行中文分詞處理,對(duì)去除停用詞后的數(shù)據(jù)運(yùn)用TF-IDF對(duì)語(yǔ)料中的每一篇文章進(jìn)行特征表示。M-SVM根據(jù)設(shè)置min_df,max_df等不同的參數(shù),得到不同的分類精度。DF表示在語(yǔ)料中出現(xiàn)過某個(gè)詞的文檔數(shù)量,通過特征選擇,忽略低于min_df文檔頻率以及高于max_df文檔頻率的詞,得到特征選擇后的文檔TF-IDF特征表示,取數(shù)據(jù)集中90%作為訓(xùn)練集數(shù)據(jù)和10%作為測(cè)試集數(shù)據(jù)。通過多次實(shí)驗(yàn)得到以下分類精度,如圖3所示。

      從結(jié)果中我們發(fā)現(xiàn)隨著特征數(shù)的增加,模型分類精度呈曲線上升趨勢(shì),當(dāng)特征數(shù)達(dá)到16111時(shí),分類精度達(dá)到最高,接著精度隨特征數(shù)的增加略有下降。由此可知,對(duì)于語(yǔ)料中每篇文章按照一定的特征選擇方法,選擇出最能代表該文章的詞,對(duì)于提高模型分類性能以及運(yùn)行速度都具有很大的幫助。

      再按照不同的訓(xùn)練集和測(cè)試集占比進(jìn)行多次實(shí)驗(yàn),并與Naive Bayes分類方法進(jìn)行對(duì)比實(shí)驗(yàn)。經(jīng)過多次實(shí)驗(yàn)對(duì)比,取各方法在當(dāng)前數(shù)據(jù)集分類中表現(xiàn)最優(yōu)的參數(shù),其中min_df取40, max_df=3000;M-SVM的參數(shù)C設(shè)置為1,另外,gamma值太大容易造成過擬合,太小高斯核函數(shù)會(huì)退化成線性核函數(shù),本文采用gamma值為0.5的高斯核函數(shù);Naive Bayes的平滑參數(shù)alpha設(shè)置為1.5,通過調(diào)整訓(xùn)練樣本與測(cè)試樣本之間的占比,得到各方法的分類精度如表所示。

      從實(shí)驗(yàn)結(jié)果可知,隨著訓(xùn)練數(shù)據(jù)越來越多,模型的分類精度也隨著提高,其中M-SVM的在訓(xùn)練集樣本占所有數(shù)據(jù)比例90%時(shí),具有最好的文本分類效果。

      5??總結(jié)

      本文提出了一種基于特征選擇的多類SVM方法,并與傳統(tǒng)貝葉斯方法進(jìn)行了比較實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法在長(zhǎng)文本分類中取得了較好的效果,它較大程度地提高中文文本的分類精度。在當(dāng)前數(shù)據(jù)集中的實(shí)驗(yàn)可得,當(dāng)文本特征數(shù)16111,訓(xùn)練集數(shù)據(jù)占90%時(shí),模型具有較高的分類精度。由此可見,在訓(xùn)練數(shù)據(jù)較多的情況下,對(duì)于高維度數(shù)據(jù)采用一定的特征選擇方法,選取最有代表性的特征來對(duì)文本進(jìn)行表示,模型能夠輸出較好的分類性能。

      參考文獻(xiàn)

      • 謝子超.?非結(jié)構(gòu)化文本的自動(dòng)分類檢索平臺(tái)的研究與實(shí)現(xiàn)

      [J].?軟件,?2015,?36(11):?112-114.

      [2]?Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3):?273-297.

      [3]?Joachims T.?Text categorization with Support Vector Machines: Learning with Many Relevant Features[M]. Machine?Learning: ECML-98. Springer Berlin Heidelberg, 1999: 137-?142.

      [4]?祁亨年.?支持向量機(jī)及其應(yīng)用研究綜述[J].?計(jì)算機(jī)工程, 2004, 30(10): 6-9.

      [5]?聶敬云,?李春青,?李威威, 等. 關(guān)于遺傳算法優(yōu)化的最小二乘支持向量機(jī)在MBR仿真預(yù)測(cè)中的研究[J]. 軟件,?2015,?36(5):?40-44.

      [6]?Goudjil M, Koudil M, Bedda M, et al. A Novel Active Learning Method Using SVM for Text Classification[J]. International Journal of Automation and Computing, 2018, v.15(03):?44-52.

      [7]?Zainuddin N, Selamat A, Ibrahim R. Twitter Feature Selection and Classification Using Suport Vector Machine for Aspect-Based Sentiment Analysis[M].Trends in Applied Knowledge-Based Systems and Data Science. 2016, v.9799:?269-279.

      [8]?陳海紅. 多核SVM文本分類研究[J].?軟件,?2015,?36(5):?7-10.

      [9]?王宏濤,?孫劍偉. 基于BP神經(jīng)網(wǎng)絡(luò)SVM的分類方法研究[J].?軟件,?2015,?36(11):?96-99.

      [10]?王非. 基于微博的情感新詞發(fā)現(xiàn)研究[J].?軟件,?2015,?36(11):?06-08.

      [11]?Trstenjak B,?Mikac S,?Donko D.KNN with TF-IDF based Framework for Text Categorization[J]. Procedia Engineering, 2014, 69:?1356-1364.

      [12]?Burges C. A Tutorial on Support Vector Machines for Pattern Recognition[J]. Data Mining and Knowledge Discovery, 1998, 2(2):?121-167.

      [13]?Amari S, Wu S. Improving support vector machine classifiers by modifying kernel functions[J]. Neural Networks, 1999, 12(6):?783-789.

      猜你喜歡
      特征選擇分詞文檔
      淺談Matlab與Word文檔的應(yīng)用接口
      有人一聲不吭向你扔了個(gè)文檔
      分詞在英語(yǔ)教學(xué)中的妙用
      Kmeans 應(yīng)用與特征選擇
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
      基于二元搭配詞的微博情感特征選擇
      論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
      平度市| 左云县| 高碑店市| 南昌市| 霍邱县| 九龙坡区| 德格县| 理塘县| 来安县| 凯里市| 贞丰县| 定安县| 漳州市| 曲阳县| 石楼县| 土默特右旗| 鄂托克前旗| 仁布县| 福清市| 驻马店市| 耿马| 岑溪市| 夹江县| 盱眙县| 博乐市| 胶南市| 潮州市| 威海市| 云林县| 时尚| 阿鲁科尔沁旗| 河南省| 乌兰察布市| 余江县| 绥滨县| 崇明县| 安多县| 博兴县| 宜兰县| 溧阳市| 启东市|