• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      樸素Bayes分類器文本特征向量的參數(shù)優(yōu)化

      2019-11-28 11:41:20方秋蓮王培錦鄭涵穎呂春玥王艷彤
      關(guān)鍵詞:樸素特征向量分類器

      方秋蓮,王培錦,隋 陽,鄭涵穎,呂春玥,王艷彤

      (中南大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,長沙 410083)

      隨著互聯(lián)網(wǎng)的迅猛發(fā)展,產(chǎn)生了大量的文本數(shù)據(jù),處理文本數(shù)據(jù)的基礎(chǔ)是文本分類.在文本數(shù)據(jù)中多數(shù)為新聞數(shù)據(jù),目前新聞文本數(shù)據(jù)的分類仍采用由編輯者進(jìn)行人工分類的方法,這種方法不僅耗費(fèi)了大量人力、物力,而且可能存在分類結(jié)果不一致的情況[1],因此急需建立一個(gè)自動文本分類器解決上述問題.

      一個(gè)文本分類器的實(shí)現(xiàn)主要包括下列3個(gè)步驟:1) 特征提取;2) 建立分類器;3) 結(jié)果輸出.在特征提取方面,常用的方法有文檔頻率(document frequency,DF)法、信息增益(information gain,IG)法、互信息(mutual information,MI)法以及TFIDF(term frequency-inverse document frequency)算法等[2].DF法、IG法和MI法都假設(shè)信息量較少的詞對文本的分類過程沒有影響,但這種假設(shè)在分類問題中通常并不成立,所以在實(shí)際應(yīng)用中其很少被單獨(dú)使用.而TFIDF算法的優(yōu)勢是其能同時(shí)考慮到低頻詞和高頻詞對分類過程的影響,因此其特征向量提取的效果相對較好.在建立分類器方面,目前較流行的分類算法有最小距離分類器、K-最近鄰分類器和樸素Bayes分類器等.最小距離分類器適用于類間間距大、類內(nèi)間距小的樣本[3];K-最近鄰分類器中K的選擇存在較大的主觀性;而樸素Bayes分類器適用于一般分類樣本且不受主觀因素影響,所以被廣泛應(yīng)用.在結(jié)果輸出方面,通常用準(zhǔn)確率或查全率評價(jià)分類器的優(yōu)劣,而為了更全面地研究分類器的輸出結(jié)果,龐劍鋒等[4]將兩者結(jié)合提出了檢測結(jié)果更精準(zhǔn)的F1測試值指標(biāo).

      本文考慮樸素Bayes文本分類器對中文新聞文本的分類問題,使用N-gram算法和TFIDF算法提取文本的特征向量,通過Python軟件實(shí)現(xiàn)對中文新聞文本的自動分類.在參數(shù)選擇方面,本文討論了N-gram算法的參數(shù)N、特征向量長度及特征項(xiàng)詞性等對文本分類效果的影響,并得到了參數(shù)的最佳取值.

      1 特征向量提取

      在處理中文文本時(shí),為了增加文本對計(jì)算機(jī)的可讀性,通常選擇對文本進(jìn)行向量化處理,如將文本d用向量V表示,記為V=(v1,v2,…,vn),其中vi是第i個(gè)特征項(xiàng).在提取特征項(xiàng)時(shí),需選擇一個(gè)合適的特征項(xiàng),使其既能體現(xiàn)所屬類別的特點(diǎn),又能區(qū)別于其他類別.由于中文文本沒有像英文文本一樣的自然分詞,所以在提取特征向量前需先對文本進(jìn)行分詞處理,再用N-gram算法提取文本特征向量.在選擇特征項(xiàng)時(shí),還可以考察低頻詞和高頻詞對文本分類結(jié)果產(chǎn)生的不同影響,即使用TFIDF算法提取特征向量.

      1.1 N-gram算法

      當(dāng)分析文中一個(gè)詞出現(xiàn)的概率時(shí),通常假設(shè)該詞出現(xiàn)的概率僅與其前若干個(gè)詞相關(guān),所以可以用條件概率表示該詞的出現(xiàn)概率,于是一個(gè)文本出現(xiàn)的概率可用每個(gè)詞出現(xiàn)概率的乘積表示:

      P(S)=P(w1,w2,…,wn)=P(w1)P(w2|w1)…P(wn|wn-1,…,w1),

      其中:S表示一個(gè)文本;wi(i=1,2,…,n)表示文本中的第i個(gè)詞.

      基于Markov假設(shè)[5]的N-gram算法認(rèn)為在文本中第n個(gè)詞出現(xiàn)的概率僅與其前(N-1)個(gè)詞相關(guān),其中N

      (1)

      同理可得3-gram和4-gram模型.3-gram模型表示為

      P(S)≈P(w1)P(w2)P(w3|w1,w2)…P(wn|wn-1,wn-2);

      4-gram模型表示為

      P(S)≈P(w1)P(w2)P(w3)P(w4|w1,w2,w3)…P(wn|wn-1,wn-2,wn-3).

      在使用N-gram算法對文本進(jìn)行特征提取時(shí),需主觀賦值N.

      1.2 TFIDF基本原理

      TFIDF算法的基本思想是對于一個(gè)在數(shù)據(jù)集中較少見的詞,若其在某文本中頻繁出現(xiàn),則其很可能反映該文本的重要特征[6].

      1.2.1 特征項(xiàng)頻率 特征項(xiàng)頻率(term frequency,TF)用于表示某詞i在文本j中的頻率,記為

      (2)

      1.2.2 反文本頻率 反文本頻率(inverse document frequency,IDF)表示如果一個(gè)詞普遍存在于各類文本中,則該詞對于分類過程不重要[7],詞i的反文本頻率可記為

      (3)

      其中:N表示測試集中總文本數(shù);ni表示包含詞i在測試集中的文本個(gè)數(shù).為使式(3)有意義,引入一個(gè)極小的常數(shù)c[8].于是,TFIDF算法的經(jīng)典計(jì)算公式為

      TFIDFij=TFij×IDFi,

      (4)

      其中,TFIDFij值越大表示詞i對文本j越重要.

      2 Bayes算法

      樸素Bayes分類器在文本分類領(lǐng)域應(yīng)用廣泛,其主要利用文本類別的先驗(yàn)概率和特征向量對類別的條件概率計(jì)算未知文本屬于某一類別的概率.Bayes分類器基于文本特征項(xiàng)間相互獨(dú)立的假設(shè)[9].

      2.1 Bayes基本理論

      給定一個(gè)文本d,特征向量為V=(v1,v2,…,vn),于是d被分類到類別ck的概率為

      (5)

      其中:P(ck)表示類別ck的概率,為避免P(ck)=0,采用Laplace估計(jì)定義概率[8]為

      (6)

      |C|表示訓(xùn)練集中類的數(shù)目,Nck表示類別ck中的文本數(shù)目,Nc表示訓(xùn)練集中總文本數(shù)目;P(d)表示未知文本d屬于某一類別的概率是一個(gè)不變的常數(shù),

      (7)

      P(vi|ck)表示類別ck中文本含有vi的概率,

      (8)

      2.2 樸素Bayes算法

      樸素Bayes算法是基于Bayes基本原理對已有文本的訓(xùn)練算法,其基本思想是計(jì)算未知文本d屬于各類的概率,然后將其歸類于c1,c2,…,cn這n個(gè)類別中的一個(gè),步驟如下:

      1) 利用特征向量提取算法處理待分類文本d,得到特征向量V=(v1,v2,…,vn),由式(8)計(jì)算類別ck中的文本含有vi的概率P(vi|ck),其中:i=1,2,…,|V|;k=1,2,…,Nck;

      2) 根據(jù)式(7)和式(8),計(jì)算先驗(yàn)概率P(ck)和P(d);

      3) 根據(jù)式(5)計(jì)算分類的后驗(yàn)概率,即未知文本屬于各類的概率P(ck|d),并比較其大小,選擇將其劃分到概率最大的一個(gè)類別,公式為

      (9)

      2.3 樸素Bayes分類器設(shè)計(jì)

      圖1 文本分類器流程Fig.1 Flow chart of text classifier

      在建立文本分類器時(shí),通常把工作分為兩部分:第一部分是訓(xùn)練過程,包括訓(xùn)練文本的預(yù)處理和特征抽取;第二部分是新文本的分類過程,包括新文本預(yù)處理和結(jié)果輸出.文本分類器流程如圖1所示.

      在訓(xùn)練文本預(yù)處理階段,先用Python的 jieba分詞組件對訓(xùn)練集文本進(jìn)行分詞處理,同時(shí)去除停用詞和可能存在的空格或標(biāo)點(diǎn)符號;然后將文本打亂,隨機(jī)分成訓(xùn)練集和測試集.在訓(xùn)練集特征抽取時(shí),本文選擇N-gram算法,提取出現(xiàn)詞頻前(N-1)個(gè)詞作為特征項(xiàng)組成各類文本的特征向量.

      在分類過程中,首先對新文本進(jìn)行預(yù)處理,使用TFIDF算法將文本轉(zhuǎn)化成向量的形式,然后利用樸素Bayes文本分類器對新文本進(jìn)行分類.

      3 實(shí) 驗(yàn)

      在樸素Bayes文本分類器中,除數(shù)據(jù)集的容量會影響分類的準(zhǔn)確性外,還有一些相關(guān)參數(shù)的設(shè)定也會對分類效果產(chǎn)生較大影響.本文通過實(shí)驗(yàn)分析以下3個(gè)參數(shù)的取值問題:

      1)N-gram算法中參數(shù)N;

      2) 各類別特征向量長度n;

      3) 特征項(xiàng)的詞性.

      3.1 實(shí)驗(yàn)數(shù)據(jù)集及評價(jià)指標(biāo)

      本文選取近年各大新聞網(wǎng)站的新聞文本,該數(shù)據(jù)集包括汽車、娛樂、軍事、體育、科技等5個(gè)新聞?lì)悇e,每個(gè)類別選取20 000個(gè)新聞文本,隨機(jī)選取66 446個(gè)樣本作為訓(xùn)練集,用于分析gram的長度及特征向量長度對分類結(jié)果的影響.本文重新搜集了80個(gè)測試樣本(新測試樣本與上述數(shù)據(jù)集交集為空),用于分析文本特征項(xiàng)詞性對分類結(jié)果的影響.

      在分析樸素Bayes文本分類器的結(jié)果輸出階段,為同時(shí)考慮準(zhǔn)確率和查全率,本文采用F1指標(biāo)度量分類結(jié)果[3]:

      (10)

      3.2 實(shí)驗(yàn)結(jié)果與分析

      3.2.1 gram長度及特征向量長度 將數(shù)據(jù)集分成由66 446個(gè)文本組成的訓(xùn)練集和33 554個(gè)文本組成的測試集.通過設(shè)置不同的gram長度和特征向量長度,研究相關(guān)參數(shù)的最優(yōu)設(shè)置,所得結(jié)果列于表1.

      表1 不同gram長度及特征向量長度下的分類準(zhǔn)確性

      圖2 不同gram長度和特征向量長度下的分類準(zhǔn)確率Fig.2 Classification accuracy under different gram lengths and feature vector lengths

      由表1可見,對于任意的N-gram模型,如果特征向量的長度小于10 000,則分類器的準(zhǔn)確率都小于0.85.為保證分類器的準(zhǔn)確率,本文僅研究特征向量長度大于10 000的情形.當(dāng)gram長度固定時(shí),特征向量越長分類準(zhǔn)確率越高,但在實(shí)際應(yīng)用中還需考慮時(shí)間成本,因此特征向量不宜過長.

      圖2為不同gram長度和特征向量長度下的分類準(zhǔn)確率.由圖2可見,當(dāng)特征向量的長度從10 000增加到15 000或從20 000增加到25 000時(shí),分類準(zhǔn)確率的增加最明顯,分別提高了0.009 3和0.007 9.

      3.2.2 特征向量詞性 在使用TFIDF算法時(shí),適當(dāng)?shù)剡x擇特征項(xiàng)詞性可在很大程度上降低文本分類的時(shí)間成本,并提高分類準(zhǔn)確率.本文考察了特征項(xiàng)既有名詞和又有動詞、僅為名詞、僅為動詞這3種情況對分類的影響,結(jié)果列于表2.由表2可見:當(dāng)未知文本特征項(xiàng)詞性為動詞和名詞時(shí),樸素Bayes文本分類器的文本正確分類數(shù)量最多,為53個(gè);僅為名詞時(shí)次之,為49個(gè);僅為動詞時(shí)最差,為34個(gè).這主要是因?yàn)樾侣勵(lì)愇谋镜奶卣黜?xiàng)大多數(shù)為名詞,去掉動詞特征項(xiàng)對特征向量影響較小,所以當(dāng)特征項(xiàng)僅為名詞時(shí),正確分類數(shù)量下降不明顯;但若去掉名詞特征項(xiàng)將對特征向量產(chǎn)生巨大影響,進(jìn)而使分類錯(cuò)誤概率極大增加.

      表2 樸素Bayes文本分類器的分類結(jié)果

      表3列出了樸素Bayes文本分類器的分類準(zhǔn)確率、查全率及F1指標(biāo)值.由表3可見,當(dāng)未知文本特征項(xiàng)詞性為動詞和名詞時(shí),F1指標(biāo)值最大為0.662 5,說明分類效果最好;僅為名詞時(shí),分類效果與為動詞和名詞的情況相差較小,達(dá)0.612 5;僅為動詞時(shí)分類效果最差,僅為0.425.所以,在對F1指標(biāo)的大小要求不嚴(yán)格但對訓(xùn)練時(shí)間限制嚴(yán)格的情況下,可以僅選擇名詞作為特征項(xiàng).

      表3 樸素Bayes分類器分類結(jié)果的相關(guān)指標(biāo)

      綜上所述,本文建立了用于處理中文新聞文本分類問題的樸素Bayes文本分類器,在訓(xùn)練階段采用N-gram算法提取各類文本的特征向量,在實(shí)驗(yàn)階段使用TFIDF算法提取未知文本的特征向量.由于N-gram算法處理訓(xùn)練集的速度比TFIDF算法快,所以本文針對不同數(shù)量級的數(shù)據(jù)集采取不同的特征提取算法,即對訓(xùn)練集使用N-gram算法,對未知文本使用TFIDF算法.在此基礎(chǔ)上,本文還考察了構(gòu)建文本分類器中抽取特征向量階段的參數(shù)選擇問題,即N-gram模型中的N、特征向量長度n和特征向量詞性等3個(gè)參數(shù),得出結(jié)論如下:

      1) 對于新聞?lì)愇谋?2-gram模型和4-gram模型的分類準(zhǔn)確性較高;

      2) 在N確定的條件下,特征向量長度與分類準(zhǔn)確率成正比;特別地,當(dāng)向量的長度從10 000增加到15 000和從20 000增加到25 000時(shí),分類器準(zhǔn)確率增幅最大;

      3) 對于TFIDF算法,特征項(xiàng)詞性為動詞和名詞時(shí)分類準(zhǔn)確率最高,特征項(xiàng)僅為名詞時(shí)準(zhǔn)確率降低,僅為動詞時(shí)準(zhǔn)確率最低,所以在選擇詞性時(shí)應(yīng)避免僅選擇動詞.

      猜你喜歡
      樸素特征向量分類器
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      隔離樸素
      樸素的安慰(組詩)
      他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
      最神奇最樸素的兩本書
      一類特殊矩陣特征向量的求法
      BP-GA光照分類器在車道線識別中的應(yīng)用
      電子測試(2018年1期)2018-04-18 11:52:35
      EXCEL表格計(jì)算判斷矩陣近似特征向量在AHP法檢驗(yàn)上的應(yīng)用
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      康定县| 浏阳市| 西平县| 博湖县| 青川县| 日土县| 新晃| 富蕴县| 临汾市| 阜康市| 虎林市| 海南省| 饶河县| 新安县| 中山市| 大港区| 滨州市| 炉霍县| 汤阴县| 石城县| 兰西县| 高雄市| 固始县| 虹口区| 斗六市| 天全县| 建阳市| 石景山区| 三穗县| 连江县| 阿拉尔市| 武宁县| 同心县| 松滋市| 白山市| 普定县| 逊克县| 腾冲县| 乾安县| 无锡市| 汕尾市|