• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      LDA特征擴(kuò)展的多類SVM短文本分類方法研究

      2019-04-25 01:59:16吳雨川
      關(guān)鍵詞:語料分類器短文

      鄭 騰,吳雨川

      ?

      LDA特征擴(kuò)展的多類SVM短文本分類方法研究

      鄭 騰,吳雨川*

      (武漢紡織大學(xué) 機(jī)械工程與自動(dòng)化學(xué)院,湖北 武漢 430200)

      針對(duì)短文本信息量少、特征稀疏的特點(diǎn),提出一種基于LDA主題擴(kuò)展的多類SVM短文本分類方法。在短文本基礎(chǔ)上,利用LDA主題模得到文檔的主題分布,將主題中的詞擴(kuò)充到原短文本的特征中,在特征空間上使用基于經(jīng)典權(quán)重計(jì)算方法的多類SVM分類器進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明,在各個(gè)類別上的查準(zhǔn)率、查全率和F1值都有所提高,驗(yàn)證了該方法的可行性。

      短文本分類;特征擴(kuò)展;SVM;LDA

      隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,手機(jī)短信、微博、廣告文本等以文本表示的信息內(nèi)容以極快的內(nèi)容增長(zhǎng),而這其中又有很大一部分是短文本內(nèi)容,如何從短文本內(nèi)容中發(fā)現(xiàn)有價(jià)值的信息成為信息處理急需解決的問題。

      由于短文本具有信息量少、特征稀疏、依賴上下文等特點(diǎn),傳統(tǒng)的空間向量模型以及KNN、貝葉斯等經(jīng)典算法不能很好應(yīng)用在短文本分類上。短文本的分類主要的難點(diǎn)在于特征非常稀疏[1]和上下文依賴性強(qiáng)。一些學(xué)者通過引入外部知識(shí)庫(kù)來擴(kuò)展文本的語義特征,豐富了詞語間語義關(guān)系[2-3],但是它的計(jì)算量大,耗時(shí)大。因此,本文采用LDA主題擴(kuò)展可以將對(duì)應(yīng)主題下的詞擴(kuò)充到原來短文本的特征中,作為新的部分特征詞,在新的特征空間上使用基于經(jīng)典權(quán)重計(jì)算方法的多類SVM分類器進(jìn)行分類。

      1 LDA主題擴(kuò)展的短文本分類

      1.1 LDA主題模型

      LDA[4]是一種三層貝葉斯概率模型,由詞項(xiàng)、主題、文檔組成,LDA三層模型如圖1所示,若干個(gè)隱含主題隨機(jī)組成一個(gè)文檔,而每個(gè)主題又由文檔中的若干個(gè)詞語表示。因此,可將每篇文檔代表為主題概率分布,而每個(gè)主題又代表詞項(xiàng)概率分布。

      圖1 文檔-主題-詞語關(guān)系

      圖2 LDA主題模型

      LDA模型如圖2所示,該模型引入兩個(gè)超參數(shù)α,β,表示多維變量相互之間的權(quán)重關(guān)系?!拔臋n—主題”的概率分布符合多項(xiàng)分布,“主題—詞語”的概率分布也同樣符合多項(xiàng)分布。

      利用LDA主題模型對(duì)文檔集主題模型的生成過程可以看作模型一種概率取樣的過程,具體步驟如下:

      不斷重復(fù)上述過程,完成M篇文檔的生成。依據(jù)LDA主題模型,可以寫出所有變量的聯(lián)合分布:

      整個(gè)文檔集W的分布為:

      1.2 SVM簡(jiǎn)介

      SVM是在高維特征空間使用線性函數(shù)假設(shè)空間的學(xué)習(xí)系統(tǒng),它集成了最大間隔超平面、Mercer核、凸二次規(guī)劃、稀疏矩陣核松弛變量等多項(xiàng)技術(shù)[5]。SVM在解決小樣本、非線性以及高維模式識(shí)別中所具有的優(yōu)勢(shì),取得豐碩成果。但是,傳統(tǒng)的SVM是針對(duì)二分類問題提出的,現(xiàn)實(shí)中遇到的大多數(shù)問題是屬于多分類問題。所以,在保證精度的前提下提出合理的多分類策略就成為當(dāng)前的一個(gè)研究熱點(diǎn)。按照采取策略不同,將多類SVM分類器的構(gòu)建方法分為“一對(duì)一”[6]、“一對(duì)多”、二叉樹算法、直接非循環(huán)圖SVM等。其中,“一對(duì)一”方法是對(duì)多類中的任意兩類都構(gòu)建一個(gè)二類分類器,理論最嚴(yán)密,也是實(shí)際中使用最多的方式。具體做法是:選取2個(gè)不同類別構(gòu)成一個(gè)SVM子分類器,共有k(k-1)/2個(gè)SVM子分類器,通過組合這些子分類器,利用特征權(quán)重進(jìn)行分類投票,票數(shù)最多的一類即為該樣本所屬的類別。文獻(xiàn)[7]比較了常見的幾種多類分類支持向量機(jī)。

      1.3 參數(shù)估計(jì)方法

      LDA主題模型有兩種主要的參數(shù)估計(jì)方法:變分推算方法和吉布斯抽樣方法(Gibbs抽樣方法)。由于Gibbs 采樣的直接、易于理解和運(yùn)行速度快的特性,成為最常用的估計(jì)參數(shù)的方法。本文中采用它對(duì)LDA模型進(jìn)行估計(jì),其采樣公式如下:

      Gibbs 抽樣方法的步驟如下:

      (1)隨機(jī)初始化:訓(xùn)練語料庫(kù)中任一篇文檔中的每個(gè)單詞w被隨機(jī)分配一個(gè)主題號(hào)z;

      (2)重新掃描語料庫(kù),根據(jù)每個(gè)單詞w的采樣公式(4)重新對(duì)其主題進(jìn)行采樣,并在語料庫(kù)中對(duì)其進(jìn)行更新;

      (3)重復(fù)(1)到(2)步驟,直到Gibbs采樣收斂;

      (4)統(tǒng)計(jì)語料庫(kù)的“主題-詞”共出現(xiàn)的頻率矩陣,該矩陣就是LDA模型。

      1.4 卡方檢驗(yàn)

      卡方檢驗(yàn)是一種假設(shè)檢驗(yàn)方法,它是比較兩個(gè)分類變量的關(guān)聯(lián)性分析。詞項(xiàng)t與類別c之間的卡方統(tǒng)計(jì)模型為[8]:

      2 實(shí)驗(yàn)分類步驟

      2.1 分類框架

      具體分類框架如圖3所示。

      圖3 基于LDA特征擴(kuò)展的短文本分類框架

      2.2 文本預(yù)處理

      文本預(yù)處理是文本分類的第一步。首先,去除指定無用的符號(hào),比如:數(shù)字、空格、標(biāo)點(diǎn)等,可以通過Python的正則表達(dá)式(re)刪除,讓文本只保留漢字。然后,用jieba分詞(結(jié)巴分詞)工具進(jìn)行短文本分詞。最后,通過停用詞表去除停用詞,過濾文本中很多無效的詞。

      2.3 特征選擇與向量表示

      目前大多數(shù)中文分類系統(tǒng)都采用詞作為特征項(xiàng),如果把所有的詞項(xiàng)都作為特征項(xiàng),將會(huì)導(dǎo)致特征向量的維數(shù)非常高,快速完成文本分類將非常困難。特征選擇是在表達(dá)文本關(guān)鍵信息的時(shí)候,能夠使特征向量維度處于在一個(gè)合適的范圍,使得在處理文本分類時(shí)候效率得到提高。文本特征選擇的方法主要有:互信息[9]、信息增益[10]、文本證據(jù)權(quán)、卡方檢驗(yàn)[11]等。本文選擇卡方檢驗(yàn)作為文本特征選擇。對(duì)訓(xùn)練集中的每一篇文檔經(jīng)過文本預(yù)處理后,進(jìn)行向量化,得到特征詞典。

      2.4 特征擴(kuò)展

      首先使用一個(gè)數(shù)量比較大的文檔集訓(xùn)練LDA模型,得到“主題-詞”分布矩陣。將訓(xùn)練好的LDA模型應(yīng)用于語料集中的某一篇文檔進(jìn)行預(yù)測(cè),得到“文檔-主題”概率分布,將概率最大主題下的詞語擴(kuò)展到短文本初始特征中,形成新的特征向量。

      2.5 多類SVM分類

      在進(jìn)行多類SVM[12]訓(xùn)練前,需要組合這些子分類器,利用特征權(quán)重進(jìn)行分類投票,也即需要對(duì)LDA 特征擴(kuò)展的空間向量模型中特征矩陣設(shè)置權(quán)重。一般最經(jīng)典的常用方法是TF-IDF,具體計(jì)算公式如下:

      根據(jù)LDA特征擴(kuò)展的空間向量模型,首先依據(jù)權(quán)重計(jì)算公式(6)計(jì)算主題特征詞的權(quán)重,通過SVM分類器(LIBSVM)進(jìn)行分類。

      2.6 LDA模型主題數(shù)確定

      將復(fù)旦大學(xué)提供的文本數(shù)據(jù)作為L(zhǎng)DA模型的語料庫(kù)。測(cè)試語料集與訓(xùn)練語料集的比例為1:2。先在訓(xùn)練語料集上訓(xùn)練出不同主題下的LDA模型,通過訓(xùn)練生成的LDA模型推斷出測(cè)試語料集的“主題-詞”矩陣分布。并在測(cè)試語料集上計(jì)算其困惑度。困惑度計(jì)算公式如下:

      圖4 三種方法的值對(duì)比

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      本文數(shù)據(jù)來源于復(fù)旦大學(xué)提供的中文分類數(shù)據(jù)集,將其分為8類:教育、體育、科技、財(cái)經(jīng)、藝術(shù)、旅游、歷史、政治。訓(xùn)練語料集與測(cè)試語料集的比例為2:1。每一類隨機(jī)抽取1200個(gè)文本,共9600個(gè)文本組成訓(xùn)練語料集。每一類篩選600個(gè)短文本,共4800個(gè)短文本組成測(cè)試語料集。

      3.2 性能評(píng)估

      3.3 實(shí)驗(yàn)結(jié)果

      特征選擇中,利用卡方檢驗(yàn)公式(5)計(jì)算出每類詞項(xiàng)的卡方值,將每一類前600個(gè)詞項(xiàng)作為該類的特征,并合并為特征詞典中。實(shí)驗(yàn)結(jié)果如表1所示:

      表1 實(shí)驗(yàn)結(jié)果對(duì)比

      從表1中可以看出,本文所采用的VSM+LDA+SVM分類方法優(yōu)于VSM+SVM和VSM+LDA+KNN方法。說明本文的方法是切實(shí)可行的。

      4 結(jié)論

      文本分類涉及許多復(fù)雜的技術(shù),如文本表示,特征稀疏處理和算法決策。本文研究并改進(jìn)了傳統(tǒng)的特征選擇方法,利用LDA模型進(jìn)行特征擴(kuò)展,豐富了短文本的語義信息,解決了短文本數(shù)據(jù)長(zhǎng)度短、信息弱的問題。在多類SVM特征權(quán)重設(shè)置是基于TF-ID,在分類實(shí)現(xiàn)上還有很多不足地方,在后續(xù)的工作中,可以改進(jìn)特征提取方法,設(shè)置新的特征權(quán)重,以期得到更好的分類效果。

      [1] 張虹.短文本分類技術(shù)研究[D].大連:遼寧師范大學(xué),2015.2-3.

      [2] 朱征宇,孫俊華.改進(jìn)的基于知網(wǎng)的詞匯語義相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用,2013,33(8):2276-2279+2288.

      [3] 王榮波,諶志群,周建政,等.基于Wikipedia的短文本語義相關(guān)度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用與軟件,2015,32(1):82-85+92.

      [4] Blei D M,Ng A Y,Jordan M I. Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,(3):993-1022.

      [5] 劉秀松.帶有云化核函數(shù)的SVM文本分類方法[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2007,17(30):13-15.

      [6] Ulrich Krebel.Pairwise classification and support vector machines[M].In B.Schuolkopf,Burges C J C,Smola A J,editors,Advances in Kernal Methods:Support Vector Learning,Pages,MITPress,Cambrige,MA,1999.255-268.

      [7] HSU C W,LIN C J.A comparison of methods for multiclass support vector machines[J].IEEE Trans on Neural Networks,2002,13(2):415-425.

      [8] 閆健卓.基于X2統(tǒng)計(jì)的改進(jìn)文本特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(7):2454-2456.

      [9] 劉海峰,姚澤清,蘇展.基于詞頻的優(yōu)化互信息文本特征選擇方法[j].計(jì)算機(jī)工程,2014,40(7):179-182.

      [10]劉慶河,梁正友.一種基于信息增益的特征優(yōu)化選擇方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(12):130-134.

      [11]裴英博,劉曉霞.文本分類中改進(jìn)CHI特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(4):128-130.

      [12]霍穎瑜,王曉峰.一種新的SVM多類分類算法[J].佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版),2006,24(4):476-478.

      Research on the Classification Methods of Multiple SVM Short Texts based on LDA Feature Extension

      ZHENG Teng, WU Yu-chuan

      (School of Mechanical Engineering and Automation, Wuhan Textile University, Wuhan Hubei 430200, China)

      Based on the short text and characteristics of sparse, this paper puts forward a short text classify method based on characteristics extend of LDA. This method used the LDA model to obtain the subject distribution of document, extended the word under the corresponding topic into the characteristics of the original short text as a new part of the feature word. A multi-class SVM classifier based on classical weight calculation was used. Experimental results show that the precision, recall and F1 values are improved in all categories. It verifies this model has some superiority in text categorization.

      short text classification; feature expansion; Laten Dirichlet Allocation(LDA); SVM

      吳雨川(1960-),男,教授,研究方向:模式識(shí)別、智能檢測(cè)與控制.

      國(guó)家自然科學(xué)基金面上項(xiàng)目(61271008).

      TP391.1

      A

      2095-414X(2019)02-0072-05

      猜你喜歡
      語料分類器短文
      KEYS
      Keys
      BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
      結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
      華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
      《苗防備覽》中的湘西語料
      國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
      基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識(shí)別
      东宁县| 五指山市| 河津市| 汝南县| 涞源县| 蕲春县| 图木舒克市| 望都县| 抚松县| 芜湖市| 永新县| 驻马店市| 铁力市| 江都市| 宜兴市| 满洲里市| 东安县| 通山县| 洪泽县| 高密市| 徐州市| 聂荣县| 喀什市| 汾西县| 陇川县| 九江市| 长宁区| 象州县| 汉沽区| 滨州市| 华坪县| 综艺| 永丰县| 龙岩市| 鲁山县| 尼勒克县| 拜城县| 龙江县| 开鲁县| 紫云| 镇原县|