• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于MIDF(t)的短文本特征權(quán)重計(jì)算方法研究

      2016-09-18 05:35:24夏冰
      黑龍江科學(xué) 2016年16期
      關(guān)鍵詞:褒義計(jì)算方法類別

      夏冰

      (哈爾濱金融學(xué)院基礎(chǔ)教研部,哈爾濱 150030)

      基于MIDF(t)的短文本特征權(quán)重計(jì)算方法研究

      夏冰

      (哈爾濱金融學(xué)院基礎(chǔ)教研部,哈爾濱 150030)

      隨著互聯(lián)網(wǎng)的飛速發(fā)展,傳統(tǒng)的文本分類已經(jīng)不能滿足人們對信息服務(wù)系統(tǒng)的要求,為了實(shí)現(xiàn)大規(guī)模海量信息的有效利用,高準(zhǔn)確率的分類算法成為近年的研究熱點(diǎn)。通常情況下,網(wǎng)絡(luò)上的影評(píng)屬于短文本,文本中可供抽取的信息詞量較少,而對文本分類不起作用的停用詞比例相對較大,產(chǎn)生了向量維度高和特征稀疏這兩大難題,因而研究難度更大。針對短文本特征稀疏和樣本高度不均衡等特點(diǎn),本文提出方法作為短文本特征權(quán)重的計(jì)算方法,既考慮了特征項(xiàng)在單個(gè)樣本中的分布,又考慮了文本的類別特征,提高了短文本分類的查準(zhǔn)率和查全率。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的特征權(quán)重計(jì)算方法相比,該方法更適合短文本的分類。

      短文本;文本分類;特征權(quán)重

      隨著互聯(lián)網(wǎng)的飛速發(fā)展,傳統(tǒng)的文本分類已經(jīng)不能滿足人們對信息服務(wù)系統(tǒng)的要求,為了實(shí)現(xiàn)大規(guī)模海量信息的有效利用,高準(zhǔn)確率的分類算法成為近年的研究熱點(diǎn)。在文檔分類中,通過分詞后的文檔詞匯量相當(dāng)大,產(chǎn)生的高維度特征空間不僅導(dǎo)致計(jì)算量巨大,還影響文本分類精度。因此,在分類之前務(wù)必要進(jìn)行特征抽取來剔除那些表現(xiàn)力不強(qiáng)的詞匯,即需要對文本的維度進(jìn)行約簡,這個(gè)過程稱為特征選取。

      通常情況下,網(wǎng)絡(luò)上的影評(píng)屬于短文本,文本中可供抽取的信息詞量較少,而對文本分類不起作用的停用詞比例相對較大,產(chǎn)生了向量維度高和特征稀疏這兩大難題,因而研究難度更大。針對短文本的自身特點(diǎn),本文綜合考慮樣本在正類和負(fù)類中的分布情況,結(jié)合反文檔頻和相關(guān)性頻率的特點(diǎn),提出MIDF(t)方法作為短文本特征權(quán)重的計(jì)算方法。

      1 短文本特征選擇方法

      1.1 互信息

      在特征選擇的方法中,互信息(Mutual Information)是通過特征項(xiàng)和類別共同出現(xiàn)時(shí)的概率來判斷特征項(xiàng)和類別之間的相關(guān)性。特征項(xiàng)t和類別Ci之間的互信息計(jì)算公式如下:

      其中,P(t,ci)表示特征項(xiàng)t出現(xiàn)在屬于類別Ci的文本中的概率;P(t)表示特征項(xiàng)t出現(xiàn)在訓(xùn)練文本中的概率;P(ci)表示類別Ci的文本出現(xiàn)在訓(xùn)練文本中的概率。

      在類別Ci中出現(xiàn)包含特征項(xiàng)t的文本出現(xiàn)的概率越大,則這樣的文本在別的類中出現(xiàn)的幾率越低,這樣就表示特征項(xiàng)t和類別Ci的互信息就越大,反之就越小。

      1.2 反文檔頻率

      影評(píng)文本分為褒義文本和貶義文本,本文將褒義文本視為“正類”(Positive Category,PC),將貶義文本視為“負(fù)類”(Negative Category,NC)。

      一般的文本分類主要考慮以下幾方面:一方面,特征項(xiàng)t在類別Ci中出現(xiàn)的概率較大,而在其他類別中出現(xiàn)的幾率低,這就表示特征項(xiàng)t和類別Ci的互信息就越大,反之就越?。涣硪环矫?,特征項(xiàng)t在正類中出現(xiàn)的頻率比在負(fù)類中出現(xiàn)的頻率高,說明它具有較好的類別區(qū)分能力,稱為反文檔頻率。

      其中,N表示訓(xùn)練文檔總數(shù),n表示訓(xùn)練文檔中包含特征項(xiàng)t的文檔數(shù),加0.01是為避免在特征項(xiàng)t未出現(xiàn)的情況下造成分母為零的情況。

      基于上面的分析,既要考慮特征項(xiàng)在單個(gè)樣本中的分布,又要考慮文本的類別特征,本文提出一種針對短文本的特征選擇方法,計(jì)算公式如下:

      2 仿真實(shí)驗(yàn)

      2.1 選擇文本

      從IMDB(Internet Movie Data Base,互聯(lián)網(wǎng)電影數(shù)據(jù)庫)和爛番茄(ROTTEN TOMATOES)英文網(wǎng)站中選出800條具有情感色彩(褒義或貶義)的影評(píng),將這些文本分為褒義文本和貶義文本,類別c1代表褒義,類別c2代表貶義。將其中300條褒義文本和200條貶義文本作為訓(xùn)練樣本,其余200條褒義文本和100條貶義文本作為測試樣本。

      2.2 分離器

      采用K最近鄰(K-Nearest Neighbor,KNN)分類算法進(jìn)行短文本分類仿真。作為一種傳統(tǒng)的模式識(shí)別算法,KNN算法分類精度較高,并且不需要因加入新的訓(xùn)練文本而重新訓(xùn)練,簡單且易操作。

      2.3 評(píng)價(jià)方法

      分類效果評(píng)估采用國際上通用的準(zhǔn)確率、召回率以及F1測試值進(jìn)行評(píng)估:

      準(zhǔn)確率=分類的正確文本數(shù)/實(shí)際分類文本數(shù)

      召回率=分類的正確文本數(shù)/應(yīng)有文本數(shù)

      F1=2×(準(zhǔn)確率×召回率)/(準(zhǔn)確率+召回率)

      表1 分類效果比較Tab.1 Classification results comparison

      由表1可以看出,改進(jìn)后的短文本特征選擇方法具有較好的分類效果。

      3 結(jié)語

      由于短文本語料類別分布不均衡,因此沿用長文本的特征權(quán)重計(jì)算方法很難取得理想的分類效果。為此,本文提出MIDF(t)特征權(quán)重計(jì)算方法,既考慮特征項(xiàng)在單個(gè)樣本中的分布,又考慮了文本的類別特征,并進(jìn)行了仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果驗(yàn)證了該短文本特征權(quán)重算法的可行性。

      [1] 馬雯雯,鄧一貴.新的短文本特征權(quán)重計(jì)算方法[J].計(jì)算機(jī)應(yīng)用,2013,22 (8):2280-2282.

      [2] 汪正中,張洪淵.基于英文博客文本的情感分析研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(8):153-156.

      [3] 林少波,楊丹,徐玲.基于類別相關(guān)的新文本特征提取方法[J].計(jì)算機(jī)應(yīng)用研究,2012,(5):1680-1683.

      [4]Liu Zitao,Yu Wenchao,Chen Wei,et al.Short Text Feature Selection for Microblog Mining[C]//The 4th International Conference on Computational Intelligence and Software Engineering.Wuhan,China,2010:1-4.

      [5] Bharath Sriram,David Fuhry,Engin Demir,Hakan Ferhatosmanoglu.Short Text Classification in Twitter to Improve Information Filtering Computer Science and Engineering Department[D].Ohio State University,Columbus,OH 43210,USA.2010:24-34.

      Feature weight calculation approach based on short text ofMDF(t)

      XIA Bing
      (Harbin Finance University,Basic Research Department,Harbin 150030,China)

      With the rapid development of the Internet,the traditional text classification can not satisfy people's requirements of information service system,in order to achieve effective use of large-scale mass of information,high accuracy of classification algorithms has become a hot topic in recent years.Under normal circumstances,the filmreviewon network belongs to short text,there are less information words for extraction available in the text,while stop words make a large proportion in the text,resulting in two big issues of high vector dimension and sparse feature that are more difficult to study.In view of the inherent sparse features and unbalanced sample of the short text,the paper proposes a approach to resolve this problem,an approach of short text feature weight named MIDF(t)was proposed.This approach integrated the distribution of features in sample,and improved the precision and recall of short text categorization.The result of experiment indicates that the proposed approach is more suitable for short text classification compared to traditional feature weight calculation methods.

      Short text;Text classification;Feature weight

      TP311

      A

      1674-8646(2016)16-0028-02

      2016-06-07

      黑龍江省哲學(xué)社會(huì)科學(xué)研究規(guī)劃項(xiàng)目“基于模糊支持向量機(jī)的英語語篇情感分析”(13E024)

      夏冰(1977-),女,黑龍江哈爾濱人,碩士,副教授,主要從事數(shù)學(xué)建模,機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘的研究。

      猜你喜歡
      褒義計(jì)算方法類別
      浮力計(jì)算方法匯集
      英語委婉語定義的局限與演變
      隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
      “點(diǎn)”的覺醒
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      一種伺服機(jī)構(gòu)剛度計(jì)算方法
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      說句好話挺難
      雜文選刊(2013年5期)2013-05-14 13:38:07
      湘乡市| 阜平县| 炉霍县| 台南县| 上蔡县| 甘南县| 乌兰浩特市| 扎鲁特旗| 易门县| 东明县| 盐城市| 叶城县| 柳江县| 汝州市| 莎车县| 黎平县| 龙泉市| 台中市| 樟树市| 景宁| 泰顺县| 荣昌县| 徐水县| 盐池县| 长宁区| 苍溪县| 峨山| 乡宁县| 巩义市| 广安市| 玛沁县| 武安市| 浙江省| 中牟县| 葵青区| 永吉县| 仙居县| 霍城县| 镇沅| 文成县| 田东县|