• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      改進(jìn)的TF-IDF算法在文本分類中的研究*

      2021-07-24 09:30:40李禾香李驥然
      關(guān)鍵詞:計(jì)算公式類別權(quán)重

      張 偉,石 倩,何 霄,王 晨,李禾香,李驥然

      (1.中國(guó)石油工程技術(shù)研究院有限公司 北京石油機(jī)械有限公司,北京102206;2.中國(guó)人民大學(xué) 信息學(xué)院,北京100872)

      0 引言

      TF-IDF算法結(jié)構(gòu)簡(jiǎn)單,類別區(qū)分力強(qiáng),且容易實(shí)現(xiàn),被廣泛應(yīng)用于信息檢索、文本挖掘、文本分類、信息抽取等領(lǐng)域中。但是,該算法僅考慮詞頻方面的因素,沒(méi)有考慮詞語(yǔ)出現(xiàn)的位置、詞性、樣本分布等信息,存在一定局限性。對(duì)此很多研究者都提出過(guò)改進(jìn)算法,王小林在傳統(tǒng)TF-IDF算法基礎(chǔ)上,提出利用段落標(biāo)注技術(shù),對(duì)處于不同位置的詞語(yǔ)給予不同的位置權(quán)重,并對(duì)分詞結(jié)果中詞頻較高的同詞性詞語(yǔ)進(jìn)行相似度計(jì)算,合并相似度較高的詞語(yǔ),改進(jìn)傳統(tǒng)算法中忽視特征詞位置因素和語(yǔ)義對(duì)相似度的問(wèn)題[1]。覃世安針對(duì)傳統(tǒng)TF-IDF算法在分類文本類的數(shù)量分布不均時(shí)提取特征值效果差的問(wèn)題,提出使用特征值在類間出現(xiàn)的概率比代替特征值在類間出現(xiàn)次數(shù)的改進(jìn)TF-IDF算法[2]。葉雪梅認(rèn)為傳統(tǒng)的特征詞權(quán)重TF-IDF算法未考慮到網(wǎng)絡(luò)新詞,針對(duì)特征項(xiàng)中的新詞對(duì)分類結(jié)果的影響給予不同權(quán)重值,提出基于網(wǎng)絡(luò)新詞改進(jìn)文本分類TF-IDF算法[3]。這些改進(jìn)算法都有效提高了模型性能,優(yōu)化分類結(jié)果,取得了不錯(cuò)的實(shí)驗(yàn)效果。但以往改進(jìn)算法研究主要集中在通過(guò)完善算法本身的缺陷以實(shí)現(xiàn)詞條在文本中更加準(zhǔn)確的權(quán)重賦值,忽略了其他類別區(qū)分特征因子。

      在對(duì)企業(yè)日常經(jīng)營(yíng)活動(dòng)文本的數(shù)字化處理中,包含信息抽取和文本分類的多任務(wù)應(yīng)用場(chǎng)景,信息抽取結(jié)果蘊(yùn)含大量文本信息,是文本重要的類別區(qū)分特征。對(duì)此,本文提出一種改進(jìn)的TF-IDF算法,將文本信息抽取結(jié)果作為文本重要類別區(qū)分特征,引入信息增益方法得到改進(jìn)的權(quán)重計(jì)算公式,進(jìn)而得到改進(jìn)的文本特征向量空間表示,再構(gòu)建文本分類模型。實(shí)驗(yàn)結(jié)果顯示,改進(jìn)的TF-IDF算法可以有效提高分類器文本分類的正確率。

      1 文本分類

      1.1 問(wèn)題描述

      文本分類問(wèn)題包括學(xué)習(xí)和分類兩個(gè)過(guò)程,學(xué)習(xí)過(guò)程的目標(biāo)是根據(jù)已知的訓(xùn)練數(shù)據(jù)構(gòu)建分類模型得到分類器;分類過(guò)程的任務(wù)是利用得到的分類器,預(yù)測(cè)新數(shù)據(jù)的類別。假設(shè){(x1,y1),(x2,y2),…,(xn,yn)}表示已作類別標(biāo)注的文本訓(xùn)練數(shù)據(jù)集,n表示文本個(gè)數(shù),xi表示文本實(shí)例,yi表示xi對(duì)應(yīng)的類別標(biāo)號(hào),學(xué)習(xí)系統(tǒng)以訓(xùn)練數(shù)據(jù)集為基礎(chǔ),從中學(xué)習(xí)到分類器y=f(x),分類器對(duì)新輸入實(shí)例xn+1進(jìn)行分類,以預(yù)測(cè)其輸出的類標(biāo)記yn+1[4]。分類問(wèn)題描述如圖1所示。

      圖1 分類問(wèn)題描述圖

      1.2 文本分類關(guān)鍵技術(shù)

      中文文本分類問(wèn)題包含文本預(yù)處理、文本預(yù)處理、文本表示、特征降維、分類算法等。其流程圖和關(guān)鍵應(yīng)用技術(shù)如圖2所示。

      圖2 文本分類關(guān)鍵技術(shù)

      1.2.1 中文文本預(yù)處理

      中文文本不同于英文文本,詞與詞之間沒(méi)有明顯的區(qū)分,需要使用分詞器對(duì)中文文本分詞。具體到實(shí)際應(yīng)用中,因?yàn)椴煌袠I(yè)都有較多屬于自己行業(yè)內(nèi)不常用的專業(yè)術(shù)語(yǔ)、特殊詞匯,并且不同類型文本中常用詞的表達(dá)也有差異,單使用分詞器的通用詞庫(kù)獲得的分詞結(jié)果錯(cuò)誤率較高,會(huì)直接影響文本特征的表示效果。所以通過(guò)加入自定義行業(yè)詞典和文本關(guān)鍵詞詞典,來(lái)有效提高分詞器對(duì)中文文本分詞的準(zhǔn)確率。

      文本預(yù)處理時(shí)還需要過(guò)濾掉常見(jiàn)停用詞和標(biāo)點(diǎn)符號(hào),這類詞和符號(hào)往往對(duì)文本類別區(qū)分沒(méi)有什么作用,但會(huì)占用大量文本特征向量維度空間,增加計(jì)算復(fù)雜度。通過(guò)載入停用詞表,除去分詞結(jié)果中不重要的詞條,保留重要的詞條。

      1.2.2 文本表示

      文本預(yù)處理結(jié)果為多詞條集合的文本數(shù)據(jù),分類算法無(wú)法直接處理文本數(shù)據(jù),需要把文本數(shù)據(jù)表示為計(jì)算機(jī)能處理的數(shù)值型數(shù)據(jù)[5],目前常用的文本表示方法有:布爾模型、向量空間模型(Vector Space Model)、概率模型、圖空間模型[6]、詞嵌入模型[7]。

      向量空間模型(簡(jiǎn)稱VSM)是目前應(yīng)用最廣泛的文本表示方法,VSM把每篇文檔都表示為特征詞-權(quán)重向量形式,把文本看作是一系列特征項(xiàng)t的集合,對(duì)每個(gè)特征項(xiàng)賦予對(duì)應(yīng)的權(quán)值。如表1所示,其中t1,t2,…,tn可以看作文本中的詞條,w1,w2,…,wn表示詞條對(duì)應(yīng)的權(quán)重值,d1,d2,…,dm表示每篇文本映射的一個(gè)特征向量。特征項(xiàng)權(quán)重值的計(jì)算方法有:TF-IDF權(quán)重法、布爾權(quán)重法、熵權(quán)重法[8]。

      表1 文本特征向量空間

      1.2.3 特征降維

      在使用VSM模型時(shí),如果訓(xùn)練文本集較大,文本特征向量的維度可能過(guò)大,十分浪費(fèi)計(jì)算機(jī)的資源,不利于計(jì)算,同時(shí),特征的冗余以及缺乏有效關(guān)聯(lián)也會(huì)影響分類性能[9]。因此,對(duì)文本特征降維尤為重要。

      特征降維的方法包括特征選擇和特征抽取兩種,特征選擇指不改變?cè)继卣骺臻g的性質(zhì),只是從原始特征空間中選擇一部分重要的特征,組成一個(gè)新的低維空間,常用的特征選擇方法有互信息、信息增益法,卡方檢驗(yàn)法,文檔頻次(Document Frequency)法等。特征抽取則通過(guò)將原始高維度特征空間進(jìn)行映射(或變換),生成低維度的特征空間[10]。常用的特征抽取方法有主成分分析(Principle Component Analysis)、特征聚類等。

      1.2.4 分類算法

      得到了文本的數(shù)值型向量空間表示后,可以使用分類算法構(gòu)建分類模型、訓(xùn)練分類器。常用的傳統(tǒng)機(jī)器學(xué)習(xí)分類算法有:樸素貝葉斯、K最近鄰、支持向量機(jī)、決策樹(shù)等。通常情況下,作為有監(jiān)督學(xué)習(xí),其分類準(zhǔn)確率高于無(wú)監(jiān)督和半監(jiān)督方法[11]。

      1.3 評(píng)價(jià)

      文本分類任務(wù)結(jié)果包含4種情況,TP表示屬于該類別的文本,被正確分類為該類的文本數(shù);FN表示屬于該類的文本,被錯(cuò)誤分類為其他類目;FP屬于其他類的文本,被錯(cuò)誤分類到該類目;TN表示屬于其他類的文本,被正確分類到其他類目;一般以精確率P、召回率R和F值作為文本分類性能的評(píng)價(jià)指標(biāo),其計(jì)算公式如式(1)~式(3)所示[12]。

      式中:P(Precision)為精確率,它表示在所有被分類為該類的文本中分類正確的概率;R(Recall)為召回率,它表示在所有屬于該類的文本中分類正確的概率;F值為精確率和召回率的調(diào)和平均值。

      2 TF-IDF算法

      2.1 傳統(tǒng)的TF-IDF算法

      2.1.1 權(quán)重值計(jì)算

      TF-IDF(Term Frequency and Inverted Document Frequency)是最常用的權(quán)重值的計(jì)算方法,用以評(píng)估某一詞條對(duì)于整個(gè)文件集或語(yǔ)料庫(kù)中的某一份文檔的重要程度。詞頻tf表示該詞項(xiàng)在文檔中出現(xiàn)的頻率;逆向文件頻率idf反映該詞項(xiàng)在文檔數(shù)據(jù)集中的重要程度[13],主要計(jì)算公式如式(4)~式(6)所示。

      tfdt值通常需要被歸一化,一般是特征項(xiàng)t在文本d中出現(xiàn)的頻次mdt除以文本d中總詞數(shù)Md,以防止它偏向長(zhǎng)的文件。idft由總文件數(shù)N除以包含特征項(xiàng)t的的文件數(shù)nt(加0.1是為了避免分母為0的情況),再將得到的商取對(duì)數(shù)得到。wdt表示特征項(xiàng)t在文本d中的權(quán)重值。

      2.1.2 歸一化

      為使各特征項(xiàng)權(quán)重值都處于[0,1]區(qū)間內(nèi),使用余弦歸一化的方式進(jìn)行歸一化處理,得到新的權(quán)重計(jì)算公式如式(7)所示,k為文本d中特征項(xiàng)個(gè)數(shù)。

      2.2 改進(jìn)的TF-IDF算法

      2.2.1 定義文本關(guān)鍵詞集合

      信息抽取任務(wù)是指從自然語(yǔ)言文本中抽取指定類型的實(shí)體、關(guān)系、事件等信息,其中包含大量文本特有內(nèi)容,對(duì)文本具有很好的類別區(qū)分能力。在使用基于規(guī)則的信息抽取任務(wù)中,通過(guò)識(shí)別文中觸發(fā)抽取任務(wù)的關(guān)鍵詞來(lái)定位要抽取信息所在的位置[14]。構(gòu)建與信息抽取結(jié)果直接關(guān)系的文本關(guān)鍵詞集合。

      2.2.2 信息增益方法

      信息增益(InformationGain,IG),定義為數(shù)據(jù)集D的信息熵H(Y)與條件X給定條件下Y的條件熵H(Y|X)之差[15]。信息增益值越大,說(shuō)明特征項(xiàng)對(duì)數(shù)據(jù)類別區(qū)分能力越強(qiáng)。具體公式如式(8)~式(10)所示。

      在分類問(wèn)題中,通過(guò)統(tǒng)計(jì)某一特征項(xiàng)xi在類別yi中出現(xiàn)與否,來(lái)計(jì)算信息增益值。其計(jì)算公式如式(11)所示,pyi表示yi類別文本在語(yǔ)料中出現(xiàn)的概率,即yi類別文本數(shù)除以總的文本數(shù);pxi表示語(yǔ)料中包含特征項(xiàng)xi的文本的概率,即包含特征項(xiàng)xi的文本數(shù)除以總的文本數(shù);xˉi表示不包含特征項(xiàng)xi的文本;p(yi|xi)表示文本包含特征項(xiàng)xi時(shí)屬于yi類別的條件概率,即包含特征項(xiàng)xi且屬于類別yi的文本數(shù)除以包含特征xi的文本數(shù)。

      2.3.3 改進(jìn)的權(quán)重計(jì)算公式

      改進(jìn)的TF-IDF算法將信息抽取結(jié)果項(xiàng)與對(duì)文本類別的信息增益值φ,融入到權(quán)重計(jì)算公式中,以增加特征項(xiàng)對(duì)類別區(qū)分能力,得到改進(jìn)的權(quán)重計(jì)算公式如式(12)所示。

      在文本表示過(guò)程中,識(shí)別文中與信息抽取結(jié)果直接關(guān)系的關(guān)鍵詞,如關(guān)鍵詞對(duì)應(yīng)信息抽取結(jié)果為真,則使用改進(jìn)的權(quán)重計(jì)算公式計(jì)算特征項(xiàng)權(quán)重值,否則按傳統(tǒng)權(quán)重計(jì)算公式wdt計(jì)算。文本特征項(xiàng)權(quán)重賦值如式(13)所示。t表示文本中特征項(xiàng);T表示與抽取結(jié)果直接關(guān)系的文本關(guān)鍵詞集合;R表示對(duì)應(yīng)信息抽取結(jié)果為真。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)環(huán)境

      數(shù)據(jù)集使用包含信息抽取結(jié)果的石油行業(yè)中文文本2 006條,文本中包含油服日?qǐng)?bào)、完鉆簡(jiǎn)報(bào)、其他3類。本實(shí)驗(yàn)編程語(yǔ)言使用Python 3.6;主要運(yùn)行環(huán)境包括Jupyter Noetbook軟件、Windows 10系統(tǒng)、8 GB內(nèi)存。

      3.2 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)使用結(jié)巴分詞器加載自定義石油行業(yè)和文本關(guān)鍵詞詞典、去除常見(jiàn)停用詞和標(biāo)點(diǎn)符號(hào),實(shí)現(xiàn)對(duì)石油行業(yè)中文文本分詞預(yù)處理。使用傳統(tǒng)TF-IDF算法和改進(jìn)的TF-IDF算法在K最近鄰、支持向量機(jī)、決策樹(shù)3種不同分類模型下進(jìn)行對(duì)比試驗(yàn),得到F1-score結(jié)果如圖3所示。

      圖3 改進(jìn)的TF-IDF算法在不同分類模型F1值比較

      使用準(zhǔn)確率P、召回率R、F值等評(píng)價(jià)指標(biāo)對(duì)油服日?qǐng)?bào)、完鉆簡(jiǎn)報(bào)、其他3類文本分類實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估,結(jié)果如表2所示。

      表2 分類效果評(píng)價(jià)

      3.3 結(jié)果分析

      (1)使用相同TF-IDF算法在不同分類模型下對(duì)樣本數(shù)據(jù)的分類效果略有不同,其中K 最近鄰分類模型相比于其他兩種分類模型分類效果更好。

      (2)改進(jìn)的TF-IDF算法在K最近鄰、支持向量機(jī)、決策樹(shù)3種不同分類模型下分類結(jié)果都要優(yōu)于傳統(tǒng)TF-IDF算法。

      (3)改進(jìn)的TF-IDF算法對(duì)樣本數(shù)據(jù)中不同類別文本的準(zhǔn)確率P、召回率R、F值都得到了明顯提高。

      4 結(jié)論

      本文針對(duì)在包含信息抽取和文本分類的多任務(wù)應(yīng)用場(chǎng)景下,提出一種改進(jìn)的TF-IDF算法,將文本信息抽取結(jié)果也作為文本重要類別區(qū)分特征,引入信息增益方法得到改進(jìn)的權(quán)重計(jì)算公式,進(jìn)而得到改進(jìn)的文本特征向量空間表示,再構(gòu)建文本分類模型。通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果表明,改進(jìn)的TF-IDF算法具有更好的文本分類效果,可以有效提高分類器文本分類的正確率。但使用基于TF-IDF的向量空間模型,前提是假設(shè)特征詞之間相互獨(dú)立的,但在實(shí)際中詞與詞之間會(huì)有一定的關(guān)聯(lián),因而會(huì)忽略文本上下文關(guān)系,無(wú)法表征特征詞的語(yǔ)義信息。后期研究可以使用包含語(yǔ)義關(guān)系的詞向量來(lái)替代TF-IDF算法實(shí)現(xiàn)文本向量空間表示。

      猜你喜歡
      計(jì)算公式類別權(quán)重
      電機(jī)溫升計(jì)算公式的推導(dǎo)和應(yīng)用
      權(quán)重常思“浮名輕”
      2019離職補(bǔ)償金計(jì)算公式一覽表
      為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
      服務(wù)類別
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      層次分析法權(quán)重的計(jì)算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      采用初等代數(shù)推導(dǎo)路基計(jì)算公式的探討
      日喀则市| 大厂| 肥东县| 伊春市| 濮阳市| 嘉荫县| 彭泽县| 雷山县| 繁昌县| 肇庆市| 伽师县| 团风县| 娱乐| 大连市| 兴国县| 百色市| 贡觉县| 都江堰市| 钟祥市| 咸丰县| 凤山市| 常州市| 资阳市| 长丰县| 牡丹江市| 新干县| 罗城| 新田县| 吴川市| 霍林郭勒市| 惠水县| 镇平县| 玉山县| 吉隆县| 漯河市| 仁怀市| 大城县| 黄山市| 襄城县| 孟州市| 万荣县|