• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于FastText和關(guān)鍵句提取的中文長文本分類①

      2021-09-10 07:32:02汪家成
      計算機系統(tǒng)應(yīng)用 2021年8期
      關(guān)鍵詞:子句關(guān)鍵標簽

      汪家成,薛 濤

      (西安工程大學(xué) 計算機科學(xué)學(xué)院,西安 710048)

      1 引言

      隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,網(wǎng)絡(luò)中每天都會產(chǎn)生海量的數(shù)據(jù),從雜亂的信息中獲取有效信息已成為業(yè)界的研究熱點[1].文本分類任務(wù)是自然語言處理(NLP)領(lǐng)域中最基礎(chǔ)的任務(wù)之一,其不僅能有效的篩選信息,而且在信息檢索、情感分類和自動文摘等方面有著重要的應(yīng)用.隨著人工智能行業(yè)的興起,文本分類也有了更為廣泛的應(yīng)用,如人機通信,問答系統(tǒng)等[2].

      文本分類最初使用的是基于規(guī)則的方法[3],由相關(guān)領(lǐng)域的專家根據(jù)知識和經(jīng)驗制定相應(yīng)的規(guī)則,然后根據(jù)這些規(guī)則進行文本分類.基于規(guī)則的文本分類方法雖然在某些領(lǐng)域上有很好的效果,但是制定分類規(guī)則會耗費大量的人力成本,且如果出現(xiàn)了新的分類標簽需要制定新的規(guī)則,因此基于規(guī)則的文本分類方法適用性較差[4].

      近年來,機器學(xué)習(xí)算法在文本分類中的應(yīng)用成為自然語言處理研究熱點,機器學(xué)習(xí)算法中文本分類任務(wù)采用的是有監(jiān)督學(xué)習(xí)[5],主要包含模型訓(xùn)練和結(jié)果預(yù)測兩個過程.在數(shù)據(jù)進入模型訓(xùn)練之前,需要對文本進行表示,將其轉(zhuǎn)化成計算機能夠處理的形式.文本的表示方法大多基于詞袋模型和向量空間模型[6],詞袋模型將文本看成詞的集合,文本中的詞越多,詞袋表示的文本向量維度就越大,且詞袋模型不考慮詞的語義和語序,會損失一些語義上的特征信息;為了克服詞袋模型無法表示文本語義的缺陷,Mikolov 等[7]提出了Word2Vec,它將每個詞轉(zhuǎn)化成詞向量,文本內(nèi)容的處理便轉(zhuǎn)化為向量空間中的向量運算.目前已有多種機器學(xué)習(xí)算法應(yīng)用在文本分類,文獻[8]采用了加權(quán)Word2Vec和KNN的文本分類方法,在文本分類時獲得較好的分類效果;文獻[9]采用LDA 模型主題分布相似度文本分類方法,補充了文本中的主題特征;文獻[10]采用了基于網(wǎng)絡(luò)新詞改進的TF-IDF 算法,再結(jié)合SVM 模型以提高分類準確率.

      隨著計算機性能的增強,深度學(xué)習(xí)也算法也被廣泛的應(yīng)用在文本分類中.循環(huán)神經(jīng)網(wǎng)絡(luò)擅長捕獲長的序列信息[11],因此在長文本分類任務(wù)上有良好的表現(xiàn);Yoon Kim 等[12]提出了TextCNN,將卷積神經(jīng)網(wǎng)絡(luò)CNN 應(yīng)用到文本分類任務(wù).Facebook 在2016年開源了快速文本分類算法FastText,該算法使用n-grams 來縮小與深度模型之間的準確度差距,能夠取得與深度學(xué)習(xí)分類器相近的準確率,并且在訓(xùn)練效率上要比深度學(xué)習(xí)分類器快[13].

      雖然FastText 文本分類方法取得了較為顯著的效果,但應(yīng)用于中文長文本分類時仍存在不足,長文本相對于短文本可以提取更多的特征,但也有更多的冗余詞語,這些詞語多是對分類結(jié)果沒有正向影響的無關(guān)詞語,容易影響分類準確率.

      針對上述問題,本文提出一種結(jié)合TF-IDF和Text-Rank 關(guān)鍵子句提取的FastText 分類方法(簡稱KSFastText).該方法使用TextRank 提取長文本的關(guān)鍵子句,將文本的關(guān)鍵子句標上相應(yīng)的標簽作為獨立句子輸入FastText 模型中訓(xùn)練,以減少文本中無關(guān)詞的影響程度;之后采用TF-IDF 算法提取文本的關(guān)鍵詞,將關(guān)鍵詞詞組作為模型的補充特征輸入模型訓(xùn)練.在結(jié)果預(yù)測時,對目標文本也進行關(guān)鍵子句提取,并對各個子句的預(yù)測標簽加權(quán)綜合判斷目標文本的分類.

      2 相關(guān)工作

      2.1 FastText 模型

      FastText是一個快速準確的文本分類算法,該算法主要用于解決有監(jiān)督的文本分類問題.FastText的結(jié)構(gòu)如圖1所示,其結(jié)構(gòu)可以簡化為3 層,分別為數(shù)據(jù)輸入層、隱含層和輸出層[13].FastText的模型結(jié)構(gòu)與CBOW架構(gòu)很類似,不同的是FastText 通過上下文的詞來預(yù)測標簽,而CBOW是利用上下文的詞來預(yù)測中間詞.

      圖1 FastText 模型結(jié)構(gòu)

      當(dāng)訓(xùn)練集中有多種分類標簽時,傳統(tǒng)的線性分類器計算壓力非常大,所以FastText 使用了分層Softmax技巧,這是一個基于哈夫曼樹的多分類器,樹形結(jié)構(gòu)中的葉子節(jié)點代表了訓(xùn)練集中的標簽,能在多標簽分類時有效的減少算法預(yù)測目標數(shù)量,以此提高模型的效率.

      2.2 TF-IDF

      TF-IDF是一種用以評估字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度的統(tǒng)計方法.在文本分類任務(wù)中,詞的重要性與它在文件中出現(xiàn)的頻率成正比,與它在數(shù)據(jù)集中出現(xiàn)的頻率成反比.因此可以使用TF-IDF 評分作為篩選作為關(guān)鍵詞的依據(jù).

      TF (Term Frequency)代表詞頻,指的是某一個特定的詞語在該文件中出現(xiàn)的次數(shù).這個數(shù)字通常會被歸一化,以防止它偏向長的文件,詞頻的計算公式如下:

      式中,ni,j表示詞語i在文檔j中出現(xiàn)的次數(shù),分母表示文檔j中總的詞語數(shù),TF 值為詞語在文檔中的出現(xiàn)次數(shù)與文檔總詞數(shù)的比值,TF 體現(xiàn)的是詞語在文檔內(nèi)的重要程度.

      IDF (Inverse Document Frequency)是逆向文檔頻率,用于度量一個詞語的普遍重要性.某特定詞語的IDF,可以由所有文檔的數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的結(jié)果取對數(shù)得到,逆向文檔頻率的計算公式如下:

      式中,|D|表示文檔的數(shù)目,ti表示包含字詞i的文檔數(shù)目.

      TF-IDF 值由tf值與idf值相乘得到,其公式為:

      2.3 TextRank

      TextRank 算法源于Google 公司提出來的Page-Rank 算法,PageRank 算法通過將網(wǎng)頁與其鏈接的網(wǎng)頁之間構(gòu)成圖關(guān)系,每一個網(wǎng)頁作為一個節(jié)點,而鏈接作為邊,通過迭代計算篩選權(quán)值大的節(jié)點,也就是鏈接比較多的網(wǎng)頁,一般用于網(wǎng)站排名.TextRank 算法將文本中的詞或者句子類比成PageRank 算法中的網(wǎng)頁,構(gòu)建詞或者句子之間的圖關(guān)系,通過類似的迭代計算可以得到相應(yīng)文本中句子的重要度排名,因此可以很方便的得出句子中的關(guān)鍵子句[14,15].

      TextRank 在構(gòu)建圖的時候?qū)⒐?jié)點由網(wǎng)頁改成了句子,并為節(jié)點之間的邊引入了權(quán)值,其中權(quán)值表示兩個句子的相似程度,本質(zhì)上構(gòu)建的是一個帶權(quán)無向圖,其計算公式如下:

      式中,WS(vi)表示節(jié)點vi的權(quán)重值,d為阻尼值,用于做平滑,表示在圖結(jié)構(gòu)中從一個節(jié)點跳到另一個節(jié)點的概率值.In(Vi)表示節(jié)點Vi的前驅(qū)節(jié)點集合,Out(vj)表示節(jié)點Vj的所有后繼節(jié)點集合.wij為節(jié)點vi和節(jié)點vj間的權(quán)值.

      從給定文本中提取關(guān)鍵句時,將文本中的每個句子分別看作一個節(jié)點,如果兩個句子有相似性,則認為這兩個句子對應(yīng)的節(jié)點之間存在一條無向有權(quán)邊,衡量句子之間相似性的公式如下:

      式中,si和sj表示句子,wk表示句子中的詞,分子部分的意思是同時出現(xiàn)在兩個句子中的詞的數(shù)量,分母是對句子中詞的個數(shù)求對數(shù)后求和,這樣可以遏制較長的句子在相似度計算上的優(yōu)勢.根據(jù)以上相似度計算公式循環(huán)計算任意兩個節(jié)點之間的相似度,設(shè)置閾值去掉兩個節(jié)點之間相似度較低的邊連接,構(gòu)建出節(jié)點連接圖,然后迭代計算每個節(jié)點的TextRank 值,排序后選出TextRank 值最高的幾個節(jié)點對應(yīng)的句子作為關(guān)鍵句.

      3 中文長文本分類方法

      3.1 KS-FastText 基本思想

      在中文長文本分類中,文本中詞容量比較大且文本中存在大量冗余數(shù)據(jù),如果全部作為文本的特征輸入,不但耗時較長,并且分類效果也比較差,可以通過提取長文本關(guān)鍵特征的方法保留關(guān)鍵特征,同時減少無關(guān)詞語的占比.長文本的特征可以從關(guān)鍵子句和關(guān)鍵詞兩個方面提取.關(guān)鍵子句可以有效的保留文本的中心特征句和特征句子詞之間的聯(lián)系,關(guān)鍵詞詞組則保留了關(guān)鍵子句忽略的特征詞語,可以作為特征的補充.

      使用TextRank 算法提取文本的關(guān)鍵子句,Text-Rank 屬于無監(jiān)督學(xué)習(xí)算法,無需額外數(shù)據(jù)訓(xùn)練,算法通過構(gòu)建文本子句的圖模型并迭代計算每個子句節(jié)點的邊權(quán)重值對子句進行排序,取評分靠前的3 條關(guān)鍵子句,將各個關(guān)鍵子句的分類標簽標記為當(dāng)前文本的分類,作為輸入數(shù)據(jù)使用.關(guān)鍵子句容易丟失關(guān)鍵子句外的關(guān)鍵詞信息,因此采用關(guān)鍵詞詞組對特征進行補充.

      使用TF-IDF 特征提取關(guān)鍵詞,TF-IDF 算法提取每個文檔中相對于整體文檔區(qū)分度高的詞,既考慮詞頻又考慮了逆文檔頻率,如果一個詞的詞頻高且只出現(xiàn)在小部分文檔中,就說明這個詞有很強的區(qū)分能力,該詞可以作為文本的關(guān)鍵詞.在使用TF-IDF 方法提取文本的關(guān)鍵詞后,將該篇文檔的關(guān)鍵詞組成關(guān)鍵詞詞組并打上該文檔的分類標簽,與關(guān)鍵子句一同作為輸入數(shù)據(jù)使用.

      在分類預(yù)測時,也使用TextRank 算法提取對應(yīng)文本中關(guān)鍵子句,并綜合考慮各個子句的預(yù)測標簽和概率,最終得出文本的預(yù)測標簽.

      3.2 KS-FastText 模型框架

      經(jīng)典的FastText 由輸入層、隱藏層和輸出層組成.本文在KS-FastText 模型的輸入層中添加計算模型,即先使用TextRank 算法提取輸入文本的關(guān)鍵子句,同時使用TF-IDF 篩選文本特征詞詞組作為輸入數(shù)據(jù)的特征補充;之后將得到的關(guān)鍵子句和特征詞詞組標記為當(dāng)前文本的分類標簽分別送入隱藏層計算.KS-FastText的模型結(jié)構(gòu)如圖2所示.

      圖2 KS-FastText 模型框架

      圖3中,s1、s2、s3是文本經(jīng)過TextRank 方法提取的關(guān)鍵子句,w是通過TF-IDF 提取的文本關(guān)鍵詞詞組,二者均標記為當(dāng)前文本的標簽類型,作為FastText訓(xùn)練模型的輸入.輸入的關(guān)鍵子句和關(guān)鍵詞詞組在輸入到隱藏層前會被轉(zhuǎn)換為各自對應(yīng)詞序列的特征向量,特征向量通過線性變換映射到隱藏層,該隱藏層通過求解最大似然函數(shù)后進行層次Softmax 計算,得到最終的輸出.

      圖3 文本標簽的預(yù)測流程

      3.3 文本預(yù)測流程

      文本標簽的預(yù)測流程如圖3所示.文本在預(yù)測標簽時也會采用TextRank 算法提取關(guān)鍵子句,之后將各個關(guān)鍵子句分別送入訓(xùn)練好的FastText 模型中得到每個子句的標簽和對應(yīng)標簽的概率,最后綜合各個子句的標簽和對應(yīng)的概率,選擇子句預(yù)測結(jié)果中概率最大的那個標簽作為文本的標簽.

      4 實驗分析

      4.1 實驗環(huán)境

      實驗環(huán)境為Intel Core i7-8750H 處理器、主頻2.20 GHz、內(nèi)存16 GB、1 TB的PC 機.操作系統(tǒng)為Windows10,編程語言使用Python 3.7,編譯環(huán)境為PyCharm 2019.

      4.2 實驗數(shù)據(jù)

      本文實驗采用了搜狐新聞分類數(shù)據(jù)集,總共包含3 萬6 千條數(shù)據(jù),平均每篇新聞字數(shù)為2432 字,在數(shù)據(jù)預(yù)處理階段首先去除新聞文本中的圖片鏈接,同時除去純圖片、視頻新聞,之后按照標簽、新聞標題、新聞內(nèi)容的順序整合成實驗數(shù)據(jù)集.數(shù)據(jù)集中的數(shù)據(jù)按照7:3的比例劃分為訓(xùn)練集和測試集.數(shù)據(jù)在送入模型訓(xùn)練之前采用jieba 工具進行分詞.數(shù)據(jù)類別包括娛樂、財經(jīng)、房地產(chǎn)、旅游、科技、體育、健康、教育、汽車、新聞、文化和女性12 個類別,數(shù)據(jù)組成如表1所示.

      表1 實驗數(shù)據(jù)組成

      4.3 評價方法

      本文采用的評價指標包括準確率、精確率、召回率和F值.

      數(shù)據(jù)中,FP表示實際為負但被預(yù)測為正的樣本數(shù)量,TN表示實際為負被預(yù)測為負的樣本的數(shù)量,TP表示實際為正被預(yù)測為正的樣本數(shù)量,FN表示實際為正但被預(yù)測為負的樣本的數(shù)量.

      準確率是分類正確的樣本占總樣本個數(shù)的比例,準確率A的計算公式為:

      精確率是衡量測試集中預(yù)測為正類正確的比率,由測試樣本中預(yù)測正確的正例樣本數(shù)量除以所有預(yù)測為正例的樣本總數(shù)得到,精確率P的計算公式為:

      召回率是衡量原有樣本中有多少正例被預(yù)測,由原有樣本中預(yù)測為正例的樣本數(shù)除以樣本中總正例的個數(shù)得到,主要包含將樣本中的正類預(yù)測為正類的數(shù)量TP,以及將正類預(yù)測為負類的數(shù)量FN,召回率R計算公式為:

      F值是評價分類文本的綜合指標,是召回率與精確率的平均值,F值的計算公式為:

      4.4 實驗結(jié)果與分析

      本文使用Python 語言實現(xiàn)了FastText 分類模型和KS-FastText 分類模型.實驗過程中,使用了FastText 模型的默認參數(shù):學(xué)習(xí)速率lr=0.1,迭代次數(shù)eporch=10,詞向量的維度dim=100,字級別的ngram 值設(shè)置為2,以適應(yīng)中文的詞語組成習(xí)慣,詞語的最小出現(xiàn)次數(shù)minCount=1,損失函數(shù)loss 選用層次Softmax.

      本文實驗對KS-FastText 分類模型、經(jīng)典FastText分類模型和貝葉斯文本分類模型在數(shù)據(jù)集上進行對比,分別計算每個分類器綜合的準確率、精確率、召回率和F1 值,對比結(jié)果如表2所示.

      表2 各個分類器的實驗結(jié)果(%)

      表2中的數(shù)據(jù)表明,在本文的數(shù)據(jù)集中,KS-FastText分類模型在各個評判參數(shù)上都要優(yōu)于貝葉斯分類模型和經(jīng)典FastText 分類模型.KS-FastText 分類模型較貝葉斯分類模型和經(jīng)典FastText 分類模型在準確率上分別提高了8.4%和7.7%,在精確率上分別提高了1.99%和4.28%,在召回率上分別提高了4.64%和4.26%,在F值上分別提高了3.24%和4.57%.

      KS-FastText 分類模型在標簽預(yù)測時,對測試文本提取了關(guān)鍵子句,并綜合選擇所有子句預(yù)測標簽中概率最大的那個標簽作為預(yù)測文本的標簽,本文比較了KS-FastText 模型在預(yù)測時分別以子句1、子句2、子句3的預(yù)測標簽和綜合值作為文本的標簽預(yù)測值時的準確率.如圖4所示.

      圖4 子句標簽準確率情況

      圖4中的數(shù)據(jù)表明,使用所有子句中最大概率標簽作為預(yù)測文本標簽時的分類準確率均高于以任何子句標簽作為預(yù)測文本標簽時的準確率.說明采用綜合子句標簽判斷文本標簽的方法對模型的分類準確率有一定的提高.

      本文同時也比較了各個分類模型在各個分類標簽上的準確率值,結(jié)果如圖5所示.

      圖5 各個分類器在每一類標簽上A 值比較

      圖5中的數(shù)據(jù)表明,在實驗數(shù)據(jù)集中,KS-FastText模型在大部分標簽上分類的準確率優(yōu)于經(jīng)典的FastText分類模型和貝葉斯分類模型;同時,KS-FastText 相較于貝葉斯分類器在各個分類標簽上的準確率分布也更穩(wěn)定.

      實驗結(jié)果證明,KS-FastText 分類模型采用關(guān)鍵子句抽取和關(guān)鍵詞補充方法,減少了中文長文本中無關(guān)詞對分類結(jié)果的影響,更適用于解決中文長文本分類問題.

      5 結(jié)語

      本文對FastText 模型進行了改進,以適應(yīng)中文長文本環(huán)境.在改進過程中,TextRank 用于提取文本關(guān)鍵子句,以減少無關(guān)詞語對分類結(jié)果的影響.對于長文本的子句按照獨立分類的句子輸入模型中訓(xùn)練,而在預(yù)測結(jié)果的過程中,文本分類標簽取其各個子句預(yù)測標簽中的概率最大值,提高分類的準確率.實驗表明,本文提出的KS-FastText 方法在中文長文本環(huán)境中的效果較經(jīng)典FastText 算法有所提高.

      猜你喜歡
      子句關(guān)鍵標簽
      命題邏輯中一類擴展子句消去方法
      高考考好是關(guān)鍵
      命題邏輯可滿足性問題求解器的新型預(yù)處理子句消去方法
      無懼標簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      西夏語的副詞子句
      西夏學(xué)(2018年2期)2018-05-15 11:24:42
      不害怕撕掉標簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      標簽化傷害了誰
      命題邏輯的子句集中文字的分類
      基于多進制查詢樹的多標簽識別方法
      計算機工程(2015年8期)2015-07-03 12:20:27
      獲勝關(guān)鍵
      NBA特刊(2014年7期)2014-04-29 00:44:03
      福鼎市| 乐平市| 夏津县| 大英县| 安图县| 上犹县| 札达县| 灌阳县| 科技| 阜南县| 休宁县| 民和| 巴塘县| 三江| 林芝县| 安乡县| 安岳县| 常山县| 潢川县| 安岳县| 莱芜市| 辽宁省| 宁海县| 济源市| 安福县| 嘉义市| 霍州市| 昌邑市| 广汉市| 吉木乃县| 镇宁| 阜平县| 陆河县| 如东县| 淄博市| 扬中市| 随州市| 祁门县| 甘肃省| 昌图县| 卫辉市|