• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于特征檢索的中文短評生成

      2020-04-24 08:56:20袁江林郭志剛唐永旺
      關(guān)鍵詞:檢索向量特征

      袁江林,陳 剛,郭志剛,唐永旺

      (戰(zhàn)略支援部隊(duì)信息工程大學(xué) 信息系統(tǒng)工程學(xué)院,河南 鄭州 450000)

      0 引 言

      在大數(shù)據(jù)背景下,從海量文本數(shù)據(jù)中挖掘出需要的文本數(shù)據(jù)是一個研究的內(nèi)容。針對新聞數(shù)據(jù),從海量評論數(shù)據(jù)庫中檢索出與新聞相關(guān)且含有情感傾向性的評論成為了一個研究的問題。該問題可分為主題特征檢索問題和情感特征檢索問題。

      近年來有許多文本的主題相似性算法研究。文獻(xiàn)[1]主要研究TF-IDF算法計(jì)算文本相似度,通過統(tǒng)計(jì)的方法在長文本上得到較好的結(jié)果。對于較長文本,文獻(xiàn)[2]研究了關(guān)鍵詞抽取算法抽取關(guān)鍵詞,較長文本可通過抽取部分關(guān)鍵詞,利用關(guān)鍵詞計(jì)算主題相似性。哈希算法可加快文本相似性的計(jì)算,對大數(shù)據(jù)背景下的檢索速度提升有研究意義。深度學(xué)習(xí)技術(shù)出現(xiàn)之后,在短文本上取得了較好的效果。文獻(xiàn)[3,4]分別研究了采用詞向量建立主題模型和實(shí)現(xiàn)相似度計(jì)算。隨著網(wǎng)絡(luò)結(jié)構(gòu)越來越多,應(yīng)用在自然語言處理領(lǐng)域的模型結(jié)構(gòu)增多。長短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)[5]和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)[6]是用在自然語言處理中較為常用的結(jié)構(gòu)。文獻(xiàn)[7]采用了卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)句子特征的表示和注意力機(jī)制的表達(dá)。文獻(xiàn)[8]研究采用了深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)文本相似性的計(jì)算,提升了語義相似性計(jì)算的精度。上述文獻(xiàn)證明,采用深度學(xué)習(xí)技術(shù)可以實(shí)現(xiàn)文本相似性的計(jì)算。

      情感特征檢索主要通過情感按照不同分類粒度分類實(shí)現(xiàn)。早期主要通過情感詞典與規(guī)則相結(jié)合的方法實(shí)現(xiàn)情感分類,文獻(xiàn)[9,10]通過利用情感詞典和規(guī)則對中文語句、新聞文本、中文微博等類型的文本做情感傾向性分析。但是情感詞典標(biāo)注工作復(fù)雜,對較長的文本做情感傾向性判斷有一定的困難?;跈C(jī)器學(xué)習(xí)的情感分析算法是在基于詞典和規(guī)則之后研究較多的算法,文獻(xiàn)[11]通過樸素貝葉斯分類算法等機(jī)器學(xué)習(xí)分類算法實(shí)現(xiàn)了情感的分類,取得了較好的效果?;谏疃葘W(xué)習(xí)的情感分類算法是當(dāng)前情感分析研究的熱點(diǎn)。文獻(xiàn)[12]結(jié)合詞向量對中文評論實(shí)現(xiàn)情感分類,文獻(xiàn)[13]將詞序和CNN_LSTM網(wǎng)絡(luò)結(jié)合實(shí)現(xiàn)了情感的分類。采用深度學(xué)習(xí)算法較機(jī)器學(xué)習(xí)算法,分類精度有提升。目前情感分類較為依賴于語料的標(biāo)注,但分類精度較早期已經(jīng)有了很大的提升。

      目前基于檢索的方法實(shí)現(xiàn)評論的生成對主題和情感結(jié)合研究的較少,文獻(xiàn)[14]研究了采用TF-IDF結(jié)合深度學(xué)習(xí)的方法實(shí)現(xiàn)評論的生成,但僅限于主題特征。為了對新聞文本檢索出帶有一定情感傾向性的評論,本文采用主題特征檢索和情感特征檢索結(jié)合的方法實(shí)現(xiàn)中文評論的生成。

      1 算 法

      基于檢索的中文評論生成研究立足于新聞及評論語料庫,對新聞按照新聞內(nèi)容、新聞標(biāo)題、新聞關(guān)鍵詞等3個不同的粒度提取特征,新聞的評論內(nèi)容屬于短評,因此可以直接做特征提取。具體實(shí)現(xiàn)流程如圖1所示。如圖1所示,基于檢索的中文評論生成首先需輸入新聞及評論語料庫,提取主題特征并計(jì)算主題相似度實(shí)現(xiàn)一次檢索。在一次檢索結(jié)果基礎(chǔ)上提取情感特征,實(shí)現(xiàn)情感分類,檢索出含有情感傾向性的相關(guān)評論?;谥黝}特征融合檢索和基于情感特征融合的檢索是本文研究的重點(diǎn)內(nèi)容。

      圖1 基于檢索的中文評論生成流程

      其中新聞關(guān)鍵詞的提取按照采用Text-Rank的方法計(jì)算。文獻(xiàn)[15]研究利用Text-Rank方法實(shí)現(xiàn)關(guān)鍵詞抽取。關(guān)鍵詞抽取的Text-Rank權(quán)重迭代公式如式(1)所示

      (1)

      其中,V表示詞匯集合,WS表示關(guān)鍵詞之間的權(quán)重,d為調(diào)節(jié)系數(shù),In(Vi) 表示指向詞Vi的詞匯集合,outVj表示詞匯Vj指向所有詞匯的集合,wji表示詞Vj到詞Vi的邊的權(quán)重集合。

      1.1 基于主題特征的一次檢索

      基于主題特征的一次檢索通過計(jì)算新聞主題特征和評論主題特征之間的相似度,按照相似度檢索出相關(guān)的評論。本文研究主題特征提取方法為詞向量、CNN、雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short term memory,BiLSTM)、基于主題特征融合的檢索算法。

      1.1.1 基于詞向量的主題特征檢索

      不妨設(shè)原始文本信息為w=(w1,…,wN), 其中N表示文本的長度,w表示中文文本分詞后的詞匯集合;通過詞向量轉(zhuǎn)化后的結(jié)果為v=(v1,…,vN), 詞向量的計(jì)算公式如式(2)所示

      v=word2vec(w)

      (2)

      由于word2vec表示的詞向量具有一定的語義相關(guān)性,因此,將新聞及評論文本向量化后,利用向量和表示新聞的主題特征,具有一定的語義特征。新聞主題特征和評論主題特征計(jì)算公式分別如式(3)、式(4)所示

      (3)

      (4)

      其中,Lk表示新聞文本k分詞后的詞匯長度,Mj表示評論文本j分詞后的詞匯長度。主題相似度的計(jì)算公式如式(5)所示

      (5)

      將評論語料庫中所有評論向量化表示,計(jì)算新聞與評論語料庫之間的主題相似度。按照評論相似性排序,檢索出主題相似性較高的評論。

      1.1.2 基于CNN的主題特征檢索

      基于CNN的主題特征檢索的實(shí)現(xiàn)過程圖如圖2所示。先通過式(2)將文本轉(zhuǎn)換為詞向量,轉(zhuǎn)換后的詞向量用不同尺寸的多個濾波器分別濾波,即卷積過程,卷積后的結(jié)果用maxpooling提取最大的特征值組合成為文本主題特征,計(jì)算公式如式(6)、式(7)、式(8)所示

      fi,n=convi(v1,v2,v3,…,vN)

      (6)

      fi=coni(mpli(fi,1),…,mpli(fi,p))

      (7)

      Tk=con(f1,…,fq)

      (8)

      其中, convi(·) 表示第i個尺寸的濾波器卷積,fi,n表示第i個尺寸的第n個濾波器。mpli(·) 表示第i個尺寸的濾波器池化運(yùn)算;fi表示第i個尺寸的濾波器卷積池化后的向量拼接得到的新特征向量; con(·) 表示向量拼接過程,Tk表示主題特征向量。i∈[0,p],n∈[0,q] 分別表示濾波器的數(shù)量為q個,濾波器尺寸種類為p個。同理,可計(jì)算得到評論j的主題特征向量Rj。

      圖2 基于CNN的主題特征檢索

      最后計(jì)算新聞主題特征向量和評論主題特征向量相似度,按照相似度高的評論檢索出對應(yīng)的評論文本。

      1.1.3 基于BiLSTM的主題特征檢索

      BiLSTM較LSTM網(wǎng)絡(luò)結(jié)構(gòu)能更好利用歷史和未來信息,本文利用BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)計(jì)算主題特征。BiLSTM提取主題特征的結(jié)構(gòu)如圖3所示。

      圖3 基于BiLSTM的主題特征檢索

      如圖3所示,新聞和評論信息通過詞向量編碼后輸入到BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)中,得到結(jié)果為h=(h1,h2,…,hLk)。 其計(jì)算公式如式(9)所示

      (h1,h2,h3,…,hLk)=BiLSTM(v1,v2,v3,…,vLk)

      (9)

      其中,Lk表示輸入的文本的長度,取最后時刻輸出向量為主題特征向量。按照此方法得到的新聞和評論的主題特征向量分別為Rj和Tk, 其中k,j分別表示第k個新聞和第j個評論。按照式(5)計(jì)算得到主題相似度,并按照主題相似度高的評論檢索出對應(yīng)的評論。

      1.1.4 基于主題特征融合的檢索

      基于主題特征融合的檢索立足于上述3種基本算法,將上述3種算法提取的新聞主題特征與評論主題特征分別計(jì)算相似度后取均值,提升主題特征檢索的準(zhǔn)確性,實(shí)現(xiàn)流程如圖4所示。

      圖4 基于主題特征融合的檢索算法流程

      如圖4所示,將3種主題特征檢索算法并行化處理,分別計(jì)算相似度,最終評論和新聞的主題相似度的計(jì)算公式如式(10)所示

      (10)

      根據(jù)式(10)計(jì)算的主題相似度排序,檢索出主題相似度高的評論。

      1.2 基于情感特征融合的二次檢索

      基于情感特征融合的二次檢索立足于基于主題特征的一次檢索的評論文本,通過對情感特征分類實(shí)現(xiàn)情感特征的二次檢索。主要采用多個算法融合對情感文本進(jìn)行分類。具體的實(shí)現(xiàn)流程如圖5所示。

      圖5 基于情感特征融合的檢索流程

      如圖5所示,與基于主題特征融合的檢索流程相似,輸入新聞和一次檢索的評論后,將其分別轉(zhuǎn)換成為詞向量。然后按照基于詞向量的情感分類算法、基于BiLSTM的情感分類算法、基于CNN的情感分類算法分別計(jì)算情感類別,對情感類別結(jié)果求和,按照情感類別分別檢索出對應(yīng)的評論。其模型如圖6所示。

      圖6 基于情感特征融合檢索的模型

      如圖6所示,基于情感特征融合檢索的子算法均可利用基于主題特征提取的特征向量,利用該向量通過全連接層網(wǎng)絡(luò),再通過softmax層轉(zhuǎn)化為子算法分類結(jié)果;將3個子算法分類結(jié)果求和取最大值位置對應(yīng)類別即為情感類別。其計(jì)算公式如下式(11)-式(14)所示

      (11)

      (12)

      (13)

      (14)

      2 實(shí) 驗(yàn)

      2.1 實(shí)驗(yàn)數(shù)據(jù)

      本文采集部分體育新聞及其評論數(shù)據(jù),并引用文獻(xiàn)[16]中的文本及評論數(shù)據(jù)作為訓(xùn)練的訓(xùn)練集和測試集。訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的大小見表1。

      表1 新聞數(shù)據(jù)集

      通過對新聞及其評論數(shù)據(jù)清理,評論詞匯的平均數(shù)量為25詞,每條新聞對應(yīng)的評論數(shù)量超過20條。由于本文研究基于檢索的中文評論生成涉及到中文情感分類,因此從互聯(lián)網(wǎng)上采集NLPCC2014基于深度學(xué)習(xí)技術(shù)的情感分析(NPCC-SCDL)評測任務(wù)數(shù)據(jù)集,并添加新標(biāo)注2000條評論語料用于訓(xùn)練,標(biāo)注2000條評論語料用于測試,語料集具體見表2。

      表2 中文情感語料集

      2.2 實(shí)驗(yàn)設(shè)置

      本文利用中文評論語料數(shù)據(jù)集研究,需要對新聞及評論語料分詞,由于分詞的準(zhǔn)確性會影響模型和算法的訓(xùn)練,本文從互聯(lián)網(wǎng)上采集常用輸入法中的詞庫并導(dǎo)入到j(luò)ieba分詞詞庫中用于訓(xùn)練。采用pytorch編程實(shí)現(xiàn)。并對新聞內(nèi)容、新聞關(guān)鍵詞、新聞標(biāo)題3種不同粒度的主題特征分別處理,用于基于主題特征的一次檢索的研究對比。

      詞向量的訓(xùn)練采用gensim模型訓(xùn)練,維度設(shè)置為300維。CNN模型的濾波器尺寸設(shè)置為3、4、5。CNN中每種濾波器的數(shù)量設(shè)置為100,通過池化后的模型維度設(shè)置為300。BiLSTM網(wǎng)絡(luò)模型的隱藏層的維度設(shè)置為300,輸出層設(shè)置為600。網(wǎng)絡(luò)的層數(shù)設(shè)置為6層。CNN與BiLSTM的損失函數(shù)用交叉熵?fù)p失函數(shù),誤差傳遞函數(shù)用AdaDelta。在基于情感特征融合的二次檢索中,詞向量、CNN、BiLSTM的全連接層均設(shè)置為2。

      3 結(jié)果與分析

      實(shí)驗(yàn)通過輸入新聞,按照新聞內(nèi)容、新聞內(nèi)容提取的關(guān)鍵詞、新聞標(biāo)題3種不同粒度分別與評論語料進(jìn)行主題相似度計(jì)算。

      3.1 測評指標(biāo)

      基于主題特征的一次檢索主要檢索出評論與新聞相關(guān)性,主要評價已有的新聞對應(yīng)的評論與檢索出來的新聞評論之間的重合性?;谇楦刑卣魅诤系亩螜z索主要評測情感分類的準(zhǔn)確性。其中選取準(zhǔn)確率(Accuarcy)和F-score作為評測指標(biāo)。

      表3和表4為性能評估矩陣,用于評測準(zhǔn)確率和F-score。具體的計(jì)算公式如式(15)-式(18)所示

      (15)

      (16)

      (17)

      (18)

      表4 基于情感特征融合的二次檢索性能評估矩陣

      其中Precision、Recall、F-score分別表示精確率、召回值和F值。

      3.2 實(shí)驗(yàn)結(jié)果分析

      基于主題特征的一次檢索,按照新聞內(nèi)容、新聞內(nèi)容提取的關(guān)鍵詞、新聞標(biāo)題3種不同主題粒度檢索評論,計(jì)算的F值和準(zhǔn)確率其結(jié)果見表5。

      表5 基于主題特征的一次檢索的準(zhǔn)確性和F-score

      從表5中的數(shù)據(jù)可以看出,采用不同主題粒度得到的檢索準(zhǔn)確率不同。由于對新聞概括最全,新聞標(biāo)題主題粒度下的準(zhǔn)確率最高;新聞內(nèi)容由于提取到較多無用信息,對評論主題相似性計(jì)算產(chǎn)生干擾,因此準(zhǔn)確率較低;新聞關(guān)鍵詞是在新聞內(nèi)容中抽取出的關(guān)鍵信息,但由于信息不完整,且與關(guān)鍵詞抽取算法有關(guān)聯(lián),因此準(zhǔn)確率最低?;谥黝}特征融合的檢索算法在檢索評論準(zhǔn)確性上要優(yōu)于其余3種算法,由于基于主題特征融合的檢索采用的3種算法求相似度取平均值,在總體上提升了判斷主題相似度的準(zhǔn)確性。

      在一次檢索的結(jié)果基礎(chǔ)上,利用情感特征融合的二次檢索,其計(jì)算準(zhǔn)確率和F-score結(jié)果見表6。

      表6 基于情感特征融合的二次檢索準(zhǔn)確性和F-score

      依據(jù)表6結(jié)果分析,利用基于主題特征融合的檢索算法對一次檢索的評論進(jìn)行情感分類,其分類結(jié)果的準(zhǔn)確性要高于其余3種算法。由于采用多種算法融合判定,避免了單一算法對類別判定失誤,提升了分類的準(zhǔn)確性。

      實(shí)驗(yàn)在新聞標(biāo)題粒度下分別與評論語料進(jìn)行主題相似度計(jì)算。其結(jié)果見表7,經(jīng)過基于情感融合特征的二次檢索,檢索結(jié)果見表8。

      表7 基于主題特征的一次檢索結(jié)果

      表8 基于情感特征融合的二次檢索結(jié)果

      從表7與表8分析可得,采用基于主題特征的一次檢索和基于情感特征融合的二次檢索可以從新聞?wù)Z料庫中檢索出帶有情感傾向性的相關(guān)評論。

      4 結(jié)束語

      本文研究了在不同新聞主題粒度下,用基于主題特征融合的檢索算法和情感特征融合的檢索算法從評論語料庫檢索出與新聞相關(guān)的情感傾向性的評論。實(shí)驗(yàn)結(jié)果表明,在新聞標(biāo)題粒度下,檢索出的評論準(zhǔn)確率最高,采用基于主題特征融合和情感特征融合的結(jié)果準(zhǔn)確性較高,但是需要付出一定的計(jì)算代價。如何高效并準(zhǔn)確檢索出含有一定主題相關(guān)性和情感傾向性的評論是研究的一個方向,若檢索不出有關(guān)內(nèi)容,自動生成有關(guān)評論將是研究熱點(diǎn)。

      猜你喜歡
      檢索向量特征
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      如何表達(dá)“特征”
      2019年第4-6期便捷檢索目錄
      不忠誠的四個特征
      抓住特征巧觀察
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      線性代數(shù)的應(yīng)用特征
      河南科技(2014年23期)2014-02-27 14:19:15
      桂阳县| 抚顺市| 宜州市| 峨边| 正宁县| 吉首市| 苗栗县| 永州市| 凤翔县| 荆门市| 通渭县| 绵竹市| 色达县| 太仆寺旗| 罗江县| 贵港市| 平昌县| 林口县| 和田县| 包头市| 桃江县| 炎陵县| 安丘市| 普兰县| 阳泉市| 运城市| 大洼县| 郑州市| 海丰县| 仁化县| 安阳市| 沁源县| 扎鲁特旗| 克山县| 绍兴县| 桓仁| 北川| 和田市| 林甸县| 长垣县| 房产|