• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于主題特征的問答文本摘要自動生成研究

      2023-08-14 16:02:06劉夢豪熊回香王妞妞賀宇航
      現(xiàn)代情報 2023年8期

      劉夢豪 熊回香 王妞妞 賀宇航

      摘 要: [目的/ 意義] 為幫助用戶在擁有海量文本信息的問答社區(qū)高效率、高質量定位到符合自身需求的信息。[方法/ 過程] 本文提出基于主題特征的問答文本摘要生成模型, 該模型融合Word2Vec 和SLDA 算法多層次表達問答文本語義特征, 而后基于圖排序的思想, 結合MRR 冗余控制算法與文本句特征標簽, 調整句子權重,高效篩選出貼合問題標簽的摘要內(nèi)容。[結果/ 結論] 本文對知乎問答社區(qū)多個問題下的問答文本數(shù)據(jù)進行驗證,結果證明該模型具有較高的可行性和有效性。但本文選取了500 份回答文本數(shù)據(jù)進行實證, 未來可進一步擴大數(shù)據(jù)量開展更為充分的驗證。

      關鍵詞: 摘要自動生成; 知乎; 問答社區(qū); 監(jiān)督主題模型; 圖排序; Word2Vec

      DOI:10.3969 / j.issn.1008-0821.2023.08.011

      〔中圖分類號〕G203 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 08-0114-11

      在線問答社區(qū)是依托Web2 0 發(fā)展起來的知識共享平臺, 已經(jīng)成為越來越多用戶交流意見、分享知識的重要載體, 用戶在各抒己見的同時, 也創(chuàng)造了海量的問答文本信息, 這些信息因其具備知識導向性和專業(yè)性而彰顯出極高的價值, 蘊含著較多的問答文本。與此同時, 這些文本還具有數(shù)據(jù)量大、內(nèi)容碎片化、結構雜亂化、特征稀疏性強、噪聲大、規(guī)范性差等特點, 為用戶精準高效獲取信息帶來了巨大的障礙, 自動文摘技術便是能幫助用戶從海量的文本信息中找到所需關鍵信息的重要技術之一, 但自然語言的復雜性、模糊性、歧義性等特征使得計算機難以精準地掌握自然語言的實際語義,加大了自動文摘生成難度。因此, 為了從大量的問答文本中自動抽取出主要的語義信息, 提升長文本摘要的質量, 解決現(xiàn)有自動摘要抽取中信息覆蓋率低等問題, 本文嘗試從主題特征入手, 結合監(jiān)督主題模型及Word2Vec 算法從語義角度對問答文本摘要進行抽取, 并利用CoRank 與冗余控制方法調整句子內(nèi)容及順序, 進一步提高問答文本摘要水平,以期豐富基于主題模型的自動文摘研究方法, 并拓寬自動文摘應用研究領域, 從而提升信息獲取效率, 增強信息服務質量。

      1 相關研究

      自動文摘需要解決語義分析和句子排序問題,近年來, 主題模型(Topic Model)作為一種含有隱含變量的三層貝葉斯混合概率生成模型, 通常被用于文本語義分析, 該模型以非監(jiān)督學習的方式自動提取文檔集中隱含語義主題, 有助于在文本摘要生成時進行主題語義表示[1] 。國內(nèi)外學者基于主題模型開展了自動文摘的多項探索研究, 例如, Fang H等[2] 通過引入主題因子, 提出以TAOS 模型來提取各種特征組; Bairi R B 等[3] 為了能更便捷地融合LDA、分類和聚類算法來抽取摘要, 提出了一種依賴于多個子模塊函數(shù)和層次主題的方法; Yang G[4]基于n-gram 模型, 將語詞上下文與LDA 模型相融合, 計算得到不同上下文層次間文本—主題分布以及相同層次間的語詞關聯(lián)性; 湯丹[5] 提出了基于LDA 主題模型的多特征中文自動摘要方法, 從多個角度判斷句子的重要性, 并利用冗余控制對句子進行篩選, 從而實現(xiàn)通用的中文自動文摘系統(tǒng)。這類研究多為基于傳統(tǒng)無監(jiān)督主題模型的算法, 難以保證自動文摘的精確度, 隨著機器學習算法的不斷推廣和深化, 有監(jiān)督的學習方法取得廣泛應用。LiJ 等[6] 在提取特征時引入了查詢相關度的概念, 并利用貝葉斯概率模型進行監(jiān)督訓練; Valizadeh M等[7] 融合Word2Vec 等多個機器學習算法模型來改進算法, 避免了抽取特征的單一性, 基于抽取出的多樣特征對得到的候選摘要進行語法分析; Blei MD 等[8] 根據(jù)有監(jiān)督的機器學習算法提出了有監(jiān)督的主題模型SLDA(Supervised Latent Dirichlet Alloca?tion), 在指定標簽的監(jiān)督下提升了主題發(fā)現(xiàn)的準確性, 一定程度上避免了LDA 為文本強制分配主題的弊端; 唐曉波等[9] 提出了一種混合機器學習模型, 在抽取摘要的過程中同時考慮了句子的形式特征和深層語義, 并在多主題的中文長文本上驗證了該模型的有效性; 石磊等[10] 基于序列到序列模型提升了文本摘要的生成效率; 肖元君等[11] 在Gensim 的基礎上, 融合Word2Vec 和TextRank 算法生成詞向量, 并生成有權無向圖, 對句子進行打分排序后生成文本摘要。

      為了解決句子排序問題, Erkan G 等[12] 基于LexRank 算法構建出圖模型, 在該模型中, 設定句子或語詞為圖的節(jié)點, 以句子或語詞間的相似度來表示節(jié)點之間的邊, 最終得到句子的重要度排序,進而得到文本摘要; 在此基礎上, Wei F 等[13] 引入文檔間的相關性, 嘗試將圖分成句子層和文檔層, 而不單單利用句子間的相似度來構造圖, 取得了較好的效果; Silva S 等[14] 在計算句間相似度的基礎上, 利用語詞的TF-IDF 值以及查詢語詞的相關性來進一步計算句子的分數(shù), 然后以分數(shù)最高的k 個句子為中心進行聚類, 根據(jù)聚類結果構造圖模型, 進而生成摘要。趙美玲等[15] 針對多文本, 在對不同主題進行劃分的基礎上, 融合了改進Kmeans聚類和圖模型方法, 實現(xiàn)了多文本自動文摘; 由于普通的圖模型只能從相鄰節(jié)點出發(fā)簡單描述句子之間的關系, 難以更全面地表示句子間存在的其他復雜關系。學者Wang W 等[16] 基于DB?SCAN 方法構造超圖, 再計算句子相似度及句子的查詢權重, 從而計算句子得分; Zheng H T 等[17] 通過引入文檔中的概念, 在TextRank 的基礎上增加了概念層, 從而得到了兩層超圖模型, 在該模型中, 利用句子已有的權重和含有的概念數(shù)來改進句子得分的計算方法; 作為一種基于圖排序的自動摘要算法, CoRank 算法以TextRank 算法為基礎, 融合語詞與句子之間的關系, 更適合用于在自動摘要中對句子進行打分排序。此外, 陶興等[18] 提出,改進的W2V-MMR 自動摘要生成算法, 利用基于深度學習的Word2Vec 詞向量生成模型, 優(yōu)化摘要句信息質量, 引入最大邊界相關(MMR) 的思想,對學術問答社區(qū)內(nèi)的用戶生成問答文本進行自動摘要; 為有效提高社會化問答社區(qū)的問題推薦質量,陳晨等[19] 提出基于多源混合標簽的方法。梳理上述研究可知, 學者Fang H 等[2] 、Bairi R B 等[3] 、Yang G[4] 和湯丹[5] 的研究多基于傳統(tǒng)的無監(jiān)督主題模型, 缺點是并不能保證文檔的精確度, 甚至可能引起維數(shù)災難。因此, 為了改進算法, Li J 等[6]和Valizadeh M 等[7] 的模型避免了抽取特征的單一性, 提升了主題發(fā)現(xiàn)的準確性, 一定程度上避免了LDA 為文本強制分配主題的弊端。此外, Erkan G等[12] 、Wei F 等[13] 、Silva S 等[14] 和陶興等[18] 提出的模型可以有效地解決句子的重要度排序問題,尤其是CoRank 算法可以有效地提高社會化問答社區(qū)的問題推薦質量。

      在目前知識獲取及知識分享需求日漸擴張的趨勢下, 以知乎為代表的問答平臺用戶量在不斷增長, 對問答平臺中的長文本進行摘要抽取顯得十分必要, 如何有機結合有監(jiān)督主題模型、句子排序算法及冗余控制方法實現(xiàn)不同的場景的文摘生成, 更好地提取文檔主題, 便成為學術界重點關注的問題之一。因此, 為解決自動文摘語義分析問題, 本文在綜合學術界現(xiàn)有研究成果的基礎上, 充分分析問答文本特征, 通過有監(jiān)督主題模型SLDA 算法挖掘文本主題, 并結合Word2Vec 對文本進行深層語義表示; 利用圖模型CoRank 對摘要進行抽取后, 通過MMR 算法進行摘要句冗余控制, 從而有效解決摘要句的排序問題, 以期提高文摘質量, 豐富自動文摘現(xiàn)有研究成果, 提高信息服務水平。

      2 基于主題特征的問答文本摘要自動生成模型構建

      本文基于主題模型提出問答文本摘要自動生成體系架構, 主要包括數(shù)據(jù)收集及預處理、基于主題特征的語義向量表示、基于CoRank 句子排序、基于冗余控制的文本摘要生成4 個部分, 其模型框架如圖1 所示。

      2 1 基于主題特征的語義向量表示

      為了保證得到的摘要句符合用戶所需, 本研究首先融合SLDA 和Word2Vec 模型, 從全局角度和局部角度挖掘回答文本中的語義信息, 其基本框架如圖2[20] 所示。

      在圖2 中, D ={x1,x2,…,xm }表示由m 條文本組成的文本集, 其中, xj(1≤j≤m)表示一條完整的文本數(shù)據(jù), 對文本集D 分詞后, 可獲得n 個語詞的集合W ={w1,w2,…,wn }, 其中, wi(1≤i≤n)表示單個語詞。利用SLDA 主題模型訓練得出主題—語詞分布矩陣C, 從而得到語詞wi (1≤i≤n)的全局語義嵌入詞向量wzi(1≤i≤n)。而后根據(jù)Word2Vec 模型得到語詞wi 的局部語義嵌入詞向量wci。最后, 將每個語詞wi 的全局語義嵌入詞向量wzi與局部語義嵌入詞向量wci拼接后, 即可得到語詞wi 的綜合語義嵌入詞向量wsi, 詳細闡述如下。

      1) 基于SLDA 的語詞語義表示。SLDA 模型作為有監(jiān)督的主題模型, 在訓練模型前需要將訓練文本集中的所有文本進行初始分類, 本部分通過人工判別的方式獲取問題所屬領域進行初始分類, 而后獲取訓練文檔集中所有語詞集合, 統(tǒng)計得到訓練文本集中每條文本的詞頻矩陣DT, DT 中的每個元素cij(1≤i≤n, 1≤j≤m)表示語詞wi 在文本xj 中出現(xiàn)的頻次。

      將語詞集合W、文本集合D 與詞頻矩陣DT 作為初始數(shù)據(jù)以訓練SLDA 模型。訓練可得主題—語詞分布矩陣C, 該矩陣中的元素hik表示第i 個單詞wi 屬于第k 個主題的概率, 而后, 將主題—語詞分布矩陣C 轉置后得到語詞—主題分布矩陣CT ,并用(wi ,hk )(1≤i≤n, 1≤k≤K)表示語詞wi 和分配給它的主題向量Zk =(hi1,hi2,…,hiK ), 由于主題是從文本集中挖掘出的全局語義信息, 因此, 可以將語詞的主題向量zk 表示為每個語詞wi 的全局語義嵌入詞向量wzi。

      2) 基于Word2Vec 的語詞語義表示。Word2Vec是用于訓練分布式詞嵌入表示的神經(jīng)網(wǎng)絡模型[21] ,包括CBOW 和Skip-Gram 兩種模型。在Skip-Gram中, 每個詞均受到周圍詞的影響, 每個詞作為中心詞時都需要進行多次的預測、調整, 這種多次調整會使得詞向量更加準確, 因此, 本文將采用Skip-Gram 模型來構建框架。此外, Word2Vec 模型認為位置相近的語詞語義相近, 因此可以通過Word2Vec對語詞的上下文語義進行表征, 設定其語義向量維度為H, 得到語詞的局部語義嵌入詞向量wci(1≤i≤n)。

      3) 綜合語義表示。本文在1) 中基于監(jiān)督主題模型SLDA 得到詞wi(1≤i≤n)的全局語義嵌入詞向量wzi(1≤i≤n), 并于2) 中基于Word2Vec 模型得到局部語義嵌入詞向量wci(1≤i≤n), 本節(jié)將對向量wzi(1≤i≤n)和wci(1≤i≤n)進行拼接, 生成語詞的綜合語義詞向量wsi= wziwci(1≤i≤n)。

      如圖5 所示, 為保證語詞的全局語義嵌入詞向量和局部語義嵌入詞向量在融合后不會因綜合語義融合過程產(chǎn)生影響, 本文采用向量拼接的方式將兩者進行融合, 以保留最原始的向量數(shù)據(jù), 由于wzi(1≤i≤n)是K 維向量, wci(1≤i≤n)是H 維向量, 最后可以得到K+H 維的綜合嵌入詞向量。

      2 2 基于CoRank 的句子排序

      2 2 1 特征詞分析

      以知乎為代表的問答社區(qū)文本由兩部分構成,其一為提問者提出的問題文本, 另一部分則是回答者的回答文本。通常, 提問者提出的問題需要遵循社區(qū)的規(guī)范, 如必須是問句等, 同時提問者也可以針對問題做細節(jié)描述。問答文本的問題內(nèi)容往往因提問者的表達能力及表達方式而表現(xiàn)出極大的主觀性, 因此知乎會自動給提問者推薦相關的問題標簽, 用戶也可以自定義問題標簽, 這些標簽往往可以作為問題的特征詞, 可用于研究者對回答者的文本進行特征分析。

      回答者的文本往往具有長短不一、涉及領域較多、摻雜回答者的主觀因素等特點。統(tǒng)計發(fā)現(xiàn), 有些較長的回答者文本屬于自媒體文本?;诖?, 將問答平臺回答文本分為兩大類: 一類是對客觀性事實的解讀, 其客觀性較強; 另一類是回答者自我感情的表達, 其主觀性較強, 表達的信息和意義往往比較模糊。但無論回答文本屬于哪一類, 其宗旨都會與問題的標簽相關聯(lián), 因此問題標簽也可以作為回答者文本的特征詞, 從而可以根據(jù)特征詞對回答者文本進行語義特征表示。

      2 2 2 CoRank 句子排序

      在自動摘要研究中, 越來越多的研究者開始應用計算簡單、性能穩(wěn)定的圖排序算法, CoRank 算法就是其中的一種[22] 。CoRank 算法使用杰卡德相似系數(shù)(Jaccard Similarity Coefficient)來計算頂點間的關系, 通過統(tǒng)計文本層的共同詞語數(shù)量來計算杰卡德相似系數(shù), 這種方法能正確識別具有相同詞語的句間關系, 但是并未考慮到句間語義層面的關系, 會降低某些句子之間的權值, 本文利用上文得到的句子語義向量來確定不同頂點間是否存在關系。在2 1 節(jié)中, 本文利用SLDA 主題模型和Word2Vec 模型得到語詞的綜合語義詞向量wsi(1≤i≤n), 將每個句子中語詞的綜合語義詞向量取均值, 即可得到問答文本的句子語義向量。假設文本中句子α 的語義向量為sα , 句子β 的向量語義為sβ , 則可以根據(jù)杰卡德相似系數(shù)計算方法得到句子α 和句子β 之間邊的關系即權重qαβ , 其計算公式如式(1):

      在迭代計算過程中, 較小的權值往往不會增大到影響節(jié)點間的關系, 但是會增加計算量, 實驗中常采用為θ 設置閾值的方法來消除這種缺陷, 一般可以取經(jīng)驗值θ =0 1, qαβ≥θ。對于包含M 個句子的文本, 可按照句間相似度qαβ構造出M×M 的對稱鄰接矩陣以表示句間關系, 這種鄰接矩陣反映出句子的空間結構關系, 可用于摘要句排序。

      2 2 3 句子特征表示

      為了分析問答文本的句子特征, 本文選取回答文本的問題標簽作為特征詞。由于特征詞本身存在于句子中時也會對句子產(chǎn)生一定的影響, 且不同詞匯在句中發(fā)揮的作用不盡相同, 因此, 本文根據(jù)特征詞權重來表征句子特征。此外, 若表示問題的標簽出現(xiàn)在回答文本的句子中, 則代表該條句子具有更高的重要性, 句子間的相互聯(lián)系、相互作用, 使得不同句子的整體權重也有所不同。

      前文基于CoRank 計算得到了句子間邊的權重,并構建了句子的對稱鄰接矩陣, 隨后, 可以根據(jù)式(2) 計算得到文本中第e 個句子的初始權重Ee(1≤e≤M)。其中, qαβ由句子α 和句子β 間的相似度決定, 表示兩個句子間的關系強度, d(0≤d≤1)用來解決關系強度均為0 的孤立句, r 通過困惑度函數(shù)收斂得出, 對于句子e 而言, 假設該句包含m個語詞, 式(2) 用Us(1≤s≤m)表示該句第s 個單詞的重要度。在實際訓練句子權重Ee 過程中,可先將其初始化為任意值, 然后不斷迭代得到最終句子權重。

      2 3 基于冗余控制的文本摘要生成

      在2 2 節(jié)中, 本文得到了文本中所有句子的權重得分, 在通常情況下, 將句子權重得分進行排序后即可選取其中的前幾名作為摘要句, 但這種情況僅是基于句子間的關系及特征詞的權重來選取摘要句子, 其冗余度未得到有效控制, 為了使摘要句在重要性較高的同時簡明扼要、包含更全面的信息,本文將基于MMR 冗余控制模型[23] 對候選摘要句進行冗余控制。對于包含T 個句子的候選摘要句集合, 候選摘要句st(1≤t≤T)冗余控制分數(shù)計算方法如式(6) 所示。

      score(st )= λ?Xt -(1-λ)?Sim2(st ,S) (6)

      其中, λ 是調節(jié)參數(shù), score(st )(1≤t≤T)是第t 個句子的得分, Sim2 表示句子st (1≤t≤T)與當前摘要S 的余弦相似度, 該值越大表明當前句子與已更新得到的摘要越相似, 加入摘要中可能會引起信息冗余, 此處用減法控制句子冗余得分。此外, 得到的score(st )(1≤t≤T)越高表明該句子與已有摘要相似度越低, 因此每次迭代會將得分最高的句子加入摘要中。圖6[24] 是進行候選摘要句冗余控制的流程圖, 在進行冗余控制前, 需要初始化摘要結果S, 可將Xt(1≤t≤T)值最高的候選摘要句加入其中進行初始化。

      3 實證研究

      過去幾年, 國內(nèi)問答社區(qū)逐漸從小眾平臺轉型為大眾平臺, 迎來了用戶和內(nèi)容數(shù)量的井噴。如今, 知乎用戶已突破2 2 億, 全站問題總數(shù)超過4 400萬, 回答總數(shù)超過2 4 億, 擁有海量的問答文本數(shù)據(jù), 其良好的答題氛圍和高水平、多樣化的問答文本是優(yōu)質的數(shù)據(jù)來源。本文將從知乎的問答文本內(nèi)容入手, 利用構建的摘要提取模型提取問答文本摘要。

      3 1 數(shù)據(jù)獲取及預處理

      3 1 1 知乎平臺數(shù)據(jù)獲取

      本次實驗的數(shù)據(jù)來自知乎問答社區(qū), 選取了互聯(lián)網(wǎng)分類下的“中文互聯(lián)網(wǎng)的產(chǎn)出在漸漸枯萎嗎?”、心理學分類下的“為什么現(xiàn)在的年輕人內(nèi)心都越來越悲觀?” 等5 個領域的問題, 如表1 所示。

      每個問題中獲?。保保?條文本在200 字以上的回答, 經(jīng)過人工審查發(fā)現(xiàn), 部分回答文本中包含了較多的無意義符號, 將此類無意義文本及重復文本剔除后, 每個問題下保留100 條數(shù)據(jù)進行后續(xù)實證分析。表2 為部分回答文本數(shù)據(jù)。

      3 1 2 數(shù)據(jù)預處理

      獲取到文本數(shù)據(jù)后, 對文本進行分詞處理。鑒于Pkuseg 包可以進行多領域分詞, 并且支持用戶自定義自訓練模型, 具有更高的分詞準確率, 本文采用Pkuseg 分詞包進行文本分詞, 同時利用百度停用詞表、哈工大停用詞表、中文停用詞表、四川大學機器智能實驗室停用詞庫得到內(nèi)容較全的停用詞庫, 分詞結果如表3 所示。

      3 1 3 問題標簽屬性抽取

      知乎的問題中都會帶有用戶定義的標簽, 問題本身以及問答文本往往也都與這些標簽相關, 后續(xù)實證將基于已有標簽對摘要進行監(jiān)督處理, 由于標簽屬性往往為用戶自定義或者知乎推薦的標簽, 規(guī)范程度較低, 所以此處對標簽進行拆分處理, 得到如表4 所示的結果。

      3 2 語義向量表示

      3 2 1 基于SLDA 模型和Word2Vec 的語詞語義表示

      首先, 利用文本語詞集合以及如表5 所示的文本所屬類別及文本的詞頻矩陣DT, 訓練SLDA 模型。

      本實驗集共有25 430個語詞, 將文本集拆分為訓練集和測試集, 其中訓練集取文本集中每類文本的前90 條, 共450 條文檔數(shù)據(jù), 測試集取文本集中每類文本的后10 條數(shù)據(jù), 共50 條數(shù)據(jù)。將以上訓練集作為輸入數(shù)據(jù), 根據(jù)處理后標簽屬性的個數(shù), 將K 值歸納為20, 設置迭代次數(shù)為1 000次,經(jīng)過前期試驗得到, 在先驗分布參數(shù)α 取值為1 0時, 整體的訓練效果較好, 因此本次實證采用α =1 0 訓練得到的SLDA 模型來對測試集數(shù)據(jù)進行分組, 根據(jù)以上SLDA 模型可以得到測試集中每個單詞在不同主題下的概率分布, 該語詞—主題分布矩陣即是所有語詞的全局語義向量wzi。

      而后利用維基百科語料對文本集進行Word2Vec處理, 以Skip-Gram 模型作為訓練模型, 設置窗口大小為5, 詞向量維數(shù)設置為100, 得到文本的局部語義嵌入詞向量wci。

      3 2 2 綜合語義表示

      將根據(jù)訓練的SLDA 模型得到的測試集單詞的全局語義嵌入詞向量wzi和根據(jù)Word2Vec 模型得到的單詞局部語義嵌入詞向量wci, 做向量拼接, 得到每個測試集中每個單詞的綜合語義嵌入詞向量,如表6 所示。

      得到單詞的綜合語義嵌入詞向量后, 將其代入測試集的文本中, 將每個句子中所有語詞的綜合語義嵌入詞向量取均值, 便可以得到每個句子的綜合語義向量, 本文對句子的分割以“?!?“?” “.” “?”為基準, 從而盡量保證句子的完整性。由于每個句子所包含的詞語數(shù)量不同, 為統(tǒng)一句子的向量維度, 取句子中所有詞向量的均值來對句子進行向量表示, 可以得到測試集中部分句子的綜合語義向量如表7 所示。

      3 3 摘要生成

      上文通過獲取全局語義嵌入詞向量及局部語義嵌入詞向量的方式對句子進行了語義表征, 此處利用CoRank 圖排序算法獲取句子的對稱鄰接矩陣,從語義層面獲取句間關系。為便于更直觀地查看模型效果, 本文選擇測試文本集中的第1 條數(shù)據(jù), 即類別號為1, 文本序號為91 的回答文本進行后續(xù)實證, 表8 為該文本根據(jù)“?!?“?” “.” “?” 進行句子分割后得到的11 個句子。

      抽取表8 中句子的語義向量, 根據(jù)CoRank 算法, 可以計算出句子之間的杰卡德相似系數(shù), 從而得到句子的對稱鄰接矩陣。

      隨后, 將問題標簽作為特征詞引入到文本表里以計算句子之間的關系強度, 根據(jù)特征詞詞頻矩陣以及基于鄰接矩陣, 可以根據(jù)式(6) 迭代計算句子權重得分, 設置閾值為經(jīng)驗值0 01, 結果穩(wěn)定后, 其11 個句子的得分如表9 所示。

      其中, 句子9、6 和句子11、10 具有較高的分值。如果僅僅通過句子關系來抽取摘要句子, 則句子9 和句子6 可以被看作是包含信息量最大的候選摘要句, 為了保證信息的多樣性, 本文將91 號文本中1/3 的句子加入候選摘要集, 因此對該回答文本, 可以選取得分在前4 名(即句編號為: 9、6、10、11)的句子加入候選摘要集, 取句子最后迭代得到的得分作為句子得分。

      根據(jù)以上得到的候選摘要集以及其中的句子得分, 結合MMR 冗余控制流程(中間過程), 將得分最高的句子9 作為最終摘要的初始句, 為保證用戶能在最短的時間內(nèi)獲取更多的信息且符合快速閱讀習慣, 本研究設置最終摘要長度為80 個字(包含文字和標點符號, 中文單字及英文單詞均為1 個字),迭代過程中得到每個候選摘要句的分數(shù)如表10 所示。

      在第一次迭代中, 句子6 就被加入最終摘要中, 導致最終摘要的字數(shù)超過了80, 因此迭代結束。將最終得到的摘要句9 和6 進行組合, 可以得到最終摘要結果為: “因為同義重復的論述, 更容易接受, 深入分析很容易涉及心理的無意識層面和個人精神品質以及一些敏感話題, 互聯(lián)網(wǎng)受眾們更期待情緒價值, 無論是共鳴還是發(fā)泄情緒”, 即為本文實驗結果。

      3 4 實驗結果分析

      從定性角度來看, 本實驗最終摘要句總體可以概況回答文本內(nèi)容, 其包含內(nèi)容較多, 信息較為豐富。同時, 得到的兩個句子在內(nèi)容上重復度較低,更全面地概括了文本內(nèi)容, 即該摘要結果在信息性、多樣上均有較好的結果。此外, 摘要句中均包含“因為”, 這與問題中的疑問遙相呼應, 摘要句中的“互聯(lián)網(wǎng)” 也屬于特征詞, 并且該摘要句能回答該問答文本對應的問題“中文互聯(lián)網(wǎng)的產(chǎn)出在漸漸枯萎嗎”, 闡述了作者對于問題的看法, 說明了問題標簽的引入對句子的權重有一定影響, 從全局角度來看, 該句子與該問題下的內(nèi)容緊密相連,從局部角度來看, 在該回答文本的11 個句子中,該摘要具有最豐富的語義信息, 能更好地表達文本主旨內(nèi)容。此外, 學術界也常用ROUGE(Recall-OrientedUnderstudy for Gisting Evaluation)指標來評價實驗結果, 該指標是在機器翻譯、自動摘要、問答生成等領域常見的評估指標。ROUGE 通過將模型生成的摘要或者回答與人工得到的摘要或者回答按ngram拆分后, 計算召回率, 從而得到對應的得分。

      為了驗證本文摘要提取方法的有效性, 在同一數(shù)據(jù)集的基礎上, 本文設置了兩個對照實驗, 將基于LDA 的冗余控制方法[5] 作為實驗一用于驗證有監(jiān)督的主題表示模型對問答文本主題特征的表征情況, 以及將基于TextRank 的方法[25] 作為實驗二用于驗證CoRank 算法對于句子順序的排列效果, 橫向對比得到的評測結果, 按照1-gram 和2-gram 進行拆分, 得到ROUGE-1 和ROUGE-2 值的對比結果, 如圖7 所示。

      實驗結果顯示, 本文方法的評測結果總體上優(yōu)于其他對比方法。實驗一基于LDA 及冗余控制的摘要提取方法充分利用了LDA 主題模型的特征,從多個角度判斷了句子的重要性, 取得了一定的成果, 但未能進行深層次的語義、語法分析, 忽略了問答文本的標簽屬性等, 導致其評分較低。實驗二基于句子權重優(yōu)化了TextRank 算法, 但對于問答文本特征的忽略導致其在評測時得分不高。以上結果說明, 本文基于主題特征的主題模型能更全面地挖掘問答文本的語義信息, 所提取的摘要有效性更高, 具有更優(yōu)的摘要提取效果。

      4 結 語

      本文結合SLDA 及Word2Vec 語義向量模型, 從全局角度及局部角度挖掘文本語義信息, 利用詞向量更全面地對文本語義進行表征, 基于CoRank 算法實現(xiàn)句子排序, 選取出重要度較高的句子, 初步保證了摘要句在整個回答文本中的重要性; 同時,為保證得到的摘要句與問答文本的問題緊密相關,本文引入問答文本標簽, 結合特征詞, 計算句子得分以保證摘要句信息性; 并采用MMR 冗余控制算法, 控制最終摘要長度, 以候選摘要集中的句子冗余得分為基礎, 迭代更新候選摘要集和最終摘要,最終得到具有信息性和多樣性的摘要句。而后, 利用爬蟲技術獲取5 個問答文本下的500 份回答文本數(shù)據(jù)驗證本文模型, 結果顯示, 本模型所抽取的摘要句在總體上概括了文本內(nèi)容, 使用戶在短時間內(nèi)可快速獲取到該回答文本的主旨內(nèi)容, 但本文仍存在一定不足, 例如: 在引入特征詞時, 僅基于詞頻來結合計算句子權重, 容易忽略語義層面上的信息,未來也將在此基礎上做進一步改進, 探索更科學的評價機制來評價結果和模型, 從而繼續(xù)提升在線問答社區(qū)的服務水平, 促進信息服務的高質量發(fā)展。

      參考文獻

      [1] Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation [ J].Journal of Machine Learning Research, 2003, 3 ( 4/5): 993 -1022.

      [2] Fang H, Lu W, Wu F, et al. Topic Aspect-oriented Summariza?tion Via Group Selection [J]. Neurocomputing, 2015, 149: 1613-1619.

      [3] Bairi R B, Iyer R, Ramakrishnan G, et al. Summarization of MultidocumentTopic Hierarchies Using Submodular Mixtures [ C] / /Proceedings of the 53rd Annual Meeting of the Association for Com?putational Linguistics and the 7th International Joint Conference onNatural Language Processing (Volume 1: Long Papers), 2015, 1:553-563.

      [4] Yang G. A Novel Contextual Topic Model for Query-focused MultidocumentSummarization [C] / /2014 IEEE 26th International Con?ference on Tools with Artificial Intelligence. IEEE, 2014: 576 -583.

      [5] 湯丹. 基于LDA 和冗余控制的多特征中文自動文摘的研究和實現(xiàn)[D]. 昆明: 云南師范大學, 2021.

      [6] Li J, Li S. A Novel Feature-based Bayesian Model for Query Fo?cused Multi-document Summarization [J]. Transactions of the As?sociation for Computational Linguistics, 2013, 1: 89-98.

      [7] Valizadeh M, Brazdil P. Exploring Actor-object Relationships forQuery-focused Multi-document Summarization [ J]. Soft Compu?ting, 2015, 19 (11): 3109-3121.

      [8] Blei M D, McAuliffe J D. Supervised Topic Models [ J]. NIPS,2007: 121-128.

      [9] 唐曉波, 顧娜, 譚明亮. 基于句子主題發(fā)現(xiàn)的中文多文檔自動摘要研究[J]. 情報科學, 2020, 38 (3): 11-16, 28.

      [10] 石磊, 阮選敏, 魏瑞斌, 等. 基于序列到序列模型的生成式文本摘要研究綜述[J]. 情報學報, 2019, 38 (10): 1102-1116.

      [11] 肖元君, 吳國文. 基于Gensim 的摘要自動生成算法研究與實現(xiàn)[J]. 計算機應用與軟件, 2019, 36 (12): 131-136.

      [12] Erkan G, Radev D R. Lexrank: Graph-based Lexical Centralityas Salience in Text Summarization [ J]. Journal of Artificial Intelli?gence Research, 2004, 22 (1): 457-479.

      [13] Wei F, Li W, He Y. Document-aware Graph Models for QueryorientedMulti -document Summarization [ M]. Multimedia Analysis,Processing and Communications. Springer, Berlin, Heidelberg, 2011:655-678.

      [14] Silva S, Joshi N, Rao S, et al. Improved Algorithms for Docu?ment Classification & Query-based Multi-Document Summarization[J]. International Journal of Engineering and Technology, 2011, 3(4): 404.

      [15] 趙美玲, 劉勝全, 劉艷, 等. 基于改進K-means 聚類與圖模型相結合的多文本自動文摘研究[J]. 現(xiàn)代計算機(專業(yè)版),2017, (17): 26-30.

      [16] Wang W, Wei F, Li W, et al. Hypersum: Hypergraph BasedSemi-supervised Sentence Ranking for Query-oriented Summarization[C] / / Proceedings of the 18th ACM Conference on Information andKnowledge Management. ACM, 2009: 1855-1858.

      [17] Zheng H T, Guo J M, Jiang Y, et al. Query-Focused MultidocumentSummarization Based on Concept Importance [ C] / / Pa?cific- Asia Conference on Knowledge Discovery and Data Mining.Springer, Cham, 2016: 443-453.

      [18] 陶興, 張向先, 郭順利, 等. 學術問答社區(qū)用戶生成內(nèi)容的W2V-MMR 自動摘要方法研究[ J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2020, 4 (4): 109-118.

      [19] 陳晨, 侯景瑞, 吳任力, 等. 基于多源混合標簽的社會化問答社區(qū)問題推薦方法研究[J]. 情報科學, 2019, 37 (7): 139-145.

      [20] 朱輝. 融合主題模型的文本語義表示方法研究[ D]. 煙臺:山東工商學院, 2021.

      [21] 谷瑩, 李賀, 李葉葉, 等. 基于在線評論的企業(yè)競爭情報需求挖掘研究[J]. 現(xiàn)代情報, 2021, 41 (1): 24-31.

      [22] 劉凱鵬, 方濱興. 一種基于社會性標注的網(wǎng)頁排序算法[ J].計算機學報, 2010, 33 (6): 1014-1023.

      [23] 朱玉佳, 祝永志, 董兆安. 基于TextRank 算法的聯(lián)合打分文本摘要生成[J]. 通信技術, 2021, 54 (2): 323-326.

      [24] 程琨, 李傳藝, 賈欣欣, 等. 基于改進的MMR 算法的新聞文本抽取式摘要方法[J]. 應用科學學報, 2021, 39 (3): 443-455.

      [25] 曹洋. 基于TextRank 算法的單文檔自動文摘研究[D]. 南京:南京大學, 2016.

      (責任編輯: 郭沫含)

      凌源市| 望城县| 长武县| 林芝县| 平和县| 景宁| 和田县| 镇原县| 色达县| 涿鹿县| 阳城县| 盐边县| 上杭县| 孝昌县| 鹤岗市| 大厂| 如皋市| 潮安县| 青阳县| 山丹县| 聊城市| 浪卡子县| 广宁县| 威信县| 沁阳市| 西乡县| 廉江市| 班戈县| 葵青区| 阿勒泰市| 庄浪县| 韩城市| 石狮市| 浙江省| 开化县| 勃利县| 巴塘县| 定陶县| 兴仁县| 昌都县| 北辰区|