• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于TF-IDF和word2Vec的中文文本自動摘要模型

      2023-06-24 12:39:49龔永罡郭遠(yuǎn)南
      中國新通信 2023年2期
      關(guān)鍵詞:相似度

      龔永罡?郭遠(yuǎn)南

      摘要: 隨著互聯(lián)網(wǎng)時代的數(shù)據(jù)爆炸,在短文本信息數(shù)量迅速增長的環(huán)境下,為了更好地進行中文本摘要模型的計算,本文針對短文本的文本特征提取和相似度計算進行了深入研究。本文將優(yōu)化的TF-IDF模型和Word2Vec模型結(jié)合起來,進而提出一種兼顧短文本統(tǒng)計特征和語義特征的合并加權(quán)Word2Vec和TF-IDF的文本特征提取算法,將文本進行向量化表示;隨后,在文本的相似度算法中,基于短文本的特征,選取了余弦相似度算法,對短文本間相似度值進行了有效計算。實驗結(jié)果表明,使用TF-IDF和Word2Vec結(jié)合模型與傳統(tǒng)單個模型相比,生成出的文摘準(zhǔn)確性更高,質(zhì)量更好。

      關(guān)鍵詞:? 文本特征;相似度 ;Word2Vec;TF-IDF;余弦相似度

      一、引言

      隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人類也進入了信息海量獲得的時代,各種各樣的信息以驚人的速度呈現(xiàn)在我們生活的各個方面。海量信息中除了一小部分是紙質(zhì)信息外,絕大部分信息來源都為數(shù)字化、移動化和網(wǎng)絡(luò)化的閱讀,該種信息來源帶來了與傳統(tǒng)閱讀習(xí)慣完全不同的模式。閱讀模式的變革對信息質(zhì)量提出了更高的要求,為了滿足更好的閱讀標(biāo)準(zhǔn)和高質(zhì)量的信息傳遞的要求,需要深入研究相關(guān)技術(shù)手段對于文本信息的合理壓縮,并基于壓縮的內(nèi)容實現(xiàn)對于關(guān)鍵信息的篩選,盡最大的可能獲得文本信息中最為關(guān)鍵且有價值的內(nèi)容信息。本研究為了解決上述文本信息中存在的各種問題,以中文自動文本摘要作為主要的研究對象和內(nèi)容,針對新聞等短文本內(nèi)容的文本摘要提取問題,設(shè)計了一個基于TF-IDF和Word2Vec的文本特征提取和相似度計算模型,并運用實際數(shù)據(jù)對模型進行驗證。

      二、國內(nèi)外研究綜述

      國內(nèi)外基于文本的自動摘取技術(shù)最早可以起源于20世紀(jì)60年代,由美國學(xué)者Luhn[2]率先提出文本自動摘取的概念,隨后借助于互聯(lián)網(wǎng)技術(shù)的發(fā)展,形成了自動生成和抽取式兩種文本自動摘取的形式[3]。自動生成式摘要由于在進行文本抽取的過程中對于詞語的順序不進行排序,因此存在文字不通順,對于原有文本信息的概括性較差的問題[4];而自動抽取式文本主要通過從序列到序列的框架文本抽取,因此在進行關(guān)鍵詞和文本的抽取過程中,可以保證語句的通順,在對于文本自動摘要的過程中,通常使用自動文本抽取摘要技術(shù)[5]。

      在Word2Vec模型中,分別存在 CBOW 與 Skip-Gram 模型兩種計算方法,在實際的運用中,前者可以用于文章連續(xù)的詞匯預(yù)測,而后者可以通過關(guān)鍵詞匯預(yù)測上下文,兩種算法的結(jié)合實現(xiàn)了對文本特征和語義的有效提取和應(yīng)用,在文本摘要生成的建模和相似度計算中體現(xiàn)了良好的計算性能[7]。1999年,Aone通過TF-IDF算法來對文本中的關(guān)鍵詞進行提取,并用提取到的關(guān)鍵詞代表文本的主要特征,隨后使用樸素貝葉斯算法對文本中句子的概率進行了詳細(xì)計算,通過將TF-IDF算法和樸素貝葉斯算法的結(jié)合,提升了文本模型的分類效率。但是由于TF-IDF僅僅針對詞語的頻率進行了考量,并未能全面考慮特征信息在文本中的整體分布問題,因此在對于文本特征的反映并不全面,也未能反映全部的詞語含義,因此后期又有部分學(xué)者針對上述問題進行了改進,程龍等學(xué)者為了克服TF-IDF和關(guān)鍵詞提取的沖突問題,提出可卡方檢驗法,重新構(gòu)建了關(guān)鍵詞的抽取系統(tǒng),建立了基于文件存儲、預(yù)處理、度量值計算、排序抽取和優(yōu)化輸出等全過程,對于文本特征提取的全過程進行了進一步的優(yōu)化[11]。

      雖然中文文本自動摘要的研究逐漸發(fā)展,并在文本特征提取、圖模型等問題中取得了豐富的研究成果,但是在對于短文本進行自動摘要還是存在諸多問題,并未能取得十分滿意的效果,因此本文通過對文本自動摘要任務(wù)的基礎(chǔ)研究,對短文本建模和相似度計算進行了著重研究,將TF-IDF模型和word2vec模型結(jié)合起來,進而提出一種兼顧短文本統(tǒng)計特征和語義特征的合并加權(quán)word2vec和TF-IDF的文本特征提取算法,將文本進行向量化表示。

      三、相關(guān)算法和模型

      (一)詞頻和逆文檔頻率(TF-IDF)模型和優(yōu)化

      TF-IDF是一種統(tǒng)計算法,主要用于對文本中單個詞語對于文件集或資料庫文件重要程度的評估和計算。TF-IDF的計算模型其實是詞頻和逆文檔頻率的乘積,即為TF-IDF。在該式中,詞頻表示的是指定詞匯t在特定文檔d中出現(xiàn)的頻率,其可以用下式表示:

      (1)

      上式中,ni, j表示特征詞ti在文本中dj的出現(xiàn)概率;表示的是文本中dj中該詞語的次數(shù)和,k代表文本中dj的總詞數(shù)。

      IDF則主要指的是特征詞語的逆向文件頻率,通常由總文檔數(shù)據(jù)除以包含該詞語的文檔總數(shù)得到,主要計算公式如下:

      (2)

      在上式中,表示語料庫中的文檔總數(shù),表示包含該特征詞ti的文檔數(shù)目,如果該特征詞在語料庫中未有體現(xiàn),則使用? 表示。

      (二) Word2Vec模型

      在Word2Vec模型中,分別存在 CBOW 與 Skip-Gram 模型兩種計算方法,通過上述兩種模型的計算可以得到高質(zhì)量的詞向量,Word2Vec的詞向量維度一般為100-300之間,大大減少了計算的復(fù)雜性,同時對于原有語義進行了充分獲取,計算了兩個詞匯間的相似程度。以上這兩種算法的映射的關(guān)系可以對CBOW和Skip-Gram兩種算法的訓(xùn)練目標(biāo)優(yōu)化函數(shù)進行如下表示:

      (3)

      (4)

      上式中C為文本庫中所有的詞語,k為wt上下文窗口大小。

      四、文本特征提取和相似度計算

      (一)文本特征提取

      本研究在對短文本特征的提取過程中采用了優(yōu)化后的TF-IDF和Word2Vec相結(jié)合的算法,該特征提取的主要步驟如下。首先,需要對短文本集進行預(yù)處理,將文本中無關(guān)的內(nèi)容進行刪除,隨后對其文本進行分詞后,去除停用詞。隨后,利用對于相關(guān)短文本中的語料訓(xùn)練Word2Vec,初步得到詞的向量化表示。根據(jù)文本中dj出現(xiàn)的詞,將其進行向量累加,最終得到短文本向量即V(dj )。特征詞匯t的Word2Vec的詞向量表示則為W2V(t)。因此,可以得到如下表達(dá)式:

      第三步,將通過上文中的優(yōu)化后的TF-IDF算法中計算得到的詞權(quán)重與上文中Word2Vec的詞向量相乘,即可得到融合后的加權(quán)文檔向量Weighted_V(dj ),可表示為:

      (5)

      最后,需要將上述加權(quán)后的Word2Vec模型和TF-IDF模型進行進一步的結(jié)合。首先將Weighted_V(dj )和進行了標(biāo)準(zhǔn)化,同時引入了平衡參數(shù),α [0,1]因此,得到了結(jié)合后的新的文本向量U(dj ),其可以進一步表示如下:

      (6)

      (二)相似度計算模型

      本研究選用了余弦相似度的距離計算方法,假設(shè)有向量χ=(χ1,χ2,…,χn)以及y=(y1,y2,…,yn),則向量間的余弦距離的具體計算公式如下:

      (7)

      基于上文中的公式,可以得出其具體計算流程如下:

      五、實驗環(huán)境及結(jié)果

      (一)實驗環(huán)境

      操作系統(tǒng):Windows 10? 64位中文版

      CPU:Intel(R) Core(TM) i7

      內(nèi)存:16G

      GPU:RTX 2060。

      數(shù)據(jù)來源:新浪微博開放平臺。

      (二)實驗結(jié)果

      本次實驗計算ROUGE-1和ROUGE-2兩個評價指標(biāo),評價所需人工文本摘要由兩人同時給出,最后計算綜合共現(xiàn)率。人工評價方法則人工按照文摘的評價標(biāo)準(zhǔn)對生成的文摘打分,從句子的連貫性、邏輯性、符合主題等幾個方面打分,分?jǐn)?shù)為0至5分。選取十篇相同主題的中文文章進行實驗。

      實驗結(jié)果表明,將TF-IDF和Word2Vec結(jié)合應(yīng)用到中文自動摘要中,文摘效果得到了顯著的提升,且提升了整個文摘生成的效率。

      六、結(jié)束語

      本文根據(jù)短文本的特點,對短文本建模和相似度計算進行了著重研究。在建模階段,將TF-IDF模型和Word2Vec模型結(jié)合起來,進而提出一種兼顧短文本統(tǒng)計特征和語義特征的合并加權(quán)Word2Vec和TF-IDF的文本特征提取算法,將文本進行向量化表示。通過理論分析和實驗,本研究的模型具有較高的運算速度和準(zhǔn)確性,為今后提升文摘質(zhì)量和拓寬文摘模型的研究提供思路。

      作者單位:龔永罡 郭遠(yuǎn)南 北京工商大學(xué)人工智能學(xué)院

      參? 考? 文? 獻

      [1]黃鳴奮.后信息爆炸時代的數(shù)碼閱讀[J].福建論壇(人文社會科學(xué)版),2015(02):59-67

      [2]Luhn H P. The? automatic? creation? of? literature? abstracts[J].? IBM? Journal? of? Research and Development, 1958,15(09): 159-165..

      [3]郭紹華.網(wǎng)絡(luò)信息檢索技術(shù)的現(xiàn)狀及發(fā)展趨勢[J].黑龍江教育學(xué)院學(xué)報,2011,30(6):200-202.

      [4]馮勇,劉瑤,徐紅艷.一種基于標(biāo)簽用戶模型的個性化信息檢索方法[J].小型微型計算機系統(tǒng),2014,35(09):2004-2008.

      [5]王健.基于統(tǒng)計的Web文本自動摘要技術(shù)[J].科學(xué)導(dǎo)報,2016(08):132-137.

      [6]勞南新,王幫海.基于BERT的混合字詞特征中文文本摘要模型[J].計算機應(yīng)用與軟件,2022(06):039.

      [7]蔡中祥,孫建偉.融合指針網(wǎng)絡(luò)的新聞文本摘要模型[J].小型微型計算機系統(tǒng),2021,42(03):5.

      [8]符升旗,李金龍.基于分層信息過濾的生成式文本摘要模型[J].微型機與應(yīng)用,2021,40(05):62-67.

      [9]龔永罡,王嘉欣,廉小親,等.基于SiameseLSTM的中文多文檔自動文摘模型[J].計算機應(yīng)用與軟件,2021,38(03):287-290,326.

      [10]吳世鑫,黃德根,李玖一.基于語義對齊的生成式文本摘要研究[J].北京大學(xué)學(xué)報:自然科學(xué)版,2021,57(1):6.

      [11]程龍.基于改進TF-IDF算法的信息抽取系統(tǒng)設(shè)計與實現(xiàn)[D].北京郵電大學(xué),2019.

      猜你喜歡
      相似度
      改進的協(xié)同過濾推薦算法
      模糊Petri網(wǎng)在油田開發(fā)設(shè)計領(lǐng)域的應(yīng)用研究
      相似度算法在源程序比較中的應(yīng)用
      基于混合信任模型的協(xié)同過濾推薦算法
      基于灰度的圖像邊緣檢測與匹配算法的研究
      句子比較相似度的算法實現(xiàn)?
      影響母線負(fù)荷預(yù)測的因素及改進措施
      科技視界(2016年10期)2016-04-26 11:40:14
      基于粗糙集的麗江房價研究
      一種基于深網(wǎng)的個性化信息爬取方法
      基于貝葉斯網(wǎng)絡(luò)的協(xié)同過濾推薦算法
      麦盖提县| 阳谷县| 武安市| 手游| 万载县| 饶阳县| 清原| 大冶市| 清苑县| 临湘市| 印江| 东至县| 芦溪县| 马山县| 盐山县| 桐梓县| 沂源县| 新巴尔虎右旗| 榆林市| 天镇县| 辉南县| 平利县| 石门县| 厦门市| 福海县| 曲靖市| 泽州县| 手游| 巴彦淖尔市| 裕民县| 柯坪县| 平湖市| 丰都县| 正安县| 江源县| 台湾省| 无为县| 冷水江市| 商水县| 合江县| 颍上县|