• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合多因素的TFIDF關(guān)鍵詞提取算法研究

      2019-07-23 09:37:14牛永潔田成龍
      計算機技術(shù)與發(fā)展 2019年7期
      關(guān)鍵詞:分詞準確率權(quán)重

      牛永潔,田成龍

      (延安大學(xué) 數(shù)學(xué)與計算機學(xué)院,陜西 延安 716000)

      0 引 言

      隨著數(shù)據(jù)時代的到來,各行各業(yè)都積累了大量的數(shù)據(jù),人們迫切希望從這些數(shù)據(jù)中發(fā)現(xiàn)有趣的知識。自然語言處理研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理融合了語言學(xué)、計算機科學(xué)、數(shù)學(xué)等學(xué)科,針對非結(jié)構(gòu)化的文本信息進行處理,其中關(guān)鍵詞的提取是自然語言處理中的基礎(chǔ)與核心技術(shù),在信息檢索、文本分類、文本聚類、信息匹配、話題跟蹤、自動摘要、人機對話等領(lǐng)域有廣泛的應(yīng)用[1-4]。

      目前針對文本關(guān)鍵詞的提取,為了取得良好的效果,大都采用專家標準的方法,但是面對日益增多的海量文本信息和迫切的應(yīng)用需求,人工標注已經(jīng)顯得力不從心。于是借助計算機自動進行關(guān)鍵詞提取的方法受到了越來越多的重視,已經(jīng)成為自然語言處理領(lǐng)域的一個研究熱點[5-7]。

      關(guān)鍵詞抽取方法按照是否進行監(jiān)督學(xué)習(xí)分為監(jiān)督性和非監(jiān)督性兩大類。通過訓(xùn)練數(shù)據(jù)構(gòu)建學(xué)習(xí)模型,進而判斷詞語是歸屬于關(guān)鍵詞類別還是非關(guān)鍵詞類別,屬于典型的有指導(dǎo)學(xué)習(xí)方法。有指導(dǎo)學(xué)習(xí)需要事先標注高質(zhì)量的訓(xùn)練數(shù)據(jù),人工預(yù)處理的代價較高。非監(jiān)督學(xué)習(xí)因為無需對數(shù)據(jù)進行訓(xùn)練,實現(xiàn)快捷,僅需要文本自身的信息就能進行等優(yōu)點被廣泛采用,非監(jiān)督關(guān)鍵詞抽取的主流方法可歸納為三種:基于TFIDF統(tǒng)計特征的關(guān)鍵詞抽取、基于主題模型的關(guān)鍵詞抽取和基于詞圖模型的關(guān)鍵詞抽取。這些方法都有自己的優(yōu)缺點[8]。

      文中主要針對TFIDF展開研究,綜合考慮文本信息中詞語的位置、詞性、詞語關(guān)聯(lián)性、詞長和詞跨度5種影響因素,對每一種影響因素賦予一定的權(quán)重,最后加和得到最終的詞語權(quán)重,獲得權(quán)重最大的前5個詞語作為文本的關(guān)鍵詞。與經(jīng)典的TFIDF方法及人工標注進行對比,發(fā)現(xiàn)文中算法在精確度、召回率和F1值都優(yōu)于經(jīng)典的方法,更加接近人工標注,值得推廣應(yīng)用。

      1 相關(guān)技術(shù)

      相關(guān)技術(shù)主要包含TFIDF、詞語的位置、詞性、詞語關(guān)聯(lián)性、詞長和詞跨度6個方面。設(shè)定一個文本集合D,集合中包含N個文本,每個文本T包含標題title和內(nèi)容content兩部分。content內(nèi)容由若干段落segment組成,段落由換行回車鍵進行分割。每個段落包含若干句子sentence,句子由若干詞語word組成。句子由標點符號“?!薄ⅰ?!”、“?”、“……”進行分割。

      1.1 TFIDF算法

      TFIDF算法處理的對象是文本的content部分[9-10],其中每個詞語word的權(quán)重由式1進行計算。

      Wtf(i)=tfi*idfi

      (1)

      其中,Wtf(i)表示第i個詞語使用TFIDF方法得到的權(quán)重;tfi表示該詞的詞頻,詞頻為該詞在content中出現(xiàn)的次數(shù)與content中詞語總數(shù)之比;idfi表示逆文檔頻率,計算方法為:

      (2)

      其中,N為文檔總數(shù);dfi為文檔中出現(xiàn)詞語i的文檔數(shù);β為一個經(jīng)驗常數(shù),一般取0.01、0.1、1,文中取數(shù)值1。

      TFIDF的計算表明,如果一個詞語在文本content中出現(xiàn)的次數(shù)越多但是在集合D中包含該詞語的其他文本數(shù)量越少,該詞語成為文本關(guān)鍵詞的權(quán)重越大,文中采用W_tfidf表示詞語的權(quán)重。

      1.2 詞語的位置

      根據(jù)文獻[4,8],文本的標題title一般會盡可能包含文本的中心思想,所以出現(xiàn)在標題中的詞語成為關(guān)鍵詞的概率最大,另外一個文本的第一段往往是全文的初步概括,也能最大限度地體現(xiàn)文章的主旨,所以對出現(xiàn)在第一段中的詞語也需要增加權(quán)重,末段往往是對全文的總結(jié),因此也需要對出現(xiàn)在末段的詞語增加權(quán)重。每段內(nèi)容的首句往往是本段內(nèi)容的綱領(lǐng),所以出現(xiàn)在每段第一句中詞語的權(quán)重也應(yīng)該適當(dāng)重視。詞語位置的權(quán)重設(shè)置如表1所示。

      表1 詞語位置權(quán)重設(shè)置

      1.3 詞 性

      漢語詞性可以分為實詞和虛詞。實詞包含:名詞、動詞、形容詞、數(shù)詞、量詞和代詞。虛詞包括:副詞、介詞、連詞、助詞、嘆詞、擬聲詞。關(guān)鍵詞詞性分布一般是名詞或名詞性短語為主,其次是動詞,最后是數(shù)詞、副詞和其他修飾詞等[11]。考慮詞性特征可以有效避免傳統(tǒng)采用語言學(xué)方法的缺陷[12-15],詞性的權(quán)重設(shè)置如表2所示。

      1.4 詞語關(guān)聯(lián)性

      漢語語言的詞語之間的關(guān)聯(lián)度在全局上顯示出高度的連接性,同時在局部具有高度的聚集性。根據(jù)自然語言具有的關(guān)聯(lián)特性,可以作為基本特征進行關(guān)鍵詞提取。因為在實踐中TFIDF算法的固有缺陷表現(xiàn)為數(shù)據(jù)集偏斜,類間、類內(nèi)分布偏差等。在詞語關(guān)聯(lián)度算法方面,由于復(fù)雜網(wǎng)絡(luò)僅僅依靠詞語之間的相互關(guān)系作為基本特征,忽略了單詞的頻率特征,容易造成關(guān)鍵詞提取的聚集特征不明顯,從而引起關(guān)鍵詞提取的誤差[16-17]。將二者相結(jié)合可以互相補充,能夠更加全面地描述一個詞語的權(quán)重。

      設(shè)V={v1,v2,…,vn}為節(jié)點集合,(vi,vj)表示節(jié)點vi∈V與vj∈V之間的邊。設(shè)G(V,E)是以V為節(jié)點集合,以E?{(vi,vj):vi,vj∈V}為邊集合的圖,則節(jié)點vi的度Di為:

      Di=|{vi,vj}:(vi,vj)∈E,vi,vj∈V|

      (3)

      節(jié)點vi的聚集度Ki為:

      Ki=|{vj,vk}:(vi,vj)∈E,

      (vi,vk)∈E,vi,vj,vk∈V|

      (4)

      節(jié)點vi的聚集系數(shù)Ci為:

      (5)

      對于節(jié)點vi計算網(wǎng)絡(luò)綜合特征值CFi:

      (6)

      其中,N表示網(wǎng)絡(luò)中的節(jié)點個數(shù),0<α<1,文中取α為0.5。

      對于文本中的每一個句子sentence,將句子sentence中的詞語作為節(jié)點集合,將各個句子所組成的網(wǎng)絡(luò)連接,合并相同的節(jié)點和連邊,就形成一個語言網(wǎng)絡(luò)。根據(jù)文獻[13]的研究成果,只考慮詞關(guān)聯(lián)跨度為1和2,計算每個詞語的度D,聚集度K和綜合特征值CF。使用CF值作為詞語word的詞關(guān)聯(lián)性權(quán)重 W_cf。

      1.5 詞 長

      經(jīng)過研究發(fā)現(xiàn),一個文本的關(guān)鍵詞的詞長一般大于2,所以可以將詞長小于2的詞語過濾掉。關(guān)鍵詞詞長越長,包含的信息越大,但是關(guān)鍵詞詞長一般不超過6,因此也可以將詞長大于6的詞語過濾掉。可以使用式7作為詞長的權(quán)重。

      (7)

      1.6 詞跨度

      一個詞的跨段落情況說明這個詞是描述局部的還是表達全文的??缍螖?shù)越多,說明該詞越重要,全局性越強。顯然,局部關(guān)鍵詞不是需要提取的目標,然而在傳統(tǒng)TFIDF算法中,局部關(guān)鍵詞往往會因為其高頻優(yōu)勢成為整個文檔的關(guān)鍵詞,降低了提取關(guān)鍵詞的準確率[18]。在提取關(guān)鍵詞的過程中,為了體現(xiàn)詞語的全局性,利用式8來衡量詞語的跨度權(quán)重。

      (8)

      2 算法步驟

      融合多因素的TFIDF的算法步驟為:

      (1)數(shù)據(jù)清洗:將文本中的噪聲數(shù)據(jù)清除,比如文本中多余的空格、 、#、*、[、』、【、】等字符。

      (2)標記:對文本進行段落識別,標記首段、末段,對文本進行語句識別,標記句子的開始和結(jié)束和每段的首句。

      (3)分詞:對文本進行帶有詞性的分詞,分詞結(jié)果分為兩個集合,分別是標題的分詞結(jié)果和內(nèi)容的分詞結(jié)果。文中采用了北京理工大學(xué)海量語言信息處理與云計算工程研究中心的NLPIR漢語分詞系統(tǒng)進行分詞。

      (4)停用詞過濾:停用詞在文本分析中屬于一種冗余數(shù)據(jù),對文本的主題不具備表達能力,往往具有高頻、無意義等特點。例如,“的”、“啊”、“但是”等詞語以及標點符號通過去除停用詞,能消除對關(guān)鍵詞提取的干擾。

      (5)詞性過濾:將文本中經(jīng)過分詞且詞性被標記為介詞、連詞、助詞、嘆詞、擬聲詞、語氣詞等詞語過濾掉,這些詞通常不可能是關(guān)鍵詞,同時會增加后續(xù)計算的工作量,所以將這些詞過濾掉。

      (6)詞長過濾:將詞長長度小于2大于6的詞語過濾掉。

      (7)采用TFIDF算法計算每個詞語的W_tfidf。

      (8)根據(jù)詞語的位置計算每個詞語的位置權(quán)重。

      (9)根據(jù)詞性分別計算每個詞的權(quán)重。

      (10)計算詞語的詞關(guān)聯(lián)性權(quán)重W_cf。

      (11)計算詞語的詞跨度權(quán)重W_seg。

      (12)計算詞語的詞長權(quán)重W_len。

      (13)根據(jù)式9計算詞語的最終權(quán)重W_all。

      W_all=(αW_tfidf+βW_cf+γW_seg+

      δW_len)*位置權(quán)重*詞性權(quán)重

      (9)

      其中,α、β、γ、δ為各種不同權(quán)重的加權(quán)系數(shù),文中取α為1.5,β為1.1,γ為0.8,δ為0.5。

      將計算得到的詞語的最終權(quán)重按照降序排列,取前5個作為一篇文本的關(guān)鍵詞。

      3 測試及結(jié)論

      為了衡量關(guān)鍵詞提取算法的優(yōu)劣,往往采用3個指標作為衡量的標準,分別是準確率、召回率和F1值,其中準確率和召回率是一對相互矛盾的指標,也就是說準確率如果比較高,但是召回率要低一些,綜合這兩個指標提出了F1值的概念,如果F1值比較高,則說明算法的效果比較好。

      準確率通過式10進行計算。

      (10)

      其中,Numcorrect表示正確提出的關(guān)鍵詞數(shù)量;Numtotal為總共提出的關(guān)鍵詞數(shù)量。

      召回率通過式11進行計算。

      (11)

      其中,Numactual為文本實際的關(guān)鍵詞數(shù)量。

      F1值綜合考慮了準確率和召回率兩個指標,通過式12進行計算。

      (12)

      本校圖書館對《紅色中華》報刊進行了收集和整理,共得到從1931年到1937年6年間的8 045篇新聞文章,其中每篇文章都由標題和正文組成,其中部分文章已經(jīng)通過紅色文獻研究專家進行了關(guān)鍵詞提取和標注工作。8 045篇文章作為文本的全體樣本,每篇文章作為一個文本,按照文中提出的算法進行了關(guān)鍵詞提取。通過準確率、召回率和F1值對文中算法、經(jīng)典的TFIDF算法和專家標注進行了對比,結(jié)果如表3所示。

      表3 算法對比

      %

      通過表3可以看出,融合多種因素的文中算法在三個指標上都明顯優(yōu)于經(jīng)典的TFIDF算法,值得推廣應(yīng)用。但是該算法也有不完善的地方,主要表現(xiàn)在計算工作量大,運行時間長,但是如果作為已經(jīng)整理好的離線數(shù)據(jù)源,為了提高關(guān)鍵詞提取的效果仍然是一種比較好的方法。通過對文中算法和專家標注的結(jié)果進行對比,發(fā)現(xiàn)該算法仍然有一些缺陷,主要表現(xiàn)為詞語組合問題,比如:專家標注的關(guān)鍵詞“滿洲傀儡政府”,在文中算法中被分為兩個詞“滿洲”和“傀儡政府”,可以看出文中算法的結(jié)果一方面受到分詞系統(tǒng)的影響,另一方面應(yīng)該根據(jù)詞語的關(guān)聯(lián)度進行詞語的組合,但是漢語的語法比較靈活,詞語組合規(guī)則還很難提取和總結(jié),所以詞語組合問題還有待于進一步研究。

      4 結(jié)束語

      通過綜合考慮詞語的位置、詞性、詞長、詞跨度和詞語關(guān)聯(lián)度等多種因素對經(jīng)典的TFIDF算法進行了改進,對每個因素的權(quán)重進行了加權(quán)相加或者相乘的運算,得到一個最終的詞語權(quán)重,然后取權(quán)重值最大的5個詞語作為文本的關(guān)鍵詞,以專家手工標注的關(guān)鍵詞為標準,對兩種算法進行了對比,發(fā)現(xiàn)文中算法效果良好,值得推廣應(yīng)用,同時在研究的過程中也發(fā)現(xiàn)了一些不足和缺陷。總而言之,文中算法比較全面地考慮了影響關(guān)鍵詞提取的各種因素,具有一定的通用性,能夠為其他類似的研究提供思路和參考,具有一定的推廣性和借鑒性,同時也為下一步研究指明了方向。

      猜你喜歡
      分詞準確率權(quán)重
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      權(quán)重常思“浮名輕”
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      高速公路車牌識別標識站準確率驗證法
      為黨督政勤履職 代民行權(quán)重擔(dān)當(dāng)
      基于公約式權(quán)重的截短線性分組碼盲識別方法
      值得重視的分詞的特殊用法
      層次分析法權(quán)重的計算:基于Lingo的數(shù)學(xué)模型
      河南科技(2014年15期)2014-02-27 14:12:51
      北宁市| 武义县| 弥勒县| 阿鲁科尔沁旗| 大丰市| 商南县| 蒲城县| 沈丘县| 房产| 廉江市| 鹤庆县| 余江县| 布拖县| 浮梁县| 屯昌县| 馆陶县| 象州县| 蒙自县| 岢岚县| 黑水县| 喀喇沁旗| 遵义县| 天气| 金溪县| 余江县| 巍山| 清丰县| 安乡县| 合肥市| 海盐县| 丹阳市| 农安县| 金溪县| 甘德县| 万山特区| 皋兰县| 庆城县| 潮州市| 北安市| 连南| 都匀市|