• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于TF—IDF算法的文本信息提取

      2018-10-27 11:25于韜王洪巖
      科技視界 2018年16期

      于韜 王洪巖

      【摘 要】隨著大數據時代的到來,數據量呈幾何倍增長。文本信息是人們接觸最多的信息,關鍵信息作為對文本主題的高度概括,成為用戶了解文本主題的快速渠道,如何快速有效的挖掘文本關鍵信息成為研究的關鍵問題。本文以本溪市政府工作報告為研究對象,將文本信息進行抽象,利用TF-IDF算法實現(xiàn)對文本中頻繁出現(xiàn)的短語進行批量自動提取,統(tǒng)計頻繁短語出現(xiàn)的頻次,進而提取關鍵信息。通過對政府工作報告的提取,可以看出政府建設本溪的總體趨勢,并且積極響應國家號召,總體推進本溪政府工作不斷向前。

      【關鍵詞】關鍵信息提?。籘F-IDF算法;頻繁短語;詞頻統(tǒng)計

      中圖分類號: TP391.1 文獻標識碼: A 文章編號: 2095-2457(2018)16-0117-002

      DOI:10.19694/j.cnki.issn2095-2457.2018.16.053

      【Abstract】With the advent of the big data era,the volume of data has increased exponentially.Text information is the most accessible information, and the key information,as a high summary of the text theme,has become a fast channel for users to understand the theme of the text.How to quickly and effectively excavate the key information of the text has become the key issue of the research.This paper takes the Benxi municipal governments work report as the research object and abstracts the text information.TF-IDF algorithm is used to automatically extract frequent phrases in the text,and the frequent occurrences of frequent phrases are extracted, and the key information is extracted. Through the extraction of the government work report,we can see the general trend of the governments construction of benxi,and actively respond to the national call,so as to push forward the work of benxi government.

      【Key words】Key information extraction;TF-IDF algorithm;Frequent phrases;Word frequency statistics

      0 引言

      人們每天通過網絡了解國內外事件,獲取自己所需信息。網絡早已成為人們了解信息的重要方式,隨著大數據時代到來,信息量暴增,信息交換、傳遞的方式也隨之增多,但在眾多信息傳遞方式中,文本信息在目前依然占據上風。如何快速有效地了解文本關鍵信息成為關鍵問題。在大數據時代,我們對大數據和數據挖掘已然不陌生,數據挖掘是主動地挖掘大數據中價值信息,文本也是數據挖掘的重點研究領域,因此提取文本中關鍵信息十分關鍵。

      TF-IDF(Term Frequency-Inverse Document Frequency)算法是是一種用于信息檢索與數據挖掘的常用加權技術[1],是一種統(tǒng)計方法,用以評估字詞對于文本集的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。也就是說一個詞語在一篇文章中出現(xiàn)次數越多, 同時在所有文檔中出現(xiàn)次數越少, 越能夠代表該文章。本文通過TF-IDF算法對政府工作報告進行提取,得到了可靠的結果,結果可信度強,適合對文本進行關鍵詞提取的工作。

      1 TF-IDF算法

      TF-IDF算法是經典的關鍵詞提取方法[2-3],是目前應用最多的基于統(tǒng)計信息的關鍵詞提取方法。分為三大模塊:

      1.1 文本預處理模塊

      輸入文本a,首先進行分詞等預處理操作,然后把文本a的內容看成由特征詞組成的集合,文本a可以用特征詞的集合表示為ai=(t1,t2…,ti,…tn)其中ti是特征項。

      1.2 權重計算模塊

      根據各個項ti在文本ai中的重要性給其賦予一定的權重wi,TF-IDF算法通過特征詞的詞頻(TF)和反文檔頻率(IDF)來計算特征詞ti的權重wi,文本ai的特征詞的權重計算公式如下:

      TF(ai,ti)表示特征詞在文本中出現(xiàn)的次數,DF(ti)表示在文本數據集中出現(xiàn)特征詞的文本個數,M表示文本數據集總的文本數,IDF(ti)表示反文檔率。

      1.3 提取關鍵信息模塊

      按照權重wi從大到小對特征詞ti進行排序,選擇前m個詞作為文本a最終的關鍵詞。

      2 實驗設計

      通過實驗驗證本文提出的詞頻統(tǒng)計規(guī)律的正確性,驗證TF-IDF算法的有效性和可行性。本文實驗均在 Windows 10系統(tǒng)下運行,CPU 主頻 3. 40 GHz,內存8 GB,開發(fā)工具pycharm,運行環(huán)境Python3.6,算法實現(xiàn)采用Python語言。

      2.1 實驗數據集

      在對詞頻分布規(guī)律進行研究時,沒有固定、標準的數據集。在以往有關詞頻分布規(guī)律的實驗中,多以文章、文獻或書籍作為實驗數據。本文以政府工作報告作為實驗數據集。

      本文實驗數據具有以下特點:

      (1)實驗數據質量高: 為保證數據質量,本文選擇的是高質量的政府工作報告。

      (2)實驗文本說服性強:本文選擇具有權威性的政府工作報告作為實驗數據集。

      (3)實驗文本數量多:本實驗以本溪市9年的政府工作報告作為實驗數據。

      2.2 算法驗證

      本文在中文文本上驗證TF-IDF算法的可行性[4-5],通過與真實值的趨近程度來判斷算法的準確率。首先將每個政府工作報告抽象為一個文本a,進行輸入。然后將文本a化成特征項組成的集合,方便提取關鍵詞,接著計算每一項的權重,通過權重計算公式計算出每一項的權重,接著按照每一項的權重大小進行排序,取出排名靠前的幾項作為關鍵詞。

      3 實驗結果

      接下來對提取結果進行簡要分析:結果包含了2010-2018年間的提取關鍵詞。2010年政府工作報告的重點是推進項目發(fā)展、抓好招商產業(yè)、實現(xiàn)產值20億元以上、完善沈本工作等。2011年主要工作重點是抓好新城工作,并堅持發(fā)展文化。2012年主要工作重點是加快全市重點集群產業(yè)工作,完成企業(yè)工程增長10億元,并發(fā)展旅游業(yè)等……2018年重點在加快企業(yè)改革,發(fā)展旅游等。通過9年間的提取結果,可以看出在這9年間政府以建設本溪、推進項目發(fā)展工作貫徹始終,積極響應國家號召,在堅持大方向的前提下,不斷完善每個基本點,總體堅持改革與發(fā)展。并通過對企業(yè)、旅游、文化等的促進,總體推進本溪政府工作不斷向前。

      4 結語

      本文將TF-IDF算法與關鍵信息提取相結合,提出基于TF-IDF算法的文本信息提取方法。首先對TF-IDF算法進行研究,利用文本預處理模塊、權重計算模塊、提取關鍵信息模塊對文本進行處理,提取了政府工作報告的關鍵信息,得到了大致的發(fā)展方向與研究重點,并且驗證結果與真實值基本吻合,此種方法為快速獲取文本關鍵信息提供了支持。

      【參考文獻】

      [1]孫飛.基于論壇關鍵字搜索的改進TF-IDF算法及其應用,江西師范大學,2015.5.

      [2]羅燕,趙書良,李曉超,等.基于詞頻統(tǒng)計的文本關鍵詞提取方法,計算機應用,2016.3.

      [3]張旭成,宋傳寶.基于文本類別信息熵的中文文檔關鍵詞提取,中國中文信息學會會議論文集,2007.10.

      [4]許夢馨.基于復雜網絡的文本關鍵詞提取分析平臺,南京郵電大學,2017.10.

      [5]楊玥.中文文本主題關鍵短語提取算法研究,西安理工大學,2017.6.

      巴青县| 四子王旗| 琼结县| 韶山市| 于田县| 太保市| 通辽市| 克山县| 云和县| 梅州市| 卢龙县| 石门县| 莱阳市| 固阳县| 龙陵县| 大同市| 柏乡县| 视频| 林甸县| 古浪县| 晋州市| 鸡西市| 河北省| 清苑县| 宜州市| 公主岭市| 文登市| 武平县| 六盘水市| 南陵县| 稻城县| 安平县| 黄浦区| 岳阳市| 南涧| 金山区| 兰考县| 大同县| 万州区| 玉溪市| 三都|