• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于行業(yè)分類標(biāo)準(zhǔn)的債券新聞自動多分類

      2017-07-16 21:53:42陳欽明賴澤華呂威
      中國新通信 2017年11期
      關(guān)鍵詞:貝葉斯文檔數(shù)據(jù)挖掘

      陳欽明+賴澤華+呂威

      【摘要】 本文首先介紹了文本分類的研究背景包括傳統(tǒng)的人工分類以及基于文本數(shù)據(jù)挖掘相關(guān)技術(shù)的文本分類,接著根據(jù)實際需求通過跟蹤多家債券主體相關(guān)的新聞,基于行業(yè)分類標(biāo)準(zhǔn),完成債券新聞的自動多分類。新聞多分類處理流程包括數(shù)據(jù)集獲取、數(shù)據(jù)集的預(yù)處理、分類算法設(shè)計與實現(xiàn)、評估及穩(wěn)定性檢測等方面。

      【關(guān)鍵字】 行業(yè)分類標(biāo)準(zhǔn) 多分類 數(shù)據(jù)預(yù)處理 人工標(biāo)記 SVM 交叉驗證 算法穩(wěn)定性

      一、研究背景

      自上個世紀(jì)80年代以來,信息化的浪潮開始席卷全球,特別是互聯(lián)網(wǎng)技術(shù)的不斷普及與完善,信息技術(shù)迅速地滲透到社會的各個行業(yè)領(lǐng)域。近幾年,隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及電腦的普遍使用,電子化文檔的規(guī)模得到了急劇的增長,這些文檔都包含了大量的非結(jié)構(gòu)化信息,為了充分利用這些非結(jié)構(gòu)化數(shù)據(jù),我們便需要使用相關(guān)的文本數(shù)據(jù)分析技術(shù)對其進(jìn)行處理和利用,當(dāng)數(shù)據(jù)挖掘的對象完全由文本這種數(shù)據(jù)類型組成時,這個過程便是文本數(shù)據(jù)挖掘[1]。事實上,最近研究表明公司信息有80%包含在文檔中[2]。文本數(shù)據(jù)挖掘正逐漸成為一個熱門領(lǐng)域,吸引各大高校以及專家學(xué)者不斷深入研究。

      傳統(tǒng)的文本分類是依靠大量的人工完成的。在不同的行業(yè)領(lǐng)域,主要依靠專業(yè)的人員針對特定的領(lǐng)域進(jìn)行人工標(biāo)注與分類。如政府機關(guān)人員針對公文的分類、早期圖書館對圖書的分類歸檔,專利部門對專利的分類。著名的國際網(wǎng)站Yahoo曾雇傭一百多名來自各個領(lǐng)域的專家,他們即使?jié)M負(fù)荷地工作,也沒能對每天不斷涌現(xiàn)在互聯(lián)網(wǎng)上新網(wǎng)頁進(jìn)行標(biāo)注與分類[3]。

      本文根據(jù)它說債券資訊模塊開發(fā)的實際需求,通過跟蹤4528家債券主體的相關(guān)新聞,基于文本分類的相關(guān)算法如樸素貝葉斯、K最近鄰算法[4]、支持向量機[5]等,最終完成它說債券資訊模塊的新聞自動分類的功能。

      數(shù)據(jù)源介紹

      本文的新聞文本數(shù)據(jù)來源于第三方數(shù)據(jù)庫萬德數(shù)據(jù)庫的相關(guān)表如公司表、行業(yè)負(fù)面表、行業(yè)正面表等,數(shù)據(jù)采集的規(guī)模,采集的時間等具體見如下表1:

      二、數(shù)據(jù)預(yù)處理

      本文對文本數(shù)據(jù)做了如下的數(shù)據(jù)預(yù)處理:將每一條數(shù)據(jù)庫記錄轉(zhuǎn)化為txt文檔;將文本的編碼從非UTF-8編碼轉(zhuǎn)化為UTF-8編碼;過濾掉小于1kb的文檔、英文文檔及無意義文檔;去掉html標(biāo)記、換行符、多余空格。

      三、人工標(biāo)記

      接著,對經(jīng)數(shù)據(jù)預(yù)處理后的新聞文本數(shù)據(jù),按照行業(yè)分類標(biāo)準(zhǔn)表根據(jù)文檔內(nèi)容對樣本數(shù)據(jù)按分類主題進(jìn)行人工分類。最終的分類結(jié)果如下表2:(Result——19/19/4988)

      四、基于多種分類算法新聞模塊實現(xiàn)

      文本分類算法是構(gòu)成一個成熟的文本分類系統(tǒng)不可或缺的一個非常重要的部分,基于高效地文本分類算法可以提高文本分類的時效性及準(zhǔn)確度。目前比較常用的文本分類算法包括K-最近鄰算法、樸素貝葉斯、支持向量機等等。下面簡單介紹一下樸素貝葉斯、k最近鄰算法及支持向量機。

      (1)樸素貝葉斯分類算法。它基于一個前提假設(shè):即在給定的文本類集合中,文本間的屬性是獨立的,互不影響。對文本分類,就是求該文本在文本類集合中各個類別的概率,概率值最大的那個類別就作為該文本的類別。

      (2)K-最近鄰計算的是待分類的文本與所有訓(xùn)練文本之間的距離,然后將距離按照從小到大進(jìn)行排序,返回前K個距離最小的樣本,統(tǒng)計這K個樣本所屬的類別數(shù)目,最后將類別數(shù)目最大的類別作為待分類文本的類別。

      (3)支持向量機,即SVM,它由V.Vapnik提出??梢詰?yīng)用于非線性分類及模式識別,在解決非線性、小樣本及高維模式識別等問題中具有很大的優(yōu)勢。它的主要思想是在樣本空間中尋找一個最優(yōu)超平面,從而最大化的將兩大類劃分開來。

      本文使用經(jīng)數(shù)據(jù)預(yù)處理后剩下的4988條新聞作為最終的樣本集,并對樣本集進(jìn)行中文分詞處理,構(gòu)造樣本集文本對象,構(gòu)建樣本集TF_IDF詞向量空間,然后使用相關(guān)分類算法進(jìn)行預(yù)測分類結(jié)果。具體的算法流程圖如下圖1:

      五、文本分類評價性能指標(biāo)

      在完成文本分類的訓(xùn)練與測試之后,往往需要對分類算法進(jìn)行分類性能評估,以確定一個算法的優(yōu)劣及進(jìn)行算法之間的性能比較。目前常用的文本分類性能評價指標(biāo)包括召回率、錯分率、準(zhǔn)確率、F1-score等。

      1、召回率(Recall Rate,也叫查全率):是檢索出的相關(guān)文本數(shù)和文本庫中所有相關(guān)文本數(shù)的比率,衡量的是分類系統(tǒng)的查全率。

      召回率(Precision)= 系統(tǒng)檢測到的相關(guān)文本 / 系統(tǒng)所有相關(guān)的文本總數(shù)

      2、錯分率為另外一個角度對召回率的刻畫,滿足錯分率+召回率=1

      3、精度(Precision,也稱為準(zhǔn)確率):是檢索出的相關(guān)文本數(shù)與檢索出的文本總數(shù)的比率,衡量的是分類系統(tǒng)的查準(zhǔn)率。

      精度(Precision)= 系統(tǒng)檢索到的相關(guān)文本 / 系統(tǒng)所有檢索到的文本總數(shù)

      4、F1-score綜合考慮了精度以及召回率,是兩者的協(xié)調(diào)評價指標(biāo)。

      本文按照20%測試集、80%訓(xùn)練集,10%測試集、90%訓(xùn)練集,20%測試集、100%訓(xùn)練集三種不同的數(shù)據(jù)集隨機切分方式對分類結(jié)果進(jìn)行了交叉驗證(cross_validation),最終的分類結(jié)果如下表2:

      六、債券新聞多分類穩(wěn)定性檢測

      評價一個分類系統(tǒng)的好壞不僅僅考慮系統(tǒng)分類的準(zhǔn)確度等指標(biāo)還要考慮分類系統(tǒng)的穩(wěn)定性。因此本文對分類算法做了算法穩(wěn)定的檢測工作。數(shù)據(jù)檢測來源為companynews表,取樣時間為2016年09月03日到2016年09月10日,持續(xù)一個星期,取樣的標(biāo)準(zhǔn)為每次獲取數(shù)據(jù)最新更新時間的前一天的數(shù)據(jù),數(shù)據(jù)量較大時隨機取樣10%作為測試樣本,并對其進(jìn)行人工分類形成最終測試樣本集。

      最終針對各種分類算法的穩(wěn)定性檢測結(jié)果如下表3所示,由下表可知綜合比較貝葉斯,knn,svm三種算法,svm在文本多分類的穩(wěn)定性上較好。

      參 考 文 獻(xiàn)

      [1]王偉強, 高 文. Internet 上的文本數(shù)據(jù)挖掘[J ] . 計算機科學(xué), 2000 , 27 (4) : 32 - 37.

      [2] AH - HWEE TAN. Text Mining : The state of the art and the challenges[ Z] . PAKDD99 Workshop on Knowledge discovery from Advanced Databases ( KDAD99) , Beijing , 1999.

      [3] J.M Gomez.Text Representation for automatic Categorization.In Proceeding of Eleventh Conference Of the European Chapter Of the Association for Computational Linguistic,2003

      [4]亞南.KNN文本分類中基于遺傳算法的特征提取技術(shù)研究[D].中國石油大學(xué),2011.

      [5]毛雪岷,丁友明.基于語義引導(dǎo)與支持向量機的中文文本分類[J].情報雜志,2007,26(1 1):56-58

      猜你喜歡
      貝葉斯文檔數(shù)據(jù)挖掘
      有人一聲不吭向你扔了個文檔
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      貝葉斯公式及其應(yīng)用
      基于RI碼計算的Word復(fù)制文檔鑒別
      基于貝葉斯估計的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      IIRCT下負(fù)二項分布參數(shù)多變點的貝葉斯估計
      石渠县| 郯城县| 河北区| 沛县| 绥化市| 驻马店市| 东阿县| 桦川县| 扬州市| 邹平县| 辉南县| 横峰县| 长春市| 泗水县| 大同市| 商都县| 临武县| 合江县| 宁陵县| 田阳县| 集贤县| 洪泽县| 依安县| 运城市| 阳江市| 锡林浩特市| 大丰市| 威信县| 中卫市| 英德市| 诸城市| 五常市| 家居| 成都市| 会昌县| 侯马市| 砚山县| 郯城县| 麻城市| 葵青区| 光泽县|