• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于稀疏編碼器與集成學(xué)習(xí)的文本分類(lèi)

      2017-03-23 20:57:00楊洪余
      科技創(chuàng)新與應(yīng)用 2017年6期
      關(guān)鍵詞:極限學(xué)習(xí)機(jī)集成學(xué)習(xí)文本分類(lèi)

      摘 要:文本分類(lèi)在文本預(yù)處理中占據(jù)著重要的地位,針對(duì)文本分類(lèi)過(guò)程中輸入數(shù)據(jù)維數(shù)高,導(dǎo)致特征提取,分類(lèi)器選擇困難等問(wèn)題,提出一種基于稀疏自動(dòng)編碼器與集成學(xué)習(xí)的文本分類(lèi)算法。該算法首先通過(guò)稀疏自動(dòng)編碼器進(jìn)行輸入數(shù)據(jù)的特征表示,然后利用極限學(xué)習(xí)機(jī)作為基分類(lèi)器進(jìn)行文本分類(lèi),最后通過(guò)Adaboost集成學(xué)習(xí)方法將基分類(lèi)器組合成為分類(lèi)效果更好的集成分類(lèi)器。實(shí)驗(yàn)結(jié)果表明,該方法可以有效提高文本分類(lèi)的準(zhǔn)確度。

      關(guān)鍵詞:極限學(xué)習(xí)機(jī);稀疏自動(dòng)編碼器;集成學(xué)習(xí);文本分類(lèi)

      1 概述

      隨著現(xiàn)代社會(huì)的發(fā)展,互聯(lián)網(wǎng)成為了人們獲取文本信息的重要手段。然而網(wǎng)上的信息雜亂無(wú)章,使得人們很難快速而準(zhǔn)確的獲得所需要的文本信息。因此如何有效的對(duì)文本進(jìn)行分類(lèi),幫助用戶(hù)找到所需的信息成為當(dāng)代信息技術(shù)領(lǐng)域的一個(gè)重要課題[1]。

      本文提出利用深度學(xué)習(xí)中的稀疏自動(dòng)編碼器自動(dòng)選取文本的特征,然后利用極限學(xué)習(xí)機(jī)作為基分類(lèi)器進(jìn)行文本的分類(lèi),最后結(jié)合Adaboost集成學(xué)習(xí)方法將極限學(xué)習(xí)機(jī)作為基分類(lèi)器組合成一個(gè)效果更好的分類(lèi)器。實(shí)驗(yàn)結(jié)果表明,該算法在文本分類(lèi)方面,可以有效地提高文本分類(lèi)的準(zhǔn)確性。

      2 相關(guān)理論基礎(chǔ)

      2.1 稀疏自動(dòng)編碼器

      稀疏自動(dòng)編碼器(sparse auto encoder,SAE)是利用人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn)構(gòu)造而成的網(wǎng)絡(luò)。稀疏自動(dòng)編碼器的訓(xùn)練過(guò)程分為兩個(gè)步:第一步是預(yù)訓(xùn)練,即先利用無(wú)監(jiān)督的方法將SAE的輸入層和隱含層全部初始化,然后再利用逐層貪心訓(xùn)練算法確定網(wǎng)絡(luò)的參數(shù)。第二步是微調(diào),其思想是整個(gè)網(wǎng)絡(luò)視為一個(gè)整體,用有監(jiān)督學(xué)習(xí)的方法優(yōu)化整個(gè)網(wǎng)絡(luò)的參數(shù),由于SAE訓(xùn)練過(guò)程的復(fù)雜性,具體過(guò)程可參考文獻(xiàn)[2]。

      2.2 極限學(xué)習(xí)機(jī)

      針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程時(shí)間漫長(zhǎng),優(yōu)化困難等缺點(diǎn),新加坡南洋理工大學(xué)的黃廣斌教授提出了一種全新的單隱層前饋神經(jīng)網(wǎng)絡(luò)-極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)[3],該網(wǎng)絡(luò)能夠以極快的學(xué)習(xí)速度達(dá)到較好的泛化性能,從而解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)速度緩慢的限制。該網(wǎng)絡(luò)主要由輸入層,隱藏層和輸出層組成,其中隱藏層的神經(jīng)元通過(guò)激活函數(shù)把輸入的數(shù)據(jù)進(jìn)行變換,然后把變換后的數(shù)據(jù)輸出到輸出層,在網(wǎng)絡(luò)中輸入層和隱藏層的權(quán)值是隨機(jī)設(shè)置的,只有隱藏層到輸出層的權(quán)值需要求解,因此加快了網(wǎng)絡(luò)的學(xué)習(xí)速度。

      2.3 Adaboost分類(lèi)器

      由于單個(gè)分類(lèi)器通常無(wú)法滿(mǎn)足分類(lèi)任務(wù)的要求,因此需要通過(guò)集成學(xué)習(xí)來(lái)構(gòu)建并結(jié)合多個(gè)分類(lèi)器來(lái)完成分類(lèi)任務(wù),這其中最著名的是在1995年由Freund等提出的Adaboost[4]算法。該算法的核心思想是先從初始訓(xùn)練集訓(xùn)練出一個(gè)基學(xué)習(xí)器,再根據(jù)基學(xué)習(xí)器的變現(xiàn)對(duì)訓(xùn)練樣本分布進(jìn)行調(diào)整,使得先前基學(xué)習(xí)器做錯(cuò)的訓(xùn)練樣本在后續(xù)收到更多關(guān)注,然后基于調(diào)整后的樣本分布來(lái)訓(xùn)練下一個(gè)基學(xué)習(xí)器;如此重復(fù)進(jìn)行,直到基學(xué)習(xí)器數(shù)目達(dá)到指定的值,最終將這幾個(gè)基學(xué)習(xí)器進(jìn)行加權(quán)結(jié)合。Adaboost是一種迭代算法,具體訓(xùn)練過(guò)程可參考南京大學(xué)周志華教授編寫(xiě)的機(jī)器學(xué)習(xí)課本中關(guān)于Adaboost算法的章節(jié)。

      3 SEA文本分類(lèi)算法

      在本文中,結(jié)合稀疏編碼器,極限學(xué)習(xí)機(jī)與Adaboost這三種機(jī)器學(xué)習(xí)方法提出SEA文本分類(lèi)算法,該算法的工作流程如圖1所示。

      該分類(lèi)算法的第一步為輸入,輸入的是經(jīng)過(guò)了向量化表示的文本,但沒(méi)有經(jīng)過(guò)任何的手工特征提取。第二步是利用SAE算法對(duì)數(shù)據(jù)的重建能力自動(dòng)選擇文本的特征,用SAE算法選擇的文本特征可以有效地復(fù)原原始文本信息。第三步是利用ELM分類(lèi)器作為該算法的基分類(lèi)器,ELM作為第四步中的基分類(lèi)器參與訓(xùn)練,最后一步是輸出該文本屬于哪一類(lèi)。

      4 實(shí)驗(yàn)結(jié)果與分析

      4.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

      本文選用的分類(lèi)文本數(shù)據(jù)來(lái)源于新聞數(shù)據(jù)集[5],該數(shù)據(jù)集復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系李榮陸提供,數(shù)據(jù)集標(biāo)注比較規(guī)范,規(guī)模適中,適合于進(jìn)行文本分類(lèi)的仿真實(shí)驗(yàn)。

      在文本分類(lèi)中常用的評(píng)價(jià)指標(biāo)有準(zhǔn)確率P(Precision)和召回率R(Recall),公式如下:

      P=M/(M+N),R=M/(M+T)

      其中,M為正確分類(lèi)到該類(lèi)的文本數(shù),N為錯(cuò)分到該類(lèi)中的文本數(shù),T為屬于該類(lèi)確誤分為別類(lèi)的文本數(shù)。

      4.2 實(shí)驗(yàn)結(jié)果

      為驗(yàn)證本文提出的SEA文本分類(lèi)模型,需要將文本數(shù)據(jù)集進(jìn)行預(yù)處理,對(duì)于SEA模型來(lái)說(shuō),就是進(jìn)行文本分詞。本實(shí)驗(yàn)文本分詞采用的是NLPIR漢語(yǔ)分詞系統(tǒng),其主要功能包括中文分詞,詞性標(biāo)注,命名實(shí)體識(shí)別,用戶(hù)字典功能等,是國(guó)內(nèi)比較成熟,用戶(hù)較多的中文文本分詞系統(tǒng)。經(jīng)過(guò)文本預(yù)處理后,按照本文提出的SEA文本分類(lèi)模型進(jìn)行實(shí)驗(yàn),并和幾種經(jīng)典的分類(lèi)算法做對(duì)比。在本實(shí)驗(yàn)中Adaboost集成學(xué)習(xí)算法中基分類(lèi)器的個(gè)數(shù)設(shè)置為10個(gè),基分類(lèi)器ELM中隱藏層的個(gè)數(shù)設(shè)置為輸入層的0.75倍,稀疏自動(dòng)編碼器中隱藏層數(shù)設(shè)置為4,實(shí)驗(yàn)結(jié)果如表1和表2所示。

      從表1和表2可以看出隨著文本數(shù)量的增加,SEA模型的分類(lèi)準(zhǔn)確率和召回率逐漸提高,這是由于在訓(xùn)練數(shù)據(jù)集較小時(shí),稀疏編碼器對(duì)自動(dòng)提取的文本特征變現(xiàn)地不是很理想,容易造成SEA分類(lèi)模型產(chǎn)生過(guò)擬合現(xiàn)象,從而影響分類(lèi)準(zhǔn)確率和召回率。SVM算法在訓(xùn)練數(shù)據(jù)集比較小時(shí),變現(xiàn)良好,這是由于在訓(xùn)練數(shù)據(jù)較少時(shí),可以較容易地找到分類(lèi)超平面,在數(shù)據(jù)量變大時(shí),由于計(jì)算量的增大,使得計(jì)算量變大,導(dǎo)致計(jì)算得到的超平面效果不好,使得分類(lèi)準(zhǔn)確率和召回率不斷下降。BP和ELM算法都隨著訓(xùn)練數(shù)據(jù)的增大,其分類(lèi)準(zhǔn)確率和召回率在不斷變大,這是由于隨著訓(xùn)練數(shù)據(jù)的增大,BP和ELM可以更有效的提取輸入數(shù)據(jù)的特征,但ELM算法相比BP算法變現(xiàn)得更好,這是由于BP算法可能無(wú)法收斂到最優(yōu)值,導(dǎo)致分類(lèi)算法的準(zhǔn)確率下降。

      綜上所述,本文提出的SEA文本分類(lèi)模型可以有效的提高文本分類(lèi)的準(zhǔn)確率和召回率,尤其是隨著訓(xùn)練數(shù)據(jù)集的不斷增大。

      5 結(jié)束語(yǔ)

      文本分類(lèi)在文本處理中占據(jù)著重要的地位,其分類(lèi)的好壞直接影響著后續(xù)的文本處理,如何有效地對(duì)文本分類(lèi)是一個(gè)重要的研究課題。本文結(jié)合稀疏自動(dòng)編碼器,極限學(xué)習(xí)機(jī)與Adaboost集成學(xué)習(xí)方法提出SEA文本分類(lèi)方法,實(shí)驗(yàn)結(jié)果表明該分類(lèi)方法可以有效將文本分類(lèi)過(guò)程中的特征提取和分類(lèi)器結(jié)合在一起,從而提高了分類(lèi)結(jié)果的準(zhǔn)確性。

      參考文獻(xiàn)

      [1]秦勝君,盧志平.稀疏自動(dòng)編碼器在文本分類(lèi)中的應(yīng)用研究[J].科學(xué)技術(shù)與工程,2013,13(31):9422-9426.

      [2]Baldi P, Guyon G, Dror V, et al. Autoencoders, Unsupervised Learning, and Deep Architectures Editor: I[J].Journal of Machine Learning Research,2012.

      [3]Huang G B, Zhu Q Y, Siew C K. Extreme learning machine: Theory and applications[J]. Neurocomputing, 2006,70(1-3):489-501.

      [4]Freund, Yoav, Schapire, Robert E. A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J]. Journal of Computer & System Sciences, 1999,55(1):119-139.

      [5]http://www.nlpir.org/?action-viewnews-itemid-103.

      作者簡(jiǎn)介:楊洪余,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘與文本處理。

      猜你喜歡
      極限學(xué)習(xí)機(jī)集成學(xué)習(xí)文本分類(lèi)
      基于集成學(xué)習(xí)的高送轉(zhuǎn)股票研究
      基于判別信息極限學(xué)習(xí)機(jī)的高光譜遙感圖像分類(lèi)
      基于屬性權(quán)重的Bagging回歸算法研究
      基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
      基于極限學(xué)習(xí)機(jī)的玻璃瓶口缺陷檢測(cè)方法研究
      基于貝葉斯分類(lèi)器的中文文本分類(lèi)
      基于蟻群智能算法的研究文本分類(lèi)
      文本分類(lèi)算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
      基于改進(jìn)的LogitBoost算法的垃圾網(wǎng)頁(yè)檢測(cè)研究
      科技視界(2015年27期)2015-10-08 11:01:28
      德格县| 三穗县| 黎城县| 抚顺县| 泸定县| 彰化县| 游戏| 双牌县| 资源县| 定安县| 南京市| 兰西县| 吉隆县| 寿光市| 水富县| 奉贤区| 巴中市| 宾川县| 蒙城县| 洪雅县| 黑河市| 绍兴县| 威远县| 邵阳县| 包头市| 许昌县| 花垣县| 东莞市| 焉耆| 新巴尔虎左旗| 壶关县| 板桥市| 友谊县| 翁源县| 台中市| 巴彦淖尔市| 保定市| 南和县| 乌兰察布市| 佛山市| 龙南县|