• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Word2vec的短信向量化算法

      2016-05-10 03:27:40王貴新鄭孝宗張浩然張小川
      電子科技 2016年4期
      關(guān)鍵詞:短信深度學(xué)習(xí)

      王貴新,鄭孝宗,張浩然,張小川

      (1.重慶工程學(xué)院 軟件學(xué)院,重慶 402260;2.重慶理工大學(xué) 計(jì)算機(jī)學(xué)院,重慶 400054)

      ?

      基于Word2vec的短信向量化算法

      王貴新1,鄭孝宗1,張浩然1,張小川2

      (1.重慶工程學(xué)院 軟件學(xué)院,重慶402260;2.重慶理工大學(xué) 計(jì)算機(jī)學(xué)院,重慶400054)

      摘要針對目前垃圾短信過濾效果有待提高的問題,提出一種新的短信特征提取方法。該方法采用了建立在深度學(xué)習(xí)理論基礎(chǔ)上的最新成果和Word2vec工具?;谥形亩绦诺膬?nèi)容和結(jié)構(gòu)特點(diǎn),利用該工具設(shè)計(jì)了一個(gè)短信向量化算法。該算法能有效地將每條短信與一個(gè)向量對應(yīng),在深度置信網(wǎng)絡(luò)上利用該算法對垃圾短信進(jìn)行分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,推廣性能比已有報(bào)道結(jié)果提高了約5%。

      關(guān)鍵詞深度置信網(wǎng)絡(luò);深度學(xué)習(xí);短信;向量化

      目前垃圾短信治理主要采用軟件自動(dòng)過濾和人工干預(yù)[1-5]。但這些學(xué)習(xí)和過濾算法目前已經(jīng)不能很好適應(yīng)機(jī)器學(xué)習(xí)環(huán)境,特別是深度學(xué)習(xí)算法理論的完善和應(yīng)用發(fā)展,為機(jī)器學(xué)習(xí)提供了廣闊空間[6]。

      垃圾短信的自動(dòng)過濾系統(tǒng),一般采用多分類器的組合,使得分類效果更佳。在這過程中,短信特征的分析和提取是非常重要的環(huán)節(jié)[5]。本文將利用深度學(xué)習(xí)的理論工具Word2vec,研究短信特征提取的新算法,并將該算法采用深度置信網(wǎng)絡(luò)(DBN)進(jìn)行了驗(yàn)證,取得了較好的分類效果。

      實(shí)驗(yàn)樣本來源于以前所做垃圾短信智能分類系統(tǒng)項(xiàng)目所收集的大約有三百萬條短信。處于保護(hù)個(gè)人隱私目的,該樣本內(nèi)容沒有主、被叫號(hào)碼、短信時(shí)間等信息。

      1短信向量化算法過程

      按照有關(guān)規(guī)定,短信類別有:敏感政治信息、黃色信息、商業(yè)廣告信息、違法犯罪信息、詐騙信息、正常信息等6大類(分別用zp、ss、sv、sh、sp、qt字母組合表示類名)。分類結(jié)果除了正常信息外,其余信息需要過濾和提交不同部門處理。短信向量化算法過程,主要從3個(gè)步驟了解:(1)短信預(yù)處理;(2)短信分詞;(3)短信向量化算法。

      1.1預(yù)處理

      主要包括非正規(guī)字詞替換。比如短信:“公$$司*開發(fā)@PIAO,酒折優(yōu)惠,歡迎撥打:139XXXXXXXX,或訪問www.XXX.com,也可郵件到XXX@sina.com”。系統(tǒng)需要根據(jù)預(yù)先設(shè)置的諧音庫、拼音庫、繁體庫、連詞介詞庫、特殊符號(hào)庫等標(biāo)準(zhǔn)庫的比較進(jìn)行內(nèi)容轉(zhuǎn)換。同時(shí)剔除內(nèi)容里面不相關(guān)的符號(hào)。結(jié)果這條短信就是“公司開發(fā)票,9折優(yōu)惠,歡迎撥打:139XXXXXXXX,訪問www.XXX.com,可郵件到XXX@sina.com”。

      假設(shè)所有的短信集合記為S,記預(yù)處理過程對應(yīng)的函數(shù)為f1,經(jīng)過預(yù)處理后的短信集合記為G,則?s∈S,f1(s)=G。

      1.2分詞

      為提高分類效果,對特殊內(nèi)容進(jìn)行了替換。例如,預(yù)處理后的短信“公司開發(fā)票,9折優(yōu)惠,歡迎撥打:139XXXXXXXX,訪問www.XXX.com,可郵件到XXX@sina.com”,替換后的結(jié)果是:“公司開發(fā)票,AA折優(yōu)惠,歡迎撥打:BB,訪問BB,可郵件到BB”。

      然后采用中國科學(xué)院計(jì)算技術(shù)研究所ICTCLAS系統(tǒng),完成短信的分詞。比如,上述短信分詞結(jié)果是:“公司 開 發(fā)票 AA 折 優(yōu)惠 歡迎 撥打 BB 訪問 可 郵件 到”。

      表1 特殊內(nèi)容替換要求

      1.3短信向量化算法

      谷歌推出了將詞語轉(zhuǎn)換成詞向量的工具Word2vec (https://code.google.com/p/word2vec/)。工具的主要原理是Bengio模型[7]的一個(gè)改進(jìn)和應(yīng)用,Bengio模型主要原理是:設(shè)某語句依次由一系列關(guān)鍵詞w1,w2,…,wt組成,其中任意關(guān)鍵詞向量化的過程可用三層的神經(jīng)網(wǎng)絡(luò)[7]表示。關(guān)鍵詞序列前面的n-1個(gè)詞可預(yù)測下一個(gè)詞出現(xiàn)的概率。用C(w)表示詞w所對應(yīng)的詞向量,網(wǎng)絡(luò)第一層輸入是將C(wt-n+1)、…、C(wt-2)、C(wt-1)這n-1個(gè)向量首尾相連接,構(gòu)成一個(gè)(n-1)×m維向量。

      Word2vec的Log-Bilinear模型包括CBOW和Skip-gram兩種。本文實(shí)驗(yàn)采用Skip-gram模型。短信向量化算法描述如下:

      (1)短信預(yù)處理。每類按照一定比例取出約21 280個(gè)訓(xùn)練樣本。然后按照上述方法將每個(gè)短信預(yù)處理。

      (2)分詞。按照上述方法把預(yù)處理后的短信進(jìn)行分詞,并形成如下的7個(gè)文本文件:rubbish.txt(所有樣本的分詞文件);zp.txt、ss.txt、sy.txt、sh.txt、sp.txt、qt.txt分別是敏感政治信息、黃色信息、商業(yè)廣告信息、違法犯罪信息、詐騙信息、正常信息等6大類訓(xùn)練樣本對應(yīng)的分詞文件。

      (3)詞語向量化。對rubbish.txt、zp.txt、ss.txt、sy.txt、sh.txt、sp.txt、qt.txt,分別執(zhí)行word2vec指令(格式:word2vec -train 分詞文件名-output 向量化結(jié)果文件名-cbow 0 -size 5 -window 10 -negative 0 -hs 1 -sample 1e-3 -threads 2 -binary 0),分別得到向量化結(jié)果文件rubbish.out、zp.out、ss.out、sy.out、sh.out、sp.out、qt.out。參數(shù)設(shè)置是在考慮短信特點(diǎn)時(shí),多次實(shí)驗(yàn)測試的結(jié)果。

      向量化結(jié)果文件的每行是一個(gè)詞語向量。形如:擔(dān)保:0.097 318 0.062 329 -0.068 594 0.087 311 -0.023 715。

      (4)取每類的主關(guān)鍵詞。垃圾短信的每個(gè)類別有其顯著的關(guān)鍵詞。比如“商業(yè)廣告”類中,“出租”、“銷售”、“打折”等詞語。記wi=(wi1,wi2,…,wim)、wj=(wj1,wj2,…,wjm)分別是詞語wi、wj按照算法步驟(3)得到的向量化結(jié)果(以后將詞語和其對應(yīng)的向量化結(jié)果記為同一符號(hào)),定義兩個(gè)詞語向量wi、wj相似性dis(wi,wj)按照下式計(jì)算

      (1)

      按照式(1)在zp.out、ss.out、sy.out、sh.out、sp.out、qt.out 每個(gè)文件中只保留相似性數(shù)值大的前20的關(guān)鍵詞(不包括“AA”、“BB”、“CC”、“DD”、“NN”)的詞語向量,其余刪除。選擇的這20個(gè)關(guān)鍵詞,稱為主關(guān)鍵詞。之所以只選擇20個(gè),是因?yàn)榇蠖鄶?shù)情況下可代表該類,同時(shí)考慮到短信的特征維數(shù)不宜過大。為彌補(bǔ)特殊情況下主關(guān)鍵詞數(shù)量的不足,后面增加了短信的字結(jié)構(gòu)特征。

      (5)短信向量化。設(shè)短信中的某分詞,按照步驟(3)得到的詞向量為w,稱下面的表達(dá)式是分詞w到敏感政治信息類距離

      (2)

      令L=60,這樣對?s∈S的一短信,按照式(2)可計(jì)算出s中每個(gè)分詞到敏感政治信息類的距離。假設(shè)這些距離從大到小排列,取前L的距離所對應(yīng)的分詞向量分別是w1,w2,…,wL。這樣定義該短信在敏感政治信息類的特征是

      Vzp=(vzp(w1),vzp(w2),…,vzp(wL))

      (3)

      采用上面方法和類似記號(hào),同理可得到該短信在其他類上的特征分別是Vss,Vsy,Vsh,Vsp,Vqt。又記稱下面的表達(dá)式是分詞w到1.2節(jié)中特殊內(nèi)容替換后的分詞AA的距離

      vAA(w)=dis(w,AA)

      (4)

      同樣采用上面方法和類似記號(hào),對?s∈S的一短信,可計(jì)算出s中所有分詞到AA的距離。假設(shè)這些距離從大到小排列,取前L的距離所對應(yīng)的分詞向量分別是w1,w2,…,wL。得到該短信相對于AA的特征是

      VAA=(vAA(w1),vAA(w2),…,vAA(wL))

      (5)

      同樣采用上述方法和類似記號(hào),得到短信s相對1.2節(jié)中的特殊內(nèi)容替換后的分詞BB、CC、DD、NN的特征表示為VBB,VCC,VDD,VNN。

      取有短信樣本中頻率最高的前2 100個(gè)漢字序列記為CH,chj表示CH的第j個(gè)漢字。對于短信s,令

      (6)

      文中得到該短信相對于CH的字結(jié)構(gòu)特征

      Vch=(I(1,s),I(2,s),…,I(2 100,s))

      (7)

      另外文中記V0是所有分量為0,維數(shù)是20的向量(保留20個(gè)特征位是應(yīng)對臨時(shí)的政策要求)。這樣,按照式(1)~式(7),定義短信s的向量化結(jié)果V

      ?s∈S,f1(s)?V=[Vzp,Vss,Vsy,Vsh,Vsp,Vqt,VAA,VBB,VCC,VDD,VNN,Vch,V0]

      (8)

      從以上定義可知,V的維數(shù)是11×60+2 100+20=2 780。詞的向量化方法眾多[8],本文只針對短信處理提出解決方法。

      2深度置信網(wǎng)絡(luò)(DBN)

      深度置信網(wǎng)絡(luò)(DBN),如圖1所示[9],可被看作由許多簡單的學(xué)習(xí)模塊構(gòu)成,每個(gè)模塊是一個(gè)限制型Boltzmann機(jī)(RBM)[10-11]。RBM網(wǎng)絡(luò)由一個(gè)可視層和一個(gè)隱層構(gòu)成,層間有連接,層內(nèi)單元間沒有連接。訓(xùn)練隱層單元去獲取在可視層表現(xiàn)出來的高階數(shù)據(jù)特性,如圖2所示。DBNs是一個(gè)概率生成模型,其會(huì)建立一個(gè)觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布,同時(shí)做P(observation|label)、P(label|observation)兩者的概率計(jì)算。

      圖1 DBN網(wǎng)絡(luò)模型

      DBN中的下層RBM的輸出作為上層RBM的輸入。每層RBM模型能量的定義

      (9)

      圖2 RBM網(wǎng)絡(luò)模型

      首先利用RBM訓(xùn)練算法,依次對各RBM層進(jìn)行訓(xùn)練。所有RBM訓(xùn)練完后,DBN的頂層然后利用帶標(biāo)簽數(shù)據(jù)用BP算法去對權(quán)值進(jìn)行調(diào)整。最后獲得一個(gè)DBN網(wǎng)絡(luò)的分類面。理論上DBN性能優(yōu)于單純的BP網(wǎng)絡(luò)。因?yàn)镈BNs的BP算法只需對權(quán)值參數(shù)空間進(jìn)行一個(gè)局部的搜索,所以與前向神經(jīng)網(wǎng)絡(luò)相比,訓(xùn)練較快。由于第一個(gè)輸入層中神經(jīng)元輸入0元素較多,在選擇RBM的神經(jīng)元個(gè)數(shù)時(shí),考慮了壓縮。具體的神經(jīng)元個(gè)數(shù)是根據(jù)實(shí)驗(yàn)的經(jīng)驗(yàn)獲得,如圖3所示,DBN的第一個(gè)輸入層數(shù)據(jù)是根據(jù)式(8)結(jié)果得到的。

      3實(shí)驗(yàn)與結(jié)論

      考慮到計(jì)算復(fù)雜度和參考文獻(xiàn)的經(jīng)驗(yàn)[12-13],本實(shí)驗(yàn)最終采用有2個(gè)隱層的BP神經(jīng)網(wǎng)絡(luò),首先對BP網(wǎng)絡(luò)的權(quán)值采用DBN算法進(jìn)行訓(xùn)練得到,再采用BP算法對網(wǎng)絡(luò)權(quán)值進(jìn)行微調(diào)。所有結(jié)果用Matlab進(jìn)行仿真實(shí)驗(yàn),DBN訓(xùn)練部分代碼采用DeepLearnToolbox-master工具包(https://github.com/rasmusbergpalm/DeepLearnToolbox),DBN模型的實(shí)驗(yàn)如圖3所示。設(shè)czp,css,csy,csp,cqt分別表示正確地分類到相應(yīng)類的樣本數(shù);tzp,tss,tsy,tsp,tqt分別表示相應(yīng)類的樣本總數(shù)。為簡單處理,不考慮樣本的拒識(shí)。整個(gè)垃圾過濾系統(tǒng)分類的正確率()定義為

      correct_rate=(czp+css+csy+csp+cqt)/(tzp+tss+tsy+tsp+tqt)

      (10)

      根據(jù)式(10)類似可定義每個(gè)類的分類正確率。為說明本文算法的有效性,文中從已有的垃圾短信分類文獻(xiàn)出找出了有代表性的分類數(shù)據(jù),與本文的分類結(jié)果進(jìn)行比較,效果如表2所示。

      表2 幾種常用模型的結(jié)果比較

      其中qt,sp,sh,ss,zp,sy訓(xùn)練樣本數(shù)目分別是7 416、1 770、3 728、2 590、1 220、4 556,測試樣本數(shù)目分別是14 308、3 672、4 579、6 102、2 553、9 080。

      通過實(shí)驗(yàn),文中得到以下現(xiàn)象和結(jié)論:

      (1)隨著DBN的隱層數(shù)增加,訓(xùn)練時(shí)間大幅延長,訓(xùn)練樣本的正確率有所提高,但推廣性能沒有顯著的變化。因此在具體的應(yīng)用中,合理選擇參數(shù)很重要;

      (2)本文短信分類只使用了一種分類器,分類效果比已發(fā)表的文獻(xiàn)數(shù)據(jù)高。一般具體應(yīng)用是采用多分類器,本文的算法在多分類器環(huán)境下,數(shù)據(jù)效果更佳;

      (3)本文算法可應(yīng)用到其他文本分類中;

      (4)為改進(jìn)算法,研究以單個(gè)漢字為單元的向量化對分類的結(jié)果影響,是下一步的工作;

      (5)在實(shí)際應(yīng)用過程中,特征可將黑白手機(jī)名單、主叫、被叫、發(fā)送時(shí)間因素考慮上,同時(shí)分類器增加拒識(shí)率因素,還可提高正確識(shí)別率。

      圖3 DBN和2個(gè)隱層BP網(wǎng)絡(luò)訓(xùn)練效果比較

      參考文獻(xiàn)

      [1]何蔓微,袁銳,劉建勝,等.垃圾短信的智能識(shí)別和實(shí)時(shí)處理[J].電信科學(xué),2008(8):61-64.

      [2]張永軍,劉金嶺.基于特征詞的垃圾短信分類器模型[J].計(jì)算機(jī)應(yīng)用,2013,33(5):1334-1337.

      [3]李慧,葉鴻,潘學(xué)瑞,等.基于SVM的垃圾短信過濾系統(tǒng)[J].計(jì)算機(jī)安全,2012,13(6):34-38.

      [4]萬曉楓,惠孛.基于貝葉斯分類法的智能垃圾短信過濾系統(tǒng)[J].實(shí)驗(yàn)科學(xué)與技術(shù),2013,11(5):44-47,76.

      [5]胡龍茂.中文文本分類技術(shù)比較研究[J].安慶師范學(xué)院學(xué)報(bào):自然科學(xué)版,2015,21(2):49-53.

      [6]Schmidhuber J.Deep learning in neural networks:an overview[J].Neural Networks,2015,61(1):85-117.

      [7]Bengio,Ducharme R,Vincent P,et a1.A neural probabilistic language model[J].Journal of Machine Learning Research,2003(3):1137-1155.

      [8]Mikolov T,Chen K,Corrado G,et a1.Efficient estimation of word representations in vector space[C].Scottsdale,Arizona:ICLR Workshop,2013.

      [9]Hinton G E,Osindero S,The Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006(18):1527-1554.

      [10]Tieleman.Training restricted boltzmann machines using approximations to the likelihood gradient[C].Helsinki,Finland:ICML,2008.

      [11]劉建偉,劉媛,羅雄麟.玻爾茲曼機(jī)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2014,51(1):1-16.

      [12]Kazuhiro Shin-ike.A two phase method for determining the number of neurons in the hidden layer of a 3-Layer neural network[C].Taipei,Taiwan:SICE Annual Conference,2010.

      [13]劉金嶺,嚴(yán)云洋.基于上下文的短信文本分類方法[J].計(jì)算機(jī)工程,2011,37(10):41-43.

      歡 迎 投 稿

      投稿請登錄:www.dianzikeji.org

      An Algorithm for Vectoring SMS Based on Word2vec

      WANG Guixin1,ZHENG Xiaozong1,ZHANG Haoran1,ZHANG Xiaochuan2

      (1.School of Software Engineering,Chongqing Institute of Engineering,Chongqing 402260,China;2.School of Computer Science,Chongqing University of Technology,Chongqing,400054,China)

      AbstractThis paper proposes a new method of feature extraction of SMS for better spam message filtering.The method uses the latest results and tools of Word2vec based on deep learning theory.With the content and structure characteristics of Chinese short messages in mind,an algorithm of Vectoring SMS is designed based on this tool.The algorithm can effectively match each text message with a vector.The classification’s experiments on the spam messages are carried out using the proposed algorithm on the deep belief networks.The results show that the performance of the proposed algorithm is improved by 5% compared with the previously reported results.

      Keywordsdeep belief nets;deep learning;short messages;vectoring

      中圖分類號(hào)TP29

      文獻(xiàn)標(biāo)識(shí)碼A

      文章編號(hào)1007-7820(2016)04-049-04

      doi:10.16180/j.cnki.issn1007-7820.2016.04.013

      作者簡介:王貴新(1968—),男,博士研究生。研究方向:機(jī)器學(xué)習(xí)等。

      基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(60443004);校內(nèi)科研基金資助項(xiàng)目(2014xcxtd05;2014xzky05)

      收稿日期:2015- 08- 25

      猜你喜歡
      短信深度學(xué)習(xí)
      道歉短信
      代發(fā)短信
      有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
      電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
      深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
      基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      短信笑壇
      “八一”節(jié)日短信之一
      吕梁市| 新泰市| 宾川县| 含山县| 博兴县| 清新县| 云阳县| 舟山市| 肃宁县| 承德县| 定安县| 漯河市| 铜川市| 宝应县| 大足县| 应用必备| 孟津县| 乃东县| 宜兴市| 邹平县| 英超| 集贤县| 龙陵县| 湟中县| 娄底市| 类乌齐县| 故城县| 本溪市| 南丰县| 上高县| 札达县| 榆林市| 普兰县| 四子王旗| 邢台市| 兰坪| SHOW| 通城县| 宜丰县| 大厂| 上蔡县|