• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于貝葉斯分類的手機(jī)短信過濾技術(shù)研究

      2012-04-02 13:32:32房玲玲
      電大理工 2012年4期
      關(guān)鍵詞:詞庫貝葉斯短信

      房玲玲

      沈陽航空職業(yè)技術(shù)學(xué)院(沈陽 110034)

      近年來,人們希望通過各種方式杜絕垃圾短信,垃圾短信過濾研究也就越來越迫切和深入。目前,垃圾短信過濾主要有以下幾種過濾技術(shù):黑名單和白名單技術(shù),關(guān)鍵詞語的匹配法和貝葉斯推理過濾法。

      本文借鑒了在垃圾郵件過濾技術(shù)中經(jīng)常采用的文本過濾技術(shù),并結(jié)合分詞和貝葉斯分類,實(shí)現(xiàn)手機(jī)垃圾短信的識別,進(jìn)而為垃圾短信的過濾服務(wù)。

      1 研究內(nèi)容

      1.1 手機(jī)短信中詞的匹配

      目前的過濾技術(shù)大都是用詞庫對樣本中的詞進(jìn)行匹配,根據(jù)匹配程度或進(jìn)行加權(quán)求和,并利用這個(gè)和值進(jìn)行過濾,或含有個(gè)別敏感詞就過濾該短信,針對不同的反過濾策略,出現(xiàn)了關(guān)鍵詞替換表,如拼音替換表,向形字替換表,同音字替換表,如果一種匹配策略失效后,就可以根據(jù)這些表進(jìn)行其它方式的匹配,可能產(chǎn)生對多個(gè)表的掃描,雖然使詞的匹配具有一定的靈活性,但卻是用時(shí)間換取了精度,為了減少匹配時(shí)間,本文提出了基于Hash技術(shù)的匹配算法。

      1.2 手機(jī)短信詞庫的智能更新

      目前過濾技術(shù)大都是以現(xiàn)有的關(guān)鍵詞庫為依據(jù)進(jìn)行過濾,關(guān)鍵詞庫的創(chuàng)建或更新主要是靠人工操作實(shí)現(xiàn)的,手動(dòng)添加新詞或是用新詞替換舊詞,所以對不同的反過濾策略的適應(yīng)能力差,現(xiàn)在常用的過濾方法是Byase,它計(jì)算速度快、精確性高,因此可以將單個(gè)詞本身就看成一個(gè)樣本,將 Byase的歸類思想用于對詞庫的自動(dòng)更新,用分析產(chǎn)生的結(jié)果作為詞的附加屬性,這個(gè)屬性一方面用于以后的詞庫的更新,一方面用于以后信息樣本的分析依據(jù)。

      1.3 樣本的分析

      以往的樣本分析都是選擇能夠提供大量信息利于分類的詞作為屬性,這樣作可以降低文本向量的維數(shù),加快分析速度,但是提供信息少的詞可能更具有類區(qū)別能力,因此用信息量大的詞進(jìn)行歸類可能產(chǎn)生局部解,并使分析結(jié)果的可信度降低。要提高分析結(jié)果的可信度,可以把降維時(shí)產(chǎn)生的中間結(jié)果作為詞的權(quán)值,將它與詞歸類的風(fēng)險(xiǎn)值、詞本身的匹配程度一起作為詞的屬性,這樣可以從多角度同時(shí)分析樣本,提高分析的可信度。

      2 關(guān)鍵問題

      2.1 確定詞的風(fēng)險(xiǎn)系數(shù)

      對詞集進(jìn)行降維,用提供最多信息的詞分析樣本的時(shí)候,忽略了提供信息少的詞可能更具有類區(qū)分能力,因此在詞庫的智能更新時(shí),考慮如何利用Byase過濾思想避免這種風(fēng)險(xiǎn),使分析更具全面性。

      2.2 詞的匹配

      針對不同反過濾策略維護(hù)了若干關(guān)鍵詞替換表,處理速度可能下降,因此考慮如何將現(xiàn)有的關(guān)鍵詞替換匹配算法與Hash表的查找速度快結(jié)合起來,添加詞的匹配信息以減化匹配過程。

      3 研究方法

      3.1 用Hash表進(jìn)行詞匯匹配

      哈希表是一種高效的數(shù)據(jù)結(jié)構(gòu)。它的最大優(yōu)點(diǎn)就是把數(shù)據(jù)存儲(chǔ)和查找所消耗的時(shí)間大大降低,幾乎可以看成是常數(shù)時(shí)間;而代價(jià)僅僅是消耗比較多的內(nèi)存。然而在當(dāng)前可利用內(nèi)存越來越多、程序運(yùn)行時(shí)間控制的越來越短的情況下,用空間換時(shí)間的做法還是值得的。另外,哈希表編碼實(shí)現(xiàn)起來比較容易也是它的優(yōu)點(diǎn)之一。用Hash表存儲(chǔ)詞庫,詞的Hash值作為它在表格中的位置信息。詞匹配時(shí)先計(jì)算它的Hash值,如果不與表中該位置的詞完全匹配,則進(jìn)行關(guān)鍵詞替換后的模糊匹配,該詞用作找到的每個(gè)詞的模糊匹配信息,以后通過查看模糊匹配信息來加快匹配速度。

      3.2 用貝葉斯思想更新手機(jī)短信詞庫

      (1)貝葉斯分類并不把一個(gè)對象絕對地指派給某一類,而是通過計(jì)算得出屬于某一類的概率,具有最大概率的類便是該對象所屬的類。

      (2)一般情況下在貝葉斯分類中所有的屬性都潛在的起作用,即并不是一個(gè)或幾個(gè)屬性決定分類,而是所有的屬性都參與分類。

      (3)貝葉斯分類對象的屬性可以是離散的,也可以連續(xù)的。

      用Byase分類中的概率計(jì)算方法,計(jì)算每個(gè)詞歸到不同類的概率,文獻(xiàn)[4]中為解決過濾中誤判代價(jià)不對等問題提出如下解決方法:只有P(判斷為垃圾短信)/P(判斷為正常短信)≥閥值C時(shí),才判斷短信為垃圾短信。樣本訓(xùn)練時(shí)可以這樣理解這個(gè)商值,每個(gè)詞是等可能地出現(xiàn)在每個(gè)類中,樣本中人工分類錯(cuò)誤率很小可視為零,這樣可以認(rèn)為其出現(xiàn)概率即為歸類概率,而將它歸屬到其它類就會(huì)存在一定的風(fēng)險(xiǎn),故歸屬其它類的概率 P=樣本在該類出現(xiàn)的概率×誤判風(fēng)險(xiǎn),風(fēng)險(xiǎn)值越小則樣本出現(xiàn)在其它類的可能性越小。更新詞庫時(shí),可以將詞看成上述描述中的樣本,取最小風(fēng)險(xiǎn)值作為詞歸入到某類的風(fēng)險(xiǎn),用它作歸類時(shí)的權(quán)重屬性。

      4 結(jié) 論

      現(xiàn)在普通使用貝葉斯算法和關(guān)鍵詞詞庫作為過濾依據(jù),詞庫的創(chuàng)建與更新主要是手動(dòng)進(jìn)行,不法分子一旦掌握詞庫便可以采取不同的反過濾手段,所以過濾系統(tǒng)的適應(yīng)性差。大多數(shù)據(jù)過濾系統(tǒng)都用降維方法減少數(shù)據(jù)量,選取能夠提供最多信息的詞作為文本向量的分量,但是提供信息少的詞更具有類區(qū)別能力,為使分析準(zhǔn)確率提高,因此不將詞集降維,而將降維分析的結(jié)果用作詞的權(quán)值。本研究將貝葉斯分類思想與降維方法相合,提取詞的特征屬性,以保證分析結(jié)果的可信度。

      [1]張偉,王子軒.GSM 垃圾短信過濾方案.電信快報(bào):網(wǎng)絡(luò)與通信,2009.(3):26-28

      [2]胡日勒,蔡潔,鐘義信.短信過濾系統(tǒng)設(shè)計(jì)分析.計(jì)算機(jī)應(yīng)用研究,2009.25(3):2557-2560.

      [3]鐘延輝,傅彥,陳安龍,關(guān)娜.基于抽樣的垃圾短信過濾方法.計(jì)算機(jī)應(yīng)用研究.2009.26(3):933-935

      [4]李輝,張琦,盧湖川.基于內(nèi)容的垃圾短信過濾.計(jì)算機(jī)工程,2008.34(6):154-156

      猜你喜歡
      詞庫貝葉斯短信
      道歉短信
      代發(fā)短信
      貝葉斯公式及其應(yīng)用
      詞庫音系學(xué)的幾個(gè)理論問題芻議
      英語知識(2016年1期)2016-11-11 07:07:54
      基于貝葉斯估計(jì)的軌道占用識別方法
      一種基于貝葉斯壓縮感知的說話人識別方法
      電子器件(2015年5期)2015-12-29 08:43:15
      環(huán)境變了,詞庫別變
      電腦迷(2014年14期)2014-04-29 00:44:03
      IIRCT下負(fù)二項(xiàng)分布參數(shù)多變點(diǎn)的貝葉斯估計(jì)
      QQ手機(jī)輸入法如何導(dǎo)入分類詞庫
      電腦迷(2012年15期)2012-04-29 17:09:47
      “八一”節(jié)日短信之一
      米林县| 涪陵区| 尚志市| 濉溪县| 广宁县| 沂水县| 岳阳市| 百色市| 汉源县| 桐乡市| 东安县| 乐昌市| 沈丘县| 资阳市| 阆中市| 东兰县| 夏邑县| 莲花县| 招远市| 黎川县| 邳州市| 肥乡县| 广州市| 孙吴县| 巴马| 启东市| 清徐县| 格尔木市| 新化县| 林口县| 景宁| 荥阳市| 新河县| 延安市| 沭阳县| 定结县| 连云港市| 邹城市| 繁昌县| 黄龙县| 长治市|