彭革
摘要:樸素貝葉斯算法是理想化的算法模型,且基于條件特征相互獨(dú)立的假設(shè),不能滿足實(shí)際應(yīng)用。本文通過探究樸素貝葉斯算法的原理和操作步驟,并介紹基于此類算法的優(yōu)化和改進(jìn),從而規(guī)避算法的不足,同時(shí)提高算法工作效率和文本過濾準(zhǔn)確度。
關(guān)鍵詞:樸素貝葉斯;算法優(yōu)化;文本過濾
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)14-0244-02
1引言
隨著科學(xué)技術(shù)的飛速發(fā)展發(fā)展,伴隨5G時(shí)代的到來。電子郵件成為人們?nèi)粘I詈凸ぷ鹘涣髦胁豢苫蛉钡姆绞絑--,但垃圾郵件也一直困擾著我們。根據(jù)卡巴斯基實(shí)驗(yàn)室表明,2019年第三季度,全球郵件流量中垃圾郵件的平均比例為56.26%,其中,前5個(gè)垃圾郵件來源國(guó):中國(guó)排名第一(20.43%),其次是美國(guó)(13.37%)和俄羅斯(5.60%)。第四位是巴西(5.14%),第五位是法國(guó)(3.35%)。由此可見,我國(guó)的垃圾郵件處理形式依然不容樂觀。因此,對(duì)于垃圾郵件過濾的需求愈發(fā)強(qiáng)烈,對(duì)垃圾郵件過濾技術(shù)的研究越來越先進(jìn)。
2研究現(xiàn)狀
垃郵件過濾的手段主要有以下3種。
(1)黑白名單過濾。該方法主要分為黑白2個(gè)名單列表,當(dāng)某個(gè)IP地址頻繁發(fā)送垃圾郵件,這個(gè)lP地址將會(huì)被加人黑名單中,此后默認(rèn)該地址發(fā)送的郵件為垃圾郵件。郵件白名單,顧名思義,也就是沒有被標(biāo)記為發(fā)送垃圾郵件的地址名單,此類郵件能夠正常發(fā)送與接收。實(shí)時(shí)黑白名單技術(shù),將黑白名單列表交給第三方的技術(shù)部門來維護(hù),通過DNS來動(dòng)態(tài)檢測(cè)某個(gè)IP地址是否存在列表中。但這種方法存在弊端,當(dāng)發(fā)送者采用動(dòng)態(tài)或隱藏IP地址,那么此方法將受到限制。
(2)基于規(guī)則的過濾技術(shù)。決策樹模型是基于規(guī)則過濾技術(shù)的典型代表,早在1966年,在國(guó)外學(xué)者研究的關(guān)于概念學(xué)習(xí)的系統(tǒng)中就出現(xiàn)了決策樹模型的身影,到1979年,迭代分類器算法的提出,再到后來這類算法在處理連續(xù)值屬性數(shù)據(jù)的缺點(diǎn)上進(jìn)行了改進(jìn)?,F(xiàn)在基于規(guī)則的過濾技術(shù)的算法雖然在一定程度上能夠滿足垃圾郵件的過濾需求,但其核心原理都是根據(jù)與預(yù)設(shè)規(guī)則進(jìn)行比較,從而來判定是否為垃圾郵件,并且這些規(guī)則一般都是靜態(tài)設(shè)置的,缺少可信度的學(xué)習(xí)策略,在規(guī)律不明顯的應(yīng)用領(lǐng)域中過濾效果較差,準(zhǔn)確度較低。
(3)基于內(nèi)容統(tǒng)計(jì)的過濾技術(shù)。這類方法效率較高、速度較快、耗費(fèi)較少,在文本過濾方面應(yīng)用較為廣泛?;诖祟愡^濾技術(shù)中,最常用的算法是樸素貝葉斯算法。其中樸素貝葉斯算法實(shí)現(xiàn)思想簡(jiǎn)單、分類速度快,使用較少的訓(xùn)練集就能夠獲取一個(gè)待檢文本數(shù)據(jù)的預(yù)估值,通常在使用樸素貝葉斯算法的時(shí)候,都要先對(duì)其樣本特征屬性進(jìn)行分析。找到一個(gè)樣本屬性對(duì)樣本數(shù)據(jù)全局的影響與其他特征屬性是相互獨(dú)立的,而這種假設(shè)往往是不符合實(shí)際應(yīng)用的。因此,這類算法分類和過濾的準(zhǔn)確率存在誤差。
3樸素貝葉斯算法模型
樸素貝葉斯是一種基于貝葉斯決策理論的分類方法,它是貝葉斯分類器的一種拓展與衍生。樸素貝葉斯是在實(shí)踐問題中基于“獨(dú)立特征”的一種監(jiān)督學(xué)習(xí)算法,其核心思想就是:將新數(shù)據(jù)與已知數(shù)據(jù)集作比較,選擇高概率的結(jié)果來對(duì)新數(shù)據(jù)進(jìn)行決策的一類學(xué)習(xí)方法。因此,又稱樸素貝葉斯分類法為基于概率論的分類方法。
樸素貝葉斯模型的一般過程為:收集數(shù)據(jù)(實(shí)際問題的數(shù)據(jù)集)—>準(zhǔn)備數(shù)據(jù)(對(duì)數(shù)據(jù)類型進(jìn)行處理)一>分析數(shù)據(jù)—>訓(xùn)練算法(根據(jù)數(shù)據(jù)不同特征,計(jì)算其條件概率)—>測(cè)試算法(計(jì)算并分析算法的錯(cuò)誤率)一>算法的應(yīng)用(把算法運(yùn)用到實(shí)際問題)。
機(jī)器學(xué)習(xí)的一個(gè)重要應(yīng)用就是實(shí)現(xiàn)文檔的自動(dòng)分類,而基于樸素貝葉斯算法的分類算法在這一方面有著顯著的優(yōu)勢(shì)。下面將介紹樸素貝葉斯算法的具體操作原理:
3.1收集準(zhǔn)備數(shù)據(jù)
因?yàn)闃闼刎惾~斯是根據(jù)樣本特征分析的方法,而在機(jī)器學(xué)習(xí)的過程中,算法的假設(shè)與決策難免存在風(fēng)險(xiǎn)或失誤。所以找出樣本最優(yōu)的特征類型數(shù)據(jù)就是該算法的關(guān)鍵。
在實(shí)際操作中,為了算法能夠更好地測(cè)試和基于條件概率的運(yùn)算。在實(shí)際問題的處理中,首先,需要將文本文檔進(jìn)行基于詞向量的切分處理,使之轉(zhuǎn)換為數(shù)據(jù)向量,并對(duì)樣本數(shù)據(jù)進(jìn)行特征分類,規(guī)定具體的特征標(biāo)簽,以便于算法的計(jì)算和自動(dòng)檢測(cè)。然后,獲取需要效驗(yàn)和測(cè)試的數(shù)據(jù),基于python程序?qū)颖具M(jìn)行檢測(cè)并給出結(jié)論。
3.2訓(xùn)練并測(cè)試算法模型
公式演變到這一步,再計(jì)算條件概率也就簡(jiǎn)單明了,算法的分類主旨也就變得清晰了很多。
3.3對(duì)算法進(jìn)行測(cè)試以及問題的修復(fù)
在機(jī)器學(xué)習(xí)方法中,往往會(huì)出現(xiàn)許多缺陷。對(duì)于樸素貝葉斯分類方法而言,計(jì)算概率值為0和下溢這兩類錯(cuò)誤導(dǎo)致的問題是尤為常見的。
(1)對(duì)于計(jì)算概率值出現(xiàn)為0的情況,即這一特征類別在測(cè)試樣本中沒有出現(xiàn)過,從而會(huì)使計(jì)算公式中某一個(gè)p(xj ci)的值為0,造成最后總乘積為0。這種情況很常見,我們只需在python程序中將每個(gè)屬性特征在向量化的時(shí)候?qū)⒊跏贾翟O(shè)定為1,并將分母初始化值設(shè)定為2,即可避免這種不必要的干擾。
4優(yōu)化的樸素貝葉斯算法
基于前面對(duì)于樸素貝葉斯算法內(nèi)容的介紹,對(duì)于其工作的原理已經(jīng)有了清晰的認(rèn)識(shí),但是在應(yīng)用中往往不能滿足實(shí)際需求。所以,基于現(xiàn)階段樸素貝葉斯算法的垃圾郵件的分類技術(shù)還需要進(jìn)行改進(jìn)和優(yōu)化。
最突出的優(yōu)化手段有以下三種。
(1)優(yōu)化的樸素貝葉斯增量學(xué)習(xí)算法
樸素貝葉斯算法結(jié)合增量學(xué)習(xí)的方法。待檢樣本數(shù)據(jù)的分類,是一個(gè)動(dòng)態(tài)的過程,在不斷更新的垃圾文檔樣本當(dāng)中,往往會(huì)有新的特征屬性出現(xiàn),如果待檢樣本出現(xiàn)某一個(gè)詞向量不存在于先驗(yàn)樣本的訓(xùn)練集中,那么系統(tǒng)對(duì)這個(gè)詞將無法判斷。結(jié)合增量學(xué)習(xí)的方法,當(dāng)算法模型檢測(cè)到某個(gè)詞向量不存在于先驗(yàn)樣本中,于是,將該詞語(yǔ)添加至屬性列表中,然后重新計(jì)算相關(guān)概率?;诖耍砑恿嗽隽繉W(xué)習(xí)方法進(jìn)行改進(jìn)和優(yōu)化的樸素貝葉斯算法在垃圾郵件分類過程中將是一個(gè)動(dòng)態(tài)學(xué)習(xí)的過程,根據(jù)不斷變更的網(wǎng)絡(luò)語(yǔ)言以及層出不窮的垃圾信息,實(shí)時(shí)更新,這樣才能具有更好的適應(yīng)能力和篩查力度,從而提高文檔過濾的準(zhǔn)確率,達(dá)到更好的機(jī)器學(xué)習(xí)效果。
(2)利用支持向量機(jī)改進(jìn)的樸素貝葉斯算法
首先利用樸素貝葉斯算法對(duì)樣本集進(jìn)行初次訓(xùn)練,然后利用支持向量機(jī)構(gòu)造一個(gè)最優(yōu)分類超平面,每個(gè)樣本根據(jù)與其距離最近樣本的類型是否相同進(jìn)行取舍,這樣既降低樣本空間規(guī)模,又提高每個(gè)樣本類別的獨(dú)立性,最后再次用樸素貝葉斯算法訓(xùn)練樣本集從而生成分類模型。仿真實(shí)驗(yàn)結(jié)果表明,該算法在樣本空間進(jìn)行取舍過程當(dāng)中消除了冗余屬性,可以快速得到分類特征子集,提高了垃圾郵件過濾的分類速度、召回率和正確率。
(3)改進(jìn)EM算法的樸素貝葉斯分類算法
EM算法因其操作簡(jiǎn)單,結(jié)構(gòu)穩(wěn)定的特點(diǎn)被廣泛運(yùn)用于數(shù)據(jù)處理問題當(dāng)中,該算法的核心思想是通過數(shù)據(jù)迭代的方式,通過期望值最大化不完整數(shù)據(jù)的概率和預(yù)估值。該算法也存在弊端,那就是對(duì)于初始值的設(shè)定嘲。一個(gè)不恰當(dāng)?shù)某跏贾?,?huì)使EM算法無法恰好滿足局部最優(yōu)也使得算法模型全局最優(yōu),于是就有了基于EM算法的樸素貝葉斯分類方法。首先,計(jì)算缺損數(shù)據(jù)與完整數(shù)據(jù)的相關(guān)度,將其相關(guān)度最大的數(shù)據(jù)項(xiàng)所對(duì)應(yīng)的特征屬性選定為初始值,并求出極大似然估計(jì),然后通過EM算法進(jìn)行迭代,從而完成缺失數(shù)據(jù)的預(yù)測(cè)和填補(bǔ),最后再利用樸素貝葉斯分類算法對(duì)已經(jīng)處理過的完整數(shù)據(jù)進(jìn)行分類和過濾。該方法有扎實(shí)的理論基礎(chǔ),同時(shí)也提高了算法分類的準(zhǔn)確率。
5結(jié)束語(yǔ)
本文基于現(xiàn)今垃圾郵件問題日益嚴(yán)峻的大背景下,根據(jù)樸素貝葉斯分類模型為基礎(chǔ)展開。首先談到了目前比較主流的垃圾郵件過濾的三種方法一黑白名單過濾、基于規(guī)則的過濾技術(shù)、基于內(nèi)容統(tǒng)計(jì)的過濾技術(shù)。每種方法都有各自的優(yōu)勢(shì),同時(shí)也存在弊端。于是就基于內(nèi)容統(tǒng)計(jì)的過濾技術(shù)中的樸素貝葉斯算法為出發(fā)點(diǎn),深人認(rèn)識(shí)了樸素貝葉斯算法模型的內(nèi)容與其工作原理。該算法是一種理想化的貝葉斯衍生模型,依賴于條件獨(dú)立,特征互不影響的假設(shè)。在算法模型的構(gòu)建過程中會(huì)出現(xiàn)下溢和計(jì)算概率值為0的情況,樸素貝葉斯算法要想在垃圾郵件過濾實(shí)踐當(dāng)中還不能夠獨(dú)當(dāng)一面。文章最后探究了通過改進(jìn)和優(yōu)化樸素貝葉斯算法的三種方法一優(yōu)化的樸素貝葉斯增量學(xué)習(xí)算法、利用支持向量機(jī)改進(jìn)的樸素貝葉斯算法、改進(jìn)EM算法的樸素貝葉斯分類算法,這三類優(yōu)化算法都能提高過濾效率和準(zhǔn)確率?,F(xiàn)今,垃圾郵件將不再僅僅只局限于文本的形式,還會(huì)以圖片、視頻、音頻等各種形式出現(xiàn),本文也只對(duì)文本形式的垃圾郵件過濾進(jìn)行概述,所以,要想徹底過濾掉垃圾郵件,還需要不斷的探索和研究。