基于樸素貝葉斯分類器的紙病離線靜態(tài)辨識方法研究

2014-08-15 06:48:14院金彪鄭海英郭文強

中國造紙學報 2014年1期

院金彪周強鄭海英郭文強湯偉

(1.陜西科技大學電氣與信息工程學院，陜西西安，710021；2.察右中旗第一中學，內蒙古烏蘭察布市，013550)

紙病檢測主要是針對紙張外觀缺陷，通過各種辨識方法，快速判斷紙張的黑斑、孔洞、光斑、褶皺、邊緣裂紋等紙病，對發(fā)現生產工藝中的故障、保證紙張質量以及紙病后期處理都有重要意義。

紙病辨識是紙病檢測流程的關鍵環(huán)節(jié)，主要通過對紙病圖像特征的提取、辨識，判斷紙病類別。通常使用的紙病圖像特征有灰度特征、幾何特征、形狀特征等，其中，灰度特征主要包括灰度均值、灰度方差等灰度統計量；幾何特征主要包括圖像位置、方向、周長、面積、長軸、短軸、距離等幾何參數；形狀特征主要有矩形度、圓形度、球狀性、不變矩、偏心率等高階統計量。傳統方法的通用性差，對不同類型的紙病只能根據某一特定的特征量進行判斷，如當使用背光源照射紙張時，黑斑與孔洞的灰度均值差距較大[1]，因此，可用灰度均值區(qū)分這兩種紙病，但是，相同條件下的孔洞與光斑紙病的灰度均值接近而不易區(qū)分，不過它們的灰度標準差的分布范圍不同，可作為區(qū)分紙病的特征量。顯然傳統方法總是在尋找兩兩紙病間的特征分界點，不能用通用的標準去實現紙病辨識，而對于某些相似度高的紙病來說，更是難以尋找到某一合適的特征量來區(qū)分它們。同時，傳統方法的魯棒性通常較差，對周圍的環(huán)境因素如光照強度變化適應性差。

本研究針對當前紙病辨識方法的通用性弱、魯棒性差的問題，提出了基于樸素貝葉斯分類器的紙病離線靜態(tài)辨識方法。該方法依據樸素貝葉斯分類器原理，首先通過對樣本訓練得到各種紙病特征量的條件概率分布，然后計算所檢測到的紙病的特征向量屬于各種紙病的后驗概率，最后對各后驗概率進行比較，實現各個特征量的信息融合，進而確定該特征向量所屬的紙病類別。此外，在紙病辨識過程中，又增加了拒識域，將所求得的后驗概率較為接近的紙病通過增加對其特征量的描述進行進一步判斷，確保了紙病辨識精度。

1 樸素貝葉斯分類器原理和算法流程

1.1 樸素貝葉斯分類器原理

樸素貝葉斯分類器是一種簡單且有效的分類方法，具有最小錯誤率的特點[2]，可以預測一個給定樣本屬于某一類別的概率，其應用條件是假設所選的各特征量之間相互獨立，主要是確定出給定的待分類項條件下各個類別出現的概率，概率最大值所對應的就是該特征所屬的類別[3-5]。

設特征向量x={a1,a2,……,am}，其中，每個a是x的一個屬性，且a1,a2,……,am各自相互獨立。有類別集合C={y1,y2,……,yn}，P(y1|x),P(y2|x),……P(yn|x)即為所求概率，比較所得概率，取最大值所屬的類即可。根據貝葉斯公式有：

(1)

(2)

因為分母對于所有類別均為常數，因此，只要求分子最大值即可，所以有：

(3)

用常量M表示P(x)。由此可以看出，只要求得maxP(x|yi)×P(yi)，即可確定其所屬類別，實現信息融合。

圖2 紙病辨識算法流程

1.2 樸素貝葉斯分類器的算法流程

樸素貝葉斯分類器算法流程如圖1所示，整個過程分3個階段：

(1)前期準備階段，主要完成樣本的確定和特征量的選取。分類器的質量很大程度上取決于特征量、訓練樣本質量及個數。

(2)分類器訓練階段，主要計算各特征量所屬某一類別的條件概率。

(3)分類階段，主要應用樸素貝葉斯分類器原理進行后驗概率的計算并比較各后驗概率大小，將最大值作為判斷某特征向量屬于哪種紙病類別的依據。

圖1 樸素貝葉斯分類器算法流程

2 紙病辨識

2.1 紙病辨識算法流程

紙病辨識算法流程如圖2所示。首先對紙病圖像進行預處理，然后對預處理后的圖像進行特征提取，紙病特征包括灰度均值、灰度標準差、不變矩、熵等，其次將得到的各個紙病的特征值融合成一個特征向量，最后根據樸素貝葉斯分類器原理對紙病進行分類。

2.2 主要紙病及預處理

攝像機所能檢測到的紙病主要是處在紙張表面的外觀紙病。外觀紙病很多，本研究只針對常見的3種紙病即黑斑、光斑、邊緣裂紋進行研究。

紙病的預處理過程主要是將采集到的灰度圖像通過閾值分割后，利用均值濾波去除噪聲，然后對圖像進行邊緣檢測，進而確定紙病區(qū)域。閾值分割、均值濾波和邊緣處理后的紙病圖像分別如圖3～圖5所示。

2.3 紙病圖像的特征提取及概率分布

2.3.1紙病特征量的提取

檢測到紙病后，采用樸素貝葉斯分類器原理對紙病進行分類，主要根據紙病的特征向量來確定紙病類別。本研究涉及的紙病的特征向量由灰度均值、灰度標準差、不變矩、熵4個特征量組成。

(1)灰度均值

紙病圖像預處理后，對紙病區(qū)域的各像素點灰度相加并取其平均值作為灰度均值(M)，其計算公式如下[6]：

(4)

式中，S表示紙病區(qū)域；N表示紙病區(qū)域所有像素點個數；g(i,j)表示紙病區(qū)域內位置為(i,j)處的像素灰度，下同。

(2)灰度標準差

灰度標準差(E)是用來描述紙病區(qū)域內紙病灰度分布的離散集中程度，其計算公式如下：

(5)

(3)不變矩

圖像區(qū)域的某些矩對平移、旋轉、尺度等幾何變換具有一些不變的特性[7]，因此，矩的表示方法在物體分類與識別方面具有重要意義。在紙病識別中，不同紙病的不變矩差異很大，因此，把不變矩作為紙病特征描述的一個特征量。

圖3 閾值分割后的紙病圖像

圖4 均值濾波后的紙病圖像

圖5 邊緣檢測后的紙病圖像

對二維離散函數f(x,y)，零階矩可表示為：

(6)

中心矩的定義為：

(7)

(8)

利用歸一化的中心矩，可獲得以下7個不變矩:

φ1=μ20+μ02

(9)

(10)

φ3=(μ30-3μ12)2+(μ03+3μ21)2

(11)

φ4=(μ30+μ12)2+(μ21+μ03)2

(12)

φ5=(μ30-3μ12)(μ30+μ12)[(μ30+μ12)2-3(μ21+μ03)2]+(3μ21-μ03)(μ21+μ03)[3(μ30+μ12)2-(μ21+μ03)2]

(13)

φ6=(μ20-μ02)[(μ30+μ12)2-(μ21+μ03)2]+4μ11(μ30+μ12)(μ21+μ03)

(14)

φ7=(3μ21-μ03)(μ30+μ12)[(μ30+μ12)2-3(μ21+μ03)2]+(3μ12-μ30)(μ21+μ30)[3(μ30+μ12)2-(μ21+μ03)2]

(15)

(4)熵

熵是用來表示任何一種能量在空間分布的均勻程度，能量分布得越均勻，熵越大。一個體系的能量完全均勻分布時，這個系統的熵就達到最大值。圖像處理中采用信息熵的概念[9]，表示圖像灰度分布的均勻程度，且圖像種類不同，其熵也不同，如某圖像G的熵定義為：

(16)

式中，n取值為256，表示256種灰度級；pk表示灰度等于k的像素與圖像總像素之比。信息熵表示圖像所包含的平均信息量，表征圖像信息的豐富程度。不同紙病之間的信息熵不同，而同種紙病之間的信息熵基本相同。

2.3.2概率分布的確定方法

不變矩本身有7個量，首先計算這7個量的條件概率分布，然后將這7個概率分布相乘就是不變矩這一特征量的條件概率分布，計算方法如下：

(17)

(18)

式中，i表示紙病類別；j表示不變矩7個量中的1個；Sij表示所取第i類紙病樣本的第j個矩中與所檢測到紙病的第j個矩相同的樣本個數；S表示該類紙病的樣本總數。

灰度均值、灰度標準差、熵這3個特征量的條件概率分布的確定方法相同，其計算方法如下：

(19)

式中，i表示紙病種類；k表示紙病特征量(灰度均值、灰度標準差、熵)；Sik表示所選取的第i類紙病樣本中的第k個特征量的數值與當前檢測到紙病的相應的特征量數值相同的樣本個數;S表示該類紙病樣本總數。

2.4 紙病分類模型建立

本研究選取紙病的4種特征量即灰度均值(m1)、灰度標準差(m2)、不變矩(m3)、熵(m4)，根據樸素貝葉斯分類器原理，可設紙病的特征向量為x={m1,m2,m3,m4}。要判斷的紙病有3種，即黑斑(C1)、光斑(C2)、邊緣裂紋(C3)。對于任何一類紙病Ci(i=1,2,3)，都得通過樣本將條件概率P(mj|Ci)以及各類紙病出現的先驗概率P(Ci)計算出來，考慮到紙病出現的隨機性，給每類紙病選擇300個訓練樣本，因此，P(Ci)=1/3，取其中240個樣本用來訓練P(mj|Ci)，剩下的60個樣本用來檢驗系統識別精度。對于確定好的P(mj|Ci)與P(Ci)，根據式(2)有：

(20)

根據式(3)可知：

(21)

因為各類紙病的先驗概率P(Ci)均相同，所以只需求maxP(x|Ci)并比較，即可判斷該紙病特征向量屬于哪一類紙病。

此外，在紙病的辨識過程中，依靠經驗設置了拒識域，即上述后驗概率中某幾個概率比較接近，其差值的絕對值在拒識域內，說明此時該紙病特征屬于這幾類的可能性或權重比較大，因此，系統采用增加特征量的方法來進一步判斷，直到其差值脫離拒識域為止。其實現流程如圖6所示。

圖6 紙病辨識流程圖

3 應用實例

每種紙病選取300個樣本進行實驗，實驗結果如表1和表2所示，其中，分別用240個樣本來訓練得到3種紙病的條件概率分布；考慮到計算的復雜程度及快速性，對不變矩只求其φ1、φ2、φ3這3個矩。最后用各類樣本集剩下的60個樣本去檢驗樸素貝葉斯分類器對紙病種類辨識的準確度。

表1 紙病特征量的提取

由表1可以發(fā)現，不同紙病的特征量是不同的，從而求得的紙病特征向量也是不同的，能夠保證紙病類別與紙病特征向量的一一對應關系，同時可以看出，選擇較多的紙病特征量可以避免因某些特征相同而導致錯誤識別的風險。

由于貝葉斯容易得到拒識條件[10]，為提高辨識精度，在紙病辨識過程中，又增加了拒識域(見表2)，其中，Δu=P(x|Ci)-P(x|Cj)，i,j=1,2,3，且i≠j。

表2 紙病的辨識率

由表2可知，當拒識域取值范圍逐漸增大時，3種紙病辨識率都相應增大，提高了辨識精度。這說明在樸素貝葉斯分類器原理的基礎上設置拒識域對于提高辨識精度起到了重要作用，使辨識系統精度可調，能夠滿足不同的辨識精度要求。

4 結語

本研究提出了一種利用樸素貝葉斯分類器辨識造紙工業(yè)中常見紙病的方法。該方法綜合了樸素貝葉斯分類器與整個檢測流程最小錯誤率和通用性強的特點，在測試實驗中，對經過訓練的紙病類型具有較高的識別精度，并且快速性好；當拒識域為0.4時，3種紙病的辨識率均已達到96.7%。如果繼續(xù)增大拒識域，可以將本研究提出的方法辨識精度進一步提高，但這可能會因增大計算機的成本而影響辨識的快速性。

參考文獻

[1] 張學蘭, 李軍, 孟范孔. 一種基于機器視覺的紙病識別方法[J]. 中國造紙學報, 2013, 28(1): 48.

[2] 張春燕, 陳筍, 張俊峰, 等. 基于最小風險貝葉斯分類器的茶葉茶梗分類[J]. 計算機工程與應用, 2012, 48(28): 187.

[3] 董立巖，范森淼，劉光遠，等. 基于貝葉斯分類器的圖像分類[J]. 吉林大學學報， 2007, 45(2): 250.

[4] Muralidharan V, Sugumaran V. A comparative study of Na?ve Bayes classifier and Bayes net classifier for fault diagnosis of monoblock centrifugal pump using wavelet analysis[J]. Applied Soft Computing, 2012, 12(8): 2023.

[5] Liu Sanyang, Zhu Mingmin, Yang Youlong, et al. A Bayesian Classifier Learning Algorithm Based on Optimization Model[J]. Mathematical Problems in Engineering, 2013, 2013: 1.

[6] 楊波, 周強, 張剛強. 基于幾何及灰度特征的紙病檢測算法研究[J]. 中國造紙, 2011, 30(9): 50.

[7] 魏偉波, 芮筱亭. 不變矩方法研究[J]. 火力與指揮控制, 2007, 32(11): 115.

[8] 王洪濤, 丁國清. 基于不變矩圖像匹配的工件種類判別應用研究[J]. 制造業(yè)自動化, 2012, 34(1): 141.

[9] 王曉文, 趙宗貴 ,湯磊. 一種新的紅外與可見光圖像融合評價方法[J]. 系統工程與電子技術, 2012, 34(5): 872.

[10] 藺志青, 郭軍. 貝葉斯分類器在手寫漢字識別中的應用[J]. 電子學報, 2002, 30(12): 1805.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看