徐昌 王瑤 舒福舟
摘要:為了實(shí)現(xiàn)對圖像的分類,提出了一種基于多種特征的樸素貝葉斯方法。從數(shù)據(jù)圖像集中提取灰度直方圖特征、SIFT特征、SURF特征以及對數(shù)據(jù)集裁減的方式降低維度等四種特征,求取每一種特征下的圖像的精確率、召回率、F1值以及對應(yīng)的混淆矩陣。本文在數(shù)據(jù)集進(jìn)行了分類實(shí)驗(yàn),結(jié)果表明,采用SIFT特征描述的圖像表示能夠取得更好的分類結(jié)果。
關(guān)鍵詞:圖像分類;特征提取;樸素貝葉斯
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)30-0194-03
隨著人工智能的來臨,機(jī)器學(xué)習(xí)在各個(gè)領(lǐng)域的應(yīng)用占據(jù)主要的成分。在大數(shù)據(jù)時(shí)代,面對海量的圖像處理,傳統(tǒng)的圖像分類模式需要大量的人力資源,而且在圖像分類上的精度不高,這種模式已經(jīng)跟不上時(shí)代的步伐。為了節(jié)約成本和資源,提高圖像分類的精度,從而轉(zhuǎn)向人工智能的領(lǐng)域,希望找到更加有效的算法處理海量的圖像,如樸素貝葉斯分類器算法、支持向量機(jī)算法和神經(jīng)網(wǎng)絡(luò)算法等。
本文通過樸素貝葉斯算法,分別采用四種特征提取_5_的方式,如:灰度直方圖、SIFT特征、SURF特征和裁剪圖像,來分析各個(gè)特征的平均精確率、平均召回率、平均Fl值以及混淆矩陣,從而判斷分類效果的好壞。
1特征提取的方法
本文采用四種方式的特征方法對樸素貝葉斯分類器進(jìn)行分析:
1)灰度直方圖:灰度圖像由256個(gè)灰度級,然后利用openCV庫中的函數(shù)calcHist函數(shù)統(tǒng)計(jì)出每個(gè)灰度級上的像素個(gè)數(shù)。
2)SIFT特征:SIFT特征對于圖像的尺度大小、旋轉(zhuǎn)角度和明暗程度變化具有不變性特點(diǎn),通過微分向量的方向和大小來確定一個(gè)主方向,求取主方向有關(guān)的特征并與圖像的特征匹配,在圖像的分類上獲得了良好效果。
3)SURF特征:SURF特征基于行列式的局部斑點(diǎn)特征檢測方法。利用圖像的積分在不同的尺度上近似的計(jì)算出Hart小波值。
4)裁剪圖片:先將圖片做灰度化處理,在將灰度圖像裁剪成64*64像素的圖像。
2樸素貝葉斯算法原理
樸素貝葉斯算法先根據(jù)給定的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,生成一個(gè)貝葉斯模型,然后通過這個(gè)模型,把測試集數(shù)據(jù)帶人這個(gè)模型進(jìn)行測試。求出每一個(gè)測試數(shù)據(jù)在各個(gè)類別中的概率,在比較各個(gè)類別的概率,哪個(gè)概率最大就認(rèn)為測試數(shù)據(jù)就屬于這個(gè)類別,進(jìn)而生成預(yù)測的標(biāo)簽,然后跟真實(shí)的標(biāo)簽進(jìn)行比對,計(jì)算出每一個(gè)種類的識別精度以及混淆矩陣,采用如圖1所示的方法進(jìn)行圖像分類。
3實(shí)驗(yàn)結(jié)果與分析
3.1數(shù)據(jù)描述
本實(shí)驗(yàn)所用的數(shù)據(jù)集的名稱是color_1000,有1000張圖像,總共分為10類,種類的樣本圖像如圖2所示,每一類都含有100張圖像。實(shí)驗(yàn)過程中隨機(jī)抽取每個(gè)樣本類別總數(shù)的80%作為訓(xùn)練數(shù)據(jù)樣本,剩余的20%數(shù)據(jù)作為測試樣本。
3.2實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)過程中提取四種特征即裁剪圖片、灰度直方圖、SIFT特征、SURF特征,通過樸素貝葉斯算法進(jìn)行圖像的分類,在提取不同特征后,通過每個(gè)類別的精確率、召回率、F1值、以及混淆矩陣判斷分類效果的好壞。不同的特征提取在樸素貝葉斯算法上運(yùn)行的結(jié)果不同。圖像集分別進(jìn)行僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片的召回率、準(zhǔn)確率、F1值的平均值如表1所示。
從表中可以看出使用SIFT特征,圖片的分類效果最好,將每張圖片僅裁剪64*64個(gè)像素的分類效果最差。
圖像集分別進(jìn)行僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片精確率如圖3所示,從圖中可以看出僅裁剪圖片和提取灰度直方圖精確率的跳變比較大,而采用SIFT特征和SURF特征的方法在圖像分類的效果比較好。
圖片集分別進(jìn)行僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片召回率如圖4所示,從圖中可以看出采取SIFT特征的方法在分類的效果是最好的。
圖片集分別進(jìn)行僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片F(xiàn)1值如圖5所示。從圖中可以看出采取SIFT特征的分類的效果在整體上是最好的。
表2、表3、表4分別是僅裁剪圖片、灰度直方圖、SIFT特征、SURF特征的10類圖片的混淆矩陣,每一行數(shù)據(jù)代表每類圖片經(jīng)過算法預(yù)測后的標(biāo)簽的概率。其中對角線上的數(shù)據(jù)是每一類正確分類的精確率。
4結(jié)論
本文研究了一種基于多特征提取的樸素貝葉斯圖像分類的方法,運(yùn)用該方法對1000張圖像數(shù)據(jù)集,使用四種特征的方式僅裁剪圖片、灰度直方圖、SIFT特征和SURF特征通過貝葉斯分類器進(jìn)行分類,分析實(shí)驗(yàn)的精確率、召回率、F1值和混淆矩陣,結(jié)果表明在四種特征下采用SIFT特征的貝葉斯分類器的圖像分類效果最好。