福州大學(xué)物理與信息工程學(xué)院 代立華
垃圾圖像特征提取與選擇的分析
福州大學(xué)物理與信息工程學(xué)院 代立華
隨著網(wǎng)絡(luò)垃圾圖像的逐漸增多,垃圾圖像的判別問題引起了更多人的關(guān)注。而想要完成垃圾圖像判別,還要依據(jù)圖像特征。基于這種情況,本文對垃圾圖像特征提取與選擇方法進行了分析,以期為關(guān)注這一話題的人們提供參考。
垃圾圖像;特征提??;選擇
垃圾圖像的廣泛傳播,導(dǎo)致郵件提供商和用戶的利益受到了損害。為對垃圾圖像進行過濾,國內(nèi)外學(xué)者都對圖像分類問題展開了研究。而在圖像分類器設(shè)計上,還要利用樣本特征對樣本之間的相似性進行衡量,以便實現(xiàn)垃圾圖像與正常圖像的準確識別。因此,相關(guān)人員還應(yīng)加強垃圾圖像的特征提取和選擇問題的分析,以便更好的實現(xiàn)垃圾圖像的判別。
所謂的垃圾圖像其實就是包含垃圾信息的圖像,如色情圖像、廣告圖像和宗教圖像等,其具有不同于正常圖像的特征,如文本特征、批量發(fā)送特征、干擾與噪聲特征等。通常的情況下,垃圾圖像發(fā)送者都會利用近似復(fù)制的方法生成圖像,然后進行批量發(fā)送。而發(fā)送這些垃圾圖像的目的,就是為了確保其中含有的大量文字信息能夠躲避過濾器的檢測[1]。為使文本信息提取的準確性得到降低,垃圾圖像中含有大量認為干擾因素,能夠使圖像特征檢測的有效性遭到降低。而這些垃圾圖像多是利用計算機生成的,色彩單調(diào)、紋理簡單,并伴有人工修改痕跡。此外,垃圾圖像多采用壓縮比較高的圖像格式傳送,如.png、.jpg等。
在對垃圾圖像進行判別時,需先完成圖像樣本中具有較好區(qū)分性的特征提取。完成特征提取后,圖像則會從原始測量空間轉(zhuǎn)換為特征向量空間,可以利用原始特征向量表示。但是,這些向量通常有較高維度,所以還要進行選擇,以便通過減少不相關(guān)特征提高分類器性能。就目前來看,用于進行垃圾圖像特征提取的方法較為簡單,只需要從原始測量數(shù)據(jù)中完成一些屬性抽取,就可獲得一組基本特征,如顏色特征、文本特征和邊緣特征等。
2.1顏色特征的提取
由于顏色是重要圖像視覺屬性,所以顏色特征目前廣泛應(yīng)用在垃圾圖像識別上。在顏色特征提取上,可以采取顏色直方圖、顏色飽和度和顏色矩等。利用顏色直方圖,需要先完成圖像顏色量化,然后對各顏色值出現(xiàn)次數(shù)進行統(tǒng)計,以獲得特征向量。利用該直方圖可以完成圖像中顏色全局分布的簡單描述,以了解不同色彩在圖像所占比例,從而完成難以自動分割的圖像特征描述。但是,使用該方法難以進行圖像具體區(qū)域的描述。提取圖像顏色飽和度特征,需要對圖像像素中大于某個閾值的像素比例進行計算[2]。對圖像顏色矩特征進行提取,則要將圖像顏色空間轉(zhuǎn)換為HSV色彩空間,然后計算各色彩通道一階和二階中心距。而顏色特征提取具有較強魯棒性和較高計算效率,能滿足過濾系統(tǒng)實時性處理要求,但是難以進行顏色特征相似的圖像判別。
2.2文本特征的提取
不同于正常圖像,垃圾圖像中通常有較多文字,所以可以通過提取文本特征進行圖像區(qū)分。為此,還要先使用Canny邊緣檢測算子等文本區(qū)域提取算法完成文本區(qū)域提取,然后通過實現(xiàn)文本區(qū)域分割和文本區(qū)域定位實現(xiàn)文本特征提取。而可以提取的文本特征有較多,首先,圖文混排圖像背景通常較為復(fù)雜,垃圾圖像背景則相對簡單,所以可以通過提取文本區(qū)域數(shù)量進行圖像區(qū)分。其次,垃圾圖像的文本區(qū)域面積通常較大,因此能夠通過計算文本區(qū)域面積與圖像面積比值實現(xiàn)圖像區(qū)分。再者,采用不同間距或字體大小進行相同數(shù)量文字的排版,獲得的文本區(qū)域面積與文本區(qū)域數(shù)量不同。而根據(jù)文字寬高比固定的特點,則可以通過提取文本區(qū)域?qū)捀弑葘D像嵌入文字的數(shù)量進行客觀反映。此外,垃圾圖像中通常有較多噪聲干擾,所以可以通過提取文本區(qū)域外圍噪聲進行圖像判別。
2.3邊緣特征的提取
完成圖像邊緣特征的提取,能夠使圖像中目標的形狀得到較好的反映。而垃圾圖像中包含大量文字,邊緣信息較為豐富。所以在進行垃圾圖像特征提取時,可以對圖像中灰度發(fā)生急劇變化的區(qū)域邊界進行提取。一方面,可以使用邊緣方向直方圖對圖像邊緣點方向進行統(tǒng)計,以實現(xiàn)邊緣信息提取[3]。另一方面,也可以利用Sobel邊緣檢測算子對圖像邊緣進行提取,然后利用邊緣角度自相關(guān)圖特征進行圖像識別。
垃圾圖像特征選擇的關(guān)鍵,就在于需要完成效率較高的特征子集搜索算法和合適的特征子集評價準則的選取。就目前來看,可以采用的評價策略包含互信息、均值、標準差和相似度等。
3.1互信息特征的選擇
選擇互信息,能夠用于進行目標屬性和評價特征間的緊密程度的評價。通過對圖像標簽和每個特征的互信息進行計算,然后將得分由高到低排列,就能完成得分最高的24個互信息特征的選擇。采取該種特征選擇方式,會因特征之間關(guān)系復(fù)雜而出現(xiàn)錯誤選擇,所以較難獲得最優(yōu)特征組。此外,采取該種特征選擇方式將花費較多的特征提取時間,因此通常需要使用基于互信息的時間敏感特征選擇算法,以便使特征提取時間代價與特征提取有效性之間的權(quán)重得到調(diào)節(jié)。
3.2均值和標準差特征的選擇
在對概率統(tǒng)計中的統(tǒng)計分布程度進行測量時,可使用標準差作為特征分析的主要依據(jù)。通過計算樣本標準差,則能使樣本類內(nèi)離散程度得到反映。而計算樣本均值,則能夠使樣本類間離散程度得到反映[4]。因此,標準差越大,類間就越好區(qū)分。
3.3相似度特征的選擇
目前在垃圾圖像識別上,也有學(xué)者選擇了相似度特征進行分類器的構(gòu)建。具體來講,就是通過對圖像中的文字進行提取,然后將圖像特征選擇轉(zhuǎn)換為文本特征,并對邊緣特征向量間的相似度進行計算。而將計算結(jié)果輸入分類器,則能夠完成垃圾圖像的分類識別。
3.4圖像特征分析仿真
如下表1所示,對主要幾種垃圾圖像特征選擇方法和分類器算法進行仿真分析可以發(fā)現(xiàn),采取支持向量機分類算法明顯能夠更好的完成垃圾圖像識別。而在采取的分類算法相同的情況下,選擇圖像相似度特征更具有優(yōu)勢。
表1 垃圾圖像特征分析仿真實驗結(jié)果
通過研究可以發(fā)現(xiàn),在垃圾圖像判別方面,特征是圖像分類的重要依據(jù),所以還應(yīng)做好圖像特征提取和選擇。但就目前來看,使用不同圖像特征提取和選擇方法進行分類器的構(gòu)建,獲得的分類器的效率和性能距離實用化還有一定差距。因此,還應(yīng)加強有關(guān)問題的研究,以便更好的進行垃圾圖像處理。
[1]鄧蔚,程紅蓉,錢偉中等.基于Kolmogorov復(fù)雜性的垃圾圖像分類模型[J].計算機應(yīng)用研究,2011,04:1533-1535.
[2]王壽彪,楊桄,丁文東等.SAR圖像目標識別特征提取與選擇方法研究進展[J].科技情報開發(fā)與經(jīng)濟,2011,26:160-164.
[3]劉艷洋,曹玉東,賈旭.基于內(nèi)容的圖像型垃圾郵件過濾技術(shù)研究[J].遼寧工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2014,02:86-90+95.
[4]楊仁欣,楊燕,原晶晶.高光譜圖像的特征提取與特征選擇研究[J].廣西師范學(xué)院學(xué)報(自然科學(xué)版),2015,02:39-43.
代立華(1987—),男,大學(xué)本科,助理工程師,研究方向:圖像處理。