任俠 廖建平
摘 要:敏感圖像信息多以壓縮格式存在、表現(xiàn)形式多樣、缺乏統(tǒng)一定義等諸多因素影響著敏感信息識別速度和準(zhǔn)確率的提高。針對這個問題,從壓縮域圖像處理及基于數(shù)據(jù)挖掘探尋識別規(guī)則兩個角度出發(fā),采用數(shù)據(jù)挖掘的方法,在大量的樣本數(shù)據(jù)中探尋隱含的判決規(guī)則,并用于進(jìn)行敏感圖像的識別。
關(guān) 鍵 詞:敏感圖像;壓縮域;數(shù)據(jù)挖掘;多代價敏感決策樹
一、引言
當(dāng)前,由于各種自然災(zāi)害而導(dǎo)致的水利突發(fā)事件層出不窮,根據(jù)國家防汛抗旱總指揮部網(wǎng)站消息,去年南方水澇導(dǎo)致廣西、福建、浙江等地50多條河流先后發(fā)生超警戒水位洪水,超警幅度0.01-5.67米,其中廣西蒙江發(fā)生了超歷史實測記錄大洪水,福建建溪支流南浦溪發(fā)生了超保證水位洪水。去年以來,洪水造成22個省(區(qū)、市)1823萬人受災(zāi),因災(zāi)死亡148人,失蹤42人,農(nóng)作物受災(zāi)1642千公頃,倒塌房屋6.78萬間,直接經(jīng)濟損失299億元,其中水利設(shè)施經(jīng)濟損失56億元。與2000年以來同期相比,洪澇災(zāi)害直接經(jīng)濟損失偏多近2成。與此同時,在我國甘肅省卻由于降水偏少,導(dǎo)致農(nóng)作物受旱面積達(dá)970萬畝,旱情造成71萬人、65萬頭牲畜存在程度不同的飲水困難。隨著各種自動監(jiān)測技術(shù)在水利工程中的應(yīng)用和深入擴展,各個決策部門的工作變得更加快捷和便利,同時,也生成了大量圖像數(shù)據(jù)。要在這海量數(shù)據(jù)中即時獲取有效信息是當(dāng)前急需解決的關(guān)鍵技術(shù)之一,本文主要針對敏感圖像的自動快速識別技術(shù)進(jìn)行研究,從而為決策部門預(yù)防水利災(zāi)害提供數(shù)據(jù)支持。
二、敏感圖像快速識別面臨的挑戰(zhàn)
敏感圖像識別對速度和準(zhǔn)確率的追求是永無止境的。但是面臨網(wǎng)絡(luò)環(huán)境下的海量信息,同時信息內(nèi)容又復(fù)雜多變,想要快速準(zhǔn)確的識別敏感圖像需要面臨各方巨大的挑戰(zhàn)。
首先,各種水利系統(tǒng)中自動檢測技術(shù)的應(yīng)用都通過信息技術(shù)利用網(wǎng)絡(luò)存儲傳輸圖像文件。[1]而網(wǎng)絡(luò)環(huán)境下為尋求高存儲率和高效率,對圖像的本地存儲和遠(yuǎn)程傳輸大多采取壓縮技術(shù)。傳統(tǒng)的敏感圖像識別都是基于像素域進(jìn)行的,因而針對壓縮碼流就必須先解壓縮再進(jìn)行識別,這樣做雖然完成了識別圖像的要求,但恰恰違背了網(wǎng)絡(luò)環(huán)境下的核心優(yōu)勢,既增加各種負(fù)荷又缺乏靈活性及實時高效性。
其次,在各種水利系統(tǒng)的自動檢測過程中生成的海量圖像信息,由于拍攝點的環(huán)境、拍攝本身的角度、拍攝所處的背景和各種光照條件不同的限制,使得圖像的表現(xiàn)形式呈多樣性特點,很難找到統(tǒng)一特征進(jìn)行準(zhǔn)確、完整的表征描述。因此,提取哪些圖像特征,及如何抽取各種魯棒的敏感圖像判決規(guī)則都是在網(wǎng)絡(luò)環(huán)境下進(jìn)行的,提高系統(tǒng)識別速度和準(zhǔn)確率,從而提供數(shù)據(jù)決策支持是必須解決的重要問題。
最后,敏感圖像表現(xiàn)形式的多樣性,以及針對圖像敏感性,不同的部門、不同的用戶有不同的主觀理解和需求,沒有完整統(tǒng)一的標(biāo)準(zhǔn),因而很難通過經(jīng)驗簡單確定需要提取何種合適特征,也很難判斷圖像的底層特征和高層語義之間的聯(lián)系規(guī)則。所以如何適應(yīng)終端用戶的主觀需求是提高敏感圖像識別準(zhǔn)確率所要面臨的又一大問題。
三、敏感圖像快速識別研究
基于內(nèi)容的敏感圖像識別是一種綜合利用圖形圖像處理技術(shù)和人工智能決策的方法。本文基于這一思想,不針對單幅圖像進(jìn)行詳細(xì)分析,而是通過詳細(xì)分析壓縮碼流特點,快速準(zhǔn)確的在壓縮域中提取圖像多種特征;然后利用數(shù)據(jù)挖掘的方法探尋適合識別敏感圖像的特征及潛在決策規(guī)則,利用獲取的知識來建立識別模型并用于對其它圖像進(jìn)行判決;最后,在預(yù)先分類的數(shù)據(jù)庫中檢索與之匹配的圖像,再根據(jù)匹配結(jié)果對圖像進(jìn)行判定,如圖1所示。
針對敏感圖像識別,首先提取壓縮圖像的區(qū)域特征,進(jìn)而分別利用顏色直方圖、紋理及形狀等特征在預(yù)定義類別的圖像樣本庫中檢索出與待識別圖像最匹配的若干幅圖像,如果檢索結(jié)果中敏感圖像的數(shù)量超過一定的閾值,則認(rèn)為待識別圖像為客戶需求的敏感圖像。由于該方法的效果和樣本庫與檢測方法密切相關(guān),因而針對壓縮圖像如何構(gòu)建完整的樣本庫和如何基于數(shù)據(jù)挖掘探尋識別規(guī)則,實現(xiàn)有效快速檢測是本方法存在的兩個主要問題,同時也是本文重點要解決的問題。
四、敏感圖像快速識別關(guān)鍵技術(shù)
本文提出的壓縮域檢測方法分為模型庫生成和圖像檢測兩個階段,在模型庫生成階段,首先對壓縮碼流進(jìn)行熵解碼然后從中提取顏色、紋理以及其它一些圖像特征。接下來利用數(shù)據(jù)挖掘技術(shù)探尋這些特征與敏感圖像判斷結(jié)果之間的內(nèi)在規(guī)律,同時建立相關(guān)模型。在檢測階段,首先從熵解碼之后的數(shù)據(jù)中提取與敏感
圖像模型相關(guān)的圖像特征,并初步檢測圖像中的敏感區(qū)域,然后采用區(qū)域生長算法完成最終的檢測,如圖2所示。
4.1 模型庫生成
敏感圖像識別是典型的模式識別問題,由于圖像保真的需求造成數(shù)據(jù)量巨大,一種有效的方法是將圖像信息通過特征提取從原始數(shù)據(jù)空間轉(zhuǎn)換至特征空間,然后利用模式分類的方法對其識別。能夠表征敏感圖像的特征包括:基于區(qū)域顏色的特征、基于圖像檢索結(jié)果的特征、基于感興趣區(qū)的特征以及圖像全局顏色和紋理特征等。
目前敏感圖像識別的主流技術(shù)都以未經(jīng)壓縮的像素域數(shù)據(jù)為研究對象,對于普遍存在的壓縮格式的圖像信息需要完全解碼再進(jìn)行處理。圖像的解碼操作不僅耗費時間,而且解碼后待處理的數(shù)據(jù)也過于龐大,這已成為敏感圖像識別的嚴(yán)重制約因素之一。基于壓縮域的敏感圖像識別注重對現(xiàn)有壓縮格式的圖像進(jìn)行分析,并從中提取能夠表征敏感圖像的特征。由于各種壓縮編碼標(biāo)準(zhǔn)制定之初,并沒考慮后續(xù)操作。因而,基于壓縮域研究敏感圖像識別方法需要深入分析壓縮標(biāo)準(zhǔn)及壓縮碼流技術(shù),進(jìn)而研究相應(yīng)的壓縮域圖像處理方法。DCT變換是當(dāng)前壓縮標(biāo)準(zhǔn)常用的核心技術(shù),作為JPEG編碼標(biāo)準(zhǔn)的核心技術(shù)分塊,DCT變換的基本流程是:原始圖片→顏色空間轉(zhuǎn)換→分塊→DCT變換→量化→熵編碼→壓縮碼流,解壓過程是此流程的反序。顏色特征是圖像底層的基本特征之一,在圖像識別領(lǐng)域有廣泛應(yīng)用。與其它視覺特征相比,顏色特征具有旋轉(zhuǎn)、平移、尺度等不變性的特點,常用的顏色特征包括顏色直方圖、顏色矩陣、顏色相關(guān)圖等。JPEG采用YCbCr顏色空間,YCbCr顏色空間能夠較好的分離亮度信息和色度信息,適應(yīng)人眼視覺特性。出于編碼效率和運算復(fù)雜度考慮,DCT變換前通常將原始數(shù)據(jù)先做8×8分塊。經(jīng)DCT變換后左上角系數(shù)會集中大部分能量,該系數(shù)稱為DC系數(shù),其他位置的系數(shù)稱為AC系數(shù)。量化后的高頻AC系數(shù)大部分會變?yōu)榱?,以此達(dá)到壓縮目的,再經(jīng)熵編碼可進(jìn)一步提高壓縮效率。[2]N×N的二維DCT變換定義如式(1)所示。
(1)
其中,u、v、x、y∈[0,N-1];x、y是數(shù)據(jù)塊的空域坐標(biāo);u、v是變換域的坐標(biāo)。C(u),C(v)的取值如式(2)所示。
(2)
由式(1)和(2)可知,DCT變換后的DC系數(shù)值,即(0,0)位置處的DCT系數(shù),如式(3)所示。
(3)
考慮N×N的像素塊,其均值可由式(4)表示:
(4)
由式(3)和(4)可推出式(5):
(5)
由式(5)可知空域圖像像素塊均值可直接由DC系數(shù)獲得,不必進(jìn)行反DCT變換。由此可將圖像中所有分塊DC系數(shù)組合成一幅DC圖。雖然DC圖僅是原始圖像的縮略,但可保留大部分視覺信息。YCbCr顏色空間中,Y分量反映圖像的亮度信息,Cb、Cr分量反映圖像的色度信息。DCT變換前已經(jīng)將圖像轉(zhuǎn)換至YCbCr顏色空間,因而利用DC系數(shù)提取顏色特征及亮度特征,是一種有效方法。除此,還可在DC圖中提取亮度直方圖、顏色直方圖、色度直方圖等信息。提取的壓縮域顏色特征并利用圖像塊內(nèi)所有像素的顏色平均值表示。對于8×8大小的圖像塊,其顏色平均值可由下式獲得。其中以F(0,0)為8×8圖像塊經(jīng)DCT變換后的DC系數(shù)。如式(6)所示。
(6)
由于壓縮過程中DCT變換后的系數(shù)需要經(jīng)過量化處理,因而式(6)可由量化后的DC系數(shù)與量化因子的乘積近似得出,如式(7)所示。
(7)
式(7)中,Q(0,0)是量化表中(0,0)處的值,可在壓縮碼流中直接獲取。FQ(0,0)是熵解碼后的DC系數(shù),可在熵解碼后的碼流中獲取。因而我們將上式定義為壓縮域的顏色特征,用μc_colar表示,如式(8)所示。
(8)
利用式(8)求得的各顏色分量的均值作為圖像塊壓縮域的顏色特征,并分別記為YDC、CbDC、CrDC。綜上所述,具體的特征提取過程為:
1.在壓縮碼流中,將圖像轉(zhuǎn)換至YCbCr顏色空間,利用基于數(shù)據(jù)挖掘的壓縮域顏色檢測方法獲取顏色似然圖,即DC圖。
2.將DC圖劃分為8×8的圖像塊。
3.將DC圖中對應(yīng)圖像塊像素均值作為低分辨率圖像的像素值得到低分辨率圖像。
4.對低分辨率圖像進(jìn)行二維DCT變換。
5.變換后的DCT系數(shù)進(jìn)行Zigzag排序,并提取前6個系數(shù)作為SCLD特征。
紋理是圖像的另外一種基本底層特征,在圖像內(nèi)容分析中有重要作用。目前對于紋理并沒有統(tǒng)一定義,但普遍認(rèn)為紋理特征反映了圖像像素的亮度或者顏色信息的某種變化,是統(tǒng)計相關(guān)的。對于紋理分析常用的研究方法有結(jié)構(gòu)法、統(tǒng)計法、模型法和頻譜法四種。
4.2 圖像檢測
基于壓縮域的特征提取提高了特征提取速度,但敏感圖像識別算法性能的提高還要求通過選用合理有效的模式分類方法,進(jìn)而提高檢索速度。特征提取將原始圖像轉(zhuǎn)換至特征圖像后,為了深入分析提取的各種圖像特征與敏感圖像之間的關(guān)系,我們采用了數(shù)據(jù)挖掘的思想在大量的樣本數(shù)據(jù)中探尋潛在的敏感圖像識別規(guī)律。決策樹是一種常用的數(shù)據(jù)挖掘方法,能夠清晰的顯示哪些特征比較重要,具有檢測速度快、方便生成、易于理解等優(yōu)點。
基于NNIA的代價敏感決策樹構(gòu)建方法,首先將平均誤分類代價和平均測試代價作為兩個優(yōu)化目標(biāo),然后利用NNIA對決策樹進(jìn)行優(yōu)化。優(yōu)化過程中,將決策樹看作是免疫進(jìn)化中的抗體,通過研究決策樹抗體的隨機構(gòu)建方法、剪枝策略以及變異操作等,最終建立的多代價敏感的決策樹具有規(guī)模小、泛化能力強的特點。[3]利用NNIA算法解決決策樹構(gòu)建過程中多代價優(yōu)化問題時,將決策樹視為NNIA算法中的抗體。為了使NNIA更適應(yīng)決策樹抗體并且進(jìn)一步降低復(fù)雜度,在構(gòu)建代價敏感決策樹過程中我們對NNIA算法進(jìn)行改進(jìn)。改進(jìn)后的算法在每次迭代過程中增加對決策樹抗體的剪枝操作,以獲取更精簡魯棒的決策樹。由于變異操作需要利用決策樹的測試結(jié)果,如果變異之前進(jìn)行重組操作勢必會破壞原有決策樹結(jié)構(gòu),這時需要重新對訓(xùn)練集進(jìn)行測試。因此,為了降低算法的計算復(fù)雜度,我們?nèi)コ薔NIA中的重組操作。另外,為增加抗體的多樣性,在每次迭代過程中都加入新的隨機決策樹抗體。
平均誤分類代價和平均測試代價是NNIA算法中首先需要確定的待優(yōu)化目標(biāo),這是構(gòu)建代價敏感決策樹的基礎(chǔ)。另外決策樹抗體初始化、決策樹剪枝以及決策樹變異操作是算法的三個關(guān)鍵步驟。至于優(yōu)勢抗體群更新、活性抗體選擇及比例克隆等操作與標(biāo)準(zhǔn)的NNIA相同。
1.優(yōu)化目標(biāo)確定
將平均誤分類代價和平均測試代價作為兩個優(yōu)化目標(biāo),即構(gòu)建的決策樹對誤分類代價和測試代價敏感。采用分類代價矩陣的方法計算平均誤分類代價。對于一個K分類問題,分類代價矩陣C是一個K×K階矩陣,其中元素Ci,j(0
(9)
其中, I D I 為訓(xùn)練樣本集D中所包含的樣本數(shù)目;d為訓(xùn)練樣本集D中的樣本;Id為樣本d的實際類別;h(t,d)為決策樹t對樣本d的預(yù)測類別。
2.決策樹抗體的隨機生成
NNIA算法框架首先需要對決策樹抗體進(jìn)行編碼。由于二叉樹和多叉樹之間可以相互轉(zhuǎn)換,因而我們直接用二叉決策樹表示抗體,隨機建立的二叉決策樹為滿二叉樹,其內(nèi)部節(jié)點決策屬性和分裂點是隨機選擇的,這有利于在整個決策樹空間搜索。葉節(jié)點類別的指派方法為:對于葉節(jié)點,訓(xùn)練樣本集D經(jīng)決策樹t測試后,得到符合葉節(jié)點l對應(yīng)規(guī)則的數(shù)據(jù)樣本子集Dl,將使Dl誤分類代價最小的類別指定為葉節(jié)點l的類別。其中x為葉節(jié)點l應(yīng)指派的類別,如式(10)所示。
(10)
3.決策樹剪枝策略
考慮到隨機生成的決策樹某些分支可能無效以及構(gòu)建代價敏感的決策樹的需要,我們采用了兩種剪枝策略:(1)基于最小支持項數(shù)目的剪枝策略;(2)基于分類錯誤代價的剪枝策略。
基于最小支持項數(shù)目的剪枝策略與控制樹規(guī)模的方法類似,以此作為剪枝策略。剪枝前預(yù)先設(shè)定決策樹的每分支最小支持項的數(shù)目,然后自頂向下考察每棵子樹?;诜诸愬e誤代價的剪枝策略則是利用訓(xùn)練樣本集D評估決策樹的誤分類代價,并自頂向下對子樹是否被剪枝作以判定。對于內(nèi)部任意節(jié)點,假設(shè)以該節(jié)點作為根節(jié)點的子樹tn,若剪除tn后的決策樹的平均誤分類代價不大于剪枝前的平均誤分類代價,則對子樹tn進(jìn)行剪枝,否則保留該子樹。
4.決策樹抗體的變異操作
決策樹抗體的結(jié)構(gòu)并不固定,不易采用普通的變異操作進(jìn)行變異。為此,采用以下五種決策樹變異操作:(1)利用隨機創(chuàng)建的子樹替代原決策樹中隨機選取的子樹;(2)對決策樹進(jìn)行隨機剪枝;(3)隨機改變內(nèi)部節(jié)點決策屬性的分裂點;(4)隨機改變內(nèi)部節(jié)點的決策屬性和分裂點;(5)隨機分裂葉節(jié)點。
針對檢測對象,首先在碼流中提取圖像塊的顏色和紋理等特征快速構(gòu)建低分辨率版本圖像;進(jìn)而利用基于數(shù)據(jù)挖掘的壓縮域檢測方法,在大量的訓(xùn)練樣本中探尋隱含決策規(guī)則,并將這些規(guī)則作為壓縮域檢測的依據(jù)。網(wǎng)絡(luò)環(huán)境下雖然難以簡單確定敏感圖像信息的決策規(guī)則,但可以輕易獲取各種類型的大量數(shù)據(jù),從而利用選定的樣本數(shù)據(jù),探尋隱含的顏色和紋理等特征關(guān)系,進(jìn)而在樣本中挖掘出隱含知識,從而建立基于規(guī)則的模型,并用于檢測新圖像,最后利用一些先驗知識和區(qū)域生長算法進(jìn)一步去除部分背景噪聲干擾,最終獲取檢測結(jié)果。該方法能夠有效提高檢測速度,并且準(zhǔn)確率也較高。
五、結(jié)束語
在敏感圖像識別中,將敏感信息誤判為正常和將正常信息誤判為敏感所造成的影響是不同的,并且圖像特征的提取也需要一定的時間。在數(shù)據(jù)挖掘中,前者稱為誤分類代價,后者稱為測試代價。這兩種代價影響到了敏感圖像識別的準(zhǔn)確率和速度。針對這個問題,本論文提出了一種基于非支配鄰域免疫算法的多代價敏感決策樹構(gòu)建方法。將決策樹作為非支配鄰域免疫算法中的抗體,通過對決策樹的平均誤分類代價和平均測試代價進(jìn)行優(yōu)化,獲得一組Pareto最優(yōu)決策樹。該方法不僅僅能夠用于敏感圖像識別,也能夠應(yīng)用于其他對誤分類代價和測試代價比較關(guān)注的分類領(lǐng)域。
敏感圖像表現(xiàn)形式多樣并且缺乏統(tǒng)一定義,難以獲取準(zhǔn)確的判決規(guī)則。針對這個問題,本論文首先將圖像劃分為四種較為客觀的類別,并在壓縮域提取多種圖像特征。然后,利用基于多代價敏感決策樹的數(shù)據(jù)挖掘方法,對大量圖像樣本進(jìn)行分析,探尋隱含在其中的敏感圖像判決規(guī)則。最后,通過引入可由用戶自行定義的敏感程度的概念,使決策規(guī)則可輸出待檢測圖像的敏感程度信息。最終識別結(jié)果取決于終端用戶對各類圖像敏感程度的定義,可以適應(yīng)不同群體用戶的需求,有效提高了識別的準(zhǔn)確率和速度。
參考文獻(xiàn)
[1] 邱瑞田,等.全國水庫防洪調(diào)度決策支持系統(tǒng)工程[J].中國水利.2004,18(22):58-60.
[2] 程向輝,等.電力系統(tǒng)應(yīng)急調(diào)度權(quán)轉(zhuǎn)移分析及決策方法[J].電力自動化設(shè)備.2012,32(8):80-84.
[3] 姚亞夫,邢留濤.決策樹C4.5連續(xù)屬性分割閾值算法改進(jìn)及其應(yīng)用.中南大學(xué)學(xué)報(自然科學(xué)版).2011,42(12):3772-3776.
[4] 曾山,等.基于對應(yīng)分析的冗余模糊C均值聚類算法研究.華中科技大學(xué)學(xué)報(自然科學(xué)版).2012,40(2):107-111.
[5] 楊露菁,等.基于靜態(tài)模型的多視角SAR圖像目標(biāo)識別方法.武漢大學(xué)學(xué)報(信息科學(xué)版).2012,37(1):26-30.