嵇朋朋,陳育中,周劉喜
(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院南京分院 電氣工程系,南京 210019)
在人工智能領(lǐng)域內(nèi),自然圖像分類一直是研究人員關(guān)注的焦點,具有廣泛的實際應(yīng)用價值,如目標(biāo)物體識別、目標(biāo)物體跟蹤、自然圖像檢索以及現(xiàn)階段拍照識圖或購物等[1-3]。經(jīng)過多年的技術(shù)創(chuàng)新發(fā)展,研究人員提出了大量的圖像分類方法,包括特征抽取[4-5]、學(xué)習(xí)模型優(yōu)化以及多核學(xué)習(xí)(Multiple Kernel Learning,MKL)模型[6-9]。MKL模型是對不同數(shù)量或類型的核函數(shù)(如SPK、PDK等)或圖像特征(如外形、紋理、色彩等)進(jìn)行線性或非線性聯(lián)合。MKL模型在支持向量機(jī)分類器中,利用多個圖像特征、核函數(shù)優(yōu)化學(xué)習(xí)新的分類器。傳統(tǒng)的MKL模型[6-7]在特征空間中處理類間距離的合理性上存在弊端,導(dǎo)致無法給出實用的復(fù)雜自然圖像處理效果。特殊樣本MKL模型[9]對每個樣本圖像簇訓(xùn)練合適的核函數(shù)權(quán)重,并通過線性方式聯(lián)合合適的核函數(shù)來提高模型的識別力,但存在學(xué)習(xí)模型耗時的缺點。針對上述問題,基于圖像簇MKL模型的圖像分類方法,研究將給定樣本圖像類別中具有相似形狀、紋理或顏色特征的樣本圖像聚類到一個圖像簇中,確保圖像分類的準(zhǔn)確性,并通過實驗驗證學(xué)習(xí)模型的判別能力。
圖像簇MKL模型先通過聚類算法對圖像進(jìn)行預(yù)處理,并將樣本圖像聚類成若干個圖像簇,最后對多個不同類型核函數(shù)進(jìn)行線性加權(quán)聯(lián)合,其權(quán)重大小受核函數(shù)的類型、樣本圖像的屬性影響。圖1為圖像簇MKL模型,將來自同一類別的圖像,通過預(yù)處理(聚類算法)聚類到幾個不同的圖像簇中。
(1)
圖1 題圖像簇MKL模型
(2)
式中:αi=[α1,…,αN]Τ和b是MKL模型中的參數(shù)。模型決策函數(shù)式(2)可從圖像簇MKL的原問題中提煉出來。
從樣本圖像x中抽取M個特征向量(φ1(x),…,φM(x))的{φm(x)即從輸入空間映射到特征空間,其中Dm表示第m個特征維度,每個特征相應(yīng)的權(quán)重為wm。式(2)表示多個核函數(shù)的線性或非線性聯(lián)合,經(jīng)典的MKL模型決策函數(shù)可以寫成式(3)。
(3)
為最大化正目標(biāo)樣本與負(fù)目標(biāo)樣本之間的邊界距離,即最大化目標(biāo)樣本分類精度,同時使得目標(biāo)樣本分類誤差最小化,可通過求解式(4)得到。
(4)
(5)
算法1圖像簇MKL模型
(2)for 最終的要求沒有滿足,do;
(3)計算核函數(shù)的權(quán)值β;
(5)用關(guān)于核K(xi,xj)的經(jīng)典支持向量機(jī)(SVM)方法解決α;
(8)end for。
對數(shù)據(jù)庫UIUC Sports、Scene15、Caltech-256圖像進(jìn)行預(yù)處理,把彩色圖像轉(zhuǎn)化為灰度圖像。將數(shù)據(jù)庫UIUC Sports、Scene15和Caltech-256中圖像分別壓縮到不大于400×400,300×300,300×300像素大小。
以文獻(xiàn)[6]MKL模型作為參考基準(zhǔn),采用BOW特征表示最終的圖像特征,對圖像特征設(shè)置如下。
(1)局部特征抽取:使用圖像局部形狀特征描述子SIFT、HOG,圖像全局特征描述子Gist,圖像紋理描述子LBP,圖像目標(biāo)外觀特征描述子SSIM、PHOG。
(2)特征字典訓(xùn)練:在數(shù)據(jù)庫Scene15、UIUC Sports、Caltech-256中,圖像局部形狀特征描述子SIFT,特征字典長度分別為4096、1024、1024。HOG、LBP、SSIM特征字典長度均分別設(shè)置為1024、1024、400。
(3)特征聚合:均采用3層空間金字塔聚合,即每層分別為1×1、2×2、4×4個聚合空間;最終目標(biāo)樣本圖像特征維度為特征字典長度×(1×1+2×2+4×4)=1024×21,即21504。
(4)核函數(shù):使用PMK、SPK、PDK等作為基核。
(5)圖像簇設(shè)置:在實驗預(yù)處理中,每類圖像被聚類為Ng圖像簇(Ng=1,…,5)。
數(shù)據(jù)庫Scene15具有15個不同自然場景的圖像類別,共4485張圖像,每個自然場景圖像類內(nèi)部之間區(qū)別很大,不同自然場景中也有相似之處。
圖2為數(shù)據(jù)庫Scene15中樣本圖像。
圖2 Scene15數(shù)據(jù)庫中樣本圖像
圖2為街道、市區(qū)及郊區(qū)3個不同類別的自然場景樣本圖像,街道類別中不同街道之間存在差別(街道寬度,兩邊建筑物等等),但在街道、市區(qū)、郊區(qū)3個不同類別中都存在共同特征——建筑物。
表1為 Scene15數(shù)據(jù)庫實驗結(jié)果。
表1 Scene15數(shù)據(jù)庫實驗結(jié)果 %
由表1可知,圖像簇MKL模型能夠處理自然場景圖像類內(nèi)之間的差異性和圖像類別之間的相似性,其分類精度為88.3%。與使用單一特征文獻(xiàn)[10]相比,分類精度提高7.9%。相比文獻(xiàn)[11]的分類結(jié)果高0.1%,說明圖像簇MKL模型能夠處理復(fù)雜自然圖像分類問題,可以捕捉到圖像中不同特征信息,并加以優(yōu)化組合,形成更具判別力的圖像特征。圖3為圖像簇MKL模型分類精度(訓(xùn)練數(shù)目為100,其值是各類圖像分類精度的平均值)的混淆矩陣,其每一行代表圖像簇MKL模型的測試值,每一列代表每一類所對應(yīng)的真實值。從圖3可知,有6類自然場景圖像的分類精度高于90%,驗證了圖像簇MKL模型的性能。
圖3 圖像簇MKL模型分類精度混淆矩陣
表2為圖像簇MKL模型在UIUC Sports數(shù)據(jù)庫上(8類目標(biāo)物體,共計1579 張圖像)的分類。
表2 UIUC Sports 數(shù)據(jù)庫實驗結(jié)果 %
由表2可知,圖像簇MKL模型在UIUC Sports上的分類精度為88.96%,高出文獻(xiàn)[10]的分類精度81.77%,比文獻(xiàn)[10]的實驗結(jié)果87.23%高出1.73%。再次驗證圖像簇MKL模型能夠聯(lián)合多種不同類型的特征描述子(比如顏色、紋理、興趣點、外形、外觀等),并最終得到具有較好判別能力的圖像特征向量。圖4為圖像簇MKL模型在UIUC sports數(shù)據(jù)庫上分類精度(訓(xùn)練數(shù)目為70,測試數(shù)目為60)的混淆矩陣。
圖4 UIUC sports數(shù)據(jù)庫分類精度混合矩陣
圖4中每一行代表圖像簇MKL模型的測試值,每一列代表每一類所對應(yīng)的真實值。從圖4中可以看出,有4類目標(biāo)圖像分類精度高于90%,還有2類圖像分類精度高于87%,進(jìn)一步凸顯了圖像簇MKL模型處理目標(biāo)圖像的類內(nèi)差異性及類間相似性問題的優(yōu)勢。
表3為圖像簇MKL模型在Caltech-256數(shù)據(jù)庫上(256類目標(biāo)物體,共計29780張圖像)實驗結(jié)果。
表3 Caltech-256數(shù)據(jù)庫實驗結(jié)果 %
在表3中,訓(xùn)練數(shù)目為30和60時,圖像簇MKL模型得到的分類精度分別為45.62%和48.92%,與文獻(xiàn)[13]給出的分類精度40.80%和47.90%相比,分別高出4.82%和1.02%,表現(xiàn)出較好的自然圖像分類性能。圖像簇MKL模型能很好地將不同類型的局部特征聯(lián)合起來(比如顏色、紋理、興趣點、外形、外觀等),且優(yōu)化形成具有良好判別力的圖像表示特征。顯示圖像簇MKL模型處理自然圖像分類問題的優(yōu)勢。
傳統(tǒng)地依靠單一局部特征很難概括自然圖像中所有信息,針對其判別能力較低的問題,提出了基于圖像簇MKL模型,引入預(yù)處理將每類圖像聚類成若干個圖像簇,通過聯(lián)合多種不同類型的局部特征,最終形成具有較強(qiáng)判別能力的圖像特征向量。實驗證明,圖像簇MKL模型具備處理自然圖像分類問題的優(yōu)勢,即可很好地解決自然圖像類內(nèi)差異性及類間一致性問題。