呂海峰 蔡明
摘要 圖像自動標注作為計算機視覺領域重要的研究課題,近年來取得了巨大的成果,但由于語義鴻溝的存在,仍然存在巨大的挑戰(zhàn)。本文提出一種基于概率潛在語義分析模型的分類融合圖像標注方法。首先,該方法分別提取圖像的形狀和視覺特征,聚類生成詞袋;然后利用融合概率潛在語義分析模型計算得出圖像標注詞的概率,并利用支持向量機依據圖像顏色特征分類得到分類標簽的類別杈重;最后在得到的標注詞概率中融入類別權重,最終得到圖像的標簽。并且使用Corel圖像數(shù)據集進行標注模型的訓練和圖像的標注。實驗結果表明,對比幾種前沿的標注方法,本文獲得了良好的性能。
【關鍵詞】圖像自動標注 詞袋 支持向量機概率潛語義分析 分類
1 引言
圖像自動標注就是計算機系統(tǒng)根據已經標注的圖像和標簽的關系,去預測未標注圖像的標簽并標注圖像。但由于存在語義鴻溝,視覺特征相似的圖像很可能在語義上是不相關的。為了獲得語義相關的檢索結果,同時避免大量的手工標注,圖像自動標注成為目前關鍵的具有挑戰(zhàn)性的課題。Duygulu等[3]將對象識別模型描述為機器翻譯,在這個模型中,圖像被分割成區(qū)域,這些區(qū)域使用各種特征被分類為區(qū)域類型;然后使用基于EM的方法來學習與圖像一起提供的區(qū)域類型和關鍵字之間的映射。李志欣等[5]在PLSA模型和PLSA-WORDS模型的基礎上提出了PLSA-FUSION標注方法,該方法分別從文本模態(tài)和視覺模態(tài)中學習兩組潛在主題,然后把這兩種潛在主題融合成一個潛在主題空間,有較好的性能,但特征數(shù)據在量化過程中仍會丟失重要信息。邱澤宇等[6]結合區(qū)域之間的位置關系及其標簽之間的共生關系輔助標注圖像,提出兩種模型對標簽共生關系建模輔助修正標簽集,標注效果和性能有了較好的改善。Wu等[7]提出了一種稱為弱標簽的半監(jiān)督深度學習方法,一個新的弱加權兩兩排序損失被有效地用來處理弱標記的圖像,而三重相似性丟失被用來處理未標記的圖像。
由于支持向量機(Support Vector Machine,SVM)是基于學習理論產生的,支持向量機通常具有很好的分類性能,可以用來解決局部極值問題和高維問題。用SVM解決多分類問題的方式是訓練多個分類器,使每一類都可以通過SVM分類器與其它類分開。在圖像標注問題中,可以將圖像的類別看成是語義標簽,進而把該問題轉換成圖像分類問題。
所以本文提出一種基于概率潛在語義分析模型的分類融合圖像標注方法,該方法首先利用PLSA-FUSION模型計算出圖像和標簽之間的概率關系;然后利用支持向量機對圖像的顏色特征進行分類得到分類標簽的類別權重;最后在圖像語義傳播的過程中融合到概率中,作為最終的標注關鍵詞概率集。
2 基于概率潛在語義分析模型的分類融合圖像標注
2.1 圖像表示
本文的圖像的視覺特征表示采用圖像的稠密的尺度不變描述子SIFT(scale-invariantfeature transform)和HSV顏色特征。首先對于每幅圖像利用SIFT描述子提取固定網格的大量局部特征,生成128維的特征向量,通過k-means聚類生成SIFT詞袋 BOW(bag-of-words);然后按圖1所示的5個區(qū)域提取其HSV顏色直方圖并合并成288維的直方圖,并通過k-means聚類生成HSV詞袋;通過實驗發(fā)現(xiàn)當k取1000時聚類效果最佳,最后對這兩類詞袋詞袋進行簡單的連接生成最終的詞袋。
2.2 建立特征數(shù)據庫
在標注圖像之前,需要建立一個數(shù)據庫。這里,從圖像中提取特征描述子,利用k-means聚類將這些描述子轉換視覺單詞,并保存圖像的視覺單詞和對應的單詞直方圖。進而對圖像進行分類,標注和檢索,并獲得圖像的相似性作為中間結果。
2.3 支持向量機分類模型的選取
2.4 概率潛在語義分析模型
如圖2所示,PLSA-FUSION(融合的概率潛語義分析)是在PLSA的基礎上采用了兩個PLSA模型分別建模視覺模態(tài)和文本模態(tài)的數(shù)據,然后再以自適應的方式不對稱地融合兩個PLSA模型,使得它們共享同樣的潛在空間(即對于每幅訓練圖像具有相同的主題分布),然后利用PLSA模型得到圖像標注詞的概率。
2.5 融合分類信息的概率語義分析模型的圖像標注
因為PLSA-Fusion模型需要對圖像的特征進行聚類處理,所以標注的精度局限于聚類的效果。由于圖像分類不需要聚類,故不會受到底層特征聚類的影響,將圖像的分類信息作為權重融合入概率語義分析模型中,有效的提高了概率語義分析模型的標注精度。
對于概率語義分析模型中圖像特征數(shù)據在量化過程中仍會丟失重要信息問題,本文通過融合圖像的分類信息,使圖像標注有了更好的標注性能。標注模型如圖3所示。
利用支持向量機對圖像的區(qū)塊顏色特征進行分類,獲得圖像的類別信息。根據分類過程中類別出現(xiàn)的次數(shù)作為評價類別重要性的標準。
利用融合的概率語義分析模型可以計算得到文本標簽和圖像之間的概率關系,通過前面分類得到的類別權重,在圖像語義傳播過程中將權重融合到文本標簽的概率中,得到了融合了類別權重的標注詞概率。用P(wIF)表示類別在分類結果中的權重,融合后得出的圖像文本標簽的概率為:
3 實驗及分析
本文在Core15K圖像集上進行仿真實驗,本實驗首先提取圖片的視覺特征,然后使用k-means方法聚類生成視覺詞匯表,通過實驗得出k為1000時聚類效果最佳。圖像標注的評價標準為精度preclsion和召回率recall。對于一個給定的語義關鍵詞w,precision(w)=B/A,recall(w)=B/C。其中,A表示所有自動標注了關鍵詞w的圖像個數(shù),B表示正確標注了關鍵詞w的圖像個數(shù),C表示原始標注中包含關鍵詞w的圖像個數(shù)。本文采用所有標注詞的平均精度和平均召回率評價圖像的標注性能。標注結果比較如表1和表2所示。
在表l中給出了各種圖像自動標注模型的性能比較,在兩個關鍵詞集合上的標注結果最佳49個關鍵字和全部260個關鍵字,本文算法基本上不僅優(yōu)于PLSA-FUSION,而且優(yōu)于PLSA-WORDS。在這兩個關鍵詞集合上,平均精度比PLSA-WORDS分別提高了17%和10%,平均召回率比PLSA-WORDS提高了分別提高了11%和6%。
在表2中給出了4張圖片的在幾種標注模型下標注結果對比,由表2可以得出在大部分情況下本文算法要優(yōu)于PLSA-FUSION和PLSA-WORDS。
4 結束語
本文提出的一種概率潛在語義分析模型的分類融合圖像標注方法,通過實驗得出本文算法與幾種比較前沿的標注方法相比具有更好的性能。SVM分類權重的加入對圖像語義標注有很大的正向作用。由于PLSA Fusion模型采用的是PLSA和EM算法,所以收斂速度較慢,導致訓練算法比較耗費時間資源,下一步的工作為尋找新的方法以優(yōu)化本文的標注模型,進而提高圖像標注的效率和精度。
參考文獻
[1] Smeulders A W M,Worring M, Santini S, etal.Content-Based image retrieval atthe end of the early years[J].IEEETrans.on Pattern Analysis and MachineIntelligence, 2000, 22 (12) : 1349-138 0.
[2] Dat to R, Joshi D, Li J, et al. Imageretrieval: Ideas, influences, and trendsof the new age[J].ACM ComputingSurveys,2008,40(02):1-60.
[3]Duygulu P,Barnard K,F(xiàn)reitas J F G D,et al.Object Recognition as MachineTranslation: Learning a Lexiconfor a Fixed Image Vocabulary[C].European Conference on ComputerVision, 2002, 2353 (06): 97-112.
[4]Dempster A P,Laird N M,Rubin D B.Maximum-likelihood from in completedata via the EM algorithm[J].Journal of the Royal StatisticalSociety,1977,39(01):1-38.
[5]LI Zhi-Xin,SHI Zhi-PING,LI Zhi-Qing,et al.Automatic Image Annotation byFusing Semantic Topics [J]. Journal ofSoftware, 2011, 22 (04): 801-812.
[6] QIU Ze-Yu, FANG Quan, SANG Ji-Dao,et al.Regional Context-Aware ImageAnnotation [Jl.Chinese Journal of Computers, 2 014, 37 (06) : 139 0-13 9 7.
[7] Wu F,Wang Z, Zhang Z, et al. WeaklySemi-Supervised Deep Learning forMul t i-Label
Image Anno tation [J] .IEEE Transactions on BigData, 2017,1(03):109-122.
[8] Han J W, Kamber M, Pei J. DataMining: Concepts and Techniques [M].3rd ed. San Francisco: MorganKaufmann, 2011: 327-330.
[9]Lowe D G.Distinctive Image Featuresfrom Scale-Invariant Keypoints [J].International Journal of ComputerVision,2004,60(02):91-110.
[10] Bosch A, Munoz X, Mart i
R. Which isthe best way to organize/classifyimages by content?[J].Image & VisionComputing, 2007, 25 (06): 778-791