羅菊香
摘要:從增強類標(biāo)簽和標(biāo)注關(guān)聯(lián)性出發(fā)進(jìn)行驗證研究,提出了一個類標(biāo)簽生成直接來自圖像主題同時做圖像分類和標(biāo)注的概率主題模型,即改進(jìn)的Mca-sLDA模型。給出了基于變分EM算法的模型參數(shù)推導(dǎo)過程以及使用該模型分類和標(biāo)注圖像的方法,并在兩個真實數(shù)據(jù)集上對模型的分類和標(biāo)注性能進(jìn)行了驗證。
關(guān)鍵詞:圖像分類和標(biāo)注;變分EM;Mca-sLDA模型
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1008-4657(2020)05-0073-09
0 引言
計算機視覺在人工智能和深度學(xué)習(xí)的背景下又一次正在經(jīng)歷蓬勃發(fā)展,圖像分類和標(biāo)注[1]作為計算機視覺的關(guān)鍵技術(shù)也伴隨著相應(yīng)的挑戰(zhàn)。圖像分類是指自動的給圖像分配類標(biāo),圖像標(biāo)注是指用關(guān)鍵詞描繪圖像中出現(xiàn)的事物或某些區(qū)域。圖像的分類和標(biāo)注技術(shù)在文本檢索、圖像信息管理、模式識別與機器學(xué)習(xí)等領(lǐng)域都具有重要的理論意義[2-3]。當(dāng)今,圖像標(biāo)注和分類問題已經(jīng)成為計算機視覺中的研究熱點。
隨著詞袋特征[4]的出現(xiàn),概率主題模型的圖像標(biāo)注和分類算法[5-13]近年來受到研究人員和學(xué)者的廣泛關(guān)注,并已成為圖像標(biāo)注和分類問題研究領(lǐng)域的一個主要工作。近年來研究人員已經(jīng)做了大量工作,包括基于概率主題模型的圖像標(biāo)注方法[5-8],基于概率主題模型的圖像分類研究[9-11],基于概率主題模型的同時做圖像分類和標(biāo)注模型[12-14]。
文獻(xiàn)[5]在Corr-LDA模型的基礎(chǔ)上利用圖像類別來改進(jìn)圖像的標(biāo)注性能。Xu等[6]提出了圖像標(biāo)注的Corr-CTM模型,該模型以Corr-LDA模型為基礎(chǔ)引入了主題之間的相關(guān)性。文獻(xiàn)[8]將圖像視覺特征、環(huán)繞文本以及實體抽取所得到的能夠描述圖像中顯著特征的詞在概率主題模型中進(jìn)行聯(lián)合建模,學(xué)習(xí)到多種數(shù)據(jù)模態(tài)之間的關(guān)聯(lián)關(guān)系。sLDA-bin模型是Putthividhya等[9]將sLDA模型和Corr-LDA模型結(jié)合提出的做圖像分類的概率主題模型。近年,神經(jīng)主題模型的圖像標(biāo)注和分類研究也相繼展開。如無監(jiān)督神經(jīng)網(wǎng)絡(luò)DocNADE模型[11],模型能夠?qū)崿F(xiàn)文檔的檢索與分類任務(wù)。Mca-sLDA模型[12]是CVPR會議上提出的同時做圖像分類和標(biāo)注的經(jīng)典模型。文獻(xiàn)[13]在Mca-sLDA的基礎(chǔ)上提出了一個類標(biāo)和標(biāo)注相互促進(jìn)的同時做圖像分類和標(biāo)注的模型。DocNADE的擴展模型SupDocNADE[14]模型可以對圖像詞、文本詞及類別進(jìn)行共同學(xué)習(xí)。
上述工作基于不同目的都取得了相對較好的性能。到目前為止,同時做圖像分類和標(biāo)注的工作相對較少,且大多是基于Mca-sLDA模型做的改進(jìn),注意到該模型中類標(biāo)簽和標(biāo)注只是通過潛主題連接,這也就使得類標(biāo)簽和標(biāo)注之間的關(guān)聯(lián)性有一定限制,對于從增強類標(biāo)簽和標(biāo)注關(guān)聯(lián)性出發(fā)進(jìn)行的驗證研究還比較欠缺。
1 Mca-sLDA模型
Mca-sLDA通過模型潛主題Z連接標(biāo)注模型Corr-LDA和有監(jiān)督主題模型Mc-sLDA實現(xiàn)同時執(zhí)行圖像分類和標(biāo)注的功能。
模型用到的符號及其意義如表1所示。
2 基于改進(jìn)的Mca-sLDA模型同時做圖像分類和標(biāo)注的方法
本文在研究基于概率主題模型做圖像分類和標(biāo)注課題時注意到Mca-sLDA模型中類標(biāo)簽和標(biāo)注只是通過潛主題Z連接,類標(biāo)簽和標(biāo)注之間的關(guān)聯(lián)性較弱。為此,本文對Mca-sLDA模型進(jìn)行改進(jìn),新模型文本主題是按圖像主題分布從已抽取的圖像主題中抽取,模型類標(biāo)簽直接從文本主題中生成,提出了一個類標(biāo)簽生成直接來自圖像主題同時做圖像分類和標(biāo)注的概率主題模型,模型簡稱為P-Mca-sLDA模型。本文推導(dǎo)了模型的參數(shù)估計算法,同時也給出了利用該模型分類和標(biāo)注圖像的方法,真實數(shù)據(jù)集上的實驗也驗證了模型的分類和標(biāo)注性能得到了改進(jìn)。
P-Mca-sLDA模型用到的符號及其所表示意義如表1所示,令E=v,w,c表示可觀測變量,Δ=α,π,β,μ表示模型參數(shù),ω=γ,φ,ρ表示變分參數(shù)。
模型具體生成過程如下:
模型的生成過程:從潛主題中生成圖像,在已抽取的圖像主題中按圖像主題分布抽取文本主題,同時生成圖像詞和類標(biāo)簽,類標(biāo)簽生成過程的主題直接來自文本主題,這就使類標(biāo)簽和標(biāo)注的關(guān)聯(lián)性增強。
3 P-Mca-sLDA模型參數(shù)求解與圖像分類和標(biāo)注
3.1 變分E步驟
3.1.1 計算后驗Dirichlet參數(shù)γ
3.1.2 計算參數(shù)φ
3.1.3 計算參數(shù)ρ
3.2 變分M步驟
經(jīng)過E步驟,可求得變分參數(shù)ω=γ,φ,ρ的值。在M步驟中,固定變分參數(shù)ωd=γ,φ,ρ,d∈1,2,3,...,D,相對于模型參數(shù)Δ=α,π,β來最大化集合D上的log似然。即最大化
3.2.1 求解模型參數(shù)π
3.2.2 求解模型參數(shù)β
3.2.3 確定模型參數(shù)α:
本文沒有對α進(jìn)行優(yōu)化,多次實驗發(fā)現(xiàn),將α設(shè)置成全為1的向量,模型性能較好。
3.2.4 確定模型參數(shù)μ:
3.3 圖像的分類與標(biāo)注
測試集中的圖像沒有標(biāo)記類標(biāo)和標(biāo)注。對于分類,使用文本的主題頻次P-分類圖像,概率最大的類標(biāo)將被作為此圖像的類,也就是使得μTP-的期望最大時的類標(biāo)。即確定類的公式如下該預(yù)測程序使主題頻次的均值的期望代替圖像的原始特征。每個類別有一個對應(yīng)的的參數(shù)μ,與該圖像最相近的類別會分派給這個預(yù)測圖像。
4 實驗結(jié)果與分析
為評估Mca-sLDA模型的分類和標(biāo)注性能,本文在LabelMe和UIUC-Sport兩個真實數(shù)據(jù)集上進(jìn)行相關(guān)實驗。分別采用分類平均準(zhǔn)確度和F值來評價模型的分類和標(biāo)注性能。