結(jié)合CRF與ShapeBM形狀先驗的圖像標記

2017-05-03 07:37:34王浩郭立君王亞東張榮

電信科學 2017年1期

關(guān)鍵詞：全局形狀約束

王浩，郭立君，王亞東，張榮

（寧波大學信息科學與工程學院，浙江寧波 315211）

結(jié)合CRF與ShapeBM形狀先驗的圖像標記

王浩，郭立君，王亞東，張榮

（寧波大學信息科學與工程學院，浙江寧波 315211）

條件隨機場（CRF）是一種強大的圖像標記模型，適合描述圖像相鄰區(qū)域間（例如超像素）的相互作用。然而，CRF沒有考慮標記對象的全局約束。對象的整體形狀可以作為對象標記的一種全局約束，利用形狀玻爾茲曼機（ShapeBM）在建模對象的整體形狀方面的優(yōu)勢，提出了一種CRF與ShapeBM相結(jié)合的標記模型。標記模型建立在超像素的基礎(chǔ)上，并通過pooling技術(shù)在CRF的超像素層與ShapeBM的輸入層間建立對應關(guān)系，增強了 CRF與 ShapeBM結(jié)合的有效性，提高了標記準確率。在 Penn-Fudan Pedestrians數(shù)據(jù)集和 Caltech-UCSD Birds 200數(shù)據(jù)集上的實驗結(jié)果表明，聯(lián)合模型明顯地改善了標記結(jié)果。

條件隨機場；形狀玻爾茲曼機；聯(lián)合模型；超像素；圖像標記

1 引言

圖像分割與區(qū)域標記是計算機視覺中的核心技術(shù)，目的是把圖像區(qū)域分割成相關(guān)的若干部分?，F(xiàn)如今很多視覺中的高層應用都依賴于準確的圖像分割結(jié)果或者標記結(jié)果，如對象識別、場景分析等。由于存在遮擋、陰影、目標與背景特征相似等問題使得圖像分割與標記一直是計算機視覺中最富有挑戰(zhàn)性的任務(wù)之一。

在圖像標記中將圖像標記成對象（前景）與背景部分，已有研究工作表明，CRF常常被用于圖像標記任務(wù)。在圖像的標記任務(wù)中，圖像的局部約束關(guān)系一般表示表觀特征的局部一致性（相鄰的區(qū)域更可能具有相同標記）。CRF是一個概率圖模型，能夠有效地描述圖像的局部約束關(guān)系，而對要標記對象的全局約束關(guān)系的描述具有局限性。例如，當對象部分區(qū)域邊界模糊時，CRF僅僅利用圖像的局部約束關(guān)系，很可能將表觀特征相似的背景錯標記成對象部分，或者反之。在這種情況下，引入對象的全局約束來補充CRF在對象標記上的局限性。近年的研究表明，受限的玻爾茲曼機（RBM）和它的一些擴展模型，例如深度玻爾茲曼機（DBM）等，常常被用于目標對象的形狀建模，特別是Eslami等人提出的ShapeBM （形狀玻爾茲曼機）在捕捉目標對象的形狀方面有很好的表現(xiàn)，而對象的形狀信息可以作為對象全局約束的一種表示。本文提出了一種CRF結(jié)合ShapeBM的標記模型，有效結(jié)合了CRF模型（增強相鄰節(jié)點之間的局部約束）與ShapeBM模型（獲得目標對象的整體形狀信息作為對象的全局約束）的優(yōu)點，獲得較好的標記效果。這個模型有效地權(quán)衡了以下3個目標。

· 區(qū)域標記結(jié)果應該與圖像的底層特征一致。

· 完整的圖像標記結(jié)果應該符合通過訓練數(shù)據(jù)所學習到的形狀先驗。

· 結(jié)合局部與全局約束使得區(qū)域標記結(jié)果遵守對象邊界。

其中，第一個目標由CRF部分完成，第二個目標通過訓練ShapeBM完成，而第三個目標由CRF與ShapeBM聯(lián)合完成。在Penn-Fudan Pedestrians數(shù)據(jù)集和Caltech-UCSD Birds 200數(shù)據(jù)集上評估了所提出的模型的標記效果，經(jīng)過實驗論證發(fā)現(xiàn)提出的模型比 CRF和ShapeBM等模型效果好。

本文的主要工作總結(jié)如下。

·所提出的模型有效地結(jié)合了CRF和ShapeBM模型，保持了圖像局部約束與對象全局約束的一致性。

·針對聯(lián)合模型求解較難的問題，給出了有效的訓練和推斷算法。

· 聯(lián)合模型在對象標記的結(jié)果上要明顯優(yōu)于基本的CRF模型與ShapeBM模型。

2 相關(guān)工作

Lafferty等人在2001年基于隱馬爾可夫模型和最大熵模型的理論基礎(chǔ)提出了CRF[1]，是一種概率圖模型，最早應用于自然語言處理，近年來已成功應用于圖像分割[2-5]。He等[3]用CRF分割靜態(tài)圖像，通過引入隱隨機變量加入更多的上下文知識以便進行圖像分割。Zhang等[6]將超像素方法引入CRF模型中，通過一種各向異性擴散算法將圖像過分割成超像素區(qū)域，然后將區(qū)域作為CRF圖模型中的節(jié)點，通過參數(shù)估計獲得給定測試圖像的最優(yōu)標記。上述方法均只利用圖像局部約束信息，缺乏標記對象的全局約束信息，導致對象邊界模糊的情況，分割效果不理想。針對上述情況，引入對象全局約束信息來補充CRF的局限很有必要。對象的形狀約束信息可以作為對象全局約束信息的一種表現(xiàn)形式，最近很多文獻都采用了RBM[7]或者其擴展模型來獲取對象的形狀約束信息。Salakhutdinov等[8]在RBM的基礎(chǔ)上提出DBM，是一個多層的RBM模型，通過多層的RBM進行特征提取獲得目標對象的高層語義特征如形狀、姿態(tài)等。Eslami等[9]提出了ShapeBM，是一個兩層的DBM，第一層將輸入單元分成4部分，每一部分與其相對應的部分隱單元連接，而第二層與RBM相同采用全連接，ShapeBM在對象形狀建模上取得較好效果。近年來有許多方法也在圖像的局部約束和對象的全局約束相結(jié)合上做了很多工作。Kae等[10,11]提出通過RBM模型學習人臉形狀先驗特征作為對象全局約束，并借助于CRF分割框架能夠融入其他分割線索的特性，將所學到的形狀先驗融入CRF分割框架中，獲得較好的分割與標記效果。Chen等[12]通過ShapeBM學到的對象形狀先驗結(jié)合到 Cremers等[13]提出的變分分割模型中，通過求其能量函數(shù)最小達到分割的效果。

聯(lián)合模型同樣根據(jù)CRF分割框架能夠融入多種分割線索的特性，通過ShapeBM學習對象的形狀先驗，并以能量項的形式融入CRF分割框架中，通過有效訓練和推斷算法，得到最終標記結(jié)果。所提出的模型盡管與上述介紹的局部與全局約束相結(jié)合的方法相似，但是聯(lián)合模型與它們有一些區(qū)別。首次提出CRF與ShapeBM結(jié)合的聯(lián)合標記模型，該聯(lián)合模型采用超像素標簽代替像素標簽，有效地利用了超像素邊界通常與真實對象邊界一致的特性，提高了聯(lián)合模型的分割效果并且降低了聯(lián)合模型計算的復雜性，并且通過pooling技術(shù)解決了圖像的超像素個數(shù)與ShapeBM輸入節(jié)點不對應問題，使得CRF與 ShapeBM有效結(jié)合并保持了圖像局部約束與對象全局約束的一致性。

3 模型建立

提出CRF與ShapeBM結(jié)合的聯(lián)合模型，該模型有效地結(jié)合了圖像局部約束與對象全局約束，其中用CRF描述圖像的局部約束，用ShapeBM描述對象形狀作為對象的全局約束，首先分別介紹基本CRF模型、ShapeBM模型，在此基礎(chǔ)上詳述提出的CRF與ShapeBM相結(jié)合的聯(lián)合模型。

使用如下定義。

·S（I）表示圖像I的超像素個數(shù)。

·V（I）={1,…,S(I)}表示第 I幅圖像的超像素節(jié)點的

集合。

·ε（I）={（i，j），i，j∈V（I）}表示相鄰超像素節(jié)點組成的邊

的集合。

·V（I）={XV（I），Xε（I）}表示節(jié)點特征與邊特征的集合，其中XV（I）表示節(jié)點特征的集合即{xsnode∈RDn，S∈V}，Dn表示節(jié)點特征的維度。Xε（I）表示相鄰節(jié)點連接邊的邊特征集合即{xijedge∈RDe，（i，j）∈ε}，De表示邊特征的維度。

·Y（I）={ys∈{0,1}L，S∈V表示圖像超像素節(jié)點標簽的集合，其中 L表示類標簽數(shù)，本文的實驗中 L為 2，ys中 0表示背景，1表示對象（前景）。即本文中的聯(lián)合模型完成圖像前景背景二類標記問題。

3.1CRF

CRF是一個強大的判別型模型，并在文本分析、圖像分割[2-4,14]等領(lǐng)域有廣泛應用。CRF的條件分布與其能量函數(shù)定義如下：

其中，Enode（Y，XV）表示CRF中的一階勢，表示超像素屬于對象或?qū)儆诒尘暗乃迫弧edge（Y，Xε）表示二階勢，主要決定了兩個超像素之間是如何相互作用的，體現(xiàn)對象的局部約束，主要作用是去除鋸齒、平滑邊界。通過求解訓練集 V（I）={Y（I），X（I）}Ii=1的最大條件似然概率來訓練其模型參數(shù)：

對于該條件似然概率可以通過 LBP （loopy belief propagation）[15]或者結(jié)合了標準優(yōu)化算法 LBFGS[16]的平均場估計[17]（mean-field approximation）計算。

3.2ShapeBM

針對對象形狀信息的獲取，近些年RBM及其擴展模型在這方面應用較多，本文所采用的模型是RBM的一種擴展模型ShapeBM，已有文獻證明它相對于RBM能夠更加有效地提取對象整體形狀信息。RBM可以被視為一個無向圖，具有一個可見層、一個隱藏層，其層間全連接層內(nèi)無連接，結(jié)構(gòu)如圖1（a）所示。ShapeBM是一個3層模型，具有一個可見層和兩個隱層，ShapeBM具體結(jié)構(gòu)如圖1（b,c）所示，由圖1（c）可以看出，ShapeBM的可見層與第一層隱層相比RBM有些變化，主要是可見層分成了4部分區(qū)域，并且每部分區(qū)域之間有部分重疊，區(qū)域重疊使得ShapeBM能夠更好地訓練對象邊界的連續(xù)性。另外，可見層中每部分可見單元與其相對應的部分隱層單元的連接權(quán)值共享（如圖1（c）中陰影部分可見單元與陰影部分隱層單元的連接權(quán)值可以共享作為其他顏色部分的連接權(quán)）。但其可見單元偏置不共享。權(quán)值共享使得ShapeBM第一層的參數(shù)相對于全連接方式要縮小16倍，即ShapeBM對訓練集數(shù)量要求變小。ShapeBM兩個隱層的隱單元間的連接方式與RBM相同，采用全連接。

ShapeBM能通過圖模型的多層結(jié)構(gòu)對對象的整體形狀信息進行提取，使其最高層隱單元含有一些形狀信息，通過實驗結(jié)果驗證了這一點。在Penn-Fudan Pedestrians數(shù)據(jù)集和Caltech-UCSD Birds 200數(shù)據(jù)集上通過一定數(shù)量的訓練集訓練，得到了ShapeBM最高層隱單元所含有的形狀信息，并通過重構(gòu)得出可視化的結(jié)果，圖2列舉出部分代表性重構(gòu)結(jié)果。由其結(jié)果可以看出，ShapeBM能夠得到對象的整體形狀，但可能會丟失一些細節(jié)，這也表明，能夠?qū)ν活悓ο蟮男螤钸M行抽象描述。由此可見，ShapeBM能夠抽象出對象形狀作為對象全局約束融合到聯(lián)合標記模型中。

圖1 ShapeBM結(jié)構(gòu)

圖2 部分代表性重構(gòu)結(jié)果

在本文中，假設(shè)ShapeBM有R2個可見單元yr∈{0，1}L，第一層隱層h1有K個隱單元，第二層隱層h2有M個隱單元。它們的聯(lián)合分布可以有如下定義：

其中，W1∈RR2×L×K是可見單元與第一層隱單元之間的連接權(quán)重，W2∈Rk×M表示第一層隱層h1與第二層隱層h2之間的連接權(quán)重。bk表示第一層隱節(jié)點的偏置值，arl表示可見節(jié)點的偏置值，cm表示第二層隱節(jié)點的偏置值。訓練ShapeBM分為兩步，首先采用DBM分層貪婪預訓練的方式去預訓練ShapeBM的每一層，預訓練第一個RBM時其連接方式要遵守ShapeBM的連接方式，通過預訓練的方式得到初始化參數(shù)θ={W1，W2，a，b，c}。將得到的初始化參數(shù)θ={W1，W2，a，b，c}作為 ShapeBM的初始參數(shù)，然后采用隨機梯度下降（stochastic gradient descent）法最大化如下對數(shù)函數(shù)來微調(diào)參數(shù)θ：

由于參數(shù)的梯度不易直接求解，采用平均場估計（mean-field approximation）來近似計算。

3.3 聯(lián)合模型

在圖像標記中，表觀特征的局部一致性（相鄰的區(qū)域更可能具有相同標記）和全局一致性約束（對象的整體形狀）都很重要。一方面，CRF在通過二階勢（邊勢能）建模局部一致性方面具有優(yōu)勢；另一方面，ShapeBM能通過隱層單元描述對象全局形狀結(jié)構(gòu)。本文從兩者優(yōu)點出發(fā)，采用有效的方式融合了CRF與ShapeBM得到聯(lián)合標記模型，使其既有局部約束又有全局約束即對象形狀信息。

3.3.1 基于超像素的CRF與ShapeBM結(jié)合方式

聯(lián)合模型中CRF與ShapeBM的結(jié)合是基于超像素的，基于超像素的結(jié)合有以下兩點好處：一，超像素的邊界通常為真實對象邊界，提高了聯(lián)合模型的分割效果；二，采用超像素代替像素，降低了計算的復雜性。然而，采用超像素也給CRF與ShapeBM的結(jié)合帶來一定困難。由于不同圖像的超像素個數(shù)不固定，而ShapeBM要求輸入層的可見層節(jié)點數(shù)量是固定的，這造成超像素個數(shù)與ShapeBM的輸入節(jié)點不對應，因此不能簡單地將超像素標簽層作為ShapeBM的輸入與其隱節(jié)點直接相連，需要對其進行處理。為了建立超像素標簽層與ShapeBM隱節(jié)點之間的連接，在超像素標簽層與ShapeBM隱層之間引入一個固定大小的虛擬標簽層，將每個超像素標簽節(jié)點通過pooling方式映射到R×R個虛擬標簽層節(jié)點，每個虛擬可見節(jié)點都是一個小方格，如圖3所示，上面3層是ShapeBM部分，包括虛擬可見節(jié)點層以及兩層隱藏節(jié)點層。下兩層是CRF部分，包括特征層以及超像素標簽層。其中P(i)rs1表示pooling中的映射概率用r來表示一個虛擬節(jié)點的標簽。重新定義ShapeBM的能量函數(shù)，其函數(shù)定義如下：

圖3 聯(lián)合模型

其中，Region(s)和Region(r)表示對應超像素s覆蓋區(qū)域和標簽層第r個節(jié)點在超像素層投影覆蓋的區(qū)域。

另外，CRF部分采用的是基本 CRF的一個變形叫做空間條件隨機場（SCRF）[10]，它利用了對象空間分布的特征，將對象的空間依賴關(guān)系引入CRF。例如，在空間上人體的頭部在軀干的上方，而軀干在腿部的上方。具體做法將圖像規(guī)則成 N×N的虛擬小格（注意這里的虛擬小格的大小與上文 ShapeBM虛擬輸入中的 R×R的虛擬小格不同），這時一個超像素可能跨越多個虛擬小格，這樣每個超像素落在不同小格的部分都能夠?qū)W習到不同的節(jié)點特征權(quán)重。本文定義SCRF的一階勢函數(shù)如下：

其中，Nsd表示第 S個超像素的節(jié)點特征，αnld為每個超像素落在不同虛擬方格部分的節(jié)點權(quán)重，Psn表示每個超像素由哪幾個虛擬小方格組成psn求解類似于上文prs采用面積比，區(qū)別在于psn表示每個小方格在一個超像素中的面積占比。

SCRF二階勢函數(shù)定義如下：

其中，xije表示邊特征，用來衡量相鄰超像素之間的相似度。βll′e為相鄰超像素間邊特征的對應權(quán)重。

有了SCRF和ShapeBM的具體形式，而本文聯(lián)合模型是在超像素的基礎(chǔ)上結(jié)合SCRF與ShapeBM模型。因此，可以得到聯(lián)合模型的具體形式。具體地，在給定的超像素特征X下，超像素標簽集Y的條件分布以及能量函數(shù)定義如下：

從上述定義可以看出，聯(lián)合模型的結(jié)合在形式上僅僅是結(jié)合了SCRF和ShapeBM的能量函數(shù)。但是，實際上，本文提出的基于超像素的pooling方式在SCRF和ShapeBM的結(jié)合上起著至關(guān)重要的作用。

3.3.2 聯(lián)合模型的訓練與推斷

關(guān)于聯(lián)合模型的訓練，原則上，可以直接通過最大化條件似然概率來一起訓練模型的參數(shù){W1，W2，a，b，c，α，β}。但是實際上，會通過單獨預訓練SCRF和ShapeBM來提供一組參數(shù)作為聯(lián)合模型的初始參數(shù)，然后采用隨機梯度下降法（stochastic gradient descent）最大化聯(lián)合模型對數(shù)似然函數(shù)來調(diào)整參數(shù){W1，W2，a，b，c，α，β}。模型的整個訓練步驟見算法1。在算法1的步驟3采用隨機梯度下降法最大化條件似然過程中，由于參數(shù)的梯度不易直接求解，本文采用CD-PercLoss[18]方法來近似估計參數(shù)梯度，而在CD-PercLoss算法反向計算過程中所推斷出的超像素標簽不僅僅與ShapeBM的隱節(jié)點有關(guān)，還與CRF有關(guān)，因此超像素的標簽和隱節(jié)點的聯(lián)合推斷是必需的。本文采用平均場估計的方法來解決該聯(lián)合推斷問題。具體地，發(fā)現(xiàn)分布其中能夠使達到最小。即可以通過平均場估計的方法循環(huán)迭代更新 μsl和 γm來使模型的能量達到最小，從而獲得較優(yōu)的標記結(jié)果。平均場具體推斷步驟見算法2。

算法1 訓練聯(lián)合模型

（1）通過最大化空間CRF模型（SCRF）的條件似然來預訓練參數(shù){α，β}（見式（1）、式（2）、式（9）和式（10））。

（3）通過最大化聯(lián)合模型的條件似然來訓練參數(shù){W1，W2，a，b，c，α，β}（見式（11））。

算法2 平均場推論

（1）初始化μ（0）和γ（0），

（2）for t=0:maxiter（或者直到收斂）do更新 μ（t+1），

更新 γ（t+1），

4 實驗與分析

4.1 數(shù)據(jù)集

本文在 Penn-Fudan Pedestrians數(shù)據(jù)集[19]和 Caltech-UCSD Birds 200數(shù)據(jù)集[20]上評估了所提出的聯(lián)合模型的標記效果。Penn-Fudan Pedestrians數(shù)據(jù)集共有170張圖像，每張圖像包含至少一個行人，每個被標記的行人都有g(shù)round-truth。根據(jù)Penn-Fudan Pedestrians數(shù)據(jù)集的行人檢測框標記信息提取出行人檢測框部分的圖像，得到423張單個行人圖像并將圖像大小統(tǒng)一為128 dpi×256 dpi像素。為了增加訓練和測試樣本，對Penn-Fudan Pedestrians數(shù)據(jù)集提取的 423張行人圖像進行鏡像對稱復制形成846張圖像的數(shù)據(jù)集，其中500張圖像作為訓練集，346張圖像作為測試集。

Caltech-UCSD Birds 200數(shù)據(jù)集包含 200類鳥類的6 033張圖像，圖像擁有粗糙的分割掩膜，因為其掩膜精確度不夠，Yang等人[21]手動標記出該數(shù)據(jù)集中圖像的準確掩膜，采用Yang等人手動標記的準確掩膜作為該數(shù)據(jù)集標準結(jié)果。另外本文根據(jù)數(shù)據(jù)集提供的檢測框標記對6 033張圖像分別提取出其中檢測框部分的圖像并將圖像大小統(tǒng)一為128 dpi×128 dpi像素。其中3 033張圖像作為訓練圖像，3 000張圖像作為測試圖像。

4.2 仿真與分析

本文對兩個數(shù)據(jù)集中的每張圖像都采用SLIC[22]方法進行超像素分割（如圖4所示），并基于標準分割掩膜對每個超像素進行了標記作為 ground-truth。圖 4（a）是Penn-Fudan Pedestrians數(shù)據(jù)集和 Caltech-UCSD Birds 200數(shù)據(jù)集中根據(jù)標記信息提取的單張圖像，圖4（b）是通過SLIC方法分割獲得的超像素圖片，圖4（c）為ground truth。

圖4 超像素分割

對每個超像素使用如下的節(jié)點特征。

·顏色：在LAB空間中采用K-means產(chǎn)生的64位歸一化顏色直方圖。

·紋理：采用參考文獻[23]產(chǎn)生的64位歸一化紋理直方圖。

·位置：每張圖像規(guī)則成8 dpi×8 dpi的方格，超像素落在每個方格的概率直方圖。相鄰超像素之間采用如下的邊特征。

· 采用參考文獻[24]邊界的PB值之和。

· 平均顏色直方圖之間的歐式距離。

· 采用參考文獻[25]計算紋理直方圖之間的卡方距離。

評估模型的標記能力時采用了4種不同的模型：標準的CRF、SCRF、ShapeBM以及本文聯(lián)合模型。本文在CPU為Intel Xeon E5-2650 2.60 GHz，內(nèi)存為128 GB的計算機上進行實驗。

本文正確率的衡量標準如下：

式（13）主要表示標記正確的超像素個數(shù)和總的超像素個數(shù)的比例。其中Yi表示第i張測試圖像的超像素標記結(jié)果，OR為異或操作，GT（i）為第張測試圖像超像素標記的ground-truth，I表示測試圖像的數(shù)量。

針對Penn-Fudan Pedestrians數(shù)據(jù)集，經(jīng)過多次實驗證明，本文設(shè)置參數(shù)K=500，M=200，R=30，N=23具有較優(yōu)的效果。通過10次交叉實驗，每次實驗的500張訓練圖像和346張測試圖像都不完全相同，通過式（13）得到每次實驗的準確率并通過平均得到本文最終實驗準確率87.90%。在相同實驗情況下，相對于標準CRF，SCRF、ShapeBM在超像素標記上準確率都有提高，具體對比結(jié)果見表1。表1中的錯誤率減少的比例表示模型相較于標準的CRF錯誤率減少程度。還給出了Penn-Fudan Pedestrians數(shù)據(jù)集中具有代表性的部分可視化分割結(jié)果，如圖5所示。圖5（a）表示聯(lián)合模型相較于其他模型分割效果較好的部分對比結(jié)果，圖5（b）表示聯(lián)合模型分割效果不理想的部分對比結(jié)果，其中第一列為原圖，第二列為CRF模型分割結(jié)果，第三列為SCRF模型分割結(jié)果，第四列為本文聯(lián)合模型分割結(jié)果，第五列為ground-truth。聯(lián)合模型結(jié)合了對象的整體形狀先驗，所以相對于其他的兩個未增加對象整體形狀信息的模型，聯(lián)合模型能夠調(diào)整明顯違背對象形狀信息的錯誤標記，如圖5（a）中第1行，行人兩腿中間有一塊錯誤標記，該錯誤標記明顯違背了對象形狀信息，聯(lián)合模型通過形狀信息將該部分錯誤標記調(diào)整過來。另外，如圖5（a）中第2行，行人的臉部和行人的手臂處都有一部分缺少，而聯(lián)合模型能夠通過形狀信息將其填充完整。然而，聯(lián)合模型有時在部分樣本上分割效果不理想，如圖5（b）中第2行，由于圖片分辨率較低以及光照影響較強，聯(lián)合模型在處理光照變化存在一定局限性，所以導致圖像分割失敗，但是其他模型在這種情況下分割效果也不理想。如圖5（b）中第5行，圖像中人體對象的腿部部分，聯(lián)合模型將背景中的腿部部分錯誤估計為人體對象形狀的一部分造成錯誤分割。

針對Caltech-UCSD Birds 200數(shù)據(jù)集，經(jīng)過多次實驗證明，設(shè)置參數(shù)K=400，M=100，R=32，N=21具有較優(yōu)的效果。通過10次交叉實驗，每次實驗的3 033張訓練圖像和3 000張測試圖像都不完全相同，通過式（13）得到每次實驗的準確率并通過平均得到本文最終實驗準確率83.34%。在相同實驗情況下，相對于標準CRF，SCRF、ShapeBM在超像素標記上準備率對比結(jié)果見表2，可以看出聯(lián)合模型準確率為83.34%相對于其他方法有提高。理論上，該數(shù)據(jù)集上聯(lián)合模型正確率提高的程度應該比Penn-Fudan Pedestrians數(shù)據(jù)集上高，因為該數(shù)據(jù)集的訓練樣本多，訓練效果應該更好。但是實際上，從具體數(shù)據(jù)看，在該數(shù)據(jù)集上聯(lián)合模型正確率提高的程度相對于Penn-Fudan Pedestrians數(shù)據(jù)集提高的程度反而較低，主要因為該數(shù)據(jù)集中包含了200類鳥類圖片，各類鳥類的形狀差異較大。而本文是直接將3 033張多類鳥類的圖像統(tǒng)一作為訓練集，使得訓練集中鳥類形狀多樣化，所以聯(lián)合模型訓練出的結(jié)果并不理想。后期可以考慮將形狀近似的鳥類作為訓練集，訓練出一個較好的結(jié)果。關(guān)于Caltech-UCSD Birds 200數(shù)據(jù)集的具有代表性的部分可視化分割結(jié)果如圖6所示。

表1 本文方法與其他方法在Penn-Fudan Pedestrians數(shù)據(jù)集上標記準確率對比

表2 本文方法與其他方法在Caltech-UCSD Birds 200數(shù)據(jù)集上標記準確率對比

圖5 Penn-Fudan Pedestrians數(shù)據(jù)集上的部分分割結(jié)果

圖6 Caltech-UCSD Birds 200數(shù)據(jù)集上的部分分割結(jié)果

對聯(lián)合模型的算法復雜度進行分析。CRF模型使用LBP算法預測一副圖像標簽的時間復雜度是O（ELC）[28],E為圖模型中邊的數(shù)量，邊數(shù)與超像素個數(shù)S直接關(guān)聯(lián)，使用Ncut算法估算E為4×S，C為超像素塊的大小，即CRF算法復雜度為ShapeBM模型算法復雜度分為正向?qū)W習階段時間復雜度和反向?qū)W習階段時間復雜度，其中正向?qū)W習的時間復雜度為O（N×h1×h2×n），反向?qū)W習的時間復雜度為 O（N×h1×h2×kCD1×kCD2），則ShapeBM算法復雜度為O（N×h1×h2×（kCD1+kCD2+n）），其中N表示ShapeBM虛擬輸入節(jié)點個數(shù)，h1表示第一層隱層節(jié)點個數(shù)，h2表示第二層隱層節(jié)點個數(shù)，kCD1、kCD2表示對比散度算法迭代次數(shù)，n表示迭代次數(shù)。因為聯(lián)合模型的能量函數(shù)是SCRF與ShapeBM的能量函數(shù)的疊加，即SCRF與ShapeBM能量函數(shù)為線性關(guān)系，故聯(lián)合模型的整體復雜度為即聯(lián)合模型在標記準確率提高的情況下，整體復雜度并沒有更復雜。

5 結(jié)束語

本文提出了一種結(jié)合CRF與ShapeBM的新標記模型，將ShapeBM與CRF的結(jié)合建立在超像素基礎(chǔ)上，通過pooling技術(shù)克服圖像超像素個數(shù)與ShapeBM輸入不對應問題，使得該模型有效地結(jié)合了CRF模型（增強相鄰節(jié)點之間的局部約束）與ShapeBM模型（獲得目標對象的整體形狀信息作為對象的全局約束）的優(yōu)點。在與其他方法的對比實驗中驗證了本文模型在標記準確性方面的優(yōu)勢。在未來的工作中，可以將本文的二類標記應用到多類標記中，可以做人體對象的部件檢測、場景分析。另外，可以在該模型中加入時間勢，在視頻幀之間建立聯(lián)系，后期可將該模型擴展到視頻對象分割上。

[1]LAFFERTY J,MCCALLUM A,PEREIRAF C,etal. Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//ICML,June 28-July 1,2001, Williams College,UK.New Jersey:IEEE Press,2001.

[2]BORENSTEIN E,SHARON E,ULLMAN S,et al.Combining top-down and bottom-up segmentation [C]//Conference on Computer Vision and Pattern Recognition,June 27-July 2, 2004,Washington,DC,USA.New Jersey:IEEE Press,2004.

[3]HE X,ZEMEL R S,CARREIRAPERPINAN M A,et al. Multi-scale conditional random fields for image labeling[C]// Conference on Computer Vision and Pattern Recognition,June 27-July 2,2004,Washington,DC,USA.New Jersey:IEEE Press, 2004.

[4]HE X,ZEMEL R S,RAY D,et al.Learning and incorporating top-down cues in image segmentation[C]//European Conference on Computer Vision,May 7-13,2006,Graz,Austria.New Jersey:IEEE Press,2006:338-351.

[5]SHOTTON J,WINN J,ROTHER C,et al.Texton boost for image understanding: multi-class object recognition and segmentation by jointly modeling texture,layout,and context[J]. International Journal of Computer Vision,2009,81(1):2-23.

[6]ZHANG L.A unified probabilistic graphical model and its application to image segmentation[J].Rensselaer Polytechnic Institute,2009(3).

[7]SMOLENSKY P.Information processing in dynamical systems: foundations of harmony theory[M].Cambride:MIT Press,1986(1): 194-281.

[8]SALAKHUTDINOV R,HINTON G E.Deep Boltzmann machines[J].Journal of Machine Learning Research,2009,5(2): 1967-2006.

[9]ESLAMI S M,HEESS N,WILLIAMS C K,et al.The shape Boltzmann machine:a strong modelofobjectshape[J]. International Journal of Computer Vision,2014,107(2):155-176.

[10]KAE A,SOHN K,LEE H,et al.Augmenting CRFs with Boltzmann machine shape priors forimage labeling[C]// Conference on Computer Vision and Pattern Recognition,June 23-28,2013,Portland,Oregon,USA.New Jersey:IEEE Press, 2013.

[11]KAE A,MARLIN B M,LEARNEDMILLER E G,et al.The shape-timerandom field forsemantic video labeling[C]// Conference on Computer Vision and Pattern Recognition,June 23-28,2014,Columbus,OH,USA.New Jersey:IEEE Press, 2014.

[12]CHEN F,YU H,HU R,et al.Deep learning shape priors for object segmentation[C]//Conference on Computer Vision and Pattern Recognition,June 23-28,2013,Portland,Oregon,USA. New Jersey:IEEE Press,2013.

[13]CREMERS D,SCHMIDT F R,BARTHEL F,et al.Shape priors in variational image segmentation: Convexity, Lipschitz continuity and globally optimal solutions[C]//Conference on Computer Vision and Pattern Recognition,June 24-26,2008, Anchorage,Alaska,USA.New Jersey:IEEE Press,2008.

[14]ARBELAEZP,HARIHARAN B,GU C,etal.Semantic segmentation using regions and parts [C]//Conference on Computer Vision and Pattern Recognition,June 16-21,2012, Providence,RI,USA.New Jersey:IEEE Press,2012.

[15]MURPHY K,WEISS Y,JORDAN M I,et al.Loopy beliefpropagation for approximate inference:an empirical study[C]// 15th Conference on Uncertainty in Artificial Intelligence,July 30-August 1,1999,Stockholm,Sweden．New Jersey:IEEE Press,1999．

[16]SCHMIDT M． minFunc: unconstrained differentiable multivariate optimization in Matlab[EB/OL]．[2016-07-10]．http://www．di．ens．fr/～mschmidt/Software/minFunc．html．

[17]SAUL L K,JAAKKOLA T S,JORDAN M I,et al．Mean field theory for sigmoid belief networks[J]．Journal of Artificial Intelligence Research,1996(13)．

[18]MNIH V,LAROCHELLE H,HINTON G E,et al．Conditional restricted Boltzmann machines for structured output prediction[C]// Conference on Uncertainty in Artificial Intelligence,Aug 15-17, 2012,Catalina Island,USA．New Jersey:IEEE Press, 2012．

[19]WANG L,SHI J,SONG G,et al．Object detection combining recognition and segmentation[C]//Asian Conference on Computer Vision,November 18-22,2007,Tokyo,Japan．New Jersey: IEEE Press,2007．

[20]WELINDER P,BRANSON S,MITA T,et al．Caltech-UCSD Birds 200[J]．California Institute of Technology,2010．

[21]YANG J,SAFAR S,YANG M H．Max-margin Boltzmann machines for object segmentation [C]//IEEE Conference on Computer Vision and Pattern Recognition,June 23-28,2014, Columbus,OH,USA．New Jersey:IEEE Press,2014．

[22]ACHANTA R P,SHAJIA,SMITH K M,etal．SLIC superpixels compared to state-of-the-art superpixelmethods[J]．IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2274-2282．

[23]MALIK J,BELONGIE S,SHI J,et al．Textons,contours and regions:cue integration in image segmentation[C]//ICCV, September 20-25,1999,Kerkyra,Corfu,Greece．New Jersey: IEEE Press,1999．

[24]MARTIN D R,FOWLKES C C,MALIK J,et al．Learning to detect natural image boundaries using brightness and texture[C]// Conference on Neural Information Processing Systems, December 8-13,2003,Providence,USA．New Jersey:IEEE Press,2003．

[25]HUANG G B,NARAYANA M,LEARNEDMILLER E G,et al．Towardsunconstrained face recognition [C]//Conference on Computer Vision and Pattern Recognition,June 24-26,2008, Anchorage,Alaska,USA．New Jersey:IEEE Press,2008．

[26]COHN T．Efficientinferencein largeconditionalrandom Fields[M]．Berlin:Springer,2006:606-613．

CRF combined with ShapeBM shape priors for image labeling

WANG Hao,GUO Lijun,WANG Yadong,ZHANG Rong
School of Electrical Engineering and Computer Science,Ningbo University,Ningbo 315211,China

Conditional random field(CRF)is a powerful model for image labeling,it is particularly well-suited to model local interactions among adjacent regions (e.g.superpixels).However,CRF doesn’t consider the global constraint of objects.The overall shape of the object is used as a global constraint,the ShapeBM can be taken advantage of modeling the global shape of object,and then a new labeling model that combined the above two types of models was presented.The combination of CRF and ShapeBM was based on the superpixels,through the pooling technology was wed to establish the corresponding relationship between the CRF superpixel layer and the ShapeBM input layer.It enhanced the effectiveness of the combination of CRF and ShapeBM and improved the accuracy of the labeling.The experiments on the Penn-Fudan Pedestrians dataset and Caltech-UCSD Birds 200 dataset demonstrate that the model is more effective and efficient than others.

CRF,ShapeBM,join model,superpixels,image labeling

TP391

10.11959/j.issn.1000-0801.2017004

王浩（1992-），男，寧波大學信息科學與工程學院碩士生，主要研究方向為計算機視覺與模式識別。

郭立君（1970-），男，博士，寧波大學教授，主要研究方向為計算機視覺與模式識別、移動互聯(lián)網(wǎng)及其應用。

王亞東（1990-），男，寧波大學信息科學與工程學院碩士生，主要研究方向為計算機視覺與模式識別。

張榮（1974-），女，博士，寧波大學副教授，主要研究方向為計算機視覺與信息安全。

2016-07-24；

2016-09-30

郭立君，guolijun@nbu.edu.cn

國家自然科學基金資助項目（No.61175026）；浙江省自然科學基金資助項目（No.LY17F030002）；寧波市自然科學基金資助項目（No.2014A610031）；浙江省“信息與通信工程”重中之重學科開放基金資助項目（No.xkxl1516,No.xkxl1521）

Foundation Items：The National Natural Science Foundation of China(No.61175026),Zhejiang Provincial Natural Science Foundation of China(No.LY17F030002),Ningbo Municipal Natural Science Foundation(No.2014A610031),Open Research Fund of Zhejiang First-Foremost Key Subject-Information and Communications Engineering of China(No.xkxl1516,No.xkxl1521)

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

結(jié)合CRF與ShapeBM形狀先驗的圖像標記

1 引言

2 相關(guān)工作

3 模型建立

4 實驗與分析

5 結(jié)束語