冀?中,趙可心,張鎖平,李明兵
?
基于空間變換雙線性網(wǎng)絡的細粒度魚類圖像分類
冀?中1,趙可心1,張鎖平2,李明兵2
(1. 天津大學電氣自動化與信息工程學院,天津 300072;2. 國家海洋技術中心,天津 300072)
有效地識別水下各種魚類目標具有重要的實際意義和理論價值.魚類生存環(huán)境復雜,由于海洋的極端條件,水下魚類圖像的分辨率低,且圖像類間相似度高、類內(nèi)差異性大,并受光照、角度、姿態(tài)等的影響較大,這些因素使得魚類識別成為一項具有挑戰(zhàn)的任務.針對這些難點,提出了一個能夠有效進行細粒度魚類圖像分類的深度學習模型.該模型包含空間變換網(wǎng)絡和雙線性網(wǎng)絡兩部分,首先利用空間變換網(wǎng)絡作為注意力機制,去除圖像背景中復雜的干擾信息,選擇圖像中感興趣的目標區(qū)域,簡化后續(xù)分類;雙線性網(wǎng)絡通過融合兩個深度網(wǎng)絡的特征圖提取圖像的雙線性特征,使得對目標中具有判別性的特定位置有較強的響應,從而識別種類,該模型可以進行端到端的訓練.在公開的F4K數(shù)據(jù)集上,該模型取得了最好的性能,識別正確率為99.36%,較現(xiàn)有最好算法DeepFish提高0.56%,此外,發(fā)布了一個包含100類共6358張圖片的新的魚類圖像數(shù)據(jù)集Fish100,該模型在Fish100數(shù)據(jù)集上的識別正確率高出BCNN算法0.98%.多個數(shù)據(jù)集上的實驗驗證了模型的有效性與先進性.
魚類分類;細粒度分類;空間變換;雙線性網(wǎng)絡
近年來,隨著水下觀測事業(yè)的迅速發(fā)展,水下圖像視頻激增,水下目標識別的需求也日益劇增.魚類識別是其中的重要任務之一,它可幫助海洋科學家和生物學家等研究人員進行相關研究,科學家通過魚類自動識別可獲得某些特定魚類的分布,統(tǒng)計魚群數(shù)量,進而可以監(jiān)測評估魚類種群以及生態(tài)系統(tǒng),分析海洋環(huán)境的變化以及用于輔助魚類養(yǎng)殖等[1-4].然而目前識別算法主要針對陸上的物體,對水下識別研究還較少.海洋環(huán)境復雜惡劣,圖像分辨率低,魚類圖像的類間相似度高、類內(nèi)差異性大,并受光照、角度、姿態(tài)等的影響,這些因素使得魚類識別極具挑戰(zhàn)性.
傳統(tǒng)方法首先提取圖像特征,然后將特征向量輸入到分類器中進行魚類圖像分類.但是,這些傳統(tǒng)方法的分類精度較低,泛化能力也較弱.卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)的提出推動了計算機視覺領域的發(fā)展,一些相關工作也開始利用CNN進行魚類圖像識別.例如,Ding等[5]設計了3種簡單的不同深度的卷積神經(jīng)網(wǎng)絡結構用于魚類識別,Qin等[6]提出了一個包含卷積層、非線性層、特征池化層、空間金字塔池化層和分類器的深度網(wǎng)絡.然而,這些方法只是應用了基本的深度學習結構,并沒有針對細粒度圖像識別的難點來解決問題,例如對局部細節(jié)特征的學習,因此有效性仍有待提升.
為此,本文提出了一個適用于水下環(huán)境的魚類圖像分類的深度學習模型,稱為空間變換雙線性魚類圖像網(wǎng)絡(spatial transformation bilinear fish net,STB fish-net).該框架包含空間變換網(wǎng)絡和雙線性網(wǎng)絡兩部分.空間變換網(wǎng)絡作為一種注意力機制,可以選擇圖像中有判別性的區(qū)域,去除一部分復雜的背景,以簡化后續(xù)的分類任務.而雙線性網(wǎng)絡采用了基于VGG-16[7]的雙線性模型,通過融合兩個CNN網(wǎng)絡的特征圖,使得CNN濾波器對目標的某個具有判別性的特定位置(如魚身或魚尾)有較強的響應,從而有效識別種類.
本節(jié)將從圖像分類、細粒度圖像分類和魚類圖像分類3個方面由粗到細介紹各種圖像分類方法.
圖像分類是計算機視覺研究中的基本問題,也是圖像檢索、圖像分割、行為分析等其他高層視覺任務的基礎.Wang等[8]提出了一種新的紋理描述符——結構元素描述符(SED),SED可以有效地描述圖像并表示圖像局部特征.此外,SED可以提取和描述顏色和紋理特征.隨后,文獻[9]進一步提出了一種基于紋理的有效彩色圖像檢索方法,該方法利用顏色共生矩陣提取紋理特征,還考慮了諸如分量和分布的顏色信息,所獲得的特征不僅反映紋理相關性而且還表示顏色信息.近年來,Wang等[10]又提出了多因素關聯(lián)(MFC)來描述圖像,結構元素相關性(SEC)、梯度值相關性(GVC)和梯度方向相關性(GDC)3種相關性用于提取圖像特征.為了降低傳統(tǒng)徑向諧波傅里葉矩(RHFM)方法的時間復雜度,文獻[11]引入了一種快速精確的FFT算法,該算法可以有效抵抗常見的圖像處理攻擊.Wang等[12]提出了四元極化諧波傅里葉矩(QPHFM)用于彩色圖像處理,文中實驗結果表明,QPHFM在無噪聲和嘈雜條件下可以實現(xiàn)圖像重建和不變物體識別.傳統(tǒng)方法更側(cè)重于提取圖像的某一種或某幾種特征,例如紋理特征或顏色特征,這適用于圖像檢索領域中圖像相似度的計算,然而不適用于細粒度魚類圖像分類中姿態(tài)多變、類間相似度高的特點.
細粒度圖像識別旨在區(qū)分同一類別下的不同子類,如識別各種鳥類、狗類等,與普通的目標識別相比,細粒度圖像識別更有難度[13-16].早期的方法首先檢測目標和具有判別性的局部,然后再提取特征用于分類.Zhang等[13]使用RCNN加上幾何先驗知識進行局部區(qū)域定位,然后利用姿態(tài)歸一化表示來訓練分類器.隨后,Zhang等[16]又提出一個端到端可訓練的利用全卷積定位局部的模型.該模型包含兩個子網(wǎng)絡,定位網(wǎng)絡用于學習找到圖像中的判別性局部,包含語義池化的分類網(wǎng)絡用于學習細粒度分類器.
因為細粒度圖像局部的標注通常需要相應領域的專家才能完成,所以其標注代價較高.目前大多研究集中于弱監(jiān)督方式,即只需要圖像的類別標簽.例如,Zhang等[17]提出了一個基于兩步來挑選深度過濾器響應的結構.第1步找到顯著且一致地響應特定模式的獨特濾波器,并學習一組局部檢測器.第2步通過費舍爾矢量的空間加權組合來匯集深度濾波器響應,然后將其編碼為最終的特征表示.Lin等[18]提出了一種雙線性網(wǎng)絡(bilinear convolutional neural network,BCNN),其包含兩個獨立的卷積神經(jīng)網(wǎng)絡,通過融合來自兩個深度網(wǎng)絡的特征圖,得到最終的雙線性特征.BCNN使用雙線性模型模擬圖像的位置和外觀兩個變量,該文獻中的可視化實驗證明BCNN對高度定位的局部特征具有強大的激活功能.
傳統(tǒng)的魚類識別研究依賴于手工提取的特征,這些方法是任務驅(qū)動的,泛化能力弱.例如,Strachan等[19]比較了依據(jù)不變矩、不匹配的優(yōu)化和形狀描述符3種不同的識別方法,在一個魚的小型數(shù)據(jù)集上的分類準確率分別為73%、63%和90%.Larsen等[20]基于形狀和紋理對3種魚類進行分類并達到76%的識別率.Huang等[21]提出了一種平衡保證優(yōu)化樹(BGOT)算法來控制層次分類中的誤差累積.他們對包含從水下錄像中收集的10種物種的3179條魚類圖像的數(shù)據(jù)集進行了實驗,得到了95%的準確度.隨后,Huang等[22]進一步使用高斯混合模型(GMM)結合BGOT來改進層次分類中的性能.White等[23]開發(fā)了一款應用用于自動識別魚類并測量魚的長度,通過矩不變方法確定魚的方向.
近幾年,深度學習逐漸應用到魚類圖像識別.例如,Ding等[5]設計了3種不同深度的卷積神經(jīng)網(wǎng)絡用于魚類識別.Qin等[6]提出了一個用于魚類分類的5層深度網(wǎng)絡.然而這些方法很少針對魚類細節(jié)特征進行識別,仍不夠完善.
單一的圖像紋理或顏色特征不能滿足圖像細粒度分類的要求,深度特征更具魯棒性和有效性.本文所提方法加入了可以作為注意力機制的空間變換網(wǎng)絡來選擇感興趣的目標區(qū)域,并對目標進行放大,再運用雙線性網(wǎng)絡進一步定位學習局部具有判別性細節(jié)特征,因此可以適應魚類圖像的角度多樣、姿態(tài)復雜的特點,具有更好的性能.
本節(jié)介紹所提STB fish-net的網(wǎng)絡模型.如圖1所示,STB fish-net由空間變換網(wǎng)絡和雙線性網(wǎng)絡兩部分組成.其中,空間變換網(wǎng)絡[24]作為一種注意力機制用于選擇感興趣的圖像區(qū)域.雙線性網(wǎng)絡提取圖像的基于VGG-16的雙線性特征,融合后的特征對圖像某個具有判別性的局部區(qū)域有高度響應,從而識別該魚類物種.
圖1?所提STB fish-net模型結構示意
空間變換網(wǎng)絡是一種動態(tài)機制,可以通過為每個輸入樣本生成適當?shù)淖儞Q,主動對圖像進行包括縮放、裁剪、旋轉(zhuǎn)以及非剛性變形的空間變換.這允許空間變換網(wǎng)絡選擇最感興趣的圖像區(qū)域,去除一部分復雜的背景,以簡化后續(xù)的分類任務,提高分類性能.空間變換網(wǎng)絡可以通過標準的反向傳播進行訓練,可進行端到端的訓練.本文將空間變換網(wǎng)絡視為一種注意力機制來捕獲目標區(qū)域.
空間變換網(wǎng)絡結構如圖1左側(cè)虛線框內(nèi)所示,由定位網(wǎng)絡、網(wǎng)格生成器和采樣器3部分組成.
2.1.1?定位網(wǎng)絡
2.1.2?網(wǎng)格生成器
(1)
本文的目的是找到輸入圖像中感興趣的區(qū)域,故而使用變換
(2)
2.1.3?采樣器
(3)
雙線性網(wǎng)絡用于提取經(jīng)過空間變換網(wǎng)絡后的圖像的雙線性特征,結構如圖1右側(cè)虛線框內(nèi)所示.雙線性網(wǎng)絡即融合圖像兩種深度特征的網(wǎng)絡結構.所提方法提取圖像基于VGG-16的雙線性特征,首先應用兩個VGG-16網(wǎng)絡提取圖像特征,然后將特征圖進行轉(zhuǎn)置操作與原特征圖做外積得到雙線性特征.
(4)
將圖像上所有位置的特征求和得到整個圖像的特征表示為
(5)
VGG-16是一個經(jīng)典的深度學習網(wǎng)絡,它采用了3×3的卷積核,前面是5段卷積層和池化層的堆疊,后面幾層是全連接層,最后是Softmax分類器.在所提方法中,提取了第5段卷積層之后輸出的特征圖.
雙線性特征允許兩個特征流的輸出通過所有成對的相互作用而相互調(diào)節(jié),其目的是融合兩個網(wǎng)絡,使得在相同位置的通道響應相對應.經(jīng)過空間變換網(wǎng)絡后的圖像只包含目標區(qū)域,如果卷積網(wǎng)絡中的濾波器對某些空間位置(魚身或魚尾)的紋理有響應,并且另一個網(wǎng)絡可以識別該位置,那么它們的組合識別該魚類物種.
(6)
1) F4K(FishForKnowledge)
F4K數(shù)據(jù)集[25]是由F4K項目制作的一個公開數(shù)據(jù)集,該數(shù)據(jù)集是從開放海域捕獲的實況視頻中截取的魚類畫面,包含23種魚類,共27370張圖像.不同種類的圖像數(shù)量差異巨大,數(shù)量最多的一類包含12112張圖像,數(shù)量最少的一類只有16張圖像.圖2是其中6個種類的示例,每一類圖像不僅在姿態(tài)、大小方位上不同,顏色、紋理也有差異.按照文獻[6]中的設置,將該數(shù)據(jù)集5/7設為訓練集,1/7設為驗證集,1/7設為測試集,訓練集中數(shù)量小于300的種類,隨機旋轉(zhuǎn)負-10°~10°之間的度數(shù),重復5次,得到擴充的數(shù)據(jù)集.
文獻[26]只選取了F4K數(shù)據(jù)集中的15類進行實驗,并將3/5設為訓練集,1/5設為驗證集,1/5設為測試集.為了比較,本文按照文獻[26]中的實驗進行設置.
圖2?F4K數(shù)據(jù)集示例
2) Fish100
Fish100數(shù)據(jù)集是由筆者在一個公開數(shù)據(jù)上整理得到,并公開發(fā)布.Image CLEF提供的marine animal species數(shù)據(jù)集中包含了各種海洋生物,因為是從網(wǎng)絡下載的緣故,其中一些圖片分類錯誤,筆者參考專業(yè)書籍,并加入了一些新的類別,重新整理了100類魚類圖像,共6358張,如圖3所示.此數(shù)據(jù)集不同魚類相似度很高,而同一種魚類由于環(huán)境影響或變態(tài)發(fā)育等導致差異很大.由于圖像數(shù)量較少,實驗中只設置了訓練集和測試集,其中將數(shù)據(jù)集的4/5作為訓練集,1/5作為測試集,實驗結果采用5折交叉驗證方式.表1所示為本文實驗用到的3個數(shù)據(jù)集中訓練集、驗證集、測試集的設置.
圖3?Fish100 數(shù)據(jù)集示例
表1?訓練集、驗證集和測試集的設置
Tab.1?Training,validation and test sets
注:F4K(23)表示包含23種魚類的F4K數(shù)據(jù)集;F4K(15)表示包含15種魚類的F4K數(shù)據(jù)集.
圖4?空間變換網(wǎng)絡在F4K數(shù)據(jù)集上的輸入輸出圖像示例
圖5 空間變換網(wǎng)絡在Fish100數(shù)據(jù)集上的輸入輸出圖像示例
實驗中batch size設為16.訓練時,首先用在ImageNet數(shù)據(jù)集上訓練好的參數(shù)初始化VGG-16網(wǎng)絡,學習速率為0.9,動量0.9,用訓練集僅訓練最后一層,迭代1000次,損失收斂后,保存參數(shù),再用訓練集以0.001的學習速率微調(diào)整個網(wǎng)絡,迭代1000次,損失收斂后,在測試集得到最終的性能.實驗結果如表2所示.
表2?實驗結果對比
Tab.2?Comparison of experimental results
選取的對比算法分別是:基于分類回歸樹的方法(CART)[27],基于使用拒絕選項的強制平衡優(yōu)化樹的方法(BEDTR)[26],VGG-16[7],雙線性卷積神經(jīng)網(wǎng)絡(BCNN)[18],以及Qin等[6]提出的包含空間金字塔池化層等的5層深度網(wǎng)絡.其中前2個是傳統(tǒng)方法,后3個是基于深度學習的方法.另外,CART[27]和BEDTR[26]算法只在F4K(15)數(shù)據(jù)集上進行了實驗,DeepFish[6]算法只在F4K(23)上進行了實驗,由于筆者沒有公布代碼,為此本文只將這些對比算法在相應數(shù)據(jù)集上進行了對比.而BCNN[18]和VGG-16[7]在3個數(shù)據(jù)集上均進行了實驗.
從表2可以看出,在3個數(shù)據(jù)集上,所提STB fish-net方法均取得了最好的性能,分別高于性能第2高的算法0.56%、0.12%和0.98%.DeepFish[6]方法是一個包含卷積層、非線性層、特征池化層,空間金字塔池化層和分類器的深度網(wǎng)絡,其沒有針對細粒度圖像識別難點的結構,而所提STB fish-net方法中的空間變換和雙線性特征使得網(wǎng)絡更能夠關注到對分類有重要意義的局部區(qū)域.從表2中還可以看出,BCNN[18]方法優(yōu)于VGG-16[7]方法,準確率在3個數(shù)據(jù)集上分別提高了5%、6%和10%,并且能媲美甚至好于現(xiàn)有的魚類識別算法,說明相比于傳統(tǒng)的深度學習網(wǎng)絡,BCNN更適應于細粒度圖像識別,圖像的雙線性特征對圖像中具有判別性的區(qū)域有較強響應[18].所提STB fish-net方法要優(yōu)于VGG-16[7]和BCNN[18]方法,使得實驗結果進一步提升,說明利用空間變換網(wǎng)絡去除復雜背景有助于提升分類性能.
此外,將不同數(shù)據(jù)集上的實驗結果進行對比發(fā)現(xiàn),在數(shù)據(jù)集F4K(23)和F4K(15)上的結果要明顯好于數(shù)據(jù)集Fish100,原因主要有如下兩點:①圖像類別和數(shù)量存在差異,F(xiàn)4K(23)和F4K(15)分別包含23種和15種魚類,遠少于Fish100的100類;而圖像總數(shù)是27370和24150,要明顯多于Fish100的6358.②相比于另外兩個數(shù)據(jù)集,F(xiàn)ish100類間相似度更高,類內(nèi)差異性更大.因此,F(xiàn)ish00數(shù)據(jù)集的挑戰(zhàn)性要更大.
圖6是在F4K(15)數(shù)據(jù)集上得到的混淆矩陣,水平方向是預測類別,垂直方向是真實類別,各方塊內(nèi)的數(shù)字代表測試集中各種預測結果的數(shù)量,對角線內(nèi)為預測正確的數(shù)量.從圖4中可以看出,許多圖像都被錯誤地分類為Dascyllus,在訓練集中Dascyllus的數(shù)量為12174,遠遠多于其他類別.由此可得,影響實驗結果的主要原因是不同類別之間的數(shù)量不均衡,不同類別之間最大的數(shù)量差距在500倍左右,樣本不均衡使得算法更傾向于把數(shù)據(jù)少的類分到數(shù)據(jù)多的類里,因此,很多種類都被誤判為數(shù)量最多的Dascyllus.在F4K(23)數(shù)據(jù)集上進行的實驗,依照文獻[6]中的設置對數(shù)量少的類別進行數(shù)據(jù)增強,改善樣本不均衡問題.
圖6?在F4K(15)數(shù)據(jù)集上得到的混淆矩陣
本文提出了一個基于空間變換和雙線性卷積神經(jīng)網(wǎng)絡的魚類細粒度識別算法.該方法利用空間變換網(wǎng)絡作為注意力機制,去除圖像背景中復雜的干擾信息,獲取圖像中目標區(qū)域,然后提取目標區(qū)域的雙線性特征用于分類,在不同的魚類數(shù)據(jù)集上驗證了其有效性.此外,所提算法能夠提取細粒度圖像的判別性特征,可應用于圖像檢索、信息融合[28]和顯著性檢測相關領域.
考慮到將水下圖像分辨率低的特點,今后將從提升圖像質(zhì)量方面來改善模型,例如與水下圖像增強或超分辨率算法相結合,增加圖像的細節(jié)特征,進一步提升算法性能.
[1] Lee D J,Schoenberger R B,Shiozawa D,et al. Contour matching for a fish recognition and migration-monitoring system[C]//The International Society for Optics and Photonics. Maspalomas,Spain,2004:37-48.
[2] Ruff B,Marchant J,F(xiàn)rost A. Fish sizing and monitoring using a stereo image analysis system applied to fish farming[J]. Aquacultural Engineering,1995,14(2):155-173.
[3] Spampinato C,Chen-Burger Y,Nadarajan G,et al. Detecting,tracking and counting fish in low quality unconstrained underwater videos[C]//3rd International Conference on Computer Vision Theory and Applications. Funchal,Portugal,2008:514-519.
[4] Spampinato C,Giordano D,Salvo R,et al. Automatic fish classification for underwater species behavior understanding[C]//ACM International Workshop on Analysis Andretrieval of Tracked Events and Motion in Imagery Streams. Firenze,Italy,2010:45-50.
[5] Ding G,Song Y,Guo J,et al. Fish Recognition using convolutional neural network[C]//Oceans Conference. Anchorage,USA,2017:1-4.
[6] Qin H,Li X,Liang J,et al. DeepFish:Accurate underwater live fish recognition with a deep architecture[J]. Neurocomputing,2016,187:49-58.
[7] Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]// https://arxiv. org/abs/1409. 1556, 2015-04-10.
[8] Wang X,Wang Z. A novel method for image retrieval based on structure elements’ descriptor[J]. Journal of Visual Communication and Image Representation,2013,24(1):63-74.
[9] Wang X,Chen Z,Yun J. An effective method for colorimage retrieval based on texture[J]. Computer Standards& Interfaces,2012,34(1):31-35.
[10] Wang X,Wang Z. The method for image retrieval based on multi-factors correlation utilizing block truncation coding[J]. Pattern Recognition,2014,47(10):3293-3303.
[11] Wang C,Wang X,Xia Z. Geometrically invariant imagewatermarking based on fast Radial Harmonic Fourier Moments[J]. Signal Processing:Image Communica-tion,2016,45:10-23.
[12] Wang C,Wang X,Li Y. Quaternion polar harmonic Fourier moments for color images[J]. Information Sciences,2018,450:141-156.
[13] Zhang N,Donahue J,Girshick R,et al. Part-based R-CNNs for fine-grained category detection[C]//European Conference on Computer Vision. Zurich,Switzerland,2014:834-849.
[14] Ji Zhong,Yu Yunlong,Pang Yanwei,et al. Manifold regularized cross-modal embedding for zero-shot learning [J]. Information Sciences,2017,378:48-58.
[15] 冀?中,謝于中,龐彥偉. 基于典型相關分析和距離度量學習的零樣本學習[J]. 天津大學學報:自然科學與工程技術版,2017,50(8):813-820.
Ji Zhong,Xie Yuzhong,Pang Yanwei. Zero-shot learning based on canonical correlation analysis and distance metric learning[J]. Journal of Tianjin University:Science and Technology,2017,50(8):813-820(in Chinese).
[16] Zhang N,Shelhamer E,Gao Y,et al. Fine-grained poseprediction,normalization,and recognition[J]. Computer Science,2015,69(2):207-221.
[17] Zhang H,Xu T,Elhoseiny M,et al. SPDA-CNN:Unifying semantic part detection and abstraction for fine-grained recognition[C]//International Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:1143-1152.
[18] Lin T,RoyChowdhury A,Maji S. Bilinear CNN modelsfor fine-grained visual recognition[C]//International Conference on Computer Vision. Santiago,Chile,2015:1449-1457.
[19] Strachan N,Nesvadba P,Allen A. Fish species recognition by shape analysis of images[J]. Pattern Recognition,1990,23(5):539-544.
[20] Larsen R,Olafsdottir H,Ersb?ll B. Shape and texture based classification of fish species[C]//Scandinavian Conference on Image Analysis. Oslo,Norway,2009:745-749.
[21] Huang P,Boom B,F(xiàn)isher R. Underwater live fish recognition using a balance-guaranteed optimized tree[C]// Asian Conference on Computer Vision. Daejeon,Korea,2013:422-433.
[22] Huang P,Boom B,F(xiàn)isher R. GMM improves the reject option in hierarchical classification for fish recognition[C]//Winter Conference on Applications of Computer Vision. Steamboat Springs,USA,2014:371-376.
[23] White D,Svellingen C,Strachan N. Automated measurement of species and length of fish by computer vision[J]. Fisheries Research,2006,80(2):203-210.
[24] Jaderberg M,Simonyan K,Zisserman A,et al. Spatial transformer networks[C]//Advances in Neural Information Processing Systems. Montreal,Canada,2015:2017-2025.
[25] Boom B,Huang P,He J,et al. Supporting ground-truthannotation of image datasets using clustering[C] //International Conference on Pattern Recognition. Tsukuba,Japan,2012:1542-1545.
[26] Huang P X,Boom B T,F(xiàn)isher R B. Hierarchical classification with reject option for live fish recognition[J]. Machine Vision and Applications,2014,26(1):89-102.
[27] Hastie T,Tibshirani R,F(xiàn)riedman J,et al. The Elements of Statistical Learning[M]. New York:Springer,2009.
[28] Unar S,Wang X,Zhang C. Visual and textual information fusion using Kernel method for content based image retrieval[J]. Information Fusion,2018,44:176-187.
Fine-Grained Fish Image Classification Based on a Bilinear Network with Spatial Transformation
Ji Zhong1,Zhao Kexin1,Zhang Suoping2,Li Mingbing2
(1. School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China; 2. National Ocean Technology Center,Tianjin 300072,China)
Effective classification of various fish species under water has great practical and theoretical significance. Due to the extreme conditions of the ocean,underwater images have very low resolution. Since the living environment is highly complex,fish images have properties of high inter-class similarity,large intra-class variety,and are greatly affected by light,angle,posture etc. These factors make fish classification a challenging task. To cope with these challenges,a deep fine-grained fish imageclassification model is proposed. It consists of a spatial transformer network and a bilinear network. Specifically,the spatial transformer network aims at removing the complex background as an attention mechanism and selecting the region of interest in the image. The bilinear network extracts the bilinear features of the image by fusing the feature maps of two deep networks,so that it responds to the discriminative part of the target. The model can be trained in an end-to-end way. The model achieves its best performance on the public F4K dataset. The recognition accuracy was 99.36%,which was 0.56% higher than the DeepFish algorithm. In addition,a new dataset called Fish100,containing 100 categories of 6358 images,was released. Accuracy of the model is 0.98% higher than that of the bilinear convolutional neural network(BCNN)model. Experiments on several datasets verified the effectiveness and superiority of the proposed algorithm.
fish classification;fine-grained classification;spatial transformation;bilinear network
10.11784/tdxbz201808040
TP37
A
0493-2137(2019)05-0475-08
2018-08-10;
2018-11-04.
冀中(1979— ),男,博士,副教授,jizhong@tju.edu.cn.
張鎖平,iot323@163.com.
國家自然科學基金資助項目(61771329);天津市自然科學基金資助項目(17JCYBJC16300).
the National Natural Science Foundation of China(No. 61771329),the Natural Science Foundation of Tianjin,China (No. 17JCYBJC16300).
(責任編輯:孫立華)