裴凱洋,張勝茂,樊 偉,王 斐,鄒國華,鄭漢豐
(1.中國水產科學研究院東海水產研究所,農業(yè)農村部漁業(yè)遙感重點實驗室,上海 200090;2.上海海洋大學信息學院,上海 201306;3.上海峻鼎漁業(yè)科技有限公司,上海 200090)
魚類行為和游泳能力可以反映其所在水域的生態(tài)環(huán)境狀況[1]。利用高清相機拍攝的魚類視頻可用于分析魚類行為和游泳能力,監(jiān)控生態(tài)系統(tǒng)健康程度和生物多樣性[2]。傳統(tǒng)的魚類行為和游泳能力主要通過人工觀察并記錄,勞動強度大、耗時長、效率低,且需要豐富的專業(yè)知識和經驗儲備,專業(yè)人員培養(yǎng)周期較長且受主觀評判因素影響較大。
目前魚類跟蹤技術已有廣泛應用,通過監(jiān)控不同水深處魚群的狀態(tài),能夠反映魚類分布及物種豐富程度[3];通過將攝像設備定置在珊瑚附近,監(jiān)控珊瑚魚類生長狀況、物種豐富度和活動痕跡,可以直接反映珊瑚礁生態(tài)系統(tǒng)的健康程度[4];通過在水產養(yǎng)殖廠安裝監(jiān)控設備,可以實時獲取魚類生長及健康狀況,動態(tài)管理養(yǎng)殖環(huán)境[5]。
計算機視覺技術可以有效監(jiān)控水下魚類行為。計算機視覺技術可以從自然光或主動光照環(huán)境下拍攝的魚類視頻中獲取魚的種類、數(shù)量、行為及游泳速度等信息,這種方式可以在不干擾魚正?;顒拥那闆r下,獲取更加客觀真實的數(shù)據。非干擾式連續(xù)檢測魚類,可量化魚類有用行為參數(shù),對評價魚類游泳能力、魚群數(shù)量、魚類生長情況和區(qū)域生態(tài)環(huán)境等信息具有重要的生物學和生態(tài)學意義[6]。本文系統(tǒng)綜述了魚類視頻跟蹤技術最新的研究進展,介紹不同方法的技術路線及優(yōu)缺點,指出魚類視頻跟蹤領域的發(fā)展方向。
魚類視頻跟蹤主要分為水下圖像采集、圖像清晰化、魚類跟蹤、軌跡輸出4個部分。水下拍攝的情況復雜,因此在視頻跟蹤目標前需要先對圖像進行清晰化處理,再根據魚類目標所在不同幀的序列位置,確定運動目標所在位置,關聯(lián)獲得魚類運動軌跡[7]。其中,圖像清晰化和魚類跟蹤是流程中最重要的環(huán)節(jié)。
自然條件中拍攝的水下圖像受光線在水中傳播的影響,水下不同波長的光線呈現(xiàn)不同程度的指數(shù)衰減,光線散射導致水下圖像出現(xiàn)模糊、偏色和能見度低等問題[8-9]。水下圖像清晰化領域的研究方向主要分為圖像增強、圖像復原和深度學習。
2.1.1 直方圖拉伸
水下圖像的直方圖分布相對集中,大部分像素的灰度值較大,具有較低對比度和動態(tài)范圍[10]。同態(tài)濾波[11]、多色彩直方圖拉伸[12]均通過直方圖變換實現(xiàn)水下圖像增強。2010年IQBAL等[13]提出顏色修正和選擇性直方圖拉伸的對比度優(yōu)化方法,在此方法之上,GHANI和ISA[14]采用瑞利分布函數(shù)對輸入圖像直方圖進行重新分布。單純的直方圖變換方法可以在一定程度上提升水下圖像的質量,但當拍攝圖像質量較差或環(huán)境較復雜時會引入噪聲。
限制對比度直方圖優(yōu)化算法CLAHE(contrast limited adaptive histogram equalization),可以一定程度上克服引入的噪聲問題?;贑LAHE算法的CLAHE-RGB算法是將CLAHE分別應用于RGB模型的3個組件,組合各個分量獲得全彩色RGB結果,CLAHE-HSV算法是將CLAHE分別應用于色相、飽和度和像素值獲取結果;HITAM等[15]提出混合限制對比度自適應直方圖算法(Mix-CLAHE)能夠提高水下圖像能見度,增強對比度并降低噪聲和偽影,并顯著提高水下圖像的視覺質量。
2.1.2 Retinex理論
Retinex理論[16]對圖像有較好的色彩恢復和保持效果,在色彩校正和邊緣細節(jié)銳化等方面有明顯提升,被廣泛應用于水下圖像增強算法中。WANG等[17]在Retinex理論基礎上提出估計非均勻光照條件下圖像光照分量方法,將Retinex理論引入水下圖像增強。隨著Retinex理論研究的不斷深入,F(xiàn)U等[18]在空間域中估計圖像反射和照射分量并與顏色修正圖像融合,克服了Retinex方法在對數(shù)變換過程中運算速度慢的缺點。ZHANG等[19]結合Retinex方法,使用雙邊濾波和三邊濾波方法增強水下圖像的CIELAB色彩空間,相比FU等的方法在復雜場景下的應用更有寬容度。
圖像復原的思想是根據水下圖像的正向退化過程構建數(shù)學模型,并利用該模型反演圖像退化過程,從而獲得理想狀態(tài)下的復原圖像。SCHECHNER和KARPEL[20]利用水下散射的偏振效應恢復水下圖像,HAN等[21]根據圖像的傾斜邊緣對點擴散函數(shù)進行估計,最終復原水下圖像。DREWS等[22]求解了水下圖像成像模型獲得復原圖像,利用暗通道先驗知識估計水下圖像的傳輸函數(shù),實現(xiàn)水下圖像增強。楊愛萍等[23]結合水下成像模型,通過構造圖像亮度、對比度等特征權重圖并進行多尺度融合,有效去除水下圖像的藍綠色調。以上方法在單一場景的水下圖像增強效果較好,但在復雜光照的水下圖像中適用性較差。
由于霧天圖像與水下圖像相似,都呈現(xiàn)對比度較低、畫面模糊的現(xiàn)象,因此有研究將霧天增強算法應用于水下圖像增強。HE等[24]提出基于暗通道先驗的霧天圖像復原算法,同樣可以用于水下圖像復原。GALDRAN等[25]將暗通道先驗方法與圖像去霧模型結合,使復原圖像的對比度有較大提升。LI等[26]提出了使用白平衡和改進的暗通道先驗結合的方法,利用PROVENZI等[27]提出的灰度世界假設對圖像紅通道進行顏色校正處理,并通過暗通道先驗方法對水下圖像的藍綠通道進行處理,從而解決圖像過亮或過暗問題。
2017年深度學習方法開始被應用于水下圖像清晰化領域。PEREZ等[28]使用成對的水下清晰和退化圖像組成數(shù)據集,使用深度學習訓練得到二者映射模型,完成水下圖像增強任務。LI等[29]同樣采用成對的清晰圖像和水下實拍圖像作為數(shù)據集,訓練生成對抗網絡實現(xiàn)單幅影像的實時修正。YANG等[30]也采用生成對抗網絡構造數(shù)據集,然而不同于LI等[29]的方法,YANG等[30]采用雙重判別器獲取水下圖像的全局語義信息,進而可以合成更加逼真的水下圖像。生成對抗網絡模型雖然可以明顯提升水下圖像的整體清晰度,但復原后的圖像仍然存在細節(jié)模糊和邊緣不清楚的情況。
除生成對抗網絡外,也有采用卷積神經網絡模型實現(xiàn)水下圖像增強的研究。DING等[31]采用自適應顏色校正方法對水下圖像進行色彩補償,再用卷積神經網絡進行圖像補償和去模糊處理。區(qū)別于DING等[31]校正圖像色彩的方法,WANG等[32]利用卷積神經網絡模型獲得圖像RGB 3個通道的衰減系數(shù),進而實現(xiàn)水下圖像去霧和顏色校正。除對圖像進行直接處理的方法外,徐巖和孫美雙[33]使用卷積神經網絡直接在清晰圖像和水下圖像之間建立映射關系,通過提取水下圖像特征進行圖像復原。SUN等[34]提出了像素-像素的模型對水下圖像增強,模型采用編碼器-解碼器框架,使用卷積層作為編碼器對水下圖像去噪,使用反卷積增強圖像細節(jié)。卷積神經網絡模型在水下圖像去噪方面效果比較明顯。
面對水下圖像的清晰度低、對比度低、邊緣模糊等情況,實現(xiàn)清晰化的方法有很多,但不同方法都有各自效果及優(yōu)缺點。圖像增強方法通過調整圖像色彩實現(xiàn),圖像復原方法通過建立水下圖像退化模型實現(xiàn),深度學習方法通過學習模糊水下圖像和清晰圖像間的特征實現(xiàn)。表1為圖像清晰化方法對比。
表1 水下清晰化算法對比Tab.1 Com parison of underwater definition algorithms
水下視頻魚類跟蹤主要受魚類運動狀態(tài)不確定性和觀測數(shù)據不確定性影響,導致水下觀測設備無法準確感知魚類的運動規(guī)律,跟蹤目標不確定。魚類跟蹤方法根據觀測模型的不同,主要分為生成式方法和判別式方法。
生成式方法通過分析視頻圖像第一幀中的目標特征,從而生成跟蹤模板,并在后續(xù)圖像幀中搜索與模板最相近的目標,實現(xiàn)跟蹤任務?;谙∈杈幋a的跟蹤是生成式方法應用最廣泛的方法,其是通過目標模板生成子空間,并在后續(xù)的視頻幀中確定候選區(qū),計算候選區(qū)與目標模板之間的重構誤差,重構誤差最小的候選區(qū)就作為跟蹤的目標。
基于稀疏編碼思想,JIA等[35]對要跟蹤的目標采取分塊操作,并對跟蹤目標進行建模,最后用得到的模型完成目標跟蹤任務。此方法跟蹤效率高,但當對水下魚類跟蹤時,由于魚類游泳姿態(tài)變化較大,容易出現(xiàn)目標丟失的情況。因此,DONG等[36]在圖像多特征融合中加入聯(lián)合稀疏表示,還對目標進行多特征表現(xiàn)描述,實現(xiàn)在魚類游泳姿態(tài)變化時對魚類目標相對穩(wěn)定的跟蹤。在多目標跟蹤方面,HU等[37]為了動態(tài)約束相關模板,將稀疏權重引入全模板集中,并在部分遮擋情況下加入多特征融合稀疏表示,從而實現(xiàn)對多目標的跟蹤。生成式方法通常執(zhí)行效率較高,但由于其重點關注目標信息而忽略背景信息,當目標被部分遮擋或形態(tài)變化較大時,容易出現(xiàn)目標丟失或跟蹤不穩(wěn)定的情況。
判別式方法將目標跟蹤問題轉換為分類問題,通過分類器判別目標和背景,從而實現(xiàn)對目標的跟蹤任務。由于分類器的使用,使判別式方法在跟蹤任務中的速度更快、精度更高、性能更優(yōu)越,因此在目標跟蹤領域應用廣泛。
3.2.1 相關濾波
基于相關濾波跟蹤的基本思想是通過預先設定的濾波模板,對下一幀圖像中使用模板進行卷積操作計算響應值,響應值最大的區(qū)域就是目標所處的位置,依次操作完成目標跟蹤任務。
BOLME等[38]提出的MOSS(minimum output sum of squared error filter)算法是較早的基于相關濾波的跟蹤算法,主要使用圖像的單一灰度特征實現(xiàn)目標跟蹤,處理速度最快可達669 fps,但跟蹤精度較低。HENRIQUES等[39]提出核相關濾波算法KCF(kernel correlation filter),先在當前幀圖像中訓練一個目標檢測器,再判斷檢測器檢測之后圖像幀中預測的位置是否包含目標,進而完成對目標的跟蹤,并用新的檢測結果訓練檢測器,實現(xiàn)目標檢測更新。楊東海等[40]提出根據當前和之前圖像幀中的魚類目標,訓練多核相關濾波器,并與新輸入的視頻幀進行相關性計算,根據響應值預測跟蹤結果,響應值最大處即為跟蹤的魚類位置。
區(qū)別于使用單特征作為魚類目標檢測的方法,YANG和ZHU[41]提出的SAMF(scale adaptive with multiple features)算法使用多特征方法,將方向梯度直方圖特征、聯(lián)合顏色特征和灰度特征進行矢量疊加,完成多特征融合,同時引入尺度池方法,對候選區(qū)域做尺度運算,找到當前幀與上一幀中魚類目標的最大響應值,從而實現(xiàn)魚類視頻跟蹤。在尺度池方法的基礎之上,DANELLJAN等[42]提 出 了DSST(discriminative scale space tracking)算法,相比SAMF算法對7個尺度進行運算,DSST算法提出對33個尺度進行運算,比SAMF算法跟蹤效果更加精細準確。
3.2.2 深度學習
深度學習在目標分類方面性能突出,適合作判別式跟蹤方法中的分類器,近年來有一系列深度學習方法應用于目標跟蹤領域[43-48]。NGUYEN[49]等 提 出 的MDNet(multi-domain network)采用特征提取和多分支檢測結合的網絡結構,并針對每個視頻序列構建一個新的檢測分支進行訓練。網絡分支間共享網絡特征,從而在進行水下魚類跟蹤時確定魚類位置。除多分支結構的網絡模型外,還有使用SiamRPN[50]和Siam RCNN[51]等孿生網絡實現(xiàn)目標跟蹤。
卷積神經網絡在圖像識別方面效果出色,被廣泛應用于判別式跟蹤方法的分類器中?;贙CF算 法,MA等[52]提 出HCF(hierarchical convolutional features)算法,將KCF中提取的特征部分由方向梯度直方圖特征替換為VGG19模型中conv3-4、conv4-4和conv5-4輸出的卷積特征,經過相關濾波學習得到3個置信圖,通過加權融合確定最終魚類位置,實現(xiàn)魚類跟蹤。VALMADRE等[53]提出的CFNet(correlation filter network)算法同樣是在相關濾波算法中融入圖像卷積特征。CFNet模型將相關濾波作為卷積神經網絡中的一層,使得相關濾波算法可以用端到端的方法在卷積神經網絡中訓練。CFNet模型運算速度快,對魚類目標跟蹤的實時性效果較好。
生成式和判別式方法均可實現(xiàn)魚類目標跟蹤,生成式方法運算速度較快,但受制于生成的模板固定,當目標形態(tài)變化或被遮擋時,跟蹤精度較低。相比于生成式方法,判別式方法先用分類器檢測目標與背景,再對目標進行跟蹤。如此,當目標形態(tài)變化時依然能檢測到目標,但運算效率相對低下。表2為不同跟蹤算法對比。
表2 魚類跟蹤算法對比Tab.2 Comparison of fish tracking algorithms
計算機視覺技術的發(fā)展為水下魚類行為分析和生態(tài)系統(tǒng)監(jiān)控提供了新的觀測途徑。但應用計算機視覺技術時,也存在下面的不足與局限性,有待進一步開展相關研究。
1)水下拍攝環(huán)境復雜,受光照和水文條件影響較大。光線在水中傳播時能量衰減較快,且在水質混濁的區(qū)域光散射現(xiàn)象嚴重,更好的圖像增強或圖像復原方法清晰化處理水下圖像,可以提高圖像水下目標檢測和跟蹤精度[54]。
2)在深度學習方面仍需繼續(xù)投入研究,提高模型精度,降低模型占用資源,便于嵌入離線設備中。
3)對水下視頻監(jiān)控應用計算機視覺輔助研究魚類行為、評估漁業(yè)資源的方法起步較晚,得出的結果需與大量實地調查結果進行對比,以檢驗方法的實用性和可行性。