崔海朋 秦朝旭 馬志宇
摘要:為確保魚類養(yǎng)殖過程中生長狀況實時監(jiān)控及科學化養(yǎng)殖管理,需要實現(xiàn)高效化、自動化的魚類體征識別?;诖?,提出基于深度學習的關鍵特征點檢測模型結合雙目視覺的魚類體征識別方法?;陬A處理后的單目視覺數(shù)據(jù)集對融入金字塔分割注意力的高分辨率網(wǎng)絡模型展開訓練,獲得魚類關鍵特征點檢測模型,在此基礎上能夠對雙目視覺圖像中各特征點進行快速檢測識別與匹配,從而根據(jù)雙目視覺系統(tǒng)內部參數(shù)計算各特征點真實坐標并計算獲得對應體征參數(shù)。試驗結果表明,建立的關鍵特征點檢測模型對各特征點PCK值均大于0.85,識別得到的體征參數(shù)相對誤差均小于10%,能夠為魚類體征快速準確識別提供支撐,有效助力魚類養(yǎng)殖科學化、智能化發(fā)展。
關鍵詞:魚類;水產養(yǎng)殖;深度學習;關鍵點檢測;體征識別
中圖分類號:S24; S951.2
文獻標識碼:A
文章編號:2095-5553 (2024) 06-0201-07
收稿日期:2022年9月26日
修回日期:2023年2月20日
*基金項目:山東省重點研發(fā)計劃(科技示范工程)(2021SFGC0701)
第一作者:崔海朋,男,1982年生,山東東營人,碩士,高級工程師;研究方向為深海養(yǎng)殖智能化系統(tǒng)與裝備。E-mail: chp1982@126.com
Fish key feature point detection and sign identification based on deep learning
Cui Haipeng, Qin Chaoxu, Ma Zhiyu
(Qingdao JARI Industrial Control Technology Co., Ltd., Qingdao, 266520, China)
Abstract: In order to ensure real-time monitoring of growth conditions and scientific breeding management in the process of fish farming, it is necessary to realize efficient and automatic fish sign recognition. Based on this, a fish sign recognition method based on deep learning key feature point detection model combined with binocular vision is proposed. Based on the preprocessed monocular vision data set, the high-resolution network model integrated into the pyramid segmentation attention is trained to obtain the fish key feature point detection model. On this basis, the binocular vision image can be rapidly detected, recognized and matched with each feature point, and the real coordinates of each feature point and corresponding physical parameters can be calculated according to the internal parameters of the binocular vision system The test results show that the PCK value of the established key feature point detection model for each feature point is greater than 0.85, and the relative error of the identified sign parameters is less than 10%, which can provide support for the rapid identification of fish signs and effectively help the scientific and intelligent development of fish farming.
Keywords: fish; aquaculture; deep learning; key point detection; signs identification
0 引言
漁業(yè)是我國農業(yè)領域的重要組成部分,隨著水產領域的飛速發(fā)展,漁業(yè)當前已在我國經濟中占據(jù)了相當一部分比重。在水產養(yǎng)殖中,為指導魚類選育、養(yǎng)殖投喂管理等工作合理高效進行,往往需要實現(xiàn)魚類體長、全長、體高等體征參數(shù)變化的自動化監(jiān)測,因此如何精準快速地對養(yǎng)殖魚類體征進行識別是亟待解決的重要問題。
近年來,深度學習與人工智能技術飛速發(fā)展,應用廣泛的計算機視覺技術也為魚類體征有效識別問題提供新的實現(xiàn)思路與方法。目前計算機視覺在水產養(yǎng)殖領域常見的應用包括魚類目標檢測、魚類圖像分類、魚類圖像分割等多個場景[1-3]。Yu等[4]提出一種基于Mask R-CNN的魚類形態(tài)特征分割方法,可以實現(xiàn)魚類形態(tài)特征的自動、準確和批量高效的魚類圖像分割。丁順榮等[5]采用多特征融合及粒子群優(yōu)化SVM,構建一種新的魚類識別方法,能夠達到94.7%的準確率。Mathias等[6]提出基于二維經驗模態(tài)分解和高斯混合模型的水下場景魚類目標檢測方法,能夠達到良好的檢測效率與效果。針對魚類體征識別,要實現(xiàn)養(yǎng)殖過程中魚類體長等體征參數(shù)自動化的識別與檢測,需要對魚類頭部、身體、尾部各個關鍵特征點進行準確識別,以進一步測量、計算各個體征參數(shù),與計算機視覺領域中關鍵點識別問題相一致。目前在人體姿態(tài)識別、人類面部識別等領域已經有許多有效的關鍵特征點檢測算法投入應用,并取得優(yōu)異的效果[7, 8]。
為識別測量魚類在真實空間中的絕對體征參數(shù),許多研究采用了水下雙目視覺系統(tǒng)[9-11]。針對魚類的體征測量,Shi等[12]通過基于LabVIEW的水下立體系統(tǒng)實現(xiàn)了魚長自動估計,能夠以較高的準確率和成功率估計魚的長度。李艷君等[13]通過雙目立體視覺技術獲取三維信息,能夠有效實現(xiàn)魚類體長的估測。通過雙目視覺圖像準確獲取魚類體征參數(shù)首先需要確保實現(xiàn)左右圖像特征點的精準匹配,而要滿足在養(yǎng)殖過程中快速地針對大量魚類的關鍵特征點進行確定并匹配的需求,可以結合深度學習方法來實現(xiàn)自動化的識別。
將雙目視覺圖像與深度學習方法結合起來,根據(jù)采集到的雙目視覺圖像,利用深度學習模型建立魚類關鍵特征點檢測模型,能夠快速實現(xiàn)雙目視覺圖像中魚類各個關鍵特征點識別與匹配,以獲得目標魚類的體長、體高等體征參數(shù)。但在實際應用中,訓練深度學習模型往往需要大量已有的圖像數(shù)據(jù)[14]。而在魚類養(yǎng)殖前期往往難以實際取得滿足訓練條件的規(guī)模的雙目圖像數(shù)據(jù),且公開的已知相機內參的魚類雙目視覺圖像數(shù)據(jù)極少,無法滿足現(xiàn)在深度學習模型訓練的需求。
因此,本文提出結合單目視覺圖像構建的雙目視覺圖像識別魚類體征參數(shù)的流程方法:首先建立獲得魚類圖像關鍵特征點檢測深度學習模型,檢測識別得到各圖像中頭部最前端、尾鰭末端等各個關鍵特征點;隨后在實際應用中針對采集到的雙目視覺圖像,利用訓練后的深度學習模型檢測兩張圖像中各個特征點并進行匹配;最后利用雙目攝影系統(tǒng)內部參數(shù)計算識別目標體征參數(shù),以實現(xiàn)魚類體征的快速化、自動化識別。
1 材料與方法
1.1 圖像數(shù)據(jù)獲取與處理
本文中所采用的圖像數(shù)據(jù)包含兩部分,分別包括進行關鍵特征點檢測深度學習模型訓練的單目視覺數(shù)據(jù),以及用于對模型進行檢驗與校正的雙目視覺數(shù)據(jù),部分圖像數(shù)據(jù)如圖1所示。其中所采用的單目視覺數(shù)據(jù)來自互聯(lián)網(wǎng)收集的不同環(huán)境下不同種類的魚類圖片,以使得建立的關鍵特征點檢測模型具有對于不同種類養(yǎng)殖魚類的適應能力。單目視覺圖像由4 080張圖像組成,包含了85種不同種類的魚類,且這些圖像分別來源于實際深海養(yǎng)殖網(wǎng)箱場景、小型的養(yǎng)殖水缸場景與離水場景等多種不同的拍攝場景。
另一部分雙目視覺圖像主要來源于已有的試驗環(huán)境下通過雙目攝像系統(tǒng)實際采集的魚類圖像,部分來源于互聯(lián)網(wǎng)收集,共計包含30組圖像,每組圖像包含兩張對應不同視覺的圖像,因此數(shù)據(jù)集中共包含60張圖像。由于圖像數(shù)量較少,難以滿足直接訓練深度學習模型的需求,若通過常規(guī)的旋轉、裁切等增加數(shù)據(jù)樣本數(shù)量的增強方法,可能會導致訓練后的網(wǎng)絡模型產生過擬合現(xiàn)象,無法滿足實際養(yǎng)殖過程中復雜情況下的魚類體征識別。因此,在本文中,收集單目視覺圖像用于建立關鍵特征點深度學習模型并進行訓練,隨后雙目視覺圖像則用于對模型識別的關鍵特征點進行匹配并變換計算魚的體征參數(shù)。
獲取圖像數(shù)據(jù)后,首先需要對圖像數(shù)據(jù)進行一定的預處理工作,以提高模型訓練與后續(xù)識別的效果[15]。如圖1所示,原始圖片中,不同來源的圖片一般具有不同的尺寸,因此首先需要對原始圖片尺寸進行一定的處理。本文中所有圖像均固定為4∶3的比例,像素尺寸對應均固定為640×480,對于部分尺寸接近固定值的圖像,在保持魚體完整的前提下可通過對圖像進行適當裁剪處理。對于尺寸相差較大的圖像,則首先按照原始比例對圖像進行縮放,當圖像高度或寬度其中一個維度的尺寸與固定尺寸相同時,對另一個維度進行黑邊補齊處理,使得最終所有圖像在不對比例進行拉伸的前提下保持相同的尺寸,圖1中部分圖像處理前后對比如圖2所示。
1.2 圖像數(shù)據(jù)標注
在利用圖像數(shù)據(jù)進行模型訓練之前,需要對每張圖像進行標注工作。對于本文所要構建的關鍵特征點檢測模型,每張圖像中需要標注出各個關鍵特征點的坐標位置。本文選取的體征識別目標包括魚類的體長、全長、體高、頭長以及尾鰭長等5個不同的參數(shù),各體征參數(shù)具體的含義見表1。為根據(jù)雙目視覺圖像確定各個體征參數(shù),需要通過關鍵特征點檢測網(wǎng)絡識別出各個體征參數(shù)起止測量點的位置,即本文中需要人為在訓練數(shù)據(jù)中進行標注的關鍵特征點。
為達成上述識別目標,在每張圖像中針對6個不同的關鍵特征點進行了標注,分別包括頭部最前端、鰓蓋后緣、尾鰭基部、尾鰭末端、腹部最低點以及背部最高端,具體標注效果如圖3所示。對于所有關鍵特征點均可見的圖像,針對每一個特征點均標注其在圖像中的坐標(以像素坐標形式表示),而對于部分圖像,可能存在由于魚的姿勢或拍攝角度等原因導致的個別特征點被遮擋或在畫面外的問題,使得該部分特征點在當前圖像中無法標注。因此,針對這一部分特征點,將其坐標標注為(0, 0),以表示該圖像中不包含該特征點,同時確保每個識別目標圖像均具有相同數(shù)量的關鍵特征點。標注過程通過開源的圖像標注軟件實現(xiàn),每張圖像均按照通用的數(shù)據(jù)結構生成標注文件[16]。標注文件中包含的信息包括圖像的編號、尺寸,關鍵點的數(shù)量,以及各個關鍵點的坐標,通過關鍵點的順序編號區(qū)分各個關鍵點所對應的類型。
1.3 試驗設計
本文建立的魚類體征識別方法基本流程如圖4所示,主要包含3個主要步驟:首先利用標注及預處理后的單目視覺圖像數(shù)據(jù)集對特征點檢測算法模型進行訓練,獲得魚類關鍵特征點檢測網(wǎng)絡模型;隨后利用關鍵特征點檢測網(wǎng)絡模型分別對每一張雙目視覺圖像中魚類的關鍵特征點進行識別;最后對每一組雙目視覺圖像兩張圖像識別出的關鍵特征點進行立體匹配,并根據(jù)雙目視覺系統(tǒng)內參計算得到魚類體征參數(shù)。
1.4 試驗環(huán)境
本文建立的魚類體征識別方法試驗的系統(tǒng)環(huán)境為AMD R7 5800H @ 3.6GHz處理器,16 GB內存,顯存為6 GB的RTX 3060 Laptop顯卡和Windows 11操作系統(tǒng)。軟件及算法實現(xiàn)方面,魚類關鍵特征點檢測模型的實現(xiàn)及體征參數(shù)計算算法的建立均基于python編程語言,檢測網(wǎng)絡基于Pytorch深度學習框架構建。
2 特征點檢測算法與體征識別方法
2.1 關鍵特征點檢測算法
本文選用的魚類關鍵特征點檢測算法為高分辨率網(wǎng)絡(High Resolution Net, HRNet)模型,目前HRNet在關鍵點檢測領域的廣泛應用已充分表明了其優(yōu)異效果[17, 18]。HRNet是一類具有廣泛應用場景的深度卷積神經網(wǎng)絡,其最大的特征是能夠有效融合不同分辨率尺度下圖像的特征,使得每個分辨率尺度的特征都能夠更加廣泛地包含來自其他尺度的特征信息,同時還能并行地保留原始尺度特征信息,來確保最終輸出的精確性。在HRNet的基礎上,進一步融入金字塔分割注意力(Pyramid Split Attention, PSA)機制模塊,以進一步提取多尺度特征圖空間信息,來實現(xiàn)跨維度通道注意力重要特征的交互[19]。
HRNet的基本結構如圖5所示,與常規(guī)的高低分辨率特征之間的串行結構不同,HRNet采用了并行的特征圖連接結構。整個網(wǎng)絡結構被劃分為了4個階段,其中第1個階段中首先針對輸入的原始圖像進行卷積處理獲取其特征圖像,在第1階段內特征圖像分辨率維持不變,隨后在第1階段后進行特征轉換,對原始特征圖像進行一次下采樣生成低分辨率特征圖像,并將原始特征與低分辨率特征圖像保持并行。在第2階段,高低分辨率特征圖像之間進行不同尺度特征的融合,低分辨率特征圖像經上采樣操作后與原始特征圖像相連接,作為新的原始分辨率特征圖像,而原始特征圖像經再次下采樣后與低分辨率特征圖像連接作為新的低分辨率特征圖像。隨后在第3階段后對低分辨率圖像進行進一步的下采樣操作獲得更低一級的低分辨率圖像,并進行三種不同分辨率下特征圖像的融合,最后在第4階段進行相似的操作,將三種不同分辨率下的特征圖像信息進行融合,獲得原始分辨率下的特征圖像輸出,再次經卷積操作后輸出獲得關鍵特征點識別結果。
關鍵點檢測方法中,獲得最終檢測結果的方式包括兩種,分別為回歸關鍵點的具體坐標值以及輸出關鍵點分布的概率熱力圖[17]。直接回歸關鍵點坐標可以在網(wǎng)絡模型末端增加全連接層輸出對應的坐標值,但這種方式通常收斂比較困難。輸出概率熱力圖的方式是指直接以特征圖像作為結果輸出,圖像中每個像素點的值為該關鍵點位于當前像素位置的概率,從而尋找概率最高的位置判斷關鍵點坐標。本文中HRNet采用的輸出熱力圖的方式,在HRNet末端輸出高分辨率的特征圖像后,經過一個包含6個大小為1×1的卷積核的卷積層輸出每個關鍵點的概率熱力圖,其中卷積核個數(shù)對應確定的需要檢測的關鍵點的個數(shù)。
HRNet結構中最為關鍵的部分是對特征圖像進行的上采樣以及下采樣操作,實現(xiàn)上下采樣的具體操作如圖6所示。其中上采樣首先需要通過卷積核大小為1×1、步長為1的卷積層,隨后經批量歸一化層處理后采用最近鄰方法進行n倍的上采樣操作。下采樣則是通過卷積核大小為3×3,步長為2的卷積層進行縮放1倍下采樣,隨后再經批量歸一化層進行處理,當需要多倍縮放時,則需要重復通過卷積層處理進行多次下采樣。
在HRNet的基礎上,本文進一步引入了PSA機制模塊,PSA模塊是一類高效、輕量的通道注意力機制模塊,能夠更細粒度地處理多尺度的輸入特征圖的空間信息,并建立多尺度通道注意力間的長期依賴關系[19]。PSA模塊基本結構如圖7所示,其首先利用通道劃分模塊對原始特征圖像進行通道劃分,其中通道劃分模塊會將原始通道劃分為多組,并針對每組通道特征進行不同尺度的卷積操作,以根據(jù)每組通道的空間特征信息進行多尺度的特征提??;隨后采用SE權重模塊提取不同尺度特征圖的通道注意力權重,并對獲得的多尺度通道注意力權重利用softmax進行重新標定;最后對重新標定后的注意力權重與多尺度特征圖像進行點乘操作,獲得提取多尺度特征信息后的特征圖像。
為將PSA模塊嵌入基礎的HRNet結構中,將不同階段之間傳遞特征圖像信息的卷積過程替換為PSA模塊的多尺度注意力提取過程,將原始特征圖像轉換為獲取了多尺度通道注意力的特征圖像,以提高原始模型對于空間及通道全局特征的提取能力。
2.2 雙目視覺體征識別方法
基于雙目視覺圖像,通過對圖像中各個關鍵特征點進行匹配,確定各個關鍵點的視差,即可根據(jù)視差與雙目視覺系統(tǒng)基線長度計算各個關鍵點的真實坐標,從而計算魚類體長等體征參數(shù)。
雙目視覺實現(xiàn)體征識別原理如圖8所示,將左右兩個攝像機組成雙目視覺系統(tǒng),隨后對攝像機進行標定及校正,使得左右攝像機位于同一水平面對齊并確定基線長度,進一步獲得焦距等相機內參[20]。
對于雙目視覺系統(tǒng)中真實坐標為(x,y,z)的物點P,經拍攝后可分別在焦距為f的左右成像平面上獲得其對應的左右像點,其在左右成像面上投影的坐標分別為(xl,yl)以及(xr,yr),由于雙目視覺系統(tǒng)經標定后位于同一水平面,則有yl=yr。因此,根據(jù)相似三角形及透視變換處理,可以獲得物點真實空間三維坐標,如式(1)~式(3)所示。
x=lxlxl-xr=lxld(1)
y=lylxl-xr=lyld(2)
z=lfxl-xr=lfd(3)
式中:d——物點在左右成像平面上成像點之間的視差,d=xl-xr。
基于上述雙目視覺系統(tǒng)中物點三維坐標計算公式,結合魚類關鍵特征點檢測模型,可以快速對雙目圖像中魚類各個體征測量的關鍵點進行識別并匹配,從而獲取每個關鍵點的視差值,進而計算得到其對應的三維坐標,實現(xiàn)對魚類體長等各個體征參數(shù)的識別計算。
2.3 效果評價標準
針對建立的魚類體征識別方法效果的評價,可以從魚類關鍵特征點檢測與體征參數(shù)識別的準確性兩個方面展開評價。針對魚類關鍵特征點檢測算法,采用常用的指標正確識別關鍵點比例(Percentage of Correct Keypoints,PCK)來評價算法的效果[21]。PCK是指目標關鍵點被識別正確的比例,具體含義為檢測出的關鍵點距離真實關鍵點之間的歸一化距離小于設定閾值的比例,其計算如式(4)所示。
PCKi=∑Nn=1δdniddefn≤TkN(4)
式中:n——當前魚類圖像;
N——需要進行效果評價的魚類圖像總數(shù);
dni——第n張圖像的第i個關鍵點檢測坐標與真實坐標之間的歐氏距離;
ddefn——第n張圖像計算歸一化距離時選用的標定距離;
δ——第i個關鍵點的歸一化因子;
Tk——設定的閾值。
在本文中,ddefn表示采用頭部最前端與鰓蓋后緣真實坐標之間的歐式距離;Tk設定為0.1,即檢測關鍵點與真實關鍵點之間的距離不大于目標魚類頭部長度的1/10視為識別有效關鍵點。
針對魚類體征識別結果的準確性,采用計算得到的各個體征參數(shù)與真實體征參數(shù)之間的平均相對誤差MRE以及均方根誤差RMSE作為評價指標進行效果評價,計算如式(5)、式(6)所示。
MREi=1N∑Nn=1yni-yni-yni(5)
RMSEi=1N∑Nn=1(yni-yni-)2(6)
式中:yni——第n張圖像中第i個體征參數(shù)的真實值;
yni-——第n張圖像中第i個體征參數(shù)的估計值。
3 結果與分析
為驗證分析建立的魚類體征識別方法的效果,分別從魚類關鍵特征點檢測效果以及體征參數(shù)計算效果兩個層面進行了評價分析。
3.1 魚類關鍵特征點檢測效果
針對建立的魚類關鍵特征點檢測模型,首先將單目視覺數(shù)據(jù)集按照8∶2的比例隨機劃分為訓練集與測試集,并采用訓練集對檢測模型進行訓練,訓練過程中采用Adam優(yōu)化器,共迭代訓練160代,隨后分別利用單目視覺測試集以及雙目視覺全部數(shù)據(jù)集對模型進行效果評價,計算各個關鍵點檢測的PCK值并進行對比。為進一步驗證建立的檢測算法的有效性,利用相同的數(shù)據(jù)集訓練了未耦合PSA模塊的原始HRNet模型以及支持向量機回歸(Support Vector Regression, SVR)模型,對其檢測效果進行對比,其中SVR的檢測結果輸出方式為直接回歸關鍵特征點坐標值。首先選取部分圖像對PSA-HRNet檢測出的關鍵點坐標與實際標注關鍵點坐標進行對比,其在圖像中的標注位置對比如圖9所示。
由圖9可見,建立的關鍵點檢測算法能夠有效確定大多數(shù)關鍵特征點的坐標位置,檢測坐標與實際坐標非常接近,說明建立的檢測算法能夠有效識別出魚類體征識別的各個關鍵特征點。
進一步從定量的角度綜合評價對比檢測模型的效果,分別計算獲得了PSA-HRNet模型、HRNet模型以及SVR模型對于單目視覺測試集以及雙目視覺數(shù)據(jù)集各個關鍵特征點的PCK值,結果如表2所示。由表2可知,與其余模型相比,PSA-HRNet對于所有關鍵特征點均具有更大的PCK值,單目與雙目視覺圖像平均PCK值相比較于另外兩種方法分別高5.29%、22.61%與1.99%、25.96%,說明PSA-HRNet通過引入多尺度通道特征注意力的機制能夠更充分地提取表征關鍵特征點位置的特征,從而有效提升檢測結果。并且PSA-HRNet模型所有關鍵特征點的PCK值均大于0.85,表明建立的關鍵特征點檢測算法的有效性,為進一步體征參數(shù)的計算提供有效支撐。同時,頭部最前端與尾鰭末端相比較于其余特征點PCK值更高,其原因是相比較于其余關鍵特征點這兩個特征點部位相對更加明確,在人工標注時產生的誤差更小,使得識別得到的準確性更高。
3.2 魚類體征識別效果
根據(jù)關鍵特征點檢測結果,對雙目視覺數(shù)據(jù)集圖像識別出的各個關鍵特征點進行匹配,根據(jù)雙目視覺系統(tǒng)參數(shù)計算各關鍵特征點左右視覺圖像中的視差,以此獲取各個關鍵特征點的真實三維坐標,并在此基礎上計算各個體征參數(shù)的值。針對雙目視覺數(shù)據(jù)集,分別計算了根據(jù)關鍵特征點檢測結果計算出的體征參數(shù)與實際參數(shù)之間的MRE及RMSE,如表3所示。由對比結果可見,對于各個體征參數(shù),其平均相對誤差均小于10%,均方根誤差最大僅為1.34cm,進一步證明了建立的體征識別方法的有效性。
同時,圖10與圖11分別展示了各個圖像樣本每個體征參數(shù)識別相對誤差總體分布情況與分布直方圖,30組雙目視覺圖像共包含150個體征參數(shù)樣本。圖10中絕大多數(shù)樣本點集中分布在表征誤差為10%的虛線內部,證明了識別方法的可靠性。而在整體分布特征上,由圖11可知,相對誤差分布整體呈現(xiàn)正態(tài)分布特征,大多數(shù)體征的相對誤差在5%以內,只有極小部分體征參數(shù)由于受到拍攝角度、標注誤差等限制,最終識別結果的相對誤差超過了15%。以上魚類體征識別的結果對比,綜合表明了本文建立的魚類體征識別方法的有效性。
4 結論
本文基于單目視覺圖像構建魚類關鍵特征點檢測模型,在此基礎上實現(xiàn)對雙目視覺圖像關鍵特征點的檢測及匹配,以計算獲得魚類體長、全長的體征參數(shù),形成了快速、準確的魚類體征識別方法。
1) 采集不同環(huán)境下魚類單目視覺圖像及雙目視覺圖像,并對圖像進行預處理及標注工作,形成魚類關鍵特征點單目及雙目視覺數(shù)據(jù)集,并基于單目視覺數(shù)據(jù)集構建訓練獲得考慮多尺度特征圖像通道注意力地PSA-HRNet深度學習模型,獲得的模型針對單目視覺測試集及雙目視覺圖像數(shù)據(jù)集均獲得了優(yōu)異的檢測結果,各個關鍵特征點檢測PCK值均大于0.85。
2) 基于建立的魚類圖像關鍵特征點檢測模型,通過對雙目視覺圖像分別進行檢測,實現(xiàn)了左右視覺圖像中關鍵特征點的檢測及匹配,并根據(jù)雙目視覺系統(tǒng)參數(shù)計算獲得了各關鍵特征點真實坐標,在此基礎上實現(xiàn)了對魚類各個體征參數(shù)的計算,各個體征參數(shù)識別結果相對誤差均小于10%,RMSE最高僅為1.34 cm,表明本文提出的魚類體征識別方法具有出色的精度,能夠為魚類高效、科學養(yǎng)殖提供有力支撐。
參 考 文 獻
[1]Zhao Z, Liu Y, Sun X, et al. Composited FishNet: Fish detection and species recognition from low-quality underwater videos [J]. IEEE Transactions on Image Processing, 2021, 30: 4719-4734.
[2]陳文輝, 蔡妹姝, 嚴松, 等. 基于深度卷積神經網(wǎng)絡與遷移學習的魚類分類識別[J]. 福建師大福清分校學報, 2019(5): 30-38.
Chen Wenhui, Cai Meishu, Yan Song, et al. Fish classification based on deep convolutional neural network and transfer learning [J]. Journal of Fuqing Branch of Fujian Normal University, 2019(5): 30-38.
[3]蔡衛(wèi)明, 龐海通, 張一濤, 等. 基于卷積神經網(wǎng)絡的養(yǎng)殖魚類品種識別模型[J]. 水產學報, 2022, 46(8): 1369-1376.
Cai Weiming, Pang Haitong, Zhang Yitao, et al. Recognition model of farmed fish species based on convolutional neural network [J]. Journal of Fisheries of China, 2022, 46(8): 1369-1376.
[4]Yu C, Fan X, Hu Z, et al. Segmentation and measurement scheme for fish morphological features based on Mask R-CNN [J]. Information Processing in Agriculture, 2020, 7(4): 523-534.
[5]丁順榮, 肖珂. 基于粒子群優(yōu)化SVM和多特征融合的魚類分類方法研究[J]. 中國農機化學報, 2020, 41(11): 113-118, 170.
Ding Shunrong, Xiao Ke. Improving fish classification method in particle swarm optimization SVM and multi-feature fusion [J].Journal of Chinese Agricultural Mechanization, 2022, 41(11): 113-118, 170.
[6]Mathias A, Dhanalakshmi S, Kumar R, et al. Underwater object detection based on Bi-dimensional empirical mode decomposition and Gaussian Mixture Model approach [J]. Ecological Informatics, 2021, 66: 101469.
[7]Zhang J, Chen Z, Tao D. Towards high performance human keypoint detection [J]. International Journal of Computer Vision, 2021, 129(9): 2639-2662.
[8]曾文獻, 馬月, 李偉光. 輕量化二維人體骨骼關鍵點檢測算法綜述[J]. 科學技術與工程, 2022, 22(16): 6377-6392.
Zeng Wenxian, Ma Yue, Li Weiguang. A survey of lightweight two-dimensional human skeleton key point detection algorithms [J]. Science Technology and Engineering, 2022, 22(16): 6377-6392.
[9]趙建敏, 關曉鵬. 基于雙目深度估計的牛體尺測量方法設計[J]. 光電子·激光, 2022, 33(4): 429-435.
Zhao Jianmin, Guan Xiaopeng. Design of the measurement method of cow body size based on binocular depth estimation [J]. Journal of Optoelectronics Laser, 2022, 33(4): 429-435.
[10]董鵬, 周烽, 趙悰悰, 等. 基于雙目視覺的水下海參尺寸自動測量方法[J]. 計算機工程與應用, 2021, 57(8): 271-278.
Dong Peng, Zhou Feng, Zhao Congcong, et al. Automatic measurement of underwater sea cucumber size based on binocular vision [J]. Computer Engineering and Applications, 2021, 57(8): 271-278.
[11]郭卜瑜, 于佳, 王姣姣, 等. 雙目視覺用于魚苗尺寸測量[J]. 光學技術, 2017, 43(2): 153-157.
Guo Buyu, Yu Jia, Wang Jiaojiao, et al. Stereo vision for measuring the size of fish [J]. Optical Technique, 2017, 43(2): 153-157.
[12]Shi C, Wang Q, He X, et al. An automatic method of fish length estimation using underwater stereo system based on LabVIEW [J]. Computers and Electronics in Agriculture, 2020, 173: 105419.
[13]李艷君, 黃康為, 項基. 基于立體視覺的動態(tài)魚體尺寸測量[J]. 農業(yè)工程學報, 2020, 36(21): 220-226.
Li Yanjun, Huang Kangwei, Xiang Ji. Measurement of dynamic fish dimension based on stereoscopic vision [J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(21): 220-226.
[14]Wu X, Sahoo D, Hoi S C H. Recent advances in deep learning for object detection [J]. Neurocomputing, 2020, 396: 39-64.
[15]Lei W, Luo J, Hou F, et al. Underground cylindrical objects detection and diameter identification in GPR B-scans via the CNN-LSTM framework [J]. Electronics, 2020, 9(11): 1804.
[16]Wang C, Pang C. Object detection method of power equipment based on mask R-CNN [J]. Academic Journal of Science and Technology, 2022, 1(2): 60-62.
[17]Sun K, Xiao B, Liu D, et al. Deep high-resolution representation learning for human pose estimation [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019: 5693-5703.
[18]馬皖宜, 張德平. 基于多譜注意力高分辨率網(wǎng)絡的人體姿態(tài)估計[J]. 計算機輔助設計與圖形學學報, 2022, 34(8): 1283-1292.
Ma Wanyi, Zhang Deping. Human pose estimation based on multi-spectral attention and high resolution network [J]. Journal of Computer-Aided Design & Computer Graphics, 2022, 34(8): 1283-1292.
[19]Zhang H, Zu K, Lu J, et al. EPSANet: An efficient pyramid squeeze attention block on convolutional neural network [C]. Proceedings of the Asian Conference on Computer Vision. 2022: 1161-1177.
[20]羅桂娥. 雙目立體視覺深度感知與三維重建若干問題研究[D]. 長沙: 中南大學, 2012.
Luo Guie. Some issues of depth perception and three dimension reconstruction from binocular stereo vision [D]. Changsha: Central South University, 2012.
[21]周燕, 劉紫琴, 曾凡智, 等. 深度學習的二維人體姿態(tài)估計綜述[J]. 計算機科學與探索, 2021, 15(4): 641-657.
Zhou Yan, Liu Ziqin, Zeng Fanzhi, et al. Survey on two-dimensional human pose estimation of deep learning [J]. Journal of Frontiers of Computer Science and Technology, 2021, 15(4): 641-657.