房俊龍,胡宇航,戴百生,吳志東
采用改進CenterNet模型檢測群養(yǎng)生豬目標
房俊龍,胡宇航,戴百生※,吳志東
(1. 東北農業(yè)大學電氣與信息學院,哈爾濱 150030;2. 農業(yè)農村部生豬養(yǎng)殖設施工程重點實驗室,哈爾濱 150030)
為實現對群養(yǎng)環(huán)境下生豬個體目標快速精準的檢測,該研究提出了一種針對群養(yǎng)生豬的改進型目標檢測網絡MF-CenterNet(MobileNet-FPN-CenterNet)模型,為確保目標檢測的精確度,該模型首先以無錨式的CenterNet為基礎結構,通過引入輕量級的MobileNet網絡作為模型特征提取網絡,以降低模型大小和提高檢測速度,同時加入特征金字塔結構FPN(Feature Pyramid Networks)以提高模型特征提取能力,在保證模型輕量化、實時性的同時,提高遮擋目標和小目標的檢測精度。以某商業(yè)豬場群養(yǎng)生豬錄制視頻作為數據源,采集視頻幀1 683張,經圖像增強后共得到6 732張圖像。試驗結果表明,MF-CenterNet模型大小僅為21 MB,滿足邊緣計算端的部署,同時對生豬目標檢測平均精確度達到94.30%,檢測速度達到69 幀/s,相較于Faster-RCNN、SSD、YOLOv3、YOLOv4目標檢測網絡模型,檢測精度分別提高了6.39、4.46、6.01、2.74個百分點,檢測速度分別提高了54、47、45、43 幀/s,相關結果表明了該研究所提出的改進型的輕量級MF-CenterNet模型,能夠在滿足目標檢測實時性的同時提高對群養(yǎng)生豬的檢測精度,為生產現場端的群養(yǎng)生豬行為實時檢測與分析提供了有效方法。
計算機視覺;圖像處理;群養(yǎng)生豬;目標檢測;MobileNet;FPN;CenterNet
目前在中國生豬養(yǎng)殖過程中,對生豬的質量體態(tài)、冷熱應激、飲食排泄、攻擊咬尾等狀態(tài)和行為的監(jiān)測主要以人工監(jiān)測為主,這使得生豬養(yǎng)殖管理成本增高,同時還會帶來生豬的應激反應,更嚴重的會出現人畜交叉感染的風險[1]。隨著計算機視覺技術的發(fā)展,使得利用該技術對群養(yǎng)生豬進行非接觸式、低應激的健康監(jiān)測成為可能,對生豬個體目標進行檢測是實現對生豬自動化監(jiān)測與智能化分析的前提[1-3]??焖俣譁蚀_的生豬目標檢測,對實現精準、個性化的生豬健康智能監(jiān)測具有重要意義。
近年來,已有研究人員開始利用計算機視覺技術對生豬個體目標進行檢測,所采用的方法主要包括傳統(tǒng)目標檢測方法和基于卷積神經網絡(Convolutional Neural Networks,CNN)的目標檢測方法。楊心等[4]通過粘連豬體分割和基于廣義Hough聚類的方法對生豬頭、尾進行檢測,檢測平均正確率達到87.28%。馬麗等[5]經過圖像處理獲取豬只輪廓圖,提出聯立豬只外接矩形高寬比和低頻傅里葉系數構建豬只側視圖的特征向量,利用馬氏距離判別法進行檢測,檢測準確率達到91.7%。謝雙云等[6]采用GMM和圖像?;椒ǎ罁D像序列的前景圖分析粒子運動屬性,融合前景圖和?;瘓D,最終得到精確的豬只目標檢測。然而,傳統(tǒng)檢測方法在復雜條件下檢測精度不高、檢測速度慢,隨著深度學習特別是CNN模型在圖像識別和目標檢測領域的成功應用,基于CNN的目標檢測方法也逐漸被應用到群養(yǎng)生豬的檢測中。基于CNN的目標檢測可分為兩階段(Two-Stage)和單階段(One-Stage)兩大類。基于Two-Stage的模型主要包括R-CNN系列[7-8](R-CNN,Fast R-CNN,Faster R-CNN等),基于單階段的模型主要包含YOLO(You Only Look Once)系列[9-12]和SSD(Single Shot MultiBox Detector)系列[13]。在生豬個體檢測領域,Riekert等[14]利用2D攝像機和Faster R-CNN檢測模型對生豬的位置和姿態(tài)進行檢測,平均檢測精度達到80.2%。Yang等[15]通過Faster R-CNN模型對生豬個體以及頭部位置進行檢測,再通過關聯算法檢測生豬進食行為,檢測準確度達到95%以上,召回率達到80%以上。Cowton等[16]利用Faster R-CNN模型對生豬位置進行檢測,精度達到90.1%,滿足試驗預期效果。王婷婷等[17]通過采用Faster R-CNN模型對有無遮擋的生豬分別進行檢測,進而通過改進Faster R-CNN模型完成對生豬質量的評估?;赥wo-Stage的生豬目標檢測方法檢測精度高但檢測速度相對較慢,難以滿足實時檢測要求,且模型體量較大,使得向嵌入式平臺移植帶來挑戰(zhàn)。謝濤[18]提出了一種基于稀疏化深度可分離網絡結構的快速SSD生豬目標檢測模型,可以快速而精準的檢測生豬姿態(tài),滿足實時檢測要求。蘇恒強等[19]針對圖像光照強度、生豬種類顏色、障礙物遮擋等干擾,提出了基于YOLOv3的生豬目標檢測方法。燕紅文等[20]提出了將特征金字塔注意力信息融入Tiny-YOLO特征提取過程中,對群養(yǎng)生豬進行了高精度的目標檢測。Hanse等[21]使用YOLO對生豬姿態(tài)進行檢測并對身體部位(頭、身、臀)進行訓練,進而檢測出生豬頭部位置。李泊等[22]通過YOLOv3檢測生豬頭尾目標,并采取閾值分割與前景橢圓擬合推理缺失部位,生豬頭尾檢測精度達到96.22%。上述基于One-Stage的模型能夠在檢測精度和檢測速度達到一定的平衡,但其檢測精度和檢測速度仍然有待提高。
特別地,上述目標檢測模型主要采用先驗框的設定,未能較好解決模型檢測時圖像中目標尺寸大小以及目標相互遮擋等因素對檢測結果的影響,同時模型檢測實時性不高、體積較大、需要算力較高,難以滿足向移動式終端或嵌入式設備進行移植的需求,給實際場景的應用帶來挑戰(zhàn)。
為使得生豬目標檢測模型更加易于向計算資源有限且性能較低的邊緣計算硬件平臺上進行部署,在保證實時性檢測的同時盡量提高檢測精度,本文有針對性的提出了一種基于MF-CenterNet(MobileNet-FPN-CenterNet)模型的群養(yǎng)生豬目標檢測方法,該方法在保證檢測實時性、可移植于邊緣計算端的同時,對存在不同目標尺寸、相互遮擋等因素下的生豬個體都有較好的檢測能力。
本文所研究的生豬視頻采集于黑龍江省齊齊哈爾市建華區(qū)雙合村金城養(yǎng)殖場,為了試驗結果的普遍性,分別于2020年7月20號(天氣晴,光照強)和2020年9月27號(多云,光照弱)進行2次采集,選取了大白、長白2個品種的豬作為采集對象,豬場單個豬舍面積(長 ×寬)為7 m×5 m,每個豬舍生豬數量10~25頭,選取其中4舍日齡80 d、質量平均約41 kg的育肥期的群養(yǎng)生豬共計85頭作為試驗對象。本文采用手持設備對不同光照和不同數量的生豬進行視頻采集,共拍攝得到時長為20 ~40 min的10段視頻,每個豬舍選取2段時長超過30 min的視頻作為原始視頻。原始視頻格式為MP4,分辨率為(幀寬度×幀高度)1 280像素×720像素,幀速率29.9 幀/s,本文所采集數據中,包含不同頭數生豬的監(jiān)控畫面統(tǒng)計結果,如表1所示。
1.2.1 視頻幀抽取
通過對所采集視頻數據進行預處理,以得到群養(yǎng)生豬目標檢測圖像數據集。具體對采集到的視頻進行視頻幀抽取,為防止數據重復冗余,本文每隔20 s抽取一張視頻幀圖片,在抽取過程中由于生豬運動會在圖片中出現運動模糊和目標重影現象,刪去這些目標不清晰的圖片,再對其進行隨機排序,共獲得包含25 563只生豬個體目標的1 683張群養(yǎng)生豬目標檢測原始圖像數據集。
表1 不同生豬頭數所對應的圖像張數
1.2.2 數據增強
為了增加可供模型訓練的數據量,提高模型的泛化能力和魯棒性,本文對生豬原始圖像數據進行旋轉(90°,180°,270°)、翻轉、增加噪音等數據增強操作,共獲得6 732張圖像,增強后的圖像如圖1所示。
1.2.3 圖像標注
目標檢測模型在訓練和測試過程中,需要提供群養(yǎng)生豬目標的真實位置信息,本文使用labelImg圖像標注工具(https://github.com/tzutalin/labelImg)對增強后的共計6 732張圖像中的生豬目標進行標注,并將標注好的信息按照通用的PASCAL VOC 格式保存為與圖像相對應且同名的xml格式文件,該文件中記錄了圖片中每個目標的類別名稱、矩形框位置等信息。
1.2.4 數據集劃分
經上述整理后,共獲得6 732張標注過的圖像及其對應的標注文件,本文按照6∶2∶2比例將數據集劃分為訓練集、驗證集、測試集,訓練集包含4 038張圖像,驗證集包含1 347張圖像,測試集包含1 347張圖像。訓練集和驗證集用于模型訓練,測試集用于模型檢測結果驗證。
CenterNet是由Zhou等[23]近些年提出的無錨點(Anchor-Free)目標檢測方法[23],其在遮擋目標檢測方面相比于采用先驗框設定的目標檢測網絡具有更好的檢測效果,且在目標檢測過程中僅需提取每個目標的中心點,無需進行后處理,相比于傳統(tǒng)目標檢測網絡提高了檢測速度。CenterNet使用殘差網絡(ResNet50)[24]作為主干特征提取網絡,殘差網絡結構由Conv Block和Identity Block組成,并通過轉置卷積(Transpose Convolution)進行上采樣,其具體網絡框架如圖2所示。
CenterNet網絡在數據輸入后,首先進行一次卷積、批標準化(Batch Normalization,BN)、激活函數(ReLU)和最大池化;其后,經歷4組殘差結構,每組殘差結構分別由改變網絡的維度的Conv Block和加深網絡的Identity Block組成,每組的Block個數分別為3、4、6、3。在經過第4次Conv Block和Identity Block的堆疊之后,完成了網絡的特征初步提取,獲得維度為(16,16,2 048)的有效特征層;隨后,對獲取到的有效特征層利用轉置卷積進行3次上采樣,獲得了高分辨率特征圖,最后使用CenterNet檢測層進行結果預測。
盡管CenterNet在檢測精度和檢測速度上較現有目標檢測算法均有不同的提升,且對存在遮擋情況下的目標檢測具有一定的魯棒性,但其仍不能滿足低計算資源平臺上的實時檢測要求,且由于模型體積過大難以部署在邊緣計算端,另外,其對小目標檢測的效果也不理想[23]。
為進一步提高該目標檢測模型的檢測速度和對具有低計算資源的邊緣計算端的可移植性,以及對真實養(yǎng)殖環(huán)境中易出現的小目標的檢測能力,基于文獻[25],本文提出一種輕量級的群養(yǎng)生豬目標檢測網絡,其在CenterNet目標檢測網絡的基礎上,首先改進其主干特征提取網絡,在保證檢測精度的同時降低了模型總參數量,提高了模型檢測速度。考慮到MobileNet的基本單元是深度可分離卷積,相較于傳統(tǒng)卷積極大的減少了計算量及模型參數量,為此,本文使用輕量型的MobileNet系列網絡[26-28]對CenterNet的主干特征提取網絡進行改進。由于MobileNet網絡具有不同的實現版本,其具體網絡實現結構的選擇將在3.1節(jié)進行具體討論。
此外,為進一步加強模型特征提取能力,本文進一步使用特征金字塔結構(Feature Pyramid Networks,FPN)來融合低分辨率的高層語義信息和高分辨率的低層特征信息,以提高該模型對群養(yǎng)生豬目標檢測的精度,尤其是具有較小尺寸的生豬目標的檢測精度。FPN的網絡結構如圖3所示。
本文所使用的FPN是在一個自頂向下連接的跳躍式傳遞(Skip Connection)的網絡結構上僅使用最后一層進行檢測,圖像經過多次上采樣并進行特征融合,僅使用最后一步生成的特征進行檢測。
為便于后文討論,本文將融合了輕量型MobileNet網絡和FPN結構的CenterNet,記作MF-CenterNet(MobileNet-FPN-CenterNet),其整體網絡框架如圖4所示。
考慮到CenterNet屬于Anchor-Free型的目標檢測方法,其檢測層與傳統(tǒng)Anchor-based型目標檢測方法有所不同,其主要包括3個預測分支,即熱力圖預測、中心點預測和尺寸(寬高)預測,各預測示意如圖5所示。
基于CenterNet的群養(yǎng)生豬目標檢測模型就是將圖像視為由無數關鍵點組成,通過關鍵點估計即熱力圖峰值確定生豬個體的中心點,再根據中心點位置回歸得出目標寬高,最后確定生豬目標,其檢測過程主要包含以下3個部分(三者為并行結構):
1)熱力圖(Heatmap)預測
CenterNet檢測層先對輸入的特征圖進行3×3的卷積,進行特征整合,再通過BN及ReLU,最后利用1×1的卷積,將特征層的通道數調整為num_classes。熱力圖預測的結果會判斷每一個特征點是否存在對應的物體,以及物體種類和概率。
熱力圖的Loss整體思想和損失函數(Focal Loss)類似,對于容易分類的樣本,可以適當減少其訓練比例。熱力圖損失值(L)的計算公式如下:
式中Y為高斯核,、是Focal Loss的超參數,是圖像中關鍵點個數。
2)中心點(Reg)預測
CenterNet檢測層先對輸入的特征圖進行3×3的卷積,進行特征整合,再通過BN及ReLU,最后利用1×1的卷積,將特征層的通道數調整為2。中心點預測結果可以對特征點的軸、軸坐標進行調整,獲得物體中心的軸、軸坐標,即每一個特征點上對應的物體軸、軸坐標相對于同一個特征點軸、軸坐標的偏移情況。中心點偏移損失值(off)公式如下:
3)寬高(WH)預測
CenterNet檢測層先對輸入的特征圖進行3×3的卷積,進行特征整合,再通過BN及ReLU,最后利用1×1的卷積,將特征層的通道數調整為2。寬高預測結果直接回歸獲得對應物體框的寬高。目標寬高損失值(size)公式如下:
式中k為目標的包圍框(bounding box)的中心位置,S為目標尺寸。故總的損失值()為
式中off、size分別為Reg預測和WH預測的系數,根據文獻[23],off、size分別取0.1、0.2。
2.3.1 試驗平臺
本文試驗所用的模型訓練環(huán)境為64 位 Windows10 操作系統(tǒng),硬件配置CPU為Intel(R) 12-Core(TM) i7-10750H,主頻2.60 GHz,顯卡為NVIDIA GeForce GTX 1660Ti GPU,內存為16GB。試驗采用的Python編程語言,并在 Torch 1.2.0 進行網絡搭建、訓練和測試,并采用遷移學習思想,使用mobilenet_weights.pth對輕量型骨干網絡參數進行初始化。
2.3.2 評價指標
為驗證所提目標檢測算法的有效性,本文試驗主要采用以下6個評價指標:準確率(Precision)、召回率(Recall)、平均精確率mAP(Mean Average Precision)、平衡分數1(F1-Score)、檢測速度FPS(Frame Per Second)、模型大小Model Size。
準確率是度量目標檢測模型對某一類別目標檢測結果的準確性,即模型檢測出的真實生豬目標數量占所有檢測出目標數量的比例,其計算公式為
式中TP為圖像中生豬目標被正確檢測為生豬的個數,FP為圖像中非生豬目標被檢測為生豬的個數。
召回率是衡量一個目標檢測模型把所有的檢測目標都找到的能力,即模型正確檢測出的生豬目標數量占所有真實生豬目標數量的比例,其計算公式為
式中FN為圖像中生豬目標被檢測成其他種類物體的個數。
精確率是PR曲線與坐標軸所圍成的面積,平均精確率是多類別AP的平均值即對的積分。
平衡分數又稱為1分數(1-Score),它同時兼顧了分類模型的準確率和召回率,被定義為精確率和召回率的調和平均數。
檢測速度FPS又稱每秒幀率是每秒內目標檢測模型可以處理的圖片數量,即檢測速度越快越能實現實時檢測,其計算公式如下:
式中為圖像的總張數,為目標檢測過程中處理所有圖片所用的時間,s。
模型大?。∕odel Size)是目標檢測網絡訓練所生成模型的空間利用率,即模型大小由網絡的基本結構決定。
2.3.3 模型訓練參數設置
為了在訓練模型時進行遷移學習,本試驗將網絡的輸入圖像全部轉化為512×512(像素)尺寸大小,同時為加快訓練速度、防止訓練初期權值被破壞,采用凍結訓練的方式,前50次迭代(Epoch)進行凍結訓練,每32張圖像作為一個Bach Size,50次Epoch訓練完成后解凍,解凍后每8張圖像作為一個Bach Size,每完成一個Epoch更新一次權值并保存,權值衰減速率設為0.5,凍結時初始學習率設置為0.001,解凍后初始學習率設置為0.000 1。
MobileNet系列網絡當前主要有3個版本(v1、v2、v3),為驗證不同版本模型作為特征提取主干網絡對生豬目標檢測的影響,本文將分別采用MobileNetv1、v2、v3對CenterNet主干網絡進行替換,并對比集成不同版本MobileNet后模型性能與原始CenterNet性能的差異。
值得注意的是,MobileNet系列網絡的核心是通過引入深度可分離卷積來降低網絡的參數以達到模型輕量化的目的,但在進行深度卷積的過程中,高、低維度信息轉換會造成一定的特征信息損失,特別是在MobileNetv1中,再經過ReLU函數激活后,特征信息的損失會進一步加大[26]。為此,MobileNetv2引入倒置殘差(Inverted Residuals)和線性激活函數來改善網絡中特征信息的損失問題[27],在性能上有所提升。MobileNetv3則進一步引入神經結構搜索NAS(Neural Architecture Search)技術來進行網絡參數的優(yōu)化,以提高模型的特征提取能力[28],并提出了面向高資源應用場景的MobileNetV3-Large和面向低資源應用場景的MobileNetv3-small兩個版本。為了對比不同版本的MobileNet應用于生豬目標檢測任務中的效果,以及考慮本文重點關注面向邊緣計算端的生豬目標檢測模型,本文通過試驗重點對比分析集成MobileNetv1、MobileNetv2以及MobileNetv3-small的目標檢測性能。圖6給出了集成不同版本MobileNet(v1、v2、v3)的MobileNet-CenterNet在訓練集上的損失值變化曲線,橫坐標為迭代次數,縱坐標為模型訓練損失值。
從圖6不同版本MobileNet進行模型訓練時的Loss值(損失)曲線可以看出,MobileNetv2-CenterNet在訓練時模型收斂更快,且在模型損失曲線達到收斂時,模型預測結果與真實目標位置所產生的誤差也更小,因此,相較于其他版本,MobileNetv2-Center更容易在生豬目標檢測數據集上進行訓練。為了進一步驗證,集成不同版本MobileNet的CenterNet模型對生豬目標的檢測性能,本文接下來對相關模型在測試集上的性能表現進行對比分析,其試驗結果如表2所示。
從對比試驗結果表2可以看出,CenterNet檢測精度最高,達到93.67%,檢測速度為27 幀/s低于本文所采集視頻的真實幀速率29.9 幀/s,模型總體參數量過大,算法實時性和移植能力有待提高。在使用MobileNet對CenterNet主干網絡進行改進后,MobileNetv1-CenterNet的檢測速度最快,達到了78 幀/s,相比于原CenterNet提高51 幀/s,MobileNetv3-CenterNet模型的總體參數量約為6 000 000 個,相比于原CenterNet降低了27 000 000 個。在檢測精度方面,主干網絡改進后相比原CenterNet均有不同下降,其中MobileNetv2-CenterNet檢測精度為93.37%,在所有改進后的模型中為最高,且與原CenterNet精度較為接近,但MobileNetv2-CenterNet檢測速度達到62 幀/s比原CenterNet提高了35 幀/s,總體參數量為8 000 000 個降低了25 000 000 個。
在利用MobileNetv2對CenterNet主干網絡進行改進的基礎上,進一步使用FPN替換原有的轉置卷積,以加強網絡特征提取能力,達到提高模型檢測精度的目的,也即本文所提出的MF-CenterNet模型。為驗證使用FPN的效果,本文對使用FPN改進MobileNetv2-CenterNet前后的網絡結果進行對比,并與其他常見用于目標檢測的CNN模型進行比較,其結果如表3所示。
由表3可見,本文所提出的MF-CenterNet目標檢測模型對真實場景下群養(yǎng)生豬目標檢測精度最高,其檢測精度達到94.30%,較沒有集成FPN的MobileNetv2-CenterNet檢測精度提高了0.93個百分點,比Faster-RCNN、SSD、YOLOv3、YOLOv4、CenterNet目標檢測模型分別提高了6.39、4.46、6.01、2.74、0.63個百分點。與此同時,檢測速度達到69 幀/s,比改進FPN之前MobileNetv2-CenterNet快了7 幀/s,與Faster-RCNN、SSD、YOLOv3、YOLOv4相比,檢測測速度分別提高了54、47、45、43 幀/s。
表2 原CenterNet與集成不同版本MobileNet后的試驗結果對比
表3 不同生豬目標檢測模型性能對比
模型大小上,MF-CenterNet僅為21MB,相比于Faster-RCNN、SSD、YOLOv3、YOLOv4分別降低了249、70、214、223 MB,較MobileNetv2-CenterNet減小了104 MB。因此集成FPN后的目標檢測模型MF-CenterNet有效的提高了生豬檢測效果。本節(jié)所做試驗證明了使用FPN結構替換原轉置卷積,不僅可以提高一定的檢測精度,而且進一步提高了檢測精速度、降低了模型大小。為了更直觀展示本文所提出模型在不同召回率下所對應的準確率,將MF-CenterNet目標檢測網絡的精確度結果可視化為PR曲線,曲線與橫縱坐標所圍成的面積即為精確度值,MF-CenterNet目標檢測網絡PR曲線如圖7所示。
為更直觀體現MF-CenterNet目標檢測模型的檢測結果,本節(jié)將MF-CenterNet模型和原始CenterNet模型以及只改進主干網絡的MobileNetv2-CenterNet模型的生豬目標檢測結果進行對比,如圖8所示,圖中CenterNet及MobileNetv2-CenterNet均有未被檢測出的生豬目標,由此可見,MF-CenterNet模型有效提高了群養(yǎng)生豬的目標檢測效果,尤其是對遮擋目標和小目標均有很好的檢測,滿足對真實場景下群養(yǎng)生豬目標檢測的需求。
表4給出了本文所提MF-CenterNet模型在本文測試集中的生豬目標檢測結果以及現有生豬目標檢測方法在其文獻中報告的檢測結果。其中,文獻[17]是通過采用BING算法提取圖像候選區(qū)域,通過改進CNN模型對候選框分類,最后利用非極大值抑制算法剔除冗余候選框,實現對生豬目標的檢測。文獻[20]是將深度為3的特征金字塔注意力模塊FPA(即FPA-3)與Tiny-YOLOv3相結合,對不同場景下的多目標生豬個體進行檢測。文獻[21]則通過使用稀疏化可分離卷積(S-DSC)對SSD進行改進,訓練時自主采樣困難樣本并精簡模型預測網絡實現生豬目標的快速檢測。
由表3可以看出,本文所提出的MF-CenterNet模型盡管在檢測精度上并未達到最高,相比于其他文獻中所提方法在平均精度上低1~2個百分點,考慮可能存在的原因是,一方面,本文所用圖像均為斜側方位進行拍攝,生豬相互遮擋情況較其他文獻中使用的數據較為明顯,提高了對生豬目標檢測的難度;另一方面,本文試驗所用的圖像中,生豬個數平均在13頭以上,而文獻[17,20—21]所使用的圖像中生豬個數平均在6~7頭,這也提高了目標檢測的難度。與文獻[17]及文獻[21]的網絡相比本文所改進的網絡更加輕量化,滿足實時檢測的需求。與文獻[20]相比,本文所選用的基礎網絡CenterNet相比于YOLOv3具有更好的檢測精度,再通過特征金字塔結構進行優(yōu)化,進一步提高檢測效果。雖然本文所提出的改進方案有效地提高了原始模型的檢測效果,但在目前生豬檢測領域并未處于最前端行列,尤其是檢測精度相對較低。雖然本文所改進的MF-CenterNet檢測精度相對較低,但在檢測速度上,本文所改進的MF-CenterNet模型提升較為顯著,分別較現有工作提高了67、57、21.5 幀/s。同時在模型大小上,與現有文獻中的參數相比,本文所提的MF-CenterNet模型也具有較為突出的優(yōu)勢。
表4 MF-CenterNet與現有檢測方法結果對比
綜上,本文提出的輕量型MF-CenterNet群養(yǎng)生豬目標檢測模型在保證模型輕量化、檢測實時性的同時,在檢測精度上也達到很好的效果,滿足對真實養(yǎng)殖環(huán)境下群養(yǎng)生豬的實時、精準檢測。
本文提出了一種輕量型的MF-CenterNet群養(yǎng)生豬目標檢測模型,在滿足實時檢測和模型輕量化的同時,有效提高了群養(yǎng)條件下相互遮擋和較小尺寸生豬目標的檢測能力,在群養(yǎng)生豬出現擁擠或遮擋的場景下,平均精度達到94.30%,目標檢測速度達到69 幀/s,模型大小僅為21 MB。與經典網絡模型Faster-RCNN、SSD、YOLOv3、YOLOv4相比,平均精度分別提高了6.39、4.46、6.01、2.74個百分點,檢測速度增加了54、47、45、43 幀/s,模型大小減少了249、70、214、223 MB。通過采用MobileNetv2改進CenterNet的主干網絡,并結合FPN加強模型特征提取能力,在保證模型檢測實時性和輕量化的同時增加了平均精度,與原網絡CenterNet相比平均精度提高了0.63個百分點。本文工作為實現生豬養(yǎng)殖過程中實時精準的數量盤點提供了方法,此外,通過與生豬個體質量估測、飲食排泄頻次統(tǒng)計、攻擊咬尾行為識別等健康監(jiān)測模型相結合,為規(guī)?;B(yǎng)殖場實現精準、個性化的生豬健康監(jiān)測提供了思路。接下來,本文將進一步研究改進加強特征提取網絡、減少網絡結構層、增加注意力機制等方法,在保證實時檢測及網絡輕量化的同時提高檢測精度,根據應用需求與資源限制,構建精確度與速度相平衡的輕量級網絡。
[1] 華利忠,馮志新,張永強,等. 以史為鑒,淺談中國非洲豬瘟的防控與凈化[J]. 中國動物傳染病學報,2019,27(2):96-104.
Hua Lizhong, Feng Zhixin, Zhang Yongqiang, et al. Prevention and control of African swine fever in China[J]. Chinese Journal of animal infectious diseases, 2019, 27(2): 96-104. (in Chinese with English abstract)
[2] 劉杏,王鳳雪,溫永俊,等. 豬繁殖與呼吸綜合征病毒和豬圓環(huán)病毒2型混合感染的流行病學調查[J]. 吉林農業(yè)大學學報,2016,38(4):456-459.
Liu Xing, Wang Fengxue, Wen Yongjun, et al. Epidemiological investigation on mixed infection of porcine reproductive and respiratory syndrome virus and porcine circovirus type 2[J]. Journal of Jilin Agricultural University, 2016, 38(4): 456-459. (in Chinese with English abstract)
[3] 任鵬舉,李鵬,張秋雨,等. 新型豬瘟疫苗的研究進展[J]. 中國畜牧獸醫(yī),2018,45(7):1958-1964.
Ren Pengju, Li Peng, Zhang Qiuyu, et al. Research progress of new classical swine fever vaccine[J]. Chinese animal husbandry and veterinary, 2018, 45(7): 1958-1964. (in Chinese with English abstract)
[4] 楊心,朱偉興. 基于廣義Hough聚類的粘連豬頭尾識別[J]. 江蘇農業(yè)科學,2018,46(9):230-235.
Yang Xin, Zhu Weixing. Recognition of conglutinated pig head and tail based on Generalized Hough clustering[J]. Jiangsu Agricultural Sciences, 2018, 46(9): 230-235. (in Chinese with English abstract)
[5] 馬麗,紀濱,劉宏申,等. 單只豬輪廓圖的側視圖識別[J]. 農業(yè)工程學報,2013,29(10):168-174.
Ma Li, Ji Bin, Liu Hongshen, et al. Side view recognition of single pig contour map[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(10): 168-174. (in Chinese with English abstract)
[6] 謝雙云,王芳,田建艷,等. 融合高斯混合建模和圖像?;呢i只目標檢測[J]. 黑龍江畜牧獸醫(yī),2016(1):29-32.
Xie Shuangyun, Wang Fang, Tian Jianyan, et al. Pig target detection based on Gaussian mixture modeling and image granulation[J]. Heilongjiang Animal Husbandry and veterinary, 2016(1): 29-32. (in Chinese with English abstract)
[7] Shaoqing R, Kaiming H, Ross G, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.
[8] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.
[9] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE Computer Society: Piscataway, NJ. 2016: 779-788.
[10] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 6517-6525.
[11] Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. [2019-07-10]. USA: 2018. https: //arxiv. org/abs/1804. 02767
[12] Bochkovskiy A, Wang C Y, Liao H. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004. 10934, 2020.
[13] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision(CVPR). IEEE Computer Society: Piscataway, NJ. 2016: 21-37.
[14] Riekert M, Klein A, Adrion F, et al. Automatically detecting pig position and posture by 2D camera imaging and deep learning[J]. Computers and Electronics in Agriculture, 2020, 174: 105391.
[15] Yang Q, Xiao D, Lin S. Feeding behavior recognition for group-housed pigs with the Faster R-CNN[J]. Computers and Electronics in Agriculture, 2018, 155: 453-460.
[16] Cowton J, Kyriazakis I, Bacardit J. Automated individual pig localisation, tracking and behaviour metric extraction using deep learning[J]. IEEE Access, 2019, 7: 108049-108060.
[17] 王婷婷. 改進的Faster R-CNN在目標參數測量方面的研究與應用[D]. 哈爾濱:哈爾濱工程大學,2018.
Wang Tingting. Research and Application of Improved Fast r-cnn in Target Parameter Measurement[D]. Harbin: Harbin Engineering University, 2018. (in Chinese with English abstract)
[18] 謝濤. 基于深度學習的生豬行走行為視頻檢測與分析[D]. 太原:太原理工大學,2019.
Xie Tao. Video Detection and Analysis of Pig Walking Behavior Based on Deep Learning[D]. Taiyuan: Taiyuan University of technology, 2019. (in Chinese with English abstract)
[19] 蘇恒強,鄭篤強. 基于深度學習技術生豬圖像目標檢測算法的應用研究[J]. 吉林農業(yè)大學學報,2020,5:1-8.
Su Hengqiang, Zheng Duqiang. Application research on pig image target detection algorithm based on deep learning technology[J]. Journal of Jilin Agricultural University, 2020, 5: 1-8. (in Chinese with English abstract)
[20] 燕紅文,劉振宇,崔清亮,等. 基于特征金字塔注意力與深度卷積網絡的多目標生豬檢測[J]. 農業(yè)工程學報,2020,36(11):193-202.
Yan Hongwen, Liu Zhenyu, Cui Qingliang, et al. Multi target pig detection based on feature pyramid attention and deep convolution network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 193-202. (in Chinese with English abstract)
[21] Hanse A, Wonseok C, Sunhwa P, et al. Image processing and deep learning techniques for fast pig's posture determining and head removal[J]. KIPS Transactions on Software and Data Engineering, 2019, 8(11): 457-464.
[22] 李泊,沈明霞,劉龍申,等. 基于YOLO v3與圖結構模型的群養(yǎng)豬只頭尾辨別方法[J]. 農業(yè)機械學報,2020,51(7):44-51.
Li Bo, Shen Mingxia, Liu Longshen, et al. Head and tail discrimination method of group pig based on YOLO v3 and graph structure model[J]. Acta mechanization agrica Sinica, 2020, 51(7): 44-51. (in Chinese with English abstract)
[23] Zhou X, Wang D, Krhenbühl P. Objects as points[J]. arXiv preprint arXiv, 2019, 1904: 07850
[24] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C].// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016: 770-778.
[25] Xu Y, Yan W, Sun H, et al. CenterFace: Joint face detection and alignment using face as point[J]. Scientific Programming, 2020, 1314-1324 .
[26] Howard A, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017, 1704–1712.
[27] Sandler, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018, 4510–4520.
[28] Howard A, Sandler M, Chu G, et al. Searching for MobileNetV3[C]. // Proceedings of the IEEE International Conference on Computer Vision, 2019, 140.
Detection of group-housed pigs based on improved CenterNet model
Fang Junlong, Hu Yuhang, Dai Baisheng※, Wu Zhidong
(1.,,150030,; 2.,,150030,)
Rapid and accurate detection of pigs has been critical to intelligent monitoring of health status within a group-housed breeding environment on large-scale farms. However, a large number of parameters make it difficult to achieve real-time performance in edge computing platforms for practical production. In this study, an improved CenterNet model (named MF-CenterNet) was proposed to detect pigs in group-housed breeding conditions, in order to improve the real-time performance of detection and the accuracy of localizing pigs with body occluded and small body size. An anchor-free CenterNet was also used to ensure the accuracy of detection, especially for the pig with body occluded. A lightweight MobileNet network was first introduced into the CenterNet (instead of ResNet50), as the backbone network of feature extraction for the smaller model size and higher detection speed. In addition, the feature pyramid structure (FPN) was then added to improve the ability of feature extraction for small pig objects. As such, the CenterNet was integrated with the MobileNet and FPN, named MF-CenterNet (i.e., MobileNet-FPN-CenterNet, MF-CenterNet). An image dataset of a private pig was collected to evaluate the performance of MF-CenterNet. All images were then captured from Jincheng Farm, Qiqihar City, Heilongjiang Province, China. Specifically, 1683 video frames were extracted from the video recording of pigs collected in the commercial pig farm, and 6732 images were obtained with the operation of the data argument. All pig objects within the images were then labeled with the labeling tool. The experimental results show that the size of the MF-CenterNet model was only 21MB, which satisfied the deployment of the model to an edge computing platform. The mean average precision (mAP) of pig detection was 94.30%, and the detection speed was up to 69 frames/s. The model of CenterNet integrated with MobileNetv2 achieved the best performance, in terms of accuracy, speed, and model size, where different versions of Mobile Net were combined. The CenterNet model integrated with the MobileNetv2 and FPN (MF-CenterNet) further improved the detection performance, indicating more robust in detecting the pig objects with small body size and body occluded. The improved MF-CenterNet greatly increased the mAP by 0.63percentage points, and the speed by 42 frames/s, while the size of the model was reduced by 104 MB, compared with the original CenterNet. Furthermore, the mAP detection was improved by 6.39, 4.46, 6.01, and 2.74percentage points, while, the detection speed was improved by 54, 47, 45, and 43 frames/s, respectively, compared with the common CNN-based object detection models, including Farster RCNN, SSD, YOLOV3, and YOLOV4 model. Consequently, the MF-CenterNet achieved the state-of-the-art mAP performance, higher detection speed, and the deployability of the model in a substantial manner. Therefore, this lightweight object detection model, MF-CenterNet, can meet the requirements of real-time, rapid, and high accuracy of detection on the group-housed pigs. The finding can also be expected to serve as a new way for real-time detection and prerequisite model in the behavior analysis of pigs during modern intensive production.
computer vision; image processing; group-housed pig; object detection; mobileNet; FPN; centerNet
房俊龍,胡宇航,戴百生,等. 采用改進CenterNet模型檢測群養(yǎng)生豬目標[J]. 農業(yè)工程學報,2021,37(16):136-144.doi:10.11975/j.issn.1002-6819.2021.16.017 http://www.tcsae.org
Fang Junlong, Hu Yuhang, Dai Baisheng, et al. Detection of group-housed pigs based on improved CenterNet model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 136-144. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.16.017 http://www.tcsae.org
2021-03-10
2021-07-21
國家重點研發(fā)計劃項目(2018YFD0500704);國家自然科學基金青年科學基金項目(31902210);黑龍江省高校青年創(chuàng)新人才培養(yǎng)計劃項目(UNPYSCT-2018142);黑龍江省科學基金青年科學基金項目(QC2018074);東農學者計劃“青年才俊”項目(18QC23);農業(yè)部生豬養(yǎng)殖設施工程重點實驗室開放課題(SK201707);財政部和農業(yè)農村部:國家現代農業(yè)產業(yè)技術體系資助
房俊龍,博士,教授,博士生導師。研究方向為智能檢測與控制。Email:junlongfang@126.com
戴百生,副教授。研究方向為視覺智能計算、智慧畜牧。Email:bsdai@neau.edu.cn
10.11975/j.issn.1002-6819.2021.16.017
TP391
A
1002-6819(2021)-16-0136-09