燕紅文,劉振宇,崔清亮,胡志偉,李艷文
基于改進Tiny-YOLO模型的群養(yǎng)生豬臉部姿態(tài)檢測
燕紅文1,劉振宇1,崔清亮2※,胡志偉1,李艷文1
(1. 山西農(nóng)業(yè)大學信息科學與工程學院,太谷 030801;2. 山西農(nóng)業(yè)大學工學院,太谷 030801)
生豬臉部包含豐富的生物特征信息,對其臉部姿態(tài)的檢測可為生豬的個體識別和行為分析提供依據(jù),而在生豬群養(yǎng)場景下,豬舍光照、豬只黏連等復雜因素給生豬臉部姿態(tài)檢測帶來極大挑戰(zhàn)。該文以真實養(yǎng)殖場景下的群養(yǎng)生豬為研究對象,以視頻幀數(shù)據(jù)為數(shù)據(jù)源,提出一種基于注意力機制與Tiny-YOLO相結(jié)合的檢測模型DAT-YOLO。該模型將通道注意力和空間注意力信息引入特征提取過程中,高階特征引導低階特征進行通道注意力信息獲取,低階特征反向指引高階特征進行空間注意力篩選,可在不顯著增加參數(shù)量的前提下提升模型特征提取能力、提高檢測精度。對5欄日齡20~105 d的群養(yǎng)生豬共35頭的視頻抽取504張圖片,共計3 712個臉部框,并標注水平正臉、水平側(cè)臉、低頭正臉、低頭側(cè)臉、抬頭正臉和抬頭側(cè)臉6類姿態(tài),構(gòu)建訓練集,另取420張圖片共計2 106個臉部框作為測試集。試驗表明,DAT-YOLO模型在測試集上對群養(yǎng)生豬的水平正臉、水平側(cè)臉、低頭正臉、低頭側(cè)臉、抬頭正臉和抬頭側(cè)臉6類姿態(tài)預測的AP值分別達到85.54%、79.30%、89.61%、76.12%、79.37%和84.35%,其6類總體mAP值比Tiny-YOLO模型、僅引入通道注意力的CAT-YOLO模型以及僅引入空間注意力的SAT-YOLO模型分別提高8.39%、4.66%和2.95%。為進一步驗證注意力在其余模型上的遷移性能,在同等試驗條件下,以YOLOV3為基礎模型分別引入兩類注意力信息構(gòu)建相應注意力子模型,試驗表明,基于Tiny-YOLO的子模型與加入相同模塊的YOLOV3子模型相比,總體mAP指標提升0.46%~1.92%。Tiny-YOLO和YOLOV3系列模型在加入注意力信息后檢測性能均有不同幅度提升,表明注意力機制有利于精確、有效地對群養(yǎng)生豬不同類別臉部姿態(tài)進行檢測,可為后續(xù)生豬個體識別和行為分析提供參考。
圖像處理;模型;目標檢測;Tiny-YOLO;通道注意力;空間注意力
隨著生豬養(yǎng)殖規(guī)模不斷擴大,養(yǎng)殖密度不斷增加,對群養(yǎng)環(huán)境中的生豬個體進行自動有效識別,為其建檔立卡并構(gòu)建養(yǎng)殖可追溯系統(tǒng),對實現(xiàn)豬場養(yǎng)殖的精準管理具有重要意義。生豬臉部的眼、鼻、耳等可辨識性個體信息對生豬個體識別至關(guān)重要,準確有效地生豬臉部檢測可為生豬個體識別與規(guī)模化養(yǎng)殖決策制定提供技術(shù)支撐[1-2]。
隨著深度學習技術(shù)的成熟,基于卷積神經(jīng)網(wǎng)絡CNN(convolutional neural network)的視覺分析技術(shù)在生豬姿態(tài)檢測[3]、生豬圖像分割[4-7]、生豬個體識別[8]等諸多領域取得較大進展,并在目標檢測領域同樣表現(xiàn)出優(yōu)越性能[9-13]。CNN檢測框架包括基于區(qū)域[14-15]和基于回歸兩大系列。其中以YOLOV1[16]、YOLOV2[17]、YOLOV3[18]和Tiny-YOLO[19]為代表的基于回歸的方法能在保證檢測精度的同時提升檢測速度,適用于規(guī)?;a(chǎn)環(huán)境中,并已被用于芒果[20]、蘋果[21]、生豬個體[22]等目標的檢測定位。而在生豬臉部姿態(tài)檢測方面,經(jīng)現(xiàn)有文獻查證,未有學者對此領域做過相關(guān)研究。此外上述基于YOLO的系列方法認為特征圖中每個區(qū)域?qū)δP妥罱K檢測結(jié)果貢獻度相同,而在群養(yǎng)生豬臉部姿態(tài)檢測中,豬體、豬糞、豬食等噪聲信息均不利于臉部位置精確提取,若可有效抑制此類信息,并對豬臉所在區(qū)域特征施以較高權(quán)重則可更好的提升檢測精度。注意力機制的出現(xiàn)可有效解決此類問題,該機制在處理信息時只關(guān)注部分有利于任務實現(xiàn)的區(qū)域信息,濾除次要信息以提升模型效果,并已在圖像分類[23]、圖像分割[24]領域得到成熟應用,而在目標檢測領域仍處于探索階段[25],因而探討將該機制用于豬舍場景下群養(yǎng)生豬臉部定位成為可能。
基于此,本文提出一種基于Tiny-YOLO模型的非接觸、低成本的群養(yǎng)生豬臉部姿態(tài)檢測新方法,該方法將通道注意力和空間注意力機制相結(jié)合以構(gòu)建雙重注意力子模型DAT-YOLO進行端到端訓練,實現(xiàn)對群養(yǎng)生豬水平正臉、水平側(cè)臉、低頭正臉、低頭側(cè)臉、抬頭正臉和抬頭側(cè)臉6類姿態(tài)高精度檢測,避免豬只黏連、豬舍光照等干擾因素對檢測效果的影響,以期為生豬智能養(yǎng)殖與管理提供技術(shù)參考。
數(shù)據(jù)采集自山西省汾陽市冀村鎮(zhèn)東宋家莊村,為獲取不同豬舍場景的生豬圖像,于2019年6月1日9:00-14:00(晴,光照強烈)選取3個豬場進行視頻采集,每個豬場由10~30間豬欄構(gòu)成,每欄數(shù)量5~8只不等,豬欄大小約為3.5 m×2.5 m×1 m。選取5欄日齡20~105 d的群養(yǎng)生豬共計35頭,采用佳能700D防抖鏡頭,移動拍攝時生豬距離鏡頭0.3~3 m不等,因而可用于采集不同大小豬臉區(qū)域。因?qū)嶋H場景下群養(yǎng)生豬臉部姿態(tài)具有隨機性,并非均是正臉面朝鏡頭,故將臉部姿態(tài)細分為正臉與側(cè)臉,同時,不同角度生豬個體臉部蘊含信息差異較大,故最終將臉部姿態(tài)細化標注為水平正臉、水平側(cè)臉、低頭正臉、低頭側(cè)臉、抬頭正臉和抬頭側(cè)臉6類。標注時將耳部作為臉部與身體部位分界點,且對未出現(xiàn)在采集范圍或眼部未出現(xiàn)在鏡頭中的臉部不做任何標注,其每類姿態(tài)詳細標注原則如表1所示。
表1 生豬臉部6類姿態(tài)定義
注:夾角的正負定義為嘴部最低點與頸部連線的夾角在頸部水平方向上方為正,在頸部水平方向下方為負。
Note: The positive and negative angle is defined as positive when the angle between the lowest point of mouth and the line of neck is above the horizontal direction of neck and negative below the horizontal direction of neck.
將采集的視頻數(shù)據(jù)進行下列操作以構(gòu)建生豬臉部姿態(tài)檢測數(shù)據(jù)集:
1)對采集的視頻做切割視頻幀處理,對獲取到的1 920×1 080分辨率圖像邊緣添加黑色像素值操作以使其寬高比為2:1,完成后像素值變?yōu)? 048×1 024,并采用labelImg[26]作為臉部姿態(tài)標注工具,其過程如圖1a~1b所示。
2)因本文檢測模型輸入分辨率為416×416,故對上述處理后的圖片每2張進行拼接操作得到方形圖片,其分辨率為2 048×2 048,對獲取的圖片做放縮操作,將分辨率最終轉(zhuǎn)換為416×416,以減少運算量,提高模型訓練速度,同時對步驟1)中所標注的臉部位置進行相應坐標變換,以獲取放縮后圖像對應的臉部坐標信息,其過程如圖1c~1d所示。由圖1可見,雖然豬的頭部也位于鏡頭采集范圍內(nèi),但其眼部并未呈現(xiàn),故本文未對其進行標注。
圖1 數(shù)據(jù)處理過程
經(jīng)上述2步處理后,本文共得到標注圖像989張,按照通用數(shù)據(jù)集劃分策略[27],將其中504張作為訓練集,65張作為驗證集,420張作為測試集。訓練集包含3 712個生豬臉部框,測試集包含2 106個豬臉框,對訓練集與測試集中每類姿態(tài)標注框數(shù)量統(tǒng)計結(jié)果如表2所示。由表2可知,訓練集與測試集上6種姿態(tài)數(shù)目不等會帶來數(shù)據(jù)不均衡問題,本研究對該問題的處理見5.1討論部分所示。
表2 訓練集測試集各個姿態(tài)類別數(shù)量
YOLOV1、YOLOV2和YOLOV3是Joseph等[16-18]提出的目標檢測通用模型,Tiny-YOLO是輕量化YOLOV3,其融合了最新的特征金字塔網(wǎng)絡[12](feature pyramid networks,F(xiàn)PN)和全卷積網(wǎng)絡[28](fully convolutional networks,F(xiàn)CN)技術(shù),模型結(jié)構(gòu)更簡單,檢測精度更高,速度更快[29]。
Tiny-YOLO模型主要由卷積層與池化層拼接構(gòu)成,其模型結(jié)構(gòu)如圖2所示。模型輸入圖像分辨率為416×416×3,經(jīng)過一系列3×3和1×1卷積、池化以及上采樣操作,可對輸入圖像進行特征提取,每步提取完成后特征圖尺寸如圖3中長方體底部數(shù)字所示,數(shù)字項分別表示特征圖分辨率寬×分辨率高×通道數(shù)。由于不同種類目標在原始圖中所占比例差異較大,Tiny-YOLO引入多尺度特征提取模塊以保證對不同大小目標均具有較強的檢測性能。模型最終輸出2個尺度特征圖,如圖2中①、②所示。多尺度特征圖對于同一目標可能會有多個檢測結(jié)果,Tiny-YOLO引入非極大值抑制(non maximum suppression, NMS)[30]剔除冗余的檢測框以使得對于每個目標均有唯一檢測框,使其位置信息更準確,置信度更高。但Tiny-YOLO模型在特征提取過程中,對特征圖中的每個區(qū)域均賦予相同權(quán)重值,而在生豬臉部姿態(tài)檢測中,圖像中的豬臉、豬蹄和豬舍等部位對豬臉區(qū)域精確定位貢獻度不同,應賦予不同權(quán)重值。降低豬蹄、豬舍等噪聲信息的影響,強化豬臉區(qū)域特征,可提升定位準確度。
注:L表示低階特征圖,H表示高階特征圖信息,F(xiàn)表示高低階融合特征圖,①、②分別表示對輸入圖像的2種不同尺度檢測結(jié)果。
2.2.1 引入通道注意力模塊
因不同通道信息對檢測結(jié)果貢獻度不同,本文引入通道注意力(channel attention block, CAB)模塊對特征圖各個通道間的依賴性進行建模,可使同一特征圖的不同位置具有相同的通道權(quán)重信息,使模型能選擇性地強化重要信息并抑制弱相關(guān)特征,進而提高模型表征能力,可精確定位生豬臉部,其結(jié)構(gòu)如圖3所示。全局平均池化[31-32]常被用于匯集空間通道信息,該操作通過壓縮輸入特征圖空間維度生成特征圖像素點反饋信息以計算通道注意力,但其斷然將特征圖中的每一點對通道注意力信息的獲取視為具有同等作用,削弱了特征強度較大區(qū)域?qū)νǖ雷⒁饬π畔⒌挠绊?。而全局最大池化在梯度反向傳播過程中僅計算響應最大地方的梯度反饋,可進一步強化敏感區(qū)域以彌補全局平均池化的短板。為此,本文CAB模塊在傳統(tǒng)通道注意力模塊中加入全局最大池化操作,通過對高階特征進行全局平均與最大池化融合得到通道權(quán)重向量以引導低階特征圖進行通道選擇,實現(xiàn)特征響應與特征重校準效果。
其核心操作如圖3中虛線框部分所示,其計算為式(1)~式(3)。
注:Higher表示高階特征,Lower表示低階特征。與分別表示全局平均池化與全局最大池化,與分別表示經(jīng)隱藏層處理后的全局平均池化與全局最大池化值,W0與W1分別表示隱藏層參數(shù)矩陣,s表示sigmoid激活函數(shù),BC(H)表示最終獲取的通道注意力信息。
2.2.2 引入空間注意力模塊
為有效編碼特征圖內(nèi)部像素點間關(guān)系,本文引入空間注意力(spatial attention block,SAB)模塊以對特征圖內(nèi)部元素進行建模,不同通道特征圖中相同位置處具有相同的空間權(quán)重信息。不同于通道注意力對特征圖中的每一通道內(nèi)部的所有特征點共享相同權(quán)重,空間注意力區(qū)別對待于特征圖中的每一點,將所有通道中相同位置處的值進行全局平均池化與最大池化融合操作以獲取指定位置處的空間權(quán)重值,用以補充通道注意力機制無法較好獲取的位置關(guān)系信息,進而用于對特征圖中各個位置特征值進行篩選以突出適用于生豬臉部姿態(tài)檢測的特征,其核心操作如圖4中虛線框所示,其計算為式(4)。
圖4 空間注意力模塊
Fig.4 Spatial attention block
2.2.3 融合通道與空間注意力的DAT-YOLO模型
本文提出融合CAB與SAB模塊的DAT-YOLO(dual attention tiny-YOLO)模型,對Tiny-YOLO模型進行改進,用于群養(yǎng)環(huán)境下多角度生豬臉部姿態(tài)檢測,其模型結(jié)構(gòu)如圖5所示。DAT-YOLO在Tiny-YOLO模型中引入通道注意力塊與空間注意力塊兩類模塊以選擇性融合深淺層特征,高階特征引導低階特征進行通道注意力獲取,低階特征反向指引高階特征進行空間注意力篩選,可在不顯著增加計算量和參數(shù)量的前提下提升模型特征提取能力。因群養(yǎng)狀態(tài)下生豬個體距攝像儀位置不同,故其所采集的生豬臉部面積差異較大,DAT-YOLO保留了Tiny-YOLO的多尺度特征提取模塊以保證對不同大小臉部有較強的檢測性能。DAT-YOLO模型核心部件如圖5中最外層虛框所示,其計算為式(5)。
本文采用目標檢測領域公認的平均檢測精度mAP以及精確率-召回率(precision-recall,-)曲線變化情況作為評價標準以衡量4種模型對生豬臉部姿態(tài)檢測性能。-曲線反映的是不同召回率與對應召回率下最大精確率間的關(guān)系變化情況,檢測精度AP指-曲線下方面積,mAP指同一模型對6種生豬臉部姿態(tài)類別的AP平均值。Precision、Recall、AP及mAP定義如式(6)~式(9)所示。
注:表示經(jīng)過高階特征通道篩選后的低階特征信息,表示經(jīng)過低階特征空間篩選后的高階特征信息
其中TP表示模型預測為正實際為正的樣本數(shù)量;FP表示模型預測為正實際為負的樣本數(shù)量;FN表示模型預測為負實際為正的樣本數(shù)量;,分別表示精確率與召回率;表示姿態(tài)類別總數(shù),本文取6,C表示當前第個類別,的取值范圍為1~6。
試驗平臺配置為Intel(R) Core(TM)i7-6700CPU@ 3.40 GHz 處理器,8 GB 運行內(nèi)存,1 T 硬盤容量,12 GB GTX Titan X GPU,系統(tǒng)為CentOS7.4。采用keras[33]框架進行模型代碼的編寫。將數(shù)據(jù)集分為訓練集、驗證集及測試集3 個部分,其中訓練集大小為 504,驗證集大小為65,測試集大小為420。為避免內(nèi)存溢出,采取批訓練方式對Tiny-YOLO與YOLOV3兩類系列8個子模型在訓練集和驗證集上進行試驗,訓練時一個批次(batch)包含16張圖片,遍歷1次全部訓練集數(shù)據(jù)稱為1次迭代,本文設置迭代次數(shù)為300。8個子模型均采用與Redmon[18]一致的loss損失函數(shù),采用自適應矩陣估計算法(adaptive moment estimation,Adam)[34]優(yōu)化模型,初始學習率設置為0.000 1,每次更新權(quán)值時使用BN(batch normalization)[35]進行正則化。為使模型能檢測不同大小的生豬臉部,引入Faster R-CNN的錨框(anchor boxes)[15]思想,通過使用K-means算法對訓練集錨框進行聚類,針對圖5 中Tiny-YOLO系列模型①與②每種尺度分別生成2種不同大小的潛在待識別目標的錨框,最終獲得4個錨點,其大小分別為(23×27)(37×58)(81×82)(135×169),其中尺度①使用后2個錨點,適合檢測較大臉部對象,尺度②使用前2個錨點,適合檢測較小對象,針對YOLOV3系列模型,共有9個錨點框,其大小分別為(10×13)(16×30)(33×23)(30×61)(62×45)(59×119)(116×90)(156×198)(373×326),其中前3個錨點框適合檢測較小臉部對象,中間3個錨點框適合檢測中等大小臉部框,后3個錨點框適合檢測較大臉部對象。在計算mAP指標值時,參照PASCAL VOC2012 mAP評價指標[36]定義方式,設置當檢測框與手動標注框的IOU[37]值超過0.5且檢測類別相同時視為檢測正確。
本文移除圖5中CAB模塊構(gòu)建SAT-YOLO(spatial attention tiny-YOLO)子模型、移除SAB模塊構(gòu)建CAT-YOLO(channel attention tiny-YOLO)子模型以測試2類注意力模塊在Tiny-YOLO系列模型上的有效性。同時為進一步驗證注意力信息在其余模型上的遷移性能,基于YOLOV3模型分別構(gòu)建CA-YOLOV3(channel attention YOLOV3)、SA-YOLOV3(spatial attention YOLOV3)與DA-YOLOV3(dual attention YOLOV3)子模型,并評估其各自性能狀況。
表3為Tiny-YOLO模型8種子模型對生豬6種臉部姿態(tài)識別的AP以及總體mAP,不同模型間采用相同的試驗訓練參數(shù),并在相同測試集上驗證模型的有效性,其中每一系列模型均進行完全不引入注意力、僅引入通道注意力、僅引入空間注意力與同時引入2種注意力各4組試驗,以驗證注意力機制有效性。
試驗結(jié)果表明:
1)基于Tiny-YOLO的子模型在水平側(cè)臉、低頭正臉、抬頭側(cè)臉姿態(tài)類別的AP值均優(yōu)于基于YOLOV3的子模型,且對低頭正臉類別的提升幅度最大,由表2可知,在對低頭正臉類別預測的AP值方面,Tiny-YOLO系列模型相較于YOLOV3系列模型提高了2.20%~8.59%。Tiny-YOLO系列模型雖對水平正臉和低頭側(cè)臉姿態(tài)類別未能取得最佳AP值,但其值與YOLOV3系列加入相同注意力模塊的子模型相比仍具有較強競爭力。Tiny-YOLO系列模型的總體mAP指標與加入相同注意力模塊的YOLOV3系列模型相比提高了0.46%~1.92%,且對同時加入2類注意力模塊的子模型,DA-YOLOV3模型預測mAP值達到81.92%,DAT-YOLO模型預測mAP值達到82.38%,取得了相應系列模型最優(yōu)值,而對于單獨引入通道或者空間注意力的mAP指標,
SA-YOLOV3預測mAP值達到78.30%,CA-YOLOV3預測mAP值達到75.80%,SA-YOLOV3預測效果優(yōu)于SA-YOLOV3預測效果,SAT-YOLO模型預測mAP值達到79.43%,CAT-YOLO模型預測mAP值達到77.72%,SAT-YOLO預測效果優(yōu)于CAT-YOLO預測效果,這表明注意力信息尤其是空間注意力對YOLOV3和Tiny-YOLO系列模型性能影響更大。雖然YOLOV3網(wǎng)絡層次更深,但在本文試驗數(shù)據(jù)環(huán)境中,其性能劣于Tiny-YOLO系列模型,理論上網(wǎng)絡層次越深,其特征表征能力越強,但深層網(wǎng)絡可能會帶來梯度消失問題,導致反向傳播算法無法將梯度有效傳回。此外,本文群養(yǎng)生豬圖片具有背景可控、豬只所占圖片像素比例較大的特點,對場景語義豐富度較弱的圖片,淺層網(wǎng)絡往往具有更優(yōu)的檢測性能。基于上述試驗結(jié)果,本文后續(xù)其他指標分析主要集中于性能較優(yōu)的Tiny-YOLO系列模型。
2)Tiny-YOLO系列模型的DAT-YOLO子模型在多數(shù)類別上均能取得最佳AP值。與同系列模型其余3種子模型相比,DAT-YOLO模型的mAP值提高2.95%~8.39%。DAT-YOLO對抬頭側(cè)臉類別預測的AP值比其余3種子模型最優(yōu)值提高6.59%,提升幅度最大。雖然DAT-YOLO對低頭側(cè)臉類別未能達到最優(yōu)效果,但僅比其余3種子模型的最佳值低1.31%,說明DAT-YOLO子模型最適用于群養(yǎng)狀態(tài)下生豬臉部姿態(tài)識別。
3)引入注意力機制在很大程度上提升了生豬臉部姿態(tài)檢測準確率。在Tiny-YOLO模型中引入通道注意力或空間注意力后的子模型,SAT-YOLO比Tiny-YOLO模型的mAP提高5.44%,CAT-YOLO比Tiny-YOLO模型的mAP提高3.73%,DAT-YOLO比Tiny-YOLO模型的mAP提高8.39%,其性能均優(yōu)于Tiny-YOLO模型,且DAT-YOLO子模型的效果最優(yōu),其mAP分雖較CAT-YOLO、SAT-YOLO提高4.66%和2.95%,這是因為通道注意力可對特征圖的不同通道賦予不同特征,選擇性增大包含生豬臉部通道的權(quán)重值,空間注意力對同一特征圖不同位置特征點給予不同權(quán)重,區(qū)別對待特征圖內(nèi)部像素點,強化臉部特征值貢獻率,兩者結(jié)合可總體提升檢測準確率,這表明了注意力機制對生豬臉部姿態(tài)檢測的有效性。對僅引入一種注意力的子模型,SAT-YOLO提升幅度一般較高于CAT-YOLO,其mAP較CAT-YOLO子模型提高1.71%,具體到單一生豬臉部姿態(tài)類別,SAT-YOLO子模型相較于CAT-YOLO子模型對低頭側(cè)臉類別的提高值達到11.40%,提升幅度最大,說明在群養(yǎng)生豬臉部姿態(tài)檢測中,空間注意力效果更加明顯,這是因為不同于通道注意力信息,空間注意力將權(quán)重施加于特征圖中的每一點,對每個特征點區(qū)別對待,自學習臉部框邊界權(quán)重,可進一步提高臉部邊界位置的準確率。
表3 測試集不同子模型對生豬臉部姿態(tài)類別的檢測精度與平均檢測精度
為明確Tiny-YOLO系列模型的4種子模型對6種姿態(tài)類別的預測結(jié)果,對式(6)、式(7)中的TP、FP中間指標值采用柱狀圖表示。通常TP、FP值的獲取,需對模型預測的結(jié)果類別框進行過濾操作,首先去除置信度低于某一值的預測框(本文置信度閾值設置為0.3),接著將篩選過后的預測框按照置信度值進行降序排列,隨后計算最高置信度值預測框與真實框間的IOU值,若IOU大于設定閾值(本文IOU閾值設為0.5),則將當前預測框加入TP中,同時將對應真實框標注為已檢測,后續(xù)對該真實框的其余預測框均被列入FP中,最終Tiny-YOLO系列模型4種子模型的TP與FP值如圖6所示。
注:TP表示模型預測為正實際為正的樣本數(shù)量;FP表示模型預測為正實際為負的樣本數(shù)量。
試驗結(jié)果表明:
1)對于TP數(shù)目而言,其值越高,模型越優(yōu)。由圖6可見加入注意力機制的3種子模型其值相差不是很大,但3種子模型預測TP指標值均高于未加入注意力信息的Tiny-YOLO模型。加入注意力信息的3種子模型對6種臉部姿態(tài)類別的TP總數(shù)目排序依次是DAT-YOLO> SAT-YOLO>CAT-YOLO,可見同時加入2種注意力對生豬臉部姿態(tài)檢測的預測效果最佳。對于單一姿態(tài)類別,加入注意力的3種子模型TP值呈現(xiàn)出不同特點,對差異最大的低頭側(cè)臉和抬頭側(cè)臉類別,SAT-YOLO的低頭側(cè)臉TP數(shù)目比CAT-YOLO多19個,DAT-YOLO的抬頭側(cè)臉TP值比CAT-YOLO多19個。
2)對于FP數(shù)值而言,其值越低,模型效果越佳。4種子模型預測結(jié)果值排序依次為DAT-YOLO< SAT-YOLO 圖7為Tiny-YOLO系列模型4種子模型對生豬6種臉部姿態(tài)識別的-曲線圖。由式(6)、式(7)可知,Precision與Recall值的獲取需要首先計算TP、FP以及FN的個數(shù),每種子模型對不同種類的預測結(jié)果TP、FP值可見圖6所示。對于FN數(shù)值,圖像中某一類別的真實框數(shù)量是已知的,TP數(shù)量可從4.1部分求出,兩者差值即為FN結(jié)果值。每個類別中-曲線下方面積即為表3中對應模型在該類別上的AP值,曲線越靠近右上角,模型效果越優(yōu)。 從圖7中可看出,加入注意力機制后的3種子模型-曲線均位于未加注意力信息的Tiny-YOLO模型上方,這是因為Tiny-YOLO檢測模型所提取的卷積特征并未對卷積核中不同位置處特征進行區(qū)別對待,認為每個區(qū)域?qū)z測結(jié)果貢獻度相同,但實際中,待檢測物體周圍往往具有復雜且豐富的語境信息,對目標區(qū)域特征施以權(quán)重可使模型更好地定位至待檢測特征上,說明注意力信息有利于對群養(yǎng)生豬臉部姿態(tài)進行檢測。對于單獨引入1種注意力機制的情況,SAT-YOLO子模型在除抬頭正臉類別外的其余類別上其曲線均位于CAT-YOLO子模型上方,說明與通道注意力相比,空間注意力對區(qū)域檢測效果更為明顯。此外,4種子模型對低頭正臉、抬頭正臉、抬頭側(cè)臉3個姿態(tài)類別的Recall值小于0.1時,Precision值均維持在1.0附近,差異不大,但隨著Recall值的減小,DAT-YOLO子模型優(yōu)勢逐漸明顯,其對應Precision值均不遜于其余3種子模型,并在抬頭正臉、抬頭側(cè)臉2個類別上優(yōu)勢最為明顯。雖然DAT-YOLO子模型對水平正臉、水平側(cè)臉、低頭側(cè)臉類別的表現(xiàn)并不突出,但其對應類別曲線狀態(tài)均不弱于其余子模型,說明在同時加入2種注意力的情況下可最大限度提升模型性能,能充分融合通道注意力和空間注意力優(yōu)勢。 為進一步展示模型預測效果,在測試集上對Tiny-YOLO系列模型4種子模型進行預測,選取其中3幅可視化結(jié)果如圖8所示。其中每行所表示子模型類別見圖左側(cè)注釋所示,預測結(jié)果中預測框左上角部分顯示值表示預測為當前姿態(tài)類別的置信度。 圖8 部分測試集預測結(jié)果 由圖8可知,對于8a對應圖像,4種子模型均能正確預測出生豬臉部姿態(tài)類別及其位置,其中DAT-YOLO子模型能夠取得最佳的類別置信度。對于8b對應的圖像,Tiny-YOLO、SAT-YOLO和DAT-YOLO3種子模型均能對生豬臉部較小或者不明顯區(qū)域做出正確預測,且DAT-YOLO預測置信度最高,且除DAT-YOLO子模型外,其余3種子模型在預測過程中均有預測錯誤的情形出現(xiàn),表明DAT-YOLO子模型在小目標臉部姿態(tài)檢測的可用性。8c對應圖像,小豬較為密集黏連,4種子模型雖然均有預測錯誤的情況出現(xiàn),但對于預測正確的情況,DAT-YOLO子模型預測結(jié)果最接近真實框。 本研究中6種臉部姿態(tài)的數(shù)量差異會產(chǎn)生數(shù)據(jù)不均衡問題,理論上可從數(shù)據(jù)和損失函數(shù)2種角度解決該問題[38-39]。結(jié)合文中模型的適用場景,本文采用損失函數(shù)對數(shù)據(jù)進行偽均衡化處理,采用與Redmon等[18]一致的損失函數(shù),其形式化表示如公式(10)所示。 由表3可知,模型對不同類別姿態(tài)檢測精度差異較大,該問題屬于深度學習可解釋性研究的最前沿領域,最新研究主要集中于對卷積核與圖像特征點部位間關(guān)系的探討[40-42]。模型的不同層次可用于提取不同特征,每層卷積核與圖像的特定特征相關(guān)聯(lián),并具有一定的通用性,淺層卷積核可提取紋理、邊緣等特征,深層卷積核可提取抽象特征,暫無文獻研究表明提取的特定特征與最終檢測精度間的定量關(guān)系,對于某些臉部姿態(tài)類別,在特征提取過程中,模型所關(guān)注區(qū)域不同,暫時無法從理論上解釋模型各層卷積核學習的特征對特定臉部姿態(tài)檢測類別的貢獻程度。 圖5中DAT-YOLO模型除注意力模塊外的其余特征圖數(shù)目選取均與圖2中Tiny-YOLO模型均保持一致,對通道與空間注意力特征圖數(shù)量的選取原則是基于經(jīng)驗的直觀準則及約定俗成的默認設置(取2的整數(shù)次冪),目前尚無嚴密且令人信服的數(shù)學解釋,對該部分探索性的研究集中于神經(jīng)網(wǎng)絡架構(gòu)搜索(neural architecture search, NAS)[43],其可用于自動搜索最優(yōu)卷積核大小及特征圖數(shù)量。本研究更關(guān)注于不同注意力信息對檢測效果的影響程度,故未將其列入研究范疇。 本文在Tiny-YOLO模型中引入通道注意力和空間注意力,對Tiny-YOLO模型進行了改進,建立檢測模型DAT-YOLO,用于群養(yǎng)場景下生豬不同臉部姿態(tài)檢測,主要結(jié)論如下: 1)與YOLOV3系列模型相比,Tiny-YOLO系列模型具有更強檢測性能,且在加入注意力信息后,2類系列模型檢測精度均有不同程度提升。 2)Tiny-YOLO系列模型中,引入注意力機制的CAT-YOLO、SAT-YOLO和DAT-YOLO 3種子模型的mAP值相較于未引入注意力機制的Tiny-YOLO模型分別提高了3.73%、5.44%和8.39%,表明注意力機制對生豬臉部姿態(tài)檢測的有效性,可很大程度提升通用卷積網(wǎng)絡的特征提取能力。 3)SAT-YOLO檢測效果總體優(yōu)于CAT-YOLO。其在低頭側(cè)臉類別上優(yōu)勢最為明顯,相較于CAT-YOLO子模型,其檢測精度提高6.90%。表明空間注意力信息更適用于生豬臉部姿態(tài)檢測。 4)同時引入2種注意力的DAT-YOLO子模型無論在各個類別的檢測精度、所有類別的平均檢測精度、FP/TP指標值以及-曲線中,效果均優(yōu)于CAT-YOLO和SAT-YOLO模型,表明同時引入2種注意力信息對生豬臉部姿態(tài)檢測效果更佳,可為生豬臉部姿態(tài)檢測提供方法和思路,為群養(yǎng)生豬個體識別提供有益參考。 [1] 孫龍清,李玥,鄒遠炳,等. 基于改進Graph Cut算法的生豬圖像分割方法[J]. 農(nóng)業(yè)工程學報,2017,33(16):196-202. Sun Longqing, Li Yue, Zou Yuanbing, et al. Pig image segmentation method based on improved Graph Cut algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(16): 196-202. (in Chinese with English abstract) [2] 鄒遠炳,孫龍清,李玥,等. 基于分布式流式計算的生豬養(yǎng)殖視頻監(jiān)測分析系統(tǒng)[J]. 農(nóng)業(yè)機械學報,2017,48(S):365-373. Zou Yuanbing, Sun Longqing, Li Yue, et al. Video monitoring and analysis system for pig breeding based on distributed flow Computing[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S): 365-373. (in Chinese with English abstract) [3] 薛月菊,朱勛沐,鄭嬋,等. 基于改進 Faster R-CNN 識別深度視頻圖像哺乳母豬姿態(tài)[J]. 農(nóng)業(yè)工程學報,2018,34(9):189-196. Xue Yueju, Zhu Xunmu, Zheng Chan, et al. Lactating sow postures recognition from depth image of videos based on improved Faster R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(9): 189-196. (in Chinese with English abstract) [4] 胡志偉,楊華,婁甜田,等. 基于全卷積網(wǎng)絡的生豬輪廓提取[J]. 華南農(nóng)業(yè)大學學報,2018,39(6):111-119. Hu Zhiwei, Yang Hua, Lou Tiantian, et al. Extraction of pig contour based on fully convolutional networks[J]. Journal of South China Agricultural University, 2018, 39(6): 111-119. (in Chinese with English abstract) [5] 楊阿慶,薛月菊,黃華盛,等. 基于全卷積網(wǎng)絡的哺乳母豬圖像分割[J]. 農(nóng)業(yè)工程學報,2017,33(23):219-225. Yang Aqing, Xue Yueju, Huang Huasheng, et al. Lactating sow image segmentation based on fully convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(23): 219-225. (in Chinese with English abstract) [6] Yang Aqing, Huang Huasheng, Zheng Chan, et al. High-accuracy image segmentation for lactating sows using a fully convolutional network[J]. Biosystems Engineering, 2018, 176: 36-47. [7] Psota E, Mittek M, Pérez L, et al. Multi-pig part detection and association with a fully-convolutional network[J]. Sensors, 2019, 19(4): 852. [8] Wang Jianzong, Liu Aozhi, Xiao Jing. Video-Based Pig Recognition with Feature-Integrated Transfer Learning[C]// Biometric Recognition, 2018: 620-631. [9] Chen Zuge, Wu Kehe, Li Yuanbo, et al. SSD-MSN: An improved multi-scale object detection network based on SSD[J]. IEEE Access, 2019, 7: 80622-80632. [10] GhiasiG, Lin T Y, Le Q V. Nas-fpn: Learning scalable feature pyramid architecture for object detection[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society: Piscataway, NJ. 2019: 7036-7045. [11] Law H, Deng J. Cornernet: Detecting objects as paired keypoints[C]//Proceedings of the European Conference on Computer Vision (ECCV). Cham:SpringerInternational Publishing, 2018: 734-750. [12] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR). IEEE Computer Society: Piscataway, NJ. 2017: 2117-2125. [13] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision(CVPR). IEEE Computer Society: Piscataway, NJ. 2016: 21-37. [14] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. Computer Science, 2013: 580-587. [15] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6): 1137-1149. [16] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE Computer Society: Piscataway, NJ. 2016: 779-788. [17] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society: Piscataway, NJ. 2017: 6517-6525. [18] Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. [2019-07-10]. USA: 2018. https://arxiv.org/abs/1804.02767 [19] Pedoeem J, Huang R. YOLO-LITE: A real-time object fetection algorithm optimized for non-GPU computers[J/OL]. [2019-07-10]. USA: 2018. https://arxiv.org/abs/1811.05588 [20] 薛月菊,黃寧,涂淑琴,等. 未成熟芒果的改進 YOLOv2識別方法[J]. 農(nóng)業(yè)工程學報,2018,34(7):173-179. Xue Yueju, Huang Ning, Tu Shuqin, et al. Immature mango detection based on improved YOLOv2[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(7): 173-179. (in Chinese with English abstract) [21] 趙德安,吳任迪,劉曉洋,等. 基于YOLO 深度卷積神經(jīng)網(wǎng)絡的復雜背景下機器人采摘蘋果定位[J]. 農(nóng)業(yè)工程學報,2019,35(3):164-173. Zhao Dean, Wu Rendi, Liu Xiaoyang, et al. Apple positioning based on YOLO deep convolutional neural network for picking robot in complex background[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(3): 164-173. (in Chinese with English abstract) [22] Ju M, Choi Y, Seo J, et al. A kinect-based segmentation of touching-pigs for real-time monitoring[J]. Sensors, 2018, 18(6): 1746. [23] Wang Fei, Jiang Mengqing, Qian Chen, et al. Residual Attention Network for Image Classification[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society: Piscataway, NJ. 2017: 3156-3164. [24] Yu Changqian, Wang Jingbo, Peng Chao, et al. BiSeNet: Bilateral segmentation network for real-time semantic segmentation[C]//Proceedings of the European Conference on Computer Vision (ECCV). Cham:SpringerInternational Publishing, 2018: 325-341. [25] 徐誠極,王曉峰,楊亞東. Attention-YOLO:引入注意力機制的YOLO檢測算法.計算機工程與應用[J],2019,55(6):13-23. Xu Chengji, Wang Xiaofeng, Yang Yadong. Attention-YOLO: YOLO detection algorithm that introduces attention mechanism[J]. Computer Engineering and Applications, 2019, 55(6): 13-23. (in Chinese with English abstract) [26] TzuTa L. LabelImg [CP/DK]. (2017-01-09) [2019-06-20] https:// github.com/tzutalin/labelImg [27] Raykar V C, Saha A. Data Split Strategies for Evolving Predictive Models[C]//Machine Learning and Knowledge Discovery in Databases. 2015: 3-19. [28] Long Jonathan, Shelhamer Evan, Darrell Trevor. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4): 640-651. [29] 劉軍,后士浩,張凱,等. 基于增強Tiny YOLOV3算法的車輛實時檢測與跟蹤[J]. 農(nóng)業(yè)工程學報,2019,35(8):118-125. Liu Jun, Hou Shihao, Zhang Kai, et al. Real-time vehicle detection and tracking based on enhanced Tiny YOLOV3 algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(8): 118-125. (in Chinese with English abstract) [30] Neubeck A, Van Gool L. Efficient non-maximum suppression[C]//18th International Conference on Pattern Recognition (ICPR). Springer: Berlin, German. 2006, 3: 850-855. [31] Lin Min, Chen Qiang, Yan Shuicheng. Network in network[J/OL]. [2019-07-20]. USA: 2014. https://arxiv.org/ abs/1312.4400 [32] Zhou Bolei, Khosla A, Lapedriza A, et al. Learning deep features for discriminative localization[C]//In: Computer Vision and Pattern Recognition (CVPR), IEEE Computer Society: Piscataway, NJ. 2016: 2921-2929. [33] Chollet F. Keras[CP/DK]. (2015-03-28)[2019-07-05]. https://github.com/keras-team/keras/ [34] Kingma D P, Ba J. Adam: A method for stochastic optimization[J/OL]. [2019-07-20]. https://arxiv.org/ abs/1412.6980 [35] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]// International Conference on Machine Learning(ICML). 2015: 448-456. [36] Microsoft. PASCAL-VOC2012 [DB/OL]. (2012-02-20) [2019-08-02]. http://host.robots.ox.ac.uk/pascal/VOC/voc2012 [37] Rezatofighi H, Tsoi N, Gwak J Y, et al. Generalized intersection over union: A metric and a loss for bounding box regression[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, IEEE Computer Society: Piscataway, NJ. 2019: 658-666. [38] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2980-2988. [39] Li B, Liu Y, Wang X. Gradient harmonized single-stage detector[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 8577-8584. [40] Zhang Quanshi, Wu Yingnian, Zhu Songchun. Interpretable Convolutional Neural Networks[C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018: 8827-8836. [41] Zhang Quanshi, Yang Yu, Ma Haotian, et al. Interpreting CNNs via Decision Trees[C]// The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 6261-6270. [42] Bolei Zhou, David Bau, Aude Oliva, et al. Interpreting deep visual representations via network dissection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(9): 2131-2145. [43] Jin H, Song Q, Hu X. Auto-keras: An efficient neural architecture search system[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, ACM, 2019: 1946-1956. Detection of facial gestures of group pigs based on improved Tiny-YOLO Yan Hongwen1, Liu Zhenyu1, Cui Qingliang2※, Hu Zhiwei1, Li Yanwen1 (1.,,030801,; 2.,,030801) The face of the pig contains rich biometric information, and the detection of the facial gestures can provide a basis for the individual identification and behavior analysis of the pig. Detection of facial posture can provide basis for individual recognition and behavioral analysis of pigs. However, under the scene of group pigs breeding, there always have many factors, such as pig house lighting and pig adhesion, which brings great challenges to the detection of pig face. In this paper, we take the group raising pigs in the real breeding scene as the research object, and the video frame data is used as the data source. Latter we propose a new detection algorithm named DAT-YOLO which based on the attention mechanism and Tiny-YOLO model, and channel attention and spatial attention information are introduced into the feature extraction process. High-order features guide low-order features for channel attention information acquisition, and low-order features in turn guide high-order features for spatial attention screening, meanwhile the model parameters don’t have significant increase, the model feature extraction ability is improved and the detection accuracy is improved. We collect 504 sheets total 3 712 face area picture for the 5 groups of 20 days to 3 and a half months of group health pig video extraction, the number of pigs is 35. In order to obtain the model input data set, we perform a two-step pre-processing operation of filling pixel values and scaling for the captured video. The model outputs are divided into six classes, which are horizontal face, horizontal side-face, bow face, bow side-face, rise face and rise side-face.The results show that for the test set, the detection precision(AP)reaches 85.54%, 79.3%, 89.61%, 76.12%, 79.37%, 84.35% of the horizontal face, horizontal side-face, bow face, bow side-face, rise face and rise side-face respectively, and the mean detection precision(mAP) is 8.39%, 4.66% and 2.95% higher than that of the general Tiny-YOLO model, the CAT-YOLO model only refers to channel attention and the SAT-YOLO model only introduces spatial attention respectively. In order to further verify the migration performance of attention on the remaining models, under the same experimental conditions, two attentional information were introduced to construct the corresponding attention sub-models based on the YOLOV3-based model. The experiment shows that compared to the YOLOV3 submodel, the sub-model based on Tiny-YOLO increase by 0.46% to 1.92% in the mAP. The Tiny-YOLO and YOLOV3 series models have different performance improvements after adding attention information, indicating that the attention mechanism is beneficial to the accurate and effective group gestures detection of different groups of pigs. In this study, the data is pseudo-equalized from the perspective of loss function to avoid the data imbalance caused by the number of poses of different facial categories, and actively explore the reasons for the difference in the accuracy of different facial gesture detection. The study can provide reference for the subsequent individual identification and behavior analysis of pigs. image processing; models; object detection; Tiny-YOLO; channel attention; spatial attention 燕紅文,劉振宇,崔清亮,胡志偉,李艷文. 基于改進Tiny-YOLO模型的群養(yǎng)生豬臉部姿態(tài)檢測[J]. 農(nóng)業(yè)工程學報,2019,35(18):169-179.doi:10.11975/j.issn.1002-6819.2019.18.021 http://www.tcsae.org Yan Hongwen, Liu Zhenyu, Cui Qingliang, Hu Zhiwei, Li Yanwen. Detection of facial gestures of group pigs based on improved Tiny-YOLO[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 169-179. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.18.021 http://www.tcsae.org 2019-08-16 2019-08-28 國家高技術(shù)研究發(fā)展計劃(863計劃)資助項目(2013AA102306);國家自然基金面上項目資助(31772651);山西省重點研發(fā)計劃專項(農(nóng)業(yè))(201803D221028-7) 燕紅文,博士生,主要研究方向為農(nóng)產(chǎn)品加工新技術(shù)及裝備、計算機視覺技術(shù)。Email: yhwhxh@126.com 崔清亮,教授,博導,主要從事旱作農(nóng)業(yè)機械化關(guān)鍵技術(shù)與裝備的研究。Email: qlcui@126.com 10.11975/j.issn.1002-6819.2019.18.021 TP391 A 1002-6819(2019)-18-0169-114.3 模型精確率-召回率曲線分析
4.4 模型預測結(jié)果分析
5 討 論
5.1 數(shù)據(jù)不均衡問題處理
5.2 不同姿態(tài)檢測精度差異研究
5.3 注意力特征圖數(shù)量取值原則
6 結(jié) 論