融合全域與局域特征的深度卷積網(wǎng)絡(luò)鳥類種群識別*

2020-03-05 07:31:24林志瑋丁啟祿劉金福

林業(yè)科學 2020年1期

林志瑋丁啟祿劉金福

(1. 福建農(nóng)林大學計算機與信息學院福州 350002; 2. 福建農(nóng)林大學林學院福州 350002; 3. 福建農(nóng)林大學林學博士后流動站福州 350002; 4．福建省高校生態(tài)與資源統(tǒng)計重點實驗室福州 350002; 5. 福建農(nóng)林大學海峽自然保護區(qū)研究中心福州 350002；6. 中國人民銀行福州中心支行福州 350003)

鳥類種群因其對森林與濕地生態(tài)系統(tǒng)評價與監(jiān)測起重要作用，故對其準確分類一直為研究的熱點。傳統(tǒng)鳥類種群識別由于野外數(shù)據(jù)的難獲取性，主要人工依據(jù)經(jīng)驗對鳥類進行實體識別，該方法在一定程度可保證識別的精度，但需消耗大量人力與時間，僅適用于特殊鳥類的監(jiān)測識別，無法解決大范圍森林鳥類監(jiān)測的問題。隨著硬件設(shè)施的升級，獲取大量野外數(shù)據(jù)成為可能，而且隨著機器學習分類算法理論的發(fā)展，基于野外鳥類數(shù)據(jù)，提取不同鳥類圖像特征，如Bag of Words特征(Xieetal.， 2103； Zhangetal.， 2012)、SIFT特征描述算子(Marinietal.， 2015)、Histogram of Gradient特征(Farrelletal.， 2011)及Pyramidal Histogram of Words特征(Zhangetal.， 2012)，或語音特征，如MFCC特征(Marinietal.， 2015)；進一步結(jié)合機器學習分類算法，如人工神經(jīng)網(wǎng)絡(luò)分類算法(Nadimpallietal.， 2006)、Stacked Evidence Trees模型(Martinez-Munozetal.， 2009)及支持向量機(Zhangetal.， 2012； Marinietal.， 2015)作等為分類器，建立鳥類種群分類模型?；趥鹘y(tǒng)機器學習分類算法建立鳥類種群識別模型具有一定的有效性。但傳統(tǒng)機器學習分類算法需根據(jù)分類影像的特征，設(shè)計適用的分類特征，才可保證較高分類精度。而設(shè)計分類特征，需依據(jù)個人經(jīng)驗以及大量的試驗而得，具有較大的不確定性和人工成本。

自動提取特征可避免設(shè)計特征的難題，深度神經(jīng)網(wǎng)絡(luò)為自動提取特征的有效算法，其通過網(wǎng)絡(luò)自身的不斷學習，得到較為穩(wěn)健的特征向量，結(jié)合適當?shù)姆诸惼?，可得到?yōu)異的分類效果，在眾多分類任務(wù)表現(xiàn)優(yōu)異?；谏疃染矸e神經(jīng)網(wǎng)絡(luò)的鳥類種群識別，根據(jù)其模型訓練是否采用鳥類部位信息可分為鳥類單影像的分類模型和基于鳥類部位的分類模型。對于鳥類單影像分類模型，其網(wǎng)絡(luò)輸入僅為鳥類原圖，通過設(shè)計不同的網(wǎng)絡(luò)框架，如雙線性卷積神經(jīng)網(wǎng)絡(luò)(Linetal.， 2018)、OverFeat深度卷積神經(jīng)網(wǎng)絡(luò)(Sharif Razavianetal.， 2014)、Inception-V3模型(Krauseetal.， 2016)、雙跳躍網(wǎng)絡(luò)模型(Chengetal.， 2018)，構(gòu)建鳥類種群識別模型。雙線性卷積神經(jīng)網(wǎng)絡(luò)主要采用兩條平行的網(wǎng)絡(luò)框架，2個框架結(jié)構(gòu)可存在不同，為了使2個網(wǎng)絡(luò)所抽取的特征有效的結(jié)合，將2個網(wǎng)絡(luò)框架特征圖對應(yīng)位置計算其外積。OverFeat深度卷積神經(jīng)網(wǎng)絡(luò)提取的鳥類分類特征，采用支持向量機訓練鳥類種群識別模型，其中訓練與測試均采用鳥類部位框信息，驗證深度卷積神經(jīng)網(wǎng)絡(luò)對鳥類種群識別的有效性。Inception-V3模型結(jié)合通過網(wǎng)絡(luò)搜索的大量鳥類影像數(shù)據(jù)及CUB200-2011鳥類數(shù)據(jù)，經(jīng)訓練能使分類精度大幅度提高。雙跳躍網(wǎng)絡(luò)模型首先對鳥類標簽做整理，將歸屬同類的鳥類標記為同一標簽，然后構(gòu)建2個相同的網(wǎng)絡(luò)框架同時訓練鳥類原始標簽和子類標簽，子類分類網(wǎng)絡(luò)框架訓練時指導(dǎo)原始標簽網(wǎng)絡(luò)框架訓練?；邙B類單影像分類模型具有分類簡單，僅需輸入鳥類原圖即可的優(yōu)勢，但由于其未利用鳥類部位信息導(dǎo)致其對于相似鳥類種群識別效果不佳。故許多研究者基于鳥類部位信息，如R-CNN物體定位框架(Zhangetal.， 2014)、關(guān)鍵點群檢測算法 (Bransonetal.， 2014)或影像分割模型FCN(Longetal.， 2015)等提取鳥類部位信息，通過不同深度卷積神經(jīng)網(wǎng)絡(luò)分別提取各部位圖像分類特征，將各部位圖像特征合并或疊加后，傳入支持向量機(Zhangetal.， 2014； Bransonetal.， 2014)、Softmax分類層(Weietal.， 2018； Huangetal.， 2016)進行分類，建構(gòu)不同的鳥類種群識別模型。

鳥類種群識別因其具有組間差異小，組內(nèi)差異大的分類特性，導(dǎo)致鳥類種群識別成為一項高難度的分類任務(wù)。利用單影像鳥類影像數(shù)據(jù)，設(shè)計鳥類種群識別模型的識別模式具有訓練簡單方便，分類效果較優(yōu)的優(yōu)勢，但由于鳥類間差異一般集中于其特定部位，導(dǎo)致該識別模型具有一定的分類精度瓶頸，利用鳥類其他信息，如部位信息，已成為解決鳥類種群識別問題的重要手段。故本文基于鳥類影像數(shù)據(jù)以及其部位標注數(shù)據(jù)，結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)，提出融合模塊(Fusion block)特征融合結(jié)構(gòu)，構(gòu)建融合全域與局域特征的深度卷積網(wǎng)絡(luò)鳥類種群識別模型，以期為森林與濕地的監(jiān)控與治理提供新的手段，推進我國生態(tài)文明建設(shè)。

1 融合全域與局域特征的深度卷積網(wǎng)絡(luò)鳥類種群識別模型

研究表明人類識別物體的過程可分為2個步驟，首先識別物體的整體特征，其次識別物體的局部特征(Luetal.， 2018)。依據(jù)人類識別物體的過程，筆者基于鳥類影像數(shù)據(jù)，結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)技術(shù)，提出結(jié)合全域與局域部件的深度卷積網(wǎng)絡(luò)鳥類種群識別模型(圖1)。

圖1 鳥類種群識別模型框架Fig.1 Classification framework of bird species in Fujian

該模型由2個子網(wǎng)絡(luò)組成，局部和全局特征抽取模塊，分別抽取224×224像素原影像的局部和全局鳥類特征，將其全局池化后的特征進行融合作為最終分類特征，并采用softmax分類層進行預(yù)測類別。對于全局特征抽取模塊，其主要采用DenseNet(Huangetal.， 2017)模型抽取鳥類的全局特征；對于局部特征抽取模塊，采用鳥類局部影像作為模型的輸入，基于DenseNet模型抽取鳥類局部特征，為了進一步抽取全局和局部融合后的分類特征，使得分類特征更加具有分類性，選擇全局及局部2個模塊所抽取的大小為14×14像素卷積特征，利用跳躍結(jié)構(gòu)進行交互，提出融合模塊(Fusion block)結(jié)構(gòu)，將全局與局部特征進行有效融合。為了習得融合后的有效特征及網(wǎng)絡(luò)框架權(quán)重，在融合后使用稠密塊對融合后的特征圖進行權(quán)重學習、更新與特征抽取

在模型建構(gòu)過程中，采用鳥類真實部位標注影像訓練分類模型。但由于現(xiàn)實測試時，無法提供真實標注影像數(shù)據(jù)，故采用Faster R-CNN作為局部部位檢測模型。因此，對于模型的建構(gòu)過程，F(xiàn)aster R-CNN模型與分類模型的訓練并未同時完成。首先預(yù)先訓練Faster R-CNN模型用于測試時使用；其次，采用鳥類真實部位標注影像訓練分類模型；最后，將測試影像通過訓練完成的檢測模型獲得部位信息，并與原影像一起傳入訓練完成的分類模型，進行影像的預(yù)測。

該模型主要存在以下優(yōu)勢： 1)根據(jù)人類識別物體流程，結(jié)合鳥類整體和局部信息，設(shè)計多框架鳥類識別模型； 2)采用跳躍連接機制將全局和局部特征抽取模塊進行交互，并提出融合模塊結(jié)構(gòu)進行全局和局部特征融合。3)模型僅需訓練階段提供鳥類部位信息，測試階段可自動提取鳥類部位信息，可方便快捷地對現(xiàn)實場景中鳥類進行識別。

筆者為了可有效地將全局和局部特征進行有效融合，基于DenseNet模型框架，提出融合模塊(Fusion block)進行特征融合。DenseNet模型主要由稠密塊(Dense block)和轉(zhuǎn)化層(Transition layer)組成(圖2)。稠密塊由多個殘差塊堆積組成，負責模型特征的抽取，每個殘差塊均與后面殘差塊之間建立跳躍結(jié)構(gòu)進行特征融合，其中殘差塊為2層卷積組合，并將卷積輸入與卷積結(jié)果進行融合的結(jié)構(gòu)。由于稠密塊將特征進行累計融合，導(dǎo)致模型特征維度較高，故設(shè)置轉(zhuǎn)換層，其主要由卷積層和池化層組成，卷積層采用1×1的卷積核通過減少卷積核的個數(shù)降低特征圖的張數(shù)；池化層采用最大池化操作縮小特征圖的池化。通過2個維度的降維，大幅度減少模型的參數(shù)量。

圖2 稠密塊與轉(zhuǎn)換層Fig.2 Dense block and transition layer

融合模塊主要采用2種不同的特征融合方式，具體見圖3，操作為： 1)將全局和局部特征采用對應(yīng)元素加法計算，然后將融合的特征進行1×1的卷積和操作池化，對特征圖進行降維處理(圖3a)。2)將全局和局部對應(yīng)特征采用串聯(lián)的方式增加特征維度，先通過1×1的卷積層對其降維，降維比率為0.5，最后將融合的特征進行1×1卷積和池化操作(圖3b)。

圖3 融合模塊結(jié)構(gòu)Fig.3 Structure of fusion block

對于融合模塊結(jié)構(gòu)，假定xglobal和xlocal分別為輸入的全局和局部鳥類特征圖，其中xglobal和xlocal均為m×m的2D數(shù)組；P(x)為池化變換；F(x)為卷積核為1×1的卷積變換；y表示融合模塊的輸出結(jié)果。以第一種特征融合方式為例，則網(wǎng)絡(luò)的前向過程公式具體如下：

(1)

對于網(wǎng)絡(luò)的反向傳播過程，假定網(wǎng)絡(luò)訓練過程中損失函數(shù)為L，則xglobal和xlocal梯度公式如下：

由上述網(wǎng)絡(luò)反向傳播求導(dǎo)公式中可知，融合模塊對梯度具有分流的效果，可將網(wǎng)絡(luò)中的梯度同時傳給全局和局部特征提取模塊，在一定程度上削減了梯度彌散的程度，保證網(wǎng)絡(luò)訓練過程梯度的穩(wěn)定性。

2 模型試驗分析

2.1 鳥類影像數(shù)據(jù)

數(shù)據(jù)是建立模型的基本要素之一，數(shù)據(jù)質(zhì)量的優(yōu)劣對模型分類的效果具有重要的作用。由于當前尚未存在同時具有鳥類頭部、鳥類軀干及鳥類全身3部份標注的數(shù)據(jù)集；因此，以福建鳥類為對象，通過計算機網(wǎng)絡(luò)爬蟲技術(shù)，從網(wǎng)上收集并整理鳥類影像數(shù)據(jù)，建立福建鳥類數(shù)據(jù)集(IMLab-Birds100-2018)，以期填補鳥類影像數(shù)據(jù)集在頭部及軀干部份數(shù)據(jù)的空白。

為了有效地節(jié)約時間和人力成本，利用計算機爬蟲搜索下載技術(shù)，結(jié)合人工搜索作為輔助，收集福建鳥類數(shù)據(jù)。福建具有大面積的森林與濕地，濕地與林地鳥類占比大，且本研究旨在驗證基于深度卷積神經(jīng)網(wǎng)絡(luò)對福建鳥類種群識別的有效性，所以依據(jù)福建鳥類名錄，隨機選取100種福建濕地與林地鳥類作為研究對象(圖4)，每類鳥類數(shù)據(jù)收集100張影像，共10 000張圖。以中國鳥類野外手冊(馬敬能等， 2000) 作為人工識別分類依據(jù)，結(jié)合野外鳥類專家意見，采取多輪方式整理福建鳥類圖像數(shù)據(jù)，每輪皆有多人參與，以眾數(shù)方式?jīng)Q定每張圖片歸屬。

通過福建鳥類影像數(shù)據(jù)的整理，已準確標記該數(shù)據(jù)庫單張影像數(shù)據(jù)標簽。由利用鳥類部位信息建立鳥類種群識別模型可提高模型識別精度，故采用人工標記的方式，參照CUB200-2011(Welinderetal.， 2010)數(shù)據(jù)集標注規(guī)則，對福建省鳥類數(shù)據(jù)庫進行鳥類頭部、軀干以及全身標定。

圖4 福建鳥類示例Fig.4 Sample images of bird species in Fujian

2.2 試驗設(shè)置

基于鳥類影像數(shù)據(jù)，結(jié)合深度神經(jīng)網(wǎng)絡(luò)理論，設(shè)計鳥類種群分類網(wǎng)絡(luò)框架并訓練模型。試驗設(shè)置如下： 1)試驗環(huán)境。本文采用Ubuntu16.04系統(tǒng)，硬件規(guī)格為：顯卡GTX1080Ti(11G)，CPU(Core I7)、內(nèi)存(32G)，并采用Google開源的TensorFlow1.9深度神經(jīng)網(wǎng)絡(luò)庫實現(xiàn)福建鳥類種群識別網(wǎng)絡(luò)模型構(gòu)建與訓練。2)IMLab-Birds100-2018數(shù)據(jù)訓練和測試集劃分。依據(jù)5∶5的劃分數(shù)據(jù)比例，采用分層隨機抽樣的方式，首先對每一類數(shù)據(jù)隨機抽取50%的數(shù)據(jù)為訓練數(shù)據(jù)，其余劃分為測試數(shù)據(jù)。其次，將每一類所抽取的數(shù)據(jù)匯總形成鳥類數(shù)據(jù)的訓練與測試集，其中訓練集和測試集均包含5 000張鳥類影像。3)模型訓練階段參數(shù)設(shè)置。由于模型訓練過程Mini-batch設(shè)置過大將導(dǎo)致模型質(zhì)量下降(Keskaretal.， 2017)，且受顯存大小限制，故Mini-batch設(shè)置為16； Epoch設(shè)置為200；損失函數(shù)采用交叉信息熵；激活函數(shù)采用Relu函數(shù)；梯度下降算法采用SGD；初始學習率設(shè)置為0.01，并采用學習率余弦衰減策略(Loshchilovetal.， 2017)，在訓練過程對學習率進行調(diào)整。此外，本文對于所涉及模型均采用遷移學習(Yosinskietal.， 2014； Gaoetal.， 2018； Tanetal.， 2018)，即利用在ImageNet訓練完成的模型的權(quán)重作為訓練新數(shù)據(jù)時模型的初始化權(quán)重，可有效提高模型收斂速度和分類精度。

模型評價指標指基于真實值和預(yù)測值設(shè)計可反映其模型分類效果的指標。對于分類模型主要采用總體分類精度(Overall accuracy)和Kappa值(Cohenetal.， 1960)，具體公式如下。

總體分類精度公式：

(4)

Kappa值公式：

(5)

式中：po表示每類正確分類的樣本數(shù)量之和除以總樣本數(shù)，即分類正確率；pe主要采用以下公式計算：

(6)

式中：C表示樣本類別數(shù)；n表示樣本總數(shù)；ai表示第i類真實樣本數(shù)量；bi表示第i類預(yù)測樣本數(shù)量。Kappa系數(shù)位于[-1,1]之間，但一般Kappa系數(shù)僅位于[0,1]之間。隨著Kappa系數(shù)增高，其一致性越高，表明模型分類越優(yōu)。

2.3 不同鳥類部位數(shù)據(jù)分類結(jié)果

基于鳥類3種部位以及原影像數(shù)據(jù)，采用本文所提出鳥類種群識別模型，分別建立3種不同部位鳥類種群識別模型，其中選擇DenseNet-121作為其特征提取基本框架，特征融合方式采用串聯(lián)計算。對于模型訓練時均采用鳥類部位標記的真實標簽，測試時采用2種方式進行驗證，一種為采用真實的鳥類部位標簽作為輸入，另一種為采用Faster R-CNN模型檢測的結(jié)果作為測試輸入，驗證模型的分類精度(表1)。對應(yīng)表1中的邊界框欄位，其中“Yes”表示為測試采用真實部位標簽作為輸入，“No”則表示采用定位模型預(yù)測結(jié)果作為測試輸入。由于Faster R-CNN模型檢測存在一定的誤差，可能未成功或正確檢測出影像中鳥的部位信息，導(dǎo)致模型輸入影像缺失或錯誤。針對影像缺失無法進行預(yù)測的情況，規(guī)定如影像未檢測出鳥類部位影像，則將鳥類原影像作為模型輸入。另外，測試時不更新模型，對于檢測錯誤的鳥類不信息，不會產(chǎn)生誤差傳播，適應(yīng)野外鳥類檢測需求。

由表1可知，基于鳥類不同部位的分類模型的正確率均達到90%以上，其中基于鳥類頭部數(shù)據(jù)的分類模型分類精度最高，基于鳥類軀干數(shù)據(jù)的分類模型識別率最低，表明鳥類頭部是鳥類相對明顯的分類特征。對比2種不同的測試方式可知，對于3種鳥類部位識別模型，測試階段采用部位真實標簽的分類效果均高于采用Faster R-CNN模型定位的結(jié)果。造成2種測試方式分類精度差異主要因為Faster R-CNN模型檢測結(jié)果存在一定的誤差，但該誤差對于鳥類的分類精度影響較小，基于不同鳥類部位數(shù)據(jù)的分類模型對于2種測試方式的分類精度僅相差0.36%～0.92%之間。對比3種鳥類種群識別模型的Kappa可知，基于鳥類頭部數(shù)據(jù)的分類模型Kappa值最高，基于鳥類軀干數(shù)據(jù)的分類模型Kappa最低，與3種鳥類種群分類模型的總體分類精度呈現(xiàn)一致現(xiàn)象。

綜上所述，采用2種測試方式對3種鳥類不同部位分類模型精度影響較小，且考慮現(xiàn)實環(huán)境識別無法提供測試影像真實部位信息，故后文僅對采用Faster R-CNN模型結(jié)果作為輸入的測試結(jié)果進行分析。

表1 各部位鳥類種群分類模型結(jié)果Tab.1 Results of bird classification model for each part

為了分析3種鳥類部位分類模型對鳥類種群識別是否存在不同的偏好，即分類時所注重鳥類的特性是否一致，選擇3種鳥類部位分類模型識別率最高的前5種鳥示例(圖5)對其進行比較。由圖5可知，3種鳥類部位分類模型識別率最高前5類既存在重疊的類別，也存在差異，其中三寶鳥(Eurystomusorientalis)為3種鳥類種群分類模型識別率最高的類別，該鳥類除頭部為黑色外，其余全部為藍色，具有明顯可區(qū)分特征。對于基于鳥類頭部數(shù)據(jù)的分類模型，其相對注重鳥類頭部的顏色和紋理特征，其模型識別率最高前5類均具有鮮明顏色和紋理特征。對于基于鳥類軀干數(shù)據(jù)的分類模型，其主要注重鳥類軀干的顏色分布特征，其模型識別率最高前5類中，每一類的軀干的主色調(diào)均不同，且存在明顯的可區(qū)分度。對于基于鳥類全身數(shù)據(jù)的識別模型，一定程度的融合其他2種模型所注重特征，即注重鳥類軀干特征顯著的鳥類，亦注重鳥類頭部特征明顯的鳥類，強化了單鳥類軀干特征，弱化了單鳥類頭部特征，導(dǎo)致其分類精度介于基于鳥類頭部和軀干分類模型之間。

2.4 不同特征融合方式分類結(jié)果

為了分析不同的特征融合方式對鳥類分類模型的影響，且基于鳥類頭部數(shù)據(jù)的分類模型分類精度最高，故基于IMLab-Birds100-2018鳥類頭部數(shù)據(jù)，采用DenseNet-121模型，根據(jù)不同的特征融合方式，分別建立鳥類分類模型，結(jié)果見表2。從特征融合方式分析，將2個模型框架特征圖直接采用加法運算融合的特征圖分類效果較優(yōu)，總體分類精度提高0.5%。

表2 不同特征融合方式的鳥類分類模型正確率比較
Tab.2 Comparison of accuracy of bird classification
using various fusion methods

特征融合方式Feature fusionTep1正確率Top1 accuracy(%)Δ(%)串聯(lián)Concat94.30相加Add94.800.5

考量后續(xù)欲分析的NABirds鳥類數(shù)據(jù)集缺乏分類精度較高的頭部標注信息，因此采用全身特征進行分析，結(jié)果見表3。從特征融合方式分析，將2個模型框架特征圖直接采用加法運算產(chǎn)生的特征圖分類效果較優(yōu)，總體分類正確率將近提高1%。

圖5 3種鳥類種群識別模型每類分類精度前5名鳥類影像Fig.5 Top five bird image for each type of classification accuracy of the three bird recognition models

表3 不同深度及特征融合方式模型正確率比較Tab.3 Comparison of correctness rates of different depth and feature fusion modes

2.5 最優(yōu)組合分類結(jié)果

在最優(yōu)特征融合方式下，為了驗證全局和局部信息融合的有效性，基于IMLab-Birds100-2018，采用DenseNet-121模型，選擇鳥類原圖、鳥類全身、鳥類軀干以及鳥類頭部數(shù)據(jù)分別訓練單框架鳥類分類模型，具體結(jié)果見表4。由表4可知，融合模型分類精度最高，分別高于僅基于原圖、鳥類頭部、鳥類軀干以及鳥類全身的分類模型6.92%、3.40%、7.40%、0.30%，表明將全域和局域信息融合具有一定的有效性。

表4 不同訓練數(shù)據(jù)模型精度對比Tab.4 Comparison of models for different training data

為了分析3種鳥類種群識別模型(原圖+頭部，原圖+軀干，原圖+全身)對每類鳥類種群識別精度的分布情況，首先按識別精度將0～100%劃分為10等份，每一份間隔10%。其次，將3種鳥類部位模型，每類鳥類種群識別精度按其所在區(qū)間進行累加，獲得3種模型鳥類種群識別率各區(qū)間分布數(shù)據(jù)，并將其繪制成直方圖(圖6)。上述試驗，采用Densenet-121模型，原圖+頭部模型使用相加融合方式，其余模型采用串聯(lián)融合方式，具體實驗結(jié)果見圖6。由圖6可知，3種鳥類部位分類模型類別分類精度區(qū)間數(shù)量最高的為90%～100%，且整個直方圖呈現(xiàn)右偏現(xiàn)象，其中基于鳥類頭部分類模型所達數(shù)量最高，為84%(即100類中84類分類精度達90%以上)，基于軀干分類模型所達數(shù)量最低。對于基于鳥類頭部的分類模型，其分類效果是3種分類模型分類最優(yōu)，最低類別分類精度達50%以上，且每類分類精度低于70%的僅占其總類數(shù)的5%。對于基于鳥類軀干的分類模型，其分類精度為3種分類模型最低，每類分類精度低于70%占其總類數(shù)的7%，且其每類分類精度90%～100%的比例，比基于鳥類頭部和全身數(shù)據(jù)的分類模型占比分別低了19%和11%；每類分類精度80%～90%的比例，比基于鳥類頭部和全身數(shù)據(jù)的分類模型占比分別高了16%和8%。對于基于鳥類全身數(shù)據(jù)的分類模型，其分類精度介于其他2個模型之間，每類分類精度低于70%占其總類數(shù)量的比例與基于鳥類頭部數(shù)據(jù)模型一樣，均為5%，但其存在1%的類別數(shù)量分類精度低于50%。此外，其每類分類精度90%～100%的比例，比基于鳥類頭部數(shù)據(jù)的分類模型占比低了8%，每類分類精度80%～90%的比例，比基于鳥類頭部數(shù)據(jù)的分類模型占比分別高了8%。

圖6 3種鳥類種群分類模型每類分類精度Fig.6 Statistical classification chart for each type of classification of three bird classification models

為了分析3種鳥類種群分類模型錯誤識別的類別是否具有相似以及錯誤分類的原因，首先選擇每個模型類別分類精度最低的5類鳥類，其次，計算5類中每類被錯分率最高的3類鳥類比例，并按降序排列將其繪制成條形圖(圖7)，條形圖中綠色條形標注該類鳥的真實標簽，其他顏色按從上到下標注的鳥類名稱分別表示該類鳥被錯分鳥類的類別名稱，其中條形圖的橫向長度表示該類鳥類被錯分為條形所標注鳥類的比例。由圖7可知，3種鳥類種群分類模型錯分率最高的前5類鳥類存在較高的相似性，其中3種分類模型錯分率最高的前5類鳥類中相同鳥類為：大杓鷸(Numeniusmadagascariensis)、白腰杓鷸(Numeniusarquata)以及牛頭伯勞(Laniusbucephalus)。對于大杓鷸與白腰杓鷸，2種鳥相互為其各自被錯分率最高的鳥類，主要由于2種鳥類體態(tài)未存在明顯可區(qū)分特征，最大差別僅為白腰杓鷸的腰及尾較白，而大杓鷸的嘴相對更長以及下彎明顯，均較為不明顯(馬敬能等， 2000)，導(dǎo)致模型對2種鳥類相互錯誤識別。對于牛頭伯勞，該鳥被錯分率最高的基本為其較為相近的紅尾伯勞(Laniuscristatus)和虎紋伯勞(Laniustigrinus)，由于其均屬于伯勞科伯勞屬，故其鳥類間具有較高的相似性，造成模型的誤判。由上述可知，3種分類模型錯分類別具有較高的相似性，對于錯分的類別主要由于其類間具有較高的相似性，未存在明顯的可區(qū)分特征，導(dǎo)致模型識別錯誤。

綜上所述，本文所提出的鳥類種群識別模型具有較高的分類精度，其中基于鳥類頭部數(shù)據(jù)的分類模型識別率最高，基于鳥類軀干數(shù)據(jù)的分類模型識別率最低。此外，通過對比3種鳥類種群分類模型的錯誤分類情況，發(fā)現(xiàn)類間具有高相似性的鳥類集合，由于其鳥類本身未存在顯著分辨特征，導(dǎo)致模型對該集合鳥類種群分類精度下降。

2.6 對比其他模型分類結(jié)果

為了驗證筆者提出的鳥類種群分類模型的有效性，選擇Inception-V1(Szegedyetal.， 2015)、Inception-V2(Ioffeetal.， 2015)、Inception-V3(Szegedyetal.， 2016)、ResNet-50、ResNet-101、ResNet-152、DenseNet-121、DenseNet-169以及Bilinear-CNN(Linetal.， 2018)模型作為對比模型，其中所對比的模型均采用ImageNet預(yù)訓練模型權(quán)重初始化網(wǎng)絡(luò)框架權(quán)重，所有輸入影像數(shù)據(jù)均放縮到224×224像素，具體結(jié)果見表5。

由表5可知，本文提出模型的總體正確率分類精度最高，達94.80%，高于Bilinear-CNN模型12.36%，DenseNet-169模型6.50%。對比各模型Kappa值可知，本文所提分類模型的Kappa最高，達0.95，具有較好的一致性。對比各模型的參數(shù)量可知，ResNet系列模型的參數(shù)量相對偏高，DenseNet系列模型參數(shù)量相對較低，ResNet系列模型的分類精度總體低于DenseNet模型，表明DenseNet模型對于鳥類種群識別模型更有效，且隨著DenseNet模型層數(shù)的上升，模型的分類精度有一定提升，相對于DenseNet-169模型參數(shù)量，本文所提模型參數(shù)量僅高于1.46×106個，但模型總體分類精度大幅度提高6.5%。由上述可知，本文所提出鳥類種群識別模型分類精度優(yōu)于其他模型，具有較高的分類精度，一定程度驗證了本文所提模型的有效性。

表5 各模型分類精度匯總Tab.5 Summary of classification accuracy of each model

進一步分析各模型的收斂速度(圖8)，選擇各系列模型中總體分類精度高的模型作為分析對象，具體模型為Inception-V2、ResNet-152以及DenseNet-169等模型，并將所選模型訓練過程損失函數(shù)的值繪制成曲線。由圖8可知，各模型的訓練的損失函數(shù)趨勢基本一致，均于訓練過程前25個epoch內(nèi)函數(shù)損失值相繼降到0～1之間，之后一直穩(wěn)定處于0.75左右，表明各模型訓練平穩(wěn)，訓練所得參數(shù)具有可靠性。此外，對于筆者所提出模型，其損失函數(shù)收斂曲線較早穩(wěn)定，表明特征融合結(jié)構(gòu)對模型訓練時梯度具有一定的分流左右，可提高模型收斂速度。

圖8 模型訓練loss曲線Fig.8 The model training loss curve

2.7 NABirds鳥類數(shù)據(jù)集分類結(jié)果

為了驗證本文所提鳥類種群分類模型對其他鳥類數(shù)據(jù)識別是否具有適用性，故本文基于NABirds(Yinetal., 2018)鳥類數(shù)據(jù)集，采用本文所提分類模型，建立鳥類種群分類模型，特征融合方式采用加法運算融合。NABirds鳥類數(shù)據(jù)集包含555種鳥類，其中每一類鳥類最高樣本量為120張，最低樣本量為13張，總訓練數(shù)據(jù)影像張數(shù)為23 929，總測試數(shù)據(jù)影像張數(shù)為24 633，共48 562張鳥類影像。各類數(shù)據(jù)分布統(tǒng)計見圖9，將每類鳥類的樣本數(shù)量，按區(qū)間[10，130]每隔20等份劃分6份。由圖9可知，NABirds數(shù)據(jù)集類別樣本數(shù)量分布較為分散，類別數(shù)據(jù)量間存在較大的不平衡，其中類別樣本數(shù)低于50張的占數(shù)據(jù)總類數(shù)的11%，且將近一半的類別樣本數(shù)量低于100張。因此，相對于本文所收集的IMLab-Birds100-2018數(shù)據(jù)集，NBirds數(shù)據(jù)集具有較大的分類難度。雖然NBirds數(shù)據(jù)集包含較多的鳥類種類及圖像張數(shù)，但其只有原圖標簽及全身標注，缺乏頭部及軀干標注。為驗證本文所提鳥類種群分類模型的適用性，采用原圖及全身特征進行特征融合。

1：[10,30); 2:[30,50); 3:[50,70); 4:[70,90); 5:[90,110); 6:[110,130)圖9 NABirds數(shù)據(jù)集各類數(shù)量分布統(tǒng)計Fig.9 Various types of distribution statistics for NABirds dataset

對比Van Horn等(Van Hornetal.， 2015)、Bilinear CNN、Yin等(Yinetal.， 2018)模型在NABirds數(shù)據(jù)集的總體分類精度(表6)，本文所提模型具有較好的總體分類精度，基于DenseNet-169模型的總體分類精度高于其他模型，其中基于DenseNet-121模型的總體分類精度高于大部分對比模型，相比Dubey等(Dubeyetal.， 2018)分類精度低了0.59%，這主要因為NABird數(shù)據(jù)集較為復(fù)雜，Dubey等模型采用了DenseNet-161模型，層數(shù)高于DenseNet-121，可抽取更具有效的分類特征?？傮w而言，一定程度說明DenseNet-169模型對于復(fù)雜的數(shù)據(jù)，其擬合效果優(yōu)于其他模型。由上述可知，筆者所提鳥類模型對其他數(shù)據(jù)集具有一定的適用性。

表6 模型總體分類精度對比Tab.6 Comparison of overall classification accuracy

3 結(jié)論

準確的識別鳥類種群信息，對森林與濕地的質(zhì)量評價與監(jiān)測具有重要意義。本文以基于鳥類影像數(shù)據(jù)，結(jié)合深度神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)，提出融合全域與局域特征的深度卷積網(wǎng)絡(luò)鳥類種群識別模型，該模型主要分為2個模塊，分別負責提取鳥類的全域及局域部件特征。通過在2個模塊間建立跳躍結(jié)構(gòu)，提出融合模塊(Fusion block) 結(jié)構(gòu)進行特征融合，使模型抽取的全局和局部特征進行有效的傳遞；最后，對比Inception、ResNet、DenseNet、 Bilinear-CNN等模型以及NABirds鳥類數(shù)據(jù)集，驗證模型的有效性和適用性。研究結(jié)論如下： 1)基于本文所提出模型，采用不同鳥類部位影像建立鳥類種群分類模型均具有較高的分類精度，其中分類精度最高的為基于鳥類頭部影像數(shù)據(jù)的分類模型。2)通過對比Inception-V1、Inception-V2、Inception-V3、ResNet-50、ResNet-101、ResNet-152、DenseNet-121、DenseNet-169以及Bilinear-CNN模型分類精度，本文所提出鳥類種群分類模型識別精度均高于上述對比模型，驗證了模型的有效性。3)通過將本文所提模型應(yīng)用于NABirds鳥類數(shù)據(jù)集，并對比其他模型的總體分類精度，本文所提鳥類種群分類模型總體分類精度表現(xiàn)較好，驗證了模型在其他數(shù)據(jù)集的適用性。綜上所述，本文所提模型具有較高分類精度和一定的適用性可為森林與濕地的監(jiān)控提供有力的支持。