徐涌霞
(淮北職業(yè)技術(shù)學(xué)院計算機系,安徽 淮北 235000)
行為的準(zhǔn)確量化對理解大腦[1-3]至關(guān)重要。目前在神經(jīng)科學(xué)等傳統(tǒng)的領(lǐng)域內(nèi)使用新技術(shù)(如深度學(xué)習(xí))來進(jìn)行相關(guān)研究卓有成效。通常,新技術(shù)的應(yīng)用有可能揭示正在研究的現(xiàn)象中無法預(yù)料的特征,例如在19世紀(jì)中葉梅布里奇著名的攝影研究。以往所收集到的數(shù)據(jù)都是需要人工進(jìn)行分析的,這是一個費時、費力且容易出錯的過程。隨著大數(shù)據(jù)時代的來臨,人工進(jìn)行數(shù)據(jù)采集的效率極低。而計算機視覺和人工智能相關(guān)技術(shù)的進(jìn)步為數(shù)據(jù)分析提供了新的思路[4-6]。研究利用深度學(xué)習(xí)這一新興技術(shù),探討實驗鼠行為的識別問題。
首先,探討動作識別深度神經(jīng)網(wǎng)絡(luò)在實驗室老鼠行為數(shù)據(jù)集上的表現(xiàn)。采用老鼠行為短片的數(shù)據(jù)集進(jìn)行實驗。應(yīng)用兩種不同的輸入方案:第一種是不進(jìn)行預(yù)處理的端到端輸入;第二種是跟蹤信息中基于區(qū)域的輸入,即動物周圍的區(qū)域以及光流。在有數(shù)據(jù)增強和無數(shù)據(jù)增強的情況下進(jìn)行訓(xùn)練。然后,探討深度神經(jīng)網(wǎng)絡(luò)在連續(xù)視頻和不同設(shè)置下的性能。使用性能最佳的輸入方案評估實驗室老鼠的行為視頻。
使用了多纖維網(wǎng)絡(luò)(Multi-Fiber網(wǎng)絡(luò))[7]作為深度神經(jīng)網(wǎng)絡(luò)模型。與現(xiàn)有的深度神經(jīng)網(wǎng)絡(luò)相比,多纖維網(wǎng)絡(luò)在一些重要的行為識別基準(zhǔn)數(shù)據(jù)集上均有較高的識別效率。多纖維網(wǎng)絡(luò)使用輕量級的網(wǎng)絡(luò)(即Fiber)的組合來替代復(fù)雜的神經(jīng)網(wǎng)絡(luò),從而能在提高識別性能的同時降低計算成本。多路復(fù)用器模塊用于Fiber模塊之間的信息流。
采用的網(wǎng)絡(luò)由一個3維卷積層(用“conv3d”表示)和四個多纖維模塊(用“MFconv”表示)組成。每個MFconv模塊包含多個多纖維單元,每個多纖維單元包含四個conv3d層。所有conv3d層輸出的結(jié)果均進(jìn)行批標(biāo)準(zhǔn)化并輸入到整流線性單位(ReLU)。網(wǎng)絡(luò)的最后一層是平均池層和完全連接層。
對于行為識別算法,最常用的性能指標(biāo)是top-1準(zhǔn)確率和top-k準(zhǔn)確率。但是,正如從連續(xù)視頻中進(jìn)行采樣一樣,這些指標(biāo)對于具有同等重要類別的不平衡數(shù)據(jù)集具有誤導(dǎo)性。假設(shè)主要類別覆蓋了80%的樣本,并且模型將所有的樣本歸為該類別。那么這個分類器的總體同意率將是80%。在這種情況下,不僅需要評估模型的準(zhǔn)確率,還需要評估模型的精度和召回率。使用平均召回率作為聚合度量。由于考慮了所有類別,所有標(biāo)記不良的樣本均會對平均召回率產(chǎn)生負(fù)面影響,因此這里并沒有考慮精度。與平均F1-score相比,稀有類別的誤報率要比頻繁類別的誤報率更大。同時,還考慮了交叉設(shè)置評估中每個視頻的總體一致性。實驗鼠的行為并不是離散的,而且行為的改變需要時間。因此,模型是無法獲得100%的準(zhǔn)確率。在文中所有的實驗和評估中,不屬于九個類別之一的幀都被排除在評估之外。
實驗使用了一個高質(zhì)量數(shù)據(jù)集[8],該數(shù)據(jù)集由生活在行為觀察箱的六只實驗鼠的視頻組成。視頻長度為25.3h,分辨率為720×576像素,每秒25個幀。其中約2.7個h的視頻由實驗室觀察員使用注釋軟件進(jìn)行標(biāo)注。重點研究九種最常見的狀態(tài)行為類別:喝水、進(jìn)食、舔毛、跳、休息、無支撐站立、支撐墻站立、嗅探和行走。
端到端的輸入模式是分辨率大小被調(diào)整為224×224的灰度視頻。在視頻片段上訓(xùn)練的端到端模型稱為EtoE。除了端到端模式以外,還將區(qū)域作為輸入。該區(qū)域是以實驗鼠為中心、分辨率為88×88的運動區(qū)域。同時,將光流添加到幀運動信息的第二和第三通道中。文中用Region表示以區(qū)域作為模型輸入的模型。
因為EtoE模式和Region模式的輸入分辨率不同,因此網(wǎng)絡(luò)模型的結(jié)構(gòu)略有不同。主要的區(qū)別在于:Region分辨率需要較少的空間縮小,因此Region中省略了最大池化層。這兩個網(wǎng)絡(luò)模型擁有約770兆個參數(shù),模型的相關(guān)參數(shù)如表1和2所示。
表1 EtoE模式的網(wǎng)絡(luò)參數(shù)設(shè)置
表2 Region模式的網(wǎng)絡(luò)參數(shù)設(shè)置
對不同的隨機訓(xùn)練/測試分組執(zhí)行四重交叉驗證。每重驗證中都有2314個訓(xùn)練視頻片段和398個測試視頻片段。每個片段包含32個連續(xù)的幀。片段標(biāo)簽是片段中間點的行為,即第17幀的注釋。對于隨機選擇的片段,片段中間的第14幀和第19幀之間不能出現(xiàn)行為轉(zhuǎn)換。在訓(xùn)練集中,片段的最大重疊為29幀,并且每個片段最多選擇四個片段行為回合,每個行為最多400個片段。對于測試集,最大重疊為25幀,每個行為回合最多選擇兩個片段,每個行為最多50個片段。來自同一行為回合的片段始終以相同的方式組合在一起,因此無論是在訓(xùn)練中還是在測試集中。
為了防止過擬合,可以通過隨機組合以下的過濾器來增強數(shù)據(jù):調(diào)整剪切、水平和垂直翻轉(zhuǎn)、反向、旋轉(zhuǎn)、亮度變化等等。此外,使用了兩個新的過濾器:視頻剪切和動態(tài)照度變化。視頻剪切是2D剪切的3D版本。這意味著通過使用平均片段值替換隨機放置的長方體來向片段添加遮擋。通過向片段添加隨機3D高斯來創(chuàng)建動態(tài)照明變化。對于Region模型,光流是在隨機旋轉(zhuǎn)并反轉(zhuǎn)視頻幀之后計算的。不采用調(diào)整剪切,并且僅將亮度變化過濾器應(yīng)用于灰度通道。Region模型不使用動態(tài)照明變化過濾器,因為它會影響光流的計算。在數(shù)據(jù)增強后,對片段進(jìn)行標(biāo)準(zhǔn)化,使其平均值為0、標(biāo)準(zhǔn)差為1。對每個通道均進(jìn)行標(biāo)準(zhǔn)化,以避免混合圖像和光流信息。
實驗使用交叉設(shè)置驗證數(shù)據(jù)集[8],如表3所示。數(shù)據(jù)集中包含一個來自內(nèi)部設(shè)置數(shù)據(jù)集的視頻以及四個以不同分辨率、光照、背景以及飼養(yǎng)者的視頻。視頻的幀率和相機視角并未發(fā)生變化,所有視頻均在恒定光照下進(jìn)行拍攝,并且動物和背景之間具有良好的對比度。
表3 視頻數(shù)據(jù)集參數(shù)
為了評估模型在實際場景中的魯棒性,接下來評估在連續(xù)視頻數(shù)據(jù)集下模型的性能。上一節(jié)實驗的數(shù)據(jù)集是在平衡的片段子集上進(jìn)行的,而且忽略了行為回合過渡周圍。而本節(jié)的實驗部署在滑動窗口片段(寬32幀,步長1幀)上。與上一節(jié)相比,實驗的片段包含的數(shù)據(jù)含糊不清,并且片段集合不平衡。
在交叉設(shè)置實驗中,僅考慮端到端模式。將在整個均衡片段數(shù)據(jù)集(一共有2712個片段)上訓(xùn)練的EtoE模型應(yīng)用于測試視頻的滑動窗口片段。然后在上一節(jié)的數(shù)據(jù)集中的所有滑動窗口片段上對模型進(jìn)行了重新訓(xùn)練,其中幀寬為32,步長為4。將這個新模型稱為enEtoE?;瑒哟翱谄渭哂?2,560個片段,并且數(shù)據(jù)不平衡。為了解決訓(xùn)練過程中的不平衡問題,使用了加權(quán)隨機抽樣。在每個時期內(nèi),頻率較低的行為都會更頻繁地呈現(xiàn)給模型。由于應(yīng)用了隨機數(shù)據(jù)增強,網(wǎng)絡(luò)可以看到不同版本的剪輯。
實驗環(huán)境的配置如下所示:處理器為英特爾至強Xeon E5-1603 v4 3.5GHz,內(nèi)存為 32 GB,顯卡為NVIDIA Titan X,顯存12 GB,操作系統(tǒng)為Ubuntu 18.04,深度學(xué)習(xí)的框架為PyTorch,采用高級語言Python 3.7進(jìn)行算法實現(xiàn)。
圖1展示了有數(shù)據(jù)增強和沒有數(shù)據(jù)增強的分類結(jié)果。具有數(shù)據(jù)增強的端到端輸入模式具有75%的平均召回率的最佳結(jié)果。表4展示了每種行為的召回率。圖2是進(jìn)行數(shù)據(jù)增強后的影響。
圖1 有/無數(shù)據(jù)增強下EtoE和Region模式的召回率
表4 各種行為的召回率
數(shù)據(jù)集行為視頻片段EtoE連續(xù)視頻EtoEenEtoE跳0.67——休息0.680.790.32無支撐站立0.660.560.76支撐墻站立0.960.860.94喝水0.810.180.39進(jìn)食0.830.440.53舔毛0.800.680.86嗅探0.510.410.80行走0.890.680.89
圖2 數(shù)據(jù)增強對召回率的影響
首先,評估了端到端模型在連續(xù)視頻數(shù)據(jù)集上的性能。在表4中,與EtoE相比,enEtoE模型在除休息以外的其他行為上都具有更好的性能。接下來,在不同設(shè)置下的視頻集上評估了enEtoE模型。表5列出了每個視頻數(shù)據(jù)集的總體一致性。與人工分類(即RBR)相比,enEtoE具有更好的總體一致性。
表5 視頻的總體一致性
研究探討實驗鼠行為識別的問題,將深度神經(jīng)網(wǎng)絡(luò)(即多纖維網(wǎng)絡(luò))應(yīng)用于實驗鼠的行為識別。在不同的輸入模式、不同的數(shù)據(jù)增強方案下進(jìn)行了大量的實驗。與人工分類相比,在進(jìn)行數(shù)據(jù)增強后,具有端到端輸入模式的多纖維網(wǎng)絡(luò)有著更好的分類性能。未來的工作集中于進(jìn)一步優(yōu)化多纖維網(wǎng)絡(luò)的結(jié)構(gòu),實現(xiàn)自動化的實時實驗鼠行為識別。