賈靜,付高波,趙歆波,,鄒曉春,,張寶尚
1.西北工業(yè)大學(xué),陜西 西安 710072
2.光電控制技術(shù)重點實驗室,河南 洛陽 471009
近年來,隨著計算機視覺、圖形學(xué)、人工智能等新興技術(shù)的發(fā)展以及應(yīng)用需求的增加,學(xué)術(shù)界和工業(yè)界對眼動跟蹤技術(shù)進(jìn)行了大量深入研究。人工智能技術(shù)與裝備的有機結(jié)合,將極大地提升裝備作戰(zhàn)效能[1],眼動技術(shù)應(yīng)用于飛行訓(xùn)練方面的研究也不斷發(fā)展,從早期的眼動儀系統(tǒng)在飛行模擬器中的測試,到現(xiàn)代眼動儀用于真實空中駕駛艙的當(dāng)代試驗,利用眼動儀收集眼動數(shù)據(jù),監(jiān)測飛行員的注意狀態(tài)[2],眼動追蹤技術(shù)在航空航天領(lǐng)域的應(yīng)用正蓬勃發(fā)展。在瞄準(zhǔn)具設(shè)計中,眼動跟蹤技術(shù)提供實時的目標(biāo)識別和定位以改進(jìn)瞄準(zhǔn)精度,可提高戰(zhàn)斗人員的操作效率和打擊效果。在飛行員行為分析中,利用眼動追蹤技術(shù)來評估注意力分配和疲勞程度,以采取相應(yīng)的措施進(jìn)行提醒或干預(yù)。在飛行器界面設(shè)計中,眼動跟蹤技術(shù)被用來記錄、評估飛行員的眼動情況,以減少操作復(fù)雜性并量化用戶體驗??傊?眼動追蹤技術(shù)通過采集分析眼動數(shù)據(jù),為航空領(lǐng)域提供了實時精準(zhǔn)的量化信息,為瞄準(zhǔn)打擊、飛行安全和人機交互提供了數(shù)據(jù)基礎(chǔ)。
而魯棒準(zhǔn)確的瞳孔中心定位是眼動追蹤的前提和核心技術(shù)。在復(fù)雜環(huán)境下,現(xiàn)有瞳孔檢測方法的準(zhǔn)確性和魯棒性不夠穩(wěn)定,這與人類視覺相比是不可接受的,即人類具有很強的魯棒性。根據(jù)認(rèn)知心理學(xué)的相關(guān)研究[3],人腦具有多任務(wù)輔助學(xué)習(xí)的特點。憑借這一特性,人類在運動模糊、光照變化、噪聲等復(fù)雜環(huán)境下仍能輕松完成視覺定位任務(wù)。因此,本文認(rèn)為人類視覺系統(tǒng)的這一特性可以促進(jìn)瞳孔定位的準(zhǔn)確性。
在瞳孔檢測任務(wù)中,現(xiàn)有的瞳孔定位方法可分為傳統(tǒng)的瞳孔定位方法和基于深度學(xué)習(xí)的瞳孔定位方法?,F(xiàn)有的瞳孔定位方法從瞳孔定位任務(wù)本身出發(fā),忽視了人類視覺系統(tǒng)在處理瞳孔定位問題上的優(yōu)越性。因此,無論是基于傳統(tǒng)的圖像處理還是基于深度學(xué)習(xí),在復(fù)雜的環(huán)境下都很難取得令人滿意的效果。
為了解決上述問題,受多任務(wù)輔助學(xué)習(xí)特性的啟發(fā),本文提出了一種用于瞳孔中心檢測的由粗到精的神經(jīng)網(wǎng)絡(luò)架構(gòu),如圖1 所示,其中,藍(lán)色背景代表粗分類階段,紅色背景代表精細(xì)回歸階段。在網(wǎng)絡(luò)的不同分支中定義了兩個不同的坐標(biāo)維度。粗分類階段和細(xì)回歸階段是級聯(lián)的。該架構(gòu)主要分為粗分類和精細(xì)回歸兩個階段。在粗分類階段,將坐標(biāo)值劃分為不同的類別。這種分類在相應(yīng)的尺度空間中執(zhí)行多次。精細(xì)回歸階段進(jìn)一步細(xì)化粗分類結(jié)果,計算出準(zhǔn)確的瞳孔中心位置。粗分類階段的主要任務(wù)用來輔助回歸任務(wù),以提高準(zhǔn)確率。瞳孔中心的橫坐標(biāo)和縱坐標(biāo)在兩個獨立的分類和回歸模塊中同時計算。它們共享相同的全圖像卷積特征映射,這也在訓(xùn)練過程中引入了類似于多任務(wù)學(xué)習(xí)(MTL)[4]的優(yōu)勢。此外,在開放標(biāo)準(zhǔn)和具有挑戰(zhàn)性的數(shù)據(jù)集上,將本文方法與大量優(yōu)秀的ElSe[5]、ExCuSe[6]、SET[7]、DeepEye[8]等方法進(jìn)行了比較,得到了最先進(jìn)的結(jié)果。
圖1 本文提出的由粗到精網(wǎng)絡(luò)的結(jié)構(gòu)Fig.1 The architecture of the proposed coarse-to-fine network
為了提高瞳孔中心檢測的魯棒性和準(zhǔn)確性,本文在瞳孔中心檢測任務(wù)中引入多任務(wù)模塊來模擬人類視覺系統(tǒng)的多任務(wù)輔助學(xué)習(xí)特性。多任務(wù)模塊主要由兩部分組成:一部分是在粗分類階段使用多個具有不同尺度因子的子任務(wù)輔助主任務(wù),以優(yōu)化瞳孔中心檢測的魯棒性。另一部分通過對分類任務(wù)和回歸任務(wù)的聯(lián)合優(yōu)化得到瞳孔中心坐標(biāo),從而提高瞳孔中心的檢測精度。
假設(shè)輸入圖像為I,通過基本網(wǎng)絡(luò)得到的輸出為g(I);Tasks表示不同尺度空間中的分類任務(wù),定義為
式中,i表示分類任務(wù)的個數(shù)。在尺度空間中,將強約束分類和弱約束分類相結(jié)合,強約束分類表示主任務(wù),弱約束分類表示子任務(wù)。
在獲得多尺度分類節(jié)點的基礎(chǔ)上,一方面,計算不同尺度空間中多任務(wù)單元的交叉熵?fù)p失。多任務(wù)分類損失定義為
式中,αi為不同尺度分類任務(wù)的權(quán)重系數(shù);Ci表示每個任務(wù)的交叉熵?fù)p失。
另一方面,在主要任務(wù)節(jié)點的基礎(chǔ)上建立了回歸模型。首先通過主要任務(wù)節(jié)點求解最大期望值E(mainTask(g(I)),定義為
式中,n為主要任務(wù)分類節(jié)點個數(shù);Nodes(i)表示主任務(wù)第i個節(jié)點的輸出;Ki表示節(jié)點i對應(yīng)的分類類別。
因此,Softmax(nodes(i))表示第i個節(jié)點對應(yīng)瞳孔中心坐標(biāo)的分類概率。
在得到瞳孔中心坐標(biāo)的最大期望值后,通過均方誤差計算回歸損失。將多任務(wù)分類損失和回歸損失相結(jié)合對模型進(jìn)行訓(xùn)練,以優(yōu)化瞳孔中心坐標(biāo)。最終損失L定義為
式中:β為回歸損失函數(shù)的權(quán)值;LE(mainTask(g(I)))是真實值與期望值之間的均方誤差。
為了保證提取的特征尺度的一致性,Vera-Olmos 等提出的DeepEye 要求輸入圖像必須具有固定的大小,否則很難獲得滿意的結(jié)果。由于成像特性的不同,圖像尺寸也會有所不同,這阻礙了深度學(xué)習(xí)網(wǎng)絡(luò)魯棒性的提高。在本文中,通過比例尺映射來解決這個問題。其思想是將不同大小的圖像映射到固定大小的比例尺空間進(jìn)行計算。
粗分類主要包括點分類和多尺度約束。
1.2.1 點分類
N.Ruiz 等[9]首先使用姿態(tài)角范圍(bin)分類提出了用于頭部姿態(tài)估計的HopeNet?,F(xiàn)有的bin 類函數(shù)為B(pointi)=[a,b]。如果pointi屬于[a,b],則B(pointi)=a,最大極值誤差為E=[0,|b-a|]。對于精確的回歸階段,這個誤差太大而無法接受。為解決這一問題,本文在粗分類階段提出一種新的點分類方法。在尺度空間中定義不同的等距點,每個點代表一個范疇。在點分類中,輸出值屬于最近的點。當(dāng)距離相等時,它們屬于具有較高節(jié)點的點。與bin分類方法相比,本文所提出的點分類方法可以根據(jù)不同的任務(wù)改變距離測量,擴展了高維數(shù)據(jù)空間。引入點分類,為粗分類階段提供了一種相對公平穩(wěn)定的分類策略。
1.2.2 多尺度約束
在定義分類尺度空間時,通過設(shè)置分類點的個數(shù)來確定每個類別在尺度空間中的范圍。在粗分類階段,首先,定義了一個包含513個分類點的尺度空間作為主要任務(wù)。其次,通過減少分類點的數(shù)量,定義了257、129、65、33、17、9、5、3個分類點,同時進(jìn)行訓(xùn)練。
可以選擇骨干網(wǎng)絡(luò)進(jìn)行多次試驗,并擴展多個完全連接的層來預(yù)測瞳孔中心坐標(biāo)。每一個全連通層代表一個不同的分類尺度空間。每個尺度空間都有一個確定的交叉熵?fù)p失。分類點越少,損失的尺度空間對應(yīng)的權(quán)重越大。當(dāng)分類范圍較大時,錯誤的分類對應(yīng)更高的懲罰。每個維度的分類損失定義為
式中:C(yi,)表示交叉熵?fù)p失;αi表示不同尺度空間的權(quán)重。
經(jīng)過粗分類階段的計算,在一個較小的范圍內(nèi)確定各個維度的坐標(biāo)值,該范圍代表一個類別。而在實際應(yīng)用中,瞳孔位置是一個準(zhǔn)確值。為得到更精確的瞳孔中心坐標(biāo),本文擴展了粗分類階段之后的細(xì)回歸階段。
在精細(xì)回歸階段,只使用粗分類階段的主要任務(wù),它具有更精細(xì)的分類范圍,因此精細(xì)回歸任務(wù)更容易收斂。用softmax層輸出的數(shù)學(xué)期望來表示回歸方程,定義為
式中,Z表示來自全連接層的矢量輸出和softmax 層的輸入;i表示分類類別;分母起歸一化作用。
回歸損失定義為
在定義了回歸方程之后,選擇均方誤差損失作為回歸損失。最后,生成兩個最終損失,分別對應(yīng)瞳孔定位任務(wù)中圖像的兩個不同維度。每個最終損失被定義為分類損失和回歸損失的線性組合。每個維度的最終損失定義為
式中,RegressionLoss 表示均方誤差損失函數(shù);β表示回歸損失權(quán)值。
在訓(xùn)練過程中,首先按照8/2 的比例對LPW 數(shù)據(jù)集進(jìn)行分割,最終生成104685張訓(xùn)練圖像和26171張測試圖像。在將圖像輸入網(wǎng)絡(luò)之前,將其大小調(diào)整為64×64。使用Resnet-50 作為骨干網(wǎng)絡(luò),訓(xùn)練了30 個epoch。在反向傳播中使用Adam優(yōu)化器。初始學(xué)習(xí)率設(shè)為0.001,每10次學(xué)習(xí)率減小,其中β1=0.9,β2=0.999,η=10-8。此外,在粗分類階段定義了多個分類點,分類點為257 的尺度空間的分類范圍最小,對整體任務(wù)的貢獻(xiàn)最大,而分類點為3的尺度空間貢獻(xiàn)最小,根據(jù)Wang Haofan[10]所提出的方案以及在訓(xùn)練測試過程中調(diào)整參數(shù)確定了權(quán)重因子。αi={1, 2, 3, 5, 7, 9, 11,13, 15},β= 0.15。
2.1.1 數(shù)據(jù)集
為了測試和訓(xùn)練所提出的網(wǎng)絡(luò),在室內(nèi)和室外場景中使用不同的傳感器采集瞳孔圖像,它們包括三個已發(fā)表的具有挑戰(zhàn)性的紅外瞳孔圖像數(shù)據(jù)集。
(1) LPW:該數(shù)據(jù)集包含66 個瞳孔區(qū)域視頻。該數(shù)據(jù)集由22 人使用頭戴式眼動儀收集,共生成130856 個視頻幀。該數(shù)據(jù)集涵蓋了室內(nèi)和室外的照片條件。
(2) ElSe:該數(shù)據(jù)集包含55712張圖像。數(shù)據(jù)集I-V通過眼動追蹤設(shè)備在道路駕駛環(huán)境中記錄。數(shù)據(jù)集VI-VII在室內(nèi)試驗中收集。
(3) PupilNet:該數(shù)據(jù)集包含41217 張圖像。數(shù)據(jù)集PNIPNV包括更快的變化、不利的光源和眼睛生理結(jié)構(gòu)的破壞。2.1.2 指標(biāo)
為了評估和公平地比較本文提出的網(wǎng)絡(luò)與其他算法,針對不同的階段定義了不同的評價指標(biāo)。
(1) 檢測率:如果預(yù)測坐標(biāo)與真實標(biāo)簽之間的歐氏距離小于5px,則認(rèn)為檢測成功。檢測成功的圖像與所有圖像的比值被定義為檢測率。
(2) 分類檢測率:對于分類任務(wù)的每個維度,定義輸出結(jié)果與真實標(biāo)簽之間的誤差小于等于3px,表示分類成功。成功圖像的比例定義為分類檢測率。
(3) 分類精度:當(dāng)兩個不同的維度同時分類成功時,就定義了分類精度。
(4) 絕對誤差:每個維度的預(yù)測值與真實值之間的像素誤差的絕對值。
(5) 歐氏距離誤差:預(yù)測坐標(biāo)與實際坐標(biāo)之間的像素誤差的歐氏距離。
2.1.3 實現(xiàn)細(xì)節(jié)
本文收集了有代表性的算法,將SET、Swisski、ElSe、ExCuSe、DeepEye 等算法與本文方法進(jìn)行了比較。所有試驗均在一臺臺式計算機上進(jìn)行。
2.2.1 分類網(wǎng)絡(luò)與分類方法評價
為了獲得更穩(wěn)定的分類模型,考慮到不同的代表性模型AlexNet、VGGNet、ResNet-50,在現(xiàn)有研究絕大多數(shù)任務(wù)上的性能,ResNet-50 具有最高的性能。因此,本文選擇Resnet-50作為骨干分類網(wǎng)絡(luò)。
此外,為了測試點分類的準(zhǔn)確性,本文將其與Ruiz等在LPW 數(shù)據(jù)集上提出的bin 分類方法進(jìn)行了比較。同樣,在粗分類階段,使用之前定義的評價指標(biāo)來計算兩個維度的分類檢測率。在精細(xì)回歸階段,使用不同維度的平均絕對誤差和標(biāo)準(zhǔn)差作為評價指標(biāo)。最后,計算了不同分類方法的平均歐氏距離誤差。
試驗結(jié)果見表1,分類階段以分類精度作為評價指標(biāo)。用平均絕對誤差(MAE)、平均歐氏距離誤差(MEDE)比較回歸階段。由表1可見,與bin分類相比,本文的點分類方法在兩個維度的平均分類精度上提高了0.77%,在回歸精度上平均歐氏距離誤差降低了16.58%。與bin 分類相比,點分類更加公平、合理,不會帶來數(shù)據(jù)偏移。
表1 bin分類與本文在LPW數(shù)據(jù)集上的點分類在分類和回歸階段的對比Table 1 Comparison between bin classification and proposed point classification on LPW data sets in classification and regression stages
2.2.2 多任務(wù)輔助特征有效性評價
為了驗證架構(gòu)的有效性,在LPW數(shù)據(jù)集上進(jìn)行了分析試驗,設(shè)置了兩個對照組。在對照組1中,去除多尺度空間約束,只保留一個尺度空間與主任務(wù)。在對照組2中,刪除主任務(wù)的分類損失,保留其他子任務(wù)的分類損失,結(jié)合最高尺度空間的回歸損失對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
試驗結(jié)果見表2。對照組1的檢出率相對較低,因為刪除了很多分類子任務(wù)。僅使用主分類任務(wù),網(wǎng)絡(luò)難以穩(wěn)定收斂。對照組2 的分類精度較低,因為去掉了最高尺度的分類損失,很難得到準(zhǔn)確的分類結(jié)果。
表2 多任務(wù)輔助效能控制試驗(通過分類準(zhǔn)確率和檢測率對結(jié)果進(jìn)行可視化)Table 2 Multi-task auxiliary effectiveness control experiment (The results are visualized through classification accuracy and detection rate)
為了充分證明模型的性能,建立了對比試驗。首先,將該模型與傳統(tǒng)的瞳孔定位算法Swiski、SET、ExCuSe和ElSe進(jìn)行了比較,將檢出率作為評價指標(biāo)。選擇LPW作為測試數(shù)據(jù)集,因為它具有更多的連續(xù)幀圖像和更高的圖像分辨率。為了進(jìn)行更詳細(xì)和全面地比較,將每個參與者采集的圖像視為一個獨立的數(shù)據(jù)集,并對每個分割的數(shù)據(jù)集執(zhí)行不同的算法。
表3 給出了本文模型和傳統(tǒng)算法在LPW 數(shù)據(jù)集上的檢測率。與傳統(tǒng)算法相比,本文提出的模型有了顯著的改進(jìn)。還計算了每種方法在所有數(shù)據(jù)集上的平均檢出率。本文方法的檢出率為97.2%。在傳統(tǒng)的瞳孔定位方法中,ElSe 方法的定位效果最好。然而,本文方法仍有大約28%的改進(jìn)。
圖2描述了在LPW上小于特定歐氏距離的預(yù)測和手工標(biāo)記的地面真值的像素誤差的平均檢測率。當(dāng)允許像素誤差小于1 時,本文方法的檢測率接近60%。當(dāng)允許像素誤差小于3 時,對應(yīng)的檢測率大于90%。與傳統(tǒng)的最佳算法相比,本文方法提高了30%以上。因此,本文方法適用于高精度瞳孔定位。這也表明本文模型具有更高的檢測率和更好的魯棒性。
本文選擇了在LPW 數(shù)據(jù)集上表現(xiàn)較好的兩種傳統(tǒng)算法ExCuSe 和ElSe 以及兩種深度學(xué)習(xí)算法PupilNet 和DeepEye進(jìn)行比較。
對于所有12個數(shù)據(jù)集,本文模型在8個數(shù)據(jù)集上實現(xiàn)了更高的檢測率(見表4)。與PupilNet相比,所提出的方法將所有數(shù)據(jù)集的平均檢出率提高了約20%。與DeepEye 相比,平均檢出率略有提高6%。ElSe在傳統(tǒng)方法中表現(xiàn)出更好的性能,但本文方法在平均檢出率上仍然提高了30%。
表3 本文方法與傳統(tǒng)方法在LPW數(shù)據(jù)集上的檢測率比較Table 3 Comparison of detection rate between proposed method and traditional methods on LPW dataset
圖2 所測試方法在LPW數(shù)據(jù)集上的像素誤差和平均檢測率分析Fig.2 Pixel error and average detection rate analysis of tested method on LPW dataset
為比較不同方法的時間效率,進(jìn)行了一個對比試驗。首先,在LPW上隨機選擇100張圖像。其次,每種方法執(zhí)行100 次,計算每張圖像的平均處理時間,試驗結(jié)果見表5。與DeepEye和ExCuSe相比,本文方法分別提高了1.34倍和3.04倍。
表4 本文方法與最先進(jìn)的方法在混合數(shù)據(jù)庫上的檢測率比較Table 4 Comparison of detection rate between proposed method and the best-advanced method on the hybrid dataset
表5 不同方法在LPW數(shù)據(jù)集上的時間效率比較Table 5 Comparison of time efficiency between different methods on LPW data sets
本文受人類視覺系統(tǒng)特點的啟發(fā),探索了人類視覺系統(tǒng)的多任務(wù)輔助學(xué)習(xí)特征與瞳孔中心檢測任務(wù)之間的隱藏關(guān)系,將多任務(wù)輔助學(xué)習(xí)特征引入瞳孔定位任務(wù),提出了一種從粗到精多任務(wù)協(xié)同優(yōu)化瞳孔定位方法。本文方法在LPW 和ElSe、ExCuSe 上取得了最先進(jìn)的結(jié)果,分別獲得了97.2%和86.3%的檢測率,距離誤差小于5px。試驗結(jié)果驗證了多任務(wù)輔助學(xué)習(xí)特征的有效性。在未來的工作中,本文提出的網(wǎng)絡(luò)架構(gòu)可以應(yīng)用到其他類似的任務(wù)中,并且可以根據(jù)不同的需求靈活更換相應(yīng)的骨干網(wǎng)。