周銳燁,沈文忠
上海電力大學(xué) 電子與信息工程學(xué)院,上海 201200
近些年來(lái),生物特征認(rèn)證技術(shù)快速發(fā)展。虹膜紋理由于其唯一性、極高的精度和穩(wěn)定性、非接觸性以及防偽性,在眾多生物特征認(rèn)證技術(shù)中脫穎而出,受到廣大用戶(hù)的青睞,具有很好的應(yīng)用前景[1]。一個(gè)完整的虹膜識(shí)別過(guò)程包括虹膜圖像質(zhì)量評(píng)估、虹膜分割、歸一化、特征提取和匹配等步驟[2]。其中虹膜分割是指在采集到的包括眾多噪聲的眼睛圖像中準(zhǔn)確找出虹膜區(qū)域。虹膜分割是整個(gè)虹膜識(shí)別過(guò)程中最關(guān)鍵的一步,對(duì)后續(xù)步驟的影響極大,也影響了整個(gè)虹膜識(shí)別系統(tǒng)的準(zhǔn)確率。
傳統(tǒng)的虹膜分割算法主要利用虹膜邊界的梯度變化來(lái)確定虹膜邊界?;趫D像梯度的虹膜分割算法在理想狀況下往往能取得好的分割效果,但是在非理想狀況下,如采集到的圖像虹膜區(qū)域與非虹膜區(qū)域的對(duì)比度不強(qiáng)時(shí),傳統(tǒng)算法的分割效果往往很差。在實(shí)際應(yīng)用場(chǎng)景,采集到的虹膜圖像不僅包括虹膜區(qū)域,還包括睫毛、眼瞼、光斑等噪聲干擾,傳統(tǒng)的虹膜分割算法容易受到這些噪聲的影響,從而對(duì)虹膜區(qū)域進(jìn)行錯(cuò)誤的分割,導(dǎo)致后續(xù)虹膜識(shí)別步驟出現(xiàn)錯(cuò)誤。
近年來(lái),深度學(xué)習(xí)蓬勃發(fā)展,在許多領(lǐng)域的表現(xiàn)都十分優(yōu)秀。研究人員們開(kāi)始將深度學(xué)習(xí)應(yīng)用于虹膜分割領(lǐng)域,并取得了顯著的效果,有效地解決了由于采集到的虹膜圖像亮度、對(duì)比度等的影響而導(dǎo)致算法對(duì)虹膜區(qū)域進(jìn)行錯(cuò)誤分割的問(wèn)題,提高了算法的魯棒性。但是,對(duì)于異質(zhì)虹膜圖像(可見(jiàn)光和紅外圖像),目前虹膜分割算法的分割效果并不好。目前的虹膜分割算法大多只針對(duì)特定類(lèi)型的虹膜圖像,而對(duì)于紅外圖像和可見(jiàn)光圖像混合的異質(zhì)虹膜圖像的分割效果很差。
本文提出的虹膜分割算法是基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型不僅對(duì)成像質(zhì)量參差不齊的虹膜圖像都能實(shí)現(xiàn)準(zhǔn)確的分割,而且對(duì)于異質(zhì)虹膜圖像的分割效果與目前的虹膜分割算法相比,準(zhǔn)確率更高且參數(shù)量和計(jì)算量更小。本文將提出的異質(zhì)虹膜分割卷積神經(jīng)網(wǎng)絡(luò)模型命名為PI-Unet(Precise Iris Unet)。PI-Unet主要有以下幾點(diǎn)貢獻(xiàn):
(1)使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行虹膜分割,與傳統(tǒng)算法相比,在受到噪聲干擾時(shí),更能保持分割效果的準(zhǔn)確性。
(2)對(duì)虹膜分割網(wǎng)絡(luò)的網(wǎng)絡(luò)層、損失函數(shù)和數(shù)據(jù)增強(qiáng)方法都進(jìn)行了重新設(shè)計(jì)和改動(dòng),使得提出的虹膜分割網(wǎng)絡(luò)模型能夠?qū)Ξ愘|(zhì)虹膜圖像進(jìn)行準(zhǔn)確的分割。與其他虹膜分割神經(jīng)網(wǎng)絡(luò)模型相比,PI-Unet 實(shí)現(xiàn)了更高的虹膜分割準(zhǔn)確率。
(3)在保證準(zhǔn)確率的同時(shí),對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行重新設(shè)計(jì)。最終設(shè)計(jì)的網(wǎng)絡(luò)模型參數(shù)量?jī)H為2.49×106,計(jì)算量為1.32×109,均低于目前的虹膜分割神經(jīng)網(wǎng)絡(luò),能夠適用于低性能的邊緣計(jì)算設(shè)備。
目前的虹膜分割算法主要可以分為傳統(tǒng)算法和深度學(xué)習(xí)算法兩大類(lèi)別。
傳統(tǒng)算法中,最經(jīng)典的虹膜分割算法便是Daugman于1993 年提出的微積分算子及其改進(jìn)的虹膜分割算法[3],該算法目前仍被應(yīng)用于一些虹膜識(shí)別設(shè)備中。1997 年,Wildes[4]提出了在邊緣檢測(cè)的基礎(chǔ)上,使用Hough變換來(lái)檢測(cè)虹膜內(nèi)外邊界的虹膜分割算法,該算法計(jì)算量相比Daugman的算法的計(jì)算量更小,分割速度更快。中科院譚鐵牛[5]于2003 年提出將樣條擬合算法用于虹膜分割,該算法運(yùn)行復(fù)雜度較低,但是容易受到睫毛干擾的影響而導(dǎo)致分割準(zhǔn)確率下降。
隨著近幾年深度學(xué)習(xí)的快速發(fā)展,越來(lái)越多的研究人員開(kāi)始嘗試將深度學(xué)習(xí)算法運(yùn)用于虹膜分割。Lozej等人[6]提出將Unet作為虹膜分割網(wǎng)絡(luò)模型應(yīng)用于虹膜分割,在CASIA-Iris-intervel上實(shí)現(xiàn)了91.2%的mIoU,網(wǎng)絡(luò)模型大小達(dá)到了138.2 MB。Shabab等人[7]提出基于FCN改進(jìn)的FCDNN 網(wǎng)絡(luò),在UBIRIS.v2 上實(shí)現(xiàn)了0.939 0 的F1分?jǐn)?shù)。Kerrigan等人[8]提出將結(jié)合了空洞卷積和殘差網(wǎng)絡(luò)的DRN 卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于虹膜分割,在Biosec虹膜數(shù)據(jù)庫(kù)的mIoU 達(dá)到了87.29%,網(wǎng)絡(luò)模型大小為99.2 MB。Zhang 等人[9]將U-Net 結(jié)構(gòu)和空洞卷積結(jié)合,提出FD-Unet 用于虹膜分割,在CASIA-Iris-intervel 和UBIRIS.v2上的F1 socre分別達(dá)到了97.36%和0.948 1。Lian等人[10]提出Attention guided U-Net,有效地解決了使用U-Net 進(jìn)行虹膜分割時(shí)會(huì)出現(xiàn)的對(duì)非虹膜區(qū)域像素點(diǎn)進(jìn)行錯(cuò)誤分類(lèi)的情況,在CASIA-Iris-intervel 和UBIRIS.v2上的mTPR分別達(dá)到了96.325%和96.812%,優(yōu)于Unet 的分割效果。Chen 等人[11]提出將FCN 和dense block 結(jié)合的DFCN 網(wǎng)絡(luò),在CASIA-Iris-intervel、IITD 和UBIRIS.v2 上的F1 score 分別達(dá)到了0.982 8、0.981 2和0.960 6,其網(wǎng)絡(luò)模型大小為138.91 MB。
以上用于虹膜分割的神經(jīng)網(wǎng)絡(luò)模型往往存在這樣的問(wèn)題:(1)對(duì)于紅外虹膜圖像的分割準(zhǔn)確率很高,但對(duì)于可見(jiàn)光下的虹膜圖像,分割準(zhǔn)確率就有明顯的下降,即對(duì)于異質(zhì)虹膜圖像的分割效果不好;(2)只追求準(zhǔn)確率,而忽略了因模型參數(shù)量、計(jì)算量過(guò)大而不能適用于實(shí)際應(yīng)用場(chǎng)景的問(wèn)題。本文針對(duì)上述問(wèn)題,提出了針對(duì)異質(zhì)虹膜圖像的虹膜分割神經(jīng)網(wǎng)絡(luò)模型PI-Unet。PI-Unet在設(shè)計(jì)上參照了Unet[12]的Encoder和Decoder相結(jié)合的語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且去除了其中的冗余部分,使得PI-Unet 在保持準(zhǔn)確率的同時(shí)又能夠快速地進(jìn)行分割。在損失函數(shù)方面,本文放棄了傳統(tǒng)的適用于語(yǔ)義分割的二分類(lèi)交叉熵?fù)p失函數(shù),選取了更適用于虹膜分割的損失函數(shù)。
本文提出的PI-Unet 結(jié)構(gòu)參考了Unet 的Encoder 和Decoder相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),其中Encoder的目的是提取虹膜圖像的大小、位置、形狀等特征。只有Encoder提取到的虹膜圖像特征足夠詳細(xì)且準(zhǔn)確,對(duì)虹膜圖像的分割效果才更好。所以設(shè)計(jì)一個(gè)適合于虹膜分割的Encoder是整個(gè)虹膜分割神經(jīng)網(wǎng)絡(luò)中最重要的部分。本文基于對(duì)異質(zhì)虹膜圖像快速分割的考慮,提出了兩種Encoder的設(shè)計(jì)方案,并對(duì)兩種方案的參數(shù)量和運(yùn)算量做對(duì)比,選取了其中適合異質(zhì)虹膜圖像快速分割的一種方案作為PI-Unet的Encoder。
本文設(shè)計(jì)的兩種Encoder 的結(jié)構(gòu)如圖1 和圖2 所示。在EncoderV1中,所有卷積層均拋棄傳統(tǒng)的卷積方式,而采用MobileNet[13]所采用的深度級(jí)可分離卷積。經(jīng)實(shí)驗(yàn)證明,使用深度級(jí)可分離卷積可以在保持準(zhǔn)確率的同時(shí),大幅度減小神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量和計(jì)算量。輸入圖像經(jīng)過(guò)三次下采樣環(huán)節(jié),其中下采樣方式不是采用傳統(tǒng)的2×2 最大值池化,而是stride=2 的3×3 深度級(jí)可分離卷積。由于使用深度級(jí)可分離卷積代替了傳統(tǒng)卷積,可能會(huì)導(dǎo)致出現(xiàn)Encoder特征提取不明顯的問(wèn)題,所以采用stride=2的3×3深度級(jí)可分離卷積代替2×2最大值池化,可以適當(dāng)增加用于特征提取的卷積層數(shù),彌補(bǔ)了Encoder特征信息提取不明顯的問(wèn)題[14]。在EncoderV2中,依然采用深度級(jí)可分離卷積和stride=2 的3×3 深度級(jí)可分離卷積相結(jié)合的方式進(jìn)行特征提取和下采樣,但是將下采樣環(huán)節(jié)增加到了5 次。增加下采樣的次數(shù)是考慮到在異質(zhì)虹膜圖像分割任務(wù)中,可見(jiàn)光圖像和紅外圖像的特征差異較大,下采樣環(huán)節(jié)不足可能會(huì)導(dǎo)致提取到的異質(zhì)虹膜圖像特征信息不足,從而影響分割的準(zhǔn)確率。
圖1 EncoderV1網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of EncoderV1
圖2 EncoderV2網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of EncoderV2
本文對(duì)提出的兩種Encoder設(shè)計(jì)方案進(jìn)行參數(shù)量和計(jì)算量的對(duì)比,對(duì)比結(jié)果如表1所示。在輸入圖像分辨率均為288×320×3的情況下,EncoderV2與EncoderV1相比雖然在參數(shù)量上有所增加,但是計(jì)算量上,EncoderV2卻有明顯的優(yōu)勢(shì)。這是由于EncoderV2 中充分的下采樣環(huán)節(jié)降低了后續(xù)卷積計(jì)算的計(jì)算量。在實(shí)際應(yīng)用場(chǎng)景中,參數(shù)量與計(jì)算設(shè)備的內(nèi)存大小相關(guān),計(jì)算量則與計(jì)算設(shè)備的運(yùn)算能力相關(guān)。而邊緣計(jì)算設(shè)備往往在運(yùn)算能力方面性能較差,所以在綜合考慮參數(shù)量和計(jì)算量的情況下,EncoderV2 比EncoderV1 更適合作為PI-Unet的Encoder。
表1 兩種Encoder方案參數(shù)量和計(jì)算量對(duì)比Table 1 Comparison of params and flops of two Encoder schemes
Decoder 的作用是將Encoder 提取到的特征信息轉(zhuǎn)換為語(yǔ)義信息。在異質(zhì)虹膜分割任務(wù)中,Decoder 對(duì)輸入圖像經(jīng)過(guò)Encoder 得到的特征圖進(jìn)行上采樣和卷積,最后經(jīng)過(guò)softmax 函數(shù)對(duì)圖像上每個(gè)像素進(jìn)行分類(lèi),區(qū)分屬于虹膜區(qū)域的像素和不屬于虹膜區(qū)域的像素。目前,用于語(yǔ)義分割中的Decoder 的上采樣方式主要有反卷積、插值法和反池化三種。其中反卷積的優(yōu)點(diǎn)是參數(shù)可以學(xué)習(xí),使用反卷積進(jìn)行上采樣能夠使得異質(zhì)虹膜分割結(jié)果更加準(zhǔn)確。但是使用反卷積會(huì)增加參數(shù)量和計(jì)算量,使得分割速度變慢。插值法的優(yōu)缺點(diǎn)則與反卷積相反,參數(shù)量和計(jì)算量減小的同時(shí)可能導(dǎo)致分割準(zhǔn)確率的下降。反池化是SegNet[15]中所使用的上采樣方式,實(shí)現(xiàn)方式是根據(jù)Encoder中最大池化層進(jìn)行池化時(shí)記錄的位置信息進(jìn)行復(fù)原。反池化的優(yōu)點(diǎn)是計(jì)算量小,計(jì)算速度快,缺點(diǎn)是需要占用一定內(nèi)存用于儲(chǔ)存位置信息。
由于在Encoder 的設(shè)計(jì)中,本文采用stride=2 的深度級(jí)可分離卷積代替最大值池化對(duì)特征圖進(jìn)行下采樣,所以首先排除了使用反池化作為Decoder 中的上采樣方式。為了充分發(fā)揮反卷積和插值法兩種方法各自的優(yōu)點(diǎn),盡量避免兩種方法的缺點(diǎn),本文提出了將反卷積和插值法相結(jié)合的Decoder設(shè)計(jì)方案。在Decoder的前兩次上采樣中,由于特征圖分辨率小,所以使用反卷積進(jìn)行上采樣能夠提高準(zhǔn)確率的同時(shí)只增加了少許參數(shù)量和計(jì)算量。而在Decoder 的后續(xù)上采樣中,由于特征圖分辨率變大,所以使用插值法進(jìn)行上采樣,避免參數(shù)量和計(jì)算量的大幅度增加。Encoder 和Decoder 之間通過(guò)特征融合通道相連接,目的是減少下采樣過(guò)程中的信息丟失,使得分割效果更加準(zhǔn)確。最終確定的PI-Unet 的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,各個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的細(xì)節(jié)如表2所示。
表2 PI-Unet網(wǎng)絡(luò)結(jié)構(gòu)細(xì)節(jié)Table 2 Network structure details of PI-Unet
圖3 PI-Unet網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of PI-Unet
在神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程中,選擇一個(gè)合適的損失函數(shù)非常重要。一般語(yǔ)義分割神經(jīng)網(wǎng)絡(luò)的損失函數(shù)都選用交叉熵?fù)p失函數(shù)。交叉熵?fù)p失函數(shù)表示為:
其中,yi表示樣本i的真實(shí)值,pi表示網(wǎng)絡(luò)輸出預(yù)測(cè)樣本i為正類(lèi)的概率。
使用交叉熵?fù)p失函數(shù)作為網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)可以有效地避免梯度較小時(shí)網(wǎng)絡(luò)無(wú)法繼續(xù)訓(xùn)練的問(wèn)題,使得訓(xùn)練過(guò)程中神經(jīng)網(wǎng)絡(luò)權(quán)值能夠有效地向真實(shí)值收斂。但是交叉熵?fù)p失函數(shù)有一個(gè)明顯的缺點(diǎn),當(dāng)分割的圖像存在類(lèi)別不平衡的問(wèn)題時(shí),網(wǎng)絡(luò)的訓(xùn)練就會(huì)被像素較多的類(lèi)主導(dǎo),對(duì)于像素少的類(lèi)別,網(wǎng)絡(luò)難以學(xué)習(xí)到其特征,從而降低了網(wǎng)絡(luò)的有效性。在虹膜分割應(yīng)用中,采集到的虹膜圖像便可能存在類(lèi)別不平衡的情況。如圖4所示,由于采集虹膜圖像時(shí)人離成像設(shè)備有一定的距離,所以采集到的圖像中背景占據(jù)大部分的像素,而需要準(zhǔn)確分割的虹膜區(qū)域只占小部分的像素。對(duì)于此種類(lèi)別的虹膜圖像,在網(wǎng)絡(luò)訓(xùn)練時(shí)如果使用交叉熵?fù)p失函數(shù),訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)的分割效果肯定不理想。為了解決上述問(wèn)題,需要使用一個(gè)能解決類(lèi)別不平衡問(wèn)題,又能在語(yǔ)義分割任務(wù)中表現(xiàn)良好的損失函數(shù)。
圖4 虹膜圖像中的類(lèi)別不平衡現(xiàn)象Fig.4 Category imbalance phenomenon of iris images
Dice Loss 于2016 年V-Net 網(wǎng)絡(luò)[16]中首次提出并應(yīng)用于醫(yī)學(xué)圖像分割。作者提出Dice Loss的原因是因?yàn)楦信d趣的解剖區(qū)域只占整個(gè)掃描區(qū)域中的一小部分,即類(lèi)別不平衡現(xiàn)象。如果使用傳統(tǒng)的交叉熵?fù)p失函數(shù)會(huì)使得網(wǎng)絡(luò)的訓(xùn)練過(guò)程中陷入局部最小值。Dice Loss的定義如下:
其中,X表示Ground Truth圖像,Y表示神經(jīng)網(wǎng)絡(luò)的輸出圖像。
Dice Loss 的本質(zhì)是衡量X和Y的重疊部分,當(dāng)Dice Loss 的值為0 時(shí),則表示X與Y完全重疊,即神經(jīng)網(wǎng)絡(luò)的輸出圖像和Ground Truth 圖像完全一致??梢钥闯?,Dice Loss 和語(yǔ)義分割的評(píng)估指標(biāo)IoU 的本質(zhì)是一致的,當(dāng)Dice Loss在訓(xùn)練過(guò)程中不斷減小,則表示評(píng)估指標(biāo)IoU 在不斷上升,分割效果在不斷變好,所以選用Dice Loss 作為語(yǔ)義分割的損失函數(shù)是完全可行的。而對(duì)于交叉熵?fù)p失函數(shù)所不能解決的訓(xùn)練樣本存在類(lèi)別不平衡的問(wèn)題,Dice Loss 則完全可以避免。對(duì)于虹膜分割這種存在類(lèi)別不平衡現(xiàn)象的語(yǔ)義分割任務(wù),Dice Loss比交叉熵?fù)p失函數(shù)的表現(xiàn)更好。
使用Pytorch深度學(xué)習(xí)框架[17]對(duì)本文提出的PI-Unet進(jìn)行訓(xùn)練和測(cè)試。在Nvidia RTX2080Ti GPU 上訓(xùn)練300個(gè)批次。訓(xùn)練時(shí)將輸入圖片統(tǒng)一裁剪至288×320分辨率,以方便進(jìn)行batch size為16的批量訓(xùn)練。優(yōu)化器選用Adam,其中學(xué)習(xí)率為0.001,第一次估計(jì)的指數(shù)衰減率設(shè)為0.9,第二次估計(jì)的指數(shù)衰減率設(shè)為0.999。測(cè)試模型時(shí)以batch size 為1 進(jìn)行測(cè)試,所以不需要進(jìn)行裁剪,輸出圖片分辨率與輸入圖片分辨率保持一致。
本文選取的數(shù)據(jù)集為CASIA-iris-intervel-v4,IITD和UBIRIS.v2,其中CASIA-intervel-v4和IITD的虹膜圖像為為紅外圖像,UBIRIS.v2 的虹膜圖像為可見(jiàn)光下的虹膜圖像。
CASIA-iris-intervel-v4[18]:CASIA-iris-intervel-v4 是中國(guó)科學(xué)院自動(dòng)化研究所CASIA-iris 虹膜數(shù)據(jù)庫(kù)中的一個(gè)子集。該數(shù)據(jù)集一共包括來(lái)自249 個(gè)受試者的虹膜圖像,本文選取其中124個(gè)受試者的虹膜圖像作為訓(xùn)練集,剩余的受試者的虹膜圖像作為測(cè)試集。
IITD[19]:IITD 虹膜數(shù)據(jù)集由印度理工學(xué)院德里分校提供。該數(shù)據(jù)集一共包括來(lái)自224 個(gè)受試者的虹膜圖像,因使用此數(shù)據(jù)庫(kù)的研究人員不多,不方便對(duì)比分割效果,所以本文選取該數(shù)據(jù)庫(kù)所有虹膜圖片作為訓(xùn)練集。
UBIRIS.v2[20]:UBIRIS.v2虹膜數(shù)據(jù)庫(kù)由貝拉英特拉大學(xué)的SOCIA Lab提供。本文選取該數(shù)據(jù)集中的50個(gè)受試者共2 250 張虹膜圖像作為實(shí)驗(yàn)用的數(shù)據(jù)集,其中25個(gè)受試者的虹膜圖像作為訓(xùn)練集,剩余的受試者的虹膜圖像作為測(cè)試集。
數(shù)據(jù)增強(qiáng)在神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程中有很重要的作用。合適的數(shù)據(jù)增強(qiáng)方法既能提高模型的泛化能力,又能提升模型的魯棒性。對(duì)于難以獲取大量訓(xùn)練數(shù)據(jù)的任務(wù),數(shù)據(jù)增強(qiáng)又能增加訓(xùn)練的數(shù)據(jù)量,降低過(guò)擬合現(xiàn)象出現(xiàn)的概率。
本文旨在對(duì)異質(zhì)虹膜圖像進(jìn)行快速而準(zhǔn)確的虹膜分割,因此選取的數(shù)據(jù)增強(qiáng)方法與一般語(yǔ)義分割所選用的數(shù)據(jù)增強(qiáng)方法有所不同。在虹膜識(shí)別的實(shí)際應(yīng)用場(chǎng)景中,由于光照、對(duì)焦、采集距離等因素的影響,采集到的虹膜圖像存在亮度差別大、模糊、虹膜區(qū)域位置面積不一致等問(wèn)題。如果在數(shù)據(jù)增強(qiáng)中不考慮上述影響,訓(xùn)練網(wǎng)絡(luò)模型時(shí)便會(huì)出現(xiàn)收斂速度慢的問(wèn)題,訓(xùn)練好的模型也容易出現(xiàn)過(guò)擬合的現(xiàn)象。因此,本文綜合考慮了上述實(shí)際應(yīng)用場(chǎng)景中出現(xiàn)的情況,對(duì)數(shù)據(jù)增強(qiáng)方法做出了如下設(shè)計(jì):
(1)隨機(jī)亮度、對(duì)比度增強(qiáng)。由于網(wǎng)絡(luò)訓(xùn)練所用的虹膜數(shù)據(jù)庫(kù)圖像的亮度、對(duì)比度單一,與實(shí)際應(yīng)用場(chǎng)景中虹膜圖像亮度差別大的現(xiàn)象不一致,所以對(duì)訓(xùn)練用的虹膜圖像進(jìn)行隨機(jī)亮度、對(duì)比度增強(qiáng),以達(dá)到模擬實(shí)際應(yīng)用場(chǎng)景的作用。該數(shù)據(jù)增強(qiáng)方法旨在解決由于實(shí)際應(yīng)用場(chǎng)景中采集到的虹膜圖像亮度、對(duì)比度差別大而導(dǎo)致神經(jīng)網(wǎng)絡(luò)不能正確分割虹膜區(qū)域的問(wèn)題。
(2)隨機(jī)水平翻轉(zhuǎn)。由于人的眼睛有左右眼的區(qū)別,左右眼中的虹膜區(qū)域在虹膜圖像中的位置也有差異。對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行隨機(jī)水平翻轉(zhuǎn),可以防止由于過(guò)擬合而導(dǎo)致訓(xùn)練好的網(wǎng)絡(luò)模型不能準(zhǔn)確分割左、右兩種類(lèi)型的虹膜圖片的現(xiàn)象。
(3)隨機(jī)縮放。語(yǔ)義分割的應(yīng)用場(chǎng)景多為自動(dòng)駕駛場(chǎng)景,自然景觀(guān)場(chǎng)景等,這些應(yīng)用場(chǎng)景沒(méi)有特別明顯的特點(diǎn),訓(xùn)練一個(gè)運(yùn)用于這些應(yīng)用場(chǎng)景的神經(jīng)網(wǎng)絡(luò)一般不會(huì)用到隨機(jī)縮放的數(shù)據(jù)增強(qiáng)方法。然而虹膜圖像中都有明顯的圓環(huán)區(qū)域,只是虹膜區(qū)域在采集到的圖像中的位置不固定。而訓(xùn)練用的虹膜圖像數(shù)據(jù)庫(kù)大多都采用固定位置,固定距離的成像設(shè)備采集,所以訓(xùn)練用的虹膜圖像的虹膜區(qū)域位置區(qū)域比較一致。如果不對(duì)訓(xùn)練用的虹膜數(shù)據(jù)庫(kù)的虹膜圖像進(jìn)行處理,那么訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)對(duì)于實(shí)際應(yīng)用場(chǎng)景中采集的虹膜圖像的分割效果會(huì)因?yàn)楹缒^(qū)域位置面積不一致而準(zhǔn)確率下降。因此,本文采用隨機(jī)縮放的數(shù)據(jù)增強(qiáng)方法對(duì)訓(xùn)練圖片做處理,進(jìn)行隨機(jī)縮放后的虹膜圖像中的虹膜區(qū)域的大小和位置具有一定的多樣性,能有效提高訓(xùn)練網(wǎng)絡(luò)的泛化能力。
(4)裁剪。裁剪操作是將圖片調(diào)整為一個(gè)固定的分辨率,這一步驟的目的有兩個(gè),一是隨機(jī)縮放后的圖像分辨率會(huì)發(fā)生改變,進(jìn)行裁剪操作后使圖片恢復(fù)到原來(lái)大小,而只使虹膜區(qū)域的大小和位置發(fā)生改變。二是固定分辨率的圖片便于批量訓(xùn)練,提高數(shù)據(jù)處理速度和訓(xùn)練效率。
本文提出的PI-Unet是應(yīng)用于異質(zhì)虹膜分割的神經(jīng)網(wǎng)絡(luò)模型,所以既要追求準(zhǔn)確率,又要在參數(shù)量和計(jì)算量上盡可能少。所以本文使用mIoU 和F1 分?jǐn)?shù)作為準(zhǔn)確率的評(píng)估指標(biāo),params 和flops 作為參數(shù)量和計(jì)算量的評(píng)估指標(biāo)。
mIoU是計(jì)算真實(shí)值和預(yù)測(cè)值兩個(gè)集合的交集和并集之比的平均值,其計(jì)算公式如下:
其中,pij表示真實(shí)值為i,被預(yù)測(cè)為j的個(gè)體,pji表示真實(shí)值為j,被預(yù)測(cè)為i的個(gè)體,k+1 是類(lèi)別個(gè)數(shù)。mIoU的取值范圍為[0,1],越接近于1 則表示分割準(zhǔn)確率越高。
F1 分?jǐn)?shù)同時(shí)兼顧了精確率和召回率,是兩者的調(diào)和平均數(shù),其計(jì)算公式如下:
其中,precision即準(zhǔn)確率,recall即召回率。F1分?jǐn)?shù)的取值范圍為[0,1],越接近于1則表示分割準(zhǔn)確率越高。
params即模型所有帶參數(shù)的層的權(quán)重參數(shù)總量,主要由卷積層、全連接層、BN層等的權(quán)重參數(shù)組成。使用params可以衡量神經(jīng)網(wǎng)絡(luò)模型的參數(shù)量(空間復(fù)雜度),params值越小則表示模型參數(shù)量越小。
flops 是floating point operations 的縮寫(xiě),即浮點(diǎn)運(yùn)算數(shù)。使用flops 可以衡量神經(jīng)網(wǎng)絡(luò)模型的計(jì)算量(時(shí)間復(fù)雜度),flops值越小則表示模型計(jì)算量越小。
在紅外圖像CASIA-iris-intervel-v4 和可見(jiàn)光圖像UBIRIS.v2 虹膜數(shù)據(jù)庫(kù)上,將本文提出的異質(zhì)虹膜分割神經(jīng)網(wǎng)絡(luò)模型PI-Unet 與傳統(tǒng)虹膜分割算法Caht[21]、Ifpp[22]、Wahet[23]和虹膜分割神經(jīng)網(wǎng)絡(luò)Unet[6]、FD-Unet[9]、DFCN[11]進(jìn)行mIoU和F1分?jǐn)?shù)兩項(xiàng)準(zhǔn)確率的評(píng)估指標(biāo)的對(duì)比。為了證明本文提出的數(shù)據(jù)增強(qiáng)方法以及損失函數(shù)對(duì)異質(zhì)虹膜分割準(zhǔn)確率有提升作用,將該訓(xùn)練策略應(yīng)用于Unet進(jìn)行訓(xùn)練,并進(jìn)行mIoU和F1分?jǐn)?shù)兩項(xiàng)評(píng)估指標(biāo)的測(cè)試。對(duì)比結(jié)果如表3 所示。從對(duì)比結(jié)果可以看出,與傳統(tǒng)虹膜分割算法相比,虹膜分割神經(jīng)網(wǎng)絡(luò)準(zhǔn)確率更高,魯棒性更強(qiáng),但是紅外圖像(CASIA 數(shù)據(jù)庫(kù))與可見(jiàn)光圖像(UBIRIS.v2數(shù)據(jù)庫(kù))兩者之間的準(zhǔn)確率仍有一定差距,即對(duì)異質(zhì)虹膜圖像的分割效果不好;與Unet相比,使用了本文訓(xùn)練策略的Unet在mIoU和F1分?jǐn)?shù)上都有較大提升,可以得知本文提出的數(shù)據(jù)增強(qiáng)方法和損失函數(shù)對(duì)于訓(xùn)練異質(zhì)虹膜分割神經(jīng)網(wǎng)絡(luò)有幫助。與其他虹膜分割算法相比,本文提出的異質(zhì)虹膜分割網(wǎng)絡(luò)模型PI-Unet 在CASIA-iris-intervel-v4 和UBIRIS.v2 上 都實(shí)現(xiàn)了更高的mIoU和F1分?jǐn)?shù),對(duì)異質(zhì)虹膜圖像的分割效果最好。綜上所述,本文提出的PI-Unet 神經(jīng)網(wǎng)絡(luò)以及數(shù)據(jù)增強(qiáng)方法和損失函數(shù)能夠訓(xùn)練出一個(gè)準(zhǔn)確率高的異質(zhì)虹膜分割神經(jīng)網(wǎng)絡(luò)模型。
表3 虹膜分割算法準(zhǔn)確率對(duì)比Table 3 Comparison of iris segmentation accuracy
為了體現(xiàn)本文提出的PI-Unet能夠適用于實(shí)際應(yīng)用場(chǎng)景,對(duì)PI-Unet與分割準(zhǔn)確率僅次于PI-Unet的Unet進(jìn)行params和flops的對(duì)比,對(duì)比結(jié)果如表4所示。從對(duì)比結(jié)果可以看出,在輸入圖片分辨率為288×320×3的情況下,本文提出的PI-Unet 在params 和flops 上有明顯優(yōu)勢(shì),更適用于實(shí)際應(yīng)用場(chǎng)景中的邊緣計(jì)算設(shè)備。
表4 效果最好的兩個(gè)網(wǎng)絡(luò)參數(shù)量和計(jì)算量對(duì)比Table 4 Comparison of params and flops of the most accurate two network
本文提出的PI-Unet對(duì)于紅外虹膜圖像的分割效果如圖5所示,對(duì)于可見(jiàn)光下的虹膜圖像的分割效果如圖6所示??梢钥闯?,本文提出的PI-Unet對(duì)于異質(zhì)虹膜圖像的分割效果很好,能夠?qū)Σ煌某上癍h(huán)境下的虹膜圖像都進(jìn)行準(zhǔn)確地分割。對(duì)于閉眼圖像,PI-Unet 還具有一定的檢測(cè)能力。如圖7所示,對(duì)于此種類(lèi)型的眼睛圖像,PI-Unet 會(huì)判斷該圖像不存在虹膜區(qū)域。而在訓(xùn)練集的所有虹膜圖像中并不存在閉眼圖像,所以可以得知,PI-Unet 在訓(xùn)練過(guò)程中準(zhǔn)確且充分地學(xué)習(xí)到了虹膜的特征。
圖5 PI-Unet對(duì)紅外虹膜圖像分割效果Fig.5 Segmentation results of PI-Unet for infrared iris images
圖6 PI-Unet對(duì)可見(jiàn)光虹膜圖像分割效果Fig.6 Segmentation results of PI-Unet for visible iris images
圖7 PI-Unet對(duì)閉眼圖像分割效果Fig.7 Segmentation results of PI-Unet for eye closed images
虹膜分割是虹膜識(shí)別流程中最為重要的一個(gè)步驟,關(guān)系到整個(gè)虹膜識(shí)別系統(tǒng)的準(zhǔn)確率。目前虹膜分割算法的局限性在于無(wú)法對(duì)異質(zhì)虹膜圖像(可見(jiàn)光和紅外圖像)進(jìn)行準(zhǔn)確的分割。本文針對(duì)異質(zhì)虹膜圖像,提出PI-Unet 神經(jīng)網(wǎng)絡(luò)模型以及適合于虹膜分割的數(shù)據(jù)增強(qiáng)方法和損失函數(shù)。實(shí)驗(yàn)結(jié)果證明,使用PI-Unet對(duì)異質(zhì)虹膜圖像進(jìn)行分割,在CASIA-iris-intervel-v4 和UBIRIS.v2 的mIoU 分別達(dá)到了97.50%和95.95%,F(xiàn)1 分?jǐn)?shù)分別達(dá)到了0.990 7和0.989 0。與其他虹膜分割神經(jīng)網(wǎng)絡(luò)模型相比,PI-Unet 的兩項(xiàng)準(zhǔn)確率評(píng)估指標(biāo)均為最佳,同時(shí)PI-Unet 的參數(shù)量?jī)H為2.49×106,計(jì)算量?jī)H為1.32×109,在實(shí)用性和快速性上均為最佳。本文的研究工作仍有不足之處,PI-Unet 在異質(zhì)虹膜分割任務(wù)的準(zhǔn)確率已經(jīng)很難提升,但是在參數(shù)量和計(jì)算量方面仍有提升空間。接下來(lái)的研究方向應(yīng)著力于進(jìn)一步減小網(wǎng)絡(luò)模型的參數(shù)量和計(jì)算量,使得訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型更適用于低性能的邊緣計(jì)算設(shè)備。