• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于EL-YOLO的虹膜圖像人眼定位及分類算法

      2021-09-07 00:48:36陳金鑫沈文忠
      計算機工程與應用 2021年17期
      關鍵詞:邊框虹膜置信度

      陳金鑫,沈文忠

      上海電力大學 電子與信息工程學院,上海201306

      虹膜相較于指紋、面部等生理特征,具備著先天的與外在隔離的優(yōu)勢,有著極高的穩(wěn)定性。與常見的指紋、面部相比有著更好的唯一性,防欺騙性與防偽性很好,有著廣泛的應用前景[1-2]。但是虹膜認證設備采集的圖片一般包含上半個面部,以及一些背景干擾等,如何精確高效地從整幅圖片中定位出人眼的位置,是虹膜識別設備處理獲取虹膜圖像的首要步驟。

      傳統(tǒng)的人眼定位算法大致可以分為基于人眼的固有特征、基于外觀的統(tǒng)計模型以及基于結構信息進行人眼定位等。滕童等[3]提出了基于級聯(lián)神經(jīng)網(wǎng)絡的多任務虹膜快速定位方法。該算法引入級聯(lián)神經(jīng)網(wǎng)絡提取虹膜圖像特征,將虹膜定位分解成從粗定位到精確定位的步驟,該算法并非是端到端的邊框回歸,檢測速度較慢,而且僅是對于虹膜局部圖像的檢測且缺少眼睛類別,圖像檢索范圍較小,干擾因素不多。晁靜靜等[4]提出了基于方向梯度直方圖(HOG)和支持向量機(SVM)的人眼定位算法。該方法依賴于人眼的灰度梯度變化,在人臉面部圖像較大時,由于鼻孔部位的灰度梯度值同樣變化較大,因而出現(xiàn)了誤檢的情形。同樣在應對光照變化較大,圖像質量較低以及戴眼鏡等情形下,準確定位人眼的性能急劇下降。主動外觀(ASM)是一種經(jīng)典的用于描述空間結構的模型,Ishikawa等[5]提出了基于主動外觀模型的人眼定位算法。但該模型是描述整個面部結構,當面部區(qū)域信息過少,或者頭部轉動角度過大,將難以定位出眼睛的位置。

      隨著卷積神經(jīng)網(wǎng)絡在圖像識別與檢測領域取得的重大進展,針對傳統(tǒng)人眼定位算法的缺陷引入YOLOV3-tiny[6]目標檢測算法,結合輕量化網(wǎng)絡MobileNetV3[7]提出了EL-YOLO網(wǎng)絡。在中科院自動化研究所公開的CASIA-IrisV4、MIR2016以及本實驗室獲取的虹膜圖像數(shù)據(jù)集上取得了不錯的效果。對于光照變化,以及頭發(fā)遮擋,圖像質量較差的情形都有著優(yōu)秀的定位效果。

      本文的工作有如下內容:

      (1)標注了已有的開源虹膜數(shù)據(jù)集和本實驗室采集獲取的虹膜數(shù)據(jù)集,對標記的左右眼進行區(qū)分,在做目標檢測的同時進行左右眼分類,且對眼睛的具體位置做出合理的定義,使得訓練loss收斂合理。

      (2)修改YOLO算法的損失函數(shù),結合廣義交并比[8](GIoU)對傳統(tǒng)的均方誤差(MSE)邊框定位損失函數(shù)進行修改,以及對定位置信損失的修改,以此加快訓練損失收斂。

      (3)將YOLOV3-tiny與MobileNetV3相整合,提出EL-YOLO網(wǎng)絡,降低了YOLOV3-tiny的參數(shù)量與計算量,將已有的YOLOV3模型降低到0.5 MB左右,使得模型能夠移植到嵌入式邊緣設備上運行。

      1 算法基礎

      1.1 特征圖信息表示

      YOLOV3-tiny是一種單階段目標檢測網(wǎng)絡,與RCNN、Fast R-CNN、Faster R-CNN、MTCNN[9-12]等兩階段目標檢測網(wǎng)絡相比,存在著目標檢測速度快的優(yōu)點。

      正因為其是單階段目標檢測網(wǎng)絡,其目標定位在神經(jīng)網(wǎng)絡的末端的特征圖就可以表示。網(wǎng)絡經(jīng)過一系列卷積層的特征提取,在最終輸出時分成兩個分支,特征圖面積越小,單位面積上的語義信息越豐富。網(wǎng)絡輸出結構如圖1所示。

      圖1 YOLOV3-tiny網(wǎng)絡輸出結構Fig.1 Output structure of YOLOV3-tiny network

      在圖1中分支1是預測較小的檢測目標,分支2是預測較大的檢測目標,因為下采樣操作,分支1輸出特征圖的邊長是分支2的2倍。在任意分支中,每一格點由4個邊框信息,1個置信度信息以及N類類別信息組成,由于預設k個接近定位目標尺寸的錨點可以加快網(wǎng)絡定位速度,因此單個尺度的目標表示信息有k組。

      在最終訓練后得到的特征圖上,每一個格點都會反映此區(qū)域是否有檢測目標。訓練時,對于目標所在區(qū)域的格點而言,邊框、置信度、類別信息都是可以訓練的;對于無關的背景格點,僅訓練置信度一個信息即可,因為單個目標中點的唯一性,所以其他位置的邊框會框進無關信息,降低了目標的置信度,僅通過置信度就可以排除背景格點。但是實際測試時僅用置信度來篩選目標會導致接近目標中心的格點無法被濾除,因為其靠近目標中心,置信度有可能超過置信閾值,所以在測試時引入了非極大值抑制(NMS)算法,選取最大置信概率的定位目標。

      1.2 深度可分離卷積

      MobileNet[13]作為高性能的輕量級網(wǎng)絡,其參數(shù)量極大減少,主要依賴的就是深度可分離卷積。普通的卷積操作是將一個多通道的圖像經(jīng)過一個多通道的卷積核變成單層特征圖像,輸出的多通道體現(xiàn)在卷積核的不同。深度可分離卷積分為兩步:深度卷積(Depthwise Convolution)與點卷積(Pointwise Convolution)。深度卷積即對輸入每個通道進行平面卷積,獲得與輸入圖像通道數(shù)相同的特征圖像。點卷積是進行1×1的立體卷積操作,選取N組1×1的立體卷積就會獲得N通道的輸出特征圖。其卷積步驟如圖2所示。

      圖2 深度可分離卷積Fig.2 Depthwise convolution

      假設在神經(jīng)網(wǎng)絡中,輸入通道為M,輸出通道數(shù)為N,使用的卷積核尺寸為S。那么普通卷積的訓練參數(shù)量為(M×S×S+1)×N,深度可分離卷積的訓練參數(shù)量為M×S×S+(M+1)×N,相較于普通卷積減少參數(shù)量為M×S×S×(N-1)-M×N。

      1.3 錨點框

      YOLO網(wǎng)絡的每一層錨點框的數(shù)目是人為設定的,其中每個錨點的大小是按照具體訓練的數(shù)據(jù)集進行K-means[14]聚類獲得,其算法流程如圖3所示。

      圖3 錨點框聚類流程圖Fig.3 Anchor box clustering flowchart

      錨點框當作超參數(shù)用于網(wǎng)絡訓練,可以加快網(wǎng)絡對于定位目標的查找。定位目標的邊框實際信息需要對特征網(wǎng)絡預測的信息進行解碼,邊界框如圖4所示,其中虛線框是預設錨點框,以( )cx,cy為矩形框中心坐標,Pw和Ph分別為預設錨點框的寬與高,實線框是實際目標的邊框,( )tx,ty是實際邊框相對于錨點框的偏移,在YOLO網(wǎng)絡實際輸出中偏移量范圍為( -∞,+∞),而最終的輸出層每一格范圍為[0,1),所以要經(jīng)過sigmoid函數(shù)歸一化,優(yōu)點是可以加快網(wǎng)絡訓練的收斂,同理以e為底數(shù)的邊框邊長也是如此。

      圖4 邊界框示意圖Fig.4 Diagram of boundary box

      定位目標的實際邊框信息表達為:

      式中,σ是sigmoid函數(shù),(tw,th)是實際目標邊框相對于預設錨點的寬高縮放比例。

      2 EL-YOLO模型

      由于YOLOV3-tiny網(wǎng)絡模型的主干網(wǎng)絡使用大量的卷積層,所以YOLOV3-tiny的模型大小達到33.8 MB。原YOLOV3-tiny網(wǎng)絡用于80類別物體的識別定位;而且原模型輸入圖像為彩色圖像,背景復雜多變需要較大的網(wǎng)絡模型去提取特征,針對虹膜圖像單一類別的目標而言,且輸入圖像為灰度圖像,具有一定的可行性,可以設計輕量快速的模型完成定位及分類任務。

      2.1 人眼定位及分類模型設計

      在主干網(wǎng)絡中使用MobileNetV3 block構成特征提取網(wǎng)絡。單個MobileNetV3網(wǎng)絡塊由點卷積通道膨脹、深度卷積、點卷積通道壓縮、SENet塊、逆殘差結構這些主要部分構成。單個MobileNetV3塊如圖5所示。

      圖5 MobileNetV3塊Fig.5 MobileNetV3 block

      其中,PW與DW分別代表深度卷積與點卷積,NL代表非線性激活函數(shù),本文中主要用到三種激活函數(shù)h-swish、h-sigmoid以及ReLU。h-swish激活函數(shù)相對于swish[15]函數(shù)計算更快,其表達式為:

      EL-YOLO網(wǎng)絡的整體結構如圖6所示,其中實線框內為主干特征提取網(wǎng)絡,具體內容見表1。網(wǎng)絡末端兩個分支輸出的通道數(shù)都為7,其中前1~4通道表征人眼邊框信息,第5通道表征定位人眼的置信度和第6、7通道表征定位的左右眼分類。網(wǎng)絡末端采用普通卷積操作,其中在中尺度目標定位24×18分支處,上采樣操作之后并非如YOLO一樣采用通道連接的策略,而是選擇直接相加,可以減少網(wǎng)絡參數(shù)并且提高運算速率。

      圖6 EL-YOLO網(wǎng)絡整體結構圖Fig.6 Overall structure diagram of EL-YOLO network

      人眼定位的特征提取網(wǎng)絡結構如表1所示。

      表1 特征提取網(wǎng)絡結構Table 1 Network structure of feature extraction

      表1中每一層都引入MobileNetV3 block的結構,且卷積核尺寸都是3×3大小。表1中的膨脹與輸出指的是網(wǎng)絡卷積層通道數(shù),網(wǎng)絡的下采樣不采用池化操作,通過卷積運算的步長調整來實現(xiàn)。

      2.2 損失函數(shù)設計

      整體的網(wǎng)絡訓練損失由邊框交并比(IoU)損失、置信度損失以及類別損失構成。在此IoU損失引入廣義交并比(GIoU),這個相較于傳統(tǒng)的IoU可以反映出預測框和標簽框在沒有交集時的遠近,即在IoU為0時,GIoU不為0,訓練梯度不為0,依然可以進行反向傳播,訓練網(wǎng)絡。GIoU的表達式為:

      此處C是包含A與B的最小框,C( )A?B表示C排除掉A與B的交集。LossGIoU的計算公式為:

      式中,λscale是表示預測目標大小的權重,越小的檢測目標系數(shù)權重越大。a×b表示預測特征圖的尺寸,c表示每個尺寸的錨點數(shù),代表特征圖此處有檢測目標。GIoU的詳細計算方法如公式(6)所示,本處是計算預測值邊框信息(xi,yi,wi,hi)與實際邊框信息之間的廣義交并比,相較于YOLO算法采用的均方誤差(MSE)更能反映預測檢測框的檢測效果的好壞。

      左右眼類別損失與邊框損失相似,僅僅考慮在有目標時候的損失情況,LossCls的計算公式為:

      式中,ci代表目標類別預測值,ci代表目標類別標簽值。

      置信損失不僅需要考慮有目標時的置信損失,也需要考慮無檢測目標的置信損失,因為這是確定目標位置的首要信息。LossConf的計算公式為:

      式中,λallobj是預測的所有格點的系數(shù),即該格點處是否有目標都要乘以該系數(shù)。λallobj系數(shù)后的因子為交叉熵損失。λallobj的計算公式如下:

      λallobj是衡量預測整體結構與標簽之間的距離情況,本文中 ?=1,γ=2,即用L2距離。上述公式(7)、(8)、(9)中:代表特征圖此處有檢測目標,反之代表沒有,Ci代表置信度預測值,代表置信度標簽值。

      3 實驗評估

      本實驗的數(shù)據(jù)集由中科院自動化研究所公開的CASIA-IrisV4、MIR2016和本實驗室采集的虹膜數(shù)據(jù)集構成,選取CASIA-IrisV4-Distance與MIR2016庫中分別為2 567與4 499張含有雙眼的虹膜圖像,抽取CASIAIrisV4庫中和本實驗室采集的單眼圖像SEPAD_V1共計2110張,訓練與測試集數(shù)目具體劃分見表2。

      表2 數(shù)據(jù)集構成Table 2 Dataset composition

      3.1 數(shù)據(jù)集

      無論是公開數(shù)據(jù)集還是實驗室自采集數(shù)據(jù)集SEPAD_V1、SEPAD_V2都沒有眼睛區(qū)域的精確標注和分類標注,本文眼睛標注的邊框有如下要求,邊框的左右邊界要包含內外眼角,邊框的上下邊界至少要包含眼瞼邊界,使用Imglab標注工具對數(shù)據(jù)集進行標注,如圖7所示。

      圖7 標注軟件:ImglabFig.7 Labeling software:Imglab

      圖8選自CASIA-IrisV4數(shù)據(jù)庫,圖片編號為S4000D00,展示該圖像局部細節(jié),可以發(fā)現(xiàn)數(shù)據(jù)集標注的信息包含眼睛位置與關鍵點位置。在實際網(wǎng)絡訓練中,由于人為標注邊框的大小不統(tǒng)一,所以使用標注的眼睛局部關鍵點所占據(jù)的范圍當作實際邊框。

      圖8 眼睛標注細節(jié)信息Fig.8 Eye label details

      3.2 訓練部署與評價指標

      實驗使用的工作站及運行環(huán)境配置如表3所示。

      表3 工作站及運行環(huán)境配置Table 3 Workstation and operating environment configuration

      EL-YOLO網(wǎng)絡的訓練策略設置如表4所示。

      表4 訓練策略設置Table 4 Training strategy settings

      利用K-means聚類算法對虹膜圖像數(shù)據(jù)集中眼睛的邊框大小進行聚類,分別歸一化到12×9和24×18的圖像大小,聚類結果分別為(6.906 25×2.781 25)與(3.437 5×1.312 5)。將聚類結果寫入配置文件以便ELYOLO網(wǎng)絡帶入訓練。

      眼睛定位的精確率(Precision)與召回率(Recall)公式如下:

      式中,TP(True Positive)表示預測與標簽一致,通常預測與標簽的IoU達到0.5即可認為是TP[9]。FP(False Positive)表示把負例預測為正例,F(xiàn)N(False Negative)表示正例預測為負例。

      3.3 結果分析

      3.3.1 數(shù)據(jù)集測試及網(wǎng)絡收斂表現(xiàn)

      經(jīng)過在CASIA-IrisV4、MIR2016和本實驗室采集的虹膜數(shù)據(jù)集上訓練后,不同數(shù)據(jù)集測試集部分的定位表現(xiàn)以及分類準確性[18]如表5所示。

      表5 不同數(shù)據(jù)集測試表現(xiàn)Table 5 Test performance on different datasets

      在默認的IoU閾值為0.5時[9],平均定位準確率達到99.96%,在標簽與預測邊框同等尺寸下,交集已經(jīng)占據(jù)了標簽框面積的66.67%,重疊已經(jīng)較多。更進一步衡量在不同IoU閾值下EL-YOLO網(wǎng)絡模型的表現(xiàn),其定位準確率如表6所示。

      表6 不同IoU下平均定位準確率Table 6 Average positioning accuracy under different IoU

      測試集中一些圖片的眼睛定位及分類置信率結果如圖9所示。

      圖9(a)與(b)是同一對象的雙眼虹膜圖像,圖9(a)是對象的左眼處于半睜開狀態(tài),圖9(b)是其帶眼鏡進行干擾拍攝的圖像,可以發(fā)現(xiàn)EL-YOLO網(wǎng)絡可以克服眨眼和眼鏡帶來的干擾。圖9(c)與(d)是同一對象在不同光照條件下拍攝的雙眼虹膜圖像,在其具體定位效果以及置信率來看,EL-YOLO網(wǎng)絡可以有效克服光照帶來的影響。圖9(e)與圖9(f)是同一用戶的左右眼單眼圖像,可以發(fā)現(xiàn)分類置信率依然很高,可知EL-YOLO網(wǎng)絡具有很強的定位和分類能力,而不是依賴雙眼圖像的眼睛相對空間位置關系給出的簡易判定,這也是在訓練網(wǎng)絡時引入單眼數(shù)據(jù)集的原因。圖9(g)是上述測試中唯一的一例錯把右眼當成左眼的情況,從圖中可以發(fā)現(xiàn)有較大反射光斑以及眼鏡鏡框干擾,但是其分類置信率較低,說明網(wǎng)絡對這幅圖像的判別不是過于肯定。

      圖9 EL-YOLO網(wǎng)絡測試效果(左右眼類別:置信度)Fig.9 EL-YOLO network test results(left and right eye classification:confidence)

      EL-YOLO網(wǎng)絡在目標回歸訓練時引入了廣義交并比(GIoU),通過一個訓練批次后的測試損失,比較了網(wǎng)絡引入GIoU和常規(guī)交并比(IoU)在前10個批次的網(wǎng)絡收斂情況。二者的網(wǎng)絡收斂情況如圖10所示,可以發(fā)現(xiàn)本網(wǎng)絡收斂都很快,但是在第2到5批次訓練時,引入GIoU損失函數(shù)的網(wǎng)絡收斂更為迅速,且最終的網(wǎng)絡整體損失略低。

      圖10 不同交并比的網(wǎng)絡收斂情況Fig.10 Convergence of networks with different intersection-over-union

      3.3.2 負樣本抗干擾測試

      在實際使用中,虹膜認證設備在沒有用戶使用或者畫面中未出現(xiàn)虹膜圖像時并不需要進行采集無關圖像進行后續(xù)的匹配認證。實驗采集了704幅不含眼睛的負樣本,這些負樣本實際使用中可能出現(xiàn)的干擾物體,有些圖像接近眼睛的大致形狀來予以干擾,以此來檢測網(wǎng)絡的健壯性。部分負樣本如圖11所示。

      圖11 負樣本示例Fig.11 Negative sample

      將負樣本圖像放入EL-YOLO網(wǎng)絡進行測試,測試的結果與正樣本出現(xiàn)頻次進行統(tǒng)計,結果如圖12所示。圖12中的橫軸代表置信率分布區(qū)間,縱軸代表在該區(qū)間出現(xiàn)的頻次。從圖12可以發(fā)現(xiàn),當EL-YOLO的置信度設置在0.9以上可以排除絕大部分干擾,體現(xiàn)了EL-YOLO網(wǎng)絡的實用性與穩(wěn)健性。

      圖12 正負樣本出現(xiàn)頻次統(tǒng)計Fig.12 Statistics of frequency of positive and negative samples

      3.3.3 算法對比

      EL-YOLO網(wǎng)絡模型的浮點運算次數(shù)(FLOPs)為1.17億,參數(shù)量119 945個,即模型469 000大小。在前述的工作站配置下處理2 560×960分辨率的圖片,檢測速率可達34幀/s,可以滿足實時應用的需求。相較于YOLOV3-tiny[6]的55.6億的浮點運算次數(shù),EL-YOLO是低算力消耗的模型,擁有在嵌入式邊緣設備運行的能力。

      EL-YOLO網(wǎng)絡以及其他眼睛定位算法的準確率如表7所示,可以發(fā)現(xiàn)本文算法在能夠區(qū)分左右眼的同時定位準確率依然很高。其中級聯(lián)神經(jīng)網(wǎng)絡[3]的算法與基于HOG和SVM[4]的算法都沒有對左右眼進行分類。雖然基于HOG和SVM的算法準確率較高,但它并不是端到端的方法,準確率是通過多種策略組合處理獲得的結果,計算量大,復雜度高。如果在不考慮分類正確的情況下本文算法的定位準確率將會更高。YOLOV3-tiny[6]由于網(wǎng)絡參數(shù)較多,應對復雜場景的處理能力更強,但是在邊緣設備上使用代價過大。

      表7 不同方法的定位準確率Table 7 Positioning accuracy of different methods

      4 結束語

      針對在虹膜圖像中的人眼位置確定以及左右眼區(qū)分問題,本文提出了EL-YOLO模型來解決上述問題。將輕量級網(wǎng)絡引入模型,將模型減小到0.5 MB,使得模型擁有在邊緣設備上運行的能力,同時修改網(wǎng)絡的損失函數(shù),使模型快速收斂。實驗結果表明,對于正負樣本,網(wǎng)絡都可以擁有很好的區(qū)分能力以及定位效果,最終的定位準確率可達99.96%。本模型為后續(xù)的虹膜定位以及識別等奠定了基礎,具有一定的實用價值。

      猜你喜歡
      邊框虹膜置信度
      一模六產(chǎn)品篩板模具的設計與應用
      智能制造(2022年4期)2022-08-18 16:21:14
      雙眼虹膜劈裂癥一例
      硼鋁復合材料硼含量置信度臨界安全分析研究
      “刷眼”如何開啟孩子回家之門
      正負關聯(lián)規(guī)則兩級置信度閾值設置方法
      計算機應用(2018年5期)2018-07-25 07:41:26
      用Lightroom添加寶麗來邊框
      給照片制作專業(yè)級的邊框
      擺脫邊框的束縛優(yōu)派
      中國照明(2016年6期)2016-06-15 20:30:14
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      虹膜識別技術在公安領域中的應用思考
      警察技術(2015年3期)2015-02-27 15:37:15
      聂拉木县| 孟村| 体育| 平利县| 屏东县| 巨野县| 清苑县| 剑川县| 东光县| 中牟县| 望江县| 成安县| 麻城市| 余姚市| 沭阳县| 南溪县| 辽阳县| 望奎县| 万安县| 台山市| 巴马| 平潭县| 临城县| 昆明市| 九龙坡区| 鲜城| 新密市| 平江县| 虎林市| 方山县| 嘉峪关市| 三门峡市| 明水县| 绥棱县| 海伦市| 巍山| 长汀县| 阿拉尔市| 昔阳县| 吉林省| 乌兰察布市|