王秋爽 趙航 肖立山
1. 公安部戶政管理研究中心 2. 湖南省公安廳
居民身份證登記指紋工作開展以來,已經(jīng)制發(fā)登記指紋信息居民身份證(以下簡稱“指紋證”)5億余張。隨著指紋證發(fā)放數(shù)量的累積,社會各用證部門和單位也逐步試點使用指紋比對核驗設(shè)備進行“人證一致性”驗證,指紋證即將在社會上廣泛使用,這對指紋圖像采集質(zhì)量提出了很高要求。
為全面認識、掌握并提高各省的居民身份證指紋圖像采集質(zhì)量,更好地滿足指紋證社會應(yīng)用需要,有必要對指紋圖像質(zhì)量的影響因素進行定性和定量的分析。
根據(jù)指紋學(xué)和指紋比對技術(shù)相關(guān)研究,影響指紋比對應(yīng)用效果的主要因素是指紋圖像的采集質(zhì)量。從2013年開始,公安部第一研究所組織有關(guān)專家針對證件指紋圖像質(zhì)量評分規(guī)則、方法、工具進行了專門的研究[1-4],提出評價證件指紋算法的關(guān)鍵指標為注冊失敗率、等錯誤率、錯誤拒絕率為某值下的錯誤接受率、響應(yīng)時間等技術(shù)指標,并基于此評價體系提出指紋圖像質(zhì)量的評分方法和工具。本文基于上述評分工具的評分結(jié)果,通過對某省16,496,113個居民身份證指紋圖像進行全量統(tǒng)計,根據(jù)專家經(jīng)驗法判定影響圖像質(zhì)量的主要因素有采集季節(jié)、被采集人群、采集設(shè)備、采集指位等4類。
某省的指紋圖像質(zhì)量明顯受季節(jié)因素影響很大,五月至十月的指紋圖像質(zhì)量均值普遍高于全國均值,也高于冬季的十一月至二月。
被采集人群在16至25歲年齡段的指紋圖像質(zhì)量最好,26至45歲年齡段的指紋圖像質(zhì)量次之,46歲以上中老年人的指紋圖像質(zhì)量再其次,小于15歲未成年人的指紋圖像質(zhì)量最差。被采集人群性別、民族因素對指紋圖像質(zhì)量沒有明顯影響。
某省的采集設(shè)備類型包括光學(xué)型和電容型兩種,為了比較兩種設(shè)備類型與指紋質(zhì)量的相關(guān)性,均選取對應(yīng)設(shè)備使用期間和采集人次的四分位數(shù)進行比較??傮w來看,電容型設(shè)備的質(zhì)量評分普遍高于光學(xué)型,但采集質(zhì)量沒有光學(xué)型穩(wěn)定。
通過對某省所有類型采集設(shè)備的使用期間和采集人次統(tǒng)計,指紋圖像質(zhì)量均值和方差,與使用期間的長短呈現(xiàn)出明顯的負相關(guān),與采集人次的多少呈現(xiàn)出輕微的負相關(guān),即使用時間更長的設(shè)備采集的指紋圖像質(zhì)量更低。
采集指位因素對指紋圖像質(zhì)量的影響非常明顯,從拇指到小指的指紋圖像質(zhì)量依次降低。
采用多元線性回歸方法對某省居民身份證指紋圖像質(zhì)量評分進行定量分析,回歸方程用于解釋在指紋圖像質(zhì)量評分結(jié)果中,各種影響因素對評分的定量影響程度。
研究一個因變量、與兩個或兩個以上自變量的回歸,稱為多元線性回歸,是反映一種現(xiàn)象或事物的數(shù)量依多種現(xiàn)象或事物的數(shù)量的變動而相應(yīng)變動的規(guī)律,是建立多個變量之間線性或非線性數(shù)學(xué)模型數(shù)量關(guān)系式的統(tǒng)計方法。
多元線性回歸方程如下:
其中:Yi: 因變量;X1i~Xki: 自變量;β0~βk:回歸系數(shù),μi:誤差,i: 樣本數(shù),1,2,...,n; k:自變量個數(shù)。
多元線性回歸分析是一種廣泛使用的定量分析工具,線性依賴于其未知參數(shù)的模型比非線性依賴于其未知參數(shù)的模型更容易擬合,產(chǎn)生的統(tǒng)計特性更容易確定,其回歸結(jié)果便于評判和解釋。
對多元非線性回歸模型求解的傳統(tǒng)做法,仍然是想辦法把它轉(zhuǎn)化成標準線性形式的多元回歸模型來處理。因此多元線性回歸分析對于非線性關(guān)系同樣適用,回歸結(jié)果的可決系數(shù)R2用于參考,但用于解釋因變量的影響因素依然適用。
結(jié)合上一部分對指紋圖像采集質(zhì)量影響因素的定性分析結(jié)論,本文對某省15,016,845個指紋圖像進行了統(tǒng)計和整理,選取多個影響因素的自變量,得到用于分析導(dǎo)致指紋圖像質(zhì)量降低原因的樣本數(shù)據(jù)。
1. 篩選對指紋評分影響大的自變量并采用逐步回歸法進行回歸
多元線性回歸的平方和分解公式為:
其中,SST:總平方和;SSR:回歸平方和;SSE:誤差平方和。
由上式可知,理想中的多元線性回歸模型既需要有盡可能低的誤差,又需要有盡可能少的自變量。因此,篩選自變量采用一元線性回歸的方法,選取可決系數(shù)R2>0.01,在指紋質(zhì)量評分低于平均值的區(qū)間篩選出19個對指紋評分影響大的自變量。
通過對篩選后的變量進行線性回歸,可以得到第一次回歸結(jié)果。
?
2. 判斷回歸結(jié)果是否出現(xiàn)多重共線性
采用觀察回歸結(jié)果的異常點并結(jié)合相關(guān)系數(shù)的方法來判斷回歸結(jié)果是否出現(xiàn)多重共線性。T檢驗的顯著性水平一般取0.05。
觀察表2得到的回歸結(jié)果發(fā)現(xiàn),可決系數(shù)R2較高,但是存在自變量X17、X18的回歸系數(shù)T檢驗的P值大于0.05,也就是T檢驗不顯著的情況。初步判定存在多重共線性問題。
如果多個變量之間存在較強的共線性,則它們的回歸系數(shù)是不確定的,且回歸系數(shù)的方差會很大,也就是回歸結(jié)果不確定。因此,需要采取多種方法減輕或消除多重共線性問題。
經(jīng)觀察相關(guān)系數(shù)矩陣發(fā)現(xiàn),多個自變量之間存在很強的相關(guān)性。
3. 降低或消除多重共線性
為了降低或消除多元線性回歸中的多重共線性影響,本文采用計算自變量關(guān)聯(lián)矩陣的特征值和特征向量,以及加入L2范數(shù)懲罰項的嶺回歸方法,剔除自變量并優(yōu)化最終回歸結(jié)果。對于嶺回歸過程采用生成并觀察嶺跡圖來選擇超參數(shù)alpha的方法?;驹瓌t為:
(1)各回歸系數(shù)的嶺估計基本穩(wěn)定;
(2)不存在有明顯不符合常理的回歸參數(shù),嶺估計的符號要合理;
(3)回歸系數(shù)沒有不合實際意義的絕對值;
(4)殘差平方和增大不多。
根據(jù)以上原則,最終確定嶺回歸超參數(shù)alpha=10-5。
4. 得到最終回歸結(jié)果
通過多次處理并明顯降低了多重共線性的影響后,最終得到在指紋評分區(qū)間內(nèi)的回歸結(jié)果。該結(jié)果共包括27個自變量,回歸的可決系數(shù)R2相對較高,且均通過了F檢驗和T檢驗,證明該回歸結(jié)果較穩(wěn)定,且能夠明確地定量解釋導(dǎo)致指紋圖像質(zhì)量降低的主要因素。
?
?
通過對某省居民身份證指紋圖像采集質(zhì)量數(shù)據(jù)的多元線性回歸分析發(fā)現(xiàn):
(1)與指紋質(zhì)量評分負相關(guān)的因素主要是采集開始時間距現(xiàn)在天數(shù),即采集器啟用的越早,指紋質(zhì)量評分會逐步降低。
(2)在采集設(shè)備方面,與指紋質(zhì)量評分負相關(guān)的因素主要是采集設(shè)備廠商編碼和采集設(shè)備型號。采集設(shè)備廠商編碼是一個9位的數(shù)字串,按認證通過時間頒發(fā),從小到大;采集設(shè)備型號與采集設(shè)備廠商相關(guān)[5]。也就是說隨著采集設(shè)備廠商編碼逐步增大,指紋質(zhì)量評分會逐漸降低。與指紋質(zhì)量評分正相關(guān)的因素是采集設(shè)備類型,依次為未知、光學(xué)、電容三類。正相關(guān)說明電容和光學(xué)相比能取得更好的指紋質(zhì)量評分。
(3)從被采集人角度來看,與指紋質(zhì)量評分負相關(guān)的因素主要是采集年齡≤10歲、采集年齡≥36歲且≤45歲、采集年齡≥66歲的人群。這三類人群的指紋采集數(shù)量越多,質(zhì)量評分越低。
(4)體現(xiàn)季節(jié)因素的采集時間,與指紋質(zhì)量評分負相關(guān)的主要是11月份、12月份采集的指紋數(shù)量,即這兩個月采集的指紋數(shù)量越多,質(zhì)量評分越低。
(5)從采集指位來看,與指紋質(zhì)量評分負相關(guān)的因素主要是右手的拇指、中指、無名指、小指和左手的中指、小指。
通過對上述某省居民身份證指紋圖像采集質(zhì)量的主要影響因素進行分析,可以提出幾點改進相關(guān)工作的方法和建議:
(1)指紋采集設(shè)備最早啟用時間,是導(dǎo)致指紋圖像質(zhì)量降低的主要影響因素之一。為保持較高的指紋采集質(zhì)量,建議有條件的單位及時更換啟用時間較早的采集設(shè)備。
(2)指紋采集設(shè)備廠商編碼的大小代表設(shè)備廠商通過認證時間的先后。分析結(jié)果表明早期通過認證的指紋采集設(shè)備廠商,其設(shè)備采集的指紋圖像質(zhì)量較高。因此,建議后續(xù)認證通過的設(shè)備廠商提升產(chǎn)品質(zhì)量或改進現(xiàn)有服務(wù)。
(3)被采集人群年齡在“≤10歲”、“≥36歲且≤45歲”、“≥66歲”這三個區(qū)間的指紋圖像質(zhì)量較低,需要在辦證時予以重點關(guān)注,可采用一些提高指紋采集質(zhì)量的方法,例如保持手指濕潤、增加采集次數(shù)等[4]。
(4)指位對指紋采集質(zhì)量有一定的影響,建議盡量避免采集對指紋質(zhì)量造成負面影響指位的指紋。
本文通過定性和定量分析的方法,對某省居民身份證指紋圖像采集質(zhì)量的影響因素進行研究。其中,采用多元線性回歸的方法可以整體統(tǒng)計和評估居民身份證指紋圖像質(zhì)量數(shù)據(jù)的現(xiàn)實情況,較為明確地找出導(dǎo)致指紋圖像采集質(zhì)量降低的主要因素。
本文采用的方法也適用于評估其他省份的居民身份證指紋圖像采集數(shù)據(jù)。