陳子煒,洪思云,林 劼,石 琳
(福建師范大學(xué) 軟件學(xué)院,福州 350108)
基于用戶筆跡的移動身份識別技術(shù)①
陳子煒,洪思云,林 劼,石 琳
(福建師范大學(xué) 軟件學(xué)院,福州 350108)
針對傳統(tǒng)身份識別技術(shù)存在的密碼記憶難、隱私易泄露、信息易偽造等問題,提出并實現(xiàn)了基于安卓平臺的混合特征在線手寫筆跡識別算法. 本算法通過遷移傳統(tǒng)筆跡采集平臺、采用文本相關(guān)與文本無關(guān)相結(jié)合的方式分別對靜態(tài)紋理特征和動態(tài)矢量特征進行提取,彌補了當(dāng)前筆跡采集困難、信息易偽造、準(zhǔn)確性差等缺陷,實現(xiàn)了用戶在移動設(shè)備上更加快捷安全的進行身份識別和鑒定. 通過實驗得出: 該筆跡識別算法具有良好的穩(wěn)定性、高可重復(fù)性、優(yōu)良的準(zhǔn)確性和安全防偽能力,能夠有效阻止陌生用戶的攻擊,具有較高的安全保障性能.
筆跡識別; 動態(tài)矢量特征提取; 特征融合
對訪問者真實身份的快速識別和鑒定是當(dāng)前信息安全領(lǐng)域中的一個重要應(yīng)用之一. 其中一個身份識別的有效方法是鑒定用戶手寫筆跡特征. 筆跡特征的本質(zhì)是書寫行為到個人行為的映射,包含紋理形態(tài)特征和筆跡動力學(xué)特征,具有不易被偽造和盜用的優(yōu)勢. 筆跡識別技術(shù)分為在線筆跡識別[1]和離線識別認證[2]的方式. 現(xiàn)有的在線筆跡識別的采集工作基本是基于某種特定的筆跡采集設(shè)備,如利用專門化的手寫筆、手寫板等. 而離線認證則是利用掃描儀或照相等設(shè)備獲得原始筆跡的掃描圖像,并經(jīng)過圖形處理提取相應(yīng)的紋理形態(tài)特征進行識別. 隨著智能手機的普及,離線認證的方式無法滿足快捷高效的移動身份識別需求,而在線識別方式又依賴于傳統(tǒng)數(shù)據(jù)采集平臺,機動性能差.
筆跡識別系統(tǒng)包括數(shù)據(jù)預(yù)處理、特征提取和判定識別三部分. 數(shù)據(jù)預(yù)處理主要包括樣本歸一化[3]、平滑去噪等; 特征提取部分可以分為結(jié)構(gòu)特征和統(tǒng)計特征兩種. 根據(jù)筆跡特征提取的方法不同,筆跡識別方式又可分為靜態(tài)筆跡識別和動態(tài)筆跡識別兩大類. 靜態(tài)筆跡識別的Gabor特征[4]及Gradient特征[5]是目前比較好的提取方法,而動態(tài)筆跡則是提取寫字時的筆跡動力學(xué)特征,如每個采集點上的速度、加速度、壓力等矢量特征; 判定識別使用的常用模型包括改進的二次判決函數(shù)、支持向量機、隱馬爾科夫模型等. 在技術(shù)上,目前仍處于發(fā)展階段,筆跡識別系統(tǒng)的整體性能還不夠理想. 從數(shù)據(jù)采集、特征提取到匹配認證算法等各個環(huán)節(jié)仍然有較大的改進、提高的余地和空間. 為了能改善識別系統(tǒng)的性能,一些研究者還利用信息融合技術(shù)進行融合了多種筆跡特征和分類方法或加上其它生物特征進行身份認證,并獲得了不錯的效果,這極大的推動了在線手寫筆跡識別技術(shù)的發(fā)展. 尋求一種好的筆跡認證方法具有十分重要的意義,對于筆跡識別算法改進不僅具有重要的理論意義,還具有不凡的現(xiàn)實意義.
隨著移動互聯(lián)網(wǎng)和傳感設(shè)備的高速發(fā)展和普及,讓方便、快捷、高效的移動在線筆跡識別成為可能.經(jīng)過對傳統(tǒng)的文本相關(guān)筆跡識別中動態(tài)時間規(guī)整算法(Dynamic time warping)[6]和文本無關(guān)筆跡特征提取方法[7]研究基礎(chǔ)上,提出了基于Android手機平臺的混合特征在線手寫筆跡識別算法. 其中包括的主要環(huán)節(jié)包括入筆跡信息采集、預(yù)處理、筆跡特征提取和筆跡的匹配識別,將注冊的筆跡信息經(jīng)過去噪、平滑等預(yù)處理后所提取的混合筆跡特征建立分類器模型,與提取的登入筆跡特征進行分類識別,最后輸出驗證結(jié)果. 如圖1所示.
圖1 算法設(shè)計流程圖
漢字筆劃提取通常是筆跡識別與鑒定的重要一步,不同的筆劃拆分方法將會決定下一階段特征提取的好壞. 然而漢字結(jié)構(gòu)復(fù)雜、偏旁多變、筆劃眾多,這給自動地筆劃拆分帶來一定的挑戰(zhàn). 有的利用游程長度的閾值對像素點的方向游程長度進行分類,處理筆劃交叉問題[7]; 有的則是基于單字切分及基本筆順表進行筆劃拆解[8]. 這些方法雖然在某些漢字的切分上取得一定的效果,但無法適用于一些結(jié)構(gòu)較為復(fù)雜、筆劃密集的漢字上.
現(xiàn)有的特征提取技術(shù)主要包括Gabor特征提取[4]以及NCFE八方向特征提取[9]. Gabor特征在圖像特征提取方面擁有不錯優(yōu)良性能,但由于其計算高復(fù)雜度在現(xiàn)有階段無法實用于單機在線手寫認證上.
在書寫的過程中,筆跡的靜態(tài)紋理信息和筆跡的運動學(xué)特征不僅反應(yīng)了書寫者鮮明的書寫習(xí)慣,而且這些特征難以被仿制偽造,對于后期筆跡的識別和鑒定打下堅實的基礎(chǔ). 根據(jù)以上信息,本套筆跡識別系統(tǒng)以智能手機作為使用平臺,提取的筆跡信息主要包括手機屏幕的X坐標(biāo)、Y坐標(biāo)、坐標(biāo)時間戳、觸點狀態(tài)、橫向速度、縱向速度等.
由于使用者每次寫字的位置、大小可能不同,另外使用過程中由于一些外界因素的干擾也會產(chǎn)生一些噪音和冗余點,這些都會對識別結(jié)果產(chǎn)生影響. 因此,在對信息進行進一步處理前需要進行預(yù)處理操作,預(yù)處理可以在一定程度上可以提高識別的效果. 本文的預(yù)處理過程包括去噪平滑、位置歸一化、大小歸一化等.
① 去噪平滑: 移動手機傳感設(shè)備存在一定的干擾和書寫者書寫時的無意抖動都會給筆跡原始數(shù)據(jù)添加一定的噪聲,因此需要對原始數(shù)據(jù)進行去噪平滑處理.平滑處理采用高斯平滑濾波器(Gaussian smoothing filter) 對筆跡數(shù)據(jù)的各分量進行濾波平滑.
② 歸一化處理(Normalization): 由于使用者每次書寫的筆劃絕對位置和規(guī)模大小并不固定,因此通過位置和大小的歸一化處理可以統(tǒng)一原始數(shù)據(jù)的各個量綱以便后續(xù)的處理. 位置歸一化用坐標(biāo)平移的方法完成,將筆跡曲線的重心作為新坐標(biāo)的原點,而大小歸一化則通過對坐標(biāo)各分量大小進行歸一化.
本文采用一種基于斜率的筆劃拆解方法[10],其根據(jù)自然筆劃的方向順序和長度大小有效地提取每一筆劃基本單元信息. 具體的筆劃拆解包含以下四個步驟:
步驟一. 對筆跡數(shù)據(jù)采用B樣條插值法進行插點和平滑,避免由于筆劃樣本點的稀疏導(dǎo)致夾角大小頻繁變化和波動. 其算法步驟插值流程如下:
② 將數(shù)據(jù)節(jié)點和指定的首位端點條件帶入矩陣方程.
③ 解矩陣方程,求得二次微分值mi.
④ 計算樣條曲線的系數(shù):
其中,i= 0,1,…,n-1.
步驟二. 為了保證筆劃的拆分效果和特征的有效性,需對相間隔的樣本點進行考察. 當(dāng)且僅當(dāng)前一樣本點與下一樣本點距離大于預(yù)設(shè)閾值M的筆劃才考慮是否對其拆分,若兩樣本點間的距離小于M則將當(dāng)前考察點移至下一考察點.
步驟三. 計算兩個參考點間的斜率大小,當(dāng)參考點與下一參考點間的絕對斜率與當(dāng)前點的自然斜率差值的絕對值小于給定閾值K時,該點作為一個有效筆劃拆分點.
步驟四. 兩個拆分點之間的軌跡段即可作為一個基本自然筆劃單元.
在筆跡識別系統(tǒng)中,正確有效的筆劃特征提取方法可以顯著的提高識別認證結(jié)果的準(zhǔn)確性. NCFE八方向特征則能反映每個筆劃的方向形態(tài)特征,能更好地適用于筆劃提取后的每個基本筆劃單元. 它是通過將經(jīng)過預(yù)處理的筆跡序列進行筆劃拆分都得到的基本筆劃單元按照每個單元的方向歸一化投影到八個方向平面上,從而獲取該筆劃單元的特征向量. 特征向量的獲取分為以下幾個步驟:
根據(jù)所采集的筆劃信息,分為靜態(tài)特征信息和動態(tài)特征信息. 靜態(tài)特征反應(yīng)了字體樣式的總體形態(tài)和幾何特征,動態(tài)特征展現(xiàn)了筆跡書寫過程中形成的一系列有順序的、連續(xù)的運動變化狀態(tài)的征象. 本算法采用動態(tài)特征和靜態(tài)特征信息結(jié)合的方法,既保留了筆跡樣本總體的形態(tài)信息,又不乏局部豐富的動態(tài)特征. 最大限度地保證了筆跡信息的完整性和一致性.
識別過程可分為三個階段: 動態(tài)特征的DTW距離快速排除階段、基于KNN的文本無關(guān)靜態(tài)特征識別階段和綜合判別認證階段.
階段一: 基于動態(tài)特征的DTW距離快速排除
該階段采用動態(tài)時間規(guī)整算法作為識別分類器.動態(tài)時間規(guī)整 (Dynamic time warping,DTW)[11]就是用動態(tài)規(guī)劃方法校正時域信號的非線性時間彎曲現(xiàn)象,最先用于語音信號處理,后來在筆跡認證中得到了廣泛應(yīng)用.
通過比對身份注冊階段筆跡和登錄驗證階段筆跡的速度與加速度各分量的DTW距離加權(quán)和.
具體做法是: 可以通過給各分量預(yù)設(shè)一個閾值H,僅保留最低距離且DTW距離小于一個預(yù)設(shè)最小距離閾值N的用戶.
階段二: 基于KNN分類器的文本無關(guān)靜態(tài)特征識別
上述的方法僅僅適應(yīng)于文本相關(guān)的識別檢測,倘若攻擊者故意模仿注冊用戶的字跡樣式就會帶其他未知的安全漏洞和隱患,特別在金融、商務(wù)、國防等安全等級較高的領(lǐng)域更是如此. 如何在確保算法準(zhǔn)確率的前提下提高對高超偽造筆跡的判別能力成為了該項技術(shù)在安全保障方面的難題. 為此,文本無關(guān)的筆跡樣本成了一個不錯的選擇,攻擊者無法提前知曉這些未出現(xiàn)過字樣的任何信息,而真實用戶可以利用個人書寫習(xí)慣成功的識別,進而大大提高了算法在安全可靠性上的性能.
第二階段的文本無關(guān)的靜態(tài)特征識別可分為以下幾個步驟:
① 計算待驗證用戶的特征向量所在的八個筆劃單元類與每個注冊用戶對應(yīng)筆劃單元類之間距離的加權(quán)和.
② 取登錄用戶的各個特征向量與所有注冊用戶距離最小的前K個且其距離小于給定閾值L作為相似用戶,記為top-K用戶.
③ 統(tǒng)計各個注冊用戶被標(biāo)記為top-K用戶的次數(shù),并按大到小排序.
階段三: 綜合判別認證
若第①步的識別結(jié)果在第②步的識別結(jié)果出現(xiàn),則判定第①步的識別結(jié)果為真實用戶,否則判別為陌生用戶.
一般地,我們將身份識別錯誤分為兩種,誤納率(FAR)和誤據(jù)率(FRR)[12]. 依照隨機抽樣的方式從本校學(xué)生中抽取若干樣本作為本次測試樣本空間. 根據(jù)上述基于混合特征的在線手寫筆跡識別算法,通過觀察和分析傳統(tǒng)基于紋理的靜態(tài)特征和混合后的綜合特征的各項性能指標(biāo),和在不同身份注冊字數(shù)和識別認證字數(shù)組合下對混合特征識別算法的性能表現(xiàn)進行測試,以此得出本次實驗結(jié)果.
從表1和圖2中可以直觀地看出: 基于紋理特征的識別方式具有較低的誤納率,即可以有效地的防止陌生用戶的攻擊,但是在誤據(jù)率方面表現(xiàn)不佳,而基于混合特征的識別方式既最大限度保留了較低的誤納率,而且在誤據(jù)率方面也有很好的改良. 從整體準(zhǔn)確性來說,基于混合特征具有比單一的基于紋理特征識別更好的性能表現(xiàn).
表1 不同特征選擇下的錯誤率和準(zhǔn)確率
圖2 不同特征選擇下的錯誤率和準(zhǔn)確率
從圖3和圖4可以得出: 在登入驗證字數(shù)不變的情況下,越多注冊字數(shù)能夠提供更多注冊用戶的信息,從而更好地幫助分類器有效地識別真實用戶. 同理,在注冊字數(shù)不變的情況下,隨著登入驗證字數(shù)的增加也能很好的得出更加有效的驗證結(jié)果.
基于移動平臺的在線手寫識別有效解決了傳統(tǒng)筆跡采集平臺機動性差,安全性不可靠,準(zhǔn)確性差等缺點,推動了便捷身份認證技術(shù)的發(fā)展. 通過大量樣本的對比實驗可以得出: 基于混合特征的在線筆跡手寫識別技術(shù)能夠有效地防止大部分偽造者對真實用戶的攻擊,并且在移動平臺取得良好的穩(wěn)定性和準(zhǔn)確性.
圖3 注冊字數(shù)對識別準(zhǔn)確度的影響
圖4 登入字數(shù)對識別準(zhǔn)確度的影響
1Liu CL,Jaeger S,Nakagawa M. Online recognition of Chinese characters: The state-of-the-art. IEEE Trans. on Pattern Analysis and Machine Intelligence,2004,26(2):198–213. [doi: 10.1109/TPAMI.2004.1262182]
2Zhong ZY,Jin LW,Xie ZC. High performance offline handwritten Chinese character recognition using GoogLeNet and directional feature maps. Proc. of the 13th International Conference on Document Analysis and Recognition. Tunis,Tunisia. 2015. 846–850.
3Liu CL,Marukawa K. Pseudo two-dimensional shape normalization methods for handwritten Chinese character recognition. Pattern Recognition,2005,38(12): 2242–2255.[doi: 10.1016/j.patcog.2005.04.019]
4Ge Y,Huo Q,Feng ZD. Offline recognition of handwritten Chinese characters using Gabor features,CDHMM modeling and MCE training. Proc. of the 2002 IEEE International Conference on Acoustics,Speech,and Signal Processing.Orlando,FL,USA. 2002. I-1053–I-1056.
5Liu CL. Normalization-cooperated gradient feature extraction for handwritten character recognition. IEEE Trans. on Pattern Analysis and Machine Intelligence,2007,29(8): 1465–1469.[doi: 10.1109/TPAMI.2007.1090]
6全中華. 基于動態(tài)手寫簽名的身份認證研究[博士學(xué)位論文]. 合肥: 中國科學(xué)技術(shù)大學(xué),2007.
7趙建平,車丹. 手寫體筆跡單筆劃提取算法. 長春理工大學(xué)學(xué)報,2005,28(4): 66–70.
8崔景楠,邢長征. 基于筆順自由及連筆的聯(lián)機手寫漢字識別. 計算機系統(tǒng)應(yīng)用,2009,18(5): 29–33.
9Bai ZL,Huo Q. A study on the use of 8-directional features for online handwritten Chinese character recognition. Proc.of the 8th International Conference on Document Analysis and Recognition. Seoul,South Korea. 2005. 262–266.
10黃佳. 基于自然筆畫拆分的手寫文字識別方法[碩士學(xué)位論文]. 哈爾濱: 哈爾濱工業(yè)大學(xué),2014.
11羅勇軍. 基于優(yōu)化DTW算法的在線手寫簽名認證系統(tǒng)研究與設(shè)計[碩士學(xué)位論文]. 廣州: 廣東工業(yè)大學(xué),2014.
12Liang RZ,Shi LH,Wang HX,et al. Optimizing top precision performance measure of content-based image retrieval by learning similarity function. Proc. of 2016 the 23rd International Conference on Pattern Recognition. Cancun,Mexico. 2016. 2954–2958.
Identity Recognition Technology Based on the Users’ Handwriting
CHEN Zi-Wei,HONG Si-Yun,LIN Jie,SHI Lin
(Faculty of Software,Fujian Normal University,Fuzhou 350108,China)
In view of the problems like the difficulty in memorizing passwords,privacy issues and fake information,a new algorithm combined the static and dynamic features based on the android platform for online handwriting recognition is proposed. The proposed algorithm extracts the static texture and dynamic vector features by adopting the combination of text-dependent and text-independent ways on the new smart mobile devices platform. The problems of handwriting acquisition,fake information and less accuracy are solved. It’s safe and fast for identification on mobile devices. The experimental results show the proposed algorithm has a great performance in stability,repeatability,accuracy and safety.It can effectively block the attack from intrusion and is high in security.
handwriting identification; dynamic vector feature extraction; feature combination
陳子煒,洪思云,林劼,石琳.基于用戶筆跡的移動身份識別技術(shù).計算機系統(tǒng)應(yīng)用,2017,26(12):191–195. http://www.c-s-a.org.cn/1003-3254/6097.html
2017-03-12; 修改時間: 2017-03-27; 采用時間: 2017-04-05