黃飛騰,郝紅光,陳維娜,孫佳藝,史文韜,張璐野,王子夫
(1.中國人民公安大學(xué)刑事科學(xué)技術(shù)學(xué)院,北京100038;2.公安部物證鑒定中心,北京 100038)
隨著無紙化辦公的普及,電子簽名的應(yīng)用越來越廣泛,電子簽名筆跡真?zhèn)渭m紛隨之產(chǎn)生,相比于紙質(zhì)簽名筆跡,由于電子簽名的書寫條件、書寫心理狀態(tài)等發(fā)生了較大的改變,僅依靠傳統(tǒng)的筆跡檢驗方法難以得出準(zhǔn)確的結(jié)論,因此,一些專家學(xué)者提出了電子簽名筆跡的動態(tài)特征研究方法[1]。筆跡的動態(tài)特征是指,書寫運動過程中各個物理量的大小和變化,如時長、作用力、速度等[1]。這些動態(tài)特征在傳統(tǒng)的紙質(zhì)簽名中不易獲取,但是在電子簽名筆跡中,可以通過解析軟件獲取,為量化檢驗提供條件。目前,在國內(nèi)外筆跡檢驗領(lǐng)域,主要是利用電子簽名設(shè)備獲取時長、速度、壓力等動態(tài)特征的量化數(shù)據(jù),對這些數(shù)據(jù)進行分析、比對,探究電子簽名筆跡動態(tài)特征的穩(wěn)定性[2-3],并利用動態(tài)特征數(shù)據(jù)區(qū)分摹仿簽名與真實簽名[4-6]。筆跡檢驗領(lǐng)域的研究主要是逐個進行人工分析比對,依靠專家經(jīng)驗得出最終的鑒定結(jié)論,對于大量的檢驗、樣本的比對則需要耗費筆跡檢驗人員大量的時間、精力,而且效率較低,成本高。
隨著計算機技術(shù)的不斷發(fā)展,許多專家、學(xué)者開始研究利用計算機技術(shù)對電子簽名筆跡進行輔助檢驗,并取得了一系列的成果[7,8]。通過計算機輔助檢驗可以對大量樣本進行初步篩查,縮小范圍,為檢驗人員在實際案件檢驗中提供幫助。本文以中文電子簽名筆跡為研究對象,嘗試?yán)脵C器學(xué)習(xí)算法來研究動態(tài)特征,創(chuàng)造性地結(jié)合多種監(jiān)督學(xué)習(xí)算法構(gòu)建分類模型[9,10]對不同人的電子簽名筆跡進行分類識別,方法易于理解,操作簡單易行,識別正確率高,具有可行性。
數(shù)據(jù)采集設(shè)備,智創(chuàng)PPL398S2型手寫板。設(shè)備參數(shù):分辨率 5080LPI;采點率 300PPS(非插值);誤差(邊緣)0.5mm;壓力感應(yīng)2048級(非插值)線性技術(shù);筆ID號64BIT;筆尖為高摩擦雙材料。
數(shù)據(jù)采集軟件,ZCSignDemoV2.2,解析出電子簽名筆跡的采集位點數(shù)量、每個采集位點的坐標(biāo)與壓力值。
數(shù)據(jù)分析軟件,MATLAB,用于分類識別。
繪圖軟件,Origin2018,繪制圖表,展示實驗結(jié)果。
選取30名在校大學(xué)生作為志愿者,其中男性志愿者 15名(M1-M15)、女性志愿者 15名(F1-F15),詳細信息見表1。
表1 30名志愿者的基本信息
按照簽名筆畫數(shù)將簽名分為簡單、一般、復(fù)雜三種類型簽名,詳見圖1至圖3、表2。保持電子簽名板與水平面夾角為0°,志愿者在柔和的自然光線下,保持坐姿在板上進行書寫練習(xí),熟悉書寫條件與書寫環(huán)境后以正常速度分別書寫相同的簡單、一般、復(fù)雜簽名各100次,簽名筆跡如圖1-3所示。其中,80次作為訓(xùn)練樣本,20次作為測試樣本。為了防止手臂肌肉疲勞,每書寫20次休息一次,每種簽名樣本3000份,共計獲取樣本9000份,提取的簽名樣本原始數(shù)據(jù),如圖4所示。其中,序號表示采集位點,一個位點表示1/300s,X、Y表示位點的坐標(biāo),范圍為150至1600點位,相鄰兩個點位的實際長度為3.57×10-5m;Z表示位點的壓力值,范圍為0至2048級,1級等于9.8×10-4N。
圖1簡單簽名
圖2一般簽名
圖3復(fù)雜簽名
圖4簽名樣本數(shù)據(jù)
表2實驗采集的簽名類型
通過對原始數(shù)據(jù)的分析獲取書寫時長與力度變化數(shù)據(jù),如圖5-圖7所示。
圖5簡單簽名“王寧”的書寫力度變化(M1)
圖6一般簽名“孫佳藝”的書寫力度變化(M1)
圖7復(fù)雜簽名“黃飛騰”的書寫力度變化(M1)
采集位點數(shù)除以300可以得到以秒為單位的時長;將書寫時長、書寫力度變化圖中的峰數(shù)量(書寫筆畫數(shù))以及每一筆畫的平均書寫力度作為特征進行分類,如表3所示。
表3預(yù)處理后的數(shù)據(jù)
對簡單、一般、復(fù)雜三種類型的簽名樣本,分別運用KNN、DA、RF、SVM算法構(gòu)建分類模型,使用MATLAB 的 KNN.fit、ClassificationDiscriminant.fit、TreeBagger、fitcecoc函數(shù),各自調(diào)整到合適的參數(shù)實現(xiàn)分類,并統(tǒng)計訓(xùn)練集(Training Set)、測試集(Test Set)正確率(Accuracy/%),分類時間(Time)
四種分類模型對簡單簽名分類的實驗結(jié)果,如表4,圖8所示。
表4四種分類模型對簡單簽名的分類結(jié)果
表4記錄了3000份簡單簽名樣本在四種分類模型下的分類正確率、分類時間。每種模型的訓(xùn)練樣本數(shù)為2400,測試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為87.4%,測試樣本的正確分類數(shù)為505,錯誤分類數(shù)為95,正確率為84.1%,分類時間為0.87s;DA模型的訓(xùn)練樣本正確率為75.5%,測試樣本正確分類數(shù)為468,錯誤分類數(shù)為132,正確率為78.0%,分類時間為1.28s;RF模型的訓(xùn)練樣本正確率為99.8%,測試樣本正確分類數(shù)為544,錯誤分類數(shù)為56,正確率為90.7%,分類時間為1.88s;SVM模型的訓(xùn)練樣本正確率為94.1%,測試樣本正確分類數(shù)為524,錯誤分類數(shù)為76,正確率為87.3%,分類時間為6.75s;其中,測試樣本分類正確率最高為90.7%,最低為78.0%;分類時間最長為6.75s,最短為0.87s。
圖8簡單簽名的分類正確率與時間
由圖8可以看出,四種模型都取得了較高的正確率,SVM分類時間較長,其余均較短;RF模型分類正確率最高,KNN模型的分類時間最短。
四種分類模型對一般簽名分類的實驗結(jié)果,如表5,圖9所示。
圖9一般簽名的分類正確率與時間
表5記錄了3000份一般簽名樣本在四種分類模型下的分類正確率、分類時間。每種模型的訓(xùn)練樣本數(shù)為2400,測試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為85.3%,測試樣本的正確分類數(shù)為492,錯誤分類數(shù)為108,正確率為82.0%,分類時間為0.92s;DA模型的訓(xùn)練樣本正確率為81.7%,測試樣本正確分類數(shù)為466,錯誤分類數(shù)為134,正確率為77.7%,分類時間為1.28s;RF模型的訓(xùn)練樣本正確率為99.8%,測試樣本正確分類數(shù)為549,錯誤分類數(shù)為51,正確率為91.5%,分類時間為2.15s;SVM模型的訓(xùn)練樣本正確率為98.4%,測試樣本正確分類數(shù)為512,錯誤分類數(shù)為88,正確率為85.3%,分類時間為7.01s;其中,測試樣本正確率最高為91.5%,最低為77.7%;分類時間最長為7.01s,最短為0.92s。
由圖9可以看出,四種模型都取得了較高的正確率,SVM分類時間較長,其余均較短;RF模型分類正確率最高,KNN模型的分類時間最短。
表5四種分類模型對一般簽名的分類結(jié)果
四種分類模型對復(fù)雜簽名分類的實驗結(jié)果,如表6,圖 10所示。
表6四種分類模型對復(fù)雜簽名的分類結(jié)果
圖10復(fù)雜簽名的分類正確率與時間
表6記錄了3000份復(fù)雜簽名樣本在四種分類模型下的分類正確率、分類時間。每種模型的訓(xùn)練樣本數(shù)為2400,測試樣本數(shù)為600。KNN模型的訓(xùn)練樣本正確率為99.9%,測試樣本的正確分類數(shù)為509,錯誤分類數(shù)為91,正確率為84.8%,分類時間為0.75s;DA模型的訓(xùn)練樣本正確率為75.5%,測試樣本正確分類數(shù)為483,錯誤分類數(shù)為117,正確率為80.5%,分類時間為1.11s;RF模型的訓(xùn)練樣本正確率為99.8%,測試樣本正確分類數(shù)為560,錯誤分類數(shù)為40,正確率為93.3%,分類時間為1.99s;SVM模型的訓(xùn)練樣本正確率為94.1%,測試樣本正確分類數(shù)為539,錯誤分類數(shù)為61,正確率為89.8%,分類時間為6.43s;其中,測試樣本正確率最高為93.3%,最低為80.5%;分類時間最長為6.43s,最短為0.75s。
由圖10可以看出,四種模型都取得了較高的正確率,SVM分類時間較長,其余均較短;RF模型分類正確率最高,KNN模型的分類時間最短。
綜合表4-表6,圖8-圖10,選取書寫時長、書寫筆畫數(shù)以及每一筆畫的平均書寫力度作為特征,在本研究中的四種分類模型下,不同類型的簽名對分類效果影響不大,即便是傳統(tǒng)意義上認(rèn)為較難鑒定的簡單簽名也取得了較好的分類效果。其中,RF模型分類正確率最高對三種樣本的分類正確率都超過90%,KNN模型用時最少,對三種樣本的分類時間均低于1s。
本研究通過獲取電子簽名筆跡的動態(tài)特征數(shù)據(jù),并解析出時長、筆畫數(shù)、每筆平均書寫力度作為特征,結(jié)合鑒別分析、K近鄰、隨機森林、支持向量機算法構(gòu)建分類模型,取得了較理想的實驗結(jié)果。研究結(jié)果表明,隨機森林分類器正確率最高,用時最短;盡管不同類型的簽名筆畫數(shù)不同,但是對實驗結(jié)果的正確率影響不大,這些分類模型不僅適用于傳統(tǒng)意義上的特征較多、較易鑒定的復(fù)雜簽名,也適用于特征較少、不易鑒定的簡單簽名。本研究在一定程度上論證了運用機器學(xué)習(xí)算法構(gòu)建分類模型對電子簽名筆跡的分類識別具有可行性,為電子簽名筆跡的計算機輔助檢驗提供了一種簡單易行、識別精度高的新思路。