申澤波,廖廣軍
(廣東警官學(xué)院刑事技術(shù)系,廣東廣州510232)
作為漢字的書寫現(xiàn)象,筆順是筆跡鑒定的重要依據(jù)。筆順識別指識別非連筆字的筆順。筆順識別是一種模式識別,即將樣本字的歸入與筆順對應(yīng)的模式類中。近些年,報道了一系列基于實驗筆跡樣本數(shù)據(jù)的筆順識別方法,包括山、字、入等字。①申澤波.山字筆順識別方法[J].江蘇警官學(xué)院學(xué)報,2011,(2):176-178.②申澤波,胡迎梅.女字筆順識別方法[J].廣東公安科技,2012,(2):24-26.③申澤波.入字筆順識別方法[J].中國司法鑒定,2012,(6):72-74.這些研究借鑒了計算機模式識別理論,在特征提取、分類器設(shè)計上取得了突破,識別方法有較高的有效性和可靠性。但已有研究忽視了筆跡樣本的筆順分布問題。在筆順自然分布的筆跡樣本中,少見筆順樣本比例較低,直接采用這樣的筆跡樣本作為訓(xùn)練樣本,降低了對少見筆順的準(zhǔn)確識別率。筆者認(rèn)為,可以通過人為增加少見筆順樣本來克服這一缺陷。
尚字頭是一個常用漢字部件,可以組成尚、常、堂、黨、掌等常用字,下文有時把尚字頭也稱作字。對尚字頭的筆順識別方法目前沒有報道,研究使用少見筆順增強訓(xùn)練樣本,建立了尚字頭筆順識別方法。
被試為641名在校本科生,年齡19-23歲。用投影儀顯示一篇短文,被試抄寫形成實驗筆跡樣本。抄寫的短文有多種,均含有常和堂字。被試使用橫欄書寫紙、黑色中性筆書寫。
筆順數(shù)據(jù)由被試報告,采用專門程序獲取數(shù)據(jù)。第一步,被試2-3人分為一組,他們交叉識別組內(nèi)成員的筆順,將結(jié)果記錄在實驗報告中。第二步,書寫樣本的被試核實他人的識別結(jié)果,結(jié)果錯誤在實驗報告中記錄正確的筆順。第三步,識別者查看核實結(jié)果,評估自己的準(zhǔn)確識別率。在這個過程中,被試之間相互制約,保證了數(shù)據(jù)的可靠性。
本次測試共收回實驗筆跡樣本641份,其中,有效樣本636份,剔除了5份有錯寫或別寫的樣本。按照實驗的時間順序,將有效樣本分為兩部分:第一部分用于選取訓(xùn)練樣本,共496份;第二部分用于選取測試樣本,共140份。
識別方法的測試者為一名一年級本科生,無筆順識別經(jīng)驗。
尚字頭由豎、點、撇3個筆畫構(gòu)成,有3個筆順,其中,豎點撇為常見筆順,點豎撇、點撇豎為少見筆順。非連筆的尚字頭是指依據(jù)連筆不能唯一地確定筆順的尚字頭。當(dāng)尚字頭的點與豎、豎與點、豎與撇連筆時,都可以唯一地確定筆順,但點與撇連筆有豎點撇、點撇豎兩種筆順。
從第一部分實驗樣本中選擇有非連筆尚字頭的樣本。在常見筆順樣本中隨機抽取了186份訓(xùn)練樣本,其中,172份樣本有2個非連筆尚字頭,14份樣本有1個非連筆的尚字頭,共獲得358個訓(xùn)練樣本字;把全部76份少見筆順樣本作為訓(xùn)練樣本,其中,67份樣本有2個非連筆的尚字頭,9份樣本有1個非連筆的尚字頭,共獲得143個訓(xùn)練樣本字。
從第二部分實驗樣本中選擇有非連筆尚字頭的樣本,得到117份測試樣本,其中104份樣本有2個非連筆尚字頭,13份樣本有1個非連筆尚字頭,共獲得有221個測試樣本字。
分析訓(xùn)練樣本,提取尚字頭的下列形態(tài)特征作為筆順識別的依據(jù)。
1.豎筆的形狀。豎筆的形狀分為兩種:左凸的弧和其他形狀,如圖1所示,圖1中堂字尚字頭豎筆為左凸的弧,常字豎筆為其他形狀。左凸的弧又如圖3中的堂字。
圖1 尚字頭豎筆形狀
2.豎筆收筆方式。豎筆收筆方式有三種:一是無動向鉤;二是有向左的動向鉤;三是有向右的動向鉤,如圖2、圖3所示。圖2為向左的動向鉤,圖3中的常字為向右的動向鉤。收筆動向鉤指筆畫末端指向下一筆起筆方向的側(cè)鉤。有的動向鉤較小,需要用顯微鏡觀察。
圖2 尚字頭豎筆左動向鉤
圖3 尚字頭豎筆右動向鉤
3.豎筆動態(tài)。書寫運動在豎、撇等長筆畫上易于形成收筆動向鉤,對點筆卻會影響其自身的形態(tài),這種情況稱為點的動態(tài)。點的動態(tài)指點寫成漸細(xì)的弧形,且收筆指向下一筆的起筆方向。豎筆動態(tài)指豎筆寫成點時的動態(tài),有三種情況,無動態(tài),向左動態(tài),向右動態(tài),如圖4所示。圖4中第一份樣本堂字為向左動態(tài),常字為無動態(tài),第二份樣本為向右動態(tài)。
圖4 尚字頭豎筆動態(tài)
4.豎筆與水平線的夾角。測量角度時,水平軸方向向左。如豎筆為弧形,測其弦,豎筆部分為弧形,測其直線部分。豎筆為向左動態(tài)時,規(guī)定夾角為90°;豎筆為左凸的弧、向右動態(tài)、圓點時,規(guī)定夾角等于點筆與水平線的夾角;當(dāng)豎筆與水平線測量角度大于80°,小于90°時,規(guī)定夾角為90°。
5.點筆動態(tài)。點筆動態(tài)有兩種:無動態(tài)和向右動態(tài),如圖4第一份樣本和圖5所示。點筆與撇筆連筆時,點筆動態(tài)難以觀察,規(guī)定點筆為向右動態(tài)。
圖5 尚字頭點筆動態(tài)
6.點筆與水平線的夾角。測量角度時,水平軸方向向左。點筆為向右動態(tài)、圓點時,規(guī)定夾角為10°,如圖6所示。
圖6 尚字頭點筆為圓點
尚字頭筆順的分類器為決策樹和判別函數(shù)復(fù)合的形式。
1.決策樹。尚字頭豎筆與下方部件的橫筆交叉時,筆順無法識別。豎筆與水平線夾角大于105°時,筆順無法識別,小于等于105°時,筆順由判別函數(shù)決定。
2.判別函數(shù)。設(shè):尚字頭豎筆收筆方式為X1,令無動向鉤時,X1=0;左動向鉤時,X1=50;右動向鉤時,X1=-50。
豎筆與水平線夾角為X2,X2取值不帶角度單位。
點筆與水平線夾角為X3,X3取值不帶角度單位。
擬定判別函數(shù)為:Y=(X1+3X2-X3)/200
3.判別規(guī)則:當(dāng)Y≤0.89時,筆順為點豎撇;Y≥1.01時,筆順為豎點撇;0.89<Y<1.01時筆順無法識別。
舉例,識別圖7的2份樣本的4個樣本字的筆順。
圖7 2份待識別筆順的樣本
圖7第一個樣本字判別函數(shù)值為1.1,筆順為豎點撇;第二、第三、第四個樣本字豎筆與水平線夾角大于105°,拒識。分類器拒識這三個樣本字是出于降低錯誤率的考慮。第一份樣本的正確筆順為豎點撇,第二份樣本的正確筆順為點豎撇。
測試者得到的書面指導(dǎo)為本文結(jié)果與分析部分尚字頭筆順及樣本字選取、特征提取、分類器設(shè)計三部分的內(nèi)容,測試使用10倍刻度顯微鏡,判別函數(shù)值由Excel表格自動計算。
在221個測試樣本字中,23個樣本字拒識,拒識率10.4%,95%置信區(qū)間[6.3%,14.5%],11個樣本字識別結(jié)果錯誤,錯誤率5.0%,95%置信區(qū)間[2.1%,7.9%],準(zhǔn)確識別率84.6%,95%置信區(qū)間[79.9%,89.3%]。圖8為一份錯誤識別筆順的樣本,正確的筆順為點豎撇。
圖8 錯誤識別尚字頭筆順的樣本
尚字頭的特點是三個筆畫較小,且運筆方向相近。在特征提取上,尚字頭筆順識別首次使用了點的動態(tài)這個特征。筆跡鑒定的傳統(tǒng)方法沒有認(rèn)識到點筆動態(tài)的作用。①賈玉文.筆跡檢驗[M].北京:警官教育出版社,1999:106-109.對于筆畫角度,反犬旁筆順識別方法定性地使用了筆畫夾角特征,②申澤波.筆跡鑒定中的反犬旁筆順識別方法研究[J].廣東公安科技,2011,(1):7-9.入字筆順識別方法定量地使用了筆畫與水平線的夾角,③申澤波.入字筆順識別方法[J].中國司法鑒定,2012,(6):72-74.尚字頭則提取了兩個筆畫與水平線的夾角,以Z=3x-y這一抽象的函數(shù)關(guān)系為核心設(shè)計分類器,突破了筆畫夾角的形象性。
過去報道的筆順識別方法的分類器有決策樹和判別函數(shù)兩種形式。由于尚字頭的情況較為復(fù)雜,研究采用了決策樹與判別函數(shù)復(fù)合的多層次的分類器。決策樹主要是解決筆順點撇豎的分類問題,判別函數(shù)解決筆順豎點撇、點豎撇的分類。經(jīng)驗表明,在使用筆畫角度特征時,判別函數(shù)形式的分類器具有優(yōu)勢。
尚字頭筆順識別方法具有與已經(jīng)報道的筆順識別方法相當(dāng)?shù)目煽啃院陀行裕?,入字筆順識別方法準(zhǔn)確識別率84.0%,錯誤率4.6%。④同③.研究使用了增強型訓(xùn)練樣本,有效提高了少見筆順點豎撇的準(zhǔn)確識別率。但尚字頭3個筆順中的點撇豎出現(xiàn)率很低,增強以后訓(xùn)練樣本數(shù)量仍然較少,導(dǎo)致分類器對這個筆順不敏感。實際上,分類器對這個筆順只能輸出拒識和其他筆順這兩種結(jié)果,這構(gòu)成了拒識率、錯誤率的主要成分。
尚字頭筆順識別方法的建立,為筆跡鑒定提供了替代專家經(jīng)驗的方法。在筆順識別領(lǐng)域,首次采用增強型訓(xùn)練樣本,顯示出這一方法的優(yōu)勢,這在筆順識別研究中具有推廣價值。