李震
(中國刑警學(xué)院 遼寧 沈陽 110035)
常見錯(cuò)字特征量化分析軟件的研究與實(shí)現(xiàn)
李震
(中國刑警學(xué)院 遼寧 沈陽 110035)
通過計(jì)算機(jī)對錯(cuò)別字出現(xiàn)率及其影響因素進(jìn)行研究,對常見錯(cuò)字出現(xiàn)率及其影響因素進(jìn)行數(shù)據(jù)統(tǒng)計(jì),為錯(cuò)字特征的實(shí)際應(yīng)用及其特征價(jià)值的評斷提供相對客觀的依據(jù),并在筆跡檢驗(yàn)與鑒定工作中,方便鑒定人員能夠更好地對錯(cuò)字特征進(jìn)行把握。同時(shí)也為錯(cuò)字出現(xiàn)率的統(tǒng)計(jì)研究及錯(cuò)字特征價(jià)值評斷的深入研究探索科學(xué)的研究方法。
筆跡 筆跡檢驗(yàn) 錯(cuò)別字特征
錯(cuò)別字特征是筆跡檢驗(yàn)中的一類重要特征,由于它具有很強(qiáng)的特殊性和穩(wěn)定性,在筆跡檢驗(yàn)中擁有重要的地位。在筆跡檢驗(yàn)中,一般把錯(cuò)字和別字歸為錯(cuò)別字特征,主要用于對書寫人的同一認(rèn)定。目前在文件檢驗(yàn)領(lǐng)域,大多都是對如何正確使用錯(cuò)別字特征進(jìn)行定性的討論,并未見對錯(cuò)別字特征進(jìn)行系統(tǒng)的量化研究,對錯(cuò)別字特征價(jià)值的評估也大都來自于檢驗(yàn)鑒定人員的經(jīng)驗(yàn),主觀性極強(qiáng),據(jù)此做出的鑒定結(jié)論也缺乏說服力。通過計(jì)算機(jī)對錯(cuò)別字出現(xiàn)率及其影響因素進(jìn)行研究,可以使我們更好地把握錯(cuò)別字特征,準(zhǔn)確地評斷其特征價(jià)值。在分析統(tǒng)計(jì)錯(cuò)別字出現(xiàn)率的基礎(chǔ)上,判斷其在筆跡檢驗(yàn)中應(yīng)用價(jià)值的高低,將對筆跡檢驗(yàn)工作起重要的指導(dǎo)意義。同時(shí)在一定條件下,通過人機(jī)結(jié)合,還可以通過某些錯(cuò)字所表現(xiàn)出來的特點(diǎn)及規(guī)律,為判斷書寫人的個(gè)人情況提供參考,從而為偵查破案提供線索和依據(jù)。
1.1 錯(cuò)別字的含義及產(chǎn)生原因
通常所說的錯(cuò)別字包括錯(cuò)字和別字。錯(cuò)字是指書寫人對字的正確寫法和結(jié)構(gòu)不了解或掌握不夠準(zhǔn)確而寫錯(cuò)的字。錯(cuò)字是文字系統(tǒng)中根本不存在的字,主要表現(xiàn)為把筆畫寫錯(cuò),或是增減筆畫,或是排錯(cuò)偏旁的位置等。別字與錯(cuò)字不同,是指該寫甲字時(shí)寫成了乙字。
漢字筆畫結(jié)構(gòu)復(fù)雜,漢字中筆畫繁多的為數(shù)不少,這些字在書寫時(shí)稍有馬虎,或記得不準(zhǔn)確,很容易出現(xiàn)多筆少畫的現(xiàn)象以及錯(cuò)寫為其他字。漢字形體結(jié)構(gòu)相似,漢字是由點(diǎn)、橫、豎、撇、捺、折等幾種筆畫結(jié)構(gòu)組成。由于筆畫形式不多,在組字結(jié)構(gòu)上勢必會出現(xiàn)許多相似的地方,加之書寫技能的遷移,導(dǎo)致人們在學(xué)習(xí)和使用漢字過程中,很容易把字的某一部分記混。漢字屬于表義體系的文字,漢字的字形和字義有著非常密切的聯(lián)系。有許多漢字,只有了解它們當(dāng)初的本義,才能加深印象。僅僅記住字形,只能得到表面的、浮淺的印象,在書寫時(shí)難免要出現(xiàn)錯(cuò)別字。
1.2 確定常見錯(cuò)別字
易錯(cuò)樣品字的選取是理論研究的重要環(huán)節(jié)。樣品字的選取經(jīng)歷了初選和確定兩個(gè)階段。樣品字的初選參考《錯(cuò)別字辨析手冊》(杜維東著)、《常見錯(cuò)字的分類及其更正的理據(jù)分析》(彭志雄著)及平時(shí)案件鑒定中常遇到的錯(cuò)別字,初步選擇了157個(gè)易錯(cuò)樣品字,并設(shè)計(jì)了錯(cuò)字調(diào)查表確定樣品字的組合,即把它們分別編入常見的詞組,在詞組中省略樣品字,下畫橫線,在橫線前的括號內(nèi)用拼音把樣品字標(biāo)注出來,以保證書寫人正常填寫樣品字。在不同年齡段、不同性別、不同文化程度、不同職業(yè)以及不同地區(qū)范圍內(nèi)選擇500名調(diào)查對象,發(fā)放并回收《漢字調(diào)查表》。對有效的456份調(diào)查表中的157個(gè)樣品字的出錯(cuò)率進(jìn)行了人工統(tǒng)計(jì),按錯(cuò)字出現(xiàn)率從高到低排列,對157個(gè)字的錯(cuò)字出現(xiàn)情況進(jìn)行研究,剔除其中空字現(xiàn)象嚴(yán)重和部分未出現(xiàn)錯(cuò)寫的字,同時(shí)又增加個(gè)別實(shí)際案件中易出現(xiàn)的錯(cuò)字后,最終形成了143個(gè)字的樣品字調(diào)查表。
實(shí)現(xiàn)計(jì)算機(jī)對錯(cuò)別字出現(xiàn)率的量化分析,首先要建立計(jì)算機(jī)可識別的錯(cuò)別字庫,建立計(jì)算機(jī)能識別的錯(cuò)別字庫有兩種方法,一是利用造字程序,造出所發(fā)現(xiàn)的每個(gè)錯(cuò)字并保存在計(jì)算機(jī)的字庫中;二是將各種錯(cuò)字手寫出來,通過掃描圖像存儲在數(shù)據(jù)庫系統(tǒng)。經(jīng)分析研究,第一種方法造字過程本身比較繁瑣,要使用查詢軟件其他計(jì)算機(jī)也必須先安裝此字庫,同時(shí)造字程序也會影響本軟件的推廣和使用。最終決定采用掃描手寫文字圖片的形式建立相應(yīng)的數(shù)據(jù)庫。
2.1 錯(cuò)別字庫的來源
為了保證錯(cuò)字庫的豐富性和有效性,對收集的1400余份調(diào)查表和前期收集的400余份調(diào)查表逐份逐字進(jìn)行分析,將發(fā)現(xiàn)的每個(gè)字的各種錯(cuò)寫、別字、空字等信息記錄在《143個(gè)字情況一覽》表中。然后將每個(gè)人的記錄表匯總,形成了錯(cuò)字庫內(nèi)容的原始記錄。
2.2 錯(cuò)別字庫的制作
經(jīng)過計(jì)算機(jī)技術(shù)人員的測試,確定書寫樣品字的規(guī)格為15mm×15mm。首先利用計(jì)算機(jī)制作并打印出相應(yīng)規(guī)格的方格紙;再由專人在方格紙上用楷書書寫經(jīng)過匯總的字庫內(nèi)容(即錯(cuò)字原始記錄表中的所有錯(cuò)字);然后利用計(jì)算機(jī)photoshop軟件對寫完的字樣進(jìn)行掃描,調(diào)整色階后保存;最后,利用photoshop軟件將已保存的字樣按單字進(jìn)行切分,并保存在按不同樣品字形成的相應(yīng)字庫中(見圖1)。
圖1 “步”的錯(cuò)寫字庫
2.3 錯(cuò)字庫中錯(cuò)字的編碼
要實(shí)現(xiàn)錯(cuò)字庫中各種信息的綜合查詢,首先必須按照一定的規(guī)則建立關(guān)鍵字,由此對字庫中的每個(gè)錯(cuò)寫圖片進(jìn)行編碼,每個(gè)錯(cuò)字采用8位編碼,1-3位代表所研究的143個(gè)字。數(shù)值與調(diào)查表中的順序一致,不足三位時(shí)在前方用0補(bǔ)齊,如第一個(gè)字“步”編為001,第21個(gè)字“慶”編為021;4-5位代表該字按偏旁劃分,出現(xiàn)錯(cuò)別字的類別。正字、空白和其他為00。在本錯(cuò)別字字庫中先以與正字的相似度劃分,然后以不同偏旁錯(cuò)別字多少劃分,分為01、02……,目的是便于數(shù)據(jù)錄入和查詢,如“隙”出現(xiàn)的27個(gè)錯(cuò)字中,“耳刀旁出現(xiàn)14個(gè),最多,此類錯(cuò)別字編為01”“絞絲旁出現(xiàn)6個(gè),第二多,則此類錯(cuò)別字編為02”,其他依此類推;第6位代表按照錯(cuò)字原因劃分,錯(cuò)字類型。正字、空白和其他為0,多筆畫(只多一筆)為1,少筆畫(只少一筆)為2,結(jié)構(gòu)錯(cuò)誤為3,受上下字影響為4,其他類型錯(cuò)字為5,別字為6,“空白”(未填)為7;7-8位代表各類別錯(cuò)字的具體內(nèi)容。正字為00,空白為01,其他為02按錯(cuò)別字筆畫數(shù)和相似度依次編為01、02,并據(jù)此對字庫中所有的信息進(jìn)行了編碼。
本軟件共分為系統(tǒng)管理模塊、數(shù)據(jù)錄入模塊、數(shù)據(jù)查詢模塊和本庫信息模塊四部分。
系統(tǒng)管理模塊將本軟件系統(tǒng)劃分為系統(tǒng)管理、查詢使用、數(shù)據(jù)錄入三種權(quán)限。其中系統(tǒng)管理權(quán)限是使系統(tǒng)管理員對系統(tǒng)進(jìn)行綜合維護(hù)和管理,該權(quán)限可以使用本軟件系統(tǒng)中的所有功能,即數(shù)據(jù)錄入功能、數(shù)據(jù)查詢功能、數(shù)據(jù)管理功能和人員管理功能。查詢使用權(quán)限授予最終用戶使用,可以通過本系統(tǒng)對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行查詢和分析,僅具有數(shù)據(jù)查詢功能和部分人員管理功能(僅能對用戶本身的用戶名和密碼進(jìn)行修改)。數(shù)據(jù)錄入權(quán)限是將漢字調(diào)查表中的錯(cuò)字信息錄入后臺數(shù)據(jù)庫的用戶使用。
數(shù)據(jù)錄入模塊是由錯(cuò)別字錄入和調(diào)查表錄入兩個(gè)子模塊構(gòu)成。其中錯(cuò)別字錄入子模塊具有兩部分功能,一是由系統(tǒng)管理員將漢字調(diào)查表中的143個(gè)易錯(cuò)字和利用易錯(cuò)字構(gòu)成的詞組添加到數(shù)據(jù)庫中,另外一個(gè)功能是系統(tǒng)管理員對每一個(gè)易錯(cuò)字的各種錯(cuò)寫、正確寫法、空白添加至數(shù)據(jù)庫中,每個(gè)易錯(cuò)字的各種錯(cuò)寫主要來源于漢字調(diào)查表中可能出現(xiàn)的各種錯(cuò)寫和辦案實(shí)踐中所發(fā)現(xiàn)的錯(cuò)寫。系統(tǒng)管理員錄入完畢后,調(diào)查表錄入子模塊就會將原來紙質(zhì)調(diào)查表中所有詞組顯示在界面上,其中填空部分是由每個(gè)易錯(cuò)字的所有錯(cuò)寫、空白和正確寫法綁定在下拉框組成。漢字調(diào)查表錄入時(shí)系統(tǒng)默認(rèn)的字是正字。用戶錄入時(shí),只需對照漢字調(diào)查表錄入出現(xiàn)錯(cuò)寫的易錯(cuò)字即可,錄入速度快,可維護(hù)性極強(qiáng)。
數(shù)據(jù)查詢模塊是由易錯(cuò)字和錯(cuò)別字查詢、條件和分組查詢以及高級查詢?nèi)齻€(gè)子模塊構(gòu)成。其中易錯(cuò)字和錯(cuò)別字查詢子模塊可以查詢數(shù)據(jù)庫中的易錯(cuò)字及各種錯(cuò)寫查詢、每個(gè)易錯(cuò)字的總出現(xiàn)率和每個(gè)易錯(cuò)字中各個(gè)錯(cuò)寫的出現(xiàn)率;條件和分組查詢子模塊是由易錯(cuò)字條件查詢、錯(cuò)寫條件查詢、分組查詢和高級分組查詢四部分構(gòu)成。易錯(cuò)字條件查詢可以查詢數(shù)據(jù)庫中滿足各種特定條件的人群且易錯(cuò)字總出現(xiàn)率在特定范圍的具體易錯(cuò)字。錯(cuò)寫條件查詢用來查詢數(shù)據(jù)庫中滿足各種特定條件的人群且各種錯(cuò)寫總出現(xiàn)率在特定范圍的具體易錯(cuò)字錯(cuò)寫情況。分組查詢的功能是按數(shù)據(jù)庫中自然人的各種屬性(年齡段、性別、職業(yè)、文化程度、書法愛好)查詢寫錯(cuò)別字的比例。高級分組查詢可以按數(shù)據(jù)庫中自然人的各種屬性(年齡段、性別、職業(yè)、文化程度、書法愛好)對每一易錯(cuò)字寫錯(cuò)別字的比例;高級查詢子模塊是由某易錯(cuò)字出現(xiàn)率查詢、多個(gè)易錯(cuò)字錯(cuò)寫人群查詢、錯(cuò)字種類查詢和按種類查詢易錯(cuò)字錯(cuò)寫情況四部分構(gòu)成。某易錯(cuò)字出現(xiàn)率查詢可以查詢數(shù)據(jù)庫中滿足各種特定條件的人群中每個(gè)易錯(cuò)字各種錯(cuò)寫的出現(xiàn)率。多個(gè)易錯(cuò)字錯(cuò)寫人群查詢用來查詢數(shù)據(jù)庫同時(shí)具備多種易錯(cuò)字錯(cuò)寫情況的人群自然情況。錯(cuò)字種類查詢的功能是查詢數(shù)據(jù)庫中每個(gè)易錯(cuò)字各種錯(cuò)誤類型的錯(cuò)寫情況。按種類查詢易錯(cuò)字錯(cuò)寫情況是通過輸入音序查詢易錯(cuò)字再查詢選中易錯(cuò)字的各種錯(cuò)誤類型的錯(cuò)寫。
本庫信息模塊是由人員信息和易錯(cuò)字信息兩個(gè)子模塊構(gòu)成。其中人員信息子模塊主要反映數(shù)據(jù)庫中所包含所有人的自然情況(年齡段、性別、職業(yè)、文化程度、書法愛好)。易錯(cuò)字信息子模塊主要反映數(shù)據(jù)庫中所包含所有易錯(cuò)字各種易錯(cuò)類型的數(shù)據(jù)統(tǒng)計(jì)。
系統(tǒng)后臺數(shù)據(jù)庫采用SQL Server數(shù)據(jù)庫服務(wù)器,可以有效利用局域網(wǎng)同時(shí)滿足多人進(jìn)行實(shí)時(shí)數(shù)據(jù)錄入,將1400余份調(diào)查表中的全部信息逐一錄入系統(tǒng)數(shù)據(jù)庫中,節(jié)約大量數(shù)據(jù)錄入時(shí)間,提高數(shù)據(jù)錄入的準(zhǔn)確性,也為本軟件系統(tǒng)后期大量數(shù)據(jù)錄入工作積累寶貴經(jīng)驗(yàn)。啟動軟件,進(jìn)入登陸界面,輸入錄入權(quán)限的用戶名和密碼,進(jìn)入軟件界面,點(diǎn)擊“數(shù)據(jù)錄入”下的“漢字調(diào)查表錄入”進(jìn)入調(diào)查表錄入界面,界面結(jié)構(gòu)友好,完全按照漢字調(diào)查表設(shè)計(jì),用戶只需選取易錯(cuò)字即可,默認(rèn)為正字,完成漢字調(diào)查表的數(shù)據(jù)錄入工作(見圖2)。
圖2 漢字調(diào)查表錄入界面
數(shù)據(jù)錄入完畢,編制的143個(gè)易錯(cuò)字查詢分析軟件實(shí)現(xiàn)了143個(gè)易錯(cuò)字出現(xiàn)率的量化查詢。通過本軟件可以實(shí)現(xiàn)多種查詢功能,可以查詢143個(gè)易錯(cuò)字在錄入的數(shù)據(jù)庫中的出錯(cuò)率并按照降序或升序排列及每個(gè)易錯(cuò)字出現(xiàn)各種錯(cuò)寫的出錯(cuò)率(見表1,表2),也可以結(jié)合一份筆跡材料中出現(xiàn)的若干個(gè)錯(cuò)字,分析經(jīng)查詢出現(xiàn)這些錯(cuò)字的人是否具有共同特點(diǎn)等。
表1 易錯(cuò)字出錯(cuò)率情況表(前10字)
表2 “步”字各種錯(cuò)寫的出錯(cuò)率
開發(fā)143個(gè)易錯(cuò)字查詢分析軟件,實(shí)現(xiàn)了143個(gè)易錯(cuò)字出現(xiàn)率的量化查詢。通過該軟件的查詢功能可以分析各類人群的自然情況、常見錯(cuò)寫的出錯(cuò)率等,針對筆跡中錯(cuò)別字的研究思路和方法同樣適用于其他各類筆跡特征,也為各類筆跡特征的量化分析系統(tǒng)的研制奠定良好的基礎(chǔ)。
1.賈玉文,鄒明理.中國刑事科學(xué)技術(shù)大全文件檢驗(yàn)[M].北京:中國公安大學(xué)出版社,2002
2.賈玉文.筆跡檢驗(yàn)[M].北京:警官教育出版社,1999
3.Christian Nagel,Bill Evjen,Jay Glynn,等.C#高級編程[M].第七版.北京:清華大學(xué)出版社,2010
4.王小科,王軍作,等.C#開發(fā)實(shí)戰(zhàn)1200例[M].北京:清華大學(xué)出版社,2011