常見錯(cuò)字特征量化分析軟件的研究與實(shí)現(xiàn)

2013-04-24 15:24:08李震

中國刑警學(xué)院學(xué)報(bào) 2013年3期

關(guān)鍵詞：數(shù)據(jù)錄入字庫錯(cuò)字

李震

（中國刑警學(xué)院遼寧沈陽 110035）

常見錯(cuò)字特征量化分析軟件的研究與實(shí)現(xiàn)

李震

（中國刑警學(xué)院遼寧沈陽 110035）

通過計(jì)算機(jī)對錯(cuò)別字出現(xiàn)率及其影響因素進(jìn)行研究，對常見錯(cuò)字出現(xiàn)率及其影響因素進(jìn)行數(shù)據(jù)統(tǒng)計(jì)，為錯(cuò)字特征的實(shí)際應(yīng)用及其特征價(jià)值的評斷提供相對客觀的依據(jù)，并在筆跡檢驗(yàn)與鑒定工作中，方便鑒定人員能夠更好地對錯(cuò)字特征進(jìn)行把握。同時(shí)也為錯(cuò)字出現(xiàn)率的統(tǒng)計(jì)研究及錯(cuò)字特征價(jià)值評斷的深入研究探索科學(xué)的研究方法。

筆跡筆跡檢驗(yàn) 錯(cuò)別字特征

錯(cuò)別字特征是筆跡檢驗(yàn)中的一類重要特征，由于它具有很強(qiáng)的特殊性和穩(wěn)定性，在筆跡檢驗(yàn)中擁有重要的地位。在筆跡檢驗(yàn)中，一般把錯(cuò)字和別字歸為錯(cuò)別字特征，主要用于對書寫人的同一認(rèn)定。目前在文件檢驗(yàn)領(lǐng)域，大多都是對如何正確使用錯(cuò)別字特征進(jìn)行定性的討論，并未見對錯(cuò)別字特征進(jìn)行系統(tǒng)的量化研究，對錯(cuò)別字特征價(jià)值的評估也大都來自于檢驗(yàn)鑒定人員的經(jīng)驗(yàn)，主觀性極強(qiáng)，據(jù)此做出的鑒定結(jié)論也缺乏說服力。通過計(jì)算機(jī)對錯(cuò)別字出現(xiàn)率及其影響因素進(jìn)行研究，可以使我們更好地把握錯(cuò)別字特征，準(zhǔn)確地評斷其特征價(jià)值。在分析統(tǒng)計(jì)錯(cuò)別字出現(xiàn)率的基礎(chǔ)上，判斷其在筆跡檢驗(yàn)中應(yīng)用價(jià)值的高低，將對筆跡檢驗(yàn)工作起重要的指導(dǎo)意義。同時(shí)在一定條件下，通過人機(jī)結(jié)合，還可以通過某些錯(cuò)字所表現(xiàn)出來的特點(diǎn)及規(guī)律，為判斷書寫人的個(gè)人情況提供參考，從而為偵查破案提供線索和依據(jù)。

1 錯(cuò)別字特征量化分析的理論研究

1.1 錯(cuò)別字的含義及產(chǎn)生原因

通常所說的錯(cuò)別字包括錯(cuò)字和別字。錯(cuò)字是指書寫人對字的正確寫法和結(jié)構(gòu)不了解或掌握不夠準(zhǔn)確而寫錯(cuò)的字。錯(cuò)字是文字系統(tǒng)中根本不存在的字，主要表現(xiàn)為把筆畫寫錯(cuò)，或是增減筆畫，或是排錯(cuò)偏旁的位置等。別字與錯(cuò)字不同，是指該寫甲字時(shí)寫成了乙字。

漢字筆畫結(jié)構(gòu)復(fù)雜，漢字中筆畫繁多的為數(shù)不少，這些字在書寫時(shí)稍有馬虎，或記得不準(zhǔn)確，很容易出現(xiàn)多筆少畫的現(xiàn)象以及錯(cuò)寫為其他字。漢字形體結(jié)構(gòu)相似，漢字是由點(diǎn)、橫、豎、撇、捺、折等幾種筆畫結(jié)構(gòu)組成。由于筆畫形式不多，在組字結(jié)構(gòu)上勢必會出現(xiàn)許多相似的地方，加之書寫技能的遷移，導(dǎo)致人們在學(xué)習(xí)和使用漢字過程中，很容易把字的某一部分記混。漢字屬于表義體系的文字，漢字的字形和字義有著非常密切的聯(lián)系。有許多漢字，只有了解它們當(dāng)初的本義，才能加深印象。僅僅記住字形，只能得到表面的、浮淺的印象，在書寫時(shí)難免要出現(xiàn)錯(cuò)別字。

1.2 確定常見錯(cuò)別字

易錯(cuò)樣品字的選取是理論研究的重要環(huán)節(jié)。樣品字的選取經(jīng)歷了初選和確定兩個(gè)階段。樣品字的初選參考《錯(cuò)別字辨析手冊》（杜維東著）、《常見錯(cuò)字的分類及其更正的理據(jù)分析》（彭志雄著）及平時(shí)案件鑒定中常遇到的錯(cuò)別字，初步選擇了157個(gè)易錯(cuò)樣品字，并設(shè)計(jì)了錯(cuò)字調(diào)查表確定樣品字的組合，即把它們分別編入常見的詞組，在詞組中省略樣品字，下畫橫線，在橫線前的括號內(nèi)用拼音把樣品字標(biāo)注出來，以保證書寫人正常填寫樣品字。在不同年齡段、不同性別、不同文化程度、不同職業(yè)以及不同地區(qū)范圍內(nèi)選擇500名調(diào)查對象，發(fā)放并回收《漢字調(diào)查表》。對有效的456份調(diào)查表中的157個(gè)樣品字的出錯(cuò)率進(jìn)行了人工統(tǒng)計(jì)，按錯(cuò)字出現(xiàn)率從高到低排列，對157個(gè)字的錯(cuò)字出現(xiàn)情況進(jìn)行研究，剔除其中空字現(xiàn)象嚴(yán)重和部分未出現(xiàn)錯(cuò)寫的字，同時(shí)又增加個(gè)別實(shí)際案件中易出現(xiàn)的錯(cuò)字后，最終形成了143個(gè)字的樣品字調(diào)查表。

2 錯(cuò)別字庫的建立

實(shí)現(xiàn)計(jì)算機(jī)對錯(cuò)別字出現(xiàn)率的量化分析，首先要建立計(jì)算機(jī)可識別的錯(cuò)別字庫，建立計(jì)算機(jī)能識別的錯(cuò)別字庫有兩種方法，一是利用造字程序，造出所發(fā)現(xiàn)的每個(gè)錯(cuò)字并保存在計(jì)算機(jī)的字庫中；二是將各種錯(cuò)字手寫出來，通過掃描圖像存儲在數(shù)據(jù)庫系統(tǒng)。經(jīng)分析研究，第一種方法造字過程本身比較繁瑣，要使用查詢軟件其他計(jì)算機(jī)也必須先安裝此字庫，同時(shí)造字程序也會影響本軟件的推廣和使用。最終決定采用掃描手寫文字圖片的形式建立相應(yīng)的數(shù)據(jù)庫。

2.1 錯(cuò)別字庫的來源

為了保證錯(cuò)字庫的豐富性和有效性，對收集的1400余份調(diào)查表和前期收集的400余份調(diào)查表逐份逐字進(jìn)行分析，將發(fā)現(xiàn)的每個(gè)字的各種錯(cuò)寫、別字、空字等信息記錄在《143個(gè)字情況一覽》表中。然后將每個(gè)人的記錄表匯總，形成了錯(cuò)字庫內(nèi)容的原始記錄。

2.2 錯(cuò)別字庫的制作

經(jīng)過計(jì)算機(jī)技術(shù)人員的測試，確定書寫樣品字的規(guī)格為15mm×15mm。首先利用計(jì)算機(jī)制作并打印出相應(yīng)規(guī)格的方格紙；再由專人在方格紙上用楷書書寫經(jīng)過匯總的字庫內(nèi)容（即錯(cuò)字原始記錄表中的所有錯(cuò)字）；然后利用計(jì)算機(jī)photoshop軟件對寫完的字樣進(jìn)行掃描，調(diào)整色階后保存；最后，利用photoshop軟件將已保存的字樣按單字進(jìn)行切分，并保存在按不同樣品字形成的相應(yīng)字庫中（見圖1）。

圖1 “步”的錯(cuò)寫字庫

2.3 錯(cuò)字庫中錯(cuò)字的編碼

要實(shí)現(xiàn)錯(cuò)字庫中各種信息的綜合查詢，首先必須按照一定的規(guī)則建立關(guān)鍵字，由此對字庫中的每個(gè)錯(cuò)寫圖片進(jìn)行編碼，每個(gè)錯(cuò)字采用8位編碼，1-3位代表所研究的143個(gè)字。數(shù)值與調(diào)查表中的順序一致，不足三位時(shí)在前方用0補(bǔ)齊，如第一個(gè)字“步”編為001，第21個(gè)字“慶”編為021；4-5位代表該字按偏旁劃分，出現(xiàn)錯(cuò)別字的類別。正字、空白和其他為00。在本錯(cuò)別字字庫中先以與正字的相似度劃分，然后以不同偏旁錯(cuò)別字多少劃分，分為01、02……，目的是便于數(shù)據(jù)錄入和查詢，如“隙”出現(xiàn)的27個(gè)錯(cuò)字中，“耳刀旁出現(xiàn)14個(gè)，最多，此類錯(cuò)別字編為01”“絞絲旁出現(xiàn)6個(gè)，第二多，則此類錯(cuò)別字編為02”，其他依此類推；第6位代表按照錯(cuò)字原因劃分，錯(cuò)字類型。正字、空白和其他為0，多筆畫（只多一筆）為1，少筆畫（只少一筆）為2，結(jié)構(gòu)錯(cuò)誤為3，受上下字影響為4，其他類型錯(cuò)字為5，別字為6，“空白”（未填）為7；7-8位代表各類別錯(cuò)字的具體內(nèi)容。正字為00，空白為01，其他為02按錯(cuò)別字筆畫數(shù)和相似度依次編為01、02，并據(jù)此對字庫中所有的信息進(jìn)行了編碼。

3 分析軟件的開發(fā)與設(shè)計(jì)

本軟件共分為系統(tǒng)管理模塊、數(shù)據(jù)錄入模塊、數(shù)據(jù)查詢模塊和本庫信息模塊四部分。

系統(tǒng)管理模塊將本軟件系統(tǒng)劃分為系統(tǒng)管理、查詢使用、數(shù)據(jù)錄入三種權(quán)限。其中系統(tǒng)管理權(quán)限是使系統(tǒng)管理員對系統(tǒng)進(jìn)行綜合維護(hù)和管理，該權(quán)限可以使用本軟件系統(tǒng)中的所有功能，即數(shù)據(jù)錄入功能、數(shù)據(jù)查詢功能、數(shù)據(jù)管理功能和人員管理功能。查詢使用權(quán)限授予最終用戶使用，可以通過本系統(tǒng)對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行查詢和分析，僅具有數(shù)據(jù)查詢功能和部分人員管理功能（僅能對用戶本身的用戶名和密碼進(jìn)行修改）。數(shù)據(jù)錄入權(quán)限是將漢字調(diào)查表中的錯(cuò)字信息錄入后臺數(shù)據(jù)庫的用戶使用。

數(shù)據(jù)錄入模塊是由錯(cuò)別字錄入和調(diào)查表錄入兩個(gè)子模塊構(gòu)成。其中錯(cuò)別字錄入子模塊具有兩部分功能，一是由系統(tǒng)管理員將漢字調(diào)查表中的143個(gè)易錯(cuò)字和利用易錯(cuò)字構(gòu)成的詞組添加到數(shù)據(jù)庫中，另外一個(gè)功能是系統(tǒng)管理員對每一個(gè)易錯(cuò)字的各種錯(cuò)寫、正確寫法、空白添加至數(shù)據(jù)庫中，每個(gè)易錯(cuò)字的各種錯(cuò)寫主要來源于漢字調(diào)查表中可能出現(xiàn)的各種錯(cuò)寫和辦案實(shí)踐中所發(fā)現(xiàn)的錯(cuò)寫。系統(tǒng)管理員錄入完畢后，調(diào)查表錄入子模塊就會將原來紙質(zhì)調(diào)查表中所有詞組顯示在界面上，其中填空部分是由每個(gè)易錯(cuò)字的所有錯(cuò)寫、空白和正確寫法綁定在下拉框組成。漢字調(diào)查表錄入時(shí)系統(tǒng)默認(rèn)的字是正字。用戶錄入時(shí)，只需對照漢字調(diào)查表錄入出現(xiàn)錯(cuò)寫的易錯(cuò)字即可，錄入速度快，可維護(hù)性極強(qiáng)。

數(shù)據(jù)查詢模塊是由易錯(cuò)字和錯(cuò)別字查詢、條件和分組查詢以及高級查詢?nèi)齻€(gè)子模塊構(gòu)成。其中易錯(cuò)字和錯(cuò)別字查詢子模塊可以查詢數(shù)據(jù)庫中的易錯(cuò)字及各種錯(cuò)寫查詢、每個(gè)易錯(cuò)字的總出現(xiàn)率和每個(gè)易錯(cuò)字中各個(gè)錯(cuò)寫的出現(xiàn)率；條件和分組查詢子模塊是由易錯(cuò)字條件查詢、錯(cuò)寫條件查詢、分組查詢和高級分組查詢四部分構(gòu)成。易錯(cuò)字條件查詢可以查詢數(shù)據(jù)庫中滿足各種特定條件的人群且易錯(cuò)字總出現(xiàn)率在特定范圍的具體易錯(cuò)字。錯(cuò)寫條件查詢用來查詢數(shù)據(jù)庫中滿足各種特定條件的人群且各種錯(cuò)寫總出現(xiàn)率在特定范圍的具體易錯(cuò)字錯(cuò)寫情況。分組查詢的功能是按數(shù)據(jù)庫中自然人的各種屬性（年齡段、性別、職業(yè)、文化程度、書法愛好）查詢寫錯(cuò)別字的比例。高級分組查詢可以按數(shù)據(jù)庫中自然人的各種屬性（年齡段、性別、職業(yè)、文化程度、書法愛好）對每一易錯(cuò)字寫錯(cuò)別字的比例；高級查詢子模塊是由某易錯(cuò)字出現(xiàn)率查詢、多個(gè)易錯(cuò)字錯(cuò)寫人群查詢、錯(cuò)字種類查詢和按種類查詢易錯(cuò)字錯(cuò)寫情況四部分構(gòu)成。某易錯(cuò)字出現(xiàn)率查詢可以查詢數(shù)據(jù)庫中滿足各種特定條件的人群中每個(gè)易錯(cuò)字各種錯(cuò)寫的出現(xiàn)率。多個(gè)易錯(cuò)字錯(cuò)寫人群查詢用來查詢數(shù)據(jù)庫同時(shí)具備多種易錯(cuò)字錯(cuò)寫情況的人群自然情況。錯(cuò)字種類查詢的功能是查詢數(shù)據(jù)庫中每個(gè)易錯(cuò)字各種錯(cuò)誤類型的錯(cuò)寫情況。按種類查詢易錯(cuò)字錯(cuò)寫情況是通過輸入音序查詢易錯(cuò)字再查詢選中易錯(cuò)字的各種錯(cuò)誤類型的錯(cuò)寫。

本庫信息模塊是由人員信息和易錯(cuò)字信息兩個(gè)子模塊構(gòu)成。其中人員信息子模塊主要反映數(shù)據(jù)庫中所包含所有人的自然情況（年齡段、性別、職業(yè)、文化程度、書法愛好）。易錯(cuò)字信息子模塊主要反映數(shù)據(jù)庫中所包含所有易錯(cuò)字各種易錯(cuò)類型的數(shù)據(jù)統(tǒng)計(jì)。

4 數(shù)據(jù)錄入與查詢結(jié)果分析

系統(tǒng)后臺數(shù)據(jù)庫采用SQL Server數(shù)據(jù)庫服務(wù)器，可以有效利用局域網(wǎng)同時(shí)滿足多人進(jìn)行實(shí)時(shí)數(shù)據(jù)錄入，將1400余份調(diào)查表中的全部信息逐一錄入系統(tǒng)數(shù)據(jù)庫中，節(jié)約大量數(shù)據(jù)錄入時(shí)間，提高數(shù)據(jù)錄入的準(zhǔn)確性，也為本軟件系統(tǒng)后期大量數(shù)據(jù)錄入工作積累寶貴經(jīng)驗(yàn)。啟動軟件，進(jìn)入登陸界面，輸入錄入權(quán)限的用戶名和密碼，進(jìn)入軟件界面，點(diǎn)擊“數(shù)據(jù)錄入”下的“漢字調(diào)查表錄入”進(jìn)入調(diào)查表錄入界面，界面結(jié)構(gòu)友好，完全按照漢字調(diào)查表設(shè)計(jì)，用戶只需選取易錯(cuò)字即可，默認(rèn)為正字，完成漢字調(diào)查表的數(shù)據(jù)錄入工作（見圖2）。

圖2 漢字調(diào)查表錄入界面

數(shù)據(jù)錄入完畢，編制的143個(gè)易錯(cuò)字查詢分析軟件實(shí)現(xiàn)了143個(gè)易錯(cuò)字出現(xiàn)率的量化查詢。通過本軟件可以實(shí)現(xiàn)多種查詢功能，可以查詢143個(gè)易錯(cuò)字在錄入的數(shù)據(jù)庫中的出錯(cuò)率并按照降序或升序排列及每個(gè)易錯(cuò)字出現(xiàn)各種錯(cuò)寫的出錯(cuò)率（見表1，表2），也可以結(jié)合一份筆跡材料中出現(xiàn)的若干個(gè)錯(cuò)字，分析經(jīng)查詢出現(xiàn)這些錯(cuò)字的人是否具有共同特點(diǎn)等。

表1 易錯(cuò)字出錯(cuò)率情況表（前10字）

表2 “步”字各種錯(cuò)寫的出錯(cuò)率

5 結(jié)論

開發(fā)143個(gè)易錯(cuò)字查詢分析軟件，實(shí)現(xiàn)了143個(gè)易錯(cuò)字出現(xiàn)率的量化查詢。通過該軟件的查詢功能可以分析各類人群的自然情況、常見錯(cuò)寫的出錯(cuò)率等，針對筆跡中錯(cuò)別字的研究思路和方法同樣適用于其他各類筆跡特征，也為各類筆跡特征的量化分析系統(tǒng)的研制奠定良好的基礎(chǔ)。

1.賈玉文，鄒明理.中國刑事科學(xué)技術(shù)大全文件檢驗(yàn)[M].北京：中國公安大學(xué)出版社，2002

2.賈玉文.筆跡檢驗(yàn)[M].北京：警官教育出版社，1999

3.Christian Nagel，Bill Evjen，Jay Glynn，等.C#高級編程[M].第七版.北京：清華大學(xué)出版社，2010

4.王小科，王軍作，等.C#開發(fā)實(shí)戰(zhàn)1200例[M].北京：清華大學(xué)出版社，2011

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

常見錯(cuò)字特征量化分析軟件的研究與實(shí)現(xiàn)

1 錯(cuò)別字特征量化分析的理論研究

2 錯(cuò)別字庫的建立

3 分析軟件的開發(fā)與設(shè)計(jì)

4 數(shù)據(jù)錄入與查詢結(jié)果分析

5 結(jié)論