浩慶波 徐巖 萬(wàn)曙靜
摘要
空中手寫(xiě)識(shí)別作為手勢(shì)識(shí)別的重要分支具有很高的研究?jī)r(jià)值空中手寫(xiě)數(shù)字的識(shí)別是一個(gè)非常熱門(mén)的挑戰(zhàn)研究課題。本文提出了一種基于兩個(gè)關(guān)鍵點(diǎn)和八個(gè)方向模型(“2-8”模型)的數(shù)字識(shí)別算法。經(jīng)實(shí)驗(yàn)測(cè)試表明該算法與手寫(xiě)字體之間的匹配精度較高。
【關(guān)鍵詞】手寫(xiě)體識(shí)別 “2-8”模型 DP匹配
1 引言
數(shù)字識(shí)別是圖像識(shí)別領(lǐng)域中一個(gè)重要的分支。由于問(wèn)題本身的難度使其具有挑戰(zhàn)性。數(shù)字識(shí)別使圖像分析和模式識(shí)別進(jìn)行融合并成為一個(gè)新的研究領(lǐng)域。阿拉伯?dāng)?shù)字是世界上唯一的通用符號(hào),其研究與文化背景無(wú)關(guān)。因此它為各個(gè)國(guó)家的研究工作者提供了一個(gè)展示研究成果的舞臺(tái)。許多領(lǐng)域(如郵政編碼、統(tǒng)計(jì)報(bào)表等)對(duì)手寫(xiě)數(shù)字識(shí)別技術(shù)有著巨大的需求,其研究具有很大的現(xiàn)實(shí)意義。
2 手寫(xiě)數(shù)字識(shí)別算法
2.1 特征提取
手寫(xiě)數(shù)字識(shí)別技術(shù)通常采用“2-8”模型描述手寫(xiě)數(shù)字軌跡。在“2-8”模型中“2”指的是筆跡的起點(diǎn)和終點(diǎn),而“8”則是指Kinect傳感器視角中垂直截面上的八個(gè)方向。即從X軸開(kāi)始,每45度定義一個(gè)方向,共八個(gè)方向。事實(shí)上,指尖的起始位置是指在空中書(shū)寫(xiě)過(guò)程中的起始位置,書(shū)寫(xiě)的空間對(duì)應(yīng)Kinect視角中的三維空間。指尖在空中的軌跡可以投影到Kinect透視圖中的垂直截面上,識(shí)別中所描述的軌跡即是投影得到的痕跡??罩惺謱?xiě)識(shí)別過(guò)程中首先需要借助Kinect在空中獲取和跟蹤指尖的運(yùn)動(dòng)軌跡;然后利用“2-8”模型分析運(yùn)動(dòng)軌跡,提取相應(yīng)的特征向量。筆劃相對(duì)簡(jiǎn)單的數(shù)字其特征非常明顯,借助“2-8”模型分析方法很容易提取其特征。
獲取空中手寫(xiě)數(shù)字的運(yùn)動(dòng)軌跡,首先需要確定數(shù)字“0”到“9”的起點(diǎn)和終點(diǎn)。因?yàn)闊o(wú)論是數(shù)字還是字符在空中書(shū)寫(xiě)并不像在紙質(zhì)上書(shū)寫(xiě)的那樣,在紙質(zhì)上書(shū)寫(xiě)可以隨時(shí)停止筆,且有痕跡記錄。但Kinect跟蹤指尖的運(yùn)動(dòng)軌跡則是需要一氣呵成而不停頓。“2-8”模型中手寫(xiě)數(shù)字的起點(diǎn)和終點(diǎn)是關(guān)鍵信息。因此本文以規(guī)范的書(shū)寫(xiě)作為研究出發(fā)點(diǎn),在使用該方法進(jìn)行識(shí)別中,熟悉書(shū)寫(xiě)標(biāo)準(zhǔn)是非常重要的,對(duì)提高識(shí)別準(zhǔn)確率有著非常重要的作用,書(shū)寫(xiě)規(guī)范如圖1所示。
在完成空中手寫(xiě)數(shù)字的定義后,接下來(lái)就是如何借助“2-8”模型識(shí)別手寫(xiě)數(shù)字。首先,利用指尖跟蹤算法跟蹤指尖軌跡并識(shí)別出軌跡的起點(diǎn)和終點(diǎn)。把“起點(diǎn)”和“終點(diǎn)”作為“原點(diǎn)”構(gòu)建8個(gè)方向的坐標(biāo),如圖2。
圖2是用“2-8”模型分析手寫(xiě)數(shù)字“2”的過(guò)程。以手寫(xiě)體“2”的起止點(diǎn)為原點(diǎn)構(gòu)建兩個(gè)“8”個(gè)方向的坐標(biāo)。"2"的特征向量即為兩個(gè)坐標(biāo)與手寫(xiě)軌跡的交點(diǎn)數(shù)量(交點(diǎn)數(shù)大于4記為4)。軌跡“2”的特征向量為:
count0(1,0,0,0,0,0,2,1),count1(0,0,0,1,4,0,0,0)
2.2 DP匹配識(shí)別
手寫(xiě)數(shù)字識(shí)別中,在獲取數(shù)字的特征向量之后還需進(jìn)行DP匹配算法的識(shí)別。準(zhǔn)確提取手寫(xiě)數(shù)字的軌跡特征是提高識(shí)別率的基礎(chǔ)條件,但在算法的最后一步中,利用這些特征向量識(shí)別數(shù)字也尤為重要。本算法的識(shí)別過(guò)程采用DP匹配過(guò)程。DP匹配是與標(biāo)準(zhǔn)模板庫(kù)進(jìn)行匹配。所謂模板是針對(duì)“0”至“9”每一個(gè)數(shù)字建立自己的標(biāo)準(zhǔn)特征向量,然后利用“2-8”模型識(shí)別出數(shù)字向量的標(biāo)準(zhǔn)特征向量。多次采集數(shù)字的標(biāo)準(zhǔn)特征向量從而建立標(biāo)準(zhǔn)特征庫(kù)。
如果采集到的某一空中手寫(xiě)數(shù)字的特征向量為“A”,對(duì)應(yīng)于標(biāo)準(zhǔn)庫(kù)中的標(biāo)準(zhǔn)特征向量為“B”,那么“A”“B”之間的DP距離公式為:
其中,W是一個(gè)權(quán)重參數(shù)值,該算法中我們?cè)O(shè)定該值為0.5。通過(guò)公式不難看出,手寫(xiě)數(shù)字軌跡識(shí)別中需要分別計(jì)算開(kāi)始和結(jié)束特征向量的距離值。我們需要依次計(jì)算手寫(xiě)特征向量與每個(gè)標(biāo)準(zhǔn)向量的DP距離。當(dāng)dDP(A,B)最小時(shí),表明兩個(gè)軌跡是相似的。該相似度計(jì)算方法能夠有效地解決特征丟失的情況,提高識(shí)別準(zhǔn)確率。空中數(shù)字手寫(xiě)識(shí)別算法的核心是使用“2-8”模型分析指尖運(yùn)動(dòng)軌跡,提取特征向量。利用DP匹配思想計(jì)算與標(biāo)準(zhǔn)庫(kù)標(biāo)準(zhǔn)特征向量的相似性,最終實(shí)現(xiàn)數(shù)字識(shí)別。算法中需要使用Kinect識(shí)別指尖位置和手寫(xiě)軌跡并進(jìn)行動(dòng)態(tài)跟蹤以獲得連續(xù)視頻幀序列的軌跡。
3 實(shí)驗(yàn)與分析
測(cè)試本算法的識(shí)別精度時(shí),考慮到每個(gè)人的書(shū)寫(xiě)差異,即同一個(gè)人在書(shū)寫(xiě)相同字符時(shí)也會(huì)出現(xiàn)差異。因此我們?cè)趯?shí)驗(yàn)室對(duì)20名研究生進(jìn)行抽樣,選擇10個(gè)學(xué)生,每個(gè)人從“0”到“9”,每個(gè)數(shù)字寫(xiě)10次,共計(jì)1000次。將采集到的特征向量構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)。需要識(shí)別數(shù)據(jù)的采集方法與標(biāo)準(zhǔn)庫(kù)數(shù)據(jù)采集方法相同。最后,我們對(duì)手寫(xiě)數(shù)字識(shí)別的準(zhǔn)確率進(jìn)行了統(tǒng)計(jì)如圖3所示。
圖3為每個(gè)數(shù)字識(shí)別率的柱狀圖。從圖中可以算出,手寫(xiě)數(shù)字識(shí)別的總體精度高達(dá)97.4%,但某些數(shù)字的識(shí)別度不高,如數(shù)字“4”和“9”。經(jīng)分析發(fā)現(xiàn)“4”和“9”的手寫(xiě)軌跡特征向量存在相似之處,所以其識(shí)別率有所降低。而其他數(shù)字的識(shí)別率甚至高達(dá)100%。
4 總結(jié)
隨著技術(shù)的發(fā)展,空中手寫(xiě)識(shí)別的應(yīng)用場(chǎng)景越發(fā)的廣闊,在這一領(lǐng)域的研究仍有很多的可能性。本文提出一種空中手寫(xiě)數(shù)字識(shí)別算法,實(shí)驗(yàn)結(jié)果表明該算法在數(shù)字識(shí)別中取得了較好的效果。然而除了數(shù)字還有更為復(fù)雜的動(dòng)作和場(chǎng)景需要進(jìn)行探索研究。
參考文獻(xiàn)
[1]金連文,鐘卓耀,楊釗,楊維信,謝澤澄,孫俊.深度學(xué)習(xí)在手寫(xiě)漢字識(shí)別中的應(yīng)用綜述[J].自動(dòng)化學(xué)報(bào),2016,42(08):1125-1141.
[2]王慧玲,宋威.基于雅克比稀疏自動(dòng)編碼機(jī)的手寫(xiě)數(shù)字識(shí)別算法[J/OL].計(jì)算機(jī)應(yīng)用研究,2019(01):1-2.
[3]Janez Zaletelj,Andrej Kosir.Predicting studentsattentionin the classroom from Kinectfacial and body features[J].EURASIP Journal on Image and VideoProcessing,2017,2017(01).