張瑞倩
(武漢大學(xué)遙感信息工程學(xué)院,湖北武漢 430079)
基于文字行特征匹配的規(guī)則平面碎片復(fù)原技術(shù)
張瑞倩
(武漢大學(xué)遙感信息工程學(xué)院,湖北武漢 430079)
規(guī)則平面碎片的復(fù)原在司法物證復(fù)原、歷史文獻(xiàn)修復(fù)以及軍事情報(bào)獲取等領(lǐng)域都有著重要的應(yīng)用。本文基于2013年“高教社杯”全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽B題第二問數(shù)據(jù),采用文字行間距、高度等的行特征信息和碎片邊緣灰度連續(xù)性分析的綜合評(píng)價(jià)的方法,從每張碎片行特征和兩兩碎片間的邊緣匹配度大小兩方面綜合進(jìn)行分析,最終求出了所有碎片拼接的最優(yōu)解,為規(guī)則平面二維碎片復(fù)原技術(shù)提供了新的思路與方法。
行特征信息碎片復(fù)原匹配度二維拼接
規(guī)則平面破碎文件的拼接在司法物證復(fù)原、歷史文獻(xiàn)修復(fù)以及軍事情報(bào)獲取等領(lǐng)域都有著重要的應(yīng)用。近年來,不少文章提出了基于形狀特征的碎片拼接技術(shù),通過圖像分割、邊界檢測(cè)與提取等,將碎片輪廓進(jìn)行提取,并搜索碎片之間輪廓的相似性,自動(dòng)檢測(cè)出相似性高的輪廓進(jìn)行匹配[1]。但是對(duì)于碎紙機(jī)等破碎形成的規(guī)則平面碎片,碎片與碎片之間存在形狀一致性,并不能夠通過輪廓匹配來完成自動(dòng)拼接復(fù)原過程。
針對(duì)這種規(guī)則平面碎片,羅智中[2]等提出基于文字行特征的拼接方法。這種半自動(dòng)拼接法很好地完善了紙片拼接復(fù)原方法,但由于其提出的方法需要首先對(duì)碎紙片進(jìn)行二值化處理,導(dǎo)致文字周圍的灰度信息丟失,可能存在信息減少拼接不準(zhǔn)確的問題。
基于現(xiàn)有碎片拼接技術(shù)存在的問題,本文提出一種基于行特征匹配和碎片邊緣灰度信息的綜合評(píng)價(jià)的規(guī)則平面碎片復(fù)原技術(shù)。其在不進(jìn)行圖像二值化的基礎(chǔ)上基于文字行特征先進(jìn)行碎紙粗匹配,然后再基于碎片邊緣文字灰度信息進(jìn)行精匹配的過程。
碎片圖片是灰度圖像,可以將其每一張圖片轉(zhuǎn)化成一個(gè)灰度矩陣。比較兩兩碎片圖片之間像素灰度的連續(xù)性,連續(xù)性越強(qiáng)匹配概率越高。對(duì)于2013年“高教社杯”全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽B題第二問數(shù)據(jù),碎紙機(jī)既縱切又橫切,每一張碎紙片較小而碎紙片數(shù)量較大,考察漢字行間距和高度的幾何特征信息[2]發(fā)現(xiàn),可以通過比較兩兩碎紙片黑色像素點(diǎn)所在行的差異性,判斷兩兩碎紙片屬于同一行的可能性。
為了得到兩張紙片屬于同一行的可能性大小,本文作如下處理:對(duì)于某一張碎紙片,將其有文字處按行全部填充黑色,如圖1所示。
設(shè) d1( m,n)表示第 m張紙片與第n張紙片的行匹配值。則其可計(jì)算如下
圖1 碎紙片所屬行的判斷
此式中各點(diǎn)的灰度值均為涂黑以后的灰度值大小,計(jì)算出的 d1越小表示兩紙片在同一行的可能性越大。
在計(jì)算過碎紙片間屬于同一行的可能性計(jì)算后,需要對(duì)兩碎紙片鄰接列的連續(xù)性進(jìn)行計(jì)算。在有文字處,即灰度值較小處,其相鄰處的灰度值也較小,因此設(shè) d2( m,n)為這一度量值的大小,表達(dá)如下:
此式中各點(diǎn)的灰度值均為原碎紙片上像素點(diǎn)的灰度值,計(jì)算出的 d2越小表示兩紙片的連續(xù)性越強(qiáng)。
本文以綜合距離來度量?jī)蓮埶榧埰钠ヅ涠?,綜合距離是綜合考慮了兩張碎紙片屬于同一行的可能性及兩張紙片鄰接處的連續(xù)性之后得到的距離。步驟如下:
對(duì) d1和 d2進(jìn)行數(shù)量級(jí)統(tǒng)一處理:
設(shè) d( m, n)為第 m張紙片到第n張紙片的綜合距離,則:
比較兩兩碎紙片之間綜合距離的大小,綜合距離越小的兩張紙片拼接起來的可能性越大。
針對(duì)數(shù)據(jù),本文采用先復(fù)原11個(gè)行碎片,然后復(fù)原整張紙片來完成。為使結(jié)果更加準(zhǔn)確,在一定的人工干預(yù)基礎(chǔ)上,利用Matlab軟件[3]進(jìn)行編程,以綜合距離 d從小到大進(jìn)行搜索,得到正確的復(fù)原順序,最后得到完整復(fù)原圖像,其局部如下:
圖2 碎片復(fù)原結(jié)果圖(局部)
實(shí)驗(yàn)得到的復(fù)原后圖像準(zhǔn)確完整,從內(nèi)容、結(jié)構(gòu)上都保持了很好的連續(xù)性,效果明顯。同時(shí)算法計(jì)算速度快,能夠滿足規(guī)則平面碎片自動(dòng)拼接復(fù)原的要求。
本文提出的基于文字行特征匹配的規(guī)則平面碎片復(fù)原技術(shù),能夠較好地通過文字內(nèi)容的拼接,對(duì)規(guī)則平面碎片進(jìn)行自動(dòng)復(fù)原,具有速度快準(zhǔn)確率高的特點(diǎn),是一種實(shí)用有效的圖像復(fù)原技術(shù)。
[1]賈海燕,朱良家,周宗潭,等.一種碎紙自動(dòng)拼接中的形狀匹配方法[J].計(jì)算機(jī)仿真,2007,23(11):180-183.
[2]羅智中.基于文字特征的文檔碎紙片半自動(dòng)拼接[J].Computer Engineering and Applications,2012,48(5).
[3]MATLAB基礎(chǔ)與應(yīng)用教程.北京:人民郵電出版社.2009.
張瑞倩(1993.6—),女,籍貫:河南省洛陽市,研究方向:攝影測(cè)量與遙感、圖像處理與模式識(shí)別。