王鑫 李曉佳 吳飛 龔鈿選
摘要:本文針對單面規(guī)則的文檔圖像,研究其拼接復(fù)原方法。利用Matlab讀取函數(shù)圖像?,將紙條圖片轉(zhuǎn)換成相對應(yīng)的灰度值矩陣,提取每個灰度值矩陣的邊緣列向量(第一列、最后一列),用Matlab中corrcoef( )函數(shù)計算任意紙條矩陣第一列與最后一列的皮爾遜相關(guān)系數(shù),兩者最大的即相鄰。最后可拼得整篇文章。
關(guān)鍵詞:相關(guān)性分析;灰度值矩陣;皮爾遜相關(guān)系數(shù)
破碎文件的拼接在司法物證復(fù)原、歷史文獻修復(fù)、軍事情報獲取等多領(lǐng)域都有著重要的應(yīng)用。傳統(tǒng)上,拼接復(fù)原工作在工作量較小時可以通過人工,達到較高的準確率,但效率很低。當碎片數(shù)量巨大,人工拼接很難在短時間內(nèi)完成任務(wù)。隨著計算機技術(shù)的發(fā)展,人們開始開發(fā)碎紙片的自動拼接技術(shù),以提高拼接復(fù)原效率。本文將19張圖片[2]先導(dǎo)入matlab中,得到19個灰度值矩陣,再將這19個灰度值矩陣的邊緣提取出來[4],用corrcoef( )函數(shù)對任意兩紙條矩陣的遞延第一列和最后一列進行相關(guān)性系數(shù)的計算,兩者最大的即相鄰。最后得到整篇文章。
一、皮爾遜相關(guān)系數(shù)[3]
皮爾遜相關(guān)系數(shù)又稱簡單相關(guān)系數(shù)或“皮爾遜積矩相關(guān)系數(shù)”,它描述了兩個定距變量間聯(lián)系的緊密程度。樣本的簡單相關(guān)系數(shù)一般用R表示,計算公式為:
其中n 為樣本量, 分別為兩個變量的觀測值和均值。R描述的是兩個變量間線性相關(guān)強弱的程度。R的取值在-1與+1之間,若,表明兩個變量是正相關(guān),即一個變量的值越大,另一個變量的值也會越大;若,表明兩個變量是負相關(guān),即一個變量的值越大另一個變量的值反而會越小。R的絕對值越大表明相關(guān)性越強,要注意的是這里并不存在因果關(guān)系。若R=0,表明兩個變量間不是線性相關(guān),但有可能是其他方式的相關(guān)(比如曲線方式)。
利用樣本相關(guān)系數(shù)推斷總體中兩個變量是否相關(guān)。碎紙片拼接過程中我們利用和相關(guān)性系數(shù)的大小來判斷兩條碎紙片是否相鄰。
現(xiàn)有一張印刷體文字文件通過碎紙機縱切成19片破碎紙片[2],建立碎紙片拼接復(fù)原模型和算法,并針對中、英文各一頁文件的碎片數(shù)據(jù)進行拼接復(fù)原。
復(fù)原算法的實現(xiàn)。以中文為例。首先將所有圖片導(dǎo)入到Matlab中,通過imread()函數(shù)將每張紙條讀取成1980×72灰度值矩陣。以紙條000為例:紙條000一部分如圖二;讀得灰度值矩陣表,
應(yīng)用程序讀取19張紙條灰度值矩陣的第一列及最后一列,進行相關(guān)性分析,得到皮爾遜相關(guān)性系數(shù)
皮爾遜相關(guān)性系數(shù)最大的即相鄰。沒有相關(guān)性系數(shù)結(jié)果的即為首和尾得出第一張紙條為008,最后一張為006。由程序我們找出兩者之間的最大值,可得紙順序。
參考文獻
[1] 陳宇云. 灰度圖像的邊緣檢測研究[D].電子科技大學,2009.
[2] 全國大學生數(shù)學建模組委會. 2013高教社杯全國大學生數(shù)學建模競賽 B題——碎紙片的拼接復(fù)原.
[3] 楊帆,馮翔,阮羚,陳俊武,夏榮,陳昱龍,金志輝. 基于皮爾遜相關(guān)系數(shù)法的水樹枝與超低頻介損的相關(guān)性研究[J]. 高壓電器,2014,06:21-25+31.
[4] 邵春雨,胡方濤,程明輝,李厚彪. 基于邊界像素匹配的碎片拼接問題研究[J]. 實驗科學與技術(shù),2015,02:212-215.