陳文青 范 恩 胡 波
(1.紹興職業(yè)技術(shù)學(xué)院 信息工程學(xué)院, 浙江 紹興 312000;2.紹興文理學(xué)院 計(jì)算機(jī)科學(xué)與技術(shù)系, 浙江 紹興 312000;3.寧波氣象局, 浙江 寧波 315012)
隨著互聯(lián)網(wǎng)普及和社會(huì)數(shù)字化轉(zhuǎn)型,數(shù)據(jù)規(guī)模向PB級(jí)(PB指petabyte,PB是數(shù)據(jù)存儲(chǔ)容量的單位,1PB=1024TB,1TB=1024GB,1GB=1024MB)發(fā)展,數(shù)據(jù)種類(lèi)繁多,有各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)處理需要快速,這對(duì)大數(shù)據(jù)的存儲(chǔ)、挖掘和分析帶來(lái)極大的挑戰(zhàn).Hadoop是分布式大數(shù)據(jù)處理平臺(tái),Spark是一個(gè)開(kāi)源并行云計(jì)算平臺(tái),是一個(gè)流行的計(jì)算框架,擁有Hadoop MapReduce具備的優(yōu)點(diǎn)[1].Matlab是一款可開(kāi)發(fā)算法、進(jìn)行數(shù)據(jù)分析及數(shù)據(jù)可視化的優(yōu)秀軟件,可用Matlab進(jìn)行大數(shù)據(jù)分析與挖掘,南開(kāi)大學(xué)博士馬文輝把Hadoop/Spark與Matlab進(jìn)行集成,實(shí)現(xiàn)大數(shù)據(jù)的處理與挖掘.
遙感大數(shù)據(jù)處理是典型的大數(shù)據(jù)應(yīng)用方向之一[2].隨著傳感器技術(shù)的發(fā)展以及信息化的廣泛應(yīng)用,遙感圖像已經(jīng)成為信息產(chǎn)業(yè)的主要數(shù)據(jù)來(lái)源之一[3-6].高分辨率的遙感圖像不僅能夠直觀反映地理資源的分布情況,而且可以為地理信息產(chǎn)品提供諸多信息[7-9].然而,由于遙感圖像數(shù)據(jù)時(shí)空分辨率、光譜分辨率等不斷提高,數(shù)據(jù)類(lèi)型不斷增加以及基于多平臺(tái)的傳感器組網(wǎng)系統(tǒng)的廣泛應(yīng)用,遙感數(shù)據(jù)具有典型的大數(shù)據(jù)特征.這給數(shù)據(jù)傳輸和數(shù)據(jù)存儲(chǔ)都帶來(lái)極大的壓力[10-11].
圖像壓縮技術(shù)為解決上述問(wèn)題提供了一種有效的策略[12-13].遙感圖像經(jīng)過(guò)灰度處理后,可以看作元素為灰度值的二維矩陣.因?yàn)檫b感圖像分辨率高,相鄰像元間的相關(guān)性較強(qiáng),所以與遙感圖像對(duì)應(yīng)的數(shù)據(jù)矩陣一般具有較大的冗余度[14].一般地,遙感圖像的冗余可以通過(guò)矩陣的秩來(lái)衡量:秩較高的圖像矩陣各列元素彼此的相關(guān)程度低,秩較低的圖像矩陣各列元素彼此的相關(guān)程度高.因此,針對(duì)遙感圖像進(jìn)行數(shù)據(jù)壓縮,不僅有利于節(jié)省通信信道的帶寬,還能夠提高數(shù)據(jù)的傳輸速率以及系統(tǒng)的可靠性.
在圖像壓縮技術(shù)中,矩陣分解是重要的理論組成部分.它通過(guò)將原始矩陣拆分成具有不同性質(zhì)的矩陣的乘積,來(lái)描述矩陣隱藏的屬性及彼此間的聯(lián)系,從而實(shí)現(xiàn)各種高效的壓縮算法.其中,奇異值分解(Singular Value Decomposition, SVD)是典型的矩陣分解方法[15].為此,本文采用SVD方法,針對(duì)遙感圖像進(jìn)行數(shù)據(jù)壓縮,并采用實(shí)測(cè)遙感圖像數(shù)據(jù)驗(yàn)證提出算法的性能.
λi≥λi+1,且λn≥0
(1)
A=UΣVH
(2)
那么,酉矩陣U的每一列稱(chēng)為矩陣A的左奇異向量,酉矩陣V的每一列稱(chēng)為矩陣A的右奇異向量.其中,Σ是由矩陣A的r個(gè)奇異值構(gòu)成的廣義對(duì)角矩陣.
經(jīng)過(guò)灰度處理后,遙感圖像可以看作元素為灰度值的二維矩陣.因?yàn)檫b感圖像數(shù)據(jù)分辨率高、數(shù)據(jù)量大,像素間的相關(guān)性較強(qiáng),所以遙感圖像對(duì)應(yīng)的數(shù)據(jù)矩陣一般具有較大的冗余度[14].遙感圖像的冗余度可以通過(guò)矩陣的秩來(lái)衡量.如果圖像矩陣的秩越高,那么矩陣各列元素的相關(guān)程度越低.相反,如果圖像矩陣的秩越低,那么矩陣各列元素的相關(guān)程度越高.考慮到SVD的優(yōu)點(diǎn),這里將SVD用于遙感圖像壓縮.
針對(duì)(2)式,將SVD改寫(xiě)為外積的形式:
A=UΣVH=(u1,u2,…,um)
(3)
經(jīng)過(guò)非零奇異值的外積展開(kāi)后,很容易發(fā)現(xiàn)其他外積項(xiàng)(乘積為零)實(shí)際上是冗余數(shù)據(jù),對(duì)矩陣A沒(méi)有任何貢獻(xiàn).為此,可以采用SVD處理遙感圖像,剔除零奇異值對(duì)應(yīng)的奇異向量,從而實(shí)現(xiàn)遙感圖像的數(shù)據(jù)壓縮.
考慮到噪聲對(duì)遙感圖像的影響以及遙感圖像內(nèi)容的復(fù)雜性,在實(shí)際中圖像矩陣可能是滿(mǎn)秩的.即非零奇異值的個(gè)數(shù)等于矩陣的行數(shù)或列數(shù).此時(shí),簡(jiǎn)單地剔除多余的奇異向量并不能實(shí)現(xiàn)遙感圖像的數(shù)據(jù)壓縮.理論上,圖像中相似度較強(qiáng)的區(qū)域一般是線性無(wú)關(guān)的,但是它們可以被近似看作線性相關(guān)的.盡管這將產(chǎn)生很小的奇異值,但是這種由像素間微小差異所導(dǎo)致的線性無(wú)關(guān)對(duì)于圖像整體表征的影響可以忽略不計(jì).因此,可以剔除SVD外積展開(kāi)式中奇異值λk較小的外積項(xiàng)(0 (4) 奇異值壓縮方法主要步驟如下: (1)獲取原始遙感圖像的矩陣A,并提取R、G、B三個(gè)通道的遙感圖像數(shù)據(jù)AR、AG和AB. 此外,如果選取r′個(gè)奇異值以及這些奇異值對(duì)應(yīng)的左、右奇異向量重構(gòu)原始遙感圖像,可以進(jìn)一步定義圖像的壓縮比率為: (5) 實(shí)驗(yàn)采用的遙感圖像為jpg格式的MODIS遙感圖像數(shù)據(jù).實(shí)驗(yàn)平臺(tái)參數(shù)為:Intel(R)Core(TM)i3-9100 CPU @ 3.6 GHz,內(nèi)存8.00 GB,運(yùn)行環(huán)境Matlab r2009b.在實(shí)驗(yàn)中,首先調(diào)用Matlab自帶函數(shù)讀取圖像數(shù)據(jù),并提取R、G、B三個(gè)通道的圖像數(shù)據(jù)AR、AG和AB,分別用3個(gè)1596*1974階的圖像矩陣,如圖1所示. 圖1 原始圖像和分量圖像 針對(duì)任一通道的分量圖像,分別將分量圖像讀入Matlab中,存儲(chǔ)為數(shù)據(jù)矩陣Ai,并將其轉(zhuǎn)換為double型,以適應(yīng)SVD函數(shù)的要求;然后運(yùn)用函數(shù)[U,Σ,V]=svd(Ai)進(jìn)行奇異值分解,可以分別得到1596*1974的對(duì)角奇異矩陣Σ,1596*1596的左奇異矩陣為U,1974*1974的右奇異矩陣為V. 提取遙感圖像矩陣的奇異值作為行向量,可以分別得到對(duì)應(yīng)三個(gè)通道分量圖像的奇異值曲線,如圖2-4所示.利用分解后的分量圖像矩陣可以重構(gòu)圖像,即r′=10,40,80,100,200,400,800,1200,1596,如圖5-7所示.此外,利用三通道的分量圖像可以進(jìn)一步合成RGB圖像,如圖8所示. 圖2 R通道圖像奇異值曲線 圖3 G通道圖像奇異值曲線 圖4 B通道圖像奇異值曲線 圖5 R通道圖像重構(gòu) 圖6 G通道圖像重構(gòu) 圖7 B通道圖像重構(gòu) 圖8 重構(gòu)圖像 從圖2-4可以看出,奇異值衰減很快.從圖5-7可以發(fā)現(xiàn)數(shù)值越大的奇異值對(duì)圖像的貢獻(xiàn)率越大,數(shù)值越小的奇異值對(duì)圖像的貢獻(xiàn)率越小.取前40個(gè)奇異值,就可以基本重構(gòu)清晰的原始圖像,且不會(huì)帶來(lái)較大的失真.如果壓縮數(shù)r′越小,那么需要保存的數(shù)據(jù)就越少,重構(gòu)后的圖像與原始圖像相差越大.此時(shí),重構(gòu)后的遙感圖像會(huì)非常模糊.相反,如果壓縮數(shù)越大,那么需要保存的數(shù)據(jù)越多,重構(gòu)后的圖像與原圖像相差越小.此時(shí),重構(gòu)后的圖像會(huì)比較清晰.當(dāng)壓縮數(shù)r′等于原始圖像的維數(shù)時(shí),重構(gòu)圖像與原始遙感圖像基本一致.此外,表1進(jìn)一步給出不同壓縮數(shù)r′下的壓縮比例值. 表1 遙感圖像的壓縮比率值 本文首先分析遙感圖像的特點(diǎn)和存在的問(wèn)題,并提出一種基于奇異值分解(SVD)的遙感圖像壓縮方法.該算法主要通過(guò)SVD分解方法獲取遙感圖像的壓縮矩陣,然后選取局部壓縮矩陣重構(gòu)原始遙感圖像的近似圖像.同時(shí)在分解過(guò)程中,通過(guò)壓縮矩陣的奇異值曲線可以獲取奇異值的衰減規(guī)律以及與奇異值對(duì)遙感圖像的貢獻(xiàn)程度.此外,通過(guò)選取不同的壓縮值可以實(shí)現(xiàn)不同壓縮效果.實(shí)驗(yàn)結(jié)果表明,基于奇異值分解的遙感圖像壓縮方法能夠有效地實(shí)現(xiàn)遙感圖像的壓縮,具有良好的壓縮效果.3 實(shí)驗(yàn)結(jié)果與分析
4 結(jié)束語(yǔ)