駱金維,曾德生,郭雅,黃富平
(廣東創(chuàng)新科技職業(yè)學(xué)院信息工程學(xué)院,廣東東莞523960)
數(shù)據(jù)壓縮技術(shù)可以提高數(shù)據(jù)運(yùn)行性能,隨著數(shù)據(jù)壓縮技術(shù)與其他信息技術(shù)不斷發(fā)展,可對(duì)時(shí)序數(shù)據(jù)進(jìn)行無(wú)損壓縮,并已有并行壓縮技術(shù),實(shí)現(xiàn)時(shí)序數(shù)據(jù)的高效壓縮[1]。時(shí)序數(shù)據(jù)壓縮可有效將原有時(shí)序數(shù)據(jù)轉(zhuǎn)換為多種表現(xiàn)形式,用盡可能少的數(shù)據(jù)對(duì)時(shí)序數(shù)據(jù)信號(hào)進(jìn)行表示[2]。相關(guān)專家學(xué)者對(duì)時(shí)序數(shù)據(jù)壓縮技術(shù)展開(kāi)深入研究,并取得一定有效成果。已有通過(guò)諧波濾波器對(duì)時(shí)序數(shù)據(jù)進(jìn)行壓縮的方法。先將原始時(shí)序數(shù)據(jù)信號(hào)內(nèi)穩(wěn)態(tài)分量和暫態(tài)分量分離,利用傅里葉變換法對(duì)諧波分量參數(shù)進(jìn)行估計(jì),通過(guò)參數(shù)量化實(shí)現(xiàn)壓縮。該方法壓縮速度快,但穩(wěn)定性較差[3-5]。傳統(tǒng)時(shí)序數(shù)據(jù)并行壓縮技術(shù)在對(duì)大規(guī)模時(shí)序數(shù)據(jù)進(jìn)行壓縮的過(guò)程中,存在大量原始數(shù)據(jù)和經(jīng)過(guò)應(yīng)用程序處理后產(chǎn)生的數(shù)據(jù),這些數(shù)據(jù)經(jīng)過(guò)積累占用大量存儲(chǔ)空間,導(dǎo)致壓縮速度慢[6]。為解決以上問(wèn)題,提出混合熵編碼時(shí)序數(shù)據(jù)并行壓縮速率改進(jìn)技術(shù)研究。實(shí)驗(yàn)證明,該技術(shù)將時(shí)序數(shù)據(jù)小波分解,有效減小數(shù)據(jù)占用的存儲(chǔ)空間,具有較高的壓縮速率。
上個(gè)世紀(jì)70年代,由于計(jì)算機(jī)中的各項(xiàng)硬件設(shè)備限制,眾人在設(shè)計(jì)及實(shí)現(xiàn)數(shù)據(jù)庫(kù)時(shí)就考慮了怎樣通過(guò)有限硬盤空間對(duì)時(shí)序數(shù)據(jù)進(jìn)行高效存儲(chǔ),這是數(shù)據(jù)壓縮的初始階段。在上個(gè)世紀(jì)的80年代至90年代中期,是數(shù)據(jù)壓縮的第二個(gè)發(fā)展階段,該階段中隨著科學(xué)和統(tǒng)計(jì)數(shù)據(jù)的興起,要用數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)管理的數(shù)據(jù)逐漸增多[7-8],研究旨在將海量動(dòng)態(tài)時(shí)序數(shù)據(jù)進(jìn)行并行壓縮,通過(guò)減小數(shù)據(jù)占用的存儲(chǔ)空間,有效提高數(shù)據(jù)的壓縮效率。
針對(duì)傳統(tǒng)時(shí)序數(shù)據(jù)并行壓縮技術(shù)壓縮速率慢的問(wèn)題,在進(jìn)行時(shí)序數(shù)據(jù)并行壓縮之前,先對(duì)時(shí)序數(shù)據(jù)進(jìn)行預(yù)處理,即對(duì)大量累積的時(shí)序數(shù)據(jù)占用存儲(chǔ)空間的問(wèn)題進(jìn)行解決。根據(jù)雙正交濾波器組完成時(shí)序數(shù)據(jù)的小波分解,將時(shí)序數(shù)據(jù)的小波系數(shù)進(jìn)行閾值量化處理,減小大量原始數(shù)據(jù)和經(jīng)過(guò)應(yīng)用程序處理后產(chǎn)生的數(shù)據(jù)占用大量存儲(chǔ)空間,從而提高后續(xù)時(shí)序數(shù)據(jù)并行壓縮的速率。
小波分解的過(guò)程中,數(shù)據(jù)采樣造成的時(shí)序數(shù)據(jù)損失,并不能依靠對(duì)采樣的控制而彌補(bǔ)。5-3雙正交濾波器具有系數(shù)簡(jiǎn)單的特點(diǎn),其整數(shù)變換能夠完成時(shí)序數(shù)據(jù)的無(wú)損壓縮,應(yīng)用性比較強(qiáng)[9-10]。
根據(jù)小波變換對(duì)時(shí)序數(shù)據(jù)進(jìn)行壓縮時(shí),對(duì)待壓縮的時(shí)序數(shù)據(jù)進(jìn)行小波分解,并設(shè)置閾值,只保留模值比設(shè)置的閾值大的變換系數(shù),進(jìn)而達(dá)到時(shí)序數(shù)據(jù)快速壓縮的目的[11-12]。其中閾值的選取是時(shí)序數(shù)據(jù)并行壓縮的核心,這里采用提升法對(duì)閾值進(jìn)行選擇,該法在進(jìn)行閾值選擇時(shí),考慮了噪聲小波變換系數(shù)于小波系數(shù)空間傳播的特性,可以更好地抑制噪聲對(duì)時(shí)序數(shù)據(jù)并行壓縮產(chǎn)生的影響,提高時(shí)序數(shù)據(jù)并行壓縮速率。為了得到比較高的壓縮比,選取硬閾值法當(dāng)作閾值處理的方式。
這里從能量保持角度確定小波分解的層數(shù),且定義了下列能量保持率TC衡量能量的保持程度:
其中,La和Ld分別代表尺度系數(shù)于小波系數(shù)長(zhǎng)度。綜上能夠得知,隨著小波分解的層數(shù)不斷增加,TC越來(lái)越小,由此,假設(shè)時(shí)序數(shù)據(jù)在壓縮時(shí)限制TC取值,則小波分解最大的層數(shù)就確定了,也就是假設(shè)第l層小波分解之后的TC計(jì)算結(jié)果大于設(shè)定閾值,第l+1層小波分解之后的TC計(jì)算結(jié)果小于設(shè)定閾值,則l就是最大的分解層數(shù),選取上述中最大的分解層數(shù)l當(dāng)作時(shí)序數(shù)據(jù)壓縮中小波分解的層數(shù)。計(jì)算過(guò)程中,出于對(duì)信號(hào)幅值對(duì)TC影響的考慮,在小波分解之前對(duì)時(shí)序數(shù)據(jù)原始信號(hào)s()m做出如下處理:
其中,N代表時(shí)序數(shù)據(jù)原始的信號(hào)長(zhǎng)度。綜上根據(jù)小波變換對(duì)海量時(shí)序數(shù)據(jù)進(jìn)行分解后的閾值選取,大幅度縮減時(shí)序數(shù)據(jù)占用存儲(chǔ)空間,提高壓縮的速度。
根據(jù)以上步驟,選用雙正交濾波器對(duì)時(shí)序數(shù)據(jù)進(jìn)行小波分解,并對(duì)分解后時(shí)序數(shù)據(jù)的小波系數(shù)進(jìn)行與之量化處理,有效抑制噪聲干擾的同時(shí)對(duì)閾值進(jìn)行選擇,處理時(shí)序數(shù)據(jù)的原始信號(hào),完成時(shí)序數(shù)據(jù)的預(yù)處理。該過(guò)程大幅度減小了占用的存儲(chǔ)空間,為時(shí)序數(shù)據(jù)并行高效壓縮的實(shí)現(xiàn)奠定良好的基礎(chǔ)。
經(jīng)過(guò)小波分解之后的時(shí)序數(shù)據(jù)對(duì)存儲(chǔ)空間占用較小,這就大幅度的提升了壓縮效率。采用混合熵編碼對(duì)時(shí)序數(shù)據(jù)[13-14]進(jìn)行并行壓縮,完成時(shí)序數(shù)據(jù)并行壓縮速率的改進(jìn)。具體壓縮過(guò)程描述如下;
在小波分解系數(shù)中,包含著尺度系數(shù)以及小波系數(shù),尺度系數(shù)體現(xiàn)了時(shí)序數(shù)據(jù)信號(hào)主要特征,在此給予保留,小波系數(shù)歷經(jīng)閾值量化之后,形成系數(shù)矩陣為一個(gè)稀疏矩陣,這個(gè)時(shí)候根據(jù)零行程實(shí)現(xiàn)其編碼比較有效。行程編碼之后的幅值V在實(shí)際上保留小波系數(shù),這里將其與尺度系數(shù)共同進(jìn)行字典編碼[15-16],而對(duì)于行程L則單獨(dú)完成字典編碼。
綜上所述,依據(jù)數(shù)據(jù)壓縮背景和技術(shù)起源,充分分析時(shí)序數(shù)據(jù)特征,利用雙正交濾波器[17]對(duì)占用較大存儲(chǔ)空間的累積時(shí)序數(shù)據(jù)進(jìn)行小波分解,量化處理時(shí)序數(shù)據(jù)的小波系數(shù),選取最優(yōu)閾值,完成時(shí)序數(shù)據(jù)的預(yù)處理。引入混合熵編碼對(duì)時(shí)序數(shù)據(jù)進(jìn)行并行壓縮,完成基于混合熵編碼時(shí)序數(shù)據(jù)并行壓縮速率改進(jìn)技術(shù)的研究。
為了驗(yàn)證所研究的基于混合熵編碼時(shí)序數(shù)據(jù)并行壓縮速率改進(jìn)技術(shù)的有效性和合理性,進(jìn)行了仿真實(shí)驗(yàn)。實(shí)驗(yàn)主要對(duì)改進(jìn)技術(shù)的壓縮速率進(jìn)行測(cè)試。實(shí)驗(yàn)平臺(tái)搭建在MATLAB上,實(shí)驗(yàn)數(shù)據(jù)取自于巨杉數(shù)據(jù)庫(kù),每個(gè)測(cè)點(diǎn)都以15 s為間隔進(jìn)行數(shù)據(jù)采樣,等待壓縮的數(shù)據(jù)每幀長(zhǎng)度是4135B,且能量的保持率為92%。
實(shí)驗(yàn)分別對(duì)一下幾個(gè)指標(biāo)進(jìn)行測(cè)試,來(lái)驗(yàn)證基于混合熵編碼時(shí)序數(shù)據(jù)并行壓縮技術(shù)的壓縮速率,分別為:
分別采用傳統(tǒng)技術(shù)和改進(jìn)技術(shù)對(duì)時(shí)序數(shù)據(jù)進(jìn)行并行壓縮,測(cè)試兩種不同技術(shù)的信噪比(dB);
分別采用傳統(tǒng)技術(shù)和改進(jìn)技術(shù)對(duì)時(shí)序數(shù)據(jù)進(jìn)行并行壓縮,測(cè)試兩種不同技術(shù)的壓縮比(%);
分別采用傳統(tǒng)技術(shù)和改進(jìn)技術(shù)對(duì)時(shí)序數(shù)據(jù)進(jìn)行并行壓縮,測(cè)試兩種不同技術(shù)的壓縮時(shí)間(s)。
實(shí)驗(yàn)評(píng)價(jià)指標(biāo):
為對(duì)最終獲得的壓縮效果進(jìn)行評(píng)估,其中相應(yīng)衡量指標(biāo)為:
B.信噪比:
C.壓縮比:
其中,Bo與Bc分別代表原始時(shí)序數(shù)據(jù),和壓縮之后的數(shù)據(jù)占據(jù)的字節(jié)數(shù)量。時(shí)序數(shù)據(jù)處理過(guò)程中,常出現(xiàn)噪聲干擾,這會(huì)對(duì)時(shí)序數(shù)據(jù)的壓縮速率有較大的影響,即信噪比越小,壓縮抗干擾性越好,則壓縮速率越高。因此分別采用傳統(tǒng)技術(shù)和改進(jìn)技術(shù)對(duì)時(shí)序數(shù)據(jù)進(jìn)行并行壓縮,測(cè)得兩種不同技術(shù)的信噪比(dB)對(duì)比結(jié)果如圖1所示。
觀察圖1(a)、圖 1(b)可知,圖 1(a)為傳統(tǒng)壓縮技術(shù)的信噪比,其信噪比數(shù)值較大,且信噪比隨壓縮數(shù)據(jù)量的增加變化幅度較大,當(dāng)壓縮數(shù)據(jù)量達(dá)到500萬(wàn)個(gè)時(shí),出現(xiàn)最大信噪比為110 dB,平均信噪比約為90 dB;圖1(b)為改進(jìn)壓縮技術(shù)的信噪比,其信噪比數(shù)值較小,且信噪比隨壓縮數(shù)據(jù)量的增加保持平穩(wěn)變化,當(dāng)壓縮數(shù)據(jù)量達(dá)到600萬(wàn)個(gè)時(shí),出現(xiàn)最大信噪比為75 dB,平均信噪比約為68 dB。對(duì)比改進(jìn)壓縮技術(shù)和傳統(tǒng)壓縮技術(shù)的信噪比結(jié)果可得,改進(jìn)系統(tǒng)信噪比的強(qiáng)度相較于傳統(tǒng)壓縮系統(tǒng)的信噪比強(qiáng)度弱很多,在信噪比數(shù)值上,改進(jìn)壓縮技術(shù)的信噪比遠(yuǎn)遠(yuǎn)小于傳統(tǒng)壓縮技術(shù)的信噪比,充分說(shuō)明改進(jìn)壓縮技術(shù)的噪聲抑制效果更好,壓縮速率更高,驗(yàn)證了改進(jìn)壓縮技術(shù)的有效性。
圖1 兩種不同數(shù)據(jù)壓縮技術(shù)信噪比對(duì)比結(jié)果
為了進(jìn)一步對(duì)改進(jìn)壓縮技術(shù)的合理性和有效性進(jìn)行驗(yàn)證,需要對(duì)改進(jìn)壓縮技術(shù)的數(shù)據(jù)壓縮時(shí)間和解壓時(shí)間進(jìn)行測(cè)試,通過(guò)與傳統(tǒng)壓縮技術(shù)的壓縮時(shí)間和解壓時(shí)間進(jìn)行對(duì)比[18],完成實(shí)驗(yàn)測(cè)試。在實(shí)驗(yàn)中對(duì)數(shù)據(jù)壓縮與解壓的部分進(jìn)行150次迭代,可得到壓縮與解壓連續(xù)進(jìn)行150次所需要的時(shí)間,然后用該時(shí)間除150,獲得時(shí)序數(shù)據(jù)壓縮以及解壓的時(shí)間。測(cè)得兩種不同技術(shù)的壓縮時(shí)間(ms)對(duì)比結(jié)果如表1和表2所示。
表1 傳統(tǒng)壓縮技術(shù)壓縮及解壓時(shí)間
表2 改進(jìn)壓縮技術(shù)壓縮及解壓時(shí)間
分析表1和表2可得,在原始數(shù)據(jù)大小和壓縮數(shù)據(jù)大小均相同的情況下,傳統(tǒng)壓縮技術(shù)的質(zhì)量碼壓縮時(shí)間為0.57 ms,隨機(jī)百分量壓縮時(shí)間為7.6 ms,開(kāi)關(guān)量壓縮時(shí)間為0.38 ms,總壓縮時(shí)間為6.7 ms;改進(jìn)壓縮技術(shù)的質(zhì)量碼壓縮時(shí)間為0.17 ms,隨機(jī)百分量壓縮時(shí)間為4.3 ms,開(kāi)關(guān)量壓縮時(shí)間為0.1ms,總壓縮時(shí)間為3.7 ms。實(shí)驗(yàn)結(jié)果充分說(shuō)明,改進(jìn)壓縮技術(shù)的壓縮時(shí)間更短,壓縮速率更高。這是因?yàn)楦倪M(jìn)壓縮系統(tǒng)采用混合熵編碼對(duì)時(shí)序數(shù)據(jù)進(jìn)行壓縮,將有損壓縮技術(shù)和無(wú)損壓縮技術(shù)結(jié)合,使得總體數(shù)據(jù)壓縮時(shí)間和解壓時(shí)間較少。驗(yàn)證了改進(jìn)壓縮技術(shù)的可行性。
綜合以上實(shí)驗(yàn)結(jié)果可得,所研究的混合熵編碼時(shí)序數(shù)據(jù)并行壓縮速率改進(jìn)技術(shù)的信噪比低、壓縮比高、質(zhì)量碼壓縮時(shí)間、隨機(jī)百分比壓縮時(shí)間、開(kāi)關(guān)量壓縮時(shí)間以及總壓縮時(shí)間少,具有較高的壓縮效率,技術(shù)合理有效,且可行性高。
動(dòng)態(tài)海量時(shí)序數(shù)據(jù)庫(kù)在社會(huì)各方面均得到了比較廣泛的應(yīng)用,目前時(shí)序數(shù)據(jù)的壓縮大部分是有損的,且壓縮速率慢。提出混合熵編碼時(shí)序數(shù)據(jù)并行壓縮速率改進(jìn)技術(shù),通過(guò)以下步驟對(duì)時(shí)序數(shù)據(jù)并行壓縮速率進(jìn)行改進(jìn):
選取時(shí)序數(shù)據(jù)的小波系數(shù)閾值,減小時(shí)序數(shù)據(jù)占用存儲(chǔ)空間的大小,提高壓縮速率;
采用混合編碼熵將字典編碼與零行程編碼進(jìn)行有機(jī)結(jié)合,實(shí)現(xiàn)時(shí)序數(shù)據(jù)的并行壓縮。
通過(guò)以上步驟,完成了混合熵編碼時(shí)序數(shù)據(jù)并行壓縮速率改進(jìn)技術(shù)的研究。實(shí)驗(yàn)證明,該技術(shù)有效減小了數(shù)據(jù)占用存儲(chǔ)空間的大小,信噪比低,壓縮比高,壓縮時(shí)間短,具有較高的壓縮效率。但該技術(shù)在時(shí)序數(shù)據(jù)完整性方面仍存在不足,未來(lái)將針對(duì)該方向進(jìn)行深入研究。