楊 洋
今天,重復(fù)數(shù)據(jù)刪除(Data Deduplication)已經(jīng)成了存儲(chǔ)業(yè)界最流行的一項(xiàng)技術(shù)。幾乎所有主流存儲(chǔ)廠商都已經(jīng)推出了重復(fù)數(shù)據(jù)刪除產(chǎn)品。與此同時(shí),高速硬件數(shù)據(jù)壓縮(Hardware Data Compression)技術(shù)也受到了用戶的青睞,它不僅成了高端虛擬磁帶庫的必備功能,而且在歸檔、備份、持續(xù)數(shù)據(jù)保護(hù)等次級(jí)存儲(chǔ)(Secondary Storage)應(yīng)用中獲得了廣泛認(rèn)可。
重復(fù)數(shù)據(jù)刪除成主流
重復(fù)數(shù)據(jù)刪除與數(shù)據(jù)壓縮技術(shù)在系統(tǒng)功能上相似,都能顯著減少存儲(chǔ)的容量,提高系統(tǒng)的運(yùn)行效率。因此,重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)壓縮這兩種技術(shù)又被統(tǒng)稱為數(shù)據(jù)縮減(Data Reduction)或容量優(yōu)化(Capacity Optimization)技術(shù)。通常情況下,利用數(shù)據(jù)壓縮技術(shù)可以實(shí)現(xiàn)2∶1~3∶1的數(shù)據(jù)壓縮比,而利用重復(fù)數(shù)據(jù)刪除技術(shù)在備份應(yīng)用中可以實(shí)現(xiàn)10∶1~20∶1的數(shù)據(jù)壓縮比。綜合應(yīng)用數(shù)據(jù)壓縮與重復(fù)數(shù)據(jù)刪除兩種技術(shù)后,數(shù)據(jù)量一般可減少到原來的3%左右。IDC的報(bào)告顯示,2007年全球新增的數(shù)據(jù)量(281EB)已經(jīng)超過現(xiàn)有可用存儲(chǔ)介質(zhì)總?cè)萘?264 EB)的6%,而2011年的全球數(shù)據(jù)總量將達(dá)到2006年的10倍。由于存儲(chǔ)系統(tǒng)中的數(shù)據(jù)量急速增長,容量優(yōu)化技術(shù)得到了更廣泛的應(yīng)用。
容量優(yōu)化技術(shù)在次級(jí)存儲(chǔ)中的應(yīng)用逐漸成熟,也促進(jìn)人們考慮將此技術(shù)推廣到主存儲(chǔ)(Primary Storage)中,以應(yīng)對(duì)主存儲(chǔ)所面臨的諸多問題,比如大容量的存儲(chǔ)需求以及過多的空間和能源消耗等。主存儲(chǔ)優(yōu)化(Primary Storage Optimization)應(yīng)運(yùn)而生,它以成熟的數(shù)據(jù)縮減技術(shù)為基礎(chǔ)。
主存儲(chǔ)優(yōu)化曾經(jīng)淡出
今天,500GB硬盤的價(jià)格不超過400元,利用數(shù)據(jù)壓縮技術(shù)使PC硬盤容量“加倍”的技術(shù)對(duì)某些用戶來說可能吸引力不大。但在上世紀(jì)90年代初,主存儲(chǔ)容量異常寶貴。1993年,250MB的硬盤大約需要500美元。因此,Stac獨(dú)有的壓縮技術(shù)在主存儲(chǔ)上獲得了廣泛應(yīng)用,而Stacker軟件的推出也使得Stac公司成為主存儲(chǔ)優(yōu)化技術(shù)的先驅(qū)。
在早期的主存儲(chǔ)優(yōu)化應(yīng)用中,使用的容量優(yōu)化技術(shù)主要是數(shù)據(jù)壓縮,關(guān)鍵算法采用的是壓縮效率和速度都非常好的LZS算法。數(shù)據(jù)壓縮主要是以軟件方式集成到硬件系統(tǒng)中,利用主CPU完成所有相關(guān)的處理工作。隨著計(jì)算機(jī)應(yīng)用的普及,各種應(yīng)用程序?qū)π阅艿囊笤絹碓礁?系統(tǒng)處理能力逐漸成為瓶頸。基于軟件的數(shù)據(jù)壓縮技術(shù)需要消耗大量的CPU資源,因此逐漸邊緣化。與此同時(shí),硬盤技術(shù)取得了長足的進(jìn)步。在硬盤容量不斷增長的同時(shí),其價(jià)格也迅速下降。因此,硬盤/主存儲(chǔ)優(yōu)化應(yīng)用逐漸淡出人們的視線。
就在容量優(yōu)化技術(shù)在次級(jí)存儲(chǔ)優(yōu)化(Secondary Storage Optimization)應(yīng)用中大放異彩的時(shí)候,人們也意識(shí)到,容量優(yōu)化同樣可以給主存儲(chǔ)帶來很多好處。
隨著應(yīng)用不斷豐富,企業(yè)用戶對(duì)主存儲(chǔ)的容量需求越來越大。另一方面,由于操作復(fù)雜以及應(yīng)用對(duì)時(shí)延有較高要求,主存儲(chǔ)內(nèi)有大量相對(duì)比較陳舊的數(shù)據(jù)并沒有遷移到次級(jí)存儲(chǔ)中。調(diào)查顯示,這些陳舊數(shù)據(jù)占主存儲(chǔ)容量的80%~90%。目前,數(shù)據(jù)中心主存儲(chǔ)容量的利用率一直維持在很高的水平,面對(duì)不斷增長的數(shù)據(jù)存儲(chǔ)壓力,與購買昂貴的新存儲(chǔ)設(shè)備相比,通過主存儲(chǔ)優(yōu)化技術(shù)充分挖掘現(xiàn)有存儲(chǔ)資源的潛力顯得尤為重要。
此外,存儲(chǔ)介質(zhì)之外的支出也成為用戶關(guān)注的重點(diǎn)。對(duì)很多數(shù)據(jù)中心而言,減少空間占用、電力消耗以及散熱可能比存儲(chǔ)容量的縮減更難實(shí)現(xiàn)。其實(shí),主存儲(chǔ)優(yōu)化也是實(shí)現(xiàn)綠色存儲(chǔ)的一個(gè)好方法。在前面的分析中,我們并沒有談及實(shí)際的存儲(chǔ)容量。在實(shí)際的存儲(chǔ)系統(tǒng)中,將50TB縮減為10TB比將5TB縮減為1TB更有意義。隨著業(yè)務(wù)的發(fā)展,企業(yè)數(shù)據(jù)中心需要存儲(chǔ)和管理的數(shù)據(jù)量將迅速從TB級(jí)增長到PB級(jí),通過購買新設(shè)備來增加存儲(chǔ)空間,除了會(huì)增加企業(yè)的開支以外,還會(huì)給備份、歸檔等日常應(yīng)用帶來極大挑戰(zhàn)。如果能有效減少主存儲(chǔ)的數(shù)據(jù)量,系統(tǒng)I/O單元的利用率將得到明顯改善,從而提高系統(tǒng)性能,即使需要遠(yuǎn)程數(shù)據(jù)傳輸時(shí),也能節(jié)約不少網(wǎng)絡(luò)帶寬。
解決性能問題
盡管主存儲(chǔ)優(yōu)化有非常廣闊的發(fā)展前景,但真正投入實(shí)際應(yīng)用,還需要解決一系列的問題。與已經(jīng)獲得廣泛應(yīng)用的次級(jí)存儲(chǔ)優(yōu)化相比,主存儲(chǔ)優(yōu)化對(duì)系統(tǒng)的性能、可用性、可靠性等提出了更高的要求。
與備份、歸檔等次級(jí)存儲(chǔ)應(yīng)用不同,主存儲(chǔ)對(duì)性能的要求比對(duì)容量的要求更高。因此,主存儲(chǔ)優(yōu)化的應(yīng)用不能以降低系統(tǒng)性能為代價(jià)。目前,主存儲(chǔ)的性能需求一般都在100 MB/s以上,而基于軟件的數(shù)據(jù)縮減技術(shù)僅能達(dá)到數(shù)十MB/s。因此,主存儲(chǔ)優(yōu)化的實(shí)現(xiàn)需要依靠相關(guān)的硬件加速設(shè)備。從目前情況看,硬件數(shù)據(jù)壓縮產(chǎn)品已經(jīng)比較成熟,性能最高已達(dá)到800MB/s,可以滿足大多數(shù)主存儲(chǔ)系統(tǒng)的需求。相比較而言,重復(fù)數(shù)據(jù)刪除的硬件加速技術(shù)則相對(duì)薄弱。
次級(jí)存儲(chǔ)優(yōu)化針對(duì)的都是近線(Near-line)或離線(Off-line)應(yīng)用,對(duì)系統(tǒng)可用性的要求比主存儲(chǔ)低得多,即使是對(duì)可用性要求較高的災(zāi)備(Disaster Recovery)系統(tǒng)對(duì)可用性的要求也低于主存儲(chǔ)。主存儲(chǔ)的數(shù)據(jù)需要隨時(shí)在線,而且要立即響應(yīng)數(shù)據(jù)訪問,以滿足應(yīng)用的需求。目前,硬件壓縮技術(shù)已經(jīng)廣泛用于網(wǎng)絡(luò)設(shè)備(如路由器、交換機(jī)等)。長期的實(shí)踐經(jīng)驗(yàn)證明,成熟的硬件壓縮技術(shù)在可用性方面完全可以滿足主存儲(chǔ)優(yōu)化的需求。最近幾年,基于軟件的重復(fù)數(shù)據(jù)刪除技術(shù)在次級(jí)存儲(chǔ)中的應(yīng)用逐漸成熟,但要應(yīng)用于主存儲(chǔ)優(yōu)化,相關(guān)硬件加速設(shè)備還有待進(jìn)一步檢驗(yàn)。
主存儲(chǔ)優(yōu)化中涉及的數(shù)據(jù)縮減技術(shù)和有關(guān)硬件加速產(chǎn)品已經(jīng)有大量的實(shí)際應(yīng)用,技術(shù)和產(chǎn)品本身沒有問題,但是高可靠性和高可用性的實(shí)現(xiàn)還要依賴良好的系統(tǒng)設(shè)計(jì)。主存儲(chǔ)優(yōu)化產(chǎn)品要想真正走向市場(chǎng)并被用戶廣泛接受,還需要存儲(chǔ)廠商加大投入。
此外,與面向備份、歸檔等應(yīng)用的次級(jí)存儲(chǔ)相比,主存儲(chǔ)的數(shù)據(jù)重復(fù)幾率要小得多,而且許多數(shù)據(jù)都已經(jīng)在應(yīng)用層面實(shí)現(xiàn)了壓縮。因此,主存儲(chǔ)優(yōu)化的效率很難達(dá)到一般次級(jí)存儲(chǔ)優(yōu)化應(yīng)用所宣稱的20∶1~30∶1的壓縮率。一般情況下,主存儲(chǔ)設(shè)備的數(shù)據(jù)壓縮率為3∶1~5∶1。
目前,已有包括NetApp在內(nèi)的許多廠商發(fā)布了主存儲(chǔ)優(yōu)化產(chǎn)品,EMC、Riverbed等廠商也在密切關(guān)注主存儲(chǔ)優(yōu)化技術(shù)。業(yè)內(nèi)專家指出,主存儲(chǔ)優(yōu)化技術(shù)將在2009年實(shí)現(xiàn)快速發(fā)展。在關(guān)注主存儲(chǔ)優(yōu)化的廠商中,Hifn公司將目光集中在硬件加速單元而不是整個(gè)設(shè)備上,其Express DR系列數(shù)據(jù)縮減加速卡在次級(jí)存儲(chǔ)優(yōu)化中已被EMC、HP、IBM等主要存儲(chǔ)廠商采用。
從原始主存儲(chǔ)優(yōu)化技術(shù)的盛行到消失,再到今天存儲(chǔ)系統(tǒng)中再次引入主存儲(chǔ)優(yōu)化技術(shù),主存儲(chǔ)優(yōu)化將開始新一個(gè)輪回。