馬 琳
摘 要:電子郵件是高校信息溝通的最主要方式,由于垃圾郵件導(dǎo)致的郵件安全問(wèn)題,加上保護(hù)數(shù)據(jù)完整性的要求,電子郵件的歸檔問(wèn)題需要得到有效解決,復(fù)旦大學(xué)采用了一款軟硬件集成的解決方案做了相關(guān)測(cè)試。本文研究了電子郵件歸檔的關(guān)鍵技術(shù),對(duì)存在問(wèn)題和未來(lái)趨勢(shì)做了分析,提出郵件歸檔技術(shù)在校園網(wǎng)中的應(yīng)用研究是未來(lái)的發(fā)展趨勢(shì)。
關(guān)鍵詞:電子郵件 郵件歸檔 郵件存儲(chǔ)
中圖分類(lèi)號(hào):TP309.3文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1673-8454(2009)19-0077-03
郵件安全問(wèn)題最初是由企業(yè)財(cái)務(wù)問(wèn)題引發(fā),發(fā)展至今,可對(duì)海量郵件數(shù)據(jù)提供完整性保護(hù)、有效存儲(chǔ)和實(shí)時(shí)查詢(xún)的郵件歸檔技術(shù)(Mail Archiving)越來(lái)越被業(yè)界關(guān)注。[1]在國(guó)內(nèi)高校中,電子郵件也是最主要的交流方式,愈演愈烈的垃圾郵件導(dǎo)致的郵件安全問(wèn)題,以及保護(hù)數(shù)據(jù)完整性的要求,使得郵件歸檔與查詢(xún)需及時(shí)得到解決。
一、郵件歸檔技術(shù)的定義
郵件歸檔技術(shù)是對(duì)電子郵件數(shù)據(jù)進(jìn)行有效的自動(dòng)歸檔、備份、管理、數(shù)據(jù)保護(hù)和長(zhǎng)期的訪(fǎng)問(wèn)與檢索。[2]這種技術(shù)區(qū)別于單純的郵件存儲(chǔ),不僅對(duì)海量數(shù)據(jù)集中管理和在線(xiàn)存儲(chǔ),還對(duì)不被頻繁使用的數(shù)據(jù)進(jìn)行有效數(shù)據(jù)遷移,使之存于日常備份窗口之外,從而保證高速搜索和數(shù)據(jù)發(fā)現(xiàn),提供用戶(hù)隨時(shí)訪(fǎng)問(wèn),同時(shí)引入了數(shù)據(jù)完整性的保護(hù)機(jī)制進(jìn)行郵件恢復(fù)。郵件歸檔技術(shù)在保證固定數(shù)據(jù)、避免數(shù)據(jù)丟失的前提下,更著眼于數(shù)據(jù)的檢索與遷移功能。
二、國(guó)內(nèi)外進(jìn)展研究
1.郵件歸檔技術(shù)的發(fā)展歷程
磁帶備份是早期郵件歸檔的雛形,目的僅僅是為了災(zāi)難恢復(fù),但數(shù)據(jù)恢復(fù)起來(lái)比較復(fù)雜,檢索成本高。[3]接下來(lái)的文件復(fù)制是基于文件而非應(yīng)用層的,也就是將郵件定期復(fù)制到另一臺(tái)離線(xiàn)存儲(chǔ)設(shè)備上。這種方式的缺點(diǎn)是存在重復(fù)拷貝,在兩次拷貝期間刪除的文件可能丟失,無(wú)法進(jìn)行數(shù)據(jù)完整性保護(hù)。另外經(jīng)濟(jì)成本也頗高,一般都要使用NAS 或SAN 方式存儲(chǔ)。簡(jiǎn)單歸檔技術(shù),它實(shí)現(xiàn)了從數(shù)據(jù)層到應(yīng)用層的跨越。[4]但由于其功能和策略都比較簡(jiǎn)單,不能滿(mǎn)足企業(yè)級(jí)用戶(hù)任意復(fù)雜的策略管理需求。
目前,基于策略驅(qū)動(dòng)的歸檔技術(shù)是大家關(guān)注的熱點(diǎn),它是根據(jù)各種法規(guī)的最大并集設(shè)計(jì)的,除基礎(chǔ)歸檔功能之外,更強(qiáng)調(diào)內(nèi)容策略管理,支持正則表達(dá)式匹配,以及多條件多優(yōu)先級(jí)匹配、超強(qiáng)附件內(nèi)容匹配,可實(shí)現(xiàn)復(fù)雜邏輯條件的歸檔策略,控制不同類(lèi)型郵件的處理動(dòng)作。能夠根據(jù)用戶(hù)策略實(shí)現(xiàn)清除垃圾郵件、重復(fù)郵件內(nèi)容以及郵件目錄化,減少了郵件歸檔的成本和復(fù)雜度。
2.國(guó)內(nèi)外郵件歸檔技術(shù)現(xiàn)狀分析
國(guó)外的郵件歸檔技術(shù)起步較早,2004年10月,在電子交易咨詢(xún)和市場(chǎng)調(diào)查方面都享譽(yù)極高的美國(guó)加州Radicati Group公司,發(fā)布的綜合報(bào)告 “E-mail Archiving Corporate Survey,2004-2005” 稱(chēng),電子郵件歸檔、安全和存儲(chǔ)廠商之間的合并和收購(gòu)之后,電子郵件歸檔將成為更大的企業(yè)信息安全的一部分。[5]近年來(lái),隨著數(shù)據(jù)庫(kù)索引、存儲(chǔ)等技術(shù)的飛速發(fā)展,郵件歸檔技術(shù)有了很大程度的提升。有研究表明,除了防止垃圾和病毒郵件、手機(jī)郵件等問(wèn)題,郵件歸檔已經(jīng)成為企業(yè)級(jí)用戶(hù)最關(guān)注的郵件問(wèn)題之一。[6]
Mirapoint 2006年6月嘗試推出業(yè)界第一個(gè)電子郵件歸檔解決方案。國(guó)際互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center,IDC)預(yù)測(cè)2011年前的年均增長(zhǎng)率將為235%。[7]雖說(shuō)電子郵件歸檔技術(shù)還處于萌芽期,但是很多跡象表明該行業(yè)正迅猛發(fā)展。[8]
隨著主要廠商相繼介入,如EMC、Symantec、CA等,郵件歸檔技術(shù)的可擴(kuò)展性功能也進(jìn)一步增強(qiáng),例如郵件歸檔技術(shù)向E發(fā)現(xiàn)領(lǐng)域的延伸,不再簡(jiǎn)單地關(guān)注電子郵件信息,還能夠跟蹤各種信息源,包括日歷文件、數(shù)據(jù)庫(kù)、工作表、音頻文件、動(dòng)畫(huà)文件、網(wǎng)站鏈接以及計(jì)算機(jī)程序代碼等;其次防病毒功能、垃圾郵件過(guò)濾和電子郵件歸檔技術(shù)集成也是另一方向上的功能擴(kuò)展。在國(guó)內(nèi),郵件歸檔技術(shù)還處于起步階段,未見(jiàn)有相關(guān)報(bào)道。
目前郵件歸檔技術(shù)大致有兩類(lèi),一種是純軟件方案,但是這類(lèi)系統(tǒng)需要外部存儲(chǔ)設(shè)備支持。另一類(lèi)是一些郵件廠商或反垃圾郵件廠商提供的軟硬件合一的產(chǎn)品,設(shè)備本身具備大容量磁盤(pán),甚至單臺(tái)即可達(dá)到TB級(jí)的存儲(chǔ)空間。單機(jī)歸檔郵件數(shù)量可高達(dá)2000萬(wàn)封以上。對(duì)于一般中小企業(yè)來(lái)說(shuō),可滿(mǎn)足1~3年的歸檔需求,不過(guò),如需存儲(chǔ)更長(zhǎng)時(shí)間的數(shù)據(jù),就要擴(kuò)容或外接存儲(chǔ)設(shè)備。而前一種采用了專(zhuān)門(mén)的存儲(chǔ)設(shè)備,容量的擴(kuò)充將更加平滑。[2]
三、郵件歸檔系統(tǒng)的應(yīng)用
復(fù)旦大學(xué)采用了一款軟硬件集成的解決方案,在校園網(wǎng)上進(jìn)行了相關(guān)測(cè)試,使授權(quán)用戶(hù)能快速地找出所需郵件,并將其還原到該郵箱。我們選擇了部分用戶(hù),分別歸檔所有郵件,包括垃圾郵件和正常郵件,以及僅歸檔正常郵件,測(cè)試效果理想,解決了相關(guān)郵件安全問(wèn)題,滿(mǎn)足了實(shí)時(shí)查找需求。
1.郵件歸檔系統(tǒng)的體系結(jié)構(gòu)
郵件歸檔系統(tǒng)是與郵件服務(wù)器或者郵件網(wǎng)關(guān)服務(wù)器物理并聯(lián)在網(wǎng)絡(luò)中,利用服務(wù)器中的日志(Journaling)功能,將郵件進(jìn)行自動(dòng)歸檔。另外還有許多當(dāng)前流行的安全技術(shù)被集成在郵件歸檔中,例如內(nèi)建的病毒檢測(cè)功能和病毒庫(kù)規(guī)則庫(kù)實(shí)時(shí)更新技術(shù),可以幫用戶(hù)進(jìn)行病毒和垃圾攔截后再歸檔。
開(kāi)啟后臺(tái)郵件服務(wù)器的日志(Journaling)功能,定制需要進(jìn)行歸檔的郵件存儲(chǔ)數(shù)據(jù)庫(kù),建立相應(yīng)的Journaling Account或者啟用Push Mode,用以配合將所有發(fā)送和接收的郵件歸檔。在此過(guò)程中推薦開(kāi)啟Envelope Journaling,這樣可以有效地記錄所有郵件通訊過(guò)程中的信息。[9]郵件歸檔系統(tǒng)的體系結(jié)構(gòu)如圖1所示。
2.關(guān)鍵技術(shù)研究
(1)郵件存儲(chǔ)機(jī)制
電子郵件的歸檔,首要考慮的是海量數(shù)據(jù)存儲(chǔ),為了更好解決容量問(wèn)題,需要對(duì)郵件內(nèi)容進(jìn)行壓縮,這有別于普通的ZIP壓縮技術(shù),是根據(jù)內(nèi)容進(jìn)行的。首先,郵件歸檔技術(shù)采用單一實(shí)例存儲(chǔ),把相同文件內(nèi)容只保留一個(gè)副本,當(dāng)一個(gè)附件發(fā)送給多個(gè)用戶(hù)時(shí),將只保留一份文件,大大地節(jié)約了存儲(chǔ)空間。其次,使用壓縮存儲(chǔ)功能,在存儲(chǔ)前對(duì)郵件進(jìn)行壓縮,進(jìn)一步降低了消耗,壓縮存儲(chǔ)功能可以節(jié)約近1/3的存儲(chǔ)空間。
再者,郵件歸檔技術(shù)支持郵件從昂貴的事務(wù)級(jí)存儲(chǔ)向相對(duì)經(jīng)濟(jì)的存儲(chǔ)進(jìn)行數(shù)據(jù)遷移,如轉(zhuǎn)移到低成本的磁帶上,尤其是長(zhǎng)期不用的電子郵件信息,節(jié)省出昂貴的磁盤(pán)空間。管理員同樣能夠使用存儲(chǔ)鏡像達(dá)到數(shù)據(jù)冗余和增加外部存儲(chǔ)空間從而使存儲(chǔ)容量無(wú)限擴(kuò)大。
(2)索引和查詢(xún)的機(jī)制
郵件歸檔中采用即時(shí)索引(Real-time Index)技術(shù),可快速有效地查詢(xún)信息。由于大量郵件存儲(chǔ)使得全文檢索索引不僅費(fèi)時(shí)且會(huì)影響在線(xiàn)查詢(xún)的效能。所以當(dāng)儲(chǔ)存于數(shù)據(jù)庫(kù)中的郵件、數(shù)據(jù)與檔案,有任何數(shù)據(jù)新增、修改、刪除等異動(dòng)時(shí),不需重建即可在線(xiàn)異動(dòng)維護(hù)全文檢索索引,確保信息搜尋不會(huì)有“時(shí)間差”,并且易于數(shù)據(jù)維護(hù)。
多國(guó)語(yǔ)言的查詢(xún)支持包括繁體中文、日文、韓文、泰文等復(fù)雜的東亞語(yǔ)種支持,同時(shí)在檢索到的郵件顯示中消除了亂碼,甚至可以實(shí)現(xiàn)多種語(yǔ)言共同顯示,從而更好地完成在短時(shí)間內(nèi)對(duì)海量郵件的關(guān)鍵字檢索。支持模糊匹配和多附件查詢(xún),可以按信頭關(guān)鍵字、主題、收件人、發(fā)件人等檢索,還支持各種格式的正文,以及上百種格式的附件,例如Office文檔、PDF、ZIP等格式。
(3)數(shù)據(jù)保護(hù)技術(shù)
郵件歸檔中可以用WORM (Write Once Read Many)機(jī)制進(jìn)行固定數(shù)據(jù)。WORM是指一次寫(xiě)多次讀技術(shù),硬件設(shè)備的控制使存儲(chǔ)介質(zhì)只能寫(xiě)入一次數(shù)據(jù),不允許修改,從而保證數(shù)據(jù)的真實(shí)性和法律效力。
郵件歸檔技術(shù)為所保存的數(shù)據(jù)規(guī)定了嚴(yán)格的保存期限,對(duì)于那些已經(jīng)設(shè)定的期限,用戶(hù)只可以延長(zhǎng),但無(wú)法將其縮短。并且,所有處于生命周期中的數(shù)據(jù)都不允許被刪除或修改,用戶(hù)和管理員對(duì)于存儲(chǔ)服務(wù)器中的郵件只有讀權(quán)限,這樣避免了郵件被誤操作或意外損壞;對(duì)于超出生命周期的數(shù)據(jù)可以做到高達(dá)35次的數(shù)據(jù)安全擦除。
郵件歸檔技術(shù)支持整個(gè)過(guò)程的可審計(jì),允許個(gè)人用戶(hù)擁有審計(jì)訪(fǎng)問(wèn)權(quán)限。用戶(hù)只能對(duì)其自己的郵件進(jìn)行訪(fǎng)問(wèn)和搜索,支持基于職能的權(quán)限系統(tǒng),審計(jì)角色可以對(duì)所有用戶(hù)的操作進(jìn)行跟蹤和監(jiān)控,確保系統(tǒng)的使用透明和可控。
3.策略討論
對(duì)于歸檔策略的選擇,與各個(gè)學(xué)校反垃圾郵件網(wǎng)關(guān)策略相關(guān)。對(duì)于無(wú)人值守的反垃圾郵件網(wǎng)關(guān)來(lái)說(shuō),可以將垃圾郵件和疑似郵件隊(duì)列緩存在垃圾郵件服務(wù)器本身,等生存期一過(guò),自動(dòng)清除隊(duì)列,這種策略情況下,就可以?xún)H歸檔投遞到郵件服務(wù)器上的正常郵件,既節(jié)省了郵件服務(wù)器和歸檔服務(wù)器的空間,又為用戶(hù)查詢(xún)被過(guò)濾策略誤判的郵件提供了一定時(shí)間的緩沖期,隊(duì)列的生存期可以自定義,也和郵件的流量和本地硬盤(pán)空間大小相關(guān)。我們?cè)?jīng)把隊(duì)列生存期定義為兩到三個(gè)月,如果用戶(hù)在此期間沒(méi)有關(guān)于正常郵件的疑問(wèn),一般很少會(huì)丟信。網(wǎng)關(guān)的有效攔截率在87%~90%。對(duì)于那些郵件網(wǎng)關(guān)放行的正常郵件,已經(jīng)投遞到郵件服務(wù)器的,歸檔系統(tǒng)將自動(dòng)進(jìn)行數(shù)據(jù)備份、索引以提供需要時(shí)的高效訪(fǎng)問(wèn)。
另一種情況,就是對(duì)于疑似郵件的人工分揀,根據(jù)郵件頭的信息人為地去判斷是否是正常郵件,在這種情況下,就可能產(chǎn)生誤操作,尤其是當(dāng)通信量非常大的時(shí)候。針對(duì)這種情況,歸檔郵件的策略可相應(yīng)地調(diào)整為歸檔所有郵件,包括垃圾郵件,可以完全避免各種原因包括誤操作造成的郵件丟失情況。
對(duì)于郵件內(nèi)容的歸檔策略,如果是正式的應(yīng)用,不妨將那些非活躍數(shù)據(jù),即隨時(shí)間關(guān)系訪(fǎng)問(wèn)量遞減、若干年之前的歷史數(shù)據(jù),通過(guò)數(shù)據(jù)遷移的功能,轉(zhuǎn)移到相對(duì)廉價(jià)的設(shè)備上作為長(zhǎng)期歷史數(shù)據(jù)的備份,這種策略相對(duì)高校來(lái)說(shuō)還是比較合適的。具體的時(shí)間等參數(shù)要根據(jù)各個(gè)學(xué)校的情況不同具體設(shè)定。
四、前景展望
在國(guó)外,郵件的歸檔行為已經(jīng)被大多數(shù)政府、銀行業(yè)、金融證券機(jī)構(gòu)所采納,也是國(guó)外一些法律部門(mén)取證的來(lái)源。只是在國(guó)內(nèi),用戶(hù)意識(shí)尚停留在起步階段,隨著信息化校園的深入,電子郵件信息的地位,在教學(xué)科研和日常生活中將會(huì)有越來(lái)越多的提升,郵件歸檔行為也許會(huì)被大多數(shù)高校用戶(hù)所接受。
雖然郵件歸檔技術(shù)即將成為未來(lái)的潮流和趨勢(shì),但是就目前國(guó)內(nèi)高校的環(huán)境而言,當(dāng)前的產(chǎn)品是否適合高校的環(huán)境,還引來(lái)許多爭(zhēng)議?,F(xiàn)有電子郵件如何做郵件歸檔時(shí)的策略選擇,業(yè)界尚無(wú)統(tǒng)一標(biāo)準(zhǔn),其在校園網(wǎng)中的應(yīng)用可能是未來(lái)信息安全方面的發(fā)展趨勢(shì)。
參考文獻(xiàn):
[1]劉啟誠(chéng).Mirapoint推出業(yè)界第一個(gè)郵件歸檔解決方案[J].通信世界,2006(8).
[2]如何進(jìn)行郵件歸檔.http://www.searchstorage.com.cn/ShowContent_10612.htm
[3]MIRAPOINT專(zhuān)業(yè)郵件歸檔及郵件審計(jì)技術(shù)解決方案.http://www.szfederal.com/UploadSoftPic/
[4]黃昆.郵件歸檔的發(fā)展和變遷[J].中國(guó)計(jì)算機(jī)用戶(hù),2006(31).
[5]E-mail Archiving Corporate Survey,2004-2005.http://www.giichinese.com.cn/chinese/rd24134_e-mail_archiving.html
[6]達(dá)實(shí).Mirapoint:幫助企業(yè)實(shí)現(xiàn)法規(guī)遵從[J].通信世界,2006(8).
[7]存儲(chǔ)新寵:電子郵件歸檔.http://www.5dmail.net/html/2006-5-23/2006523115120.htm
[8]電子郵件歸檔存儲(chǔ)系統(tǒng)的最大失誤.http://it.enorth.com.cn/system/2007/10/09/002115648.shtml
[9]XADM:How to Enable the “Message Journaling”Function for an Exchange Server Mailbox Store.http://support.microsoft.com/kb/261173
(編輯:金冉)