臧國全 張曉彤(鄭州大學信息管理學院 鄭州 450001)
電子郵件長期保存的困擾
臧國全 張曉彤
(鄭州大學信息管理學院 鄭州 450001)
〔摘 要〕與其他類型數(shù)字資源相比,電子郵件有其自身的特殊性,對其實施長期保存面臨諸多困擾。這些困擾包括:郵件獲取的困擾,產(chǎn)生于郵件系統(tǒng)運行機制導致郵件存放位置的多元化;郵件元數(shù)據(jù)的困擾,產(chǎn)生于多個元素自動取值的真實性以及郵件線程的完整性難以保障;郵件正文的保存困擾,產(chǎn)生于格式信息保存的選擇困難;法律困擾,產(chǎn)生于該類數(shù)字資源保存權(quán)的分散且法律法規(guī)的缺失;郵件系統(tǒng)方針的困擾,產(chǎn)生于郵件自動刪除的方針導致郵件線程建立的困難;郵件用戶行為的困擾,產(chǎn)生于用戶使用郵件賬戶的多樣化。
〔關(guān)鍵詞〕電子郵件 數(shù)字保存 數(shù)字資源
總體上講,電子郵件有兩大類型:工作郵件和個人郵件。前者歸工作機構(gòu)所有,較多涉及商業(yè)秘密或機構(gòu)機密;后者為個人所有,較多包含個人隱私或生活私密。電子郵件具有歷史價值、法律證據(jù)價值、文化價值和管理價值,對其進行長期保存是數(shù)字時代人類社會的一項職責。但是,與其他類型數(shù)字資源(電子圖書、電子期刊等)相比,電子郵件有其自身的特殊性,實施長期保存面臨諸多困擾。
本質(zhì)上講,電子郵件是基于因特網(wǎng)技術(shù)的一種信息交流系統(tǒng),交流過程和交流內(nèi)容記錄在郵件賬戶中。一封完整的電子郵件數(shù)字對象可以通過一些應(yīng)用程序(如Foxmail[1],Thunderbird[2])從服務(wù)器或用戶端下載所得。但是,由于郵件傳輸是通過郵件服務(wù)器(MTA)和用戶端(UA)相互配合實施的,過程有時較為復(fù)雜。在整個傳輸過程中,電子郵件的存放位置可以有多處,取決于傳輸過程的設(shè)置,導致這種類型數(shù)字對象的獲取困擾。
基于MTA和UA的運行機制,影響電子郵件存放位置的可能設(shè)置見表1[3]。
因此,一封電子郵件可能被保存在多個地方,比如服務(wù)器上,手持設(shè)備上,本地數(shù)據(jù)庫中,本地文件系統(tǒng)中,網(wǎng)絡(luò)設(shè)備或備份設(shè)備上。在不同的設(shè)備上,郵件內(nèi)容可能會以不同的格式保存,郵件頭信息也會有所不同。盡管備份較多,但電子郵件信息由于刻意操作、誤操作或是瀆職行為,還是容易丟失的。另外,備份方法也有很多,常用的有增量備份法(即只備份增加的數(shù)據(jù)部分),但無論采用何種方法都存在電子郵件內(nèi)容丟失的風險。因此,為了建立電子郵件數(shù)字對象從而獲取完整和真實的電子郵件,不僅需要熟知電子郵件系統(tǒng)的各項技術(shù)因素,還需知曉系統(tǒng)管理員和電子郵件用戶對軟件和硬件的設(shè)置。
表1 影響電子郵件存放位置的設(shè)置
郵件元數(shù)據(jù)選擇的基本原則是確保郵件的真實性和完整性,并為日后的郵件信息檢索和服務(wù)提供支持。郵件元數(shù)據(jù)的功能主要有四:一是記錄郵件的起源,二是描述郵件之間的關(guān)聯(lián),三是揭示郵件的語義,四是記錄郵件傳輸?shù)穆窂?。實現(xiàn)上述功能的元數(shù)據(jù)對應(yīng)地被設(shè)置為行為主體元數(shù)據(jù)、郵件結(jié)構(gòu)元數(shù)據(jù)、郵件語義元數(shù)據(jù)和郵件傳輸元數(shù)據(jù)。
2.1 行為主體元數(shù)據(jù)
(1)行為主體類型。行為主體指郵件的操作者,包括郵件創(chuàng)建者、發(fā)送者和接收者,且均可以是個人、機構(gòu)和軟件。郵件創(chuàng)建者指創(chuàng)建郵件內(nèi)容的個人或軟件。郵件創(chuàng)建者有時又是發(fā)送者,但有時則不是,后者的一個例子是轉(zhuǎn)發(fā)來自其他用戶的郵件。郵件發(fā)送者指將郵件提交給服務(wù)器以便傳輸?shù)膫€人或軟件,前者通過安裝在客戶端的應(yīng)用程序通過用戶界面人工提交郵件,后者由軟件自動發(fā)送郵件。接收者是擁有電子郵件賬戶的個人或郵件列表。根據(jù)發(fā)送者的期望以及與接收者之間的關(guān)系,接收者可分為直接接收人、抄送人和密送人三類。第一類期望對郵件進行處理,第二類僅期望知曉郵件信息,第三類期望關(guān)注對郵件的處理但不希望被其他接收者知曉。
(2)行為主體的元數(shù)據(jù)元素。行為主體的元數(shù)據(jù)元素可設(shè)置為五個,各個元素的內(nèi)容均可基于電子郵件頭信息自動抓取。一是用戶名,由郵件服務(wù)商提供,形式上為郵件賬戶中符號“@”的前面部分,用于識別郵件來源的用戶。二是域名,由DNS進行解析,指明郵件服務(wù)商,用于識別郵件來源的服務(wù)器。三是IP,發(fā)送或接收郵件的IP,用于識別郵件來源的地址。四是顯示名,以純文本形式顯示的行為主體名稱,用于識別郵件賬戶設(shè)定的顯示名稱。五是行為主體類型,如創(chuàng)建者、發(fā)送者、接收者,用于識別行為主體與郵件之間的關(guān)系。
(3)行為主體元數(shù)據(jù)的獲取困擾。行為主體元數(shù)據(jù)的保存目的在于驗證郵件的真實性。但是,由于郵件系統(tǒng)本身的原因,這類元數(shù)據(jù)元素內(nèi)容常??赡苁翘摷俚摹㈦[藏的、甚至是錯誤的,這可能是在服務(wù)器和客戶端上有意無意的設(shè)置導致的,如郵件顯示名沒有設(shè)置為真實姓名,用戶賬戶和域名可能被郵件系統(tǒng)管理員蓄意篡改。另外,用于驗證郵件真實性的行為主體元數(shù)據(jù)元素的價值也不盡相同,如不同發(fā)送人擁有相同顯示名導致郵件來源的模糊。這些因素對郵件的真實性構(gòu)成了挑戰(zhàn),保存系統(tǒng)在自動抓取這類元數(shù)據(jù)元素的內(nèi)容后,是否要進行真實性檢驗?如何檢驗?甚至有些根本就無從驗證。
2.2 郵件結(jié)構(gòu)元數(shù)據(jù)
(1)郵件結(jié)構(gòu)的類型。第一種郵件結(jié)構(gòu)是郵件之間的關(guān)系。在一個用戶郵件賬戶中,如果一封發(fā)送郵件是對一封接收郵件的回復(fù),那么,這兩封郵件之間就構(gòu)成了一個線程(Thread)。一般情況下,回復(fù)郵件中不重復(fù)陳述被回復(fù)郵件中的一些內(nèi)容,如果僅孤立地保存回復(fù)郵件,就會造成日后對該郵件內(nèi)容理解障礙。在郵件的發(fā)送和接收實踐中,一個線程上的郵件往往有多封,在保存系統(tǒng)對一個郵件帳戶中的郵件進行收割時,就需要將這些郵件聯(lián)系一起組成一個線程。線程的構(gòu)建可以基于郵件服務(wù)器采用的協(xié)議(不同的郵件服務(wù)器采用的協(xié)議不盡相同)設(shè)計一些算法來實現(xiàn)比如,Yeh和Harnly設(shè)計的基于相似度匹配方法[4])。如果在收割時不進行線程連接,至少需要保存賬戶目錄中的所有郵件,以便日后對相關(guān)郵件的內(nèi)容理解,但前提是線程上接收和發(fā)送郵件的標題沒有被改變,因為郵件的標題是用戶尋找線程中父郵件與子郵件的唯一方法。第二種郵件結(jié)構(gòu)是郵件與其附件之間的關(guān)系。郵件如果包含附件文件,由于附件文件都是獨立的文件且單獨保存,在保存系統(tǒng)中需要建立郵件與附件文件之間的關(guān)聯(lián),否則,附件文件的保存就失去了意義。第三種郵件結(jié)構(gòu)是郵件與其內(nèi)容中內(nèi)嵌對象(如圖像)以及超級鏈接之間的關(guān)系。內(nèi)嵌對象是以獨立文件保存,內(nèi)嵌的超級鏈接也需將鏈接對象獨立保存,否則在保存系統(tǒng)中用戶需要調(diào)出時可能無法呈現(xiàn)。
(2)郵件結(jié)構(gòu)元數(shù)據(jù)的元素。郵件結(jié)構(gòu)元數(shù)據(jù)的元素可以設(shè)置為五個。一是郵件號,由郵件服務(wù)器分配給郵件的唯一編碼和郵件服務(wù)器全稱兩部分組成,是一封電子郵件在網(wǎng)絡(luò)中的唯一標識。二是線程郵件號,形式上是一系列被空格或一組標記字符隔開的郵件號,用于標記當前郵件與線程上其他郵件的順序關(guān)系,但是,如果當前郵件是孤立的,或當前郵件的參考郵件被刪除,這個元素就失去了價值。三是附件文件的標識符,用于建立郵件與附件文件之間的關(guān)聯(lián)。四是內(nèi)嵌對象的標識符,用于建立郵件與內(nèi)嵌對象文件之間的關(guān)聯(lián)。五是內(nèi)嵌超級鏈接的URL,用于建立郵件與內(nèi)嵌超鏈對象之間的關(guān)聯(lián)。
(3)郵件結(jié)構(gòu)元數(shù)據(jù)的困擾。郵件結(jié)構(gòu)元數(shù)據(jù)保存的目的在于確保郵件的完整性,實現(xiàn)完整性的方法是提供郵件之間的關(guān)聯(lián)和郵件與其內(nèi)容涉及對象之間的關(guān)聯(lián)。但是,郵件系統(tǒng)的設(shè)置和用戶有意或無意的誤操作可能會導致關(guān)聯(lián)郵件的消失,郵件系統(tǒng)制定、實施的一些方針政策也會導致關(guān)聯(lián)郵件的丟失,比如一些郵件系統(tǒng)制定方針自動刪除用戶的過期郵件,不少機構(gòu)型郵件系統(tǒng)制定方針將離職員工的郵件刪除,這樣,與之相關(guān)郵件的線程就無法建立,對應(yīng)郵件的內(nèi)容完整性就會遭到破壞(因為無法提供線程上父郵件的語義環(huán)境)。是否補充(怎樣補充)被刪除的關(guān)聯(lián)郵件?或在缺失一些關(guān)聯(lián)郵件的情況下如何建立不完整的線程以降低語義環(huán)境的被破壞程度?這些都是郵件結(jié)構(gòu)元數(shù)據(jù)保存面臨的困擾。
另外,郵件內(nèi)容中內(nèi)嵌的超級鏈接,是保存鏈接的本身,還是保存鏈接的對象文件?前者的優(yōu)點是保存簡單,但會導致死鏈;后者的優(yōu)點是保證鏈接的有效性,但會增加下載工序且保存空間開支加大,這是郵件結(jié)構(gòu)元數(shù)據(jù)保存的另一個困擾。
2.3 郵件語義元數(shù)據(jù)
郵件語義元數(shù)據(jù)的設(shè)置目的在于揭示郵件的主題內(nèi)容,展現(xiàn)郵件的發(fā)送者或接收者的目的。該類元數(shù)據(jù)元素可以設(shè)置兩個:
(1)主題。郵件主題行中的內(nèi)容,由郵件發(fā)送者輸入或編輯,保存系統(tǒng)自動抓取獲得。該元素的值除了識別郵件內(nèi)容外,還可與接收(發(fā)送)日期共同使用,為構(gòu)建郵件的線程提供一個簡單方法。
(2)關(guān)鍵詞。用于揭示郵件內(nèi)容的另外一種方法,可以有多個,人工創(chuàng)建。
但是,在實踐中,郵件主題行時常是空的,發(fā)件者不寫主題內(nèi)容,元素“主題”的值是空白,此種情況下,保存系統(tǒng)對主題行內(nèi)容收割后是否補充賦值?是否對主題內(nèi)容進行核實并對不合意的主題進行編輯以更準確地反映郵件內(nèi)容?這些是該類元數(shù)據(jù)保存的困擾。
2.4 郵件傳輸元數(shù)據(jù)
郵件傳輸元數(shù)據(jù)的設(shè)置目的在于記錄郵件自發(fā)送到接收經(jīng)過的路徑及關(guān)鍵節(jié)點的時間。該類元數(shù)據(jù)的元素可以設(shè)置三個:
(1)發(fā)送日期。郵件發(fā)送的日期和時間。發(fā)送日期是由發(fā)送者發(fā)送郵件所使用的設(shè)備的系統(tǒng)設(shè)置,保存系統(tǒng)自動抓取獲得。
(2)接收日期。接收者主機收到郵件的日期和時間。然郵件被接收的時間與下載郵件或閱讀郵件的時間并不一致。同樣,接收日期來自接收郵件服務(wù)器設(shè)置的日期,保存系統(tǒng)自動抓取獲得。
(3)路由信息。郵件從發(fā)送者到接收者傳輸過程中經(jīng)過的路徑以及該過程中關(guān)鍵節(jié)點的時間。路由信息是發(fā)送者和接收者不能控制的,可信任性較強。
由上可知,發(fā)送日期和接收日期均來自于相應(yīng)設(shè)備的設(shè)置時間,因為這種設(shè)置時間可以被有意或無意修改,所以,這兩個元素的值可能不準確、不可信任。
目前的郵件正文主要有兩類:純文本型和超文本型。
3.1 純文本型郵件正文的保存困擾
針對純文本型郵件正文,保存內(nèi)容的方法有兩種:
(1)保存內(nèi)容最小化。僅僅保存可視字符以及少量必須的格式字符(如,換行符號),其他嵌入在文本中的標記符號(如用于展示字體類型與大小、顏色等的標記符)在保存中均被刪除。這種方法適用于純文本客戶端,只能閱讀郵件內(nèi)容,無法根據(jù)郵件中的嵌入標識符對郵件中相應(yīng)內(nèi)容進行展示。
(2)保存內(nèi)容最大化。與上述方法相反,這種方法認為文本中的標記可能傳遞一些重要信息,所以對郵件正文中每個字符(包括標記符號)都需準確保存。比如,在郵件文本中有這樣的陳述“請對下述顯示顏色為紅色的內(nèi)容給予評論”,如果不保存顏色標記,被評論的內(nèi)容則無法識別。
這兩種方法各有優(yōu)劣,在實際應(yīng)用中,保存系統(tǒng)將面臨選擇的困擾。
3.2 超文本型郵件正文的保存困擾
超文本型郵件正文,除了內(nèi)容信息之外,格式信息不僅對正文的可視化展現(xiàn)而且有時對內(nèi)容的語義表達都起著重要作用。依據(jù)作用,格式信息可以分為下述八種類型(表2)。在超文本中,每種格式信息都是由標簽定義的,所以格式信息也可以采用標簽表達。
表2 格式信息的類型
在保存實踐中,由于不同保存項的保存目的不盡相同,所需保存的格式信息也不一樣。表3列出了四種典型保存目的以及實現(xiàn)相應(yīng)保存目的所需的格式信息類型。
由上可知,保存所有格式信息可滿足各種保存目的的實現(xiàn),但占用空間大;選擇性地保存格式信息可節(jié)省保存空間,但能夠?qū)崿F(xiàn)的保存目的受到限制。所以,如何根據(jù)保存目的對格式信息進行選擇性保存,是保存系統(tǒng)面臨的一個困擾。
表3 保存目的及其所需長期保存的格式信息
4.1 電子郵件保存權(quán)分散且獲取困難
數(shù)字資源的長期保存權(quán)要么來自于產(chǎn)權(quán)擁有者,要么來自于產(chǎn)權(quán)許可的授權(quán)者,要么來自于免產(chǎn)權(quán)許可的法律授權(quán)。針對于其他類型數(shù)字資源的保存權(quán)界定大多已有相關(guān)法律法規(guī),但對于電子郵件這類數(shù)字資源的保存權(quán)目前缺乏法律界定。
電子郵件保存的對象一般以郵件帳戶為基本單元。但是,郵件帳戶的擁有者并非擁有帳戶中所有郵件的保存權(quán)。一個帳戶中有發(fā)送的郵件、接收的郵件、轉(zhuǎn)發(fā)的郵件、附件,郵件正文還有內(nèi)嵌的數(shù)字對象以及超級鏈接的外部文件對象等。所有類型的郵件和數(shù)字對象的產(chǎn)權(quán)都應(yīng)該歸創(chuàng)建者,但轉(zhuǎn)發(fā)郵件(尤其是經(jīng)過多次轉(zhuǎn)發(fā)的郵件)的創(chuàng)建者比較難以確認,郵件中的各種數(shù)字對象的產(chǎn)權(quán)也需逐個確認,只有自己創(chuàng)建的發(fā)送郵件歸帳戶擁有者所有。因此,在對一個帳戶的郵件進行保存時,大量郵件及數(shù)字對象的產(chǎn)權(quán)需要確認并需獲得保存權(quán)許可,工作量非常大,有的甚至無法找到產(chǎn)權(quán)擁有者。
4.2 支撐電子郵件長期保存法律的缺失
針對電子郵件長期保存的法律法規(guī)還未見報道,可參考的相關(guān)法律法規(guī)主要有下述三類:
(1)公共記錄法。根據(jù)該類法律的界定,公共財政支持的公共團體和機構(gòu)接收和發(fā)送的電子郵件歸屬公共記錄,因此,這類數(shù)字資源的保存必須遵從公共記錄法的要求和公共記錄保存的專業(yè)實踐,這對公共領(lǐng)域的電子郵件保存起著積極的推動作用,至少在短期保存方面。但是,其他類型的工作郵件(如企業(yè)的工作郵件)不屬于公共記錄,不受公共記錄法的約束,但可參考公共記錄保存的專業(yè)實踐進行長期保存。因此,公共記錄法對大量的非公共財政支持的機構(gòu)工作郵件的長期保存沒有法律效應(yīng),只是起著一個間接鼓勵保存的作用。
(2)私有記錄保存法。這類法律規(guī)定私有記錄的保存時間限制和嚴格的使用規(guī)則,一旦到達保存期限,任何的繼續(xù)保存行為都會存在私有記錄泄露的風險。個人郵件屬于私有記錄。因此,從法律角度,任何保存機構(gòu)都被建議個人郵件的保存周期僅需滿足法律要求即可,這種要求與數(shù)字資源長期保存的理念相沖突。從風險規(guī)避角度,私有記錄保存法具有直接誘導刪除過時電子郵件的作用。
(3)民事訴訟法。該類法律定義電子存儲信息(Elec tronically Stored Information,ESI)的概念,并規(guī)定ESI必須被提供的情況。在法律糾紛中,如果被告沒有按照民事訴訟法的要求保存并提供完整的ESI,將會受到法律制裁。電子郵件是ESI的一種類型,該類法律間接地鼓勵了電子郵件的長期保存。
綜上所述,現(xiàn)有的相關(guān)法律要么間接鼓勵電子郵件的長期保存,沒有強制實施的功效;要么直接誘導電子郵件的刪除,以規(guī)避被泄露的風險。對確保電子郵件長期保存缺乏強制的法律效用。
4.3 郵件中包含的大量敏感信息
與其他類型數(shù)字資源相比,電子郵件中包含的敏感信息數(shù)量更多,種類更復(fù)雜。工作郵件中包括大量工作機密,個人郵件中包括大量個人隱私。怎樣保護這些敏感信息,僅靠產(chǎn)權(quán)許可難以勝任。產(chǎn)權(quán)許可僅能解決數(shù)字資源的保存權(quán)、傳播權(quán)、訪問權(quán)和使用權(quán),但對數(shù)字資源中包含的敏感信息無法處理。敏感信息的處理方法主要是通過編輯進行覆蓋和刪除,但這不僅會影響郵件內(nèi)容的完整性,甚至會失去郵件的法律證據(jù)價值,而且工作量也很大。所以,對敏感信息的處理是電子郵件長期保存的一個困擾。
郵件系統(tǒng)制定的方針會影響用戶對電子郵件的傳播、管理和存儲行為,有些方針有助于郵件的長期保存,但有些會阻礙郵件的長期保存。其中,對郵件長期保存不利的一些常見方針有:
(1)基于最大郵件數(shù)量限制的郵件刪除方針。規(guī)定每個郵件賬戶中能夠存放的最大郵件數(shù)量,當達到該規(guī)定值時,賬戶中新增加一個郵件將導致最早一個郵件的自動刪除。
(2)基于時間節(jié)點的郵件刪除方針。采用一刀切的方法,將該時間節(jié)點前的所有郵件一次性全部刪除。
(3)基于保存周期的郵件刪除方法。設(shè)置郵件在賬戶中的保存周期,在保存周期結(jié)束后自動刪除電子郵件。保存周期的設(shè)置一般參考電子記錄保存法中相關(guān)規(guī)定。
(4)基于郵件類型設(shè)置不同保存周期的郵件刪除方針。不同的郵件類型設(shè)置不同的保存周期,郵件類型的劃分標準可以是:發(fā)送人、接收人、郵件主題、日期等。這種方針考慮了不同類型郵件的生命周期可能存在差異,并以此設(shè)置不同的保存周期。
(5)基于郵件賬戶用戶離職行為的郵件刪除方針。在機構(gòu)的郵件服務(wù)器中,將離職一段時間的員工郵件賬戶刪除,或在學校的郵件服務(wù)器中,將畢業(yè)一段時間的學生郵件賬戶刪除,這里的“一段時間”值取決于不同郵件系統(tǒng)。這種方針的應(yīng)用很廣泛,一般給出的理由是以免郵件泄露導致機構(gòu)承擔法律責任。
(6)基于價值的郵件刪除方針。要求郵件用戶識別并保存有長期保存價值的郵件,刪除無保存價值的郵件。郵件價值主要體現(xiàn)四個方面:法律證據(jù)價值、歷史價值、文化價值、管理價值。但在實踐中,價值的有無與大小均來自于用戶的主觀判斷,所以誤刪除在所難免。
(7)郵件“全部存儲”的政策。該類政策應(yīng)用很廣。優(yōu)點是避免誤刪除有價值的郵件,缺點有二:一是增加郵件的存放空間,二是在保存系統(tǒng)對郵件賬戶進行收割時,需要對郵件進行分類,要么人工分類,要么基于軟件自動分類,前者成本高,后者準確度無法保證。
上述前六個方針都是針對郵件刪除的規(guī)則,這些刪除操作都可能會影響郵件線程的建立,對電子郵件保存的完整性構(gòu)成威脅。
6.1 用戶使用郵件賬戶的行為
隨著因特網(wǎng)上推出越來越多的新興交流服務(wù)工具,例如,博客、微博、微信、論壇、社交網(wǎng)絡(luò)等,電子郵件賬戶的使用方式呈現(xiàn)出多樣化趨勢。許多用戶,無論是在工作中還是在日常生活中,不僅使用郵件賬戶登錄郵件系統(tǒng),而且也使用郵件賬戶直接登錄各種在線交流服務(wù)系統(tǒng),這些在線交流系統(tǒng)也都提供用戶直接通過郵件賬戶登錄的接口。這樣,用戶的所有數(shù)字化交流行為都通過郵件賬戶聯(lián)系起來,為整合不同交流平臺中的個人交流信息提供了便利,但對電子郵件的長期保存帶來了下述可能的困擾:
(1)郵件信息與其他類型的交流信息混合存儲。在這種行為模式中,通過設(shè)置,郵件信息與其他交流系統(tǒng)中用戶賬戶的信息可以相互備份,這樣,用戶的各類在線交流信息混為一體,給電子郵件保存系統(tǒng)對郵件信息的篩選獲取帶來困擾。
(2)郵件信息與其他類型的交流信息之間的界限模糊化。實際上,這種行為模式中,用戶的其他在線交流信息與電子郵件之間除了即時性有差別外(但如果用戶設(shè)置郵箱信息接收的短信提示,此時的電子郵件也可理解為是即時的),其他基本屬性都一樣:簡易、快速、內(nèi)容多樣、可帶附件、在線等。這兩類信息都是用戶數(shù)字化在線交流信息,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,它們之間的界限也越來越難以厘清。這樣一來,電子郵件保存系統(tǒng)的保存內(nèi)容選擇將面臨挑戰(zhàn)。
6.2 用戶存儲郵件的行為
電子郵件賬戶,無論是免費的還是付費的,幾乎都不提供長期存儲的保證,也幾乎都不許諾當郵件服務(wù)器停止服務(wù)時向用戶提供一份郵件拷貝。為了避免個人的這類“數(shù)字資產(chǎn)”消失,通常情況下用戶實施下述行為在郵箱之外存儲電子郵件:
(1)存儲在個人數(shù)字圖書館中。個人數(shù)字圖書館存儲的數(shù)字資源均與個人有關(guān),除了個人郵件外,通常還有個人相冊、個人生產(chǎn)或獲贈的數(shù)字資源、個人工作或興趣愛好所需的數(shù)字資源等。采用這種方式,個人郵件與個人的其他類型數(shù)字資源混合存儲。
(2)存儲在自己創(chuàng)建的文件夾中。采用這種方式,個人郵件獨立存儲。
(3)提交到電子郵件長期保存系統(tǒng)中。個人將自己的郵件提交或贈送給這類專業(yè)保存系統(tǒng)。采用這種方式,個人郵件與其他用戶郵件混合保存。
(4)存儲在其他在線交流服務(wù)工具中。用戶通過郵件帳戶登錄其他在線交流系統(tǒng)時,通過設(shè)置,可將郵箱中的一些郵件備份和存儲到這些交流系統(tǒng)中。采用這種方式,個人郵件與交流系統(tǒng)中其他信息混合存儲。
(5)存儲在個人郵件保存系統(tǒng)中。已經(jīng)出現(xiàn)一些個人郵件保存系統(tǒng)軟件(如MBackU[5]),大多是免費的,下載到本地安裝后,用戶可將自己郵件賬戶綁定到保存系統(tǒng),系統(tǒng)提供兩種機制收割用戶賬戶中的郵件:一是自動獲取方式,保存系統(tǒng)自動獲取綁定用戶賬戶的所有郵件,并且新增郵件也可被實時地自動收割到系統(tǒng)中;二是人工獲取方式,用戶選擇需要保存的郵件,通過文件的方式打包,上傳到保存系統(tǒng)。這類系統(tǒng)除了綁定用戶郵箱賬戶外,還具有查詢功能,用戶可以通過郵件主題、發(fā)件人等途徑檢索郵件。采用這種方式,個人郵件獨立保存。
由上可以看出,用戶存儲郵件的位置很分散,并且有些還與其他數(shù)字資源混合存儲。在保存系統(tǒng)收割一個用戶郵件賬戶的郵件時,如果獲取策略是盡可能完整收割,就需要到不同的存儲地方進行獲取,有時還需去重處理,這給獲取機制帶來困擾。
6.3 郵件賬戶中用戶存放信息的行為
在郵件賬戶中,用戶存放的信息除了與他人之間相互交流的郵件外,還有下述兩類信息:
(1)用戶個人的資料。為了保存用戶的個人資料文件,或方便在不同計算機中使用一個文件,用戶常常將這類文件作為附件,郵箱賬戶既是發(fā)送方,又是接收方。這類郵件同時出現(xiàn)在發(fā)件箱和收件箱中。
(2)在線交流信息。用戶通過郵件帳戶登錄其他在線交流系統(tǒng)的情況下,通過設(shè)置,在這些交流系統(tǒng)中用戶與他人交流的內(nèi)容可以自動發(fā)送至用戶郵件帳戶的收件箱中。
上述兩類郵件,從本質(zhì)上講不是用戶與他人之間的通信郵件,第一種情況是個人資料,第二種情況是用戶在其他系統(tǒng)中的交流信息,在保存系統(tǒng)收割郵件時,應(yīng)該規(guī)避這兩類郵件。
( )
電子郵件已經(jīng)成為一種重要的數(shù)字資源。但是,與其他類型數(shù)字資源的長期保存相比,電子郵件長期保存的理論探討與實踐項目都甚顯遜色。據(jù)考察,業(yè)已存在的一些電子郵件長期保存系統(tǒng)(如牛津大學Bodleian圖書館的電子郵件保存系統(tǒng)[6])基本沿用了其他類型數(shù)字資源保存的方法,比如電子圖書保存系統(tǒng)把單本圖書作為保存對象,電子期刊保存系統(tǒng)把期刊論文作為保存對象,電子郵件保存系統(tǒng)同樣把單個郵件作為保存對象。但是,這種保存方法完全忽略了電子郵件的特殊性(比如,郵件線程問題),給用戶使用帶來極大困難。本文基于電子郵件的特質(zhì)析出了這類數(shù)字資源長期保存面臨的一些困擾,以期業(yè)界探討解決方案,應(yīng)用到未來的保存實踐之中。
(來稿時間:2015年6月)
參考文獻:
1. Foxmail百度百科. [2015-01-16]. http://baike.baidu.com/link? url=M3tjE5ojzN4AKINuX3SF_GUg17pdMRhQVtdncTriWkdTUbAb 5Sj8yaRBVJ2tEe108FTjTKLDUwIlVn-z6MFfzK
2. Thunderbird百度百科. [2015-01-20]. http://baike. baidu. com/link?url=v4g94ZQYcbR3tlmUbTKkjttzqsp DNf1yac-AZGXOGvfj_ fVyc1Ox1wvWrb3_-Jn6gq0RKuIDQEjrtPBWdZ4Dc_
3. Christopher J.P. Preserving Email. [2014-12-20]. http: // dx.doi.org/10.7207/twr11-01
4. Yeh J.Y., Harnly A. Email Thread Reassembly Using Similarity Matching. [2015-01-02]. http://www.ceas.cc/2006 /7.pdf
5. MBU. [2014-11-11]. http://www.mbu-cs.com
6. Susan T. Receiving and managing email archives at the Bodleian Libraries. [2015-02-03]. http://www.dpconline.org/ component/docman/doc_download/640-emailthomasjul2011
〔Key words 〕E-mail Digital preservation Digital resource臧國全(1963-),男,教授,鄭州大學信息管理學院副院長,發(fā)表論文70余篇,出版專著3部;張曉彤(1990-),男,鄭州大學信息管理學院在讀研究生,發(fā)表論文2篇。
〔分類號〕G250
〔作者簡介〕
Some Confusions in E-mail Long-Term Preservation
Zang Guoquan Zhang Xiaotong
( School of Information Management, Zhengzhou University )
Compared with other digital resources, e-mail has its own characteristics. There are some confusions during the e-mail long-term preservation that includes the following aspects : (1) e-mail capturing confusions, which come from the diverse locations of e-mail storage because of the system operating mechanism; (2) e-mail metadata confusions, which come from the difficulties in implementing both the authenticity of automatically assigned value to some metadata elements and the integrity of e-mail threads; (3) e-mail body preservation confusions, which come from the difficult choices of the format information’s preservation; (4)legal confusions, which come from the separation of e-mail preservation rights and the lack of e-mail preservation laws and regulations; (5)e-mail system policy confusions, which come from the break of e-mail threads as a result of the automatic deletion of messages; (6)e-mail user behavior confusions, which come from the diverse uses of the e-mail account.
〔Abstract 〕