數(shù)字保存的可識別性風險檢測

2018-03-14 05:46:43臧國全周麗媛

現(xiàn)代情報 2018年3期

臧國全周麗媛李哲

(1.鄭州大學信息管理學院，河南鄭州 450001；2.鄭州大學公共管理學院，河南鄭州 450001)

人類社會進入了數(shù)字化時代，數(shù)字保存是一項基本的社會職責。但是，與傳統(tǒng)信息資源相比，數(shù)字資源具有內(nèi)容的易復制性、載體的不穩(wěn)定性、瀏覽的非直接性、存儲的環(huán)境依賴性等特征，所以對其進行長期保存的過程將產(chǎn)生多種類型風險，可識別性風險是其中一種。因此，對可識別性風險進行管理是一項基本的保存活動，但管理的前提是對可識別性風險進行識別，而識別的一種有效方法是對可識別性風險進行檢測。

1 可識別性涵義及其風險類型

1.1 可識別性涵義

指將數(shù)字對象與保存的其他數(shù)字對象區(qū)分開來，以實現(xiàn)保存系統(tǒng)對數(shù)字對象的發(fā)現(xiàn)、用戶對數(shù)字對象的檢索使用[1]。因此，可識別性包含兩層涵義：1)保存系統(tǒng)對數(shù)字對象的識別，當保存系統(tǒng)對數(shù)字對象實施保存活動時，需要準確無誤地識別出一件數(shù)字對象，這種識別具有唯一性[2]。比如，保存系統(tǒng)對某一數(shù)字對象進行數(shù)字遷移，需識別出該數(shù)字對象，方能對其實施遷移操作。2)用戶對數(shù)字對象的識別，當用戶對數(shù)字對象訪問使用時，需要準確無誤地檢索出符合檢索條件的一類數(shù)字對象，然后通過外觀特征和瀏覽工具判斷其相關性并進行瀏覽識別，這種識別具有聚類性。

1.2 可識別性風險類型

基于上述可識別性涵義闡釋，界定可識別性風險類型如下：

1)數(shù)字對象沒有被賦予唯一標識符，或賦予的標識符錯誤。導致保存系統(tǒng)無法識別數(shù)字對象，或識別出的數(shù)字對象不具唯一性，或識別出的數(shù)字對象不正確；

2)數(shù)字對象沒有記錄其存儲位置，或記錄錯誤。導致即使被賦予了唯一標識符，保存系統(tǒng)也可能無法找到具體數(shù)字對象，或找到的數(shù)字對象不正確；

3)數(shù)字對象之間存在各種關聯(lián)，當需要對這些關聯(lián)進行維護時，關聯(lián)對象的描述或關聯(lián)類型的描述出現(xiàn)錯誤。導致關聯(lián)對象無法識別，或關聯(lián)類型識別錯誤，致使維護操作無法實施；

4)數(shù)字對象遭到破壞，且無法基于本地或異地備份進行恢復。導致數(shù)字對象無法繼續(xù)被識別使用；

5)數(shù)字對象的格式過時，且無法進行數(shù)字遷移和數(shù)字仿真。用戶無法繼續(xù)訪問使用，這些數(shù)字對象失去可識別性；

6)數(shù)字對象編碼后，對用戶不具可識別性，需解碼還原才可識別。編碼層次、編碼工具和解碼密碼等記錄錯誤均會導致解碼操作失敗，影響數(shù)字對象的可識別性；

7)用戶使用數(shù)字對象，需首先從保存系統(tǒng)中檢索出來，再判斷其是否相關，最后通過瀏覽使用。保存系統(tǒng)設置的檢索途徑不足導致用戶無法從系統(tǒng)未提供的檢索途徑查找到數(shù)字對象，外觀特征描述不足導致用戶對其相關性判斷困難，瀏覽工具的不支持導致用戶無法瀏覽使用，這些因素都會影響用戶對數(shù)字對象的有效識別。

上述前4種風險影響保存系統(tǒng)對數(shù)字對象的可識別性，后3種風險影響用戶對數(shù)字對象的可識別性。

2 可識別性風險型元數(shù)據(jù)

2.1 數(shù)字對象方面的可識別性風險型元數(shù)據(jù)

是數(shù)字對象方面的可識別性風險的檢測點。包括：

2.1.1 標識符

用于唯一識別數(shù)字對象的標識符號。提供從標識符角度直接識別出數(shù)字對象的一種方法?？梢杂杀４嫦到y(tǒng)收錄數(shù)字對象時創(chuàng)建，也可由數(shù)字對象提交者創(chuàng)建并作為其元數(shù)據(jù)和數(shù)字對象一起提交給保存系統(tǒng)。創(chuàng)建方式可自動生成，也可人工分配。標識符的值應足夠的多，以保證保存系統(tǒng)中每件數(shù)字對象都能被唯一識別。保存系統(tǒng)選擇使用的標識符應該是持久適用的。標識符的命名框架是保存系統(tǒng)的一個實施問題，需在保存政策中制定。

元素。(a)標識符類型，用以確保數(shù)字對象標識符具備唯一性的域[3]，比如，針對圖書類數(shù)字對象，標識符的類型可以是ISBN；如果保存政策中制定的標識符命名框架僅使用一種類型的標識符，無需記錄標識符的類型，但與其它保存系統(tǒng)進行數(shù)據(jù)交換時，需添加標識符類型。(b)標識符的值，數(shù)字對象標識符的取值，如果在保存政策制定的標識符命名框架中，取值已包含標識符類型，那么無需明確記錄標識符類型。不同類型中的標識符的值可以是一樣的，但標識符類型和標識符值結合在一起時必須是唯一的。

檢測項目。檢查元素(a)和(b)的內(nèi)容，如果均為空，或其中之一為空，或與保存政策中的標識符命名框架不相符，出現(xiàn)數(shù)字對象無標識符，或標識符不完整，或標識符命名錯誤，輸出風險。

2.1.2 存儲位置

用于唯一識別數(shù)字對象的存儲地址，包括存儲的方式信息和位置信息[4]。提供從存儲地址角度直接識別數(shù)字對象的一種方法。存儲系統(tǒng)需對其保存的數(shù)字對象分配存儲位置并進行維護管理，通常情況下，分配過程是由程序自動實現(xiàn)。

元素。(a)存儲位置類型，描述存儲位置的方式，有多種，比如URI、絕對路徑、相對路徑等；保存系統(tǒng)識別數(shù)字對象的保存位置時，需首先識別所使用的位置方式。(b)存儲位置值，在存儲系統(tǒng)使用的存儲位置類型框架下，數(shù)字對象的具體存儲位置的描述值，比如，當存儲位置類型為URI時，存儲位置的值為http://wwasearch.loc.gov/107th/200212107035；當存儲位置的類型為絕對路徑時，其值為c:apache2htdocsindex.hTDl；當存儲位置的類型為相對路徑時，其值為/home/web/publichTDl/index.hTDl。

檢測項目。(ⅰ)檢查上述兩個元素的內(nèi)容，若其中之一為空，則無法從存儲位置識別數(shù)字對象，輸出風險。(ⅱ檢查位置類型與位置值之間的匹配性，若不匹配，如類型為絕對路徑，而值為/home/web/publichTDl/index.hTDl，也無法識別數(shù)字對象，輸出風險。

2.1.3 對象的關系

一件數(shù)字對象可以和其他多個對象發(fā)生關聯(lián)，以展示數(shù)字對象之間的某種關系，當保存系統(tǒng)對這些關系進行維護時，需識別出與參照點數(shù)字對象相關聯(lián)的其他數(shù)字對象，也需對關系表達的正確性進行識別。

該元數(shù)據(jù)用于與參照點數(shù)字對象直接關聯(lián)的一族數(shù)字對象的可識別性檢測，包括族內(nèi)各具體數(shù)字對象的可識別性檢測以及參照點數(shù)字對象與族內(nèi)其他數(shù)字對象之間關系描述的可識別性，這種檢測可稱為直接關聯(lián)的族性可識別性檢測[5]。檢測思路：一是根據(jù)參照點數(shù)字對象，通過描述關系的元數(shù)據(jù)，識別出與其直接關聯(lián)的其他數(shù)字對象的標識符；二是根據(jù)標識符檢測這些具體數(shù)字對象的可識別性；三是檢測關系描述的正確性。本質上講，族性可識別性檢測的對象可以是族內(nèi)的所有數(shù)字對象，包括直接關聯(lián)和間接關聯(lián)的數(shù)字對象，后者的關聯(lián)層次沒有限制。但是，本文設計的檢測方法中，只檢測與參照點數(shù)字對象直接關聯(lián)的其他數(shù)字對象，不檢測間接關聯(lián)的數(shù)字對象。原因有二：一是降低檢測的復雜度；二是基于這樣一個事實:遍歷每個參照點數(shù)字對象的直接關聯(lián)的族性檢測，即可實現(xiàn)保存數(shù)字對象集合的所有直接關聯(lián)和間接關聯(lián)的族性可識別性檢測。

元素。(a)關聯(lián)數(shù)字對象標識符。(b)關系類型，主要有3種：結構關系、派生關系和依賴關系。結構關系主要展示數(shù)字對象與其組成部分之間的關系，如，一個表現(xiàn)型數(shù)字對象由若干個文件型數(shù)字對象構成，兩者之間的關系是父子型的結構關系。如果保存系統(tǒng)不能將一個數(shù)字對象的各個部分重新組合，數(shù)字對象就會失去原有價值。對于一個簡單數(shù)字對象(如一張圖片)，結構信息也很簡單，文件本身就是其表現(xiàn)。但有些情況下，結構信息比較復雜，如電子書包含很多頁，每頁都是一個獨立數(shù)字對象；網(wǎng)站包含很多網(wǎng)頁，每個網(wǎng)頁也是一個獨立數(shù)字對象。派生關系來自于數(shù)字對象的復制或轉換。這種過程應該保證其知識內(nèi)容不變，但對象的形式，比如格式，可能發(fā)生變化。如，對格式為X的文件A進行遷移產(chǎn)生了一個格式為Y的文件B，A和B之間存在派生關系。上述兩種都是描述內(nèi)容對象之間的關系。依賴關系是當一個內(nèi)容對象需要一個環(huán)境對象支持其功能、傳播、呈現(xiàn)以及內(nèi)容聚合的實現(xiàn)時，內(nèi)容對象與環(huán)境對象之間的關系。比如，格式為DOC的內(nèi)容對象，其呈現(xiàn)所需MS WORD軟件的環(huán)境對象，兩者之間的關系就是依賴關系。(c)關系值，表達關系的詞語。不同類型的關系，其關系值也不同。針對結構關系，其值如：包含和被包含關系、父子關系、部分與整體關系等。針對派生關系,其值如：圖像與其圖標關系、遷移關系、版本關系、衍生關系等。針對依賴關系，其值如：需要、被需要等。

檢測項目。(ⅰ)檢查上述元素，至少其中一個元素沒有內(nèi)容，輸出風險；如，元素(a)有內(nèi)容，但元素(b)和(c)均沒有內(nèi)容，則可識別出關聯(lián)數(shù)字對象，但無法識別出參照點數(shù)字對象與關聯(lián)數(shù)字對象之間的關聯(lián)類型和關聯(lián)值，輸出風險。(ⅱ)當上述3個元素均有內(nèi)容時，檢查元素(b)和(c)的內(nèi)容匹配情況，應根據(jù)保存政策中對象之間關系的設置進行檢查，若不匹配，則關系識別錯誤，輸出風險。(ⅲ)當上述檢測項目(a)和(b)均不產(chǎn)生風險時，根據(jù)元素(a)的值找出關聯(lián)數(shù)字對象，檢查參照點數(shù)字對象和關聯(lián)數(shù)字對象之間的關系是否與為元素(b)和元素(c)描述的一致，若不一致，關系識別錯誤，輸出風險。

2.1.4 保存策略

依據(jù)數(shù)字對象的價值，保存系統(tǒng)為其設定的保存功能。主要有兩類[6]：一是確保安全保存的數(shù)字對象備份策略；二是確保用戶長期有效使用的格式過時數(shù)字對象的訪問策略。前者包括本地備份和異地備份，當存儲系統(tǒng)中數(shù)字對象遭到破壞，比如因為病毒或黑客的侵襲、存儲介質性能衰退、不可抗拒的自然災害、人為或非人為的破壞等，導致數(shù)字對象不可識別時，保存系統(tǒng)可以基于備份恢復數(shù)字對象的可識別性。后者包括數(shù)字遷移和數(shù)字仿真，當數(shù)字對象格式過時，比如因為軟件開發(fā)商退出市場、改變了商業(yè)重點、停止了對原格式的支持，或者主導市場的軟件開發(fā)商已經(jīng)放棄了這種格式的應用，或者原格式的靈活度不足以支持新軟件機制等，導致數(shù)字對象無法被用戶瀏覽(對用戶來說是不可識別的)，保存系統(tǒng)可以實施遷移和仿真技術恢復數(shù)字對象的可識別性。否則，出現(xiàn)上述任一情況時，若不實施相應的保存策略，數(shù)字對象不再具有可識別性。

元素。(a)保存策略類型，包括安全備份策略和有效訪問策略兩類。(b)保存策略級別，針對安全備份策略，包括高、中、低3個級別；如，“高”意味著同時對異地備份的份數(shù)、異地距離、本地備份的備份都有要求，“中”意味著在上述級別中不對異地距離做出要求，“低”意味著僅對本地備份做出要求；每個級別的具體要求由保存政策定義。針對有效訪問策略，包括數(shù)字遷移和數(shù)字仿真兩類；數(shù)字遷移指當數(shù)字對象的文件格式出現(xiàn)過時時，保存系統(tǒng)將其遷移到新的文件格式，以使用戶使用當前的瀏覽工具能夠有效瀏覽使用；數(shù)字仿真指在出現(xiàn)上述情況時，保存系統(tǒng)設計或購買一個仿真工具，用戶使用當前的瀏覽軟件時，自動調(diào)用仿真工具，仿真工具再調(diào)出和瀏覽原數(shù)字對象；當然，兩者均有優(yōu)缺點，保存系統(tǒng)應根據(jù)自己的保存目標和可利用的保存資源等因素選擇使用。(c)保存系統(tǒng)實現(xiàn)情況，用于描述保存系統(tǒng)能否實現(xiàn)上述界定的保存策略，包括能夠實現(xiàn)、不能實現(xiàn)、無法確定3種。

檢測項目。(ⅰ)檢查元素(a)和元素(b)的內(nèi)容，若至少其中一個沒有內(nèi)容，表明或沒有安全備份策略，或沒有有效訪問策略，或兩者均沒有，導致或無法通過備份恢復遭到破壞的數(shù)字對象的可識別性，或無法通過數(shù)字遷移(數(shù)字仿真)恢復格式過時的數(shù)字對象的可識別性，或同時發(fā)生這兩種情況，輸出風險。(ⅱ)若元素(a)和元素(b)均有內(nèi)容，檢查兩個元素內(nèi)容的匹配情況，若匹配不一致，如元素(a)內(nèi)容是安全備份策略，但元素(b)內(nèi)容是數(shù)字遷移；或元素(a)內(nèi)容是有效訪問策略，而元素(b)內(nèi)容是“高”；導致保存策略無法實施，輸出風險。(ⅲ)檢查元素(c)的內(nèi)容，若不是“能夠實現(xiàn)”，表明針對數(shù)字對象需求的保存策略，保存系統(tǒng)無法實現(xiàn)，輸出風險。

2.1.5 編碼信息

一個經(jīng)過編碼(包括壓縮和加密)的數(shù)字對象不具可識別性。因此，當檢測這類數(shù)字對象的可識別性時，需首先將其解碼還原為原始數(shù)字對象。所以，影響一個編碼過的數(shù)字對象的可識別性的因素有兩類：一是成功解碼的影響因素；二是解碼后原始數(shù)字對象的可識別性的影響因素。第二類因素包含了本文設計的其他所有元數(shù)據(jù)，故本元數(shù)據(jù)僅針對影響解碼的因素。

編碼過程有時較簡單，比如，對一個AA.PDF文件和一個BB.XLS文件，使用WINZIP工具并輸入壓縮密碼形成CC.ZIP壓縮文件；有時較復雜，比如，對上面的CC.ZIP文件再使用PGP工具并輸入加密密碼形成DD.PGP加密文件。解碼過程是編碼的逆過程，比如，針對上述的DD.PGP文件的解碼過程：首先使用PGP工具并輸入解密密碼對文件DD.PGP解密形成CC.ZIP，然后使用WINZIP工具并輸入解壓密碼解壓CC.ZIP形成原始文件AA.PDF和BB.XLS。因此，文件DD.PGP和CC.ZIP均不能被用戶檢索和使用，故對用戶來說均不具可識別性，文件AA.PDF和BB.XLS才具可識別性。

元素。由上可知，本元數(shù)據(jù)僅設計解碼的影響因素，包括：(a)編碼層次，如上述的DD.PGP的編碼層次為2，CC.ZIP的編碼層次為1，AA.PDF和BB.DOC的編碼層次都為0。(b)解碼工具，如上述的DD.PGP的解碼工具為PGP，CC.ZIP的解碼工具為WINZIP。(c)解碼密碼，如上述的解密密碼和解壓密碼，如無密碼，記錄為“無”。

檢測項目。(ⅰ)檢查每個層次的元素(a)的內(nèi)容，若不為0，再檢查對應層次的元素(b)的內(nèi)容，若為空，則相應層次缺乏解碼工具導致無法解碼，輸出風險。(ⅱ)檢查每個層次的元素(a)的內(nèi)容，若不為0，再檢查對應層次的元素(b)的內(nèi)容，若不為空，再檢查對應層次的元素(c)的內(nèi)容，若為空，則相應層次缺少解碼密碼導致無法解碼，輸出風險。(ⅲ)檢查每個層次的3個元素的值的相符性，若不相符，則要么解碼工具記錄有誤，要么解碼密碼記錄有誤，導致無法成功解碼，輸出風險。

2.1.6 檢索途徑

保存系統(tǒng)設置的檢索數(shù)字對象的途徑，用戶根據(jù)檢索途徑查找并獲取所需數(shù)字對象。比如，檢索系統(tǒng)提供的檢索途徑為“作者”，用戶可查找到某一作者著述的數(shù)字對象，通過這一檢索途徑用戶可以把這些數(shù)字對象與保存系統(tǒng)中的其他數(shù)字對象區(qū)分開來。因此，檢索途徑是影響數(shù)字對象可識別性的一個因素，故是可識別性的一個風險點。

元素。(a)文獻類型，在僅收錄一種類型文獻的保存系統(tǒng)中，該元素可省略，比如，《超星數(shù)字圖書館》只收錄圖書；但在綜合性保存系統(tǒng)中，該元素是必備的。(b)檢索途徑，根據(jù)元素(a)描述的文獻類型設置的檢索途徑，若該類文獻有多個檢索途徑，應重復該元素分別設置。(c)文獻標識，根據(jù)元素(a)描述的文獻類型和元素(b)描述的檢索途徑，針對一件數(shù)字對象的標引結果。

檢測項目。(ⅰ)檢查元素(a)，若內(nèi)容為空，且保存系統(tǒng)不是單一文獻類型的系統(tǒng)，輸出風險。(ⅱ)檢查元素(b)的內(nèi)容，若為空，表明有文獻類型但沒有檢索途徑，輸出風險；若不為空，檢查其與保存政策中的元素(a)描述的文獻類型的檢索途徑一致性，若不一致，表明保存系統(tǒng)實際設置的檢索途徑不包含在保存政策中，輸出風險。(ⅲ)檢查元素(c)的內(nèi)容，若為空，表明有檢索途徑但沒有文獻標識，輸出風險；若不為空，檢查其與元素(c)的內(nèi)容的一致性，若不一致，如檢索途徑為“專利號”，但文獻標識為“鄭州大學”，輸出風險。其中前兩個項目可自動檢測，最后一個項目的檢測需人工輔助。

2.1.7 外觀特征

元數(shù)據(jù)元素(6)可確保數(shù)字對象從存儲系統(tǒng)中識別出來，但無法保證用戶對其外觀的可識別性。外觀特征指保存系統(tǒng)決定的對用戶識別數(shù)字對象有重要影響的外觀方面的屬性，這些特征一般不作為檢索途徑，但在長期保存過程中這些特征不應發(fā)生改變。在數(shù)字對象被瀏覽之前，通過外觀特征的描述檢測其主要外觀屬性是否變化，是判斷數(shù)字對象可識別性的一個角度。

元素。(a)外觀特征名稱，比如，文本型數(shù)字對象的頁數(shù)、頁寬、頁高，正文字體、字號，圖像型數(shù)字對象的顏色、分辨率、位元深度，視頻型數(shù)字對象的播放時間等。(b)外觀特征值，比如，頁數(shù)的值為10頁，視頻播放時間30分鐘，圖像的顏色為紅色。外觀特征需配對描述。

檢測項目：(ⅰ)檢查每對外觀特征名稱和外觀特征值，若其中一個元素沒有內(nèi)容，要么有名稱但沒賦值，要么有賦值但沒名稱，這兩種情況均不符合邏輯，說明元數(shù)據(jù)描述出現(xiàn)錯誤，導致無法檢測，輸出風險。(ⅱ)對比每對元素的描述值與數(shù)字對象的實際值的一致性，比如，圖像的位元深度描述值是32位，但數(shù)字對象的檢測值是8位，表明長期保存過程中，一些保存活動改變了圖像的位元深度，可能影響數(shù)字對象的可識別性，輸出風險。

2.1.8 瀏覽工具信息

瀏覽數(shù)字對象所需的工具以及運行瀏覽工具所需環(huán)境的描述。瀏覽是用戶使用數(shù)字對象的最常用方式，也是用戶識別數(shù)字對象全貌(包括外觀和內(nèi)容)的最直接方式，若無法瀏覽，或瀏覽效果欠佳，即使數(shù)字對象保存完整無缺，對用戶來說也不具可識別性。瀏覽需通過相應瀏覽工具方能實現(xiàn)，因此，瀏覽工具信息是影響數(shù)字對象可識別性的一種因素。

元素。(a)瀏覽工具名稱，如CAJ Viewer(用于CAJ文件瀏覽)，MP4播放器(用于MP4視頻文件瀏覽)。(b)瀏覽工具版本，很多瀏覽工具都有版本之分，甚至一款瀏覽工具的不同版本能夠瀏覽的數(shù)字對象類型也不盡一樣。(c)瀏覽工具的運行環(huán)境，比如，不同的瀏覽工具運行的操作系統(tǒng)不同，甚至運行的操作系統(tǒng)版本也不同。(d)瀏覽效果，有時，一件數(shù)字對象可以有多種瀏覽工具，但瀏覽效果可能不同，有的瀏覽效果最佳，有的一般，有的較差。

檢測項目。(ⅰ)檢查元素(a)，若無賦值，對于一件非常規(guī)格式的數(shù)字對象，用戶選擇瀏覽工具困難，可能導致無法瀏覽，致使用戶無法識別，輸出風險。(ⅱ)檢查瀏覽工具的版本，若無賦值，可能會影響用戶對瀏覽工具版本的選擇，從而影響用戶對數(shù)字對象的有效識別，輸出風險。(ⅲ)檢查運行環(huán)境，若無賦值，可能會導致瀏覽工具無法運行，用戶也無法識別數(shù)字對象，輸出風險。(ⅳ)檢查瀏覽效果，若效果不是最佳，也會影響用戶的識別，輸出風險。

2.2 保存事件方面的可識別性風險型元數(shù)據(jù)

數(shù)字對象在長期保存過程中，執(zhí)行的影響其可識別性的保存活動。是可識別性風險的保存事件方面的檢測點。包括：

1)去索引事件[7]。刪除數(shù)字對象檢索途徑信息的一種保存活動。該事件的執(zhí)行結果，雖然不影響數(shù)字對象在存儲系統(tǒng)中的存在性和存儲的位置，但用戶無法通過檢索途徑查找到這些被去除索引的數(shù)字對象，導致對用戶來說這些數(shù)字對象不再具有可識別性，輸出風險。

2)壓縮事件。使用壓縮工具對原始數(shù)字對象進行壓縮的一種保存活動。目的在于減少數(shù)字對象體積，降低存儲所需空間。該事件的執(zhí)行結果導致數(shù)字對象失去可識別性，因為壓縮文件用戶無法直接瀏覽使用，輸出風險。

3)加密事件[8]。使用加密工具對原始數(shù)字對象進行加密的一種保存活動。目的在于提高數(shù)字對象的安全性。該事件的執(zhí)行結果導致數(shù)字對象失去可識別性，因為加密文件用戶無法直接瀏覽使用，輸出風險。

4)數(shù)字遷移事件。將格式過時的數(shù)字對象遷移到新格式的一種保存活動。目的在于用戶使用當前的瀏覽工具能夠瀏覽使用。該事件的執(zhí)行結果使格式過時的數(shù)字對象恢復可識別性。但是，遷移準確率若小于保存政策中的規(guī)定，將影響用戶對新格式數(shù)字對象的識別，輸出風險。

5)病毒檢測事件。使用病毒檢測工具對保存的數(shù)字對象集合檢測病毒的一種保存活動。目的在于及時發(fā)現(xiàn)并處理被病毒感染的數(shù)字對象，防止這些數(shù)字對象失去可識別性。但是，檢測周期若不符合保存政策的規(guī)定，數(shù)字對象的可識別性可能會降低，輸出風險。

6)介質刷新事件。使用介質刷新工具對存儲介質實施刷新一種保存活動。目的在于及時發(fā)現(xiàn)并處理存儲在介質異常中的數(shù)字對象，防止這些數(shù)字對象失去可識別性。但是，刷新周期若不符合保存政策的規(guī)定，存儲在保存介質中的數(shù)字對象的可識別性可能會降低，輸出風險。

2.3 保存政策方面的可識別性風險型元數(shù)據(jù)

不是可識別性風險的檢測點?；驗閿?shù)字對象方面的可識別性風險檢測服務(下面的1)、2)、3))，或為保存事件方面的可識別性風險檢測服務(下面的5)、6)、7))，或為元數(shù)據(jù)內(nèi)容賦值的界定服務(下面的4))。

1)數(shù)字對象標識符框架。包括標識符類型框架、標識符取值框架，以及標識符類型與標識符值的描述方式(是分開描述，還是合并描述)的選擇。用于數(shù)字對象標識符的檢測。

2)數(shù)字對象的關系。有：結構關系包含的類型界定；派生關系包含的類型界定。用于對象關系的檢測項目(ⅱ)。

3)文獻類型及其檢索途徑。有：文獻類型的界定；各類型文獻包含的檢索途徑界定。用于檢索途徑的檢測項目(ⅱ)。

4)安全備份政策。用于界定保存策略的安全備份策略中的“高”、“中”、“低”三個級別的具體要求。

5)數(shù)字遷移準確率。數(shù)字對象遷移后外觀和內(nèi)容沒有發(fā)生變化的比率設置。用于數(shù)字遷移事件的檢測。

6)病毒檢測頻率。病毒檢測的頻率設置。用于病毒檢測事件的檢測。

7)介質刷新周期。介質刷新的頻率設置。用于介質刷新事件的檢測。

3 可識別性風險檢測實驗

3.1 實驗術語界定

為簡化實驗過程的描述和實驗結果的表達，結合實驗對象CNKI，界定實驗術語見表1。

表1 實驗術語界定

3.2 樣本采集

來自CNKI，采集的總樣本量1萬件。使用為分層隨機抽樣法采集。步驟如下：

3.2.1 樣本單元的構建

基于TD、CD、SD 3個維度，建立一個三維空間坐標系，每個坐標點{TDi，CDj，SDk}(i∈[1,7]，j∈[1,9]，k∈[1,8])上的數(shù)字對象集合即為一個樣本單元。這樣，樣本單元共計504個。

3.2.2 樣本量計算

步驟：(a)依據(jù)樣本單元的3個維度的值，構建第n個樣本單元的檢索條件。(b)檢索并得到第n個樣本單元的數(shù)字對象數(shù)量An。(c)檢索CNKI的數(shù)字對象總量為D。(d)計算第n個樣本單元數(shù)字對象數(shù)量占總量的比例：Bn=An/D。(e)計算第n個樣本單元的樣本抽取量：Cn=Bn×10000。

3.2.3 樣本獲取

根據(jù)上述計算的第n個樣本單元的樣本抽取量Cn，在該樣本單元的檢索結果中，基于無重復隨機抽樣法，抽取Cn條文獻，下載每條文獻，形成第n個樣本單元的樣本。

以第1個層次單元{TD1，CD1，SD1}的為例。首先，在CNKI的高級檢索界面中，選擇學科領域為“基礎學科”，時間范圍為1990年之前，文獻類型為“全部期刊”，檢索結果為370 423。其次，在CNKI的高級檢索界面中，選擇學科領域為所有學科，時間為2016年之前，文獻類型不限，檢索結果為74 225 795。再次，計算第1個層次單元的抽取量：370423÷74225795×10000=50。最后，在第一步的檢索結果1～370 423中隨機抽取50個不重復的數(shù)字，下載這些數(shù)字對應文獻號的文獻，形成第一個層次單元的樣本。

元數(shù)據(jù)內(nèi)容的獲取。均來自CNKI(本項目的合作單位)的相關元數(shù)據(jù)。包括保存型、管理型和描述型等3類元數(shù)據(jù)。將本文設計的可識別性風險型元數(shù)據(jù)與上述3種元數(shù)據(jù)進行映射，賦值每件樣本的風險型元數(shù)據(jù)元素。若無映射元素，不賦值。

3.3 風險檢測

根據(jù)樣本集的維度，進行下述4類可識別性風險檢測實驗。其中，零維度檢測實驗1次；單維度檢測有3種，各實驗1次；二維度檢測有3種，各實驗1次；三維度檢測實驗1次；共計8次實驗。

表2

3.3.1 零維度檢測

檢測結果見圖1。概率較高的風險點有：CP3、CP6、CP7、CP13、CP14。

圖1 零維度檢測結果

3.3.2 單維度檢測

分3種：TD、CD、SD的單維度檢測。檢測結果圖示形成分別見圖2、圖3、圖4。檢測結果的匯總見表2。

3.3.3 二維度檢測

有下述3種類型：

1){TD，CD}的二維度檢測。檢測結果圖示形成見圖5。檢測結果的描述形式見表3。

圖2 TD檢測結果圖

圖3 CD檢測結果圖

圖4 SD檢測結果圖

檢測類型主要風險點對應風險點上的風險分布TD單元檢測CP3{TDi}(i=1)CP6{TDi}(i=1)CP7{TDi}(i=1)CP13{TDi}(i∈[1,7])CP14{TDi}(i∈[1,7])CD單元檢測CP3{CDj}(j∈[1,9])CP6{CDj}(j=8)CP7{CDj}(j=8)CP13{CDj}(j=9)CP14{CDj}(j=9)SD單元檢測CP3、CP6、CP7、CP13、CP14{SDk}(k∈[1,8])

表3{TD，CD}檢測結果

風險值較高的風險點對應風險點上的風險分布CP3{TDi,CDj}:i=1,j∈[1,9]CP6{TDi,CDj}:i=1,j=8CP7{TDi,CDj}:i=1,j=8CP13{TDi,CDj}:i∈[1,7],j=9CP14{TDi,CDj}:i∈[1,7],j=9

2){TD，SD}的二維度檢測。檢測結果圖示形成見圖6。檢測結果的描述形式見表4。

表4 {TD，SD}檢測結果

3){CD，SD}的二維度檢測。檢測結果圖示形成見圖7。檢測結果的描述形式見表5。

圖5 {TD，CD}二維度檢測結果圖

圖6 {TD，SD}二維度檢測結果

圖7 {CD，SD}二維度檢測結果

風險值較高的風險點對應風險點上的風險分布CP3{CDj,SDk}:j∈[1,9],k∈[1,8]CP6{CDj,SDk}:j=8,k∈[1,8]CP7{CDj,SDk}:j=8,k∈[1,8]CP13{CDj,SDk}:j=9,k∈[1,8]CP14{CDj,SDk}:j=9,k∈[1,8]

3.3.4 三維度檢測

檢測結果圖示形成的圖太大，略。檢測結果的描述形式見表6。

表6 三維度檢測主要風險點及其風險分布

3.4 結果分析

實驗樣本是對CNKI檢索而獲取的，這意味著，所有用于實驗的樣本數(shù)字對象均可被保存系統(tǒng)識別出來，并且均可從時間、文獻類型和學科3個檢索途徑檢索出來。因此，檢測實驗在下述風險型元數(shù)據(jù)的檢測項目上不會產(chǎn)生風險：(a)數(shù)字對象唯一標識符的所有檢測項目；(b)數(shù)字對象存儲位置的所有檢測項目；(c)數(shù)字對象檢索途徑的時間、文獻類型和學科等三個途徑的相關檢測項目；(d)去索引事件的檢測項目。需要說明的是，在實際的數(shù)字保存可識別性風險檢測中，檢測對象是保存系統(tǒng)的整個數(shù)字對象，或是通過其他方式劃分產(chǎn)生的部分數(shù)字對象，本文設計的所有數(shù)字對象方面的風險型元數(shù)據(jù)和保存事件方面的風險型元數(shù)據(jù)均可能產(chǎn)生風險。

根據(jù)檢測結果，可識別性風險點如下：

3.4.1 對象的關系

主要集中在{TDi，CDj，SDk}(i=1，j∈[1,9]，k∈[1,8])。即1990年之前的各種類型文獻的各個學科中?？赡茉蚴?，該集合的數(shù)字對象收錄到CNKI保存系統(tǒng)中最早，當時沒有進行數(shù)字對象的關聯(lián)關系分析和標引，或分析標引不充分或不準確。解決辦法：針對該集合中的每件數(shù)字對象，標引、補充、核實關聯(lián)數(shù)字對象的標識符、關系類型和關系值。

3.4.2 檢索途徑

主要集中在{TDi，CDj，SDk}(i=1，j=8，k∈[1,8])。即1990年之前所有學科的古籍文獻中。因為所有古籍都在1990年之前，所以，實際上該風險點產(chǎn)生自的數(shù)字對象集合與時間無關?？赡茉蚴牵珻NKI對古籍文獻僅提供全文、書名、著者、卷名檢索途徑，缺少用戶常用的關鍵詞、主題詞等檢索途徑。另外，也許因為這類文獻的特殊性，充分標引需要古文獻背景知識，所以，一些現(xiàn)有的檢索途徑缺乏賦值文獻標識。解決辦法：針對該集合中的每件數(shù)字對象，補充、核實標引內(nèi)容；另外，建議考慮增加關鍵詞、主題詞等檢索途徑。

3.4.3 外觀特征

主要集中在{TDi，CDj，SDk}(i=1，j=8，k∈[1,8])。即1990年之前所有學科的古籍文獻中。與上述“檢索途徑”風險點的原因一樣，該風險點產(chǎn)生自的數(shù)字對象集合與時間無關?？赡茉蛟谟?，在所有的文獻類型中，可能只有古籍文獻的外觀特征比較重要，CNKI給予了標引，但不做檢索途徑，僅作為長期保存之需的保存型元數(shù)據(jù)的一個元素；其他類型文獻均無該類標引；而一些古籍文獻的該元數(shù)據(jù)的標引結果與原始數(shù)字對象的實際不完全相符。解決辦法：針對該集合中的每件數(shù)字對象，核實標引內(nèi)容，使標引結果與數(shù)字對象實際情況一致。

3.4.4 病毒檢測事件

主要集中在{TDi，CDj，SDk}(i∈[1,7]，j=9，k∈[1,8])。即所有年代所有學科的工具書中。經(jīng)與CNKI核實，該數(shù)字對象集合保存在一個單獨的存儲設備中，而該存儲設備執(zhí)行病毒檢測事件缺失。解決辦法：將該存儲設備添加到存儲設備列表中，保存系統(tǒng)嚴格按照保存政策對存儲設備列表中的所有存儲設備執(zhí)行病毒檢測事件。

3.4.5 介質刷新事件

主要集中在{TDi，CDj，SDk}(i∈[1,7]，j=9，k∈[1,8])。即所有年代所有學科的工具書中。與上述“病毒檢測事件”的原因相同，該數(shù)字對象集合保存在一個單獨的存儲設備中，而該存儲設備執(zhí)行介質刷新事件缺失。解決辦法：將該存儲設備添加到存儲設備列表中，保存系統(tǒng)嚴格按照保存政策對存儲設備列表中的所有存儲設備執(zhí)行介質刷新事件。

4 結論

數(shù)字保存工作是一個充滿風險的過程。風險檢測應該是保存系統(tǒng)執(zhí)行的一項日常操作。本研究對數(shù)字保存風險之一的可識別性風險，闡述該類風險含義，設計該類風險的元數(shù)據(jù)，構建該類風險的檢測方法，并基于CNKI的數(shù)字對象樣本對檢測方法進行了實驗。實驗結果表明，本文設計的檢測方法是適用的，可以用于檢測保存系統(tǒng)中數(shù)字對象的可識別性風險。

但是，檢測方法完全基于本文設計的風險型元數(shù)據(jù)。所以，可識別性風險型元數(shù)據(jù)需要在未來的研究和實踐中進行適用性驗證和完善。

[1]Vermaaten S,et al.Identifying Responsibility to Successful Digital Preservation:the SPOT Model for Risk Assessment[EB/OL].D-Lib Magazine,2012,18(9/10)

[2]OCLC,RLG.Implementing Preservation Repositories for Digital Materials:Current Practice and Emerging Trends in the Cultural Heritage Community[EB/OL].http://www.oclc.org/research/projects/pmwg/surveyreport.pdf.,2017-05-01.

[3]OCLC,RLG.Preservation Metadata for Digital Objects:A Review of the State of the Art[EB/OL].http://www.oclc.org/research/pmwg/presmeta_wp.pdf,2017-07-30.

[4]PREMIS Editorial Committee.PREMIS Data Dictionary for Preservation Metadata(Version 3.0)[EB/OL].http://www.loc.gov/standards/premis/,2017-04-24.

[5]Digital Library Federation.Electronic Resources Management：ERM Data Meta Dictionary[EB/OL].http://www.diglib.org/pubs/dlf102/ERMFINAL.pdf,2017-02-22.

[6]Bradley K.Digital Sustainability and Digital Repositories[EB/OL].http://www.valaconf.org.au/vala2006/papers2006/45_Bradley_Final.pdf,2015-07-19.

[7]The Library of Congress.Linked Data Service[EB/OL].http://id.loc.gov/vocabulary/preservation/eventType.html,2017-03-04.

[8]Wright R.The Significance of Storage in the“Cost of Risk”of Digital Preservation[J].International Journal of Digital Curation,2009,4(3):20-32.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看