• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      數(shù)字保存的可識別性風險檢測

      2018-03-14 05:46:43臧國全周麗媛
      現(xiàn)代情報 2018年3期
      關鍵詞:識別性標識符檢索

      臧國全 周麗媛 李 哲

      (1.鄭州大學信息管理學院,河南 鄭州 450001;2.鄭州大學公共管理學院,河南 鄭州 450001)

      人類社會進入了數(shù)字化時代,數(shù)字保存是一項基本的社會職責。但是,與傳統(tǒng)信息資源相比,數(shù)字資源具有內(nèi)容的易復制性、載體的不穩(wěn)定性、瀏覽的非直接性、存儲的環(huán)境依賴性等特征,所以對其進行長期保存的過程將產(chǎn)生多種類型風險,可識別性風險是其中一種。因此,對可識別性風險進行管理是一項基本的保存活動,但管理的前提是對可識別性風險進行識別,而識別的一種有效方法是對可識別性風險進行檢測。

      1 可識別性涵義及其風險類型

      1.1 可識別性涵義

      指將數(shù)字對象與保存的其他數(shù)字對象區(qū)分開來,以實現(xiàn)保存系統(tǒng)對數(shù)字對象的發(fā)現(xiàn)、用戶對數(shù)字對象的檢索使用[1]。因此,可識別性包含兩層涵義:1)保存系統(tǒng)對數(shù)字對象的識別,當保存系統(tǒng)對數(shù)字對象實施保存活動時,需要準確無誤地識別出一件數(shù)字對象,這種識別具有唯一性[2]。比如,保存系統(tǒng)對某一數(shù)字對象進行數(shù)字遷移,需識別出該數(shù)字對象,方能對其實施遷移操作。2)用戶對數(shù)字對象的識別,當用戶對數(shù)字對象訪問使用時,需要準確無誤地檢索出符合檢索條件的一類數(shù)字對象,然后通過外觀特征和瀏覽工具判斷其相關性并進行瀏覽識別,這種識別具有聚類性。

      1.2 可識別性風險類型

      基于上述可識別性涵義闡釋,界定可識別性風險類型如下:

      1)數(shù)字對象沒有被賦予唯一標識符,或賦予的標識符錯誤。導致保存系統(tǒng)無法識別數(shù)字對象,或識別出的數(shù)字對象不具唯一性,或識別出的數(shù)字對象不正確;

      2)數(shù)字對象沒有記錄其存儲位置,或記錄錯誤。導致即使被賦予了唯一標識符,保存系統(tǒng)也可能無法找到具體數(shù)字對象,或找到的數(shù)字對象不正確;

      3)數(shù)字對象之間存在各種關聯(lián),當需要對這些關聯(lián)進行維護時,關聯(lián)對象的描述或關聯(lián)類型的描述出現(xiàn)錯誤。導致關聯(lián)對象無法識別,或關聯(lián)類型識別錯誤,致使維護操作無法實施;

      4)數(shù)字對象遭到破壞,且無法基于本地或異地備份進行恢復。導致數(shù)字對象無法繼續(xù)被識別使用;

      5)數(shù)字對象的格式過時,且無法進行數(shù)字遷移和數(shù)字仿真。用戶無法繼續(xù)訪問使用,這些數(shù)字對象失去可識別性;

      6)數(shù)字對象編碼后,對用戶不具可識別性,需解碼還原才可識別。編碼層次、編碼工具和解碼密碼等記錄錯誤均會導致解碼操作失敗,影響數(shù)字對象的可識別性;

      7)用戶使用數(shù)字對象,需首先從保存系統(tǒng)中檢索出來,再判斷其是否相關,最后通過瀏覽使用。保存系統(tǒng)設置的檢索途徑不足導致用戶無法從系統(tǒng)未提供的檢索途徑查找到數(shù)字對象,外觀特征描述不足導致用戶對其相關性判斷困難,瀏覽工具的不支持導致用戶無法瀏覽使用,這些因素都會影響用戶對數(shù)字對象的有效識別。

      上述前4種風險影響保存系統(tǒng)對數(shù)字對象的可識別性,后3種風險影響用戶對數(shù)字對象的可識別性。

      2 可識別性風險型元數(shù)據(jù)

      2.1 數(shù)字對象方面的可識別性風險型元數(shù)據(jù)

      是數(shù)字對象方面的可識別性風險的檢測點。包括:

      2.1.1 標識符

      用于唯一識別數(shù)字對象的標識符號。提供從標識符角度直接識別出數(shù)字對象的一種方法??梢杂杀4嫦到y(tǒng)收錄數(shù)字對象時創(chuàng)建,也可由數(shù)字對象提交者創(chuàng)建并作為其元數(shù)據(jù)和數(shù)字對象一起提交給保存系統(tǒng)。創(chuàng)建方式可自動生成,也可人工分配。標識符的值應足夠的多,以保證保存系統(tǒng)中每件數(shù)字對象都能被唯一識別。保存系統(tǒng)選擇使用的標識符應該是持久適用的。標識符的命名框架是保存系統(tǒng)的一個實施問題,需在保存政策中制定。

      元素。(a)標識符類型,用以確保數(shù)字對象標識符具備唯一性的域[3],比如,針對圖書類數(shù)字對象,標識符的類型可以是ISBN;如果保存政策中制定的標識符命名框架僅使用一種類型的標識符,無需記錄標識符的類型,但與其它保存系統(tǒng)進行數(shù)據(jù)交換時,需添加標識符類型。(b)標識符的值,數(shù)字對象標識符的取值,如果在保存政策制定的標識符命名框架中,取值已包含標識符類型,那么無需明確記錄標識符類型。不同類型中的標識符的值可以是一樣的,但標識符類型和標識符值結合在一起時必須是唯一的。

      檢測項目。檢查元素(a)和(b)的內(nèi)容,如果均為空,或其中之一為空,或與保存政策中的標識符命名框架不相符,出現(xiàn)數(shù)字對象無標識符,或標識符不完整,或標識符命名錯誤,輸出風險。

      2.1.2 存儲位置

      用于唯一識別數(shù)字對象的存儲地址,包括存儲的方式信息和位置信息[4]。提供從存儲地址角度直接識別數(shù)字對象的一種方法。存儲系統(tǒng)需對其保存的數(shù)字對象分配存儲位置并進行維護管理,通常情況下,分配過程是由程序自動實現(xiàn)。

      元素。(a)存儲位置類型,描述存儲位置的方式,有多種,比如URI、絕對路徑、相對路徑等;保存系統(tǒng)識別數(shù)字對象的保存位置時,需首先識別所使用的位置方式。(b)存儲位置值,在存儲系統(tǒng)使用的存儲位置類型框架下,數(shù)字對象的具體存儲位置的描述值,比如,當存儲位置類型為URI時,存儲位置的值為http://wwasearch.loc.gov/107th/200212107035;當存儲位置的類型為絕對路徑時,其值為c:apache2htdocsindex.hTDl;當存儲位置的類型為相對路徑時,其值為/home/web/publichTDl/index.hTDl。

      檢測項目。(ⅰ)檢查上述兩個元素的內(nèi)容,若其中之一為空,則無法從存儲位置識別數(shù)字對象,輸出風險。(ⅱ檢查位置類型與位置值之間的匹配性,若不匹配,如類型為絕對路徑,而值為/home/web/publichTDl/index.hTDl,也無法識別數(shù)字對象,輸出風險。

      2.1.3 對象的關系

      一件數(shù)字對象可以和其他多個對象發(fā)生關聯(lián),以展示數(shù)字對象之間的某種關系,當保存系統(tǒng)對這些關系進行維護時,需識別出與參照點數(shù)字對象相關聯(lián)的其他數(shù)字對象,也需對關系表達的正確性進行識別。

      該元數(shù)據(jù)用于與參照點數(shù)字對象直接關聯(lián)的一族數(shù)字對象的可識別性檢測,包括族內(nèi)各具體數(shù)字對象的可識別性檢測以及參照點數(shù)字對象與族內(nèi)其他數(shù)字對象之間關系描述的可識別性,這種檢測可稱為直接關聯(lián)的族性可識別性檢測[5]。檢測思路:一是根據(jù)參照點數(shù)字對象,通過描述關系的元數(shù)據(jù),識別出與其直接關聯(lián)的其他數(shù)字對象的標識符;二是根據(jù)標識符檢測這些具體數(shù)字對象的可識別性;三是檢測關系描述的正確性。本質上講,族性可識別性檢測的對象可以是族內(nèi)的所有數(shù)字對象,包括直接關聯(lián)和間接關聯(lián)的數(shù)字對象,后者的關聯(lián)層次沒有限制。但是,本文設計的檢測方法中,只檢測與參照點數(shù)字對象直接關聯(lián)的其他數(shù)字對象,不檢測間接關聯(lián)的數(shù)字對象。原因有二:一是降低檢測的復雜度;二是基于這樣一個事實:遍歷每個參照點數(shù)字對象的直接關聯(lián)的族性檢測,即可實現(xiàn)保存數(shù)字對象集合的所有直接關聯(lián)和間接關聯(lián)的族性可識別性檢測。

      元素。(a)關聯(lián)數(shù)字對象標識符。(b)關系類型,主要有3種:結構關系、派生關系和依賴關系。結構關系主要展示數(shù)字對象與其組成部分之間的關系,如,一個表現(xiàn)型數(shù)字對象由若干個文件型數(shù)字對象構成,兩者之間的關系是父子型的結構關系。如果保存系統(tǒng)不能將一個數(shù)字對象的各個部分重新組合,數(shù)字對象就會失去原有價值。對于一個簡單數(shù)字對象(如一張圖片),結構信息也很簡單,文件本身就是其表現(xiàn)。但有些情況下,結構信息比較復雜,如電子書包含很多頁,每頁都是一個獨立數(shù)字對象;網(wǎng)站包含很多網(wǎng)頁,每個網(wǎng)頁也是一個獨立數(shù)字對象。派生關系來自于數(shù)字對象的復制或轉換。這種過程應該保證其知識內(nèi)容不變,但對象的形式,比如格式,可能發(fā)生變化。如,對格式為X的文件A進行遷移產(chǎn)生了一個格式為Y的文件B,A和B之間存在派生關系。上述兩種都是描述內(nèi)容對象之間的關系。依賴關系是當一個內(nèi)容對象需要一個環(huán)境對象支持其功能、傳播、呈現(xiàn)以及內(nèi)容聚合的實現(xiàn)時,內(nèi)容對象與環(huán)境對象之間的關系。比如,格式為DOC的內(nèi)容對象,其呈現(xiàn)所需MS WORD軟件的環(huán)境對象,兩者之間的關系就是依賴關系。(c)關系值,表達關系的詞語。不同類型的關系,其關系值也不同。針對結構關系,其值如:包含和被包含關系、父子關系、部分與整體關系等。針對派生關系,其值如:圖像與其圖標關系、遷移關系、版本關系、衍生關系等。針對依賴關系,其值如:需要、被需要等。

      檢測項目。(ⅰ)檢查上述元素,至少其中一個元素沒有內(nèi)容,輸出風險;如,元素(a)有內(nèi)容,但元素(b)和(c)均沒有內(nèi)容,則可識別出關聯(lián)數(shù)字對象,但無法識別出參照點數(shù)字對象與關聯(lián)數(shù)字對象之間的關聯(lián)類型和關聯(lián)值,輸出風險。(ⅱ)當上述3個元素均有內(nèi)容時,檢查元素(b)和(c)的內(nèi)容匹配情況,應根據(jù)保存政策中對象之間關系的設置進行檢查,若不匹配,則關系識別錯誤,輸出風險。(ⅲ)當上述檢測項目(a)和(b)均不產(chǎn)生風險時,根據(jù)元素(a)的值找出關聯(lián)數(shù)字對象,檢查參照點數(shù)字對象和關聯(lián)數(shù)字對象之間的關系是否與為元素(b)和元素(c)描述的一致,若不一致,關系識別錯誤,輸出風險。

      2.1.4 保存策略

      依據(jù)數(shù)字對象的價值,保存系統(tǒng)為其設定的保存功能。主要有兩類[6]:一是確保安全保存的數(shù)字對象備份策略;二是確保用戶長期有效使用的格式過時數(shù)字對象的訪問策略。前者包括本地備份和異地備份,當存儲系統(tǒng)中數(shù)字對象遭到破壞,比如因為病毒或黑客的侵襲、存儲介質性能衰退、不可抗拒的自然災害、人為或非人為的破壞等,導致數(shù)字對象不可識別時,保存系統(tǒng)可以基于備份恢復數(shù)字對象的可識別性。后者包括數(shù)字遷移和數(shù)字仿真,當數(shù)字對象格式過時,比如因為軟件開發(fā)商退出市場、改變了商業(yè)重點、停止了對原格式的支持,或者主導市場的軟件開發(fā)商已經(jīng)放棄了這種格式的應用,或者原格式的靈活度不足以支持新軟件機制等,導致數(shù)字對象無法被用戶瀏覽(對用戶來說是不可識別的),保存系統(tǒng)可以實施遷移和仿真技術恢復數(shù)字對象的可識別性。否則,出現(xiàn)上述任一情況時,若不實施相應的保存策略,數(shù)字對象不再具有可識別性。

      元素。(a)保存策略類型,包括安全備份策略和有效訪問策略兩類。(b)保存策略級別,針對安全備份策略,包括高、中、低3個級別;如,“高”意味著同時對異地備份的份數(shù)、異地距離、本地備份的備份都有要求,“中”意味著在上述級別中不對異地距離做出要求,“低”意味著僅對本地備份做出要求;每個級別的具體要求由保存政策定義。針對有效訪問策略,包括數(shù)字遷移和數(shù)字仿真兩類;數(shù)字遷移指當數(shù)字對象的文件格式出現(xiàn)過時時,保存系統(tǒng)將其遷移到新的文件格式,以使用戶使用當前的瀏覽工具能夠有效瀏覽使用;數(shù)字仿真指在出現(xiàn)上述情況時,保存系統(tǒng)設計或購買一個仿真工具,用戶使用當前的瀏覽軟件時,自動調(diào)用仿真工具,仿真工具再調(diào)出和瀏覽原數(shù)字對象;當然,兩者均有優(yōu)缺點,保存系統(tǒng)應根據(jù)自己的保存目標和可利用的保存資源等因素選擇使用。(c)保存系統(tǒng)實現(xiàn)情況,用于描述保存系統(tǒng)能否實現(xiàn)上述界定的保存策略,包括能夠實現(xiàn)、不能實現(xiàn)、無法確定3種。

      檢測項目。(ⅰ)檢查元素(a)和元素(b)的內(nèi)容,若至少其中一個沒有內(nèi)容,表明或沒有安全備份策略,或沒有有效訪問策略,或兩者均沒有,導致或無法通過備份恢復遭到破壞的數(shù)字對象的可識別性,或無法通過數(shù)字遷移(數(shù)字仿真)恢復格式過時的數(shù)字對象的可識別性,或同時發(fā)生這兩種情況,輸出風險。(ⅱ)若元素(a)和元素(b)均有內(nèi)容,檢查兩個元素內(nèi)容的匹配情況,若匹配不一致,如元素(a)內(nèi)容是安全備份策略,但元素(b)內(nèi)容是數(shù)字遷移;或元素(a)內(nèi)容是有效訪問策略,而元素(b)內(nèi)容是“高”;導致保存策略無法實施,輸出風險。(ⅲ)檢查元素(c)的內(nèi)容,若不是“能夠實現(xiàn)”,表明針對數(shù)字對象需求的保存策略,保存系統(tǒng)無法實現(xiàn),輸出風險。

      2.1.5 編碼信息

      一個經(jīng)過編碼(包括壓縮和加密)的數(shù)字對象不具可識別性。因此,當檢測這類數(shù)字對象的可識別性時,需首先將其解碼還原為原始數(shù)字對象。所以,影響一個編碼過的數(shù)字對象的可識別性的因素有兩類:一是成功解碼的影響因素;二是解碼后原始數(shù)字對象的可識別性的影響因素。第二類因素包含了本文設計的其他所有元數(shù)據(jù),故本元數(shù)據(jù)僅針對影響解碼的因素。

      編碼過程有時較簡單,比如,對一個AA.PDF文件和一個BB.XLS文件,使用WINZIP工具并輸入壓縮密碼形成CC.ZIP壓縮文件;有時較復雜,比如,對上面的CC.ZIP文件再使用PGP工具并輸入加密密碼形成DD.PGP加密文件。解碼過程是編碼的逆過程,比如,針對上述的DD.PGP文件的解碼過程:首先使用PGP工具并輸入解密密碼對文件DD.PGP解密形成CC.ZIP,然后使用WINZIP工具并輸入解壓密碼解壓CC.ZIP形成原始文件AA.PDF和BB.XLS。因此,文件DD.PGP和CC.ZIP均不能被用戶檢索和使用,故對用戶來說均不具可識別性,文件AA.PDF和BB.XLS才具可識別性。

      元素。由上可知,本元數(shù)據(jù)僅設計解碼的影響因素,包括:(a)編碼層次,如上述的DD.PGP的編碼層次為2,CC.ZIP的編碼層次為1,AA.PDF和BB.DOC的編碼層次都為0。(b)解碼工具,如上述的DD.PGP的解碼工具為PGP,CC.ZIP的解碼工具為WINZIP。(c)解碼密碼,如上述的解密密碼和解壓密碼,如無密碼,記錄為“無”。

      檢測項目。(ⅰ)檢查每個層次的元素(a)的內(nèi)容,若不為0,再檢查對應層次的元素(b)的內(nèi)容,若為空,則相應層次缺乏解碼工具導致無法解碼,輸出風險。(ⅱ)檢查每個層次的元素(a)的內(nèi)容,若不為0,再檢查對應層次的元素(b)的內(nèi)容,若不為空,再檢查對應層次的元素(c)的內(nèi)容,若為空,則相應層次缺少解碼密碼導致無法解碼,輸出風險。(ⅲ)檢查每個層次的3個元素的值的相符性,若不相符,則要么解碼工具記錄有誤,要么解碼密碼記錄有誤,導致無法成功解碼,輸出風險。

      2.1.6 檢索途徑

      保存系統(tǒng)設置的檢索數(shù)字對象的途徑,用戶根據(jù)檢索途徑查找并獲取所需數(shù)字對象。比如,檢索系統(tǒng)提供的檢索途徑為“作者”,用戶可查找到某一作者著述的數(shù)字對象,通過這一檢索途徑用戶可以把這些數(shù)字對象與保存系統(tǒng)中的其他數(shù)字對象區(qū)分開來。因此,檢索途徑是影響數(shù)字對象可識別性的一個因素,故是可識別性的一個風險點。

      元素。(a)文獻類型,在僅收錄一種類型文獻的保存系統(tǒng)中,該元素可省略,比如,《超星數(shù)字圖書館》只收錄圖書;但在綜合性保存系統(tǒng)中,該元素是必備的。(b)檢索途徑,根據(jù)元素(a)描述的文獻類型設置的檢索途徑,若該類文獻有多個檢索途徑,應重復該元素分別設置。(c)文獻標識,根據(jù)元素(a)描述的文獻類型和元素(b)描述的檢索途徑,針對一件數(shù)字對象的標引結果。

      檢測項目。(ⅰ)檢查元素(a),若內(nèi)容為空,且保存系統(tǒng)不是單一文獻類型的系統(tǒng),輸出風險。(ⅱ)檢查元素(b)的內(nèi)容,若為空,表明有文獻類型但沒有檢索途徑,輸出風險;若不為空,檢查其與保存政策中的元素(a)描述的文獻類型的檢索途徑一致性,若不一致,表明保存系統(tǒng)實際設置的檢索途徑不包含在保存政策中,輸出風險。(ⅲ)檢查元素(c)的內(nèi)容,若為空,表明有檢索途徑但沒有文獻標識,輸出風險;若不為空,檢查其與元素(c)的內(nèi)容的一致性,若不一致,如檢索途徑為“專利號”,但文獻標識為“鄭州大學”,輸出風險。其中前兩個項目可自動檢測,最后一個項目的檢測需人工輔助。

      2.1.7 外觀特征

      元數(shù)據(jù)元素(6)可確保數(shù)字對象從存儲系統(tǒng)中識別出來,但無法保證用戶對其外觀的可識別性。外觀特征指保存系統(tǒng)決定的對用戶識別數(shù)字對象有重要影響的外觀方面的屬性,這些特征一般不作為檢索途徑,但在長期保存過程中這些特征不應發(fā)生改變。在數(shù)字對象被瀏覽之前,通過外觀特征的描述檢測其主要外觀屬性是否變化,是判斷數(shù)字對象可識別性的一個角度。

      元素。(a)外觀特征名稱,比如,文本型數(shù)字對象的頁數(shù)、頁寬、頁高,正文字體、字號,圖像型數(shù)字對象的顏色、分辨率、位元深度,視頻型數(shù)字對象的播放時間等。(b)外觀特征值,比如,頁數(shù)的值為10頁,視頻播放時間30分鐘,圖像的顏色為紅色。外觀特征需配對描述。

      檢測項目:(ⅰ)檢查每對外觀特征名稱和外觀特征值,若其中一個元素沒有內(nèi)容,要么有名稱但沒賦值,要么有賦值但沒名稱,這兩種情況均不符合邏輯,說明元數(shù)據(jù)描述出現(xiàn)錯誤,導致無法檢測,輸出風險。(ⅱ)對比每對元素的描述值與數(shù)字對象的實際值的一致性,比如,圖像的位元深度描述值是32位,但數(shù)字對象的檢測值是8位,表明長期保存過程中,一些保存活動改變了圖像的位元深度,可能影響數(shù)字對象的可識別性,輸出風險。

      2.1.8 瀏覽工具信息

      瀏覽數(shù)字對象所需的工具以及運行瀏覽工具所需環(huán)境的描述。瀏覽是用戶使用數(shù)字對象的最常用方式,也是用戶識別數(shù)字對象全貌(包括外觀和內(nèi)容)的最直接方式,若無法瀏覽,或瀏覽效果欠佳,即使數(shù)字對象保存完整無缺,對用戶來說也不具可識別性。瀏覽需通過相應瀏覽工具方能實現(xiàn),因此,瀏覽工具信息是影響數(shù)字對象可識別性的一種因素。

      元素。(a)瀏覽工具名稱,如CAJ Viewer(用于CAJ文件瀏覽),MP4播放器(用于MP4視頻文件瀏覽)。(b)瀏覽工具版本,很多瀏覽工具都有版本之分,甚至一款瀏覽工具的不同版本能夠瀏覽的數(shù)字對象類型也不盡一樣。(c)瀏覽工具的運行環(huán)境,比如,不同的瀏覽工具運行的操作系統(tǒng)不同,甚至運行的操作系統(tǒng)版本也不同。(d)瀏覽效果,有時,一件數(shù)字對象可以有多種瀏覽工具,但瀏覽效果可能不同,有的瀏覽效果最佳,有的一般,有的較差。

      檢測項目。(ⅰ)檢查元素(a),若無賦值,對于一件非常規(guī)格式的數(shù)字對象,用戶選擇瀏覽工具困難,可能導致無法瀏覽,致使用戶無法識別,輸出風險。(ⅱ)檢查瀏覽工具的版本,若無賦值,可能會影響用戶對瀏覽工具版本的選擇,從而影響用戶對數(shù)字對象的有效識別,輸出風險。(ⅲ)檢查運行環(huán)境,若無賦值,可能會導致瀏覽工具無法運行,用戶也無法識別數(shù)字對象,輸出風險。(ⅳ)檢查瀏覽效果,若效果不是最佳,也會影響用戶的識別,輸出風險。

      2.2 保存事件方面的可識別性風險型元數(shù)據(jù)

      數(shù)字對象在長期保存過程中,執(zhí)行的影響其可識別性的保存活動。是可識別性風險的保存事件方面的檢測點。包括:

      1)去索引事件[7]。刪除數(shù)字對象檢索途徑信息的一種保存活動。該事件的執(zhí)行結果,雖然不影響數(shù)字對象在存儲系統(tǒng)中的存在性和存儲的位置,但用戶無法通過檢索途徑查找到這些被去除索引的數(shù)字對象,導致對用戶來說這些數(shù)字對象不再具有可識別性,輸出風險。

      2)壓縮事件。使用壓縮工具對原始數(shù)字對象進行壓縮的一種保存活動。目的在于減少數(shù)字對象體積,降低存儲所需空間。該事件的執(zhí)行結果導致數(shù)字對象失去可識別性,因為壓縮文件用戶無法直接瀏覽使用,輸出風險。

      3)加密事件[8]。使用加密工具對原始數(shù)字對象進行加密的一種保存活動。目的在于提高數(shù)字對象的安全性。該事件的執(zhí)行結果導致數(shù)字對象失去可識別性,因為加密文件用戶無法直接瀏覽使用,輸出風險。

      4)數(shù)字遷移事件。將格式過時的數(shù)字對象遷移到新格式的一種保存活動。目的在于用戶使用當前的瀏覽工具能夠瀏覽使用。該事件的執(zhí)行結果使格式過時的數(shù)字對象恢復可識別性。但是,遷移準確率若小于保存政策中的規(guī)定,將影響用戶對新格式數(shù)字對象的識別,輸出風險。

      5)病毒檢測事件。使用病毒檢測工具對保存的數(shù)字對象集合檢測病毒的一種保存活動。目的在于及時發(fā)現(xiàn)并處理被病毒感染的數(shù)字對象,防止這些數(shù)字對象失去可識別性。但是,檢測周期若不符合保存政策的規(guī)定,數(shù)字對象的可識別性可能會降低,輸出風險。

      6)介質刷新事件。使用介質刷新工具對存儲介質實施刷新一種保存活動。目的在于及時發(fā)現(xiàn)并處理存儲在介質異常中的數(shù)字對象,防止這些數(shù)字對象失去可識別性。但是,刷新周期若不符合保存政策的規(guī)定,存儲在保存介質中的數(shù)字對象的可識別性可能會降低,輸出風險。

      2.3 保存政策方面的可識別性風險型元數(shù)據(jù)

      不是可識別性風險的檢測點?;驗閿?shù)字對象方面的可識別性風險檢測服務(下面的1)、2)、3)),或為保存事件方面的可識別性風險檢測服務(下面的5)、6)、7)),或為元數(shù)據(jù)內(nèi)容賦值的界定服務(下面的4))。

      1)數(shù)字對象標識符框架。包括標識符類型框架、標識符取值框架,以及標識符類型與標識符值的描述方式(是分開描述,還是合并描述)的選擇。用于數(shù)字對象標識符的檢測。

      2)數(shù)字對象的關系。有:結構關系包含的類型界定;派生關系包含的類型界定。用于對象關系的檢測項目(ⅱ)。

      3)文獻類型及其檢索途徑。有:文獻類型的界定;各類型文獻包含的檢索途徑界定。用于檢索途徑的檢測項目(ⅱ)。

      4)安全備份政策。用于界定保存策略的安全備份策略中的“高”、“中”、“低”三個級別的具體要求。

      5)數(shù)字遷移準確率。數(shù)字對象遷移后外觀和內(nèi)容沒有發(fā)生變化的比率設置。用于數(shù)字遷移事件的檢測。

      6)病毒檢測頻率。病毒檢測的頻率設置。用于病毒檢測事件的檢測。

      7)介質刷新周期。介質刷新的頻率設置。用于介質刷新事件的檢測。

      3 可識別性風險檢測實驗

      3.1 實驗術語界定

      為簡化實驗過程的描述和實驗結果的表達,結合實驗對象CNKI,界定實驗術語見表1。

      表1 實驗術語界定

      3.2 樣本采集

      來自CNKI,采集的總樣本量1萬件。使用為分層隨機抽樣法采集。步驟如下:

      3.2.1 樣本單元的構建

      基于TD、CD、SD 3個維度,建立一個三維空間坐標系,每個坐標點{TDi,CDj,SDk}(i∈[1,7],j∈[1,9],k∈[1,8])上的數(shù)字對象集合即為一個樣本單元。這樣,樣本單元共計504個。

      3.2.2 樣本量計算

      步驟:(a)依據(jù)樣本單元的3個維度的值,構建第n個樣本單元的檢索條件。(b)檢索并得到第n個樣本單元的數(shù)字對象數(shù)量An。(c)檢索CNKI的數(shù)字對象總量為D。(d)計算第n個樣本單元數(shù)字對象數(shù)量占總量的比例:Bn=An/D。(e)計算第n個樣本單元的樣本抽取量:Cn=Bn×10000。

      3.2.3 樣本獲取

      根據(jù)上述計算的第n個樣本單元的樣本抽取量Cn,在該樣本單元的檢索結果中,基于無重復隨機抽樣法,抽取Cn條文獻,下載每條文獻,形成第n個樣本單元的樣本。

      以第1個層次單元{TD1,CD1,SD1}的為例。首先,在CNKI的高級檢索界面中,選擇學科領域為“基礎學科”,時間范圍為1990年之前,文獻類型為“全部期刊”,檢索結果為370 423。其次,在CNKI的高級檢索界面中,選擇學科領域為所有學科,時間為2016年之前,文獻類型不限,檢索結果為74 225 795。再次,計算第1個層次單元的抽取量:370423÷74225795×10000=50。最后,在第一步的檢索結果1~370 423中隨機抽取50個不重復的數(shù)字,下載這些數(shù)字對應文獻號的文獻,形成第一個層次單元的樣本。

      元數(shù)據(jù)內(nèi)容的獲取。均來自CNKI(本項目的合作單位)的相關元數(shù)據(jù)。包括保存型、管理型和描述型等3類元數(shù)據(jù)。將本文設計的可識別性風險型元數(shù)據(jù)與上述3種元數(shù)據(jù)進行映射,賦值每件樣本的風險型元數(shù)據(jù)元素。若無映射元素,不賦值。

      3.3 風險檢測

      根據(jù)樣本集的維度,進行下述4類可識別性風險檢測實驗。其中,零維度檢測實驗1次;單維度檢測有3種,各實驗1次;二維度檢測有3種,各實驗1次;三維度檢測實驗1次;共計8次實驗。

      表2

      3.3.1 零維度檢測

      檢測結果見圖1。概率較高的風險點有:CP3、CP6、CP7、CP13、CP14。

      圖1 零維度檢測結果

      3.3.2 單維度檢測

      分3種:TD、CD、SD的單維度檢測。檢測結果圖示形成分別見圖2、圖3、圖4。檢測結果的匯總見表2。

      3.3.3 二維度檢測

      有下述3種類型:

      1){TD,CD}的二維度檢測。檢測結果圖示形成見圖5。檢測結果的描述形式見表3。

      圖2 TD檢測結果圖

      圖3 CD檢測結果圖

      圖4 SD檢測結果圖

      檢測類型主要風險點對應風險點上的風險分布TD單元檢測CP3{TDi}(i=1)CP6{TDi}(i=1)CP7{TDi}(i=1)CP13{TDi}(i∈[1,7])CP14{TDi}(i∈[1,7])CD單元檢測CP3{CDj}(j∈[1,9])CP6{CDj}(j=8)CP7{CDj}(j=8)CP13{CDj}(j=9)CP14{CDj}(j=9)SD單元檢測CP3、CP6、CP7、CP13、CP14{SDk}(k∈[1,8])

      表3{TD,CD}檢測結果

      風險值較高的風險點對應風險點上的風險分布CP3{TDi,CDj}:i=1,j∈[1,9]CP6{TDi,CDj}:i=1,j=8CP7{TDi,CDj}:i=1,j=8CP13{TDi,CDj}:i∈[1,7],j=9CP14{TDi,CDj}:i∈[1,7],j=9

      2){TD,SD}的二維度檢測。檢測結果圖示形成見圖6。檢測結果的描述形式見表4。

      表4 {TD,SD}檢測結果

      3){CD,SD}的二維度檢測。檢測結果圖示形成見圖7。檢測結果的描述形式見表5。

      圖5 {TD,CD}二維度檢測結果圖

      圖6 {TD,SD}二維度檢測結果

      圖7 {CD,SD}二維度檢測結果

      風險值較高的風險點對應風險點上的風險分布CP3{CDj,SDk}:j∈[1,9],k∈[1,8]CP6{CDj,SDk}:j=8,k∈[1,8]CP7{CDj,SDk}:j=8,k∈[1,8]CP13{CDj,SDk}:j=9,k∈[1,8]CP14{CDj,SDk}:j=9,k∈[1,8]

      3.3.4 三維度檢測

      檢測結果圖示形成的圖太大,略。檢測結果的描述形式見表6。

      表6 三維度檢測主要風險點及其風險分布

      3.4 結果分析

      實驗樣本是對CNKI檢索而獲取的,這意味著,所有用于實驗的樣本數(shù)字對象均可被保存系統(tǒng)識別出來,并且均可從時間、文獻類型和學科3個檢索途徑檢索出來。因此,檢測實驗在下述風險型元數(shù)據(jù)的檢測項目上不會產(chǎn)生風險:(a)數(shù)字對象唯一標識符的所有檢測項目;(b)數(shù)字對象存儲位置的所有檢測項目;(c)數(shù)字對象檢索途徑的時間、文獻類型和學科等三個途徑的相關檢測項目;(d)去索引事件的檢測項目。需要說明的是,在實際的數(shù)字保存可識別性風險檢測中,檢測對象是保存系統(tǒng)的整個數(shù)字對象,或是通過其他方式劃分產(chǎn)生的部分數(shù)字對象,本文設計的所有數(shù)字對象方面的風險型元數(shù)據(jù)和保存事件方面的風險型元數(shù)據(jù)均可能產(chǎn)生風險。

      根據(jù)檢測結果,可識別性風險點如下:

      3.4.1 對象的關系

      主要集中在{TDi,CDj,SDk}(i=1,j∈[1,9],k∈[1,8])。即1990年之前的各種類型文獻的各個學科中??赡茉蚴?,該集合的數(shù)字對象收錄到CNKI保存系統(tǒng)中最早,當時沒有進行數(shù)字對象的關聯(lián)關系分析和標引,或分析標引不充分或不準確。解決辦法:針對該集合中的每件數(shù)字對象,標引、補充、核實關聯(lián)數(shù)字對象的標識符、關系類型和關系值。

      3.4.2 檢索途徑

      主要集中在{TDi,CDj,SDk}(i=1,j=8,k∈[1,8])。即1990年之前所有學科的古籍文獻中。因為所有古籍都在1990年之前,所以,實際上該風險點產(chǎn)生自的數(shù)字對象集合與時間無關??赡茉蚴牵珻NKI對古籍文獻僅提供全文、書名、著者、卷名檢索途徑,缺少用戶常用的關鍵詞、主題詞等檢索途徑。另外,也許因為這類文獻的特殊性,充分標引需要古文獻背景知識,所以,一些現(xiàn)有的檢索途徑缺乏賦值文獻標識。解決辦法:針對該集合中的每件數(shù)字對象,補充、核實標引內(nèi)容;另外,建議考慮增加關鍵詞、主題詞等檢索途徑。

      3.4.3 外觀特征

      主要集中在{TDi,CDj,SDk}(i=1,j=8,k∈[1,8])。即1990年之前所有學科的古籍文獻中。與上述“檢索途徑”風險點的原因一樣,該風險點產(chǎn)生自的數(shù)字對象集合與時間無關??赡茉蛟谟?,在所有的文獻類型中,可能只有古籍文獻的外觀特征比較重要,CNKI給予了標引,但不做檢索途徑,僅作為長期保存之需的保存型元數(shù)據(jù)的一個元素;其他類型文獻均無該類標引;而一些古籍文獻的該元數(shù)據(jù)的標引結果與原始數(shù)字對象的實際不完全相符。解決辦法:針對該集合中的每件數(shù)字對象,核實標引內(nèi)容,使標引結果與數(shù)字對象實際情況一致。

      3.4.4 病毒檢測事件

      主要集中在{TDi,CDj,SDk}(i∈[1,7],j=9,k∈[1,8])。即所有年代所有學科的工具書中。經(jīng)與CNKI核實,該數(shù)字對象集合保存在一個單獨的存儲設備中,而該存儲設備執(zhí)行病毒檢測事件缺失。解決辦法:將該存儲設備添加到存儲設備列表中,保存系統(tǒng)嚴格按照保存政策對存儲設備列表中的所有存儲設備執(zhí)行病毒檢測事件。

      3.4.5 介質刷新事件

      主要集中在{TDi,CDj,SDk}(i∈[1,7],j=9,k∈[1,8])。即所有年代所有學科的工具書中。與上述“病毒檢測事件”的原因相同,該數(shù)字對象集合保存在一個單獨的存儲設備中,而該存儲設備執(zhí)行介質刷新事件缺失。解決辦法:將該存儲設備添加到存儲設備列表中,保存系統(tǒng)嚴格按照保存政策對存儲設備列表中的所有存儲設備執(zhí)行介質刷新事件。

      4 結 論

      數(shù)字保存工作是一個充滿風險的過程。風險檢測應該是保存系統(tǒng)執(zhí)行的一項日常操作。本研究對數(shù)字保存風險之一的可識別性風險,闡述該類風險含義,設計該類風險的元數(shù)據(jù),構建該類風險的檢測方法,并基于CNKI的數(shù)字對象樣本對檢測方法進行了實驗。實驗結果表明,本文設計的檢測方法是適用的,可以用于檢測保存系統(tǒng)中數(shù)字對象的可識別性風險。

      但是,檢測方法完全基于本文設計的風險型元數(shù)據(jù)。所以,可識別性風險型元數(shù)據(jù)需要在未來的研究和實踐中進行適用性驗證和完善。

      [1]Vermaaten S,et al.Identifying Responsibility to Successful Digital Preservation:the SPOT Model for Risk Assessment[EB/OL].D-Lib Magazine,2012,18(9/10)

      [2]OCLC,RLG.Implementing Preservation Repositories for Digital Materials:Current Practice and Emerging Trends in the Cultural Heritage Community[EB/OL].http://www.oclc.org/research/projects/pmwg/surveyreport.pdf.,2017-05-01.

      [3]OCLC,RLG.Preservation Metadata for Digital Objects:A Review of the State of the Art[EB/OL].http://www.oclc.org/research/pmwg/presmeta_wp.pdf,2017-07-30.

      [4]PREMIS Editorial Committee.PREMIS Data Dictionary for Preservation Metadata(Version 3.0)[EB/OL].http://www.loc.gov/standards/premis/,2017-04-24.

      [5]Digital Library Federation.Electronic Resources Management:ERM Data Meta Dictionary[EB/OL].http://www.diglib.org/pubs/dlf102/ERMFINAL.pdf,2017-02-22.

      [6]Bradley K.Digital Sustainability and Digital Repositories[EB/OL].http://www.valaconf.org.au/vala2006/papers2006/45_Bradley_Final.pdf,2015-07-19.

      [7]The Library of Congress.Linked Data Service[EB/OL].http://id.loc.gov/vocabulary/preservation/eventType.html,2017-03-04.

      [8]Wright R.The Significance of Storage in the“Cost of Risk”of Digital Preservation[J].International Journal of Digital Curation,2009,4(3):20-32.

      猜你喜歡
      識別性標識符檢索
      淺析5G V2X 通信應用現(xiàn)狀及其側鏈路標識符更新技術
      基于底層虛擬機的標識符混淆方法
      計算機應用(2022年8期)2022-08-24 06:30:36
      基于區(qū)塊鏈的持久標識符系統(tǒng)①
      2019年第4-6期便捷檢索目錄
      國產(chǎn)汽車標志設計批評
      數(shù)字美術館“數(shù)字對象唯一標識符系統(tǒng)”建設需求淺議
      中國美術館(2016年6期)2017-01-19 08:44:24
      符號的識別性在廣告視覺形式中的體現(xiàn)——以標志設計為例
      新聞傳播(2016年19期)2016-07-19 10:12:08
      以改性松香為交聯(lián)劑的甲硝唑磁性分子印跡固相萃取材料的制備、表征及分子識別性研究
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      游樂場所安全標志識別性研究
      连山| 乌苏市| 禄劝| 隆昌县| 延寿县| 辉南县| 三门峡市| 桐城市| 永靖县| 关岭| 石狮市| 长垣县| 全椒县| 清丰县| 新巴尔虎左旗| 镇安县| 塔河县| 鹤庆县| 进贤县| 郎溪县| 桑日县| 秭归县| 柯坪县| 眉山市| 龙海市| 集贤县| 梁河县| 鞍山市| 都兰县| 宁化县| 鄂托克旗| 资中县| 乌拉特中旗| 通州区| 诸暨市| 永寿县| 阳新县| 陵水| 凤凰县| 滦南县| 兴隆县|