臧國全,王秀娟,李 哲(鄭州大學(xué) .信息管理學(xué)院;.公共管理學(xué)院)
可理解性是指針對(duì)保存的數(shù)字對(duì)象,保存系統(tǒng)的目標(biāo)用戶群體能夠理解其內(nèi)容。[1]理解方式有三種。
(1)基于結(jié)構(gòu)信息的概略理解。[2]比如,數(shù)字對(duì)象的標(biāo)題、作者信息、出版信息等有助于用戶了解數(shù)字對(duì)象的基本范疇,而這些信息都是用于描述數(shù)字對(duì)象的內(nèi)部構(gòu)成。再如,一件數(shù)字對(duì)象與其他多件數(shù)字對(duì)象存在關(guān)聯(lián),前者可稱為中心數(shù)字對(duì)象,后者可稱為關(guān)聯(lián)數(shù)字對(duì)象,后者圍繞前者形成了一個(gè)數(shù)字對(duì)象的網(wǎng)狀結(jié)構(gòu)。其中,中心數(shù)字對(duì)象與關(guān)聯(lián)數(shù)字對(duì)象之間的結(jié)構(gòu)有多種,如整體部分結(jié)構(gòu)、同位結(jié)構(gòu)、依賴結(jié)構(gòu)等,這些結(jié)構(gòu)以及由結(jié)構(gòu)關(guān)聯(lián)的數(shù)字對(duì)象也有助于用戶概略理解中心數(shù)字對(duì)象的內(nèi)容。
(2)基于語義信息的精確理解。當(dāng)對(duì)數(shù)字對(duì)象的內(nèi)容無法準(zhǔn)確理解時(shí),保存系統(tǒng)應(yīng)提供附加信息幫助用戶理解。這些附加信息被稱為語義信息。語義信息可分為整體式語義信息和知識(shí)點(diǎn)式語義信息,前者用于整體理解數(shù)字對(duì)象內(nèi)容所需的附加信息,后者用于理解數(shù)字對(duì)象中知識(shí)點(diǎn)內(nèi)容所需的附加信息。
(3)基于展現(xiàn)信息的識(shí)別理解。數(shù)字對(duì)象只有展現(xiàn)出來方可被用戶識(shí)別理解。使用瀏覽軟件可對(duì)數(shù)字對(duì)象進(jìn)行展現(xiàn)瀏覽;使用解碼工具對(duì)編碼數(shù)字對(duì)象解碼后進(jìn)行展現(xiàn)瀏覽;使用信息摘要檢驗(yàn)數(shù)字對(duì)象的真實(shí)性后進(jìn)行展現(xiàn)瀏覽。
基于理解方式,影響用戶理解數(shù)字對(duì)象的因素包括以下幾方面。
(1)數(shù)字對(duì)象的內(nèi)部組成結(jié)構(gòu)不完整。比如主要部分缺失,或因數(shù)字轉(zhuǎn)化過程導(dǎo)致、或因原始文獻(xiàn)殘缺導(dǎo)致、或因原生型數(shù)字資源本身問題導(dǎo)致的缺失,會(huì)妨礙用戶從數(shù)字對(duì)象內(nèi)部結(jié)構(gòu)角度對(duì)數(shù)字對(duì)象的概要理解。
(2)數(shù)字對(duì)象與保存的其他數(shù)字對(duì)象之間關(guān)聯(lián)結(jié)構(gòu)識(shí)別不完整,或識(shí)別出現(xiàn)偏差,或結(jié)構(gòu)類型界定錯(cuò)誤,導(dǎo)致以被理解數(shù)字對(duì)象為中心的關(guān)聯(lián)數(shù)字對(duì)象構(gòu)成的結(jié)構(gòu)網(wǎng)絡(luò)存在缺陷,妨礙用戶從數(shù)字對(duì)象之間關(guān)聯(lián)結(jié)構(gòu)角度對(duì)數(shù)字對(duì)象的概要理解。
(3)用于用戶理解數(shù)字對(duì)象整體內(nèi)容所需的附加信息,保存系統(tǒng)識(shí)別不夠全面,或與數(shù)字對(duì)象之間相關(guān)度欠佳。原因可能是保存系統(tǒng)對(duì)目標(biāo)用戶群體界定不夠清晰,或?qū)δ繕?biāo)用戶群體的知識(shí)儲(chǔ)備識(shí)別不夠準(zhǔn)確,影響用戶利用附加信息幫助理解數(shù)字對(duì)象的整體內(nèi)容。
(4)用于用戶理解數(shù)字對(duì)象中知識(shí)點(diǎn)所需的附加信息,保存系統(tǒng)識(shí)別不夠準(zhǔn)確,或不夠全面,或已遭到破壞,影響用戶利用附加信息幫助理解數(shù)字對(duì)象的知識(shí)點(diǎn)。
(5)用于幫助用戶準(zhǔn)確理解數(shù)字對(duì)象的整體內(nèi)容或知識(shí)點(diǎn)所需的附加信息無法有效瀏覽,或?yàn)g覽效果存在瑕疵,影響用戶對(duì)這些附加信息的準(zhǔn)確使用,從而可能降低用戶對(duì)數(shù)字對(duì)象整體內(nèi)容或知識(shí)點(diǎn)的理解。
(6)數(shù)字對(duì)象無法瀏覽,或?yàn)g覽效果不佳,導(dǎo)致用戶無法有效識(shí)別數(shù)字對(duì)象,從而無法理解數(shù)字對(duì)象。
(7)經(jīng)過編碼的數(shù)字對(duì)象無法還原,導(dǎo)致用戶無法瀏覽、識(shí)別數(shù)字對(duì)象,致使數(shù)字對(duì)象失去可理解性。
(8)保存系統(tǒng)的一些保存操作導(dǎo)致數(shù)字對(duì)象改變,這些改變可能影響用戶對(duì)數(shù)字對(duì)象內(nèi)容的理解。
上述類型(1)和類型(2)的風(fēng)險(xiǎn)將影響可理解性涵義中的第一種理解方式;類型(3)-類型(5)的風(fēng)險(xiǎn)將影響可理解性涵義中的第二種理解方式;類型(6)-類型(8)的風(fēng)險(xiǎn)將影響可理解性涵義中的第三種理解方式。
總之,可理解性風(fēng)險(xiǎn)主要存在于數(shù)字對(duì)象的內(nèi)部結(jié)構(gòu)、數(shù)字對(duì)象的關(guān)聯(lián)結(jié)構(gòu)建立、用于用戶理解數(shù)字對(duì)象所需附加信息的識(shí)別、保存系統(tǒng)對(duì)目標(biāo)用戶群體及其知識(shí)儲(chǔ)備的界定、數(shù)字對(duì)象有效識(shí)別和瀏覽、保存系統(tǒng)實(shí)施保存活動(dòng)對(duì)數(shù)字對(duì)象的影響等方面。
這類元數(shù)據(jù)有助于理解數(shù)字對(duì)象內(nèi)容的數(shù)字對(duì)象方面的屬性,以及幫助用戶理解數(shù)字對(duì)象內(nèi)容所需的附加信息,是數(shù)字對(duì)象的可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。這些屬性和附加信息的缺失,將影響數(shù)字對(duì)象的可理解性。
(1)數(shù)字對(duì)象唯一標(biāo)識(shí)符,[3]用于識(shí)別被檢測(cè)的數(shù)字對(duì)象。如果數(shù)字對(duì)象沒有被賦予唯一標(biāo)識(shí)符,則無法被保存系統(tǒng)識(shí)別,也就無法進(jìn)行可理解性風(fēng)險(xiǎn)檢測(cè)。該元數(shù)據(jù)不作為可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。
(2)數(shù)字對(duì)象類型,用于過濾不被檢測(cè)的數(shù)字對(duì)象。在所有類型的數(shù)字對(duì)象中,比特流和知識(shí)實(shí)體不具可理解性,所以,檢測(cè)之前,需通過該元數(shù)據(jù)將這兩類數(shù)字對(duì)象過濾掉。該元數(shù)據(jù)也不作為可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。
(3)數(shù)字對(duì)象內(nèi)部結(jié)構(gòu)信息,指數(shù)字對(duì)象內(nèi)部的基本組成部分。內(nèi)部結(jié)構(gòu)信息依據(jù)數(shù)字對(duì)象的類型不同而有所區(qū)別。如,會(huì)議文獻(xiàn)的內(nèi)部結(jié)構(gòu)信息有會(huì)議名稱、篇名、作者、摘要、正文、參考文獻(xiàn)、基金、論文集名稱等;專利文獻(xiàn)的內(nèi)部結(jié)構(gòu)信息有專利名稱、申請(qǐng)?zhí)?、公開號(hào)、申請(qǐng)人、發(fā)明人、正文、參考文獻(xiàn)等。內(nèi)部結(jié)構(gòu)信息有助于用戶對(duì)數(shù)字對(duì)象的大概判斷和了解,這類信息的錯(cuò)誤可能會(huì)導(dǎo)致用戶對(duì)數(shù)字對(duì)象的概要了解偏差,這類信息的缺失可能會(huì)導(dǎo)致用戶對(duì)數(shù)字對(duì)象的概要了解困難。因此,這類信息是數(shù)字對(duì)象可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。
蔭元素。(a)數(shù)字對(duì)象的類型。(b)內(nèi)部結(jié)構(gòu)信息的名稱。(c)內(nèi)部結(jié)構(gòu)信息的內(nèi)容。
蔭檢測(cè)項(xiàng)目。(i)基于元素(a)描述的數(shù)字對(duì)象類型,檢查保存政策中對(duì)應(yīng)的內(nèi)部結(jié)構(gòu)信息列表,當(dāng)出現(xiàn)不一致情況,輸出風(fēng)險(xiǎn)。(ⅱ)檢查元素(b)和(c)描述的正確性,可與數(shù)字對(duì)象直接對(duì)比實(shí)現(xiàn),當(dāng)出現(xiàn)描述值與實(shí)際值不一致的情況,輸出風(fēng)險(xiǎn)。
(4)數(shù)字對(duì)象外部結(jié)構(gòu)信息,指數(shù)字對(duì)象與保存系統(tǒng)中的其他數(shù)字對(duì)象之間的結(jié)構(gòu)描述。如,網(wǎng)站對(duì)象與其包括的各個(gè)網(wǎng)頁對(duì)象之間呈現(xiàn)包含結(jié)構(gòu),同一網(wǎng)站對(duì)象內(nèi)所包含的各個(gè)網(wǎng)頁對(duì)象之間呈現(xiàn)同位結(jié)構(gòu)。因此,保存系統(tǒng)中,一件數(shù)字對(duì)象及與其存在關(guān)聯(lián)的其他數(shù)字對(duì)象就形成一個(gè)網(wǎng)狀結(jié)構(gòu)。該結(jié)構(gòu)中,中心數(shù)字對(duì)象是檢測(cè)對(duì)象,其他數(shù)字對(duì)象為節(jié)點(diǎn)對(duì)象。呈現(xiàn)各節(jié)點(diǎn)數(shù)字對(duì)象以及每個(gè)節(jié)點(diǎn)數(shù)字對(duì)象與中心數(shù)字對(duì)象之間的結(jié)構(gòu),有助于用戶對(duì)中心數(shù)字對(duì)象的概要理解。節(jié)點(diǎn)數(shù)字對(duì)象的缺失可能會(huì)降低用戶對(duì)中心數(shù)字對(duì)象的可理解性。同樣,節(jié)點(diǎn)數(shù)字對(duì)象與中心數(shù)字對(duì)象之間結(jié)構(gòu)的描述錯(cuò)誤也可能會(huì)導(dǎo)致用戶對(duì)中心數(shù)字對(duì)象的理解偏差。因此,外部結(jié)構(gòu)信息是數(shù)字對(duì)象可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。
蔭元素。(a)節(jié)點(diǎn)對(duì)象的標(biāo)識(shí)符。(b)中心數(shù)字對(duì)象與節(jié)點(diǎn)數(shù)字對(duì)象之間的結(jié)構(gòu)描述。
蔭檢測(cè)項(xiàng)目。(i)檢查元素(a)和元素(b)的內(nèi)容,任一元素?zé)o描述值,都無法完整構(gòu)建中心數(shù)字對(duì)象的外部結(jié)構(gòu)信息,影響用戶對(duì)中心數(shù)字對(duì)象的可理解性,輸出風(fēng)險(xiǎn)。(ⅱ)檢查中心數(shù)字對(duì)象與節(jié)點(diǎn)數(shù)字對(duì)象的實(shí)際結(jié)構(gòu),比較實(shí)際結(jié)構(gòu)與元素(b)描述結(jié)構(gòu)的一致性,當(dāng)兩者出現(xiàn)偏差時(shí),節(jié)點(diǎn)數(shù)字對(duì)象可能無助于用戶對(duì)中心數(shù)字對(duì)象的理解,輸出風(fēng)險(xiǎn)。
(5)整體式語義信息。整體理解一件數(shù)字對(duì)象內(nèi)容所需的附加材料,是數(shù)字對(duì)象可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。它包括:?jiǎn)尉S整體式語義信息和多維整體式語義信息。
單維整體式語義信息。整體理解一件數(shù)字對(duì)象,只需一件附加材料提供幫助,該附加材料稱為單維整體式語義信息。如,一篇研究《紅樓夢(mèng)》的文獻(xiàn),如果用戶沒有《紅樓夢(mèng)》的知識(shí)背景就不太容易理解其內(nèi)容,故需參考《紅樓夢(mèng)》原著,這樣,后者就成了前者的可理解性的單維整體式語義信息。另外,一件數(shù)字對(duì)象中,沒有加注定點(diǎn)標(biāo)注的單項(xiàng)參考文獻(xiàn)也是該數(shù)字對(duì)象可理解性的單維整體式語義信息。
多維整體式語義信息。整體理解一件數(shù)字對(duì)象,需多件附加材料從不同的角度提供幫助,這些附加材料稱為多維整體式語義信息。如,《蒙娜麗莎》是一件藝術(shù)品,對(duì)該作品的所有研究成果都有助于用戶對(duì)該作品的理解,因此,這些研究成果構(gòu)成了該藝術(shù)作品的可理解性的多維整體式語義信息。另外,一件數(shù)字對(duì)象中,沒有加注定點(diǎn)標(biāo)注的多項(xiàng)參考文獻(xiàn)也是該數(shù)字對(duì)象可理解性的多維整體式語義信息。
實(shí)際上,任何一個(gè)保存系統(tǒng)都有一個(gè)特定的目標(biāo)用戶群體。該群體的成員中,有的由保存系統(tǒng)構(gòu)建和維護(hù)的資金提供者指定,有的由數(shù)字資源提交者指定,還有的由保存系統(tǒng)根據(jù)其服務(wù)政策界定。不同保存系統(tǒng)的目標(biāo)用戶群體不一樣,甚至存在很大差異,這種差異不僅表現(xiàn)在目標(biāo)用戶群體的大小上,還表現(xiàn)在目標(biāo)用戶群體的構(gòu)成上。不同用戶群體具備的知識(shí)儲(chǔ)備不同,有時(shí),理解一件數(shù)字對(duì)象所需的語義信息很多,保存系統(tǒng)只需保存目標(biāo)用戶群體知識(shí)儲(chǔ)備之外的語義信息,所以,針對(duì)一件保存到不同保存系統(tǒng)中的數(shù)字對(duì)象,保存系統(tǒng)應(yīng)該提供的語義信息也不同。另外,用戶的知識(shí)儲(chǔ)備也會(huì)隨著時(shí)間的推移而變化,針對(duì)一個(gè)保存系統(tǒng),即使目標(biāo)用戶群體沒有發(fā)生變化,理解數(shù)字對(duì)象所需的語義信息也會(huì)隨著時(shí)間的推移而不同。所以,既不存在一個(gè)適合所有保存系統(tǒng)的語義信息提供的通用方案,也不存在適合一個(gè)特定保存系統(tǒng)中各個(gè)時(shí)期的通用方案。因此,語義信息的提供方案是具體保存系統(tǒng)的決策和實(shí)施問題。
蔭元素。(a)語義信息名稱。(b)語義信息獲取的方式,包括唯一標(biāo)識(shí)符和鏈接。(c)語義信息獲取的值,包括唯一標(biāo)識(shí)符的值(若類型為唯一標(biāo)識(shí)符)和URL(若類型為鏈接)。(d)語義信息的最佳瀏覽工具,語義信息也是一種類型的文件,用戶的使用必須借助瀏覽工具,包括瀏覽工具名稱和版本。
蔭檢測(cè)項(xiàng)目。針對(duì)一件數(shù)字對(duì)象,很難判斷保存系統(tǒng)提供的語義信息的全面性,只能判斷其相關(guān)性,所以無法檢測(cè)全面性,僅檢測(cè)相關(guān)性。(i)檢查前三個(gè)元素,若任一內(nèi)容缺失,要么語義信息缺失名稱,要么無法找出具體的語義信息,輸出風(fēng)險(xiǎn)。(ii)檢查基于元素(b)和元素(c)析出的語義信息與檢測(cè)數(shù)字對(duì)象的相關(guān)性,若不相關(guān),提供的語義信息無助于用戶對(duì)檢測(cè)數(shù)字對(duì)象的理解,輸出風(fēng)險(xiǎn)。(iii)析出語義信息存在的文件格式,在保存政策中找出該格式對(duì)應(yīng)的最佳瀏覽工具,再與元素(d)描述的瀏覽工具比較,若不一致,將導(dǎo)致用戶不能瀏覽語義信息或?yàn)g覽效果有瑕疵,致使語義信息無法為理解數(shù)字對(duì)象提供幫助或幫助效果欠佳,輸出風(fēng)險(xiǎn)。
(6)知識(shí)點(diǎn)式語義信息。理解數(shù)字對(duì)象中一個(gè)知識(shí)點(diǎn)所需的附加材料,是數(shù)字對(duì)象可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。包括單維知識(shí)點(diǎn)式語義信息和多維知識(shí)點(diǎn)式語義信息。
單維知識(shí)點(diǎn)式語義信息。理解數(shù)字對(duì)象中一個(gè)知識(shí)點(diǎn),只需一件附加材料,該附加材料為單維知識(shí)點(diǎn)式語義信息。如,一篇文獻(xiàn)中包含一個(gè)概念,而文獻(xiàn)本身并沒有對(duì)該概念給予解釋,如果用戶不具備該概念的知識(shí)儲(chǔ)備,就需在百科全書中找到該概念的詞條,該詞條就是該知識(shí)點(diǎn)的可理解性的單維知識(shí)點(diǎn)式語義信息。
多維知識(shí)點(diǎn)式語義信息。理解數(shù)字對(duì)象中一個(gè)知識(shí)點(diǎn),需多件附加材料,這些附加材料為多維知識(shí)點(diǎn)式語義信息。比如,一件數(shù)字對(duì)象中,針對(duì)一個(gè)知識(shí)點(diǎn)標(biāo)注的多項(xiàng)參考文獻(xiàn),這些參考文獻(xiàn)就構(gòu)成了該知識(shí)點(diǎn)的可理解性的多維知識(shí)點(diǎn)式語義信息。
知識(shí)點(diǎn)式語義信息的風(fēng)險(xiǎn)型元數(shù)據(jù)元素設(shè)置和檢測(cè)項(xiàng)目的設(shè)置與整體式語義信息基本相同。但在檢測(cè)項(xiàng)目(ⅱ)中,相關(guān)性判斷的對(duì)象是檢測(cè)數(shù)字對(duì)象中的一個(gè)知識(shí)點(diǎn),不是整個(gè)數(shù)字對(duì)象。
(7)最佳瀏覽軟件。有些情況下,一種格式文件可通過多種軟件瀏覽,但有時(shí)瀏覽效果不完全一樣,應(yīng)選擇最佳軟件;當(dāng)最佳軟件有多款時(shí),應(yīng)都予以記錄。如果該元素描述的軟件無法打開被檢測(cè)的數(shù)字對(duì)象,或雖可打開但瀏覽效果不是最佳,那么,該數(shù)字對(duì)象對(duì)用戶來說不可瀏覽使用,更不具可理解性,或?yàn)g覽效果欠佳,影響用戶理解。所以,瀏覽軟件是數(shù)字對(duì)象可理解性風(fēng)險(xiǎn)的一個(gè)檢測(cè)點(diǎn)。
實(shí)際上,對(duì)于大多數(shù)類型的數(shù)字對(duì)象,格式都是常用的,一般用戶都知曉也容易獲得這些格式的最佳瀏覽軟件。但是也有一些格式是專用的,瀏覽所需軟件也是專用的,如,CAJ是專用格式,瀏覽軟件是Cajviewer專用工具,這類瀏覽軟件需描述和保存,以便需要時(shí)用戶獲取。為了便于統(tǒng)一,該元數(shù)據(jù)可設(shè)置為必備元數(shù)據(jù),無論是常用格式還是專用格式,最佳瀏覽軟件均需描述。
蔭元素。(a)軟件名稱。(b)軟件版本。
蔭檢測(cè)項(xiàng)目。析出被檢測(cè)數(shù)字對(duì)象的文件格式,在保存政策中找出該格式的最佳瀏覽軟件,與元素(a)和元素(b)描述的軟件對(duì)比。若不一致,可能是因描述出現(xiàn)問題,或長(zhǎng)期保存過程中保存系統(tǒng)實(shí)施了某項(xiàng)保存活動(dòng)(如數(shù)字遷移),導(dǎo)致數(shù)字對(duì)象格式發(fā)生了變化,但該元數(shù)據(jù)的描述內(nèi)容沒有及時(shí)更新,導(dǎo)致瀏覽軟件難以勝任數(shù)字對(duì)象的有效呈現(xiàn),輸出風(fēng)險(xiǎn)。
(8)還原信息。[4]如果數(shù)字對(duì)象是一個(gè)壓縮包或加密文件,無法直接呈現(xiàn),用戶也無法瀏覽,更談不上理解。此時(shí)需要實(shí)施還原操作,還原過程所需的信息(比如密碼、還原工具等)稱為還原信息。如果還原信息錯(cuò)誤,導(dǎo)致還原過程無法完成,或雖完成但出現(xiàn)偏差,致使無法獲得原始文件,也無法瀏覽,更無法理解。所以,還原信息是數(shù)字對(duì)象的可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。
蔭元素。(a)還原級(jí)數(shù),如果數(shù)字對(duì)象需要多次還原方能獲得原始文件,記錄每次還原的級(jí)數(shù),原始文件的還原級(jí)數(shù)為0。(b)還原工具,每次還原所需的軟件工具。(c)還原密碼,每次還原操作所需的密碼,若無密碼,記錄為“無”。當(dāng)還原級(jí)數(shù)大于1時(shí),需要分別記錄每個(gè)級(jí)數(shù)的還原工具和還原密碼。
蔭檢測(cè)項(xiàng)目。(i)依據(jù)元素(a)和元素(b),檢查每一級(jí)數(shù)的還原工具,若還原工具記錄缺失,導(dǎo)致在該級(jí)數(shù)上可能無法實(shí)施還原操作,輸出風(fēng)險(xiǎn)。(ii)依據(jù)元素(a)和元素(c),檢查每一級(jí)數(shù)的還原密碼,若缺失,在該級(jí)數(shù)上無法實(shí)施還原操作(因?yàn)楦鶕?jù)標(biāo)引規(guī)則,即使無密碼,元素(b)的內(nèi)容也應(yīng)記錄為“無”),輸出風(fēng)險(xiǎn)。(iii)析出數(shù)字對(duì)象,依據(jù)元素(a)、元素(b)和元素(c)的內(nèi)容,依次檢查每一級(jí)別的還原工具的適用性和還原密碼的正確性,當(dāng)任一還原操作無法完成時(shí),輸出風(fēng)險(xiǎn)。
(9)信息摘要。當(dāng)數(shù)字對(duì)象的內(nèi)容發(fā)生變化時(shí),也會(huì)影響用戶對(duì)其的理解。判斷數(shù)字對(duì)象在長(zhǎng)期保存過程中因?yàn)橐恍┍4婊顒?dòng)的執(zhí)行而導(dǎo)致其是否發(fā)生改變的一種可信任方法是信息摘要的使用。[5]因此,信息摘要可作為一種手段來判斷數(shù)字對(duì)象的可理解性是否發(fā)生了風(fēng)險(xiǎn)。
蔭元素。(a)摘要算法,數(shù)字對(duì)象被收錄到保存系統(tǒng)時(shí)對(duì)其進(jìn)行摘要計(jì)算所使用的算法。(b)摘要值,數(shù)字對(duì)象被收錄到保存系統(tǒng)時(shí)對(duì)其進(jìn)行摘要計(jì)算的執(zhí)行結(jié)果。
蔭檢測(cè)項(xiàng)目。(i)析出數(shù)字對(duì)象,按照元素(a)描述的摘要算法對(duì)其重新計(jì)算摘要,將重新計(jì)算的結(jié)果與元素(b)的描述內(nèi)容對(duì)比,當(dāng)不一致時(shí),數(shù)字對(duì)象已經(jīng)發(fā)生了變化,產(chǎn)生可理解性風(fēng)險(xiǎn),輸出風(fēng)險(xiǎn)。(ii)檢查元素(a)的值和元素(b)的值,當(dāng)前者沒有值時(shí),無法重新計(jì)算數(shù)字對(duì)象的摘要;當(dāng)后者沒有值時(shí),雖可重新計(jì)算數(shù)字對(duì)象的摘要,但與之對(duì)比的原始摘要值缺失。這兩種情況都無法判斷數(shù)字對(duì)象是否發(fā)生了改變,輸出風(fēng)險(xiǎn)。
保存系統(tǒng)實(shí)施的影響數(shù)字對(duì)象可理解性的保存活動(dòng)是可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。
(1)外部結(jié)構(gòu)判定。在數(shù)字對(duì)象被收錄到保存系統(tǒng)之時(shí),保存系統(tǒng)執(zhí)行該保存活動(dòng),建立被收錄數(shù)字對(duì)象的外部結(jié)構(gòu)信息。該事件是否被執(zhí)行以及執(zhí)行的結(jié)果將直接影響數(shù)字對(duì)象方面的可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)中的第4個(gè)元素內(nèi)容的賦值。若沒有執(zhí)行,數(shù)字對(duì)象的外部結(jié)構(gòu)網(wǎng)絡(luò)無法建立,輸出風(fēng)險(xiǎn)。
(2)摘要計(jì)算。保存系統(tǒng)收錄數(shù)字對(duì)象時(shí),實(shí)施摘要計(jì)算,形成信息摘要,為以后固定性檢測(cè)提供依據(jù)。該事件是否被執(zhí)行將直接影響數(shù)字對(duì)象方面的可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)中的第9個(gè)元素內(nèi)容的賦值。若沒有執(zhí)行,數(shù)字對(duì)象的信息摘要無法建立,輸出風(fēng)險(xiǎn)。
(3)語義信息識(shí)別。在數(shù)字對(duì)象被收錄到保存系統(tǒng)之時(shí),保存系統(tǒng)執(zhí)行該保存活動(dòng),建立被收錄數(shù)字對(duì)象的語義信息。該事件是否被執(zhí)行以及執(zhí)行的結(jié)果將直接影響數(shù)字對(duì)象方面的可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)中的第5個(gè)元素和第6個(gè)元素內(nèi)容的賦值。若沒有執(zhí)行,保存系統(tǒng)不提供理解數(shù)字對(duì)象所需的附加信息,輸出風(fēng)險(xiǎn)。
(4)病毒檢測(cè)。數(shù)字對(duì)象一旦遭到計(jì)算機(jī)病毒損壞,可能會(huì)造成其內(nèi)容的篡改或不可用,影響數(shù)字對(duì)象的可理解性。因此,病毒檢測(cè)需按保存政策規(guī)定實(shí)施;否則,輸出風(fēng)險(xiǎn)。
(5)介質(zhì)刷新。用來存放數(shù)字對(duì)象的存儲(chǔ)介質(zhì)如果損壞或者過期,數(shù)字對(duì)象可能不能正常讀取,影響其可理解性。因此,介質(zhì)刷新需按保存政策規(guī)定實(shí)施;否則,輸出風(fēng)險(xiǎn)。
(6)遷移事件。數(shù)字對(duì)象格式過時(shí),用戶無法正確讀取數(shù)字對(duì)象內(nèi)容,影響數(shù)字對(duì)象的可理解性。因此,遷移事件需按保存政策規(guī)定實(shí)施;否則,輸出風(fēng)險(xiǎn)。
保存系統(tǒng)設(shè)置的一些指標(biāo)用于可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)的檢測(cè)基準(zhǔn),但不作為可理解性風(fēng)險(xiǎn)的檢測(cè)點(diǎn)。
(1)內(nèi)部結(jié)構(gòu)信息列表。保存系統(tǒng)根據(jù)不同類型數(shù)字對(duì)象的特征,界定每種類型數(shù)字對(duì)象所包含的內(nèi)部結(jié)構(gòu)信息,用于第一類元數(shù)據(jù)的第3個(gè)元素的檢測(cè)項(xiàng)目 (i)。
(2)最佳瀏覽工具判定。保存系統(tǒng)根據(jù)瀏覽工具對(duì)相應(yīng)格式數(shù)字對(duì)象的支持程度,選擇出的最佳瀏覽工具和版本,用于第一類元數(shù)據(jù)的第5個(gè)元素的檢測(cè)項(xiàng)目(iii)和第7個(gè)元素的檢測(cè)項(xiàng)目。
(3)病毒檢測(cè)周期。病毒檢測(cè)的頻率設(shè)置,用于保存事件中的病毒檢測(cè)事件的風(fēng)險(xiǎn)檢測(cè)。
(4)介質(zhì)刷新頻率。介質(zhì)刷新的頻率設(shè)置,用于保存事件中的介質(zhì)刷新事件的風(fēng)險(xiǎn)檢測(cè)。
(5)遷移準(zhǔn)確率。數(shù)字對(duì)象遷移前后內(nèi)容沒有發(fā)生改變部分占遷移前數(shù)字對(duì)象整個(gè)內(nèi)容的比率,用于保存事件中的遷移事件的風(fēng)險(xiǎn)檢測(cè)。
樣本數(shù)據(jù)來自“中國知網(wǎng)”。為便于實(shí)驗(yàn)操作和結(jié)果的展示,界定相關(guān)術(shù)語見表1。
3.2.1 數(shù)字對(duì)象樣本集的形成
數(shù)字對(duì)象樣本來源:中國知網(wǎng)。樣本總量:1萬件。采集方法:分層隨機(jī)抽樣法。采集步驟如下所示。
(1)構(gòu)建樣本單元。樣本單元是指在時(shí)間區(qū)間、文獻(xiàn)類型、學(xué)科三個(gè)維度的交集點(diǎn)上數(shù)字對(duì)象集合,可表示為:{TDi,CDj,SDk}(i∈ [1,7],j∈ [1,9],k∈[1,8])。因此,樣本單元總數(shù):7×9×8=504個(gè)。
(2)計(jì)算樣本單元的樣本抽取量。公式:SES{TDi,CDj,SDk}=TS{TDi,CDj,SDk}÷TT×ST。其中:SES代表樣本單元的樣本抽取量;TS代表樣本單元的數(shù)字對(duì)象總量,可根據(jù)樣本單元中的時(shí)間區(qū)間、文獻(xiàn)類型和學(xué)科構(gòu)建檢索條件,檢索獲得;TT代表中國知網(wǎng)中的數(shù)字對(duì)象總量,可由將上述計(jì)算的各個(gè)樣本單元的數(shù)字對(duì)象總量求和獲得;ST代表設(shè)定的樣本總量。
表1 術(shù)語界定表
(3)樣本單元中的樣本抽取。首先,檢索獲得樣本單元的數(shù)字對(duì)象集合,檢索條件構(gòu)建同上述樣本單元的數(shù)字對(duì)象總量計(jì)算中的檢索條件。其次,在檢出的樣本單元數(shù)字對(duì)象集合中,簡(jiǎn)單隨機(jī)抽取上述計(jì)算出的樣本單元抽取數(shù)量(SES)的數(shù)字對(duì)象序號(hào)。再次,依次套錄對(duì)應(yīng)序號(hào)的數(shù)字對(duì)象,形成樣本單元的數(shù)字對(duì)象抽取樣本。最后,采用上述步驟,依次獲得各樣本單元的數(shù)字對(duì)象樣本,形成數(shù)字對(duì)象的總樣本。
3.2.2 可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)內(nèi)容的形成
首先,本研究的合作單位中國知網(wǎng)幫助提供數(shù)字對(duì)象樣本集的相關(guān)元數(shù)據(jù)的賦值內(nèi)容,主要包括描述型、管理型和保存型三類元數(shù)據(jù)。其次,對(duì)采集的每件數(shù)字對(duì)象的可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)元素的內(nèi)容賦值,若有對(duì)應(yīng)元素或相似元素,直接套錄自上述三類元數(shù)據(jù)中對(duì)應(yīng)元素的內(nèi)容,若無對(duì)應(yīng)元素或相似元素,則無賦值。因此,可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)元素的賦值真實(shí)地反映了樣本數(shù)字對(duì)象的可理解性風(fēng)險(xiǎn)狀態(tài)。
基于數(shù)字對(duì)象樣本集的維度屬性,設(shè)計(jì)各類檢測(cè)算法的描述(見表2)。
3.4.1 零維度檢測(cè)結(jié)果
執(zhí)行檢測(cè)算法中的零維度檢測(cè)算法,檢測(cè)結(jié)果的可視化形式見圖1。
表2 檢測(cè)算法描述
圖1 零維度檢測(cè)結(jié)果
數(shù)字對(duì)象樣本在可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)上風(fēng)險(xiǎn)值較 高 的 檢 測(cè) 點(diǎn) 依 次 為 : CP1、 CP2、 CP3、 CP4、 CP8、CP10。
3.4.2 單維度檢測(cè)結(jié)果
(1)TD的單維度檢測(cè)。執(zhí)行TD(時(shí)間維度)單維度檢測(cè)算法,檢測(cè)結(jié)果的可視化形式見圖2,描述形式見表3中TD單維度檢測(cè)結(jié)果的風(fēng)險(xiǎn)點(diǎn)分布{TDi}部分。
圖2 TD單維度檢測(cè)結(jié)果
(2)CD的單維度檢測(cè)。執(zhí)行CD(文獻(xiàn)類型維度)單維度檢測(cè)算法,檢測(cè)結(jié)果的可視化形式見圖3,描述形式見表3中CD單維度檢測(cè)結(jié)果的風(fēng)險(xiǎn)點(diǎn)分布{CDj}部分。
表3 單維度檢測(cè)結(jié)果
圖3 CD單維度檢測(cè)結(jié)果
(3)SD的單維度檢測(cè)。執(zhí)行SD(學(xué)科維度)單維度檢測(cè)算法,檢測(cè)結(jié)果的可視化形式見圖4,描述形式見表3中SD單維度檢測(cè)結(jié)果的風(fēng)險(xiǎn)點(diǎn)分布{SDK}部分。
圖4 SD單維度檢測(cè)結(jié)果
3.4.3 雙維度檢測(cè)結(jié)果
(1){TD,CD}的雙維度檢測(cè)。檢測(cè)結(jié)果見表4中的第2列。
(2){TD,SD}的雙維度檢測(cè)。檢測(cè)結(jié)果見表4中的第3列。
(3){CD,SD}的雙維度檢測(cè)。檢測(cè)結(jié)果見表4中的第4列。
表4 雙維度檢測(cè)結(jié)果
3.4.4 三維度檢測(cè)結(jié)果
{TD,CD,SD}三維度檢測(cè)。檢測(cè)結(jié)果見表5。
表5 三維度檢測(cè)結(jié)果
基于上述實(shí)驗(yàn)結(jié)果,分析得出可理解性主要風(fēng)險(xiǎn)點(diǎn)及其產(chǎn)生的主要數(shù)字對(duì)象集合如下。
(1)數(shù)字對(duì)象內(nèi)部結(jié)構(gòu)信息。集中在{TDi,CDj,SDk}(i={1,2},j=1,k∈ [1,8]),即 1995年之前所有學(xué)科的期刊文獻(xiàn)之中。可能原因在于,數(shù)字掃描是1995年之前期刊文獻(xiàn)采用的數(shù)字轉(zhuǎn)換主要方式,掃描結(jié)果為圖片格式。故,數(shù)字對(duì)象的內(nèi)部結(jié)構(gòu)信息難以自動(dòng)析出,需人工提取,導(dǎo)致該元素可能無賦值內(nèi)容或賦值內(nèi)容出現(xiàn)偏差。規(guī)避和降低該風(fēng)險(xiǎn)點(diǎn)產(chǎn)生的風(fēng)險(xiǎn)概率的方法是:保存系統(tǒng)對(duì)該數(shù)字對(duì)象集合中每件數(shù)字對(duì)象,人工提取、補(bǔ)充和核實(shí)其內(nèi)部結(jié)構(gòu)信息,賦值到該風(fēng)險(xiǎn)型元數(shù)據(jù)元素中。
(2)數(shù)字對(duì)象外部結(jié)構(gòu)信息、外部結(jié)構(gòu)判定事件。這兩個(gè)風(fēng)險(xiǎn)點(diǎn)均主要集中在{TDi,CDj,SDk}(i={6,7},j={1,2,3},k={1,5,6}),即 2011年之后基礎(chǔ)學(xué)科、哲學(xué)與人文學(xué)科和社會(huì)科學(xué)的期刊、碩博論文和會(huì)議論文??赡艿脑蚴牵4嫦到y(tǒng)收錄該集合數(shù)字對(duì)象時(shí),沒有執(zhí)行外部結(jié)構(gòu)判定事件,導(dǎo)致中心數(shù)字對(duì)象與節(jié)點(diǎn)數(shù)字對(duì)象之間的結(jié)構(gòu)描述缺失或出現(xiàn)偏差。規(guī)避和降低這兩個(gè)風(fēng)險(xiǎn)點(diǎn)產(chǎn)生的風(fēng)險(xiǎn)概率的方法是:保存系統(tǒng)對(duì)該集合中每件數(shù)字對(duì)象,識(shí)別與之關(guān)聯(lián)的保存系統(tǒng)中其他數(shù)字對(duì)象,并進(jìn)行關(guān)聯(lián)類型界定,賦值到上述相關(guān)風(fēng)險(xiǎn)型元數(shù)據(jù)元素中。
(3)整體式語義信息、知識(shí)點(diǎn)式語義信息、語義信息識(shí)別事件。主要集中在{TDi,CDj,SDk}(i={6,7},j={1,2,3},k={5,6}),即 2011年之后哲學(xué)與人文學(xué)科和社會(huì)科學(xué)的期刊、碩博論文和會(huì)議論文。可能的原因是,保存系統(tǒng)收錄該集合數(shù)字對(duì)象時(shí),沒有執(zhí)行語義信息識(shí)別事件,導(dǎo)致用于理解數(shù)字對(duì)象和知識(shí)點(diǎn)的相關(guān)附加材料缺失。規(guī)避和降低這三個(gè)風(fēng)險(xiǎn)點(diǎn)產(chǎn)生的風(fēng)險(xiǎn)概率的方法是:保存系統(tǒng)針對(duì)該集合中每件數(shù)字對(duì)象,識(shí)別和補(bǔ)充相關(guān)輔助資料,賦值到上述相關(guān)風(fēng)險(xiǎn)型元數(shù)據(jù)元素中。
本研究在界定可理解性涵義的基礎(chǔ)上,設(shè)計(jì)可理解性風(fēng)險(xiǎn)元數(shù)據(jù),并基于元數(shù)據(jù)構(gòu)建可理解性風(fēng)險(xiǎn)的檢測(cè)方法。因此,可理解性風(fēng)險(xiǎn)型元數(shù)據(jù)的科學(xué)性決定了數(shù)字保存可理解性風(fēng)險(xiǎn)檢測(cè)方法的可靠程度。所以,完善該類風(fēng)險(xiǎn)型元數(shù)據(jù)是后續(xù)研究的一項(xiàng)內(nèi)容。