程 穎(武漢大學(xué)圖書館 武漢 430072)
數(shù)字資源元數(shù)據(jù)質(zhì)量管理的研究與探索
程 穎
(武漢大學(xué)圖書館 武漢 430072)
〔摘 要〕數(shù)字資源已成為圖書館重要的信息資源,對數(shù)字資源元數(shù)據(jù)進(jìn)行質(zhì)量管理是數(shù)字資源管理的重要內(nèi)容。文章從數(shù)字資源元數(shù)據(jù)質(zhì)量管理的需求出發(fā),分析了元數(shù)據(jù)質(zhì)量問題,結(jié)合武漢大學(xué)圖書館多年來數(shù)字資源元數(shù)據(jù)質(zhì)量管理的研究與實(shí)踐探索,構(gòu)建了數(shù)字資源元數(shù)據(jù)質(zhì)量管理模型,并給出了元數(shù)據(jù)質(zhì)量管理流程和質(zhì)量管理相關(guān)建議。
〔關(guān)鍵詞〕數(shù)字資源 元數(shù)據(jù) 數(shù)據(jù)質(zhì)量 數(shù)據(jù)管理 信息組織 大數(shù)據(jù)
數(shù)字資源又稱電子資源,是伴隨著計(jì)算機(jī)技術(shù)、信息技術(shù)及網(wǎng)絡(luò)技術(shù)的發(fā)展而產(chǎn)生的一種新型資源[1],它包括電子期刊、電子圖書、電子學(xué)位論文和電子會議論文等。隨著數(shù)字圖書館的發(fā)展,數(shù)字資源已在資源建設(shè)中發(fā)揮著非常重要的作用。目前,許多圖書館的數(shù)字資源數(shù)量巨大,以武漢大學(xué)圖書館為例,截至2014 年12月,共訂購各類數(shù)據(jù)庫455個,其中中外文數(shù)字化書刊達(dá)到871萬冊[2],隨著今后繼續(xù)訂購數(shù)字資源,及網(wǎng)絡(luò)開放存取資源的不斷發(fā)展,圖書館可提供用戶訪問的數(shù)字資源數(shù)量將持續(xù)攀升。元數(shù)據(jù)作為揭示數(shù)字資源內(nèi)容、屬性及特征等信息的一種數(shù)據(jù)形式,在資源整合、資源檢索、資源發(fā)現(xiàn)、資源評估及資源管理等應(yīng)用中發(fā)揮著非常重要的作用[3-5],數(shù)字資源元數(shù)據(jù)質(zhì)量也直接影響數(shù)字資源的建設(shè)水平和服務(wù)質(zhì)量。2004年美國學(xué)者Bruce和Hillman將元數(shù)據(jù)質(zhì)量定義為“元數(shù)據(jù)滿足需求和目標(biāo)的程度”[6]。由于數(shù)字資源元數(shù)據(jù)來源多樣、數(shù)據(jù)量大及重復(fù)率高等原因,造成數(shù)據(jù)質(zhì)量問題頻現(xiàn),從而影響了數(shù)字資源的有效利用。如何對獲得的數(shù)字資源元數(shù)據(jù)進(jìn)行質(zhì)量管理,建設(shè)高質(zhì)量的元數(shù)據(jù)倉儲,以提供更好的信息服務(wù),而不過多地依賴外部公司,是圖書館需要探索與解決的問題。
數(shù)字資源元數(shù)據(jù)是關(guān)于數(shù)字資源及其特性的結(jié)構(gòu)化信息[7],是數(shù)字圖書館信息組織的基礎(chǔ)[8],對數(shù)字資源元數(shù)據(jù)進(jìn)行質(zhì)量管理是圖書館業(yè)務(wù)發(fā)展的需要。
揭示數(shù)字資源的需要。通過查看元數(shù)據(jù)可以了解數(shù)字資源的信息:①內(nèi)容信息。包括題名、著者、摘要、主題、關(guān)鍵詞及分類等信息。②屬性信息。包括數(shù)字資源特征、資源類型特征、數(shù)據(jù)來源特征及服務(wù)類型特征等。③定位信息。提供數(shù)字資源的網(wǎng)絡(luò)鏈接地址,以方便直接查看數(shù)字資源的內(nèi)容。④歷史沿革。描述數(shù)字資源的發(fā)展變化,例如電子期刊改名、頻率變化、合刊、分刊、前刊和后續(xù)刊等情況。⑤關(guān)聯(lián)關(guān)系。揭示數(shù)字資源與相關(guān)資源、相關(guān)系統(tǒng)及數(shù)據(jù)庫的關(guān)系,如數(shù)字資源與其對應(yīng)的印刷型資源的關(guān)聯(lián)。
管理數(shù)字資源的需要。目前,許多數(shù)字資源仍采取以單個數(shù)據(jù)庫為單位的管理模式,這種模式很難準(zhǔn)確地掌握電子圖書、電子期刊等單個數(shù)字資源的實(shí)際情況。元數(shù)據(jù)是“數(shù)字資源”的替代品[9-10],通過它可以管理電子圖書、電子期刊等單個數(shù)字資源,及基于單個資源而衍生出的集合式數(shù)字資源的訪問控制、各數(shù)據(jù)庫訪問點(diǎn)的集成、互操作、數(shù)字資源的訪問統(tǒng)計(jì)、評價及引用等。
利用數(shù)字資源的需要。數(shù)字資源元數(shù)據(jù)使得數(shù)字資源的許多應(yīng)用成為可能,如資源發(fā)現(xiàn)、資源檢索、資源共享、資源鏈接及數(shù)字資源評介等應(yīng)用均依賴于元數(shù)據(jù),且與元數(shù)據(jù)質(zhì)量緊密相關(guān)。高質(zhì)量元數(shù)據(jù)使得用戶檢索時能準(zhǔn)確地定位到數(shù)字資源的內(nèi)容,低劣的元數(shù)據(jù)則會導(dǎo)致檢索時出現(xiàn)過多的、不相關(guān)的、或重復(fù)記錄,從而影響數(shù)字資源的利用。
目前,數(shù)字資源元數(shù)據(jù)質(zhì)量出現(xiàn)各種問題,以正在發(fā)展中的資源發(fā)現(xiàn)系統(tǒng)為例,它是基于元數(shù)據(jù)倉儲的一種資源整合系統(tǒng),由于其數(shù)據(jù)獲取渠道多樣、著錄規(guī)范不統(tǒng)一、元數(shù)據(jù)倉儲不在本地,及系統(tǒng)商缺乏元數(shù)據(jù)技術(shù)人員等原因,使得僅依賴資源發(fā)現(xiàn)系統(tǒng)商難以解決元數(shù)據(jù)質(zhì)量問題[11],圖書館專注元數(shù)據(jù)發(fā)展,有經(jīng)驗(yàn)豐富的從事元數(shù)據(jù)工作的隊(duì)伍,因此,可在數(shù)字資源元數(shù)據(jù)質(zhì)量管理上做些探索性工作。數(shù)字資源元數(shù)據(jù)質(zhì)量管理是通過規(guī)劃及運(yùn)用相應(yīng)的技術(shù)和方法對獲取的各來源的數(shù)字資源元數(shù)據(jù)實(shí)施科學(xué)的、有效的質(zhì)量管理,以提供高質(zhì)量的信息服務(wù),使數(shù)字資源能夠得到更好的利用。檢索中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫,2005-2014年間數(shù)字資源元數(shù)據(jù)質(zhì)量方面的論文只有9篇,表明元數(shù)據(jù)質(zhì)量管理尚處于摸索階段,缺乏一套適應(yīng)國內(nèi)實(shí)際情況的數(shù)字資源元數(shù)據(jù)質(zhì)量管理方案。武漢大學(xué)圖書館多年來一直進(jìn)行數(shù)字資源元數(shù)據(jù)質(zhì)量管理的理論研究及實(shí)踐探索,以下結(jié)合實(shí)踐來探討元數(shù)據(jù)質(zhì)量管理的若干問題。
2. 1 數(shù)字資源元數(shù)據(jù)的質(zhì)量問題
(1) 數(shù)據(jù)有誤。數(shù)字資源元數(shù)據(jù)沒有嚴(yán)格遵循國際、國內(nèi)及行業(yè)內(nèi)的著錄標(biāo)準(zhǔn)和規(guī)范。一方面表現(xiàn)在著錄有誤,如字段名稱錯誤,指示符設(shè)置錯誤,字母拼寫錯誤,外國人名順序錯誤、定長字段字符位設(shè)置錯誤等;另一方面是數(shù)據(jù)格式有誤。不標(biāo)準(zhǔn)或錯誤的數(shù)據(jù)格式會造成元數(shù)據(jù)無法被轉(zhuǎn)換,或轉(zhuǎn)換后出現(xiàn)記錄錯位、截?cái)嗷蚵┑粲涗浀惹闆r。
(2) 數(shù)據(jù)遺漏。指元數(shù)據(jù)不完整,如缺少一些字段、子字段和字段指示符,字段內(nèi)容不完整,缺少主題和分類信息,多著者著錄不全等。
(3) 數(shù)據(jù)失效。數(shù)據(jù)失效會造成元數(shù)據(jù)無法被利用,數(shù)據(jù)失效的原因有多種,如元數(shù)據(jù)所對應(yīng)的數(shù)字資源實(shí)際并未被圖書館訂購,元數(shù)據(jù)中的網(wǎng)絡(luò)鏈接地址有誤,或者因電子期刊??斐善渚W(wǎng)址無效等。
(4) 數(shù)據(jù)重復(fù)。由于數(shù)據(jù)庫間重復(fù)收錄數(shù)字資源的情況普遍存在,例如中國知網(wǎng)有89%的期刊被萬方和維普收錄[12],因此,不同來源元數(shù)據(jù)集間存在大量重復(fù)數(shù)據(jù);同一來源元數(shù)據(jù)集內(nèi)部也會出現(xiàn)數(shù)據(jù)重復(fù)的情況;此外,元數(shù)據(jù)記錄內(nèi)部的一些字段也會重復(fù),如出現(xiàn)多個相同主題詞的字段。
2. 2 數(shù)字資源元數(shù)據(jù)質(zhì)量問題的原因分析
(1) 數(shù)據(jù)來源。元數(shù)據(jù)不僅可從數(shù)據(jù)庫商、代理商處購買或免費(fèi)獲得,還可通過網(wǎng)絡(luò)下載,從數(shù)據(jù)庫管理后臺提取,從而造成元數(shù)據(jù)來源的多樣化。由于各來源數(shù)據(jù)依據(jù)的著錄標(biāo)準(zhǔn)和規(guī)范不統(tǒng)一,造成數(shù)據(jù)著錄不一致、數(shù)據(jù)格式各異等問題。
(2) 數(shù)據(jù)處理。目前,圖書館界和提供元數(shù)據(jù)服務(wù)的系統(tǒng)商并沒有充分的認(rèn)識到元數(shù)據(jù)質(zhì)量的重要性,沒有建立一套科學(xué)的數(shù)據(jù)處理方案,使得多來源數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉儲之前未根據(jù)各來源數(shù)據(jù)的實(shí)際情況和特點(diǎn)進(jìn)行相應(yīng)的處理,如設(shè)定合適的參數(shù)進(jìn)行數(shù)據(jù)過濾、去重和歸并,或只進(jìn)行簡單處理就導(dǎo)入元數(shù)據(jù)倉儲中,從而造成大量數(shù)據(jù)重復(fù)、各來源數(shù)據(jù)著錄不一致等問題。
(3)不穩(wěn)定性。數(shù)字資源并不是一成不變的,有時會出現(xiàn)更新、變更、被替換或停止使用等情況。一旦數(shù)字資源發(fā)生變化,不及時更新則會造成元數(shù)據(jù)與對應(yīng)的數(shù)字資源實(shí)際情況不符,產(chǎn)生新的質(zhì)量問題。此外,元數(shù)據(jù)相關(guān)標(biāo)準(zhǔn)、規(guī)范及圖書館業(yè)務(wù)均處于不斷變化中,也會帶來新的質(zhì)量問題。
3. 1 概述
武漢大學(xué)圖書館在總結(jié)多年數(shù)字資源元數(shù)據(jù)質(zhì)量管理經(jīng)驗(yàn)的基礎(chǔ)上構(gòu)建了質(zhì)量管理模型,為數(shù)字資源元數(shù)據(jù)質(zhì)量管理提供了一個邏輯結(jié)構(gòu)。該模型由三大構(gòu)件組成,從上至下依次為數(shù)字資源元數(shù)據(jù)的生命周期、影響質(zhì)量的基本要素及數(shù)據(jù)質(zhì)量維度。其中,數(shù)字資源元數(shù)據(jù)的生命周期是從圖書館的角度來描述元數(shù)據(jù)被操作的過程,影響質(zhì)量的四個基本要素是數(shù)據(jù)質(zhì)量管理的基礎(chǔ)條件,數(shù)據(jù)質(zhì)量維度則提供了評估和控制元數(shù)據(jù)質(zhì)量的依據(jù),三大構(gòu)件緊密聯(lián)系,相輔相成。數(shù)字資源元數(shù)據(jù)質(zhì)量管理實(shí)質(zhì)是基于數(shù)字資源元數(shù)據(jù)整個生命周期的質(zhì)量管理活動,在生命周期的各階段均需綜合考慮元數(shù)據(jù)、人員、流程和技術(shù)四個基本要素,并依據(jù)數(shù)據(jù)質(zhì)量維度實(shí)施質(zhì)量控制 (如圖1)。
3. 2 數(shù)字資源元數(shù)據(jù)的生命周期
圖1 數(shù)字資源元數(shù)據(jù)質(zhì)量管理模型
數(shù)字資源元數(shù)據(jù)是一種信息資源,也具有生命周期,其生命周期與數(shù)字資源的變化息息相關(guān),綜合考慮數(shù)字資源的特性、發(fā)展變化及數(shù)據(jù)處理方式,將數(shù)字資源元數(shù)據(jù)的生命周期依次劃分為八個階段:
(1) 規(guī)劃。從總體層面考慮,分析數(shù)據(jù)質(zhì)量需求,制定目標(biāo),并明確標(biāo)準(zhǔn)和規(guī)范,合理的規(guī)劃有利于元數(shù)據(jù)在整個生命周期中的科學(xué)管理。
(2) 創(chuàng)建。由人工著錄、改編印刷型資源元數(shù)據(jù)、或軟件自動抽取等方法生成數(shù)字資源元數(shù)據(jù)。
(3) 收集。通過多種方式、多種渠道收集現(xiàn)成的數(shù)字資源元數(shù)據(jù)。
(4) 處理。元數(shù)據(jù)進(jìn)入數(shù)據(jù)倉儲前必須對數(shù)據(jù)進(jìn)行處理,以滿足質(zhì)量要求。數(shù)據(jù)處理是生命周期中的關(guān)鍵階段,它包括將源數(shù)據(jù)格式轉(zhuǎn)換成數(shù)據(jù)倉儲接受的數(shù)據(jù)格式,制定質(zhì)量改進(jìn)規(guī)則并修改數(shù)據(jù),使數(shù)據(jù)更標(biāo)準(zhǔn)化、規(guī)范化,并符合本地化的業(yè)務(wù)要求,制定查重規(guī)則,以定位、清查合并重復(fù)數(shù)據(jù)等。
(5) 裝載。將經(jīng)過處理的元數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉儲中。
(6) 維護(hù)。對數(shù)據(jù)倉儲中的元數(shù)據(jù)進(jìn)行質(zhì)量管理活動,包括根據(jù)數(shù)字資源的變化更新元數(shù)據(jù),制定規(guī)則過濾出問題數(shù)據(jù)集,修改數(shù)據(jù)等。
(7) 使用。通過資源檢索、資源整合及資源評估等應(yīng)用發(fā)揮元數(shù)據(jù)的效用。
(8) 刪除。當(dāng)數(shù)字資源出現(xiàn)停訂、???、被替換、或不再提供網(wǎng)絡(luò)訪問等情況時,則該數(shù)字資源失效,需刪除其元數(shù)據(jù),刪除數(shù)據(jù)需審慎,并作好記錄。
3. 3 影響數(shù)字資源元數(shù)據(jù)質(zhì)量的基本要素
(1) 元數(shù)據(jù)。元數(shù)據(jù)是數(shù)字資源元數(shù)據(jù)質(zhì)量管理的研究對象,所有的質(zhì)量管理活動均圍繞元數(shù)據(jù)展開,元數(shù)據(jù)質(zhì)量也決定了質(zhì)量管理的難度。
(2) 人員。指參與數(shù)字資源元數(shù)據(jù)質(zhì)量管理的人員、職責(zé)、分工及團(tuán)隊(duì)組織。數(shù)字資源元數(shù)據(jù)質(zhì)量管理需要多種不同專業(yè)背景和專業(yè)技能的人團(tuán)結(jié)協(xié)作、共同承擔(dān)質(zhì)量管理的重任,如元數(shù)據(jù)編目員、數(shù)據(jù)分析員、數(shù)據(jù)管理員及數(shù)據(jù)處理人員等。
(3) 流程。數(shù)字資源元數(shù)據(jù)質(zhì)量管理包括數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)修改、查重和更新等若干管理活動,且各活動有操作次序,因此,需確定元數(shù)據(jù)質(zhì)量管理的流程,以利于各項(xiàng)質(zhì)量管理活動有序地開展。
(4) 技術(shù)。指助力于元數(shù)據(jù)質(zhì)量管理的方法、技術(shù)、選用的系統(tǒng)、軟件及工具等,如網(wǎng)址有效性檢測軟件,數(shù)據(jù)格式轉(zhuǎn)換工具,問題數(shù)據(jù)過濾系統(tǒng)及數(shù)據(jù)判重系統(tǒng)等。
3. 4 數(shù)字資源元數(shù)據(jù)的質(zhì)量維度
數(shù)據(jù)質(zhì)量維度是一組表達(dá)數(shù)據(jù)質(zhì)量構(gòu)成的屬性,在特定應(yīng)用中,需制定適用于業(yè)務(wù)需求的數(shù)據(jù)質(zhì)量維度。[13]數(shù)字資源元數(shù)據(jù)質(zhì)量包含多個方面,綜合考慮元數(shù)據(jù)規(guī)范、數(shù)字資源的特性及圖書館實(shí)際業(yè)務(wù)需求等因素,制定了十個方面的數(shù)字資源元數(shù)據(jù)質(zhì)量維度。
(1) 完整性。指元數(shù)據(jù)需全面地揭示目標(biāo)數(shù)字資源,用于分析和評判元數(shù)據(jù)是否缺失必備字段、子字段,字段內(nèi)容是否詳盡等,包括結(jié)構(gòu)完整性、內(nèi)容完整性及參照完整性等。若元數(shù)據(jù)不完整,則會影響其它質(zhì)量維度的評價,因此,完整性是基礎(chǔ)維度。
(2) 準(zhǔn)確性。指元數(shù)據(jù)準(zhǔn)確且客觀地反映目標(biāo)數(shù)字資源,包括語義準(zhǔn)確性、語法準(zhǔn)確性及結(jié)構(gòu)準(zhǔn)確性等??蓪⒃獢?shù)據(jù)與目標(biāo)數(shù)字資源進(jìn)行對比來分析數(shù)據(jù)準(zhǔn)確性,不準(zhǔn)確的數(shù)據(jù)會導(dǎo)致無效的數(shù)據(jù)應(yīng)用。
(3) 規(guī)范性。指元數(shù)據(jù)遵循各類相關(guān)標(biāo)準(zhǔn)、規(guī)范、應(yīng)用指南及受控詞表的程度,涉及數(shù)據(jù)格式、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)內(nèi)容等多個方面。規(guī)范性檢查包括字段名稱、字段指示符設(shè)置是否規(guī)范,分類及主題是否取自規(guī)范的分類主題詞表等。
(4) 唯一性。既指元數(shù)據(jù)在數(shù)據(jù)倉儲中只出現(xiàn)一次,即數(shù)據(jù)不重復(fù),也指某些字段和屬性的唯一性。對于重復(fù)數(shù)據(jù),需根據(jù)數(shù)據(jù)的實(shí)際情況,設(shè)定多個字段及子字段的組合作為判重條件來清理數(shù)據(jù)。
(5) 一致性。指元數(shù)據(jù)在概念、結(jié)構(gòu)、邏輯及語法等方面需保持一致,包括各來源數(shù)據(jù)的一致性,中西文數(shù)據(jù)的一致性,外部源數(shù)據(jù)與本地?cái)?shù)據(jù)的一致性,元數(shù)據(jù)與目標(biāo)數(shù)字資源的一致性等。一致性可以更好地實(shí)現(xiàn)同一平臺下所有資源的統(tǒng)一檢索和統(tǒng)一利用。
(6) 及時性。指元數(shù)據(jù)是否及時地揭示目標(biāo)數(shù)字資源的最新情況,當(dāng)數(shù)字資源發(fā)生變化時,需及時地更新元數(shù)據(jù)。
(7) 有效性。指元數(shù)據(jù)是否為有效信息,包括元數(shù)據(jù)記錄的有效性和數(shù)據(jù)內(nèi)容的有效性。若獲得的元數(shù)據(jù)記錄對應(yīng)的數(shù)字資源未被圖書館訂購或停訂,則該記錄失效;若元數(shù)據(jù)中的網(wǎng)絡(luò)鏈接地址不可訪問,則元數(shù)據(jù)內(nèi)容失效,由于網(wǎng)絡(luò)鏈接地址的不穩(wěn)定性,因此,應(yīng)盡量選擇DOI、OpenURL等穩(wěn)定形式的網(wǎng)址。
(8) 適用性。指元數(shù)據(jù)可被用戶使用、易于使用及滿足用戶需求的程度,它是數(shù)據(jù)質(zhì)量管理的最終目標(biāo),涉及數(shù)據(jù)著錄形式、顯示方式、數(shù)據(jù)開放程度及網(wǎng)絡(luò)運(yùn)行狀況等方面。有些元數(shù)據(jù)著錄得非常專業(yè)、規(guī)范和詳細(xì),但因不易理解及數(shù)據(jù)開放等原因,并未被很好的利用。
(9) 可維護(hù)性。指維護(hù)元數(shù)據(jù)的難易程度。一般同一來源的元數(shù)據(jù)具有一些共同特征,因此,可根據(jù)共同特征提取出數(shù)據(jù)集而批量維護(hù)。
(10) 關(guān)聯(lián)性。元數(shù)據(jù)并不是一個獨(dú)立的個體,它來源于不同的元數(shù)據(jù)提供商,揭示不同數(shù)據(jù)庫中的數(shù)字資源,且很大一部分?jǐn)?shù)字資源是紙本資源的數(shù)字版或掃描版, 因此,元數(shù)據(jù)需揭示與其密切相關(guān)的資源的聯(lián)系,如與其對應(yīng)的紙本資源、數(shù)據(jù)來源及所屬數(shù)據(jù)庫的聯(lián)系。
我們將數(shù)字資源元數(shù)據(jù)質(zhì)量維度作為分析和處理元數(shù)據(jù)質(zhì)量問題的“尺度”,在質(zhì)量管理實(shí)踐中協(xié)同使用各個維度,并對各維度的粒度再進(jìn)行具體的細(xì)化。
圖2 數(shù)字資源元數(shù)據(jù)質(zhì)量管理流程
基于數(shù)字資源元數(shù)據(jù)質(zhì)量管理模型并結(jié)合武漢大學(xué)圖書館的質(zhì)量管理實(shí)踐,確定了數(shù)字資源元數(shù)據(jù)質(zhì)量管理的十步流程(見圖2):
(1) 發(fā)現(xiàn)問題。工作人員審核數(shù)據(jù)以發(fā)現(xiàn)數(shù)據(jù)問題,用戶使用數(shù)據(jù)報告數(shù)據(jù)問題,還可通過軟件、工具監(jiān)測數(shù)據(jù)質(zhì)量。
(2) 分析數(shù)據(jù)質(zhì)量。依據(jù)數(shù)字資源元數(shù)據(jù)質(zhì)量維度分析數(shù)據(jù)質(zhì)量及與業(yè)務(wù)需求的差距,評估劣質(zhì)數(shù)據(jù)對元數(shù)據(jù)相關(guān)應(yīng)用所造成的影響。
(3) 確定問題原因。確定數(shù)據(jù)問題是源于數(shù)據(jù)源機(jī)構(gòu),還是圖書館自身業(yè)務(wù)要求,確定原因后才可明確由誰來處理問題。
(4) 源端修正問題。由數(shù)據(jù)源機(jī)構(gòu)造成的數(shù)據(jù)問題,將數(shù)據(jù)修改要求反饋給源機(jī)構(gòu)修正。
(5) 修正當(dāng)前問題。進(jìn)一步修正剩下的數(shù)據(jù)問題,先制定若干數(shù)據(jù)質(zhì)量改進(jìn)規(guī)則,再依據(jù)規(guī)則編寫代碼來執(zhí)行數(shù)據(jù)修改操作。
(6) 預(yù)防今后問題。預(yù)測數(shù)字資源今后可能會發(fā)生的變化而提前采取的措施,以減少將來花費(fèi)更多的精力去維護(hù)數(shù)據(jù)。
(7) 測試。所有質(zhì)量管理活動均應(yīng)先在測試服務(wù)器中測試通過后再在正式服務(wù)器中實(shí)施操作,并分析質(zhì)量管理活動對服務(wù)器所造成的影響。
(8) 實(shí)施。在正式服務(wù)器中實(shí)施質(zhì)量管理活動,包括批量操作和人工操作。
(9) 審核。根據(jù)已制定的數(shù)據(jù)質(zhì)量改進(jìn)規(guī)則核查各數(shù)據(jù)問題是否已得到了解決。
(10) 改進(jìn)。總結(jié)質(zhì)量管理流程,思考其中還存在的問題及改進(jìn)方案,并將各操作結(jié)果歸檔。
數(shù)字資源元數(shù)據(jù)質(zhì)量管理的十步流程通過以數(shù)字資源元數(shù)據(jù)的質(zhì)量問題為中心,不斷發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,并解決問題的循環(huán)過程,不斷地提高元數(shù)據(jù)質(zhì)量。
5. 1 管理模式
數(shù)字資源元數(shù)據(jù)在數(shù)據(jù)來源、獲取方式、數(shù)據(jù)著錄及資源變化等方面與印刷型資源有較大差異,從而決定了數(shù)字資源元數(shù)據(jù)的質(zhì)量管理模式不同于傳統(tǒng)的印刷型資源。大數(shù)據(jù)時代,數(shù)據(jù)從簡單的處理對象轉(zhuǎn)變?yōu)橐环N重要的基礎(chǔ)性資源[14],數(shù)字資源元數(shù)據(jù)數(shù)量巨大,且易發(fā)生變化,也應(yīng)被視為大數(shù)據(jù)資源來進(jìn)行質(zhì)量管理。數(shù)字資源元數(shù)據(jù)質(zhì)量管理宜采取集中與分散相結(jié)合的管理模式:構(gòu)建單一的元數(shù)據(jù)倉儲將各來源的元數(shù)據(jù)進(jìn)行集中管理;根據(jù)數(shù)據(jù)來源、資源類型及數(shù)據(jù)變化等情況對各類數(shù)據(jù)實(shí)施有差異的管理。
5. 2 管理策略
數(shù)字資源元數(shù)據(jù)質(zhì)量管理活動需要對大量數(shù)據(jù)做批處理操作,元數(shù)據(jù)進(jìn)入數(shù)據(jù)倉儲后再進(jìn)行批處理則存在著操作風(fēng)險,也給系統(tǒng)帶來壓力,因此, 元數(shù)據(jù)入庫前進(jìn)行質(zhì)量管理比入庫后再進(jìn)行管理要好得多。為了提高質(zhì)量管理效率,應(yīng)盡可能地采取批處理方式,批處理之前需制定明確的、可供實(shí)施的多種類型的數(shù)據(jù)處理規(guī)則,如問題數(shù)據(jù)過濾規(guī)則、數(shù)據(jù)合并規(guī)則、重復(fù)數(shù)據(jù)判定規(guī)則及數(shù)據(jù)修改規(guī)則等,再依據(jù)各條規(guī)則實(shí)施批處理操作。
5. 3 多來源的數(shù)據(jù)
多來源重復(fù)的元數(shù)據(jù)必須進(jìn)行數(shù)據(jù)的過濾和去重,再從各來源數(shù)據(jù)中選擇質(zhì)量最佳的元數(shù)據(jù)作為主記錄,將其它來源的重復(fù)數(shù)據(jù)中不同于主記錄而有用的部分并入主記錄中,并標(biāo)注數(shù)據(jù)來源、被各數(shù)據(jù)庫收錄的情況及在各數(shù)據(jù)庫中的訪問網(wǎng)址。各來源的數(shù)據(jù)問題也應(yīng)與各元數(shù)據(jù)提供商溝通,從源頭處修改元數(shù)據(jù)。
數(shù)字資源元數(shù)據(jù)是揭示和管理數(shù)字資源的重要手段,隨著數(shù)字資源重要性的日漸突出,及數(shù)字資源的不穩(wěn)定性,對數(shù)字資源元數(shù)據(jù)進(jìn)行科學(xué)的質(zhì)量管理已非常必要。面對目前元數(shù)據(jù)相關(guān)業(yè)務(wù)系統(tǒng)商難以很好地解決數(shù)字資源元數(shù)據(jù)質(zhì)量問題的現(xiàn)狀,圖書館應(yīng)憑借獨(dú)特的專業(yè)優(yōu)勢及人力資源配置適時地承擔(dān)起數(shù)字資源元數(shù)據(jù)質(zhì)量管理的責(zé)任,探索規(guī)范化、系統(tǒng)性的數(shù)字資源元數(shù)據(jù)質(zhì)量管理方案。
(來稿時間:2015年3月)
參考文獻(xiàn):
1.楊慧,劉崢.GB/T3792.9—2009《文獻(xiàn)著錄第9部分:數(shù)字資源》應(yīng)用指南.北京:國家圖書館出版社,2011:1
2.本館簡介.[2015-1-15]. http://www.lib.whu.edu.cn/web/index. asp?obj_id=102
3.馮秀珍,陳旎.數(shù)字資源元數(shù)據(jù)的自動識別研究.情報雜志,2010,29(4):130-133,150
4.李凌杰.特色數(shù)據(jù)庫建設(shè)中的元數(shù)據(jù)質(zhì)量控制研究.圖書情報工作,2010,54(5):43-46
5.黃鶯,李建陽.元數(shù)據(jù)質(zhì)量評估方法及模型研究.圖書館學(xué)研究,2013,12:51-56〔Key words 〕Public library Senior citizen Taiwan public libraries
6.Bruce T R, Diane I H, The continuum of metadata q-uality:defining expressing exploiting // Diane I H. Met-adata in Pratice. Chicago: American Library Association, 2004
7.Muriel Foulonneau and Jenn Riley.Metadata for dig-ital resources:implementation, systems design and inter-operability. Oxford: Chandos,2008:6
8.孫曉菲,韓子靜,曹玉霞等.數(shù)字時代的元數(shù)據(jù)實(shí)踐.杭州:浙江大學(xué)出版社,2013:16
9.史曉剛,黃鐵軍.電子圖書元數(shù)據(jù)的自動檢查.現(xiàn)代圖書情報技術(shù),2005(7):7-10
10.吳顯義.我國元數(shù)據(jù)研究現(xiàn)狀分析.情報科學(xué),2004, 2(1):55-58,62
11.李鵬云.基于元數(shù)據(jù)倉儲的圖書館數(shù)據(jù)整合實(shí)踐——以國家圖書館“文津搜索”項(xiàng)目為例.圖書館學(xué)刊,2013(8):46-49
12.王倩,劉金玲.圖書館聯(lián)盟數(shù)字資源的重疊及互補(bǔ)關(guān)系定量研究——以四川省高校圖書館為例.圖書館論壇,2012,32(3):117-121
13.宋敏,覃正.國外數(shù)據(jù)質(zhì)量管理研究綜述.情報雜志,2007(2):7-9
14.孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn).計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169
〔分類號〕G250.7
〔作者簡介〕周強(qiáng)(1974-),男,情報學(xué)學(xué)士,深圳圖書館副研究館員,發(fā)表論文10余篇,研究方向:圖書館業(yè)務(wù)流程及自動化集成系統(tǒng)研發(fā)。 程穎(1977-),女,計(jì)算機(jī)應(yīng)用專業(yè)碩士,武漢大學(xué)圖書館館員,研究方向:元數(shù)據(jù)管理及電子資源整合。
Research and Practice on the Metadata Quality Management of Digital Resources
Cheng Ying
( Wuhan University Library )
〔Abstract 〕Digital resources have been an important information resources for the libraries, and the quality management of digital resources metadata is essential. In this paper, we point the importance of the quality management of digital resources metadata, and analyzes the quality problems and causes, then constructs a quality framework for the quality management of digital resources metadata based on the practice of Wuhan University Library, which including the digital resources metadata lifecycle, four basic influencing elements and metadata quality dimensions, then provides the quality management process and some suggestion accordingly.
〔Key words 〕Digital resources Metadata Data quality Data management Information organization Big data