文/海洋石油工程股份有限公司 張寅
隨著企業(yè)信息化水平的不斷提高,在企業(yè)內(nèi)、外部圍繞各業(yè)務(wù)逐步建立了許多信息系統(tǒng),并形成了大量有價(jià)值的數(shù)字資源。為了更好地管理、保護(hù)這些企業(yè)的無(wú)形資產(chǎn),發(fā)揮其巨大信息與經(jīng)濟(jì)價(jià)值,企業(yè)數(shù)字檔案館建設(shè)概念應(yīng)運(yùn)而生。
國(guó)家檔案局在《企業(yè)數(shù)字檔案館(室)建設(shè)指南》中明確提出企業(yè)數(shù)字檔案館(室)是指“企業(yè)運(yùn)用現(xiàn)代信息技術(shù)固化檔案工作業(yè)務(wù)流程,對(duì)本企業(yè)或與其具有資產(chǎn)隸屬關(guān)系企業(yè)的電子檔案或其他數(shù)字資源進(jìn)行收集、整理、保存,并通過(guò)網(wǎng)絡(luò)提供檔案信息服務(wù)和共享利用的集成管理系統(tǒng)平臺(tái)”。從定義中不難看出,企業(yè)數(shù)字檔案館管理的對(duì)象主要是“數(shù)字資源”,包含了企業(yè)內(nèi)、外部在業(yè)務(wù)活動(dòng)中形成的結(jié)構(gòu)化數(shù)據(jù)(例如關(guān)系型數(shù)據(jù)庫(kù))與非結(jié)構(gòu)化數(shù)據(jù)(例如word、圖片、音視頻等)。企業(yè)數(shù)字檔案館的最終目標(biāo)是希望通過(guò)標(biāo)準(zhǔn)化、集中統(tǒng)一的管理手段,確保企業(yè)的數(shù)字資源能夠在長(zhǎng)期保存過(guò)程中始終提供準(zhǔn)確、完整、可用、安全的信息服務(wù)。
(一)數(shù)據(jù)倉(cāng)庫(kù)與Data Vault 2.0。數(shù)據(jù)倉(cāng)庫(kù)是企業(yè)信息處理的一個(gè)基礎(chǔ),它被定義為面向主題的、集成的、隨時(shí)間變化的、一個(gè)支持決策管理的數(shù)據(jù)集合。數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的相關(guān)理念與企業(yè)檔案工作有許許多多的共性,兩者都要求在企業(yè)級(jí)層面對(duì)信息進(jìn)行管理,筆者認(rèn)為如果把企業(yè)數(shù)字檔案館理解為一個(gè)概念框架,那數(shù)據(jù)倉(cāng)庫(kù)則是實(shí)現(xiàn)該框架的重要技術(shù)手段之一。Data Vault 2.0(以下簡(jiǎn)稱DV2)是一個(gè)商業(yè)智能系統(tǒng),所謂Data Vault其真實(shí)的名稱應(yīng)為“公共基礎(chǔ)性倉(cāng)庫(kù)架構(gòu)”,該系統(tǒng)包含了與數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)、實(shí)施和管理的相關(guān)業(yè)務(wù)。在Data Vault 1.0時(shí)期其高度關(guān)注數(shù)據(jù)建模的部分,2.0版本在原有架構(gòu)基礎(chǔ)上進(jìn)行了廣泛擴(kuò)展,增加了許多在數(shù)據(jù)倉(cāng)庫(kù)和商業(yè)智能方面成功的必要組件,具體包括:1.DV2建模:對(duì)模型性能和可擴(kuò)展性的更改。2.DV2方法:遵循Scrum和敏捷最佳實(shí)踐。3.DV2架構(gòu):包括NoSQL系統(tǒng)和大數(shù)據(jù)系統(tǒng)。4.DV2實(shí)現(xiàn):基于模式、自動(dòng)化生成CMMI級(jí)別5。這些組件在企業(yè)數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的總體中起著關(guān)鍵作用,本文主要針對(duì)DV2架構(gòu)與建模進(jìn)行介紹。
(二)Data Vault 2.0架構(gòu)。DV2架構(gòu)基于三層數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),三個(gè)層次一般理解為暫存區(qū)(或集結(jié)區(qū))、數(shù)據(jù)倉(cāng)庫(kù)和信息市場(chǎng)(或數(shù)據(jù)集市),“圖1”展示了DV2總體架構(gòu)的概覽。其主要特點(diǎn)包括以下幾點(diǎn):1.暫存區(qū)中不存儲(chǔ)歷史信息,同時(shí)不支持?jǐn)?shù)據(jù)修改,但當(dāng)數(shù)據(jù)倉(cāng)庫(kù)可以支持近實(shí)時(shí)處理時(shí),對(duì)暫存區(qū)的需求和依賴度會(huì)下降,實(shí)時(shí)數(shù)據(jù)可直接傳輸至數(shù)據(jù)倉(cāng)庫(kù)層;2.數(shù)據(jù)倉(cāng)庫(kù)層遵循Data Vault建模技術(shù)。3.架構(gòu)支持一個(gè)或多個(gè)依賴數(shù)據(jù)倉(cāng)庫(kù)的信息集市,而元市場(chǎng)(Meta Mart)是一個(gè)非常重要的組成,負(fù)責(zé)收集整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)信息。4.架構(gòu)分離了軟硬業(yè)務(wù)規(guī)則,使企業(yè)數(shù)據(jù)倉(cāng)庫(kù)成為一個(gè)面向原始事實(shí)的記錄系統(tǒng)(Raw Data Vault),并隨時(shí)間推移不斷裝載原始事實(shí)。5.包含一個(gè)可選的“指標(biāo)庫(kù)”(Metrics Vault),即用于捕獲和記錄運(yùn)行的相關(guān)信息。6.包含一個(gè)可選的“業(yè)務(wù)庫(kù)”(Business Vault),即按照業(yè)務(wù)規(guī)則或需求將原始數(shù)據(jù)變換為業(yè)務(wù)所需或理解的數(shù)據(jù)。7.包含一個(gè)可選的“操作庫(kù)”(Operational Vault),即某些業(yè)務(wù)系統(tǒng)可直接將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)倉(cāng)庫(kù)中,例如主數(shù)據(jù)管理、元數(shù)據(jù)管理、實(shí)時(shí)采集等。8.自助BI(Business Intelligent),允許業(yè)務(wù)人員在不涉及信息技術(shù)的情況下,可自由執(zhí)行自定義的數(shù)據(jù)分析任務(wù),并允許將它們回寫(xiě)至數(shù)據(jù)倉(cāng)庫(kù)層。9.架構(gòu)可與大數(shù)據(jù)處理hadoop或Nosql無(wú)縫對(duì)接,主要用于海量數(shù)據(jù)存儲(chǔ)與執(zhí)行數(shù)據(jù)挖掘。
圖1 Data Vault 2.0架構(gòu)總覽
(三)Data Vault 2.0模型。DV2模型是一個(gè)面向細(xì)節(jié)的、可追溯的并且唯一鏈接的規(guī)范化表集。從建模風(fēng)格上看,它采用了一種由第三范式與維度建模方法混合而成的方式,以二者的獨(dú)特組合來(lái)滿足需求。DV2在建模過(guò)程中采用了中心輻射型圖形模式,這意味著除了由基礎(chǔ)設(shè)施造成的限制之外,其可以表示的數(shù)據(jù)規(guī)模不存在已知的固有限制。在DV2模型中有三個(gè)基本實(shí)體,各個(gè)實(shí)體均已散列碼為主鍵(PK):1.中心表(Hub):唯一業(yè)務(wù)鍵列表,存儲(chǔ)各業(yè)務(wù)對(duì)象的業(yè)務(wù)鍵及相關(guān)元數(shù)據(jù),標(biāo)準(zhǔn)的結(jié)構(gòu)包括散列鍵、業(yè)務(wù)鍵、加載日期、記錄來(lái)源等屬性。2.鏈接表(Link):記錄中心表鍵與鍵之間唯一關(guān)系的列表,表示業(yè)務(wù)對(duì)象間的關(guān)系或聯(lián)系,標(biāo)準(zhǔn)的結(jié)構(gòu)包括散列鍵、加載日期、記錄來(lái)源等屬性。3.衛(wèi)星表(SateLite):歷史的描述性數(shù)據(jù),存儲(chǔ)業(yè)務(wù)對(duì)象、關(guān)聯(lián)性等具體屬性信息,并通過(guò)主鍵外聯(lián)中心表或鏈接表,標(biāo)準(zhǔn)的結(jié)構(gòu)包括散列鍵、加載日期、記錄來(lái)源、父散列鍵、失效時(shí)間、散列校驗(yàn)值及業(yè)務(wù)屬性等。
(一)在資源整合方面的應(yīng)用。企業(yè)數(shù)字資源大多由前端業(yè)務(wù)系統(tǒng)產(chǎn)生,這些系統(tǒng)在設(shè)計(jì)、建設(shè)時(shí)往往只考慮自身縱向的業(yè)務(wù)邏輯與功能需求,缺少了在企業(yè)層面統(tǒng)一的數(shù)據(jù)規(guī)劃與語(yǔ)義標(biāo)準(zhǔn),例如不同的系統(tǒng)描述同一個(gè)員工的唯一標(biāo)識(shí)(ID)可能不同,異構(gòu)的數(shù)據(jù)源給數(shù)字檔案館在數(shù)字資源整合帶來(lái)很大困難。在DV2中,由于使用散列鍵作為中心表的主鍵,使用“same-as”衛(wèi)星表可很方便地整合對(duì)同一業(yè)務(wù)對(duì)象的不同標(biāo)識(shí),而不需再為改變?cè)聪到y(tǒng)中的業(yè)務(wù)鍵而發(fā)愁。同時(shí)面對(duì)整合過(guò)程中出現(xiàn)數(shù)據(jù)類(lèi)型與粒度的不匹配情況,中心表可以按照數(shù)據(jù)來(lái)源與變更的頻率,通過(guò)散列鍵外聯(lián)多個(gè)衛(wèi)星表,從而確保異構(gòu)數(shù)據(jù)源能夠迅速整合及數(shù)據(jù)原始性。此外,散列主鍵還可以無(wú)縫對(duì)接Hadoop或Nosql,從而進(jìn)一步實(shí)現(xiàn)文檔、圖片、視頻等非結(jié)構(gòu)化數(shù)字資源的整合與海量存儲(chǔ)。
(二)在資源真實(shí)性鑒定方面的應(yīng)用。企業(yè)數(shù)字檔案館其中一個(gè)重要目標(biāo)是要做到維護(hù)歷史數(shù)據(jù)的真實(shí)性,這種真實(shí)性體現(xiàn)在兩個(gè)方面:一是技術(shù)真實(shí)性,即數(shù)字資源在長(zhǎng)期保存過(guò)程中沒(méi)有被誤改或篡改。二是來(lái)源真實(shí)性,即數(shù)字資源記錄了真實(shí)的業(yè)務(wù)活動(dòng)。如何確保數(shù)字資源的真實(shí)性與可追溯性也是在集成管理和長(zhǎng)期保存中亟待解決的難題。在DV2架構(gòu)中要求建立一個(gè)面向原始事實(shí)的記錄系統(tǒng)(Raw Data Vault),存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)層的數(shù)據(jù)可以擁有不同的版本與失效時(shí)間,但不可修改。在中心表、鏈接表、衛(wèi)星表均記錄了數(shù)據(jù)的來(lái)源與加載時(shí)間,衛(wèi)星表中還通過(guò)保存各屬性的散列運(yùn)算值提供校驗(yàn)??梢哉f(shuō)DV2架構(gòu)可追隨、可審計(jì)性為數(shù)字資源的真實(shí)性鑒定提供了有力保障。
(三)在數(shù)字資源利用分析方面的應(yīng)用?,F(xiàn)階段企業(yè)檔案管理部門(mén)針對(duì)數(shù)字檔案館建設(shè)主要圍繞著館藏檔案數(shù)字化和檔案全文數(shù)據(jù)建設(shè)以及服務(wù)利用信息化、網(wǎng)絡(luò)化。這種服務(wù)比較原始、單一,更多的被動(dòng)等待式的利用。數(shù)據(jù)時(shí)代背景下沒(méi)有經(jīng)過(guò)分析、挖掘,難以體現(xiàn)數(shù)字資源自身及集中管理的價(jià)值。而在DV2架構(gòu)中由中心表、鏈接表和衛(wèi)星表組成的中心輻射型模型可以非常簡(jiǎn)便地轉(zhuǎn)化為維度模型,并在靈活的軟規(guī)則變換中(即不影響原始數(shù)據(jù)的前提下)迅速地構(gòu)建多種信息市場(chǎng)(或數(shù)據(jù)集市),實(shí)現(xiàn)數(shù)字資源的復(fù)用和分析挖掘,同時(shí)因架構(gòu)良好的擴(kuò)展性,大大降低了因企業(yè)內(nèi)部需求變化或多部門(mén)觀察角度不同,導(dǎo)致信息市場(chǎng)重建的風(fēng)險(xiǎn)。