文·王偉
數(shù)據(jù)治理(Data Governance)是涉及數(shù)據(jù)使用的一整套管理行為。國際數(shù)據(jù)管理協(xié)會(huì)對(duì)數(shù)據(jù)治理的定義是對(duì)數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動(dòng)集合。具體講數(shù)據(jù)治理就是對(duì)存量數(shù)據(jù)治理、增量數(shù)據(jù)管控的一個(gè)過程,對(duì)存量數(shù)據(jù)實(shí)現(xiàn)由亂到治、規(guī)范貫標(biāo),對(duì)增量數(shù)據(jù)實(shí)現(xiàn)嚴(yán)格把控、履行標(biāo)準(zhǔn)規(guī)范。檔案數(shù)字化是隨著計(jì)算機(jī)技術(shù)、掃描技術(shù)、掃描線性CCD技術(shù)、OCR技術(shù)、數(shù)字?jǐn)z影技術(shù)(錄音、錄像)、數(shù)據(jù)庫技術(shù)、多媒體技術(shù)、存儲(chǔ)技術(shù)的發(fā)展而產(chǎn)生的一種新型檔案信息形態(tài),它把傳統(tǒng)載體的檔案資源轉(zhuǎn)化為數(shù)字化的檔案信息,以數(shù)字化的形式存儲(chǔ),網(wǎng)絡(luò)化的形式連接,并對(duì)檔案信息資源進(jìn)行數(shù)據(jù)治理與服務(wù)開發(fā)利用,以期滿足新時(shí)期用戶高效化、知識(shí)化和個(gè)性化需求。近年來,檔案的數(shù)字化工作在機(jī)關(guān)和企事業(yè)單位推進(jìn)較快,為機(jī)關(guān)企事業(yè)單位檔案信息化建設(shè)奠定了良好的基礎(chǔ)。目前由于檔案數(shù)字化工作中數(shù)據(jù)質(zhì)量檢測(cè)環(huán)節(jié)不夠理想,已成為檔案數(shù)字化工作乃至整個(gè)檔案數(shù)字化轉(zhuǎn)型過程中的短板和瓶頸。解決好檔案數(shù)字化轉(zhuǎn)型過程中存在的數(shù)據(jù)質(zhì)量問題,需要從源頭提升數(shù)據(jù)資源質(zhì)量,做好數(shù)據(jù)治理體系建設(shè),以助力實(shí)現(xiàn)檔案數(shù)據(jù)資產(chǎn)增值、挖掘利用、質(zhì)量提升的發(fā)展戰(zhàn)略。
檔案數(shù)字化質(zhì)量檢測(cè)工作是指對(duì)數(shù)字化檔案信息資源的質(zhì)量檢測(cè),從源頭上解決數(shù)據(jù)權(quán)責(zé)不清、數(shù)據(jù)重復(fù)錄入、數(shù)據(jù)質(zhì)量規(guī)范參差不齊等問題,從而達(dá)到提升數(shù)據(jù)質(zhì)量目的,做到事前預(yù)防、事中控制、事后檢查追溯,從而實(shí)現(xiàn)檔案數(shù)據(jù)質(zhì)量、檢查、分析、提升的目標(biāo)。依據(jù)檔案信息化的程度,可將檔案數(shù)字化工作的質(zhì)量檢測(cè),可分為治理前質(zhì)量檢測(cè)和治理后質(zhì)量檢測(cè)。
治理前質(zhì)量檢測(cè)包括,一是對(duì)計(jì)算機(jī)處理及掃描處理等技術(shù)完成后信息進(jìn)行檢測(cè),對(duì)檔案掃描處理以及文本和圖像頁的匹配等質(zhì)量進(jìn)行檢驗(yàn);二是對(duì)文本域錄入與文本入域的標(biāo)引、文件的頁號(hào)和頁數(shù)進(jìn)行對(duì)比;三是對(duì)圖像質(zhì)量的檢查,確保圖像版面清晰、干凈、大小一致、方向一致;四是對(duì)影像文件是否重頁、缺頁、漏頁、頁面信息不完整的檢測(cè);五是對(duì)件內(nèi)文件排序規(guī)則存在問題檢測(cè)等。
檔案數(shù)字化工作的治理后質(zhì)量檢測(cè),主要包括符合性質(zhì)量檢測(cè)和適用性質(zhì)量檢測(cè)。符合性質(zhì)量是指數(shù)據(jù)符合國家標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)的程度;適用性質(zhì)量是指數(shù)據(jù)適合業(yè)務(wù)需求目的、使用要求的程度。對(duì)數(shù)字化檔案治理后質(zhì)量檢測(cè)可以從兩個(gè)維度進(jìn)行處理,一級(jí)維度可包括規(guī)范性、完整性、準(zhǔn)確性、一致性、及時(shí)性、可用性;二級(jí)維度可根據(jù)一級(jí)維度進(jìn)行指標(biāo)細(xì)化,例如在規(guī)范性方面進(jìn)行進(jìn)一步質(zhì)量檢測(cè),可包括數(shù)據(jù)模型、數(shù)據(jù)標(biāo)準(zhǔn)、業(yè)務(wù)規(guī)則、內(nèi)容格式等細(xì)顆粒的檢測(cè)。在完整性維度可細(xì)化為非空檢查、內(nèi)容完整性、參照完整性、接受完整性等,如圖1所示。對(duì)檢測(cè)后的數(shù)據(jù)質(zhì)量進(jìn)行評(píng)分,形成基于業(yè)務(wù)維度的數(shù)據(jù)質(zhì)量分析報(bào)告和基于系統(tǒng)維度的數(shù)據(jù)質(zhì)量分析報(bào)告。
檔案數(shù)字化質(zhì)量檢測(cè)的重點(diǎn),應(yīng)在于檔案數(shù)字化治理后的質(zhì)量檢測(cè)。治理后的質(zhì)量檢測(cè)由評(píng)估維度管理、質(zhì)量規(guī)則管理、初步質(zhì)量分析、數(shù)據(jù)質(zhì)量檢查、問題數(shù)據(jù)處理、質(zhì)量評(píng)估報(bào)告等部分組成。通過管理數(shù)據(jù)質(zhì)量評(píng)估規(guī)則,構(gòu)建數(shù)據(jù)質(zhì)量評(píng)估模型,建立質(zhì)量規(guī)則庫、提供數(shù)據(jù)標(biāo)準(zhǔn)化清洗和質(zhì)量稽核服務(wù),實(shí)現(xiàn)數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化應(yīng)用,逐步實(shí)現(xiàn)對(duì)檔案數(shù)字化質(zhì)量的檢測(cè)和管控。
根據(jù)對(duì)部分省直單位檔案數(shù)字化工作的調(diào)研,其數(shù)據(jù)質(zhì)量檢測(cè)情況和治理水平現(xiàn)狀如下。
一是掃描文件和影像數(shù)據(jù)質(zhì)量檢測(cè)簡單化,只完成圖片本身和著錄項(xiàng)目的質(zhì)量檢測(cè),沒有進(jìn)行檔案數(shù)字化治理后的檢測(cè),大多存在著重復(fù)存儲(chǔ),價(jià)值密度低,不能形成多維度檔案數(shù)據(jù)質(zhì)量報(bào)告和檔案數(shù)據(jù)的進(jìn)一步應(yīng)用開發(fā)。
二是檔案數(shù)字化質(zhì)量檢測(cè)能力不足,數(shù)據(jù)治理水平不高。這是因?yàn)樵跈n案數(shù)字化質(zhì)量檢測(cè)過程中,缺乏統(tǒng)一的數(shù)據(jù)質(zhì)量管理流程體系,缺少對(duì)檔案數(shù)據(jù)質(zhì)量的檢查、有效管理及考核,造成大量臟數(shù)據(jù)、多源數(shù)據(jù)等現(xiàn)象存在,影響了應(yīng)用效果。同時(shí),缺少問題數(shù)據(jù)管控,也會(huì)在發(fā)現(xiàn)問題數(shù)據(jù)后,不能進(jìn)行合理的問題數(shù)據(jù)處理,導(dǎo)致在跨部門跨領(lǐng)域檔案數(shù)據(jù)集成與共享時(shí)的數(shù)據(jù)質(zhì)量難以保證。
三是數(shù)據(jù)治理前的質(zhì)量檢測(cè)信息服務(wù)功能單一,對(duì)后期檔案數(shù)字化綜合開發(fā)利用、協(xié)同性和共享性等不足,很難改變檔案單一的使用功能,無法實(shí)現(xiàn)檔案數(shù)字化的數(shù)據(jù)圖譜建設(shè),構(gòu)建圖譜模型和標(biāo)簽?zāi)P?,并進(jìn)行加工建模分析,關(guān)聯(lián)量化,將檔案的數(shù)據(jù)資源轉(zhuǎn)變?yōu)楣芾碣Y源、決策資源。
一是建立數(shù)據(jù)質(zhì)量管理流程體系(見圖2),建立數(shù)據(jù)質(zhì)量稽核制度,形成數(shù)據(jù)質(zhì)量評(píng)估報(bào)告。
數(shù)據(jù)質(zhì)量稽核由數(shù)據(jù)質(zhì)量檢查服務(wù)對(duì)數(shù)據(jù)進(jìn)行指定規(guī)則檢查,并分別根據(jù)不同規(guī)則特點(diǎn)提供不同的檢查方法,包括但不限于格式檢查、范圍檢查、相似重復(fù)記錄檢查、缺失記錄檢查等。經(jīng)過數(shù)據(jù)質(zhì)量稽核生成問題數(shù)據(jù)清單,并根據(jù)數(shù)據(jù)確權(quán)進(jìn)行問題數(shù)據(jù)分派,方便數(shù)據(jù)操作者修改問題數(shù)據(jù),形成閉環(huán)的問題數(shù)據(jù)管理體系。數(shù)據(jù)質(zhì)量評(píng)估報(bào)告包括查看檔案數(shù)字化的數(shù)據(jù)質(zhì)量匯總情況及評(píng)分,查看各表質(zhì)量評(píng)估的明細(xì)信息,數(shù)據(jù)質(zhì)量檢查的規(guī)則引用情況、問題數(shù)據(jù)檢測(cè)情況、問題記錄占比(包括但不限于按列、評(píng)測(cè)維度、檢查方法等維度的問題記錄占比情況)、問題數(shù)據(jù)修正情況等。
根據(jù)數(shù)據(jù)質(zhì)量檢測(cè)、監(jiān)控,跟蹤質(zhì)量評(píng)估測(cè)量結(jié)果、發(fā)現(xiàn)質(zhì)量變化趨勢(shì),及時(shí)對(duì)質(zhì)量異常問題進(jìn)行預(yù)警。定期對(duì)增量數(shù)據(jù)的質(zhì)量進(jìn)行分析,形成數(shù)據(jù)質(zhì)量關(guān)鍵指標(biāo)數(shù)據(jù)和檢測(cè)監(jiān)控報(bào)告,一旦檢測(cè)到數(shù)據(jù)質(zhì)量檢測(cè)、監(jiān)控異常情況,及時(shí)進(jìn)行處理或人工干預(yù)。
二是建立一體化大數(shù)據(jù)治理與服務(wù)平臺(tái)(數(shù)據(jù)底座平臺(tái))。該平臺(tái)能夠?qū)崿F(xiàn)全鏈路、全生命周期的檔案數(shù)據(jù)設(shè)計(jì)、管理、應(yīng)用的敏捷化、協(xié)同化、一體化,既能從業(yè)務(wù)、職責(zé)事項(xiàng)、質(zhì)量、安全、分布、可信來源等角度了解數(shù)據(jù)資源,又能通過數(shù)據(jù)管理建立包含標(biāo)準(zhǔn)、質(zhì)量、安全、標(biāo)簽、來源、確權(quán)、編目、規(guī)則等八個(gè)維度的數(shù)據(jù)模型,通過數(shù)據(jù)模型驅(qū)動(dòng)數(shù)據(jù)服務(wù)平臺(tái)提供數(shù)據(jù)采集、交換、加工、共享、協(xié)同等數(shù)據(jù)服務(wù),實(shí)現(xiàn)“知曉全局,摸清家底;管好數(shù)據(jù),運(yùn)籌帷幄;用好數(shù)據(jù),發(fā)揮價(jià)值;敏捷開發(fā),降低風(fēng)險(xiǎn)”的目的。
三是要踐行“數(shù)字賦能、融合發(fā)展”的檔案服務(wù)理念,積極推動(dòng)檔案部門與其他部門開展數(shù)據(jù)、技術(shù)、業(yè)務(wù)協(xié)同合作,制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、接口規(guī)范、調(diào)用規(guī)則,為實(shí)現(xiàn)輕量化、協(xié)同化、區(qū)域化的數(shù)據(jù)對(duì)接與共享奠定基礎(chǔ);完善檔案信息資源區(qū)域共享機(jī)制,建設(shè)互聯(lián)互通、數(shù)據(jù)共享、綜合利用的公共檔案資源數(shù)據(jù)服務(wù)平臺(tái),構(gòu)建全方位、全覆蓋的服務(wù)體系,以高質(zhì)量的檔案數(shù)字化質(zhì)量檢測(cè)工作推動(dòng)擴(kuò)展檔案數(shù)據(jù)資源的綜合利用。