文/高亮
數(shù)據(jù)治理:讓數(shù)據(jù)質(zhì)量更好
文/高亮
大數(shù)據(jù)時(shí)代數(shù)據(jù)產(chǎn)生的價(jià)值越來(lái)越大,基于數(shù)據(jù)的相關(guān)技術(shù)、應(yīng)用形式也在快速發(fā)展,開(kāi)發(fā)基于數(shù)據(jù)的新型應(yīng)用已經(jīng)成為高校信息化建設(shè)的一個(gè)重點(diǎn)領(lǐng)域。當(dāng)前各大廠商、用戶都在探索與數(shù)據(jù)相關(guān)的開(kāi)發(fā)技術(shù)、應(yīng)用場(chǎng)景和商業(yè)模式,最終目的就是挖掘數(shù)據(jù)價(jià)值,推動(dòng)業(yè)務(wù)發(fā)展,實(shí)現(xiàn)盈利。目前數(shù)據(jù)應(yīng)用項(xiàng)目非常多,但真正取得預(yù)期效果的項(xiàng)目少之又少,而且開(kāi)發(fā)過(guò)程困難重重,其中的一個(gè)重要原因就是數(shù)據(jù)質(zhì)量問(wèn)題導(dǎo)致許多預(yù)期需求無(wú)法實(shí)現(xiàn)。如果沒(méi)有數(shù)據(jù)治理,再多的業(yè)務(wù)和技術(shù)投入都是徒勞的,因?yàn)楹芙?jīng)典的一句話:Garbage in Garbage out。數(shù)據(jù)治理是保證數(shù)據(jù)質(zhì)量的必需手段,從全球范圍來(lái)看,加強(qiáng)數(shù)據(jù)治理提升數(shù)據(jù)質(zhì)量已成為企業(yè)提升管理能力的重要任務(wù)。
數(shù)據(jù)治理是一個(gè)系統(tǒng)的、大型的、長(zhǎng)期的工程,大型企業(yè)已經(jīng)開(kāi)始了實(shí)施,并取得了一定成果,但目前高校在數(shù)據(jù)治理方面還沒(méi)有開(kāi)始真正意義上的實(shí)踐,究其原因,一方面高校還沒(méi)有把數(shù)據(jù)治理的重要性提升到戰(zhàn)略高度,另一方面沒(méi)有將數(shù)據(jù)治理單獨(dú)作為課題研究,沒(méi)有形成系統(tǒng)的實(shí)施方法論。本文從管理和技術(shù)兩方面出發(fā)探索適合高校信息化建設(shè)的數(shù)據(jù)治理方法,形成包含組織、制度、標(biāo)準(zhǔn)、流程、安全、技術(shù)等內(nèi)容的數(shù)據(jù)治理方案,從而打造高校綠色數(shù)據(jù)生態(tài)環(huán)境,為數(shù)據(jù)應(yīng)用提供基礎(chǔ)保障。
圖1 數(shù)據(jù)治理與數(shù)據(jù)管理職能關(guān)系
數(shù)據(jù)治理并不是一個(gè)新生事物,可以說(shuō),有數(shù)據(jù)的地方就存在數(shù)據(jù)治理,只不過(guò)隨著數(shù)據(jù)應(yīng)用的迅猛發(fā)展將它提到了一個(gè)高度,作為一個(gè)獨(dú)立的研究領(lǐng)域。數(shù)據(jù)治理并沒(méi)有標(biāo)準(zhǔn)的、嚴(yán)格的定義,概況地講,所有為提高數(shù)據(jù)質(zhì)量而展開(kāi)的業(yè)務(wù)、技術(shù)和管理活動(dòng)都屬于數(shù)據(jù)治理范疇。
數(shù)據(jù)治理的英文是Data Governance,《DAMA 數(shù)據(jù)管理知識(shí)體系指南》一書(shū)給出的定義:數(shù)據(jù)治理是對(duì)數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動(dòng)集合。數(shù)據(jù)治理職能指導(dǎo)其他數(shù)據(jù)管理職能如何執(zhí)行,圖1說(shuō)明了數(shù)據(jù)治理與其他幾個(gè)數(shù)據(jù)管理職能的關(guān)系。
數(shù)據(jù)治理是技術(shù)與管理相結(jié)合的一套持續(xù)改善管理機(jī)制,貫穿在數(shù)據(jù)管理的整個(gè)過(guò)程中,通常包括了組織架構(gòu)、政策制度、技術(shù)工具、數(shù)據(jù)標(biāo)準(zhǔn)、流程規(guī)范、監(jiān)督及考核等方方面面,將其他幾個(gè)數(shù)據(jù)管理職能貫穿、協(xié)同在一起,讓企業(yè)的數(shù)據(jù)工作成為一個(gè)有機(jī)整體而不是各自為政。數(shù)據(jù)治理涉及的IT技術(shù)主題眾多,包括元數(shù)據(jù)管理、主數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量、數(shù)據(jù)集成、監(jiān)控與報(bào)告等。
僅僅依靠技術(shù)手段,以建設(shè)系統(tǒng)的方式是難以有效解決數(shù)據(jù)治理面臨的所有問(wèn)題。構(gòu)建數(shù)據(jù)治理體系是數(shù)據(jù)治理工作的基礎(chǔ),為了有序?qū)嵤?shù)據(jù)治理,應(yīng)采用規(guī)劃先行的原則,制定適合高校業(yè)務(wù)特點(diǎn)的管理流程,選擇可行的技術(shù)方案和實(shí)施工具,明確數(shù)據(jù)治理的工作機(jī)制和工作內(nèi)容,穩(wěn)步推進(jìn)數(shù)據(jù)治理各項(xiàng)工作,數(shù)據(jù)治理體系框架如圖2所示。
戰(zhàn)略:數(shù)據(jù)治理是在高校發(fā)展戰(zhàn)略和規(guī)劃的指導(dǎo)下進(jìn)行實(shí)施的,這些戰(zhàn)略和規(guī)劃包括業(yè)務(wù)發(fā)展目標(biāo)、IT規(guī)劃以及數(shù)據(jù)治理相關(guān)的發(fā)展規(guī)劃。
機(jī)制:機(jī)制是數(shù)據(jù)治理工作實(shí)施的基礎(chǔ)保障,通過(guò)組織、制度、流程的建設(shè)和執(zhí)行得以落實(shí)。機(jī)制是數(shù)據(jù)治理工作的重點(diǎn),數(shù)據(jù)治理執(zhí)行效果就是機(jī)制落實(shí)的效果。
專(zhuān)題:數(shù)據(jù)治理專(zhuān)題是數(shù)據(jù)治理的工作內(nèi)容,包括數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)治理、元數(shù)據(jù)、主數(shù)據(jù)、數(shù)據(jù)生命周期等方面。
實(shí)施:數(shù)據(jù)治理工作最終在相關(guān)制度、規(guī)范和流程下通過(guò)數(shù)據(jù)治理組織借助技術(shù)手段和管理手段來(lái)實(shí)現(xiàn)。包括系統(tǒng)開(kāi)發(fā)階段為提高數(shù)據(jù)質(zhì)量進(jìn)行的校驗(yàn)設(shè)計(jì);系統(tǒng)日常運(yùn)維工作;數(shù)據(jù)分析應(yīng)用階段的數(shù)據(jù)集成;數(shù)據(jù)質(zhì)量監(jiān)控等。
管理措施
1.提高全面思想認(rèn)識(shí)
毋庸置疑,數(shù)據(jù)是高校的寶貴資產(chǎn),各高校已經(jīng)意識(shí)到數(shù)據(jù)質(zhì)量的重要性,但是并沒(méi)有將數(shù)據(jù)治理提到戰(zhàn)略高度,信息化建設(shè)的重點(diǎn)仍然是應(yīng)用系統(tǒng)建設(shè)和運(yùn)維。數(shù)據(jù)治理是一個(gè)系統(tǒng)工程,需要管理層、系統(tǒng)開(kāi)發(fā)人員、系統(tǒng)使用人員、系統(tǒng)維護(hù)人員多方協(xié)作才能進(jìn)行。目前最大的問(wèn)題就是各方人員對(duì)數(shù)據(jù)治理的認(rèn)識(shí)還處于盲區(qū),他們并沒(méi)有意識(shí)到數(shù)據(jù)治理的重要性,因此數(shù)據(jù)治理首先要從上到下全面提高思想認(rèn)識(shí),保證在系統(tǒng)建設(shè)、系統(tǒng)運(yùn)行、系統(tǒng)維護(hù)各個(gè)環(huán)節(jié)都能重視數(shù)據(jù)治理。
2.成立數(shù)據(jù)治理組織
健全的數(shù)據(jù)治理組織是全面開(kāi)展數(shù)據(jù)治理工作的基礎(chǔ),數(shù)據(jù)治理組織應(yīng)包括管理人員、業(yè)務(wù)人員和技術(shù)人員,缺一不可。數(shù)據(jù)治理組織可以設(shè)置三種角色,數(shù)據(jù)治理委員會(huì)、數(shù)據(jù)治理業(yè)務(wù)組、數(shù)據(jù)治理技術(shù)組。
圖2 數(shù)據(jù)治理體系框架
數(shù)據(jù)治理委員會(huì):由校領(lǐng)導(dǎo)、IT部門(mén)負(fù)責(zé)人和業(yè)務(wù)部門(mén)負(fù)責(zé)人組成,負(fù)責(zé)制定數(shù)據(jù)治理的目標(biāo)、制度、規(guī)范、流程、標(biāo)準(zhǔn)等,溝通協(xié)調(diào),解決相關(guān)人員責(zé)、權(quán)、利問(wèn)題,推行數(shù)據(jù)治理文化。
數(shù)據(jù)治理業(yè)務(wù)組:由業(yè)務(wù)部門(mén)業(yè)務(wù)專(zhuān)家、業(yè)務(wù)部門(mén)系統(tǒng)管理員組成,負(fù)責(zé)業(yè)務(wù)系統(tǒng)參數(shù)、基礎(chǔ)數(shù)據(jù)維護(hù),保證系統(tǒng)正常使用;負(fù)責(zé)審核、檢查、整改業(yè)務(wù)數(shù)據(jù),在數(shù)據(jù)產(chǎn)生源頭提高數(shù)據(jù)質(zhì)量。
數(shù)據(jù)治理技術(shù)組:由IT部門(mén)的相關(guān)技術(shù)人員組成,包括系統(tǒng)開(kāi)發(fā)人員、數(shù)據(jù)治理人員、數(shù)據(jù)庫(kù)管理員。系統(tǒng)開(kāi)發(fā)人員負(fù)責(zé)系統(tǒng)數(shù)據(jù)錄入功能符合數(shù)據(jù)校驗(yàn)標(biāo)準(zhǔn)和數(shù)據(jù)治理標(biāo)準(zhǔn);數(shù)據(jù)治理人員負(fù)責(zé)開(kāi)發(fā)數(shù)據(jù)質(zhì)量檢測(cè)規(guī)則、監(jiān)控?cái)?shù)據(jù)質(zhì)量、批量修改數(shù)據(jù)等工作;數(shù)據(jù)庫(kù)管理員負(fù)責(zé)系統(tǒng)數(shù)據(jù)的備份、恢復(fù)、安全、審計(jì)等工作。
3.建立數(shù)據(jù)標(biāo)準(zhǔn)體系
一般來(lái)說(shuō),信息化建設(shè)應(yīng)遵循標(biāo)準(zhǔn)先行的原則,在應(yīng)用系統(tǒng)建設(shè)初期就應(yīng)該制定高校內(nèi)部數(shù)據(jù)標(biāo)準(zhǔn)體系,保證各業(yè)務(wù)部門(mén)、各業(yè)務(wù)系統(tǒng)使用相同的數(shù)據(jù)標(biāo)準(zhǔn),提高部門(mén)間、系統(tǒng)間數(shù)據(jù)共享能力,避免形成信息孤島。數(shù)據(jù)標(biāo)準(zhǔn)體系包括數(shù)據(jù)標(biāo)準(zhǔn)、技術(shù)標(biāo)準(zhǔn)、管理標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)等內(nèi)容,可以成立由業(yè)務(wù)人員和技術(shù)人員組成的數(shù)據(jù)標(biāo)準(zhǔn)制定小組,負(fù)責(zé)數(shù)據(jù)標(biāo)準(zhǔn)體系的制定、維護(hù)、宣傳、解釋等工作。
4. 制定數(shù)據(jù)質(zhì)量管控規(guī)范
由于高校缺乏明確的數(shù)據(jù)質(zhì)量管控規(guī)范、流程,導(dǎo)致數(shù)據(jù)治理相關(guān)人員職責(zé)劃分不清,缺乏專(zhuān)職人員在不同階段對(duì)數(shù)據(jù)質(zhì)量負(fù)責(zé)。通過(guò)制定數(shù)據(jù)質(zhì)量管控規(guī)范,使相關(guān)人員明確在數(shù)據(jù)產(chǎn)生、存儲(chǔ)、應(yīng)用整個(gè)生命周期中數(shù)據(jù)治理包含的工作內(nèi)容和工作流程,形成校內(nèi)統(tǒng)一管理體系。為了提高數(shù)據(jù)治理執(zhí)行效率,有必要建立數(shù)據(jù)治理績(jī)效考核,檢驗(yàn)數(shù)據(jù)治理各個(gè)環(huán)節(jié)的效果。
5. 制定數(shù)據(jù)安全管理制度
保障數(shù)據(jù)安全是高校信息化的首要工作,高校應(yīng)該制定貫穿于數(shù)據(jù)生命周期的數(shù)據(jù)安全管理制度,包括數(shù)據(jù)生成及傳輸、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理及應(yīng)用、數(shù)據(jù)銷(xiāo)毀四個(gè)方面。安全管理制度主要用來(lái)規(guī)范員工在日常工作中安全地使用數(shù)據(jù),并且指導(dǎo)技術(shù)人員如何實(shí)施數(shù)據(jù)安全工作。
技術(shù)措施
1.構(gòu)建校級(jí)數(shù)據(jù)架構(gòu)
高校構(gòu)建的信息系統(tǒng)以滿足功能應(yīng)用為主,如果沒(méi)有整體數(shù)據(jù)架構(gòu),應(yīng)用系統(tǒng)就沒(méi)有數(shù)據(jù)標(biāo)準(zhǔn)可參考,不可避免地會(huì)出現(xiàn)不同的應(yīng)用系統(tǒng)使用不同的數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)庫(kù),導(dǎo)致數(shù)據(jù)交換、數(shù)據(jù)共享困難,數(shù)據(jù)冗余、數(shù)據(jù)完整性、數(shù)據(jù)一致性等問(wèn)題突出。
理想情況下,高校在信息化初期就應(yīng)該規(guī)劃整體數(shù)據(jù)架構(gòu)。一個(gè)完整的高校數(shù)據(jù)架構(gòu)主要包括:數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)庫(kù)產(chǎn)品線、主數(shù)據(jù)、元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、數(shù)據(jù)交換、數(shù)據(jù)倉(cāng)庫(kù)。每一部分都需要作為獨(dú)立的專(zhuān)題去建設(shè),而且必須是技術(shù)與管理相結(jié)合的建設(shè)過(guò)程,最終形成高校全局?jǐn)?shù)據(jù)架構(gòu)。
2.加強(qiáng)信息系統(tǒng)設(shè)計(jì)
產(chǎn)生數(shù)據(jù)質(zhì)量問(wèn)題的第一個(gè)環(huán)節(jié)就是生成數(shù)據(jù)的源系統(tǒng),在數(shù)據(jù)源頭解決數(shù)據(jù)質(zhì)量問(wèn)題是提高數(shù)據(jù)質(zhì)量非常有效的措施。加強(qiáng)信息系統(tǒng)設(shè)計(jì)和開(kāi)發(fā)可以通過(guò)系統(tǒng)功能自動(dòng)地規(guī)避大量數(shù)據(jù)質(zhì)量常見(jiàn)問(wèn)題。具體包括以下三個(gè)方面:
細(xì)化需求,在需求分析階段增加對(duì)數(shù)據(jù)質(zhì)量的詳細(xì)要求;
加強(qiáng)數(shù)據(jù)庫(kù)設(shè)計(jì),使用3NF范式構(gòu)建業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型可以通過(guò)數(shù)據(jù)庫(kù)有效解決數(shù)據(jù)冗余、不一致等問(wèn)題;
系統(tǒng)開(kāi)發(fā)階段加強(qiáng)數(shù)據(jù)錄入功能的設(shè)計(jì)和開(kāi)發(fā),提高界面友好性和校驗(yàn)功能,可以有效解決數(shù)據(jù)完整性、時(shí)效性等問(wèn)題。
3.建立主數(shù)據(jù)中心
學(xué)校內(nèi)部不同應(yīng)用系統(tǒng)、不同部門(mén)間需要共享數(shù)據(jù)的現(xiàn)象非常普遍,建立主數(shù)據(jù)中心不僅能避免各應(yīng)用系統(tǒng)相互共享數(shù)據(jù)形成網(wǎng)狀結(jié)構(gòu),同時(shí)能夠保證對(duì)外提供準(zhǔn)確、一致的數(shù)據(jù)。一般地,主數(shù)據(jù)是描述核心業(yè)務(wù)實(shí)體的數(shù)據(jù),如教師、學(xué)生、科研成果、資產(chǎn)等,這些數(shù)據(jù)變化相對(duì)緩慢并通??鐦I(yè)務(wù)重復(fù)使用。這里我們結(jié)合實(shí)際需求情況擴(kuò)大了主數(shù)據(jù)的范圍,凡是需要交換、共享的數(shù)據(jù)都納入到主數(shù)據(jù)范圍,形成全校范圍內(nèi)一致的、完整的、準(zhǔn)確的核心業(yè)務(wù)數(shù)據(jù),統(tǒng)一由主數(shù)據(jù)中心完成對(duì)外提供數(shù)據(jù)的任務(wù)。建立主數(shù)據(jù)中心不僅僅是技術(shù)工作,除開(kāi)發(fā)、維護(hù)外還需要制定開(kāi)發(fā)規(guī)范、管理規(guī)范、管理流程,共同規(guī)范主數(shù)據(jù)的使用。
4.搭建數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)
通過(guò)搭建數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái)可以實(shí)現(xiàn)數(shù)據(jù)質(zhì)量自動(dòng)檢查、監(jiān)控,平臺(tái)包括數(shù)據(jù)質(zhì)量檢查規(guī)則庫(kù)、規(guī)則執(zhí)行引擎、數(shù)據(jù)質(zhì)量報(bào)告、報(bào)告推送功能。平臺(tái)的核心是規(guī)則庫(kù),與業(yè)務(wù)無(wú)關(guān)的規(guī)則由技術(shù)人員獨(dú)立開(kāi)發(fā),與業(yè)務(wù)相關(guān)的規(guī)則需要技術(shù)人員和業(yè)務(wù)人員共同確定檢查規(guī)則,然后編寫(xiě)規(guī)則腳本。規(guī)則執(zhí)行引擎可以定時(shí)批量執(zhí)行檢查規(guī)則,及時(shí)發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題,將數(shù)據(jù)質(zhì)量報(bào)告第一時(shí)間推送給業(yè)務(wù)人員,有助于及時(shí)糾正問(wèn)題數(shù)據(jù)。
5.實(shí)施數(shù)據(jù)安全工作
數(shù)據(jù)安全實(shí)施工作在數(shù)據(jù)安全管理制度的指導(dǎo)下執(zhí)行,由技術(shù)人員完成,主要包括數(shù)據(jù)備份、恢復(fù)、脫敏、監(jiān)控、審計(jì)等。
數(shù)據(jù)治理是高校信息化建設(shè)中提高數(shù)據(jù)應(yīng)用水平和信息化管理水平的有效手段。數(shù)據(jù)治理是一項(xiàng)長(zhǎng)期系統(tǒng)工程,貫穿于整個(gè)數(shù)據(jù)生命周期,不僅需要借助技術(shù)手段,更需要完善數(shù)據(jù)治理制度,包括規(guī)劃、組織、機(jī)制、規(guī)范、流程等,只有全校各級(jí)人員高度重視和積極參與,逐步形成數(shù)據(jù)治理文化,數(shù)據(jù)治理才能取得成效,數(shù)據(jù)才能發(fā)揮更大的價(jià)值。
(作者單位為上海財(cái)經(jīng)大學(xué)信息化辦公室)
注:本文由上海財(cái)經(jīng)大學(xué)211專(zhuān)項(xiàng)項(xiàng)目,數(shù)據(jù)倉(cāng)庫(kù)建設(shè)(2012330008)基金項(xiàng)目支持
美國(guó)將投資3.25億美元開(kāi)發(fā)全球最快超級(jí)計(jì)算機(jī)
美國(guó)能源部將與IBM、英偉達(dá)和Mellanox合作,在2017年之前投資3.25億美元開(kāi)發(fā)全球最快的超級(jí)計(jì)算機(jī)。這兩款通過(guò)GPU(圖形處理單元)加速的超級(jí)計(jì)算機(jī)分別名為Sierra和Summit,將依賴(lài)IBM的OpenPower芯片、英偉達(dá)最新的圖形芯片Volta,以及Mellanox的高速網(wǎng)絡(luò)。后者負(fù)責(zé)將超級(jí)計(jì)算機(jī)的元件聯(lián)系在一起。
Summit將被部署在田納西州的美國(guó)橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室,用于民用和科研用途,也是兩臺(tái)超級(jí)計(jì)算機(jī)中性能更強(qiáng)的一臺(tái),峰值計(jì)算能力將達(dá)到每秒150至300千萬(wàn)億次浮點(diǎn)運(yùn)算。
Sierra將提供峰值100萬(wàn)億次浮點(diǎn)運(yùn)算的計(jì)算能力,并將被部署在加州的勞倫斯利物莫國(guó)家實(shí)驗(yàn)室,用于核武器模擬。
Sierra和Summit將遠(yuǎn)遠(yuǎn)超過(guò)美國(guó)和全球當(dāng)前其他的超級(jí)計(jì)算機(jī)。橡樹(shù)嶺國(guó)家實(shí)驗(yàn)室的Titan目前是美國(guó)最強(qiáng)大的超級(jí)計(jì)算機(jī),計(jì)算能力為峰值27千萬(wàn)億次浮點(diǎn)運(yùn)算,而全球記錄的保持者、中國(guó)的“天河2號(hào)”計(jì)算能力為峰值55千萬(wàn)億次浮點(diǎn)運(yùn)算。
不過(guò),IBM將采取“以數(shù)據(jù)為中心”的方式。通過(guò)將計(jì)算能力部署在數(shù)據(jù)存在的所有位置,IBM表示,這將使數(shù)據(jù)傳輸最小化,降低能耗。
Sierra和Summit能夠以超過(guò)每秒17千萬(wàn)億字節(jié)的速度將數(shù)據(jù)傳輸至處理器,這相當(dāng)于在1秒時(shí)間內(nèi)將超過(guò)1000億張照片傳送至Facebook。
IBM系統(tǒng)及技術(shù)集團(tuán)高級(jí)副總裁湯姆·羅薩米利亞(Tom Rosamilia)表示:“這標(biāo)志著傳統(tǒng)超級(jí)計(jì)算機(jī)開(kāi)發(fā)方式的轉(zhuǎn)型,隨著數(shù)據(jù)傳輸速度的提升,傳統(tǒng)的超級(jí)計(jì)算機(jī)開(kāi)發(fā)方式已經(jīng)不再具有競(jìng)爭(zhēng)力。IBM以數(shù)據(jù)為中心的方式是一種新的實(shí)現(xiàn)方法,代表了開(kāi)放計(jì)算平臺(tái)的未來(lái),并且有能力應(yīng)對(duì)越來(lái)越快的數(shù)據(jù)傳輸速度。”
(來(lái)自cnbeta.com)