黎 鳴 陳鳳超 趙俊煒
(廣東電網(wǎng)有限責(zé)任公司東莞供電局,廣東東莞523000)
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)信息呈現(xiàn)出爆炸式增長(zhǎng)的趨勢(shì),部分無價(jià)值的數(shù)據(jù)混雜其中,引發(fā)了數(shù)據(jù)質(zhì)量問題。從根本上看,數(shù)據(jù)質(zhì)量問題的癥結(jié)在業(yè)務(wù)上,即數(shù)據(jù)管理不到位,一些表層技術(shù)問題如若深挖,其實(shí)仍是業(yè)務(wù)問題。對(duì)此,應(yīng)從業(yè)務(wù)的角度,在可編排組件的基礎(chǔ)上構(gòu)建切實(shí)可行的質(zhì)量評(píng)估標(biāo)準(zhǔn)與治理流程,充分發(fā)揮質(zhì)量治理的作用,以有效解決數(shù)據(jù)質(zhì)量問題。
可編程組件涉及內(nèi)容較多,如資源編排負(fù)責(zé)資源分配,服務(wù)編排負(fù)責(zé)將各項(xiàng)業(yè)務(wù)部署到服務(wù)器中,工作負(fù)載編排則負(fù)責(zé)在資源之間共享工作負(fù)載,其處理流程包括以下內(nèi)容:
(1)數(shù)據(jù)抓取。主要源于用戶、爬取、實(shí)驗(yàn)與計(jì)算機(jī)仿真。
(2)數(shù)據(jù)預(yù)處理。針對(duì)采集的數(shù)據(jù)信息進(jìn)行預(yù)處理,主要包括數(shù)據(jù)選擇、轉(zhuǎn)換與清洗等方面,可有效減少數(shù)據(jù)重復(fù)與缺失等情況發(fā)生。
(3)關(guān)聯(lián)規(guī)則挖掘。將文件或數(shù)據(jù)導(dǎo)入分布式計(jì)算平臺(tái),利用Hive SQL等對(duì)數(shù)據(jù)中的有效特征進(jìn)行提取,繪制大寬表。整合提取的數(shù)據(jù)建模,利用邏輯回歸、決策樹、協(xié)同過濾等算法獲得最終結(jié)果。
(4)可視化編排。針對(duì)上述處理完畢的數(shù)據(jù)進(jìn)行多維展示分析,對(duì)渲染性能、移植效率與交互體驗(yàn)等問題進(jìn)行綜合分析。在大數(shù)據(jù)編排理論支持下進(jìn)行多種數(shù)據(jù)格式轉(zhuǎn)換,構(gòu)建可編排組件庫,剔除異構(gòu)的無效數(shù)據(jù),完善可視化編排與展示系統(tǒng)[1]。
數(shù)據(jù)質(zhì)量管理的目標(biāo)在于提高數(shù)據(jù)質(zhì)量,使報(bào)表、分析與應(yīng)用更加精準(zhǔn)高效。時(shí)至今日,雖然數(shù)據(jù)治理的范圍拓展許多,但在研究數(shù)據(jù)資產(chǎn)管理、自動(dòng)化數(shù)據(jù)治理、知識(shí)圖譜等概念時(shí),提高數(shù)據(jù)質(zhì)量仍是重中之重。究其原因,數(shù)據(jù)價(jià)值要想得到充分發(fā)揮,關(guān)鍵在于其質(zhì)量的高低,高質(zhì)量的數(shù)據(jù)將為數(shù)據(jù)應(yīng)用打下堅(jiān)實(shí)基礎(chǔ)。據(jù)統(tǒng)計(jì),數(shù)據(jù)科學(xué)家與分析人員每天30%的工作量都花費(fèi)在真假數(shù)據(jù)的辨別上,在低質(zhì)量數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析也變得小心翼翼,極大地阻礙了組織業(yè)務(wù)的正常運(yùn)營(yíng)。由此可見,加強(qiáng)數(shù)據(jù)質(zhì)量管理對(duì)提高其質(zhì)量具有重要意義,是勢(shì)在必行的優(yōu)先任務(wù)。
要想提高數(shù)據(jù)質(zhì)量,應(yīng)以問題數(shù)據(jù)作為切入點(diǎn),對(duì)問題分析、解決與優(yōu)化積累進(jìn)行綜合分析,由此形成良性循環(huán),促進(jìn)數(shù)據(jù)質(zhì)量的持續(xù)提升。首先,應(yīng)對(duì)數(shù)據(jù)質(zhì)量問題進(jìn)行整理和分析,明確當(dāng)前數(shù)據(jù)質(zhì)量情況;其次,對(duì)于不同質(zhì)量問題采用與之相應(yīng)的解決措施,制定科學(xué)詳盡的解決方案;然后問題認(rèn)責(zé),動(dòng)態(tài)跟蹤方案執(zhí)行效果,監(jiān)督檢查,持續(xù)優(yōu)化;最終構(gòu)建知識(shí)庫,使數(shù)據(jù)質(zhì)量得到顯著提升,為后來者提供參考依據(jù)。
按照規(guī)定標(biāo)準(zhǔn)進(jìn)行取舍,主要包括兩個(gè)方面:一是數(shù)據(jù)質(zhì)量治理流程方面,上文中提到的治理流程屬于較為理想的狀態(tài),但對(duì)于不同組織內(nèi)部來說,實(shí)施力度有所區(qū)別;二是不同時(shí)間維度方面的取舍,采用多樣處理方式,根據(jù)時(shí)間維度進(jìn)行劃分,數(shù)據(jù)類型劃分為三種,即未來、當(dāng)前與歷史數(shù)據(jù)。在解決多種類型數(shù)據(jù)質(zhì)量問題時(shí),應(yīng)科學(xué)利用取舍之道,依靠多種方式達(dá)到理想的數(shù)據(jù)質(zhì)量處理目標(biāo)[2]。
3.1.1 設(shè)計(jì)描述
該系統(tǒng)主要包括配置界面與數(shù)據(jù)庫兩項(xiàng)內(nèi)容;用戶通過平臺(tái)配置數(shù)據(jù)校驗(yàn)規(guī)則與執(zhí)行方案,其中,前者為數(shù)據(jù)庫存儲(chǔ),要求讀寫日志表;后者為數(shù)據(jù)庫Job,一個(gè)執(zhí)行方案可調(diào)用多個(gè)校驗(yàn)規(guī)則。二者均可在用戶配置完畢后由程序自動(dòng)生成,生成程序則可根據(jù)問題數(shù)據(jù)表制定數(shù)據(jù)質(zhì)量報(bào)告。
3.1.2 主要功能
一是問題發(fā)現(xiàn)功能,通過數(shù)據(jù)源、策略與規(guī)則配置發(fā)現(xiàn)問題,并對(duì)相應(yīng)數(shù)據(jù)源、數(shù)據(jù)質(zhì)量與執(zhí)行情況進(jìn)行監(jiān)控;二是問題分析功能,以數(shù)據(jù)質(zhì)量報(bào)告為依據(jù)進(jìn)行問題分析;三是問題跟蹤功能,依靠缺陷池信息對(duì)數(shù)據(jù)問題進(jìn)行追蹤;四是支撐功能,數(shù)據(jù)質(zhì)量系統(tǒng)根據(jù)組織機(jī)構(gòu)管理、日志管理、權(quán)限配置等實(shí)現(xiàn)功能。
3.1.3 系統(tǒng)架構(gòu)
資源層:主要是指數(shù)據(jù)管理模塊的實(shí)體映射層;服務(wù)層:針對(duì)質(zhì)量報(bào)告、執(zhí)行方案、校驗(yàn)規(guī)則、執(zhí)行結(jié)果等進(jìn)行管理和服務(wù);編排層:介于數(shù)據(jù)層與業(yè)務(wù)層之間,可對(duì)數(shù)據(jù)庫進(jìn)行相應(yīng)操作;展現(xiàn)層:在數(shù)據(jù)治理模塊基礎(chǔ)上對(duì)可視化界面進(jìn)行展示,包括質(zhì)量報(bào)告、規(guī)則與日志查詢等界面。具體的層級(jí)與作用如表1所示。
3.2.1 配置管理
在該系統(tǒng)中,采用一個(gè)存儲(chǔ)過程調(diào)用校驗(yàn)SQL,便可獲得最終的校驗(yàn)結(jié)果。但校驗(yàn)策略不可單獨(dú)實(shí)施,還應(yīng)附加到執(zhí)行方案之中才可。一方面,規(guī)則配置。規(guī)則模板屬于一系列SQL模板,可用于生成常規(guī)校驗(yàn)規(guī)則,如編碼檢查、唯一性檢查、長(zhǎng)度檢查與業(yè)務(wù)檢查等方面。配置良好的規(guī)則模板通常會(huì)在配置單表規(guī)則中使用;在模板校驗(yàn)過程中,一般提供七種不同的規(guī)則模板,可在“單表規(guī)則”中進(jìn)行調(diào)用。另一方面,執(zhí)行策略配置。執(zhí)行方案便是校驗(yàn)規(guī)則的方案,作用在于對(duì)規(guī)則進(jìn)行執(zhí)行。完善的方案中蘊(yùn)含多個(gè)校驗(yàn)規(guī)則,該方案可設(shè)置生效、失效、是否執(zhí)行與周期等等,通過不同分類對(duì)方案進(jìn)行執(zhí)行和管理[3]。
表1 數(shù)據(jù)質(zhì)量治理系統(tǒng)
3.2.2 數(shù)據(jù)源管理
此類管理應(yīng)用于定義數(shù)據(jù)來源,包括數(shù)據(jù)表管理、數(shù)據(jù)庫配置兩個(gè)方面,可為校驗(yàn)規(guī)則提供信息支撐。在管理過程中,應(yīng)配置數(shù)據(jù)庫的相關(guān)信息,由此生成與之相對(duì)的日志清單。該項(xiàng)管理具有增加、刪除、修改與查詢等功能。數(shù)據(jù)庫連接信息如圖1所示。
圖1 配置數(shù)據(jù)庫連接信息
在圖1中,前一個(gè)框代表的是插入或更新數(shù)據(jù)源;后一個(gè)框代表的是管理數(shù)據(jù)源。由此便可實(shí)現(xiàn)對(duì)“已經(jīng)建立數(shù)據(jù)源”的連接監(jiān)控,支持實(shí)時(shí)查看數(shù)據(jù)源的連接情況,對(duì)錯(cuò)誤連接進(jìn)行查詢和改正。
(1)執(zhí)行管理。主要對(duì)校驗(yàn)結(jié)果進(jìn)行查詢,如執(zhí)行的起始時(shí)間、校驗(yàn)總數(shù)、當(dāng)前狀態(tài)、問題數(shù)據(jù)數(shù)量、執(zhí)行異常等。
(2)質(zhì)量報(bào)告。該報(bào)告可應(yīng)用于執(zhí)行結(jié)果分析,具有定義和導(dǎo)出報(bào)表等功能;根據(jù)特定指標(biāo)進(jìn)行報(bào)表分類,依照不同類別進(jìn)行組織管理,以樹形結(jié)構(gòu)為主,帶有一個(gè)根節(jié)點(diǎn),并結(jié)合實(shí)際情況進(jìn)行存儲(chǔ),為后續(xù)管理提供便利。
(3)問題整改。當(dāng)校驗(yàn)規(guī)則中出現(xiàn)問題數(shù)據(jù)后,應(yīng)明確問題的解決流程。通過問題整改可對(duì)缺陷信息進(jìn)行查詢。策略實(shí)施后,問題數(shù)據(jù)將自動(dòng)匯入缺陷池中。
(4)質(zhì)量監(jiān)控。有助于查詢數(shù)據(jù)質(zhì)量信息,根據(jù)不同維度對(duì)缺陷情況進(jìn)行統(tǒng)計(jì),為用戶提供更加清楚明確的質(zhì)量監(jiān)控情況。
綜上所述,在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)信息爆炸式增長(zhǎng),數(shù)據(jù)質(zhì)量提升成為數(shù)據(jù)治理技術(shù)的應(yīng)用目標(biāo)之一。要想提高數(shù)據(jù)質(zhì)量,首先應(yīng)清楚數(shù)據(jù)質(zhì)量問題的成因,并構(gòu)建組織架構(gòu),制定數(shù)據(jù)質(zhì)量治理系統(tǒng),并通過配置管理、數(shù)據(jù)源管理等方式,針對(duì)不同數(shù)據(jù)類型采取相應(yīng)的處理措施,做到事前預(yù)防、事中控制與事后改善相結(jié)合,從根本上改善數(shù)據(jù)質(zhì)量,達(dá)到理想的治理目標(biāo)。