劉 軍,周 明,王 筠,田青松
(1.國網(wǎng)安徽省電力有限公司信息通信分公司,安徽 合肥 230009;2.合肥恒卓科技有限公司,安徽 合肥 230088)
源頭數(shù)據(jù)收集的過程,包括溯源、溝通、申請和落實等過程,是數(shù)據(jù)獲取的前提。
過程輸入:數(shù)據(jù)需求清單、數(shù)據(jù)接入方案、安全保密協(xié)議、數(shù)據(jù)使用申請、接口開通申請、接口方案。
過程輸出:業(yè)務(wù)部門、科信、信通公司、確認(rèn)的數(shù)據(jù)接入方案、接口開通方案、源頭數(shù)據(jù)、日志文件。
完整性:應(yīng)及時獲得完整的源頭數(shù)據(jù)。首先是項目組協(xié)同業(yè)務(wù)部門梳理完整的數(shù)據(jù)資源需求清單和數(shù)據(jù)字典;其次要獲得信息和業(yè)務(wù)主管部門的授權(quán)和認(rèn)可。
及時性:要保證數(shù)據(jù)提供的及時性。數(shù)據(jù)清洗轉(zhuǎn)換工作牽涉源頭系統(tǒng)多,涉及業(yè)務(wù)面廣,讓各源頭系統(tǒng)和部門能在規(guī)定時間內(nèi)將數(shù)據(jù)提供齊全,是數(shù)據(jù)收集過程需要重點關(guān)注的工作內(nèi)容。為保證數(shù)據(jù)提供及時性,實施組織及關(guān)聯(lián)組織應(yīng)出臺配套措施,例如事前商榷,責(zé)任到人,事前提醒,事后考核的過程管理辦法。
安全性:要確保信息安全。安全保密是公司全體謹(jǐn)記的防線,沒有安全保密措施業(yè)務(wù)部門不會提供數(shù)據(jù),安全保密不到位,數(shù)據(jù)使用單位、人員都會受到責(zé)任牽連。因此,在數(shù)據(jù)申請之前,就應(yīng)對安全措施進行梳理和落實。例如宣傳和落實禁止數(shù)據(jù)外傳、工作落實責(zé)任人,明確數(shù)據(jù)使用人員、查詢?nèi)藛T,簽訂安全保密協(xié)議等。
1.5.1 數(shù)據(jù)準(zhǔn)備入問題
數(shù)據(jù)獲取過程中,問題主要集中在組織和溝通方面,組織得當(dāng),才能保證數(shù)據(jù)收集流程順利進行。而組織和責(zé)任落實方面,僅依靠項目組難以推動,必須梳理明確的數(shù)據(jù)需求清單,提交項目管控組,組織溯源會議,將工作項落實到相關(guān)部門和團隊,并指定負(fù)責(zé)人;再輔以必要的業(yè)務(wù)數(shù)據(jù)使用申請,請相關(guān)管理部門授權(quán)(簽字、蓋章)。申請由數(shù)據(jù)收集部門發(fā)起,源頭業(yè)務(wù)部門授權(quán),科信和信通簽批。
1.5.2 信息安全問題
需要特別關(guān)注的是數(shù)據(jù)安全保密的問題,尤其是安全級別要求高的數(shù)據(jù),項目組在溯源獲取之前,應(yīng)先結(jié)合國網(wǎng)安全保密要求,列舉安全保密措施,例如在數(shù)據(jù)傳輸途徑方面禁止一切外接和外傳,人員安全保密要求方面,將安全保密要求在相關(guān)單位、部門、責(zé)任人方面逐層落實,提供明確的管理辦法并嚴(yán)格執(zhí)行。
數(shù)據(jù)清洗需要對獲取的源頭數(shù)據(jù)先進行初步篩查,通過目測手量加經(jīng)驗的方式快速剔除非達(dá)標(biāo)項,通過溝通、確認(rèn)等方式從源頭獲取質(zhì)量更高的數(shù)據(jù);再通過技術(shù)手段,依據(jù)數(shù)據(jù)主鍵唯一性約束、數(shù)據(jù)關(guān)聯(lián)約束、數(shù)據(jù)完整性約束等條件,排查邏輯和結(jié)構(gòu)異常的數(shù)據(jù);還要結(jié)合業(yè)務(wù)規(guī)則,對違反或與實際明顯不符的數(shù)據(jù)進行甄別和排查。
過程輸入:源頭數(shù)據(jù)、日志文件、數(shù)據(jù)需求清單、數(shù)據(jù)字典。
過程輸出:可入庫的源頭數(shù)據(jù)、入庫數(shù)據(jù)清單、數(shù)據(jù)字典。
數(shù)據(jù)清洗過程的重點工作內(nèi)容是快速甄別源頭數(shù)據(jù)的可用性、真實性、完整性,從而保障獲得的源頭數(shù)據(jù)是可以被后續(xù)過程使用的有效數(shù)據(jù),促進后續(xù)流程順利開展。
數(shù)據(jù)清洗過程的難點是對數(shù)據(jù)甄別手段的掌握和應(yīng)用。在電力行業(yè)有經(jīng)驗積累的團隊成員,依據(jù)其所從事或分析的專業(yè),大多能快速的按照步驟逐一識別源頭提供的文件是否滿足要求,但其經(jīng)驗應(yīng)用于文件的甄別,有一個度的把
控的問題,這個主觀性較強,所以一方面需要不斷地經(jīng)驗積累,另一方面則需要借助技術(shù)手段快速甄別。
2.5.1 DMP數(shù)據(jù)文件導(dǎo)入問題
數(shù)據(jù)清洗過程中基本都會遇到數(shù)據(jù)庫版本不一致的問題,例如安徽公司ERP系統(tǒng)使用的數(shù)據(jù)庫是Oracle10.2版,而數(shù)據(jù)歸集目標(biāo)庫用的是Oracle10.1版,對于這種高版本向低版本導(dǎo)入的問題,源頭導(dǎo)出的DMP文件是不能直接在目標(biāo)庫導(dǎo)入的,所以在數(shù)據(jù)導(dǎo)入目標(biāo)庫之前需要做轉(zhuǎn)換處理。先在測試環(huán)境安裝與源頭版本相同的數(shù)據(jù)庫,將DMP文件導(dǎo)入其中,再通過與目標(biāo)庫相同的客戶端導(dǎo)出該數(shù)據(jù)文件,通過轉(zhuǎn)換后的DMP文件才能成功導(dǎo)入到目標(biāo)庫中。
DMP文件導(dǎo)入之前,需要先對導(dǎo)出用戶、導(dǎo)出表空間信息進行必要的調(diào)查,在用戶不一致、表空間不一致時數(shù)據(jù)導(dǎo)入時會報錯,或不能成功導(dǎo)入。因此需要隨DMP文件一起收集數(shù)據(jù)庫導(dǎo)出日志文件,通過日志文件對導(dǎo)出的數(shù)據(jù)文件信息做好充分的了解,為數(shù)據(jù)導(dǎo)入目標(biāo)庫做好充足的準(zhǔn)備。
2.5.2 EXCEL數(shù)據(jù)問題及常用解決辦法
對于源頭提供的EXCEL文件,由于其文件內(nèi)容可編輯,對這部分?jǐn)?shù)據(jù)在導(dǎo)入數(shù)據(jù)庫之前則需要更仔細(xì)地檢查。
(1)EXCEL中特殊格式問題及處理辦法。例如經(jīng)常會出現(xiàn)在EXCEL中的格式字符、空格字符看不見,但真實存在。此部分內(nèi)容導(dǎo)入數(shù)據(jù)庫后會對數(shù)據(jù)的有效性、準(zhǔn)確性產(chǎn)生一定的影響,所以入庫之前,對重要字段,特別在后期轉(zhuǎn)換過程中需要用于關(guān)聯(lián)的,用于計算的字段進行必要的處理。通過Trim和Clean函數(shù)去除空格等特殊字符的用法。
(2)EXCEL中對篩選后的表進行復(fù)制粘貼的問題。EXCEL2007以上版本,在篩選結(jié)果集中復(fù)制數(shù)據(jù)粘貼到新表時,會將過濾掉的數(shù)值帶上,這時需要在復(fù)制之前設(shè)置定位條件。
以EXCEL2010版為例,在功能區(qū)選擇開始->查找和選擇->定位條件,然后在表格中框選需要復(fù)制的數(shù)據(jù),到目標(biāo)表格中進行粘貼。
(3)EXCEL設(shè)置條件格式。EXCEL中對部分?jǐn)?shù)據(jù)需要區(qū)分顯示,例如正常區(qū)間段的顯示綠色,超出正常值的顯示成紅色,可以通過設(shè)置條件格式進行顯示。以EXCEL2010版為例,將發(fā)電量數(shù)據(jù)設(shè)置成100~10 000之間顯示為綠色,小于100顯示黃色,大于10 000顯示紅色。菜單路徑開始->條件格式->管理規(guī)則(或新建規(guī)則)。
(4)EXCEL中數(shù)值型數(shù)據(jù)顯示長度的問題。EXCEL中數(shù)值型數(shù)據(jù)只能顯示16位,超過16位時會自動轉(zhuǎn)換成科學(xué)計數(shù)法顯示,16位以后的數(shù)據(jù)顯示成0。對于數(shù)字型數(shù)據(jù),例如編碼,在導(dǎo)入前需要將單元格格式設(shè)置成文本類型并防止數(shù)據(jù)丟失。
數(shù)據(jù)轉(zhuǎn)換是指將清洗后的數(shù)據(jù)按照數(shù)據(jù)轉(zhuǎn)換規(guī)則,將數(shù)據(jù)導(dǎo)入到按約定規(guī)則創(chuàng)建的標(biāo)準(zhǔn)表中。
過程輸入:清洗后的可用于轉(zhuǎn)換的源頭數(shù)據(jù),數(shù)據(jù)清單、數(shù)據(jù)字典、檢查清洗記錄、問題記錄。
過程輸出:轉(zhuǎn)換后的標(biāo)準(zhǔn)表、轉(zhuǎn)換日志、表清單、數(shù)據(jù)字典、補充的問題記錄。
數(shù)據(jù)轉(zhuǎn)換過程的重點是轉(zhuǎn)換效率的不斷提升,需要經(jīng)過異常問題處理的經(jīng)驗積累,不斷提升數(shù)據(jù)清洗轉(zhuǎn)換效率。
轉(zhuǎn)換的結(jié)果是否被用戶認(rèn)可,結(jié)果是否可用需要甄別和鑒定,需要通過數(shù)據(jù)核查行驗證。
數(shù)據(jù)轉(zhuǎn)換過程通過率不僅反映了轉(zhuǎn)換方法適用性,也反映了源頭數(shù)據(jù)收集、數(shù)據(jù)清洗處理、數(shù)據(jù)檢查階段工作的成效。在數(shù)據(jù)清洗轉(zhuǎn)換的初期,需要工作流程中各階段的不斷磨合和提升,磨合的過程也是發(fā)現(xiàn)問題解決問題的過程,我們將問題劃分為3類:(1)數(shù)據(jù)質(zhì)量;(2)轉(zhuǎn)換方法適用性;(3)操作過程熟練度。
3.5.1 數(shù)據(jù)質(zhì)量問題
數(shù)據(jù)質(zhì)量的提升,需要從源頭入手,保證源頭提供真實完整的數(shù)據(jù),然后在檢查過程中回溯反饋,依據(jù)實際情況逐項反推,促進源頭提升。在整個協(xié)動提升過程中,工作推動靠實施組織,問題解決過程是傳動紐帶,溝通辦法,技術(shù)手段,數(shù)據(jù)檢查規(guī)則是整體協(xié)動的抓手。提升過程也是圍繞目標(biāo)解決問題的過程,問題記錄很重要,特別是在試用初期,一定要建立問題清單,所有問題逐項解決,才能掃清轉(zhuǎn)換過程障礙,提升轉(zhuǎn)換通過率。
3.5.2 轉(zhuǎn)換方法適用性問題
在轉(zhuǎn)換方法適用性提升方面,需要實施團隊對轉(zhuǎn)換規(guī)則進行充分的學(xué)習(xí)、梳理和理解;掌握了轉(zhuǎn)換規(guī)則,才能在出現(xiàn)異常時準(zhǔn)確定位問題所在,有針對性地提出意見建議,促進功能、性能優(yōu)化,推動轉(zhuǎn)換方法適用性不斷提升。
3.5.3 過程操作問題
轉(zhuǎn)換方法實施的過程也是不斷學(xué)習(xí),不斷研究,從陌生到熟練的過程。例如轉(zhuǎn)換方法執(zhí)行時,操作人員要及時了解過程中反饋的信息,在數(shù)據(jù)量大時,也可間隔一段時間后再查詢操作日志,如果轉(zhuǎn)換數(shù)據(jù)出現(xiàn)錯誤或者時間過長,則要查看具體數(shù)據(jù)庫運行狀態(tài)和報錯情況,根據(jù)報錯和問題原因進行優(yōu)化和調(diào)試。
統(tǒng)一數(shù)據(jù)歸集操作入口,使數(shù)據(jù)歸集工作更為規(guī)范化,同時固化了大量自動化數(shù)據(jù)轉(zhuǎn)換腳本,原先數(shù)據(jù)轉(zhuǎn)換多人分時段進行,跨度大概需要24~48 h,經(jīng)過流程梳理,優(yōu)化過程方法,使整體耗時減低到4 h 11 min,大幅度地提高了數(shù)據(jù)轉(zhuǎn)換的效率。數(shù)據(jù)整體歸集時間由原先的3~4 天,壓縮到2~2.5天,取得了較好的效果。另外,實現(xiàn)了數(shù)據(jù)統(tǒng)一歸集、集中清洗、批量轉(zhuǎn)換的理念和方法,規(guī)范了數(shù)據(jù)歸集操作,壓縮了數(shù)據(jù)歸集工作周期,通過清洗轉(zhuǎn)換的數(shù)據(jù)也必然會為后續(xù)數(shù)據(jù)挖掘和分析提供更整潔精簡的數(shù)據(jù)資源支撐。