• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于電力行業(yè)數(shù)據(jù)清洗轉(zhuǎn)換的過程方法分析

      2018-02-14 12:30:22田青松
      現(xiàn)代鹽化工 2018年5期
      關(guān)鍵詞:源頭保密過程

      劉 軍,周 明,王 筠,田青松

      (1.國網(wǎng)安徽省電力有限公司信息通信分公司,安徽 合肥 230009;2.合肥恒卓科技有限公司,安徽 合肥 230088)

      1 源數(shù)據(jù)獲取

      1.1 過程說明

      源頭數(shù)據(jù)收集的過程,包括溯源、溝通、申請和落實等過程,是數(shù)據(jù)獲取的前提。

      1.2 輸入輸出

      過程輸入:數(shù)據(jù)需求清單、數(shù)據(jù)接入方案、安全保密協(xié)議、數(shù)據(jù)使用申請、接口開通申請、接口方案。

      過程輸出:業(yè)務(wù)部門、科信、信通公司、確認(rèn)的數(shù)據(jù)接入方案、接口開通方案、源頭數(shù)據(jù)、日志文件。

      1.3 過程重點

      完整性:應(yīng)及時獲得完整的源頭數(shù)據(jù)。首先是項目組協(xié)同業(yè)務(wù)部門梳理完整的數(shù)據(jù)資源需求清單和數(shù)據(jù)字典;其次要獲得信息和業(yè)務(wù)主管部門的授權(quán)和認(rèn)可。

      1.4 難點分析

      及時性:要保證數(shù)據(jù)提供的及時性。數(shù)據(jù)清洗轉(zhuǎn)換工作牽涉源頭系統(tǒng)多,涉及業(yè)務(wù)面廣,讓各源頭系統(tǒng)和部門能在規(guī)定時間內(nèi)將數(shù)據(jù)提供齊全,是數(shù)據(jù)收集過程需要重點關(guān)注的工作內(nèi)容。為保證數(shù)據(jù)提供及時性,實施組織及關(guān)聯(lián)組織應(yīng)出臺配套措施,例如事前商榷,責(zé)任到人,事前提醒,事后考核的過程管理辦法。

      安全性:要確保信息安全。安全保密是公司全體謹(jǐn)記的防線,沒有安全保密措施業(yè)務(wù)部門不會提供數(shù)據(jù),安全保密不到位,數(shù)據(jù)使用單位、人員都會受到責(zé)任牽連。因此,在數(shù)據(jù)申請之前,就應(yīng)對安全措施進行梳理和落實。例如宣傳和落實禁止數(shù)據(jù)外傳、工作落實責(zé)任人,明確數(shù)據(jù)使用人員、查詢?nèi)藛T,簽訂安全保密協(xié)議等。

      1.5 問題剖析

      1.5.1 數(shù)據(jù)準(zhǔn)備入問題

      數(shù)據(jù)獲取過程中,問題主要集中在組織和溝通方面,組織得當(dāng),才能保證數(shù)據(jù)收集流程順利進行。而組織和責(zé)任落實方面,僅依靠項目組難以推動,必須梳理明確的數(shù)據(jù)需求清單,提交項目管控組,組織溯源會議,將工作項落實到相關(guān)部門和團隊,并指定負(fù)責(zé)人;再輔以必要的業(yè)務(wù)數(shù)據(jù)使用申請,請相關(guān)管理部門授權(quán)(簽字、蓋章)。申請由數(shù)據(jù)收集部門發(fā)起,源頭業(yè)務(wù)部門授權(quán),科信和信通簽批。

      1.5.2 信息安全問題

      需要特別關(guān)注的是數(shù)據(jù)安全保密的問題,尤其是安全級別要求高的數(shù)據(jù),項目組在溯源獲取之前,應(yīng)先結(jié)合國網(wǎng)安全保密要求,列舉安全保密措施,例如在數(shù)據(jù)傳輸途徑方面禁止一切外接和外傳,人員安全保密要求方面,將安全保密要求在相關(guān)單位、部門、責(zé)任人方面逐層落實,提供明確的管理辦法并嚴(yán)格執(zhí)行。

      2 數(shù)據(jù)清洗

      2.1 過程說明

      數(shù)據(jù)清洗需要對獲取的源頭數(shù)據(jù)先進行初步篩查,通過目測手量加經(jīng)驗的方式快速剔除非達(dá)標(biāo)項,通過溝通、確認(rèn)等方式從源頭獲取質(zhì)量更高的數(shù)據(jù);再通過技術(shù)手段,依據(jù)數(shù)據(jù)主鍵唯一性約束、數(shù)據(jù)關(guān)聯(lián)約束、數(shù)據(jù)完整性約束等條件,排查邏輯和結(jié)構(gòu)異常的數(shù)據(jù);還要結(jié)合業(yè)務(wù)規(guī)則,對違反或與實際明顯不符的數(shù)據(jù)進行甄別和排查。

      2.2 輸入輸出

      過程輸入:源頭數(shù)據(jù)、日志文件、數(shù)據(jù)需求清單、數(shù)據(jù)字典。

      過程輸出:可入庫的源頭數(shù)據(jù)、入庫數(shù)據(jù)清單、數(shù)據(jù)字典。

      2.3 過程重點

      數(shù)據(jù)清洗過程的重點工作內(nèi)容是快速甄別源頭數(shù)據(jù)的可用性、真實性、完整性,從而保障獲得的源頭數(shù)據(jù)是可以被后續(xù)過程使用的有效數(shù)據(jù),促進后續(xù)流程順利開展。

      2.4 難點分析

      數(shù)據(jù)清洗過程的難點是對數(shù)據(jù)甄別手段的掌握和應(yīng)用。在電力行業(yè)有經(jīng)驗積累的團隊成員,依據(jù)其所從事或分析的專業(yè),大多能快速的按照步驟逐一識別源頭提供的文件是否滿足要求,但其經(jīng)驗應(yīng)用于文件的甄別,有一個度的把

      控的問題,這個主觀性較強,所以一方面需要不斷地經(jīng)驗積累,另一方面則需要借助技術(shù)手段快速甄別。

      2.5 問題剖析

      2.5.1 DMP數(shù)據(jù)文件導(dǎo)入問題

      數(shù)據(jù)清洗過程中基本都會遇到數(shù)據(jù)庫版本不一致的問題,例如安徽公司ERP系統(tǒng)使用的數(shù)據(jù)庫是Oracle10.2版,而數(shù)據(jù)歸集目標(biāo)庫用的是Oracle10.1版,對于這種高版本向低版本導(dǎo)入的問題,源頭導(dǎo)出的DMP文件是不能直接在目標(biāo)庫導(dǎo)入的,所以在數(shù)據(jù)導(dǎo)入目標(biāo)庫之前需要做轉(zhuǎn)換處理。先在測試環(huán)境安裝與源頭版本相同的數(shù)據(jù)庫,將DMP文件導(dǎo)入其中,再通過與目標(biāo)庫相同的客戶端導(dǎo)出該數(shù)據(jù)文件,通過轉(zhuǎn)換后的DMP文件才能成功導(dǎo)入到目標(biāo)庫中。

      DMP文件導(dǎo)入之前,需要先對導(dǎo)出用戶、導(dǎo)出表空間信息進行必要的調(diào)查,在用戶不一致、表空間不一致時數(shù)據(jù)導(dǎo)入時會報錯,或不能成功導(dǎo)入。因此需要隨DMP文件一起收集數(shù)據(jù)庫導(dǎo)出日志文件,通過日志文件對導(dǎo)出的數(shù)據(jù)文件信息做好充分的了解,為數(shù)據(jù)導(dǎo)入目標(biāo)庫做好充足的準(zhǔn)備。

      2.5.2 EXCEL數(shù)據(jù)問題及常用解決辦法

      對于源頭提供的EXCEL文件,由于其文件內(nèi)容可編輯,對這部分?jǐn)?shù)據(jù)在導(dǎo)入數(shù)據(jù)庫之前則需要更仔細(xì)地檢查。

      (1)EXCEL中特殊格式問題及處理辦法。例如經(jīng)常會出現(xiàn)在EXCEL中的格式字符、空格字符看不見,但真實存在。此部分內(nèi)容導(dǎo)入數(shù)據(jù)庫后會對數(shù)據(jù)的有效性、準(zhǔn)確性產(chǎn)生一定的影響,所以入庫之前,對重要字段,特別在后期轉(zhuǎn)換過程中需要用于關(guān)聯(lián)的,用于計算的字段進行必要的處理。通過Trim和Clean函數(shù)去除空格等特殊字符的用法。

      (2)EXCEL中對篩選后的表進行復(fù)制粘貼的問題。EXCEL2007以上版本,在篩選結(jié)果集中復(fù)制數(shù)據(jù)粘貼到新表時,會將過濾掉的數(shù)值帶上,這時需要在復(fù)制之前設(shè)置定位條件。

      以EXCEL2010版為例,在功能區(qū)選擇開始->查找和選擇->定位條件,然后在表格中框選需要復(fù)制的數(shù)據(jù),到目標(biāo)表格中進行粘貼。

      (3)EXCEL設(shè)置條件格式。EXCEL中對部分?jǐn)?shù)據(jù)需要區(qū)分顯示,例如正常區(qū)間段的顯示綠色,超出正常值的顯示成紅色,可以通過設(shè)置條件格式進行顯示。以EXCEL2010版為例,將發(fā)電量數(shù)據(jù)設(shè)置成100~10 000之間顯示為綠色,小于100顯示黃色,大于10 000顯示紅色。菜單路徑開始->條件格式->管理規(guī)則(或新建規(guī)則)。

      (4)EXCEL中數(shù)值型數(shù)據(jù)顯示長度的問題。EXCEL中數(shù)值型數(shù)據(jù)只能顯示16位,超過16位時會自動轉(zhuǎn)換成科學(xué)計數(shù)法顯示,16位以后的數(shù)據(jù)顯示成0。對于數(shù)字型數(shù)據(jù),例如編碼,在導(dǎo)入前需要將單元格格式設(shè)置成文本類型并防止數(shù)據(jù)丟失。

      3 數(shù)據(jù)轉(zhuǎn)換

      3.1 過程說明

      數(shù)據(jù)轉(zhuǎn)換是指將清洗后的數(shù)據(jù)按照數(shù)據(jù)轉(zhuǎn)換規(guī)則,將數(shù)據(jù)導(dǎo)入到按約定規(guī)則創(chuàng)建的標(biāo)準(zhǔn)表中。

      3.2 輸入輸出

      過程輸入:清洗后的可用于轉(zhuǎn)換的源頭數(shù)據(jù),數(shù)據(jù)清單、數(shù)據(jù)字典、檢查清洗記錄、問題記錄。

      過程輸出:轉(zhuǎn)換后的標(biāo)準(zhǔn)表、轉(zhuǎn)換日志、表清單、數(shù)據(jù)字典、補充的問題記錄。

      3.3 過程重點

      數(shù)據(jù)轉(zhuǎn)換過程的重點是轉(zhuǎn)換效率的不斷提升,需要經(jīng)過異常問題處理的經(jīng)驗積累,不斷提升數(shù)據(jù)清洗轉(zhuǎn)換效率。

      3.4 難點分析

      轉(zhuǎn)換的結(jié)果是否被用戶認(rèn)可,結(jié)果是否可用需要甄別和鑒定,需要通過數(shù)據(jù)核查行驗證。

      3.5 問題剖析

      數(shù)據(jù)轉(zhuǎn)換過程通過率不僅反映了轉(zhuǎn)換方法適用性,也反映了源頭數(shù)據(jù)收集、數(shù)據(jù)清洗處理、數(shù)據(jù)檢查階段工作的成效。在數(shù)據(jù)清洗轉(zhuǎn)換的初期,需要工作流程中各階段的不斷磨合和提升,磨合的過程也是發(fā)現(xiàn)問題解決問題的過程,我們將問題劃分為3類:(1)數(shù)據(jù)質(zhì)量;(2)轉(zhuǎn)換方法適用性;(3)操作過程熟練度。

      3.5.1 數(shù)據(jù)質(zhì)量問題

      數(shù)據(jù)質(zhì)量的提升,需要從源頭入手,保證源頭提供真實完整的數(shù)據(jù),然后在檢查過程中回溯反饋,依據(jù)實際情況逐項反推,促進源頭提升。在整個協(xié)動提升過程中,工作推動靠實施組織,問題解決過程是傳動紐帶,溝通辦法,技術(shù)手段,數(shù)據(jù)檢查規(guī)則是整體協(xié)動的抓手。提升過程也是圍繞目標(biāo)解決問題的過程,問題記錄很重要,特別是在試用初期,一定要建立問題清單,所有問題逐項解決,才能掃清轉(zhuǎn)換過程障礙,提升轉(zhuǎn)換通過率。

      3.5.2 轉(zhuǎn)換方法適用性問題

      在轉(zhuǎn)換方法適用性提升方面,需要實施團隊對轉(zhuǎn)換規(guī)則進行充分的學(xué)習(xí)、梳理和理解;掌握了轉(zhuǎn)換規(guī)則,才能在出現(xiàn)異常時準(zhǔn)確定位問題所在,有針對性地提出意見建議,促進功能、性能優(yōu)化,推動轉(zhuǎn)換方法適用性不斷提升。

      3.5.3 過程操作問題

      轉(zhuǎn)換方法實施的過程也是不斷學(xué)習(xí),不斷研究,從陌生到熟練的過程。例如轉(zhuǎn)換方法執(zhí)行時,操作人員要及時了解過程中反饋的信息,在數(shù)據(jù)量大時,也可間隔一段時間后再查詢操作日志,如果轉(zhuǎn)換數(shù)據(jù)出現(xiàn)錯誤或者時間過長,則要查看具體數(shù)據(jù)庫運行狀態(tài)和報錯情況,根據(jù)報錯和問題原因進行優(yōu)化和調(diào)試。

      4 結(jié)語

      統(tǒng)一數(shù)據(jù)歸集操作入口,使數(shù)據(jù)歸集工作更為規(guī)范化,同時固化了大量自動化數(shù)據(jù)轉(zhuǎn)換腳本,原先數(shù)據(jù)轉(zhuǎn)換多人分時段進行,跨度大概需要24~48 h,經(jīng)過流程梳理,優(yōu)化過程方法,使整體耗時減低到4 h 11 min,大幅度地提高了數(shù)據(jù)轉(zhuǎn)換的效率。數(shù)據(jù)整體歸集時間由原先的3~4 天,壓縮到2~2.5天,取得了較好的效果。另外,實現(xiàn)了數(shù)據(jù)統(tǒng)一歸集、集中清洗、批量轉(zhuǎn)換的理念和方法,規(guī)范了數(shù)據(jù)歸集操作,壓縮了數(shù)據(jù)歸集工作周期,通過清洗轉(zhuǎn)換的數(shù)據(jù)也必然會為后續(xù)數(shù)據(jù)挖掘和分析提供更整潔精簡的數(shù)據(jù)資源支撐。

      猜你喜歡
      源頭保密過程
      多措并舉筑牢安全保密防線
      中國石化(2022年5期)2022-06-10 06:39:32
      《信息安全與通信保密》征稿函
      深化改革創(chuàng)新 強化源頭治理
      描寫具體 再現(xiàn)過程
      臨終是個怎樣的過程
      常回源頭看看
      論中國共產(chǎn)黨的保密觀
      從源頭上確保食品安全
      在這個學(xué)習(xí)的過程中收獲最大的是哪些,為什么?
      Coco薇(2015年12期)2015-12-10 03:54:58
      源頭
      小說月刊(2015年12期)2015-04-23 08:51:09
      永昌县| 株洲市| 阿拉尔市| 肃宁县| 紫阳县| 错那县| 纳雍县| 讷河市| 剑川县| 峡江县| 兴安县| 栾城县| 和硕县| 盘锦市| 都江堰市| 兴和县| 财经| 嵩明县| 新邵县| 精河县| 威宁| 南京市| 石狮市| 安图县| 金寨县| 商都县| 乡城县| 巴里| 正蓝旗| 信阳市| 鹤山市| 广饶县| 河北区| 正安县| 通河县| 清远市| 航空| 陇西县| 齐齐哈尔市| 鹰潭市| 通道|