任靜思
(中國石油西南油氣田公司勘探與生產數(shù)據(jù)中心)
生產數(shù)據(jù)校驗加載方法研究與實踐
任靜思
(中國石油西南油氣田公司勘探與生產數(shù)據(jù)中心)
對于海量生產數(shù)據(jù)的校驗與加載,由于數(shù)據(jù)量龐大和獲取數(shù)據(jù)的途徑不同,其內容、格式、質量參差不齊,經(jīng)常會遇到數(shù)據(jù)格式不能轉換或格式轉換后信息丟失等棘手問題,并且數(shù)據(jù)質量難以控制,人工校驗費時、費力且準確率低。故以西南油氣田A2系統(tǒng)歷史數(shù)據(jù)加載為實例,研討數(shù)據(jù)校驗加載流程,闡述如何開發(fā)數(shù)據(jù)質控平臺,并利用該平臺和數(shù)據(jù)內在的邏輯規(guī)則,對生產數(shù)據(jù)進行高效準確的校驗和加載。圖12表3參2
數(shù)據(jù)校驗 數(shù)據(jù)加載 質控平臺 SSIS遷移工具 MSChart圖形控件
油氣水井生產數(shù)據(jù)管理系統(tǒng)(簡稱A2系統(tǒng)),是中石油信息技術總體規(guī)劃中的一個重要項目,主要以油氣生產動態(tài)和管理數(shù)據(jù)為核心,集開發(fā)生產管理信息采集、傳輸、存儲、處理、分析、發(fā)布、管理和應用于一體的油田生產管理信息應用系統(tǒng)。
自A2系統(tǒng)2007年在西南油氣田正式上線運行以來,2000年后的油氣生產數(shù)據(jù)都已經(jīng)實現(xiàn)完整納入A2系統(tǒng)管理,新增數(shù)據(jù)也都實現(xiàn)動態(tài)正?;霂旃芾恚?000年前的歷史數(shù)據(jù)未能加載入庫,嚴重阻礙了數(shù)據(jù)庫的應用深度和使用范圍,尤其是近年來大力開展老氣田穩(wěn)產和挖潛等綜合研究工作,更是需要使用完整的生產數(shù)據(jù)進行產量綜合遞減分析、開發(fā)調整方案編制。因此,在A2數(shù)據(jù)庫中加載西南油氣田公司2000年前的所有油氣生產數(shù)據(jù),實現(xiàn)數(shù)據(jù)的完整化管理十分重要。
對石油行業(yè)而言,衡量生產數(shù)據(jù)正確性的重要指標包括:數(shù)據(jù)的唯一性、完整性、連續(xù)性、繼承性和準確性。對于海量數(shù)據(jù)加載而言,由于數(shù)據(jù)量龐大和獲取數(shù)據(jù)的途徑不同,數(shù)據(jù)質量參差不齊,經(jīng)常會遇到數(shù)據(jù)格式不能轉換或格式轉換后信息丟失等棘手問題,且人工校驗費時、費力、準確率低。因此加載前數(shù)據(jù)校驗的方法和步驟是數(shù)據(jù)加載的重點和難點。
1.1 開發(fā)數(shù)據(jù)質控平臺
為高效準確地校驗加載生產數(shù)據(jù),可將開發(fā)數(shù)據(jù)質控平臺作為數(shù)據(jù)校驗加載的輔助工具。數(shù)據(jù)質控平臺具有兩大功能:數(shù)據(jù)遷移功能和數(shù)據(jù)圖形展示功能。
(1)數(shù)據(jù)質控平臺數(shù)據(jù)遷移功能的開發(fā)
根據(jù)實際業(yè)務和數(shù)據(jù)情況,采用了Microsoft公司的SSIS作為數(shù)據(jù)遷移工具,并利用.Net開發(fā)程序進行整合,實現(xiàn)數(shù)據(jù)質量控制。SSIS是Microsoft公司推出的一個流程化、可視化的ETL工具,可以和Studio開發(fā)程序完全融合,最大化滿足各類系統(tǒng)的資源整合與服務重用的需求(圖1、圖2)。
圖1 數(shù)據(jù)遷移之數(shù)據(jù)加載流程圖
(2)數(shù)據(jù)質控平臺數(shù)據(jù)圖形展示的開發(fā)
采用微軟MS chart圖形控件開發(fā)校驗工具,直觀地對數(shù)據(jù)進行圖形展示(圖3)。
1.2 設計數(shù)據(jù)校驗加載總體架構
利用質控平臺對生產單位提交的數(shù)據(jù)進行校驗、校驗完畢后加載到臨時應用數(shù)據(jù)庫的臨時表中。通過對臨時應用數(shù)據(jù)庫的基礎信息進行校驗、匯總,利用質控平臺加載進臨時應用數(shù)據(jù)庫的正式表,數(shù)據(jù)準確無誤后再統(tǒng)一加進A2主庫,通過TWS平臺進行查詢、應用(圖4)。
圖2 數(shù)據(jù)遷移之基本信息校驗流程圖
圖3 數(shù)據(jù)圖形展示圖
圖4 數(shù)據(jù)校驗加載總體架構示意圖
雖然是同一套數(shù)據(jù),臨時數(shù)據(jù)庫中的臨時表與生產單位提交的數(shù)據(jù)結構一致,而臨時數(shù)據(jù)庫的正式表與A2系統(tǒng)的數(shù)據(jù)結構是一致的。
1.3 制定數(shù)據(jù)校驗加載流程
對產量數(shù)據(jù)而言,及時性、完整性、唯一性、連續(xù)性、繼承性、準確性十分重要。在歷史數(shù)據(jù)的加載過程中,必須對數(shù)據(jù)的完整性、唯一性、連續(xù)性、繼承性、準確性進行校驗,才能確保數(shù)據(jù)的入庫質量(圖5)。
圖5 數(shù)據(jù)校驗加載流程圖
其中應包括的校驗工作有:
(1)基礎信息完整性校驗:井、氣藏、氣田的基本信息在A2系統(tǒng)中是否存在;
(2)數(shù)據(jù)完整性校驗:井號、氣藏、氣田、氣礦、生產年月是否填寫完整;
(3)數(shù)據(jù)唯一性校驗:同一口井、同一個層位某月是否存在冗余數(shù)據(jù);
(4)數(shù)據(jù)連續(xù)性校驗:單井的生產數(shù)據(jù)是否連續(xù);
(5)數(shù)據(jù)繼承性校驗:單井某個層位封閉報廢后產量是否繼承截至當前;
(6)數(shù)據(jù)準確性校驗:生產數(shù)據(jù)在邏輯上是有規(guī)則的,加載的數(shù)據(jù)是否符合規(guī)則。
1.4 設定加載校驗步驟
(1)對接收數(shù)據(jù)進行初步審核及數(shù)據(jù)格式規(guī)范化整理
在收集的數(shù)據(jù)中,最主要的數(shù)據(jù)問題是年月項的不規(guī)范性,有些使用的是數(shù)值型,有些使用的是日期型,有些使用的是文本型,導致數(shù)據(jù)入庫后,部分年月項數(shù)據(jù)丟失。
此步驟主要是規(guī)范生產單位提交數(shù)據(jù)的年月數(shù)據(jù)項。采用Access、excel、UltraEdit與記事本相結合的方式對數(shù)據(jù)進行手動修改。
(2)利用質控平臺對數(shù)據(jù)進行高效自動加載,并反復校驗
將整理好的氣井歷史數(shù)據(jù)放在對應文件路徑下,利用質控平臺執(zhí)行圖6所示步驟,將原始數(shù)據(jù)加載進臨時數(shù)據(jù)庫的臨時表,對重復數(shù)據(jù)以及不完整數(shù)據(jù)則返回數(shù)據(jù)源單位進行修改后再重新整理加載。
食品安全管理對企業(yè)食品管理工作的影響。在日常生活中,一些菜市場及超市的食品安全、衛(wèi)生問題日益嚴峻,給企業(yè)的綜合競爭力造成較大影響,同時還有可能影響企業(yè)的食品安全性,因此,應該創(chuàng)建科學有效的食品安全管理系統(tǒng)和食品安全信用系統(tǒng),進一步提升企業(yè)的市場競爭力,進一步推動我國食品監(jiān)管工作的革新。
(3)利用質控平臺對基本信息進行校驗,確保和A2系統(tǒng)保持一致
圖6 臨時表氣井原始數(shù)據(jù)加載校驗流程圖
圖7 正式表氣井原始數(shù)據(jù)加載校驗流程圖
圖8 不連續(xù)井的生產數(shù)據(jù)展示圖
原始數(shù)據(jù)加載進臨時表后,執(zhí)行圖7所示步驟,將臨時表的數(shù)據(jù)與A2主庫里面的基礎信息進行匹配并連接查詢,基礎信息不為空的數(shù)據(jù)將加栽進臨時數(shù)據(jù)庫的正式表里,此正式表的結構與A2主庫里面的表結構是一致的。對基礎信息為空的數(shù)據(jù)進行相應的修改后再重復執(zhí)行圖7的步驟。
1.5 利用質控平臺對數(shù)據(jù)進行連續(xù)性、繼承性校驗
(1)數(shù)據(jù)連續(xù)性校驗
通過函數(shù)MONTHS_BETWEEN統(tǒng)計出單井的理論連續(xù)月份條數(shù),和庫中存在的單井實際月份條數(shù)做對比。理論連續(xù)月份條數(shù)和實際月份條數(shù)有如下規(guī)則:
理論連續(xù)月份統(tǒng)計=實際月份統(tǒng)計
若實際月份條數(shù)小于理論連續(xù)月份條數(shù),說明該井數(shù)據(jù)存在不連續(xù)的情況,將這口井的生產數(shù)據(jù)通過質控平臺圖形展示出來,把產量為0的月份提取出來,反饋給數(shù)據(jù)源單位審核(表1、圖8)。表1理論連續(xù)月份條數(shù)和實際月份條數(shù)統(tǒng)計表
表1 理論連續(xù)月份條數(shù)和實際月份條數(shù)統(tǒng)計表
表2 查找單井最大月份
(2)數(shù)據(jù)繼承性校驗
通過函數(shù)MAX查詢單井最大月份是否等于當前月份。若未繼承到當前,則通過人工手動補齊(表2)。
1.6 利用數(shù)據(jù)邏輯規(guī)則對數(shù)據(jù)進行準確性校驗
對接收數(shù)據(jù)進行上述校驗加載后,為了保證數(shù)據(jù)正確性,進一步利用生產數(shù)據(jù)的邏輯規(guī)則對數(shù)據(jù)進行準確性校驗。數(shù)據(jù)算法規(guī)則如下:
·當月累產=上月累產+當月月產;
·一月年產=一月月產;
·當月年產=上月年產+當月月產(一月除外)。
對不符合算法規(guī)則的異常數(shù)據(jù)利用質控平臺展示出來,并反饋給生產單位核查(圖9圖10)。
圖9 西南油氣田1980年01月至1999年12月總井數(shù)曲線
圖10 西南油氣田1970年01月至1999年12月累積產水量曲線
2.1 質控平臺的開發(fā)成果
(1)利用SSIS數(shù)據(jù)遷移工具,完成數(shù)據(jù)質控平臺對氣井、氣藏、氣田、氣礦4級數(shù)據(jù)的加載及校驗的開發(fā)、測試;
(2)利用MSChart圖形控件,完成數(shù)據(jù)質控平臺對圖形展示的開發(fā)、測試。
2.2 生產數(shù)據(jù)校驗加載效果
通過上述生產數(shù)據(jù)的校驗加載方法,完成了A2系統(tǒng)生產數(shù)據(jù)的校驗和加載,取得良好效果(表3):
對生產數(shù)據(jù)校驗加載而言,制定一套行之有效的校驗加載方法,并開發(fā)數(shù)據(jù)質控平臺顯得尤為重要。通過質控平臺的使用,實現(xiàn)了數(shù)據(jù)校驗、加載的可視化及流程化,極大地提高了數(shù)據(jù)校驗、加載的效率,實現(xiàn)了數(shù)據(jù)快速、批量、準確加載。
通過對A2系統(tǒng)生產數(shù)據(jù)校驗加載的初步應用實踐,取得了顯著成效,證明了利用生產數(shù)據(jù)校驗加載方法和質控平臺技術手段開展數(shù)據(jù)加載工作,比人工校驗更高效、準確且更切實可行。推而廣之,這套數(shù)據(jù)校驗加載方法和質控工具將為今后類似的數(shù)據(jù)加載工作提供技術保障。
表3 生產數(shù)據(jù)校驗加載效果表
1 胡百敬.SQL Server 2008 SSIS整合服務[M].臺灣:悅知文化出版社,2008.
2 朱健.MSChart在氣象數(shù)據(jù)圖形化顯示中的應用[J].浙江氣象,2009,(1):24-27.
(修改回稿日期 2013-07-18 編輯 陳玲)
任靜思,男,1981年出生,工程師;2004年畢業(yè)于成都信息工程學院計算機科學與技術專業(yè),近幾年主要致力于A2運維工作。地址:(610041)四川省成都市天府大道北段12號石油科技大廈1409室。電話:(028)86015102。E-mail:renjingsi@petrochina.com.cn