陳超
摘 要: 針對電力數據數量多、種類龐雜、橫跨專業(yè)多等特點而引起的數據質量不高的現(xiàn)狀,該項目以數據中心數據為研究對象,通過分析產生數據質量問題的原因,以元數據、數據質量、數據建模等理論為基礎,對數據流動過程中的質量檢查、質量控制和質量評估等進行深入的研究。構建電力大數據質量評價指標體系,研究電力大數據質量實時監(jiān)控、快速動態(tài)檢測方法與關鍵技術,提出了適合于電力大數據數據質量控制與評估體系模型,實現(xiàn)數據質量管控平臺開發(fā),確保企業(yè)數據質量,提升數據應用價值。
關鍵詞: 電力大數據; 元數據; 數據質量; 實時監(jiān)控
中圖分類號: TN964?34 文獻標識碼: A 文章編號: 1004?373X(2014)04?0153?03
Research for electric power big data quality evaluation model and dynamic
exploration technology
CHEN Chao
(Anhui Nari Software Co., Ltd., Hefei 230088, China)
Abstract: For the status quo of bad electric power data quality caused by mass data, complex species, multi?profession involvement and so on, quality inspection, quality control and quality assessment in the flow process of the data from the data center are studied based on metadata, data quality and data modeling theories, and cause analysis of poor data quality. The electric power big data quality evaluation index system was built. The real?time monitoring, rapid motion detection methods and key technologies of the electric power big data quality were researched. The data quality control and assessment system model suitable for the power big data are proposed in thispaper. The development of a data quality control platform was achieved. It ensured the data quality of the enterprise and raised the value of data applications.
Keywords: electric power big data; metadata; data quality; real?time monitoring
0 引 言
近幾年,電力行業(yè)信息化也得到了長足的發(fā)展,我國電力企業(yè)信息化起源于20世紀60年代,從初始電力生產自動化到80年代以財務電算化為代表的管理信息化建設,再到近年大規(guī)模的企業(yè)信息化建設,特別伴隨著下一代智能化電網的全面建設,以物聯(lián)網和云計算為代表的新一代IT技術在電力行業(yè)中的廣泛應用,電力數據資源開始急劇增長并形成了一定的規(guī)模。從長遠來看,作為中國經濟社會發(fā)展的“晴雨表”,電力數據以其與經濟發(fā)展緊密而廣泛的聯(lián)系,將會呈現(xiàn)出無以倫比的正外部性,對我國經濟社會發(fā)展以至人類社會進步也將形成更為強大的推動力[1?2]。
隨著供電企業(yè)信息化持續(xù)建設與深化應用,供電企業(yè)各項業(yè)務已與信息化初步融合,信息系統(tǒng)內業(yè)務數據的數量和種類的逐步增多,數據共享需求迫切。而數據質量和數據共享利用水平不高,一是數據對分析決策支持度低,同一數據存在多個數多源、統(tǒng)計口徑不一致; 二是數據對運營管理的支持度有待提高,數據質量參差不齊,部分數據無業(yè)務系統(tǒng)支持,缺乏統(tǒng)一的規(guī)范、標準和明確的數據問責; 三是一線人員數據錄入工作量巨大,數據重復錄入,業(yè)務功能重復; 四是數據質量管控滯后,管控工作片面化,沒有形成一個完整性的數據質量管控體系和全面有效的數據質量保障機制,制約數據價值的深度挖掘。因此,有必要圍繞企業(yè)數據生命周期,緊密結合公司推進管理體制和工作機制創(chuàng)新的要求,基于運營監(jiān)測(控)中心信息支撐系統(tǒng)建設與應用現(xiàn)狀,借鑒公司數據治理管理經驗,實現(xiàn)對供電企業(yè)數據的全過程質量管理,夯實數據基礎,提升數據質量,保障數據的準確、及時、有效和可信,為數據的集成和挖掘應用提供有力保障。
本文根據文獻研究成果,圍繞運營監(jiān)測(控)中心數據質量管理所面臨的問題與挑戰(zhàn),研究電力大數據數據質量管理規(guī)范,構建以業(yè)務系統(tǒng)為依托的數據監(jiān)控體系、質量評價體系[3],設計面向電力大數據的元數據模型[4]、數據質量監(jiān)控規(guī)則、數據質量評價指標,通過運用標準化的數據質量規(guī)范,實時監(jiān)控,在線考評,強化數據質量事中控制,事后評價,問題整改,提升決策分析依據的準確性和實用性。
1 電力大數據質量評價模型及動態(tài)探查監(jiān)控技
術研究與應用
1.1 電力大數據的數據質量評價指標、大數據質量評價模型研究
圍繞電力大數據環(huán)境下開展數據質量評價所面臨的問題與挑戰(zhàn),研究設計面向電力大數據的數據質量評價指標體系,包括質量評價指標、質量評價模型[5?6]及評價方法。具體包括:
(1) 開展大數據下的數據質量評價指標設計研究,分析大數據環(huán)境下數據質量的主要影響因素,按數據質量的數據的一致性、數據的準確性、數據的完整性、數據的及時性4個關鍵特性建立數據質量評價指標,以指導并考核大數據下系統(tǒng)數據質量水平。
(2) 研究建立大數據下的數據質量評價模型,實現(xiàn)質量指標計算、統(tǒng)計分析和綜合評價的實時、自動處理,滿足系統(tǒng)動態(tài)、實時進行數據質量好壞量化診斷和評價的要求,主要包括數據質量指標定義模型、數據質量評估算法或規(guī)則及數據質量診斷與評價結果,其中,數據質量指標定義模型,主要研究數據質量層級評價指標樹設計、指標權重設計及指標分值計算等;數據質量評估算法或規(guī)則研究,主要研究通過一定的數據算法與計算規(guī)則建立評估模型,實現(xiàn)對指標權重、指標分數自動計算與分析,并生成診斷與評估結果。
1.2 電力大數據質量快速動態(tài)探查檢測方法與關鍵技術研究
在大數據質量評價指標、大數據質量評價模型的基礎上,研究大數據質量探查檢測[7?8]的關鍵技術。
(1) 針對大數據質量探查檢測數據訪問量大和大數據本身的“海量化”特性,研究滿足質量探查檢測需要的大數據訪問、采集技術。包括分布式存儲訪問優(yōu)化算法研究;動態(tài)智能緩存技術研究。
(2) 針對大數據“快速化”的特性,研究大數據質量分析與處理技術。包括適用于大數據質量探查檢測的流計算、基于內存計算的高性能分析、實時數據質量分析的研究。
(3) 針對大數據“多樣化”的特性,研究大數據質量探查檢測中大數據的自動識別技術:研究基于神經網絡的數據識別技術及血緣分析技術。研究基于網格的數據關聯(lián)性評估技術,實現(xiàn)數據的卡片化、地圖化展現(xiàn)與管理。
(4) 針對大數據來源眾多,形式多樣,研究實時數據調度技術,主要研究基于事件流的復雜事件處理(CEP)技術、并行算法、工作流技術為主的數據調度技術,滿足大數據質量快速動態(tài)探查檢測的要求。
1.3 電力大數據質量快速動態(tài)探查檢測方法與關鍵技術研究
在電力大數據相關技術研究基礎上,結合電力大數據質量實時監(jiān)控需求與面臨的挑戰(zhàn),研究大數據質量實時監(jiān)控相關技術。
(1) 研究基于Storm的流式數據質量技術實現(xiàn)數據傳輸過程不落地進行實時數據質量監(jiān)控的方法及應用策略,在數據傳輸過程中,結合Key?Value內存數據庫,通過規(guī)則庫在Storm不同節(jié)點的使用分析,達到實時監(jiān)控的功能。
(2) 研究實時大數據捕獲及同步技術,在同步主通道開發(fā)旁路數據通道,以支持數據質量實時監(jiān)控的需求。
(3) 研究接口信息實時采集技術,研究通過API代理調用、日志分析、數據庫表記錄分析、旁路監(jiān)聽等手段采集基礎信息,實現(xiàn)實時數據接口監(jiān)控;進而實現(xiàn)數據的關聯(lián)鏈接和數據血統(tǒng)分析及影響分析。
(4) 研究數據質量監(jiān)控結果閉環(huán)自我提升技術。在數據質量實時監(jiān)控及接口信息實時監(jiān)控的基礎上,研究基于實時事件觸發(fā)的數據質量異動處理流程及接口異動處理流程技術。
1.4 電力大數據環(huán)境下的外部數據準入機制及關鍵技術研究
結合電力大數據環(huán)境下的外部數據應用需求,研究制定公司大數據背景下外部數據管理目標,建立外部數據準入機制,對外部數據進行分類、分級,并根據外部數據的來源與類型選擇不同的管理策略和控制策略。研究完備的外部數據準入機制及關鍵技術,主要研究外部數據接入檢測機制和外部數據接入機制。
(1) 研究外部數據接入檢測機制,主要包括數據安全性檢測、數據規(guī)范性檢測、數據身份認證等。數據安全性檢測主要檢測數據來源,數據規(guī)范性檢測主要檢測數據類型、數據結構、數據規(guī)模等方面。
(2) 研究外部數據接入機制,主要包括安全管理機制、數據等級評定、數據接入應急機制、數據回退機制、數據測試管理機制。
(3) 研究外部數據接入關鍵技術,主要包括數據接入異常檢測技術、數據流量控制技術、數據等級保護技術、數據庫網關技術、數據復制技術研究等。研究電力大數據環(huán)境下外部數據接入的數據清洗轉換、數據加載、數據接入服務等關鍵技術。
1.5 實現(xiàn)電力大數據質量檢測與監(jiān)控系統(tǒng)開發(fā)及示范應用
該系統(tǒng)原型分為5個層次:數據資源臺賬管理、數據傳輸及調度、接口監(jiān)控、數據質量監(jiān)測、展現(xiàn)及應用,如圖1所示。
圖1 電力大數據質量檢測與監(jiān)控系統(tǒng)原型
數據資源臺賬管理:模型信息、臺賬、系統(tǒng)信息等基礎信息管理。
數據傳輸及調度:完成實時、非實時通用數據傳輸功能;各系統(tǒng)間數據調度功能。
接口監(jiān)控:進行接口監(jiān)控:ETL監(jiān)控、OGG監(jiān)控、模型監(jiān)控、WebService監(jiān)控等。
數據質量監(jiān)測:核心數據質量監(jiān)測功能,包括規(guī)則管理,質量監(jiān)測功能及評價通報體系。
展現(xiàn)及應用:在質量監(jiān)測的結果上,形成各種報表,實現(xiàn)異動數據動態(tài)反饋功能。
依據原型系統(tǒng),結合省電力有限公司數據質量專項治理應用需求,完成示范應用。
2 結 語
本課題重點研究電力大數據的數據質量評價指標,研究電力大數據質量評價模型;研究電力大數據質量快速動態(tài)探查檢測方法與關鍵技術;研究電力大數據質量實時監(jiān)控方法與關鍵技術;研究電力大數據環(huán)境下的外部數據準入機制及關鍵技術。完成對符合電力大數據特征的公司典型系統(tǒng)數據質量情況的研究與分析,設計電力大數據質量評價指標與模型,形成對電力大數據質量檢測、監(jiān)控、外部數據準入的相關方法與要求,完成相關關鍵技術研究與有效性驗證,為系統(tǒng)提升大數據質量提供統(tǒng)一技術支撐。
參考文獻
[1] 李皎.大數據時代到來對電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82?83.
[2] 孟小峰,慈祥.大數據管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146?149.
[3] 匡紅剛,王濤,唐融,等.數據質量閉環(huán)管控框架數據估值的應用研究大數據時代[J].華東電力,2013,41(3):547?549.
[4] 郭莉.共享數據工程體系結構及元數據服務研究[D].鄭州:中國人民解放軍信息工程大學,2007.
[5] 黃心宇.數據質量評價模型的建立和實現(xiàn)[J].商場現(xiàn)代化,2008(8):396?397.
[6] 張磊.油田數據質量監(jiān)督與控制模型研究[D].大慶:東北石油大學,2010.
[7] 魯均云,李星毅.基于內碼序值聚類的相似重復記錄檢測方法[J].計算機應用研究,2010,27(3):874?878.
[8] 龐雄文,姚占林,李擁軍.大數據量的高效重復記錄檢測方法[J].華中科技大學學報:自然科學版,2010(2):9?11.
(1) 開展大數據下的數據質量評價指標設計研究,分析大數據環(huán)境下數據質量的主要影響因素,按數據質量的數據的一致性、數據的準確性、數據的完整性、數據的及時性4個關鍵特性建立數據質量評價指標,以指導并考核大數據下系統(tǒng)數據質量水平。
(2) 研究建立大數據下的數據質量評價模型,實現(xiàn)質量指標計算、統(tǒng)計分析和綜合評價的實時、自動處理,滿足系統(tǒng)動態(tài)、實時進行數據質量好壞量化診斷和評價的要求,主要包括數據質量指標定義模型、數據質量評估算法或規(guī)則及數據質量診斷與評價結果,其中,數據質量指標定義模型,主要研究數據質量層級評價指標樹設計、指標權重設計及指標分值計算等;數據質量評估算法或規(guī)則研究,主要研究通過一定的數據算法與計算規(guī)則建立評估模型,實現(xiàn)對指標權重、指標分數自動計算與分析,并生成診斷與評估結果。
1.2 電力大數據質量快速動態(tài)探查檢測方法與關鍵技術研究
在大數據質量評價指標、大數據質量評價模型的基礎上,研究大數據質量探查檢測[7?8]的關鍵技術。
(1) 針對大數據質量探查檢測數據訪問量大和大數據本身的“海量化”特性,研究滿足質量探查檢測需要的大數據訪問、采集技術。包括分布式存儲訪問優(yōu)化算法研究;動態(tài)智能緩存技術研究。
(2) 針對大數據“快速化”的特性,研究大數據質量分析與處理技術。包括適用于大數據質量探查檢測的流計算、基于內存計算的高性能分析、實時數據質量分析的研究。
(3) 針對大數據“多樣化”的特性,研究大數據質量探查檢測中大數據的自動識別技術:研究基于神經網絡的數據識別技術及血緣分析技術。研究基于網格的數據關聯(lián)性評估技術,實現(xiàn)數據的卡片化、地圖化展現(xiàn)與管理。
(4) 針對大數據來源眾多,形式多樣,研究實時數據調度技術,主要研究基于事件流的復雜事件處理(CEP)技術、并行算法、工作流技術為主的數據調度技術,滿足大數據質量快速動態(tài)探查檢測的要求。
1.3 電力大數據質量快速動態(tài)探查檢測方法與關鍵技術研究
在電力大數據相關技術研究基礎上,結合電力大數據質量實時監(jiān)控需求與面臨的挑戰(zhàn),研究大數據質量實時監(jiān)控相關技術。
(1) 研究基于Storm的流式數據質量技術實現(xiàn)數據傳輸過程不落地進行實時數據質量監(jiān)控的方法及應用策略,在數據傳輸過程中,結合Key?Value內存數據庫,通過規(guī)則庫在Storm不同節(jié)點的使用分析,達到實時監(jiān)控的功能。
(2) 研究實時大數據捕獲及同步技術,在同步主通道開發(fā)旁路數據通道,以支持數據質量實時監(jiān)控的需求。
(3) 研究接口信息實時采集技術,研究通過API代理調用、日志分析、數據庫表記錄分析、旁路監(jiān)聽等手段采集基礎信息,實現(xiàn)實時數據接口監(jiān)控;進而實現(xiàn)數據的關聯(lián)鏈接和數據血統(tǒng)分析及影響分析。
(4) 研究數據質量監(jiān)控結果閉環(huán)自我提升技術。在數據質量實時監(jiān)控及接口信息實時監(jiān)控的基礎上,研究基于實時事件觸發(fā)的數據質量異動處理流程及接口異動處理流程技術。
1.4 電力大數據環(huán)境下的外部數據準入機制及關鍵技術研究
結合電力大數據環(huán)境下的外部數據應用需求,研究制定公司大數據背景下外部數據管理目標,建立外部數據準入機制,對外部數據進行分類、分級,并根據外部數據的來源與類型選擇不同的管理策略和控制策略。研究完備的外部數據準入機制及關鍵技術,主要研究外部數據接入檢測機制和外部數據接入機制。
(1) 研究外部數據接入檢測機制,主要包括數據安全性檢測、數據規(guī)范性檢測、數據身份認證等。數據安全性檢測主要檢測數據來源,數據規(guī)范性檢測主要檢測數據類型、數據結構、數據規(guī)模等方面。
(2) 研究外部數據接入機制,主要包括安全管理機制、數據等級評定、數據接入應急機制、數據回退機制、數據測試管理機制。
(3) 研究外部數據接入關鍵技術,主要包括數據接入異常檢測技術、數據流量控制技術、數據等級保護技術、數據庫網關技術、數據復制技術研究等。研究電力大數據環(huán)境下外部數據接入的數據清洗轉換、數據加載、數據接入服務等關鍵技術。
1.5 實現(xiàn)電力大數據質量檢測與監(jiān)控系統(tǒng)開發(fā)及示范應用
該系統(tǒng)原型分為5個層次:數據資源臺賬管理、數據傳輸及調度、接口監(jiān)控、數據質量監(jiān)測、展現(xiàn)及應用,如圖1所示。
圖1 電力大數據質量檢測與監(jiān)控系統(tǒng)原型
數據資源臺賬管理:模型信息、臺賬、系統(tǒng)信息等基礎信息管理。
數據傳輸及調度:完成實時、非實時通用數據傳輸功能;各系統(tǒng)間數據調度功能。
接口監(jiān)控:進行接口監(jiān)控:ETL監(jiān)控、OGG監(jiān)控、模型監(jiān)控、WebService監(jiān)控等。
數據質量監(jiān)測:核心數據質量監(jiān)測功能,包括規(guī)則管理,質量監(jiān)測功能及評價通報體系。
展現(xiàn)及應用:在質量監(jiān)測的結果上,形成各種報表,實現(xiàn)異動數據動態(tài)反饋功能。
依據原型系統(tǒng),結合省電力有限公司數據質量專項治理應用需求,完成示范應用。
2 結 語
本課題重點研究電力大數據的數據質量評價指標,研究電力大數據質量評價模型;研究電力大數據質量快速動態(tài)探查檢測方法與關鍵技術;研究電力大數據質量實時監(jiān)控方法與關鍵技術;研究電力大數據環(huán)境下的外部數據準入機制及關鍵技術。完成對符合電力大數據特征的公司典型系統(tǒng)數據質量情況的研究與分析,設計電力大數據質量評價指標與模型,形成對電力大數據質量檢測、監(jiān)控、外部數據準入的相關方法與要求,完成相關關鍵技術研究與有效性驗證,為系統(tǒng)提升大數據質量提供統(tǒng)一技術支撐。
參考文獻
[1] 李皎.大數據時代到來對電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82?83.
[2] 孟小峰,慈祥.大數據管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146?149.
[3] 匡紅剛,王濤,唐融,等.數據質量閉環(huán)管控框架數據估值的應用研究大數據時代[J].華東電力,2013,41(3):547?549.
[4] 郭莉.共享數據工程體系結構及元數據服務研究[D].鄭州:中國人民解放軍信息工程大學,2007.
[5] 黃心宇.數據質量評價模型的建立和實現(xiàn)[J].商場現(xiàn)代化,2008(8):396?397.
[6] 張磊.油田數據質量監(jiān)督與控制模型研究[D].大慶:東北石油大學,2010.
[7] 魯均云,李星毅.基于內碼序值聚類的相似重復記錄檢測方法[J].計算機應用研究,2010,27(3):874?878.
[8] 龐雄文,姚占林,李擁軍.大數據量的高效重復記錄檢測方法[J].華中科技大學學報:自然科學版,2010(2):9?11.
(1) 開展大數據下的數據質量評價指標設計研究,分析大數據環(huán)境下數據質量的主要影響因素,按數據質量的數據的一致性、數據的準確性、數據的完整性、數據的及時性4個關鍵特性建立數據質量評價指標,以指導并考核大數據下系統(tǒng)數據質量水平。
(2) 研究建立大數據下的數據質量評價模型,實現(xiàn)質量指標計算、統(tǒng)計分析和綜合評價的實時、自動處理,滿足系統(tǒng)動態(tài)、實時進行數據質量好壞量化診斷和評價的要求,主要包括數據質量指標定義模型、數據質量評估算法或規(guī)則及數據質量診斷與評價結果,其中,數據質量指標定義模型,主要研究數據質量層級評價指標樹設計、指標權重設計及指標分值計算等;數據質量評估算法或規(guī)則研究,主要研究通過一定的數據算法與計算規(guī)則建立評估模型,實現(xiàn)對指標權重、指標分數自動計算與分析,并生成診斷與評估結果。
1.2 電力大數據質量快速動態(tài)探查檢測方法與關鍵技術研究
在大數據質量評價指標、大數據質量評價模型的基礎上,研究大數據質量探查檢測[7?8]的關鍵技術。
(1) 針對大數據質量探查檢測數據訪問量大和大數據本身的“海量化”特性,研究滿足質量探查檢測需要的大數據訪問、采集技術。包括分布式存儲訪問優(yōu)化算法研究;動態(tài)智能緩存技術研究。
(2) 針對大數據“快速化”的特性,研究大數據質量分析與處理技術。包括適用于大數據質量探查檢測的流計算、基于內存計算的高性能分析、實時數據質量分析的研究。
(3) 針對大數據“多樣化”的特性,研究大數據質量探查檢測中大數據的自動識別技術:研究基于神經網絡的數據識別技術及血緣分析技術。研究基于網格的數據關聯(lián)性評估技術,實現(xiàn)數據的卡片化、地圖化展現(xiàn)與管理。
(4) 針對大數據來源眾多,形式多樣,研究實時數據調度技術,主要研究基于事件流的復雜事件處理(CEP)技術、并行算法、工作流技術為主的數據調度技術,滿足大數據質量快速動態(tài)探查檢測的要求。
1.3 電力大數據質量快速動態(tài)探查檢測方法與關鍵技術研究
在電力大數據相關技術研究基礎上,結合電力大數據質量實時監(jiān)控需求與面臨的挑戰(zhàn),研究大數據質量實時監(jiān)控相關技術。
(1) 研究基于Storm的流式數據質量技術實現(xiàn)數據傳輸過程不落地進行實時數據質量監(jiān)控的方法及應用策略,在數據傳輸過程中,結合Key?Value內存數據庫,通過規(guī)則庫在Storm不同節(jié)點的使用分析,達到實時監(jiān)控的功能。
(2) 研究實時大數據捕獲及同步技術,在同步主通道開發(fā)旁路數據通道,以支持數據質量實時監(jiān)控的需求。
(3) 研究接口信息實時采集技術,研究通過API代理調用、日志分析、數據庫表記錄分析、旁路監(jiān)聽等手段采集基礎信息,實現(xiàn)實時數據接口監(jiān)控;進而實現(xiàn)數據的關聯(lián)鏈接和數據血統(tǒng)分析及影響分析。
(4) 研究數據質量監(jiān)控結果閉環(huán)自我提升技術。在數據質量實時監(jiān)控及接口信息實時監(jiān)控的基礎上,研究基于實時事件觸發(fā)的數據質量異動處理流程及接口異動處理流程技術。
1.4 電力大數據環(huán)境下的外部數據準入機制及關鍵技術研究
結合電力大數據環(huán)境下的外部數據應用需求,研究制定公司大數據背景下外部數據管理目標,建立外部數據準入機制,對外部數據進行分類、分級,并根據外部數據的來源與類型選擇不同的管理策略和控制策略。研究完備的外部數據準入機制及關鍵技術,主要研究外部數據接入檢測機制和外部數據接入機制。
(1) 研究外部數據接入檢測機制,主要包括數據安全性檢測、數據規(guī)范性檢測、數據身份認證等。數據安全性檢測主要檢測數據來源,數據規(guī)范性檢測主要檢測數據類型、數據結構、數據規(guī)模等方面。
(2) 研究外部數據接入機制,主要包括安全管理機制、數據等級評定、數據接入應急機制、數據回退機制、數據測試管理機制。
(3) 研究外部數據接入關鍵技術,主要包括數據接入異常檢測技術、數據流量控制技術、數據等級保護技術、數據庫網關技術、數據復制技術研究等。研究電力大數據環(huán)境下外部數據接入的數據清洗轉換、數據加載、數據接入服務等關鍵技術。
1.5 實現(xiàn)電力大數據質量檢測與監(jiān)控系統(tǒng)開發(fā)及示范應用
該系統(tǒng)原型分為5個層次:數據資源臺賬管理、數據傳輸及調度、接口監(jiān)控、數據質量監(jiān)測、展現(xiàn)及應用,如圖1所示。
圖1 電力大數據質量檢測與監(jiān)控系統(tǒng)原型
數據資源臺賬管理:模型信息、臺賬、系統(tǒng)信息等基礎信息管理。
數據傳輸及調度:完成實時、非實時通用數據傳輸功能;各系統(tǒng)間數據調度功能。
接口監(jiān)控:進行接口監(jiān)控:ETL監(jiān)控、OGG監(jiān)控、模型監(jiān)控、WebService監(jiān)控等。
數據質量監(jiān)測:核心數據質量監(jiān)測功能,包括規(guī)則管理,質量監(jiān)測功能及評價通報體系。
展現(xiàn)及應用:在質量監(jiān)測的結果上,形成各種報表,實現(xiàn)異動數據動態(tài)反饋功能。
依據原型系統(tǒng),結合省電力有限公司數據質量專項治理應用需求,完成示范應用。
2 結 語
本課題重點研究電力大數據的數據質量評價指標,研究電力大數據質量評價模型;研究電力大數據質量快速動態(tài)探查檢測方法與關鍵技術;研究電力大數據質量實時監(jiān)控方法與關鍵技術;研究電力大數據環(huán)境下的外部數據準入機制及關鍵技術。完成對符合電力大數據特征的公司典型系統(tǒng)數據質量情況的研究與分析,設計電力大數據質量評價指標與模型,形成對電力大數據質量檢測、監(jiān)控、外部數據準入的相關方法與要求,完成相關關鍵技術研究與有效性驗證,為系統(tǒng)提升大數據質量提供統(tǒng)一技術支撐。
參考文獻
[1] 李皎.大數據時代到來對電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82?83.
[2] 孟小峰,慈祥.大數據管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146?149.
[3] 匡紅剛,王濤,唐融,等.數據質量閉環(huán)管控框架數據估值的應用研究大數據時代[J].華東電力,2013,41(3):547?549.
[4] 郭莉.共享數據工程體系結構及元數據服務研究[D].鄭州:中國人民解放軍信息工程大學,2007.
[5] 黃心宇.數據質量評價模型的建立和實現(xiàn)[J].商場現(xiàn)代化,2008(8):396?397.
[6] 張磊.油田數據質量監(jiān)督與控制模型研究[D].大慶:東北石油大學,2010.
[7] 魯均云,李星毅.基于內碼序值聚類的相似重復記錄檢測方法[J].計算機應用研究,2010,27(3):874?878.
[8] 龐雄文,姚占林,李擁軍.大數據量的高效重復記錄檢測方法[J].華中科技大學學報:自然科學版,2010(2):9?11.