楊帆
摘要:針對電力企業(yè)數據集成程中存在的數據源異構、分散,無統(tǒng)一標識符,實體關聯(lián)缺失等問題,提出采用CIM作為電力企業(yè)數據集成通用數據模型,給出數據集成平臺的設計架構。詳細闡述數據集成平臺中元數據庫的設計模式,論述解決不同數據源中資源實體關聯(lián)和實體編碼映射問題的措施。
關鍵詞:電力企業(yè);數據集成;公共信息模型(CIM);異構數據源
中圖分類號:TM743 文獻標識碼:A 文章編號:1674-1161(2015)01-0037-04
電力企業(yè)在日常運營管理中開發(fā)了大量的“以問題或專業(yè)為導向”的信息系統(tǒng),這些系統(tǒng)在生產控制以及企業(yè)管理方面發(fā)揮了重要作用,解決了各業(yè)務領域或部門的業(yè)務操作問題,提高了生產和管理效率。然而這些系統(tǒng)開發(fā)的歷史時期、采用的技術方法、出自的軟件廠商不盡相同,缺乏統(tǒng)一的IT基礎架構規(guī)劃,因此,這些系統(tǒng)運行在一個高度分布和異構的環(huán)境中運行時,系統(tǒng)間的數據交換和集成困難。由于沒有統(tǒng)一的接口規(guī)范和集成標準,跨系統(tǒng)的業(yè)務流程大多無法正常進行,導致電力企業(yè)很難對變化的外部需求做出迅捷響應,造成電力企業(yè)長期存在“信息孤島”問題。
韓強等基于國家電網公司SG-ERP技術架構,探討了符合智能電網多業(yè)務數據集成的關鍵技術。張德剛等提出一個以XML和Web Service為基礎的電力企業(yè)數據交換和共享平臺模型,能夠使新開發(fā)的ERP系統(tǒng)與遺留系統(tǒng)進行數據交換和共享。張衛(wèi)苓等結合XML和本體技術,采用中間件技術來解決電力系統(tǒng)的異構數據集成問題。劉寧等采用SOA架構設計信息一體化方案,從數據、應用、流程3方面規(guī)劃新系統(tǒng)。王家凱等認為電力行業(yè)在數據集成方面應用IEC CIM標準已成為必然。這些文獻采用多種技術探討了電力企業(yè)數據集成的方法,但在整合歷史遺留異構數據源、并以CIM模型為新老系統(tǒng)提供標準數據服務方面的研究還不多見。以CIM模型為基礎,研究電力企業(yè)的數據集成方法,探討如何將遺留數據整合成通用的數據服務平臺,并給出電力企業(yè)數據集成平臺的設計架構。
1 電力企業(yè)數據源
電力企業(yè)中的PMS(生產管理系統(tǒng))、CIS(客戶信息系統(tǒng))、CRM(客戶關系系統(tǒng))、ERP(企業(yè)資源規(guī)劃系統(tǒng))、EMS(能量管理系統(tǒng))、SCADA(數據采集與監(jiān)視控制系統(tǒng))等是主要的數據源。電力企業(yè)的生產管理模式逐漸由設備管理轉向資產管理,企業(yè)對集地理信息、電網拓撲、設備臺帳于一體的系統(tǒng)需求也逐漸增加。GIS是集電力系統(tǒng)資源的空間屬性、電氣屬性、資產屬性和電網拓撲等圖數模于一體的信息系統(tǒng),是當前電力企業(yè)生產管理系統(tǒng)的主要呈現(xiàn)模式。由于電力系統(tǒng)資源、資產、量測等都具有空間屬性,建設完備且覆蓋不同電壓等級的GIS系統(tǒng)幾乎涉及電力企業(yè)的所有業(yè)務部門。GIS存儲的各種地理要素涵蓋了生產、運行、管理等各個方面的實體,是電力企業(yè)重要的信息源。這些地理要素包括組成電網的各種電力系統(tǒng)資源(或資產)及用戶等,與EMS、ERP、CRM等系統(tǒng)中的數據實體有著不可分割的聯(lián)系。因此,電力GIS系統(tǒng)是聯(lián)系地理空間數據、電網拓撲、設備臺帳、電網運行實時和非實時數據、客戶關系數據的紐帶,是電力企業(yè)數據集成的關聯(lián)媒介。
2 電力企業(yè)數據集成中的問題
信息技術廣泛應用于電力企業(yè)的生產、運行、營銷、管理等環(huán)節(jié)。電力企業(yè)是信息化程度最高的企業(yè)類型之一,運行著各種類型的軟件系統(tǒng)。電力企業(yè)中存在著多個職能部門,這些職能部門獨立完成本部門的業(yè)務,并逐漸形成以職能為中心的業(yè)務系統(tǒng)。這些系統(tǒng)存儲和管理著各種電網結構數據、電力系統(tǒng)資源數據、實時和非實時運行數據等。這些數據存儲在多個異構的數據倉庫中,形成碎片數據。而且,隨著多部門間的業(yè)務融合,還可能引入新的數據倉庫。數據倉庫中存儲的數據結構、格式、定義、質量可能完全不同。加之這些數據倉庫在物理上的分布相互孤立,造成電力企業(yè)中的數據隨處可見,但又難以關聯(lián)集成。另外,數據源的異構性和分散性,導致企業(yè)新增業(yè)務時無法確定所需數據是否已被完整定義,經常出現(xiàn)重復建設問題。
數據庫技術可以在一定程度上解決數據集成的問題,如利用SQL,ODBC,ADO,JDBC等技術實現(xiàn)跨庫操作,但前提是數據源采用的存儲方式必須是數據庫,且存儲于不同數據庫中的數據實體之間已經建立關聯(lián)。然而數據源除了采用多種類型的數據庫外,還可能以自定義文件格式、XML、電子表格、結構化、非結構化文檔等形式存在。
除數據源的異構性給電力企業(yè)數據集成帶來困難外,數據實體的實際存儲也給數據集成造成一定的困難。例如,同一種類型的數據實體存儲于不同的數據源中;同一種類型的數據實體在不同的數據源中具有不同的設計模式;同一個數據實體存儲于不同的數據源中(重復);同一個數據實體在不同的數據源中具有完全不同的標識符。同時,不同數據源中的實體缺乏相互關聯(lián),即邏輯上具有關聯(lián)關系的實體因各自獨立建設而缺少對關聯(lián)關系的維護與存儲。
電力企業(yè)業(yè)務實現(xiàn)所涉及的工作流可能被劃分成多個工作步,并與多個數據倉庫相關,即需要訪問多個倉庫中的數據才能實現(xiàn)業(yè)務需求,這對電力企業(yè)的數據交換和集成提出了現(xiàn)實要求。例如進行電力企業(yè)的實時線路損耗分析時,需要電網結構數據、電網實時運行數據、集抄數據等。然而,這些數據被分散在不同系統(tǒng)的數據倉庫中。
如果能夠在整個電力企業(yè)范圍內對已有數據倉庫進行規(guī)范和整理,對相關數據進行統(tǒng)一的描述并達成一致理解,則不同業(yè)務部門或系統(tǒng)就可以對同樣的業(yè)務問題給出完全相同的答案。然而,電力企業(yè)在歷史上形成的各種信息系統(tǒng)和數據倉庫是企業(yè)的重要信息資產,不可能完全推倒重來。解決方法是將遺留的各個異構數據源轉換為通用的第三方數據模型,建立模型之間的關聯(lián),并采用通用數據交換協(xié)議進行數據的傳輸與集成。同時,新建系統(tǒng)應該遵循公共數據模型,并采用開放的體系架構。
3 數據集成方法
3.1 公共信息模型
電力企業(yè)數據集成需要公共的數據模型、統(tǒng)一的數據規(guī)范和一致的數據訪問方法,以屏蔽多種數據源的異構性。由國際電工委員會(IEC)制定的IEC 61970和IEC 61968標準對電力系統(tǒng)公共信息模型(CIM)進行了詳細定義。CIM模型詳細地定義了電力系統(tǒng)中的各種實體,并具有很強的可擴展性和可裁剪性,為電力企業(yè)提供公共的數據模型。許多電力數據交換試驗驗證了CIM模型在數據交換和集成方面的有效性。因此,如果能夠將不同數據源的私有實體數據模型映射為CIM模型,即可有效解決異構數據源的共享和集成問題,從而為已知和未知應用提供通用數據,大大降低各種應用之間的數據交換接口的開發(fā)成本。此處將使用異構數據源數據的各種應用系統(tǒng)稱之為數據用戶。在實際應用中,電力企業(yè)的各種系統(tǒng)可能既是提供數據的數據源,也是其他數據源的潛在數據用戶。
3.2 數據集成平臺
為實現(xiàn)異構數據源的數據共享與集成,首先在數據用戶和數據源之間引入數據集成中間件——數據集成平臺,其構成見圖1。平臺對存儲于各個異構數據源的電力系統(tǒng)數據實體進行分析、整理,同時根據CIM模型使各種實體之間建立關聯(lián),并以服務接口的方式向整個電力企業(yè)的數據用戶提供一致的數據服務。數據集成平臺中的通用數據訪問組件能夠對各種應用程序、消息系統(tǒng)、關系型數據庫、結構化、半結構化或非結構化數據進行連接訪問。通過對數據集成平臺中的元數據庫中的元數據的分析,對駐留在不同數據源中的電力系統(tǒng)實體進行提取,并根據CIM模型將其轉換成結構一致的CIM數據,為上層提供通用的數據訪問接口,最大程度地降低數據訪問的成本和復雜性。數據集成服務整合獲取自不同數據源的數據,借助元數據庫建立數據實體之間的關聯(lián),構建數據服務所需的CIM對象集。
數據集成平臺根據用戶的具體數據需求,通過數據服務接口為其提供特定CIM剖面的實例對象集。CIM對象集可以采用XML格式的RDF進行編碼,利用RDF編碼的CIM對象可以被使用不同平臺和技術的數據用戶解析。為提高數據交換的效率,數據集成平臺也可為特定數據用戶提供二進制格式的CIM對象集。數據集成平臺將發(fā)布的數據服務接口注冊于企業(yè)服務總線(ESB)上,所有數據用戶可通過企業(yè)服務總線透明地訪問數據服務。
3.3 元數據庫設計
為描述各分布式異構數據源,并關聯(lián)各數據源中的數據實體,需要在數據集成平臺中設計元數據庫。元數據指描述數據的數據,數據集成平臺中的元數據庫用于記錄各異構數據源的名稱、來源、位置、狀態(tài)、版本等,同時記錄各異構數據源中數據實體之間的關聯(lián)等。在元數據庫中設計一個能夠記錄電力系統(tǒng)實體數據類型信息的模式P,其表達式為:
P={ETi} (1)
式中,ETi為電力系統(tǒng)實體數據類型。表達式為: ET=ename,esrc,eqi,
estate,eversion (2)
每種實體數據類型采用5元組來描述。ename表示實體數據類型的名稱,數據集成平臺中的通用數據訪問組件和數據集成服務借助ename獲取實體數據類型的其他元信息。esrc描述了存儲數據實體的數據源信息,可以表示網絡上某臺計算機的名稱、數據文件的存儲路徑、數據庫服務器的連接字符串或者僅是數據源的描述描述字符串等,通用數據訪問組件及esrc建立遠程數據源連接。eqi表示實體數據的查詢訪問接口,可以是SQL數據檢索命令,或者是檢索XML結構化文件的XQuery,也可以是訪問遠程數據的Web服務接口等。estate表示對應數據源對當前實體數據類型提供服務的狀態(tài),如正常、暫停、停止等。eversion表示數據實體類型的版本,多個異構數據源可能同時具有一種類型的數據實體,采用eversion表示數據實體類型的版本號;維護良好、能根據電網變化作出實時或準實時更新的數據源,為該屬性賦予更高的版本號。通用數據訪問組件將優(yōu)先檢索具有更高版本號的數據源,只有高版本號的數據源無法檢索到數據實體時,才去查詢低版本號的數據源。
為解決同一電力系統(tǒng)資源實體在不同的數據源中具有不同的資源標識符的問題,在數據集成平臺的元數據庫中設計資源標識符對照表I:
I={ename,bid,rid,esrc} (3)
式(3)中的ename,esrc與式(2)中的含義相同。bid表示某一個電力系統(tǒng)資源實體的基準標識符,該基準標識符可以與實體所在的高版本數據源中的資源標識符相同。rid代表該電力系統(tǒng)資源實體在特定數據源(esrc)中的資源標識符。當數據用戶以基準標識符為條件調用數據集成平臺的數據服務接口時,平臺通過檢索對照表I獲取電力系統(tǒng)資源實體所在的數據源esrc和對應的標識符rid,然后根據數據服務規(guī)則從特定的數據源中檢索所需的數據實體,并將該實體轉換為CIM數據。
為建立電力系統(tǒng)資源實體之間的關聯(lián),在元數據庫中設計數據實體關聯(lián)表R:
R={sen,sbid,ten,tbid} (4)
關聯(lián)表R記錄了資源實體之間的關聯(lián)。電力系統(tǒng)資源實體之間的關聯(lián)采用4元組來表示,而對4元組的解析需要根據CIM模型定義,即4元組是被解析成聚合還是簡單關聯(lián),要根據對應的CIM模型定義。sen與ten表示關聯(lián)兩側的電力系統(tǒng)實體數據類型的名稱,其含義同ename。s*表示關聯(lián)關系的源頭,t*表示關系的目標。sbid與tbid表示具有關聯(lián)關系的兩個電力系統(tǒng)資源實體的基準標識符。當數據用戶請求的CIM數據集跨越多個數據源,且其中的實體存在關聯(lián)時,數據集成平臺結合對照表I和關聯(lián)表R可從多個數據源中提取所需數據。
3.4 數據提供者
讓數據集成平臺對非結構化的數據源或純文本文件類型的數據源進行直接訪問是困難的。在解析這些數據前,需要明確了解私有文件結構。因此,以非結構化數據文件作為數據倉庫的軟件提供商,可以根據其私有的文件結構創(chuàng)建數據提供者程序,以標準服務接口(如Web Service)接入數據集成平臺,以便這些數據源能通過數據集成平臺為數據用戶服務。
4 結語
通過分析電力企業(yè)信息系統(tǒng)的應用現(xiàn)狀,總結電力企業(yè)數據源類型及其相互關系。深入探討電力企業(yè)數據集成的必要性和其面臨的主要問題:數據源異構、分散,無統(tǒng)一標識符編碼規(guī)范,難以建立關聯(lián)。為解決電力企業(yè)數據集成問題,提出以CIM作為電力企業(yè)通用數據模型建立數據集成平臺,將異構數據源映射為以CIM模型進行表達的通用數據,最后通過服務接口為數據用戶提供符合CIM剖面規(guī)范的數據服務。數據集成平臺中元數據庫的設計模式,解決了不同數據源中電力系統(tǒng)資源實體關聯(lián)和實體編碼映射問題,是解決電力企業(yè)異構數據源集成問題的切實可行方案。
參考文獻
[1] 陶佳,朱傳柏,唐躍中,等.基于多防線分布容侵技術的電力企業(yè)信息集成安全防護體系[J].電網技術,2008,32(20):24-29.
[2] 韓強,黃剛,馮濤,等.智能電網多業(yè)務數據集成技術[J].電力信息化,2012,10(12):92-96.
[3] 張德剛,羅學禮,盛俊,等.基于ERP的電力企業(yè)數據集成研究[J].計算機科學,2013,40(6A):160-162.
[4] 張衛(wèi)苓,趙亞偉.異構數據集成在智能電網中的應用研究[J].電源技術,2013,37(7):1239-1240.
[5] 劉寧,祝唯微,衛(wèi)祥.SOA架構在電力企業(yè)信息集成中的應用[J].電力信息化,2013,11(10):109-112.
[6] 王家凱,王繼業(yè).基于IEC標準的電力企業(yè)公共數據模型的設計與實現(xiàn)[J].中國電力,2011,44(2):87-90.
[7] 邱健,牛琳琳,于海承,等.基于多源數據的在線數據評估技術[J].電網技術,2013,37(9):2658-2663.
[8] 李國慶,潘振波,王丹,等.基于C/S與B/S混合架構的配電地理信息系統(tǒng)[J].電網技術,2009,33(6):102-106.
[9] 謝善益,梁成輝,高新華,等.CIM/CIS互操作細則在多級電網調度中的應用[J].電力系統(tǒng)自動化,2009,33(1):103-107.
[10] 朱伯通,程志海,唐志強,等.基于CIM模型的智能變電站和調度中心互操作研究[J].電力系統(tǒng)保護與控制,2013,41(10):93-97.
Abstract: The heterogeneous of information system constructed in different historical periods by electric power enterprise produces the “information isolated island” phenomenon, which affects the effective use of information resources. This paper starts with analyzing the application status of power enterprise information systems, summarizes the data sources type and their relationships. Meanwhile, the data integration necessity in electric power enterprise is discussed, and the main problems which include the heterogeneous and dispersion of data sources, no unified identifier for power system entities, no entities relationships are analyzed. In order to solve these problems, the data integration platform architecture is designed, which uses CIM as the common data model in electric power enterprise. Through data integration platform, the heterogeneous data sources are mapped to general CIM model, and then the data services are provided by the platform through the well-defined service interfaces. The users can get data form service interface, and the data conform to specified CIM profile. Moreover, the metadata database schema of data integration platform is introduced minutely. Through the metadata database, the problems which contain the relationships of power system resource entities from different data sources, and the unified entities identifier are solved.
Key words: electric power enterprise; data integration; common information model (CIM); heterogeneous data source