• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向電力大數(shù)據(jù)的異構(gòu)數(shù)據(jù)混合采集系統(tǒng)①

      2019-01-07 02:40:48王永貴常夏勤
      關(guān)鍵詞:數(shù)據(jù)源異構(gòu)結(jié)構(gòu)化

      孫 超,王永貴,常夏勤,陸 鑫,顧 全

      (南京南瑞繼保電氣有限公司,南京 211102)

      隨著特高壓交流、柔性直流工程的建設(shè),電網(wǎng)的形態(tài)和特性發(fā)生重大變化,西電東送規(guī)模不斷擴(kuò)大,電網(wǎng)的聯(lián)系愈加緊密,電網(wǎng)運(yùn)行方式更趨復(fù)雜,未來電力供需平衡壓力仍然巨大,復(fù)雜大電網(wǎng)的潛在安全風(fēng)險(xiǎn)將長期存在,需要從多層級(jí)、大范圍綜合保障大電網(wǎng)的安全運(yùn)行,對(duì)電網(wǎng)運(yùn)行人員駕馭大電網(wǎng)的能力、大范圍、多目標(biāo)資源優(yōu)化配置的能力和電網(wǎng)運(yùn)行的一體化運(yùn)作水平提出了新的更高的要求.現(xiàn)有電網(wǎng)監(jiān)控類系統(tǒng)獲取的設(shè)備及電網(wǎng)運(yùn)行的各種狀態(tài)數(shù)據(jù)信息不能實(shí)現(xiàn)高度共享,缺乏有效的管理,孤立的數(shù)據(jù)難以形成有效的信息,給電網(wǎng)的運(yùn)行管理和科學(xué)決策帶來了很大的盲目性,已不能適應(yīng)未來電網(wǎng)的發(fā)展要求.近年來,隨著信息技術(shù)的發(fā)展,全球數(shù)據(jù)量呈爆發(fā)式增長.大數(shù)據(jù)的分析在國內(nèi)外得到了迅速的發(fā)展和廣泛的應(yīng)用,并取得了良好的社會(huì)經(jīng)濟(jì)效益.隨著我國電力行業(yè)信息化水平的快速發(fā)展,電力系統(tǒng)數(shù)據(jù)量的增長也呈現(xiàn)出爆發(fā)的趨勢,電力大數(shù)據(jù)急待開展深入研究[1–5].但是,由于電力數(shù)據(jù)產(chǎn)生的速率跨度大[6,7],比如毫秒級(jí)廣域向量測量實(shí)時(shí)數(shù)據(jù),秒級(jí)的穩(wěn)態(tài)監(jiān)視數(shù)據(jù),分鐘級(jí)的微氣象數(shù)據(jù),小時(shí)級(jí)的操作票流轉(zhuǎn)數(shù)據(jù)和更長時(shí)間周期的設(shè)備實(shí)驗(yàn)數(shù)據(jù)等;數(shù)據(jù)源眾多且交互方式繁雜,比如WebService、電力專用規(guī)約、特殊文件格式等;數(shù)據(jù)種類繁多,比如實(shí)時(shí)數(shù)據(jù)、歷史數(shù)據(jù)、文本數(shù)據(jù)、多媒體數(shù)據(jù)、時(shí)間序列數(shù)據(jù)等各類結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù),因此,開展電力大數(shù)據(jù)分析的前提是開發(fā)多源異構(gòu)數(shù)據(jù)混合采集系統(tǒng).

      1 技術(shù)現(xiàn)狀與研發(fā)目標(biāo)

      目前,大數(shù)據(jù)領(lǐng)域有多種工具實(shí)現(xiàn)外部數(shù)據(jù)的采集采用和處理,但他們都面向特定的應(yīng)用場景,部署和管理的機(jī)制也各不相同.比如,Flume是分布式日志采集技術(shù),可支持文本、數(shù)據(jù)庫、console輸出等數(shù)據(jù)源,將數(shù)據(jù)最終導(dǎo)入HDFS或HBase中;Kafka是分布式發(fā)布訂閱消息系統(tǒng)并不直接接觸數(shù)據(jù)源[8],需要定制開發(fā)數(shù)據(jù)源采集程序后經(jīng)過Kafka分布式隊(duì)列傳輸給數(shù)據(jù)消費(fèi)端再存入Hive、HBase、HDFS等存儲(chǔ)中;Sqoop是面向關(guān)系數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)的全量或增量數(shù)據(jù)采集并將數(shù)據(jù)存儲(chǔ)到HDFS中的技術(shù)[9],以上三種技術(shù)都面向大數(shù)據(jù)海量采集場景,實(shí)現(xiàn)了分布式橫向擴(kuò)展,具有高吞吐量特征,適用于采集和處理非實(shí)時(shí)或弱實(shí)時(shí)類數(shù)據(jù).當(dāng)面對(duì)強(qiáng)實(shí)時(shí)數(shù)據(jù)的采集場景時(shí)需要更快速的數(shù)據(jù)處理技術(shù)[10,11],比如Storm,以便能夠在內(nèi)存中對(duì)毫秒級(jí)數(shù)據(jù)及時(shí)處理.以上各類工具的數(shù)據(jù)采集面向的場景不同,難以適應(yīng)多源異構(gòu)數(shù)據(jù)的混合采集應(yīng)用場景;各類工具的數(shù)據(jù)獲取、轉(zhuǎn)換和裝載過程自成體系,三個(gè)過程相互關(guān)聯(lián),造成數(shù)據(jù)處理轉(zhuǎn)換過程相對(duì)獨(dú)立,很難引入多源數(shù)據(jù)的交叉校驗(yàn);數(shù)據(jù)獲取后直接入分布式數(shù)據(jù)庫或分布式存儲(chǔ),沒有對(duì)對(duì)象進(jìn)行統(tǒng)一的編碼,造成后續(xù)處理的困難.

      針對(duì)這一現(xiàn)狀,研發(fā)面向電力大數(shù)據(jù)的異構(gòu)數(shù)據(jù)混合采集系統(tǒng),實(shí)現(xiàn)異構(gòu)數(shù)據(jù)源的混合接入和集群管理,實(shí)現(xiàn)采集數(shù)據(jù)的高速緩存與刷新;海量采集數(shù)據(jù)的數(shù)據(jù)質(zhì)量校驗(yàn)與轉(zhuǎn)化;采集數(shù)據(jù)的統(tǒng)一編碼、實(shí)時(shí)交換和數(shù)據(jù)接入情況的監(jiān)視.

      2 系統(tǒng)概述

      2.1 系統(tǒng)邏輯架構(gòu)

      系統(tǒng)由數(shù)據(jù)接口層、數(shù)據(jù)采集與轉(zhuǎn)換層和數(shù)據(jù)發(fā)布層三部分組成,如圖1所示.

      圖1 系統(tǒng)邏輯架構(gòu)圖

      數(shù)據(jù)接口解決了不同類型采集數(shù)據(jù)接入方式的問題,數(shù)據(jù)經(jīng)過特征提取識(shí)別數(shù)據(jù)格式和交互方式,適配對(duì)應(yīng)的交互接口.

      數(shù)據(jù)采集基于大數(shù)據(jù)分布式集成技術(shù),形成一個(gè)在線分布式的采集平臺(tái),基于靈活分布式集群將異構(gòu)系統(tǒng)的多源數(shù)據(jù)進(jìn)行統(tǒng)一采集.

      數(shù)據(jù)校核與轉(zhuǎn)換基于分布式的內(nèi)存數(shù)據(jù)庫技術(shù),實(shí)現(xiàn)了采集數(shù)據(jù)的高速刷新和處理.多樣化的數(shù)據(jù)校核和轉(zhuǎn)換,把對(duì)數(shù)據(jù)集的大規(guī)模操作分發(fā)給網(wǎng)絡(luò)上的每個(gè)節(jié)點(diǎn),實(shí)現(xiàn)海量數(shù)據(jù)處理的實(shí)時(shí)性和可靠性.引入了電力對(duì)象注冊中心作為全局對(duì)象的統(tǒng)一管理設(shè)施.

      數(shù)據(jù)發(fā)布基于高速實(shí)時(shí)總線技術(shù),提供海量實(shí)時(shí)數(shù)據(jù)的消息總線,實(shí)現(xiàn)集數(shù)據(jù)的實(shí)時(shí)交換和發(fā)布.

      2.2 系統(tǒng)存儲(chǔ)架構(gòu)

      系統(tǒng)采集的數(shù)據(jù)最終提交給大數(shù)據(jù)平臺(tái),存儲(chǔ)于HDFS分布式存儲(chǔ)、HBase、Hive數(shù)據(jù)庫中.圖2是分類數(shù)據(jù)對(duì)應(yīng)的存儲(chǔ)模式.

      圖2 系統(tǒng)數(shù)據(jù)存儲(chǔ)架構(gòu)圖

      結(jié)構(gòu)化數(shù)據(jù)分為兩種:一種是周期獲取的非實(shí)時(shí)類數(shù)據(jù),比如資產(chǎn)數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、設(shè)備數(shù)據(jù)、管理數(shù)據(jù)、氣象數(shù)據(jù)、地理信息和社會(huì)數(shù)據(jù),此類數(shù)據(jù)具有固定的表結(jié)構(gòu),通常用SQL查詢,存放在Hive數(shù)據(jù)庫中;另一類是實(shí)時(shí)數(shù)據(jù),比如電網(wǎng)運(yùn)行數(shù)據(jù),采集速率在毫秒級(jí)和秒級(jí),事件日志類突發(fā)性強(qiáng)的數(shù)據(jù),此類數(shù)據(jù)對(duì)數(shù)據(jù)吞吐性能要求較高,且訪問方式較為單一,一般按時(shí)間序列和對(duì)象ID查詢,采用鍵值對(duì)方式存放在HBase數(shù)據(jù)庫中.半結(jié)構(gòu)化數(shù)據(jù),如波形文件、模型文件和非結(jié)構(gòu)化數(shù)據(jù)如圖像和視頻以文件形式存放在HDFS分布式存儲(chǔ)中.非實(shí)時(shí)類結(jié)構(gòu)化數(shù)據(jù)通過Sqoop腳本定時(shí)從源系統(tǒng)增量抽取到Hive數(shù)據(jù)庫中;實(shí)時(shí)類結(jié)構(gòu)化數(shù)據(jù)由源系統(tǒng)發(fā)布到Kafka總線的實(shí)時(shí)數(shù)據(jù)主題中,采集端通過訂閱相關(guān)主題數(shù)據(jù)存儲(chǔ)到HBase庫中;半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)通過文件傳輸協(xié)議存儲(chǔ)到HDFS文件系統(tǒng)的按照文件類別和時(shí)間分類的目錄中.

      2.3 系統(tǒng)部署架構(gòu)

      系統(tǒng)采用PC服務(wù)器和虛擬化技術(shù)部署,主體功能部署在生產(chǎn)管理區(qū),需要與互聯(lián)網(wǎng)交互的功能,比如互聯(lián)網(wǎng)上社會(huì)數(shù)據(jù)的獲取、氣象臺(tái)預(yù)報(bào)數(shù)據(jù)的獲取等,部署在DMZ區(qū),系統(tǒng)部署圖如圖3.

      前端采集集群負(fù)責(zé)與其他業(yè)務(wù)系統(tǒng)交互,采集各類數(shù)據(jù),其中互聯(lián)網(wǎng)數(shù)據(jù)需要通過DMZ區(qū)的互聯(lián)網(wǎng)采集代理獲取并緩存數(shù)據(jù),再由前端采集集群發(fā)起二次采集;數(shù)據(jù)轉(zhuǎn)換集群負(fù)責(zé)采集數(shù)據(jù)的校驗(yàn)、轉(zhuǎn)換和編碼;最后,由數(shù)據(jù)發(fā)布集群按照數(shù)據(jù)類型特征將數(shù)據(jù)存儲(chǔ)到大數(shù)據(jù)平臺(tái)的Hive、HBase和HDFS中.系統(tǒng)與外部業(yè)務(wù)系統(tǒng)間通過生產(chǎn)管理大區(qū)的綜合數(shù)據(jù)網(wǎng)交互;系統(tǒng)與互聯(lián)網(wǎng)之間的數(shù)據(jù)采集通過DMZ區(qū)防火墻交互,數(shù)據(jù)交互只能由采集集群發(fā)起單向數(shù)據(jù)獲取,從而保證內(nèi)部系統(tǒng)與外部環(huán)境的安全隔離.

      3 系統(tǒng)核心功能

      3.1 混合數(shù)據(jù)采集模型

      混合數(shù)據(jù)采集通過異構(gòu)數(shù)據(jù)源模型智能映射技術(shù)實(shí)現(xiàn)采集模型的統(tǒng)一,它包含以下內(nèi)容:(1)公共的模型信息;(2)公共對(duì)象信息和各異構(gòu)數(shù)據(jù)源私有對(duì)象信息的映射關(guān)系;(3)公共數(shù)據(jù)服務(wù)和各異構(gòu)數(shù)據(jù)庫私有的數(shù)據(jù)服務(wù)的映射關(guān)系.

      (1)基于抽象容器的公共模型

      異構(gòu)數(shù)據(jù)源模型智能映射技術(shù)通過抽象容器將一般性的組織和事物中“包含”的關(guān)系理解為各級(jí)容器的從屬結(jié)構(gòu),可以建立各種不同應(yīng)用的模型,從而具有靈活性和擴(kuò)展性.

      如圖4所示,在公共模型中,每種“容器”包含各自的“對(duì)象類型”及“容器描述屬性”.當(dāng)模型需要擴(kuò)展時(shí),只需在“對(duì)象類型定義”增加新的“對(duì)象類型”,在“容器描述定義”增加新的“容器描述屬性”即可.

      圖3 系統(tǒng)部署架構(gòu)圖

      圖4 容器及公共對(duì)象附加屬性描述

      (2)公共對(duì)象信息和異構(gòu)數(shù)據(jù)源私有對(duì)象信息的映射關(guān)系

      公共對(duì)象信息是抽取了各異構(gòu)數(shù)據(jù)源的對(duì)象信息部分,通過公共命名方式對(duì)各系統(tǒng)的私有對(duì)象信息進(jìn)行歸納,提取出公共對(duì)象信息,并將公共對(duì)象信息、私有對(duì)象信息以及它們的映射關(guān)系裝載到已經(jīng)建立好的具體的容器模型結(jié)構(gòu)中.

      (3)公共數(shù)據(jù)服務(wù)和各異構(gòu)數(shù)據(jù)源私有的數(shù)據(jù)服務(wù)的映射關(guān)系

      異構(gòu)數(shù)據(jù)源模型智能映射技術(shù)的管理數(shù)據(jù)服務(wù)分為兩部分:公共數(shù)據(jù)服務(wù)管理、各異構(gòu)數(shù)據(jù)庫源的數(shù)據(jù)服務(wù)管理、以及兩者之間的映射關(guān)系.公共數(shù)據(jù)服務(wù)對(duì)混合數(shù)據(jù)采集提供統(tǒng)一的查詢數(shù)據(jù)結(jié)構(gòu);各異構(gòu)數(shù)據(jù)庫源的數(shù)據(jù)服務(wù)基于對(duì)各數(shù)據(jù)源Agent代理的子查詢,提供其內(nèi)部具體的數(shù)據(jù)結(jié)構(gòu);而公共查詢到各數(shù)據(jù)源的子查詢是根據(jù)上述兩者之間的映射關(guān)系.

      圖5 公共數(shù)據(jù)服務(wù)和各數(shù)據(jù)源數(shù)據(jù)屬性的映射關(guān)系

      如圖5所示,公共模型的數(shù)據(jù)結(jié)構(gòu)雖然與源系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)不同,但通過公共數(shù)據(jù)屬性與源數(shù)據(jù)列之間的映射關(guān)系及源數(shù)據(jù)列與源數(shù)據(jù)表/服務(wù)接口返回結(jié)果集、源數(shù)據(jù)庫/服務(wù)接口、源系統(tǒng)之間的層級(jí)關(guān)系,即可獲取源系統(tǒng)的各項(xiàng)信息.

      3.2 數(shù)據(jù)采集集群

      分布式采集集群通過異構(gòu)系統(tǒng)模型智能映射獲取各個(gè)數(shù)據(jù)源的元數(shù)據(jù)信息,將每個(gè)數(shù)據(jù)源按照采集量橫向分片形成不同的采集任務(wù),每個(gè)采集任務(wù)對(duì)應(yīng)一個(gè)或多個(gè)冗余采集通道,采集集群通過按節(jié)點(diǎn)分配或NAT映射等技術(shù)將采集通道在集群內(nèi)各節(jié)點(diǎn)上的均衡分散運(yùn)行,提高集群的整體并發(fā)性.

      (1)節(jié)點(diǎn)分布式負(fù)載均衡策略

      集群具備按節(jié)點(diǎn)分布式運(yùn)行的能力,不同數(shù)據(jù)源的采集通道具備按節(jié)點(diǎn)動(dòng)態(tài)負(fù)載均衡技術(shù)分組集群并行處理能力.采集應(yīng)用在M個(gè)采集節(jié)點(diǎn)上運(yùn)行,采集通道有N個(gè),按照最理想化的負(fù)載均衡效果,當(dāng)前時(shí)間,每臺(tái)采集節(jié)點(diǎn)上將有「N/M」個(gè)通道在運(yùn)行,這樣保證了通道采集在每臺(tái)采集節(jié)點(diǎn)上運(yùn)行的負(fù)載均衡性.算法如圖6所示.

      圖6 采集通道負(fù)載均衡算法

      假如某個(gè)采集集群在四臺(tái)采集節(jié)點(diǎn)上運(yùn)行,采集通道共有96個(gè),在正常情況下 (所有采集通道通信正常,所有采集節(jié)點(diǎn)運(yùn)行正常),每個(gè)采集節(jié)點(diǎn)將有24個(gè)通道正常運(yùn)行,在某一時(shí)刻,如果某個(gè)采集節(jié)點(diǎn)發(fā)生故障,這在該節(jié)點(diǎn)上運(yùn)行的24個(gè)采集通道,將會(huì)按負(fù)載均衡算法轉(zhuǎn)移到另外正常的三臺(tái)采集節(jié)點(diǎn),即每個(gè)采集節(jié)點(diǎn)運(yùn)行32個(gè)采集通道.同樣,一旦故障采集節(jié)點(diǎn)恢復(fù)正常,采集通道將恢復(fù)到四節(jié)點(diǎn)運(yùn)行狀況.

      在前端采集集群中,各通道在采集節(jié)點(diǎn)上運(yùn)行都具有優(yōu)先級(jí)指數(shù),該優(yōu)先級(jí)指數(shù)在配置各采集通道時(shí)派生,派生方式可以人工設(shè)置,也可以通過程序按照當(dāng)前通道總數(shù)和采集節(jié)點(diǎn)總數(shù)關(guān)系自動(dòng)派生.

      采集管理采用競價(jià)機(jī)制競選同一通道在不同節(jié)點(diǎn)上獲取資源權(quán)限,優(yōu)先級(jí)高的節(jié)點(diǎn)優(yōu)先獲取資源,進(jìn)入啟用狀態(tài),在一定時(shí)間內(nèi)通道連通后正式獲取資源,其他節(jié)點(diǎn)處于候選狀態(tài).如該節(jié)點(diǎn)一定時(shí)間內(nèi)不能連通則把該通道權(quán)限移交該優(yōu)先級(jí)低的節(jié)點(diǎn)啟用.

      3.3 置信度評(píng)估

      對(duì)于大數(shù)據(jù)分析而言對(duì)數(shù)據(jù)質(zhì)量的要求與常規(guī)數(shù)據(jù)挖掘中對(duì)數(shù)據(jù)的質(zhì)量要求不同,大數(shù)據(jù)分析側(cè)重弱關(guān)聯(lián)關(guān)系,需要保留更多的原始數(shù)據(jù),而常規(guī)的策略往往將數(shù)據(jù)按照業(yè)務(wù)的要求清洗異常數(shù)據(jù).系統(tǒng)通過在數(shù)據(jù)校核和轉(zhuǎn)換的處理過程中加入置信度評(píng)估方法,將經(jīng)過校核轉(zhuǎn)換處理的數(shù)據(jù)和原始數(shù)據(jù)分別給與不同的置信度標(biāo)簽,而不是將數(shù)據(jù)直接清洗刪除掉,在保留數(shù)據(jù)的同時(shí)也起到了數(shù)據(jù)辨識(shí)的作用,為后續(xù)的數(shù)據(jù)分析類應(yīng)用提供了更多的選擇權(quán).例如,當(dāng)數(shù)據(jù)校驗(yàn)發(fā)現(xiàn)數(shù)據(jù)A跳變,并將其按照平滑算法計(jì)算出合理值B,系統(tǒng)會(huì)為數(shù)據(jù)A打上原始值的標(biāo)簽,數(shù)據(jù)B打上處理值的標(biāo)簽,并置數(shù)據(jù)B可信度高于數(shù)據(jù)A.后續(xù)的分析應(yīng)用如果分析奇異點(diǎn)或跳變現(xiàn)象則會(huì)選擇使用原始值A(chǔ),如果分析數(shù)據(jù)變化的合理趨勢則會(huì)選擇置信度較高的處理值B.

      如圖7,置信度評(píng)估的過程是在評(píng)估引擎中對(duì)采集的數(shù)據(jù)根據(jù)評(píng)估規(guī)則通過評(píng)估引擎的計(jì)算,對(duì)數(shù)據(jù)的標(biāo)簽置位,以表示數(shù)據(jù)的質(zhì)量.評(píng)估規(guī)則包括數(shù)據(jù)校驗(yàn)的各項(xiàng)規(guī)則和數(shù)據(jù)處理過程中對(duì)數(shù)據(jù)的修改規(guī)則,數(shù)據(jù)標(biāo)簽包括數(shù)據(jù)溯源標(biāo)簽和數(shù)據(jù)可信度標(biāo)簽.

      通過置信度評(píng)估引擎,根據(jù)評(píng)估規(guī)則庫里定義的評(píng)估規(guī)則對(duì)生產(chǎn)數(shù)據(jù)、資產(chǎn)數(shù)據(jù)、環(huán)境數(shù)據(jù)、實(shí)驗(yàn)等數(shù)據(jù)進(jìn)行評(píng)估,由評(píng)估結(jié)果給原始數(shù)據(jù)置上數(shù)據(jù)標(biāo)簽.這樣不僅能夠完整的保留原始數(shù)據(jù),還可以通過數(shù)據(jù)標(biāo)簽給后續(xù)數(shù)據(jù)使用者決定數(shù)據(jù)的取舍.

      圖7 海量數(shù)據(jù)置信度評(píng)估圖

      3.4 數(shù)據(jù)交換

      數(shù)據(jù)采集與提交需要解決數(shù)據(jù)交互過程中交互機(jī)制多樣化與規(guī)范化的矛盾.系統(tǒng)根據(jù)不同數(shù)據(jù)的特點(diǎn)在轉(zhuǎn)發(fā)給大數(shù)據(jù)平臺(tái)時(shí)使用不同的數(shù)據(jù)交換方案,數(shù)據(jù)主要通過以下三種形式提供給大數(shù)據(jù)平臺(tái).

      (1)Sqoop 腳本

      對(duì)于結(jié)構(gòu)化的數(shù)據(jù),通過類SQL語句的HQL快速實(shí)現(xiàn)映射為一張數(shù)據(jù)庫表,通過編寫Sqoop腳本實(shí)現(xiàn)數(shù)據(jù)的全量導(dǎo)入或者增量導(dǎo)入.Sqoop導(dǎo)入的主要是商用關(guān)系庫中的數(shù)據(jù),如設(shè)備資產(chǎn)信息,設(shè)備缺陷信息,設(shè)備試驗(yàn)數(shù)據(jù),設(shè)備跳閘數(shù)據(jù),電壓監(jiān)測數(shù)據(jù)等.

      (2)Kafka

      Kafka是高并發(fā)性的分布式消息系統(tǒng),基于Kafka消息訂閱的實(shí)時(shí)數(shù)據(jù)發(fā)布服務(wù)按照實(shí)時(shí)數(shù)據(jù)區(qū)域?qū)傩苑殖啥鄠€(gè)主題并發(fā)傳輸,在消費(fèi)端同樣采用并發(fā)策略,將訂閱的實(shí)時(shí)數(shù)據(jù)并發(fā)寫入HBase.系統(tǒng)可以根據(jù)實(shí)時(shí)數(shù)據(jù)的變化彈性擴(kuò)展發(fā)布主題的數(shù)量和服務(wù)數(shù)量,從而充分利用Kafka和HBase并發(fā)吞吐量大的特性提高對(duì)實(shí)時(shí)數(shù)據(jù)存儲(chǔ)的響應(yīng)能力.采用Kafka交互的數(shù)據(jù)主要有實(shí)時(shí)量測數(shù)據(jù)、在線監(jiān)測直采數(shù)據(jù)、廣域向量測量數(shù)據(jù)、告警事件等.

      系統(tǒng)定義了消息服務(wù)報(bào)文格式,其中,報(bào)文頭采用JSON格式統(tǒng)一定義,body定義也采用JSON,可根據(jù)類型不同而不同,表1為報(bào)文頭各屬性定義及body定義舉例.

      表1 實(shí)時(shí)消息服務(wù)報(bào)文頭各屬性定義及body部分定義

      告警消息的body消息體定義如表2,其采用JSON格式.

      表2 告警消息體定義

      (3)文件傳輸

      系統(tǒng)通過ftp方式將獲取的非結(jié)構(gòu)化或半結(jié)構(gòu)化文件數(shù)據(jù)傳輸給大數(shù)據(jù)平臺(tái),存儲(chǔ)到HDFS分布式文件系統(tǒng)中.這部分?jǐn)?shù)據(jù)包括模型文件、錄波文件、圖像文件、視頻文件等.

      以上三種數(shù)據(jù)發(fā)布的任務(wù)均由系統(tǒng)提供的集群管理軟件負(fù)責(zé)調(diào)度,可混合調(diào)度三類任務(wù),對(duì)于sqoop和文件傳輸任務(wù)采用批處理定時(shí)啟停模式,對(duì)于實(shí)時(shí)數(shù)據(jù)發(fā)布服務(wù)采用在線分布式彈性擴(kuò)展方式調(diào)度.

      4 系統(tǒng)運(yùn)行與測試

      面向電力大數(shù)據(jù)的異構(gòu)數(shù)據(jù)混合采集系統(tǒng)在用戶現(xiàn)場實(shí)際部署在16臺(tái)虛擬服務(wù)器節(jié)點(diǎn)上,具體硬軟件配置如表3所示,部署圖如圖3所示.

      表3 硬軟件配置

      面向電力大數(shù)據(jù)的異構(gòu)數(shù)據(jù)混合采集系統(tǒng)已接入22個(gè)業(yè)務(wù)系統(tǒng)和數(shù)據(jù)源,其中包括3個(gè)互聯(lián)網(wǎng)數(shù)據(jù)源,涵蓋電網(wǎng)運(yùn)行、設(shè)備和環(huán)境信息等239類數(shù)據(jù),數(shù)據(jù)年處理量超過1 PB.系統(tǒng)具備7×24小時(shí)連續(xù)運(yùn)行能力,現(xiàn)場實(shí)際運(yùn)行超過一年,未出現(xiàn)因系統(tǒng)故障造成的數(shù)據(jù)采集中斷.圖8是數(shù)據(jù)采集實(shí)時(shí)監(jiān)視界面.

      圖8 大數(shù)據(jù)接入監(jiān)視界面

      針對(duì)電力行業(yè)實(shí)時(shí)數(shù)據(jù)采集場景,系統(tǒng)經(jīng)過性能壓力測試.測試結(jié)果表明采集集群單機(jī)可接入實(shí)時(shí)數(shù)據(jù)點(diǎn)數(shù)量為4 305 576點(diǎn),集群整體可實(shí)現(xiàn)多機(jī)橫向擴(kuò)展千萬點(diǎn)以上的實(shí)時(shí)數(shù)據(jù)采集;實(shí)時(shí)數(shù)據(jù)交換與發(fā)布的響應(yīng)時(shí)間平均為11毫秒;數(shù)據(jù)交換和發(fā)布服務(wù)的準(zhǔn)確率為100%;30分鐘20萬點(diǎn)實(shí)時(shí)數(shù)據(jù)每秒連續(xù)變化壓力試驗(yàn)丟包率為0;系統(tǒng)完全能夠滿足電力行業(yè)實(shí)時(shí)數(shù)據(jù)采集對(duì)系統(tǒng)容量、可靠性和實(shí)時(shí)性的要求.

      5 結(jié)論與展望

      本文介紹了一套面向電力大數(shù)據(jù)的異構(gòu)數(shù)據(jù)混合采集系統(tǒng),通過混合數(shù)據(jù)采集模型和采集集群實(shí)現(xiàn)了對(duì)異構(gòu)數(shù)據(jù)源采集任務(wù)的混合調(diào)度和管理;通過數(shù)據(jù)置信度標(biāo)簽技術(shù),在保留原始數(shù)據(jù)的同時(shí),用合理的方式標(biāo)示數(shù)據(jù)的質(zhì)量,為后續(xù)大數(shù)據(jù)弱關(guān)聯(lián)分析提供了便利;通過Sqoop、Kafka、文件傳輸方式將采集與處理后的數(shù)據(jù)提交給大數(shù)據(jù)中心.系統(tǒng)已經(jīng)在用戶現(xiàn)場部署并投入使用,運(yùn)行穩(wěn)定,效果良好.在接下來的工作中將進(jìn)一步研究容器技術(shù)和微服務(wù)框架,增強(qiáng)前端采集集群和后端數(shù)據(jù)發(fā)布服務(wù)彈性擴(kuò)展靈活性,以便實(shí)現(xiàn)更大規(guī)模,更多類型數(shù)據(jù)的采集和處理.

      猜你喜歡
      數(shù)據(jù)源異構(gòu)結(jié)構(gòu)化
      試論同課異構(gòu)之“同”與“異”
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
      overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
      LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
      在新興異構(gòu)SoCs上集成多種系統(tǒng)
      收藏| 连云港市| 定西市| 安平县| 平罗县| 沙雅县| 浦江县| 镇远县| 积石山| 滦南县| 万年县| 奉新县| 郓城县| 阳东县| 鞍山市| 遂溪县| 昌宁县| 两当县| 苗栗市| 丹凤县| 鄂托克旗| 新竹市| 神木县| 嵊州市| 普安县| 天镇县| 昆明市| 贵定县| 雷州市| 石楼县| 浪卡子县| 沧源| 新巴尔虎右旗| 蓝田县| 邢台县| 贡山| 长兴县| 虎林市| 祁东县| 油尖旺区| 昭通市|