• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      電網(wǎng)運維知識結構化工具研究

      2021-11-28 23:15:19竇如婷石嘉豪陶秀杰周育忠
      科技與創(chuàng)新 2021年11期
      關鍵詞:數(shù)據(jù)源運維電網(wǎng)

      竇如婷,石嘉豪,陶秀杰,周育忠

      (南方電網(wǎng)科學研究院有限責任公司,廣東 廣州510663)

      1 知識結構化業(yè)務邏輯設計

      電網(wǎng)運維知識結構化工具可對知識庫進行進一步加工和規(guī)范,知識庫數(shù)據(jù)包括電網(wǎng)生產(chǎn)典型案例庫、重大事故事件、制度庫、報告成果庫、設備管理情報庫、新技術新產(chǎn)品知識庫等,以及外部數(shù)據(jù)知網(wǎng)期刊文獻、互聯(lián)網(wǎng)電力相關數(shù)據(jù)等。該模塊包括多源數(shù)據(jù)融合、模型管理、數(shù)據(jù)預處理和知識簡報,該模塊的主要功能是為給電網(wǎng)知識管理工具中的其他模塊提供服務和支撐,增強知識的可用性和功能的可擴展性。多數(shù)據(jù)融合是對電網(wǎng)電力數(shù)據(jù)中的多種知識進行融合;模型管理為結合電網(wǎng)數(shù)據(jù)的實體識別、關系屬性抽取等建立起多種深度學習模型,可便于進行統(tǒng)一管理;數(shù)據(jù)預處理是對知識數(shù)據(jù)庫數(shù)進行加工與處理,多種應用的要求;知識簡報是利用智能技術形成分析報告,管理層進行決策分析。

      2 多數(shù)據(jù)源融合

      結合電網(wǎng)運維數(shù)據(jù)信息來源,充分利用云計算及分布存儲工具獲取數(shù)據(jù),通過建立規(guī)范化的模式將數(shù)據(jù)信息進行結構化、非結構化資源抽取,通過整合、加工、加換、裝載電網(wǎng)數(shù)據(jù),對多種類型的源據(jù)信息進行全量抽取、實時抽取。兼容多種類型的數(shù)據(jù)源、目標庫,抽取數(shù)據(jù)可用于傳輸,常用的數(shù)據(jù)源、目源庫有OracleMySql、Hbase、GreenPlum、GDS等,可支持EXCEL、FTP、JSON等文件類型,消息處理采用Webservice、Kafka。可對不同類型的數(shù)據(jù)源抽取匯聚進行配置,滿足跨服務器文件型數(shù)據(jù)的安全傳輸,不同的服務接口、數(shù)據(jù)庫等也可以進行數(shù)據(jù)傳輸。

      3 模型管理

      以電網(wǎng)數(shù)據(jù)源作為基礎的智識規(guī)范化管理,可以為不同用戶需求提供多維度、多渠道的知識服務,包括知識圖譜、模型管理、知識檢索等,也可以向專業(yè)人員提供數(shù)據(jù)挖掘分析、創(chuàng)建專家模型等服務。模塊管理是根據(jù)服務實體、對應關系和數(shù)據(jù)屬性,根據(jù)數(shù)據(jù)抽取模型來實現(xiàn)管理,管理內容主要有電網(wǎng)數(shù)據(jù)屬性標簽、模型識別、對應關系標簽等,該管理模塊可用于結構化構建、檢索發(fā)現(xiàn)新詞,是對知識圖譜的有力支持,加強對實體、對應關系、數(shù)據(jù)屬性標簽的規(guī)范化管理,為知識管理工具中每個模塊功能的實現(xiàn)打下良好基礎,具有很好的后續(xù)擴展功能。

      4 數(shù)據(jù)預處理

      4.1 數(shù)據(jù)處理原則

      處理電網(wǎng)運維知識數(shù)據(jù)信息時應統(tǒng)一決策,處理相同數(shù)據(jù)庫里數(shù)據(jù)時將工作方法、技術指標進行統(tǒng)一管理,這樣才能保證數(shù)據(jù)處理的一致性。還需保證數(shù)據(jù)信息的描述與對應實體的特點相符,保證描述數(shù)據(jù)不存在記錄缺失問題,相同實體的屬性值能否在不同的數(shù)據(jù)處理系統(tǒng)中保持一致,被描述數(shù)據(jù)能否達到用戶特定域值范圍,是否存在著描述數(shù)據(jù)多次記錄的問題。處理數(shù)據(jù)應該具有可用性,從時間性角度來看,需要核實描述的數(shù)據(jù)是否為當前或歷史數(shù)據(jù),從穩(wěn)定性角度來看,應該保證描述數(shù)據(jù)的穩(wěn)定性是否在有效期內。

      4.2 數(shù)據(jù)處理流程

      4.2.1 數(shù)據(jù)預處理

      將不同維度、不同來源和多種結構的數(shù)據(jù)進行匯集以后,需要對數(shù)據(jù)信息進行預處理,從而對錯誤數(shù)據(jù)信息進行修復與更改,還需要對數(shù)據(jù)進行整理和存儲。數(shù)據(jù)抽取是從數(shù)據(jù)源中獲取數(shù)據(jù)信息的過程,多采用ETL技術,可應用的數(shù)據(jù)抽取工具比較多,需要結合電網(wǎng)運維業(yè)務形成的數(shù)據(jù)特點,選擇最為適宜的抽取工具。從數(shù)據(jù)庫中抽取數(shù)據(jù)信息可采用如下方式:①全量抽取。該種數(shù)據(jù)抽取方式與數(shù)據(jù)鏡像比較相似,可以把表與視圖數(shù)據(jù)從數(shù)據(jù)源內完整提取出來,多用于系統(tǒng)數(shù)據(jù)初始化階段。②增量抽取。在完成全部抽取以后,對數(shù)據(jù)庫內新增加或修改后的數(shù)據(jù)進行抽取。進入數(shù)據(jù)過濾階段,可對電網(wǎng)運維業(yè)務形成的不滿足規(guī)矩要求或無效的數(shù)據(jù)進行過濾處理,保證獲取到的數(shù)據(jù)信息滿足標準要求,而有些數(shù)據(jù)信息存在著格式錯誤、代碼值沖突等問題,需要進行業(yè)務數(shù)據(jù)轉換,才能滿足數(shù)據(jù)加載處理的需要。數(shù)據(jù)加載主要有插入與修改兩種操作,把轉換后的干凈數(shù)據(jù)、臟數(shù)據(jù)都插到數(shù)據(jù)表內,如果數(shù)據(jù)量比較大可創(chuàng)建數(shù)據(jù)庫,對應用文本文件進行存儲,并結合腳本處理程序進行操作。

      4.2.2 數(shù)據(jù)清洗

      處理缺失值,如果數(shù)據(jù)屬性值為空白,則認定該數(shù)據(jù)存在缺失值,為不完整的數(shù)據(jù)類型,先確定好缺失值范圍,對每個字段進行計算來確定缺失值比例,根據(jù)缺失比與字段重要性來制訂清洗策略。針對重要性較高、缺失率小的數(shù)據(jù),可結合經(jīng)驗與業(yè)務知識進行評價,也可以通過計算補充缺失值。對于重要指標、缺失率高的數(shù)據(jù),應該與數(shù)據(jù)采集人員、電網(wǎng)運維人員聯(lián)系,看能否從其他渠道得到準確的數(shù)據(jù),可以重新進行采集,如果不能得到數(shù)據(jù)則應補充缺失值。而對于指標不重要、缺失率低的數(shù)據(jù)可不做處理,需備位指標重要、缺失率高的數(shù)據(jù),刪除不需要字段。填補空缺值時可利用如下方法:充分結合電網(wǎng)運維業(yè)務知識、經(jīng)驗來填充缺失值。利用眾數(shù)、均值等來填充缺失值。應用不同指標計算結果填充缺失值。

      處理錯誤數(shù)據(jù)時,對于格式內容問題、邏輯問題錯誤,需先分析再制訂處理辦法。數(shù)據(jù)格式內容問題如下:①時間、全半角等格式不一致問題。需要將錯誤數(shù)據(jù)處理為一致的格式,該種數(shù)據(jù)多是由于人工采集或填寫原因導致,在格式及內容方面存在問題,對多種來源數(shù)據(jù)進行整理時也會存在格式錯誤問題。②內容字符問題。采用半自動、半人工方式來發(fā)現(xiàn)存在的問題,刪除沒用的字符。③數(shù)據(jù)內容和字段不符。導致該問題的原因比較多,多是導入數(shù)據(jù)列沒對齊、人工填寫失誤、沒對前端校驗等原因引起的,需要對問題類型進行深入分析。如果存在邏輯問題數(shù)據(jù),可應用邏輯推理辦法來發(fā)現(xiàn)問題數(shù)據(jù),避免分析結果出現(xiàn)錯誤。把去重操作設置為格式內容清洗,只有進行內容清理才可以發(fā)現(xiàn)存在重復問題的數(shù)據(jù)。電網(wǎng)運維環(huán)境比較復雜,存在數(shù)據(jù)多次上報等問題,數(shù)據(jù)重復問題比較多見,可通過字段相似度來進行識別。數(shù)據(jù)采集還受技術或物理方面的影響,使數(shù)據(jù)值超過采集范圍,出現(xiàn)離群值。針對離散程度大的數(shù)據(jù)源,可應用箱型圖法,如果利用數(shù)據(jù)分布特征或電網(wǎng)運維業(yè)務來對噪聲數(shù)據(jù)進行識別存在困難,可應用聚類識別方法。有些字段需要進行相互間的驗證,結合字段的數(shù)據(jù)來源情況來識別哪些字段信息比較可靠、哪些字段需要被消除和重構。

      處理錯誤關聯(lián)數(shù)據(jù)時,如果電網(wǎng)運維數(shù)據(jù)存在多個來源,則需對數(shù)據(jù)的關聯(lián)性進行驗證。對多個來源的數(shù)據(jù)進行整合存在較大的難度,需要充分考慮數(shù)據(jù)的關聯(lián)性,分析時應該防止數(shù)據(jù)間存在矛盾。處理不一致數(shù)據(jù)時,由于受數(shù)據(jù)完整性要求的限制,可對元數(shù)據(jù)、數(shù)據(jù)字典等進行整理與分析,對數(shù)據(jù)間關系進行全面梳理,對錯誤關聯(lián)數(shù)據(jù)進行修正。很多不一致數(shù)據(jù)多是由于缺少數(shù)據(jù)標準導致的,可應用統(tǒng)計學原理把數(shù)據(jù)屬性作為隨機變量,利用數(shù)據(jù)的置信區(qū)間來判斷。采用聚類方法處理,結合數(shù)據(jù)信息的相似度進行分組處理,可以發(fā)現(xiàn)無法分組的孤立點。應用距離方法,對數(shù)據(jù)對象相似性進行準確度量。采用分類法,可以建立正常數(shù)據(jù)、異常數(shù)據(jù)分類查勘型。按照關聯(lián)規(guī)則的處理方法,需要先定義好數(shù)據(jù)關聯(lián)規(guī)要求,無法達到規(guī)則要求的數(shù)據(jù)則被歸類到異常數(shù)據(jù)。

      4.2.3 規(guī)則處理引擎

      為保證更好地對電網(wǎng)運維數(shù)據(jù)信息進行處理,需要對每個數(shù)據(jù)項制訂相關聯(lián)的數(shù)據(jù)元標準和處理規(guī)則,可以進行拼接賦值、數(shù)據(jù)轉換和數(shù)據(jù)校驗等。利用機器學習技術,對每個數(shù)據(jù)字段進行識別處理,再采用數(shù)據(jù)自動對標技術,應對數(shù)據(jù)處理不規(guī)范的問題。將數(shù)據(jù)項與標準庫數(shù)據(jù)項進行對應,通過機器學習來進一步降低人工工作強度,結合語立體相近度開展采樣值域測試,確定相似度大的數(shù)據(jù)項作為關聯(lián)數(shù)據(jù)表字段,再按照數(shù)據(jù)特點選取最為合理的數(shù)據(jù)轉換規(guī)則,再以規(guī)則模板形成生成字段的稽核任務。

      5 結語

      綜上所述,電網(wǎng)運維知識結構化工具可對知識庫進行進一步加工和規(guī)范,以知識庫數(shù)據(jù)作為基礎,通過多數(shù)據(jù)融合、模型管理、數(shù)據(jù)預處理和知識簡報來逐步實現(xiàn)設計,可為電網(wǎng)管理層決策提供數(shù)據(jù)支持。

      猜你喜歡
      數(shù)據(jù)源運維電網(wǎng)
      穿越電網(wǎng)
      運維技術研發(fā)決策中ITSS運維成熟度模型應用初探
      風電運維困局
      能源(2018年8期)2018-09-21 07:57:24
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      雜亂無章的光伏運維 百億市場如何成長
      能源(2017年11期)2017-12-13 08:12:25
      基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
      基于ITIL的運維管理創(chuàng)新實踐淺析
      電網(wǎng)也有春天
      河南電力(2016年5期)2016-02-06 02:11:32
      一個電網(wǎng)人的環(huán)保路
      河南電力(2015年5期)2015-06-08 06:01:46
      電網(wǎng)環(huán)保知多少
      河南電力(2015年5期)2015-06-08 06:01:46
      玉龙| 油尖旺区| 玉屏| 西平县| 呼伦贝尔市| 宾阳县| 南涧| 余庆县| 丰镇市| 安宁市| 富川| 新民市| 吉首市| 囊谦县| 桂阳县| 刚察县| 迁西县| 吴堡县| 久治县| 车险| 若羌县| 洛川县| 旬阳县| 峨边| 河源市| 平武县| 大埔县| 兴山县| 新安县| 夏津县| 顺昌县| 阳东县| 潍坊市| 晋宁县| 邵阳县| 凤城市| 秀山| 宝应县| 报价| 广安市| 锡林郭勒盟|