• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用

      2017-01-21 15:55:21王爽趙會洋
      軟件導(dǎo)刊 2016年12期
      關(guān)鍵詞:文本挖掘關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

      王爽+趙會洋

      摘 要:發(fā)電站正常高效運行對保障社會發(fā)展和人民生活極其重要。電站運行中產(chǎn)生大量的故障記錄數(shù)據(jù),將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電站設(shè)備故障的大數(shù)據(jù)分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的有用信息,有助于電站管理工作改革和設(shè)備管理技術(shù)創(chuàng)新。根據(jù)某發(fā)電集團設(shè)備故障統(tǒng)計報告,制定了相應(yīng)的數(shù)據(jù)分析方案,研究了文本挖掘、關(guān)聯(lián)分析、聚類分析等多種數(shù)據(jù)挖掘方法的關(guān)鍵技術(shù),詳述了這些技術(shù)在電站故障分析中的應(yīng)用方法及效果。

      關(guān)鍵詞:電站設(shè)備故障;數(shù)據(jù)挖掘;文本挖掘;關(guān)聯(lián)規(guī)則;聚類

      DOIDOI:10.11907/rjdk.162187

      中圖分類號:TP319

      文獻標識碼:A文章編號:1672-7800(2016)012-0121-03

      0 引言

      電力大數(shù)據(jù)的信息挖掘和利用將給電力企業(yè)帶來新一輪商業(yè)模式轉(zhuǎn)變和價值創(chuàng)新。文獻[1]~[8]研究了數(shù)據(jù)挖掘技術(shù)在火電廠設(shè)備故障診斷、狀態(tài)預(yù)測方面的應(yīng)用;文獻[9]~[11]研究了數(shù)據(jù)挖掘技術(shù)在核電廠中的應(yīng)用,主要用于異常值檢測和抗震性推斷等;文獻[12]~[13]研究了數(shù)據(jù)挖掘技術(shù)在風力發(fā)電廠中的應(yīng)用,主要用于風力、風速的預(yù)測;文獻[14]~[15]研究了數(shù)據(jù)挖掘技術(shù)在水電站和太陽能發(fā)電中的應(yīng)用。這些研究的開展多基于電站設(shè)備運行的實時數(shù)據(jù),雖然研究成果在一定程度上促進了電站的健康高效運行和科學(xué)管理,但研究范圍不全面。本文將基于大量的設(shè)備故障歷史統(tǒng)計數(shù)據(jù),運用文本挖掘、關(guān)聯(lián)規(guī)則、聚類等多種數(shù)據(jù)挖掘技術(shù)展開研究,發(fā)現(xiàn)其中隱藏的有用信息,為電站的運行管理提供決策支持。

      1 數(shù)據(jù)分析方案設(shè)計與數(shù)據(jù)預(yù)處理

      研究所用數(shù)據(jù)來自某大型發(fā)電集團2008-2014年設(shè)備運行故障月度報告。報告有word和pdf兩種格式,每份報告主要內(nèi)容有設(shè)備運行故障統(tǒng)計概況、具體案例描述等。案例描述提供了設(shè)備故障發(fā)生的時間、地點、原因等信息,信息的數(shù)據(jù)類型有日期、數(shù)字、文本等。根據(jù)數(shù)據(jù)源的這些特點,制定了如圖1所示的數(shù)據(jù)分析方案。

      在數(shù)據(jù)預(yù)處理環(huán)節(jié),首先要將各種數(shù)據(jù)源中的有用信息提取出來。數(shù)據(jù)提取的原則是便于分析且盡可能少地丟失信息,最終將數(shù)據(jù)整理成兩張Excel表,分別是設(shè)備運行故障總表和設(shè)備運行故障明細表,它們的結(jié)構(gòu)和樣本數(shù)據(jù)示例如表1和表2所示。由于數(shù)據(jù)條目較多,在此僅列出每張表的少數(shù)幾條數(shù)據(jù)。對于文字內(nèi)容描述較多的字段,僅列出一條較為完整的數(shù)據(jù)來說明問題,其它條目內(nèi)容用“略”來代替。表1中的類別1到類別4從粗到細分別描述了設(shè)備故障類別,每條樣本數(shù)據(jù)展現(xiàn)不同類別的故障在特定時間所發(fā)生的項數(shù)和具體原因描述。表2較為詳細地描述了每臺設(shè)備故障發(fā)生的時間、單位、省份、機組號、機組容量、類別、事件描述、原因分析和處理情況。

      缺失值處理和數(shù)據(jù)類型處理是數(shù)據(jù)預(yù)處理環(huán)節(jié)中另外兩個重要工作。缺失值處理方法有刪除含有缺失值的個案和可能值插補缺失值。可能值插補缺失值方法有:均值插補、極大似然估計、多重插補等。根據(jù)具體分析任務(wù),由分析目的選擇缺失值處理方法。以表1為例,當分析文字型數(shù)據(jù)時,由于缺失量較少,采取了刪除含有缺失值個案的方法;當分析故障項數(shù)時,采取了同類別均值插補方法。數(shù)據(jù)類型處理就是根據(jù)數(shù)據(jù)的特征和分析目的確定數(shù)據(jù)字段類型。以表1為例,時間為日期型,類別1~4為因子型,故障項數(shù)為數(shù)字型,故障描述為字符型。完成數(shù)據(jù)預(yù)處理環(huán)節(jié)后,利用多種數(shù)據(jù)挖掘方法對數(shù)據(jù)進行隱藏信息挖掘。

      2 文本挖掘研究與應(yīng)用

      文本挖掘中最重要的工作就是分詞,分詞算法采用中國科學(xué)院計算技術(shù)研究所的中文分詞算法ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)。ICTCLAS基于隱馬爾可夫模型HMM(Hidden Markov Model)實現(xiàn),HMM定義如下:

      一個隱馬爾科夫模型是一個三元組(∏,A,B)。其中,∏是初始狀態(tài)的概率分布,∏=(πi),πi表示在t=1時刻,狀態(tài)為si的概率;

      A為狀態(tài)轉(zhuǎn)移矩陣,A=(aij),aij=P(qt+1=sj|qt=si),表示在t時刻、狀態(tài)為si的條件下,在t+1時刻狀態(tài)是sj的概率;

      B為混淆矩陣,B=(bjk),bjk=P(ok|sj),表示在隱含狀態(tài)是sj條件下,觀察狀態(tài)為ok的概率。

      將文本挖掘技術(shù)應(yīng)用于電站故障數(shù)據(jù)挖掘步驟如下:①詞典調(diào)整。分詞的依據(jù)是詞典,通常詞典中只包含常用詞匯,因此,在對諸如電力專業(yè)領(lǐng)域數(shù)據(jù)進行文本分析時,需要根據(jù)分析要求加入一定量的專業(yè)詞匯;②分詞。利用ICTCLAS分詞算法對文本字段進行分詞;③詞性過濾。為了突出故障原因,需要去掉一些無關(guān)的詞,例如形容詞、數(shù)量詞、副詞等;④構(gòu)建語料庫并處理。構(gòu)建語料庫后就可以進一步處理,例如去除停用詞、標點符號、數(shù)字、空格等;⑤構(gòu)建詞條文檔矩陣(Term-Document Matrix,TDM)并處理。TDM中列出了每個詞條在文檔中出現(xiàn)的頻次,可以去除頻次較低的詞條項,或進行其它與頻次有關(guān)的處理;⑥畫文本特征詞云。通過畫文本特征詞云直觀地展示文本挖掘結(jié)果。通過詞云展示,可以從大數(shù)據(jù)中發(fā)現(xiàn)熱點問題。

      通過對表1中停機故障的描述字段進行文本挖掘,得到如圖2所示結(jié)果。通過圖2的分析結(jié)果可以看出,停機異常多是由鍋爐故障引起的,較為重要的原因是液體泄漏和電氣設(shè)備跳閘。通過對表1中停機和降出力兩類故障的描述字段對比分析,得到如圖3所示結(jié)果。通過對圖3的分析可以看出,停機異常的主要原因是鍋爐和汽機的液體泄漏及電氣保護,而降出力異常多是由風機和煤質(zhì)差引起的。

      3 關(guān)聯(lián)規(guī)則分析與應(yīng)用

      關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項的出現(xiàn)可導(dǎo)出另一些項在同一事務(wù)中也出現(xiàn),亦即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。關(guān)聯(lián)規(guī)則廣泛應(yīng)用于金融、電子商務(wù)等行業(yè)。金融行業(yè)可以通過關(guān)聯(lián)規(guī)則挖掘出很多與客戶有關(guān)的關(guān)聯(lián)關(guān)系,從而為制定營銷策略提供依據(jù)。電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則挖掘,可設(shè)置商品促銷組合、進行商品推薦、定向投放廣告等。

      關(guān)聯(lián)規(guī)則的代表算法有Apriori、FP-tree等。本文利用Apriori方法,對表1中的不同類別關(guān)系進行關(guān)聯(lián)分析,分析結(jié)果如圖4所示。由分析得到:運行設(shè)備故障導(dǎo)致停機故障,停機原因主要是鍋爐問題。

      4 聚類分析研究與應(yīng)用

      聚類分析是利用科學(xué)的度量方法,將一組數(shù)據(jù)按照相似性和差異性分為幾個類別,目的是使屬于同一類別的數(shù)據(jù)相似性盡可能大,不同類別數(shù)據(jù)間的相似性盡可能小。聚類分析應(yīng)用于許多領(lǐng)域,如商務(wù)智能、圖像模式識別、Web搜索和生物學(xué)等。將聚類分析方法應(yīng)用于電站的故障數(shù)據(jù)分析分類及分析結(jié)果如下:

      (1)按設(shè)備故障的宏觀類型對省份進行聚類。使用的數(shù)據(jù)字段有表2中的故障類別(停機、降出力、檢修)、省份兩個字段。根據(jù)分析結(jié)果,電力集團可發(fā)現(xiàn)各省份子公司設(shè)備故障存在相似之處,并據(jù)此制定分類管理政策。實行分類管理,可以節(jié)約人力、物力、財力等資源。

      (2)按設(shè)備故障的宏觀類型對單位進行聚類。使用的數(shù)據(jù)字段有表2中的故障類別(停機、降出力、檢修)、單位兩個字段。如果兩個發(fā)電公司在故障類別上表現(xiàn)出較大的相似性,聚類算法會將它們聚為一類,電力集團可根據(jù)故障類別實現(xiàn)更細粒度的管理。

      (3)按故障設(shè)備的容量對省份或單位進行聚類。使用的數(shù)據(jù)字段有表2中的容量、單位兩個字段。由于相同容量的發(fā)電設(shè)備在實現(xiàn)技術(shù)、制造單位方面可能存在相似之處,電力集團也可以通過這個分析結(jié)果對企業(yè)進行分類管理。

      根據(jù)上述方法(1),使用Centroid聚類算法對數(shù)據(jù)進行聚類,得到如圖5所示的分析結(jié)果。由圖5可知,聚類結(jié)果分為7類。其中,內(nèi)蒙古、黑龍江、山東、四川構(gòu)成一類,湖北、陜西、云南、貴州、遼寧4個省份的故障發(fā)生情況具有較大相似性分為一類,江蘇、山西、寧夏、河北、河南、福建、新疆分為一類,安徽、青海等省份分為一類。

      5 結(jié)語

      數(shù)據(jù)挖掘技術(shù)已經(jīng)用于電力系統(tǒng)分析并取得了一定的研究成果。在大數(shù)據(jù)背景下,其應(yīng)用將更加廣泛和深入。本文從新的數(shù)據(jù)視角對電站設(shè)備故障進行分析,研究了文本挖掘、關(guān)聯(lián)規(guī)則、聚類等數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用,研究結(jié)論對電力企業(yè)管理決策制定和設(shè)備故障技術(shù)創(chuàng)新都有一定幫助。下一步將重點進行以下研究工作:①針對數(shù)據(jù)進行更加深入細致的剖析,發(fā)現(xiàn)其中更多的隱藏信息;②引入更豐富的數(shù)據(jù)挖掘技術(shù)應(yīng)用于電力數(shù)據(jù)分析中。

      參考文獻:

      [1] 劉寶玲,何鈞,曾暄.嵌套式數(shù)據(jù)挖掘技術(shù)在電站工況分析中的應(yīng)用[J].電站系統(tǒng)工程,2014(5):13-15.

      [2] 邱鳳翔,司風琪,徐治皋.電站關(guān)聯(lián)規(guī)則的主元分析挖掘方法及傳感器故障檢測[J].中國電機工程學(xué)報,2009(5):97-102.

      [3] 牛培峰,張澤,王懷寶.基于模糊聚類神經(jīng)網(wǎng)絡(luò)的電站鍋爐故障診斷研究[J].微計算機信息,2010(7):40-42.

      [4] ZHENG L K,F(xiàn)ENG K,XIAO X Q,et al.Early warning of power plant equipment based on massive real-time data mining technology[J].ICFMM,2014(6):1487-1490.

      [5] BAO A,PAN W G,WANG W H,et al.Advances in data mining and applications in power plants[J].ICEESD,2011(10):347-487.

      [6] JIN T,F(xiàn)U Z G.Application of data mining in power plant unburned carbon in fly ash modeling[J].FSKD,2010(8):2761-2765.

      [7] YANG P.Fault diagnosis system for boilers in thermal power plant by data mining[J].Journal of Information and Computational Science,2006(3):117-127.

      [8] ZENG D L,YANG T T,CHENG X,et al.Application of data mining method in real-time optimal load dispatching of power plant[J].Zhongguo Dianji Gongcheng Xuebao,2010,30(4):109-114.

      [9] LIU D P,ZHENG K T,YAN Q Q,et al.Application of data stream outlier mining techniques in steam generator safety early warning system of nuclear power plant[J].ICMTMA,2013(1):287-290.

      [10] MU Y,XIA H,LIU Y K.Study on fault diagnosis technology for nuclear power plants based on time series data mining[J].Hedongli Gongcheng,2011,32(5):45-48.

      [11] SHU Y F.Inference of power plant quake-proof information based on interactive data mining approach[J].Advanced Engineering Informatics,2007,21(3):257-267.

      [12] OZKAN M B,KK D,TERCIYANLI F,et al.A data mining-based wind power forecasting method:results for wind power plants in Turkey[J].DaWaK,2013(8):268-276.

      [13] COLAK I,SAGIROGLU S,DEMIRTAS M,et al.A data mining approach:analyzing wind speed and insolation period data in Turkey for installations of wind and solar power plants[J].Energy Conversion and Management,2013,65(1):185-197.

      [14] OHANA I,BEZERRA U H,VIEIRA J P A.Data-mining experiments on a hydroelectric power plant[J].IET Generation,Transmission and Distribution,2012,6(5):395-403.

      [15] MACIEJEWSKI H,VALENZUELA L,BERENGUEL M,et al.Analyzing solar power plant performance through data mining[J].Journal of Solar Energy Engineering,2008,130(4):0445031-0445033.

      (責任編輯:杜能鋼)

      猜你喜歡
      文本挖掘關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
      關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
      數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價體系中的應(yīng)用
      文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
      商(2016年34期)2016-11-24 16:28:51
      從《遠程教育》35年載文看遠程教育研究趨勢
      關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進
      中國市場(2016年36期)2016-10-19 04:10:44
      基于關(guān)聯(lián)規(guī)則的計算機入侵檢測方法
      慧眼識璞玉,妙手煉渾金
      松溪县| 镇原县| 中西区| 北京市| 尉氏县| 炉霍县| 杨浦区| 十堰市| 聂拉木县| 商水县| 甘泉县| 新巴尔虎右旗| 商丘市| 漳浦县| 临湘市| 金坛市| 临泉县| 长寿区| 松原市| 阿拉尔市| 若羌县| 修水县| 习水县| 禹城市| 康定县| 沙河市| 宾阳县| 平舆县| 德安县| 惠东县| 昌宁县| 义乌市| 兰州市| 武平县| 渑池县| 东台市| 邓州市| 洱源县| 锡林郭勒盟| 开阳县| 榕江县|