謝小武
摘 要:本文首先對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行了介紹,然后介紹了數(shù)據(jù)挖掘系統(tǒng)的建立,最后闡述了數(shù)據(jù)挖掘技術(shù)在水電站電力設(shè)備運(yùn)行監(jiān)測(cè)中的應(yīng)用,希冀對(duì)同行提供參考或借鑒。
關(guān)鍵詞:電力設(shè)備;運(yùn)行監(jiān)測(cè);數(shù)據(jù)挖掘技術(shù)
1.引言
隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模也:不斷增大,大量的數(shù)據(jù)也隨之而來(lái)。但人們?cè)诿媾R大量的數(shù)據(jù)時(shí)往往很難從中分辨出能對(duì)決策提供支持的信息,而傳統(tǒng)的報(bào)表查詢工具不能將這些信息挖掘出來(lái)。因此數(shù)據(jù)挖掘技術(shù)作為一種新的數(shù)據(jù)分析技術(shù)應(yīng)運(yùn)而生,它能從大量數(shù)據(jù)中提取有價(jià)值的潛在信息。目前由于電力系統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)也不斷的增多,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電力設(shè)備的在線監(jiān)測(cè)系統(tǒng)中也是非常必要的。
2.數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘就是將有用的信息從大量的數(shù)據(jù)中提取出來(lái),具體來(lái)說(shuō)就是在大量的、不清楚的、隨機(jī)的、不完整的、有噪音的實(shí)際收集數(shù)據(jù)中提取出隱藏的、規(guī)律的、人們還沒(méi)發(fā)現(xiàn)的但是具有潛在作用的、能最終被理解的信息和知識(shí)的非平凡過(guò)程。最近幾年,研究數(shù)據(jù)挖掘技術(shù)以及對(duì)其的應(yīng)用越來(lái)越多,已廣泛運(yùn)用于銀行和商業(yè)領(lǐng)域。在有關(guān)學(xué)科的發(fā)展作用下,各種數(shù)據(jù)挖掘算法被研究出來(lái)。
2.1數(shù)據(jù)挖掘的一般過(guò)程
數(shù)據(jù)挖掘的一般過(guò)程包括以下5個(gè)方面:(1)數(shù)據(jù)選擇指的是選取與所需解決的問(wèn)題相關(guān)的數(shù)據(jù),可以通過(guò)互聯(lián)網(wǎng)進(jìn)行采集。(2)通過(guò)濾噪來(lái)處理信息的全過(guò)程稱為數(shù)據(jù)預(yù)處理。(3)數(shù)據(jù)轉(zhuǎn)換:指的是將定性的數(shù)據(jù)轉(zhuǎn)變?yōu)槎康模瑥哪骋环矫鎭?lái)說(shuō),這一過(guò)程也叫做特征提取。(4)數(shù)據(jù)挖掘:就是將隱藏在數(shù)據(jù)庫(kù)中的重要模式挖掘出來(lái),這對(duì)發(fā)現(xiàn)知識(shí)起著重要作用。數(shù)據(jù)解釋是將數(shù)據(jù)挖掘的成果進(jìn)行評(píng)價(jià)和解釋,即知識(shí)。
2.2數(shù)據(jù)挖掘具備的條件
從數(shù)據(jù)挖掘中挖掘有關(guān)知識(shí)的規(guī)則必須符合以下4個(gè)條件:(1)有效性,即規(guī)則或知識(shí)的重要性,使用的規(guī)則或知識(shí)對(duì)應(yīng)未知的數(shù)據(jù);(2)新穎性,即在實(shí)踐過(guò)程中發(fā)現(xiàn)新的規(guī)則,與先驗(yàn)知識(shí)沒(méi)關(guān)系;(3)有用性,該條件主要是為了發(fā)現(xiàn)用戶感興趣的規(guī)則;簡(jiǎn)單性,即發(fā)現(xiàn)的規(guī)則應(yīng)盡量簡(jiǎn)單,應(yīng)該能解釋和創(chuàng)建復(fù)雜的數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)與統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)等其他領(lǐng)域的研究以及可視化技術(shù)聯(lián)系密切。數(shù)據(jù)挖掘的方法和數(shù)學(xué)工具包括模糊邏輯、關(guān)聯(lián)規(guī)則、決策樹(shù)、統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)、線性規(guī)劃等。
當(dāng)前,我國(guó)電力部門(mén)還沒(méi)有廣泛的應(yīng)用數(shù)據(jù)挖掘,其主要應(yīng)用于電力設(shè)備的狀態(tài)評(píng)估、分類電力系統(tǒng)的運(yùn)行模式、預(yù)測(cè)和分類電力系統(tǒng)負(fù)荷、電力系統(tǒng)運(yùn)行狀態(tài)、設(shè)備監(jiān)控、電力系統(tǒng)建模、電力設(shè)備故障診斷以及優(yōu)化電力調(diào)度等方面。
3.系統(tǒng)的建立
3.1應(yīng)用背景:在20世紀(jì)60年代末設(shè)備運(yùn)行狀態(tài)監(jiān)測(cè)與故障診斷技術(shù)開(kāi)始使用,經(jīng)過(guò)了三十多年的發(fā)展,現(xiàn)已大量運(yùn)用于電力領(lǐng)域,為電力行業(yè)的發(fā)展提供了技術(shù)方面的保障。在水電站的生產(chǎn)過(guò)程中,大型設(shè)備每分每秒都形成大量的監(jiān)測(cè)數(shù)據(jù),人工很難單獨(dú)診斷出來(lái)。因此傳統(tǒng)的故障診斷和設(shè)備監(jiān)測(cè)已無(wú)法達(dá)到生產(chǎn)管理的要求。隨著不斷發(fā)展的信息技術(shù)與計(jì)算機(jī)技術(shù),在故障診斷領(lǐng)域逐漸開(kāi)始使用數(shù)據(jù)挖掘技術(shù)。利用數(shù)據(jù)挖掘技術(shù)的故障診斷系統(tǒng),不僅解決該領(lǐng)域的繼承性、遠(yuǎn)程性與復(fù)雜性,同時(shí)也能解決診斷技術(shù)在向智能化和自動(dòng)化發(fā)展所遇到的難題。
3.2系統(tǒng)結(jié)構(gòu):在監(jiān)測(cè)設(shè)備運(yùn)行狀態(tài)和故障診斷時(shí),我們要處理的數(shù)據(jù)信息是多變量的、大量的、不同結(jié)構(gòu)的、多源的,為了將監(jiān)控系統(tǒng)累積多年的數(shù)據(jù)與統(tǒng)計(jì)信息學(xué)進(jìn)行有效的管理和利用,來(lái)更好的為設(shè)備的狀態(tài)評(píng)估和故障診斷所服務(wù),數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的引入為不同來(lái)源的數(shù)據(jù)提供了一個(gè)相同的數(shù)據(jù)視圖,把不同組織方式和不同介質(zhì)的數(shù)據(jù)幾種轉(zhuǎn)變?yōu)橐粋€(gè)一致的分析型數(shù)據(jù)環(huán)境。系統(tǒng)的邏輯結(jié)構(gòu)圖如圖1所示。
在實(shí)際情況中,我們使用的模型是局域網(wǎng)分布式模型,在水電站的設(shè)備、調(diào)度、檢修、監(jiān)控中心等專業(yè)部門(mén)中,先根據(jù)統(tǒng)一的要求建立各自的數(shù)據(jù)倉(cāng)庫(kù),負(fù)責(zé)采集、處理和更新自己范圍內(nèi)的數(shù)據(jù),形成一種數(shù)據(jù)倉(cāng)庫(kù)群的模式,然后將這些單獨(dú)的數(shù)據(jù),根據(jù)統(tǒng)一的編碼體系以及數(shù)據(jù)集成技術(shù)密切的聯(lián)系在一起,建立一個(gè)統(tǒng)一的有機(jī)整體,其實(shí)現(xiàn)方案如圖2所示。
圖1 數(shù)據(jù)挖掘系統(tǒng)的三級(jí)邏輯結(jié)構(gòu)
圖2 監(jiān)測(cè)系統(tǒng)的實(shí)現(xiàn)結(jié)構(gòu)
3.3數(shù)據(jù)挖掘分析算法:目前有很多方法可以用來(lái)進(jìn)行數(shù)據(jù)挖掘,根據(jù)角度的不同,一般分為以下幾個(gè):以發(fā)現(xiàn)模式為基礎(chǔ)的挖掘包括:相關(guān)聯(lián)的規(guī)則挖掘、總結(jié)規(guī)則挖掘、分類規(guī)則挖掘、特征規(guī)則挖掘、聚類規(guī)則挖掘、模式分析、趨勢(shì)分析、偏差分析等;按照挖掘知識(shí)的抽象層次又可分為多層次挖掘、原始層次挖掘以及高層次挖掘等;根據(jù)數(shù)據(jù)庫(kù)進(jìn)行的挖掘又可分為多媒體、時(shí)間空間型、關(guān)系型、主動(dòng)型、文本型、事務(wù)型與面向?qū)ο笮?;根?jù)常用技術(shù)分類就包括最鄰近技術(shù)、可視化、決策樹(shù)、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法以及規(guī)則歸納等。智能檢測(cè)當(dāng)前機(jī)器狀態(tài),查出已存在或是即將出現(xiàn)的故障就是故障診斷與狀態(tài)監(jiān)測(cè)的主要工作內(nèi)容。因此,可以通過(guò)使用已被成功驗(yàn)證過(guò)的關(guān)聯(lián)規(guī)則的方法,來(lái)找出在不同設(shè)備有關(guān)聯(lián)的數(shù)據(jù)信息。在關(guān)聯(lián)規(guī)則挖掘的基礎(chǔ)上,利用統(tǒng)計(jì)方法來(lái)總結(jié)提取出有價(jià)值的IF—THEN規(guī)則,以此來(lái)實(shí)現(xiàn)不同類型的數(shù)據(jù)挖掘任務(wù)。而故障診斷的過(guò)程是在分析大量設(shè)備監(jiān)測(cè)數(shù)據(jù)信息后,挖掘出有用的知識(shí)。從用戶的角度出發(fā),可以將關(guān)聯(lián)規(guī)則的過(guò)程總結(jié)為以下幾步:首先用戶指定出一個(gè)需要挖掘的數(shù)據(jù)倉(cāng)庫(kù),其次制定出最下信任度和最小支持度,即閾值,然后由系統(tǒng)確定挖掘算法并開(kāi)始運(yùn)行,在結(jié)束運(yùn)行之后,系統(tǒng)會(huì)返饋大量關(guān)聯(lián)規(guī)則,其中就有用戶需要的。
4.挖掘監(jiān)測(cè)數(shù)據(jù)
在挖掘電力設(shè)備運(yùn)行的監(jiān)測(cè)數(shù)據(jù)時(shí),主要面臨著以下幾個(gè)問(wèn)題:①在將生產(chǎn)的實(shí)時(shí)數(shù)據(jù)庫(kù)作為基礎(chǔ),研究數(shù)據(jù)不準(zhǔn)確或是出現(xiàn)丟失的問(wèn)題;②在不同的數(shù)據(jù)中分析出正確數(shù)據(jù),去除噪聲和干擾的問(wèn)題;③由于實(shí)時(shí)數(shù)據(jù)隨時(shí)間而不斷的變化,如何挖掘具有動(dòng)態(tài)特性的數(shù)據(jù)的問(wèn)題;④如何優(yōu)化設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù),讓數(shù)據(jù)挖掘更便利的問(wèn)題;⑤研究出能有效的進(jìn)行數(shù)據(jù)挖掘的方法以及數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)的算法;⑥將發(fā)現(xiàn)的知識(shí)通過(guò)使用自然語(yǔ)言或可視化技術(shù),使用戶更易理解,為其決策提供方便。
5.結(jié)束語(yǔ)
隨著狀態(tài)檢修在這幾年的蓬勃發(fā)展,以及各大電網(wǎng)公司建設(shè)的狀態(tài)監(jiān)測(cè)中心等,為數(shù)據(jù)挖掘技術(shù)得以研究與應(yīng)用。同時(shí)隨著數(shù)據(jù)規(guī)模在電力設(shè)備檢測(cè)系統(tǒng)中的規(guī)模不斷擴(kuò)大,數(shù)據(jù)挖掘技術(shù)在其中的研究與應(yīng)用也越來(lái)越廣泛。(作者單位:平遠(yuǎn)縣水務(wù)局富石水庫(kù)工程管理所)
參考文獻(xiàn):
[1] 陳朝覲.基于數(shù)據(jù)挖掘的電力設(shè)備狀態(tài)檢修技術(shù)研究綜述[J].廣東電力,2010,9(22):234-236.
[2] 王杉.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與聯(lián)機(jī)分析處理.北京:科學(xué)出社.2009.90-92
[3] 邵風(fēng)景,于中青.數(shù)據(jù)挖掘原理與算法.北京:中國(guó)水利水電出版社,2011.23-25