賽題背景
由于風(fēng)電場(chǎng)(尤其海上風(fēng)電場(chǎng))地處偏遠(yuǎn),人工維護(hù)困難,遠(yuǎn)程數(shù)據(jù)監(jiān)控系統(tǒng)(SCADA)能夠遠(yuǎn)程獲取風(fēng)機(jī)運(yùn)行狀態(tài)數(shù)據(jù),是風(fēng)電場(chǎng)健康運(yùn)行的保障。但是SCADA系統(tǒng)往往受到傳感器失效、網(wǎng)絡(luò)阻塞等各種因素的影響,導(dǎo)致數(shù)據(jù)的缺失。我們希望通過(guò)大數(shù)據(jù)分析,利用已知數(shù)據(jù)對(duì)缺失的部分?jǐn)?shù)據(jù)進(jìn)行估計(jì),盡量挽回由于數(shù)據(jù)缺失帶來(lái)的損失。
任務(wù)描述
我們抽取某一海上風(fēng)電場(chǎng)實(shí)際SCADA數(shù)據(jù),并人為地去除其中的部分?jǐn)?shù)據(jù),包括但不限于刪去某個(gè)時(shí)間段的全部數(shù)據(jù)、某臺(tái)機(jī)組在某段時(shí)間的數(shù)據(jù)、某臺(tái)機(jī)組在某段時(shí)間的部分字段信息等,參賽者需要利用剩余數(shù)據(jù)對(duì)刪去的數(shù)據(jù)進(jìn)行恢復(fù),最終以恢復(fù)的準(zhǔn)確度為評(píng)價(jià)基準(zhǔn)。
賽題內(nèi)容和方向
數(shù)獨(dú)游戲很多人都喜歡,尤其是小朋友。在一個(gè)9×9的矩陣?yán)锾钊肴笔У臄?shù)字,使得每行每列以及每個(gè)粗線格(3×3)內(nèi)的數(shù)字均含1到9,且不重復(fù)。在填滿數(shù)字的那一刻,就能立刻判斷是否正確。如果全部正確,將獲得極大的滿足感。那么SCADA數(shù)據(jù)又是什么呢?SCADA數(shù)據(jù)是用來(lái)記錄傳感器狀態(tài)的時(shí)間序列,包含多種數(shù)據(jù)類型。每行代表一個(gè)記錄時(shí)間點(diǎn),每列代表一個(gè)傳感器測(cè)點(diǎn)。從形式上來(lái)看,SCADA數(shù)據(jù)也是一個(gè)矩陣,只不過(guò)規(guī)模上比9×9的數(shù)獨(dú)游戲大得多。那么SCADA數(shù)據(jù)能不能也用來(lái)玩數(shù)獨(dú)游戲呢?答案是顯然的?!逗I巷L(fēng)場(chǎng)SCADA數(shù)據(jù)缺失智能修復(fù)》賽題正是模仿數(shù)獨(dú)游戲的做法,巧妙地刪除SCADA數(shù)據(jù)中的部分信息,希望比賽選手利用SCADA數(shù)據(jù)的相關(guān)性和冗余性,恢復(fù)刪除的SCADA數(shù)據(jù),二者的區(qū)別在于恢復(fù)的正確與否,不能通過(guò)簡(jiǎn)單的規(guī)則進(jìn)行判斷。
賽題價(jià)值
在目前工業(yè)互聯(lián)網(wǎng)時(shí)代,數(shù)據(jù)在工業(yè)領(lǐng)域起著非常重要的作用,數(shù)據(jù)不僅僅給產(chǎn)品的設(shè)計(jì)改良帶來(lái)指導(dǎo),同時(shí)通過(guò)數(shù)據(jù)分析,可以進(jìn)行智能運(yùn)維,提高發(fā)電量,可以為業(yè)主帶來(lái)更大的經(jīng)濟(jì)價(jià)值,對(duì)于海上風(fēng)機(jī)的智能運(yùn)維更加重要。
賽題難點(diǎn)
對(duì)于風(fēng)電行業(yè)SCADA數(shù)據(jù)而言,“風(fēng)”是最關(guān)鍵的環(huán)境變量。由于風(fēng)是瞬息萬(wàn)變的,所以為了更好地記錄風(fēng)的軌跡,SCADA數(shù)據(jù)的采樣頻率在逐漸增大。然而其他的一些變量(比如溫度)則是緩慢變化的,過(guò)高的采樣頻率將會(huì)帶來(lái)很大的冗余性,給網(wǎng)絡(luò)吞吐和存儲(chǔ)帶來(lái)很大的壓力。如果針對(duì)不同變量采用不同采樣頻率,又會(huì)增大SCADA系統(tǒng)的復(fù)雜性。如果確定一個(gè)合理的采樣頻率不是重點(diǎn),這里只是說(shuō)明數(shù)據(jù)冗余性的來(lái)源。SCADA數(shù)據(jù)中不同傳感器還存在很大的相關(guān)性,風(fēng)電機(jī)組是根據(jù)風(fēng)速的大小調(diào)節(jié)葉輪轉(zhuǎn)速和扭矩,以期最大程度地捕獲風(fēng)能,將風(fēng)能轉(zhuǎn)化為機(jī)械能,并進(jìn)一步轉(zhuǎn)化為電能的設(shè)備。
一方面,風(fēng)速的變化將會(huì)引起風(fēng)電機(jī)組內(nèi)部狀態(tài)變量(比如葉輪轉(zhuǎn)速、扭矩、發(fā)電功率等)一系列的連鎖反應(yīng),這些狀態(tài)變量跟風(fēng)速是強(qiáng)相關(guān)的。另一方面,在實(shí)際中SCADA數(shù)據(jù)真的會(huì)丟失,有時(shí)丟失比例還很驚人。原因有很多,有的是傳感器錯(cuò)誤導(dǎo)致的,有的是人為斷網(wǎng)導(dǎo)致的,有的是極端天氣造成的,還有程序出問(wèn)題導(dǎo)致記錄不完整的。比起這種完全不可控的數(shù)據(jù)丟失,賽題相對(duì)容易處理。相比當(dāng)今數(shù)據(jù)競(jìng)賽場(chǎng)上千篇一律的分類和回歸的預(yù)測(cè)類問(wèn)題,本賽題獨(dú)樹一幟的視角,從實(shí)際應(yīng)用出發(fā),巧妙地利用數(shù)獨(dú)游戲的思想,相信能給每個(gè)參賽選手不一樣的感覺(jué)。