• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      子序列決策聚類下的光伏系統(tǒng)工況判別

      2022-06-08 03:59:18潘杰男劉光宇
      關鍵詞:均值聚類決策

      潘杰男,劉光宇,朱 凌

      (1.杭州電子科技大學自動化學院,浙江 杭州 310018;2.浙江財經大學信息管理與人工智能學院,浙江 杭州 310018)

      0 引 言

      近年來,光伏電站運行工況的故障診斷一般采用無監(jiān)督學習方法[1],解決了光伏電站工況數(shù)據(jù)異常樣本篩選困難的問題。一天獲取的光伏發(fā)電數(shù)據(jù)可能存在多種運行狀態(tài),對于高維時間序列數(shù)據(jù)運行工況的判別,文獻[2]將獲取到的光伏發(fā)電數(shù)據(jù)作為靜態(tài)數(shù)據(jù),直接使用聚類算法進行故障診斷,沒有考慮樣本點在時間維度上的分布特性;文獻[3]將時間序列數(shù)據(jù)的聚類分為全時間序列聚類和子序列時間序列聚類,后者又稱為子序列聚類,并利用固定的窗口對整段時間序列數(shù)據(jù)進行逐個分析,不能解決時間間隔不規(guī)則的數(shù)據(jù);文獻[4]指出全時間序列聚類算法的難點在于線段長度的選取,提出一種針對光伏時間序列數(shù)據(jù)的在線故障診斷方法,避免了序列的分割問題;文獻[5]先將時間序列數(shù)據(jù)分割成多個相對較短的時間序列樣本集,每個樣本表示一天的發(fā)電數(shù)據(jù),然后進行多種聚類算法,成功獲得光伏發(fā)電數(shù)據(jù)的中心序列,但在文獻[5]中,人為分割的依據(jù)是儀器的采樣時間,存在一定的先驗知識,而且將一天中所有數(shù)據(jù)點作為一個樣本,子序列可能存在多種運行狀態(tài),無法進一步得到多種具體工況的分類;文獻[6]指出,子序列聚類往往先采用滑動窗口提取多個子序列,再對子序列進行聚類,窗口的大小直接影響算法的性能。窗口太大,忽略了某些數(shù)據(jù)點的重要狀態(tài)信息;窗口太小,則耗費大量時間。為了獲得每個數(shù)據(jù)元素的標簽,文獻[7]將時間序列的每個元素都分配到包含它的子序列的多數(shù)標簽上,但其描述的決策方式可能產生沖突,如果某樣本點同時屬于2段子序列,而這2段子序列被聚類判別為不同類別,需對該點的類別進行計數(shù)決策,遇到計數(shù)相等時,該點的類別將無法進行合理判別。為了得到類簇信息與真實光伏發(fā)電系統(tǒng)工況相近的數(shù)據(jù),本文通過步長和大小均可變的滑動窗口提取多條子序列,再對重疊子序列進行決策,提出一種子序列決策聚類(Subsequence Decision Clustering, SDC)算法,對光伏系統(tǒng)的時間序列數(shù)據(jù)進行工況判別。

      1 符號定義

      為了便于理解光伏發(fā)電系統(tǒng)運行工況和本文聚類方法的描述,給出相關的符號、名詞與定義,如表1所示。

      表1 相關的符號說明

      2 子序列決策聚類算法

      針對一條多工況的光伏時間序列數(shù)據(jù),為了充分利用樣本點在時間上的關聯(lián)性,本文提出一種子序列決策聚類算法SDC,根據(jù)可變步長和大小的滑動窗口提取多條子序列,對子序列進行層次鏈接聚類,比較分析各子序列的多類別重疊區(qū)域的特征數(shù)據(jù)平均值,通過標簽決策得到最終標簽,算法流程如圖1所示。

      圖1 子序列決策聚類算法流程

      2.1 數(shù)據(jù)歸一化

      進行聚類分析前,往往需要對原始數(shù)據(jù)進行歸一化處理,得到利于算法分析的特征數(shù)據(jù)。從光伏電站采集到的原始數(shù)據(jù)一般包括光伏電池板的輻照度、溫度、輸入輸出電壓、電流及其他內外部數(shù)據(jù)等多維數(shù)據(jù),不同維度數(shù)據(jù)的單位不同,數(shù)值變化也不同,可采用數(shù)據(jù)變化的方式來消除這些差異。數(shù)據(jù)變化方式主要有min-max歸一化和z-score歸一化。對第i維,第j個樣本的min-max歸一化和z-score歸一化分別如下:

      (1)

      (2)

      2.2 聚類過程

      經過歸一化處理得到的特征數(shù)據(jù)仍擁有時間維度上的信息,直接將其載入到聚類算法進行模式判別時,依然會丟失數(shù)據(jù)點之間時間上的關聯(lián)性。為此,本文使用SDC算法進行數(shù)據(jù)的決策聚類,得到最后的聚類結果。算法的主要步驟如下。

      (1)提取新的子序列樣本集。設置一個長度為w,步長為s的可變滑動窗口(w>s+1)對多元時間序列進行提取,得到新的子序列樣本集

      (3)檢測重疊區(qū)域的類別。子序列包含多個樣本點,相同樣本點存在多種類別,將子序列重疊的區(qū)域分為O(k)={Oc(k)|k=1,2,…,m}[8],其中k表示重疊區(qū)域的序號,c表示重疊區(qū)域所屬子序列樣本集被劃分的所有類別。如果c的數(shù)量只有一類,則無需決策;如果大于一類,則需決策該重疊區(qū)域的所屬類別。

      (4)決策重疊區(qū)域的所屬類別。將重疊區(qū)域所屬的子序列樣本集分為多類,對每個樣本集進行均勻采樣,采樣數(shù)量為當前重疊區(qū)域所含原樣本點數(shù),如果重疊區(qū)域過長,則分段決策,每段長度為步長s。分別求采樣集合和待決策重疊區(qū)域的平均值,將重疊區(qū)域所含數(shù)據(jù)點的類別決策為均值與該重疊區(qū)域均值最相近的樣本的類別。

      2.3 最終結果及評價

      時間序列的每個時間樣本點都得到類別標簽后,從2個方面來評估聚類算法的聚類質量,一是通過對得到的結果進行反歸一化,得到各維度的類簇信息,計算各個類簇信息的均值,并與真實工況下均值進行比較,兩者的差異用相對誤差來表示;二是通過一系列外部評價指標[9]來評價聚類質量,本文選取3個較為常見的指標,分別為F-指標(F)、純度(P)、調整蘭德系數(shù)(A)。

      3 仿真實驗與分析

      首先,采用本文提出的SDC算法和文獻[10]采用的層次聚類算法對采集到的相同光伏發(fā)電時間序列數(shù)據(jù)進行聚類仿真,并與真實工況進行對比;然后,比較分析當前常用的層次聚類[10]、密度峰值聚類[11]、k-均值聚類[12]及本文算法的聚類外部評價指標。

      3.1 實驗數(shù)據(jù)采集及歸一化

      將自制的微型光伏發(fā)電系統(tǒng)置于晴朗的室外,在不同時間段設置4種工況,分別為正常(C1)、開路故障(C2)、全部遮陽(C3)、部分遮陽(C4)。對系統(tǒng)依次設置6段真實工況,分別為C1,C2,C1,C3,C1,C4,具體數(shù)據(jù)采集情況如表2所示。采集到光伏系統(tǒng)的原始數(shù)據(jù)X(t)∈R8×1 791,8個維度的數(shù)據(jù)分別為環(huán)境溫度T、輻照度G、光伏輸出電壓Vout、輸出電流Iout、逆變電壓Vtemp、逆變電流Itemp、負載電壓Vload、負載電流Iload,各個維度數(shù)據(jù)在6段真實工況的呈現(xiàn)如圖2所示。

      表2 不同工況的數(shù)據(jù)采集說明

      圖2 不同工況下,各維度原始數(shù)據(jù)

      根據(jù)圖2的原始數(shù)據(jù),在不同聚類數(shù)目K下,分別采用max-min歸一化和z-score歸一化進行數(shù)據(jù)轉換,得到的卡林斯基-哈拉巴斯指標(Calinski Harabasz,CH)[13]如圖3所示。

      圖3 不同聚類數(shù)目下,數(shù)據(jù)歸一化的CH指標

      圖3中,CH值越大表示聚類數(shù)目更優(yōu)[13],因此,本文選擇min-max歸一化進行仿真實驗。

      3.2 子序列決策聚類結果與分析

      采用w=400,s=200的滑動窗口對歸一化后的數(shù)據(jù)進行提取,得到新的子序列樣本集,由式(1)可以得到此對參數(shù)下子序列個數(shù)q=8,對8段子序列進行層次聚類。實驗中,序列之間的相似度計算采用文獻[14]的針對不等長序列之間的歐式距離,鏈接方式為文獻[15]的平均鏈接,得到聚類樹和對應子序列所屬類簇的決策如圖4所示。

      圖4 聚類樹及標簽決策過程

      由圖4(a)可以看出,當子序列樣本集被分為4類時,子序列2~6歸為一類,其他3個子序列各為一類。當標簽完成決策后,得到如圖4(b)所示的標簽分布。通過計算得到不同工況下每個維度各類簇的均值與真實工況的均值如表3所示。

      表3 不同工況下,各維度類簇均值與真實工況的比較

      3.3 不同聚類算法的判別結果

      為了比較各個維度數(shù)據(jù)在各個工況下相對誤差的準確性,分別采用本文算法、與文獻[13]相同歸一化處理后的層次聚類算法進行工況判別,得到4個類簇各維度的均值與真實工況的相對誤差如表4所示,其中的誤差1,誤差2,誤差3,誤差4分別表示算法得到的4個類簇與4種真實工況的相對誤差。

      表4 不同工況下,不同聚類算法各維度數(shù)據(jù)與真實工況的相對誤差 單位:%

      從表4可以看出,SDC算法得到的誤差結果中,相對誤差最高的是輸出電流這一維度數(shù)據(jù)的誤差1為15.01%,其余31組均在15%以下;層次聚類算法得到的結果中,輻照度這一維度數(shù)據(jù)的誤差2高達81.49%,同時其他大部分相對誤差也高于SDC算法;在27組數(shù)據(jù)中,本文提出的SDC算法均小于層次聚類算法,得到的類簇更接近真實工況。

      聚類的質量往往通過聚類的外部評價指標進行衡量,外部評價指標和相對誤差在一定程度上呈正相關。將文獻[10]的層次聚類算法、文獻[11]的密度峰值聚類算法、文獻[12]的k-均值算法和SDC算法的外部評價指標進行比較,結果如表5所示。

      表5 不同算法的外部評價指標

      由表5可以看出,SDC算法的3個外部評價指標都要高于層次聚類算法和密度峰值聚類算法,說明SDC算法的聚類質量要優(yōu)于這2種算法。在A指標上,k-均值聚類算法要高于SDC算法,但在F和P指標下,SDC算法優(yōu)于k-均值算法。

      實驗中,SDC算法將樣本集的結果標簽分成4段,雖然與真實工況的6段不一致,但在沒有先驗知識的情況下,和層次聚類算法相比,SDC算法得到的相對誤差更小。在與層次聚類算法、密度峰值聚類算法、k-均值算法的外部評價指標對比中,SDC算法除了A指標小于k-均值算法外,F(xiàn)和P指標均為最大。所以,SDC算法得到的類簇更趨近于真實工況,其聚類質量指標有較大優(yōu)勢,在本次光伏時間序列數(shù)據(jù)的工況分析實驗中取得更理想的結果。

      4 結束語

      本文主要研究光伏時間序列數(shù)據(jù)的工況分析,提出一種子序列決策聚類算法。既克服了普通層次聚類在時間序列聚類上的弱點,又改進了子序列聚類標簽決策過程,得到的類簇信息與真實工況的差異不大,實現(xiàn)了對光伏發(fā)電時間序列數(shù)據(jù)的工況判別。但是,本文通過實驗得到的聚類為4段,真實工況為6段,可能是選取的2個滑動窗口參數(shù)引起的。后續(xù)將針對窗口大小以及窗口步長的選擇展開進一步研究,選擇最優(yōu)參數(shù),從而得到更好的聚類結果。

      猜你喜歡
      均值聚類決策
      為可持續(xù)決策提供依據(jù)
      決策為什么失誤了
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      均值不等式失效時的解決方法
      均值與方差在生活中的應用
      基于改進的遺傳算法的模糊聚類算法
      關于均值有界變差函數(shù)的重要不等式
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      對偶均值積分的Marcus-Lopes不等式
      自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      洪湖市| 陆河县| 浦东新区| 凤阳县| 布尔津县| 元朗区| 荥阳市| 湖南省| 九龙县| 宜阳县| 松滋市| 如东县| 望城县| 辽源市| 镇沅| 宜君县| 贺兰县| 岳池县| 陵水| 固安县| 修水县| 安乡县| 芦溪县| 安陆市| 上饶市| 仁化县| 霞浦县| 濉溪县| 洛宁县| 博湖县| 勐海县| 盐边县| 渝北区| 罗源县| 凤阳县| 永顺县| 西乌珠穆沁旗| 息烽县| 应城市| 邛崃市| 东山县|