何 傲,左黎斌,王 昕,何東瑩,趙 楠
(1. 云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院;云南 昆明 650217;2. 南方電網(wǎng)電能計(jì)量重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650217;3. 昆明理工大學(xué)信息工程與自動化學(xué)院,云南 昆明 650000)
近年來,隨著社會經(jīng)濟(jì)的快速發(fā)展,電力需求也在不斷增長。電能的準(zhǔn)確計(jì)量是供電企業(yè)生產(chǎn)經(jīng)營管理及電網(wǎng)經(jīng)濟(jì)穩(wěn)定運(yùn)行的重要環(huán)節(jié)。電能表是供電企業(yè)與用電客戶進(jìn)行電量結(jié)算的重要計(jì)量器具,電能表的計(jì)量準(zhǔn)確性直接關(guān)系到供電企業(yè)和用電客戶的經(jīng)濟(jì)效益[1]。作為電能表全生命周期質(zhì)量評價(jià)的重要一環(huán)[2],目前沒有成熟的電能表檢定的質(zhì)量評價(jià)策略[3],僅以合格與否來判斷同類別電能表檢定的質(zhì)量的依據(jù),無法全面反映電能表檢定的質(zhì)量差距。本文提出一種基于K-means算法的電能表檢定誤差分析方法,對電能表歷史檢定數(shù)據(jù)進(jìn)行分析與研究,為電能表質(zhì)量評價(jià)、設(shè)備選型、狀態(tài)評價(jià)甚至后期的運(yùn)行維護(hù)策略選擇提供科學(xué)、可靠的依據(jù)。
聚類又稱聚類算法、聚類分析、群分析等,它主要是運(yùn)用統(tǒng)計(jì)分析的思想,將樣本或指標(biāo)依據(jù)一定的原則,分成不同的聚類簇,從而使得聚類下的簇內(nèi)間樣本或指標(biāo)具有較大的相似性,簇外的相似性較小。同時,聚類也是解決數(shù)據(jù)挖掘的方法之一[4]。
聚類分析是由聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點(diǎn)。
聚類分析法在人們的生產(chǎn)、生活中應(yīng)用廣泛,例如在商業(yè)上,聚類可以幫助商家從數(shù)據(jù)庫中劃分出不同的消費(fèi)群體,依據(jù)消費(fèi)者的消費(fèi)習(xí)慣,針對性的進(jìn)行銷售。在數(shù)據(jù)挖掘上,聚類可以幫助人們發(fā)現(xiàn)數(shù)據(jù)庫中一些深層的信息,并表述其特點(diǎn),或者在某一個類上做深度分析[5]。
聚類算法的定義是指根據(jù)某一條件或者基準(zhǔn)將數(shù)據(jù)分成多個類,相同類中間的數(shù)據(jù)有著符合要求的相似度,不同的類中數(shù)據(jù)有著可解釋的差異性。
假定數(shù)據(jù)集 X,包含一個空間數(shù)據(jù) A, xi=(xi1, xi2,…xid),描述為數(shù)據(jù)集X中的第i個點(diǎn)。第i個數(shù)據(jù)點(diǎn)的j個屬性描述為xij。假定數(shù)據(jù)集X中包含 N個數(shù)據(jù),即 xi( i =1 ,2,… ,N ),那么就可以將數(shù)據(jù)集X描述為一個N· d階矩陣。根據(jù)聚類的思想,它主要是運(yùn)用統(tǒng)計(jì)分析的思想,將樣本或指標(biāo)依據(jù)一定的原則,分成不同的聚類簇,從而使得聚類下的簇內(nèi)間樣本或指標(biāo)具有較大的相似性,簇外的相似性較小。即設(shè)k為數(shù)據(jù)集分割的次數(shù),則每個聚類集為 Cm(m =1 ,2,… ,k)。則聚類的數(shù)學(xué)表示如下:
聚類方法雖然可以較好的解決分類上的問題,但是如果應(yīng)用不得當(dāng),可能得不到預(yù)想的結(jié)果[6],因此,聚類方法具有幾點(diǎn)要求:
(1)可伸縮性
多數(shù)的聚類算法在解決少量的數(shù)據(jù)是具有較好的聚類性,但面對大規(guī)模數(shù)據(jù)時,可能把控力不強(qiáng),從而造成聚類上的偏差。
(2)不同屬性
聚類算法不單單用來解決數(shù)值類型的聚類,還可以應(yīng)用在二元類型、標(biāo)稱類型或其混合型等。
(3)任意形狀
對于每個聚類下的簇來說,它的形狀可以是任意的,但是許多人對于相似度的度量方法都是采用歐幾里得距離或者曼哈頓距離,而這兩種度量方法更多的是解決球狀簇的,所以,人們應(yīng)該提出更多針對性的度量方法用以解決各種形狀的簇。
(4)領(lǐng)域最小化
用戶在使用聚類算法進(jìn)行聚類分析的時候,需要自行設(shè)定一個閾值,而這個閾值控制著簇內(nèi)的數(shù)目,聚類的結(jié)果對于這個閾值的設(shè)定十分敏感。通常情況下閾值的大小很難確定,尤其是對于高維的數(shù)據(jù)集來說。這樣使得用戶的負(fù)擔(dān)加重了,同樣也使得聚類的質(zhì)量無法得到保障。
(5)處理“噪聲”
對于需要進(jìn)行聚類的數(shù)據(jù)來說,有些數(shù)據(jù)是缺失或者錯誤的,而這些錯誤或者缺失的數(shù)據(jù)很有可能造成聚類的錯誤或者聚類質(zhì)量的降低。
(6)記錄順序
對于有些具有順序的數(shù)據(jù)來說,當(dāng)以不同的順序輸入到同一個聚類算法中時,可能造成不同的結(jié)果,所以,人們應(yīng)該提出更多針對具有順序性數(shù)據(jù)的聚類方法。
(7)高維度
對于海量的數(shù)據(jù)源來說,可能包含高維度的數(shù)據(jù),而很多聚類算法只是擅長處理低維度的數(shù)據(jù),最高二到三維,因此,在高維空間中進(jìn)行聚類是非常具有挑戰(zhàn)性的。尤其是這樣的數(shù)據(jù)可能呈現(xiàn)出非常稀疏的分布規(guī)律,而且高維度呈現(xiàn)偏斜的情況。
(8)基于約束
對于聚類分析在實(shí)際生產(chǎn)、生活中的應(yīng)用,這就要考慮在各種約束條件下進(jìn)行。假定任務(wù)是要對給定數(shù)目下的自動取款機(jī)設(shè)置安放位置,那么,既要考慮到居民較為密集的活動地點(diǎn)進(jìn)行聚類,又要考慮到交通問題,如城市中河流的分布情況、公路情況等,還需要考慮客戶的需求性等。因此,既要找到特定的約束條件,又要具備聚類的數(shù)據(jù)分組,這對于實(shí)際分析來說是比較困難的。
(9)解釋性、可用性
對于聚類的結(jié)果,用戶往往希望是可解釋的、可用的。即聚類需要和特定的語義解釋、應(yīng)用相結(jié)合。應(yīng)用目標(biāo)如何影響聚類方法的選擇也是一個重要研究內(nèi)容。
(10)樣本間的距離與相似度
在對數(shù)據(jù)進(jìn)行聚類分析是,首先應(yīng)找出數(shù)據(jù)間的相似度,按照數(shù)據(jù)間相似程度越高,數(shù)據(jù)越相似的思想進(jìn)行分類,其公式為:
式中,d——變量間的距離;
c——變量間的相似系數(shù)。
因此,需要計(jì)算出樣本間的距離。常用的計(jì)算樣本間距離的方法包括以下幾種。
(1)馬哈拉諾比斯距離(Mahalanobis Distance)
(2)閔可夫斯基距離(Minkowski Distance)
(3)歐幾里得距離(Euclidean Distance)
(4)切比雪夫距離(Chebyshev Distance)
(5)城區(qū)距離(City-block Distance)
(6)蘭氏距離(Canberra Distance)
(7)標(biāo)準(zhǔn)化歐幾里得距離(Standardized Euclidean Distance)
除了利用距離來度量樣本數(shù)據(jù)間的相似度,還可以利用夾角余弦和相關(guān)系數(shù)來確定。
(1)夾角余弦
(2)相關(guān)系數(shù)
總結(jié)上述公式,如果利用距離公式進(jìn)行相似度考量,則距離越小,相似度越高,如果利用相似系數(shù)進(jìn)行相似度考量,則結(jié)果越大,相似度越高。
聚類算法是一類將未知標(biāo)簽的數(shù)據(jù)對象集進(jìn)行分組的無監(jiān)督學(xué)習(xí)方法,其主要目的是實(shí)現(xiàn)同一組的數(shù)據(jù)對象間的相似性較高,而不同類的數(shù)據(jù)對象間的相似性較低。在探索性數(shù)據(jù)分析和數(shù)據(jù)挖掘中,聚類算法經(jīng)常用來發(fā)掘隱藏在數(shù)據(jù)中的部分或全部模式。因此,近幾年來聚類算法得到了廣泛的關(guān)注。常用的聚類算法分為七類,分別是劃分聚類法(Partition)、層次聚類法(Hierarchical)、密度聚類法(Density)、圖論聚類法(Graph)、網(wǎng)格聚類法(Grid)、模型聚類法(Model)以及混合聚類法(Hybrid)。
(1)劃分聚類法(Partition)
劃分聚類法的思想是首先對數(shù)據(jù)進(jìn)行相似性分組,然后將劃分好的數(shù)據(jù)依次放入到每組中,每一組即代表一個類,同時滿足每個類中至少含有一個數(shù)據(jù);每個數(shù)據(jù)僅屬于一個類。然后,通過一個數(shù)據(jù)對象定位技術(shù)循環(huán)調(diào)整數(shù)據(jù)對象所處的劃分,即反復(fù)迭代的過程。最終得到較好的分類效果?;趧澐志垲惖某S梅椒ㄓ蠯-means算法、PAM算法、CLARA算法、CLARANS算法、K-modes算法以及FCM算法等[7]。
基于劃分聚類的K-means算法的基本思想是根據(jù)預(yù)先設(shè)定好的參數(shù)K作為分組,然后從數(shù)據(jù)樣本中隨機(jī)選取K個數(shù)據(jù)作為各組的中心數(shù)據(jù),隨后依據(jù)相似度將其他數(shù)據(jù)進(jìn)行分類。將分類好的數(shù)據(jù)依據(jù)每類中的中心平均值再次聚類,經(jīng)過反復(fù)迭代得到最優(yōu)解[8]。
K-means算法的計(jì)算公式如下:
式中x——某個樣本;
ct——聚類中心樣本;
E——數(shù)據(jù)的平方差之和。
modes算法與K-means算法的唯一不同之處在于K-means算法選取的是中心平均值作為再次聚類的中心,而K-modes算法選用距離中心點(diǎn)距離最近的樣本代表該類。
(2)層次聚類法(Hierarchical)
層次聚類法的基本思想是采用距離作為樣本數(shù)據(jù)間相似程度的衡量標(biāo)準(zhǔn),自底向上的凝聚,或者自頂向下的分裂來達(dá)到最終的聚類效果。同時,在聚類的過程中,無法取消已經(jīng)完成的聚類,從而可以有效避免因生成類的數(shù)目問題而造成的誤差,但也正因如此,一旦聚類中發(fā)生錯誤,整個聚類都將錯誤?;趯哟尉垲惖某S梅椒ㄓ校築irch算法、CHAMELEON算法、CURE算法以及 MSCMO算法等[9]。
(3)凝聚層次聚類法
基于層次聚類的凝聚法的基本思想是首先將集合中的每個樣本數(shù)據(jù)分別看做一個類,然后根據(jù)樣本數(shù)據(jù)間的距離作為相似程度進(jìn)行聚類,得到的新類再次迭代,直到滿足條件為止。
凝聚算法的計(jì)算公式如下:
式中Ci——集合中第i個類;
Cj——集合中第j個類;
D(Ci,Cj)——集合中第i個類與集合中第 j個類的距離;
dpi,dpj——樣本i與樣本j之間的距離。
(4)分裂層次聚類法
基于層次聚類的分裂法的基本思想恰恰與凝聚法相反,即首先將所有樣本數(shù)據(jù)都放到一個類里邊,然后對整個類進(jìn)行迭代分裂,直到分裂為不同的類,滿足滿足條件為止。
(5)密度聚類法(Density)
密度聚類法的基本思想是針對非球狀數(shù)據(jù)集,將樣本數(shù)據(jù)看成是空間的,從而將數(shù)據(jù)密集的歸為一類。對密度聚類法的評價(jià)一般采用類內(nèi)方差法,基于密度聚類的常用方法有:DBSCAN算法、OPTICS算法、DENCLUE算法,SNN算法以及Fast Clustering算法。
(6)圖論聚類法(Graph)
圖論聚類法的基本思想是先將樣本數(shù)據(jù)集看成是一張圖,然后在一定的條件下,將圖分為若干個子圖,即分為若干個類,從而將樣本數(shù)據(jù)進(jìn)行聚類劃分?;趫D論聚類的常用方法有:AUTOCLUST算法、MST算法以及2-MSTClus算法等。
(7)網(wǎng)格聚類法(Grid)
網(wǎng)格聚類法的基本思想是首先將數(shù)據(jù)樣本集進(jìn)行空間量化,從而形成有限數(shù)目的、具有多分辨率的網(wǎng)格,然后在每個網(wǎng)格中進(jìn)行聚類。網(wǎng)格聚類法因?yàn)椴皇軙r間復(fù)雜度和數(shù)據(jù)大小的影響,所以運(yùn)行速度較快,但不適合高維數(shù)據(jù)的聚類?;诰W(wǎng)格聚類的常用方法有:STING算法、STING+算法、CLIQUE算法以及Wave Cluster算法等。
(8)模型聚類法(Model)
模型聚類法的基本思想是假設(shè)數(shù)據(jù)符合潛在分布規(guī)律的基礎(chǔ)上,它首先為每個聚類簇假設(shè)一個用于參考的模型,然后將數(shù)據(jù)集中的數(shù)據(jù)樣本與參考模型作比較,找到最佳逼近擬合即為分類結(jié)果?;谀P途垲惖某S梅椒ㄓ校篍M 算法以及 SOM算法。
(9)統(tǒng)計(jì)學(xué)法
Fisher提出的COBWEB方法的基本思想是采用啟發(fā)估算度量模式將樣本數(shù)據(jù)的最高效用值劃分到各類中。Genai提出的 CLASST方法是建立在COBWED方法的基礎(chǔ)上,主要針對處理連續(xù)性數(shù)據(jù)增量的問題。而Cheseman等人提出的AutoClass方法主要建立在貝葉斯的統(tǒng)計(jì)分析上,從而實(shí)現(xiàn)分類個數(shù)的估計(jì),也是生活中較為常用的。
(10)神經(jīng)網(wǎng)絡(luò)法
神經(jīng)網(wǎng)絡(luò)法的基本原理是采用樣本間數(shù)據(jù)距離的相似程度分析,并以此為依據(jù)將每個類描述為不對應(yīng)的對象實(shí)例。由于神經(jīng)網(wǎng)絡(luò)法是模擬人的大腦進(jìn)行實(shí)際處理,因此處理過程較為復(fù)雜,所以神經(jīng)網(wǎng)絡(luò)不適用于大量的樣本數(shù)據(jù)的聚類分析與處理。
(11)混合聚類法(Hybrid)
混合聚類法的基本思想是將多種聚類方法結(jié)合的思想,由于每種聚類都存在一定的確定,而將多種聚類方法相結(jié)合可以有效規(guī)避不足,吸收優(yōu)點(diǎn)?;谀P途垲惖某S梅椒ㄓ校篘N-Density算法、CSM算法等。
聚類有效性的評價(jià)標(biāo)準(zhǔn)有兩種:一是外部標(biāo)準(zhǔn),通過測量聚類結(jié)果和參考標(biāo)準(zhǔn)的一致性來評價(jià)聚類結(jié)果的優(yōu)良;另一種是內(nèi)部指標(biāo),用于評價(jià)同一聚類算法在不同聚類數(shù)條件下聚類結(jié)果的優(yōu)良程度,通常用來確定數(shù)據(jù)集的最佳聚類數(shù)[6]。
對于內(nèi)部指標(biāo),通常分為三種類型:基于數(shù)據(jù)集模糊劃分的指標(biāo);基于數(shù)據(jù)集樣本幾何結(jié)構(gòu)的指標(biāo);基于數(shù)據(jù)集統(tǒng)計(jì)信息的指標(biāo)?;跀?shù)據(jù)集樣本幾何結(jié)構(gòu)的指標(biāo)根據(jù)數(shù)據(jù)集本身和聚類結(jié)果的統(tǒng)計(jì)特征對聚類結(jié)果進(jìn)行評估,并根據(jù)聚類結(jié)果的優(yōu)劣選取最佳聚類數(shù),這些指標(biāo)有 Calinski-Harabasz(CH)指標(biāo),Davies-Bouldin(DB)指標(biāo)Weighted inter-intra(Wint)指標(biāo),Krzanowski-Lai(KL)指標(biāo),Hartigan(Har)指標(biāo),In-Group Proportion(IGP)指標(biāo)等。
本文主要使用較為常用的外部指標(biāo)和內(nèi)部指標(biāo)中的Calinski-Harabasz(CH)指標(biāo)、Davies-Bouldin(DB)指標(biāo)。
對于聚類分析所產(chǎn)生的聚類程度的結(jié)果好壞,一般由以下幾種方式進(jìn)行評定。
(1)假定分類中,集合 G中的類與類所設(shè)定的范圍為 T,則類與類之間任意兩個元素間的聚類dij均滿足:
(2)假定分類中,集合G中的類與類所設(shè)定的范圍為T,G中包含n個元素,則每個i元素均滿足:
(3)假定T和H都為給定的正數(shù),且HT?,集合G中的n個元素間的平均距離均滿足:
(4)假設(shè)類中 G有 n個樣本,n個樣本中的Xi的維度為 m,則每個數(shù)據(jù) Xi可以從以下幾個方面來描述G類。
1)平均值
2)樣本的離差矩陣
將其簡化整理得到:
3)類的直徑
或?qū)⑵浔硎緸椋?/p>
4)CH指標(biāo)
CH指標(biāo)通過類內(nèi)離差矩陣描述緊密度,類間離差矩陣描述分離度,指標(biāo)定義為 :
式中n——聚類的數(shù)目;
k——當(dāng)前的類;
trB(k)——類間離差矩陣的跡;
trW(k)——類內(nèi)離差矩陣的跡。
從表達(dá)式中可以得出 CH越大代表著類自身越緊密,類與類之間越分散,即更優(yōu)的聚類結(jié)果。
5)DB指標(biāo)
DB指標(biāo)通過描述樣本的類內(nèi)散度與各聚類中心的間距,定義為:
式中K——聚類的數(shù)目;
Cij——類與類之間的距離;
Wi——類Ci中的所有樣本到其聚類中心的平均距離;
Wj——類 Ci中的所有樣本到類 Cj中心的平均距離。
從表達(dá)式中可以看出,DB越小表示類與類之間的相似度越低,從而對應(yīng)越佳的聚類結(jié)果。最佳聚類數(shù)的確定過程一般是這樣的:給定 K的范圍[Kmin,Kmax],對數(shù)據(jù)集使用不同的聚類數(shù)K運(yùn)行同一聚類算法,得到一系列聚類結(jié)果,對每個結(jié)果計(jì)算其有效性指標(biāo)的值,最后比較各個指標(biāo)值,對應(yīng)最佳指標(biāo)值的聚類數(shù)即為最佳聚類數(shù)。
針對電能表檢定數(shù)據(jù)的特點(diǎn),選擇基于劃分聚類的K-means算法。
基于劃分聚類的K-means算法的基本思想是根據(jù)預(yù)先設(shè)定好的參數(shù)K作為分組,然后從數(shù)據(jù)樣本中隨機(jī)選取K個數(shù)據(jù)作為各組的中心數(shù)據(jù),隨后依據(jù)相似度將其他數(shù)據(jù)進(jìn)行分類。將分類好的數(shù)據(jù)依據(jù)每類中的中心平均值再次聚類,經(jīng)過反復(fù)迭代得到最優(yōu)解。
K-means聚類算法是用隸屬度確定每個數(shù)據(jù)點(diǎn)屬于某個聚類的程度的一種聚類算法。把n個向量xi(i=1,2,…,n)分為 c個模糊組,并求每組的聚類中心,使得非相似性指標(biāo)的價(jià)值函數(shù)達(dá)到最小。每個給定數(shù)據(jù)點(diǎn)用值在0,1間的隸屬度用來確定其屬于各個組的程度[10]。與引入模糊劃分相適應(yīng),隸屬矩陣 U允許有取值在 0,1間的元素。不過,加上歸一化規(guī)定,一個數(shù)據(jù)集的隸屬度的和總等于1:
那么,K-means的價(jià)值函數(shù)(或目標(biāo)函數(shù))的一般化形式:
這里iju介于0,1間;ci為模糊組I的聚類中心,dij=||ci-xj||為第I個聚類中心與第j個數(shù)據(jù)點(diǎn)間的歐幾里德距離;且是一個加權(quán)指數(shù)。
構(gòu)造如下新的目標(biāo)函數(shù),可求得使(25)式達(dá)到最小值的必要條件:
這里ij,j=1到n,是(24)式的n個約束式的拉格朗日乘子。對所有輸入?yún)⒘壳髮?dǎo),使式(25)達(dá)到最小的必要條件為:
和
由上述兩個必要條件,模糊C均值聚類算法是一個簡單的迭代過程。在批處理方式運(yùn)行時,K-means用下列步驟確定聚類中心ci和隸屬矩陣U:
步驟1:用值在0,1間的隨機(jī)數(shù)初始化隸屬矩陣U,使其滿足式(24)中的約束條件
步驟 2:用式(25)計(jì)算c個聚類中心 ci,i=1,…,c。
步驟 3:根據(jù)式(25)計(jì)算價(jià)值函數(shù)。如果它小于某個確定的閥值,或它相對上次價(jià)值函數(shù)值的改變量小于某個閥值,則算法停止。
步驟4:用式(26)計(jì)算新的U矩陣。返回步驟2。
上述算法也可以先初始化聚類中心,然后再執(zhí)行迭代過程。由于不能確保K-means收斂于一個最優(yōu)解。算法的性能依賴于初始聚類中心。因此,我們要么用另外的快速算法確定初始聚類中心,要么每次用不同的初始聚類中心啟動該算法,多次運(yùn)行K-means。
檢定數(shù)據(jù)中存在粗大誤差會直接影響電能表的檢定結(jié)論。粗大誤差是指明顯超出規(guī)定條件預(yù)期的誤差,也稱疏忽誤差或粗差,其會明顯歪曲測量結(jié)果,故也稱異常值(壞值)。導(dǎo)致粗大誤差產(chǎn)生的原因主要有:測量儀器不符合測量要求,本身存在缺陷;由于不可抗力或不可預(yù)估的瞬時性事件導(dǎo)致的計(jì)量器具測量偏差等等。在對測量數(shù)據(jù)進(jìn)行分析時,由于測量誤差客觀存在無法消除且具有分散性,很難直觀判別測量數(shù)據(jù)是否存在粗大誤差,因此需要運(yùn)用一定的判別準(zhǔn)則對粗大誤差進(jìn)行剔除,以得出較為準(zhǔn)確的結(jié)論,保障數(shù)據(jù)分析結(jié)果的可信度[11]。
可疑數(shù)據(jù)是一組測量數(shù)據(jù)中,明顯偏離其他次數(shù)測量值的測量數(shù)據(jù),需要進(jìn)行粗大誤差判別。測量數(shù)據(jù)含有粗大誤差情況極少發(fā)生,但為保證數(shù)據(jù)分析結(jié)論的準(zhǔn)確性,一方面需要對數(shù)據(jù)進(jìn)行判別并剔除其中的粗大誤差,另一方面也需要采用較為妥當(dāng)?shù)臏?zhǔn)則進(jìn)行判別,避免由于粗大誤差誤判對分析結(jié)果造成影響,因此在進(jìn)行測量數(shù)據(jù)分析之前,需要進(jìn)行預(yù)處理。數(shù)據(jù)的預(yù)處理是利用冗余測量數(shù)據(jù)來減少數(shù)據(jù)的隨機(jī)誤差的影響,實(shí)現(xiàn)粗大誤差識別,常用于統(tǒng)計(jì)實(shí)驗(yàn)中識別嚴(yán)重錯誤的數(shù)據(jù)。
對選出來的特征進(jìn)行數(shù)據(jù)預(yù)處理,主要有抽樣、空值處理、聚類處理幾個步驟,數(shù)據(jù)預(yù)處理的環(huán)節(jié)見圖1。
圖1 數(shù)據(jù)預(yù)流程示意圖Fig.1 Data preprocess diagram.
對所有數(shù)據(jù)進(jìn)行訓(xùn)練,會受到內(nèi)存和運(yùn)行時間的限制,因此對數(shù)據(jù)進(jìn)行抽樣是必經(jīng)步驟。抽樣方式的選擇影響最后的模型輸出。抽樣方式主要有隨機(jī)抽樣、系統(tǒng)抽樣、整群抽樣、分層抽樣四種[12]。
(1)隨機(jī)抽樣是用得最多的一種抽樣方法,用隨機(jī)抽簽的方式或隨機(jī)數(shù)字的方式確定抽樣結(jié)果。隨機(jī)抽樣原理簡單,但不適合數(shù)據(jù)分布層次明顯的數(shù)據(jù)集。
(2)系統(tǒng)抽樣是指按固定的間隔距離進(jìn)行抽樣,系統(tǒng)抽樣可操作性強(qiáng),但易受到參數(shù)發(fā)展趨勢持續(xù)遞增或遞減的影響。
(3)整群抽樣是指在抽樣前將被抽樣群體分成幾個類,抽樣結(jié)果直接選擇某個子類。
(4)分層抽樣顧名思義,在數(shù)據(jù)集分層基礎(chǔ)上,按比例對每層數(shù)據(jù)進(jìn)行抽取,形成一定大小數(shù)據(jù)集。一般在抽樣前需要對數(shù)據(jù)進(jìn)行摸底,瀏覽數(shù)據(jù)分布情況,如果數(shù)據(jù)時序性質(zhì)比較強(qiáng)則選擇線性隨機(jī)抽樣,保證參數(shù)的時序性。如果數(shù)據(jù)呈現(xiàn)出類別或?qū)哟我?guī)律,則選擇分層抽樣法,確保每種類別的數(shù)據(jù)都在抽樣數(shù)據(jù)集中。如果無法了解數(shù)據(jù)集的分布情況,數(shù)據(jù)隨機(jī)性強(qiáng),可以考慮系統(tǒng)抽樣。如果抽樣只為了提高數(shù)據(jù)處理效率,則選擇系統(tǒng)抽樣。本實(shí)驗(yàn)采用的抽樣方式為線性隨機(jī)抽樣,因?yàn)槟繕?biāo)預(yù)測量為帶著時序性質(zhì)的溫度指標(biāo),在建模預(yù)測過程中,要盡量保持其時序性。
數(shù)據(jù)清洗一般是對數(shù)據(jù)為空的值進(jìn)行清洗??罩狄话惆▋煞N情況:第一種是數(shù)值的不完整,另外一種則是數(shù)值為空。數(shù)值不完整是指值實(shí)際存在,但數(shù)據(jù)不完整,或者說沒有存入所屬字段。數(shù)據(jù)清洗所處理的是缺失值。處理方法有:可以從本數(shù)據(jù)源或其它數(shù)據(jù)源利用相關(guān)性推導(dǎo)出某些缺失值;可以用數(shù)據(jù)源的最小值、中間值、平均值、最大值或推測值;最后也可以通過手動輸入一個在接受范圍內(nèi)的人工經(jīng)驗(yàn)值等。
聚類指依據(jù)相似度把相似度高的數(shù)據(jù)放在一個類,使得類內(nèi)差異小,類間差異大,常見的聚類方法有 Partitioning algorithms,Hierarchy algorithms層次算法,Density-based基于密度,Grid-based基于網(wǎng)格,Model-based基于模型。聚類除了進(jìn)行簡單的類別劃分,將聚類進(jìn)行數(shù)據(jù)預(yù)處理的原理就是匹配實(shí)際的應(yīng)用場景,聚類能使相關(guān)性比較大的數(shù)據(jù)聚集在一類。本文基于聚類算法在異常值檢測中的應(yīng)用,結(jié)合電能表檢定數(shù)據(jù)的特性,將K-means聚類算法運(yùn)用在電能表檢定數(shù)據(jù)的處理上,得出電能表檢定誤差的幾種模式。
K-means聚類算法的K值大小和初始值的設(shè)定需要借助一定的評價(jià)標(biāo)準(zhǔn)。DBI(Davies-Bouldin 指數(shù))是一種評估度量聚類算法有效性的指標(biāo)。這個DBI就是計(jì)算類內(nèi)距離之和與類外距離之比,來優(yōu)化k值的選擇,避免K-means算法中由于只計(jì)算目標(biāo)函數(shù)J而導(dǎo)致局部最優(yōu)的情況。k取值太大,每組的分類值太少,特征不明顯。K取值小,影響聚類效果。對比K值從2到8的取值,DBI指數(shù)發(fā)現(xiàn)其在K=4的情況下DBI指數(shù)最小,因此本實(shí)驗(yàn)用的K值為4,如圖2所示。
圖2 DBI指數(shù)圖Fig.2 DBI index diagram
所使用的數(shù)據(jù)為來自于云南省地市供電局2017年4月的部分檢定數(shù)據(jù)。
不可預(yù)估的瞬時性事件導(dǎo)致的數(shù)據(jù)采集不成功,使原始智能電表數(shù)據(jù)產(chǎn)生臟數(shù)據(jù),為保證結(jié)果的準(zhǔn)確性,首先對原始記錄數(shù)據(jù)進(jìn)行了簡單的預(yù)處理,剔除了空值數(shù)據(jù)記錄。
選取4月份檢定數(shù)據(jù)3000條,剔除空值數(shù)據(jù)后剩余2910條檢定記錄。檢定部分?jǐn)?shù)據(jù)如下表1所示。表中數(shù)據(jù)為電能表在功率因數(shù)cos為0.5L和1.0時不同負(fù)載電流下的誤差。
將K-means聚類算法運(yùn)用在電能表檢定數(shù)據(jù)的處理上,得到電能表檢定誤差的幾種模式,見圖3。
對應(yīng)的聚類中心圖,見圖4。
不同生產(chǎn)廠家電能表檢定誤差處理后的散點(diǎn)圖,見圖5。
表1 部分電能表檢定數(shù)據(jù)Tab.1 verification data of some electric energy meter
圖3 電能表檢定誤差的幾種模式Fig.3 Several modes of verification error of electric energy meter
圖4 聚類中心圖Fig.4 Cluster center diagram
圖5 不同生產(chǎn)廠家電能表檢定誤差處理后的散點(diǎn)圖Fig.5 Scatter plot of verification error of electric energy meters of different manufacturers
表2 不同評價(jià)標(biāo)準(zhǔn)下電能表檢定的質(zhì)量Tab.2 Quality of electric energy meter verification under different evaluation criteria
從圖3、圖4、圖5可以看出,大部分電能表滿足仿真結(jié)果,從聚類結(jié)果可以看到電能表檢定的質(zhì)量大致可分為4類。
第一類,廠家1、廠家2和廠家3生產(chǎn)的電能表誤差比較小。
第二類,廠家 4在選取的標(biāo)準(zhǔn)下的百分比為80%左右。
第三類,這些電能表在選取的標(biāo)準(zhǔn)下的百分比為80%以下,為廠家5、廠家6、廠家7。
第四類,由于該廠家電能表數(shù)據(jù)樣本數(shù)少于50只,無法全面反映其質(zhì)量,不具備評價(jià)意義。
再次對第一檔的三家生產(chǎn)商電能表檢定質(zhì)量進(jìn)行對比,分別取評價(jià)標(biāo)準(zhǔn)為0~0.02、0~0.03和0~0.04三檔,得到表2數(shù)據(jù)。
從表中數(shù)據(jù)可以看出,廠家 1生產(chǎn)的電能表在 3個評價(jià)標(biāo)準(zhǔn)下的檢定質(zhì)量都優(yōu)于其他兩個廠商。
針對供電企業(yè)對電能表檢定的質(zhì)量評價(jià)的需求,結(jié)合歷史電能表檢定數(shù)據(jù)的特點(diǎn),本文提出運(yùn)用基于劃分聚類的K-means算法對電能表歷史檢定誤差進(jìn)行分析與研究。該方法可以分析、評價(jià)電能表檢定的質(zhì)量,為電能表全生命周期質(zhì)量評價(jià)、設(shè)備選型等提供科學(xué)、可靠的依據(jù)。