• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      采用分布式DBSCAN算法的用電行為分析

      2018-07-04 13:30:08趙永彬王佳楠
      關(guān)鍵詞:用電量分布式用電

      趙永彬,陳 碩,劉 明,王佳楠,賁 馳

      1(國(guó)網(wǎng)遼寧省電力有限公司 信息通信調(diào)度監(jiān)控中心,沈陽(yáng) 110004)2(中國(guó)科學(xué)院 沈陽(yáng)計(jì)算技術(shù)研究所,沈陽(yáng) 110168)3(中國(guó)科學(xué)院大學(xué),北京 100049)4(國(guó)家電網(wǎng)東北電力調(diào)控分中心,沈陽(yáng) 110180)

      1 引 言

      作為電力系統(tǒng)的主要參與者,用戶個(gè)體的實(shí)時(shí)用電行為是評(píng)估電力系統(tǒng)當(dāng)前所處的運(yùn)行狀態(tài)的重要參考依據(jù).根據(jù)用戶的實(shí)時(shí)用電量數(shù)據(jù)可以實(shí)現(xiàn)對(duì)用戶用電行為特征的提取建模,基于用電行為特征的分析結(jié)果可以滿足包括異常用電行為的識(shí)別、用戶類型的評(píng)級(jí)、電網(wǎng)整體運(yùn)行狀態(tài)的評(píng)估等多個(gè)方面的分析需求[1].從而為電力資源調(diào)度、售電定價(jià)等電力系統(tǒng)運(yùn)營(yíng)策略的制定調(diào)整提供準(zhǔn)確科學(xué)的數(shù)據(jù)支持,進(jìn)一步提高電力企業(yè)的運(yùn)營(yíng)水平.

      對(duì)于省級(jí)電力公司而言,其業(yè)務(wù)所涉及的用戶數(shù)量已達(dá)到千萬(wàn)戶的數(shù)量級(jí),每小時(shí)將產(chǎn)生上百GB的實(shí)時(shí)用電量數(shù)據(jù).以Strom、Spark為代表的分布式計(jì)算系統(tǒng)憑借著其高效性、高可靠性、高可拓展性的優(yōu)勢(shì)[2],在滿足系統(tǒng)計(jì)算資源需求的同時(shí),提供了高效且易于開(kāi)發(fā)的分布式數(shù)據(jù)處理框架,為大規(guī)模數(shù)據(jù)的集中處理和快速分析提供了平臺(tái)保證.

      對(duì)于用電行為等無(wú)法進(jìn)行明確類別劃分的樣本數(shù)據(jù),適用于聚類等無(wú)監(jiān)督學(xué)習(xí)的分析方式,根據(jù)樣本點(diǎn)在整個(gè)樣本空間的分布情況,實(shí)現(xiàn)對(duì)各樣本點(diǎn)所屬的類別的劃分.相較于如k-means等基于劃分的聚類算法,DBSCAN等基于密度的聚類算法能夠克服局部不收斂、聚類結(jié)果易受初始設(shè)定影響等局限性[3].將聚類算法的分析思想與分布式計(jì)算框架的處理流程相結(jié)合,進(jìn)一步提高算法的處理效率,為大規(guī)模數(shù)據(jù)的處理分析提供了重要解決途徑.

      本文采用基于密度聚類的DBSCAN算法實(shí)現(xiàn)對(duì)用戶用電行為類型的標(biāo)注,根據(jù)標(biāo)注的離群點(diǎn)識(shí)別異常用電行為.將DBSCAN密度可達(dá)的搜索合并思想與區(qū)域劃分、聚類合并等層次聚類的策略相結(jié)合[4],使用Spark分布式內(nèi)存計(jì)算框架所提供的處理架構(gòu)實(shí)現(xiàn)聚類算法的并行化,提高算法的處理規(guī)模.將各子簇中的邊界樣本作為本簇的特征點(diǎn),降低聚類合并過(guò)程中的計(jì)算開(kāi)銷,進(jìn)一步提高分布式DBSCAN算法的效率.最后,基于實(shí)際的用電量數(shù)據(jù)驗(yàn)證分布式DBSCAN算法在數(shù)據(jù)處理規(guī)模、算法執(zhí)行效率及準(zhǔn)確性上的優(yōu)勢(shì).

      2 行為特征提取與分析平臺(tái)選擇

      為保證電網(wǎng)運(yùn)營(yíng)狀態(tài)的準(zhǔn)確實(shí)時(shí)監(jiān)控,電力公司以秒級(jí)的時(shí)間粒度讀取每一個(gè)用戶的實(shí)時(shí)用電量數(shù)據(jù),而單純的用電量數(shù)值數(shù)據(jù)無(wú)法準(zhǔn)確直觀的反應(yīng)用戶真實(shí)的用電行為.考慮到省級(jí)電力公司千萬(wàn)級(jí)的用戶規(guī)模,在對(duì)用戶用電行為特征進(jìn)行提取分析時(shí),應(yīng)選用能夠滿足大數(shù)據(jù)量和高實(shí)時(shí)性處理性能需求的數(shù)據(jù)處理分析平臺(tái).

      2.1 用電行為特征的提取構(gòu)建

      作為一種階段性的狀態(tài)描述,用電行為特征可以由用戶一段時(shí)間內(nèi)的實(shí)時(shí)用電量數(shù)據(jù)進(jìn)行提取構(gòu)建.因此,本文選擇以5 min為一個(gè)時(shí)間窗,根據(jù)當(dāng)前時(shí)間窗內(nèi)的實(shí)時(shí)用電量數(shù)據(jù)完成用戶本時(shí)間窗內(nèi)用電行為特征的抽取建模,見(jiàn)表1.

      表1 用電行為特征參數(shù)Table 1 Characteristic parameters of power consumption

      為實(shí)現(xiàn)對(duì)用戶用電行為的全面描述,本文采用各時(shí)間窗內(nèi)實(shí)時(shí)用電量的平均值、方差、最大值、最小值4項(xiàng)統(tǒng)計(jì)指標(biāo),各時(shí)間窗內(nèi)以1分鐘為采樣間隔的瞬時(shí)用電量及變化率各5條樣本數(shù)據(jù)以及描述用電量數(shù)據(jù)變化波動(dòng)情況的10個(gè)頻域特征,構(gòu)造出包含24維特征的用戶用電行為特征向量實(shí)現(xiàn)對(duì)用戶單個(gè)時(shí)間窗內(nèi)用電行為的描述.其中,描述用電量變化情況的頻域特征由時(shí)間窗內(nèi)的實(shí)時(shí)用電量經(jīng)過(guò)離散傅里葉變換(DFT)[5]后的結(jié)果合并提取后獲得.

      對(duì)于時(shí)間窗內(nèi)N個(gè)(0≤n≤N-1)實(shí)時(shí)用電量數(shù)據(jù)構(gòu)成的有限長(zhǎng)序列x(n),它的離散傅里葉變換x(k)仍為一個(gè)長(zhǎng)度為N(0≤k≤N-1)的頻域有限長(zhǎng)序列.則有:

      (1)

      將經(jīng)過(guò)離散傅里葉變換后的序列中每個(gè)頻域分量wi對(duì)應(yīng)的幅值記作ai.將各頻域分量進(jìn)行排序后等距劃分為10個(gè)頻域區(qū)間,則描述實(shí)時(shí)用電量變化情況的10個(gè)頻域特征值由各頻域區(qū)間內(nèi)所有頻域分量的幅值進(jìn)行求和后得到.

      為避免噪聲數(shù)據(jù)和缺失值的影響,對(duì)每個(gè)用戶各時(shí)間窗內(nèi)的實(shí)時(shí)用電量數(shù)據(jù)進(jìn)行等距分箱,在分箱內(nèi)對(duì)數(shù)據(jù)進(jìn)行抽樣平滑等預(yù)處理操作.最終,對(duì)于每個(gè)時(shí)間窗內(nèi)保留50個(gè)數(shù)據(jù)點(diǎn),用以進(jìn)行特征的提取和構(gòu)建.

      2.2 基于流計(jì)算的特征提取平臺(tái)

      作為典型的Master-Worker架構(gòu)的分布式流計(jì)算系統(tǒng),Apache Storm大吞吐量、高可擴(kuò)展性、高容錯(cuò)性、高可靠性和易操作性的性能優(yōu)勢(shì)[6],使其能夠高效的完成對(duì)大規(guī)模用戶高時(shí)間密度的實(shí)時(shí)用電量數(shù)據(jù)進(jìn)行的整合、清洗及特征構(gòu)建等一系列操作.

      圖1 Storm內(nèi)部處理邏輯圖Fig.1 Storm internal processing logic diagram

      在如圖1所示的Storm流作業(yè)處理邏輯中,Storm將數(shù)據(jù)處理操作劃分為用以進(jìn)行數(shù)據(jù)接入的Spout和用以進(jìn)行數(shù)據(jù)處理的Bolt兩大類.結(jié)合Kafka分布式消息隊(duì)列[7],將持續(xù)產(chǎn)生的實(shí)時(shí)用電量數(shù)據(jù)根據(jù)其所對(duì)應(yīng)的用戶來(lái)源劃分入對(duì)應(yīng)的Topic中,實(shí)現(xiàn)數(shù)據(jù)的并行化接入.

      為特征提取過(guò)程的數(shù)據(jù)劃分、分箱平滑、抽樣、均值方差統(tǒng)計(jì)、頻域特征構(gòu)建、特征歸一化等一系列操作定義對(duì)應(yīng)的Bolt邏輯.同時(shí),設(shè)置Bolt之間的數(shù)據(jù)傳遞方向,在提高數(shù)據(jù)并行化處理效率的同時(shí),實(shí)現(xiàn)處理邏輯的高效復(fù)用.

      2.3 基于內(nèi)存計(jì)算的行為分析平臺(tái)

      Spark是由加州大學(xué)伯克利分校AMP實(shí)驗(yàn)室開(kāi)發(fā)的分布式內(nèi)存計(jì)算系統(tǒng),憑借與Hadoop的HDFS和YARN具有良好的兼容特性,使其擁有能夠高效可靠的處理大規(guī)模數(shù)據(jù)的性能優(yōu)勢(shì).基于彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets,RDD)的抽象概念實(shí)現(xiàn)大規(guī)模數(shù)據(jù)在集群內(nèi)存中的統(tǒng)一管理和處理分析[8],解決了傳統(tǒng)MapReduce分布式數(shù)據(jù)處理框架將中間結(jié)果數(shù)據(jù)保留入磁盤,不適合處理機(jī)器學(xué)習(xí)算法中大規(guī)模迭代運(yùn)算的性能短板.

      在Spark中,RDD被定義為只讀的、分區(qū)記錄集合,可以通過(guò)程序中的容器對(duì)象、文件系統(tǒng)中的序列化文件以及其他RDD等多種來(lái)源進(jìn)行構(gòu)造.通過(guò)定義合理的RDD分區(qū)策略,提高對(duì)RDD轉(zhuǎn)換(Transformation)和動(dòng)作(Action)兩類基本操作的處理效率.

      3 DBSCAN聚類算法的分布式實(shí)現(xiàn)

      基于密度的聚類算法具有能夠挖掘出任意形狀的聚類簇、避免噪聲數(shù)據(jù)對(duì)聚類結(jié)果和收斂效率產(chǎn)生影響的性能優(yōu)勢(shì).為適應(yīng)大規(guī)模數(shù)據(jù)集的分析處理需求,需要采用分布式計(jì)算的策略提升算法對(duì)大規(guī)模數(shù)據(jù)的處理能力.為進(jìn)一步提高算法的性能,通過(guò)對(duì)聚類簇生成過(guò)程中樣本點(diǎn)的搜索合并策略進(jìn)行優(yōu)化,降低計(jì)算過(guò)程中的時(shí)間和存儲(chǔ)開(kāi)銷.

      3.1 DBSCAN聚類算法的核心思想

      DBSCAN聚類算法通過(guò)評(píng)估各樣本點(diǎn)之間的密度可達(dá)性,將所有密度相連的樣本點(diǎn)構(gòu)成一個(gè)獨(dú)立的聚類簇[9],并將每個(gè)聚類簇的大小與算法設(shè)置的參數(shù)閾值MinPts進(jìn)行比較,將樣本個(gè)數(shù)小于MinPts的簇標(biāo)記為噪聲簇.

      對(duì)于每一個(gè)樣本點(diǎn),其E-鄰域內(nèi)即距離小于鄰域半徑Eps的所有樣本點(diǎn)都是密度可達(dá)的.在樣本空間中常用的距離衡量標(biāo)準(zhǔn)為歐氏距離,但也可以根據(jù)樣本分布特征選用其他的距離衡量標(biāo)準(zhǔn).同時(shí),密度可達(dá)性具備可傳遞性,即對(duì)于圖2中的樣本點(diǎn)p,與其E-鄰域內(nèi)存在的樣本點(diǎn)m是密度可達(dá)的.同理,樣本點(diǎn)q與m也為密度可達(dá)的,則樣本點(diǎn)p與樣本點(diǎn)q之間也為密度可達(dá)的.

      圖2 密度可達(dá)性原理圖Fig.2 Density-reachable diagram

      由于密度可達(dá)為單向的傳遞概念,圖2中樣本點(diǎn)o到樣本點(diǎn)s和r均為密度可達(dá)的,則認(rèn)為樣本點(diǎn)s與r為密度相連的.因此,DBSCAN聚類算法在選定未進(jìn)行類別標(biāo)注的樣本點(diǎn)后,根據(jù)算法選用的距離衡量標(biāo)準(zhǔn),將E-鄰域內(nèi)所有密度可達(dá)的樣本點(diǎn)加入聚類簇后,根據(jù)密度可達(dá)性的傳遞性特點(diǎn)將新加入點(diǎn)的E-鄰域內(nèi)所有的樣本加入聚類簇,直至找不到新的樣本點(diǎn)加入,最終令所有的樣本點(diǎn)與所屬簇中的所有樣本點(diǎn)均為密度相連的.

      通過(guò)對(duì)每一個(gè)簇中新加入樣本點(diǎn)的E-鄰域進(jìn)行搜索拓展,DBSCAN算法能夠挖掘出任意形狀的聚類簇.由于DBSCAN算法所生成聚類簇的樣本點(diǎn)個(gè)數(shù)至少為1,因此其能確保每一個(gè)樣本點(diǎn)都擁有自己對(duì)應(yīng)的類別標(biāo)注,通過(guò)設(shè)置合理的MinPts參數(shù),將密度不符合要求的聚類簇標(biāo)記為噪聲,使算法能夠更好的識(shí)別噪聲數(shù)據(jù).

      3.2 DBSCAN算法的分布式計(jì)算過(guò)程

      當(dāng)單臺(tái)計(jì)算機(jī)的存儲(chǔ)資源遠(yuǎn)遠(yuǎn)無(wú)法滿足大規(guī)模數(shù)據(jù)集的處理需求時(shí),傳統(tǒng)的DBSCAN算法無(wú)法保證對(duì)所有新加入樣本點(diǎn)的E-鄰域進(jìn)行全面的搜索.層次聚類基于分治策略的算法思想將樣本空間細(xì)分為多個(gè)子空間,在子空間內(nèi)完成聚類分析后,再對(duì)各個(gè)子空間中獲得的聚類簇進(jìn)行合并獲得最終的聚類結(jié)果[10],為實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的聚類分析提供了有效的解決思路.

      對(duì)于擁有N維特征的無(wú)標(biāo)注樣本集,將其每一維特征進(jìn)行2k等分后可以獲得2kN個(gè)樣本子空間.在每一個(gè)樣本子空間中,使所有密度相連的樣本構(gòu)成一個(gè)聚類簇,并將各個(gè)樣本子空間中的聚類子簇依次進(jìn)行合并得到最終的聚類結(jié)果.因此,DBSCAN算法的分布式實(shí)現(xiàn)過(guò)程如下所示:

      1)設(shè)置合適的算法參數(shù):Eps和MinPts,并定義樣本空間中的距離衡量標(biāo)準(zhǔn)Distance(p,q)

      2)將每個(gè)樣本點(diǎn)i的初始簇類別標(biāo)注記為ci,并對(duì)N維樣本特征的值域分別進(jìn)行2k等分,獲得最初的樣本子空間集合S={s1,s2,…,st}并保證初始樣本子空間各維度的寬度大于所設(shè)置的Eps.

      3)將各聚類簇根據(jù)其所包含樣本點(diǎn)所屬的樣本子空間進(jìn)行分組,分別在各樣本子空間內(nèi)進(jìn)行聚類簇的合并.

      4)對(duì)于每一個(gè)樣本子空間st,若st中存在兩個(gè)分屬于聚類簇ca和cb的樣本點(diǎn)是密度相連的,則將兩個(gè)聚類簇的類別標(biāo)注統(tǒng)一為ca.

      7)將樣本點(diǎn)個(gè)數(shù)小于MinPts的聚類簇的類別標(biāo)簽標(biāo)注為噪聲數(shù)據(jù)類別,獲得最終的聚類結(jié)果.

      3.3 基于邊界特征提高聚類合并效率

      在分布式DBSCAN聚類算法中,兩個(gè)不同類別標(biāo)注的聚類簇合并依據(jù)為存在兩個(gè)類別不同的樣本點(diǎn)是密度可達(dá)的.在已有的分布式DBSCAN聚類算法的實(shí)現(xiàn)方式中,通常采用增量合并的方式[11],即在合并各樣本子空間中的聚類簇時(shí),令某單個(gè)樣本子空間的聚類簇作為合并基準(zhǔn),再加入其他樣本子空間中的聚類簇,實(shí)現(xiàn)聚類簇的合并.在聚類簇合并檢測(cè)時(shí),需要計(jì)算待加入聚類簇中所有的樣本點(diǎn)與基準(zhǔn)聚類簇樣本點(diǎn)的密度連通性,會(huì)產(chǎn)生較大的計(jì)算開(kāi)銷.

      圖3 分布式DBSCAN聚類簇合并原理圖Fig.3 Cluster merging diagram of distributed DBSCAN

      在圖3所示的聚類簇合并過(guò)程中,檢測(cè)來(lái)自于不同樣本子空間的兩個(gè)聚類簇能否進(jìn)行合并時(shí),對(duì)于每一個(gè)簇C只需保留到樣本子空間邊界E={e1,e2,…,es}的距離小于Eps的樣本點(diǎn),即P={p1|distance(pi,es)

      盡管層次聚類分治合并的算法思想與分布式計(jì)算框架相結(jié)合能夠?qū)崿F(xiàn)對(duì)大規(guī)模數(shù)據(jù)的分析處理,但在聚類簇合并過(guò)程中會(huì)產(chǎn)生巨大的存儲(chǔ)開(kāi)銷,即由單個(gè)節(jié)點(diǎn)完成對(duì)來(lái)源于多個(gè)節(jié)點(diǎn)數(shù)據(jù)的合并匯總.由于兩個(gè)聚類簇的合并依據(jù)為其特征點(diǎn)集合之間是否存在密度相連的樣本點(diǎn),因此在聚類合并時(shí),只需將各聚類簇的編號(hào)及其特征樣本集合作為輸入,獲得聚類簇原編號(hào)與新編號(hào)間的對(duì)應(yīng)關(guān)系及新聚類簇的特征點(diǎn)集合.在全局中只需維護(hù)樣本點(diǎn)ID與其所屬聚類簇編號(hào)的對(duì)應(yīng)關(guān)系,在每次聚類合并過(guò)程后,更新各樣本所屬的類別,僅保留各聚類簇特征點(diǎn)集合內(nèi)樣本點(diǎn)的特征值.

      相較于原有分布式DBSCAN算法所采用的增量合并策略,在聚類合并時(shí)僅比對(duì)特征點(diǎn)集合中樣本間的密度連通性,減少了不必要的計(jì)算操作.同時(shí),也降低了層次聚類策略在聚類合并階段的存儲(chǔ)需求,避免層次聚類的性能瓶頸.在簇內(nèi)樣本點(diǎn)較為分散或?qū)Ω蠓秶鷺颖咀涌臻g進(jìn)行合并等非特征點(diǎn)比重較大的情況下,對(duì)聚類合并過(guò)程的優(yōu)化更為明顯.

      3.4 基于Spark實(shí)現(xiàn)高效的迭代運(yùn)算

      通過(guò)將數(shù)據(jù)處理過(guò)程抽象為對(duì)RDD的操作,Spark在實(shí)現(xiàn)對(duì)數(shù)據(jù)分布式處理的同時(shí),將數(shù)據(jù)處理過(guò)程中的中間結(jié)果存放在內(nèi)存中,降低了對(duì)數(shù)據(jù)進(jìn)行分布式迭代分析時(shí)的數(shù)據(jù)讀寫開(kāi)銷,使計(jì)算分析過(guò)程能夠高效進(jìn)行.

      在如圖4所示的算法實(shí)現(xiàn)過(guò)程中,RDD1和RDD4由存放在HDFS上的原始數(shù)據(jù)集文件轉(zhuǎn)換而成.其中,RDD4中的每個(gè)元素以的格式存放各樣本點(diǎn)所屬的類別編號(hào).RDD1中則以>的形式存放各個(gè)聚類簇所對(duì)應(yīng)的特征點(diǎn).在進(jìn)行算法的初始化時(shí),每個(gè)樣本點(diǎn)被分配單獨(dú)的聚類簇編號(hào),每個(gè)聚類簇的特征點(diǎn)為與之對(duì)應(yīng)的樣本點(diǎn).

      圖4 分布式DBSCAN算法在Spark上的實(shí)現(xiàn)過(guò)程Fig.4 Process of distributed DBSCAN on Spark

      在設(shè)置算法參數(shù)Eps和MinPts的同時(shí),確定樣本空間的距離衡量標(biāo)準(zhǔn)Distance(p,q)和特征劃分粒度2k.對(duì)RDD1進(jìn)行g(shù)roupBy操作,將各聚類簇根據(jù)其特征點(diǎn)的位置分入對(duì)應(yīng)的樣本子空間后生成RDD2.其中,RDD2中的各個(gè)元素以>>的形式存放每個(gè)樣本子空間中各聚類簇的編號(hào)及其特征點(diǎn).

      對(duì)RDD2中的各元素進(jìn)行map操作,即分別對(duì)每個(gè)樣本子空間內(nèi)的聚類簇進(jìn)行合并,獲得聚類合并后的結(jié)果.并以>>的元素格式生成RDD3,存儲(chǔ)各樣本子空間內(nèi)的聚類簇經(jīng)過(guò)聚類合并后的類別編號(hào)及原始編號(hào).

      將RDD3與RDD4進(jìn)行以原始類別編號(hào)進(jìn)行right join操作,更新類別編號(hào)發(fā)生改動(dòng)的樣本點(diǎn),并以RDD4的原有元素形式保留操作結(jié)果作為新的RDD4.對(duì)RDD3按照新的類別編號(hào)進(jìn)行reduce操作,并按照當(dāng)前樣本子空間的邊界更新簇的特征點(diǎn),僅保留擁有特征點(diǎn)的聚類子簇,以RDD1的元素形式保留待合并的聚類子簇作為新的RDD1.

      4 實(shí)驗(yàn)結(jié)果分析與算法性能評(píng)估

      本文采用的實(shí)驗(yàn)環(huán)境為由5臺(tái)PC機(jī)構(gòu)成的小型分布式集群.其中,每臺(tái)PC機(jī)均配備Intel Core I5 6500處理器和8G內(nèi)存的存儲(chǔ)計(jì)算資源.集群中部署了包括Kafka、Storm、Hadoop、Spark等完成分布式存儲(chǔ)計(jì)算任務(wù)的系統(tǒng)組件.

      為檢驗(yàn)文中提出的分布式DBSCAN聚類算法在較大規(guī)模數(shù)據(jù)集上的分析效果和處理能力.本文選用某省電力公司10萬(wàn)戶用戶在2016年6月10日的用電高峰時(shí)段內(nèi)1小時(shí)的實(shí)時(shí)用電量數(shù)據(jù),并將其按時(shí)間順序依次寫入Kafka中相應(yīng)的話題.以Kafka為數(shù)據(jù)源調(diào)用Storm流處理作業(yè),以5 min為時(shí)間窗對(duì)每個(gè)用戶的實(shí)時(shí)用電量數(shù)據(jù)進(jìn)行預(yù)處理及特征提取操作,獲得共計(jì)120萬(wàn)條用電行為特征記錄,作為驗(yàn)證實(shí)驗(yàn)結(jié)果的原始數(shù)據(jù)集.

      4.1 用電行為分析的實(shí)驗(yàn)結(jié)果

      使用本文提出的分布式DBSCAN聚類算法在Spark中對(duì)原始數(shù)據(jù)集進(jìn)行聚類分析,從異常用電行為識(shí)別和用戶用電等級(jí)評(píng)估兩個(gè)方面的分析結(jié)果對(duì)算法結(jié)果的準(zhǔn)確性進(jìn)行評(píng)估.當(dāng)算法的Eps參數(shù)和MinPts參數(shù)分別設(shè)為0.57和5時(shí),原始數(shù)據(jù)集被劃分為5個(gè)聚類簇,以實(shí)現(xiàn)對(duì)5個(gè)用戶用電等級(jí)的對(duì)應(yīng).對(duì)于不屬于任何一個(gè)聚類簇的樣本,則統(tǒng)一被標(biāo)注為噪聲數(shù)據(jù).

      表2 聚類標(biāo)注與實(shí)際用電等級(jí)對(duì)比Table 2 Comparison of cluster label and actual level

      將每個(gè)用戶的12個(gè)時(shí)間窗對(duì)應(yīng)樣本中占比最大的樣本類別作為該用戶的類別標(biāo)注.分別統(tǒng)計(jì)各個(gè)聚類類別所對(duì)應(yīng)的用戶數(shù),與原有的用戶用電等級(jí)標(biāo)注進(jìn)行對(duì)比.由表2中的對(duì)比結(jié)果可知,DBSCAN聚類算法對(duì)用戶類型的劃分結(jié)果與實(shí)際對(duì)應(yīng)的用電等級(jí)分布基本相同.

      異常用電行為識(shí)別的準(zhǔn)確性則使用正確率(Precision)和召回率(Recall)兩個(gè)指標(biāo)進(jìn)行衡量.將聚類結(jié)果中標(biāo)注的463個(gè)噪聲樣本點(diǎn)與各自對(duì)應(yīng)時(shí)間窗中是否出現(xiàn)異常用電行為的警告記錄進(jìn)行比對(duì),可以得到本算法在異常用電行為識(shí)別上的正確率為87.57%,召回率為94.81%.

      由實(shí)驗(yàn)結(jié)果可知,本文中的分布式DBSCAN聚類算法在用戶用電行為的分析上具有較高的準(zhǔn)確性.憑借基于密度的聚類策略,DBSCAN算法能夠根據(jù)樣本點(diǎn)的分布特性實(shí)現(xiàn)聚類,同時(shí)不易受到噪聲數(shù)據(jù)的影響,但結(jié)果中的類別數(shù)量由算法參數(shù)決定,需要調(diào)整參數(shù)才能獲得所需的類別數(shù)目.

      4.2 改進(jìn)分布式DBSCAN算法的性能評(píng)估

      文中提出的分布式DBSCAN算法采用僅保留聚類簇邊界特征樣本點(diǎn)作為聚類合并依據(jù)的策略,降低不必要的計(jì)算開(kāi)銷,從而提高聚類合并過(guò)程的效率.為檢驗(yàn)該策略對(duì)算法性能的提升效果,本文將原有采用增量合并策略的分布式DBSCAN聚類算法與Spark MLlib庫(kù)中提供的分布式k-means算法[12]作為對(duì)比.分別保留原始數(shù)據(jù)集中30萬(wàn)、60萬(wàn)、90萬(wàn)及120萬(wàn)條用電行為特征記錄構(gòu)成不同規(guī)模的數(shù)據(jù)集用以驗(yàn)證算法的性能.

      在參數(shù)設(shè)定上,對(duì)于分布式k-means算法,將算法中對(duì)應(yīng)的類別參數(shù)K設(shè)為10,迭代輪次n設(shè)為1000,收斂閾值α設(shè)為0.05.對(duì)于分布式DBSCAN算法,將Eps設(shè)為0.57,MinPts設(shè)為5,對(duì)于每一維特征采取16等分,兩類算法的距離衡量標(biāo)準(zhǔn)均采用歐氏距離.

      表3 各算法在不同規(guī)模數(shù)據(jù)集上的時(shí)間開(kāi)銷Table 3 Time cost of each algorithm on different data sets

      由表3中的實(shí)驗(yàn)結(jié)果可知,盡管DBSCAN聚類算法在結(jié)果準(zhǔn)確性方面存在優(yōu)勢(shì),但原有的分布式實(shí)現(xiàn)方式計(jì)算開(kāi)銷較大.在處理中等規(guī)模的數(shù)據(jù)集時(shí),分布式k-means算法具有較為明顯的性能優(yōu)勢(shì).隨著數(shù)據(jù)集規(guī)模的進(jìn)一步增大,改進(jìn)的分布式DBSCAN聚類算法相較于原有實(shí)現(xiàn)方式的時(shí)間開(kāi)銷增長(zhǎng)幅度較小.因此,基于邊界特征的聚類簇合并優(yōu)化策略能夠有效地提高分布式DBSCAN算法的計(jì)算效率.

      5 結(jié)束語(yǔ)

      作為一種直接有效的數(shù)據(jù)分析手段,基于用戶的實(shí)時(shí)用電量數(shù)據(jù)提取出用戶的用電行為特征能夠?yàn)楹罄m(xù)的行為分析提供更加準(zhǔn)確的數(shù)據(jù)支持.將DBSCAN聚類算法成熟的分析思想與分布式計(jì)算框架的性能優(yōu)勢(shì)相結(jié)合,提高算法對(duì)大規(guī)模數(shù)據(jù)集的處理能力.在算法分布式執(zhí)行的過(guò)程中制定合理有效的計(jì)算策略,省去不必要的對(duì)比計(jì)算,降低聚類合并過(guò)程中所需要的存儲(chǔ)開(kāi)銷,進(jìn)一步提高算法效率.

      采用分布式DBSCAN算法能夠?qū)崿F(xiàn)對(duì)大規(guī)模用戶的用電行為類型進(jìn)行較為準(zhǔn)確的劃分,達(dá)到對(duì)異常用電行為的識(shí)別和用戶等級(jí)的評(píng)估的目的.由于本文僅從實(shí)時(shí)用電量數(shù)據(jù)的統(tǒng)計(jì)特征、采樣特征和頻域特征三個(gè)方面進(jìn)行行為特征構(gòu)建,今后的研究工作中,可以更進(jìn)一步的拓展特征構(gòu)建的數(shù)據(jù)來(lái)源和特征指標(biāo),結(jié)合特征選擇算法保留最優(yōu)特征子集,使算法的分析結(jié)果更加準(zhǔn)確.

      [1] Jiang Ling,Wang Xu-dong,Yu Jian-cheng,et al.Research on power usage Behavior analysis based on distributed computing [J].Computer Technology and Development,2016,26(12):176-181.

      [2] Cheng Xue-qi,Jin Xiao-long,Wang Yuan-zhuo,et al.Survey on big data system and analytic technology [J].Journal of Software,2014,25(9):1889-1908.

      [3] Jin Jian-guo.Review of clustering method [J].Computer Science,2014,41(b11):288-293.

      [4] Yu Xiao-shan,Wu Yang-yang.Parallel text hierarchical clustering based on MapReduce [J].Journal of Computer Applications,2014,34(6):1595-1599.

      [5] Xiong Yuan-xin,Chen Yun-ping.Research on definition of discrete fourier transform [J].Engineering Journal of Wuhan University,2006,39(1):89-91.

      [6] Sun Da-wei,Zhang Guang-yan,Zheng Wei-min.Big data stream computing:technologies and instances [J].Journal of Software,2014,25(4):839-862.

      [7] Niu Mu.A distributed cache and analysis platform for large scale streaming data based on Kafka[D].Changchun:Jilin University,2016.

      [8] Wang Tao,Yang Yan,Teng Fei,et al.Distributed clustering ensemble based on RDDs [J].Journal of Chinese Computer Systems,2016,37(7):1434-1439.

      [9] Li Shuang-qing,Mu Sheng-di.Improved DBSCAN algorithm and its application [J].Computer Engineering and Applications,2014,50(8):72-76.

      [10] Hai Mo,Zhang Shu-yun,Ma Yan-lin.Algorithm review of distributed clustering problem in distributed environments [J].Application Research of Computers,2013,30(9):2561-2564.

      [11] Tian Lu-qiang.Research and application on distributed clustering and incremental clustering based on DBSCAN [D].Beijing:Beijing University of Technology,2016.

      [12] Likas Aristidis,Vlassis Nikos,J.Verbeek Jakob.The global K-means clustering algorithm [J].Pattern Recognition,2003,36(2):451-461.

      附中文參考文獻(xiàn):

      [1] 蔣 菱,王旭東,于建成,等.基于分布式計(jì)算的海量用電數(shù)據(jù)分析技術(shù)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(12):176-181.

      [2] 程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(9):1889-1908.

      [3] 金建國(guó).聚類方法綜述[J].計(jì)算機(jī)科學(xué),2014,41(b11):288-293.

      [4] 余曉山,吳揚(yáng)揚(yáng).基于MapReduce的文本層次聚類并行化[J].計(jì)算機(jī)應(yīng)用,2014,34(6):1595-1599.

      [5] 熊元新,陳允平.離散傅里葉變換的定義研究[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2006,39(1):89-91.

      [6] 孫大為,張廣艷,鄭緯民.大數(shù)據(jù)流式計(jì)算:關(guān)鍵技術(shù)及系統(tǒng)實(shí)例[J].軟件學(xué)報(bào),2014,25(4):839-862.

      [7] 牛 牧.基于Kafka的大規(guī)模流數(shù)據(jù)分布式緩存與分析平臺(tái)[D].長(zhǎng)春:吉林大學(xué),2016.

      [8] 王 韜,楊 燕,滕 飛,等.基于RDDs的分布式聚類集成算法[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(7):1434-1439.

      [9] 李雙慶,慕升弟.一種改進(jìn)的DBSCAN算法及其應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(8):72-76.

      [10] 海 沫,張書云,馬燕林.分布式環(huán)境中聚類問(wèn)題算法研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2013,30(9):2561-2564.

      [11] 田路強(qiáng).基于DBSCAN的分布式聚類及增量聚類的研究與應(yīng)用[D].北京:北京工業(yè)大學(xué),2016.

      猜你喜歡
      用電量分布式用電
      用電安全
      02 國(guó)家能源局:1~7月全社會(huì)用電量同比增長(zhǎng)3.4%
      01 國(guó)家能源局:3月份全社會(huì)用電量同比增長(zhǎng)3.5%
      用煤用電用氣保障工作的通知
      安全用電知識(shí)多
      用電安全要注意
      1~10月全社會(huì)用電量累計(jì)56552億千瓦時(shí)同比增長(zhǎng)8.7%
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      基于DDS的分布式三維協(xié)同仿真研究
      囊谦县| 屯留县| 镇康县| 遂昌县| 重庆市| 方正县| 奉贤区| 钦州市| 隆安县| 大名县| 田林县| 崇信县| 云和县| 阿鲁科尔沁旗| 阿克| 高雄市| 石渠县| 肥东县| 微山县| 三原县| 洮南市| 体育| 若尔盖县| 平湖市| 绩溪县| 深泽县| 长垣县| 泾川县| 昭苏县| 南宫市| 长顺县| 五指山市| 济南市| 晋宁县| 兴和县| 繁昌县| 西城区| 玉树县| 温州市| 额济纳旗| 临朐县|