摘要:基于特征標(biāo)簽的電力計(jì)量大數(shù)據(jù)深度挖掘技術(shù)是一種先進(jìn)的數(shù)據(jù)分析方法,旨在從海量電力計(jì)量數(shù)據(jù)中提取有價(jià)值的信息。這種技術(shù)結(jié)合了特征標(biāo)簽、大數(shù)據(jù)分析和深度挖掘等多種方法,以實(shí)現(xiàn)對(duì)電力計(jì)量數(shù)據(jù)的全面理解和有效利用。采用模糊C-均值聚類算法實(shí)現(xiàn)特征標(biāo)簽的生成,借助特征標(biāo)簽改善電力計(jì)量大數(shù)據(jù),通過云計(jì)算平臺(tái)建設(shè)特征標(biāo)簽下的電力計(jì)量大數(shù)據(jù)挖掘架構(gòu)。研究結(jié)果表明,特征標(biāo)簽下的電力計(jì)量大數(shù)據(jù)深挖技術(shù)具有良好穩(wěn)定性、較高的挖掘準(zhǔn)確率,可在電網(wǎng)運(yùn)行中廣泛應(yīng)用。
關(guān)鍵詞:電力計(jì)量大數(shù)據(jù)深度挖掘特征標(biāo)簽
ResearchonDeepMiningTechnologyofPowerMeteringBigDataBasedonFeatureTags
WANGXinYINZhenlong*
QingdaoTopscommCommunicationCo.,Ltd.,Qingdao,ShandongProvince,266000China
Abstract:DeepMiningtechnologyofpowermeteringbigdatabasedonfeaturetagsisanadvanceddataanalysismethodaimedatextractingvaluableinformationfrommassivepowermeteringdata.Thistechnologycombinesmultiplemethodssuchasfeaturetags,bigdataanalysis,anddeepmining toachieveacomprehensiveunderstandingandeffectiveutilizationofpowermeteringdata.ItusestheFuzzyC-MeansClusteringalgorithmtogeneratefeaturetags,improvespowermeteringbigdatawithfeaturetags,andconstructsapowermeteringbigdataminingarchitectureunderfeaturetagsthroughcloudcomputingplatforms.TheresearchresultsindicatethatDeepMiningtechnologyofpowermeteringbigdataunderfeaturetagshasgoodstability,highminingaccuracy,andcanbewidelyappliedinpowergridoperation.
KeyWords:Powermetering;Bigdata;Deepmining;Featuretags
在電網(wǎng)運(yùn)行期間,電力系統(tǒng)中儲(chǔ)存了海量的數(shù)據(jù),而數(shù)據(jù)挖掘作為一種較為普遍的數(shù)據(jù)分析和處理方式,在配電網(wǎng)故障辨識(shí)、火電廠運(yùn)行優(yōu)化等方面得到了越來越多的運(yùn)用。隨著電網(wǎng)數(shù)據(jù)的不斷增長,對(duì)數(shù)據(jù)挖掘的需求也越來越高,因此,電網(wǎng)企業(yè)逐步將注意力集中到數(shù)據(jù)挖掘?qū)用?。本文采用模糊C-均值聚類算法生成特征標(biāo)簽,借助特征標(biāo)簽改善電力計(jì)量大數(shù)據(jù),通過云計(jì)算平臺(tái)建設(shè)特征標(biāo)簽下的電力計(jì)量大數(shù)據(jù)挖掘架構(gòu)。
1電力計(jì)量大數(shù)據(jù)的特征標(biāo)簽
為深層分析電能測(cè)量大數(shù)據(jù),必須對(duì)其進(jìn)行處理,并將其置于高層服務(wù)應(yīng)用和大數(shù)據(jù)平臺(tái)之間,作為中間層的核心部件。采用模糊C-均值聚類算法生成一個(gè)類別的特征標(biāo)記,若簇內(nèi)有K個(gè)類別,則以m表達(dá)其隸屬系數(shù),其中,U為初始化的矩陣,繼而得到公式:
在這個(gè)方程中,通過求解一個(gè)模糊C的平均值,得出C的迭代函數(shù),即:
根據(jù)該算法,得到各屬性的隸屬系數(shù)和簇的中心,并展開收斂性判定。當(dāng)目標(biāo)函數(shù)的值小于預(yù)定門限時(shí),則對(duì)簇的結(jié)果進(jìn)行輸出,公式為
(3)
用該方法來計(jì)算簇的迭代值,進(jìn)而選取電能測(cè)量數(shù)據(jù)的運(yùn)算平臺(tái),構(gòu)成一個(gè)專用標(biāo)記。這個(gè)運(yùn)算平臺(tái)可以分布運(yùn)算海量數(shù)據(jù),并進(jìn)行數(shù)據(jù)庫檢索。構(gòu)建具有3層(標(biāo)記層、分析層和數(shù)據(jù)層)的大數(shù)據(jù)管理構(gòu)件[1]。在此基礎(chǔ)上,利用大數(shù)據(jù)管理構(gòu)件對(duì)其進(jìn)行初步的特性標(biāo)記。圖1為電力計(jì)量大數(shù)據(jù)的特征標(biāo)簽產(chǎn)生流程。
根據(jù)圖1顯示,在對(duì)電能計(jì)算進(jìn)行深度挖掘過程中,需要建立多個(gè)特征標(biāo)簽,所以把規(guī)則引擎當(dāng)作特征標(biāo)簽的生產(chǎn)機(jī)器,繼而生成大量特征標(biāo)簽,借助標(biāo)簽識(shí)別中心管理和規(guī)劃特征標(biāo)簽[2]。
所謂特征標(biāo)簽業(yè)務(wù)化,其實(shí)就是由使用者設(shè)定一個(gè)特定的屬性標(biāo)記,并給予該屬性標(biāo)記檢視、修正等作用,并對(duì)該屬性標(biāo)記進(jìn)行檢驗(yàn),其生成條件主要依照電力計(jì)量大數(shù)據(jù)內(nèi)部所挖掘的數(shù)據(jù)制訂,每天只需要對(duì)這些特性標(biāo)記進(jìn)行管理和維護(hù)就可以了。規(guī)則引擎是一種特性標(biāo)記制造機(jī),它在特性標(biāo)記的設(shè)計(jì)過程中實(shí)現(xiàn)了圖形的控制和規(guī)則的制訂,并可以設(shè)置特性標(biāo)記的規(guī)則,根據(jù)生成規(guī)則觸發(fā)生成條件,從而制作多種特征標(biāo)簽。
標(biāo)記辨識(shí)中心可以對(duì)特性標(biāo)記的派生組合進(jìn)行邏輯計(jì)算,在完成設(shè)定操作后,工作人員可以更新原始的特性標(biāo)記,使之成為更有價(jià)值和更高級(jí)的特性標(biāo)記。在此基礎(chǔ)上,利用智能算法對(duì)海量數(shù)據(jù)進(jìn)行屬性標(biāo)注,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的分類。在做完特性標(biāo)記之后,還要判斷標(biāo)簽價(jià)值。如果特征標(biāo)簽價(jià)值過低,無法挖掘電力計(jì)量數(shù)據(jù),則必須創(chuàng)建價(jià)值函數(shù),以此對(duì)特征標(biāo)簽價(jià)值進(jìn)行判斷。
2電力計(jì)量大數(shù)據(jù)的深度挖掘
生成特殊標(biāo)簽后,通過該特殊標(biāo)簽深度挖掘電力計(jì)量大數(shù)據(jù)。在對(duì)電能測(cè)量大數(shù)據(jù)進(jìn)行深度挖掘的同時(shí),利用云處理平臺(tái)上的分布式信息超文本傳輸協(xié)議(HyperTextTransferProtocol,HTTP),構(gòu)建了一個(gè)由數(shù)據(jù)預(yù)處理、云分類建模和云聚類編輯3個(gè)模塊組成的大數(shù)據(jù)挖掘框架[3],圖2為具體挖掘過程。
如圖2所示,USB異步收發(fā)傳輸器與電平轉(zhuǎn)換達(dá)到數(shù)據(jù)預(yù)處理目標(biāo),通過微控制單元進(jìn)行數(shù)據(jù)分類,內(nèi)容配置可編程,并按照CK算法的最優(yōu)原理對(duì)電能測(cè)量的海量數(shù)據(jù)進(jìn)行分類和整理,確定中心點(diǎn),在該中心點(diǎn)之下的數(shù)據(jù)是有效的,并對(duì)失效的數(shù)據(jù)進(jìn)行過濾,公式為
式中,u是判定對(duì)象的,m是中心點(diǎn)的值。
所謂云聚類編輯,就是將預(yù)處理后的數(shù)據(jù)實(shí)施聚類編輯,依照數(shù)據(jù)價(jià)值從高到低排列。針對(duì)電能測(cè)量大數(shù)據(jù)的深度挖掘需求,對(duì)其進(jìn)行聚類分類,并將其轉(zhuǎn)化為數(shù)據(jù)挖掘框架。云分類建模與預(yù)處理后數(shù)據(jù)相結(jié)合,將數(shù)據(jù)的分類結(jié)果傳遞到數(shù)據(jù)挖掘框架中,將聚類數(shù)據(jù)與分類模型進(jìn)行數(shù)據(jù)融合,生成挖掘模型,將挖掘模型轉(zhuǎn)移到一個(gè)挖掘點(diǎn),然后再進(jìn)行深層挖掘[4]。
本項(xiàng)目以電能測(cè)量大數(shù)據(jù)為研究對(duì)象,采用基于特征標(biāo)注的方法進(jìn)行電能測(cè)量大數(shù)據(jù)的深度分析。具體流程如下。首先,識(shí)別出深層挖掘的目標(biāo),并通過數(shù)據(jù)提取獲得需要的深層信息,并決定其使用方法。然后,進(jìn)行資料的前處理,對(duì)從基礎(chǔ)的電能測(cè)量中抽取出的資料進(jìn)行預(yù)處理,利用CK算法篩選出誤差和無用的數(shù)據(jù),利用特征標(biāo)記的信息變換作用,生成誤差標(biāo)記,保證數(shù)據(jù)準(zhǔn)確性。最后,實(shí)施云分類建模,采用最佳建模方式來調(diào)整、改善大數(shù)據(jù)模型,實(shí)現(xiàn)挖掘效率和精確度的提升[5]。
3實(shí)驗(yàn)驗(yàn)證
為了對(duì)特征標(biāo)簽下的電力計(jì)量大數(shù)據(jù)深挖應(yīng)用效果進(jìn)行驗(yàn)證,通過實(shí)驗(yàn)方式,比較該技術(shù)和蟻群算法下的大數(shù)據(jù)深挖方法、企業(yè)資源計(jì)劃(EnterpriseResourcePlanning,ERP)下的大數(shù)據(jù)深挖方法。此次所用主機(jī)操作系統(tǒng)是Linux系統(tǒng),有效配置信息,系統(tǒng)內(nèi)存選擇16GB,硬盤內(nèi)存選擇2TB,所用編程語言是C++語言,以Hadoop環(huán)境為開發(fā)環(huán)境[6]。
3種數(shù)據(jù)深度挖掘方法的實(shí)驗(yàn)結(jié)果為:實(shí)驗(yàn)10min時(shí),蟻群算法、特征標(biāo)簽算法和ERP挖掘算法的挖掘數(shù)據(jù)量分別為10.26MB、20.25MB和5.87MB;實(shí)驗(yàn)30min時(shí),蟻群算法、特征標(biāo)簽算法和ERP挖掘算法的挖掘數(shù)據(jù)量分別為21.37MB、60.95MB和15.48MB;實(shí)驗(yàn)40min時(shí),蟻群算法、特征標(biāo)簽算法和ERP挖掘算法的挖掘數(shù)據(jù)量分別為29.34MB、104.37MB和26.97MB;實(shí)驗(yàn)60min時(shí),蟻群算法、特征標(biāo)簽算法和ERP挖掘算法的挖掘數(shù)據(jù)量分別為35.37MB、122.45MB和30.45MB。
從以上結(jié)果可以看出,在挖掘時(shí)間持續(xù)延長的情況下,不同方法的數(shù)據(jù)挖掘量呈現(xiàn)持續(xù)增加狀態(tài),且特征標(biāo)簽下的電力計(jì)量大數(shù)據(jù)挖掘數(shù)據(jù)量明顯比傳統(tǒng)方法高。由于在利用特征標(biāo)記對(duì)數(shù)據(jù)進(jìn)行挖掘時(shí),能夠?qū)ζ溥M(jìn)行高效的分類,并對(duì)其進(jìn)行加工,從而實(shí)現(xiàn)高信息量和低代價(jià)的數(shù)據(jù)挖掘目的[7]。
本項(xiàng)目采用的基于特征標(biāo)記的數(shù)據(jù)挖掘算法具有良好穩(wěn)定性,且信息處理結(jié)果也較為準(zhǔn)確。這主要是因?yàn)榛谔卣鳂?biāo)記大數(shù)據(jù)挖掘方法能夠?qū)?shù)據(jù)進(jìn)行處理,從而有效地解決了“信息孤島”問題。通過對(duì)海量數(shù)據(jù)的實(shí)時(shí)采集和分析,實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的準(zhǔn)確和穩(wěn)定的獲取。表1是針各種方式的挖掘準(zhǔn)確率的試驗(yàn)數(shù)據(jù)。
分析表1可以看出,特征標(biāo)簽下的電力計(jì)量大數(shù)據(jù)挖掘技術(shù)具有更高的準(zhǔn)確率,且挖掘能力高于其他方法。
4結(jié)語
總而言之,特征標(biāo)簽的生成是電力計(jì)量大數(shù)據(jù)挖掘技術(shù)的關(guān)鍵步驟。通過利用模糊C-均值聚類算法等方法,可以生成能夠反映數(shù)據(jù)特性和模式的特征標(biāo)簽,這些標(biāo)簽不僅有助于對(duì)電力計(jì)量數(shù)據(jù)進(jìn)行有效地分類和表示,還能提高后續(xù)數(shù)據(jù)挖掘的準(zhǔn)確性和效率。基于特征標(biāo)簽,可以對(duì)電力計(jì)量大數(shù)據(jù)進(jìn)行深度挖掘,這包括利用云計(jì)算平臺(tái)搭建的數(shù)據(jù)挖掘架構(gòu)對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行建模和分析[8]。在實(shí)際應(yīng)用中,基于特征標(biāo)簽的電力計(jì)量大數(shù)據(jù)深度挖掘技術(shù)可以被廣泛應(yīng)用于電力系統(tǒng)的各個(gè)領(lǐng)域。例如:該技術(shù)能有效地實(shí)現(xiàn)電網(wǎng)的最優(yōu)配置,從而改善電網(wǎng)的整體效益。同時(shí),該方法還能對(duì)電網(wǎng)的負(fù)荷進(jìn)行預(yù)報(bào),為電網(wǎng)的規(guī)劃與管理提供重要的支撐。
綜上所述,基于特征標(biāo)簽的電力計(jì)量大數(shù)據(jù)深度挖掘技術(shù)是一種具有廣泛應(yīng)用前景和重要意義的數(shù)據(jù)分析方法,該技術(shù)將會(huì)在今后的電網(wǎng)建設(shè)中發(fā)揮越來越大的作用。
(4)
參考文獻(xiàn)
[1]王奕萱,李翼銘,徐二強(qiáng),等.基于特征標(biāo)簽的電力計(jì)量大數(shù)據(jù)深度挖掘研究[J].電子設(shè)計(jì)工程,2023,31(24):186-189,195.
[2]田萍.大數(shù)據(jù)深度挖掘技術(shù)下的數(shù)字資源推送平臺(tái)設(shè)計(jì)應(yīng)用[J].信息通信,2019(10):133-135.
[3]萬金金,文屹,呂黔蘇,等.基于大數(shù)據(jù)深度挖掘電網(wǎng)設(shè)備缺陷體外循環(huán)的模型研制與應(yīng)用[J].電力大數(shù)據(jù),2023,26(3):61-68.
[4]金欣.基于蟻群算法的非結(jié)構(gòu)化大數(shù)據(jù)深度挖掘仿真[J].計(jì)算機(jī)仿真,2020,37(11):329-333.
[5]王倩.基于深度學(xué)習(xí)技術(shù)的教育大數(shù)據(jù)挖掘領(lǐng)域運(yùn)用探究[J].數(shù)字通信世界,2023(11):112-114.
[6]左仁廣,彭勇,李童,等.基于深度學(xué)習(xí)的地質(zhì)找礦大數(shù)據(jù)挖掘與集成的挑戰(zhàn)[J].地球科學(xué),2021,46(1):350-358.
[7]呂田.面向大數(shù)據(jù)挖掘的自然資源云平臺(tái)設(shè)計(jì)實(shí)現(xiàn)研究[J].科技資訊,2023,21(23):36-39.
[8]王文中,孔亞鑫.面向科技咨詢的大數(shù)據(jù)服務(wù)平臺(tái)基礎(chǔ)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn)[J].科技資訊,2023,21(24):32-35.