沈洋
摘 要:本文對(duì)云計(jì)算和數(shù)據(jù)挖掘相關(guān)技術(shù)進(jìn)行了概述,對(duì)電力云數(shù)據(jù)分析平臺(tái)進(jìn)行了分析,探討了數(shù)據(jù)挖掘算法在電力云數(shù)據(jù)分析平臺(tái)的應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)挖掘;云計(jì)算;算法;云數(shù)據(jù)分析平臺(tái)
DOI:10.16640/j.cnki.37-1222/t.2019.24.097
0 引言
隨著現(xiàn)代電網(wǎng)建設(shè)速度的不斷加快以及規(guī)模的不斷擴(kuò)大,人們對(duì)電力系統(tǒng)的要求也在不斷的提高,同時(shí)電力系統(tǒng)產(chǎn)生了大量的電力數(shù)據(jù),這就需要電力系統(tǒng)具有一定的數(shù)據(jù)分析和處理能力,保證電力系統(tǒng)的正常安全運(yùn)行,尤其是智能電力系統(tǒng)的不斷發(fā)展,更需要其具有強(qiáng)大的數(shù)據(jù)處理能力。隨著云計(jì)算技術(shù)的不斷成熟和應(yīng)用,電力企業(yè)應(yīng)用云計(jì)算強(qiáng)大的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理能力,建立起相應(yīng)的電力云數(shù)據(jù)分析平臺(tái),從而可以有效解決大量電力數(shù)據(jù)處理方面存在的問題。通過利用相應(yīng)的數(shù)據(jù)挖掘算法,可以有效分析和處理相關(guān)數(shù)據(jù),將數(shù)據(jù)挖掘算法應(yīng)用于電力云數(shù)據(jù)分析平臺(tái),能夠充分發(fā)揮兩者的優(yōu)勢(shì),對(duì)海量的電力數(shù)據(jù)進(jìn)行處理并獲取有用的信息。
1 云計(jì)算和數(shù)據(jù)挖掘相關(guān)技術(shù)概述
(1)云計(jì)算技術(shù)。云計(jì)算的本質(zhì)是將大的計(jì)算任務(wù)進(jìn)行劃分為較小的任務(wù),之后將這些小的任務(wù)分配給服務(wù)器中的相關(guān)計(jì)算節(jié)點(diǎn)進(jìn)行并行處理。云計(jì)算能夠通過網(wǎng)絡(luò)按照一定的方式獲取需要的資源,其本身具有較多的特點(diǎn)和優(yōu)勢(shì),比如具有較大的規(guī)模、虛擬化、較高的可靠性、通用性以及較高的可擴(kuò)展性等,這也是云計(jì)算技術(shù)能夠在較短的時(shí)間內(nèi)得到較快發(fā)展的原因。云計(jì)算還具有較多的技術(shù),其中最為關(guān)鍵的技術(shù)有數(shù)據(jù)存儲(chǔ)技術(shù)、數(shù)據(jù)管理技術(shù)和資源調(diào)度。云計(jì)算能夠保存相關(guān)數(shù)據(jù)的多份副本,有效保證了數(shù)據(jù)的可靠性,其分布式存儲(chǔ)能夠滿足大量用戶對(duì)資源進(jìn)行同時(shí)訪問的需求,保證系統(tǒng)對(duì)數(shù)據(jù)處理工作的高效率;云計(jì)算具有的較為先進(jìn)的數(shù)據(jù)管理技術(shù),能夠保證對(duì)大量數(shù)據(jù)的有效管理,其采用的是一種列存儲(chǔ)的管理模式[1]。在一定的資源環(huán)境下,資源調(diào)度能夠按照一定的調(diào)度規(guī)則進(jìn)行資源的調(diào)整,并且其能夠在很短的時(shí)間內(nèi)實(shí)現(xiàn)系統(tǒng)進(jìn)程的調(diào)度。
(2)數(shù)據(jù)挖掘技術(shù)。信息化時(shí)代的到來(lái),使得電力企業(yè)的數(shù)據(jù)信息在不斷的增長(zhǎng),大量的數(shù)據(jù)積累在電力系統(tǒng)的相關(guān)平臺(tái)上,需要進(jìn)行有效的分析和處理。數(shù)據(jù)挖掘技術(shù)是指利用相應(yīng)的數(shù)據(jù)挖掘算法和其他工具,在大量的、復(fù)雜的數(shù)據(jù)中尋找到具有有用價(jià)值的數(shù)據(jù)信息,同時(shí)也可以發(fā)現(xiàn)數(shù)據(jù)信息之間的關(guān)聯(lián)和相關(guān)規(guī)則。數(shù)據(jù)挖掘具有較為豐富的挖掘算法和不斷完善的數(shù)據(jù)挖掘工具,數(shù)據(jù)挖掘包含著多種算法,每一種算法對(duì)應(yīng)著不同的需求和應(yīng)用場(chǎng)景,通過利用這些數(shù)據(jù)挖掘算法,就可以很好地獲取到所需要的數(shù)據(jù)信息。
2 電力云數(shù)據(jù)分析平臺(tái)分析
(1)電力云數(shù)據(jù)分析平臺(tái)介紹。在電力云數(shù)據(jù)分析平臺(tái)中,一般是其基礎(chǔ)云平臺(tái),并且能夠?qū)崿F(xiàn)相關(guān)數(shù)據(jù)輸入到云數(shù)據(jù)分析平臺(tái)的功能,在云數(shù)據(jù)分析平臺(tái)中也包括并行化、增量化的ETL組件,通過將相應(yīng)的數(shù)據(jù)挖掘算法注入到云數(shù)據(jù)分析平臺(tái),就可以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的處理以及進(jìn)行可視化展示[2]。在云計(jì)算平臺(tái)中包含著多種類型的計(jì)算節(jié)點(diǎn),每個(gè)計(jì)算節(jié)點(diǎn)都具有特定的功能,當(dāng)數(shù)據(jù)在計(jì)算節(jié)點(diǎn)之間進(jìn)行傳輸?shù)臅r(shí)候回占用較大的網(wǎng)絡(luò)資源,這就需要每一個(gè)DataNode具備數(shù)據(jù)存儲(chǔ)和計(jì)算的功能,從而減少相關(guān)數(shù)據(jù)的傳輸,這些節(jié)點(diǎn)還能夠并行處理相應(yīng)的數(shù)據(jù)挖掘任務(wù),有效提升處理的效率。
(2)電力云數(shù)據(jù)分析平臺(tái)架構(gòu)。圖1是電力云數(shù)據(jù)分析平臺(tái)的系統(tǒng)結(jié)構(gòu),在這個(gè)平臺(tái)中包含了工作流引擎、門戶、數(shù)據(jù)源服務(wù)器和Hadoop集群等多個(gè)組件。在Hadoop集群中含有多個(gè)類型的幾點(diǎn),同時(shí)還有文本數(shù)據(jù)源服務(wù)器。云數(shù)據(jù)分析平臺(tái)中的工作流引擎可以對(duì)工作流進(jìn)行編輯并執(zhí)行相應(yīng)的挖掘任務(wù)。
3 數(shù)據(jù)挖掘算法在云數(shù)據(jù)分析平臺(tái)的應(yīng)用
(1)關(guān)聯(lián)規(guī)則算法。在關(guān)聯(lián)規(guī)則的算法中,算法是其中最為經(jīng)典的算法,也常常被用于執(zhí)行相應(yīng)的數(shù)據(jù)挖掘任務(wù),在本文的研究中探討了算法在云數(shù)據(jù)分析平臺(tái)的應(yīng)用。傳統(tǒng)的單節(jié)點(diǎn)算法不能夠有效完成對(duì)海量電力數(shù)據(jù)的挖掘,所以基于云計(jì)算平臺(tái)對(duì)算法進(jìn)行并行化改進(jìn),使其能夠適應(yīng)復(fù)雜的電力數(shù)據(jù)挖掘任務(wù)。通過選取某一電力企業(yè)的電力數(shù)據(jù),使用該算法進(jìn)行并行數(shù)據(jù)挖掘處理,在這個(gè)過程中,云數(shù)據(jù)分析平臺(tái)的客戶端會(huì)下發(fā)相應(yīng)的數(shù)據(jù)挖掘任務(wù)請(qǐng)求,當(dāng)平臺(tái)的主控節(jié)點(diǎn)接收到相應(yīng)的請(qǐng)求后,會(huì)向NameNode節(jié)點(diǎn)進(jìn)行數(shù)據(jù)的申請(qǐng),接著根據(jù)其返回的云數(shù)據(jù)信息將該算法發(fā)送到相應(yīng)的數(shù)據(jù)存儲(chǔ)計(jì)算節(jié)點(diǎn)上,云數(shù)據(jù)服務(wù)平臺(tái)上的各個(gè)計(jì)算節(jié)點(diǎn)會(huì)產(chǎn)生相應(yīng)的局部頻繁項(xiàng)集,最后再由主控節(jié)點(diǎn)進(jìn)行全局支持合計(jì)數(shù)的統(tǒng)計(jì),從而利用平臺(tái)對(duì)海量的電力數(shù)據(jù)進(jìn)行處理,并完成相應(yīng)的數(shù)據(jù)挖掘任務(wù)。
(2)樸素貝葉斯分類算法。在數(shù)據(jù)挖掘算法中,樸素貝葉斯分類算法不但是最經(jīng)典的分類算法,也是一種較為簡(jiǎn)單的分類算法,其是以貝葉斯定理作為算法的基礎(chǔ)。傳統(tǒng)的樸素貝葉斯分類算法存在一定的不足,通過應(yīng)用云計(jì)算的MapReduce對(duì)樸素貝葉斯分類算法進(jìn)行改進(jìn),實(shí)現(xiàn)該算法的并行化。樸素貝葉斯分類算法用途較為廣泛,通過利用該算法對(duì)大量的電力數(shù)據(jù)進(jìn)行分析,可以得到有效的處理結(jié)果,利用獲取的有價(jià)值的信息就可以實(shí)現(xiàn)對(duì)用戶行為的分析,而在這個(gè)過程中,最關(guān)鍵的就是對(duì)相關(guān)電力用戶進(jìn)行分類。在得到不同用戶的大量電力數(shù)據(jù)后,利用電力云數(shù)據(jù)分析平臺(tái)中的相關(guān)組件數(shù)據(jù)進(jìn)行預(yù)處理,接著利用已經(jīng)并行化的樸素貝葉斯分類算法對(duì)相應(yīng)的數(shù)據(jù)集進(jìn)行有效的處理,從而達(dá)到相應(yīng)的數(shù)據(jù)挖掘目的。
4總結(jié)
綜上所述,隨著電力系統(tǒng)不斷向智能化方向發(fā)展,越來(lái)越多的電力數(shù)據(jù)會(huì)積累在系統(tǒng)中,這就需要對(duì)海量的電力數(shù)據(jù)進(jìn)行有效的處理并獲取有用的數(shù)據(jù)信息。通過云計(jì)算技術(shù)和數(shù)據(jù)挖掘技術(shù)的結(jié)合,將數(shù)據(jù)挖掘算法應(yīng)用于電力云數(shù)據(jù)分析平臺(tái)上,能夠有效提升數(shù)據(jù)處理的效率,滿足用戶對(duì)電力系統(tǒng)的相關(guān)需求。
參考文獻(xiàn):
[1]張廣德,于連城,張譯,李金湖,徐欣杰.基于數(shù)據(jù)挖掘的電網(wǎng)數(shù)據(jù)分析方法[J].國(guó)外電子測(cè)量技術(shù),2018,37(07):24-28.
[2]李海龍.電力云數(shù)據(jù)分析平臺(tái)數(shù)據(jù)挖掘算法的研究與應(yīng)用[D].華北電力大學(xué),2014.