蔡佳成 徐佳寧
摘 要 隨著經(jīng)濟(jì)和信息技術(shù)的飛速發(fā)展,海量數(shù)據(jù)已經(jīng)成為當(dāng)今信息社會(huì)的一個(gè)重要的特點(diǎn)。本文提出了將海量數(shù)據(jù)應(yīng)用于電廠運(yùn)行參數(shù)分析當(dāng)中,再基于隨機(jī)森林算法對(duì)燃機(jī)電廠天然氣用量預(yù)測(cè)的一種新思路,并對(duì)其實(shí)際意義進(jìn)行了有效的分析。
關(guān)鍵詞 天然氣;隨機(jī)森林算法;預(yù)測(cè);燃料
引言
隨著21世紀(jì)信息時(shí)代的到來(lái),各種類型的數(shù)據(jù)信息也跟著飛速增長(zhǎng),而如何對(duì)這些海量數(shù)據(jù)加以利用便成了隨之而來(lái)的問(wèn)題。越來(lái)越多的領(lǐng)域研究利用這些數(shù)據(jù)進(jìn)行分析、預(yù)測(cè)以此來(lái)跟上時(shí)代發(fā)展的腳步。例如,工業(yè)、管理機(jī)構(gòu)、企業(yè)、研究單位等眾多領(lǐng)域都產(chǎn)生并積累了眾多的、各種形式的信息數(shù)據(jù)。根據(jù)相關(guān)部門(mén)的統(tǒng)計(jì),2015年大量的數(shù)據(jù)增長(zhǎng)量將給IT領(lǐng)域在全球帶來(lái)670億美元的支出額,并且預(yù)測(cè)在這些數(shù)據(jù)增長(zhǎng)量全球的總支出將達(dá)到2320億美元截止到2016年[1]。本文提出了將海量數(shù)據(jù)應(yīng)用于電廠運(yùn)行參數(shù)分析當(dāng)中,再基于隨機(jī)森林算法對(duì)燃機(jī)電廠天然氣用量預(yù)測(cè)的一種新思路。
1 隨機(jī)森林算法概念及其基本原理
隨機(jī)森林算法(Random Forest)是常用集成學(xué)習(xí)算法中的一種,2001年統(tǒng)計(jì)學(xué)領(lǐng)域的專家Leo Breiman提出了隨機(jī)森林算法的概念。隨機(jī)森林算法是由多棵分類回歸樹(shù)所構(gòu)成,且樹(shù)與樹(shù)之間保持互相獨(dú)立的狀態(tài),隨機(jī)森林算法特點(diǎn)是引入了兩個(gè)隨機(jī)變量,分別為隨機(jī)向量和隨機(jī)選取數(shù)據(jù)樣本集,由此來(lái)提高預(yù)測(cè)的準(zhǔn)確度。與決策樹(shù)算法相比,隨機(jī)森林算法由于隨機(jī)變量的引入使其具有較強(qiáng)的泛化能力,這也證明了隨機(jī)理論在回歸預(yù)測(cè)當(dāng)中的成功性。由于隨機(jī)森林算法具備高效、多分類和對(duì)噪聲不敏感等很多優(yōu)點(diǎn),近年來(lái),不同的領(lǐng)域都廣泛研究隨機(jī)森林算法并對(duì)其應(yīng)用。
隨機(jī)森林算法中涉及的相關(guān)量定義:
泛化誤差:經(jīng)過(guò)對(duì)樣本集合的訓(xùn)練學(xué)習(xí)之后模型測(cè)試數(shù)據(jù)集合當(dāng)中的表現(xiàn),即模型的學(xué)習(xí)能力或模型對(duì)測(cè)試集合的預(yù)測(cè)能力。泛化性能越好則泛化誤差越小反之則表示模型的泛化性能較差。
值越小則表示隨機(jī)森林的強(qiáng)度越大其隨機(jī)森林中樹(shù)的獨(dú)立性越好,說(shuō)明了該模型具有比較好的分類回歸性能。這也再一次表明了模型的強(qiáng)度和相關(guān)性對(duì)模型效果的重要性。具有良好性能的模型同時(shí)也能夠表明隨機(jī)森林中的單個(gè)樹(shù)具有不錯(cuò)的分類回歸效果,即預(yù)測(cè)輸出的精度高。但是當(dāng)樣本集合不具備多樣性時(shí),既是隨機(jī)森林中的成員樹(shù)再多也無(wú)法改善模型的性能效果。假設(shè)隨機(jī)森林中的成員樹(shù)的輸出結(jié)果全部一致,這時(shí)再對(duì)成員樹(shù)的輸出結(jié)果進(jìn)行集成就顯得沒(méi)有作用了,隨機(jī)森林的預(yù)測(cè)輸出不會(huì)得到改善。因此只有具有較小的值,才能夠得到理想的模型效果。由此看來(lái),這個(gè)比率因素也是影響模型的重要因素之一。一方面,考慮如何對(duì)成員樹(shù)集合才能使隨機(jī)森林的輸出效果更好;另一方面討論模型本身如何可以根據(jù)數(shù)據(jù)特征具備較好效果的分類輸出。
2 隨機(jī)森林算法在燃機(jī)電廠中應(yīng)用的意義
中國(guó)天然氣工業(yè)在改善我國(guó)能源結(jié)構(gòu)、大力推動(dòng)低碳經(jīng)濟(jì)發(fā)展過(guò)程中獲得了前所未有的大發(fā)展。我國(guó)天然氣資源豐富,目前已建成了鄂爾多斯、新疆兩大油氣區(qū)和四川、南海西部?jī)纱髿鈪^(qū),天然氣骨干管網(wǎng)逐步形成,天然氣市場(chǎng)不斷拓展,天然氣工業(yè)體系初步形成。我國(guó)天然氣資源分布具有明顯的不均衡性,剩余資源量主要分布在巖性地層、前陸盆地沖斷帶、疊合盆地深層、成熟探區(qū)深層以及海洋等領(lǐng)域[2]。燃機(jī)電廠就是使用燃?xì)廨啓C(jī)發(fā)電機(jī)組的發(fā)電廠。目前根據(jù)國(guó)家環(huán)境要求,以煤炭為主要燃料的燃煤電廠逐步會(huì)被清潔能源所取替,而目前的清潔能源電廠主要包括天然氣、核能、風(fēng)能、太陽(yáng)能、潮汐能等。目前這些清潔能源電廠中則以燃機(jī)電廠為主要發(fā)電力量。所以天然氣在電廠方面的消耗量較大,這也是由于我國(guó)的人口數(shù)量較大,用電量需求量大所導(dǎo)致的。而如今的燃機(jī)電廠也已經(jīng)實(shí)現(xiàn)了數(shù)據(jù)信息化,每個(gè)影響到運(yùn)行參數(shù)的環(huán)節(jié)都有可能對(duì)其節(jié)能效果造成影響,由此可見(jiàn)火電廠存在著巨大的節(jié)能潛力。尤其在天然氣使用量方面存在著很大的節(jié)約空間,電廠中的燃料量直接影響著機(jī)組的發(fā)電效率和整體發(fā)電的經(jīng)濟(jì)性。而天然氣的消耗量存在著眾多的影響因素,包括汽輪機(jī)熱效率、廠用電率、外界環(huán)境、操作人員水平等多方面原因。由于電廠內(nèi)多項(xiàng)運(yùn)行參數(shù)的改變會(huì)影響發(fā)電效率、廠用電率等方面發(fā)生改變,從而導(dǎo)天然氣消耗量發(fā)生變動(dòng);同樣由于外界環(huán)境的變化和操作水平也會(huì)對(duì)煤耗量造成不小的影響,因此我們現(xiàn)在可以利用眾多的歷史運(yùn)行參數(shù)結(jié)合隨機(jī)森林算法著重對(duì)天然氣的消耗量、機(jī)組負(fù)荷等參數(shù)進(jìn)行預(yù)測(cè),從而根據(jù)預(yù)測(cè)輸出可以對(duì)操作人員的水平進(jìn)行有效的評(píng)估,并對(duì)操作人員形成一定的指導(dǎo)作用,以達(dá)到節(jié)約天然氣消耗量,提高發(fā)電效率的目的。
3 結(jié)束語(yǔ)
目前國(guó)內(nèi)的發(fā)電廠仍以煤炭發(fā)電為主,其主要原因還是由于燃煤電廠發(fā)電成本低廉所造成的。但是,根據(jù)環(huán)境要求和能源行業(yè)的發(fā)展趨勢(shì),煤炭發(fā)電遲早會(huì)被清潔能源發(fā)電取代。天然氣發(fā)電廠具有熱效率高、調(diào)峰速度快、占地面積小等優(yōu)點(diǎn),但其仍然受制于發(fā)電成本高的制約,所以節(jié)約發(fā)電成本,提高發(fā)電效率對(duì)加快燃機(jī)等清潔能源電廠的建設(shè)有著重要的理論意義和實(shí)際意義?;诒姸嗟倪\(yùn)行數(shù)據(jù)應(yīng)用于隨機(jī)森林算法當(dāng)中,對(duì)燃機(jī)電廠中的天然氣用量等重要參數(shù)進(jìn)行預(yù)測(cè),以此對(duì)操作人員形成一定的運(yùn)行指導(dǎo),以達(dá)到節(jié)約天然氣消耗量,提高發(fā)電效率的目的,對(duì)加快燃機(jī)電廠的發(fā)展有著尤為重要的意義。
參考文獻(xiàn)
[1] 劉小剛.國(guó)外大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展及啟示[J]. 金融經(jīng)濟(jì),2013,(18):224-226.
[2] 喻思成.大數(shù)據(jù)需要全面、集成、開(kāi)放的解決方案[J].軟件和信息服務(wù),2013,(06):9.
作者簡(jiǎn)介
蔡佳成(1990-),男,廣東珠海人;畢業(yè)院校:東北電力大學(xué),專業(yè):控制工程,學(xué)歷:研究生,熱控點(diǎn)檢員,現(xiàn)就職單位:廣東粵電新會(huì)發(fā)電有限公司,研究方向:電廠應(yīng)用。