金 艷,閆孟婷,肖 楊,羅立軍,莫 凡,黃煒斌
(1.國家電投集團水電產(chǎn)業(yè)創(chuàng)新中心,湖南 長沙 410004;2.四川大學(xué)水利水電學(xué)院,四川 成都 610065)
近期,隨著習(xí)近平總書記提出把碳達峰碳中和納入生態(tài)文明建設(shè)整體布局,我國能源轉(zhuǎn)型加快,可再生能源迎來了快速發(fā)展的新時代。據(jù)統(tǒng)計,截至2021年年底,我國的水電總裝機容量約為3.91億kW,仍居世界第一。到2035年,預(yù)測可再生能源電力裝機容量占比將達到65%以上,常規(guī)水電裝機對應(yīng)需求為4.5億kW;在可再生能源電力年發(fā)電量中,預(yù)計2025年、2035年、2050年水電發(fā)電量占可再生能源電力將達到31%以上[1-2]??梢?,水電開發(fā)在中國能源轉(zhuǎn)型升級,實現(xiàn)碳減排和碳中和目標(biāo)中仍將發(fā)揮重要作用;但仍需看到的是,目前常規(guī)水技術(shù)開發(fā)程度過半,水電站深入發(fā)展受限,水電發(fā)展的中心需要從開發(fā)新水電轉(zhuǎn)向?qū)σ呀ㄋ娬镜木毣芾?。而成本支出作為反映水電站運營水平的重要因素,對其進行研究評價有利于實現(xiàn)存量水電的對標(biāo)管理,促進水電行業(yè)的持續(xù)發(fā)展。
本文針對四川地區(qū)幾十座水電站重點探索了對水電站應(yīng)支出成本回歸計算,對不同規(guī)模、不同特性的水電站定義了其標(biāo)準(zhǔn)支出成本值,為水電站考核管理提供新思路。
水電站具有個性化較強的特點。由于不同的電站機組、水工建筑物、地理地質(zhì)條件等造成的運行復(fù)雜程度不一,很難形成一套評價標(biāo)準(zhǔn)考核水電站的成本管理水平;但由實際運行經(jīng)驗可知,水電成本支出與水電站的運行復(fù)雜程度一般成正比分布。故本文針對水電站成本值進行研究,探索在既定規(guī)模下水電站的標(biāo)準(zhǔn)支出成本值。首先對成本進行解構(gòu),扣除稅收、折舊等無法通過人工努力改善的成本,著重研究能夠反映水電站運行期間的管理行為的人工成本、檢修成本、材料成本等軟性運營成本。定義水電站標(biāo)準(zhǔn)支出成本值為:在水電站機組、水工等已建條件一定的情況下,通過人工運營管理,水電站應(yīng)該支出運營成本的平均水平值。通過對比實際運營成本值與標(biāo)準(zhǔn)支出成本值,可以體現(xiàn)水電站的運營管理水平。
為了使各水電站有統(tǒng)一可比基礎(chǔ),目前國內(nèi)外多采用以裝機容量為分母、水電站考核年總成本支出為分子進行計算;但單一的影響因素選擇忽略了水電站其他因素對成本的影響,如大壩維護、閘門防腐等都是水電站運行費用中重要組成部分。
目前,運用較廣泛的選取因子方法有3種:一是先驗判斷法,其缺點在于易受人為主觀意識的影響,在應(yīng)對變量間數(shù)學(xué)關(guān)系的衡量上缺乏客觀性;二是逐步回歸法[3];三是相關(guān)系數(shù)法[4]。后2種方法適用于變量間呈線性關(guān)系的情況;而實際上,影響水電站成本的許多因素間存在非線性關(guān)系。信息論中的互信息(Mutual Information,MI)作為衡量變量相互含有信息量的度量,可運用于影響因素的選取中。各個影響因素實際上就是信息的載體,其中所含有有效信息的大小就是衡量其是否被選取以及選取順序的依據(jù)。互信息的值越大,說明輸入因子中有效信息越多,在建立相關(guān)關(guān)系時要優(yōu)先選取。目前已有部分學(xué)者將互信息理論應(yīng)用于水文當(dāng)中,趙銅鐵鋼等[5]將互信息用于選取預(yù)測模型輸入變量;陳璐等[6]采用Copula熵計算偏互信息,并將其運用于徑流預(yù)報模型當(dāng)中;紀昌明等[7]研究了基于聯(lián)合和條件互信息(Joint Mutual Information,JMI)的因子選取方法,以信息增長率最大準(zhǔn)則對多個輸入因子進行選取,構(gòu)建了JMI-BP模型進行預(yù)報。
本文首先采用皮爾遜相關(guān)分析,識別與水電站運營成本具有較強相關(guān)關(guān)系因素,采用皮爾遜相關(guān)系數(shù)及最大互信息識別與水電站運營成本相關(guān)關(guān)系較強的重要特征。
PCCs(Pearson correlation coefficient)即皮爾遜相關(guān)系數(shù),在空間上表示為兩向量夾角的余弦值[8]。其內(nèi)涵可從多種數(shù)學(xué)角度進行解釋,經(jīng)過了長時間實踐檢驗,已得到廣泛認可。當(dāng)變量為服從正態(tài)分布時,Pearson相關(guān)系數(shù)(積矩相關(guān)系數(shù))描述線性相關(guān)效果好,其計算如下
(1)
對于觀測樣本,其統(tǒng)計值為
(2)
式中,xi、yi分別為對應(yīng)樣本的第i個觀測值。
互信息定義為已知Y值而造成X不確定性的減小量。其基礎(chǔ)理論為信息熵,以“系統(tǒng)越無序(難以預(yù)測)、信息熵越大”作為數(shù)據(jù)信息容量判別標(biāo)準(zhǔn)[9]。
設(shè)2組隨機變量X、Y,由互信息定義可知:兩變量互信息可通過X信息熵與變量Y已知X信息熵的差值求解得到
(3)
式中,H(X)為隨機變量X的信息熵;H(X|Y)為已知Y條件下X的信息熵;p(x)為X的概率分布;p(x,y)為X、Y的聯(lián)合概率分布;p(x|y)為X在Y條件下的概率。
對于離散化變變量,其互信息可寫為
(4)
需要注意的是,由于信息熵是基于變量概率分布計算,有p(x)=[0,1],對于xlog2x當(dāng)x→0時,利用求極限值的數(shù)學(xué)方法可得此時xlog2x等于0。
最大互信息(MIC)最初是由Reshef等人在《Science》上發(fā)表論文并提出的,其能有效刻畫大多數(shù)線性、非線性關(guān)系,且給予等值MIC的不同函數(shù)等量噪音,變化后的MIC仍保持一致。該方法通過識別數(shù)據(jù)集不同網(wǎng)格劃分情況下的互信息,并對互信息進行歸一化,使其范圍落于區(qū)間[0,1](當(dāng)最大互信息值為0時,說明兩變量相互獨立,兩者相關(guān)性越強其值越接近1),最終篩選出最佳劃分方式,利用該條件下的歸一化互信息刻畫兩變量相關(guān)關(guān)系(見圖1)。對于隨機變量X、Y的最大互信息識別具體流程如下:
(1)對隨機變量X、Y形成的數(shù)據(jù)集合D進行劃分,在集合D的閾值中將x、y軸等分為i列j行形成初始網(wǎng)格劃分。
(2)由于網(wǎng)格總數(shù)在滿足ij (5) 令i=i+1并更新j值。 (3)重復(fù)步驟(2),直至j=2,篩選出最大互信息值MIC(D),此時最大互信息系數(shù)為 MIC(D)=optimal{M(D)i,j} (6) 選擇位于西南地區(qū)的65座水電站為研究對象,對其進行水電站標(biāo)準(zhǔn)支出成本的計算。在重要特征的篩選過程中,將影響水電站標(biāo)準(zhǔn)支出成本的因子稱作解釋變量X,運營成本數(shù)據(jù)序列作為因變量Y,對于水電站聚類集H={H1,H2,…,Hk};按照研究目的,將影響因素分為機組特性、壩型特征、水位特征、庫容特征、勞動力特征、調(diào)節(jié)性能,每類特性用至少1個因子進行描述,形成i電站影響因素數(shù)據(jù)集Xi={X1,X2,…,Xp},根據(jù)現(xiàn)有資料,設(shè)定15個因子(p=15),X1為裝機容量,X2為機組臺數(shù),X3為正常水位,X4為死水位,X5為總庫容,X6為有效庫容,X7為壩高,X8為壩長,X9為職工人數(shù),X10為平均單機容量,X11為水位差,X12為平均機組利用小時數(shù),X13為投產(chǎn)時長,X14為壩面積,X15為調(diào)節(jié)性能。其中,X1至X9為單因子,單因子與水電站參數(shù)直接相關(guān);X10至X15為復(fù)合指標(biāo),復(fù)合因子與水電站參數(shù)間接相關(guān),通過多個參數(shù)計算得到。按照因子所屬特性,X1、X2、X10、X12為機組特性因子,X3、X4、X11為水位特征因子,X5、X6為庫容特征因子,X7、X8、X14為壩型特征因子。 輸入解釋變量序列X、運營成本數(shù)據(jù)序列Y,Pearson相關(guān)結(jié)果如圖2所示。圖2中右上部分的橢圓愈狹長代表對應(yīng)變量間相關(guān)系數(shù)愈大,“×”代表未通過顯著性檢驗(P>0.05),左下部分展示PCCs的具體數(shù)值。 將PCCs值大于0.6定義為關(guān)系緊密,形成顯著相關(guān)變量對(見表1)。觀察解釋變量相互間關(guān)系可知,機組特性與大壩特征、勞動力特征相關(guān)關(guān)系顯著,庫容特征與機組特性、壩型特征線性相關(guān),調(diào)節(jié)性能與水位特征線性相關(guān),解釋變量與因變量運營成本的顯著相關(guān)性主要表現(xiàn)在機組特性、壩型規(guī)格、勞動力特征。 表1 PCCs大于0.6的影響因子、成本關(guān)系對 針對65個水電站的成本特性數(shù)據(jù)集C={Y1,Y2,…,Y65},15個影響因素的數(shù)據(jù)集X={X1,X2,…,X15},計算典型集中特征向量(影響因素數(shù)據(jù)集)X={X1,X2,…,X15}與(成本特性數(shù)據(jù)集)C={Y1,Y2,…,Y65}之間的互信息。 對于第e個影響因素,其與成本特性的平均互信息為 (7) 將因素數(shù)據(jù)集X={X1,X2,…,X15}分別與運營成本數(shù)據(jù)序列Y形成15個數(shù)據(jù)集(D1(X1,Y),D2(X2,Y),…,D15(X15,Y)),利用MIC分析各項影響因素與運營成本的相關(guān)關(guān)系。 以X10與Y的MIC計算過程中兩類網(wǎng)格劃分(見圖3)為例,說明不同劃分形式對同一數(shù)據(jù)集均一化互信息值的影響。圖3顯示,對單機容量與成本數(shù)據(jù)集而言,6行2列的網(wǎng)格劃分大于4行3列的均一化互信息值。觀察數(shù)據(jù)分布,圖3a中當(dāng)已知均一化Y值落入[0,0.5)區(qū)間,有80%以上的把握可以認為均一化X位于區(qū)間[0,017);圖3b假設(shè)Y值落入[0,0.33)區(qū)間,X位于區(qū)間[0,0.25)的概率為52%,仍有大于20%的概率位于區(qū)間[0.25,0.5)?;诨バ畔⒌母拍?,即可解釋圖3a的均一化互信息大于圖3b的原因。 為進一步了解各影響因素與運營成本的關(guān)系,利用PCCs、MIC總結(jié)描述影響因素與運營成本的內(nèi)在關(guān)聯(lián),將PCCs絕對值大于MIC的稱為線性關(guān)系強勢;反之,為非線性關(guān)系強勢,需要說明的是,這里的“強勢”并不等同于“顯著”,只是兩變量間線性關(guān)系與非線性關(guān)系的比較,對于顯著關(guān)系仍用顯著來表示,具體如表2所示。 表2 影響因素與運營成本內(nèi)在關(guān)聯(lián)描述 設(shè)定不同閾值PCCs、MIC篩選影響因素(特征值),認為線性關(guān)系強勢的影響因素與水電站標(biāo)準(zhǔn)支出成本的關(guān)系形如ax+b,而MIC值較大影響因素應(yīng)呈非線性關(guān)系,則水電站標(biāo)準(zhǔn)支出成本模型 (8) 式中,xk為與運營成本非線性相關(guān)關(guān)系fk更顯著的第k個影響因子;xi為與運營成本線性相關(guān)性更強的第i個影響因子。由表2可知,正常蓄水位X3、投產(chǎn)時長X13、裝機容量X1、平均單機容量X10與運營成本非線性關(guān)系更明顯,其中裝機容量X1、平均單機容量X10非線性關(guān)系顯著;剩余11個影響因子呈線性關(guān)系,其中壩高X7、職工人數(shù)X9、壩面積X14線性關(guān)系顯著。 在擬合過程中,分別選擇相關(guān)系數(shù)大于0.1、0.2、0.3、0.4、0.5、0.6、0.7的影響因子,利用Levenberg-Marquardt算法開展回歸計算。Levenberg-Marquardt算法是牛頓法的一種改進,在計算時能夠避免牛頓法由于Hessian矩陣奇異而導(dǎo)致算法無法繼續(xù)迭代的情況,常用于非線性最小二乘問題的最優(yōu)化實現(xiàn)[11-12]。分析計算發(fā)現(xiàn),相關(guān)系數(shù)低限閾值<0.4時,由于變量較多,導(dǎo)致擬合關(guān)系無法收斂,故僅將擬合收斂的3種結(jié)果(相關(guān)系數(shù)>0.5、0.6、0.7)繪于圖4。從圖4可以看出,無論實際運營成本的高低,擬合值都與實際值較為貼近。由標(biāo)準(zhǔn)化殘差分布可知,當(dāng)選擇相關(guān)系數(shù)>0.6的影響因子進行擬合時,其殘差最接近正態(tài)分布。 同時,對3種結(jié)果擬合性能進行量化,得到表3。分析訓(xùn)練集的擬合性能發(fā)現(xiàn),調(diào)整后R2在相關(guān)系數(shù)閾值為0.6時取值最大為0.930。此時,被選擇的自變量有裝機容量X1、壩高X7、人力X9、平均單機容量X10、壩面積X14,反映出運營成本主要與發(fā)電機組、大壩、勞動力特征有關(guān);而MAPE和合格率均在閾值為0.5時最優(yōu)。從測試集結(jié)果看,除了在相關(guān)系數(shù)閾值為0.7時最優(yōu),其余各指標(biāo)均在調(diào)整后R2在相關(guān)系數(shù)閾值為0.5時取得最優(yōu)。 表3 不同閾值相關(guān)系數(shù)下的特征數(shù)與擬合性能 然而,當(dāng)相關(guān)系數(shù)閾值取0.5、0.6時,序號為42、55、60這類實際運營成本較小的水電站擬合值為負,嚴重違背運營成本含義。故認為,選擇影響因素與運營成本相關(guān)系數(shù)大于0.7的特征變量做非線性回歸時,擬合效果佳且結(jié)果更可靠,此時特征變量為裝機容量X1、平均單機容量X10、壩面積X14,水電站標(biāo)準(zhǔn)支出成本模型為 (9) 式中,Yul為非線性回歸模型擬合的水電站標(biāo)準(zhǔn)支出成本;其余符號含義如前述。 分析表3發(fā)現(xiàn),當(dāng)相關(guān)系數(shù)閾值取大于0.5時,無論對于訓(xùn)練集或是測試集,非線性回歸擬合效果均較優(yōu)。因此,通過PCCs、MIC值分析影響因素與響應(yīng)變量是否呈線性相關(guān),對模型構(gòu)建具有一定指導(dǎo)意義。 本文通過對成本的結(jié)構(gòu)及對成本和水電站運行復(fù)雜程度的關(guān)系分析定義了水電站標(biāo)準(zhǔn)支出成本,為了保證選取的自變量更大程度反映水電站運行特性,利用PCCS、MIC挖掘出于水電站運營成本關(guān)系相對密切的因素,針對不同表現(xiàn)關(guān)系,利用L-M回歸方法構(gòu)建水電站標(biāo)準(zhǔn)支出成本模型,并對模型回歸效果進行分析。結(jié)果顯示該方法具備合理性,可為水電企業(yè)對標(biāo)評價提供新思路。3 算 例
4 結(jié) 論