王慧芳,葉睿愷,羅 斌,張 波,吳雪峰,劉建敏
(1.浙江大學(xué) 電氣工程學(xué)院,杭州 310027;2.國網(wǎng)浙江省電力有限公司金華供電公司,浙江 金華 321017)
“3060”雙碳戰(zhàn)略目標(biāo)的實施,促進(jìn)了“雙高”特征的新型電力系統(tǒng)快速發(fā)展[1]。電力系統(tǒng)的源、網(wǎng)、荷各側(cè)都出現(xiàn)了強非線性運行特征的元件,且比例不斷提高,使得原有的適用于線性特征的系統(tǒng)分析方法難以適用[2]。若對這些元件進(jìn)行機理建模,分析計算過程需要迭代,影響快速性。為此,一些基于數(shù)據(jù)驅(qū)動的分析計算方法被提出[3-4]。同時,新型電力系統(tǒng)要求有更智能、高效的運維技術(shù)與管理手段[5],由此產(chǎn)生了文本、圖像等類型的數(shù)據(jù)驅(qū)動建模研究[6-7]。因此,數(shù)據(jù)驅(qū)動建模逐漸成為電力領(lǐng)域的研究熱點之一。
數(shù)據(jù)驅(qū)動建模已在優(yōu)化控制、流程工業(yè)、生物學(xué)等一些依靠機理建模研究成本高、難度大的傳統(tǒng)領(lǐng)域獲得了成功應(yīng)用。如生物領(lǐng)域,Deep-Mind 公司使用公開數(shù)據(jù)集進(jìn)行端對端模型訓(xùn)練,建立了可以快速準(zhǔn)確預(yù)測蛋白質(zhì)結(jié)構(gòu)的AlphaFold模型,預(yù)測結(jié)果得分比藥物模擬實驗得分更高,破解了多年的難題[8]。在電力領(lǐng)域,數(shù)據(jù)驅(qū)動建模也進(jìn)行了較多研究,除一些分散應(yīng)用外,根據(jù)待解決問題的特點,大致可以分為以下三類:
第一類是針對難以理論建模的問題,如負(fù)荷預(yù)測、新能源發(fā)電預(yù)測[9]、竊電檢測、用戶行為分析等。這類問題由于只能采用數(shù)據(jù)驅(qū)動建模,因此研究較早、成果較多。以負(fù)荷預(yù)測為例,在中國知網(wǎng)進(jìn)行精確檢索,近20年就能檢索到2 300多篇中文期刊文章。能夠吸引大量研究的原因主要有:問題較為熟悉;用于建模的數(shù)據(jù)類型具有多樣性和發(fā)展性,建模需求持續(xù)被認(rèn)可;可用于預(yù)測的算法多且發(fā)展快;對模型的性能要求及驗證較為寬容。然而,對于應(yīng)用者來說,在數(shù)據(jù)公開有限、采用自參考模型驗證的情況下,成果越多反而越難找到適合自身負(fù)荷特點的預(yù)測模型。因此,該研究迫切需要分類和總結(jié)負(fù)荷對象的特點,給出如何挑選合適的負(fù)荷預(yù)測模型的指導(dǎo)。
第二類是針對理論建模性能欠佳的問題。這類問題進(jìn)行數(shù)據(jù)驅(qū)動建模的初衷是為了避免由于假設(shè)或簡化而導(dǎo)致理論模型不夠準(zhǔn)確,或者為了避免理論模型需要迭代計算而導(dǎo)致模型計算速度慢。如IIDG(逆變器型分布式電源)接入后的電網(wǎng)暫態(tài)安全評估[10-11]、潮流計算[3]、短路電流計算[4]等問題。這類研究是在新能源發(fā)展與接入電網(wǎng)后被提出來的,所以研究時間短,成果數(shù)量少,工程應(yīng)用效果還有待檢驗。
第三類是基于文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)的特定業(yè)務(wù)建模問題。關(guān)于該問題的研究成果在逐漸豐富,主要原因是非結(jié)構(gòu)化數(shù)據(jù)的自動理解本身較為困難,一般需采用自然語言或圖像處理等專門技術(shù),同時又需電力領(lǐng)域知識,研究門檻相對較高。另一方面,研究對數(shù)據(jù)的質(zhì)量和數(shù)量有要求,但要求又較難量化,導(dǎo)致基于未經(jīng)評估數(shù)據(jù)建立的模型性能方面不穩(wěn)定,與工程應(yīng)用要求還有差距。
綜上,電力領(lǐng)域數(shù)據(jù)驅(qū)動建模的發(fā)展并不均衡,尤其后兩類問題的研究還有較大的拓展和深化空間。由于數(shù)據(jù)驅(qū)動建模,僅通過文獻(xiàn)研究很難深刻體會不同建模過程蘊含的建模難點,實踐是非常關(guān)鍵的環(huán)節(jié),因此本文將介紹和總結(jié)后兩類數(shù)據(jù)驅(qū)動建模實踐,分享對數(shù)據(jù)驅(qū)動建模的理解以及一些體會。
目前主要對三個方面的問題開展了數(shù)據(jù)驅(qū)動建模實踐。第一個是針對電力系統(tǒng)暫態(tài)穩(wěn)定、電壓穩(wěn)定問題,分別建立了用于穩(wěn)定判斷的兩分類暫態(tài)穩(wěn)定評估模型[11]、基于后果評估的節(jié)點故障暫態(tài)穩(wěn)定評估模型[12]以及電壓穩(wěn)定裕度評估模型[13]。第二個是針對配電網(wǎng)單相接地故障區(qū)段定位問題,進(jìn)行了多分類模型建模實踐[14];第三個是以含IIDG配電網(wǎng)短路電流計算為目標(biāo),進(jìn)行了數(shù)據(jù)驅(qū)動的回歸模型建模實踐[4,15]。其中,對于第一個問題,基于時域仿真的暫態(tài)穩(wěn)定和基于連續(xù)潮流計算的電壓穩(wěn)定評估方法由于受到計算速度的限制,較難在線應(yīng)用,所以該問題較早地被提出采用數(shù)據(jù)驅(qū)動進(jìn)行建模,成果相對較多,基本實現(xiàn)了準(zhǔn)確、快速預(yù)測暫態(tài)穩(wěn)定和電壓穩(wěn)定的目的。因此,下面主要對后兩個實踐的建模依據(jù)和實踐結(jié)果進(jìn)行討論。
1.1.1 配電網(wǎng)單相接地故障定位數(shù)據(jù)驅(qū)動建模
配電網(wǎng)中性點一般不直接接地,單相接地故障定位問題是存在已久的難題。理論建模的不足之處在于故障位置的電氣量信息特征微弱而導(dǎo)致閾值設(shè)置困難,偏高偏低均可能產(chǎn)生誤判或漏判。建立數(shù)據(jù)驅(qū)動的故障區(qū)段定位多分類模型的依據(jù)是:配電網(wǎng)仿真可以提供任意數(shù)量的樣本;配電網(wǎng)發(fā)生單相接地故障時,故障線路和非故障線路的各相電流變化情況是存在差別的,即使IIDG接入后依然有該特點,即各線路故障前后各相電流有效值構(gòu)成的信息包含著故障發(fā)生的區(qū)段且區(qū)段唯一。因此,可以建立以0和線路編號為標(biāo)簽的多分類模型,其中0表示無故障。文獻(xiàn)[14]詳細(xì)介紹了該數(shù)據(jù)驅(qū)動模型的建立和驗證過程。
研究結(jié)果表明,數(shù)據(jù)驅(qū)動建立的故障區(qū)段定位模型,可以避免閾值的設(shè)置,且適用于多種配電網(wǎng)不直接接地場景,包括中性點不接地、經(jīng)消弧線圈接地、小電阻接地等,對于過渡電阻在一定范圍內(nèi)的單相接地故障具有可靠識別能力。能否進(jìn)一步建立回歸模型,實現(xiàn)故障區(qū)段中故障位置的定位,是下一步需要研究的問題。研究表明,若僅用各線路的各相電流有效值及變化量是難以建立回歸模型的,因為同一區(qū)段內(nèi)發(fā)生不同位置的單相接地故障,各線路各相電流有效值變化的差異非常小,每一個樣本對應(yīng)的故障位置唯一性不明顯,因此若要建立故障定位回歸模型,需探索新特征。
1.1.2 含IIDG配電網(wǎng)短路電流計算數(shù)據(jù)驅(qū)動建模
IIDG 本身具有多樣性和復(fù)雜性,詳細(xì)建模易引起維數(shù)災(zāi)難,簡化建模又會降低準(zhǔn)確性。此外,受低壓穿越等控制策略影響,IIDG 具有強非線性,在采用機理分析計算時,不可避免地需要迭代。且迭代規(guī)律與傳統(tǒng)電網(wǎng)潮流計算過程中連續(xù)的非線性過程不同。迭代次數(shù)、是否收斂受電網(wǎng)規(guī)模、非線性元件數(shù)量、元件模型簡化程度、初值選擇等因素影響較大。為了克服理論建模存在的計算速度與準(zhǔn)確性間的矛盾,可建立數(shù)據(jù)驅(qū)動的含IIDG配電網(wǎng)短路電流回歸模型。其依據(jù)為在運行方式和故障情況確定后,各支路的短路電流穩(wěn)態(tài)值是確定且唯一的。通過仿真可獲得充裕樣本,也有適合的學(xué)習(xí)算法進(jìn)行回歸建模。文獻(xiàn)[4]和[15]分別介紹了以單輸出和多輸出為目標(biāo)的模型建立和驗證過程。
實踐結(jié)果表明,強非線性元件的接入對數(shù)據(jù)驅(qū)動模型的訓(xùn)練和在線應(yīng)用速度不會產(chǎn)生直接影響,僅會增加離線獲取仿真樣本的時間。為提高獲得仿真樣本的速度,除適當(dāng)簡化強非線性元件模型進(jìn)而加快仿真速度外,更適合的方法是減少需要的樣本數(shù)量。如文獻(xiàn)[4]提出將IIDG 未接入時的短路電流作為特征之一,可以減少對IIDG接入時的樣本數(shù)量要求,進(jìn)而減少樣本獲得時間。此外,該類數(shù)據(jù)驅(qū)動建模是通過仿真建模讓計算較慢的理論模型提前實現(xiàn)大量樣本,然后訓(xùn)練模型并最終實現(xiàn)快速應(yīng)用,其本質(zhì)是進(jìn)行了時間騰挪。目前該模型應(yīng)用于工程還需進(jìn)一步研究的問題主要是樣本數(shù)據(jù)如何自動更新以適應(yīng)網(wǎng)絡(luò)規(guī)模和結(jié)構(gòu)的變化。
上述建模實踐解決的問題不同,建立的模型形式也不同,但都通過仿真獲得大量數(shù)據(jù)樣本,因此建模過程存在一些共性步驟。
1.2.1 確定輸出量
數(shù)據(jù)驅(qū)動建模首先要確定模型的輸出是什么。不同輸出對輸入數(shù)據(jù)的要求不同,也會影響算法的選擇。以配電網(wǎng)單相接地故障為例,若只判斷配電網(wǎng)是否故障,采用零序電壓就能實現(xiàn)理論模型,不必建立數(shù)據(jù)驅(qū)動模型;若要判斷哪個區(qū)段故障,則可以建立基于各線路、各相電流有效值的多分類數(shù)據(jù)驅(qū)動模型;若要輸出故障詳細(xì)位置,則要研究基于其他電氣量信息的回歸模型。因此,不同輸出不僅決定模型類型,也影響輸入特征選擇。
1.2.2 輸入特征選擇
一般來說,特征選擇不全面將導(dǎo)致建模失?。缓侠淼奶卣鬟x擇可以提高模型準(zhǔn)確度和計算速度。一方面,特征數(shù)目越多,基于智能算法的模型訓(xùn)練和使用速度越慢;另一方面,未經(jīng)選擇的特征中往往包含一些質(zhì)量較低的特征,會對模型本身造成干擾,降低模型準(zhǔn)確度。特征選擇常以輸出為導(dǎo)向,通過理論分析或智能算法確定哪些特征對于最終的輸出有更大的幫助,以此剔除冗余特征,實現(xiàn)特征降維。比如,配電網(wǎng)單相接地故障區(qū)間定位未采用電壓量數(shù)據(jù)。一方面,配電網(wǎng)的實際情況是電壓互感器比電流互感器配置得少;另一方面,實驗表明,電壓量與電流量之間存在信息冗余,增加電壓數(shù)據(jù)后反而會降低模型性能。
1.2.3 數(shù)據(jù)樣本的獲得
確定問題的特征和輸出后,需獲得訓(xùn)練模型所需的樣本數(shù)據(jù)。本節(jié)實踐所用的樣本數(shù)據(jù)均來自仿真,獲取時考慮了以下三個方面:
1)建立的電網(wǎng)仿真模型是否有代表性。較多研究采用IEEE不同規(guī)模的電網(wǎng)為算例,但與我國國情不符。為此,實踐中僅采用網(wǎng)架結(jié)構(gòu)和參數(shù),而對電壓等級、頻率等與我國不同的參數(shù)進(jìn)行適應(yīng)性修改,但需要特別關(guān)注修改的完善性。例如把配電網(wǎng)電壓等級從24.9 kV 改為10.5 kV,需要考慮供電半徑相應(yīng)縮小,即各線路長度和負(fù)荷需要修改,否則仿真結(jié)果將不合理。
2)運行方式是否考慮全面、合理。仿真容易通過修改運行方式和故障條件獲得充裕的樣本,然而也容易出現(xiàn)類別不平衡、不合理的情況。類別不平衡將導(dǎo)致樣本偏斜,訓(xùn)練得到的模型很可能會過擬合。對于不合理的情況,如模擬新能源不同滲透率,不能僅修改新能源的接入容量、接入位置,還需要修改系統(tǒng)等值電源的等值阻抗,否則會出現(xiàn)不存在的運行方式。
3)適當(dāng)考慮仿真數(shù)據(jù)與實際量測數(shù)據(jù)的誤差以及數(shù)據(jù)的丟失情況,為此引入一定的白噪聲,并設(shè)置一定的數(shù)據(jù)缺失比例。
1.2.4 算法選擇與改進(jìn)
通常根據(jù)要解決的具體問題的特點和難度,選擇具有相應(yīng)學(xué)習(xí)能力的智能算法。從功能角度,最常見的模型有分類模型和回歸模型;從輸出數(shù)量角度,模型可分為單輸出模型和多輸出模型。上述任何一類模型都有很多算法可供選擇,因此需要研究算法的適用條件及優(yōu)缺點。針對每一種算法,為提升模型性能,不僅僅需要通過訓(xùn)練集和測試集的交叉驗證法進(jìn)行調(diào)參,有時還需根據(jù)應(yīng)用場景進(jìn)行適應(yīng)性改進(jìn)。比如,暫態(tài)穩(wěn)定評估中,將不穩(wěn)定評估成穩(wěn)定,其危害遠(yuǎn)大于將穩(wěn)定評估成不穩(wěn)定。為此選定的算法需要額外考慮代價敏感差異,如引入注意力機制對損失函數(shù)進(jìn)行改進(jìn)[11]。更多的情況是需要通過多種算法對比,甚至多種算法綜合運用,實現(xiàn)優(yōu)勢互補,最終形成解決問題的建模算法。
1.2.5 模型性能分析
模型訓(xùn)練完成后,還需分析模型的應(yīng)用性能。常見性能包括模型誤差、時間開銷、存儲開銷、可解釋性等。針對模型誤差,不同功能模型的性能度量指標(biāo)會有差異。對于分類模型,常采用查準(zhǔn)率、查全率、兩者的調(diào)和平均F1進(jìn)行評價;對于回歸模型常采用偏差、方差等指標(biāo)。其他性能分析由具體問題的特點來決定,如在線應(yīng)用問題則要重視時間開銷??山忉屝允菙?shù)據(jù)驅(qū)動建模的弱項,阻礙了其在一些特定場景的應(yīng)用。
電力文本數(shù)據(jù)較為特定,一般為某業(yè)務(wù)部門所專有,建模目的往往是為提升業(yè)務(wù)管理能力和效益,因此建模需求和建模過程具有特定性。以電力公司運檢部門的電力設(shè)備缺陷記錄文本為對象,進(jìn)行了缺陷文本質(zhì)量評價與提升[16-18]、缺陷嚴(yán)重程度自動定級[6,17]、缺陷精細(xì)化統(tǒng)計[19]、缺陷文本自動檢索與匹配[20-21]等建模實踐。此外,進(jìn)行了基于對話文本的電力設(shè)備供應(yīng)商評價研究[22],還嘗試了一些電力長文本的數(shù)據(jù)驅(qū)動建模實踐?;谏鲜鰧嵺`,有以下三點體會。
1)電力文本數(shù)據(jù)驅(qū)動建模一般需要經(jīng)歷文本預(yù)處理、文本表示和具體的挖掘算法研究三個階段。每一個階段有多種技術(shù)可供選擇。但有些建模有自身的特色。如缺陷精細(xì)化統(tǒng)計[19]只采用了文本預(yù)處理技術(shù),然后自定義了語義槽并進(jìn)行槽填充,方便依據(jù)槽信息進(jìn)行統(tǒng)計。再如缺陷文本檢索與辨識也是在經(jīng)歷了預(yù)處理技術(shù)后,分別采用了知識圖譜[20]和依存句法樹[21]技術(shù)實現(xiàn)檢索與辨識。此外,同一建模需求也有多重實現(xiàn)方法。如缺陷文本質(zhì)量提升既可以采用基于知識圖譜的圖搜索技術(shù)實現(xiàn)質(zhì)量問題提示[18],也可以采用基于缺陷文本質(zhì)量評價的質(zhì)量問題提示[16]。因此文本數(shù)據(jù)驅(qū)動建模應(yīng)根據(jù)建模目的選擇適合的方法,不必過于拘泥于通用流程。
2)電力文本數(shù)據(jù)驅(qū)動建模離不開專業(yè)領(lǐng)域知識,若直接采用通用領(lǐng)域的一些方法,往往難以達(dá)到最佳效果。因此需要結(jié)合電力領(lǐng)域知識及文本特點對建模方法進(jìn)行補充與改進(jìn)。如為提升電力文本分詞的準(zhǔn)確性,可增加電力領(lǐng)域本體字典[23]。
3)基于短文本的建模方法較難直接應(yīng)用于長文本。電力設(shè)備缺陷文本往往是幾十個字的短文本,內(nèi)容上比較有規(guī)律,一般包含缺陷發(fā)生的設(shè)備類型、具體部件和部位、現(xiàn)象和程度,因此適合采用知識圖譜技術(shù)進(jìn)行一些建模應(yīng)用[18,20]。然而諸如新設(shè)備啟動方案、調(diào)度預(yù)案等長文本,一般有數(shù)頁,關(guān)鍵詞匯分散且詞頻不高,因此難以移植短文本的技術(shù)進(jìn)行建模。若由人工構(gòu)建類似于程序流程圖的知識圖譜,則只是形似而神不似,失去了數(shù)據(jù)驅(qū)動建模的意義。此外,知識圖譜構(gòu)建是自動地從大量語料庫中提取共性知識,因此不適合把具體個體名稱放入知識圖譜中。長文本的建模方法還有較大探索空間,如嘗試閱讀理解方法等。
在圖像數(shù)據(jù)建模方面,針對變壓器圖像進(jìn)行了多部件目標(biāo)檢測[24]、小部件智能識別[25]的建模實踐;針對變電站指針式儀表圖像進(jìn)行了讀數(shù)建模[7];針對隔離開關(guān)圖像進(jìn)行了狀態(tài)自動識別建模[26]?;谏鲜鰧嵺`,有以下兩點體會。
1)電力圖像數(shù)據(jù)驅(qū)動建模中常用到圖像目標(biāo)檢測技術(shù)和圖像分割技術(shù),這些技術(shù)往往有多種算法,具體采用哪種需要分析對比,有時還要針對圖像特點進(jìn)行算法改進(jìn)。如在圖像目標(biāo)檢測中,文獻(xiàn)[24]對Faster R-CNN 網(wǎng)絡(luò)進(jìn)行了兩處改進(jìn)。一是通過提取多個卷積層的信息,使模型可以動態(tài)地適應(yīng)部件大小差異,提高對小目標(biāo)的檢測準(zhǔn)確性;二是在單目標(biāo)檢測的基礎(chǔ)上,加入多目標(biāo)之間的相對位置關(guān)系信息,從而提升了檢測準(zhǔn)確率。應(yīng)用改進(jìn)后的模型,變壓器多部件自動識別的查全率和查準(zhǔn)率獲得了較大提升。文獻(xiàn)[7]在采用圖像分割模型時也對U-Net 網(wǎng)絡(luò)進(jìn)行了兩處改進(jìn)。一是增加網(wǎng)絡(luò)下采樣次數(shù),并對鄰層特征進(jìn)行融合、疊加,增強了網(wǎng)絡(luò)對低層特征信息的提取,將不同層次神經(jīng)元的感受野控制在更加合理的水平;二是使用Dice 損失函數(shù)計算真實輪廓和預(yù)測輪廓的相似度,緩解類別不平衡問題。應(yīng)用改進(jìn)后的模型,分割儀表刻度線和指針的準(zhǔn)確率獲得較大提升。
2)為提高建模準(zhǔn)確性,除針對建模對象的圖像特點進(jìn)行算法改進(jìn)外,提升圖像樣本的質(zhì)量和數(shù)量也是重要途徑。圖像質(zhì)量受雨、霧等天氣和灰塵、光線等環(huán)境因素影響,常采用去霧算法等技術(shù)手段提升圖像質(zhì)量。此外還可以采用管理手段,如對灰塵進(jìn)行定期清掃以保障圖像質(zhì)量。圖像數(shù)量擴充的常用方法有平移、縮放、旋轉(zhuǎn)、改變亮度等基于二維圖像本身進(jìn)行變換的方法,文獻(xiàn)[26]則提出了模擬攝像機拍攝角度變化的基于三維形狀先驗知識的圖像變換方法。以隔離開關(guān)為實驗對象,通過隔離開關(guān)的二維圖像位置反推其三維空間的坐標(biāo);然后以拍攝點為參照,以隔離開關(guān)較近的絕緣柱為軸進(jìn)行有限角度的旋轉(zhuǎn),目的是為避免旋轉(zhuǎn)角度過大導(dǎo)致圖像失真;最后再利用透視投影變換重新生成隔離開關(guān)的二維圖像,實現(xiàn)了圖像數(shù)據(jù)的擴充。算例分析表明該擴充方法有效提升了目標(biāo)檢測模型訓(xùn)練效果。
雖然數(shù)據(jù)驅(qū)動建模尚無統(tǒng)一定義,但通過上述實踐可以認(rèn)為:相對于理論研究建模來說,數(shù)據(jù)驅(qū)動建模是利用豐富的數(shù)據(jù)樣本,運用多變量統(tǒng)計分析等理論或者機器學(xué)習(xí)等智能算法,從樣本數(shù)據(jù)中找出問題的內(nèi)在規(guī)律,進(jìn)而建立起輸入、輸出間的映射模型。最常見的模型有分類模型和回歸模型,但無論哪類模型都無法直接用數(shù)學(xué)公式進(jìn)行表達(dá)。此外,建模所依賴的數(shù)據(jù)可以是多類型、多模態(tài)的,其中有些數(shù)據(jù)需要經(jīng)過一定的預(yù)處理后才能被計算機所應(yīng)用。
由于理論模型可以用數(shù)學(xué)公式進(jìn)行表達(dá)和推理,因此具有明確的可解釋性;而數(shù)據(jù)驅(qū)動建模較多采用機器學(xué)習(xí)算法,可解釋性不足。因此,數(shù)據(jù)驅(qū)動建模一般適用于理論分析太復(fù)雜、數(shù)學(xué)模型未知或不確定性很大但能獲得充分樣本的問題。進(jìn)行數(shù)據(jù)驅(qū)動建模,大抵需要具備以下條件:有針對具體問題的明確建模需求;有與問題密切相關(guān)且數(shù)量充足的樣本數(shù)據(jù),樣本數(shù)據(jù)既包含輸入的特征數(shù)據(jù)也包含輸出的標(biāo)簽數(shù)據(jù),且標(biāo)簽具有唯一性;有與問題相匹配的具備自學(xué)習(xí)能力的算法。
為此,電力領(lǐng)域數(shù)據(jù)驅(qū)動建模至少要經(jīng)歷3個基本步驟:
1)通過電力領(lǐng)域理論分析或工程經(jīng)驗確定待建模問題的特征因素和模型標(biāo)簽,即確定問題的輸入、輸出。
2)分析現(xiàn)有數(shù)據(jù)能否滿足建模要求,若不能滿足要求,需擴大數(shù)據(jù)采集范圍或采用實驗手段進(jìn)行數(shù)據(jù)補充。
3)算法研究既可以采用數(shù)理統(tǒng)計等傳統(tǒng)方法,也可以采用包含深度學(xué)習(xí)在內(nèi)的機器學(xué)習(xí)算法,目前較多采用多種方法融合的智能算法,通過訓(xùn)練和測試建立從輸入特征到輸出標(biāo)簽的映射模型,并進(jìn)行模型性能驗證。
從上述步驟可知,與理論建模相比,數(shù)據(jù)驅(qū)動建模是一種能夠融合理論、實驗、數(shù)據(jù)三大研究方式優(yōu)勢的建模方法。當(dāng)前,人工智能、芯片、大數(shù)據(jù)等國家戰(zhàn)略的實施,促進(jìn)了數(shù)據(jù)驅(qū)動建模所需的算法、算力和數(shù)據(jù)的快速發(fā)展,因此,數(shù)據(jù)驅(qū)動建模具有良好的發(fā)展前景。尤其是模型具有應(yīng)用速度快的優(yōu)點,促進(jìn)了其在實時問題中的應(yīng)用。
然而,數(shù)據(jù)驅(qū)動建模能否成功,既與問題本身難度有關(guān),也與數(shù)據(jù)本身的數(shù)量和質(zhì)量有關(guān),還與選擇的智能算法有關(guān)。智能算法本身無法對依賴于數(shù)據(jù)的模型質(zhì)量進(jìn)行全面的評價和反饋。理論上,只要有數(shù)據(jù)和算法,總能訓(xùn)練出模型,而模型是否準(zhǔn)確反映了問題只能依靠測試進(jìn)行驗證。過擬合、欠擬合是數(shù)據(jù)驅(qū)動建模中常見的問題,通常采用增大訓(xùn)練和測試樣本來避免,但依然很難徹底解決[27]。若不精心設(shè)計驗證集,過擬合問題甚至很難發(fā)現(xiàn),其表現(xiàn)為:模型在訓(xùn)練集和測試集上表現(xiàn)出很好的泛化能力,而在之外的樣本上卻不能很好地擬合。綜上,目前數(shù)據(jù)驅(qū)動建立的模型,科學(xué)性既無法理論證明,也無法窮盡測試,所以數(shù)據(jù)驅(qū)動建模總是存在一定的風(fēng)險。但是,當(dāng)問題太復(fù)雜難以建立理論模型,或者理論模型過于復(fù)雜難以工程應(yīng)用時,若恰好滿足數(shù)據(jù)驅(qū)動建模條件,嘗試數(shù)據(jù)驅(qū)動建模則可以為問題解決提供一種可能途徑。
1)建模需求
電力領(lǐng)域的數(shù)據(jù)驅(qū)動建模是目標(biāo)導(dǎo)向、問題導(dǎo)向的應(yīng)用性研究,因此確定需求是建模的首要任務(wù)。建模需求包括要解決的問題或要實現(xiàn)的模型功能,以及模型要達(dá)到的性能。但目前出現(xiàn)了一些只重視算法、而忽略了領(lǐng)域問題本身的研究,如未分析建模條件、建模依據(jù),或者忽略了模型應(yīng)用場景、模型性能。為防止建模失敗,需要在建模前進(jìn)行建模需求分析,以最小代價確定是否適合數(shù)據(jù)驅(qū)動建模。
2)數(shù)據(jù)質(zhì)量和樣本數(shù)量
數(shù)據(jù)是數(shù)據(jù)驅(qū)動建模的根本基礎(chǔ)。保證樣本數(shù)量和數(shù)據(jù)質(zhì)量是降低模型風(fēng)險的重要手段之一。傳感器與傳感技術(shù)的發(fā)展與進(jìn)步,確實為獲得高質(zhì)量的工程數(shù)據(jù)提供了條件,然而電網(wǎng)絕大部分時間是正常運行的,工程數(shù)據(jù)的價值密度偏低。對于電網(wǎng)故障和異常問題的研究,樣本往往需要通過數(shù)字仿真技術(shù)或理論模型計算來獲得,因此充裕的樣本積累是數(shù)據(jù)驅(qū)動建模中最為耗時的。樣本數(shù)量不足將導(dǎo)致模型欠擬合或過擬合,是容易被發(fā)現(xiàn)并解決的;但不同類型樣本數(shù)量偏斜導(dǎo)致的過擬合,不容易被發(fā)現(xiàn),尤其是文本、圖像類數(shù)據(jù),對其進(jìn)行數(shù)據(jù)評估較為困難,研究還比較欠缺。
3)數(shù)據(jù)預(yù)處理
一般文本、圖像等非結(jié)構(gòu)化數(shù)據(jù)需要經(jīng)過預(yù)處理后再進(jìn)行建模。某些結(jié)構(gòu)化數(shù)據(jù)根據(jù)具體問題的不同也需要進(jìn)行預(yù)處理,即根據(jù)不同數(shù)據(jù)項的價值、作用、獲取頻度、質(zhì)量、相關(guān)性等差異,對初始數(shù)據(jù)進(jìn)行轉(zhuǎn)化、融合、重新組織等預(yù)處理,可以提高模型性能。然而,預(yù)處理方法會對模型性能產(chǎn)生較大影響,因此數(shù)據(jù)預(yù)處理方法也需要進(jìn)行對比后選擇。
4)算法選擇
由于近年來常采用人工智能算法進(jìn)行數(shù)據(jù)驅(qū)動建模,而算法的發(fā)展又非常快速,因此容易出現(xiàn)以下兩種情況:一種只用熟悉的方法;另一種只用最新的方法。對于具體問題來說,只有算法自身的優(yōu)缺點與問題相匹配才是最合適的算法,脫離具體問題討論什么算法更好是無意義的[27]。因此,算法選擇要有依據(jù),并通過比較進(jìn)行驗證。
5)模型驗證
模型驗證是降低數(shù)據(jù)驅(qū)動建模風(fēng)險的最有效途徑之一。目前的模型驗證往往是為了表明模型正確,然而數(shù)據(jù)驅(qū)動建模的風(fēng)險已表明,模型既無法理論證明也無法窮盡測試,因此,對于要進(jìn)行工程應(yīng)用的模型來說,驗證的目的應(yīng)是找出模型潛在的錯誤。只有正確認(rèn)識驗證目的以及驗證具有不徹底的特性,才能精心設(shè)計最能暴露錯誤的樣本構(gòu)成驗證集。由于智能算法的內(nèi)部結(jié)構(gòu)及處理過程復(fù)雜,難以通過邏輯路徑覆蓋設(shè)計樣本,所以一般采用黑盒測試法設(shè)計樣本。具體地,通過分析模型各種應(yīng)用場景的輸入、輸出數(shù)據(jù),綜合采用等價類劃分法、邊界值分析法、錯誤猜測法等方法設(shè)計驗證樣本,用有限的樣本去發(fā)現(xiàn)盡可能多的錯誤。等價類劃分法、邊界值分析法是黑盒測試中常用的方法,不僅能驗證模型在正確輸入情況下是否能獲得正確的輸出,還能驗證在不正確輸入情況下是否有不應(yīng)該的輸出。驗證過程中若發(fā)現(xiàn)有不正確的輸出,需要分析原因,從中總結(jié)出影響模型的因素,并針對性地進(jìn)行改進(jìn)和解決。訓(xùn)練樣本數(shù)量不足、應(yīng)用場景分析不足導(dǎo)致樣本偏斜或者算法不合適,都可能造成模型不準(zhǔn)確,因此驗證集需要嚴(yán)謹(jǐn)分析、精心設(shè)計,隨機選擇一些典型樣本進(jìn)行驗證是難以表明模型正確性的。
雖然在負(fù)荷預(yù)測等問題上,數(shù)據(jù)驅(qū)動建模已有較長的研究歷史,但電力領(lǐng)域業(yè)務(wù)面廣量多,總體上數(shù)據(jù)驅(qū)動建模經(jīng)驗還相對缺乏,建模失敗難以完全避免,因此及時總結(jié)建模經(jīng)驗非常必要。
新型電力系統(tǒng)的發(fā)展以及智能化要求的提升,越來越多的建模需求被提出。數(shù)據(jù)驅(qū)動建模成功案例的示范將會激發(fā)越來越多數(shù)據(jù)驅(qū)動建模研究。本文針對理論建模性能欠佳問題和基于非結(jié)構(gòu)化數(shù)據(jù)的特定業(yè)務(wù)建模問題,介紹了數(shù)據(jù)驅(qū)動建模的實踐情況,總結(jié)了對數(shù)據(jù)驅(qū)動建模的理解和體會。
電力系統(tǒng)有高可靠性的要求,不適合的建模需求或不恰當(dāng)?shù)慕_^程都可能誤導(dǎo)業(yè)務(wù)人員甚至危害電網(wǎng)安全。但是,對于機理分析太復(fù)雜、數(shù)學(xué)模型未知或不確定性很大的問題,還是可以嘗試進(jìn)行數(shù)據(jù)驅(qū)動建模,即使建模不成功也可以從原因分析中獲得啟迪。為此,對電力領(lǐng)域數(shù)據(jù)驅(qū)動建模的綜合建議是大膽嘗試、小心求證。