基于深度強(qiáng)化學(xué)習(xí)的電力基建進(jìn)度預(yù)測(cè)研究

2024-12-06 00:00:00彭程

中國(guó)新技術(shù)新產(chǎn)品 2024年15期

關(guān)鍵詞：強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)

摘要：本文介紹了深度強(qiáng)化學(xué)習(xí)在電力基建項(xiàng)目進(jìn)度預(yù)測(cè)中的應(yīng)用。通過(guò)算法概述，深入探討了強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)的原理，并闡述了將策略梯度算法與電力基建項(xiàng)目管理相結(jié)合的方法。結(jié)果分析展示了模型在RMSE隨迭代變化、真實(shí)值和預(yù)測(cè)值對(duì)比、MES的分布以及預(yù)測(cè)進(jìn)度與時(shí)間進(jìn)度對(duì)比等方面。深度強(qiáng)化學(xué)習(xí)技術(shù)在電力基建項(xiàng)目管理中表現(xiàn)出良好的預(yù)測(cè)準(zhǔn)確性和實(shí)用性，為決策制定提供了有力支持。

關(guān)鍵詞：深度學(xué)習(xí)；強(qiáng)化學(xué)習(xí)；電力基建項(xiàng)目；進(jìn)度預(yù)測(cè)管理

中圖分類號(hào)：TP 39" " 文獻(xiàn)標(biāo)志碼：A

方成等[1]研究了基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)技術(shù)在土木工程健康監(jiān)測(cè)領(lǐng)域的應(yīng)用，對(duì)數(shù)據(jù)集構(gòu)建方法和在施工現(xiàn)場(chǎng)安全管理、結(jié)構(gòu)損傷檢測(cè)等方面的應(yīng)用進(jìn)行總結(jié)。司偉等[2]提出了一種機(jī)器學(xué)習(xí)模型，用來(lái)預(yù)測(cè)寒區(qū)瀝青路面施工溫度，以保證施工質(zhì)量。研究結(jié)果顯示多層感知機(jī)模型在預(yù)測(cè)中表現(xiàn)最優(yōu)。張帆等[3]介紹了利用BIM和深度學(xué)習(xí)點(diǎn)云分割技術(shù)進(jìn)行施工檢查自動(dòng)化的方法。通過(guò)提高比對(duì)自動(dòng)化程度，為施工偏差比對(duì)提供了良好數(shù)據(jù)基礎(chǔ)。廖小烽等[4]提出了一種基于計(jì)算機(jī)視覺(jué)技術(shù)實(shí)現(xiàn)施工進(jìn)度自動(dòng)監(jiān)控及決策輔助支持的方法。利用三維重建技術(shù)獲取建筑物點(diǎn)云模型，對(duì)進(jìn)度偏差進(jìn)行分析。蘇陽(yáng)等[5]介紹了基于深度學(xué)習(xí)三維重建技術(shù)搭建的建筑施工進(jìn)度管理自動(dòng)化系統(tǒng)。利用高速攝像頭采集數(shù)據(jù)并結(jié)合BIM動(dòng)態(tài)模型技術(shù)，對(duì)建筑施工進(jìn)度進(jìn)行自動(dòng)管控，并有效提高管理效率。

1 算法概述

1.1 強(qiáng)化學(xué)習(xí)概述

在電力基建項(xiàng)目中，準(zhǔn)確預(yù)測(cè)進(jìn)度對(duì)資源分配、風(fēng)險(xiǎn)管理和整體計(jì)劃至關(guān)重要。傳統(tǒng)的方法可能無(wú)法充分考慮各種復(fù)雜因素之間的相互作用，而強(qiáng)化學(xué)習(xí)則能夠通過(guò)與環(huán)境交互來(lái)學(xué)習(xí)最優(yōu)決策策略。

當(dāng)電力基建項(xiàng)目中應(yīng)用策略梯度算法時(shí)，將決策過(guò)程表達(dá)為一個(gè)函數(shù)π（s，a，θ），該函數(shù)接受輸入s（當(dāng)前狀態(tài)）并輸出一個(gè)決策a（可選行動(dòng)）。通常用一個(gè)參數(shù)向量θ來(lái)表示這個(gè)決策，參數(shù)θ的設(shè)置實(shí)際上表示進(jìn)度管理中的一系列決策項(xiàng)目。

將目標(biāo)函數(shù)是設(shè)置為J，它通常是與項(xiàng)目進(jìn)度相關(guān)的關(guān)鍵指標(biāo)，比如完成時(shí)間、成本等。如公式（1）所示。

（1）

式中：J（θ）為基于參數(shù)θ的目標(biāo)函數(shù)；Eπ為按照策略π采樣得到的期望值；γ為折扣因子；rt為在時(shí)間步t執(zhí)行動(dòng)作后獲得的即時(shí)獎(jiǎng)勵(lì)。

時(shí)間是最常見(jiàn)的目標(biāo)之一，即希望項(xiàng)目能夠盡快完成，因此目標(biāo)函數(shù)可以是項(xiàng)目完成時(shí)間的負(fù)值；另一個(gè)重要的目標(biāo)是盡可能降低項(xiàng)目成本，亦通常以消耗成本的負(fù)值為目標(biāo)函數(shù)，而在有限時(shí)間和成本投入規(guī)模下的項(xiàng)目規(guī)劃中，將復(fù)雜長(zhǎng)期投資常見(jiàn)使用項(xiàng)目片段安排中的資源利用率概念作為目標(biāo)函數(shù)，尋求最大化。

基于目標(biāo)函數(shù)，用值函數(shù)估計(jì)每個(gè)狀態(tài)的長(zhǎng)期回報(bào)，即在當(dāng)前狀態(tài)下執(zhí)行某個(gè)動(dòng)作后所能獲得的預(yù)期收益。值函數(shù)的計(jì)算過(guò)程如公式（2）所示。

（2）

式中：k為未來(lái)偏移步距。

一旦定義了目標(biāo)函數(shù)J和值函數(shù)，就可以使用策略梯度算法來(lái)優(yōu)化決策策略。策略梯度算法的目標(biāo)是調(diào)整參數(shù)θ，使策略π（s，a，θ）的期望回報(bào)J最大化。這通常涉及計(jì)算策略梯度，并沿著梯度方向更新參數(shù)，通過(guò)選擇最佳的決策以推動(dòng)項(xiàng)目進(jìn)展，并最大化預(yù)期的進(jìn)度。

1.2 深度學(xué)習(xí)概述

目前，深度學(xué)習(xí)技術(shù)發(fā)展迅猛，且具有強(qiáng)大的表征能力，其與強(qiáng)化學(xué)習(xí)相結(jié)合形成了深度強(qiáng)化學(xué)習(xí)（DRL）。深度學(xué)習(xí)擅長(zhǎng)感知和表征數(shù)據(jù)，而強(qiáng)化學(xué)習(xí)則專注于決策制定，兩者結(jié)合能夠相互補(bǔ)充優(yōu)勢(shì)。將深度學(xué)習(xí)應(yīng)用于強(qiáng)化學(xué)習(xí)中，可以處理以前難以解決的問(wèn)題，例如高維/連續(xù)狀態(tài)和動(dòng)作空間下的管理問(wèn)題。

深度學(xué)習(xí)源自對(duì)人工神經(jīng)網(wǎng)絡(luò)研究進(jìn)行拓展，并逐漸成為機(jī)器學(xué)習(xí)中一個(gè)重要領(lǐng)域，其多個(gè)隱藏層的神經(jīng)網(wǎng)絡(luò)是典型的深度學(xué)習(xí)結(jié)構(gòu)，在輸入數(shù)據(jù)中可以自動(dòng)學(xué)習(xí)特征表示，并逐層提取更抽象、更具代表性的特征。在這個(gè)過(guò)程中，將多個(gè)ANN的網(wǎng)絡(luò)參數(shù)更新共同擬合，形成狀態(tài)-動(dòng)作者參數(shù)。

更新參數(shù)的損失函數(shù)是指當(dāng)使用梯度下降等優(yōu)化算法時(shí)，需要最小化的函數(shù)。這個(gè)函數(shù)衡量了模型預(yù)測(cè)值與真實(shí)標(biāo)簽之間的差異，通過(guò)最小化這個(gè)差異來(lái)調(diào)整模型參數(shù)，使模型預(yù)測(cè)更加接近真實(shí)數(shù)值。以優(yōu)化決策策略π（s，a，θ）為目標(biāo)，相應(yīng)更新參數(shù)的損失函數(shù)如公式（3）所示。

L（θ）=Eπ[y-Q（s，a）2] （3）

式中：L（θ）為基于參數(shù)θ的損失函數(shù)；y為優(yōu)化目標(biāo)。

這個(gè)部分與預(yù)測(cè)輸入數(shù)據(jù)相關(guān)，并要計(jì)算預(yù)測(cè)值與真實(shí)標(biāo)簽之間的差異。可以用公式（4）計(jì)算其優(yōu)化目標(biāo)y。

y=rt-γ·maxQ（s，a）（4）

通過(guò)最小化損失函數(shù)L（θ），可以調(diào)整狀態(tài)-動(dòng)作者參數(shù)θ，最大程度地縮小預(yù)測(cè)值和實(shí)際值之間的差異。

與傳統(tǒng)機(jī)器學(xué)習(xí)方法類似，深度學(xué)習(xí)包括監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)是監(jiān)督機(jī)器學(xué)習(xí)下常見(jiàn)的模型之一，而堆疊自編碼器和受限玻爾茲曼機(jī)等則屬于無(wú)監(jiān)督機(jī)器學(xué)習(xí)范疇。其中一個(gè)重要特點(diǎn)是其能夠從高維數(shù)據(jù)中提取低維特征表示，在處理文本、圖像、信號(hào)等領(lǐng)域有廣泛應(yīng)用。

將深度強(qiáng)化學(xué)習(xí)與電力基建項(xiàng)目進(jìn)度預(yù)測(cè)相結(jié)合，可以更準(zhǔn)確地預(yù)測(cè)項(xiàng)目的進(jìn)展情況，并為決策制定提供更有力支持。這種方法不僅可以幫助優(yōu)化資源分配和風(fēng)險(xiǎn)管理，當(dāng)應(yīng)對(duì)復(fù)雜多變情景時(shí)也能夠提高項(xiàng)目執(zhí)行效率并降低風(fēng)險(xiǎn)水平。

1.3 深度強(qiáng)化學(xué)習(xí)的應(yīng)用

將深度強(qiáng)化學(xué)習(xí)與電力基建項(xiàng)目進(jìn)度預(yù)測(cè)相結(jié)合，涉及多個(gè)技術(shù)性細(xì)節(jié)，需要對(duì)大規(guī)模、高維度的項(xiàng)目數(shù)據(jù)進(jìn)行處理，并進(jìn)行特征工程以提取關(guān)鍵特征。在優(yōu)化過(guò)程中，利用策略梯度方法計(jì)算梯度并更新參數(shù)，通過(guò)經(jīng)驗(yàn)回放減少樣本相關(guān)性影響。

基于數(shù)據(jù)收集與處理，將深度強(qiáng)化學(xué)習(xí)運(yùn)用于進(jìn)度預(yù)測(cè)和現(xiàn)場(chǎng)管理過(guò)程，在過(guò)程中需要重視時(shí)間、資源和人力的約束條件，從而設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)，以引導(dǎo)模型學(xué)習(xí)正確的決策策略，并利用交叉驗(yàn)證或驗(yàn)證集評(píng)估模型性能，并調(diào)整超參數(shù)和結(jié)構(gòu)。通過(guò)訓(xùn)練、優(yōu)化模型，過(guò)往數(shù)據(jù)積累和人工標(biāo)記、驗(yàn)證能夠?yàn)槟Ｐ吞峁┯行У挠?xùn)練樣本，基于原始數(shù)據(jù)的優(yōu)化處理構(gòu)建模型后，可以將其應(yīng)用在實(shí)踐領(lǐng)域中。本文討論的電力項(xiàng)目基礎(chǔ)設(shè)施建設(shè)進(jìn)度涉及大量預(yù)調(diào)研活動(dòng)，可以在前期缺乏充分信息支持的基礎(chǔ)上收集項(xiàng)目信息的必要內(nèi)容，以對(duì)整體進(jìn)行分析。因此，企業(yè)將訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型嵌入實(shí)時(shí)決策支持系統(tǒng)中，在項(xiàng)目執(zhí)行前進(jìn)行耗時(shí)預(yù)測(cè)，在項(xiàng)目執(zhí)行過(guò)程中提供實(shí)時(shí)預(yù)測(cè)和決策建議，在項(xiàng)目竣工驗(yàn)收環(huán)節(jié)，要收集過(guò)往數(shù)據(jù)信息補(bǔ)充現(xiàn)有模型，擴(kuò)大參數(shù)收錄范圍并形成更準(zhǔn)確的預(yù)測(cè)模型。這種方法不僅有助于優(yōu)化資源分配和風(fēng)險(xiǎn)管理，當(dāng)應(yīng)對(duì)復(fù)雜情景時(shí)還能夠提高項(xiàng)目執(zhí)行效率。

2 結(jié)果分析

2.1 RMSE隨迭代變化

隨著迭代次數(shù)增加，均方根誤差（RMSE）水平能夠反映預(yù)測(cè)模型的性能收斂速度，其結(jié)果如圖1所示。

隨著深度強(qiáng)化學(xué)習(xí)模型的訓(xùn)練，管理者觀察到RMSE在不同訓(xùn)練階段的變化情況。在學(xué)習(xí)過(guò)程中，模型逐漸理解數(shù)據(jù)特征和建立準(zhǔn)確預(yù)測(cè)的能力導(dǎo)致初始階段快速減少。這種快速收斂通常反映了模型對(duì)數(shù)據(jù)的初步擬合和學(xué)習(xí)效果。隨著訓(xùn)練次數(shù)增加，RMSE在20代內(nèi)穩(wěn)定在較低水平。這表明模型已經(jīng)較好地捕捉了數(shù)據(jù)之間的關(guān)系，并且達(dá)到了一定的預(yù)測(cè)準(zhǔn)確性。這個(gè)階段的穩(wěn)定性顯示了模型在相對(duì)短時(shí)間內(nèi)就能夠取得可接受水平的預(yù)測(cè)結(jié)果。當(dāng)訓(xùn)練達(dá)到50代時(shí)，RMSE保持穩(wěn)定，低于0.1。這進(jìn)一步確認(rèn)了模型具有較高的預(yù)測(cè)準(zhǔn)確性，并且能夠在不斷迭代優(yōu)化后保持穩(wěn)定水平。RMSE值低于0.1說(shuō)明模型與實(shí)際值之間的誤差非常小，說(shuō)明它是一個(gè)有效且可靠的預(yù)測(cè)工具。

2.2 預(yù)測(cè)值表現(xiàn)對(duì)比

對(duì)比真實(shí)值和預(yù)測(cè)值之間的差異是評(píng)估模型性能的重要指標(biāo)之一。

圖2對(duì)比了真實(shí)值和預(yù)測(cè)值，管理者可以看到它們之間的差異非常小。真實(shí)值和預(yù)測(cè)值不僅高度接近，還有著同期波動(dòng)、相對(duì)誤差有限，誤差分布于極值波峰與波谷等特點(diǎn)，滯后性較低、偏差有限，這種高度接近的差異表明深度強(qiáng)化學(xué)習(xí)模型在預(yù)測(cè)項(xiàng)目進(jìn)度方面表現(xiàn)出色。模型能夠準(zhǔn)確地捕捉各種因素對(duì)項(xiàng)目進(jìn)度的影響，并由此生成與實(shí)際情況相符合的預(yù)測(cè)結(jié)果。

2.3 MES的樣本內(nèi)分布

對(duì)MES（均方誤差）分布進(jìn)行分析可以幫助管理者更全面地了解模型的預(yù)測(cè)性能。

樣本內(nèi)分布如圖3所示，MES值整體低于0.05，這說(shuō)明大多數(shù)樣本的預(yù)測(cè)誤差非常小且精準(zhǔn)。在分布中，有少量樣本的MES值處于中等水平，小于0.1，這表明在某些情況下，模型的預(yù)測(cè)誤差雖然略有增加，但是仍然保持在相對(duì)較低的水平上。極少量樣本的MES值高于0.15，預(yù)測(cè)誤差較大。盡管存在這些較高誤差值的樣本，但它們數(shù)量極少，因此整體上并不影響模型在大多數(shù)情況下表現(xiàn)出色的特點(diǎn)。

2.4 預(yù)測(cè)進(jìn)度對(duì)比

對(duì)預(yù)測(cè)進(jìn)度與時(shí)間進(jìn)度進(jìn)行對(duì)比可以幫助管理者了解模型在不同階段的表現(xiàn)以及其與實(shí)際情況之間的差異。

預(yù)測(cè)進(jìn)度與實(shí)際進(jìn)度比較如圖4所示。預(yù)測(cè)進(jìn)度與時(shí)間進(jìn)度之間呈現(xiàn)接近y=x的直線關(guān)系，即模型預(yù)測(cè)整體上與實(shí)際時(shí)間進(jìn)度保持一致。這種趨勢(shì)表明，模型在大多數(shù)情況下能夠相對(duì)準(zhǔn)確地預(yù)測(cè)項(xiàng)目的進(jìn)展情況。然而，在觀察到的數(shù)據(jù)中也存在一些偏差。當(dāng)實(shí)際進(jìn)度較小時(shí)，預(yù)測(cè)進(jìn)度可能會(huì)出現(xiàn)較高水平偏差的情況，即模型傾向于高估項(xiàng)目完成的程度。相反，當(dāng)實(shí)際進(jìn)度較高時(shí)，預(yù)測(cè)進(jìn)度可能會(huì)呈現(xiàn)較低水平偏差，即模型傾向低估項(xiàng)目完成情況。模型在不同階段對(duì)項(xiàng)目狀態(tài)變化的理解程度不同可能會(huì)導(dǎo)致出現(xiàn)這種偏差。在項(xiàng)目初期或者某些特定階段，受到各種因素影響，模型可能更容易產(chǎn)生高估或低估的預(yù)測(cè)結(jié)果。這提示管理者，當(dāng)使用深度強(qiáng)化學(xué)習(xí)模型進(jìn)行項(xiàng)目管理時(shí)，需要考慮這些潛在偏差，并根據(jù)實(shí)際情況進(jìn)行適當(dāng)調(diào)整和優(yōu)化，以提高預(yù)測(cè)準(zhǔn)確性和可靠性。

3 結(jié)論

本文深入探討了深度強(qiáng)化學(xué)習(xí)在電力基建項(xiàng)目進(jìn)度預(yù)測(cè)中的應(yīng)用及其效果評(píng)估。首先，本文從算法概述入手，詳細(xì)介紹了強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)原理，并討論了策略梯度算法在電力基建項(xiàng)目管理中的重要性。其次，在結(jié)果分析部分，本文觀察到模型在不同方面表現(xiàn)出色：RMSE隨迭代變化體現(xiàn)模型性能收斂速度；真實(shí)值和預(yù)測(cè)值的對(duì)比結(jié)果說(shuō)明模型準(zhǔn)確性；MES的樣本內(nèi)分布說(shuō)明大多數(shù)情況下，模型可以提供精準(zhǔn)預(yù)測(cè)；最后，在預(yù)測(cè)進(jìn)度與時(shí)間進(jìn)度對(duì)比中發(fā)現(xiàn)存在一定偏差。這些結(jié)果共同揭示了深度強(qiáng)化學(xué)習(xí)技術(shù)在電力基建項(xiàng)目管理中具有良好的應(yīng)用前景和效果。

參考文獻(xiàn)

[1]方成，于盛鑫，李永剛，等.基于深度學(xué)習(xí)的土木工程計(jì)算機(jī)視覺(jué)健康監(jiān)測(cè)[J].同濟(jì)大學(xué)學(xué)報(bào)（自然科學(xué)版），2024，52（2）：213-222.

[2]司偉，茆緯杰，李寧，等.寒區(qū)瀝青路面智慧化施工混合料溫度預(yù)估機(jī)器學(xué)習(xí)模型[J].中國(guó)公路學(xué)報(bào)，2023，36（3）：81-97.

[3]張帆，孫楚津，覃思中，等.基于BIM和深度學(xué)習(xí)點(diǎn)云分割的施工檢查方法模擬研究[J].工程力學(xué)，2024，41（2）：194-201.

[4]廖小烽，謝艷，田書函，等.基于計(jì)算機(jī)視覺(jué)的施工進(jìn)度自動(dòng)監(jiān)控方法[J].重慶大學(xué)學(xué)報(bào)，2022，45（增刊1）：70-73.

[5]蘇陽(yáng)，毛超，郭鵬飛.基于深度學(xué)習(xí)三維重建技術(shù)的建筑施工進(jìn)度管理自動(dòng)化系統(tǒng)構(gòu)建[J].土木與環(huán)境工程學(xué)報(bào)（中英文），2024，46（1）：173-181.