• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于強化學習的配網(wǎng)參數(shù)優(yōu)化方法

      2020-08-03 06:54:33李敬航林澤宏張鑫
      價值工程 2020年21期
      關鍵詞:強化學習配網(wǎng)自動化智能化

      李敬航 林澤宏 張鑫

      摘要:隨著我國科技、經(jīng)濟的快速發(fā)展,人們對電量的需求日益遞增。當前,智能化體系不斷完善,智能化的配網(wǎng)自動化系統(tǒng)將成為未來的主要研究方向。論文中主要解決自動配網(wǎng)系統(tǒng)中的配網(wǎng)參數(shù)設置問題。具體地,論文基于強化學習框架提出了一種配網(wǎng)參數(shù)優(yōu)化的方法,該方法能夠在盡可能少的人為干預下實現(xiàn)配網(wǎng)自動化,從而高效的解決傳統(tǒng)配網(wǎng)問題。該智能體以最大化配網(wǎng)系統(tǒng)的供電質(zhì)量為目標,利用配網(wǎng)系統(tǒng)正常供電的時長作為獎賞值,通過使用強化學習算法促使智能體不斷學習,最終智能體能夠為配網(wǎng)系統(tǒng)選擇出一系列高質(zhì)量的配網(wǎng)參數(shù),從而實現(xiàn)高效、可靠的配網(wǎng)系統(tǒng)。

      Abstract: With the rapid development of technology and economy, people's demand for electricity is increasing day by day. This paper mainly solves the problem of setting the distribution parameters in the automatic distribution system. Specifically, this paper proposes a distribution network parameter optimization method based on reinforcement learning framework, which can automate the distribution network with as little human intervention as possible, thereby efficiently solving the traditional distribution network problem. The agent aims to maximize the power supply quality of the distribution system, and uses the reinforcement learning algorithm to promote the agent to learn continuously, and finally the agent can select a series of high-quality distribution network parameters, thus achieving an efficient and reliable distribution network system.

      關鍵詞:智能化;配網(wǎng)自動化;強化學習

      Key words: intelligent;automatic distribution network;reinforcement learning

      中圖分類號:O224? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2020)21-0226-05

      0? 引言

      在國家電網(wǎng)中,配網(wǎng)自動化技術是衡量現(xiàn)代電力技術的重要指標,該技術通過結(jié)合計算機科學技術、電氣技術和網(wǎng)絡技術來設置電網(wǎng)參數(shù)、動態(tài)監(jiān)測電網(wǎng)狀態(tài)以及實現(xiàn)電網(wǎng)的高可靠性。配網(wǎng)自動化有利于減少電網(wǎng)系統(tǒng)成本,同時也提高電網(wǎng)各個評價指標。配網(wǎng)自動化能夠根據(jù)電網(wǎng)的實際運行情況,及時的進行電網(wǎng)調(diào)配,并能夠有效的處理突發(fā)情況,保證電網(wǎng)的可靠性。

      傳統(tǒng)的配網(wǎng)自動化仍面臨一些挑戰(zhàn),主要包括:①在自動化配網(wǎng)系統(tǒng)運行過程中,仍需大量的人為干預;②在自動化配網(wǎng)系統(tǒng)運行過程中,需要進行配網(wǎng)參數(shù)設置,這需要電力人員需要大量的經(jīng)驗積累;③對于不同的電力環(huán)境和地理環(huán)境,需要設計一個適合實際情況的電力拓撲網(wǎng)絡[1]。為了解決上述問題,通過結(jié)合人工智能使得配網(wǎng)自動化系統(tǒng)更高效、更安全、更實用是有意義的,是當前智能電網(wǎng)的趨勢,能夠?qū)ε渚W(wǎng)系統(tǒng)甚至電網(wǎng)系統(tǒng)起到了十分重要的作用。在人工智能時代的背景下,有效的結(jié)合智能算法是提高配網(wǎng)自動化系統(tǒng)的一個可行的方案。

      在本文中,我們通過使用強化學習中策略梯度方法對自動化配網(wǎng)系統(tǒng)中的參數(shù)進行優(yōu)化,從而提高整個配網(wǎng)自動化系統(tǒng)以及整個電網(wǎng)系統(tǒng)的性能。以下將從相關工作、方法提出、未來展望和總結(jié)四部分進行詳細描述。

      1? 相關工作

      1.1 配網(wǎng)自動化

      先前已有配網(wǎng)自動化與機器學習的結(jié)合案例。針對配網(wǎng)系統(tǒng)的自動化檢修問題,基于機器學習檢修方法主要包含節(jié)點聚集環(huán)節(jié)、自適應連接環(huán)節(jié)和調(diào)試監(jiān)測環(huán)節(jié)[2]。在進行自動檢測的過程中,首先需要確定檢測手段,并根據(jù)配網(wǎng)系統(tǒng)類型來確定聚類方式,然后對自動化配網(wǎng)設備進行自動連接及調(diào)試監(jiān)測操作,從而根據(jù)實際情況實現(xiàn)自動化配網(wǎng)設備狀態(tài)的自適應調(diào)試。在此基礎上,我們需要完成這種新的調(diào)修方式的構造,首先需要匹配檢修語義,并及時完善已生成的條目文件,最終完成搭建。在此之前,我國也有很多技術方法來研究配網(wǎng)設備自動檢修方法,但是先前相關工作的主要關注點在于:基于配網(wǎng)設備通訊手段的檢測分析,合理選擇狀態(tài)檢修并形成最終匯總數(shù)據(jù), 再利用重要性決策的方法理論,對匯總數(shù)據(jù)進行精準的風險控制與評價。該工作主要關注配網(wǎng)設備的檢修和處理過程,雖然上述工作能夠通過多次重要性指標加權的方式得到相對精準的調(diào)試和檢修結(jié)果,但多次重要性指標加權的操作需要對數(shù)據(jù)進行集中處理的操作,也容易導致最終決策結(jié)果產(chǎn)生誤差,從而容易誘發(fā)自動化配網(wǎng)設備在實際情況下得不到充分滿足的問題。

      1.2 強化學習

      強化學習(Reinforcement Learning,RL)[3]是在解決決策問題方面具有很大的潛力,其通過構建智能體來代替人類進行決策,從而完成決策自動化。其基本原理是:為了代替人類進行決策,需要構建智能體(Agent);智能體會根據(jù)當前環(huán)境的狀態(tài)進行決策,即輸出動作(action);通過將動作作用于環(huán)境中,從而得到環(huán)境的反饋,即獎賞值(reward);通過最大化累積獎賞值來達到目標,并經(jīng)過不斷迭代從而學習到最優(yōu)的策略(policy),該策略能夠根據(jù)環(huán)境狀態(tài)輸出最大化獎賞值的動作(action)。通常地,當一個實際問題能夠用強化學習方法解決時,我們往往可以將該過程模擬成一個馬爾可夫決策過程,由一個四元組(S (state),A(action),P,R(reward))組成,其中:

      ①S(state)表示一個有限的狀態(tài)集,其包括環(huán)境中可能出現(xiàn)的所有狀態(tài)。St表示t時刻環(huán)境所處的狀態(tài);

      ②A(action)表示一個有限的動作集,其包括智能體根據(jù)環(huán)境狀態(tài)可能采取的所有動作。At表示在t時刻智能體根據(jù)當前環(huán)境狀態(tài)所采取的動作;

      強化學習是一種策略學習方法,能夠?qū)W習到從環(huán)境狀態(tài)映射到動作的最優(yōu)策略。強化學習與傳統(tǒng)的機器學習方法有所不同,強化學習主要通過利用環(huán)境的反饋值進行迭代學習,該反饋值是對智能體所產(chǎn)生的動作的一種評價。如果智能體針對當前環(huán)境的狀態(tài)做出的動作獲得較高的獎賞值,那么以此計算的損失函數(shù)則會重點關注該動作區(qū)域,主要體現(xiàn)在梯度下降時的參數(shù)更新;相反,如果智能體做出的動作效果不夠好,則降低對該動作區(qū)域的關注。通過上述的迭代學習方式,智能體不斷改進行動策略從而找到適合當前環(huán)境的最優(yōu)策略。

      1.3 深度強化學習

      隨著深度學習的發(fā)展,深度學習中的神經(jīng)網(wǎng)絡的應用也越來越廣泛。并且隨著神經(jīng)網(wǎng)絡的種類越來越豐富,其對復雜任務的抽象能力也越來越強大。1.2節(jié)中所描述的強化學習雖然對決策問題具有很大潛力,但當問題的復雜度逐漸增加時,單純的強化學習往往不能達到預期的效果。近期,谷歌大腦團隊將具有抽象和表達能力的深度學習方法和具有決策能力的強化學習相結(jié)合,形成了深度強化學習方法[4],高效地突破了諸如自動駕駛、與人類進行圍棋比賽等高難度復雜問題,并且利用該方法在一些領域的效果超越人類。通過這種方式,將深度學習中的神經(jīng)網(wǎng)絡與強化學習方法結(jié)合,這使得強化學習方法能夠具有更加深層次的抽象能力,從而提高策略能力。具體的,強化學習中的智能體由深度神經(jīng)網(wǎng)絡構成,輸入為當前時刻環(huán)境的狀態(tài),也就是當前時刻從環(huán)境中獲得的感知信息,輸出則為當前時刻智能體根據(jù)狀態(tài)做出的決策或者動作。在智能體與環(huán)境交互的每一個時刻,利用神經(jīng)網(wǎng)絡構建的智能體能夠獲得復雜環(huán)境的潛在信息表征;接下來評估各種可能動作的價值函數(shù),輸出當前最優(yōu)動作;環(huán)境對該動作做出反饋,輸入到智能體。通過不斷迭代訓練,最終智能體能夠以較高的概率選擇獎賞值高的動作。該方法的優(yōu)勢在于,其不需要過多的人工干預,因此具有很好的實用性,并且也能大大減少資源耗費。目前,深度強化學習在對抗游戲、推薦和自動駕駛等新型領域得到廣泛結(jié)合。

      2? 基于深度強化學習的配網(wǎng)參數(shù)優(yōu)化方法

      在本章節(jié)中,我們將首先描述如何利用長短時記憶神經(jīng)網(wǎng)絡構造Agent以自動優(yōu)化配網(wǎng)參數(shù);接著描述智能體的工作流程和如何使用策略梯度算法訓練智能體,并以最大化智能體選擇的配網(wǎng)參數(shù)組合所對應的配網(wǎng)環(huán)境的正常運行時長作為目標。

      2.1 Agent內(nèi)部網(wǎng)絡結(jié)構

      由于配網(wǎng)系統(tǒng)中的參數(shù)較多,如果直接優(yōu)化整個參數(shù)空間,則會極大的降低整個配網(wǎng)系統(tǒng)的效率。在本文中,我們將自動化配網(wǎng)系統(tǒng)參數(shù)優(yōu)化問題可看作一個序列決策問題,也就是將整個參數(shù)優(yōu)化問題拆分成多個小的優(yōu)化問題,每一時刻只針對某個配網(wǎng)參數(shù)的取值做出決策,整個配網(wǎng)系統(tǒng)的參數(shù)需按時間步逐個輸出。為了考慮配網(wǎng)參數(shù)之間的相互關聯(lián)和相互影響,我們使用一個變長的字符串來表示整個配網(wǎng)參數(shù)組合,通過這樣的轉(zhuǎn)變使得我們能夠利用神經(jīng)網(wǎng)絡構造的智能體來生成對應的字符串,通過對字符串進行解析能夠獲得配網(wǎng)系統(tǒng)的實際參數(shù)值。由于LSTM網(wǎng)絡對于解決時序問題具有很大的潛力,因此我們使用LSTM神經(jīng)網(wǎng)絡作為智能體的核心結(jié)構,具體優(yōu)化過程如圖1所示。Agent以概率P為算法模型選擇一組配網(wǎng)參數(shù)a1:T(T為算法模型中需要優(yōu)化的配網(wǎng)參數(shù)的總數(shù));然后運行Agent選擇的配網(wǎng)參數(shù)組合a1:T所對應的配網(wǎng)自動化系統(tǒng),以該系統(tǒng)的正常運行時長作為獎賞值,利用策略梯度算法[5]來更新智能體的內(nèi)部參數(shù)。通過這樣的不斷迭代,最終會得到一個較好的決策策略,主要體現(xiàn)在智能體會逐漸選擇獎賞值較高的自動化配網(wǎng)參數(shù)組合。接下來我們以6個配網(wǎng)參數(shù)的配網(wǎng)系統(tǒng)為例,描述如何構建agent的模型結(jié)構。

      對于配網(wǎng)系統(tǒng)中的配網(wǎng)參數(shù),都會直接影響自動化配網(wǎng)系統(tǒng)的性能。我們利用長短時記憶神經(jīng)網(wǎng)絡(LSTM)[6]構造一個Agent來自動選擇配網(wǎng)參數(shù)組合。該Agent的網(wǎng)絡結(jié)構如圖2所示,智能體按時間步展開6次,智能體的結(jié)構共享,整體顯示一個流型結(jié)構。其內(nèi)部結(jié)構包括一個輸入全連接層、LSTM網(wǎng)絡和一個輸出全連接層。通過一個輸入全連接層能夠?qū)⑤斎虢y(tǒng)一維度且進行更深層次的特征提取。中間的LSTM網(wǎng)絡作為智能體的核心結(jié)構,在一定程度上能夠觀察各個配網(wǎng)參數(shù)的內(nèi)部聯(lián)系。該核心結(jié)構由三層LSTM網(wǎng)絡組成,每一層包含30個神經(jīng)元節(jié)點。最后通過一個輸出全連接層輸出對應的配網(wǎng)參數(shù)值。

      由于我們將參數(shù)選擇看作一個序列決策過程,所以智能體在每一個時刻只輸出對應的配網(wǎng)參數(shù)值。當完成所有時間步后,也就是選擇完所有配網(wǎng)參數(shù)值后,Agent輸出停止。Agent在t=1時刻的輸入為全1向量(該向量的元素的值全為1),智能體在其他時刻輸出對應配網(wǎng)參數(shù)的預選值的選擇概率,該選擇概率的值域為[0,1];智能體輸出的動作的概率值越大,選中該動作預選值概率越高;否則相反。智能體通過不斷迭代,能夠根據(jù)輸出的概率值進行最優(yōu)的選擇,即獲得該配網(wǎng)參數(shù)的實際取值。同時,為了讓所有的待優(yōu)化的配網(wǎng)參數(shù)保持前后聯(lián)系,我們把當前時刻所選擇值的索引位置作為下一時刻的狀態(tài),即下一時刻智能體的輸入數(shù)據(jù)。

      具體地,如在t=1時刻,Agent輸出配網(wǎng)參數(shù)1的預選值的選擇概率后,通過在概率中進行采樣選擇出配網(wǎng)參數(shù)1;然后,我們將智能體所選擇的配網(wǎng)參數(shù)值的索引位置作為下一時刻智能體的輸入數(shù)據(jù);以此類推,智能體將按時間步迭代n次(n表示待優(yōu)化的配網(wǎng)參數(shù)個數(shù))。當智能體按上述步驟選擇了所有配網(wǎng)參數(shù)后,就形成了一個自動化配網(wǎng)系統(tǒng)參數(shù)組合。重要的,我們以自動化配網(wǎng)系統(tǒng)的運行質(zhì)量作為優(yōu)化目標,所以將配網(wǎng)系統(tǒng)正常運行的時長作為智能體的在當前時刻的獎賞值,并以此計算損失函數(shù)。通過使用梯度下降來更新智能體的內(nèi)部參數(shù)。經(jīng)過多次迭代,Agent通過獎賞值修正自身權重,Agent能夠選擇出更優(yōu)的配網(wǎng)參數(shù)組合,使得不斷提升配網(wǎng)系統(tǒng)的正常運行時長。值得注意的是,雖然Agent輸入的配網(wǎng)參數(shù)是串行關系,但是配網(wǎng)參數(shù)輸入順序不會影響到最終實驗結(jié)果。這是由于LSTM網(wǎng)絡結(jié)構內(nèi)部能夠逐漸適應配網(wǎng)參數(shù)順序不一帶來的影響,并且強化學習算法也能夠在參數(shù)空間充分采樣,漸弱參數(shù)依賴性對最終結(jié)果的影響。

      2.2 Agent工作流程

      在本節(jié)中,我們將具體描述Agent智能體如何進行自動化配網(wǎng)系統(tǒng)的參數(shù)優(yōu)化,主要分為以下4個步驟:

      ①通過輸入層將狀態(tài)輸入到智能體,并通過Agent智能體中的全連接層,對智能體的輸入進行低層次的抽象處理并統(tǒng)一其維度,其重要運算為:

      其中,softmax函數(shù)中的exp(x)表示對x進行指數(shù)操作;N表示x中總共包含的元素值個數(shù),即待優(yōu)化的配網(wǎng)參數(shù)個數(shù);Pt表示自動化配網(wǎng)系統(tǒng)參數(shù)在t時刻的候選值的概率值,其大小為[0,1];inputt+1表示智能體在t+1時刻的輸入信息;onehot(x)表示對x進行onehot編碼,該函數(shù)的輸出維度與x的維度相同,并且其輸出只包含0和1,1的位置為x中最大元素的位置,其余維度的值為0。

      通過以上步驟,Agent智能體能夠按時間步來選擇出整個配網(wǎng)參數(shù)組合。接下來,我們將選擇強化學習方法,并使用該配網(wǎng)參數(shù)的正常運行時長作為獎賞值,以此來計算損失函數(shù),最終通過梯度下降方法來更新智能體的內(nèi)部參數(shù)。

      2.3 Agent訓練流程

      策略梯度方法是一種基于策略的強化學習方法,相比于基于值的強化學習方法,策略梯度能夠更加直接的獲得動作決策策略。該方法通過計算動作的概率與期望總獎賞的乘積對智能體內(nèi)部參數(shù)的梯度來更新智能體的內(nèi)部參數(shù),通過不斷迭代,智能體能夠選擇出一個較好的配網(wǎng)參數(shù)組合。策略梯度在解決強化學習任務時具有高效率、適應性強的優(yōu)勢。除此之外,它能夠避免了值估計的過程,直接優(yōu)化策略已到達較高的期望獎賞值。在實際使用時,在更多的領域使用策略梯度方法,并且它的最終效果也更加明顯。因此,在本文中,我們采用策略梯度方法來計算損失函數(shù),并以此來更新智能體的內(nèi)部參數(shù)。

      其中, T為自動化配網(wǎng)系統(tǒng)的待優(yōu)化參數(shù)個數(shù),也就是智能體所需展開的時間步數(shù);Rk為自動化配網(wǎng)系統(tǒng)結(jié)合第k個樣本,所得到的正常運行時長;b(baseline)表示基線,這里我們使用獎賞值的指數(shù)滑動平均值作為基線值。

      3? 未來展望

      在本文中,我們提出了一種基于強化學習的配網(wǎng)參數(shù)優(yōu)化的方法。在該方法中,我們以自動配網(wǎng)系統(tǒng)的正常運行時長作為獎勵值來更新agent的內(nèi)部參數(shù)。在未來工作中,我們將繼續(xù)深入研究該領域,主要改進方向有以下幾點:①我們將組合自動化配網(wǎng)系統(tǒng)中的其他評估指標來作為獎勵值,并進行多目標優(yōu)化,從而達到綜合性能更好的自動化配網(wǎng)系統(tǒng);②在基礎架構中,我們發(fā)現(xiàn)配網(wǎng)參數(shù)的評估十分耗時,我們將通過添加預測模型來進行性能預測,從而提高優(yōu)化方法的時間效率;③我們將從配網(wǎng)參數(shù)的優(yōu)化逐漸擴展到電網(wǎng)拓撲結(jié)構的優(yōu)化,從而實現(xiàn)電網(wǎng)的全面優(yōu)化。

      4? 總結(jié)

      本文中,我們針對自動化配網(wǎng)系統(tǒng)中配網(wǎng)參數(shù)優(yōu)化的問題,將強化學習框架擴展到自動化配網(wǎng)系統(tǒng)的參數(shù)優(yōu)化問題,并提出了一種新的自動化參數(shù)優(yōu)化方法。該方法使用LSTM網(wǎng)絡作為agent的核心網(wǎng)絡結(jié)構,并以順序選擇的方式逐次選擇出各個配網(wǎng)參數(shù)。在獲得整個配網(wǎng)參數(shù)后,我們使用自動化配網(wǎng)系統(tǒng)的正常運行時長作為獎勵值,并以此來更新agent的內(nèi)部參數(shù)。經(jīng)過不斷迭代,智能體能夠更加準確的選擇出性能更好的配網(wǎng)參數(shù)組合,從而提高自動化配網(wǎng)系統(tǒng)的整體可靠性,使得優(yōu)化方法在優(yōu)化結(jié)果和優(yōu)化效率上都具有一定的競爭力。

      參考文獻:

      [1]盛德剛.基于配網(wǎng)自動化的電力系統(tǒng)研究[J].水利電力,2019,10.

      [2]李互剛.基于機器學習的配網(wǎng)設備狀態(tài)自動檢修方法研究 [J].自動化與儀器儀表,2019,10.

      [3]Richard S. Sutton and Andrew G. Barto. Reinforcement Learning: An Introduction [J]. The MIT Press.

      [4]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning [J]. Nature, 2015, 518(7540): 529-533.

      [5]Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning [J]. Machine Learning, 1992, 8(3-4):229-256.

      [6]Sepp Hochreiter and Jurgen Schmidhuber. Long Short-Term Memory [J]. Neural Computation, 1997, 9(8):1735-1780.

      [7]Kingma D P and Ba J. Adam: A Method for Stochastic Optimization [J]. Computer Science, 2014.

      猜你喜歡
      強化學習配網(wǎng)自動化智能化
      智能化戰(zhàn)爭多維透視
      軍事文摘(2022年19期)2022-10-18 02:41:14
      印刷智能化,下一站……
      基于強化學習的在線訂單配送時隙運能分配
      論“以讀促寫”在初中英語寫作教學中的應用
      智能交通車流自動導引系統(tǒng)
      基于“物聯(lián)網(wǎng)+”的智能化站所初探
      關于配網(wǎng)自動化的關鍵技術風險分析及控制探討
      分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
      基于現(xiàn)狀網(wǎng)架的配網(wǎng)自動化建設研究
      探討電力系統(tǒng)中配網(wǎng)自動化技術
      科技視界(2016年21期)2016-10-17 20:00:58
      山西省| 同江市| 南江县| 海淀区| 冕宁县| 岑巩县| 南投市| 明星| 油尖旺区| 芜湖县| 连云港市| 永泰县| 孟州市| 五华县| 冕宁县| 武安市| 洛阳市| 东海县| 江城| 景洪市| 徐汇区| 嘉善县| 图木舒克市| 建昌县| 宜春市| 张家港市| 安吉县| 堆龙德庆县| 承德市| 武夷山市| 乐清市| 剑川县| 礼泉县| 仁布县| 宝鸡市| 马公市| 汉沽区| 奉新县| 临邑县| 金华市| 建宁县|