基于近端優(yōu)化的永磁同步電機(jī)溫度預(yù)測(cè)方法＊

2021-03-25 01:55:02岑崗張晨光岑躍峰馬偉鋒趙澄

汽車技術(shù) 2021年3期

岑崗張晨光岑躍峰馬偉鋒趙澄

（1.浙江科技學(xué)院，杭州 310023；2.浙江工業(yè)大學(xué)，杭州 310014）

主題詞：永磁同步電機(jī) 溫度預(yù)測(cè) 近端策略優(yōu)化算法強(qiáng)化學(xué)習(xí)

1 前言

永磁同步電機(jī)是電動(dòng)汽車和混合動(dòng)力汽車的核心部件之一，但其負(fù)載能力會(huì)受到溫度等因素的影響[1-2]。為保證電機(jī)的安全、穩(wěn)定運(yùn)行，需要一種有效的溫度預(yù)測(cè)方法幫助其提升在溫度方面的抗風(fēng)險(xiǎn)能力。

在最近的研究中，Li 等人[3]通過構(gòu)建基于半實(shí)物的溫度等效模型實(shí)現(xiàn)了電機(jī)的溫度預(yù)測(cè)，但該模型不能有效反映電機(jī)的真實(shí)運(yùn)行環(huán)境。Kral 等人[4]構(gòu)建了一種含有2個(gè)熱節(jié)點(diǎn)的電機(jī)等效熱傳遞模型，模型本身的溫度估計(jì)失真卻無(wú)法消除。Abdalla 等人[5]提出了一種永磁同步電機(jī)的集總參數(shù)熱模型（Lumped Parameter Thermal Network，LPTN），該模型能夠?qū)﹄姍C(jī)的各部分溫度進(jìn)行計(jì)算。Wallscheid 等人[6]提出了一種永磁同步電機(jī)溫度動(dòng)態(tài)測(cè)量方法，但該方法要求電機(jī)在中、高速條件下運(yùn)轉(zhuǎn)。蘭志勇等人[7]利用LPTN對(duì)永磁同步電機(jī)進(jìn)行了溫度場(chǎng)分析，但對(duì)于電機(jī)過熱點(diǎn)的捕捉缺乏優(yōu)化處理。Sciascera 等人[8]提出了一種LPTN 的變異熱模型，相對(duì)于原始LPTN的計(jì)算量更小、預(yù)測(cè)精度更高，但是模型設(shè)計(jì)的復(fù)雜度依然很高。劉平等人[9]利用信號(hào)注入方法實(shí)現(xiàn)了電機(jī)的溫度監(jiān)測(cè)，但未給出電機(jī)過載情況下的溫度估計(jì)結(jié)果。Wallscheid等人[10]利用磁鏈觀測(cè)器實(shí)現(xiàn)了永磁同步電機(jī)的永磁體溫度實(shí)時(shí)預(yù)測(cè)，使歐式范數(shù)最壞的情況小于10。杜愛民等人[11]利用有限元分析法建立了電機(jī)的電磁場(chǎng)有限元模型，得到了額定工況下電機(jī)各部件的溫度分布。每個(gè)等效熱模型都需要準(zhǔn)確描述電機(jī)運(yùn)轉(zhuǎn)時(shí)的溫度變化特性，這將導(dǎo)致經(jīng)驗(yàn)豐富的設(shè)計(jì)人員需要在電機(jī)的熱模型設(shè)計(jì)方面做出更多的努力。

人工智能技術(shù)在許多溫度預(yù)測(cè)領(lǐng)域都得到了應(yīng)用。Xu等人[12]提出了一種基于新型深度學(xué)習(xí)的公共建筑室內(nèi)溫度預(yù)測(cè)方法，驗(yàn)證了深度學(xué)習(xí)在室溫預(yù)測(cè)上的有效性。Liu等人[13]提出了一種基于時(shí)間相關(guān)性的海洋溫度預(yù)測(cè)方法，在預(yù)測(cè)性能上較支持向量回歸（Support Vector Regression，SVR）和多層感知器回歸（Multilayer Perceptron Regressor，MLPR）均具有更好的表現(xiàn)。Wallscheid 等人[14]將長(zhǎng)短期記憶（Long Short Term Memory，LSTM）網(wǎng)絡(luò)在電機(jī)溫度預(yù)測(cè)領(lǐng)域進(jìn)行了首次應(yīng)用，但LSTM記憶塊的引入以構(gòu)建更加復(fù)雜的拓?fù)潢P(guān)系為代價(jià)。

針對(duì)上述預(yù)測(cè)模型或方法存在的問題，本文通過引入近端策略優(yōu)化（Proximal Policy Optimization，PPO）算法[15]，并利用強(qiáng)化學(xué)習(xí)（Reinforcement learning，RL）網(wǎng)絡(luò)完成模型構(gòu)建，實(shí)現(xiàn)永磁同步電機(jī)的溫度預(yù)測(cè)。

2 基于PPO-RL的溫度預(yù)測(cè)模型

2.1 PPO算法原理

PPO最初應(yīng)用于復(fù)雜智能體機(jī)器人的控制過程，其優(yōu)勢(shì)體現(xiàn)在智能體訓(xùn)練的監(jiān)督過程中能夠很容易地實(shí)現(xiàn)訓(xùn)練超參數(shù)的調(diào)節(jié)和梯度下降，在訓(xùn)練的每一步迭代中都會(huì)更新策略，嘗試將訓(xùn)練目標(biāo)的損失函數(shù)最小化，同時(shí)保證相鄰2 次迭代產(chǎn)生的策略不會(huì)產(chǎn)生較大的偏差。PPO算法的目標(biāo)函數(shù)L(θ)為：

式中，ε為算法的超參數(shù)；rt(θ)=πθ(at|st)/πθold(at|st)為新策略與舊策略的比值；為策略更新后相對(duì)于舊策略的優(yōu)勢(shì)值，此處采用Crtic 網(wǎng)絡(luò)的預(yù)測(cè)偏差表示；為平均值計(jì)算函數(shù)；C為截?cái)嗪瘮?shù)，用來(lái)限制rt(θ)的更新范圍；πθ(at|st)為更新后的策略；πθold(at|st)為舊策略；at、st分別為t時(shí)刻的動(dòng)作和狀態(tài)值。

目標(biāo)函數(shù)L(θ)中，第1 部分是rt(θ)和的乘積，第2部分是將rt(θ)在區(qū)間[1-ε,1+ε]進(jìn)行截?cái)嗪笈c的乘積，最終得到未截?cái)嗄繕?biāo)和截?cái)嗄繕?biāo)中的最小值。此處，選取Actor 網(wǎng)絡(luò)的損失誤差作為PPO 的目標(biāo)函數(shù)，通過最小化該目標(biāo)函數(shù)實(shí)現(xiàn)電機(jī)溫度的準(zhǔn)確預(yù)測(cè)。

2.2 RL網(wǎng)絡(luò)

為了實(shí)現(xiàn)電動(dòng)汽車永磁同步電機(jī)主要部件溫度的準(zhǔn)確預(yù)測(cè)，考慮將強(qiáng)化學(xué)習(xí)通用的Actor-Critic 學(xué)習(xí)框架[16]作為本文預(yù)測(cè)網(wǎng)絡(luò)的基礎(chǔ)。Actor-Critic 兼?zhèn)淞薃ctor-Only 和Critic-Only 的優(yōu)點(diǎn)，能夠在訓(xùn)練過程的梯度更新中獲得更好的估計(jì)量，改善局部?jī)?yōu)化問題，圖1給出了該學(xué)習(xí)框架的一般結(jié)構(gòu)。

圖1 Actor-Critic框架

Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)是該框架的主要組成部分，交互環(huán)境中的狀態(tài)值來(lái)自永磁同步電機(jī)的記錄數(shù)據(jù)集，動(dòng)作值對(duì)狀態(tài)值的動(dòng)態(tài)選取是模型訓(xùn)練的基礎(chǔ)。模型的預(yù)測(cè)結(jié)果由Actor網(wǎng)絡(luò)給出，同時(shí)Critic網(wǎng)絡(luò)給出預(yù)測(cè)結(jié)果優(yōu)劣的判斷，并將判斷結(jié)果通過值函數(shù)反饋到Actor網(wǎng)絡(luò)進(jìn)行梯度更新策略調(diào)整，因此Critic網(wǎng)絡(luò)在預(yù)測(cè)過程中對(duì)Actor網(wǎng)絡(luò)的反饋顯得尤為重要。網(wǎng)絡(luò)的梯度優(yōu)化由Nadam算法實(shí)現(xiàn)，而迭代過程的獎(jiǎng)勵(lì)值在每一次策略更新時(shí)均會(huì)進(jìn)行疊加，可進(jìn)一步反映訓(xùn)練的優(yōu)劣。

2.3 PPO-RL預(yù)測(cè)模型

電動(dòng)汽車永磁同步電機(jī)溫度預(yù)測(cè)模型如圖2 所示，Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)分別含有1 層輸入層和1 層輸出層，hi(i=1,2,…,5)為隱含層。圖2 中，θ和θold分別為Critic 網(wǎng)絡(luò)關(guān)于預(yù)測(cè)值和真實(shí)目標(biāo)值的映射關(guān)系。

模型中各隱含層的定義方法為：

式中，xt為t時(shí)刻的輸入數(shù)據(jù)矩陣；wi、bi、hi(i=1,2,…,5)分別為網(wǎng)絡(luò)各隱含層的權(quán)重、偏置和隱含層；wout、bout分別為網(wǎng)絡(luò)輸出層的權(quán)重和偏置；ot為網(wǎng)絡(luò)在t時(shí)刻的最終輸出；r函數(shù)為relu激活函數(shù)。

圖2 基于PPO-RL的電機(jī)溫度預(yù)測(cè)模型

設(shè)每次訓(xùn)練輸入批次數(shù)量為N，預(yù)測(cè)過程如下：

a.根據(jù)式（1）確定訓(xùn)練模型的損失目標(biāo)函數(shù)，該目標(biāo)函數(shù)中的和rt(θ)分別為：

式中，yt為真實(shí)目標(biāo)值。

b.根據(jù)圖2 建立溫度預(yù)測(cè)模型，其Actor 網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)共享5層隱含層，且第1～5層網(wǎng)絡(luò)神經(jīng)元數(shù)量分別為512個(gè)、256個(gè)、128個(gè)、64個(gè)和32個(gè)，均使用relu函數(shù)作為激活函數(shù)。設(shè)輸出層神經(jīng)元數(shù)量為1個(gè)。

c.取步長(zhǎng)為5，依次選取5×Nn（Nn為輸入特征數(shù)量）的輸入序列作為模型的輸入數(shù)據(jù)，來(lái)預(yù)測(cè)下一時(shí)刻的目標(biāo)值，通過選取步長(zhǎng)為5，可以有效避免數(shù)據(jù)集中失真對(duì)預(yù)測(cè)精度的影響，降低預(yù)測(cè)誤差，本文模型的輸入特征數(shù)量為14 個(gè)。在逐次迭代訓(xùn)練過程中，根據(jù)每一步更新得到的和rt(θ)計(jì)算模型訓(xùn)練的目標(biāo)L(θ)。

d.為了加速目標(biāo)函數(shù)收斂，使梯度更快地達(dá)到全局極小值，利用Nadam 算法對(duì)訓(xùn)練的梯度進(jìn)行優(yōu)化更新。該算法相比于Adam 算法引入了t時(shí)刻梯度gt的校正量，并引入一階矩估計(jì)mt的平均值替換其修正量用于計(jì)算更新后的梯度Δθt：

式中，ui為i時(shí)刻的一階矩估計(jì)的動(dòng)量因子；η為Nadam算法學(xué)習(xí)率；為t時(shí)刻梯度的二階矩估計(jì)的校正量；ξ為接近于0但不為0的正數(shù)。

e.利用訓(xùn)練好的預(yù)測(cè)模型進(jìn)行測(cè)試集的預(yù)測(cè)驗(yàn)證，最終獲得模型的預(yù)測(cè)輸出值。

3 評(píng)價(jià)指標(biāo)

在預(yù)測(cè)試驗(yàn)中，選擇合適的評(píng)價(jià)標(biāo)準(zhǔn)能夠更直觀地體現(xiàn)預(yù)測(cè)方法的性能表現(xiàn)。在許多經(jīng)典的預(yù)測(cè)研究中，常采用均方根誤差（Root Mean Square Error，RMSE）和平均絕對(duì)百分比誤差（Mean Absolute Percentage Error，MAPE）作為預(yù)測(cè)方法的定量評(píng)價(jià)指標(biāo)[17]：

式中，R、M分別為均方根誤差和平均絕對(duì)百分比誤差；Rj為真實(shí)數(shù)據(jù)；Pj為預(yù)測(cè)的目標(biāo)溫度；n為測(cè)試數(shù)據(jù)量。

為了全面評(píng)估不同方法的預(yù)測(cè)表現(xiàn)，僅使用上述評(píng)價(jià)指標(biāo)是遠(yuǎn)遠(yuǎn)不夠的。范數(shù)具有長(zhǎng)度的概念，在矢量空間中被描述為一個(gè)從原點(diǎn)出發(fā)的帶有箭頭的有向線段，可用于衡量向量的大小。本文通過引入歐幾里得2 范數(shù)L2和最壞情況無(wú)窮范數(shù)L∞，可以討論預(yù)測(cè)結(jié)果的逼近程度，進(jìn)一步對(duì)不同方法的預(yù)測(cè)表現(xiàn)進(jìn)行評(píng)估：

此外，采用擬合優(yōu)度R2來(lái)計(jì)算預(yù)測(cè)結(jié)果的精度：

式中，T為真實(shí)數(shù)據(jù)；P為預(yù)測(cè)值。

4 試驗(yàn)分析

4.1 數(shù)據(jù)描述與處理

試驗(yàn)使用的基準(zhǔn)數(shù)據(jù)來(lái)自Kaggle 數(shù)據(jù)科學(xué)競(jìng)賽平臺(tái)，數(shù)據(jù)測(cè)量和收集工作由德國(guó)帕德博恩大學(xué)電力電子與電氣傳動(dòng)系（LEA Department of Power Electronics and Electrical Drives）完成，且基準(zhǔn)數(shù)據(jù)已規(guī)范化處理。基準(zhǔn)數(shù)據(jù)標(biāo)簽包括環(huán)境溫度Ka、冷卻液溫度Kc、電壓d軸分量ud、電壓q軸分量uq、電流d軸分量id、電流q軸分量iq、電機(jī)轉(zhuǎn)速nmech、扭矩Tm、永磁體溫度Kpm、定子軛溫度Ksy、定子齒溫度Kst、定子繞組溫度Ksw和唯一ID 標(biāo)識(shí)Sid。測(cè)試目標(biāo)包括定子軛溫度Ksy、定子齒溫度Kst和定子繞組溫度Ksw?；鶞?zhǔn)數(shù)據(jù)共包含52 個(gè)測(cè)量會(huì)話，每個(gè)測(cè)量會(huì)話可通過Sid加以區(qū)分，所有測(cè)量記錄均以2 Hz的采樣頻率在安裝三相永磁同步電機(jī)的測(cè)試臺(tái)上完成。

基準(zhǔn)數(shù)據(jù)中的測(cè)量序列基本涵蓋了永磁同步電機(jī)電熱變化的完整過程。但為節(jié)約計(jì)算成本，同時(shí)覆蓋電熱變化全部范圍，本文按照基準(zhǔn)數(shù)據(jù)中每個(gè)測(cè)試會(huì)話的數(shù)據(jù)量平均分配30 000 條測(cè)試樣本進(jìn)行采樣，并選取300條樣本作為測(cè)試數(shù)據(jù)集，剩余樣本作為訓(xùn)練數(shù)據(jù)集。

在上述數(shù)據(jù)集基礎(chǔ)上，考慮部分額外特征量，包括以d-q坐標(biāo)系為基準(zhǔn)的電壓分量的合成電壓us、以d-q坐標(biāo)系為基準(zhǔn)的電流分量的合成電流is和電機(jī)功率Sel：

本文實(shí)際輸入的特征需要除去Sid和擬合目標(biāo)，因此實(shí)際的輸入為1個(gè)含有14個(gè)特征量的張量。

4.2 試驗(yàn)環(huán)境及參數(shù)定義

使用64 位Windows 10 操作系統(tǒng)，計(jì)算機(jī)配置為3.4 GHz Intel Core i5 處理器，16 GB 內(nèi)存。編譯環(huán)境為Spyder 3.3.4，Tensorflow 1.13.1框架。

表1列出了試驗(yàn)過程中考慮的一些超參數(shù)，包括循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）、LSTM、PPO-RL 和指數(shù)移動(dòng)加權(quán)平均（Exponentially Weighted Moving Averages，EWMA）4種預(yù)測(cè)方法。

表1 超參數(shù)

除表1中能夠自我解釋的參數(shù)類型外，未具體提及的超參數(shù)應(yīng)當(dāng)被解釋如下：預(yù)測(cè)網(wǎng)絡(luò)在進(jìn)行權(quán)重初始化時(shí)，最簡(jiǎn)單的方法是將權(quán)重的值隨機(jī)分配到[-1,1]區(qū)間。當(dāng)然，一些更為復(fù)雜有效的權(quán)重初始化方法也可以考慮，如單位正態(tài)分布或均勻分布。

4.3 試驗(yàn)結(jié)果與分析

利用測(cè)試樣本進(jìn)行測(cè)試，比較EWMA 網(wǎng)絡(luò)、RNN、LSTM網(wǎng)絡(luò)和本文預(yù)測(cè)方法對(duì)Ksy、Kst以及Ksw的擬合性能。

為了驗(yàn)證本文所提出的預(yù)測(cè)方法的可行性，分別采用上述4種方法進(jìn)行30次訓(xùn)練迭代試驗(yàn)，得出各預(yù)測(cè)網(wǎng)絡(luò)的預(yù)測(cè)精度、訓(xùn)練時(shí)間和預(yù)測(cè)時(shí)間如表2所示。從表2可以看出，PPO-RL網(wǎng)絡(luò)的訓(xùn)練時(shí)長(zhǎng)較長(zhǎng)，其預(yù)測(cè)時(shí)間較LSTM 增加了0.27 min，這是由于其網(wǎng)絡(luò)深度較深造成的，而且該網(wǎng)絡(luò)的神經(jīng)元節(jié)點(diǎn)數(shù)量最高達(dá)到了512個(gè)，這也表明PPO-RL網(wǎng)絡(luò)具有較高的時(shí)間復(fù)雜度。

表2 定子軛溫度預(yù)測(cè)精度和訓(xùn)練時(shí)間對(duì)比

定子軛溫度迭代損失變化情況如圖3 所示，由圖3可以看出，在迭代周期為10次時(shí)，定子軛溫度迭代的損失曲線趨于水平，說明模型能夠?qū)崿F(xiàn)穩(wěn)定的擬合。

圖3 定子軛溫度迭代損失變化曲線

圖4給出了4種預(yù)測(cè)方法對(duì)Ksy的擬合曲線。由圖4可知，在幾種預(yù)測(cè)方法中，LSTM網(wǎng)絡(luò)擬合的曲線存在較大波動(dòng)，與真實(shí)目標(biāo)值偏差較大，而使用PPO-RL 模型得到的預(yù)測(cè)曲線能較好地符合目標(biāo)曲線的走勢(shì)。

圖4 定子軛溫度擬合曲線對(duì)比

4 種預(yù)測(cè)方法對(duì)定子齒溫度預(yù)測(cè)的精度和訓(xùn)練時(shí)間如表3 所示，迭代損失變化情況如圖5 所示。由表3可知，雖然PPO-RL 訓(xùn)練花費(fèi)了較長(zhǎng)的時(shí)間，但是在迭代訓(xùn)練30次后，PPO-RL的預(yù)測(cè)精度仍能保持在90%以上，并且由圖5可以看出，在迭代次數(shù)達(dá)到5次時(shí)，定子齒溫度即可實(shí)現(xiàn)較好的擬合效果。

圖6 給出了4 種預(yù)測(cè)方法關(guān)于定子齒溫度Kst的擬合曲線。由圖6可知，EWMA方法給出的預(yù)測(cè)目標(biāo)曲線雖然在走勢(shì)上與真實(shí)值曲線大致相同，但由于其自身伴隨有較大的時(shí)延特性，因此難以為實(shí)時(shí)的永磁同步電機(jī)溫度預(yù)測(cè)提供合適的觀測(cè)點(diǎn)，PPO-RL模型在幾種對(duì)比方法中依然具有較好的預(yù)測(cè)性能。

表3 定子齒溫度預(yù)測(cè)精度和訓(xùn)練時(shí)間對(duì)比

圖5 定子齒溫度迭代損失變化曲線

圖6 定子齒擬合曲線對(duì)比

表4所示為4種預(yù)測(cè)網(wǎng)絡(luò)對(duì)定子繞組溫度的預(yù)測(cè)精度、訓(xùn)練時(shí)間以及預(yù)測(cè)時(shí)間對(duì)比結(jié)果。由表4 可知，PPO-RL 的預(yù)測(cè)時(shí)間達(dá)到了0.30 min，其預(yù)測(cè)精度為92.05%，并且該精度較LSTM和RNN的預(yù)測(cè)精度分別高出4.63百分點(diǎn)和8.43百分點(diǎn)。同時(shí)，其迭代的損失變化曲線如圖7所示，由圖7可以看出，PPO-RL在迭代30次后，能夠得到較好的擬合性能。

圖8 所示為4 種預(yù)測(cè)方法對(duì)定子繞組溫度Ksw的預(yù)測(cè)曲線。由圖6 和圖8 可知，在預(yù)測(cè)目標(biāo)Kst和Ksw的擬合曲線上，LSTM網(wǎng)絡(luò)和RNN在預(yù)測(cè)開始時(shí)能夠基本符合真實(shí)的目標(biāo)曲線趨勢(shì)，但結(jié)束時(shí)卻存在較大的偏差。而在針對(duì)本文試驗(yàn)的3 個(gè)預(yù)測(cè)目標(biāo)進(jìn)行測(cè)試的過程中，PPO-RL擬合的目標(biāo)溫度曲線均表現(xiàn)出了較小的偏差。

表4 定子繞組溫度預(yù)測(cè)精度和訓(xùn)練時(shí)間對(duì)比

圖7 定子繞組溫度迭代損失變化曲線

圖8 定子繞組擬合曲線對(duì)比

為了進(jìn)一步對(duì)比不同預(yù)測(cè)網(wǎng)絡(luò)的溫度預(yù)測(cè)性能，表5、表6和表7分別給出了針對(duì)Ksy、Ksw以及Kst的定量評(píng)價(jià)指標(biāo)，其中包括R、M、2范數(shù)和無(wú)窮范數(shù)。

表5 定子軛溫度預(yù)測(cè)誤差對(duì)比

表5 結(jié)果表明，PPO-RL 在4 種定量分析指標(biāo)中均處于最低值。在相同的條件下，LSTM在Ksy的溫度預(yù)測(cè)方面沒有表現(xiàn)出明顯的優(yōu)勢(shì)，甚至在4種預(yù)測(cè)網(wǎng)絡(luò)中的表現(xiàn)最差。進(jìn)一步可以發(fā)現(xiàn)，EWMA 預(yù)測(cè)方法的預(yù)測(cè)性能似乎超過了經(jīng)典的LSTM和RNN。

表6 定子繞組溫度預(yù)測(cè)誤差對(duì)比

表7 定子齒溫度預(yù)測(cè)誤差對(duì)比

由表6可知，PPO-RL相比其他3種方法整體上表現(xiàn)出良好的優(yōu)勢(shì)，PPO-RL 在4 種評(píng)估指標(biāo)上均達(dá)到最低值，且其MAPE 與LSTM 和RNN 相比分別降低0.136 0%和0.645 2%，同時(shí)其無(wú)窮范數(shù)減少到接近LSTM的一半。

由表7 可知，PPO-RL 在Kst預(yù)測(cè)方面相比其他3 種網(wǎng)絡(luò)具有更低的預(yù)測(cè)誤差，其2 范數(shù)的值達(dá)到0.755 9，相比LSTM降低了0.459 2，在一定程度上表明其預(yù)測(cè)性能優(yōu)于其他3 種經(jīng)典預(yù)測(cè)方法。值得注意的是，LSTM網(wǎng)絡(luò)雖然在預(yù)測(cè)Ksw和Kst時(shí)誤差值較RNN 和EWMA 明顯降低，但其在預(yù)測(cè)Ksy時(shí)卻達(dá)到了最大預(yù)測(cè)誤差。

5 結(jié)束語(yǔ)

本文借鑒了近端策略優(yōu)化算法對(duì)目標(biāo)函數(shù)裁剪的方法，構(gòu)建了一種結(jié)合Actor-Critic 模型的永磁同步電機(jī)溫度預(yù)測(cè)模型。模型利用Actor 網(wǎng)絡(luò)實(shí)現(xiàn)數(shù)據(jù)集的訓(xùn)練學(xué)習(xí)，并采用Critic 網(wǎng)絡(luò)的值函數(shù)反饋判斷模型訓(xùn)練的優(yōu)劣，通過30次迭代訓(xùn)練，使PPO的目標(biāo)函數(shù)達(dá)到最小值，并對(duì)基準(zhǔn)數(shù)據(jù)集進(jìn)行采樣和處理后，進(jìn)行預(yù)測(cè)驗(yàn)證。將該預(yù)測(cè)方法與其他3 種經(jīng)典預(yù)測(cè)方法進(jìn)行對(duì)比分析，驗(yàn)證了提出方法的有效性。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看