摘 要: 本文研究了基于乘性噪聲的隨機線性二次型最優(yōu)控制。由于參數(shù)的不確定性,此類問題很難求得解析的最優(yōu)控制策略。然而,利用動態(tài)規(guī)劃方法,此類問題的解析解被成功地求解。得到的最優(yōu)控制策略是一個線性狀態(tài)反饋策略,其系數(shù)可以通過一個擴展黎卡提方程離線計算求得。
關(guān)鍵詞: 隨機線性二次型;動態(tài)規(guī)劃;乘性噪聲
基金項目:基金項目1全稱(基金項目號);
0 引言
本文致力于研究基于乘性噪聲的隨機線性二次型最優(yōu)控制(Linear-Quadratic,簡稱LQ)。近年來,由于線性二次型最優(yōu)控制問題具有非常廣泛的應(yīng)用,此類問題吸引了國內(nèi)外學(xué)者大量的研究,例如,金融衍生品定價,人口模型,動態(tài)投資組合管理。
Kalman[1]最先提出了經(jīng)典的確定性線性二次型最優(yōu)控制問題。此后,Wonham[2] 和Bismut[3] 分別將此類問題擴展到確定性參數(shù)的和隨機性參數(shù)的隨機線性二次型最優(yōu)控制問題。從此,關(guān)于確定性和隨機性的LQ最優(yōu)控制問題被大量的研究,特別是由Chen等人[4] 提出來的所謂的不定隨機LQ控制,其關(guān)于控制量和狀態(tài)量的懲罰矩陣是不定的,此類問題在某些特定條件下仍然是適定的,引起廣大學(xué)者的研究興趣[5][6]。
目前研究隨機LQ最優(yōu)控制問題的文獻中,其不同階段的參數(shù)是被假設(shè)為獨立的,但是實際應(yīng)用中,不同階段的系統(tǒng)參數(shù)可能是相關(guān)的。Costa等[5] 研究了參數(shù)是帶Markov跳躍的隨機LQ控制問題并得到了最優(yōu)控制策略和最優(yōu)目標(biāo)值的解析表達式。Chen等[7] 提出了一類參數(shù)服從Markov鏈的隨機LQ最優(yōu)控制問題,并提出有效算法以求得此類問題的最優(yōu)控制。在實際應(yīng)用中,不同階段參數(shù)相關(guān)性具有多樣性的特點,例如,Markov鏈、二叉樹模型、布朗運動及其它時間序列模型。這要求研究者能提出對大部分時間序列模型都能適用的隨機LQ控制模型,并尋找有效的理論和算法得到此類問題最優(yōu)控制策略的解析解或數(shù)值解。然而,此類隨機LQ控制模型一直還未能得到突破。
本文的主要貢獻在于以下:基于不同階段參數(shù)相關(guān)性具有多樣性的特點,提出了一類基于乘性噪聲的隨機線性二次型最優(yōu)控制問題,其參數(shù)具有一般相關(guān)性且適用大部分的隨機過程。利用著名的動態(tài)規(guī)劃求得此類問題的最優(yōu)控制策略和最優(yōu)目標(biāo)值的解析表達式。
1 建立模型
本文中,考慮如下的離散時間隨機線性動態(tài)系統(tǒng):
為了對問題P(LQ)進行求解,我們需要以下假設(shè)。
2模型求解
本節(jié)中,我們應(yīng)用動態(tài)規(guī)劃的方法來求解問題P(LQ)。
定理1 問題(LQ)在t時刻的最優(yōu)控制策略是一個線性狀態(tài)反饋策略,
其中,Lt被定義為Lt,對于t=0,1,...,T-1,
而且,問題P(LQ)的最優(yōu)目標(biāo)值為
其中,Kt被定義為,對于t=0,1,...,T-1,
最后,根據(jù)假設(shè)1,我們可以得到最優(yōu)控制策略如公式(1.3)。而且,我們還可以得到t時刻的值函數(shù)為公式(1.5)。
結(jié)束語
本文研究了基于乘性噪聲的隨機線性二次型最優(yōu)控制問題。與現(xiàn)有的文獻相比,本文中的參數(shù)是序列相關(guān)的,造成了此類問題很難求得相應(yīng)的解析解。然而,利用動態(tài)規(guī)劃方法,此類問題的解析解被成功地求解。得到的最優(yōu)控制策略是一個線性狀態(tài)反饋策略。
參考文獻
[1] R. E. Kalman. Contribution to the theory of optimal control [J]. Bol. Soc. Mat. Mexicana, 1960, 5(63) : 102-119.
[2] W. M. Wonham. On a matrix riccati equation of stochastic control [J]. SIAM J. Control, 1969, 6(4): 681-697.
[3] J. M. Bismut. Linear quadratic optimal stochastic control with random coefficients[J]. SIAM J. Control Optim, 1976, 14(3): 419-444.
[4] S. P. Chen, X. J. Li, and X. Y. Zhou. Stochastic linear quadratic regulators with indefinite control weight costs. SIAM J. Control Optim., 1998, 36(5): 1685-1702.
[5] O. L. V. Costa and W. L. Paulo. Indefinite quadratic with linear cost optimal control of markovian jump with multiplicative noise systems. Automatica, 2007, 43(4): 587-597.
[6] D. D. Yao, S. Z. Zhang, and X. Y. Zhou. Stochastic linear quadratic control via semidefinite programming. SIAM J. Control Optim., 2001, 40(3): 801-823.
[7] N. Y. Chen, S. Kou, and C. Wang. A partitioning algorithm for markov decision processes with applications to market microstructure[J]. Management Science, 2017.
[8] J. A. Primbs and C. H. Sung. Stochastic receding horizon control of constrained linear systems with state and control multiplicative noise[J]. IEEE Transactions on Automatic Control, 2009, 54(2): 221-230.
[9] O. L. V. Costa and M. V. Araujo. A generalized multi-period mean-variance portfolio with markov switching parameters[J]. Automatica, 2008, 44: 2487-2497.
作者簡介: 龐珊 (1989-),女(漢族),陜西西安人,助教,碩士,主要研究方向為優(yōu)化理論,隨機最優(yōu)控制在金融與刑事科學(xué)中的應(yīng)用.