王維峰,郭仲凱
(中南民族大學 數(shù)學與統(tǒng)計學學院,武漢430074)
最優(yōu)控制問題普遍存在于自然科學和社會生活的各個領域,它主要是對一個動力系統(tǒng)尋求最優(yōu)的控制策略,使某個目標量達到最大或最小. 隨機控制理論將隨機過程理論與最優(yōu)控制理論相結合,成為研究隨機系統(tǒng)的一種有效方法,被廣泛應用到物理學、經(jīng)濟學、工程學、生物學等學科中. 1994年,PARDOUX 和PENG首次研究了倒向重隨機微分方程,給出了方程解的存在唯一性[1]. 2006年,SHI 和 WU在非凸控制區(qū)域情形下研究了耦合正-倒向隨機控制系統(tǒng)的最大值原理[2]. 2010年,HAN等研究了倒向重隨機控制系統(tǒng)的最優(yōu)控制問題,在凸控制區(qū)域情形下得到了上述問題的最大值原理[3].
上述研究中,控制系統(tǒng)都是完全可觀測的. 但是,在很多情形下對系統(tǒng)進行控制的時候,僅僅只能觀察到部分信息. 比如,在金融數(shù)學中的最優(yōu)投資組合選擇問題中,投資者僅僅只能獲得證券股票以前以及當前的價格(動態(tài)),不可能了解所有的價格及政策動向,所以投資者只能在所獲得的部分信息下進行投資決策. 又比如基金公司的風險控制,他們也只能在獲得的有限信息下做出決策,為公司規(guī)避風險. 因此,研究只具有部分信息的控制系統(tǒng)很有必要. 到目前為止,對這類問題的研究取得了部分結果. 如TANG研究了一類正向部分可觀測系統(tǒng)的最大值原理[4],文獻[5-6]研究了正-倒向部分可觀測系統(tǒng)的最大值原理,文獻[7]在凸控制區(qū)域情形下研究了一類部分可觀測的倒向重隨機控制系統(tǒng)的最大值原理,文獻[8-9]在非凸控制區(qū)域情形下研究了隨機控制系統(tǒng)的一階和二階必要條件. 受上述文獻的啟發(fā),本文對非凸控制區(qū)域情形下的部分可觀測的倒向重隨機控制系統(tǒng)進行了研究和探討,且控制變量包含在漂移系數(shù)和擴散系數(shù)中.
設(Ω,F,P)是完備的概率空間,T>0是一個固定的常數(shù).{W(t):0≤t≤T},{B(t):0≤t≤T}和{Y(t):0≤t≤T}是定義在概率空間(Ω,F,P)上的3個互相獨立的標準Brown運動,且分別取值于Rm,Rd和Rr.令N表示F的所有P-零集合.對?t∈[0,T],給出如下定義:
且:
本文需要用到以下推廣的伊藤公式[1].
引理1設α∈S2([0,T];Rk),β∈M2([0,T];Rk),γ∈M2([0,T];Rk×d),δ∈M2([0,T];Rk×m)滿足:
則有:
更一般地,若Φ(·)∈C2(Rk),則:
令U是Rk中的非空子集,且容許控制集為:
考慮如下的倒向重隨機控制系統(tǒng):
(1)
其中η∈L2(Ω,FT,P,Rn).
假設狀態(tài)過程(y(t),z(t))不能完全被直接觀測,僅能觀測到和狀態(tài)過程相關的一個噪聲過程:
(2)
假設以下條件成立:
(H1):(i)函數(shù)f:[0,T]×Rn×Rn×m×Rk→Rn,g:[0,T]×Rn×Rn×m×Rk→Rn×d,h:[0,T]×Rn×Rn×m×Rk→Rr關于y、z都是連續(xù)可微的;
(ii)fy,fz,gy,gz,h,hy,hz都是有界的.
?t∈[0,T],(y1,z1,u1),(y2,z2,u2)∈Rn×Rn×m×Rk,有:
‖g(t,y1,z1,u1)-g(t,y2,z2,u2)‖2≤
|h(t,y1,z1,u1)-h(t,y2,z2,u2)|2≤
任意給定一個u(·)∈Uad[0,T],由文獻[1]中的定理1.1可知,存在唯一解:
(y(·),z(·))=(y(·,u(·)),z(·,u(·)))∈S2([0,T];Rn)×M2([0,T];Rn×d),
滿足方程(1).
可以看到方程中有兩個獨立的布朗運動W(t)和B(t),且其中dW積分項是一個正向的伊藤積分,而dB積分項是一個倒向的伊藤積分.
容易驗證Zu(t)∈R是如下隨機微分方程的解:
(3)
給定如下的目標函數(shù):
(4)
其中Eu是定義在概率空間(Ω,F,Pu)上的數(shù)學期望.
假定如下條件成立:
(H3):(i)函數(shù)l:[0,T]×Rn×Rn×m×Rk→R和Φ:Rn→R關于y、z都是連續(xù)可微的;
(ii) |ly|+|lz|≤c(1+|y|+|z|),|Φy|≤c(1+|y|).
現(xiàn)在構建最優(yōu)控制問題(P):尋找一個控制u*(·)∈Uad[0,T]使得:
(5)
任意滿足上述等式的u*(·)∈Uad[0,T]都稱為一個最優(yōu)控制,對應的(y*(·),z*(·))稱為最優(yōu)軌道,(y*(·),z*(·),u*(·))稱為一個最優(yōu)序對.
由上可知,目標函數(shù)(4)可重述為:
Φ(yu(0))}.
(6)
所以原始的最優(yōu)控制問題(P)等價于在方程(1)和(3)的條件下最小化(6)式.
假設(y*(·),z*(·),u*(·))是上述最優(yōu)控制問題的一個最優(yōu)解.由于控制區(qū)域非凸,所以引入如下的針狀變分,對任意的u(·)∈Uad[0,T]和0<ε 其中Eε∈[0,T]是一個可測集合且滿足|Eε|=ε(ε>0是任意小的).設(yε(·),zε(·))是對應于擾動控制uε(t)的狀態(tài)軌道. 為了方便,引入如下記號: φ*(·)=φ(·,y*(·),z*(·),u*(·)), 其中φ可以表示文中的函數(shù)f,g,l,h,fy,fz,gy,gz,ly,lz,hy,hz. 定理1令ξε(t)=yε(t)-y*(t),ηε(t)=zε(t)-z*(t),則: 證明由狀態(tài)方程(1)可得: z*(s)]dW(s). 由引理1可知: u*(s))‖2ds. 由條件(H1),(H2)和 Young 不等式,且注意到ξε(T)=0,可得: f(u(s))||ξε(s)|]ds+ 由條件(H2)和0<σ<1,可以選擇足夠大的M>0使得: 其中λ>0.再由Gronwall不等式,可以得到上述結果. 定理2設Zε(t)和Z*(t)是方程(3)分別對應于控制變量uε(t)和u*(t)的解,則下式成立: E|Zε(t)-Z*(t)|2≤Cε. 證明由方程(3)可知: 對|Zε(t)-Z*(t)|2應用伊藤公式,再結合條件(H2), (H3)和定理1可得: E|Zε(t)-Z*(t)|2≤ h(s,y*(s),z*(s),u*(s))|2+|Zε(t)- Z*(s)|2|h(s,y*(s),z*(s),u*(s))|2]ds+Cε≤ 再由Gronwall不等式,顯然有E|Zε(t)-Z*(t)|2≤Cε成立. 下面引入如下的變分方程: (7) 和 (8) 由上述條件可知方程(7)和方程(8)分別存在唯一的適定解(x(t),r(t))∈M2([0,T);Rn)×M2([0,T];Rn×m)和Z1(t)∈M2([0,T];R),0≤t≤T. 定理3設(x(t),r(t))和Z1(t)分別是方程(7)和(8)的解,則: 用類似定理1和定理2的方法證明. 定理4設條件(H1)~(H3)成立,則: 證明由狀態(tài)方程(1)和變分方程(7)可知: 由引理1,對|yε(t)-y*(t)-x(t)|2用推廣的伊藤公式,有: y*(s),z*(s),u*(s))-fyx(s)-fzr(s)-(f(uε(s))- f(u*(s)))](yε(t)-y*(t)-x(t))ds+ u*(s))-gyx(s)-gzr(s)-(g(uε(s))- g(u*(s)))]‖2ds. 由條件(H1)~(H3)和定理1、定理3,化簡得: Cε2, 其中λ>0.再由Gronwall不等式知上述前兩個不等式成立.用同樣的方法可證明第3個不等式. 前面給出了狀態(tài)方程、變分方程和相關估計量的計算,最后研究變分不等式. 由于假設u*(·)是一個最優(yōu)控制,因此對任意的擾動控制uε(·)有J(uε(·))≥J(u*(·))成立, 因此: 進而: E(Φ(yε(0))-Φ(y*(0)+x(0)))+ E(Φ(y*(0)+x(0))-Φ(y*(0))). 由條件(H3)、定理1~定理4可得: l(uε(t))-l(u*(t)))]dt+E[Φy(y*(0))x(0)]+Cε. 由上式知,此時變分不等式僅僅是ε的同階無窮小,而要進一步求出最大值原理,必須要得到變分不等式是ε的高階無窮小.由此可知,在隨機系統(tǒng)下,求得非凸控制區(qū)域下的最大值原理將變得非常困難.而為了得到更進一步的結論,通常會將目標函數(shù)進行二階泰勒展開,并將狀態(tài)方程進行二階變分,將相關變量進行四階估計.而此時又需要構造二階變分方程和二階伴隨方程,這是一個非常復雜的過程,將在后面的工作中進一步研究.
φε(·)=φ(·,yε(·),zε(·),uε(·)),3 變分方程及相關變量的估計
4 變分不等式的探討