梁天新,楊小平,王 良,韓鎮(zhèn)遠(yuǎn)
(中國人民大學(xué) 信息學(xué)院,北京 100872)
自從Fama提出有效性市場假說(efficient markets hypothesis,簡稱EMH)[1,2]以來,EMH就被奉為經(jīng)典金融理論,并走過了接近50年的歷程.到20世紀(jì)80年代,許多研究者發(fā)現(xiàn)并記錄了幾個與有效市場假說相互背離的金融現(xiàn)象,由此形成了關(guān)注人類交易心理和行為的行為金融學(xué).在經(jīng)過長期的檢驗之后,研究者又發(fā)現(xiàn)市場也不像行為金融學(xué)解釋得那樣持續(xù)無效,相反,很多金融現(xiàn)象在相關(guān)論文公開后出現(xiàn)了減少或消失的跡象.這兩大學(xué)派的爭論促進(jìn)了金融學(xué)的發(fā)展,也說明金融市場的復(fù)雜性可以包容不同學(xué)派的存在.金融學(xué)家Andrew Lo結(jié)合進(jìn)化論和有限理性的概念提出了適應(yīng)性市場假說(adaptive markets hypothesis,簡稱 AMH)[3,4],主要觀點包含:(1) 市場中的個體基于自身利益做出決策;(2) 市場中的個體會犯錯;(3) 市場個體會學(xué)習(xí)和適應(yīng);(4) 競爭導(dǎo)致個體適應(yīng)和更新;(5) 自然選擇塑造市場生態(tài),進(jìn)化決定市場動態(tài).
根據(jù)Lo的理論,金融市場可以被看成一個進(jìn)化的環(huán)境[4].在這個環(huán)境中,包含著不同的參與者,如對沖基金、做市商、退休基金和零售投資商等.這些參與者的理性表現(xiàn)并不是即時的,他們對金融產(chǎn)品價格的影響作用也不全是直接發(fā)生的,這就促進(jìn)了金融市場上積極的流動性,流動性則意味著存在套利的機(jī)會,這些機(jī)會隨時會被參與者吃掉,同時,新的機(jī)會又會再次出現(xiàn).這種在進(jìn)化壓力下的流動性同時改變著交易環(huán)境和商業(yè)環(huán)境.這就意味著,一個有效的金融交易系統(tǒng)要能夠隨時根據(jù)交易市場的變化進(jìn)行自我調(diào)整,在感知市場變化的同時,采取相應(yīng)的行動,如做多(long)、做空(short)、空倉(觀望).市場會在行動的基礎(chǔ)上給予一定的反饋,如收益、虧損.金融交易系統(tǒng)(financial trading system,簡稱FTS)的有效與否不在于執(zhí)行單次交易的回報,而在于一段時間內(nèi)交易的總回報,比如年化回報、季度回報等,總回報往往具有延遲性.基于以上原因,Lo[3]提出了如下理論:第一,回報和收益之間關(guān)系不太可能一直穩(wěn)定;第二,相對于經(jīng)典的 EMH,AMH認(rèn)為套利機(jī)會一直存在;第三,投資策略在特定環(huán)境表現(xiàn)良好,而在其他環(huán)境表現(xiàn)較差,既有繁榮也有衰敗.針對以上問題,強(qiáng)化學(xué)習(xí)可以提供很好的解決方案.強(qiáng)化學(xué)習(xí)技術(shù)的基本原理是[5]:如果智能體(agent)的某個動作導(dǎo)致環(huán)境正向獎勵,則智能體隨后產(chǎn)生這個動作的趨勢便會加強(qiáng);反之,智能體產(chǎn)生這個動作的趨勢就會減弱.強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個行為策略,使智能體選擇的動作能夠獲得環(huán)境最大的獎賞.在一個標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)框架結(jié)構(gòu)中,它主要有 4個要素,即策略(policy)、獎懲反饋(reward)、值函數(shù)(value function)和環(huán)境模型(model of environment).在這4個要素中,首先要解決的就是實時環(huán)境的數(shù)學(xué)模型.強(qiáng)化學(xué)習(xí)可以有效提升金融交易模型的適應(yīng)性:首先,強(qiáng)化學(xué)習(xí)擅長解決具有延遲回報的非線性問題;其次,強(qiáng)化學(xué)習(xí)可以定義靈活的目標(biāo)函數(shù),在訓(xùn)練中促進(jìn)模型向最優(yōu)的目標(biāo)函數(shù)逼近,實踐中可以將平衡回報和收益的技術(shù)指標(biāo)作為目標(biāo)函數(shù);最后,隨著 EMH有效性的提高,固定參數(shù)的交易模型難以保證統(tǒng)計套利獲得最大利潤,而強(qiáng)化學(xué)習(xí)具有傳統(tǒng)探索和利用(exploration and exploitation)機(jī)制[6],即通過探索嘗試新的參數(shù),利用已有的信息獲得最佳回報.
本文綜述了強(qiáng)化學(xué)習(xí)交易系統(tǒng)的各類算法、交易策略、系統(tǒng)構(gòu)成等方面.第1節(jié)介紹強(qiáng)化學(xué)習(xí)在金融交易中應(yīng)用的關(guān)鍵技術(shù).第2節(jié)介紹自適應(yīng)交易系統(tǒng)的應(yīng)用與發(fā)展.第3節(jié)主要介紹策略輪動模型.第4節(jié)重點講解基于值函數(shù)的強(qiáng)化學(xué)習(xí)交易系統(tǒng)和多智能體的發(fā)展.第 5節(jié)著重闡述基于策略梯度的交易系統(tǒng).第 6節(jié)重點介紹深強(qiáng)化學(xué)習(xí)的應(yīng)用歷史和現(xiàn)狀,隨后分析了強(qiáng)化學(xué)習(xí)金融交易系統(tǒng)的研究趨勢和應(yīng)用前景.最后做出總結(jié).
Moody等人將循環(huán)強(qiáng)化學(xué)習(xí)算法模型(recurrent reinforcement learning,簡稱 RRL)應(yīng)用在單一股票和資產(chǎn)投資組合等領(lǐng)域[7],測試了日內(nèi)外匯市場(USD/GBP)、標(biāo)準(zhǔn)普爾500(S&P 500 Index)、美國短期國債等金融資產(chǎn).以收益率為輸入,微分夏普比率(Sharp ratio)為目標(biāo)函數(shù),在交易成本為5‰的情況下進(jìn)行實驗.RRL策略獲得的回報超過Q學(xué)習(xí)(Q-learning)策略和買入持有策略,并在交易次數(shù)上明顯小于Q學(xué)習(xí)策略[7].
1999年,Moody和 Wu詳盡地解釋了 RRL的理論依據(jù)和組織構(gòu)成,此外,還比較了信息比率(information ratio)與斯特林比率(Sterling ratio)作為目標(biāo)函數(shù)時的收益情況.在標(biāo)準(zhǔn)普爾500指數(shù)和部分美股測試中,采用斯特林比率作為目標(biāo)函數(shù)的強(qiáng)化學(xué)習(xí)模型收益最高[8].2001年,Moody等人[9]在RRL的基礎(chǔ)上加入空倉觀望動作Ft∈{-1,0,1},Ft=0表示某段時間內(nèi)暫停交易,降低風(fēng)險;此外,還使用下降偏差比率(downside deviation ratio)代替夏普比率作為目標(biāo)函數(shù),測試市場下行時模型的收益狀況.這是將RRL首次應(yīng)用在英鎊兌美元的外匯高頻交易中.RRL與Q學(xué)習(xí)的比較結(jié)果看,RRL在多方面優(yōu)于Q學(xué)習(xí)策略,也證明了RRL更適合用在高頻交易中.
2003年,Gold[10]提出在RRL模型中用多層神經(jīng)網(wǎng)絡(luò)替代單層神經(jīng)網(wǎng)絡(luò).Gold在25個不同的高頻外匯交易市場上進(jìn)行了測試,測試結(jié)果表明:單層RRL和多層RRL都能夠?qū)崿F(xiàn)盈利,且多層RRL表現(xiàn)差于單層.無獨有偶,2011年,Gorse也做過類似的實驗,嘗試使用多層神經(jīng)網(wǎng)絡(luò)代替單層網(wǎng)絡(luò).實驗結(jié)果表明,多層RRL的性能相比單層沒有明顯提升[11].從文獻(xiàn)[10,11]的實驗中可以看出:當(dāng)時這些學(xué)者采用的僅僅是多層的神經(jīng)網(wǎng)絡(luò),并沒有采用Hinton等人提出的深度神經(jīng)網(wǎng)絡(luò)(DNN)[12],缺少預(yù)訓(xùn)練、正則化、Dropout等深度學(xué)習(xí)的訓(xùn)練方法,因此,Gorse的實驗出現(xiàn)過擬合現(xiàn)象不足為奇.
Gold[10]的實驗結(jié)果表明了RRL適用于高頻金融交易,如外匯交易、指數(shù)交易等.同時,有少數(shù)文獻(xiàn)提到低頻交易中的 RRL應(yīng)用,例如Moody[8]和 Gorse[11]等人一直致力于在股票指數(shù)的日均時間序列上測試收益效果.本文需要強(qiáng)調(diào):真正的股票交易市場中,有些股票無法像股票指數(shù)一樣做多或做空.股票指數(shù)與個股不同,指數(shù)可能存在價格自相關(guān)性,受市場基本面影響更多.2013年,Zhang等人發(fā)現(xiàn),RRL在個股日收益率的數(shù)據(jù)上收益并不理想[13].他們引入了遺傳算法(genetic algorithm,簡稱GA)來改進(jìn)RRL模型在單只股票上的表現(xiàn),通過在模型中加入股票的傳統(tǒng)指標(biāo),提高了RRL在個股低頻交易上的效果,這種方法稱為RRL-GA.Zhang等人引入8類股票指標(biāo),如陽性波動指數(shù)(IPVI)、陰性波動指數(shù)(INVI)、相對強(qiáng)弱指數(shù)(IRSI)、條件波動率(CVOL)等,將其加入到RRL的輸入序列中.在訓(xùn)練中,利用GA找尋8類指標(biāo)的布爾數(shù)字組合,實現(xiàn)收益的最大化.實驗證明:引入某些指標(biāo)后,RRL-GA的收益高于RRL.2016年,Zhang等人不滿足于此成果,精選了10類單只股票的上述指標(biāo)作為輸入部分加入到 RRL-GA之中,為了減少 RRL輸入端的噪聲,最終僅加入了可能會提高表現(xiàn)的指標(biāo).最后,在 180支美國股票數(shù)據(jù)的實驗中,Zhang證實了RRL-GA比RRL有更高的收益[14].因此可以得出這樣的結(jié)論:RRL模型在交易單只股票時,交易系統(tǒng)的設(shè)計者需要參考來自基本面的分析數(shù)據(jù)和各類量化交易指標(biāo).這樣做的好處是利用傳統(tǒng)交易手法上積累的經(jīng)驗,規(guī)避風(fēng)險,提升利潤.
在交易領(lǐng)域中,最終利潤或者基于風(fēng)險的收益,代表交易模型的回報.通過專家標(biāo)簽和分析一定長度金融時間序列做出交易決策,這種監(jiān)督方式交易系統(tǒng)存在以下弊端:首先,金融交易獲得的回報不是即時的,而是交易終止時的總回報,這導(dǎo)致每一步?jīng)Q策的回報不明確,這正是強(qiáng)化學(xué)習(xí)中的臨時信用分配和結(jié)構(gòu)信用難題,即“系統(tǒng)獲得的獎賞如何分配到每個操作上[5]”;其次,標(biāo)簽數(shù)據(jù)是基于已知的金融時間序列,忽略了不斷變化的市場風(fēng)格對輸入變量有效性的影響,導(dǎo)致交易系統(tǒng)不能及時調(diào)整策略;最后,隨著交易價格的變化,交易成本也在不斷變化,無法實時調(diào)整交易成本的模型,即便是預(yù)測準(zhǔn)確,依然會由于交易成本失控導(dǎo)致交易虧損.實踐證明,監(jiān)督學(xué)習(xí)方式在金融自動交易系統(tǒng)中應(yīng)用效果并不理想.
相比監(jiān)督式的交易系統(tǒng),Moody等人提出的RRL算法是一種在線模式,可以找到隨機(jī)動態(tài)規(guī)劃問題的近似解[7].RRL不需要標(biāo)記信息,通過行動得到的環(huán)境反饋來調(diào)整內(nèi)部參數(shù),增加未來回報的期望值.基于 RRL建立的交易系統(tǒng)通過循環(huán)算法解決優(yōu)化時間信用分配問題和結(jié)構(gòu)信用分配問題[5],RRL獲得的交易利潤是路徑依賴決策的結(jié)果,既包含基于時間的反向傳播算法(back propagation through time,簡稱BPTT),也包含在線自適應(yīng)算法(adaptive algorithm).RRL既可以應(yīng)用在單一金融資產(chǎn)交易領(lǐng)域,也可以應(yīng)用到投資組合管理領(lǐng)域.它在金融領(lǐng)域的應(yīng)用如圖1所示.
Moody等人[7]提出的RRL模型把金融時間序列作為輸入,以最大化微分夏普比率為目標(biāo)函數(shù),設(shè)計兩類金融領(lǐng)域常見的操作:做空、做多.RRL將動作定義為Ft∈{-1,1},代表著在t時刻的操作(空/多),RRL單層神經(jīng)網(wǎng)絡(luò)的預(yù)測模型如公式(1)所示:
向量和變量v是神經(jīng)網(wǎng)絡(luò)權(quán)重和閾值;rt代表收益率,有如下兩種表示方法:
研究中常采用對數(shù)收益率,對數(shù)收益率比價格差值更容易體現(xiàn)價格的變動,也更容易計算夏普比率、最大回撤率(max drawdown)等風(fēng)險度量指標(biāo).當(dāng)價格變化幅度小時,公式(2)和公式(3)中的rt近似相等,但使用對數(shù)處理數(shù)據(jù)更平滑,克服數(shù)據(jù)本身的異方差,具有對稱性.選用tanh作為激活函數(shù)也正好符合Ft的值選擇范圍. RRL的基本結(jié)構(gòu)如圖2所示.
Fig.2 RRL model圖2 RRL模型
RRL算法以最大化利潤為目標(biāo),但通常不使用最高累計利潤作為模型表現(xiàn)衡量指標(biāo),最高累計利潤pT見公式(4):
其中,μ代表交易額度;δ代表交易成本在每次交易中的比率,包含稅率和券商收取費用;Rt代表單筆交易利潤.最大化的累計收益pT并不適合作為目標(biāo)函數(shù),因為pT不能體現(xiàn)交易中存在的回撤.在實際金融交易市場中,投資者的本金數(shù)額有限,當(dāng)回撤非常大時,交易的頭寸會被損失所吞沒,無法繼續(xù)投資.而夏普比率作為衡量風(fēng)險和收益的指標(biāo)更能表現(xiàn)投資是否穩(wěn)健,較高的夏普比率代表著較高的收益和較低的風(fēng)險.夏普比率S見公式(6):
S作為目標(biāo)函數(shù)時,模型的時間復(fù)雜度為O(T2).為降低時間復(fù)雜度,通常用微分夏普比率(differential Sharpe ratio)替代它.微分夏普比可以看成是一個滑動平均式夏普比率,其推導(dǎo)見公式(7)~公式(10).
At和Bt是代表收益率Rt的一階矩和二階矩,△At和△Bt代表參數(shù)的增量.微分夏普比率將移動平均值擴(kuò)展到自適應(yīng)參數(shù)η的一階展開,并使用η的一階導(dǎo)數(shù)作為衡量夏普比率的瞬時性能指標(biāo).微分夏普比率見公式(10).
RRL是一種在策略(on policy)學(xué)習(xí)方式,微分夏普比率有利于在訓(xùn)練的過程中直接優(yōu)化RRL參數(shù),加速訓(xùn)練的收斂過程,為強(qiáng)化學(xué)習(xí)提供了一個便捷的評估方法.
2003年,Gold[10]提出了使用多層神經(jīng)網(wǎng)絡(luò)替代公式(1)介紹的單層神經(jīng)網(wǎng)絡(luò),即增加一個隱含層,如公式(11)和公式(12):
RRL的目標(biāo)是通過梯度上升的方式在一個循環(huán)神經(jīng)網(wǎng)絡(luò)中優(yōu)化權(quán)重wt,見公式(13).
wt代表t時刻循環(huán)網(wǎng)絡(luò)中的權(quán)重,Ut代表交易體系的某種指標(biāo)或目標(biāo)函數(shù),ρ代表學(xué)習(xí)率.由公式(1)可知:RRL是一個路徑依賴算法,權(quán)重更新需要依靠目標(biāo)時間的梯度傳導(dǎo).循環(huán)模型權(quán)重更新的梯度值依賴于前段時間整個序列的總導(dǎo)數(shù),這類似于BPTT決策序列中的時間依賴性通過參數(shù)梯度的遞歸更新方程來解釋.△w在時刻t的值見公式(14).
不同于監(jiān)督學(xué)習(xí)在獲得最終值時才回傳誤差和梯度,RRL模型在前向傳播時就不斷調(diào)整參數(shù),使得目標(biāo)函數(shù)值最大化.如果更新參數(shù)僅考慮最近的操作所產(chǎn)生的回報,則公式(14)可簡化為公式(15):
RRL以最大化微分夏普比率為目標(biāo)函數(shù)時,公式(15)中的參數(shù)意義如下:通過公式(4)和公式(5)可知交易動作和回報關(guān)系,回報函數(shù)對交易動作的導(dǎo)數(shù)表示為公式(16)和公式(17):
由公式(18)可知,RRL的權(quán)重wt可以通過梯度求導(dǎo)的方式進(jìn)行更新.
RRL是強(qiáng)化學(xué)習(xí)在交易領(lǐng)域的基礎(chǔ)算法,它的價格自適應(yīng)性和目標(biāo)函數(shù)多樣性得到研究者的青睞,許多FTS都以RRL為核心來搭建,下面的章節(jié)中有詳細(xì)的論述.
高收益的金融量化模型系統(tǒng)必須具有良好的自適應(yīng)性,這樣才能應(yīng)對市場頻繁的變化.自適應(yīng)動態(tài)規(guī)劃(adaptive dynamic programing,簡稱 ADP)由 Werbos于 20世紀(jì)70年代提出[15],在Bertsekas[16],Lewis[17],Liu[18],Zhang[19]等學(xué)者的努力下日臻成熟.ADP是一種針對連續(xù)狀態(tài)空間的最優(yōu)控制方法.
基于金融資產(chǎn)時間序列交易是一個復(fù)雜問題,它的狀態(tài)空間和動作空間往往是連續(xù)的,規(guī)模較大.由于維度爆炸的緣故,不能采用傳統(tǒng)的查表法來得到性能函數(shù),需要使用函數(shù)逼近器,例如線性函數(shù)逼近器和神經(jīng)網(wǎng)絡(luò)逼近器等來逼近性能函數(shù).
市場有效性和行為金融學(xué)在市場中交替發(fā)揮作用,這對交易系統(tǒng)有如下影響:第一,當(dāng)市場有效性逐漸提高,某些策略的獲利機(jī)會逐漸消失,傳統(tǒng)的靜態(tài)常數(shù)難以保證獲利最大,需要對交易參數(shù)進(jìn)行優(yōu)化,而且還要動態(tài)、自適應(yīng)地調(diào)整優(yōu)化值;第二,常規(guī)交易模型的參數(shù)往往采用靜態(tài)常數(shù),由于金融資產(chǎn)時間序列有明顯的異方差性,限制了模型使用.對于傳統(tǒng)模型的缺陷,一些參數(shù)調(diào)整方案已經(jīng)取得了一定效果,但是始終受到新的條件約束.
2003年,Atiya等人提出了基于Q學(xué)習(xí)的自適應(yīng)模擬退火算法,該算法在測試表現(xiàn)中強(qiáng)于傳統(tǒng)的Q學(xué)習(xí)算法,證明了良好的自適應(yīng)性是交易算法的必備特性[20].2006年,Jangmin等人提出了基于RRL的自適應(yīng)投資組合策略,它能夠有效利用來自特定股票和基金的時間序列信息進(jìn)行訓(xùn)練,并在投資組合中合理配置高風(fēng)險資產(chǎn)和無風(fēng)險資產(chǎn)的份額.Jangmin將這種資產(chǎn)配置策略應(yīng)用于韓國股市,它的表現(xiàn)比一些經(jīng)典的資產(chǎn)配置策略更好[21].
基于RRL的、完善的交易系統(tǒng)出現(xiàn)在2006年,Dempster等人創(chuàng)建了三層結(jié)構(gòu)的自動金融交易系統(tǒng),其模型如圖3所示.
Fig.3 Automated trading system architecture圖3 自動交易系統(tǒng)架構(gòu)
結(jié)構(gòu)的3個層分別是RRL機(jī)器學(xué)習(xí)層(layer 1)、風(fēng)險管理層(layer 2)和動態(tài)優(yōu)化層(layer 3)[22].風(fēng)險管理層的作用是在最終決定交易之前使機(jī)器學(xué)習(xí)層的輸出決策受到一定的風(fēng)險限制,z代表終止交易的被激活值,Risk Aversion代表控制風(fēng)險的系統(tǒng)外參數(shù).動態(tài)優(yōu)化層的作用是通過模型的自適應(yīng)性為模型尋找最佳參數(shù),其中,x是止損度,y是交易閾值.RRL機(jī)器學(xué)習(xí)層的參數(shù)δ代表交易成本,η代表自適應(yīng)參數(shù),ρ代表學(xué)習(xí)率.在兩年期歐元兌美元分鐘級數(shù)據(jù)測試中,該系統(tǒng)利潤明顯高于單獨的RRL模型.同時,Dempster等人還引入14個常用技術(shù)指標(biāo)作為系統(tǒng)的一部分輸入.然而除了少數(shù)指標(biāo)外,大部分技術(shù)指標(biāo)并沒有明顯增加交易利潤.
2007年,Bertoluzzo等人在Moody的三動作模型Ft∈{-1,0,1}的基礎(chǔ)上[9],加入風(fēng)險管理策略來對RRL模型進(jìn)行止損[23].在金融交易中,交易員通過觀察不同資產(chǎn)的回報分布不對稱性來判斷投資的下行風(fēng)險,其中一個重要的指標(biāo)是加權(quán)對稱性(weighted-symmetric).該模型以加權(quán)對稱指數(shù)(weighted direction symmetry index)作為目標(biāo)函數(shù),而不是微分夏普比率.這樣做的目的在于:當(dāng)市場出現(xiàn)下行風(fēng)險時,可以更好地控制決策.該系統(tǒng)在 9個世界主要股市指數(shù)上測試的結(jié)果令人鼓舞,至少有8個指數(shù)有盈利表現(xiàn).
2011年,Gorse等人提出一種控制交易成本的自適應(yīng)金融交易系統(tǒng)[11],該系統(tǒng)將公式(1)中的固定閾值vj替換為如公式(19)中的帶有權(quán)重的可變閾值wM+2:
從公式(1)和 Moody[8]中可知:閾值與交易成本息息相關(guān),可以通過不斷調(diào)整閾值應(yīng)對交易成本的變化.但是,這并不意味著交易成本上升就可以通過提升閾值來應(yīng)對.若閾值設(shè)置不合理,同樣會造成交易損失.Gorse設(shè)置這種自適應(yīng)方式來代替手動調(diào)整閾值,在訓(xùn)練中實現(xiàn)閾值的自動調(diào)整,以達(dá)到收益最大.該模型也嘗試使用多層神經(jīng)網(wǎng)絡(luò)代替單層網(wǎng)絡(luò),然而實驗中發(fā)現(xiàn),多層的RRL并未提升模型性能.同樣是在2011年,Tan等人提出一種非套利型的高頻交易系統(tǒng)[24],在RRL中加入自適應(yīng)網(wǎng)絡(luò)模糊推理構(gòu)成一種混合模型(adaptive network fuzzy inference system,簡稱ANFIS).ANFIS的優(yōu)勢在于可以通過模糊推理的方式進(jìn)行模式轉(zhuǎn)換,使RRL系統(tǒng)適應(yīng)不同的股票市場周期.例如,股票上行趨勢會持續(xù)幾天或幾周,股市的大波動率后往往有大波動伴隨,小波動率后往往有小波動伴隨,這種周期規(guī)律已被市場經(jīng)驗所驗證,敏銳地適應(yīng)這樣的周期會產(chǎn)生可觀的利潤.ANFIS根據(jù)這種趨勢規(guī)律實現(xiàn)了股市拐點的預(yù)測.使用5只美國股票的13年時間序列數(shù)據(jù)測試ANFIS,均取得了穩(wěn)定的利潤.Almahdi等人在2017提出了自適應(yīng)能力的RRL交易系統(tǒng)[25],他們研究發(fā)現(xiàn):在資產(chǎn)投資組合交易中,使用動態(tài)止損(stop loss)策略同時配合不同的目標(biāo)函數(shù)(objective function)使用,得到的收益遠(yuǎn)高于單一目標(biāo)函數(shù)的策略.例如:使用斯特林比率作為目標(biāo)函數(shù)的 RRL模型可以抵消市場長期下行風(fēng)險,而市場平穩(wěn)上行時,使用夏普比率的模型收益更高.卡瑪比率(Calmar ratio)對損失的大小很敏感,當(dāng)交易成本逐漸上升,并且期望最大回撤(expected maximum drawdown,簡稱EMDD)很大時,使用卡瑪比率的投資組合收益始終優(yōu)于基于夏普比率和斯特林比率.交易系統(tǒng)整體流程如圖4所示.
Fig.4 RRL based trading decision system圖4 基于RRL交易決策系統(tǒng)
Almahdi等人使用上述3種不同的目標(biāo)函數(shù)開發(fā)出新型RRL自適應(yīng)交易系統(tǒng).文獻(xiàn)[25]從雅虎財經(jīng)收集金融資產(chǎn)數(shù)據(jù),選擇5個常見的ETF的投資組合進(jìn)行實驗.此系統(tǒng)中,交易者先選擇一個最有利的目標(biāo)函數(shù), RRL系統(tǒng)將使用雅虎財經(jīng)歷史數(shù)據(jù)來學(xué)習(xí)和訓(xùn)練參數(shù);然后,允許用戶選擇兩種資產(chǎn)組合方式:加權(quán)投資組合(EW-portfolio)和RRL投資組合(EW-portfolio).RRL系統(tǒng)將輸出對每個資產(chǎn)的多/空決策(long/short decision)以及投資組合方式.系統(tǒng)還會詢問投資者是否愿意使用動態(tài)止損退出策略,這將停止交易并重新訓(xùn)練系統(tǒng).如果不想止損,那么輸出將被存儲(trading records)以供系統(tǒng)繼續(xù)從給定的產(chǎn)出中學(xué)習(xí).假定系統(tǒng)訓(xùn)練時的預(yù)定交易成本為每股0.1%,在訓(xùn)練階段沒有止損.在真實的交易系統(tǒng)中,投資者可以根據(jù)自己的交易成本估算他們過去的交易記錄.由于交易成本在不同時期會發(fā)生變化,系統(tǒng)會提醒投資者改變目標(biāo)函數(shù)重新訓(xùn)練參數(shù),以適應(yīng)這些變化.當(dāng)交易成本超過每股 0.15%時,系統(tǒng)會建議用戶設(shè)定卡瑪比率作為目標(biāo)函數(shù),這將有助于系統(tǒng)承受交易成本上升的影響.此外,如果投資者擔(dān)心出現(xiàn)大幅回撤,那么改用卡瑪比率訓(xùn)練系統(tǒng)以應(yīng)對預(yù)期最大回撤將是非常明智的.
綜上,通過研究我們發(fā)現(xiàn),成功的自適應(yīng)交易系統(tǒng)有如下3個特征.
(1) 正確選擇用于交易的自適應(yīng)算法和模型目標(biāo)函數(shù);
(2) 使用明確的規(guī)則定義進(jìn)場和出場時機(jī);
(3) 良好的風(fēng)險控制方法,根據(jù)市場情況及時轉(zhuǎn)換交易策略.
通過第 2節(jié)可得知交易策略轉(zhuǎn)換關(guān)系到系統(tǒng)能否成功.根據(jù)適應(yīng)性市場假說理論,單一策略不可能長期有效,總會有一段時間策略A效果特別好,而過一段時間策略B效果更好.交易系統(tǒng)不僅要在適當(dāng)?shù)臅r候持有合適的股票、基金、債券,還要重倉合適的策略模型.業(yè)界將一段金融資產(chǎn)時間序列的不同時期定義為不同的狀態(tài),擇優(yōu)選擇策略,這就是策略輪動,本文稱為體制轉(zhuǎn)換模型.
最簡單的情況下,金融資產(chǎn)時間序列狀態(tài)的轉(zhuǎn)換可以用一階馬爾可夫鏈描述,稱為馬爾可夫體制轉(zhuǎn)換模型,體制轉(zhuǎn)換模型屬于變參數(shù)模型.Hamilton將體制轉(zhuǎn)換模型與自回歸模型(GRACH)相互結(jié)合,用 GARCH模型計算動態(tài)價差標(biāo)準(zhǔn)差[26].GARCH模型的參數(shù)變化是一個離散狀態(tài)馬爾可夫過程,可以描述變量的趨勢轉(zhuǎn)變.Hamilton,Susmel[27]和Gray[28]將體制轉(zhuǎn)換模型與ARCH模型結(jié)合,描述了波動率在不同大小的波動狀態(tài)之間的轉(zhuǎn)換.體制轉(zhuǎn)換模型不是一個獨立的模型,需要結(jié)合其他模型一起來判定趨勢.
RRL交易系統(tǒng)不能完全應(yīng)對金融交易市場的復(fù)雜情況,Gold的實驗已經(jīng)證明:在金融數(shù)據(jù)包含噪音的環(huán)境下,多層神經(jīng)網(wǎng)絡(luò)非常容易出現(xiàn)過擬合現(xiàn)象,神經(jīng)網(wǎng)絡(luò)的黑盒式方法也難以總結(jié)關(guān)系之間的聯(lián)系[10].因此,Maringer等人提出的體制轉(zhuǎn)換模型(regime-switching recurrent reinforcement learning,簡稱RS-RRL)更適合于模擬非線性的變化情況[29].該模型讓RRL模型在不同的波動率下選擇不同的權(quán)重,以應(yīng)對市場風(fēng)格連續(xù)發(fā)生變化的情況.2010年,Maringer和Ramtohul首次提出閾值自回歸模型(threshold RRL,簡稱TRRL)[30],此模型設(shè)置一個轉(zhuǎn)換閾值控制兩個模式的轉(zhuǎn)換,如圖5所示.
圖5中,變量描述如公式(20)~公式(22)所示:
其中,yt,1和yt,2代表兩個不同的RRL網(wǎng)絡(luò),qt代表指示變量,c代表閾值,Gt代表權(quán)重.TRRL可以被看成兩個RRL網(wǎng)絡(luò),每個網(wǎng)絡(luò)對應(yīng)一種交易風(fēng)格,系統(tǒng)總的輸出Ft是單個網(wǎng)絡(luò)yt,1和yt,2的加權(quán)和,權(quán)重受到qt的直接作用.
在金融市場中,波動率是描述金融市場風(fēng)格的重要標(biāo)志之一.初始階段,yt,1和yt,2有同樣的權(quán)重;訓(xùn)練期間,該模型進(jìn)行選擇性的學(xué)習(xí),每個網(wǎng)絡(luò)有一組獨特的權(quán)重,閾值是一組門控制器,在不同的時間序列階段步驟選擇不同的網(wǎng)絡(luò).實際上,指示變量qt的作用是讓模型能夠在高波動率和低波動率之間轉(zhuǎn)換,適應(yīng)不同的市場風(fēng)格,公式(20)~公式(22)共同組成 TRRL.在使用 4只歐洲股票的測試上,TRRL均有超出 RRL的表現(xiàn)[30].2012年,Maringer等人對TRRL模型進(jìn)行改進(jìn),新模型稱為平滑轉(zhuǎn)換自回歸模型(STRRL)[29].TRRL模型的閾值是二元數(shù),只能在[0,1]間進(jìn)行轉(zhuǎn)換而不能平滑過渡,STRRL的模型設(shè)計中則包含平滑過渡的方式,見公式(23).
STRRL的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示.TRRL的每個網(wǎng)絡(luò)學(xué)習(xí)一個獨特的映射對應(yīng)一個特定的區(qū)域,在指標(biāo)變量qt轉(zhuǎn)換的過程中,TRRL作為一個開關(guān)在每個時間步選擇合適的網(wǎng)絡(luò).STRRL則允許兩個模型有一定量的重疊,重疊的程度由γ來規(guī)定.STRRL的Gt可以取[0,1]之間的任何值,參數(shù)γ決定了轉(zhuǎn)換的平滑性.當(dāng)γ趨近于無窮大時,STRRL趨近于RRL.從圖6中可以看出,STRRL相比TRRL在體制轉(zhuǎn)換上有更好的平滑性,更容易及時應(yīng)對金融市場風(fēng)格變化.
Fig.5 TRRL model圖5 TRRL模型
Fig.6 STRRL model圖6 STRRL模型
為了驗證 STRRL的有效性,文獻(xiàn)[29]在人工生成數(shù)據(jù)和 12只美股數(shù)據(jù)上進(jìn)行了測試,結(jié)果顯示,在人工生成數(shù)據(jù)上,微分夏普比率沒有太大的區(qū)別;但是在12只美股的測試上,STRRL比TRRL和RRL獲得更高的微分夏普比率.可見STRRL能夠適應(yīng)真正包含趨勢信息的金融資產(chǎn)時間序列,而不是人工生成的隨機(jī)序列.
Maringer等人[31]探討過指示變量qt對于市場風(fēng)格變化的映射關(guān)系應(yīng)該由哪些參數(shù)確定,不僅GARTH模型生成的波動率可以體現(xiàn)市場風(fēng)格的變化,成交量(trading volume)、日內(nèi)信息到達(dá)率(daily rate of information arrival)都可以作為qt的衡量指標(biāo).當(dāng)市場條件發(fā)生劇烈變化時,單獨的衡量指標(biāo)不足以描述市場變化,多指標(biāo)更有把握.交易量與價格變化絕對值之間存在正相關(guān)性,交易減少通常伴隨著價格下跌,交易量增大通常意味著價格上漲.例如,新的股票公告或者新聞稿也會直接導(dǎo)致價格的波動.因此,日內(nèi)信息到達(dá)率通常也影響著市場風(fēng)格的變化.通過在15只美股數(shù)據(jù)上的測試,基于成交量和波動率的RS-RRL模型比基礎(chǔ)的RS- RRL模型有更好的表現(xiàn),這足以證明引入更多的指標(biāo)信號會對交易有積極的作用.
本文將Maringer的模型稱為RS-RRL1.0.在此系統(tǒng)中,無論是TRRL還是STRRL,如果沒有人工干預(yù)Gt中的參數(shù),系統(tǒng)無法實現(xiàn)自動模式轉(zhuǎn)換,舊的轉(zhuǎn)換模型未必適用于當(dāng)前的金融交易環(huán)境.基于可能性推理的轉(zhuǎn)換函數(shù)在交易方面會弱化RRL的自適應(yīng)性.以上的缺點讓Maringer和Zhang在2014年提出RS- RRL2.0,用以提高RS-RRL交易系統(tǒng)的表現(xiàn)[32].新模型用一個sigmoid函數(shù)的求和公式代替權(quán)重Gt、指示變量qt、閾值c,見公式(24):
Fig.7 RS-RRL2.0 model圖7 RS-RRL2.0模型
馬爾可夫決策過程(Markov decision process,簡稱MDP)是強(qiáng)化學(xué)習(xí)建模的經(jīng)典算法,其主要思想是在MDP上進(jìn)行動態(tài)規(guī)劃,尋找最大化累計回報.假設(shè)一個策略能夠在一個狀態(tài)上就預(yù)測到未來的累計回報,那么意味著存在動態(tài)規(guī)劃的最優(yōu)解,這種求解方法被稱為值函數(shù)(value function)方法.
最近20年,基于值函數(shù)方法,如時間差分學(xué)習(xí)(TD-learning)和Q學(xué)習(xí),一直是該領(lǐng)域的主要研究課題[33,34].Q學(xué)習(xí)是最早最重要的在線強(qiáng)化學(xué)習(xí)算法,由 Watkins在其博士論文中提出[35].該算法的主要思想為:將在線觀測到的數(shù)據(jù)帶入到更新公式中對Q函數(shù)進(jìn)行迭代學(xué)習(xí),得到精確解.
Q學(xué)習(xí)是一種離策略(off policy)的學(xué)習(xí)算法,使用合理的策略來產(chǎn)生動作,根據(jù)該動作與環(huán)境交互所得到的下一個狀態(tài)以及獎賞來學(xué)習(xí)得到另一個最優(yōu)的Q函數(shù).Q學(xué)習(xí)只能在有一定限制條件并且理論上能夠收斂的情況下才能得到最優(yōu)控制策略[36-38].當(dāng)Q學(xué)習(xí)中離散狀態(tài)很多時,行動選擇過多會陷入貝爾曼維度詛咒[5].并且用Q學(xué)習(xí)做函數(shù)逼近時,某些情況下馬爾可夫決策過程不收斂.在Q學(xué)習(xí)算法下,微小的噪音往往也會導(dǎo)致無法選擇最優(yōu)策略[39-41].
理論上,值函數(shù)有值函數(shù)(25)和狀態(tài)-動作對值函數(shù)(26)兩種:
其中,π(x,a)是在狀態(tài)x下采取行動a的概率;pxy(a)是在動作a下從狀態(tài)x到狀態(tài)y的轉(zhuǎn)移概率;D(x,y,a)是即時回報,在金融交易里面可以是最大的微分夏普比率、最大利潤或其他指標(biāo);γ是折扣率,取值范圍是[0,1],越遠(yuǎn)的動作回報率越低.
公式(25)和公式(26)都是通過獲得最優(yōu)值函數(shù)來獲得最大化累計回報.如果當(dāng)前的策略在值函數(shù)下獲得值超過之前的其他策略,則稱為最優(yōu)策略.通過對公式(25)的迭代,可以實現(xiàn)值函數(shù)的最終收斂.公式(25)滿足貝爾曼方程(Bellman equation),通過迭代優(yōu)化得到公式(27):
這也意味著公式(26)和公式(27)兩個函數(shù)存在以下關(guān)系:
相應(yīng)的最佳動作就可以表示為公式(29):
Q學(xué)習(xí)依據(jù)上面的公式不斷迭代,尋找更高的回報,近似函數(shù)的更新規(guī)則可以通過梯度的方差進(jìn)行迭代,最優(yōu)動作決定最大回報,最優(yōu)動作的選擇策略由完全貪心策略(ε-greedy)決定,ε-greedy會在一定的概率限制下進(jìn)行探索,而不是完全使用貪心算法.2001年,Moody等人將Q學(xué)習(xí)算法應(yīng)用在資產(chǎn)組合配置和金融交易中[9],他們定義了3個動作Ft∈{-1,0,1},分別在人工生成數(shù)據(jù)、外匯交易數(shù)據(jù)和S&P500指數(shù)上測試,結(jié)果顯示,RRL勝過Q學(xué)習(xí)算法.可見,當(dāng)時在交易中RRL自適應(yīng)方式優(yōu)于Q學(xué)習(xí).但Q學(xué)習(xí)更好的靈活性和擴(kuò)展性,在之后的研究中逐漸顯現(xiàn)出來.
相比于RRL的簡單動作Ft∈{-1,0,1},Q學(xué)習(xí)的動作a定義方法非常多.2003年,Lee等人提出了基于Q學(xué)習(xí)的多智能體自動交易系統(tǒng)[42],它考慮交易過程中交易限價單的情況,對不同的價格狀態(tài)做出判斷并執(zhí)行相關(guān)動作.該系統(tǒng)首先通過買信號智能體(buy signal agent)判斷是否有必要買入,待確定后,再喚醒買單智能體(buy order agent)下單.買單智能體根據(jù)交易數(shù)據(jù)的漲跌判斷是否到達(dá)拋售點,比如漲30%、跌20%.在達(dá)到或接近拋售點時,喚醒賣入信號智能體(sell signal agent).每個智能體都有自己確定的動作和回報設(shè)定,如:買方智能體只有不買和買入兩個動作,而回報需要賣出后才能得到,賣方訂單完成后,有對買的回報,不買回報始終是0.而賣出信號智能體在完成交易并扣除交易成本后才能得到回報.文獻(xiàn)[42]在韓國綜合股票指數(shù)(KOSPI200)上測試時,得到了遠(yuǎn)超過買入持有策略的回報.2007年,Lee等人再次完善多智能體Q學(xué)習(xí)自動交易系統(tǒng),命名為 MQTrader[43].它定義多個Q學(xué)習(xí)智能體,有效地克服了之前在復(fù)雜環(huán)境中股票交易存在的問題.
基于值函數(shù)的強(qiáng)化學(xué)習(xí)經(jīng)典理論是通過策略π求得最大回報V*(S),其回報公式為
金融投資領(lǐng)域中某些人是風(fēng)險厭惡型投資者,比如母基金(fund of funds,簡稱FOF)或者養(yǎng)老保險基金等.相比于高利潤,這些投資者在保證基本利潤的同時更關(guān)心風(fēng)險系數(shù)的大小.2006年,Jian Li等人提出通過調(diào)整回報的方式規(guī)避Q學(xué)習(xí)中存在的交易風(fēng)險問題[44].Li將交易回報同GARCH模型得到的風(fēng)險標(biāo)準(zhǔn)差合并,從而得到回報調(diào)整強(qiáng)化學(xué)習(xí)模型(reward adjustment reinforcement learning,簡稱RARL),回報值改為公式(31):
rt代表模型定義的基本回報值,α代表厭惡風(fēng)險的情緒值,σ(·)代表方差公式,gt代表從 GARCH模型獲得的風(fēng)險值.經(jīng)過公式(31)的變化,RARL的回報從公式(30)升級為公式(32):
在香港股票數(shù)據(jù)的測試上,此方法泛化性能明顯優(yōu)于傳統(tǒng)的Q學(xué)習(xí)金融模型.2012年,Bertoluzzo在文獻(xiàn)[23]工作的基礎(chǔ)上繼續(xù)完善FTS系統(tǒng),使用值函數(shù)的方式構(gòu)建FTS替換之前的RRL模型.Bertoluzzo又測試了基于時序差分模型(temporal difference,簡稱TD)和核函數(shù)的強(qiáng)化學(xué)習(xí)模型(kernel-based reinforcement learning,簡稱KbRL)作為FTS系統(tǒng)的主模型,動作設(shè)置為a∈{-1,0,1},采用經(jīng)典夏普比率而非微分夏普比率作為目標(biāo)函數(shù)[45,46].文獻(xiàn)[46]提出構(gòu)建FTS系統(tǒng)時不采用動態(tài)規(guī)劃或蒙特卡洛方式,原因如下.
· 首先,動態(tài)規(guī)劃需要一個模型來計算一個狀態(tài)到另外一個狀態(tài)的實際轉(zhuǎn)移概率,在金融交易中,這樣的
模型通常是未知的;
· 其次,為了改進(jìn)策略需要等到全部交易結(jié)束之后才能進(jìn)行估算,而FTS交易是無限次數(shù)的.
Q學(xué)習(xí)的方式比較符合FTS,Q學(xué)習(xí)源于無模型強(qiáng)化學(xué)習(xí)的TD學(xué)習(xí),Q學(xué)習(xí)不需要等到交易結(jié)束就可以讓模型在近似狀態(tài)下收斂.
鑒于Q學(xué)習(xí)的關(guān)鍵問題是定義環(huán)境、狀態(tài)、動作、回報這四者之間的關(guān)系,Bertoluzzo等人在2014年又對FTS系統(tǒng)做了進(jìn)一步完善,重新定義了金融市場狀態(tài)變量[47],如公式(33):
最后 5個交易日結(jié)束時的對數(shù)收益率eτ=ln(pτ/pτ-1)為系統(tǒng)狀態(tài)變量,τ代表間隔時間,pτ代表價格;同時引入多種目標(biāo)函數(shù),如夏普比率、凈值對數(shù)回報、凈值對數(shù)收益之和比率等,經(jīng)過在意大利股票指數(shù)數(shù)據(jù)上的測試,結(jié)果總體令人滿意.
在Q學(xué)習(xí)的交易算法中,不僅是狀態(tài)St的定義具有靈活性,交易動作a也可以做必要的擴(kuò)展.在交易中如果持有金融資產(chǎn),那么每一個時間步驟中無論價格是上漲還是下跌,都需要設(shè)置相應(yīng)的動作(買入或賣出).Du等人設(shè)置了4種組合操作來應(yīng)對這種情況[48],如公式(34)所示:
Du詳細(xì)對比了 RRL和Q學(xué)習(xí)的交易方式后指出:應(yīng)用于包含大量噪音數(shù)據(jù)集合時,在正確的目標(biāo)函數(shù)下,RRL在穩(wěn)定性和計算收斂性上優(yōu)于Q學(xué)習(xí),但是Q學(xué)習(xí)的操作選擇更加靈活多樣.
綜上所述,在價格自適應(yīng)上,RRL一定程度優(yōu)于Q學(xué)習(xí).但是Q學(xué)習(xí)的動作設(shè)置上可以多種多樣,不僅應(yīng)用于買賣,還可以用來觸發(fā)各類交易信號.同時,Q學(xué)習(xí)還可以將很多金融資產(chǎn)的各種狀態(tài)定義到Q學(xué)習(xí)的狀態(tài)St中,這比 RRL有更大的優(yōu)勢.此外,Q學(xué)習(xí)還可以定義多智能體的應(yīng)用方式,在買入、賣出等交易環(huán)節(jié)處應(yīng)用,比傳統(tǒng)的Q學(xué)習(xí)有更高的靈活性.在FTS應(yīng)用中,常有多種策略同時使用,比如配對交易、股票中性等,這些策略往往同時操作多種金融資產(chǎn),單純的買入和賣出不能滿足系統(tǒng)的操作需求,因此,基于Q學(xué)習(xí)的多種算法值得深入研究.
理論上,值函數(shù)方法在離散狀態(tài)空間中可以收斂到最優(yōu)策略,但收斂速度可能極慢.值函數(shù)的一個微小變動都可能導(dǎo)致動作選擇的錯誤,這種變化會影響算法的收斂性.同時,值函數(shù)的方法有兩個局限性[41].
(1) 值函數(shù)算法最終得到的是一個確定性策略,而最優(yōu)策略有可能是隨機(jī)的;
(2) 值函數(shù)存在策略退化問題,即使值函數(shù)估計得很準(zhǔn)確,通過值函數(shù)獲得的策略仍然不是最優(yōu)策略.
為解決尋找最優(yōu)策略問題,Sutton等人提出了策略梯度算法(policy gradient)[41],該類算法不會出現(xiàn)策略退化現(xiàn)象[49,50].策略梯度是一種直接逼近的優(yōu)化策略,直接在策略空間進(jìn)行求解得到策略.
基于值函數(shù)的方法,通過迭代計算每一輪(state-action-reward)的交互,選擇回報最大的動作a,這是一種間接做法.直接的做法是通過神經(jīng)網(wǎng)絡(luò)直接求得下一次的狀態(tài)或動作.2014年,Eilers等人提出用策略梯度將交易決策與回報緊密聯(lián)系起來[49],描述見公式(35):
St代表交易前狀態(tài),St+1代表交易后狀態(tài),a代表交易動作,σ代表狀態(tài)轉(zhuǎn)換函數(shù).Eilers等人使用三層神經(jīng)網(wǎng)絡(luò)的RRL作為σ函數(shù),獎勵直接從函數(shù)r中獲得.rt代表回報值,用正負(fù)表示積極或消極,最終依據(jù)策略梯度的方式收斂.Eilers分析并介紹了不同月份以及不同季度對股票期權(quán)市場的影響和交易風(fēng)格的變化,使用人工神經(jīng)網(wǎng)絡(luò)結(jié)合 RRL的方式,借助 RRL的自適應(yīng)性,讓交易系統(tǒng)在不同的月份之間自動轉(zhuǎn)換交易風(fēng)格.實驗顯示,Eilers等人的交易系統(tǒng)沒有將目光局限在獲得最大收益或高夏普比率值,而是最大限度地提高每次交易的即時回報,將最好的交易動作分配給最合適的情況.
基于策略梯度的方法在求解上相比值函數(shù)更加方便,但也更容易陷入到局部最優(yōu)解.因為策略梯度過分關(guān)注獲得最大期望回報,而不是最優(yōu)解.Actor-Critic在這兩種方法中找到了平衡[50].行動網(wǎng)絡(luò)(actor)的目的是通過一個函數(shù)——輸入狀態(tài)St,輸出動作a,在這個過程中盡量獲得最高的回報,使用策略梯度來更新參數(shù).為了訓(xùn)練Actor,創(chuàng)建一個值函數(shù)評價網(wǎng)絡(luò)(critic)評估 Actor的表現(xiàn).用值函數(shù)替代采樣的回報(reward),提高樣本利用率,降低策略梯度求解時的梯度(估計)方差.這個兩個網(wǎng)絡(luò)通常使用人工神經(jīng)網(wǎng)絡(luò)來近似模擬.Actor-Critic的示意如圖8所示.
Fig.8 Actor-Critic schematic diagram圖8 Actor-Critic原理圖
2007年,Haili等人提出了基于Actor-Critic算法的結(jié)合強(qiáng)化學(xué)習(xí)和監(jiān)督學(xué)習(xí)共同預(yù)測金融數(shù)據(jù)短期走勢的模型[51],分別是Actor結(jié)合監(jiān)督學(xué)習(xí)模型(actor-supervised llearning)和動作-評價模型(actor-critic).前者結(jié)合了兩種模型的優(yōu)點,監(jiān)督學(xué)習(xí)具有快速收斂的優(yōu)點,洞察短時間的市場慣性并給出最佳預(yù)測插值;Actor使用的是基于RRL的模型,縮小搜索空間.這表明在沒有正確標(biāo)記訓(xùn)練樣本時,可以利用RRL的自適應(yīng)性,通過強(qiáng)化學(xué)習(xí)對監(jiān)督學(xué)習(xí)的缺陷進(jìn)行微調(diào).此外,RRL縮小了搜索領(lǐng)域,也避免過早收斂陷入局部最優(yōu)解.后者模型則通過兩個MLP網(wǎng)絡(luò)擬合各自的函數(shù),實現(xiàn)預(yù)測:首先,實驗將數(shù)據(jù)定義為一些離散狀態(tài)St,然后將狀態(tài)St和Actor網(wǎng)絡(luò)的輸出Ft作為Critic網(wǎng)絡(luò)的輸入,將下一個時刻的價格狀態(tài)St+1定義為輸出,訓(xùn)練Critic網(wǎng)絡(luò).得到訓(xùn)練的Critic可以更好地評價Actor,實現(xiàn)Actor-Critic模型的共同訓(xùn)練.這里,Actor與Critic在參數(shù)更新上是異步的.實驗中, Hailin使用時間跨度達(dá)20年的數(shù)據(jù),分別將兩個模型用在3種股票價格預(yù)測上,如S&P 500指數(shù)、納斯達(dá)克綜合指數(shù)、IBM股票.結(jié)果顯示:S&P 500指數(shù)預(yù)測效果良好,納斯達(dá)克綜合指數(shù)和IBM也在盈利的范圍內(nèi).在其他個股的金融時間序列預(yù)測中,單獨的Actor-Critic模型通常表現(xiàn)更好.
2010年,Stelios等人也使用Actor-Critic構(gòu)建了FTS系統(tǒng)[52],并提出一個自適應(yīng)模糊強(qiáng)化學(xué)習(xí)模型.該模型能夠準(zhǔn)確迅速地識別市場方向.模糊推理最初應(yīng)用在控制領(lǐng)域,它提供了一種用不精確數(shù)據(jù)來表示不確定的方法.這意味著它可以成為不確定條件下智能體選擇決策的極好工具.模糊推理直接將數(shù)字術(shù)語翻譯成為語言術(shù)語,通過 IF-THEN表示模糊推理規(guī)則指定語句將模糊輸入與模糊輸出相互關(guān)聯(lián),例如:出現(xiàn)條件“西紅柿非常紅”,立即可得出結(jié)論“西紅柿非常熟”.模糊推理將有效的經(jīng)驗法則與非結(jié)構(gòu)化知識結(jié)合起來,這種方法同上文中的RS-RRL模型非常類似,可以通過經(jīng)驗把握金融市場風(fēng)格的變化.
金融時序價格一般都具有兩個屬性:預(yù)期收益(expected return)和條件波動(conditional volatility).Stelios利用這兩點定義了8個不同的狀態(tài)空間.通過模糊推理系統(tǒng)提供的輸出作為Actor的輸入,利用波動性的指標(biāo)實現(xiàn)強(qiáng)化學(xué)習(xí)的可預(yù)測性,最后使用選定的參數(shù)為Critic構(gòu)建基于交易的決策.在納斯達(dá)克綜合指數(shù)、英國富時100指數(shù)、Nikkei亞洲300可投資指數(shù)等指數(shù)的實驗中,Stelios提出的FTS系統(tǒng)收益高于循環(huán)神經(jīng)網(wǎng)絡(luò)、馬爾可夫模型和買入持有策略.
綜上所述,在狀態(tài)和交易動作選擇上,Actor-Critic算法遠(yuǎn)多于Q學(xué)習(xí)算法和RRL算法.RRL算法在自適應(yīng)性有上一定的優(yōu)勢,易于根據(jù)當(dāng)前金融信息自動轉(zhuǎn)換交易風(fēng)格.Actor-Critic算法和Q學(xué)習(xí)則可以通過引入系統(tǒng)外變量,如模糊推理和市場風(fēng)格變換信號實現(xiàn)自適應(yīng)性.此外,當(dāng)深度學(xué)習(xí)模型替代 Actor-Critic中的策略函數(shù)后,該算法在圍棋等領(lǐng)域取得了突破.未來,融合深度學(xué)習(xí)的 Actor-Critic模型也必將在FTS上得到推廣和應(yīng)用,在下文中將介紹深度學(xué)習(xí)對強(qiáng)化學(xué)習(xí)的促進(jìn)作用.
Actor-Critic模型多智能體算法近年發(fā)展迅速,Lee等人提出過Q學(xué)習(xí)多個智能體算法,它主要用多個智能體執(zhí)行不同環(huán)節(jié)的任務(wù).這類算法存在兩個問題.
(1) 這種方法無法解決強(qiáng)化學(xué)習(xí)運算效率低的難題,無法利用多核CPU和分布式計算;
(2) 無法解決金融數(shù)據(jù)序列時間上強(qiáng)相關(guān)的問題.
神經(jīng)網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的最主要原因是數(shù)據(jù)存在著較強(qiáng)的時間相關(guān)性,且不滿足獨立同分布的條件.DQN[53,54]和 DDPG[55]方法都利用經(jīng)驗回放的技巧打破數(shù)據(jù)之間的相關(guān)性,然而,在經(jīng)驗回放之外的一種方法是異步方法.
A3C[56]便是主流的異步方法,全稱為異步優(yōu)勢動作評價算法(asynchronous advantage actor-critic),源于Actor-Critic算法,訓(xùn)練時利用多個線程而非單線程.每個線程相當(dāng)于一個智能體在隨機(jī)探索,多個智能體共同探索,并行計算策略梯度,維持一個總的更新量.相比于經(jīng)驗回放,這種方式同樣能讓數(shù)據(jù)實現(xiàn)獨立同分布,并且可以利用CPU多核實現(xiàn)分布計算,提升訓(xùn)練的速度.因此,基于A3C異步策略算法構(gòu)建的FTS將具有廣闊的應(yīng)用前景.
2006年,Hinton等人在Science期刊上提出了基于深度信任網(wǎng)(deep belief network,簡稱DBN)的非監(jiān)督訓(xùn)練算法,實現(xiàn)了深度學(xué)習(xí)(deep learning,簡稱DL)的重大突破[12].目前,已經(jīng)在圖像分析[57,58]、語音識別[59,60]、自然語言處理[61,62]、視頻分類[63]等領(lǐng)域取得了令人矚目的成就.DL的基本思想是:通過多層網(wǎng)絡(luò)結(jié)構(gòu)和非線性變化組合低層特征,形成抽象的、易于區(qū)分的高層表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[64].因此,DL方法側(cè)重于對事物的深層特征提取,而強(qiáng)化學(xué)習(xí)側(cè)重于提出解決問題的策略.隨著社會的飛速發(fā)展,在復(fù)雜問題中,利用DL自動學(xué)習(xí)大規(guī)模輸入數(shù)據(jù)的抽象特征,并以此表征進(jìn)行自我訓(xùn)練的RL,已成為解決問題的策略.Deep Mind團(tuán)隊創(chuàng)新性地將具有感知能力的DL和具有決策能力的RL相結(jié)合,形成了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,簡稱DRL).
由第1.1節(jié)可知,早在2003年,Gold等人就嘗試使用多層神經(jīng)網(wǎng)絡(luò)替代經(jīng)典RRL中的單層神經(jīng)網(wǎng)絡(luò),但是多層網(wǎng)絡(luò)容易發(fā)生過擬合現(xiàn)象,效果提升有限[10].在后來的FTS系統(tǒng)構(gòu)建中,學(xué)者們也嘗試使用多層神經(jīng)網(wǎng)絡(luò)替代單層神經(jīng)網(wǎng)絡(luò).Bertoluzzo等人提出的用多層感知機(jī)替代單層神經(jīng)網(wǎng)絡(luò)的FTS,但是并未證明多層神經(jīng)網(wǎng)絡(luò)優(yōu)于單層神經(jīng)網(wǎng)絡(luò)[23].此后,學(xué)者們并沒有放棄將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在RRL之中.
上述問題的難點在于,金融交易中始終存在兩個問題.
(1) 財務(wù)數(shù)據(jù)包含大量的噪音,這種不確定性導(dǎo)致時間序列高度不穩(wěn)定.因此,能否從數(shù)據(jù)中直接獲得特征一直是研究的目標(biāo);
(2) 動態(tài)交易的執(zhí)行問題.強(qiáng)化學(xué)習(xí)是通過連續(xù)性操作獲得回報,即使有一套穩(wěn)定的策略,也會因為頻繁交易帶來巨大的交易成本,這反而對實際利潤沒有貢獻(xiàn).
基于以上原因,需要把當(dāng)前的市場條件同先前的交易動作相結(jié)合,用前一個時刻的多空操作和持倉數(shù)量來決定當(dāng)前的操作.雖然RRL也具備這樣的能力,但要想在更長的時間段中運行,交易模型需要具有一定的記憶能力.與此同時,在模型融入記憶力的設(shè)置中不能增加額外的復(fù)雜性,避免忘記過去的訓(xùn)練成果.2017年,Deng等人提出了一種結(jié)合模糊學(xué)習(xí)(fuzzy learning)、DNN、RRL的FTS系統(tǒng),稱為FRDNN[65.與文獻(xiàn)[24,51]類似,文獻(xiàn)[65]首先使用模糊學(xué)習(xí)減少數(shù)據(jù)的不確定性;其次,使用DNN對數(shù)據(jù)進(jìn)行降噪和特征提取,通過范數(shù)正則化、數(shù)據(jù)增強(qiáng)、Dropout、自編碼器預(yù)訓(xùn)練及 CNN權(quán)值共享等方式解決多層神經(jīng)網(wǎng)絡(luò)過擬合問題,將處理過的數(shù)據(jù)交給RRL;最后,進(jìn)行交易行為選擇.從前面的文獻(xiàn)中可以了解到:RRL強(qiáng)于自適應(yīng)性,弱于特征提取.因此,通過加入模糊學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)可以整體提升原始模型的能力,公式(1)變化為如下公式(38)和公式(39):
u(·)代表模糊學(xué)習(xí)函數(shù)解決金融數(shù)據(jù)的不確定性問題,gd(·)代表DNN用來解決特征提取不充分和缺少記憶能力的問題,通過DNN將u(rj)映射為更深層次的向量,結(jié)構(gòu)如圖9所示.
Fig.9 FRDNN framework圖9 FRDNN結(jié)構(gòu)
在圖9中,Fuzz Repre代表模糊學(xué)習(xí)模塊;而Deep Trans則代表使DNN的特征提取模塊;W代表代表wM+1Ft-1;UT同于公式(4)的pT,代表時間T內(nèi)的累計期望,即最大收益.Deng分別在滬深300的期貨交易數(shù)據(jù)和白銀、白糖的商品期貨分鐘級別的高頻數(shù)據(jù)上進(jìn)行測試.實驗結(jié)果表明,FRDNN的收益極高,RRL模型在某些交易上虧損非常嚴(yán)重.FRDNN還與預(yù)測型DNN做了對比實驗,分別使用CNN,RNN,LSTM在無交易成本時,DNN模型的收益同F(xiàn)RDNN不相上下,一旦交易成本上升,DNN模型的盈利能力迅速下降.可見:不能只注重模型預(yù)測能力,忽略交易成本,頻繁交易的獲利會被巨大的交易成本所吞沒.這也進(jìn)一步證明了 FRDNN模型的合理性.同時,Deng的實驗中還對比了最高累計總利潤和最高夏普比率分別作為目標(biāo)函數(shù)時的收益情況.顯而易見,最高夏普比率的模型收益明顯要高,特別是在市場進(jìn)入下行軌道時.
同樣在 2017年,Lu等人發(fā)現(xiàn),在文獻(xiàn)[65]中使用 DNN作為特征提取時常出現(xiàn)梯度消散問題,因此采用LSTM替換上述DNN[66],并加入了Dropout技術(shù)來調(diào)試LSTM避免過擬合.Lu在美元兌英鎊的外匯交易數(shù)據(jù)上測試:首先,作者觀察到公式(1)中的閾值v對交易頻率和策略的影響,當(dāng)v逐漸增大時,交易頻率下降;之后,使用LSTM進(jìn)行特征提取,并加入市場下行信號;最后,嘗試使用下降偏差比率代替夏普比率作為損失函數(shù).這些操作的結(jié)果都證明:在市場下行時,通過精確的做空,依然可以取得較高的交易利潤.
文獻(xiàn)[65,66]中可以看到:深度強(qiáng)化學(xué)習(xí)的算法應(yīng)用在特征提取上,可以依靠確定性策略直接從采樣特征中找尋下一次操作[67].無模型的策略搜索可以分為隨機(jī)策略搜索方法和確定性策略搜索方法.2014年以前,學(xué)者們都在發(fā)展隨機(jī)策略搜索方法,直到2014年,Silver提出了確定性策略理論[67].確定性策略意味著在應(yīng)用策略函數(shù)πθ時,在狀態(tài)st下,下一步的動作a是確定的,即a=πθ(st).隨機(jī)策略中,即使在相同的狀態(tài),每次采用的動作也很可能不一樣.當(dāng)然,當(dāng)采用高斯策略的時候,相同的策略在同一個狀態(tài)處,采樣動作差別不大.確定性策略不需要像隨機(jī)策略一樣在空間進(jìn)行大量采樣.通常來說,確定性策略方法的效率比隨機(jī)策略方法高 10倍,這也是確定性策略方法最主要的優(yōu)點.
2017年,Jiang等人將深度學(xué)和確定性策略應(yīng)用在加密貨幣的投資組合中,通過將資金不斷分配到不同的加密貨幣,獲得更大累計收益[68].該系統(tǒng)包括獨立評估集合(ensemble of identical independent evaluators,簡稱EIIE)、投資組合內(nèi)存(portfolio-vector memory,簡稱PVM)、在線隨機(jī)批量學(xué)習(xí)(online stochastic batch learning,簡稱OSBL)和針對即時獎勵的獎勵函數(shù).
Jiang等人重新設(shè)計了Actor-Critic方法的狀態(tài)、回報和動作,Actor使用確定性策略梯度實現(xiàn),Actor的交易動作定義為下一個時間段t下各類資產(chǎn)分配的權(quán)重數(shù)值,用矢量wt={x1,…,xi}表示,xi的和為1,見公式(40).
狀態(tài)st則由當(dāng)前時刻的價格張量Xt(由最高價、最低價、收盤價組成)和前一時刻的資產(chǎn)分配權(quán)重wt-1組成,見公式(41).
回報則用收益率的對數(shù)回報率表示.Jiang采用深度神經(jīng)網(wǎng)絡(luò)作為確定性策略梯度函數(shù)πθ,并測試了 CNN,RNN,LSTM這3個模型.例如,用 CNN模型對輸入特征(Xt,wt-1)進(jìn)行采樣,直接用softmax層的輸出作為權(quán)重分配值wt-1,而在通常的分類任務(wù)中,常取softmax的最大值作為分類答案.同時,在訓(xùn)練過程中,依靠投資組合內(nèi)存(portfolio-vector memory,簡稱PVM)和小批量訓(xùn)練這兩種機(jī)制進(jìn)行訓(xùn)練.PVM與強(qiáng)化學(xué)習(xí)的DQN經(jīng)驗回放機(jī)制非常相似:首先,通過引入外部存儲機(jī)制,存儲數(shù)據(jù)不斷加入到訓(xùn)練數(shù)據(jù)中,使得訓(xùn)練數(shù)據(jù)盡量滿足均衡分布,避免過擬合;然后,用小批量數(shù)據(jù)訓(xùn)練,每個批次內(nèi)的數(shù)據(jù)必須是完整時間序列.對神經(jīng)網(wǎng)絡(luò)訓(xùn)練而言,即使它們具有顯著重疊的間隔,不同時期的數(shù)據(jù)依然被認(rèn)為是獨特而有效的.這個系統(tǒng)依托在線隨機(jī)批量學(xué)習(xí)方式,可以直接應(yīng)用到在線上項目.在模型對比中,CNN,RNN和LSTM占據(jù)了前三名,在比特幣的虛擬交易中,即便在傭金率高達(dá)0.25%的情況下,該系統(tǒng)仍然能夠在50天內(nèi)使收益增長為原來的4倍.
綜上所述,深度強(qiáng)化學(xué)習(xí)在金融交易系統(tǒng)中的應(yīng)用已經(jīng)越來越多.隨著深度強(qiáng)化學(xué)習(xí)在2014年后的強(qiáng)勢興起,帶動了新一輪研究熱潮.從模型結(jié)構(gòu)上看,深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的結(jié)合方式多種多樣,在不同的應(yīng)用領(lǐng)域各有優(yōu)勢:在單資產(chǎn)投資中,借助深度學(xué)習(xí)提取特征的RRL學(xué)習(xí)方法有效性依然很高,依托不同的目標(biāo)函數(shù)應(yīng)對不同的市場風(fēng)格變化;而在資產(chǎn)組合交易中,基于策略搜索的深度強(qiáng)化學(xué)習(xí)方法顯得更加靈活,狀態(tài)和動作設(shè)計也不受模型局限.
本文綜述了強(qiáng)化學(xué)習(xí)在金融交易領(lǐng)域的應(yīng)用進(jìn)展情況,包括RRL、Q學(xué)習(xí)、Actor-Critic、A3C算法和結(jié)合深度神經(jīng)網(wǎng)絡(luò)的各類強(qiáng)化學(xué)習(xí)算法;以及依托強(qiáng)化學(xué)習(xí)構(gòu)建的各類金融交易系統(tǒng),在股票、指數(shù)、期貨、投資組合、虛擬貨幣等交易領(lǐng)域的應(yīng)用,基于強(qiáng)化學(xué)習(xí)的各類金融交易系統(tǒng)在風(fēng)險控制、交易進(jìn)出場時機(jī)、資金管理等方面都取得了突破.
基于強(qiáng)化學(xué)習(xí)將促進(jìn)自動交易系統(tǒng)的進(jìn)一步發(fā)展,可預(yù)見的趨勢至少有兩個方面.
(1) 經(jīng)典的RRL模型將繼續(xù)發(fā)展,但是RRL基于循環(huán)的自適應(yīng)框架將會得到保留.在目標(biāo)函數(shù)的選擇上將變得更加靈活多樣,在金融資產(chǎn)序列的特征提取上將更多地采用深度學(xué)習(xí)模型;
(2) 隨著 A3C算法的進(jìn)一步發(fā)展,產(chǎn)業(yè)界與學(xué)術(shù)界將目光投向多智能體并行處理的方式,A3C是在策略(on policy)算法,效果、時間和資源消耗上都優(yōu)于DQN和DDPG,它的應(yīng)用有望部分解決強(qiáng)化學(xué)習(xí)策略受到的限制.
本文認(rèn)為,上述研究中仍然存在著亟待解決的問題.
(1) 金融市場具有不穩(wěn)定性,趨勢實時變化.從歷史的訓(xùn)練數(shù)據(jù)中學(xué)到的知識可能不會在后續(xù)測試數(shù)據(jù)中有良好的效果,這對強(qiáng)化學(xué)習(xí)模型的適應(yīng)性提出了更高的要求,不同市場條件下如何選擇合適的強(qiáng)化學(xué)習(xí)模型和深度學(xué)習(xí)模型仍然是一個懸而未決的問題;
(2) 構(gòu)建基于強(qiáng)化學(xué)習(xí)的交易軟件或系統(tǒng).通常,一種算法不能解決全部問題,針對不同的市場情況,需要設(shè)置不同的配置模塊.風(fēng)險層、策略輪動層、自適應(yīng)層等層次結(jié)構(gòu)的設(shè)計至今沒有統(tǒng)一解決方案,業(yè)界仍然在探索中;
(3) 大部分強(qiáng)化學(xué)習(xí)模型系統(tǒng)都是專攻某一類金融交易,單純地做多、做空或空倉觀望等,投資組合方式也僅是對各類金融資產(chǎn)的權(quán)重進(jìn)行重新分配.但是,如股票中性、期貨中性等策略需要對多種資產(chǎn)同時進(jìn)行復(fù)雜的多空對沖操作時,仍缺少充分的研究;
(4) 強(qiáng)化學(xué)習(xí)領(lǐng)域最近提出了確定性策略和蒙特卡羅樹搜索結(jié)合的算法,并應(yīng)用于圍棋領(lǐng)域[69],獲得了突破.如何將蒙特卡羅樹搜索策略應(yīng)用在交易系統(tǒng)中,值得深入研究.
最后還要強(qiáng)調(diào),深入研究強(qiáng)化學(xué)習(xí)理論、完善金融交易系統(tǒng)的組成結(jié)構(gòu)、在提高交易的利潤的同時降低交易風(fēng)險,這是基于強(qiáng)化學(xué)習(xí)的金融交易系統(tǒng)研究的核心問題.