• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx

      基于強(qiáng)化學(xué)習(xí)的金融交易系統(tǒng)

      2018-02-24 13:55傅聰郝泳濤
      電腦知識(shí)與技術(shù) 2018年34期
      關(guān)鍵詞:交易系統(tǒng)時(shí)間序列

      傅聰 郝泳濤

      摘要:強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是解決序列化決策問(wèn)題的途徑之一,其在圍棋、電子游戲、物理控制等確定環(huán)境下解決問(wèn)題的能力已經(jīng)得到證明。該文將強(qiáng)化學(xué)習(xí)應(yīng)用到自動(dòng)交易系統(tǒng)(Automated Trading System)的設(shè)計(jì)中,通過(guò)實(shí)驗(yàn)討論了強(qiáng)化學(xué)習(xí)方法在混沌、動(dòng)態(tài)環(huán)境下的表現(xiàn),為自動(dòng)交易系統(tǒng)的設(shè)計(jì)提出新的可能。不同于傳統(tǒng)自動(dòng)交易系統(tǒng)分別設(shè)計(jì)預(yù)測(cè)算法與策略算法的做法,基于強(qiáng)化學(xué)習(xí)的算法將兩者合二為一,簡(jiǎn)化了設(shè)計(jì)步驟。該文第1章簡(jiǎn)述了強(qiáng)化學(xué)習(xí)發(fā)展現(xiàn)狀;第2章闡述了金融交易問(wèn)題的建模方法;第3章中通過(guò)實(shí)驗(yàn),討論了策略梯度算法與特征編碼方式(RNN、CNN)在處理金融時(shí)序數(shù)據(jù)時(shí)的優(yōu)劣。實(shí)驗(yàn)表明,使用RNN編碼特征的方法有比較好的短期效果。最后,第4章總結(jié)了使用強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)交易系統(tǒng)的優(yōu)勢(shì)與劣勢(shì)。

      關(guān)鍵詞: 強(qiáng)化學(xué)習(xí); 交易系統(tǒng); 時(shí)間序列; 梯度下降

      中圖分類號(hào):TP18? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2018)34-0172-04

      1 引言

      1.1 強(qiáng)化學(xué)習(xí)

      隨著AlphaGo[1]的成功,強(qiáng)化學(xué)習(xí)受到的關(guān)注日益增加,并被視為強(qiáng)人工智能的實(shí)現(xiàn)途徑之一。作為機(jī)器學(xué)習(xí)的分支領(lǐng)域,強(qiáng)化學(xué)習(xí)基于Markov理論[2],其思想是模擬智能體在與環(huán)境交互中學(xué)習(xí)的過(guò)程,非常適合處理序列化決策問(wèn)題。

      近年來(lái),隨著深度學(xué)習(xí)理論與硬件處理能力的發(fā)展,不少傳統(tǒng)強(qiáng)化學(xué)習(xí)模型與深度學(xué)習(xí)理論相結(jié)合,使其能夠處理的問(wèn)題規(guī)模大大增加。例如經(jīng)典的Q-Learning,在與神經(jīng)網(wǎng)絡(luò)結(jié)合之后,Deep Q Network算法(DQN)[3]在相當(dāng)一部分Atari游戲中的表現(xiàn)超過(guò)了人類玩家。文獻(xiàn)[4]證明了訓(xùn)練過(guò)程中最大化收益的過(guò)程就是沿著“策略梯度”優(yōu)化參數(shù)的過(guò)程,基于這個(gè)理論的策略梯度算法在許多方面得到了成功應(yīng)用。此外,與對(duì)抗網(wǎng)絡(luò)(GAN)非常相似的演員-評(píng)論家(Actor-Critic)模型也是研究熱點(diǎn)之一,該強(qiáng)化學(xué)習(xí)模型在學(xué)習(xí)過(guò)程中同時(shí)訓(xùn)練Actor與Critic兩個(gè)網(wǎng)絡(luò),由Actor網(wǎng)絡(luò)提出執(zhí)行的動(dòng)作,由Critic網(wǎng)絡(luò)評(píng)估動(dòng)作可能獲得的收益,以此在交互過(guò)程中尋求最大收益。但是,由于AC模型的參數(shù)量的大,訓(xùn)練收斂速度不能得到保證,因此不少研究以加快AC模型的收斂速度為目標(biāo),例如文獻(xiàn)[4],提出了目標(biāo)網(wǎng)絡(luò)技術(shù),提高訓(xùn)練穩(wěn)定性與收斂速度。

      除了基礎(chǔ)理論與訓(xùn)練技巧,不少研究著重于使用強(qiáng)化學(xué)習(xí)解決實(shí)際問(wèn)題。文獻(xiàn)[5]使用AC模型,設(shè)計(jì)了水下機(jī)器人的自治控制算法;文獻(xiàn)[6]研究了DQN在連續(xù)控制問(wèn)題上的應(yīng)用,為機(jī)器人連續(xù)控制問(wèn)題提出了新的研究方向。強(qiáng)化學(xué)習(xí)在金融問(wèn)題的應(yīng)用也有一定的研究[7]闡述了強(qiáng)化學(xué)習(xí)主要算法應(yīng)用到交易問(wèn)題時(shí)需要做出的調(diào)整。文獻(xiàn)[8]以DQN為基礎(chǔ),構(gòu)造了Buy/Sell,Signal/Order 4個(gè)agent,設(shè)計(jì)交易系統(tǒng),其在1999.1-2000.12的約30000個(gè)價(jià)格數(shù)據(jù)上訓(xùn)練,在2001.1-2005.12時(shí)間段內(nèi)獲得了最大約1138%的增長(zhǎng)。

      1.2 自動(dòng)交易系統(tǒng)

      交易過(guò)程可以看作一個(gè)序列化決策問(wèn)題。在研究中,諸如股價(jià)、交易量等金融數(shù)據(jù)往往被研究者建模為時(shí)間序列,進(jìn)而以統(tǒng)計(jì)分析、博弈論等方法為基礎(chǔ),分別設(shè)計(jì)自動(dòng)交易系統(tǒng)的各個(gè)模塊。交易系統(tǒng)的設(shè)計(jì)過(guò)程與各個(gè)模塊如圖1所示。據(jù)文獻(xiàn)[9]所述,預(yù)測(cè)與決策是交易系統(tǒng)的兩大主要組成部分,現(xiàn)有的研究大都只著眼于預(yù)測(cè)或者策略部分,少有將預(yù)測(cè)與交易策略結(jié)合在一起的研究。

      本文將強(qiáng)化學(xué)習(xí)理論應(yīng)用到交易系統(tǒng)的設(shè)計(jì)中,基于策略梯度算法設(shè)計(jì)了自動(dòng)交易系統(tǒng),并通過(guò)實(shí)驗(yàn)展示了交易系統(tǒng)的效果,同時(shí)比較了不同特征編碼方式對(duì)于交易系統(tǒng)的影響,為交易系統(tǒng)的設(shè)計(jì)與研究提出新的可能。

      3 實(shí)驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)

      實(shí)驗(yàn)主要使用上證指數(shù)000300自2017.01.01-2017.12.31分鐘級(jí)別收盤(pán)價(jià),共58560個(gè)數(shù)據(jù)點(diǎn)作為實(shí)驗(yàn)數(shù)據(jù)(圖3),挑選了前15000個(gè)數(shù)據(jù)點(diǎn)作為訓(xùn)練數(shù)據(jù)接下來(lái)的5000個(gè)數(shù)據(jù)點(diǎn)作為測(cè)試數(shù)據(jù)(圖4)。

      3.2 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)使用的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,layer1、2、3為3個(gè)全連接層,節(jié)點(diǎn)個(gè)數(shù)為128,64,32,數(shù)據(jù)經(jīng)過(guò)正則化,選區(qū)當(dāng)前時(shí)刻前45分鐘,以及前3小時(shí)、5小時(shí)、1天、3天、10天的共50個(gè)數(shù)據(jù)點(diǎn)做為特征。不同于其他問(wèn)題,交易環(huán)境是動(dòng)態(tài)、不固定的,比起通常的網(wǎng)絡(luò)訓(xùn)練,由于金融環(huán)境的動(dòng)態(tài)性,訓(xùn)練過(guò)程極易發(fā)生過(guò)擬合現(xiàn)象。如圖6所示,在訓(xùn)練數(shù)據(jù)上,經(jīng)過(guò)2k次迭代后獲得了800%的收益,而在測(cè)試數(shù)據(jù)上的平均收益僅為0.43%并且出現(xiàn)了相當(dāng)多的虧損情況。因此,在每個(gè)全連接層后加入了dropout,經(jīng)過(guò)10k次迭代后,訓(xùn)練數(shù)據(jù)平均收益為1136.19%,測(cè)試數(shù)據(jù)平均收益為85.87%。

      此外,訓(xùn)練中一個(gè)交易過(guò)程為15000個(gè)數(shù)據(jù)點(diǎn),上述測(cè)試只用了5000個(gè)數(shù)據(jù)點(diǎn)。圖7反映了交易時(shí)長(zhǎng)與收益的關(guān)系??梢钥闯?,當(dāng)不使用特殊編碼方式時(shí),收益隨交易時(shí)長(zhǎng)波動(dòng)較大,同時(shí)由于交易環(huán)境的不穩(wěn)定性,隨著時(shí)間偏差越大,收益越來(lái)越少。當(dāng)使用CNN編碼特征后,隨著交易時(shí)長(zhǎng)的增加,收益略微增加。并且由于其平滑了特征,波動(dòng)較小。RNN編碼特征的效果最好,雖然波動(dòng)較大,但是其注重特征的近期變化,始終著眼于特征近期的變化,環(huán)境的不穩(wěn)定性對(duì)于其影響較小,因此收益隨時(shí)間的累計(jì)效應(yīng)明顯。

      4 結(jié)論與展望

      本文基于強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)了自動(dòng)交易系統(tǒng),相比傳統(tǒng)的交易系統(tǒng)設(shè)計(jì),使用強(qiáng)化學(xué)習(xí)理論的優(yōu)勢(shì)在于簡(jiǎn)化了設(shè)計(jì),免去了耦合預(yù)測(cè)、博弈算法的煩瑣過(guò)程。此外,傳統(tǒng)預(yù)測(cè)方法在預(yù)測(cè)價(jià)格時(shí)往往需要實(shí)時(shí)計(jì)算偏、正相關(guān)因數(shù)等統(tǒng)計(jì)學(xué)特征,以確定算法的參數(shù)(例如ARMA、GARCH等算法),計(jì)算量大,耗時(shí)嚴(yán)重。而前沿強(qiáng)化學(xué)習(xí)理論與深度學(xué)習(xí)結(jié)合緊密,使得使用RNN、CNN等各類特征編碼器動(dòng)態(tài)編碼特征非常方便,減輕了人工設(shè)計(jì)特征的負(fù)擔(dān)。

      基于強(qiáng)化學(xué)習(xí)理論的交易系統(tǒng)也有不足,其缺陷主要分為以下兩類:

      一是由于強(qiáng)化學(xué)習(xí)還處在發(fā)展期,理論有待完善,能解決的問(wèn)題也有限。比如當(dāng)前后動(dòng)作有邏輯依賴時(shí)難以定義狀態(tài)-價(jià)值函數(shù),比如在交易問(wèn)題中,買(mǎi)入達(dá)到資金上限后,在賣出前不能買(mǎi)入;同理持有量為0時(shí),不能做出賣出操作。本文同大部分研究者一樣,將看漲、看平、看衰作為動(dòng)作空間的定義,以此計(jì)算值函數(shù)與收益函數(shù)。有不少文獻(xiàn)針對(duì)該問(wèn)題進(jìn)行研究,例如文獻(xiàn)[11],將三個(gè)動(dòng)作作為特征,分別訓(xùn)練另外兩個(gè)買(mǎi)入、賣出模型,使模型更加符合實(shí)際。

      另一個(gè)難點(diǎn)在于金融環(huán)境的復(fù)雜與動(dòng)態(tài)。不同時(shí)期的金融環(huán)境往往大不相同,沒(méi)有一個(gè)模型能普世地在所有時(shí)期都能盈利。因此,如何將風(fēng)險(xiǎn)控制機(jī)制加入模型中也是研究的方向之一。

      參考文獻(xiàn):

      [1] Silver D, Huang A, Maddison C J, et al. Mastering the game of Go with deep neural networks and tree search.[J]. Nature, 2016, 529(7587):484-489.

      [2] Bradtke S J, Duff M O. Reinforcement learning methods for continuous-time Markov decision problems[C]// International Conference on Neural Information Processing Systems. MIT Press, 1994:393-400.

      [3] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning.[J]. Nature, 2015, 518(7540):529.

      [4] Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]// International Conference on International Conference on Machine Learning. JMLR.org, 2014:387-395.

      [5] Cui R, Yang C, Li Y, et al. Adaptive Neural Network Control of AUVs With Control Input Nonlinearities Using Reinforcement Learning[J]. IEEE Transactions on Systems Man & Cybernetics Systems, 2017, 47(6):1019-1029.

      [6] Zhao D, Zhu Y. MEC--a near-optimal online reinforcement learning algorithm for continuous deterministic systems[J]. IEEE Transactions on Neural Networks & Learning Systems, 2015, 26(2):346-356.

      [7] Eilers D, Dunis C L, Mettenheim H J V, et al. Intelligent trading of seasonal effects: A decision support algorithm based on reinforcement learning[J]. Decision Support Systems, 2014, 64(3):100-108.

      [8] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to Q-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 2007, 37(6):864-877.

      [9] Cavalcante R C, Brasileiro R C, Souza V L F, et al. Computational Intelligence and Financial Markets: A Survey and Future Directions[J]. Expert Systems with Applications, 2016, 55(C):194-211.

      [10] Du X, Zhai J, Lv K. Algorithm trading using q-learning and recurrent reinforcement learning[J]. positions, 2016, 1: 1.

      [11] Lee J W, Park J, Jangmin O, et al. A Multiagent Approach to $ Q $-Learning for Daily Stock Trading[J]. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, 2007, 37(6): 864-877.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      交易系統(tǒng)時(shí)間序列
      山東首套ETC匝道準(zhǔn)自由流預(yù)交易系統(tǒng)正式運(yùn)行
      ETC拓展應(yīng)用場(chǎng)景下的多源異構(gòu)交易系統(tǒng)
      基于AS仿真的電子商務(wù)交易系統(tǒng)研究
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      404 Not Found

      404 Not Found


      nginx
      基隆市| 亳州市| 观塘区| 天门市| 诏安县| 巴青县| 洪雅县| 三穗县| 邹平县| 名山县| 武隆县| 龙游县| 桦南县| 邵阳县| 瓦房店市| 宁晋县| 洛扎县| 利津县| 乌苏市| 崇左市| 桓仁| 威海市| 渭源县| 阿拉尔市| 安远县| 汶川县| 巴马| 德阳市| 盖州市| 浦北县| 西乌珠穆沁旗| 三原县| 津南区| 合肥市| 周宁县| 宜宾市| 枣强县| 东城区| 舞钢市| 原平市| 庆阳市|