高建宇
摘要:文章參考當前流行的量化擇時模型,基于多種機器學習方法,對技術(shù)分析中常用的多技術(shù)指標建模,用于研究證券價格波動與多種技術(shù)指標之間的關(guān)系,以此作為量化擇時信號用于量化交易。研究結(jié)果表明:機器學習擇時模型的預測精度和回溯精度差異不大;在模擬交易中,相較于買入并長期持有的情況,文章兩種量化擇時模型在實盤交易中均取得較高收益率;特別是在證券價格波動較大時能取得更好的交易收益。
關(guān)鍵詞:機器學習;技術(shù)指標;擇時模型;量化投資
一、引言
2017年3月31日我國第一個商品期貨期權(quán)產(chǎn)品,豆粕期權(quán)的上市標志著我國金融衍生品市場步入商品期權(quán)新時代。自1992年上交所推出了我國第一個金融衍生工具——國債期貨后,歷經(jīng)25年發(fā)展我國金融市場規(guī)模不斷擴大,金融衍生工具也日漸豐富,其投資策略和盈利模式相較于傳統(tǒng)方式發(fā)生根本性改變。量化交易這種為追求絕對化收益為目的投資方式,引起了越來越多機構(gòu)投資者和普通投資者的關(guān)注。在2016年的震蕩下挫的市場中許多量化型基金依然保持了較好的收益,其中長信量化先鋒以年收益22.04%位居量化基金榜首,相較于-12.3%收益率的上證指數(shù),其相對收益達到34.34%,遠超大部分非量化型基金。放眼未來投資,隨著市場數(shù)據(jù)有效性的提升,專注于數(shù)據(jù)分析和信息處理的量化投資,將隨著市場有效性的提升將進入發(fā)展的黃金時期。
本文在參考了當前流行的趨勢擇時、市場情緒擇時、有效資金模型、牛熊線、GSISI、ARFIMA等量化擇時模型基礎(chǔ)上,使用機器學習方法,通過使用多種技術(shù)指標建立擇時模模,在擇時指標選取方面做出積極的探索。該項研究在證券實盤交易的應用上具有較高的實踐與借鑒價值。
二、數(shù)據(jù)處理
本文使用的50ETF數(shù)據(jù)通過同花順股票軟件,選取了50ETF(價格不復權(quán))上市之日2005年5月23日到2017年5月31日時間段數(shù)據(jù),時間跨度長達12年。并選用50ETF的開盤價、最高價、最低價、收盤價、成交量、漲幅和調(diào)整的收盤價等日成交數(shù)據(jù)用于計算趨勢型、超買超賣型、人氣型和大勢型指標,本數(shù)據(jù)共23872個數(shù)據(jù),數(shù)據(jù)不存在缺失。本文所有計算結(jié)果均在R軟件3.3.1版本上計算完成。
(一)建立T指標
假設(shè)在價格變動超過P%時,即獲利超過交易費用,是值得交易的。在這樣的假設(shè)下,預測模型在未來K天中是否能夠獲得這個邊際利潤。則需要預測的是在未來k天中價格總的動態(tài)變化,而不是沒有特定時間的特定價格,即未來k天的總體價格趨勢。同時需要一個指標值與k天能夠獲得P%的價格變化息息相關(guān)。其中P%的變化是指高于或者低于目前的價格,正的變化將導致買入,負的變換將導致賣出。因此需要找到一個單一的值作為指標趨勢值,向上的趨勢可以用正值表示,向下的趨勢可以用負值表示。
設(shè)Pi為每天的平均價格:
(1)式中,Ci表示第i天的收盤價、Hi表示第i天的最高價及Li表示第i天的最低價。設(shè)Vi表示未來k天的平均價格相對當天收盤價格的百分比。
設(shè)指標變量為T,為動態(tài)變化絕對值超過目標收益p%的變化進行累加:
本文先選取任意參數(shù)來說明指標T的性質(zhì),見圖1。
通過改變T指標中的兩個主要參數(shù)(預測漲幅和預測期)繪制成價格波動圖,結(jié)合T指標性質(zhì)可知:在主要上升階段和下降階段(價格大幅運動階段),無論兩組參數(shù)如何變化,指標T均能較好地刻畫價格的大幅度波動過程;當預測期一定時,預測漲幅越低,指標T波動越頻繁,對價格波動反應越靈敏;預測漲幅越高,指標T波動越小,對價格波動的反應越遲鈍;當預測漲幅一定時,指標T的值對預測期不敏感,預測期的變化對指標T的波動影響較小,有時甚至不明顯。
(二)構(gòu)建用于量化的數(shù)據(jù)集
本文使用隨機森林來篩選對T指標有重要影響的技術(shù)性指標,并建立新的包含技術(shù)指標和指標T數(shù)據(jù)集。結(jié)合原始數(shù)據(jù)計算出常見的趨勢型、超買超賣型、人氣型和大勢型等指標,一般包括有ATR(平均真實范圍)、SMI(隨機動量指數(shù))、 ADX(定向運動指數(shù))、EMV(阿姆式簡易波動指數(shù))、MACD(平滑異同移動平均線)等30個技術(shù)指標。本文以2005年2月23日至2015年6月3日數(shù)據(jù)為訓練數(shù)據(jù)集,以2015年6月4日至2017年2月23日的數(shù)據(jù)為測試數(shù)據(jù)集用于說明模型預測效果①。
三、模型建立與分析
(一)多元自適應回歸樣條擇時模型
MARS方法通過樣條函數(shù)模擬復雜的非線性關(guān)系,將整個非線性模型劃分為幾個特定的區(qū)域,并通過對每個特定區(qū)域進行線性回歸線擬合。 MARS模型被定義為:
式子(4)中y^是因變量的預測值;a0是參數(shù);am是第m個樣條函數(shù)的系數(shù);Sm(x)是第m個樣條函數(shù);模型中包含的樣條函數(shù)的數(shù)量為M;區(qū)域之間的線性回歸交點成為節(jié)點,節(jié)點數(shù)為km;Skm值為1或-1,表示樣條函數(shù)的右側(cè)或左側(cè);v(k,m)標識獨立自變量;tkm標識節(jié)點的位置。
每個基函數(shù)表示因變量的給定區(qū)域,MARS的基函數(shù)是單一樣條函數(shù)或兩個及以上的樣條函數(shù)的交互結(jié)果。下列兩式的樣條函數(shù)分別定義為:
上式中:t為節(jié)點的位置;x-t 和t -x為描述給定t時(5)和(6)的樣條函數(shù);“+”對于負值取0。
MARS模型構(gòu)建算法包括三個基本功能的選擇過程:前向逐步選擇基函數(shù)、剪枝過程和確定最優(yōu)模型。 在第一個過程中,通常給出基本函數(shù)數(shù)量的最大值M和交互的基本函數(shù)的最大量N,M一般是自變量個數(shù)的2倍,并且N根據(jù)用戶的期望來確定。 剪枝過程基于廣義交互驗證(GCV)標準,當該值達到最小值時,相應的預測模型是最佳模型。
式子(7)中:M(λ)為模型的有效參個數(shù); f^■為每個步驟估計的最佳模型;λ為模型中的項的數(shù)量;N為基函數(shù)的數(shù)量。
(二)SVM擇時模型
假設(shè)一個非線性映射p,將所持有的樣本空間通過p映射到一個高維甚至無窮維數(shù)的特征空間(即Hilbert空間)中,將原來所持有的樣本空間中的非線性可分的問題可轉(zhuǎn)化為映射后的特征空間中的線性可分的問題。在SVM模型中,對于升維或是線性化帶來的計算復雜化的問題,應用核函數(shù)展開定理:
假設(shè)非線性映射p將保持的樣本空間映射到高維甚至無限維的特征空間(即希爾伯特空間),使得原始樣本空間中的非線性可分問題可以成為映射后的特征空間中的線性可分問題。在SVM模型中,核函數(shù)擴展定理被應用于由維度或線性化引起的計算復雜度問題。
設(shè)x,z∈X,X∈R(n)空間,非線性函數(shù)Φ實現(xiàn)輸入空間X到特征空間F的映射,其中F∈R(m),n?塏m。根據(jù)核函數(shù)技術(shù)有:K(x,z)=<Φ(x),Φ(z)>,其中:<a,b>為內(nèi)積,K(x,z)為核函數(shù)。
則不需要知道非線性映射的顯式表達式,在一定程度上解決了計算復雜化的問題。這時只需要知道,局部性核函數(shù)僅僅在測試點附近小領(lǐng)域內(nèi)對數(shù)據(jù)點有影響,其學習能力強、泛化性能較弱;而全局性核函數(shù)則相對來說泛化性能較強、學習能力較弱。SVM是基于結(jié)構(gòu)風險最小化理論,在特征空間中構(gòu)建最優(yōu)超平面,從而使學習者得到全局最優(yōu)化,整個樣本空間的期望滿足一定的上限。
上述兩個擇時模型參數(shù)選取過程較為繁瑣,其過程可向作者索取,這里僅列出結(jié)果。一般情況下,回溯精度的大小不會對交易產(chǎn)生較大影響,回溯精度較小意味著失去交易機會,不會帶來成本的損失,但是預測精度的大小則會影響交易信號的準確性,從而直接影響交易的盈虧。分析表1的結(jié)果,多元自適應回歸樣條的賣出回溯精度較好,買入回溯精度較差,買入、賣出和決策方面的預測精度都大致相同約為55%。
首先,SVM的結(jié)果相較于回歸樣條的結(jié)果在賣出和決策方面預測精度和回溯精度都有一定程度上的提高;其次,SVM的結(jié)果除了在買入的回溯精度上沒有明顯改善外,甚至出現(xiàn)了略微降低,其他方面的精度大致相當;最后,綜合比較可知,支持向量機的預測性能相較回歸樣條的預測性能有一定程度的改善。
綜合上述兩種擇時模型的結(jié)果:兩個模型的賣出回溯精度均較好,買入回溯精度均較低;總體上,多元自適應回歸樣條和SVM模型的預測結(jié)果基本一致。
四、盈虧狀況評估
本文“追漲”策略編寫交易程序①,本文選取任意4組參數(shù)(exp.prof和bet)來分別簡單說明個兩個擇時模型的實盤模擬交易結(jié)果,如表2所示。
首先,在兩個模型交易結(jié)果中均有如下結(jié)論:在當前持倉期望收益率一定時,投資方式的不同對最終收益率的大小和最大貨幣損失有明顯影響;當投資方式一定時,當前持倉期望收益率對最終收益率大小和最大貨幣損失沒有明顯影響;交易次數(shù)、盈利交易次數(shù)、盈利交易百分、夏普比率、平均收益、平均損失、最大收益和最大損失等不隨參數(shù)的變化而變化。其次,分模型看:在最終收益率方面,多元自適應回歸樣條模型的收益明顯高于SVM模型;兩個模型的交易勝率大致相同。最后,比較兩個模型的夏普比率來說明交易的優(yōu)劣。夏普比率=實際回報率/回報率的標準差,一般認為夏普比率越大,就說明獲得同樣投資收益率的波動性比較小,也意味著投資回報率的可復制性也越高,多元自適應回歸樣條模型的夏普比率相對較高,說明多元自適應回歸樣條的投資收益回報率相較于SVM擇時模型有較好的復制性。
五、結(jié)語
本文基于機器學習方法建立了一個多技術(shù)指標的量化擇時模型,通過研究發(fā)現(xiàn):兩種數(shù)據(jù)挖掘方法在量化擇時研究上差別不大,多元自適應回歸樣條和SVM模型的預測效果基本一致;在模擬交易中,量化擇時模型取得的收益率均高于買入并持有50ETF策略下收益率;量化擇時模型在證券價格波動較大時能取得比證券價格波動較小時更好的交易效果;從模擬交易的結(jié)果來看,多技術(shù)指標量化擇時模型在實盤交易中具有較高的實踐價值。
參考文獻:
[1]Torgo,L.ParticalLinearTrees.In Langley,P.,Editor,Proceedings of the 17th International Conference on Machine Learning[M].Morgan Kaufmann,2000:1007-1014.
[2]Hahne,F(xiàn).,Huber,M.DataMining:Concepts and Techniques(2nd edition)[M].Morgan Kaufmann Publishers,2006.
[3]Hornil K,BUchta C,Zeileis A.Open-source Machine Learning:R meets Weks[J].Compurarional Statistics,2009:24(2):225-232.
[4]Weiss,G.and F.Provost.Learning When Training Data Are Costly:The Effect of Class Distribution on Tree Induction[M].Journal of Artificial Intelligence Research,2003:315-354.
[5]Gama,J.and Gaber,M.,Editors.Learning from Data Streams[M].Springer,2007.
[6]Drummond C.and Holte R.Cost Curves:An Improved Method for Visualizing Classifier Performance[M].Machine Learning,2006:65(01):95-130.
[7]Weihs G.and U,Luebke K,and Raabe N.klar analyzing German business cycle.In Baier,D.,Decker,R.,and Schmide-Thieme, L.,Editors,Data Analysis and Decision Support[M].Springer-Verlag,2005:335-343.
[8]Zeileis A.and Grothendieck G.zoo: S3 infranstructure for regular and irregular time series[J].Journal of Statistical Software, 2005:14(06):1-27.
[9]Trapletti A.and Hornik K.tseries: Time Series Analysis and Computational Finance[R].R package version,2009.
[10]Milborrow S.Earth:Multivariate Adaptive Regression Spline Models,derived from mda: mars by Trevor Hastie and Rob Tibshirai[R].R package version,2009.
[11]Smola A.and Scholkopf B.A Tutorial on Support Vector Regression[J].Statistics and Computing,2004(14):199-222.
[12]Ylimaz K.,Return and volatility spillovers among the east asian equitymarkets[J].Journal of Asian Economics,2010,21(03):304-313.
[13]Ulrich J.TTR:Technical Trading Rules[R].R package version,2009.
(作者單位:大連理工大學經(jīng)濟管理學院企業(yè)管理研究所)