黃卿
【摘要】如何將機器學(xué)習(xí)方法應(yīng)用于金融投資領(lǐng)域,一直是學(xué)術(shù)界和金融界熱門的研究話題。本文將機器學(xué)習(xí)中的支持向量機方法結(jié)合Fama-Fench三因子模型,構(gòu)建了新的量化投資策略,并利用A股進(jìn)行了實證分析。研究表明,將支持向量機結(jié)合傳統(tǒng)的三因子模型可以構(gòu)建更加有效的投資組合。
【關(guān)鍵詞】機器學(xué)習(xí) 量化投資 三因子模型
一、引言
作為人工智能領(lǐng)域主要的研究方向之一,機器學(xué)習(xí)無疑最受矚目。尤其是近幾年深度學(xué)習(xí)方法在語音識別、自然語言處理、自動駕駛等方面取得了巨大的成功,使得各行各業(yè)都將機器學(xué)習(xí)方法做為重點的研究方向。特別是在金融領(lǐng)域,以機器學(xué)習(xí)為主的人工智能已經(jīng)在量化投資方面得到了廣泛的應(yīng)用。機器學(xué)習(xí)可以快速海量地進(jìn)行分析、擬合、預(yù)測,人工智能與量化交易聯(lián)系越來越緊密。如全球最大的對沖基金橋水聯(lián)合(Bridge water Asspcoates)在2013年就建立了一個基于機器學(xué)習(xí)的量化投資團(tuán)隊,該團(tuán)隊設(shè)計交易算法,利用歷史數(shù)據(jù)預(yù)測未來金融市場變化,以人工智能的方式進(jìn)行投資組合調(diào)整。日本的人工智能量化投資公司Alpaca,建立了一個基于圖像識別的機器學(xué)習(xí)技術(shù)平臺Capitalico,通過該平臺,用戶可以利用數(shù)據(jù)庫中找到外匯交易圖表進(jìn)行分析,這使得普通投資者也能知道成功的交易員是如何做出交易決策的,從他們的經(jīng)驗中學(xué)習(xí)并作出更準(zhǔn)確的交易。然而在金融領(lǐng)域,已公開的有效的預(yù)測模型是基本不存在的,因為無論是機構(gòu)投資者還是個人投資者一旦公開投資模型,也就意味著投資模型的失效。比如著名數(shù)學(xué)家西蒙斯1988年成立的文藝復(fù)興公司,就完全依靠數(shù)學(xué)模型進(jìn)行投資,公司旗下從事量化投資的大獎?wù)禄鸹貓舐室策h(yuǎn)超過其他對沖基金,然而該公司卻從不公開投資模型。雖然金融機構(gòu)很少公開如何利用機器學(xué)習(xí)來指導(dǎo)投資的研究成果,但學(xué)術(shù)界對機器學(xué)習(xí)在金融投資中的應(yīng)用的研究卻在逐漸增加。
支持向量機(support vector machines,SVM)是Vapnik 1995年提出的新的機器學(xué)習(xí)算法,該方法有很好的泛化能力,一種非常成功的機器學(xué)習(xí)方法,性能明顯優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)。在金融研究領(lǐng)域,支持向量機也是應(yīng)用最廣泛的機器學(xué)習(xí)模型。即使在國內(nèi),利用SVM方法的研究文獻(xiàn)也不少。賽英(2013)利用支持向量機(SVM)方法對股指期貨進(jìn)行預(yù)測,并用遺傳算法(GA)和粒子群算法(PSO)分別優(yōu)化四種不同核函數(shù)的支持向量機,通過大量實驗發(fā)現(xiàn),采用粒子群算法優(yōu)化的線性核函數(shù)支持向量機對股指期貨具有最好的預(yù)測效果。黃同愿(2016)通過選擇最優(yōu)的徑向基核函數(shù),再利用網(wǎng)格尋參、遺傳算法和粒子群算法對最佳核函數(shù)參數(shù)進(jìn)行對比尋優(yōu),構(gòu)建最有效的支持向量機模型,并對中國銀行未來15日的開盤價格變化趨勢進(jìn)行預(yù)測,并認(rèn)為用支持向量機來預(yù)測股票走勢是可行的。程昌品(2012)提出了一種基于二進(jìn)正交小波變換和ARIMA-SVM方法的非平穩(wěn)時間序列預(yù)測方案。用高頻數(shù)據(jù)構(gòu)建自回歸模型ARIMA進(jìn)行預(yù)測,對低頻信息則用SVM模型進(jìn)行擬合;最后將各模型的預(yù)測結(jié)果進(jìn)行疊加,并發(fā)現(xiàn)這種辦法比單一預(yù)測模型更加有效。張貴生(2016)提出了一種新的SVM-GARCH預(yù)測模型,通過實驗發(fā)現(xiàn)該模型在時間序列數(shù)據(jù)去除噪音、趨勢判別以及預(yù)測的精確度等方面均優(yōu)于傳統(tǒng)的ARMA-GARCH模型。徐國祥(2011)在傳統(tǒng)SVM方法的基礎(chǔ)上,引入主成分分析方法和遺傳算法,構(gòu)建了新的PCA-GA-SVM模型。并利用該模型對滬深300指數(shù)和多只成分股進(jìn)行了驗證分析,并發(fā)現(xiàn)該模型對滬深300指數(shù)和大盤股每日走勢有很好的預(yù)測精度。韓瑜(2016)結(jié)合時間序列提出了一種基于GARCH-SVM、AR-SVM的股票漲跌預(yù)測方法,結(jié)果表明,加入GARCH或AR等時間序列模型的初步預(yù)測結(jié)果可以提高SVM預(yù)測準(zhǔn)確率。
從國內(nèi)的研究文獻(xiàn)來看,大多數(shù)文獻(xiàn)都是通過機器學(xué)習(xí)方法來優(yōu)化傳統(tǒng)的時間序列預(yù)測模型,很少去研究如何通過機器學(xué)習(xí)方法構(gòu)建有效的量化投資策略。由此,本文將利用SVM算法,結(jié)合經(jīng)典的Fama-Fench三因子模型,設(shè)計量化投資策略,探討機器學(xué)習(xí)方法在金融投資領(lǐng)域應(yīng)用的新思路。
二、模型理論介紹
(一)Fama&Fench三因子模型
Sharpe(1964),Lintner(1965)和Mossin(1966)提出的資本資產(chǎn)定價模型(CAPM)是一個里程碑。在若干假定前提條件下,他們嚴(yán)謹(jǐn)?shù)赝茖?dǎo)出了在均衡狀態(tài)下任意證券的定價公式:
式中,E(ri)是任意證券i的期望收益率,E(r0)是無風(fēng)險利率,E(rm)是市場組合(market portfolio)的期望收益率?!?。法馬(Fama,1973)對CAPM進(jìn)行了驗證,發(fā)現(xiàn)組合的β值與其收益率之間的線性關(guān)系近似成立,但截距偏高,斜率偏低,說明β不能解釋超額收益。之后,F(xiàn)ama&Fench(1992)詳細(xì)地分析了那些引起CAPM異象的因子對證券橫截面收益率的影響。結(jié)果發(fā)現(xiàn),所有這些因子對截面收益率都有單獨的解釋力,但聯(lián)合起來時,市值和賬目價值比(BE/ME)兩個因子在很大程度上吸收了估計比值(E/P)以及杠桿率的作用?;诖耍現(xiàn)ama&Fench(1993)在構(gòu)建多因子模型時,著重考慮規(guī)模市值(SMB)和賬面價值比(HML)這兩個因子。因此,三因子模型可以寫為:
(二)支持向量機
支持向量機是一種二分類模型,也可以用于多分類,它的基本模型是定義在特征空間上的間隔最大的線性分類器,通過尋求結(jié)構(gòu)化風(fēng)險最小來提高分類器的泛華能力,實現(xiàn)經(jīng)驗風(fēng)險和置信范圍的最小化,最終可轉(zhuǎn)化為一個凸二次規(guī)劃的問題求解。支持向量機是90年代最成功的機器學(xué)習(xí)方法,它的基本思想是求解能夠正確劃分訓(xùn)練數(shù)據(jù)集并幾何間隔最大的分離超平面,該超平面可以對數(shù)據(jù)進(jìn)行分類,分類的標(biāo)準(zhǔn)起源于邏輯回歸,logistic回歸的目的是從特征學(xué)習(xí)出一個0/1分類模型,logistic函數(shù)(sigmoid函數(shù))的表達(dá)形式為:
這個模型是將特征的線性組合作為自變量。由于自變量的取值范圍是負(fù)無窮到正無窮,因此,sigmoid函數(shù)將自變量映射到(0,1)上,對應(yīng)的類別用y來表示,可以取-1或者1。根據(jù)輸?shù)母怕蕦?shù)據(jù)進(jìn)行分類,sigmoid函數(shù)圖像如圖1。
支持向量機也是利用上述分類原理對數(shù)據(jù)進(jìn)行分類,如圖2所示,wTx+b=0為n維空間的一個超平面,該超平面將數(shù)據(jù)分開,一般來說,一個點距離超平面的遠(yuǎn)近可以表示為分類預(yù)測的準(zhǔn)確程度。支持向量機就是求解■的最大值,也就是說,構(gòu)造最大間隔分類器γ,使兩個間隔邊界的距離達(dá)到最大,而落在間隔邊界上的點就叫做支持向量,明顯有y(wT+b)>1。
當(dāng)數(shù)據(jù)不能線性可分時,就需要利用非線性模型才能很好地進(jìn)行分類,當(dāng)不能用直線將數(shù)據(jù)分開的情況下,構(gòu)造一個超曲面可以將數(shù)據(jù)分開。SVM采用的方法是選擇一個核函數(shù),通過將數(shù)據(jù)映射到高維空間,在這個空中構(gòu)造最優(yōu)分類超平面,用線性分類法進(jìn)行數(shù)據(jù)分類。
然而,在不知道特征映射的形式時,很難確定選擇什么樣的核函數(shù)是合適的。因此,選擇不同的核函數(shù)可能面臨不同的結(jié)果,若核函數(shù)選擇不合適,則意味著將樣本映射到了一個不合適的特征空間,很可能導(dǎo)致結(jié)果不佳。常用的核函數(shù)見表1。
三、實證分析與應(yīng)用
(一)數(shù)據(jù)說明
訓(xùn)練數(shù)據(jù)為2012年8月1日至2016年8月1日滬深300成分股在每月最后一個交易日有交易的股票因子值,市值因子SMB(marketValue)和賬面價值比HML(PB)比這兩個因子見表2,所有因子數(shù)據(jù)都通過標(biāo)準(zhǔn)化并處理。利用PB和marketValue兩個因子,預(yù)測下月該股票的漲跌,利用機器學(xué)習(xí)中的支持向量機進(jìn)行訓(xùn)練,數(shù)據(jù)特征為月度股票因子,訓(xùn)練標(biāo)簽為該股票下個月月初第一個交易日的漲跌,上漲為1,下跌和股價不變標(biāo)記為0,采用交叉驗證方法,其中80%的數(shù)據(jù)為訓(xùn)練集,20%的數(shù)據(jù)為測試集,利用R語言中的e1071包進(jìn)行分析。
表2 因子名稱與因子說明
■
(二)策略回測
從實驗結(jié)果看,SVM的測試集預(yù)測準(zhǔn)確率為62.32%,回測策略為等權(quán)重買入當(dāng)月預(yù)測上漲概率排名前20的股票,每月初第一個交易日進(jìn)行調(diào)倉,回測區(qū)間共調(diào)倉41次?;販y區(qū)間為2013年7月1日至2017年2月28日,初始資金設(shè)為1000000元,利用優(yōu)礦量化平臺進(jìn)行回測,策略回測的部分持倉記錄見表3,策略效果見圖3和表4。
表3 策略回測持倉記錄
■
■
圖3 策略收益率與基準(zhǔn)收益率對比
表4 模型回測結(jié)果主要數(shù)據(jù)
■
由于多因子模型通常為穩(wěn)健策略,因此為了避免頻繁交易帶來的高額交易費用,本策略采用了月度定期調(diào)倉的手法。從表3,圖3和表4的策略回測結(jié)果來看,利用支持向量機算法結(jié)合Fama-Fench三因子模型設(shè)計的交易策略,在回測區(qū)間年化收益率為22.4%,超越了13.4%的基準(zhǔn)市場收益率,獲得了8.2%的阿爾法,這也說明Fama-Fench三因子模型在A股市場依然有效。同時我們也能看到,該策略最大回撤為48.1%,說明在不加入止損、止盈條件下,該策略并不能實現(xiàn)很好的對沖效果。從量化投資的角度來看,利用股指期貨進(jìn)行對沖,是多因子策略的一個很好的選擇。
四、結(jié)論
本文通過利用機器學(xué)習(xí)中的經(jīng)典算法支持向量機并結(jié)合Fama-Fench三因子模型構(gòu)建了量化投資策略。通過市值因子和市凈率因子,利用機器學(xué)習(xí)算法,滾動預(yù)測下一個月股票的漲跌方向。實驗結(jié)果發(fā)現(xiàn),支持向量機的預(yù)測準(zhǔn)確率達(dá)到了62.23%,通過預(yù)測股票漲跌方向的概率,設(shè)計了對應(yīng)的投資策略,該策略在回測期間的年化收益達(dá)到了22.4%,遠(yuǎn)超過基準(zhǔn)年華收益率的13.4%。本文的研究表明,機器學(xué)習(xí)方法在金融市場有很好的運用空間,在大數(shù)據(jù)時代的今天,傳統(tǒng)統(tǒng)計模型無法從復(fù)雜、多維的金融數(shù)據(jù)中提取出有效的信息特征,而機器學(xué)習(xí)算法擅長處理復(fù)雜、高維數(shù)據(jù)。這也是人工智能投資在金融行業(yè)越來越受到重視的原因。從量化投資這一角度來說,如何將機器學(xué)習(xí)方法應(yīng)用到金融投資領(lǐng)域還是一個飽受爭議的話題,本文只是從嘗試的角度出發(fā),創(chuàng)新的將機器學(xué)習(xí)方法結(jié)合經(jīng)典的Fama-Fench三因子模型來驗證對中國股市的投資效果。而如何將機器學(xué)習(xí)方法應(yīng)用到更多的金融投資領(lǐng)域?qū)⑹潜疚南乱浑A段的研究重點。
參考文獻(xiàn)
[1]Cortes C,Vapnik V.Support-Vector Networks.[J].Machine Learning,1995,20(3):273-297.
[2]Fama,E.F.&K.R.French(1992),“The cross-section ofexpected stock returns”,Journal of Finance 47:427-466.
[3]Fama,E.F.&K.R.French(1993),“Common risk factors in the returns on stocks and bonds”,Journal of Financial Economics 33:3-56.
[4]塞英,張鳳廷,張濤.基于支持向量機的中國股指期貨回歸預(yù)測研究[J].中國管理科學(xué),2013,21(3):35-39.