• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于機(jī)器學(xué)習(xí)方法的多因子選股策略研究

      2022-03-19 18:18:23趙娣
      經(jīng)濟(jì)研究導(dǎo)刊 2022年2期
      關(guān)鍵詞:機(jī)器學(xué)習(xí)

      趙娣

      摘? ?要:基于機(jī)器學(xué)習(xí)方法與多因子選股模型相結(jié)合,構(gòu)建出新的多因子選股模型,通過機(jī)器學(xué)習(xí)算法對個(gè)股進(jìn)行分類,從而篩選出具有投資價(jià)值的股票,進(jìn)行構(gòu)造有效的投資組合,并模擬回測證實(shí)其有效性。以滬深300成分股為股票池,運(yùn)用6個(gè)因子,選取2010—2020年的數(shù)據(jù),并對其進(jìn)行去值化、標(biāo)準(zhǔn)化、中性化的處理。每個(gè)月底根據(jù)前一年的數(shù)據(jù)使用機(jī)器學(xué)習(xí)算法建模,以當(dāng)月的數(shù)據(jù)輸入預(yù)測下個(gè)月的綜合因子,將綜合因子排序,選取前兩個(gè)分位點(diǎn)的股票分別構(gòu)建等權(quán)重組合進(jìn)行投資。借助優(yōu)礦平臺進(jìn)行回測,結(jié)果顯示,Logistic回歸構(gòu)建的模型比較好,具有較高的實(shí)際應(yīng)用價(jià)值。

      關(guān)鍵詞:機(jī)器學(xué)習(xí);因子選股;Logistic回歸

      中圖分類號:F832.51? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號:1673-291X(2022)02-0106-03

      引言

      機(jī)器算法自從誕生以來,經(jīng)過大量的實(shí)踐與理論的運(yùn)用日益成熟,應(yīng)用的領(lǐng)域也逐漸擴(kuò)大。金融領(lǐng)域也是機(jī)器算法應(yīng)用的一個(gè)方面。

      量化投資是踐行投資理念,運(yùn)用計(jì)算機(jī)技術(shù)與數(shù)學(xué)模型相結(jié)合來實(shí)現(xiàn)投資策略的過程。它擁有系統(tǒng)性、及時(shí)性、紀(jì)律性、準(zhǔn)確性和分散化等特點(diǎn),并且憑借著這些特點(diǎn)成為了國際投資界的新型投資方法。多因子模型是從資產(chǎn)定價(jià)模型中發(fā)展出來,綜合考慮多種因素而形成的模型。它擁有對市場波動(dòng)敏感、根據(jù)最新行情改變策略的優(yōu)點(diǎn),是量化投資模型的重要組成部分。

      機(jī)器算法能根據(jù)大量的數(shù)據(jù)學(xué)習(xí)出具有良好泛化性能的模型,而這種具有良好泛化性能的模型正是量化投資所需要的。因傳統(tǒng)多因子選股策略的有效性開始逐漸降低,因此使用機(jī)器算法來優(yōu)化選股策略是當(dāng)下流行的趨勢,許多基金公司發(fā)布的基金產(chǎn)品借此取得不錯(cuò)的超額收益。

      一、文獻(xiàn)綜述

      量化投資近年來發(fā)展迅速,漸漸占據(jù)資本市場的重要位置,成為國際投資界的新的投資方法,國內(nèi)外有不少學(xué)者進(jìn)行相關(guān)研究。

      周亮(2019)通過選取中證成分股2007—2017年的數(shù)據(jù),采用六大類因子證明了多因子選股模型優(yōu)于傳統(tǒng)線性回歸模型。汪洋(2010)運(yùn)用財(cái)務(wù)指標(biāo)構(gòu)建多因子模型,結(jié)果顯示估值因子對上市公司股票收益率的影響最大。曹正風(fēng)等人(2014)發(fā)現(xiàn),以價(jià)值成長為基礎(chǔ)的指標(biāo)體系構(gòu)建的多因子模型,使用隨機(jī)森林模型并于支持向量機(jī)模型相比較,結(jié)果顯示隨機(jī)森林模型有著良好的選股效果。

      綜合以上來看,機(jī)器學(xué)習(xí)算法和量化投資結(jié)合使用,在選股方面有著良好的效果,并且在大數(shù)據(jù)的背景下,依靠人們自身的分析遠(yuǎn)遠(yuǎn)不夠,因此量化投資越來越流行。

      二、機(jī)器算法理論

      (一)Logistic理論

      Logistic回歸是一種常用于經(jīng)濟(jì)預(yù)測、疾病方面和數(shù)據(jù)挖掘方面的廣義線性回歸模型。它的原理是通過輸入自變量經(jīng)過公式輸出的模型,其公式和圖像如下:

      h(z)=(1)

      其函數(shù)圖1:

      從圖1可以看出,Logistic回歸模型將輸入的特征變量轉(zhuǎn)化為[0,1]這個(gè)區(qū)間的值來完成分類。

      Logistic回歸模型的適用條件,首先是自變量和因變量的關(guān)系應(yīng)該存在著線性相關(guān)關(guān)系;其次需要注意模型的擬合優(yōu)度,模型的擬合優(yōu)度越高,模型的結(jié)論更加可靠,如果太低,那么模型的解釋力就變的更加難以說服。

      (二)決策樹理論

      決策樹是對象屬性和對象值之間的一種映射,是一種預(yù)測模型,也可以用作分類,是數(shù)據(jù)挖掘過程中經(jīng)常用到的一種方法,也是一些預(yù)測精度很高的機(jī)器學(xué)習(xí)方法的基本模塊。

      決策樹是運(yùn)用概率分析的一種圖解法,其決策分支過程就像是大樹的分支,故稱為決策樹。其決策分支的過程也像人們做出決策的過程,運(yùn)用已知信息來進(jìn)行選擇最大概率的結(jié)果。

      決策樹優(yōu)點(diǎn)是面對大型數(shù)據(jù)源能夠在相對較短的時(shí)間內(nèi)做出可行且效果好的結(jié)果;缺點(diǎn)是對連續(xù)的字段、有時(shí)間順序的數(shù)據(jù)和類別太多時(shí)存在著難以預(yù)測和效果不好的問題。

      (三)隨機(jī)森林理論

      隨機(jī)森林模型是基于決策樹模型,通過構(gòu)建多棵樹對樣本進(jìn)行訓(xùn)練并預(yù)測的分類器。

      其實(shí),質(zhì)是將多個(gè)決策樹合并在一起,每棵樹的建立依賴于獨(dú)立抽取的樣本。像是數(shù)學(xué)中的有放回的抽樣,經(jīng)過多次抽樣來增加訓(xùn)練節(jié)點(diǎn)的準(zhǔn)確度,因子抽樣樣本有的一次也不會(huì)出現(xiàn),有的出現(xiàn)次數(shù)較多。

      隨機(jī)森林算法的優(yōu)點(diǎn)是對于處理高維度的數(shù)據(jù),并且有著很好的抗噪能力,性能比較穩(wěn)定;缺點(diǎn)是模型的參數(shù)比較復(fù)雜,并且模型訓(xùn)練和預(yù)測過程會(huì)消耗大量的時(shí)間,效率比較慢。

      三、多因子選股模型的方法框架

      本文的多因子選股模型方法步驟為圖2,主要分為四個(gè)步驟,分別為候選因子的選取、數(shù)據(jù)預(yù)處理、構(gòu)建模型、模型檢驗(yàn)。

      (一)候選因子的選取

      對于候選因子的選取是多種多樣的,有的會(huì)選取基本面指標(biāo),有的會(huì)選取技術(shù)面指標(biāo),有的也會(huì)選取投資者情緒和分析師分析等因素來構(gòu)建指標(biāo)。但總的來說,選擇更有效的因子來提高投資者的收益才是最關(guān)鍵的方面。

      (二)數(shù)據(jù)預(yù)處理

      我們獲取的數(shù)據(jù)可能會(huì)存在著噪音、缺失值和數(shù)據(jù)量綱不統(tǒng)一的問題,因此,我們?yōu)榱耸沟媚P瞳@取最好的效果,需要對獲取的數(shù)據(jù)進(jìn)行處理再輸入到模型中。數(shù)據(jù)處理方式很多,可根據(jù)模型需要進(jìn)行合適的處理。

      對數(shù)據(jù)進(jìn)行去極值、標(biāo)準(zhǔn)化和中性化處理,極值數(shù)據(jù)與一般數(shù)據(jù)的偏差較大,影響模型的準(zhǔn)確性,標(biāo)準(zhǔn)化使因子值歸一到[0,1],行業(yè)中性化處理減少行業(yè)性的特征,比如銀行股的市盈率特別低,互聯(lián)網(wǎng)行業(yè)的市盈率高等行業(yè)特征。

      (三)構(gòu)建模型

      多因子選股模型主要分為打分法和回歸法?;貧w法主要是通過對股票收益率有關(guān)的因子進(jìn)行回歸,根據(jù)回歸結(jié)果,把最新因子值代入回歸方程來對未來股票收益進(jìn)行預(yù)判,將此作為依據(jù)來進(jìn)行選股,并對模型的有效性和收益率進(jìn)行評價(jià)。打分法是將選出來的與股票收益相關(guān)的因子進(jìn)行排序,根據(jù)排序在相應(yīng)的位置進(jìn)行打分,并且為每個(gè)因子值配以權(quán)重,根據(jù)權(quán)重將每只股票的因子得分相加得到個(gè)股的綜合得分,選取得分高的股票按一定的選取比例來構(gòu)建投資組合。

      (四)模型檢驗(yàn)

      本文利用滬深300成分股2011年1月到2019年12月的數(shù)據(jù),借助優(yōu)礦量化投資平臺進(jìn)行模擬投資,根據(jù)平臺結(jié)果比較來選取合適的機(jī)器學(xué)習(xí)算法。

      四、基于滬深300市場的多因子選股模型的實(shí)證分析

      本文選取2010年初到2020年初的數(shù)據(jù),其中訓(xùn)練集是以滾動(dòng)法進(jìn)行訓(xùn)練,特征為六大因子,標(biāo)簽按照滬深300成分股每月收益率的均值為界限,大于均值的標(biāo)簽為1,小于均值的標(biāo)簽為0。

      (一)候選因子的選取

      本文選取了市盈率(PE)、市凈率(PB)、流動(dòng)比率(CurrentRatio)、固定資產(chǎn)周轉(zhuǎn)率(FixedAssetsTRate)、權(quán)益回報(bào)率(ROE)、凈資產(chǎn)增長率(NetAssetGrowRate)。

      (二)數(shù)據(jù)預(yù)處理

      1.去極值處理。數(shù)據(jù)中存在異常值,可能會(huì)導(dǎo)致標(biāo)準(zhǔn)差偏差加大、統(tǒng)計(jì)規(guī)律的偏差。

      2.中性化處理。中性化處理起著提純的作用,處理問題的方式類似于計(jì)量中的多重共線性問題。最典型的中性化就是市值中性化和行業(yè)中性化。有一些因子受市值的影響比較大,比如成交額這個(gè)數(shù)據(jù),如果將成交額和市值放在一起就會(huì)產(chǎn)生多重共線性問題。

      3.標(biāo)準(zhǔn)化處理。將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。常用的方法有規(guī)范化方法、正規(guī)化方法和歸一化方法。本文通過歸一化處理將因子數(shù)據(jù)按比例縮放到0到1這個(gè)區(qū)間,數(shù)據(jù)匯總結(jié)果如表1所示。

      本文采取網(wǎng)格搜索的方式來進(jìn)行機(jī)器學(xué)習(xí)算法的參數(shù)優(yōu)化,網(wǎng)格搜索方法包含交叉驗(yàn)證,使得模型更加可靠。

      (三)構(gòu)建模型

      本文選取時(shí)間窗口長度為12個(gè)月,以時(shí)間窗口內(nèi)的數(shù)據(jù)為樣本進(jìn)行訓(xùn)練機(jī)器學(xué)習(xí)算法模型,運(yùn)用網(wǎng)格搜索的方法篩選出最優(yōu)模型,運(yùn)用最優(yōu)模型預(yù)測樣本外的下一個(gè)月的綜合因子,按綜合因子將滬深300成分股選出前2個(gè)分位點(diǎn)的股票組合,進(jìn)行等權(quán)重組合進(jìn)行投資。

      (四)模型的檢驗(yàn)

      本文利用2011年初到2020年初共9年的數(shù)據(jù)驗(yàn)證模型的有效性。每個(gè)月按綜合因子進(jìn)行從大到小的排序,篩選出排名前兩個(gè)分位點(diǎn)的股票進(jìn)行等權(quán)重投資。假設(shè)初始投資資金為1 000萬元,結(jié)果顯示Logistic回歸模型進(jìn)行回測的年化收益率為9.4%,滬深300指數(shù)的年化收益為3.1%,高出6.3%的收益。具體如表2。

      通過回測分析,這三種機(jī)器學(xué)習(xí)算法的選股模型綜合來看Logistic回歸模型的效果較好,最大回撤相對于其他兩個(gè)模型處于中間位置,貝塔值較好,夏普比率也是最大的,綜合來看模型具有較好的效果。

      五、結(jié)論

      量化投資作為當(dāng)下最流行的投資方法,將其與機(jī)器學(xué)習(xí)算法結(jié)合來構(gòu)建的投資組合取得了不錯(cuò)的效果。本文選取具有代表性的六大因子進(jìn)行實(shí)證研究,運(yùn)用機(jī)器學(xué)習(xí)算法進(jìn)行模型訓(xùn)練,通過網(wǎng)格搜索選取出最優(yōu)模型進(jìn)行預(yù)測,將預(yù)測的綜合因子進(jìn)行排序來選取前兩個(gè)分位點(diǎn)的股票進(jìn)行投資,為投資者提供簡單、便捷的投資方法。

      本文借助選取的六大因子來進(jìn)行選股存在很大的局限性,使用合適的因子來進(jìn)行研究可以增加模型的有效性,選取的股票組合進(jìn)行等權(quán)重投資,等權(quán)重投資雖然避免了部分股票在指數(shù)中的占比過高,但是流動(dòng)性較差。機(jī)器學(xué)習(xí)算法模型參數(shù)選取需要進(jìn)行優(yōu)化研究,本文使用網(wǎng)格搜索的方法進(jìn)行模型參數(shù)優(yōu)化,同時(shí)包含數(shù)據(jù)集的交叉驗(yàn)證,盡可能選取最好的參數(shù)進(jìn)行研究,避免機(jī)器學(xué)習(xí)算法擬合問題,因此本文機(jī)器學(xué)習(xí)算法模型的精確率在0.56左右,是需要進(jìn)行進(jìn)一步研究的方向。

      隨著我國金融市場的逐步發(fā)展,應(yīng)該利用多因子選股策略去發(fā)現(xiàn)一些被錯(cuò)誤定價(jià)的股票,以期獲得超額收益。利用多因子選股策略進(jìn)行投資將會(huì)是主要發(fā)展方向,會(huì)在越來越多的領(lǐng)域中出現(xiàn),在以后的中國市場中,量化選股必將成為發(fā)展方向。

      參考文獻(xiàn):

      [1]? ?車洋.基于機(jī)器學(xué)習(xí)方法的多因子選股策略研究[D].天津:天津大學(xué),2018.

      [2]? ?Kariya T. Quantitative Methods for Portfolio Analysis[M]. Springer Netherlands,2013.

      [3]? ?李杰.基于隨機(jī)森林算法的多因子選股模型研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2019.

      [4]? ?周亮.基于分位數(shù)回歸的多因子選股策略研究[J].西南大學(xué)學(xué)報(bào):自然科學(xué)版,2019,41(1):89-96.

      [5]? ?朱世清.多因子選股模型的構(gòu)建與應(yīng)用[D].濟(jì)南:山東財(cái)經(jīng)大學(xué),2015.

      [6]? ?韓燕龍.基于隨機(jī)森林的指數(shù)化投資組合構(gòu)建研究[D].廣州:華南理工大學(xué),2015.

      [7]? ?周漸.基于SVM算法的多因子選股模型實(shí)證研究[D].杭州:浙江工商大學(xué),2017.

      [8]? ?胡謙.基于機(jī)器學(xué)習(xí)的量化選股研究[D].濟(jì)南:山東大學(xué),2016.

      [責(zé)任編輯? ?妤? ?文]

      3804501908272

      猜你喜歡
      機(jī)器學(xué)習(xí)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
      基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
      前綴字母為特征在維吾爾語文本情感分類中的研究
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
      墨脱县| 大安市| 紫阳县| 土默特左旗| 吉林省| 庆城县| 正镶白旗| 枣阳市| 全南县| 沙坪坝区| 湟中县| 海盐县| 垫江县| 泾阳县| 武安市| 拜泉县| 石渠县| 阿勒泰市| 黎城县| 永定县| 中方县| 玉树县| 客服| 建昌县| 济宁市| 工布江达县| 视频| 波密县| 巨野县| 青铜峡市| 轮台县| 昂仁县| 泸州市| 石林| 甘肃省| 东兴市| 堆龙德庆县| 高密市| 大洼县| 洛川县| 安国市|