• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于決策樹的多因子選股模型研究

      2024-02-26 15:11:28李夢圓
      生產(chǎn)力研究 2024年2期
      關(guān)鍵詞:多因子決策樹節(jié)點

      李夢圓

      (貴州大學 經(jīng)濟學院,貴州 貴陽 550025)

      一、引言

      1952 年馬科維茨在《資產(chǎn)組合的選擇》,引出概率論和線性代數(shù)可相融合且應(yīng)用于投資組合策略,而我國量化投資發(fā)展時間較為短暫,2004 年我國才接續(xù)呈現(xiàn)資產(chǎn)管理機構(gòu)進行選股投資組合,而黨的十九大以來我國堅持各項證券市場體制改革,人工智能逐漸滲透于股票市場,國務(wù)院發(fā)布于2017 年7月20 日的《新一代人工智能發(fā)展規(guī)劃》引出智能金融一詞,其基于大數(shù)據(jù)將金融與人工智能有效融合為一個體系。

      機器學習算法是人工智能發(fā)展于證券市場的新動力,量化交易方式注重選股等事件驅(qū)動判斷,因而可以解釋金融資產(chǎn)價格原理,也可基于技術(shù)分析對金融資產(chǎn)價格進行合理預(yù)測。從國內(nèi)外股票市場分析發(fā)展現(xiàn)狀歸納出兩種方式。一是基本分析,基于宏觀環(huán)境、公司財政環(huán)境以及所處行業(yè)全方位分析股價變動范圍;二是技術(shù)分析,基于歷史相關(guān)數(shù)據(jù)根據(jù)統(tǒng)計方法、圖形等分析股價變動趨勢,借此幫助投資者在最佳時機買賣。

      決策樹是機器學習中兼具可讀性高和分類效率快的優(yōu)點的算法之一,在股票預(yù)測領(lǐng)域具有良好表現(xiàn),它較于神經(jīng)網(wǎng)絡(luò)等算法結(jié)構(gòu)全面,更易于投資者理解。本文的貢獻:首先有效融合機器學習與技術(shù)分析在一定程度優(yōu)化傳統(tǒng)選股模型,基于滬深300 成分股相關(guān)數(shù)據(jù)從多方面選取因子以多種決策樹模型構(gòu)建投資組合,幫助投資者構(gòu)建投資組合贏取超額收益,且基于決策樹模型挖取其背后暗含的理論信息。

      二、文獻綜述

      (一)多因子模型相關(guān)模型文獻綜述

      國外多因子選股模型研究起源于Markowotz 均值-方差理論,F(xiàn)ama 和French(1993)[1]引出第一個多因子模型,集市場組合、賬面市值比及市值因子構(gòu)建三因子模型預(yù)測證券收益率。Eugene 和Kenneth(2015)[2]改良三因子模型,加入RMW 和CMA 構(gòu)建五因子模型發(fā)現(xiàn)其在我國A 股市場未必得到超額收益?;ヂ?lián)網(wǎng)技術(shù)普及后學者們將傳統(tǒng)多因子模型有效融合符合邏輯的計算機技術(shù)提高模型效率,Markm(1997)[3]基于構(gòu)建動量因子和Fama-French三因子形成四因子模型,實證發(fā)現(xiàn)此模型幾乎可解釋一些股票型共同基金的收益。而我國資本市場相較國外發(fā)展較緩,學者們突破金融理論本土驗證,多方位創(chuàng)新研究方向。黃興旺等(2002)[4]基于Fama-French 三因子模型證明價值因子對股市波動不有效,規(guī)模因子有效。趙培騫和王德華(2007)[5]基于成長性和股東權(quán)益兩個指標構(gòu)建多因子選股模型實證發(fā)現(xiàn)所選因子與股票價格之間呈正相關(guān)關(guān)系。李志冰等(2017)[6]基于五因子模型表明其對于股票收益率影響更為顯著。趙靜(2016)[7]認為選擇行業(yè)輪動效應(yīng)結(jié)合多因子模型,此模型對金融市場風險控制更有效。

      (二)決策樹相關(guān)文獻綜述

      1966 年Stone 等人引出單概念系統(tǒng),而后國外學者們逐步提出ID3 和ID4 等算法。Sorensen 等(2000)[8]基于決策樹采取股票價格動能等六項指標篩選美國科創(chuàng)板優(yōu)質(zhì)股票,實證發(fā)現(xiàn)這樣的組合可以提高收益。Breiman(2001)[9]基于隨機森林對樣本分層抽樣,與決策樹相融合發(fā)現(xiàn)處理樣本較大的數(shù)據(jù)有優(yōu)勢。而國內(nèi)學者的研究主要集中于決策樹在量化投資領(lǐng)域的預(yù)測和分類,談敘(2013)[10]基于決策樹中每個變量等特征選取建立金融時間序列模型,實證發(fā)現(xiàn)可顯著提高股票收益預(yù)測精確度。沈金榕(2017)[11]基于CART 決策樹算法選取財務(wù)指標作為逐步回歸變量實證建模評估模型的有效性。張茂軍等(2022)[12]基于決策樹原理選取分類標簽和值的特征構(gòu)建CLBIB-VSD-CART 算法,實證分析螺紋鋼期貨交易策略。

      學術(shù)界研究成果大多集中因子適用性和模型合理性,然而股票市場環(huán)境日趨復(fù)雜,金融數(shù)據(jù)是高度不平穩(wěn)時間序列,傳統(tǒng)建模方法已不能科學預(yù)測。學者們選取隨機森林等模型,構(gòu)建多因子組合模型分析股票市場股價變動趨勢,本文采取人工智能算法優(yōu)化傳統(tǒng)選股模型組合優(yōu)化提高預(yù)測的準確性,基于決策樹可擴展性強符合投資者實際操作中的邏輯思維,基于此構(gòu)建投資組合為我國股票市場量化投資策略的發(fā)展提供參考。

      三、相關(guān)理論和模型介紹

      (一)量化投資理論

      1952 年馬克維茲首次引出現(xiàn)代組合管理理論,而后Sharpe 等人于1963 年引出CAPM 模型奠定基石。量化選股與量化投資內(nèi)涵呼應(yīng),基于數(shù)學理論工具對大量數(shù)據(jù)定量化分析、搭建定量模型,融合計算機和數(shù)量統(tǒng)計對海量數(shù)據(jù)分析金融資產(chǎn)價格等因素之間的聯(lián)系。優(yōu)點有:(1)客觀性:基于各類定量化模型和輔助工具,避免主觀性錯誤;(2)系統(tǒng)性:角度多層次,選擇性廣,從各類行業(yè),等層次估值、預(yù)測等;(3)分散化:利用不同風險不相關(guān)的投資組合提高收益。

      (二)多因子量化模型

      多因子選股模型基于APT 理論、CAPM 模型及Fama-French 三因子模型構(gòu)建,選取以某種規(guī)律性變化影響股價的因素,以此搭建自動交易的量化投資模型,消除情緒因素對擇股不利影響來分析最新交易數(shù)據(jù),使多因子選股模型具有實效性和持續(xù)性。選股步驟如下:

      1.因子選取。從規(guī)模、盈利等因子選取部分增強模型信息捕獲性。

      2.因子有效性檢驗及刪除冗余因子。參考已有文獻基于排序法對因子進行有效性測驗以保證模型不被數(shù)據(jù)耦合干擾,將所選因子按照分值排序劃分為n 組計算各自收益,且計算高分位組合獲取超額收益概率、低分位組合失敗概率等,因子打分情況與此對應(yīng)的收益率情況呈現(xiàn)顯著相關(guān)性。

      3.構(gòu)建多因子選股模型。傳統(tǒng)多因子量化選股有打分多因子、基于因子排序多因子和基于因子回歸多因子模型,三種都選取去除冗余因子構(gòu)建模型。本文基于決策樹模型將選取期間的收益率以High、Middle、Low 比較三種算法效率。

      (三)策略樹理論

      1.定義。決策樹對變量值拆分來建立分類規(guī)則構(gòu)建樹狀分類結(jié)構(gòu),利用自身樹狀劃分形成路徑的機器學習技術(shù),分為兩個步驟:一是從訓練樣本單個節(jié)點開始對特征空間基于變量影響效果大小排序選擇變量和變量值。二是對選出的變量矩形分類進行效果比較。決策樹每個分支表示變量判斷條件,每個非節(jié)點為映射對象,每個葉子節(jié)點是預(yù)測結(jié)果,當分類結(jié)果一致即停止生長得到一個決策樹預(yù)測模型。

      2.模型構(gòu)建。決策樹算法有分類回歸樹CART等算法,其思想是基于遞歸算法將數(shù)據(jù)劃分為不同矩形區(qū)域,進而判斷數(shù)據(jù)點是否滿足。具體步驟:首先是特征選擇,基于信息增益等選取樹杈指標構(gòu)建根節(jié)點,劃分后的數(shù)據(jù)有序程度越高,劃分規(guī)則越合理。其次,決策樹生成,基于選取特征分類劃分數(shù)據(jù)集,若符合條件則構(gòu)建葉節(jié)點,若不能則繼續(xù)劃分。最后,剪枝:決策樹算法預(yù)測結(jié)果相對準確,為避免過度擬合,使用簡化模型從已生成決策樹剪掉一些葉結(jié)點平衡的預(yù)測誤差和數(shù)據(jù)復(fù)雜度。

      (四)決策樹分類

      1.ID3 算法。ID3 算法基于信息增益準則選取決策樹各節(jié)點特征遞歸且以極大似然法進行概率模型選取。首先計算根節(jié)點所有可能特征的信息增益并選取最大特征作為節(jié)點特征,由此取值構(gòu)建子節(jié)點,然后遞歸上述過程直到?jīng)]有可選特征或所選特征信息增益最小得到最終決策樹。

      2.C4.5 算法。C4.5 算法基于ID3 算法選取信息增益來衡量特征進行優(yōu)化處理離散型和連續(xù)性屬性類型數(shù)據(jù)。特征Q對訓練數(shù)據(jù)集W的信息增益比E可表示為此特征的信息增益R與數(shù)據(jù)集W基于特征Q熵值的比,即:

      3.CART算法。CART指分類樹回歸算法模型,基于特征選擇、樹枝生成及剪枝,同時假設(shè)決策樹為二叉樹,且內(nèi)部節(jié)點特征值有“是”和“否”,分類過程中遞歸輸入數(shù)據(jù)劃分成有限的數(shù)量單元來確定概率分布,具體步驟如:(1)生成過程:輸入訓練數(shù)據(jù)集生成盡量大的決策樹。(2)剪枝:基于驗證數(shù)據(jù)集對選取生成的決策樹最優(yōu)子樹,并以損失函數(shù)最小值為參考標準。(3)在所有特征中計算基尼系數(shù),選取數(shù)值最小的特征作為最小切分點劃分為兩個子節(jié)點,將數(shù)據(jù)集對應(yīng)兩個子節(jié)點整個過程遞歸使用直到滿足停止條件形成最終CART決策樹。

      4.隨機森林算法。2001 年LeoBeeiman 引出隨機森林模型是基于決策樹構(gòu)造組合的定義,其優(yōu)化決策樹算法,在初始樣本中可放回隨機抽取相關(guān)樣本基于決策樹訓練,此過程重復(fù)生成不同決策樹形成森林,其中每一顆決策樹都是獨立訓練樣本形成。其優(yōu)點為:(1)方便性:對原始數(shù)據(jù)無需過度操作,可基于測試集分類預(yù)測。(2)速度快:各棵決策樹相互獨立分類預(yù)測,聚焦特征因子集從而效率提高。(3)不過度擬合:隨機性引入不會陷入過度擬合,適應(yīng)性較強。具體步驟為:(1)從整個訓練樣本隨機有放回的選取n個樣本構(gòu)成一個訓練集來讓一棵決策樹訓練,此過程重復(fù)m次構(gòu)成m個訓練子集。(2)從這個集合隨機選取l 個特征組成特征子集,分別對以上m個訓練子集和構(gòu)造的m個決策樹訓練。(3)將測試樣本放入隨機森林中進行分類預(yù)測得到預(yù)測結(jié)果,最后將m個分類結(jié)果集合就是投票數(shù)據(jù)最終結(jié)果。

      (五)回測方法

      量化投資決策過程結(jié)束后需要通過一些有效指標體系評價其績效,如:最大回撤率、夏普比率等。

      1.最大回測率。最大回撤率是投資策略組合的最大回測力度,衡量某一個時間區(qū)間內(nèi)的一個時間點往后推遲至整個組合凈值最低時能夠回測的最大值,公式為:

      其中pi指投資組合某天的凈值,pj則為pi后某天的凈值。

      2.夏普比率。夏普比率得到的基金收益率通過風險調(diào)整,即投資者每多承擔一單位總風險會得到多少超額報酬,公式為:

      四、實證部分

      (一)實證步驟

      第一,因子選取;第二,篩選股票;第三,構(gòu)建股票;第四,回測。

      (二)選股和因子選取

      1.選股。本文選取2015 年12 月31 日至2018年9 月28 日滬深300 指數(shù)成分股數(shù)據(jù),基于Jupyter相關(guān)模塊編寫,將所得數(shù)據(jù)去極值等。

      2.因子選取。因子選取關(guān)鍵在選取區(qū)分度和有代表性因子,參考已有文獻從盈利等因子類型選取2015 年12 月31 日至2018 年9 月28 日中12 個季度18 個有效因子進行有效性測試,選取的因子與因子季度性測試如表1、表2 所示。

      表1 選取因子

      表2 季度因子IC 值

      從結(jié)果看,如2016 年3 月31 日dv_ttm值為-6.64975E-05,ps_ttm、pb、roa、roic、fcff及quick_ratio指標大于0.1;2018 年3 月31 日pb、eps、roe、roa、roic及quick_ratio均大于0.1,其余小于0.1??梢钥闯鲆蜃又g波動起伏空間較大和所選因子與股票收益相關(guān)性較差意味著個股選取因子對股票收益的影響很難得到有效因子,因此最終選取日平均收益率、日命中率、累計收益率、波動率、最大回撤率、年化夏普比率、在險價值、風險價值上的超額收益8個指標有效性測試。

      (三)因子有效性測試

      1.IC值。IC呈現(xiàn)選取股票因子值和其下一期收益率相關(guān)系數(shù)來衡量因子預(yù)測能力。IR是股票超額收益均值/標準差,它可衡量因子選股能力,本文選取因子IC和IR值如表3 所示。然而本文從兩個方面進行冗余變量剔除,一是IC值大于0.05 可認為此因子為有效因子。二是借鑒已有研究選擇分段IC值篩選:相關(guān)關(guān)系數(shù)值在-0.2~0.2 區(qū)間外的因子為有效因子,相關(guān)數(shù)據(jù)如圖1 所示。

      圖1 因子分段IC

      表3 因子IC 和IR 值

      2.單因子有效性測試。將最終確定的八個因子進行有效性測試,以pe_ttm因子為例:按照因子值大小升序排序前20%股票劃分第一組,以此類推最后20%劃為第五組,最終選取的估值因子有pe_ttm、dv_ttm,結(jié)果顯示其對股票收益率敏感度較低。結(jié)果如表4 所示。

      表4 單因子有效性測試回測結(jié)果

      3.構(gòu)建投資組合。本文借鑒已有研究選取五等分區(qū)間回測法,選擇pe_ttm、eps、roe、roa、roic、dv_ttm、netprofit_yoy、turnover_rate、gc_of_gr、total_mv構(gòu)成有效因子池。將所選因子劃分為5 個區(qū)間并計算平均收益率、日命中率、累計收益率、波動率、最大回撤率、年化夏普比率、在險價值、風險價值上的超額收益8個指標進行數(shù)值排序。

      4.決策樹模型構(gòu)建。表5 顯示三種模型中ID3效果優(yōu)于其他兩種,而隨機森林是基于多棵決策樹力量來量化分析,具有改善決策樹的過渡擬合現(xiàn)象,因此隨機森林模型優(yōu)于決策樹算法。

      表5 模型實證結(jié)果

      五、回測結(jié)果

      回測部分選取2018 年12 月28 日至2019 年12 月31 日基于以上ID3、C4.5、CART 及隨機森林四個算法投資組合選取表現(xiàn)最優(yōu)秀的算法與上證綜指績效進行對比,來表明投資組合策略有效性,同時考察最優(yōu)決策樹策略組合相應(yīng)的High、Middle及Low 組合有效性。High、Middle 及Low 組合呈現(xiàn)層級遞減變動,證明本文投資組合回測構(gòu)建有效,且所選研究期間High 的累計收益率高于同期上證綜指累計收益。結(jié)果如表6 所示。

      表6 回測結(jié)果

      六、結(jié)論與展望

      (一)結(jié)論

      隨著量化投資不斷作用于我國股票市場,量化投資包含預(yù)測、套利、交易及資產(chǎn)配置四個模型,而多因子選股基于收益率和因子之間近似的線性關(guān)系去篩選高收益股票組合,機器學習算法能夠提高此組合的準確性。本文基于滬深300 指數(shù)成分股相關(guān)數(shù)據(jù)構(gòu)建多因子選股模型,實證證明機器學習算法可有效預(yù)測股票收益。

      最后選取2018—2019 年股票收益數(shù)據(jù)回測并與上證綜指相比發(fā)現(xiàn)基于決策樹的多因子選股模型可以實現(xiàn)超額收益的目標,最后選取效果較好的決策樹模型與上證綜指進行回測比較,發(fā)現(xiàn)基于決策樹模型的多因子選股模型有較好的效果。

      (二)展望

      我國目前量化投資領(lǐng)域的實證研究明顯還不成熟,理論支撐相對薄弱,我國股票市場近年來受政策與市場參與者很難量化,在構(gòu)建多因子模型中只能選取市場收益率來模擬經(jīng)濟環(huán)境變化對股票收益率的影響,隨著量化投資領(lǐng)域成熟,市場有效性提高可以使得財務(wù)數(shù)據(jù)更真實,分析價格和宏觀因素對國家收益率的預(yù)測會更科學而準確,最后決策樹劃分規(guī)則可以基于股票類型分析歸納形成最優(yōu)結(jié)果。

      猜你喜歡
      多因子決策樹節(jié)點
      CM節(jié)點控制在船舶上的應(yīng)用
      Analysis of the characteristics of electronic equipment usage distance for common users
      基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
      基于BP神經(jīng)網(wǎng)絡(luò)的多因子洪水分類研究
      基于打分法的多因子量化選股策略研究
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于多因子的ZigBee安全認證機制
      基于決策樹的出租車乘客出行目的識別
      抓住人才培養(yǎng)的關(guān)鍵節(jié)點
      阜康市| 龙江县| 来凤县| 营山县| 长泰县| 施秉县| 个旧市| 西林县| 陈巴尔虎旗| 称多县| 桂平市| 霍林郭勒市| 蓬溪县| 临漳县| 和静县| 阜阳市| 云阳县| 屯留县| 上杭县| 自贡市| 青河县| 通州区| 二连浩特市| 沈丘县| 丹凤县| 东辽县| 广丰县| 丹巴县| 鄂伦春自治旗| 和林格尔县| 南召县| 大足县| 共和县| 隆德县| 周至县| 灵武市| 张家港市| 通州市| 涟水县| 阿图什市| 庆安县|