基于機(jī)器學(xué)習(xí)對公司未來ROE預(yù)測的研究

2020-11-16 06:55翟玉奇

市場周刊·市場版 2020年2期

摘要：ROE作為評價(jià)公司盈利能力的重要指標(biāo)，可衡量公司對股東投入資本的利用效率。它彌補(bǔ)了每股稅后利潤指標(biāo)的不足，因此，每一次的ROE都是影響上市公司的股價(jià)、未來業(yè)績以及投資者期望進(jìn)而營銷的其投資者的投資決策。本文根據(jù)杜邦分析法中的若干因素，結(jié)合其他分析因子，運(yùn)用R軟件，通過機(jī)器學(xué)習(xí)，構(gòu)建模型，有效彌補(bǔ)了簡單的多元回歸擬合不精確的情況，為預(yù)測公司ROE提供了一個(gè)新的方法，也為投資人進(jìn)行投資決策提供了一個(gè)重要依據(jù)。

關(guān)鍵詞：ROE;杜邦分析;多元回歸;機(jī)器學(xué)習(xí)

一、引言

凈資產(chǎn)報(bào)酬率（ROE），是企業(yè)一定時(shí)期的凈利潤與平均凈資產(chǎn)之比，該指標(biāo)反映了企業(yè)所有者所獲投資報(bào)酬的大小。該指標(biāo)越好，則表示企業(yè)的經(jīng)營給股東的回報(bào)越高，越容易吸引市場投資者的關(guān)注。如果企業(yè)對其財(cái)務(wù)管理的意識缺乏，就會盲目樂觀，意識不到潛在的危機(jī)，可能會導(dǎo)致企業(yè)遭到巨大的損失。所以，只有用科學(xué)的方法進(jìn)行綜合性的財(cái)務(wù)預(yù)測才能對于企業(yè)的日常和未來的發(fā)展提供有效的建議，從而不斷促進(jìn)企業(yè)自身的發(fā)展。

傳統(tǒng)的財(cái)務(wù)預(yù)測只能從單一的盈利能力、營運(yùn)能力、償債能力和發(fā)展能力進(jìn)行簡單分析，另外杜邦財(cái)務(wù)分析體系可以全面概括以上四個(gè)能力的分析結(jié)果。能夠幫助企業(yè)的管理決策者對企業(yè)財(cái)務(wù)狀況有更加全面、更具全局性的了解，但由于其內(nèi)在因素可能會產(chǎn)生共線性或相關(guān)性較大的因素，應(yīng)在杜邦分析的基礎(chǔ)上，加入其保函因素之外的變量加以預(yù)測，進(jìn)而及時(shí)調(diào)整企業(yè)的發(fā)展策略以及管理結(jié)構(gòu)，使企業(yè)向正確的方向發(fā)展和進(jìn)步。

機(jī)器學(xué)習(xí)是研究怎樣使用計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的科學(xué)，是人工智能中最具智能特征，最前沿的研究領(lǐng)域之一。本文運(yùn)用的機(jī)器學(xué)習(xí)方法為隨機(jī)森林和XGBOOST分析方法，從準(zhǔn)確性和模型規(guī)范性上，對預(yù)測公司未來ROE有著質(zhì)的提高。

二、數(shù)據(jù)處理與模型介紹

（一）數(shù)據(jù)選擇

根據(jù)杜邦分析我們可以知：資產(chǎn)凈利率是影響權(quán)益凈利率的最重要的指標(biāo)，具有很強(qiáng)的綜合性，而資產(chǎn)凈利率又取決于銷售凈利率和總資產(chǎn)周轉(zhuǎn)率的高低。總資產(chǎn)周轉(zhuǎn)率是反映總資產(chǎn)的周轉(zhuǎn)速度。對資產(chǎn)周轉(zhuǎn)率的分析，需要對影響資產(chǎn)周轉(zhuǎn)的各因素進(jìn)行分析，以判明影響公司資產(chǎn)周轉(zhuǎn)的主要問題在哪里。銷售凈利率反映銷售收入的收益水平。擴(kuò)大銷售收入，降低成本費(fèi)用是提高企業(yè)銷售利潤率的根本途徑，而擴(kuò)大銷售，同時(shí)也是提高資產(chǎn)周轉(zhuǎn)率的必要條件和途徑。

因此，在選擇杜邦因素?cái)?shù)據(jù)方面，我們選擇資產(chǎn)周轉(zhuǎn)率、利潤率、債務(wù)資本比率;杜邦因素之外的因素通過分析企業(yè)數(shù)據(jù)相關(guān)程度選擇了成長速度、市倍率、收入質(zhì)量、資產(chǎn)規(guī)模、當(dāng)年凈資產(chǎn)收益率作為指標(biāo)。

（二）數(shù)據(jù)處理

根據(jù)choice金融客戶端，通過比率分析，由抽取決策好的數(shù)據(jù)，并由下一年度ROE作為預(yù)測標(biāo)準(zhǔn)，本文選取了2432條觀測數(shù)據(jù)如表1，以此提高機(jī)器學(xué)習(xí)的準(zhǔn)確性，通過與線性回歸的對比，驗(yàn)證其回歸的準(zhǔn)確性與優(yōu)越性。

（三）數(shù)據(jù)描述

1. 數(shù)據(jù)統(tǒng)計(jì)性描述

為驗(yàn)證其選擇數(shù)據(jù)準(zhǔn)確性，應(yīng)檢測模型因素的準(zhǔn)確性：

2. 數(shù)據(jù)相關(guān)性分析（圖2）

3. 數(shù)據(jù)顯著性分析

圖3中我們可以看到，每個(gè)變量均普遍顯著，適合做回歸分析。

（四）模型介紹

1. 隨機(jī)森林（Radom Forest）

本節(jié)提出適用于本問題的隨機(jī)森林預(yù)測模型，介紹基于隨機(jī)森林的電話銷售車險(xiǎn)預(yù)測模型，最后討論該模型的設(shè)置。

隨機(jī)森林為有監(jiān)督學(xué)習(xí)算法，是在 Bagging算法的基礎(chǔ)之上改動演化而來。Bagging算法是在原始的數(shù)據(jù)集上采用有放回的隨機(jī)取樣的方式來抽取m個(gè)子樣本，利用這m個(gè)子樣本訓(xùn)練 m 個(gè)基學(xué)習(xí)器，以此來降低了模型的方差。而隨機(jī)森林的兩處改動，第一，不僅隨機(jī)的從原始數(shù)據(jù)集中隨機(jī)地抽取 m 個(gè)子樣本，而且在訓(xùn)練每個(gè)基學(xué)習(xí)器的時(shí)候，不是從所有特征中選擇最優(yōu)特征來進(jìn)行節(jié)點(diǎn)的切分，而是隨機(jī)地選取 k 個(gè)特征，從這k 個(gè)特征中選擇最優(yōu)特征來切分節(jié)點(diǎn)，從而更進(jìn)一步地降低了模型的方差;第二，隨機(jī)森林使用的基學(xué)習(xí)器是CART 決策樹。隨機(jī)森林隨機(jī)選擇的樣本子集大小 m 越小模型的方差就會越小，但是偏差會越大，所以在實(shí)際應(yīng)用中，通過交叉驗(yàn)證的方式來調(diào)參，從而獲取一個(gè)合適的樣本子集的大小。

集成方法由兩層算法組成，訓(xùn)練成百上千個(gè)基學(xué)習(xí)器的低層算法，上層的算法控制基學(xué)習(xí)器的訓(xùn)練，使這些基學(xué)習(xí)器近乎相互獨(dú)立，這樣將這些基學(xué)習(xí)器組合起來就可以減少組合后的誤差方差。自舉集成方法對訓(xùn)練數(shù)據(jù)集進(jìn)行自舉抽樣（即在一個(gè)原始樣本中進(jìn)行有放回的重復(fù)抽樣），然后基于這一樣本訓(xùn)練基學(xué)習(xí)器。隨機(jī)森林是將自舉集成作為高層算法，將修改版的二元決策樹作為基學(xué)習(xí)器，這樣有效地利用了決策樹與集成方法的優(yōu)點(diǎn)，同時(shí)避免了決策樹的一些常見缺陷。隨機(jī)森林的基學(xué)習(xí)器是二元決策樹，分割點(diǎn)的選擇是基于所有屬性的一個(gè)隨機(jī)抽樣，而不是考慮所有屬性。

2. ?XGBoost

XGBoost算法是由華盛頓大學(xué)的陳天奇博士提出，在Kaggle的希格斯子信號識別競賽中使用，因其出眾的效率與較高的預(yù)測準(zhǔn)確度而引起了廣泛的關(guān)注。XGBoost（Extreme Gradient Boosting）是GBDT的一種高效實(shí)現(xiàn)，該算法可以做線性回歸分類器，也可以做CART回歸樹。常規(guī)的GBDT算法是利用一階導(dǎo)數(shù)算出的導(dǎo)數(shù)信息，而XGBoost是對損失函數(shù)做了二階泰勒公式推導(dǎo)，使其提高模型的高效運(yùn)行。XGBoost也學(xué)習(xí)了隨機(jī)森林的優(yōu)點(diǎn)，支持列抽樣。具體到數(shù)據(jù)上，當(dāng)訓(xùn)練數(shù)據(jù)為稀疏值時(shí)，XGBoost可以為缺失值或者指定值設(shè)置分支的默認(rèn)分裂方向，這能大大提升算法的效率。雖然Boosting算法迭代本身不能支持并行，但XGBoost可以支持在特征級別上的并行計(jì)算，以上這些改進(jìn)都使得XGBoost在防止過擬合和計(jì)算效率提升上都有了顯著的提升。

三、模型驗(yàn)證

（一）線性回歸

根據(jù)線性回歸的結(jié)果來看，可列出回歸方程：

下一年ROE=3.354×資產(chǎn)周轉(zhuǎn)率+0.485×利潤率-4.106×債務(wù)資本比率-0.0002成長速度-0.122×市倍率+0.057×收入質(zhì)量+1.106×資產(chǎn)規(guī)模+0.581×當(dāng)年凈資產(chǎn)收益率-23.781

但R2僅僅只達(dá)到了8%，是一個(gè)相當(dāng)?shù)偷闹担紤]到多元回歸方程的原理僅僅為最小二乘法，但由于數(shù)據(jù)較為分散，控制回歸會造成準(zhǔn)確度偏低的情況，因此，此時(shí)僅僅運(yùn)用多元回歸是行不通的。

（二）RadomForest

1. RadomForest重要性分析

從Radom Forst給出的重要性權(quán)重中，可以看到當(dāng)年ROE的對于預(yù)測下一年ROE有著重大的影響。

2. 模型精確度

[1]0.9919333

過歷史數(shù)據(jù)檢驗(yàn)，我們可以將準(zhǔn)確度控制在99.19333%，這是一個(gè)相當(dāng)大的準(zhǔn)確度，但是模型的難度也相當(dāng)龐大，建立模型的時(shí)間消耗巨大。

（三）XGBoost

1. 因素重要性分析（圖6）

與隨機(jī)森林的學(xué)習(xí)模型相同，當(dāng)年ROE與下一年ROE有著密不可分的關(guān)系，這也是提高精確度必備可少的因素。

2. 模型精確度

通過XGBoost模型，可以迅速高效率地得到較為準(zhǔn)確的預(yù)測模型，精確度達(dá)到了98.35419%?？梢钥吹剑m然XGBoost精確度不如Radom Forest，但是從其速度來說，更勝Radom Forest一籌。

四、結(jié)論

對比原始的多元回歸分析，Radom Forest和XGBoost都有不同程度優(yōu)勢，在準(zhǔn)確度方面，Radom Forest要比XGBoost模型有著更準(zhǔn)確的優(yōu)點(diǎn)，但其缺點(diǎn)也更加明顯：隨著數(shù)據(jù)的增多，其訓(xùn)練模型耗費(fèi)的時(shí)間也越多，XGBoost在提升了速度之后，缺失了一部分準(zhǔn)確度，由于數(shù)據(jù)過少，或者數(shù)據(jù)變量不夠充分等因素或許是造成缺失準(zhǔn)確度的原因。

五、結(jié)束語

本文對傳統(tǒng)的預(yù)測下一年度ROE問題進(jìn)行了創(chuàng)新與改進(jìn)，基于XGBoost和Radom Forest模型的預(yù)測結(jié)果往往更具有代表性，準(zhǔn)確性和快速性，并經(jīng)過數(shù)據(jù)對其模型的準(zhǔn)確性進(jìn)行驗(yàn)證，在今后金融市場投資者選擇被投資公司的實(shí)踐中，可以加入更多的有關(guān)變量提供模型的準(zhǔn)確程度，這對調(diào)整對投資者投資行為指導(dǎo)有著巨大的意義，如果簡單做一次預(yù)測ROE分析的話，根據(jù)現(xiàn)有的ROE數(shù)據(jù)進(jìn)行判斷，往往有著不俗的預(yù)測表現(xiàn)。

作者簡介：

翟玉奇，山西大學(xué)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于機(jī)器學(xué)習(xí)對公司未來ROE預(yù)測的研究