摘 要:ROE作為評價(jià)公司盈利能力的重要指標(biāo),可衡量公司對股東投入資本的利用效率。它彌補(bǔ)了每股稅后利潤指標(biāo)的不足,因此,每一次的ROE都是影響上市公司的股價(jià)、未來業(yè)績以及投資者期望進(jìn)而營銷的其投資者的投資決策。本文根據(jù)杜邦分析法中的若干因素,結(jié)合其他分析因子,運(yùn)用R軟件,通過機(jī)器學(xué)習(xí),構(gòu)建模型,有效彌補(bǔ)了簡單的多元回歸擬合不精確的情況,為預(yù)測公司ROE提供了一個(gè)新的方法,也為投資人進(jìn)行投資決策提供了一個(gè)重要依據(jù)。
關(guān)鍵詞:ROE;杜邦分析;多元回歸;機(jī)器學(xué)習(xí)
一、 引言
凈資產(chǎn)報(bào)酬率(ROE),是企業(yè)一定時(shí)期的凈利潤與平均凈資產(chǎn)之比,該指標(biāo)反映了企業(yè)所有者所獲投資報(bào)酬的大小。該指標(biāo)越好,則表示企業(yè)的經(jīng)營給股東的回報(bào)越高,越容易吸引市場投資者的關(guān)注。如果企業(yè)對其財(cái)務(wù)管理的意識缺乏,就會盲目樂觀,意識不到潛在的危機(jī),可能會導(dǎo)致企業(yè)遭到巨大的損失。所以,只有用科學(xué)的方法進(jìn)行綜合性的財(cái)務(wù)預(yù)測才能對于企業(yè)的日常和未來的發(fā)展提供有效的建議,從而不斷促進(jìn)企業(yè)自身的發(fā)展。
傳統(tǒng)的財(cái)務(wù)預(yù)測只能從單一的盈利能力、營運(yùn)能力、償債能力和發(fā)展能力進(jìn)行簡單分析,另外杜邦財(cái)務(wù)分析體系可以全面概括以上四個(gè)能力的分析結(jié)果。能夠幫助企業(yè)的管理決策者對企業(yè)財(cái)務(wù)狀況有更加全面、更具全局性的了解,但由于其內(nèi)在因素可能會產(chǎn)生共線性或相關(guān)性較大的因素,應(yīng)在杜邦分析的基礎(chǔ)上,加入其保函因素之外的變量加以預(yù)測,進(jìn)而及時(shí)調(diào)整企業(yè)的發(fā)展策略以及管理結(jié)構(gòu),使企業(yè)向正確的方向發(fā)展和進(jìn)步。
機(jī)器學(xué)習(xí)是研究怎樣使用計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動的科學(xué),是人工智能中最具智能特征,最前沿的研究領(lǐng)域之一。本文運(yùn)用的機(jī)器學(xué)習(xí)方法為隨機(jī)森林和XGBOOST分析方法,從準(zhǔn)確性和模型規(guī)范性上,對預(yù)測公司未來ROE有著質(zhì)的提高。
二、 數(shù)據(jù)處理與模型介紹
(一)數(shù)據(jù)選擇
根據(jù)杜邦分析我們可以知:資產(chǎn)凈利率是影響權(quán)益凈利率的最重要的指標(biāo),具有很強(qiáng)的綜合性,而資產(chǎn)凈利率又取決于銷售凈利率和總資產(chǎn)周轉(zhuǎn)率的高低。總資產(chǎn)周轉(zhuǎn)率是反映總資產(chǎn)的周轉(zhuǎn)速度。對資產(chǎn)周轉(zhuǎn)率的分析,需要對影響資產(chǎn)周轉(zhuǎn)的各因素進(jìn)行分析,以判明影響公司資產(chǎn)周轉(zhuǎn)的主要問題在哪里。銷售凈利率反映銷售收入的收益水平。擴(kuò)大銷售收入,降低成本費(fèi)用是提高企業(yè)銷售利潤率的根本途徑,而擴(kuò)大銷售,同時(shí)也是提高資產(chǎn)周轉(zhuǎn)率的必要條件和途徑。
因此,在選擇杜邦因素?cái)?shù)據(jù)方面,我們選擇資產(chǎn)周轉(zhuǎn)率、利潤率、債務(wù)資本比率;杜邦因素之外的因素通過分析企業(yè)數(shù)據(jù)相關(guān)程度選擇了成長速度、市倍率、收入質(zhì)量、資產(chǎn)規(guī)模、當(dāng)年凈資產(chǎn)收益率作為指標(biāo)。
(二)數(shù)據(jù)處理
根據(jù)choice金融客戶端,通過比率分析,由抽取決策好的數(shù)據(jù),并由下一年度ROE作為預(yù)測標(biāo)準(zhǔn),本文選取了2432條觀測數(shù)據(jù)如表1,以此提高機(jī)器學(xué)習(xí)的準(zhǔn)確性,通過與線性回歸的對比,驗(yàn)證其回歸的準(zhǔn)確性與優(yōu)越性。
(三)數(shù)據(jù)描述
1. 數(shù)據(jù)統(tǒng)計(jì)性描述
為驗(yàn)證其選擇數(shù)據(jù)準(zhǔn)確性,應(yīng)檢測模型因素的準(zhǔn)確性:
2. 數(shù)據(jù)相關(guān)性分析(圖2)
3. 數(shù)據(jù)顯著性分析
圖3中我們可以看到,每個(gè)變量均普遍顯著,適合做回歸分析。
(四)模型介紹
1. 隨機(jī)森林(Radom Forest)
本節(jié)提出適用于本問題的隨機(jī)森林預(yù)測模型,介紹基于隨機(jī)森林的電話銷售車險(xiǎn)預(yù)測模型,最后討論該模型的設(shè)置。
隨機(jī)森林為有監(jiān)督學(xué)習(xí)算法,是在 Bagging算法的基礎(chǔ)之上改動演化而來。Bagging算法是在原始的數(shù)據(jù)集上采用有放回的隨機(jī)取樣的方式來抽取m個(gè)子樣本,利用這m個(gè)子樣本訓(xùn)練 m 個(gè)基學(xué)習(xí)器,以此來降低了模型的方差。而隨機(jī)森林的兩處改動,第一,不僅隨機(jī)的從原始數(shù)據(jù)集中隨機(jī)地抽取 m 個(gè)子樣本,而且在訓(xùn)練每個(gè)基學(xué)習(xí)器的時(shí)候,不是從所有特征中選擇最優(yōu)特征來進(jìn)行節(jié)點(diǎn)的切分,而是隨機(jī)地選取 k 個(gè)特征,從這k 個(gè)特征中選擇最優(yōu)特征來切分節(jié)點(diǎn),從而更進(jìn)一步地降低了模型的方差;第二,隨機(jī)森林使用的基學(xué)習(xí)器是CART 決策樹。隨機(jī)森林隨機(jī)選擇的樣本子集大小 m 越小模型的方差就會越小,但是偏差會越大,所以在實(shí)際應(yīng)用中,通過交叉驗(yàn)證的方式來調(diào)參,從而獲取一個(gè)合適的樣本子集的大小。
集成方法由兩層算法組成,訓(xùn)練成百上千個(gè)基學(xué)習(xí)器的低層算法,上層的算法控制基學(xué)習(xí)器的訓(xùn)練,使這些基學(xué)習(xí)器近乎相互獨(dú)立,這樣將這些基學(xué)習(xí)器組合起來就可以減少組合后的誤差方差。自舉集成方法對訓(xùn)練數(shù)據(jù)集進(jìn)行自舉抽樣(即在一個(gè)原始樣本中進(jìn)行有放回的重復(fù)抽樣),然后基于這一樣本訓(xùn)練基學(xué)習(xí)器。隨機(jī)森林是將自舉集成作為高層算法,將修改版的二元決策樹作為基學(xué)習(xí)器,這樣有效地利用了決策樹與集成方法的優(yōu)點(diǎn),同時(shí)避免了決策樹的一些常見缺陷。隨機(jī)森林的基學(xué)習(xí)器是二元決策樹,分割點(diǎn)的選擇是基于所有屬性的一個(gè)隨機(jī)抽樣,而不是考慮所有屬性。
2. ?XGBoost
XGBoost算法是由華盛頓大學(xué)的陳天奇博士提出,在Kaggle的希格斯子信號識別競賽中使用,因其出眾的效率與較高的預(yù)測準(zhǔn)確度而引起了廣泛的關(guān)注。XGBoost(Extreme Gradient Boosting)是GBDT的一種高效實(shí)現(xiàn),該算法可以做線性回歸分類器,也可以做CART回歸樹。常規(guī)的GBDT算法是利用一階導(dǎo)數(shù)算出的導(dǎo)數(shù)信息,而XGBoost是對損失函數(shù)做了二階泰勒公式推導(dǎo),使其提高模型的高效運(yùn)行。XGBoost也學(xué)習(xí)了隨機(jī)森林的優(yōu)點(diǎn),支持列抽樣。具體到數(shù)據(jù)上,當(dāng)訓(xùn)練數(shù)據(jù)為稀疏值時(shí),XGBoost可以為缺失值或者指定值設(shè)置分支的默認(rèn)分裂方向,這能大大提升算法的效率。雖然Boosting算法迭代本身不能支持并行,但XGBoost可以支持在特征級別上的并行計(jì)算,以上這些改進(jìn)都使得XGBoost在防止過擬合和計(jì)算效率提升上都有了顯著的提升。
三、 模型驗(yàn)證
(一)線性回歸
根據(jù)線性回歸的結(jié)果來看,可列出回歸方程:
下一年ROE=3.354×資產(chǎn)周轉(zhuǎn)率+0.485×利潤率-4.106×債務(wù)資本比率-0.0002成長速度-0.122×市倍率+0.057×收入質(zhì)量+1.106×資產(chǎn)規(guī)模+0.581×當(dāng)年凈資產(chǎn)收益率-23.781
但R2僅僅只達(dá)到了8%,是一個(gè)相當(dāng)?shù)偷闹担紤]到多元回歸方程的原理僅僅為最小二乘法,但由于數(shù)據(jù)較為分散,控制回歸會造成準(zhǔn)確度偏低的情況,因此,此時(shí)僅僅運(yùn)用多元回歸是行不通的。
(二)RadomForest
1. RadomForest重要性分析
從Radom Forst給出的重要性權(quán)重中,可以看到當(dāng)年ROE的對于預(yù)測下一年ROE有著重大的影響。
2. 模型精確度
[1]0.9919333
過歷史數(shù)據(jù)檢驗(yàn),我們可以將準(zhǔn)確度控制在99.19333%,這是一個(gè)相當(dāng)大的準(zhǔn)確度,但是模型的難度也相當(dāng)龐大,建立模型的時(shí)間消耗巨大。
(三)XGBoost
1. 因素重要性分析(圖6)
與隨機(jī)森林的學(xué)習(xí)模型相同,當(dāng)年ROE與下一年ROE有著密不可分的關(guān)系,這也是提高精確度必備可少的因素。
2. 模型精確度
通過XGBoost模型,可以迅速高效率地得到較為準(zhǔn)確的預(yù)測模型,精確度達(dá)到了98.35419%??梢钥吹剑m然XGBoost精確度不如Radom Forest,但是從其速度來說,更勝Radom Forest一籌。
四、 結(jié)論
對比原始的多元回歸分析,Radom Forest和XGBoost都有不同程度優(yōu)勢,在準(zhǔn)確度方面,Radom Forest要比XGBoost模型有著更準(zhǔn)確的優(yōu)點(diǎn),但其缺點(diǎn)也更加明顯:隨著數(shù)據(jù)的增多,其訓(xùn)練模型耗費(fèi)的時(shí)間也越多,XGBoost在提升了速度之后,缺失了一部分準(zhǔn)確度,由于數(shù)據(jù)過少,或者數(shù)據(jù)變量不夠充分等因素或許是造成缺失準(zhǔn)確度的原因。
五、 結(jié)束語
本文對傳統(tǒng)的預(yù)測下一年度ROE問題進(jìn)行了創(chuàng)新與改進(jìn),基于XGBoost和Radom Forest模型的預(yù)測結(jié)果往往更具有代表性,準(zhǔn)確性和快速性,并經(jīng)過數(shù)據(jù)對其模型的準(zhǔn)確性進(jìn)行驗(yàn)證,在今后金融市場投資者選擇被投資公司的實(shí)踐中,可以加入更多的有關(guān)變量提供模型的準(zhǔn)確程度,這對調(diào)整對投資者投資行為指導(dǎo)有著巨大的意義,如果簡單做一次預(yù)測ROE分析的話,根據(jù)現(xiàn)有的ROE數(shù)據(jù)進(jìn)行判斷,往往有著不俗的預(yù)測表現(xiàn)。
作者簡介:
翟玉奇,山西大學(xué)。