劉可馨,劉高生,趙靜文
(1.天津商業(yè)大學(xué) 理學(xué)院,天津 300134; 2.天津城建大學(xué) 經(jīng)濟(jì)與管理學(xué)院,天津 300384)
分位數(shù)回歸模型[1]將數(shù)據(jù)按因變量拆分成多個(gè)分位數(shù)點(diǎn),研究不同分位點(diǎn)情況下的回歸影響關(guān)系情況。分位數(shù)回歸主要有兩個(gè)作用:一是分析不同分位數(shù)條件下自變量對(duì)于因變量的影響關(guān)系;二是分位數(shù)回歸模型具有穩(wěn)健性。由于模型中可能存在異常值、異方差等問(wèn)題,會(huì)導(dǎo)致回歸結(jié)果出現(xiàn)偏差,通過(guò)線性回歸模型無(wú)法了解自變量對(duì)于因變量的影響關(guān)系,因此建立分位數(shù)回歸模型,可以很好地解決異常值及異方差等問(wèn)題[2-3]。
R軟件是開(kāi)源、免費(fèi)統(tǒng)計(jì)軟件,R軟件及其軟件包都很容易得到。由于研究者可提交軟件包,許多前沿統(tǒng)計(jì)方法均可在R軟件中實(shí)現(xiàn)。本研究給出了數(shù)字金融發(fā)展對(duì)企業(yè)金融資產(chǎn)投資的影響程度分析的R軟件實(shí)施過(guò)程。利用glmnet()函數(shù)進(jìn)行l(wèi)asso變量選擇,利用step()函數(shù)進(jìn)行再次變量選擇,利用lm()函數(shù)建立多元線性回歸模型,由于殘差為非正態(tài)分布,利用rq()函數(shù)建立分位數(shù)回歸模型。
lasso函數(shù):glmnet()函數(shù),通過(guò)懲罰的最大似然擬合廣義線性模型。函數(shù)用法:glmnet(x,y,…)。主要參數(shù):x每行都是一個(gè)觀測(cè)向量,可以采用稀疏矩陣格式;y是響應(yīng)變量。cv.glmnet(),對(duì) glmnet 進(jìn)行 k 折疊交叉驗(yàn)證,生成一個(gè)繪圖并返回一個(gè)值,函數(shù)用法:cv.glmnet(x,y,…)。
逐步回歸函數(shù):step()函數(shù),通過(guò)AIC選擇基于公式的模型。函數(shù)用法:step(object, scope, scale=0,direction=c(″both″, ″backward″, ″forward″), trace=1, keep=NULL, steps=1000, k=2,…) 。主要參數(shù):object用作逐步搜索中的初始模型,如“l(fā)m”。Scope是在逐步搜索中檢查模型范圍。Scale是定義AIC統(tǒng)計(jì)量時(shí)用于選擇模型。
多元線性回歸函數(shù):lm()函數(shù)。函數(shù)用法:lm(formula,data,subset,weights, na.action,method =″qr″,model=TRUE,x=FALSE,y=FALSE,qr=TRUE,singular.ok=TRUE,contrasts=NULL,offset,…)。 主要參數(shù): formula是要擬合的模型符號(hào)描述,data是包含模型中變量的可選數(shù)據(jù)框、列表或環(huán)境。
分位數(shù)回歸:rq()函。函數(shù)用法:rq(formula, tau=.5,…)。主要參數(shù):formula是一個(gè)公式對(duì)象,tau是要估計(jì)的分位數(shù),通常是介于0和1之間。
2.2.1 建模步驟
為研究數(shù)字金融發(fā)展對(duì)企業(yè)金融資產(chǎn)投資的影響,以企業(yè)金融資產(chǎn)投資為因變量,選擇的控制變量[4-5]依次為:x1:企業(yè)規(guī)模,以總資產(chǎn)的自然對(duì)數(shù)表示;x2:企業(yè)資產(chǎn)負(fù)債率,以總負(fù)債占總資產(chǎn)的比重表示;x3:資產(chǎn)收益率,即公司凈利潤(rùn)與總資產(chǎn)之比;x4:經(jīng)營(yíng)性現(xiàn)金流,以經(jīng)營(yíng)性現(xiàn)金流量?jī)纛~與總資產(chǎn)之比表示。核心自變量指標(biāo),x5:時(shí)間變量,x6:數(shù)字金融發(fā)展水平[6]。采用北京大學(xué)普惠數(shù)字金融指數(shù)省級(jí)層面指數(shù)來(lái)表示。所用數(shù)據(jù)為2011-2018年A股上市公司的經(jīng)營(yíng)活動(dòng)相關(guān)的年度數(shù)據(jù),數(shù)據(jù)來(lái)源于國(guó)泰安數(shù)據(jù)庫(kù)。
第一步:讀入數(shù)據(jù),設(shè)置所需要的自變量,并對(duì)自變量進(jìn)行預(yù)處理。read()讀入數(shù)據(jù),將數(shù)據(jù)中的自變量設(shè)為x1,x2,x3,x4,x5,x6;scale()函數(shù)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。第二步:進(jìn)行l(wèi)asso回歸。cv.glmnet()對(duì)自變量及其交叉項(xiàng)進(jìn)行l(wèi)asso回歸;plot()畫出回歸圖。第三步:對(duì)lasso回歸中的自變量進(jìn)行逐步回歸,選擇最優(yōu)變量。step()進(jìn)行逐步回歸,利用AIC最小準(zhǔn)則,選出顯著性最好的變量。第四步:對(duì)上一步得出的最優(yōu)變量進(jìn)行多元線性回歸。lm()進(jìn)行擬合。第五步:對(duì)線性回歸的方程進(jìn)行殘差分析。第六步:進(jìn)行分位數(shù)回歸。rq()函數(shù)進(jìn)行分位數(shù)回歸。
2.2.2 實(shí)證分析及結(jié)果展示
加載需要的包。需要的函數(shù)包主要為glmnet包、corrplot包及quantreg包。代碼如下:library(corrplot); library(SparseM); library(quantreg);library(Matrix);library(glmnet)。
讀取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理再進(jìn)行分析。lasso回歸進(jìn)行變量選擇,采用cv.glmnet()函數(shù)對(duì)自變量及其交叉項(xiàng)進(jìn)行l(wèi)asso回歸,代碼如下:
xx=cbind(x1,x2,x3,x4,x5,x6,x1*x6,x2*x6,x3*x6,x4*x6,x5*x6,x6*x6)
fit=cv.glmnet(xx, fin_asset)
lambda.optimal=fit$lambda.min
coef(fit, s=lambda.optimal)
輸出結(jié)果為:
13x1 sparse Matrix of class ″dgCMatrix″
s1(Intercept) -0.013778022V1 -0.407741047V2 0.237473071V3 0.046858447V4 -0.005865020V5 0.080697212V6 0.027976089V7 -0.049587383V8 0.027701505V9 0.004126360V10 -0.003231403V11 . V12 0.016716786
根據(jù)lasso回歸結(jié)果顯示,去掉了變量x5*x6,保留了其余的11個(gè)變量。通過(guò)corrplot函數(shù)發(fā)現(xiàn)自變量之間仍存在相關(guān)性,因此利用step函數(shù)再次選擇自變量,代碼如下:
fit_step=step(lm(fin_asset~x1+x2+x3+x4+x5+x6+x1*x6+x2*x6+x3*x6+x4*x6+x6*x6),direction=″both″)
輸出結(jié)果(僅保留部分結(jié)果):
Step: AIC=-2468.59
fin_asset~x1+x2+x3+x5+x6+x1:x6+x2:x6
Df Sum of Sq RSS AIC
利用AIC最小準(zhǔn)則,選出顯著性最好的變量為x1、x2、x3、x5、x6、x1*x6、x2*x6。定義所選的自變量為X,corrplot函數(shù)發(fā)現(xiàn)自變量之間相關(guān)性較若,主要代碼如下:
X=cbind(x1,x2,x3,x5,x6,x1*x6,x2*x6)
corrplot(cor(X),method=″color″)
對(duì)上一步得出的最優(yōu)變量進(jìn)行多元線性回歸。利用lm()函數(shù)建立多元線性回歸模型,代碼如下:
lmmode=summary(lm(fin_asset~X))
輸出結(jié)果為:
Call:
lm(formula=fin_asset~X)
Residuals:
Min 1Q Median 3Q Max -3.5008 -0.3484 -0.1619 0.0898 21.3845
Coefficients:
Estimate Std. Error t value Pr(>|t|) (Intercept) 0.002516 0.007144 0.352 0.724667 X1 -0.410904 0.008266 -49.709 < 2e-16***X2 0.242049 0.008618 28.088 < 2e-16***X3 0.052568 0.007790 6.748 1.55e-11***X4 0.088899 0.007744 11.480 < 2e-16***X5 0.046040 0.007736 5.952 2.71e-09***X6 -0.049360 0.007654 -6.449 1.16e-10***X7 0.028334 0.008036 3.526 0.000423***
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9298 on 17016 degrees of freedom
Multiple R-squared: 0.1357, Adjusted R-squared: 0.1354
F-statistic: 381.8 on 7 and 17016 DF, p-value: < 2.2e-16
由結(jié)果得出P值<0.05,通過(guò)F檢驗(yàn),即回歸方程顯著,各自變量通過(guò)t檢驗(yàn),即所有回歸系數(shù)顯著。回歸方程為:
fin_asset=-0.4109x1+0.2420x2+0.0526x3+0.0889x5+0.0460x6-0.0494x1*x6+0.0283x2*x6+0.0025
之后對(duì)多元回歸模型得到的殘差進(jìn)行分析,主要代碼如下:
par(mfrow=c(2,2))
plot(lmmode$residual,main=″residual″)
plot(density(lmmode$residual))
hist(lmmode$residual)
boxplot(lmmode$residual,xlab=″box plot″, main=″residual″)
由多元線性回歸模型得到殘差的散點(diǎn)圖和箱線圖可看出數(shù)據(jù)存在一些異常點(diǎn),由密度圖和直方圖可看出殘差是有偏的,因此采用ks函數(shù)對(duì)殘差進(jìn)行正態(tài)性檢驗(yàn),代碼如下:
ks.test(lmmode$residual,″pnorm″,mean(lmmode$residual),sqrt(var(lmmode$residual)))
輸出結(jié)果為:
e-sample Kolmogorov-Smirnov test
data: lmmode$residual
D=0.22526, p-value < 2.2e-16
alternative hypothesis: two-sided
由檢驗(yàn)統(tǒng)計(jì)量的P值<0.05,可得拒絕原假設(shè),即認(rèn)為殘差不服從正態(tài)分布,因此考慮建立分位數(shù)回歸模型。利用rq()函數(shù)進(jìn)行分位數(shù)回歸,主要代碼如下:
rqy25=summary(rq(fin_asset~X,tau=0.25),covariance=TRUE,se=″ker″)
rqy50=summary(rq(fin_asset~X,tau=0.5),covariance=TRUE,se=″ker″)
rqy75=summary(rq(fin_asset~X,tau=0.75),covariance=TRUE,se=″ker″)
輸出結(jié)果以0.5分位數(shù)結(jié)果為例:
Call: rq(formula=fin_asset ~ X, tau=0.5)
tau:[1] 0.5
Coefficients:
Value Std. Error t value Pr(>|t|) (Intercept) -0.25069 0.00135 -185.81202 0.00000X1 -0.00476 0.00208 -2.28271 0.02246X2 0.01887 0.00149 12.66249 0.00000X3 -0.00293 0.00207 -1.41373 0.15746X4 0.01946 0.00104 18.71356 0.00000X5 0.01122 0.00166 6.76650 0.00000X6 -0.00419 0.00254 -1.65004 0.09895X7 0.00160 0.00187 0.85770 0.39107
由結(jié)果知x1、x2、x5、x6的P值<0.05,通過(guò)t檢驗(yàn),其系數(shù)顯著,x3、x1*x6、x2*x6的P值>0.05,未通過(guò)t檢驗(yàn),其系數(shù)不顯著,可以通過(guò)實(shí)際分析其具有的經(jīng)濟(jì)學(xué)意義。通過(guò)分位數(shù)回歸模型可得,在不同的分位數(shù)水平下,數(shù)字金融發(fā)展對(duì)企業(yè)金融資產(chǎn)投資的影響不同[7-9]。
利用A股上市公司的經(jīng)營(yíng)活動(dòng)數(shù)據(jù),通過(guò)分析數(shù)字金融發(fā)展對(duì)企業(yè)金融資產(chǎn)投資的影響,給出了從變量選擇到建立分位數(shù)回歸模型的整個(gè)過(guò)程。這個(gè)過(guò)程對(duì)于利用R軟件建立分位數(shù)模型具有一定的參考意義,同時(shí)根據(jù)相關(guān)結(jié)論,可以給出促進(jìn)數(shù)字金融發(fā)展服務(wù)企業(yè)金融資產(chǎn)投資的建議。