呂雙爻 宋雨芬
摘 要:當(dāng)前,金融業(yè)發(fā)展日趨全球化、多元化,金融業(yè)內(nèi)部業(yè)務(wù)相互滲透、交叉,國(guó)際資本之間相互合作與競(jìng)爭(zhēng),我國(guó)的券商發(fā)展環(huán)境正發(fā)生巨大變化。東方財(cái)富以互聯(lián)網(wǎng)金融數(shù)據(jù)服務(wù)為基礎(chǔ),整合券商、基金、期貨等資本市場(chǎng)業(yè)務(wù),顛覆傳統(tǒng)證券服務(wù)業(yè),現(xiàn)已成為中國(guó)最大市值證券機(jī)構(gòu)?;诖?,本文以2021年12月20日至2022年12月20日東方財(cái)富整年的股票數(shù)據(jù)為例,基于排序法計(jì)算VaR,并基于定義每日違約情況,運(yùn)用Logit、SVM、NNET、Decision Tree、KNN等非機(jī)器學(xué)習(xí)和機(jī)器學(xué)習(xí)五種方法對(duì)東方財(cái)富股價(jià)進(jìn)行分析,探究各變量對(duì)違約率的影響。
關(guān)鍵詞:VaR;排序法;分類算法;風(fēng)險(xiǎn)評(píng)估;股價(jià)預(yù)測(cè)
本文索引:呂雙爻,宋雨芬.<變量 2>[J].中國(guó)商論,2023(14):-112.
中圖分類號(hào):F832 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2023)07(b)--04
1 引言
我國(guó)證券市場(chǎng)已成為國(guó)民經(jīng)濟(jì)的重要組成部分,在我國(guó)經(jīng)濟(jì)的發(fā)展中發(fā)揮著越來(lái)越重要的作用。當(dāng)前,股票市場(chǎng)投資證券已成為熱門(mén)話題。股票市場(chǎng)在帶來(lái)高回報(bào)的同時(shí),也存在高風(fēng)險(xiǎn)。股票市場(chǎng)規(guī)模的擴(kuò)大,交易種類的增加以及投資者偏好的變化使股票市場(chǎng)最終成為一個(gè)非線性、非平穩(wěn)性和其他屬性混合的復(fù)雜動(dòng)態(tài)系統(tǒng)。
在此背景下,如何正確預(yù)測(cè)股價(jià)走勢(shì)成為學(xué)者們的重要研究方向。從最初的ARMA、多元GARCH等時(shí)間序列方法,到人工神經(jīng)網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等神經(jīng)網(wǎng)絡(luò)模型,都起到了良好的預(yù)測(cè)效果。但是,很多時(shí)候并不需要預(yù)測(cè)一只股票未來(lái)的具體漲跌幅,而是希望預(yù)測(cè)股票未來(lái)是漲還是跌,這意味著本文需要處理的是一個(gè)分類問(wèn)題而不是回歸問(wèn)題,因此研究股票價(jià)格的分類方法具有重要的現(xiàn)實(shí)意義。
同時(shí),在眾多風(fēng)險(xiǎn)度量模型中,VaR因其測(cè)量風(fēng)險(xiǎn)的定量性、綜合性、通俗性等特點(diǎn)在各金融機(jī)構(gòu)中獲得了廣泛應(yīng)用和推廣,并且被認(rèn)為是國(guó)際金融風(fēng)險(xiǎn)度量的標(biāo)準(zhǔn)。
因此,本文以2021年12月20日至2022年12月20日一年期的東方財(cái)富股票數(shù)據(jù)為樣本,引入多種常用的分類器——Logit分類、K最近鄰(K-nearest neighbor,KNN)、決策樹(shù)(decision tree,DT)和支持向量機(jī)(support vector machine SVM)、神經(jīng)網(wǎng)絡(luò)(Neural network)來(lái)預(yù)測(cè)其極端風(fēng)險(xiǎn)出現(xiàn)的概率,以更有效地針對(duì)東方財(cái)富進(jìn)行數(shù)據(jù)挖掘,并為后續(xù)股票個(gè)股研究提供參考。
2 文獻(xiàn)回顧
2.1 國(guó)外研究現(xiàn)狀
G.Peter等(2003)和Wijaya等(2010)的研究分別比較了ARIMA模型和人工神經(jīng)網(wǎng)絡(luò)ANN模型在進(jìn)行股票預(yù)測(cè)時(shí)兩者的性能,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)人工神經(jīng)網(wǎng)絡(luò)ANN模型的預(yù)測(cè)精度更好。
Chien-Feng Huang(2012)提出了一個(gè)結(jié)合遺傳算法(GA)和SVR的組合模型用于股票收益預(yù)測(cè)。該模型首先使用GA算法對(duì)輸入變量進(jìn)行特征選擇,然后優(yōu)化SVR算法的懲罰參數(shù)和核函數(shù)參數(shù),再將特征選擇的變量和最優(yōu)參數(shù)輸入SVR模型進(jìn)行股票收益預(yù)測(cè)。
Chi-Jie Lu(2013)提出了一種基于非線性獨(dú)立分量分析(NLICA)和支持向量機(jī)以及粒子群優(yōu)化(PSO)算法的混合模型,該模型是NLICA和PSO的混合體。該模型使用NLICA對(duì)SVR模型的輸入變量進(jìn)行特征選擇,并使用粒子群算法對(duì)SVR的參數(shù)進(jìn)行優(yōu)化,以獲得良好的股票預(yù)測(cè)結(jié)果。
2.2 國(guó)內(nèi)研究現(xiàn)狀
彭麗芳、孟至青等(2006)利用沙河股份的數(shù)據(jù),使用神經(jīng)網(wǎng)絡(luò)方法、時(shí)間序列方法以及基于時(shí)間序列的SVM模型進(jìn)行股票價(jià)格預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明SVM模型在股票時(shí)序預(yù)測(cè)問(wèn)題上的精度表現(xiàn)最好。
智晶和張冬梅(2009)利用GA算法對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行了優(yōu)化。股票價(jià)格預(yù)測(cè)的實(shí)證表明,優(yōu)化后的神經(jīng)網(wǎng)絡(luò)在一定程度上克服了容易陷入局部最小值的問(wèn)題,提高了預(yù)測(cè)的精準(zhǔn)度。
韓磊(2013)提出基于PCA和BP神經(jīng)網(wǎng)絡(luò)的股價(jià)預(yù)測(cè)方法。該方法采用PCA對(duì)輸入數(shù)據(jù)進(jìn)行降維操作,然后將降維后的數(shù)據(jù)帶入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。實(shí)證結(jié)果顯示,相比傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò),該方法可以達(dá)到較高的預(yù)測(cè)精度。
楊可可(2020)選取恒生電子單支股票作為研究對(duì)象,借助Eviews和Excel軟件,將方差—協(xié)方差法和建立的GARCH模型結(jié)合來(lái)測(cè)算VaR值并分析其風(fēng)險(xiǎn)狀況。
3 數(shù)據(jù)來(lái)源及方法介紹
3.1 數(shù)據(jù)來(lái)源
本文利用Tushare包獲取東方財(cái)富從2021年12月20日至2022年12月20日一整年的股票開(kāi)盤(pán)價(jià)格、收盤(pán)價(jià)格、最高價(jià)、最低價(jià)、交易量等數(shù)據(jù)。
3.2 方法介紹
3.2.1 VaR基本理論概述
VaR是在一定置信水平和一定持有期內(nèi),某一金融資產(chǎn)或組合在正常的市場(chǎng)條件下所面臨的最大損失額,從根本上說(shuō)是對(duì)投資組合價(jià)值波動(dòng)的統(tǒng)計(jì)測(cè)。VaR能將一系列復(fù)雜的風(fēng)險(xiǎn)測(cè)度問(wèn)題量化為一個(gè)具體數(shù)值,不僅讓投資者知道發(fā)生損失的大小,還讓投資者了解發(fā)生損失的可能性;這說(shuō)明金融資產(chǎn)受整個(gè)市場(chǎng)風(fēng)險(xiǎn)的影響,更能反映市場(chǎng)價(jià)格的波動(dòng)規(guī)律。
目前,計(jì)算VaR值的主要方法有三種:歷史模擬法、蒙特卡洛模擬法、方差—協(xié)方差法。本文采用歷史模擬法,此方法是將歷史在未來(lái)可以重現(xiàn)作為假設(shè)前提,利用歷史數(shù)據(jù)的分布函數(shù)來(lái)代表將來(lái)一段時(shí)間的收益率分布。
3.2.2 各模型基本概述
不同的分類算法有不同的應(yīng)用場(chǎng)景,在一個(gè)數(shù)據(jù)集上效果較好的模型在另一個(gè)數(shù)據(jù)集上卻不一定適用,因此對(duì)于不同的數(shù)據(jù)集,更需要具體問(wèn)題具體分析。
(1)Logit回歸分析
Logit回歸分析是一種廣義的線性回歸分析模型,屬于機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)。通過(guò)給定的n組數(shù)據(jù)(訓(xùn)練集)來(lái)訓(xùn)練模型,并在訓(xùn)練結(jié)束后對(duì)給定的一組或多組數(shù)據(jù)(測(cè)試集)進(jìn)行分類。其中每一組數(shù)據(jù)都是由p個(gè)指標(biāo)構(gòu)成。
經(jīng)典的Logit回歸的形式:
(2)K最近鄰判別分析法(KNN)
K最近鄰判別分析法是一種被普遍應(yīng)用于各個(gè)領(lǐng)域非參數(shù)統(tǒng)計(jì)方法。KNN可以解決分類或回歸問(wèn)題。其基本思想是計(jì)算待分類樣本與訓(xùn)練樣本之間的距離,選擇與待分類樣本最接近的K個(gè)訓(xùn)練樣本,并確定這K個(gè)樣本中數(shù)量最多的一個(gè)類別作為待分類樣本的類別。
(3)支持向量機(jī)(SVM)
作為前饋網(wǎng)絡(luò)的一種,在解決非線性的分類問(wèn)題方面具有明顯的優(yōu)勢(shì)。它可以通過(guò)構(gòu)建超越二維平面以上的多維度決策曲面來(lái)實(shí)現(xiàn)兩類樣本數(shù)據(jù)的精確分離,即最大程度地提高兩類數(shù)據(jù)點(diǎn)之間的分離邊緣。
(4)人工神經(jīng)網(wǎng)絡(luò) (NNET)
人工神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)(動(dòng)物的中樞神經(jīng)系統(tǒng),特別是大腦)行為特征,進(jìn)行分布式并行信息處理的數(shù)學(xué)模型或計(jì)算模型。
(5)決策樹(shù)(Decision Tree)
決策樹(shù)方法主要包括兩個(gè)步驟:構(gòu)建和修剪。該方法構(gòu)建的關(guān)鍵是確定每個(gè)內(nèi)部節(jié)點(diǎn)的分裂屬性和相應(yīng)的測(cè)試內(nèi)容;修剪的重點(diǎn)是識(shí)別和消除數(shù)據(jù)集中的噪聲或異常數(shù)據(jù)產(chǎn)生的分支。
3.3 模型效果評(píng)價(jià)指標(biāo)
3.3.1 ROC曲線
ROC是分類器取不同閾值得到的虛報(bào)率或召回率的曲線,經(jīng)常被用來(lái)評(píng)價(jià)一個(gè)二值分類器的優(yōu)劣。ROC曲線的橫坐標(biāo)是虛報(bào)率,縱坐標(biāo)為召回率,通常召回率越高越好,而虛報(bào)率越低越好。因此,當(dāng)一個(gè)分類器的點(diǎn)位于第一象限的左上方時(shí)分類器效果較好。
3.3.2 CAP曲線
CAP曲線衡量的是風(fēng)控模型檢出風(fēng)險(xiǎn)的能力。CAP的橫軸就是從排序后概率值頭部到尾部的移動(dòng)過(guò)程中,閾值以上的(預(yù)測(cè)為正的)樣本占總樣本的比例。CAP的縱軸表示的是,在當(dāng)前閾值下,揀選出來(lái)的這些預(yù)測(cè)為正的樣本中,其中含有的真實(shí)的正樣本占所有正樣本的比例。
3.3.3 AP與NP指標(biāo)
AP即平均精度,是目標(biāo)模型效果檢測(cè)與評(píng)價(jià)中的一個(gè)常用指標(biāo)。AP指標(biāo)的定義為把閾值設(shè)置在緊靠每個(gè)正例之下,計(jì)算正例的查準(zhǔn)率P+,再取平均值。NP則為正例的總數(shù)。
4 實(shí)證研究分析
4.1 股票指標(biāo)選擇
股票指標(biāo)是衡量股票價(jià)值的重要因素。從功能角度而言,技術(shù)指標(biāo)總體可以分為擺動(dòng)類指標(biāo)、趨勢(shì)類指標(biāo)、能量類指標(biāo)3大類。常用的技術(shù)指標(biāo)KDJ、RSI就屬于擺動(dòng)類指標(biāo);MACD、MA指標(biāo)屬于趨向類指標(biāo);OBV、VOL屬于能量類指標(biāo)。
結(jié)合技術(shù)指標(biāo)分類,本文選取交易量、振幅、收益率、MACD、OBV、CCI共6個(gè)指標(biāo)來(lái)分析數(shù)據(jù)具體情況。
4.2 排序法計(jì)算VaR
為使用Logit、SVM等方法對(duì)東方財(cái)富的數(shù)據(jù)進(jìn)行分析,首先要使用排序法計(jì)算VaR,再分別進(jìn)行訓(xùn)練和測(cè)試。
首先計(jì)算東方財(cái)富的收益率,再根據(jù)收益率進(jìn)行均值和標(biāo)準(zhǔn)差的計(jì)算,從而進(jìn)一步計(jì)算VaR的閾值,閾值為0.02257089,再對(duì)比次日漲跌幅與VaR值的大小,當(dāng)漲跌幅大于閾值時(shí)則判為違約,標(biāo)注為T(mén)RUE,當(dāng)漲跌幅小于閾值時(shí)則判為不違約,標(biāo)注為FALSE,具體情況見(jiàn)表1。
4.3 訓(xùn)練與測(cè)試
4.3.1 Logit模型
首先,隨機(jī)劃分訓(xùn)練集和測(cè)試集,其中訓(xùn)練集包含180天的數(shù)據(jù),測(cè)試集包含64天的數(shù)據(jù)。其次,本文第一個(gè)使用Logit模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進(jìn)行訓(xùn)練集建模,得到結(jié)果如下:
是否違約=-6.813e-1.494e-6交易量+5.788e2振幅-8.093e2收益率-3.624MACD-9.966e-7OBV-9.25e-4CCI
本文對(duì)測(cè)試集進(jìn)行測(cè)試得到ROC=1,說(shuō)明Logit的訓(xùn)練模型非常好,并計(jì)算NP得到19,同樣反映出模型效果較好。計(jì)算AP值為0.4763158。
4.3.2 SVM模型
第二個(gè)使用SVM模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進(jìn)行訓(xùn)練集建模,對(duì)測(cè)試集進(jìn)行測(cè)試得到ROC=0.883,得到的效果沒(méi)有Logit解釋完全。
4.3.3 NNET模型
第三個(gè)使用NNET模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進(jìn)行訓(xùn)練集建模,對(duì)測(cè)試集進(jìn)行測(cè)試得到ROC=0.644,得到效果在選取的模型中解釋最差。
4.3.4 Decision Tree模型
第四個(gè)使用Decision Tree模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進(jìn)行訓(xùn)練集建模,對(duì)測(cè)試集進(jìn)行測(cè)試得到ROC=1,得到的效果與Logit模型相同,并計(jì)算出NP為1。
4.3.5 KNN模型
第五個(gè)使用KNN模型建立模型,以是否違約為被解釋變量,以交易量、振幅和收益率、 MACD、OBV、 CCI為解釋變量,進(jìn)行訓(xùn)練集建模,對(duì)測(cè)試集進(jìn)行測(cè)試得到ROC=0,效果并不理想,NP為Inf。
5 結(jié)果分析
本文得到的結(jié)果基于東方財(cái)富2022年的一系列數(shù)據(jù)。首先,采用排序法計(jì)算其一年期75%置信度的日度VaR,并當(dāng)日跌幅超過(guò)VaR預(yù)測(cè)的閾值時(shí),則判定當(dāng)天為‘違約。其次,將數(shù)據(jù)隨機(jī)劃分為180個(gè)樣本的訓(xùn)練集和64個(gè)樣本的測(cè)試集,以交易量、振幅、收益率、MACD、OBV、CCI為解釋變量,以是否違約為被解釋變量,使用Logit、SVM、NNET、Decision Tree、KNN等模型,并得到ROC,對(duì)比ROC值,可以看到Decision Tree與Logit的訓(xùn)練效果最好,SVM次之,NNET和KNN最差。同時(shí),觀察Logit結(jié)果可以發(fā)現(xiàn),收益率對(duì)是否違約的影響最大,振幅、MACD對(duì)是否違約的影響其次,交易量、OBV、CCI對(duì)是否違約的影響相對(duì)較小:
是否違約=-6.813e-1.494e-6交易量+5.788e2振幅-8.093e2收益率-3.624MACD-9.966e-7OBV-9.25e-4CCI
6 改進(jìn)意見(jiàn)
6.1 解釋變量的優(yōu)化
由上述Logit初次結(jié)果,交易量、OBV、CCI的系數(shù)都非常小,甚至小于0.0001,因此可以考慮刪除這三個(gè)解釋變量,再次建立Logit模型,可得如下結(jié)果:
是否違約=-5.735e+3.311e3振幅-4.895e4收益率-6.825e-1 MACD (1)
改進(jìn)后的Logit結(jié)果如(1)所示,可以看出,收益率對(duì)公司股價(jià)是否違約具有非常大的負(fù)向影響;振幅對(duì)公司股價(jià)是否違約具有很大的正向影響,股價(jià)波動(dòng)越大,公司股票越有可能違約;MACD同樣對(duì)公司股票是否違約具有負(fù)向影響,這說(shuō)明應(yīng)當(dāng)保證MACD處于較高水平,從而使公司股票處于平穩(wěn)狀態(tài)。
除此之外,可以增加其他相關(guān)的解釋變量進(jìn)行回歸優(yōu)化。通常股票未來(lái)價(jià)格漲跌走勢(shì)不僅僅受到本文所選的6個(gè)指標(biāo)的影響,且股票各特征存在較高相關(guān)性,因此采用多因子模型是一種更為優(yōu)異的方法。常用的因子挑選方法包括主成分分析、Lasso回歸、嶺回歸、序列向前法、序列向后法。
6.2 數(shù)據(jù)集的劃分與計(jì)算
在分類識(shí)別的機(jī)器學(xué)習(xí)領(lǐng)域,通常將整個(gè)目標(biāo)數(shù)據(jù)集分為兩部分,一是用于訓(xùn)練和學(xué)習(xí)建立分類器的訓(xùn)練集,二是用于驗(yàn)證訓(xùn)練后的分類器對(duì)新加入樣本的準(zhǔn)確性的測(cè)試集。目標(biāo)數(shù)據(jù)集的劃分是為了使訓(xùn)練集中的樣本數(shù)量與測(cè)試集中的樣本數(shù)量相比盡可能得多。
本文數(shù)據(jù)集劃分采用的方法是Hold-Out測(cè)試,即把原始數(shù)據(jù)分為兩組,一組為訓(xùn)練集,另一組為測(cè)試集,先用訓(xùn)練集訓(xùn)練分類器,然后用測(cè)試集測(cè)試模型效果,最后將分類準(zhǔn)確率作為分類器在Hold-Out檢驗(yàn)下的性能指標(biāo)。這種方法只需要將原始數(shù)據(jù)隨機(jī)拆分成兩部分,可操作性強(qiáng),簡(jiǎn)單便捷。但是,這種方法得到的分類準(zhǔn)確率水平很大程度上依賴于原始數(shù)據(jù)分組的隨機(jī)性,數(shù)據(jù)結(jié)果并不具有較強(qiáng)的說(shuō)服力。因此在分類模型方面,可以使用K折交叉驗(yàn)證的方法,加大模型的訓(xùn)練度。交叉驗(yàn)證法是將數(shù)據(jù)樣本切割成較小子集的方法,具體步驟為:
(1)將數(shù)據(jù)集D分為K個(gè)包;
(2)每次將其中一個(gè)包作為測(cè)試集test,剩下k-1個(gè)包作為訓(xùn)練集train進(jìn)行訓(xùn)練;
(3)最后計(jì)算k次求得分類率的平均值,作為該模型或者假設(shè)函數(shù)的真實(shí)分類。
同時(shí)滾動(dòng)訓(xùn)練集,以T月月末為例,從第T-n(n=6,12,18,24,36,48,60…)期至第T-1期的特征和標(biāo)簽作為訓(xùn)練樣本,將n個(gè)月的樣本合并成為訓(xùn)練集。
改進(jìn)后的模型的訓(xùn)練集和測(cè)試集的分割更加合理,所訓(xùn)練的模型也更為準(zhǔn)確;對(duì)VaR的計(jì)算方面,可以根據(jù)數(shù)據(jù)的特征來(lái)選擇不同方法計(jì)算VaR,比如使用正態(tài)分布計(jì)算VaR。另外,在違約閾值的選擇上,歷史的違約數(shù)據(jù)可以根據(jù)未來(lái)的趨勢(shì)進(jìn)行適當(dāng)調(diào)整。
參考文獻(xiàn)
Chien-Feng Huang. A hybrid stock selection model using genetic algorithms and support vector regression[J]. Applied Soft Computing2012, 2(12): 807-818.
Chi-Jie Lu. Hybridizing nonlinear independent component analysis and support vector regression with particle swarm optimization for stock index forecasting[J]. Neural Computing and Applications, 2013, 7-8(23): 2417-2427.
G.Peter,Zhang.Time series forecasting using a hybird ARIMA and neural network model[J].Neurocomputing,2003(50):159-175.
韓磊. 利用BP神經(jīng)網(wǎng)絡(luò)系統(tǒng)對(duì)股票市場(chǎng)進(jìn)行預(yù)測(cè)與分析的研究[D]. 天津: 天津大學(xué), 2013.
彭麗芳,孟至青,姜華,等.基于時(shí)間序列的支持向量機(jī)在股票預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)技術(shù)與自動(dòng)化,2006(3):88-91.
楊可可.證券投資個(gè)股風(fēng)險(xiǎn)的VaR值測(cè)算分析[J].廣西質(zhì)量監(jiān)督導(dǎo)報(bào),2020(8):198-199.
智晶, 張冬梅, 姜鵬飛. 基于主成分的遺傳神經(jīng)網(wǎng)絡(luò)股票指數(shù)預(yù)測(cè)研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 26(45): 210-212.