基于數(shù)據(jù)挖掘的上市公司高送轉(zhuǎn)預(yù)測研究

2021-11-08 03:03:54江琛夏曉玲吳偉崔海波馬傳香

湖北大學(xué)學(xué)報(自然科學(xué)版) 2021年6期

江琛，夏曉玲，吳偉，崔海波，馬傳香

(1.湖北大學(xué)計算機與信息工程學(xué)院，湖北武漢 430062； 2.湖北省教育信息化工程研究中心，湖北武漢 430062)

0 引言

送轉(zhuǎn)是上市公司給各個股東分紅的一種方式，將股份公司的盈余公積金或者未分配利潤轉(zhuǎn)化為股份，將分紅作為股票給予股東，將盈余公積金或利潤以股票的形式留在公司.而高送轉(zhuǎn)指的是送轉(zhuǎn)比例達到0.5及以上的股票.一般認為，“高送轉(zhuǎn)”除了暗示公司經(jīng)營業(yè)績的良好表現(xiàn)，往往還預(yù)示著公司會有較大的發(fā)展和成長，傳遞公司未來發(fā)展前景的良好信息，增強投資者的信心[1].

對高送轉(zhuǎn)股票的預(yù)測對投資者具有極重大的經(jīng)濟學(xué)意義.目前，在我國股票市場中，中小型投資者比較多，中小型投資者在信息獲取和甄別方面以及專業(yè)知識方面處于弱勢地位，這增加了他們識別那些真正具有投資價值的“高送傳”公司的難度，本研究從不同投資者的視角對高送轉(zhuǎn)進行預(yù)測，提供更加具有針對性的決策支持.

石好等[2]采用邏輯回歸(logistic regression)與主成分分析(principal component analysis, PCA)相結(jié)合的方法, 構(gòu)建了年報高送轉(zhuǎn)股票的預(yù)測模型, 模型正確率在55%以上, 預(yù)測準確度可達80.91%.蔡景波，等[3]對數(shù)據(jù)進行缺失值、異常值、標準化等數(shù)據(jù)處理，采取特征選擇中過濾法、包裹法、嵌入法等方法提取特征.使用Stacking集成模型對股票是否發(fā)生高送轉(zhuǎn)進行預(yù)測，其 F1得分為0.59，AUC得分為0.82.事實上，對投資者而言，得到所有的高送轉(zhuǎn)股票并沒有太大意義，投資者更關(guān)心的是通過數(shù)據(jù)挖掘的手段收集到的會發(fā)生高送轉(zhuǎn)的股票的準確率，因此對于高送轉(zhuǎn)問題而言，相對于查全率，查準率對于投資者具有更加重大的意義.

1 算法介紹

1.1 Lasso回歸Lasso回歸是一種基于收縮和變量選擇方法的回歸模型，它解決了標準回歸方法中的“樂觀偏差”，和“極端情況時模型表現(xiàn)較差”這兩個問題[4].Lasso回歸的特色就是可以建立廣義線型模型，這里廣義線型模型包含一維連續(xù)因變量、多維連續(xù)因變量、非負次數(shù)因變量、二元離散因變量、多元離散因變，除此之外，無論因變量是連續(xù)或離散的，Lasso回歸都能處理，總的來說，Lasso對于數(shù)據(jù)的要求是極其低的，所以應(yīng)用程度較廣；除此之外，Lasso還能夠?qū)ψ兞窟M行篩選和降低模型的復(fù)雜程度.復(fù)雜度調(diào)整是指通過一系列參數(shù)控制模型的復(fù)雜度，從而避免過擬合.對于線性模型來說，復(fù)雜度與模型的變量數(shù)有直接關(guān)系，變量數(shù)越多，模型復(fù)雜度就越高.更多的變量在擬合時往往可以給出一個看似更好的模型，但是同時也面臨過擬合的危險.lasso回歸通過約束回歸系數(shù)的絕對值之和小于固定值λ，實現(xiàn)“壓縮”回歸系數(shù)趨近于零的方式減少預(yù)測誤差，但實際情況下，這種方法會限制模型的復(fù)雜性[5].

1.2 PCA降維PCA是一種常見的數(shù)據(jù)分析方式，常用于高維數(shù)據(jù)的降維，可用于提取數(shù)據(jù)的主要特征分量.在某些領(lǐng)域的研究中會采用一種混合的PCA算法來實現(xiàn)降維，PCA會幫助從高維數(shù)據(jù)中識別出低維數(shù)據(jù)，以便對數(shù)據(jù)進行降維處理，這確保了數(shù)據(jù)集中冗余屬性的消除[6].在訓(xùn)練反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)體系結(jié)構(gòu)之前，使用主成分分析(PCA)去關(guān)聯(lián)輸入數(shù)據(jù)，有助于提高BP神經(jīng)網(wǎng)絡(luò)的預(yù)測性能[7].PCA作為一種無監(jiān)督降維方法，在圖像處理分析領(lǐng)域同樣被廣泛認為是一種高效的預(yù)處理步驟[8].PCA的工作就是從原始的空間中順序地找一組相互正交的坐標軸，新的坐標軸的選擇與數(shù)據(jù)本身是密切相關(guān)的.其中，第一個新坐標軸選擇是原始數(shù)據(jù)中方差最大的方向，第二個新坐標軸選取是與第一個坐標軸正交的平面中使得方差最大的，第三個軸是與第1、2個軸正交的平面中方差最大的.依次類推，可以得到n個這樣的坐標軸.通過這種方式獲得的新的坐標軸，大部分方差都包含在前面k個坐標軸中，后面的坐標軸所含的方差幾乎為0.于是，余下的坐標軸可以被忽略，只保留前面k個含有絕大部分方差的坐標軸.

1.3 邏輯回歸算法邏輯回歸模型是一種在統(tǒng)計學(xué)和機器學(xué)習(xí)領(lǐng)域中都非常流行的模型，用于擬合二元結(jié)果和評估解釋變量的統(tǒng)計顯著性，并探尋二分類結(jié)果(例如，存活/死亡，成功/失敗，是/否)與一個或多個預(yù)測因子之間的關(guān)系，這些預(yù)測因子可能是離散的或回歸的[9].在衛(wèi)生服務(wù)、人口和公共衛(wèi)生以及流行病學(xué)的相關(guān)研究中，會經(jīng)常出現(xiàn)多層次數(shù)據(jù).在相關(guān)研究領(lǐng)域中，二元結(jié)果是非常常見的.對PubMed數(shù)據(jù)庫的檢索結(jié)果表明，多層或分層回歸模型的使用正在迅速增加[10].

“多元邏輯回歸”是一種研究多因子對二類分結(jié)果的共同影響的技術(shù).對于多元邏輯回歸，可用如下公式似合分類，在邏輯回歸模型參數(shù)估計時，化簡公式可以帶來很多益處，y={0,1}為分類結(jié)果，如式(1)和式(2)所示：

(1)

(2)

對于訓(xùn)練數(shù)據(jù)集，特征數(shù)據(jù)x={x1,x2, …,xm}和對應(yīng)的分類數(shù)據(jù)y={y1,y2, …,ym}，構(gòu)建回歸模型，y取值為0或1，可得概率如式(3)和式(4)所示：

(3)

(4)

1.4 支持向量機算法支持向量機被廣泛應(yīng)用于模式識別，其目標是找到具有最大余量的超平面，以減少誤分類率[11].它按以下方法工作，使用一種非線性映射，把原始訓(xùn)練數(shù)據(jù)映射到較高的維上，并在新的維上搜索最佳分離超平面，SVM使用支持向量和余量發(fā)現(xiàn)該超平面.作為一個線性分類器，它和其它分類器的區(qū)別在于，SVM不僅能把樣本分對，還能確保余量最大化.SVM的核心操作是兩個向量做內(nèi)積，公式如式(5)：

(5)

其中y為與x的輸入特征向量相關(guān)聯(lián)的預(yù)測類；αi是在訓(xùn)練過程中通過最小化二次目標函數(shù)分配給訓(xùn)練數(shù)據(jù)點xi的可調(diào)權(quán)重；b為偏置項；K是核函數(shù).因此，y可以看做是訓(xùn)練數(shù)據(jù)點xi和目標數(shù)據(jù)點x之間相似度的加權(quán)線性組合.訓(xùn)練數(shù)據(jù)集中權(quán)重為正的數(shù)據(jù)點影響最終的解，稱為支持向量.

SVM主要研究目標是提高訓(xùn)練和檢驗速度，使得SVM可以成為超大型數(shù)據(jù)集更可行的選擇.SVM模型參數(shù)的優(yōu)化也是眾多學(xué)者研究的目標，文獻[12]提出了一種新的切換延遲粒子群優(yōu)化算法來優(yōu)化支持向量機參數(shù).支持向量機模型同樣有其局限性，傳統(tǒng)的支持向量機方法并不適用于計算數(shù)據(jù)集各屬性的不同特征[13].

SVM是一種可以對線性可分和線性不可分兩種類型的數(shù)據(jù)集進行分類的模型.最大邊緣超平面是一個線性類邊界，因此對應(yīng)的SVM可以用來對線性可分的數(shù)據(jù)進行分類，稱這種訓(xùn)練后的SVM為線性SVM；對于線性不可分的數(shù)據(jù)，不能畫一條直線將兩個類分開，該決策邊界是非線性的.當(dāng)輸入的數(shù)據(jù)不可線性分離時，SVM具有非常顯著的效果[11].

1.5 XGBoost算法XGBoost是boosting算法的其中一種.Boosting算法的思想是將許多弱分類器集成在一起形成一個強分類器.而所用到的樹模型則是CART回歸樹模型.它作為一種可擴展的樹增強系統(tǒng)，已被眾多數(shù)據(jù)科學(xué)家廣泛應(yīng)用于各個領(lǐng)域，并在許多領(lǐng)域獲取了相關(guān)的研究進展.它使用稀疏感知算法處理稀疏數(shù)據(jù)，為近似學(xué)習(xí)提供了理論上合理的加權(quán)分位數(shù)草圖.并應(yīng)用了多種相關(guān)技術(shù)，如緩存訪問模式，數(shù)據(jù)壓縮和分片等，這些技術(shù)也可以應(yīng)用于其他機器學(xué)習(xí)系統(tǒng)[14].

CART回歸樹是假設(shè)樹為二叉樹，通過不斷將特征進行分裂.比如當(dāng)前樹結(jié)點是基于第j個特征值進行分裂的，設(shè)該特征值小于s的樣本劃分為左子樹，大于s的樣本劃分為右子樹，如式(6)、(7)所示.

R1(j,s)={x|x(j)≤s}

(6)

R1(j,s)={x|x(j)>s}

(7)

而CART回歸樹實質(zhì)上就是在該特征維度對樣本空間進行劃分，而這種空間劃分的優(yōu)化是一種NP-hard問題，因此，在決策樹模型中是使用啟發(fā)式方法解決.典型CART回歸樹產(chǎn)生的目標函數(shù)如式(8)所示：

∑xi∈Rm(yi-f(xi))2

(8)

該算法思想就是不斷地添加樹，不斷地進行特征分裂來生長一棵樹，每次添加一個樹，其實是學(xué)習(xí)一個新函數(shù)，去擬合上次預(yù)測的殘差.當(dāng)我們訓(xùn)練完成得到k棵樹，我們要預(yù)測一個樣本的分數(shù)，其實就是根據(jù)這個樣本的特征，在每棵樹中會落到對應(yīng)的一個葉子節(jié)點，每個葉子節(jié)點就對應(yīng)一個分數(shù)，最后只需要將每棵樹對應(yīng)的分數(shù)加起來就是該樣本的預(yù)測值.文獻[15]將XGBoost與大多數(shù)分類方法進行了比較，XGBoost給出了相對更優(yōu)的結(jié)果.文獻[16]表明，XGBoost訓(xùn)練出的集成分類器能有效地防止過擬合，在某些領(lǐng)域，處理多維數(shù)據(jù)時檢測結(jié)果優(yōu)于SVM模型.

2 數(shù)據(jù)及數(shù)據(jù)處理

本文中數(shù)據(jù)處理流程如圖1所示.

圖1 數(shù)據(jù)處理流程圖

2.1 實驗環(huán)境本研究采用的實驗環(huán)境如表1所示.

表1 實驗環(huán)境

2.2 數(shù)據(jù)介紹本研究數(shù)據(jù)分為三部分：年數(shù)據(jù)、日數(shù)據(jù)、基礎(chǔ)數(shù)據(jù).年數(shù)據(jù)是數(shù)據(jù)的核心部分，其中含有3 466支股票7年的股市數(shù)據(jù)，共有24 262行，362列數(shù)據(jù)；日數(shù)據(jù)含有3 466支股票在這7年中每天的股市數(shù)據(jù)，共有5 899 132行數(shù)據(jù)，61列數(shù)據(jù)；基礎(chǔ)數(shù)據(jù)中包含了這3 466支股票的上市年限、所屬行業(yè)、所屬概念板塊數(shù)據(jù).其中日數(shù)據(jù)與年數(shù)據(jù)中包含部分重復(fù)特征，部分無用特征和部分數(shù)據(jù)幾乎全部缺失的特征.年數(shù)據(jù)中的‘會計準則’、‘貨幣代碼’在模型中沒有作用且在數(shù)據(jù)中只有一種取值，‘會計區(qū)間’，‘合并標志，1-合并，2-母公司’兩列的數(shù)據(jù)同樣沒有任何差異.本研究以年數(shù)據(jù)為主，日數(shù)據(jù)中與年數(shù)據(jù)重復(fù)的列取年數(shù)據(jù).基礎(chǔ)數(shù)據(jù)中的‘上市年限’和‘所屬行業(yè)’對高送轉(zhuǎn)具有一定的預(yù)測意義.

2.3 數(shù)據(jù)處理將文件名改為英文，年數(shù)據(jù)文件名改為YearData.csv；日數(shù)據(jù)改為DayData.csv；基礎(chǔ)數(shù)據(jù)改為BasicData.csv，文件讀取見代碼部分.

2.3.1 數(shù)據(jù)合并年數(shù)據(jù)的shape為(24 262, 362)，年數(shù)據(jù)中包含大量缺失的列與行，在這里我們將數(shù)據(jù)缺失達到0.7以上的行與列刪除，避免后期處理過程中過多的缺失值填補對預(yù)測模型造成干擾，最終剩余數(shù)據(jù)的shape為(22 551，362).然后將列名‘年份(年末)’改為‘年’以方便合并日數(shù)據(jù)和基礎(chǔ)數(shù)據(jù).

日數(shù)據(jù)的shape為(5 899 132, 61)，日數(shù)據(jù)中含有的部分特征是年數(shù)據(jù)中已經(jīng)包含在內(nèi)的，所以在這里我們將其剔除.剔除之后再求出剩余特征的每年12月份的日平均值，以‘股票編號’,‘年’兩列為聯(lián)合主鍵，年數(shù)據(jù)為主體，將年數(shù)據(jù)與日數(shù)據(jù)進行合并，合并后數(shù)據(jù)shape為(22 551, 408).

基礎(chǔ)數(shù)據(jù)的shape為(3 466, 4)，在其中提取出‘上市年限’和 ‘所屬行業(yè)’兩列再次合并，所需要的注意的是對于‘上市年限’特征，其與上市時間成反比，如第七年的上市年限是1，那么第六年的上市年限便為2，第一年的上市年限則為7.特征‘所屬行業(yè)’在其合并之后再進行獨熱編碼.將其與年日數(shù)據(jù)融合后的表再次融合為一張，最終的shape為(22 551, 410).

2.3.2 使用獨熱編碼處理‘所屬行業(yè)’特征 ‘所屬行業(yè)’特征是非數(shù)值型的離散化數(shù)據(jù)，需要將其整合為數(shù)值型數(shù)據(jù).其中，獨熱編碼是一種相對簡單的對離散型數(shù)據(jù)進行數(shù)值編碼的方法.獨熱編碼即one-hot 編碼，又稱一位有效編碼，其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進行編碼，每個狀態(tài)都有它獨立的寄存器位，并且在任意時候，其中只有一位有效.它基于向量空間中的度量來進行計算，將離散的特征的取值擴展到了歐式空間，離散特征的每一個取值對應(yīng)多維空間中的一個點，使得各個離散數(shù)據(jù)在數(shù)值化的時候不會產(chǎn)生歐式距離不等的情況出現(xiàn).以地區(qū)特征為例： ‘湖北’‘湖南’‘河南’，如果將其編碼為0,1,2，那么相當(dāng)于默認了湖北與湖南，湖南與河南的距離為1，而湖北與河南的距離為2，這樣就會給予機器學(xué)習(xí)模型錯誤的數(shù)據(jù)信息.而使用獨熱編碼將該特征編碼為三維特征：湖北100，湖南010，河南001，在歐氏距離上便沒有了區(qū)別.使用獨熱編碼(one-hot encoding)，將離散特征的取值擴展到了歐式空間，離散特征的某個取值就對應(yīng)歐式空間的某個點.將離散型特征使用獨熱編碼，會讓特征之間的距離計算更加合理.

本研究中，特征‘所屬行業(yè)’共用18個離散特征，分別是‘房地產(chǎn)業(yè)’, ‘制造業(yè)’, ‘批發(fā)和零售業(yè)’, ‘租賃和商務(wù)服務(wù)業(yè)’, ‘綜合’, ‘信息傳輸、軟件和信息技術(shù)服務(wù)業(yè)’,‘文化、體育和娛樂業(yè)’, ‘建筑業(yè)’, ‘電力、熱力、燃氣及水生產(chǎn)和供應(yīng)業(yè)’, ‘衛(wèi)生和社會工作’, ‘采礦業(yè)’,‘科學(xué)研究和技術(shù)服務(wù)業(yè)’, ‘交通運輸、倉儲和郵政業(yè)’,‘農(nóng)、林、牧、漁業(yè)’, ‘水利、環(huán)境和公共設(shè)施管理業(yè)’, ‘金融業(yè)’,‘住宿和餐飲業(yè)’, ‘教育’，那么在獨熱編碼之后便會成為18維特征，處理完成后shape為(22 551, 427).

2.3.3 通過觀察法和數(shù)理統(tǒng)計進行特征篩選數(shù)據(jù)中有一些沒有學(xué)習(xí)意義的干擾特征，如‘貨幣代碼’,‘會計準則’,‘會計區(qū)間’,‘合并標志，1-合并，2-母公司’,由于已經(jīng)擁有了是否高送轉(zhuǎn)特征，‘每股送轉(zhuǎn)’特征同樣為冗余特征.除此之外，‘高轉(zhuǎn)送預(yù)案公告日’,‘高轉(zhuǎn)送股權(quán)登記日’,‘高轉(zhuǎn)送除權(quán)日’雖然與高送轉(zhuǎn)密切相關(guān)，但同樣無法作為因子預(yù)測下一年是否高送轉(zhuǎn).將這些篩選出的無意義特征進行刪除.

此外，刪除數(shù)據(jù)缺失到達0.7以上的特征，完成后數(shù)據(jù)shape為(22 551, 314).

2.3.4 計算出標簽‘下一年是否發(fā)生高送轉(zhuǎn)’列作為標簽值通過‘股票編號’，‘年’，‘是否高送轉(zhuǎn)’三列計算出‘下一年是否發(fā)生高送轉(zhuǎn)’，是為1，否為0，將其作為標簽，取所有股票第七年的‘下一年是否發(fā)生高送轉(zhuǎn)’列為‘nan’，第七年數(shù)據(jù)便是我們的預(yù)測對象.

2.3.5 使用Lasso回歸和PCA對數(shù)據(jù)進行降維通過特征‘年’將數(shù)據(jù)進行拆分，特征‘年’的值為7的數(shù)據(jù)為預(yù)測集，1～6為訓(xùn)練集.

首先使用Lasso回歸處理數(shù)據(jù)的共線性問題，使用corr()函數(shù)查看數(shù)據(jù)的共線性，發(fā)現(xiàn)數(shù)據(jù)中存在共線性問題，于是選擇使用Lasso回歸消除數(shù)據(jù)中的共線性問題.使用GridSearchCV函數(shù)來計算出Lasso回歸的最優(yōu)參數(shù)，經(jīng)過多次篩選，Lasso的alpha參數(shù)的最優(yōu)值為826 812.5.隨后使用Lasso回歸篩選出系數(shù)不為0的特征作為對上市公司實施高送轉(zhuǎn)方案有較大影響的因子.

影響因子共93個，分別為[‘固定資產(chǎn)合計’, ‘無息非流動負債’, ‘帶息流動負債’, ‘帶息債務(wù)’, ‘凈債務(wù)’, ‘有形凈資產(chǎn)’, ‘營運資本’, ‘凈營運資本’,‘投入資本’, ‘毛利’, ‘經(jīng)營活動凈收益’, ‘價值變動凈收益’, ‘息稅前利潤’, ‘息稅折舊攤銷前利潤’, ‘息前稅后利潤’,‘扣除非經(jīng)常性損益后的歸屬于上市公司股東的凈利潤’, ‘企業(yè)自由現(xiàn)金流量’, ‘股權(quán)自由現(xiàn)金流量’, ‘折舊與攤銷’,‘歸屬于母公司的股東權(quán)益/帶息債務(wù)’, ‘貨幣資金’, ‘應(yīng)收賬款’, ‘預(yù)付款項’, ‘應(yīng)收利息’, ‘其他應(yīng)收款’, ‘存貨’,‘其他流動資產(chǎn)’, ‘流動資產(chǎn)合計’, ‘可供出售金融資產(chǎn)’, ‘長期股權(quán)投資’, ‘投資性房地產(chǎn)’, ‘固定資產(chǎn)’, ‘在建工程’,‘無形資產(chǎn)’, ‘商譽’, ‘遞延所得稅資產(chǎn)’, ‘其他非流動資產(chǎn)’, ‘非流動資產(chǎn)合計’, ‘資產(chǎn)總計’, ‘短期借款’, ‘應(yīng)付票據(jù)’,‘應(yīng)付賬款’, ‘預(yù)收款項’, ‘應(yīng)交稅費’, ‘應(yīng)付利息’, ‘其他應(yīng)付款’, ‘一年內(nèi)到期的非流動負債’, ‘其他流動負債’,‘流動負債合計’, ‘長期借款’, ‘遞延收益’, ‘非流動負債合計’, ‘負債合計’, ‘實收資本(或股本)’, ‘資本公積’,‘未分配利潤’, ‘歸屬于母公司所有者權(quán)益合計’, ‘少數(shù)股東權(quán)益’, ‘所有者權(quán)益(或股東權(quán)益)合計’,‘負債和所有者權(quán)益(或股東權(quán)益)總計’, ‘銷售商品、提供勞務(wù)收到的現(xiàn)金’, ‘收到的稅費返還’, ‘收到其他與經(jīng)營活動有關(guān)的現(xiàn)金’,‘經(jīng)營活動現(xiàn)金流入小計’, ‘購買商品、接受勞務(wù)支付的現(xiàn)金’, ‘支付的各項稅費’, ‘支付其他與經(jīng)營活動有關(guān)的現(xiàn)金’,‘經(jīng)營活動現(xiàn)金流出小計’, ‘經(jīng)營活動產(chǎn)生的現(xiàn)金流量凈額’, ‘收回投資收到的現(xiàn)金’, ‘取得投資收益收到的現(xiàn)金’,‘處置固定資產(chǎn)、無形資產(chǎn)和其他長期資產(chǎn)收回的現(xiàn)金凈額’, ‘投資活動現(xiàn)金流入小計’, ‘購建固定資產(chǎn)、無形資產(chǎn)和其他長期資產(chǎn)支付的現(xiàn)金’,‘投資支付的現(xiàn)金’, ‘支付其他與投資活動有關(guān)的現(xiàn)金’, ‘投資活動現(xiàn)金流出小計’, ‘吸收投資收到的現(xiàn)金’, ‘取得借款收到的現(xiàn)金’,‘收到其他與籌資活動有關(guān)的現(xiàn)金’, ‘籌資活動現(xiàn)金流入小計’, ‘償還債務(wù)支付的現(xiàn)金’, ‘支付其他與籌資活動有關(guān)的現(xiàn)金’,‘籌資活動現(xiàn)金流出小計’, ‘籌資活動產(chǎn)生的現(xiàn)金流量凈額’, ‘匯率變動對現(xiàn)金及現(xiàn)金等價物的影響’, ‘現(xiàn)金及現(xiàn)金等價物凈增加額’,‘加:期初現(xiàn)金及現(xiàn)金等價物余額’, ‘期末現(xiàn)金及現(xiàn)金等價物余額’, ‘成交金額’, ‘全部投入資本’, ‘流通市值’, ‘總市值’].

隨后使用PCA主成分分析將數(shù)據(jù)降維至50維.

2.3.6 數(shù)據(jù)標準化

1)標準差標準化

使用標準差標準化對數(shù)據(jù)進行標準化處理.標準差標準化通過均值與方差對滿足正態(tài)分布的數(shù)據(jù)進行處理，得到符合標準正態(tài)分布的數(shù)據(jù)，標準差標準化公式如式(9)所示.

X_st=(X-Xmean)/std

(9)

它表示的是原始值與均值的差值和標準差的比值，作為一個相對量，擁有去除量綱的功能.經(jīng)過標準差標準化之后，數(shù)據(jù)的均值為0，標準差為1.均值為0后，數(shù)據(jù)分布以0為中心左右分布，即去中心化.方差為1對許多的算法更加有利，但是其缺點在于假如原始數(shù)據(jù)沒有呈高斯分布，標準化的數(shù)據(jù)分布效果并不好.去中心化為進一步處理數(shù)據(jù)和機器學(xué)習(xí)打下基礎(chǔ)，標準化更適合噪聲較大的數(shù)據(jù)場景.數(shù)據(jù)標準化還可以去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或者量級的指標可以等同的參與計算.

2)離差標準化

離差標準化指的是用原值減去該特征的最小值，然后除以該特征的極差.數(shù)據(jù)經(jīng)過離差標準化的處理之后特征值范圍將維持在[0，1]區(qū)間之間，與其他的標準化方式相同，它同樣可以消除量綱，使得數(shù)據(jù)變?yōu)榧償?shù)據(jù)，同時還可以消除變異大小因素的影響.有一些關(guān)系系數(shù)(例如絕對值指數(shù)尺度)在定義時要求對數(shù)據(jù)進行離差標準化，但有些關(guān)系系數(shù)的計算公式卻沒有這樣要求，當(dāng)選用要求進行離差標準化的算法時，先對數(shù)據(jù)進行標準化便是很有必要的.公式如下：

X_st=(X-Xmin)/(Xmax-Xmin)

(10)

本研究選用標準差標準化對數(shù)據(jù)進行標準化處理.

3 高送轉(zhuǎn)預(yù)測和模型評估

3.1 高送轉(zhuǎn)預(yù)測使用邏輯回歸算法、支持向量機(SVM)算法、XGBoost算法分別對下一年是否發(fā)生高轉(zhuǎn)送進行預(yù)測，并在測試集上統(tǒng)計其查準率，查全率和F1分數(shù).圖表分別如下：

表2 邏輯回歸模型的評估數(shù)據(jù)

表3 SVM模型的評估數(shù)據(jù)

圖2 邏輯回歸模型預(yù)測結(jié)果圖

圖3 SVM模型預(yù)測結(jié)果圖

圖4 XGBoost模型預(yù)測結(jié)果圖

3.2 模型比較對三個算法的度量值進行比較發(fā)現(xiàn)，邏輯回歸算法對于下一年高送轉(zhuǎn)股票的查準率較高，達到0.85，但查全率過低僅有0.02；XGBoost算法的綜合得分更高，在下一年高送轉(zhuǎn)股票的查全率上優(yōu)勢較大，達到了0.24，但其查準率相對較低僅有0.75；SVM支持向量機算法沒有明顯優(yōu)勢.

表4 XGBoost算法的評估數(shù)據(jù)

因此，若想對高送轉(zhuǎn)股票進行少量投資，邏輯回歸算法的準確率更高，具有一定的優(yōu)勢，發(fā)生投資到不會發(fā)生高送轉(zhuǎn)的股票的錯誤的概率較小.但若想對大量股票進行投資，XGBoost算法的綜合能力更好，它犧牲了一點的查準率，但查全率達到了0.24，因此會有更多的股票以供選擇.

圖5 模型對比圖

4 結(jié)束語

在對日數(shù)據(jù)的處理上本文中采用了取每年第12月的日數(shù)據(jù)的平均值的方法，是否有更好的方法可以更好地利用日數(shù)據(jù)從而獲得更多的信息值得再研究.

對‘行業(yè)’屬性使用獨熱編碼雖然做到了離散數(shù)據(jù)的數(shù)值化，并且沒有摻雜冗余信息，但所獲得的多維數(shù)據(jù)是一個稀疏矩陣，在特征選擇與最后的模型訓(xùn)練的過程中行業(yè)數(shù)據(jù)并沒有起到太大的作用，因此下一步工作要繼續(xù)研究是否有更好的方式處理‘所屬行業(yè)’數(shù)據(jù).

使用Lasso和PCA進行特征選擇和提取解決的大部分的共線性問題卻沒有解決全部的共線性問題，并且在實驗后發(fā)現(xiàn)，特征提取前后對模型進行訓(xùn)練，模型的性能提升并不明顯，因此特征選擇和提取的方式在后續(xù)的工作當(dāng)中可以繼續(xù)優(yōu)化.

在分別使用邏輯回歸、SVM、XGBoost模型對高送轉(zhuǎn)進行預(yù)測之后，可以得出結(jié)論：XGBoost模型的綜合表現(xiàn)更佳，但邏輯回歸模型在發(fā)生高送轉(zhuǎn)上的查準率更高.