1.李 莎 2.趙福民
1.長沙理工大學 數(shù)學與統(tǒng)計學院 2.國防科學技術大學電子科學與工程學院
上市公司違規(guī)事件造成的社會影響極其惡劣,上市公司違規(guī)處罰公告披露后市場反應劇烈,對公司效益造成負面影響,且上市公司違規(guī)行為一旦被公開處罰,會產(chǎn)生顯著的市場負面效應.國內(nèi)外文獻研究了諸如公司高管的性別、股權結(jié)構(gòu)、董事會規(guī)模、監(jiān)事會規(guī)模、管理層激勵、內(nèi)部控制、持股動機、治理結(jié)構(gòu)、財務指標、制度和環(huán)境角度等與公司違規(guī)行為之間的關系.
綜上所述,筆者認為,公司違規(guī)是由多種因素綜合作用的結(jié)果,本文提出Fisher score和MRMR兩種特征選擇算法,結(jié)合了SVM機器學習方法,搜集影響上市公司違規(guī)的指標,并且經(jīng)過指標排序篩選,來提高模型預警精度,以此用于上市公司違規(guī)預警的研究.
本文的貢獻在于,1、綜合篩選了影響公司違規(guī)的影響指標,并把行業(yè)指標也納入其中.2、利用Fisher score和MRMR兩種特征選擇算法,彌補了只篩選特征指標而沒給出指標排名的不足.
Fisher score進行特征選擇,是將相似得分值賦予來自相同類別的樣本,不同的值賦予來自不同類別的樣本來實現(xiàn)的.Fisher score的評價標準式為:
最小冗余最大相關(Minimum-Redundancy-Maximum-Relevance,MRMR)特征選擇算法通過計算交互信息,不但考慮了特征與標簽的關系,而且對特征之間的冗余度也有限制.算法在要求最大相關性的同時,要求特征子集的冗余度最小,以此尋求最優(yōu)子集.
本文選取2010年至2014年在深圳證券交易所與上海證券交易的上市公司,去除缺失樣本后,共收集到1535家上市公司為研究樣本.其中未發(fā)生違規(guī)的上市公司439家,發(fā)生違規(guī)的上市公司1096家.樣本所有數(shù)據(jù)均來自國泰安數(shù)據(jù)庫.本文的公司樣本取自國泰安數(shù)據(jù)庫中的“違規(guī)處理”數(shù)據(jù)表.其中,違規(guī)類型包括以下三類:公司財務違規(guī)、公司經(jīng)營違規(guī)和公司領導人違規(guī).
本文引入0—1啞變量,0代表公司未發(fā)生違規(guī),1代表公司發(fā)生違規(guī).根據(jù)CLSA Asia-Pacific Markets提出的公司治理評價指標,綜合得到了公司違規(guī)行為預警指標體系.本文首先考慮了公司的行業(yè)類型指標;公司規(guī)模指標3個:總資產(chǎn)、股東數(shù)、股本總數(shù);公司治理評價指標7個:國有股比例、境內(nèi)發(fā)起人股比例、高管持股比例、流通股比例、第一大股東持股比例、董事會會議次數(shù)、股東大會召開次數(shù);財務狀況指標43個:所有者權益、流動資產(chǎn)比率、所有者權益比率、流動負債比率、經(jīng)營負債比率、金融負債比率、資產(chǎn)負債率、長期借款與總資產(chǎn)比、權益乘數(shù)、產(chǎn)權比率、權益對負債比率、長期資本負債率、資本積累率、總資產(chǎn)增長率等.
實驗選取了表1所示的54個屬性,分類器用線性lib-SVM,其中參數(shù)C采用交叉驗證尋優(yōu)方法來確定.實驗從1535個樣本中隨機選取k個樣本作為訓練樣本,剩下的1535減k個樣本用于測試.為了最終所得的分類結(jié)果更準確,實驗取20次分類精度的平均值作為最后的結(jié)果記錄.當訓練樣本數(shù)k從300增加到1000的時候,測試樣本的預測精度逐步提高,后趨于穩(wěn)定.當訓練樣本達到700個時,在SVM下的分類精度達到了70.7202%.
為了綜合地篩選出違規(guī)公司特征屬性,提高模型的預測精度,實驗對屬性的得分做了歸一化處理,并計算了各個屬性在Fisher score和MRMR特征選擇算法下取得的平均值,按從高到低排列54個屬性.實驗不斷改變訓練樣本數(shù)來觀察分類精度,取20次分類精度的均值作為結(jié)果記錄,分類精度曲線如圖1:
圖1 基于兩種特征選擇方法下的分類精度
可以看出,紅色曲線所代表的20個屬性的分類精度明顯高于其他4條曲線,當訓練樣本數(shù)目為800個時,模型的分類精度達到了82.7586%,相對于沒有進行篩選的54個屬性,平均精度提高了近7個百分點.
本文研究表明,第一大股東持股比例、每股凈資產(chǎn)、長期借款與總資產(chǎn)比、托賓Q值、流動負債比率、股東大會召開次數(shù)、行業(yè)類型等20個屬性對公司違規(guī)的影響較大.為了實驗的準確性,本文的訓練樣本和測試樣本采取隨機抽取的方法,結(jié)果取二十次實驗結(jié)果的平均值,保證了結(jié)果的準確性.并且當訓練樣本數(shù)目為800個時,模型的分類精度達到了82.8%,相對于沒有進行篩選的54個屬性,平均精度提高了近7個百分點.這表明模型指標約減后,模型的精度提高了,且模型的泛化能力較好.這本文的研究成果為監(jiān)管部門對上市公司進行風險管理提供了一定的依據(jù),從而有利于監(jiān)管部門更加科學合理的分配監(jiān)管力量。