張紫璇 段紅梅
【摘要】為對我國A股進(jìn)行板塊分類, 首先用混沌游戲表示算法對股票日收益率數(shù)據(jù)進(jìn)行降維, 再用自適應(yīng)仿射傳播聚類算法得到將所有股票分為5類和11類兩種板塊的分類結(jié)果。 與證監(jiān)會行業(yè)分類中類內(nèi)外平均相關(guān)系數(shù)差0.0140相比, 分5類時類內(nèi)外相關(guān)系數(shù)差均值為0.0284, 分11類時, 類內(nèi)外相關(guān)系數(shù)差均值為0.0270, 均比證監(jiān)會行業(yè)分類區(qū)分度高。
【關(guān)鍵詞】混沌游戲表示;自適應(yīng)仿射傳播聚類;股票板塊分類;A股
【中圖分類號】F832.5 ? ? ?【文獻(xiàn)標(biāo)識碼】A ? ? ?【文章編號】1004-0994(2020)19-0152-4
一、引言
股票板塊分類方法中應(yīng)用最廣的是按股票行業(yè)分類。 早在1966年, 美國學(xué)者Kahle等[1] 就指出股票價格的變動會受到行業(yè)分類的影響。 之后又有學(xué)者得出了行業(yè)因素能解釋股票收益率26%波動率的結(jié)論[2] 。 現(xiàn)有的行業(yè)分類標(biāo)準(zhǔn)主要有ISIC行業(yè)分類、GICS、證監(jiān)會行業(yè)分類、WIND行業(yè)分類、申銀萬國行業(yè)分類及中信證券行業(yè)分類等。 上市公司行業(yè)信息是上市公司對外應(yīng)披露信息的重要方面。 上市公司行業(yè)分類方法的科學(xué)與否, 對于規(guī)范和提高上市公司信息披露質(zhì)量、市場參與者對公司股票進(jìn)行定價、投資者進(jìn)行投資決策都有著直接的影響。 由于各種原因, 我國證券市場在建立之初沒有對上市公司進(jìn)行統(tǒng)一的分類, 上海、深圳證券交易所根據(jù)各自工作的需要, 分別對上市公司進(jìn)行了簡單劃分:上交所將上市公司分為工業(yè)、商業(yè)、公用事業(yè)和綜合四類; 深交所則分為工業(yè)、商業(yè)、公用事業(yè)、金融和綜合五類。 近年來, 隨著證券市場的發(fā)展、上市公司數(shù)量的激增, 兩交易所原有分類的不足表現(xiàn)得越來越明顯:分類過粗, 給市場各方對上市公司進(jìn)行分析帶來了很多不便。
本文采用混沌映射聚類算法, 根據(jù)上市公司的股票價格建立相關(guān)映射, 并且將該金融時間序列的相關(guān)系數(shù)與映射之間的耦合強(qiáng)度聯(lián)系在一起進(jìn)行分析。 以我國A股日收益率數(shù)據(jù)為數(shù)據(jù)源, 通過混沌游戲表示算法降維和自適應(yīng)仿射傳播聚類算法進(jìn)行聚類分析, 從而獲得新的上市公司板塊分類結(jié)果, 對比原有的證監(jiān)會行業(yè)分類結(jié)果, 本文提出的分類結(jié)果區(qū)分度更高, 類內(nèi)外平均相關(guān)系數(shù)差別也更加明顯, 與當(dāng)前A股企業(yè)實際較為貼合。
二、模型構(gòu)建
1. 數(shù)據(jù)。 根據(jù)上市公司的股票價格建立相關(guān)映射, 并且將該金融時間序列的相關(guān)系數(shù)與映射之間的耦合強(qiáng)度聯(lián)系在一起進(jìn)行分析, 基于本論文的分析訴求, 在對分析數(shù)據(jù)進(jìn)行選擇時, 以我國A股(包括上交所和深交所)2843只股票2007年1月1日 ~ 2017年1月23日的交易數(shù)據(jù)為對象, 將其日收益率作為聚類數(shù)據(jù)進(jìn)行研究。
初始數(shù)據(jù)集一共包含3325只股票數(shù)據(jù)。 股市中通常把上市時間不足半年的股票稱為新股, 而新股存在新股弱勢且數(shù)據(jù)量少, 故刪除268只發(fā)行時間少于180天的股票; 研究過程中, 發(fā)現(xiàn)有上百只股票自2016年5月1日起不再有交易數(shù)據(jù), 數(shù)據(jù)缺失時間較長, 故刪除2016年5月之后沒有交易數(shù)據(jù)的116只股票; 刪除B股。 剩余2843只股票。 在數(shù)據(jù)分析中, 本文充分考慮了2008年全球金融危機(jī)的影響和2015年A股股災(zāi)異常波動的影響, 對相關(guān)數(shù)據(jù)進(jìn)行了相應(yīng)處理, 以求在數(shù)據(jù)層面更加切實地反映正常交易市場下股票的數(shù)據(jù)信息。
證監(jiān)會上市公司行業(yè)分類結(jié)果來自2017年2月16日在證監(jiān)會網(wǎng)站發(fā)布的2016年四季度上市公司行業(yè)分類結(jié)果。 研究發(fā)現(xiàn), 采用混沌游戲模擬可以實現(xiàn)數(shù)據(jù)的自然分割, 相同行業(yè)背景下的公司通常是聚合在一起的, 下文重點結(jié)合混沌游戲與上市公司交易數(shù)據(jù)進(jìn)行整合分析。
2. 混沌游戲表示。 混沌游戲表示算法流程如下:①作一個正方形, 四個角分別表示DNA序列中的A、C、G、T四種堿基。 ②在正方形面上隨機(jī)取一個初始點。 ③對于任意一個長度為N的DNA序列, 按照DNA序列中的堿基順序, 用以下方法繪制混沌游戲表示(CGR)圖:按順序讀取DNA序列的堿基, 繪制讀到的堿基對應(yīng)的角與初始點的中點, 并將這個中點設(shè)為新的初始點, 得到一張包含N+1個點的CGR圖。 更具體地說, 令A(yù)、C、G、T分別為P1(0,0)、P2(4,0)、P3(4,4)、P4(0,4), CGRi(x,y)為要在CGR圖中繪制的第i個點, Pi(x,y)是序列的第i個點, 按以下迭代公式得到CGR圖中所有的點:CGRi(x)=[CGRi-1(x)+Pi(x)]/2,i=1,…,N; CGRi(y)=[CGRi-1(y)+Pi(y)]/2,i=1,…,N。
CGR圖有以下性質(zhì):①當(dāng)將CGR圖用x=0,1,2和y=0,1,2分為如圖1所示的4個分塊時, 若CGRi(x)落在第一個分塊, 按以上第一個迭代公式得到這個CGR點對應(yīng)的DNA堿基一定是A, 其他三個分塊類似。 ②參照第一條性質(zhì), 當(dāng)將CGR圖用x=0,1,2,3和y=0,1,2,3分割成16個分塊時, 以AT塊為例, 若CGRi(x,y)落在AT塊, 按以上第一個迭代公式得到這個CGR點對應(yīng)的DNA堿基一定是A, 上一個DNA堿基為T, 其他分塊類似。 ③當(dāng)將CGR正方形進(jìn)行更高維的剖分時, 類似的結(jié)論仍然成立。 基于CGR圖的這個性質(zhì), 可以認(rèn)為在CGR圖中, 序列的順序被充分表達(dá)。 將圖2中的16個分塊按1 ~ 16進(jìn)行編號, 令Sk(k=1,2,…,16)為落在第k個分塊內(nèi)的CGR點數(shù), 則Fk=Sk/N(k=1,2,…,16)。 其中N為DNA序列的長度, 這樣任意一個序列都將能轉(zhuǎn)化為一個16維的向量。
3. 混沌映射聚類算法。 在混沌映射聚類算法被引入作為主要算法時, 是將要被聚類的那些元素嵌入一個D維的特征空間里。 在這個框架下, 每個數(shù)據(jù)點都被看成在承載混沌映射動力學(xué)的網(wǎng)格上有一個對應(yīng)的位置。 相應(yīng)在原始數(shù)據(jù)空間中的高密度區(qū)域, 在靜態(tài)的體系下同步映射聚類會出現(xiàn)。
4. 自適應(yīng)仿射傳播聚類算法。 仿射傳播聚類在算法進(jìn)行之前不需要確定最終聚類族的個數(shù), 且適合大類數(shù)的聚類。 在算法開始時, 所有的數(shù)據(jù)點都被看作潛在的聚類中心。 在算法進(jìn)行中, 仿射傳播聚類算法為數(shù)據(jù)集收集信息得到兩個重要的證據(jù)矩陣:吸引信息矩陣R和歸屬信息矩陣A。 r(i,k)描述了數(shù)據(jù)點k適合作為數(shù)據(jù)點i的聚類中心的程度; a(i,k)描述了數(shù)據(jù)點i選擇數(shù)據(jù)點k作為其聚類中心的程度。 r(i,k)和a(i,k)越大, 證據(jù)越強(qiáng), 數(shù)據(jù)點k作為最終聚類中心的可能性就越大。 仿射傳播聚類算法在信息傳遞過程中, 兩個矩陣的迭代過程如下:rt+1(i,k)=s(i,k)-max{at(i,k')+s(i,k')}, k'≠k; at+1(i,k)=min{0,rt(k,k)}+ ? ?max{0,rt(i',k)}, i≠i,k。 迭代完成后得到m個可行度較高的聚類中心和對應(yīng)的聚類結(jié)果。
自適應(yīng)仿射傳播聚類算法輸入變量數(shù)據(jù)集為待聚類變量集, 主要輸出參數(shù)有以下幾個:①矩陣“l(fā)abels”, 以類標(biāo)的形式存儲不同類數(shù)的聚類結(jié)果; ②向量“NCs”,存放“l(fā)abels”對應(yīng)的類數(shù);③“NCopt”, 存放最優(yōu)類數(shù), 最優(yōu)類數(shù)對應(yīng)的聚類結(jié)果可在“l(fā)abels”中查找; ④“Sil”, 存放不同類數(shù)的聚類結(jié)果的Silhouette指標(biāo)的平均值; ⑤“Silmin”, 存放每一個聚類結(jié)果中任意兩個聚類Silhouette指標(biāo)中的最小值。 Silhouette指標(biāo)記為Sil(t):Sil(t)=[b(t)-a(t)]/max{a(t),b(t)}。 其中, a(t)為樣本t和與它同一類內(nèi)的其他樣本的平均距離, b(t)表示樣本t和其他類距離的平均值。 自適應(yīng)仿射傳播聚類中, 用Silhouette指標(biāo)的平均值來反映聚類結(jié)果的優(yōu)劣程度, 值越大表示聚類結(jié)果越好, 數(shù)據(jù)可分性越高, 最大值對應(yīng)的分類結(jié)果為最優(yōu)聚類結(jié)果。
三、實證與結(jié)果
1. 板塊分類效果評價指標(biāo)。 對股票進(jìn)行板塊分類是為了方便構(gòu)建投資組合以對沖非系統(tǒng)風(fēng)險。 本文采用板塊內(nèi)部股票價格波動的相關(guān)系數(shù)和板塊之間股票價格波動的相關(guān)系數(shù)來判斷板塊分類方法的有效性。
假設(shè)滬深市場一共有N只股票, 并將它們分成M個板塊, 每個板塊對應(yīng)有Nm只股票, 則對于第i(i=1,2…,N)只股票, 設(shè)它屬于第m個板塊, 它與板塊內(nèi)外的相關(guān)系數(shù)分別按如下定義:
板塊內(nèi):Pim= ? ?pij/(Nm-1), j≠i。 版塊外:Qim= ? ? pij/(N-Nm), j≠i。 pij表示第i只股票和第j只股票之間的相關(guān)系數(shù)。 板塊內(nèi)部股票價格波動的相關(guān)系數(shù)Pm= ? Pim/Nm。 與板塊外部股票價格波動的相關(guān)系數(shù)Qm= ? ? Qim/Nm。 平均板塊內(nèi)股票價格波動的相關(guān)系數(shù)P= ? ?Pm/M。 平均板塊外股票價格波動的相關(guān)系數(shù)Q= ? ?Qm/M。 通過比較板塊內(nèi)外相關(guān)系數(shù)差值的大小, 可以評價板塊分類方法的優(yōu)劣。
2. 股票CGR圖。 下面以平安銀行(股票代碼:000001)股票為例作展示。 圖3是某財經(jīng)網(wǎng)站的平安銀行股票的K線圖。
K線圖按時間順序展示股票的交易價格數(shù)據(jù), 但作為聚類算法輸入數(shù)據(jù), 維數(shù)太大, 對聚類要求高。 通過混沌游戲表示算法處理股票日收益率數(shù)據(jù), 得到平安銀行(000001)股票的日收益率CGR圖, 如圖4所示。
混沌游戲表示算法將股票日收益數(shù)據(jù)以迭代形式繪制在正方形圖上, 其落點嚴(yán)格按照時間順序產(chǎn)生, 也展示了部分分形特征, 如平安銀行的CGR圖無論是從整體來看還是按分塊來看, 其落點都具有向右下角集中的特征, 這個特征意味著平安銀行的日收益數(shù)據(jù)落在B集合, 即(-2.04%, 0.391%)這個區(qū)間的頻率很高。
3. 自適應(yīng)仿射傳播聚類結(jié)果。 將16維向量集作為自適應(yīng)仿射傳播聚類算法的輸入變量數(shù)據(jù)集, 在Matlab中運行后得到從2 ~ 78共計77種類數(shù)情況下的各項指標(biāo), 包含每種類數(shù)對應(yīng)的各只股票的類標(biāo)、分類優(yōu)劣評判指標(biāo)Sil和Silmin的值等。 整理不同類數(shù)對應(yīng)的Sil和Silmin指標(biāo)值得到表1, 類數(shù)大于18類之后Sil和Silmin兩個指標(biāo)值都越來越小, 受篇幅限制, 不再羅列。
可以看到, Sil的最大值是0.3479, 最優(yōu)聚類結(jié)果為兩類, 考慮到Sil的最大值小于0.5, 表明聚類有一些重疊的情況, 在聚類結(jié)果指標(biāo)Sil值較小的情況下, 應(yīng)優(yōu)先考慮最靠近兩類的可分性, 故取指標(biāo)Silmin最大值0.1973對應(yīng)的聚類數(shù)5類, 參考其他行業(yè)分類都是超過10類的情況, 再取次高點0.1688對應(yīng)的聚類數(shù)11類。
4. 板塊內(nèi)外相關(guān)系數(shù)的比較。 用證監(jiān)會網(wǎng)站發(fā)布的2016年四季度上市公司行業(yè)分類結(jié)果分別計算類內(nèi)和類外相關(guān)系數(shù), 得到表2。
用本文的方法得到的分類結(jié)果分別計算類內(nèi)和類外相關(guān)系數(shù), 得到表3和表4。
分為5類時, 主要包括A、B、H、P以及其他類。 類內(nèi)外相關(guān)系數(shù)差均值為0.028361795, 類內(nèi)外相關(guān)系數(shù)差值較為明顯, 僅一類存在類內(nèi)相關(guān)系數(shù)小于類外相關(guān)系數(shù)的情況。 分為11類時, 主要包括A、B、H、P、D、E、G、I、N、R以及其他類。 相關(guān)系數(shù)情況如下:類內(nèi)外相關(guān)系數(shù)差均值為0.026968596, 類內(nèi)相關(guān)系數(shù)小于類外相關(guān)系數(shù)的情況增加。 整體而言, 無論是將所有股票分為5類還是分為11類, 類內(nèi)外相關(guān)系數(shù)差均值都比證監(jiān)會行業(yè)分類結(jié)果大, 區(qū)分度高。
從實際運用場景來看, 當(dāng)股票投資者不需要對投資行業(yè)進(jìn)行甄選細(xì)分, 僅對特殊行業(yè)進(jìn)行統(tǒng)籌考慮時, 可以選用5類分析法進(jìn)行分析; 當(dāng)投資者需要進(jìn)一步深入挖掘細(xì)分行業(yè)的投資機(jī)會或者行業(yè)特性時, 可以選用11類分析法進(jìn)行甄選分析, 這樣能夠提高分析的精準(zhǔn)度。
四、結(jié)論
本文以A股日收益率數(shù)據(jù)為數(shù)據(jù)源, 基于混沌游戲表示算法和自適應(yīng)仿射傳播聚類算法對我國A股進(jìn)行板塊分類研究。 利用生物信息學(xué)中的混沌游戲表示算法將股票日收益率數(shù)據(jù)轉(zhuǎn)化為CGR圖, 為股票數(shù)據(jù)展示提供了一種新的形式, 再對CGR圖進(jìn)行4×4的網(wǎng)格剖分, 將股票日收益序列轉(zhuǎn)化為16維的向量, 降低聚類數(shù)據(jù)維度, 提高聚類效果。 通過自適應(yīng)仿射傳播聚類算法聚類得到新的A股板塊分類結(jié)果, 與證監(jiān)會行業(yè)分類相比, 類內(nèi)外平均相關(guān)系數(shù)差別更大, 區(qū)分度更高。 本文提出的方法給股票板塊分類提供了新的參考, 但仍存在一些不足, 本文主要側(cè)重利用自適應(yīng)仿射傳播聚類算法對股票進(jìn)行板塊分類研究, 沒有對通過混沌游戲表示算法得到的股票數(shù)據(jù)CGR圖的分形特征進(jìn)行深入研究。
【 主 要 參 考 文 獻(xiàn) 】
[ 1 ] ? Kahle K. M., Walkling R. A.. The Impact of Industry Classifications on Financial Research[ J].Journal of Financial and Quantitative Analysis,?1996(3):309 ~ 335.
[ 2 ] ? Moskowitz T., Grinblatt M.. Do Industries Explain Momentum?[ J].Journal of Finance,1999(54):1249 ~ 129.