李嵩松,惠曉峰
(哈爾濱工業(yè)大學(xué) 管理學(xué)院,黑龍江 哈爾濱 150001)
股票市場是當(dāng)今備受矚目的金融市場之一,股票指數(shù)是股票市場的指示器,它是度量組成該指數(shù)的所有股票的市場平均價格水平及其變動情況的指標.因此,對構(gòu)成股票指數(shù)的成分公司的聚類分析不僅具有理論意義同樣也具有重要的實踐意義.
聚類分析是一種多元統(tǒng)計分類方法,是對給定的一個有N個元素組成的數(shù)據(jù)集,構(gòu)造K個分組,每一個分組就代表一個聚類,K<N[1].這種方法不必事先知道分類對象的分類結(jié)構(gòu),其基本思想是:從一批樣品的多個觀測指標中,找出度量樣品之間或指標之間的相似程度的統(tǒng)計量,構(gòu)成一個對稱的相似性矩陣;在此基礎(chǔ)上進一步找尋各樣品(或變量)之間或樣品組合之間的相似程度,按相似程度的大小,把樣品(或變量)逐一歸類,關(guān)系密切的歸類聚集到一個小的分類單位,關(guān)系疏遠的聚集到一個大的分類單位,直到所有樣品或變量都聚集完畢,形成一個親疏關(guān)系譜系圖,更自然地和直觀地顯示分類對象(個體或指標)的差異和聯(lián)系[2].當(dāng)不能獲得聚類所需要的一些前提信息時,采用非參數(shù)法是個有效的辦法.非參數(shù)法聚類對數(shù)據(jù)結(jié)構(gòu)很少做假設(shè),它不是基于各種各樣的距離的,而是基于密度的,是要在數(shù)據(jù)空間里尋找高密度區(qū)域.此外,由于聚類的數(shù)量事先沒有選定,當(dāng)要獲取一個層次數(shù)據(jù)體系結(jié)構(gòu)而并非一個固定劃分時,這類方法會更適合[3-4].聯(lián)動算法(凝聚和分裂)是非參數(shù)法中的一種,它輸出的是顯示在不同尺度下聚類解的整體層次結(jié)構(gòu)樹形圖[5].這種聯(lián)動算法中的凝聚方法從只包含一個元素的聚類出發(fā),在每一步都合并有最小距離的2個聚類.在沒有對數(shù)據(jù)的內(nèi)在結(jié)構(gòu)做任何假設(shè)的條件下,為了得到層次分類體系,采用了一種被稱為混沌映射聚類算法[6-7]的非參數(shù)聚類方法,也就是依賴于混沌映射同步的聚類方法[8-10].混沌映射聚類算法有著廣泛的應(yīng)用:例如被應(yīng)用在帶有線粒體的DNA序列人類演化的研究方面[11];被應(yīng)用在疾病映像病理腦電圖記錄的診斷研究中[12-13];并且還被應(yīng)用在尋找地下煤礦方面[14]等.
在混沌映射聚類算法最初被引入作為主要算法時,是將要被聚類的那些元素嵌入一個D維的特征空間里.在這個框架下,每個數(shù)據(jù)點都被看成在承載混沌映射動力學(xué)的網(wǎng)格上有一個對應(yīng)的位置.也就是說,映射變量 xi∈[-1,1](i=1,2,…,N)被分到格子上的每個對應(yīng)位置上,并且將相鄰映射之間的短程相互作用看成是關(guān)于位置間距離的指數(shù)遞減函數(shù).相應(yīng)在原始數(shù)據(jù)空間中的高密度區(qū)域,在靜態(tài)的體系下同步映射聚類會出現(xiàn).映射之間的互信息可以作為構(gòu)造聚類的相似性指標,也可以用來重構(gòu)分層樹的一個尺度參數(shù)[15].
如果能夠提供一個關(guān)于相似性(不一定必須是數(shù)學(xué)意義下所指的距離)的N×N矩陣替代所有數(shù)據(jù)信息的特征向量時,兩兩混沌映射聚類算法就能夠很容易被實現(xiàn).
當(dāng)處理聚類時間模式 yi(t)時,相關(guān)系數(shù)cij(cij∈[-1,1])就是對相似度的一個自然測度,表達式為
式中:<·>表示的是在所研究的時間周期內(nèi)的日平均,日平均是在整個時間序列區(qū)間內(nèi)計算的.在Kullmann的研究中[16],金融時間序列之間的相關(guān)系數(shù)作為超順磁性聚類SPC(Super paramagnetic clustering)算法[17-18]的輸入信息.超順磁性聚類算法與混沌映射聚類算法有著相近的原理,物理系統(tǒng)經(jīng)常被用來劃分非齊次鐵磁模型數(shù)據(jù).運用Potts模型,對每個數(shù)據(jù)點和相鄰位置間的短程相互作用,用給定旋轉(zhuǎn)狀態(tài)數(shù)Si代替映射變量,用spin-spin關(guān)聯(lián)函數(shù)代替相似性指標的互信息作為聚類的數(shù)據(jù).在超順磁的框架下,相對于數(shù)據(jù)類別聯(lián)合自旋區(qū)域就會出現(xiàn).Kullmann通過引入如下spin-spin強度作為相關(guān)系數(shù)Cij的函數(shù)把SPC方法推廣到反-鐵磁方式耦合:
式中:符號函數(shù)sgn把公司股票價格之間正(負)相關(guān)系數(shù)映射成了Potts模型自旋狀態(tài)數(shù)之間正(負)的相互作用;cij是公司i和公司j之間的相關(guān)系數(shù).考慮到以下2個原因:1)相互作用Jij應(yīng)該為相似性的一個快速遞增函數(shù):為了把問題的長程信息轉(zhuǎn)化成短程信息;2)值較小的相關(guān)系數(shù)是由噪音引起的,而不是那些帶有信號的信息,但是又不想讓這些較小的相關(guān)系數(shù)影響結(jié)果.參數(shù)(a,n)的選取應(yīng)該保證超順磁狀態(tài)的存在,但是在這樣的區(qū)域里面,獲得的結(jié)果相對于參數(shù)(a,n)的選取并不敏感.對參數(shù)細微的調(diào)整能夠更清晰地觀察數(shù)據(jù)的變化,也就是說,使磁化率函數(shù)的峰值更尖銳,使他們之間的平緩變化區(qū)域更大.整偶數(shù)n用來調(diào)節(jié)相互作用的變化范圍;指數(shù)項中的因子n/(n-1)用來改變相互作用函數(shù)的拐點.參數(shù)a的選取是每一個自旋的最大相關(guān)系數(shù)的平均值:
基于混沌映射動力學(xué),金融時間序列之間的相關(guān)系數(shù)應(yīng)該被映射到取值在[0,1]映射之間的正的相互作用區(qū)間.因此,式(2)自然地在cij≥0時可以進行有效運算;當(dāng)cij<0時,令Jij=0.通過這種辦法,就可以在相關(guān)系數(shù)為正的公司之間建立起一個帶有指數(shù)增加的部分耦合映射格子.盡管并不能像全局耦合情況下那樣能夠找到真正的同步和相同動力狀態(tài)聚類的信息,然而,在隨機耦合系統(tǒng)下,仍然能夠觀察到幾乎同步的映射聚類.如果只保留正的相關(guān)時間序列的相互作用,就可以得到具有相同時間行為的一組公司的幾乎同步的映射形式,盡管相關(guān)公司看起來是屬于不同聚類的.混沌映射可以寫成如下表達式:
為了使實證研究更具有代表性和說明性,實證研究數(shù)據(jù)選取了由香港恒生指數(shù)公司編寫的中國內(nèi)地25指數(shù).該指數(shù)是由市值最大的25家主要營業(yè)收入或資產(chǎn)來自中國內(nèi)地的公司組成的,是追蹤在香港上市中國大型股公司表現(xiàn)的高投資性指標.表1顯示的是組成恒生中國內(nèi)地25指數(shù)的成分公司的代號及其所屬行業(yè).
選取了組成恒生中國內(nèi)地25指數(shù)的全部25家成分公司的日收盤股票價格數(shù)據(jù),數(shù)據(jù)期間為2009年1月1日至2009年12月31日,全年共開市248天,共6200個數(shù)據(jù).
表1 恒生中國內(nèi)地25指數(shù)成分公司及其所屬行業(yè)Table 1 HangSeng mainland 25 index companies
運用混沌映射聚類算法對組成恒生中國內(nèi)地25指數(shù)的全部25家成分公司進行聚類分析,所以在這里N=25.采用兩兩分組形式,共有N(N-1)/2=300個組.每對兩兩公司的相關(guān)系數(shù)cij可以通過表達式(1)計算得到,其中,Y是通過2個公司股票價格時間序列的對數(shù)變差來計算的:
式中:Pi(t)是公司i在第t天的股票收盤價格.相關(guān)系數(shù)cij的運算結(jié)果是一個25×25的對稱矩陣,如表2所示.
表2 相關(guān)系數(shù)cij的部分計算結(jié)果Table 2 A portion of cij
當(dāng)cij<0時,稱這2個公司成反相關(guān)關(guān)系,成反相關(guān)的公司組數(shù)Nc<0的個數(shù)與總組數(shù)相比是一個相對較小的數(shù),并且成反相關(guān)的公司的相關(guān)系數(shù)的平均值 <c>c<0幾乎為零.
作為數(shù)據(jù)處理的結(jié)果,樹狀圖被用來顯示在互信息Iij取不同值時,聚類的層次結(jié)構(gòu)說明如下:
1)從每個映射xi(t)中逐位提取序列Si使其滿足:
2)分別計算在整個序列中出現(xiàn)Si狀態(tài)的概率P(Si),并相對于序列長度進行歸一化,類似的,P(Si,Sj)為在序列 Si和 Sj中同時出現(xiàn)狀態(tài)(Si,Sj)的概率.
3)計算數(shù)據(jù)熵Hi和相關(guān)熵Hij,表達式如下:
4)則互信息Iij可以表示為Iij=Hi+Hj-Hij.
互信息是映射之間關(guān)系的一種度量[19],取值在獨立映射時的Iij=0和同步映射時的Iij=ln2之間.鑒于此,互信息Iij能夠用作相似指標對上市公司進行分類.通過一個特定的水平集I∈[0,ln2]來分割樹狀圖,這樣就能夠得到基于Iij≥I條件下的上市公司的聚類.水平集I的選取依賴于聚類解的某一穩(wěn)定準則.為此,通過尋找在最大可能范圍下I的穩(wěn)定狀態(tài),可以使聚類熵S(I)被用來在整個層次內(nèi)選擇最穩(wěn)定的劃分方式:
式中:PI(k)是數(shù)據(jù)屬于聚類k的比例,NI為在水平集I的聚類個數(shù).
這個模型依賴于一個參數(shù),正的偶整數(shù)n用來調(diào)節(jié)相互作用的范圍.這個參數(shù)n的最優(yōu)值選取都依賴于在式(9)中不同的聚類劃分情況下熵的穩(wěn)定準則.一旦選取了參數(shù)n之后,聚類的所有結(jié)構(gòu)體系就可以以一個樹狀圖來顯示.圖1給出了在2009年組成恒生中國內(nèi)地25指數(shù)的全部25家成分公司的樹狀圖結(jié)果.其中,選取了參數(shù)n=8.
圖1 恒生中國內(nèi)地25指數(shù)成分公司聚類樹狀圖Fig.1 Dendrogram of the clustering of Heng Seng mainland 25 index companies
在以香港恒生中國內(nèi)地25指數(shù)成分中的上市公司為樣本的實證研究中,通過將上市公司的股票價格間的關(guān)聯(lián)程度作為該金融時間序列的相關(guān)系數(shù),并以此相關(guān)系數(shù)作為相似性的度量指標,對上市公司進行兩兩模式的聚類分析.由于混沌映射間的耦合作用被引入到系數(shù)函數(shù)中,使該動力系統(tǒng)能夠?qū)ι鲜泄景凑障嗨菩猿潭冗M行聚類,并得到了屬于相同產(chǎn)業(yè)背景下的公司通常是聚類在一起的聚類結(jié)果.由于股票市場的復(fù)雜性和不確定性,無論什么方法想要準確描述上市公司的變動情況是很困難的,還有很多問題值得進一步研究.
[1]FUKUNAGA K.Introduction to statistical pattern recognition[M].San Diego:Academic Press,1990:1-25.
[2]韓江舟,葛世倫,盛永祥.1999年度滬深兩市中期上市高科技公司股票聚類分析[J].華東船舶工業(yè)學(xué)院學(xué)報:自然科學(xué)版,2001,15(2):86-91.
HAN Jiangzhou,GE Shilun,SHENG Yongxiang.The clustering analysis of stock indexes of high technology companies in Shanghai and Shenzhen stock exchanges[J].Journal of East China Shipbuilding Institute:Natural Sciences,2001,15(2):86-91.
[3]ELTON E J,GRUBER M J.Modern portfolio theory and investment analysis[M].New York:J.Wiley & Sons Press,1995:36-57.
[4]BOUCHAUD J P,POTTERS M.Theory of financial risks[M].Cambridge:Cambridge University Press,1999:78-96.
[5]JAIN A K,DUBES R C.Algorithms for clustering data[M].New York:Prentice-Hall Press,1988:76-81.
[6]ANGELINI L,De CARLO F,MARANGI C,et al.Clustering data by inhomogeneous chaotic map lattices[J].Physical Review Letters,2000,85:554-565.
[7]MANRUBIA S C,MIKHAILOV A S.Mutual synchronization and clustering in randomly coupled chaotic dynamical networks[J].Physical Review E,1999,60:1579-1589.
[8]KANEKO K.Relevance of dynamic clustering to biological networks[J].Physica D:Nonlinear Phenomena,1994,75:55-73.
[9]KANEKO K.Clustering,coding,switching,hierarchical ordering,and control in a network of chaotic elements[J].Physica D:Nonlinear Phenomena,1990,41:137-172.
[10]KANEKO K.Spatiotemporal chaos in one-and two-dimensional coupled map lattices[J].Physica D:Nonlinear Phenomena,1989,37:60-82.
[11]MARANGI C,ANGELINI L,MANNARELLI M.Clustering mtDNA sequences for human evolution studies[J].Modelling Biomedical Signals,2001,21:196-208.
[12]BELLOTTI R,CERELLO P,TANGARO S.Distributed medical images analysis on a grid infrastructure[J].Future Generation Computer Systems,2007,23(3):475-484.
[13]BELLOTTI R,De CARLO F,STRAMAGLIA S.Chaotic map clustering algorithm for EEG analysis[J].Physica A:Statistical Mechanics and its Applications,2004,334(1):222-232.
[14]ANGELINI L,De CARLO F,MARANGI C.Chaotic neural network clustering:an application to landmine detection by dynamic infrared imaging[J].Optical Engineering,2001,40(12):2878-2889.
[15]ANGELINI L,de CARLO F,MARANGI C,et al.Clustering data by inhomogeneous chaotic map lattices[J].Physical Review Letters,2000,85:554-565.
[16]KULLMANN L,KERTESZ J,MANTEGNA R N.Identification of clusters of companies in stock indices via Potts super-paramagnetic transitions[J].Physica A:Statistical Mechanics and its Applications,2000,287(3):412-419.
[17]GETZ G,LEVINE E,DOMANY E.Super-paramagnetic clustering of yeast gene expression profiles[J].Physica A:Statistical Mechanics and its Applications,2000,279(1):457-464.
[18]BLATT M,WISEMAN S,DOMANY E.Superparamagnetic clustering of data[J].Physical Review Letters,1996,76:3251-3254.
[19]SOLE R V,MANRUBIA S C,BASCOMPTE J.Phase transitions and complex systems simple,nonlinear models capture complex systems at the edge of chaos[J].Complexity,1996,13:13-26.