,2
(1.河海大學(xué) 商學(xué)院, 江蘇 南京 211100; 2.“世界水谷”與水生態(tài)文明協(xié)同創(chuàng)新中心, 江蘇 南京 211100)
概念與題材炒作現(xiàn)象在股票市場中屢見不鮮[1]。不少投資者以熱點事件為背景購買目標股票,股票市場中的概念因事件驅(qū)動不斷被創(chuàng)造[2]。概念股能夠客觀地反映投資者的關(guān)注程度,因此,熱點概念股能夠反映投資者的投資傾向與投資決策。同時,新聞媒體與社區(qū)論壇對概念股的宣傳助推了股票市場上的概念炒作,成為股票價格集體波動的助推器[3]。概念股一般具有很強的時效性,其股價在概念存續(xù)期內(nèi)波動性較大。
對投資者而言,重倉熱點概念股很容易造成追高從而增加投資風(fēng)險。因此,投資者在股票配置時一般傾向于購買與熱點概念股相似的股票,對熱點概念股進行對標。這種通過相似概念股配置股票資產(chǎn)的實質(zhì)是概念股之間存在股票共現(xiàn),例如,智慧城市概念股因與大數(shù)據(jù)概念股存在股票共現(xiàn)兩者股價整體呈現(xiàn)同向變動。
然而,股票共現(xiàn)依據(jù)股票頻次粗略判斷概念股之間的關(guān)聯(lián)性,難以精確計量概念股之間的依賴關(guān)系和強度[4]。大數(shù)據(jù)時代背景下,關(guān)聯(lián)規(guī)則為解決股票共現(xiàn)的不足提供了新的工具,捕捉概念股之間的關(guān)聯(lián)性對股票價格的影響成為一項創(chuàng)新議題。本文以股票市場中的概念股作為研究對象,以共現(xiàn)分析和關(guān)聯(lián)規(guī)則為方法,探討概念股與股票量價的相關(guān)性,以期為投資者提供借鑒。
已有學(xué)者對小范圍特定概念股的關(guān)聯(lián)性做過相關(guān)研究,苗晴和姚洪興[5]基于股票價格日收益率數(shù)據(jù)建立“一帶一路”概念股價格關(guān)聯(lián)網(wǎng)絡(luò)模型,實證分析了股市關(guān)聯(lián)網(wǎng)絡(luò)的復(fù)雜特性及其拓撲結(jié)構(gòu)。他們發(fā)現(xiàn)概念股價格關(guān)聯(lián)網(wǎng)絡(luò)具有小世界效應(yīng)和無標度特征,網(wǎng)絡(luò)中存在凝聚子群現(xiàn)象,中心節(jié)點對網(wǎng)絡(luò)影響較大。葉銀龍[6]通過關(guān)聯(lián)規(guī)則挖掘的方法對A股的21個概念板塊進行了研究,結(jié)果表明:制造、石化概念是關(guān)聯(lián)規(guī)則的核心,其他概念板塊與核心概念之間存在緊密聯(lián)系。通過強關(guān)聯(lián)規(guī)則進行概念板塊組合分析,對于出現(xiàn)明顯漲跌情況的概念板塊,預(yù)測出與之相關(guān)聯(lián)的概念板塊的漲跌趨勢,以此達到規(guī)避風(fēng)險或追求利潤的目的。董曉芳和劉曉楠[7]在葉銀龍的基礎(chǔ)上運用關(guān)聯(lián)規(guī)則算法對21種概念板塊進行分析,證實長期概念板塊指數(shù)之間的輪動由化工、制藥、包裝、金屬、紡織、農(nóng)業(yè)、零售7種指數(shù)作為關(guān)聯(lián)規(guī)則的核心,其余板塊與核心板塊存在密切聯(lián)系。然而,他們限于概念數(shù)量未能量化概念板塊之間的關(guān)聯(lián)性大小。王曉彥等[8]研究了熱點概念股對投資者決策的影響,他們以人工智能概念股作為研究對象,分階段研究人工智能在網(wǎng)絡(luò)中的熱度與人工智能概念股量價的相關(guān)關(guān)系,發(fā)現(xiàn)在網(wǎng)絡(luò)熱度低時,相關(guān)概念股整體表現(xiàn)與投資者關(guān)注度沒有顯著聯(lián)系;網(wǎng)絡(luò)熱度爆炸并有利好時,網(wǎng)絡(luò)熱度與相關(guān)概念股的超額收益率顯著相關(guān),反映概念股存在炒作現(xiàn)象。
共現(xiàn)是指同一關(guān)鍵詞在多篇文獻中共同出現(xiàn)的現(xiàn)象。在概念股中,股票共現(xiàn)指一只股票屬于多個概念股的情況,共現(xiàn)分析是對共現(xiàn)的股票進行定量分析,目的是揭示概念股之間的相互聯(lián)系以及隱含的知識[9]。通常認為概念股中相同股票的數(shù)量越多,兩個概念股之間的關(guān)系就越緊密。因此,對概念股出現(xiàn)的頻次進行統(tǒng)計,不僅可以直觀地了解概念股的主題,還可以對概念股的熱點趨勢進行深入分析,jaccard系數(shù)是衡量概念股相似度的有效指標,公式如下:
(1)
Γ(A)表示概念股A的股票集合。
關(guān)聯(lián)規(guī)則算法是一種基于機器學(xué)習(xí)的數(shù)據(jù)挖掘算法,該算法可以在大數(shù)據(jù)集中發(fā)現(xiàn)事物之間存在的依賴或者因果關(guān)系[10]。它的目的是利用一些度量指標來發(fā)現(xiàn)數(shù)據(jù)集中存在的強規(guī)則[11]。支持度、置信度和提升度是關(guān)聯(lián)規(guī)則中常用的度量指標。
支持度揭示了概念股A和B同時出現(xiàn)的概率,如果A和B同時出現(xiàn)的概率小,表明兩者的支持度較小,支持度的計算公式如下:
support(A?B)=P(A∪B)
(2)
置信度揭示了概念股A出現(xiàn)時,概念股B出現(xiàn)的概率,置信度是有方向的,如果A與B的置信度為100%,表明A與B總是同時出現(xiàn),置信度的計算公式為:
(3)
提升度是評價概念股關(guān)聯(lián)性大小的量化指標,在滿足支持度和置信度的條件下,提升度越大表明概念股相似的概率就越大,提升度的計算公式如下:
(4)
P(B|A)表示概念股A出現(xiàn)的條件下,概念股B出現(xiàn)的概率。當lift為1時,表明兩者不相關(guān);當lift大于1時,表明概念股B和概念股A正相關(guān);當lift小于1時,概念股B和概念股A為負相關(guān)。
本文數(shù)據(jù)來源于Tushare金融大數(shù)據(jù)平臺,時間為2017年8月至2019年8月,數(shù)據(jù)中包含股票代碼、上司公司名稱、日漲跌幅、概念股等字段。數(shù)據(jù)中共包含361個概念股、3656只股票。一只股票可以屬于多個概念股,即股票與概念股之間為一對多關(guān)系。
熱點概念股指伴隨公共事件出現(xiàn)、隨著事件受公眾關(guān)注而股價趨勢走強的股票集合。熱點概念股反映出投資者對事件的看法和態(tài)度,對投資者資產(chǎn)配置行為起到非常重要的作用。本文以每日交易中平均漲幅最高的概念股作為當日熱點概念股,所得的熱點概念股頻次分布如表1所示。
表1 高頻次熱點概念股
資料來源:作者通過Tushare提供的基礎(chǔ)數(shù)據(jù)計算而得。
表1顯示當前受投資者追捧的概念股分別為次新股、白酒、AH溢價股,頻次分別達到24次、13次、23次;其次,科創(chuàng)版、養(yǎng)雞、南北船合并等概念股的頻次也較高,這些高頻次熱點概念股主要分布于科技、食品等領(lǐng)域。水利、水電、污水處理、PPP、化肥等概念股的頻次為零,是股票市場中的冷門概念股,冷門概念股主要分布于基建、能源等公共事業(yè)領(lǐng)域。高頻次熱點概念股對投資者的投資決策具有較大影響,在所有概念股中扮演重要角色。
高頻次熱點概念股反映當前股票市場的投資熱點,熱點概念股的演化可以揭示股票市場中不同時段的投資者關(guān)注及投資熱點,有助于識別投資主題的變化。根據(jù)熱點概念股的時間分布情況,將熱點概念股劃分到不同時段,各時段內(nèi)熱點概念股的頻次凸顯不同時段的投資熱點。表2為將熱點概念股劃分到3個時段的頻次分布情況。
表2 不同時段的高頻次熱點概念股
資料來源:作者通過Tushare提供的基礎(chǔ)數(shù)據(jù)計算而得。
從表2可以看出,熱點概念股中AH溢價股、養(yǎng)雞、白酒、民航概念股時間跨度大,熱度存續(xù)期長;海南、光通信、玻纖等概念股的熱度存續(xù)期較短;以大數(shù)據(jù)、智慧城市、科創(chuàng)版等為代表的科技概念股正在逐步成為熱點概念股。通過判斷熱點概念股的時段,以持續(xù)時間為劃分標準,熱點概念股則可以分為兩類:一類是短期熱點概念股,另一類是長期熱點概念股。短期熱點概念股的特點是其熱度持續(xù)期較短,這類熱點概念股一般由普通熱點事件驅(qū)動,以大氣治理、耐火材料、黑色家電、動漫等概念股為代表,股價趨勢表現(xiàn)為短時間大幅上漲后逐漸趨于穩(wěn)定;長期熱點概念股則在較長時期內(nèi)保持熱度,時間跨度大,出現(xiàn)頻次較多,以白酒、養(yǎng)雞、AH溢價股、券商、保險股為代表,股價趨勢表現(xiàn)為有漲有跌。兩類熱點概念股存在顯著差異,究其原因,短時效熱點股由事件驅(qū)動,而長期熱點股由投資者的投資策略驅(qū)動,因此,長期熱點概念股的轉(zhuǎn)移表明投資者資源配置的變化。
為直觀地展示熱點概念股的時間分布,以月份為時間節(jié)點,繪制概念股時間網(wǎng)絡(luò),在時間網(wǎng)絡(luò)中,熱點概念股與對應(yīng)時間節(jié)點相連接,通過各時間節(jié)點的連線可以看出概念股演化趨勢。圖1為6只熱點概念股的時間網(wǎng)絡(luò)。
圖1 熱點概念股的時間網(wǎng)絡(luò)
由圖1可知,AH溢價股長期處于交易的活躍期,在一定程度上表明AH溢價股已經(jīng)形成較為穩(wěn)定的炒作主題,而不是受到熱點事件影響。此外,白酒、養(yǎng)雞概念股的節(jié)點連線較多且時間分布均勻,與大氣治理、黑色家電等短期熱度概念股有顯著性差異。究其原因,短期熱點概念股適合短線操作獲利,無法給投資者帶來長期的、穩(wěn)定的投資收益。
股票共現(xiàn)為熱點概念股與其它概念股建立了聯(lián)系,是進一步分析概念股關(guān)聯(lián)性的基礎(chǔ)。普遍認為股票在概念股中的共現(xiàn)次數(shù)與概念股關(guān)聯(lián)性強弱呈正向關(guān)系,每一概念股均有對應(yīng)的最大共現(xiàn)次數(shù)的概念股。利用股票共現(xiàn)不僅可以直觀地了解股票市場發(fā)展狀況,還可以探討熱點概念股及其關(guān)聯(lián)概念股的未來發(fā)展態(tài)勢。股票共現(xiàn)情況如表3所示。
從表3可知,軍工和軍民融合概念股的股票共現(xiàn)數(shù)為177次,智慧城市與大數(shù)據(jù)概念股股票共現(xiàn)數(shù)為49次,新能源與鋰電池概念股股票共現(xiàn)數(shù)為133次。顯然,軍工與軍民融合、智慧城市與大數(shù)據(jù)、新能源與鋰電池等概念股相互聯(lián)系緊密,且在股票市場中占有較大份額。對于基建、能源等公共事業(yè)領(lǐng)域股票共現(xiàn)數(shù)顯著較低,其中環(huán)保和PPP概念股共現(xiàn)34次,PPP與水務(wù)概念股共現(xiàn)次數(shù)為16次,PPP與水利概念股共現(xiàn)次數(shù)為9次。
表3 共現(xiàn)矩陣(部分)
資料來源:作者通過Tushare提供的基礎(chǔ)數(shù)據(jù)計算而得。
PPP分別與環(huán)保、水務(wù)、水利概念股存在股票共現(xiàn),這表明熱點概念股的漲跌趨勢可以通過股票共現(xiàn)傳導(dǎo)給路徑上的其他概念股。為了進一步從社會網(wǎng)絡(luò)的視角理解概念股之間的關(guān)系,對于每一個概念股,選取與其具有最大共現(xiàn)次數(shù)的概念股作為網(wǎng)絡(luò)中的節(jié)點,并用邊連接從而構(gòu)成概念股共現(xiàn)網(wǎng)絡(luò)。通過Python語言的Networkx庫和Matplotlib庫進行概念股共現(xiàn)網(wǎng)絡(luò)的構(gòu)建和可視化,得到如圖2所示的部分概念股共現(xiàn)網(wǎng)絡(luò)。網(wǎng)絡(luò)以大數(shù)據(jù)概念股為中心呈星狀展開,離中心距離最近的概念股包括人工智能、獨角獸、白酒、科創(chuàng)版等;同時網(wǎng)絡(luò)還出現(xiàn)了以物聯(lián)網(wǎng)、智慧城市、區(qū)塊鏈等概念股為中心的社團結(jié)構(gòu),從網(wǎng)絡(luò)中可以發(fā)現(xiàn)特色小鎮(zhèn)與旅游概念股存在依存關(guān)系,央企改革與核電概念股顯著相關(guān)。
圖2 概念股共現(xiàn)網(wǎng)絡(luò)
在概念股共現(xiàn)網(wǎng)絡(luò)以及熱點概念股演化分析的基礎(chǔ)上,本文提出股票市場中概念股的三階段循環(huán)過程,新舊概念股通過股票共現(xiàn)產(chǎn)生關(guān)聯(lián),概念股的三階段循環(huán)過程如下。
1.概念股首次提及階段。概念股由于熱點事件首次被提及,標志著新概念股的出現(xiàn),投資者對首次提及的概念股保持較多的投資者關(guān)注,首次提及的概念股其平均漲跌幅一般領(lǐng)先于其他概念股,是熱點概念股。
2.概念股熱度保持階段。隨著事件熱度的逐步消退,概念股的表現(xiàn)開始分化,一是成為短期熱點概念股,其股價表現(xiàn)逐步趨于穩(wěn)定,熱度保持時間受事件的重要性影響;二是投資者繼續(xù)保持較高關(guān)注度,成為投資策略的目標概念股,成為長期熱點概念股,其股價趨勢表現(xiàn)為有漲有跌。在熱度保持階段,熱點概念股的漲跌趨勢沿著股票共現(xiàn)的路徑傳導(dǎo)給其他概念股,影響力取決于概念股之間關(guān)聯(lián)性的強弱。
3.概念股被替代階段。當概念股的熱度消失或不再受到投資者的關(guān)注,新熱點事件的產(chǎn)生會促生新的概念股,由于股票市場中上市公司數(shù)量的相對穩(wěn)定,新的概念股通過股票共現(xiàn)與某一舊有概念股相關(guān)聯(lián),新概念股是舊有概念股的繼承者,保持舊有概念股的部分屬性與特征。同時,舊有概念股有概率被再次提及。
根據(jù)股票共現(xiàn),每一只股票是概念股組合性質(zhì)的體現(xiàn),由于大多數(shù)股票同屬于多個概念股,不同數(shù)量的概念股組合為模式,在這些概念股組合模式中,有的模式出現(xiàn)的頻率很低,有的模式出現(xiàn)的頻率很高,一般來說,頻率高的模式具有實際意義。若X、Y、Z為單個概念股,則X?Y為概念股的二元模式關(guān)聯(lián),
從表4可知,共現(xiàn)分析無法準確計量多個概念股的關(guān)聯(lián)性強弱,概念股數(shù)量的增加會使jaccard系數(shù)迅速變小。當支持度閾值為10%,置信度閾值為 50%時,可以從2項模式中發(fā)現(xiàn)許多具有實際意義的強關(guān)聯(lián)規(guī)則,綜合支持度與置信度兩個因素,可以看到,關(guān)聯(lián)規(guī)則的主體由云計算、軍工、智慧城市、大數(shù)據(jù)、物聯(lián)網(wǎng)等概念股構(gòu)成。模式云計算?智慧城市表示該100只股票中有23%的股票都包含云計算與智慧城市概念股,包含云計算的股票有74.20%的概率包含智慧城市概念股,提升度為1.89表明云計算概念與智慧城市概念顯著正相關(guān);模式智慧城市?大數(shù)據(jù)顯示該100只股票中有29%的股票都包含智慧城市與大數(shù)據(jù)概念股,置信度為65.91%,提升度為2.03。模式<智慧城市,云計算>?大數(shù)據(jù)表明,包含智慧城市和云計算概念股的股票,有91.3%的概率包含大數(shù)據(jù)概念股,提升度為2.12表明<智慧城市,云計算>與大數(shù)據(jù)概念股之間呈正向關(guān)聯(lián)性,兩者所對應(yīng)的上市公司非常相似。2項模式云計算?智慧城市中最大共現(xiàn)數(shù)所對應(yīng)的概念股均為大數(shù)據(jù)概念股,3項模式<智慧城市,云計算>?大數(shù)據(jù)中最大共現(xiàn)數(shù)對應(yīng)的概念股為大數(shù)據(jù)、智慧城市概念股,這表明可以通過股票共現(xiàn)將多元模式的關(guān)聯(lián)規(guī)則分解。
表4 概念股的關(guān)聯(lián)規(guī)則(部分)
資料來源:作者通過Tushare提供的基礎(chǔ)數(shù)據(jù)計算而得。
對于投資者而言,可以根據(jù)對應(yīng)的關(guān)聯(lián)規(guī)則配置股票。例如,由模式<智慧城市,云計算>?大數(shù)據(jù)可知,當云計算股和智慧城市股收益率上漲時,大數(shù)據(jù)股收益上漲的概率為91.30%,因此投資者可以根據(jù)這一預(yù)測信息做出決策。一種策略可以是看好云計算股和智慧城市股未來的漲勢,準備好充足的資金,以低價購買大數(shù)據(jù)股,等將來行情漸漲時,以高價拋售大數(shù)據(jù)股,以獲得較大的收益。另一種策略是如果已持有大數(shù)據(jù)股,在急需資金周轉(zhuǎn)情況下,可以考慮在云計算股和智慧城市股還沒有下跌的時候,提前拋售大數(shù)據(jù)股,獲得收益。
共現(xiàn)分析和關(guān)聯(lián)規(guī)則對概念股關(guān)聯(lián)性的強弱和方向進行了量化。為了驗證符合關(guān)聯(lián)規(guī)則的概念股之間市場表現(xiàn)的一致性,選取云計算、智慧城市概念股進行驗證,其中,云計算概念股共有116只股票,智慧城市概念股共有126只股票,股票共現(xiàn)數(shù)為41,置信度為74.2%,jaccard系數(shù)為0.20,這表明兩概念股為正向關(guān)聯(lián)性。以兩概念股的共同股票000063.SZ為信息源節(jié)點,繪制SIR(Susceptible Infected Removed)曲線,圖3是兩概念股中其它股票受信源影響的SIR曲線圖。
a.云計算概念股的SIR曲線 b.智慧城市概念股的SIR曲線
圖3中I線表示股價大幅上漲或下跌的股票數(shù)量隨時間變化情況,R線表示股價穩(wěn)定的股票數(shù)量隨時間變化情況,S線表示有大幅上漲或下跌概率的股票數(shù)量。通過SIR曲線對比發(fā)現(xiàn),云計算和智慧城市概念股的SIR曲線基本一致,這證實了通過共現(xiàn)分析和關(guān)聯(lián)規(guī)則可以有效的計量概念股之間的關(guān)聯(lián)性強度和方向,SIR曲線表現(xiàn)出的一致性表明,在共現(xiàn)分析的基礎(chǔ)上對股票進行關(guān)聯(lián)規(guī)則分析是可靠的、準確的。
本文以概念股為研究對象,通過共現(xiàn)分析、關(guān)聯(lián)規(guī)則分析發(fā)現(xiàn):(1)概念股是否成為熱點不僅由熱點事件驅(qū)動,還受到投資者投資策略的影響,科技相關(guān)概念股正成為投資者新的選擇,但白酒、養(yǎng)雞等概念股表現(xiàn)依然強勁。(2)股票共現(xiàn)是概念股中的普遍特征,股票共現(xiàn)的存在使得概念股經(jīng)歷著首次提及、持續(xù)、替代三階段。(3)共現(xiàn)分析和關(guān)聯(lián)規(guī)則相結(jié)合能準確計量不同概念股之間關(guān)聯(lián)性的強弱和方向,對量化投資者具有實際意義。實驗結(jié)果表明,通過共現(xiàn)分析和關(guān)聯(lián)規(guī)則能夠有效挖掘出概念股共現(xiàn)網(wǎng)絡(luò)中的潛在關(guān)系,對于多個概念股之間的關(guān)系尤為有效,這克服了單一方法的不足。
本文構(gòu)建的概念股共現(xiàn)網(wǎng)絡(luò)能較好地根據(jù)關(guān)聯(lián)性預(yù)測股價,但還是與現(xiàn)實操作有所差別,對于長期而言,單只股票的股價波動還受到基本面影響,因此還有待進一步挖掘。本文的研究有助于投資者從概念股共現(xiàn)網(wǎng)絡(luò)角度認識股價波動,有助于投資者更好地預(yù)測股價趨勢,降低決策風(fēng)險?!?/p>