關(guān)鍵詞:中國證監(jiān)會(huì);異常波動(dòng);機(jī)器學(xué)習(xí);股價(jià)操縱檢測(cè);股票市場;集成學(xué)習(xí)
中圖分類號(hào):TP39;F832.5 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)03-0077-05 開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0引言
股價(jià)操縱行為往往涉及散布虛假信息、囤積資產(chǎn)等復(fù)雜且隱蔽的交易手段。這些行為不僅對(duì)市場的公平性和透明度造成了嚴(yán)重破壞,也給投資者帶來了不小的風(fēng)險(xiǎn)。眾多學(xué)者對(duì)此問題進(jìn)行了深入探討,從不同角度剖析了股價(jià)操縱的影響與識(shí)別方法。劉勝軍(2001) [1]指出操縱者通過一系列手段如渲染氣氛、做尾盤等獲得大量非法利益。孫開連等(2002) [2]則強(qiáng)調(diào)股價(jià)操縱對(duì)市場的公平性和透明度的破壞。李珍和夏中寶(2020) [3]根據(jù)供求關(guān)系理論,分析交易型操縱對(duì)價(jià)格的影響,并提出了一系列加強(qiáng)反操縱監(jiān)管的具體措施。隨著市場操縱手段的不斷演變,學(xué)者們也在不斷探索新的研究方法。劉溪等(2019) [4]構(gòu)建理性預(yù)期均衡模型,分析非知情交易者前后價(jià)格波動(dòng),揭示了噪聲信息對(duì)市場的影響。李夢(mèng)雨(2015) [5]利用Logit模型設(shè)計(jì)了一種市場操縱預(yù)警機(jī)制,為監(jiān)管提供了有力支持。近年來,機(jī)器學(xué)習(xí)在股價(jià)操縱識(shí)別中發(fā)揮了越來越重要的作用。李博等(2023) [6]基于支持向量機(jī)提出了時(shí)態(tài)數(shù)據(jù)的粒度變換概念,有效識(shí)別了不同程度操縱股票的模式。張穎和李路(2024) [7]構(gòu)建了基于隨機(jī)森林特征選擇的RF-MIP-LSTM模型,并通過推導(dǎo)前向與反向傳播算法證明了其可行性。同時(shí),不同機(jī)器學(xué)習(xí)模型在股價(jià)操縱識(shí)別中的性能也成為研究的熱點(diǎn)。陳宇龍和孫廣宇(2023) [8]通過綜合比較發(fā)現(xiàn), K-近鄰模型在股價(jià)操縱識(shí)別中具有較好的表現(xiàn)。而劉振清等(2020) [9]則基于新型指標(biāo)使用邏輯回歸模型,證明了操縱事件前后特定指標(biāo)會(huì)發(fā)生顯著變化。此外,胡金霞(2010) [10]提出了一種用于股票價(jià)格操縱識(shí)別的人工神經(jīng)網(wǎng)絡(luò),此模型具有良好的檢測(cè)性能,為股價(jià)操縱問題的解決提供了新的思路和方法。
在集成學(xué)習(xí)領(lǐng)域,Wang等(2019)[11]集成了多個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) ,顯著增強(qiáng)了日內(nèi)股票價(jià)格操縱的檢測(cè)效果。隨后,Liu等(2024)[12] 運(yùn)用堆疊泛化技術(shù),將多個(gè)RNN子模塊進(jìn)行有效集成,進(jìn)一步提升了檢測(cè)效果。 Chullamonthon等(2023) [13]開創(chuàng)性地將有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)進(jìn)行集成,針對(duì)泰國股票市場操縱行為進(jìn)行了精準(zhǔn)檢測(cè), 從而驗(yàn)證了集成無監(jiān)督深度神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域的實(shí)用性。除模型設(shè)計(jì)之外,樣本特征的選取也極為重要。Aggarwal和Wu(2006)[14]發(fā)現(xiàn),在操縱期間,股價(jià)操縱活動(dòng)往往伴隨著股票流動(dòng)性增加、波動(dòng)性的加劇和回報(bào)率的提升。??üt等人(2009) [15]則進(jìn)一步將操縱股票與指數(shù)之間的日均收益率、波動(dòng)率和交易量的差異作為關(guān)鍵解釋變量,為股價(jià)操縱的檢測(cè)提供了新的視角。
盡管以上學(xué)者們的貢獻(xiàn)為股價(jià)操縱檢測(cè)與防范提供了強(qiáng)有力的支持,但市場環(huán)境瞬息萬變,常常存在數(shù)據(jù)質(zhì)量不高和信息透明度差等現(xiàn)象。鑒于此,本文收集了近15年中國證監(jiān)會(huì)股價(jià)操縱案例和相似股價(jià)信息,構(gòu)建一種先進(jìn)的機(jī)器學(xué)習(xí)模型對(duì)股價(jià)操縱進(jìn)行識(shí)別,并選取了五個(gè)指標(biāo)對(duì)模型的性能進(jìn)行全面評(píng)估。特別地,在特征選擇上,納入被操縱股票與當(dāng)日大盤指數(shù)的差異,提出了一系列新穎的股價(jià)度量指標(biāo)。實(shí)驗(yàn)表明,本文模型相對(duì)其他單一股價(jià)操縱檢測(cè)模型,在股價(jià)操縱檢測(cè)的準(zhǔn)確性方面表現(xiàn)出了顯著的優(yōu)勢(shì)。
本文其余部分安排:第1節(jié)討論了數(shù)據(jù)來源及特征工程。在第2節(jié)介紹了用于股票操縱檢測(cè)的集成學(xué)習(xí)模型。隨后在第3節(jié)展示了實(shí)驗(yàn)過程及結(jié)果。第4 節(jié)總結(jié)了研究工作,并提出了未來的研究方向。
1 數(shù)據(jù)和特征工程
1.1 數(shù)據(jù)來源
出于安全性的考量,中國證券監(jiān)督管理委員會(huì)(CSRC) (http://www.csrc.gov.cn/)僅公開了部分信息,包括股價(jià)操縱案的涉案人員、股票名稱、操縱天數(shù)、活動(dòng)描述以及造成的經(jīng)濟(jì)損失金額。研究系統(tǒng)地收集了2008年至2023年的股價(jià)操縱案例,對(duì)于股票部分?jǐn)?shù)據(jù)缺失的案例,進(jìn)行整行刪除并對(duì)其余數(shù)據(jù)Z-score標(biāo)準(zhǔn)化。最后共計(jì)獲取了196只被操縱股票數(shù)據(jù)??紤]到操縱時(shí)間長短對(duì)研究分析至關(guān)重要,我們篩選出操縱時(shí)間較短的,特別是3天以內(nèi)的股票案例,并將這些時(shí)間段標(biāo)記為異常時(shí)段。進(jìn)一步收集了申萬行業(yè)指數(shù)以及交易所指數(shù),這些數(shù)據(jù)將作為后續(xù)特征工程的基礎(chǔ),部分?jǐn)?shù)據(jù)展示如表1所示。
此外,采用控制樣本的方法進(jìn)行對(duì)比分析。依據(jù)市值、股價(jià)及所屬行業(yè)等關(guān)鍵指標(biāo),在同花順財(cái)經(jīng)(ehatsttpms:o/n/wewy.wc.o1m0j/q),ka騰.co訊m.自cn/選) ,東股方(h財(cái)ttp富s://網(wǎng)gu(.hqttqp.sc:/o/mww/rwe?. source/products/portfolio/m.htm) 等股票網(wǎng)站中,為每個(gè)被操縱的股票找到了一個(gè)最為相近的未受操縱的股票作為控制樣本。對(duì)于控制樣本,要求沒有報(bào)告出任何不良消息且從未出現(xiàn)在中國證監(jiān)會(huì)行政處罰決定書中。在此基礎(chǔ)上,在銳思金融數(shù)據(jù)網(wǎng)站(Resset) (https://db.resset.com/index.jsp?actionResult=index) 下載了這些股票的相關(guān)數(shù)據(jù),形成了本次研究的基礎(chǔ)實(shí)驗(yàn)數(shù)據(jù)集,整體數(shù)據(jù)處理流程如圖1所示。
1.2特征工程
在股價(jià)操縱過程中,股票價(jià)格、交易量和持股集中度往往會(huì)呈現(xiàn)出明顯的異常變動(dòng)。操縱行為,通常都被隱藏在龐大的股票交易數(shù)據(jù)中。為了更好地挖掘交易數(shù)據(jù)中隱藏的信息,同時(shí)考慮了換手率、收益率、振幅等股票特征。
換手率:股票的換手率越高,說明其交易越頻繁,操縱者通過頻繁交易,增加股票的換手率,誘使其他投資者跟風(fēng)買入或賣出。其計(jì)算公式如下:
收益率:操控行為可能導(dǎo)致股票價(jià)格在短期內(nèi)上升,從而使得收益率看似較高。然而,一旦操控結(jié)束,股價(jià)往往會(huì)回落,實(shí)際收益率可能大打折扣。其計(jì)算公式如下:
另外,分析特別引入了兩組對(duì)比指標(biāo),一組是與市場正常交易狀況相對(duì)照的差異化指標(biāo),另一組是與行業(yè)平均水平相比較的差值指標(biāo)。具體來說,分析將當(dāng)日股票的收益率與對(duì)應(yīng)的申萬2級(jí)行業(yè)指數(shù)日收益率進(jìn)行比較,計(jì)算出其差的絕對(duì)值,即“申萬日收益率差”,以衡量股票與行業(yè)整體的收益偏離程度;同樣地,研究者也計(jì)算了與交易所指數(shù)日收益率的差值絕對(duì)值,即“交易所日收益率差”,以反映股票與交易所整體市場的收益差異。類似地,為了進(jìn)一步探究股票價(jià)格波動(dòng)幅度的異常情況,研究者還計(jì)算了股票的振幅與申萬2級(jí)行業(yè)指數(shù)振幅及交易所指數(shù)振幅的差值絕對(duì)值,分別命名為“申萬振幅差”和“交易所振幅差”。這些差值指標(biāo)不僅能夠幫助研究者識(shí)別出異常波動(dòng)的股票,還能為后續(xù)的股價(jià)操縱檢測(cè)提供有力的數(shù)據(jù)支持。此外,Siddiqi(2007) [16]強(qiáng)調(diào)了市盈率、市凈率、市現(xiàn)率、市銷率等財(cái)務(wù)指標(biāo)在股價(jià)操縱行為檢測(cè)中的重要性。
綜上所述,經(jīng)過精心挑選和計(jì)算,研究最終確定了如表2所示的一系列變量,這些變量將作為后續(xù)研究的基礎(chǔ),幫助研究者更深入地理解股價(jià)操縱行為,提高檢測(cè)的準(zhǔn)確性和有效性。
為了進(jìn)一步表明申萬收益率差、交易所收益率差、申萬振幅差和交易所振幅差四個(gè)關(guān)鍵指標(biāo)對(duì)股票價(jià)格操縱行為的作用,對(duì)被操縱股票與正常股票在這四個(gè)變量上進(jìn)行了統(tǒng)計(jì)分析,結(jié)果如表3所示。受操縱股票的均值、中位數(shù)、方差和極差均遠(yuǎn)高于正常股票。這意味著受操縱股票的收益與價(jià)格波動(dòng)情況與市場整體或行業(yè)平均水平存在較大偏離,這通常是股票價(jià)格被人為干預(yù)的顯著特征。這一發(fā)現(xiàn)不僅證實(shí)了這四個(gè)指標(biāo)在衡量股票價(jià)格操縱行為方面的有效性,也為后續(xù)研究提供了重要的判斷依據(jù)。
2模型配置
Wolpert(1992) 的研究表明,通過堆疊集成策略,即通過結(jié)合多個(gè)模型的預(yù)測(cè)結(jié)果,能夠顯著提高整體預(yù)測(cè)性能[17]。受此啟發(fā),本文所構(gòu)建的模型主要采用了集成學(xué)習(xí)中堆疊(stacking) 的模型結(jié)構(gòu),如圖2 所示。
模型選取了一系列性能優(yōu)異的基學(xué)習(xí)器,包括支持向量機(jī)(SVM) 、隨機(jī)森林(RF) 、K-近鄰算法(KNN) 、邏輯回歸(LR) 以及人工神經(jīng)網(wǎng)絡(luò)(ANN) 。這些基學(xué)習(xí)器獨(dú)立對(duì)輸入特征數(shù)據(jù)進(jìn)行處理,通過五折交叉驗(yàn)證以及網(wǎng)格搜索來選擇最佳超參數(shù)并訓(xùn)練模型,并輸出受操縱的可能性預(yù)測(cè)。接下來,基學(xué)習(xí)器的預(yù)測(cè)值被合并成一個(gè)綜合向量,作為集成學(xué)習(xí)器的輸入。本文選擇了邏輯回歸作為元學(xué)習(xí)器。它可以整合各基學(xué)習(xí)器的預(yù)測(cè)結(jié)果,并通過其概率輸出進(jìn)行判斷,其輸出的預(yù)測(cè)概率將作為最終的判斷依據(jù),同樣通過交叉驗(yàn)證來調(diào)整超參數(shù)。這樣的集成方式有效地發(fā)揮了各個(gè)基學(xué)習(xí)器的優(yōu)勢(shì),避免了單一模型可能出現(xiàn)的偏見或局限性,從而提高了整體的預(yù)測(cè)準(zhǔn)確性和穩(wěn)定性。
此外,本研究還借鑒了張貴生和張信東(2016) [18]的研究思路,將股票信息提取為一個(gè)梯度因子并引入到模型中。這一策略有助于模型更好地捕捉股票價(jià)格的動(dòng)態(tài)變化,從而提高對(duì)股票價(jià)格操縱行為的識(shí)別能力。同時(shí),與Liu等(2024) [12]一樣,利用梯度分離方法對(duì)拼接后的股票信息進(jìn)行處理。梯度分離通過反向傳播算法能夠有效訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),在股票價(jià)格預(yù)測(cè)中,市場行為和價(jià)格走勢(shì)通常是非線性的,因此,神經(jīng)網(wǎng)絡(luò)能夠識(shí)別并學(xué)習(xí)這些復(fù)雜的動(dòng)態(tài)模式。
3 實(shí)驗(yàn)與評(píng)估
3.1 評(píng)估指標(biāo)
在深入的研究中,選取了五個(gè)指標(biāo),即準(zhǔn)確率、召回率、精確度、F1分?jǐn)?shù)以及AUC值,來對(duì)分類器的性能進(jìn)行全面評(píng)估。表4展示了混淆矩陣,能夠直觀地反映分類器的結(jié)果。
在混淆矩陣中,真陽性(TP) 和真陰性(TN) 分別代表著分類器正確地將實(shí)例歸類為陽性或陰性的數(shù)量,這直接反映了分類器的正確識(shí)別能力。而假陽性(FP) 和假陰性(FN) 則代表著分類器錯(cuò)誤地將實(shí)例歸類為陽性或陰性的數(shù)量,這體現(xiàn)了分類器的誤判程度。此外,F(xiàn)1分?jǐn)?shù)是精確度和召回率的調(diào)和平均值,能夠綜合評(píng)估分類器在精確度和召回率兩方面的表現(xiàn);而AUC值則基于ROC曲線計(jì)算得出,取值范圍從0到1,能夠衡量分類器在不同分類閾值下的性能,AUC 值越高,模型的預(yù)測(cè)性能就越好。上述指標(biāo)的計(jì)算公式如下所示:
3.2實(shí)驗(yàn)結(jié)果
3.2.1實(shí)驗(yàn)Ⅰ:評(píng)估模型性能
研究將所提出的集成學(xué)習(xí)模型與支持向量機(jī)、樸素貝葉斯、決策樹、K-近鄰算法、邏輯回歸和隨機(jī)森林等機(jī)器學(xué)習(xí)模型在股價(jià)操縱檢測(cè)方面的性能進(jìn)行了對(duì)比分析,翔實(shí)的數(shù)據(jù)對(duì)比如圖3所示。從中不難發(fā)現(xiàn),本文所設(shè)計(jì)的模型在準(zhǔn)確率上展現(xiàn)出了顯著的優(yōu)勢(shì),其準(zhǔn)確率高達(dá)84%,遠(yuǎn)超過其他所有單一機(jī)器學(xué)習(xí)模型。特別地,即便支持向量機(jī)模型和隨機(jī)森林這兩種表現(xiàn)相對(duì)突出的模型,其準(zhǔn)確率也僅為77%,而K-近鄰算法的準(zhǔn)確率為75%,均未能達(dá)到本文模型的性能水平。
在衡量模型檢測(cè)效能的其他指標(biāo)上,本文模型同樣表現(xiàn)出了優(yōu)越的性能。其召回率和精確率均為83%,高于其他所有對(duì)比模型。這反映了本文模型在減少漏報(bào)和誤報(bào)方面的有效性,從而增強(qiáng)了其在股價(jià)操縱檢測(cè)任務(wù)中的可靠性。
此外,進(jìn)一步計(jì)算了F1分?jǐn)?shù),結(jié)果顯示,本文模型的F1分?jǐn)?shù)為83%,顯著領(lǐng)先于其他模型,充分證明了本文模型的實(shí)用性和泛化能力。
并且還繪制了以上模型的ROC 曲線和AUC 面積,以確保對(duì)比實(shí)驗(yàn)結(jié)果的客觀性和公平性,如圖4所示。本文模型AUC=0.83,這是所有模型中最高的,表明它在區(qū)分正負(fù)類方面的能力最強(qiáng)。
3.2.2實(shí)驗(yàn)Ⅱ:消融實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證申萬收益率差、交易所收益率差與申萬振幅差、交易所振幅差這四個(gè)特征在股價(jià)操縱檢測(cè)中的有效性,研究進(jìn)行了一項(xiàng)消融實(shí)驗(yàn)。在確保其他所有條件均保持一致的前提下,研究移除了這四個(gè)特征指標(biāo),并對(duì)模型的性能進(jìn)行了重新評(píng)估。實(shí)驗(yàn)結(jié)果顯示,如圖5所示,雖然本文模型在移除這四個(gè)特征后仍然表現(xiàn)最佳,但其性能相比添加這些特征時(shí)(如圖3所示) 出現(xiàn)了明顯的下滑趨勢(shì)。這一發(fā)現(xiàn)有力地證實(shí)了這四個(gè)特征在提升股價(jià)操縱檢測(cè)準(zhǔn)確性方面的重要作用,也進(jìn)一步凸顯了本文模型在特征選擇和集成學(xué)習(xí)方面的優(yōu)勢(shì)。
本文同樣繪制了消融實(shí)驗(yàn)的ROC曲線和AUC值,結(jié)果如圖6所示。其中本模型AUC值為0.78,表明它具有最好的分類性能,缺少四個(gè)指標(biāo)后,各模型的各模型ROC曲線和AUC面積都出現(xiàn)不同差異的下降。
4結(jié)束語
本研究收集了來自中國證監(jiān)會(huì)2008年至2023年的股價(jià)操縱案例,并為每個(gè)案例選擇了控制樣本。同時(shí)提出四個(gè)特征指標(biāo),即申萬收益率差、交易所收益率差、申萬振幅差和交易所振幅差,構(gòu)建了一個(gè)基于集成學(xué)習(xí)的檢測(cè)模型。實(shí)驗(yàn)結(jié)果顯示,相比于單一方法,檢測(cè)效果獲得了進(jìn)一步提升,從而驗(yàn)證了所提出的這些指標(biāo)在捕捉股價(jià)異常波動(dòng)和操縱行為方面的重要性和有效性。
未來研究將進(jìn)一步擴(kuò)大數(shù)據(jù)集范圍,探索更先進(jìn)的模型架構(gòu)和算法,結(jié)合實(shí)時(shí)監(jiān)測(cè)和異常檢測(cè)技術(shù),有效地檢測(cè)和響應(yīng)市場操縱行為。同時(shí),設(shè)計(jì)自適應(yīng)機(jī)制進(jìn)一步優(yōu)化模型性能。