盧民榮,甘健勝
(1.福建江夏學(xué)院 會(huì)計(jì)學(xué)院,福建 福州 350108;2.福建省社科研究基地財(cái)務(wù)與會(huì)計(jì)研究中心,福建 福州 350108)
自1999年國際貨幣基金組織和世界銀行啟動(dòng)“金融部門評(píng)估計(jì)劃”(FSAP)開始,宏觀經(jīng)濟(jì)指標(biāo)(如GDP、利率等)為各國和各地區(qū)建立金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)做了基礎(chǔ)支撐。從經(jīng)濟(jì)宏觀指數(shù)上看,我國2000年至2010年間GDP增速都在10%左右,2011年至今雖有所回落但也都保持在6%左右,而且宏觀經(jīng)濟(jì)景氣指數(shù)如預(yù)警指數(shù)、一致指數(shù)、先行指數(shù)等也都處于比較理想的狀態(tài)。然而從金融股市的宏觀指數(shù)上看,美國股市從6469低點(diǎn)上漲至26616高點(diǎn),歷時(shí)九年時(shí)間,漲了四倍,而我國創(chuàng)業(yè)板指數(shù),從585點(diǎn)上漲至4037點(diǎn),漲了七倍僅歷時(shí)三年時(shí)間,其中代表中國A股的主板市場(上證指數(shù),代碼000001),從2014年下半年啟動(dòng)以來,累計(jì)最大漲幅翻了一倍,但歷時(shí)不到一年時(shí)間,從而在經(jīng)濟(jì)與金融宏觀指數(shù)存在不協(xié)調(diào)、不一致現(xiàn)象。[1]經(jīng)歷2017年、2018年連續(xù)兩年穩(wěn)態(tài)后,2019年各種事件影響著全球各大指數(shù),引起一系列經(jīng)濟(jì)連鎖反應(yīng)。
2008年股災(zāi)、2015年股災(zāi)、2016年P(guān)2P平臺(tái)跑路潮等金融風(fēng)險(xiǎn)大事件引致資本市場大幅波動(dòng)問題仍然十分明顯,而且在相關(guān)監(jiān)管政策不斷出臺(tái)的背景下未能有效緩解,給我國經(jīng)濟(jì)社會(huì)帶來了一定的負(fù)面影響。從金融微觀上看,股市振幅(變化幅度)與時(shí)間的關(guān)系也表明我國上市資本金融市場機(jī)制仍然不夠成熟,2017年8月14日“301 調(diào)查”、2018年3月23日發(fā)起的“貿(mào)易戰(zhàn)”等事件,在接下來的三個(gè)月時(shí)間,我國A股上證指數(shù)從3300點(diǎn)跌至2800點(diǎn)以下,跌幅近20%且仍呈下跌趨勢,其中影響最大的企業(yè)中興通訊接近10個(gè)跌停,跌幅近60%。雖然2019年有所緩和,但近年來數(shù)據(jù)表明我國的金融機(jī)制仍需要進(jìn)一步健全。[2]當(dāng)前我國A股正處于納入MSCI新興市場指數(shù)初期和金融貿(mào)易風(fēng)險(xiǎn)過渡期,同時(shí)還受2020年突發(fā)新型冠狀病毒肺炎疫情的影響(如開市第一天股票大面積跌停),也會(huì)增加我國的金融風(fēng)險(xiǎn),因此對(duì)金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)的多方面研究顯得更加有必要。
國外的研究主要側(cè)重于運(yùn)用計(jì)算機(jī)技術(shù)和離散數(shù)學(xué)相關(guān)算法去分析金融資產(chǎn)和股票市場變化因素,通過數(shù)據(jù)挖掘相關(guān)算法分析股票市場中指標(biāo)數(shù)據(jù),并提取相關(guān)影響成分,最終設(shè)計(jì)為模型。構(gòu)建宏觀經(jīng)濟(jì)預(yù)警指標(biāo)的研究比較多,Borio和Drehmann側(cè)重金融體系研究,含房價(jià)基差、股價(jià)基差、信貸基差等預(yù)警指標(biāo)[3];Grimaldi以歐洲金融事件(研究數(shù)據(jù)樣本為1999—2009 年)衡量金融危機(jī)與極端金融事件發(fā)生之間的關(guān)系[4];Brave和Butters針對(duì)美國金融條件指數(shù)分析貨幣市場、債券及股票市場及銀行體系[5],Bianco等根據(jù)美國日交易數(shù)據(jù)監(jiān)測系統(tǒng)性金融風(fēng)險(xiǎn)[6];Penikas針對(duì)以色列建立宏觀經(jīng)濟(jì)指標(biāo)建立了該國金融穩(wěn)定指數(shù)[7];Acemoglu等研究了金融網(wǎng)絡(luò)結(jié)構(gòu)與系統(tǒng)性金融風(fēng)險(xiǎn)間的關(guān)系[8]。而在微觀層面金融風(fēng)險(xiǎn)預(yù)警研究比較少,而且集中于投資者的研究,如投資者注意力研究,如Da Z等研究證實(shí)注意力指數(shù)主要反映了個(gè)人投資者的注意力[9],Schroff等研究通過google搜索量實(shí)證分析出股票的信息需求與投機(jī)行為顯著正相關(guān)[10];還有投資者行為研究,如Kraussl和Mirgorodskaya研究了媒體信息可以強(qiáng)化公眾預(yù)期,從而引起投資者對(duì)互聯(lián)網(wǎng)財(cái)經(jīng)新聞及相關(guān)論壇的關(guān)注分析從而影響股市[11]。運(yùn)用大數(shù)據(jù)的機(jī)器學(xué)習(xí)對(duì)股市影響的研究也比較多,如運(yùn)用RESSET金融研究數(shù)據(jù)庫,在大數(shù)據(jù)技術(shù)下分析市場的融資融券的買賣行為對(duì)股票市場影響,運(yùn)用大數(shù)據(jù)機(jī)器學(xué)習(xí)實(shí)現(xiàn)人工智能與金融資產(chǎn)相結(jié)合的方法研究,這些研究大多數(shù)是對(duì)股市漲跌算法進(jìn)行事后分析。[12-14]
而國內(nèi)的學(xué)者運(yùn)用大數(shù)據(jù)對(duì)金融風(fēng)險(xiǎn)的研究也非常多,主要集中在統(tǒng)計(jì)學(xué)結(jié)合計(jì)算機(jī)技術(shù)應(yīng)用于金融行業(yè)的研究,也有對(duì)個(gè)股案例進(jìn)行詳細(xì)的指標(biāo)分析和建立預(yù)測模型。影響較大的研究證實(shí)了未定權(quán)益分析(Contingent Claims Analysis,CCA)的風(fēng)險(xiǎn)指標(biāo)對(duì)我國系統(tǒng)性金融風(fēng)險(xiǎn)預(yù)警具有較好的適用性,為我國金融風(fēng)險(xiǎn)測度提供了良好的理論研究基礎(chǔ)[15-17],李志輝等根據(jù)風(fēng)險(xiǎn)相依性,進(jìn)行了擴(kuò)展研究,實(shí)現(xiàn)了CCA方法的優(yōu)化[18]。金融風(fēng)險(xiǎn)預(yù)測方面更多是運(yùn)用大數(shù)據(jù)技術(shù)建立預(yù)測模型,通過股市歷史數(shù)據(jù)進(jìn)行實(shí)證分析。如討論將 Markov鏈過程理論應(yīng)用于股票交易市場對(duì)股價(jià)綜合指數(shù)的分析預(yù)測模型,探討大數(shù)據(jù)的時(shí)代背景下應(yīng)如何正確地進(jìn)行股票投資,從大數(shù)據(jù)、機(jī)器學(xué)習(xí)和行為金融學(xué)的角度出發(fā)研究炒股行為生成的隨機(jī)變量,并基于某只股票的歷史數(shù)據(jù)運(yùn)用相應(yīng)的算法實(shí)現(xiàn)預(yù)測功能等。[19-21]還有一部分國內(nèi)學(xué)者在研究用戶參與金融市場并對(duì)其產(chǎn)生的影響,更傾向于研究投資者與財(cái)經(jīng)新聞、網(wǎng)絡(luò)論壇、微博等媒體關(guān)系,論證其能在較大程度上影響證券市場。[22-24]
綜合已有研究可以發(fā)現(xiàn),國內(nèi)外基于大數(shù)據(jù)研究股票宏觀市場走勢并生成相應(yīng)的預(yù)測模型的成果比較豐富,也有對(duì)個(gè)股走勢分析和預(yù)測模型的微觀層面研究,而對(duì)金融市場受相關(guān)參與者影響研究比較少。目前,我國大數(shù)據(jù)在各行各業(yè)的應(yīng)用已初顯成效,部分領(lǐng)域的應(yīng)用已經(jīng)處于全球領(lǐng)先地位,其中大數(shù)據(jù)與資本市場關(guān)系的研究亦是金融市場的研究熱點(diǎn)。運(yùn)用大數(shù)據(jù)建立用戶參與預(yù)測模型對(duì)上市資本市場整體影響則基本空白,對(duì)于金融市場相關(guān)參與者包括企業(yè)家,消費(fèi)者,網(wǎng)民(含移動(dòng)網(wǎng)民,下同),投資者等的結(jié)構(gòu)分析(年齡、收入、學(xué)歷),行為分析,體量分析(網(wǎng)民、投資者),指數(shù)分析(企業(yè)家信心指數(shù)、消費(fèi)者指數(shù))等對(duì)股票市場的影響的研究仍然有待進(jìn)一步深入,本課題以大數(shù)據(jù)源和用戶參與行為為觀測點(diǎn),基于用戶參與視角和大數(shù)據(jù)技術(shù)對(duì)金融風(fēng)險(xiǎn)的影響及預(yù)警系統(tǒng)的構(gòu)建,設(shè)計(jì)用戶參與評(píng)價(jià)體系和用戶參與預(yù)測模型,預(yù)警系統(tǒng)可以有效降低金融風(fēng)險(xiǎn),防范股票市場的大起大落對(duì)實(shí)體經(jīng)濟(jì)產(chǎn)生負(fù)面影響。
在有效市場假說下,金融市場風(fēng)險(xiǎn)信息體現(xiàn)在股票價(jià)格走勢中,股票價(jià)格變動(dòng)所包含的信息不僅有價(jià)值而且及時(shí)、準(zhǔn)確,因此,可以圍繞股價(jià)進(jìn)行區(qū)域金融、金融機(jī)構(gòu)等的風(fēng)險(xiǎn)實(shí)證研究。[25-28]在股市下降趨勢時(shí)期(也稱“熊市”)只要稍有風(fēng)吹草動(dòng),A股市場的群體恐慌心理會(huì)不斷降低投資者的投資信心,造成拋售壓力增加,由此形成惡性循環(huán)的現(xiàn)象。金融風(fēng)險(xiǎn)分析在股市下降時(shí)期的預(yù)測效果都比較差,出現(xiàn)非理性行為時(shí)一般難以提前預(yù)警,傳統(tǒng)研究注重各類風(fēng)險(xiǎn)指標(biāo)、預(yù)測指標(biāo)分析,對(duì)投資者及通訊現(xiàn)代化產(chǎn)物網(wǎng)民與股市走勢的關(guān)系并不清楚。本研究通過數(shù)據(jù)爬蟲技術(shù)采集數(shù)據(jù)源(網(wǎng)絡(luò)大數(shù)據(jù)),選取樣本范圍從2000年到2018年,以全球GDP及增長率、中國A股上證指數(shù)(A股主板市場)、中國互聯(lián)網(wǎng)網(wǎng)民結(jié)構(gòu)、財(cái)經(jīng)網(wǎng)站訪問情況、投資者構(gòu)成、企業(yè)家信心指數(shù)、消費(fèi)者指數(shù)等為統(tǒng)計(jì)樣本,采用統(tǒng)計(jì)學(xué)(借助工具SPSS)方法結(jié)合金融行為學(xué)分析金融市場相關(guān)參與方,并以此構(gòu)建金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)。
1.用戶參與評(píng)價(jià)體系。在人類活動(dòng)中,觸發(fā)各類大型事件的往往是人為因素,而在利益面前,尤其是風(fēng)險(xiǎn)投資,人類的各類需求、思維、情緒、博弈等更是人類參與、觸發(fā)事件的重要因素。在金融風(fēng)險(xiǎn)事件中,有政府層面、經(jīng)濟(jì)形勢等因素,但大眾參與也是觸發(fā)系統(tǒng)風(fēng)險(xiǎn)的主要成份。在金融資產(chǎn)評(píng)估及資本市場交易過程中,盡管已經(jīng)出現(xiàn)自動(dòng)交易軟件,但核心仍然是人類,因此用戶參與者評(píng)價(jià)體系研究是圍繞網(wǎng)民、投資者、企業(yè)家、消費(fèi)者等多個(gè)維度構(gòu)建的。2005年網(wǎng)民和投資者數(shù)量已經(jīng)超過1個(gè)億,且每年保持在10%以上的增長率,而到2018年投資者(實(shí)際持有金融資產(chǎn),不計(jì)開空戶)仍然未超過1個(gè)億,網(wǎng)民的影響力遠(yuǎn)超投資者。大數(shù)據(jù)對(duì)金融學(xué)研究的影響通常是多方面的,次要用戶企業(yè)家、消費(fèi)者等相關(guān)指數(shù)在一定程度上反應(yīng)了金融市場的投資回報(bào)與風(fēng)險(xiǎn)預(yù)期。首先綜合分析相關(guān)影響因素,再建立一定的評(píng)價(jià)體系,然后對(duì)其指標(biāo)進(jìn)行賦權(quán),本研究的用戶參與評(píng)價(jià)體系建立步驟:
(1)相關(guān)性分析:通過中國A股上證指數(shù)走勢、交易量、振幅變化與用戶量級(jí)、用戶結(jié)構(gòu)、用戶行為進(jìn)行相關(guān)性分析、多層次分析。
(2)評(píng)價(jià)指標(biāo)的確定:先通過用戶量與A股市場交易量、振幅等關(guān)系指標(biāo)分析,再以用戶性別、年齡、學(xué)歷結(jié)構(gòu)選取影響資本市場交易的指標(biāo),然后根據(jù)用戶在互聯(lián)網(wǎng)及移動(dòng)互聯(lián)網(wǎng)的搜索引擎、網(wǎng)絡(luò)新聞、微博、社交網(wǎng)站、網(wǎng)絡(luò)炒股等橫向行為,結(jié)合中國權(quán)威的東方財(cái)富網(wǎng)、同花順、和訊等財(cái)經(jīng)網(wǎng)站訪問人次、有效瀏覽時(shí)間等縱向行為作為指標(biāo)建立依據(jù)。最后依據(jù)網(wǎng)民、投資者的傳播、情緒、預(yù)測、賭博心理等建立用戶風(fēng)險(xiǎn)指標(biāo),詳細(xì)指標(biāo)如表1和圖1所示。
(3)獲取及規(guī)范數(shù)據(jù):運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)(詳見下文數(shù)據(jù)采集算法)采集用戶參與評(píng)價(jià)體系各類指標(biāo)數(shù)據(jù)材料,網(wǎng)民和投資者兩個(gè)層面統(tǒng)計(jì)差距以及統(tǒng)計(jì)方法不一致等,還需要進(jìn)行修正成可提供分析的規(guī)范數(shù)據(jù),包括以下:
i.采集過程統(tǒng)計(jì)時(shí)段以日、周、月、季、半年及年度不一致
ii.統(tǒng)計(jì)開始、結(jié)束存在時(shí)間差
iii.部分采集數(shù)據(jù)的缺失
iv.統(tǒng)計(jì)結(jié)果的求累加或平均值需要人為判斷
表1 用戶參與評(píng)價(jià)體系指標(biāo)
圖1 用戶行為框圖
2.用戶參與指標(biāo)賦權(quán)。用戶量級(jí)、用戶結(jié)構(gòu)、用戶行為可以通過數(shù)據(jù)分析及統(tǒng)計(jì)軟件初步確定其相關(guān)性分析,傳播、情緒、預(yù)測、賭博心理等用戶風(fēng)險(xiǎn)指標(biāo)難以通過統(tǒng)計(jì)數(shù)據(jù)確定,則通過專家打分法確定權(quán)重,具體工作過程如下:
(1)通過方差(公式1)檢驗(yàn)包括水平方差(公式2)、組內(nèi)方差(公式2),根據(jù)數(shù)據(jù)的穩(wěn)定性篩選不必要的分析指標(biāo),如用戶的年齡變化趨勢,表達(dá)公式如下:
(1)
(2)
式中n表示統(tǒng)計(jì)數(shù)據(jù)個(gè)數(shù),μ表示n個(gè)統(tǒng)計(jì)數(shù)的平均數(shù),σrow表示水平之間或不同組之間的方差,σcol表示同一水平之內(nèi)或同組之內(nèi)的方差。
(2)用“數(shù)據(jù)說話”,根據(jù)三級(jí)指標(biāo)的數(shù)量與一級(jí)指標(biāo)之間的關(guān)系,以2000年至2017年之間的數(shù)據(jù)進(jìn)行單位間隔中所出現(xiàn)的頻率或數(shù)量,并不斷累加,根據(jù)數(shù)據(jù)分布圖(散點(diǎn)圖)結(jié)合matlab軟件推導(dǎo)出符合數(shù)據(jù)與指標(biāo)之間的函數(shù)關(guān)系,數(shù)據(jù)擬合后會(huì)出現(xiàn)高次多項(xiàng)式函數(shù),然而這種函數(shù)不利于圖形的檢驗(yàn),也不容易得出數(shù)據(jù)之間是正相關(guān)還是負(fù)相關(guān),因此還需要進(jìn)行修正和趨勢模擬為低次少項(xiàng)式函數(shù),具體操作步驟如下:
i.Matlab一次函數(shù): polyfit(xdata,ydata,1),xdata、ydata分別表示三級(jí)、一級(jí)指標(biāo)的數(shù)據(jù)(以數(shù)組形式按時(shí)間順序成對(duì)出現(xiàn))
ii.計(jì)算和方差精度(precision,p):即擬合數(shù)據(jù)和原始數(shù)據(jù)對(duì)應(yīng)點(diǎn)的誤差的平方和,本研究假定誤差平方和精度范圍在0.1之內(nèi),公式如下:
(3)
(3)根據(jù)統(tǒng)計(jì)數(shù)據(jù)把用戶行為作為中介變量,由用戶量級(jí)和用戶結(jié)構(gòu)形成用戶行為的影響基礎(chǔ),而用戶行為系最為直接產(chǎn)生用戶風(fēng)險(xiǎn)的指標(biāo),以此建立用戶參與評(píng)價(jià)體系影響路徑(如圖2所示),用戶參與評(píng)價(jià)體系與用戶參與評(píng)價(jià)體系影響路徑將作為用戶參與模型的建立基礎(chǔ)。
圖2 用戶參與評(píng)價(jià)體系影響路徑分析
3.用戶參與預(yù)警模型。在用戶參與評(píng)價(jià)體系基礎(chǔ)上,根據(jù)用戶參與影響路徑分析,建立大數(shù)據(jù)用戶參與模型,旨在通過用戶體量影響、用戶結(jié)構(gòu)各類數(shù)據(jù)分析及用戶群體行為,一方面,減少大數(shù)據(jù)下用戶非理性傳播、情緒化行為、預(yù)測不科學(xué)、賭博心理等風(fēng)險(xiǎn);另一方面,模型通過機(jī)器學(xué)習(xí)算法提供波動(dòng)預(yù)測、趨勢預(yù)測、行為預(yù)測等,以期降低劇烈波動(dòng)的概率,具體模型如圖3所示。
圖3 大數(shù)據(jù)用戶參與模型
金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)的功能包括了數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)庫系統(tǒng)、預(yù)警系統(tǒng),整個(gè)系統(tǒng)的設(shè)計(jì)圍繞“數(shù)據(jù)說話”,運(yùn)用數(shù)據(jù)挖掘技術(shù)建立有價(jià)值的數(shù)據(jù)庫,再通過機(jī)器學(xué)習(xí)算法設(shè)計(jì)預(yù)警跟蹤和偏離糾正等,全過程中以數(shù)據(jù)為中心,具體基于大數(shù)據(jù)的金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)框架如圖4所示。
1.系統(tǒng)功能。
(1)采集系統(tǒng):因金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)相關(guān)指標(biāo)
圖4 大數(shù)據(jù)下金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)框架
數(shù)據(jù)包括了非結(jié)構(gòu)化數(shù)據(jù),而這部分?jǐn)?shù)據(jù)在互聯(lián)網(wǎng)上內(nèi)容采集、清洗及分析難度較大,且經(jīng)常需要人為干預(yù),因此需要結(jié)合爬蟲技術(shù)、掃描監(jiān)測技術(shù)以比較全面地獲取金融風(fēng)險(xiǎn)數(shù)據(jù)和相關(guān)事件的數(shù)據(jù)信息,采集系統(tǒng)的基礎(chǔ)數(shù)據(jù)是預(yù)警系統(tǒng)的依據(jù),其對(duì)金融風(fēng)險(xiǎn)預(yù)測準(zhǔn)確性有相當(dāng)大的影響。
(2)數(shù)據(jù)庫系統(tǒng):通過采集系統(tǒng)獲得的數(shù)據(jù),仍然需要進(jìn)一步分析,不僅需要數(shù)據(jù)挖掘技術(shù)的支持,還要有大數(shù)據(jù)分析的手段。數(shù)據(jù)庫系統(tǒng)是預(yù)警系統(tǒng)的核心,預(yù)警模型的相關(guān)指標(biāo)數(shù)據(jù)分類和匯總都在數(shù)據(jù)庫系統(tǒng)中完成,數(shù)據(jù)庫系統(tǒng)完善程度直接影響機(jī)器學(xué)習(xí)的預(yù)測能力。
(3)預(yù)警系統(tǒng):預(yù)警報(bào)告主要以指標(biāo)臨界值和預(yù)警區(qū)間的方式展示出來,在確定的風(fēng)險(xiǎn)分析和預(yù)測分析后,形成預(yù)警報(bào)告。同時(shí),預(yù)警系統(tǒng)是否與實(shí)際相符,還需要進(jìn)行實(shí)證跟蹤,對(duì)預(yù)測的結(jié)果偏差分析原因,并改進(jìn)相關(guān)的算法以提升機(jī)器學(xué)習(xí)系統(tǒng)的預(yù)測功能,縮小后續(xù)的預(yù)測差距,提升預(yù)警系統(tǒng)的準(zhǔn)確性和科學(xué)性。
2.系統(tǒng)流程。在各大知名財(cái)經(jīng)網(wǎng)站中含有上市公司豐富多樣而且呈一定規(guī)格化的數(shù)據(jù),為數(shù)據(jù)爬蟲采集、歸類提供了方便,數(shù)據(jù)有效性非常高,對(duì)數(shù)據(jù)庫優(yōu)化有著十分重要的意義。另外規(guī)范的數(shù)據(jù)來源也依賴于采集源的數(shù)據(jù)結(jié)構(gòu),如同花順(目前在中國系比較權(quán)威的財(cái)經(jīng)數(shù)據(jù)來源,且提供了大數(shù)據(jù)服務(wù),有免費(fèi)也有收費(fèi)項(xiàng)目),根據(jù)研究分析需要將采集到的數(shù)據(jù)進(jìn)行關(guān)聯(lián)性分析,設(shè)計(jì)相應(yīng)實(shí)體及實(shí)體關(guān)聯(lián),整合成可用規(guī)范的數(shù)據(jù)庫(可供分析的基礎(chǔ)數(shù)據(jù))。在規(guī)范的數(shù)據(jù)庫上面進(jìn)行數(shù)據(jù)挖掘建模,分析財(cái)經(jīng)數(shù)據(jù)和用戶參與相關(guān)影響,并經(jīng)一定的修正形成具有商業(yè)價(jià)值的數(shù)據(jù)庫(可提供分析報(bào)告、商業(yè)解決方案),在數(shù)據(jù)建模過程中不斷優(yōu)化數(shù)據(jù)庫,供更深層次的數(shù)據(jù)分析,具體數(shù)據(jù)采集、建模、分析過程框架如圖5所示。
圖5 數(shù)據(jù)采集及分析框圖
這些海量的財(cái)經(jīng)數(shù)據(jù)采集需要借助工具分析用戶參與預(yù)測模型有用的信息及影響因素,然后在有效數(shù)據(jù)基礎(chǔ)上建模,其中復(fù)雜數(shù)據(jù)分析可以使用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等算法,如采用Spark算法對(duì)采集的數(shù)據(jù)進(jìn)行歸類、預(yù)測、邏輯回歸等。
3.相關(guān)算法。從中國證券登記結(jié)算有限公司、知名財(cái)經(jīng)網(wǎng)站(163、sina)上篩選要爬蟲的位置,如在163中明確財(cái)經(jīng)站點(diǎn)地圖,建立爬蟲目標(biāo)URL集合,然后逐個(gè)分析URL對(duì)應(yīng)的DOM結(jié)構(gòu)(節(jié)點(diǎn)組成,也稱標(biāo)簽列表),形成對(duì)應(yīng)的DOM樹。因本研究采集網(wǎng)站集中度很高,且同一網(wǎng)站下的DOM結(jié)構(gòu)基本一致,這給DOM樹的創(chuàng)建帶來很大的方便,假設(shè)要抓取某網(wǎng)站的n個(gè)URL,每個(gè)URL對(duì)應(yīng)m個(gè)DOM結(jié)構(gòu)(標(biāo)簽為成對(duì)出現(xiàn)),則通過雙循環(huán)可以完成某網(wǎng)站的DOM結(jié)構(gòu)遍歷即2m-1×n,建理想效率如(4)式所示。
(4)
式中,domij表示DOM樹所有邊的操作數(shù)。
在Python編程中,為了方便機(jī)器解析和生成,采用JSON(JavaScript Object Notation),具體算法程序如下:
import requests
import re
import json #輕量級(jí)的數(shù)據(jù)交換格式,易于編寫
def run(self):#實(shí)現(xiàn)主要邏輯
#1.循環(huán)提取url
for url in url_list:
#2.發(fā)送請(qǐng)求,獲取響應(yīng)
html_str = self.parse_url(self.url)
#3.提取數(shù)據(jù)
for dom in dom_list:
dict_response = json.loads(html_str)
#根據(jù)不同的DOM結(jié)構(gòu)獲取不同節(jié)點(diǎn)的數(shù)據(jù)
content_list = [i[“group”][‘text’] for i in dict_response[“data”][“data”]]
test= dict_response[“data”][“main_content”]
#4.保存
self.save(content_list)
#5.獲取下一頁的url ,回到下一循環(huán)
然而,在實(shí)際數(shù)據(jù)爬蟲過程中,同一網(wǎng)站中并非各DOM結(jié)構(gòu)都一致,因此需要對(duì)每個(gè)URL建立不同的DOM結(jié)構(gòu)以保證程序抓取的有效性。
4.相關(guān)實(shí)現(xiàn)。本研究宏觀數(shù)據(jù)采集后,分析建立在龐曉波和王克達(dá)[19]研究的全球各國和各地區(qū)傳染力分類基礎(chǔ)上,并取2000年至2018年間GDP及增長率進(jìn)行參照,剝離了中國香港、中國澳門、安道爾、巴勒斯坦等數(shù)據(jù),并修正俄羅斯、沙特、剛果(布)、阿聯(lián)酋、波黑、孟加拉、科特迪瓦、多米尼克、拉脫維亞、塞爾維亞、馬其頓、也門等國家名稱與全球宏觀數(shù)據(jù)名稱不匹配現(xiàn)象,通過構(gòu)建宏觀數(shù)據(jù)庫可以比較清晰地查看相關(guān)宏觀指數(shù),實(shí)現(xiàn)效果如圖6所示。
圖6 宏觀數(shù)據(jù)庫效果圖
突發(fā)事件確實(shí)存在對(duì)金融市場正面或負(fù)面的影響,事件的影響力大小一方面是指事件本身的重要性,另一方面則是用戶參與如何影響事件及事件的傳播。由于用戶量巨大,用戶影響力增加,在baidu和google指數(shù)中可以觀測到事件的關(guān)注度,從國際事件到國內(nèi)市場的宏觀影響以及股票中重大資訊(并購重組等)的個(gè)股影響,已經(jīng)可以證明這些事件的傳播反饋到金融市場與用戶參與行為有很強(qiáng)的相關(guān)性。因此,各國尤其是傳染力等級(jí)為1和2的國家,對(duì)金融相關(guān)事件的采集及baidu和google指數(shù)進(jìn)行跟蹤,從而劃分事件等級(jí),形成有效的危機(jī)數(shù)據(jù)庫,這對(duì)金融預(yù)警系統(tǒng)有著重要的數(shù)據(jù)支撐作用,同時(shí)這也適用于相關(guān)股票的重大資訊(主要運(yùn)用于風(fēng)險(xiǎn)提示數(shù)據(jù)庫)。
據(jù)互聯(lián)網(wǎng)發(fā)展報(bào)告顯示,我國網(wǎng)民規(guī)模發(fā)展十分迅速, 2018年已經(jīng)接近8個(gè)億,互聯(lián)網(wǎng)普及率也從不到3%發(fā)展到接近60%,同時(shí)由于智能手機(jī)、3G、4G等通訊技術(shù)飛速發(fā)展,手機(jī)網(wǎng)民也從2006年(受統(tǒng)計(jì)數(shù)據(jù)限制,2006年之前沒有相關(guān)數(shù)據(jù)統(tǒng)計(jì))的1300萬迅速擴(kuò)展到7.5億(2017年12月),其中2007年到2012年每年增長同比均超過100%。與此同時(shí),據(jù)中登公布數(shù)據(jù),參與A股投資者2000年為6154萬(同年增加的投資者為1343萬),2002年因大量不規(guī)范賬戶清理,年末投資者數(shù)為6841萬,到2018年已經(jīng)達(dá)到13863萬(開戶數(shù)已經(jīng)超過1.7億,部分開戶非有效投資者)。以投資者數(shù)和網(wǎng)民數(shù)量(含手機(jī)網(wǎng)民)兩個(gè)視角看,用戶參與數(shù)量龐大,投資者、網(wǎng)民的行為都會(huì)產(chǎn)生大量數(shù)據(jù),而且網(wǎng)民的查閱和轉(zhuǎn)載、傳播行為大大增速,基于大數(shù)據(jù)的用戶參與結(jié)構(gòu)分析、關(guān)注度、情緒反應(yīng)等群體行為對(duì)A股上證指數(shù)有著重大影響。
1.數(shù)據(jù)說明。大數(shù)據(jù)時(shí)代下金融風(fēng)險(xiǎn)預(yù)警系統(tǒng)所需要的支撐數(shù)據(jù)比較集中于財(cái)經(jīng)類網(wǎng)站和互聯(lián)網(wǎng)相關(guān)統(tǒng)計(jì)數(shù)據(jù),為了提升基礎(chǔ)數(shù)據(jù)的有效性和降低數(shù)據(jù)分析的復(fù)雜度,我們采集的數(shù)據(jù)均來自比較權(quán)威的網(wǎng)站和規(guī)范的數(shù)據(jù)庫,因此采集方式也比較簡便,主要數(shù)據(jù)來源以及采集方式如表2所示,下文中數(shù)據(jù)來源均引自表2,不再注明引用來源。
表2 采集數(shù)據(jù)源及方式
(1)數(shù)據(jù)接口:同花順iFinD因其具有商業(yè)性質(zhì)提供了很好的數(shù)據(jù)接口,北京廣鑾軒數(shù)據(jù)科技公司提供了大數(shù)據(jù)集和數(shù)據(jù)描述都可以很方便地進(jìn)行數(shù)據(jù)導(dǎo)出,然后將所需要的數(shù)據(jù)根據(jù)數(shù)據(jù)庫的模式匹配整理成規(guī)范的數(shù)據(jù)庫。
(2)網(wǎng)絡(luò)爬蟲:在數(shù)據(jù)挖掘過程中,仍然有許多數(shù)據(jù)是無法通過規(guī)范的數(shù)據(jù)接口完成的,因此在基礎(chǔ)數(shù)據(jù)采集過程中仍然需要在互聯(lián)網(wǎng)上采集所需財(cái)經(jīng)數(shù)據(jù),如中國證券登記結(jié)算有限公司網(wǎng)站提供的投資者統(tǒng)計(jì)的情況,以及知名的財(cái)經(jīng)網(wǎng)站,這些網(wǎng)站的網(wǎng)頁格式也比較規(guī)范,采集難度不高,具體采集算法參看下文的算法說明。
2.宏觀指數(shù)統(tǒng)計(jì)及分析算法。宏觀分析采用A股主板市場上證指數(shù)(因?yàn)閯?chuàng)業(yè)板更不成熟,漲跌幅過大,分析容易出現(xiàn)偏差),采集樣本從1999年至2018年,A股上證指數(shù)獲取分析信息有收盤價(jià)、最高價(jià)、最低價(jià)、開盤價(jià)、前收盤、漲跌額、漲跌幅、成交量、成交金額等。A股(上證指數(shù))指標(biāo)統(tǒng)計(jì)過程如表3所示,其中年度統(tǒng)計(jì)時(shí)以當(dāng)年第一個(gè)交易日至當(dāng)年最后一個(gè)交易日(除2018年外)為統(tǒng)計(jì)期間,統(tǒng)計(jì)結(jié)果如表4所示。
根據(jù)不同指標(biāo)之間的數(shù)量關(guān)系形成大數(shù)據(jù)訓(xùn)練集,以A股(上證指數(shù))指標(biāo)為ydata(不同區(qū)間振幅及成交量),導(dǎo)入不同組的指標(biāo)數(shù)據(jù)xdata(包括用戶量、用戶結(jié)構(gòu)、用戶行為等),然后計(jì)算出每組指標(biāo)之間的擬合曲線,提供數(shù)據(jù)規(guī)律進(jìn)行基礎(chǔ)分析,具體算法過程如圖7所示。
3.用戶網(wǎng)絡(luò)行為結(jié)果分析。因?yàn)橛脩舻乃阉饕妗⒕W(wǎng)絡(luò)新聞、微博、社交網(wǎng)站、網(wǎng)絡(luò)炒股等相關(guān)行為數(shù)據(jù)在采集過程中由于數(shù)據(jù)源停止采集或數(shù)據(jù)源不規(guī)范而出現(xiàn)部分缺失,本研究使用簡單的移動(dòng)平均法,對(duì)其缺失數(shù)據(jù)進(jìn)行預(yù)測補(bǔ)充(其中前值未采集的信息則不作補(bǔ)充),預(yù)測值pv公式如(5)式所示。
表3 A股(上證指數(shù))指標(biāo)統(tǒng)計(jì)過程
表4 A股(上證指數(shù))指標(biāo)統(tǒng)計(jì)結(jié)果
(5)
式中,An表示前期實(shí)際值,n表示統(tǒng)計(jì)的實(shí)際值個(gè)數(shù)。
觀測網(wǎng)民的相關(guān)行為能夠發(fā)現(xiàn)網(wǎng)民行為對(duì)投資的影響,其中網(wǎng)絡(luò)炒股比例是以網(wǎng)絡(luò)炒股人次在當(dāng)年網(wǎng)民規(guī)模中的比例計(jì)算,具體統(tǒng)計(jì)及計(jì)算結(jié)果如表5所示,從統(tǒng)計(jì)數(shù)據(jù)上看搜索引擎、網(wǎng)絡(luò)新聞是網(wǎng)民的重要行為。在2016、2017連續(xù)兩年的互聯(lián)網(wǎng)發(fā)展報(bào)告中,手機(jī)網(wǎng)民(也稱“移動(dòng)網(wǎng)民”)通過手機(jī)搜索、手機(jī)查看網(wǎng)絡(luò)新聞等使用率均超過80%,截至2017年12月,手機(jī)搜索、手機(jī)查看網(wǎng)絡(luò)新聞等使用率分別為82.9%、82.3%,手機(jī)以其便攜性、易操作性將更迅速地影響網(wǎng)民行為。部分研究采用股票的點(diǎn)擊量、自選股(添加、刪除、留存等)進(jìn)行用戶行為分析及區(qū)間分析。
在用戶相關(guān)行為中,以網(wǎng)民查看財(cái)經(jīng)信息展開采集(從2009年開始,截止日期為2018年3月),在采集結(jié)果基礎(chǔ)上以年度平均訪問為統(tǒng)計(jì)準(zhǔn)則,網(wǎng)民財(cái)經(jīng)網(wǎng)站訪問情況如表6所示。通過訪問財(cái)經(jīng)網(wǎng)站的相關(guān)行為分析,結(jié)合資本市場(上漲和下跌)觀測其行為,2015年處于大幅振蕩(上半年大幅上漲和下半年大幅下跌),網(wǎng)民在財(cái)經(jīng)網(wǎng)站上的訪問量大大增加。
圖7 不同指標(biāo)數(shù)據(jù)與A股(上證指數(shù))的擬合過程
4.用戶參與模型相關(guān)性分析檢驗(yàn)。在用戶參與模型中各指標(biāo)之間的數(shù)量關(guān)系根據(jù)年度變化具有連續(xù)變量之間的相關(guān)性,因此,本研究使用積差相關(guān)系數(shù)(也稱Pearson系數(shù)),該系數(shù)可以比較直觀地篩選出相關(guān)高的指標(biāo),并從高相關(guān)指標(biāo)中再深入分析,用于驗(yàn)證模型的預(yù)測功能,具體計(jì)算公式如(6)式所示。
(6)
式中,x,y即為用戶參與模型中不同指標(biāo),y同上ydata取以A股(上證指數(shù))指標(biāo)(不同區(qū)間振幅及成交量)數(shù)據(jù),r表示兩兩指標(biāo)之間的相關(guān)性,指標(biāo)篩選依據(jù)如表7所示。因?yàn)橹笜?biāo)中部分?jǐn)?shù)據(jù)采集缺失,故在年度統(tǒng)計(jì)中,以比較齊全的數(shù)據(jù)區(qū)間(2000年至2016年)進(jìn)行相關(guān)性分析,獲得高度相關(guān)的分析結(jié)果(因文章篇幅有限,顯著相關(guān)結(jié)果略)。
1.從用戶年齡統(tǒng)計(jì)上看各年齡段的趨勢變化不明顯,但30歲以下不成熟的網(wǎng)民、投資者占比非常大,這個(gè)群體極易被網(wǎng)絡(luò)媒體等信息影響,甚至誤導(dǎo),然后傳播不當(dāng)?shù)男畔?,從而更容易?dǎo)致信息偏差和市場振動(dòng)。
表5 網(wǎng)民網(wǎng)絡(luò)應(yīng)用使用情況統(tǒng)計(jì)(2007—2017年) 單位:萬人
注:下劃線為采集缺失數(shù)據(jù),通過移動(dòng)平均計(jì)算所得。
表6 網(wǎng)民財(cái)經(jīng)網(wǎng)站訪問情況(2009—2018年)單位:萬人/萬小時(shí)
表7 指標(biāo)篩選依據(jù)
2.從學(xué)歷上看,各學(xué)歷層次的比例不穩(wěn)定,投資者往高學(xué)歷增長,低學(xué)歷層次占比不斷下降,而高學(xué)歷對(duì)股市的影響主要有兩方面:一是研究更為細(xì)致、查找資料更為有效、投資更為謹(jǐn)慎,二是投資手段更為科學(xué),大數(shù)據(jù)、自動(dòng)交易軟件等技術(shù)手段應(yīng)用率不斷提升。
3.從用戶行為分析結(jié)果,金融事件與股市波動(dòng)(振幅)有著強(qiáng)相關(guān)性,尤其是負(fù)面信息在下跌趨勢中其振幅會(huì)隨著金融事件的蔓延而不斷增大,用戶產(chǎn)生的搜索指數(shù)也隨之?dāng)U大。
顯然,政治、金融、軍事、疫情等各類事件在各國傳染等級(jí)不一樣,影響力的區(qū)別主要在于用戶參與該事件傳播導(dǎo)致風(fēng)險(xiǎn)傳染等重大因素。因此,就各類金融事件在一定時(shí)間內(nèi)對(duì)用戶參與關(guān)注度的適度引導(dǎo),可以有效控制和防止金融風(fēng)險(xiǎn)的發(fā)生和擴(kuò)大。