• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      感知認(rèn)知技術(shù)在金融風(fēng)險(xiǎn)預(yù)警中的應(yīng)用研究

      2021-11-30 05:19:02肖京王磊楊余久李娜趙盟盟陳又新譚韜
      智能系統(tǒng)學(xué)報(bào) 2021年5期
      關(guān)鍵詞:金融風(fēng)險(xiǎn)預(yù)警文本

      肖京,王磊,楊余久,李娜,趙盟盟,陳又新,譚韜

      (1. 平安科技(深圳)有限公司,廣東 深圳 518029; 2. 清華大學(xué)深圳國(guó)際研究生院,廣東 深圳 518055)

      系統(tǒng)性金融風(fēng)險(xiǎn)指可能危及整個(gè)金融體系穩(wěn)定的風(fēng)險(xiǎn)。國(guó)際實(shí)踐表明,系統(tǒng)性金融風(fēng)險(xiǎn)不僅危及金融穩(wěn)定,更會(huì)給宏觀經(jīng)濟(jì)和社會(huì)財(cái)富造成巨大損失。系統(tǒng)性金融風(fēng)險(xiǎn)表現(xiàn)形式有多種,其中最典型的要屬金融危機(jī)。從17世紀(jì)至今,金融危機(jī)在世界各國(guó)不斷爆發(fā),其發(fā)生頻率和破壞性有增大趨勢(shì)。目前,全球金融市場(chǎng)仍處于恢復(fù)、調(diào)整期,但國(guó)際金融形勢(shì)依然非常嚴(yán)峻。更為重要的是,在經(jīng)濟(jì)全球化的趨勢(shì)和背景下,外生性金融風(fēng)險(xiǎn)的發(fā)生概率和危害程度急速增加。

      近年來(lái),我國(guó)科技進(jìn)步催生金融新業(yè)態(tài)不斷創(chuàng)新發(fā)展,以數(shù)字金融為例,第三方支付服務(wù)已經(jīng)開(kāi)始取代傳統(tǒng)金融部門(mén)的服務(wù),在網(wǎng)絡(luò)貸款、智能投顧、數(shù)字保險(xiǎn)等領(lǐng)域也取得了顯著進(jìn)展。但同時(shí),包括借貸違約、資金挪用、虛假標(biāo)的甚至欺詐行為在內(nèi)的各種風(fēng)險(xiǎn)因素也相伴而行,我國(guó)金融體系內(nèi)生性風(fēng)險(xiǎn)明顯上升?;诨ヂ?lián)網(wǎng)技術(shù)的特性,風(fēng)險(xiǎn)極易在不同部門(mén)和地區(qū)之間形成傳染性,并有演變?yōu)榻鹑陲L(fēng)險(xiǎn)的可能。在這一背景下,著眼于先知先行的金融風(fēng)險(xiǎn)預(yù)警技術(shù)研究具有極高的理論和應(yīng)用意義。

      然而,實(shí)踐中對(duì)金融風(fēng)險(xiǎn)的預(yù)警難度極大。傳統(tǒng)金融風(fēng)險(xiǎn)預(yù)警技術(shù)為什么沒(méi)有很好地做出有效預(yù)警,其中一個(gè)重要原因是缺乏有效及時(shí)的關(guān)鍵因子。學(xué)術(shù)界與工業(yè)界也均有特征決定模型上線的說(shuō)法。傳統(tǒng)金融風(fēng)險(xiǎn)預(yù)警技術(shù)在因子層面倚重基于傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的信息和因子,其本身就具有滯后性,客觀上對(duì)金融風(fēng)險(xiǎn)預(yù)警不利。進(jìn)入大數(shù)據(jù)時(shí)代,海量非結(jié)構(gòu)化信息的涌現(xiàn)為金融風(fēng)險(xiǎn)預(yù)警在擴(kuò)充不可多得的基礎(chǔ)信息層面提供了機(jī)會(huì);而人工智能在視覺(jué)、自然語(yǔ)言理解等感知認(rèn)知領(lǐng)域的發(fā)展則為挖掘這些信息從而最終形成有效及時(shí)的金融風(fēng)險(xiǎn)預(yù)警關(guān)鍵因子提供了必不可少的技術(shù)支持。

      從多源異構(gòu)的信息中提取及時(shí)有效的風(fēng)險(xiǎn)感知因子,將倚重多模態(tài)信息感知認(rèn)知技術(shù)。按信息存儲(chǔ)方式可以將大部分基礎(chǔ)信息分為圖像信息與文本信息;這兩類(lèi)信息的挖掘方法分別對(duì)應(yīng)圖像處理技術(shù)和文本挖掘技術(shù)。

      對(duì)于圖像類(lèi)信息,可以綜合利用衛(wèi)星圖像識(shí)別技術(shù)、光學(xué)字符識(shí)別(optical character recognition, OCR),結(jié)合自然語(yǔ)言處理(natural language processing, NLP)等技術(shù)完成信息提取。如可從超高分辨率衛(wèi)星圖像中識(shí)別農(nóng)作物、航運(yùn)貨物、海陸運(yùn)輸?shù)饶繕?biāo),進(jìn)而對(duì)經(jīng)濟(jì)生產(chǎn)重要環(huán)節(jié)走勢(shì)變化做出預(yù)警[1];可使用OCR技術(shù)從財(cái)務(wù)票據(jù)、交易票據(jù)等非標(biāo)準(zhǔn)信息中提取用于風(fēng)險(xiǎn)審核的重要信息[2];而夜間燈光遙感數(shù)據(jù)則可用來(lái)動(dòng)態(tài)預(yù)測(cè)人口密度、城市擴(kuò)張速度[3-4];此外,聲紋識(shí)別技術(shù)可用于增強(qiáng)金融應(yīng)用場(chǎng)景的安全性,提升交互體驗(yàn)效果等[5]。

      對(duì)于文本信息內(nèi)容,可以利用自然語(yǔ)言處理(NLP)結(jié)合機(jī)器學(xué)習(xí)等技術(shù)完成信息提取。如可以從新聞、輿情、論壇資訊類(lèi)文本數(shù)據(jù)中實(shí)時(shí)識(shí)別金融實(shí)體、發(fā)現(xiàn)金融事件的關(guān)聯(lián)關(guān)系,提取刻畫(huà)經(jīng)濟(jì)不確定性等的相關(guān)因子[6-12]; 從上市公司年報(bào)、首次公開(kāi)募股(initial public offerings,IPO)招股說(shuō)明書(shū)和公司前瞻性陳述類(lèi)文本數(shù)據(jù),挖掘企業(yè)收入、業(yè)務(wù)發(fā)展規(guī)模、公司發(fā)展戰(zhàn)略?xún)A向等信息[13-18];也可從社交媒體類(lèi)文本信息中,包括推特、微博、微信公眾號(hào)和論壇帖子等,提取事件傾向評(píng)分、關(guān)注度指數(shù)、風(fēng)險(xiǎn)波動(dòng)率等因子[19-21]。

      然而,圖像及文本信息作為新數(shù)據(jù)源具有多源、異構(gòu)、海量、高頻的特征,處理這類(lèi)信息技術(shù)難度較大。1)多源、異構(gòu):相對(duì)于主要由政府和機(jī)構(gòu)主導(dǎo)收集的傳統(tǒng)數(shù)據(jù),圖像及文本大數(shù)據(jù)的發(fā)布主體及具體形式均豐富多樣。非結(jié)構(gòu)化信息沒(méi)有統(tǒng)一的收集標(biāo)準(zhǔn)和收集格式,這給人工智能(artificial intelligence, AI)信息采集和數(shù)據(jù)預(yù)處理技術(shù)提出了較大的挑戰(zhàn)。2) 海量:受限于數(shù)據(jù)收集成本,傳統(tǒng)數(shù)據(jù)收集往往需要借助紙質(zhì)媒介,體量較小。隨著文本信息從紙質(zhì)媒介向以互聯(lián)網(wǎng)為媒介的方式轉(zhuǎn)移,文本數(shù)據(jù)收集和傳輸成本大幅度降低,每日都能產(chǎn)生百萬(wàn)兆(terabyte, TB)級(jí)數(shù)據(jù)。從海量的數(shù)據(jù)中篩選并提取出關(guān)鍵有效因子,這既是信息處理的重點(diǎn)也是難點(diǎn)。3) 高頻:傳統(tǒng)金融領(lǐng)域數(shù)據(jù)多為年、季、月、周度數(shù)據(jù),而圖像、文本大數(shù)據(jù)的頻率可以高達(dá)秒級(jí)甚至更高,這就對(duì)非結(jié)構(gòu)化信息的處理速度提出了更高的要求。

      上述特征綜合在一起使得將非結(jié)構(gòu)化大數(shù)據(jù)應(yīng)用于金融風(fēng)險(xiǎn)預(yù)警領(lǐng)域面臨著一個(gè)核心挑戰(zhàn),即如何準(zhǔn)確、有效地從混雜的多源、異構(gòu)、高頻數(shù)據(jù)中提取出對(duì)風(fēng)險(xiǎn)預(yù)警有價(jià)值的信息。圍繞這一問(wèn)題,本文首先梳理了人工智能技術(shù)處理非結(jié)構(gòu)化大數(shù)據(jù),進(jìn)而將其應(yīng)用于金融風(fēng)險(xiǎn)預(yù)警的全流程,并著重說(shuō)明了感知認(rèn)知技術(shù)在其中的作用。

      1 感知認(rèn)知技術(shù)研究進(jìn)展

      1.1 基于圖像處理算法的感知技術(shù)研究進(jìn)展

      將多源異構(gòu)信息應(yīng)用于金融風(fēng)險(xiǎn)智能預(yù)警的過(guò)程如圖1所示。首先利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從新聞、圖片、視頻、微博和語(yǔ)音等信息源收集信息,形成多模態(tài)信息池;之后利用智能感知認(rèn)知技術(shù)對(duì)圖像和自然語(yǔ)言進(jìn)行層層處理,加工出關(guān)注度、情緒指數(shù)、預(yù)期指數(shù)等因子;最后根據(jù)計(jì)量經(jīng)濟(jì)學(xué)、統(tǒng)計(jì)學(xué)等方法構(gòu)建風(fēng)險(xiǎn)預(yù)警模型,以此預(yù)測(cè)及解釋金融風(fēng)險(xiǎn)。其中第二步感知認(rèn)知技術(shù)是第三步建模的基礎(chǔ),更是現(xiàn)階段有效提高金融風(fēng)險(xiǎn)預(yù)測(cè)精度和時(shí)效性的必要且重要手段;而第三步在計(jì)量經(jīng)濟(jì)和統(tǒng)計(jì)領(lǐng)域已有較多文獻(xiàn)予以論述。因此,本文著重就第二步的感知認(rèn)知技術(shù)及其在金融風(fēng)險(xiǎn)預(yù)警領(lǐng)域的應(yīng)用進(jìn)行系統(tǒng)綜述,簡(jiǎn)要介紹近幾年預(yù)測(cè)模型相關(guān)的研究進(jìn)展。

      圖1 金融信息提取及應(yīng)用步驟Fig.1 Steps for financial information extraction and application

      用于金融風(fēng)險(xiǎn)預(yù)警的很多基礎(chǔ)信息蘊(yùn)藏在模態(tài)各異的海量影像數(shù)據(jù)源中,目前感知技術(shù)主要用來(lái)從這些數(shù)據(jù)源中提取有效信息進(jìn)行身份核驗(yàn),或者提取文字信息為信息認(rèn)知提供數(shù)據(jù)基礎(chǔ)。這些信息是提高預(yù)測(cè)模型精度的必要基礎(chǔ),可以有效克服金融數(shù)據(jù)感知不全、認(rèn)知不準(zhǔn)導(dǎo)致的模型失效等技術(shù)難題。如可以從社交、電商等應(yīng)用平臺(tái)的大量圖片中提取產(chǎn)品類(lèi)型、生產(chǎn)廠商、價(jià)格、評(píng)論等信息,進(jìn)而萃取品牌關(guān)注度指數(shù)、企業(yè)產(chǎn)銷(xiāo)量景氣指數(shù)等高能因子;從遙感數(shù)據(jù)中提取農(nóng)作物種植面積、生長(zhǎng)情況等信息,從而可以對(duì)農(nóng)業(yè)產(chǎn)量做出預(yù)測(cè);從夜間燈光影像數(shù)據(jù)中挖掘城市擴(kuò)張、人口密度及土地利用信息;對(duì)銀行視頻進(jìn)行實(shí)時(shí)分析,識(shí)別客戶(hù)身份和行為特點(diǎn),及時(shí)阻斷相關(guān)風(fēng)險(xiǎn);應(yīng)用OCR+NLP技術(shù)識(shí)別客戶(hù)的各類(lèi)材料,降低貸款審批風(fēng)險(xiǎn)、提高審批效率等。

      圖像處理算法自深度神經(jīng)網(wǎng)絡(luò)深度應(yīng)用以來(lái)得到了快速的發(fā)展,目前已經(jīng)形成了三大通用技術(shù)?目標(biāo)檢測(cè)、目標(biāo)識(shí)別、光學(xué)字符識(shí)別(OCR),并基于此發(fā)展形成了圖像語(yǔ)義分割、形態(tài)識(shí)別、視頻跟蹤等細(xì)分技術(shù)類(lèi)別。本節(jié)首先對(duì)各類(lèi)圖像處理技術(shù)進(jìn)行綜述,并在第2節(jié)針對(duì)性介紹它在經(jīng)濟(jì)金融領(lǐng)域的主要應(yīng)用。

      1)目標(biāo)檢測(cè)算法

      目標(biāo)檢測(cè)(objective detection)的主要任務(wù)是從圖像中定位感興趣的目標(biāo)及其類(lèi)別,它是許多其他高級(jí)計(jì)算機(jī)視覺(jué)任務(wù)的基礎(chǔ),如實(shí)例分割[22-25]、圖像字幕[26-28]、目標(biāo)跟蹤[29]等。目標(biāo)檢測(cè)算法發(fā)展過(guò)程如圖2所示。

      圖2 目標(biāo)檢測(cè)算法發(fā)展歷程Fig.2 Development history of object detection algorithm

      傳統(tǒng)目標(biāo)檢測(cè)大多基于手工設(shè)計(jì)的特征,算法性能的提升主要依賴(lài)各種加速技巧來(lái)減少計(jì)算成本,代表方法有Viola-Jones(V-J)探測(cè)器,可變形部件模型目標(biāo)檢測(cè)算法(deformable parts model,DPM)等[30-32]?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)可以分為兩大類(lèi):two-stage和one-stage。前者基于候選區(qū),檢測(cè)框“從粗到細(xì)”設(shè)定,后者基于回歸方法,檢測(cè)框“一步完成”。two-stage類(lèi)的代表方法包括區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region-based convolutional neural networks, R-CNN)[33]、空間金字塔池化卷積網(wǎng)絡(luò)(spatial pyramid pooling convolutional networks, SPPNet)[34]、快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(fast region-based convolutional reural network,F(xiàn)ast RCNN)[35-36],其他改進(jìn)的方法有深度殘差網(wǎng)絡(luò)(deep residual network, ResNet)、超網(wǎng)絡(luò)(hypernetwork,HyperNet)[37-41]等。two-stage方法通常在準(zhǔn)確度上有優(yōu)勢(shì)而在速度上存在不足。與之相對(duì),one-stage方法通過(guò)單次檢測(cè)即可直接得到最終的檢測(cè)結(jié)果,因此具有更快的檢測(cè)速度,但定位精度有所下降。one-stage方法主要有YOLO(you only look once)[42]和單激發(fā)多框探測(cè)器(single shot multiBox detector,SSD)兩類(lèi)。以YOLO為基礎(chǔ)的YOLO V2~V4[43-45]系列算法重在研究如何提高預(yù)測(cè)精度,其他改進(jìn)的算法有Fast YOLO[46]、Complex YOLO[47],POLY YOLO[48]、PP-YOLO[49]等。SSD[50]利用多尺度特征圖進(jìn)行目標(biāo)檢測(cè),在保證檢測(cè)速度的同時(shí)有效提高了檢測(cè)精度。在SSD基礎(chǔ)上改進(jìn)的算法有反卷積單激發(fā)探測(cè)器(deconvolutional single shot detector,DSSD)[51]、密集連接卷積網(wǎng)絡(luò)(densely connected convolutional networks ,DenseNet)[52]、RSSD(rainbow single shot detector)[53]、M2Det(multi-modal multi-channel metwork)[54],RefineNet[55]、特征融合單發(fā)多框檢測(cè)器(deep fusion based single shot multibox detector , DFSSD)[56]、增強(qiáng)型SSD[57]等。

      2) 目標(biāo)識(shí)別算法研究進(jìn)展

      目標(biāo)識(shí)別(objective recognition)的任務(wù)是識(shí)別圖像中可能未知分類(lèi)的目標(biāo)及其分類(lèi)[58],其技術(shù)發(fā)展過(guò)程如圖3所示。

      圖3 目標(biāo)識(shí)別算法發(fā)展歷程Fig.3 Development history of object detection algorithm

      目標(biāo)識(shí)別算法目前主要以深度學(xué)習(xí)方法為主,其中LeNet-5模型[59]第一次將LeNet卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到圖像識(shí)別分類(lèi)上,在手寫(xiě)數(shù)字識(shí)別任務(wù)中取得巨大成功。Krizhevsky等[60]提出了深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet模型,其預(yù)測(cè)精度顯著高于同期其他算法。隨后,出現(xiàn)了大量改進(jìn)的算法,包括VGG(visual geometry group)[61]模型、GoogLeNet算法[62]、Inception V3[63]、Inception V4[64]; ResNet模型[37]等在精度及運(yùn)算效率上均有一定的提升。其他類(lèi)似的研究包括Chen等[65]、Alom等[66]。

      3) OCR 文字識(shí)別技術(shù)

      2012年OCR領(lǐng)域也引入了深度學(xué)習(xí)的思想?使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)取代傳統(tǒng)的手工特征設(shè)計(jì)。深度學(xué)習(xí)OCR方法主要分為獨(dú)立兩階段方法和端到端的文本定識(shí)方法。獨(dú)立兩階段方法會(huì)對(duì)文本檢測(cè)和文本識(shí)別進(jìn)行單獨(dú)建模,對(duì)一般復(fù)雜場(chǎng)景下的文本識(shí)別表現(xiàn)良好。其主要發(fā)展歷程和算法分類(lèi)如圖4所示。

      圖4 OCR 文字識(shí)別發(fā)展歷程Fig.4 Development history of OCR text recognition

      基于深度學(xué)習(xí)算法的OCR技術(shù)主要涉及文本識(shí)別算法和文本監(jiān)測(cè)兩類(lèi)算法。文本檢測(cè)方法以SSD、CTPN[67]、DBnet[68]為主,文本識(shí)別算法通?;贚STM+CTC[69]技術(shù)、attention[70-71]來(lái)實(shí)現(xiàn)?!岸说蕉恕蔽谋径ㄗR(shí)主要基于下列方法來(lái)完成:CNN+RNN+CTC[72]、CRNN+LSTM[73]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的OCR[74]、基于多語(yǔ)言多路復(fù)用網(wǎng)絡(luò)的OCR[75]。

      4) 其他圖像處理算法

      其他用于金融風(fēng)險(xiǎn)領(lǐng)域的感知技術(shù)還包括圖像語(yǔ)義分割、目標(biāo)跟蹤類(lèi)算法。語(yǔ)義分割從像素級(jí)別來(lái)理解圖像,需要識(shí)別圖像中的每一個(gè)像素點(diǎn)而不僅僅是矩形框。TextonForest[76]和基于隨機(jī)森林分類(lèi)器[77]等語(yǔ)義分割方法是較為常用的傳統(tǒng)方法。目前基于深度學(xué)習(xí)的語(yǔ)義分割方法有U-net、空洞卷積、條件隨機(jī)場(chǎng)、DeepLab系列方法、弱監(jiān)督的語(yǔ)義分割方法[78-88]等。目標(biāo)跟蹤的目的是將多幀檢出的目標(biāo)串聯(lián)起來(lái)。傳統(tǒng)目標(biāo)跟蹤方法主要通過(guò)核相關(guān)濾波來(lái)實(shí)現(xiàn)目標(biāo)跟蹤[89-92];基于深度學(xué)習(xí)的跟蹤算法則是把網(wǎng)絡(luò)學(xué)習(xí)到的特征直接應(yīng)用在相關(guān)濾波或Struck跟蹤框架中,跟蹤結(jié)果良好[93-95]。

      1.2 基于自然語(yǔ)言處理技術(shù)的認(rèn)知智能理論和技術(shù)發(fā)展

      認(rèn)知智能技術(shù)提供了提取非結(jié)構(gòu)化文本數(shù)據(jù)中有效信息的方式,可有效提升后續(xù)模型的預(yù)測(cè)精度,豐富非結(jié)構(gòu)化數(shù)據(jù)在金融建模領(lǐng)域的應(yīng)用。例如:可以利用論壇、研報(bào)中大量對(duì)資本市場(chǎng)的評(píng)論與分析言論等信息提取關(guān)注度指數(shù)、后市預(yù)期指數(shù)等有效因子,充分挖掘市場(chǎng)情緒信息在金融風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用;還可以從海量的非結(jié)構(gòu)化數(shù)據(jù)中提取有效實(shí)體,發(fā)現(xiàn)實(shí)體之間的關(guān)聯(lián)信息,構(gòu)造金融知識(shí)圖譜,并將其應(yīng)用到金融風(fēng)險(xiǎn)預(yù)警中,有效地根據(jù)風(fēng)險(xiǎn)的傳遞鏈提升金融風(fēng)險(xiǎn)的預(yù)警精確度與效率。

      認(rèn)知智能算法伴隨著深度學(xué)習(xí)網(wǎng)絡(luò)的應(yīng)用獲得了極大進(jìn)展,它主要由特征編碼、特征提取、知識(shí)圖譜3個(gè)模塊組成。特征編碼模塊主要將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為模型可輸入的特征數(shù)據(jù),其具體的編碼方式包括ONE-HOT編碼、詞嵌入編碼、ELMO(embeddings from language models)動(dòng)態(tài)模型編碼等。使用特征編碼模塊得到的詞嵌入編碼可將一段文字變?yōu)閿?shù)字化的張量(其維度通常為字符數(shù)×詞嵌入編碼維度),文本特征提取模塊以此為輸入,進(jìn)而使用長(zhǎng)短期記憶(long shortterm memory, LSTM)、Transformer等序列處理模型進(jìn)一步提取文本語(yǔ)義信息。在前2個(gè)模塊的基礎(chǔ)上,NLP模型可根據(jù)不同的任務(wù)設(shè)置不同的輸出層,其任務(wù)包括文本分類(lèi)、文本蘊(yùn)含、閱讀理解、實(shí)體識(shí)別等。知識(shí)圖譜則可用于解決金融風(fēng)險(xiǎn)知識(shí)存儲(chǔ)與推理等問(wèn)題。本節(jié)將對(duì)主要的文本認(rèn)知處理技術(shù)及其應(yīng)用進(jìn)行綜述。

      1)文本特征編碼模塊

      文本處理所面臨的首要任務(wù)就是將文字進(jìn)行數(shù)字化表示,以達(dá)到模型可輸入的目的,即自然語(yǔ)言處理技術(shù)中的特征編碼模塊。ONE-HOT編碼是自然語(yǔ)言處理中出現(xiàn)最早、最基礎(chǔ)的編碼方式,它為詞表中的每一個(gè)詞分配一個(gè)獨(dú)有的狀態(tài)(編碼),從而將一段文字轉(zhuǎn)變?yōu)橄∈杈仃?。ONEHOT僅適用于小型詞表并容易產(chǎn)生維度爆炸。Word2Vec[96]是第一種高效可用的詞嵌入方法,其基于語(yǔ)言模型,采用CBOW與Skip-Gram兩種編碼框架,產(chǎn)生的詞嵌入向量稠密且維度固定,性能較ONE-HOT編碼有巨大提升。在Word2Vec之后,F(xiàn)astText[97]引入字符級(jí)別的編碼信息,將字符信息與單詞信息分別編碼后進(jìn)行拼接表示。GLoVE[98]編碼則利用共現(xiàn)矩陣同時(shí)考慮局部信息和整體信息。但這些編碼方式的改進(jìn)并沒(méi)有脫離Word2Vec的框架范疇。ELMO[99]是另一個(gè)具有劃時(shí)代意義的編碼方法,其最大的特點(diǎn)是采用動(dòng)態(tài)詞向量表示,編碼架構(gòu)使用多層堆疊的LSTM來(lái)結(jié)合詞法與語(yǔ)義特征,基于預(yù)訓(xùn)練模型+模型微調(diào)的方式,其詞向量根據(jù)不同的上下文動(dòng)態(tài)變化,可有效解決一詞多義等任務(wù)。

      2)文本特征提取模塊

      文本特征提取模塊是認(rèn)知模型架構(gòu)中最重要的部分。文本特征提取模塊性能的好壞將直接影響認(rèn)知模型最終的性能。本節(jié)將介紹自然語(yǔ)言處理中用來(lái)進(jìn)行文本特征提取的主要算法。

      ① 基礎(chǔ)模型

      循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)是一種主要為序列問(wèn)題設(shè)計(jì)的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu),其結(jié)構(gòu)易導(dǎo)致反向傳播時(shí)產(chǎn)生梯度消失和梯度爆炸,使最初的序列輸入對(duì)當(dāng)前時(shí)刻影響減弱,容易引起信息變形,給模型帶來(lái)大量干擾信息。LSTM[100]改進(jìn)了RNN的網(wǎng)絡(luò)結(jié)構(gòu),采用“累加”替代原始RNN中“累乘”的狀態(tài)計(jì)算,在保留RNN優(yōu)點(diǎn)的同時(shí)緩解了梯度爆炸與梯度消失問(wèn)題[101]。在此基礎(chǔ)上,門(mén)控機(jī)制的引入[102]有助于模型合理控制信息流,解決了信息變形與長(zhǎng)期依賴(lài)問(wèn)題。上述模型均須串行處理因而開(kāi)銷(xiāo)較大,直到Transformer[103]出現(xiàn),其采用了自注意力計(jì)算方式,特殊的架構(gòu)能同時(shí)處理全部的嵌入向量:它利用當(dāng)前特征前后的所有信息計(jì)算注意力參數(shù),利用位置編碼解決編碼輸入向量相對(duì)位置關(guān)系的難題,并引入殘差連接來(lái)控制信息流向,利用前饋網(wǎng)絡(luò)層對(duì)信息進(jìn)一步處理。

      ② 注意力機(jī)制

      在NLP領(lǐng)域,Bahdanau等[104]首次在機(jī)器翻譯任務(wù)上引入了注意力思想,將翻譯和對(duì)齊任務(wù)同時(shí)進(jìn)行,極大地提升了機(jī)器翻譯模型的性能。在此后,注意力機(jī)制被廣泛應(yīng)用于NLP相關(guān)模型中。Hu[105]說(shuō)明了其一般流程為利用注意力權(quán)重衡量序列中每個(gè)特征對(duì)當(dāng)前任務(wù)的重要程度,并將注意力放在重要性更高的特征上面。不同的模型會(huì)采用不同的注意力權(quán)重計(jì)算方式,但本質(zhì)均不會(huì)脫離上述架構(gòu)。

      ③ 預(yù)訓(xùn)練模型

      隨著基于變換器的雙向編碼器表示技術(shù)(bidirectional encoder representations from transformers,BERT)[106]的出現(xiàn)與應(yīng)用,預(yù)訓(xùn)練模型成為認(rèn)知智能領(lǐng)域主要的研究方向。BERT以Transformer為模型基礎(chǔ)架構(gòu),以改進(jìn)的遮蔽語(yǔ)言模型[107]加下一句話分類(lèi)判斷為優(yōu)化目標(biāo)。預(yù)訓(xùn)練模型采用無(wú)監(jiān)督的方式在超大規(guī)模語(yǔ)料上訓(xùn)練得到,可應(yīng)用開(kāi)放領(lǐng)域?qū)W習(xí)的先驗(yàn)知識(shí)來(lái)提升下游任務(wù)的性能,對(duì)小數(shù)據(jù)集友好。

      在BERT出現(xiàn)前后均有相應(yīng)的預(yù)訓(xùn)練模型出現(xiàn)。在BERT之前有ELMO[99]和GPT[108],但它們都未曾引入雙向編碼器。在BERT出現(xiàn)之后,RoBerta[109]丟掉了BERT中的下一句話預(yù)測(cè)任務(wù)并擴(kuò)展了訓(xùn)練數(shù)據(jù)量。XLNET[110]提出了多層感知器(multilayer perception,MLP)置換語(yǔ)言模型,以解決BERT遮蔽語(yǔ)言模型訓(xùn)練集中mask標(biāo)志帶來(lái)的訓(xùn)練與應(yīng)用數(shù)據(jù)分布不一致的問(wèn)題。MASS[111]和T5[112]采用了seq2seq MLM的訓(xùn)練目標(biāo)以解決BERT在序列生成任務(wù)上性能不足的問(wèn)題。ERNIE[113]引入了實(shí)體和短語(yǔ)的mask機(jī)制,增強(qiáng)了模型的語(yǔ)法學(xué)習(xí)能力。Big Bird[114]、ConvBERT[115]則通過(guò)更加關(guān)注臨近區(qū)域信息緩解了BERT全注意力機(jī)制帶來(lái)的序列長(zhǎng)度二次依賴(lài)局限。此外,模型變大也是一種趨勢(shì)。GPT-3[116]將模型參數(shù)擴(kuò)展到1 750億,數(shù)據(jù)擴(kuò)展到45 TB,作為對(duì)比,BERT-large有3.3億參數(shù)量。

      3)知識(shí)圖譜模塊

      認(rèn)知智能中常以知識(shí)圖譜作為大規(guī)模數(shù)據(jù)的組織形式。知識(shí)圖譜是一種基于圖的數(shù)據(jù)結(jié)構(gòu),由節(jié)點(diǎn)(point)和邊(edge)組成,每個(gè)節(jié)點(diǎn)表示一個(gè)“實(shí)體”,每條邊為實(shí)體與實(shí)體之間的“關(guān)系”。金融知識(shí)圖譜中的關(guān)系實(shí)例有企業(yè)和人的關(guān)系(法人、管理者)、銀行賬戶(hù)和銀行的關(guān)系、銀行賬戶(hù)和人的關(guān)系以及企業(yè)和地址的關(guān)系等。

      如圖5所示,該知識(shí)圖譜[117]可以用來(lái)規(guī)范地表示企業(yè)實(shí)體、關(guān)系以及實(shí)體的屬性和類(lèi)型之間的聯(lián)系。每個(gè)企業(yè)本體擁有4個(gè)企業(yè)屬性:基本信息屬性、經(jīng)營(yíng)狀態(tài)屬性、相關(guān)人員屬性和歷史風(fēng)險(xiǎn)屬性等,企業(yè)間的關(guān)系可以分為參股、投資和交易關(guān)系,人與企業(yè)間存在掌控、任職或參股關(guān)系,人物之間又有下屬和朋友之類(lèi)的社會(huì)關(guān)系。在企業(yè)領(lǐng)域本體資源描述框架(resource description framework, RDF)的基礎(chǔ)上可以構(gòu)建企業(yè)動(dòng)態(tài)風(fēng)險(xiǎn)知識(shí)圖譜:邊包含實(shí)體間的關(guān)系和關(guān)系的起始時(shí)間,用以預(yù)測(cè)高風(fēng)險(xiǎn)行業(yè)和風(fēng)險(xiǎn)事件來(lái)幫助企業(yè)盡早規(guī)避系統(tǒng)性風(fēng)險(xiǎn);也可以加入企業(yè)現(xiàn)金流等屬性,通過(guò)深度學(xué)習(xí)的方法實(shí)時(shí)監(jiān)控屬性值及其衍生指標(biāo),達(dá)到完善企業(yè)風(fēng)險(xiǎn)預(yù)警體系的目的。

      圖5 企業(yè)領(lǐng)域的知識(shí)圖譜本體RDF示例Fig.5 RDF example of knowledge graph in the enterprise domain

      2 感知認(rèn)知技術(shù)在金融風(fēng)險(xiǎn)預(yù)警領(lǐng)域的應(yīng)用研究

      2.1 感知技術(shù)在金融風(fēng)險(xiǎn)預(yù)警領(lǐng)域的應(yīng)用研究

      圖像處理方法隨著圖像采集技術(shù)的發(fā)展,在社會(huì)經(jīng)濟(jì)各方面有了深入應(yīng)用,并為風(fēng)險(xiǎn)預(yù)警提供了及時(shí)有效的因子。下面以汽車(chē)銷(xiāo)量下滑為間接誘因?qū)е鹿善眱r(jià)格下跌為例說(shuō)明感知認(rèn)知技術(shù)在金融風(fēng)險(xiǎn)預(yù)警中的應(yīng)用。

      如圖6所示,利用感知認(rèn)知技術(shù)可以從多類(lèi)數(shù)據(jù)源中提取先行特征明顯的直接誘因指標(biāo)。例如從遙感影像中提取農(nóng)作物的種植面積、受災(zāi)面積及嚴(yán)重程度等信息,這些信息同衛(wèi)星云圖反應(yīng)的天氣信息融合可以準(zhǔn)確預(yù)測(cè)橡膠產(chǎn)量。利用類(lèi)似技術(shù)同時(shí)可以提取航運(yùn)信息,用以測(cè)算原油產(chǎn)量,進(jìn)而結(jié)合油價(jià)關(guān)注度指數(shù)、油價(jià)預(yù)期指數(shù)可以預(yù)測(cè)原油價(jià)格走勢(shì)?;陬A(yù)測(cè)的橡膠產(chǎn)量及原油價(jià)格走勢(shì),可以準(zhǔn)確測(cè)算汽車(chē)消費(fèi)成本及汽車(chē)銷(xiāo)量。如果汽車(chē)銷(xiāo)量出現(xiàn)明顯的下滑,必然會(huì)導(dǎo)致產(chǎn)業(yè)景氣下行,進(jìn)而對(duì)整個(gè)行業(yè)產(chǎn)生影響,最終引致行業(yè)股票下跌風(fēng)險(xiǎn)。從上述實(shí)例可以看出,感知認(rèn)知技術(shù)是提取風(fēng)險(xiǎn)誘因信號(hào)的必要技術(shù),對(duì)風(fēng)險(xiǎn)預(yù)警模型效果的提高,特別是預(yù)警及時(shí)性的提高具有重要作用。下面首先對(duì)感知技術(shù)在多類(lèi)信息提取中的應(yīng)用進(jìn)行綜述介紹。

      圖6 感知認(rèn)知技術(shù)在金融風(fēng)險(xiǎn)預(yù)警中的案例Fig.6 Case of perceptual cognitive technology in financial risk early-warning

      在圖像和視頻信息提取方面,Birogul等[118]利用YOLO算法提取K線圖信息,對(duì)股價(jià)進(jìn)行預(yù)測(cè)。Wang等[119-120]將Mask R-CNN用于預(yù)測(cè)區(qū)域范圍內(nèi)的原油產(chǎn)量。這些預(yù)測(cè)結(jié)果可有效服務(wù)于資本市場(chǎng)的風(fēng)險(xiǎn)預(yù)警。Chen等[1]將基于卷積神經(jīng)網(wǎng)絡(luò)的圖像商標(biāo)識(shí)別與使用自然語(yǔ)言理解模型的上下文品牌識(shí)別結(jié)合起來(lái),構(gòu)建了多模態(tài)融合框架解決品牌識(shí)別問(wèn)題。文獻(xiàn)[121-124]研究了從圖像和視頻文件中準(zhǔn)確提取人群數(shù)量、推斷人群密度的高精度方法。感知技術(shù)的另一大應(yīng)用為從遙感影像中提取農(nóng)作物產(chǎn)量、城市土地利用等相關(guān)信息,與金融知識(shí)相結(jié)合后可有效用于風(fēng)險(xiǎn)傳導(dǎo)預(yù)警等目的。如Chen等[1]綜合利用多個(gè)目標(biāo)檢測(cè)算法基于衛(wèi)星遙感圖像,針對(duì)臺(tái)灣病蟲(chóng)害對(duì)農(nóng)作物產(chǎn)量的影響給出了量化評(píng)價(jià)。Yang等[125]通過(guò)自動(dòng)合成帶有標(biāo)簽的數(shù)據(jù)集,利用大豆種子圖像對(duì)高產(chǎn)量的大豆進(jìn)行篩選分類(lèi)。Safonova等[126]利用無(wú)人機(jī)對(duì)棕櫚樹(shù)拍照,通過(guò)深度學(xué)習(xí)的方法檢測(cè)棕櫚樹(shù)的生長(zhǎng)和健康情況。Zhang等[127]開(kāi)發(fā)了大豆葉片病害綜合圖像數(shù)據(jù)集,并通過(guò)檢測(cè)模型對(duì)大豆葉片多特征進(jìn)行分析,從而檢測(cè)大豆葉片的病蟲(chóng)害問(wèn)題。此外,基于遙感影像數(shù)據(jù)還可以用于建筑物識(shí)別,進(jìn)而對(duì)城市發(fā)展進(jìn)程、土地利用情況進(jìn)行推斷。Griffiths等[128]利用R-CNN方法基于遙感信息對(duì)建筑物進(jìn)行了自動(dòng)檢測(cè)和分割;Tiede等[129]利用Mask R-CNN方法基于高分辨率衛(wèi)星圖像識(shí)別了120萬(wàn)個(gè)住宅和建筑物。

      此外,對(duì)城市夜光數(shù)據(jù)(DMSP/OLS)的應(yīng)用也依賴(lài)圖像處理技術(shù),而夜光數(shù)據(jù)經(jīng)加工可作為區(qū)域經(jīng)濟(jì)發(fā)展情況等的側(cè)面指標(biāo)。Yu等[130]提出了一種提高DMSP/OLS的夜間燈光時(shí)間序列(nighttime light time series, NLT)圖像應(yīng)用精度和通用性的方法,探索了一種將人口定量空間化到網(wǎng)格單元的可行方法。Kumar[3]通過(guò)分析DMSPOLS獲得的1992-2013年夜間燈光數(shù)據(jù),量化了北京城市化的像素級(jí)時(shí)空格局和趨勢(shì)。Zhong等[4]基于DMSP/OLS研究了長(zhǎng)江經(jīng)濟(jì)帶城市體系空間格局,分析了長(zhǎng)江經(jīng)濟(jì)帶空間結(jié)構(gòu)特征和規(guī)律。Zhang等[131]使用DMSP/OLS的多時(shí)相夜間燈光(NTL)數(shù)據(jù)來(lái)監(jiān)測(cè)全球范圍內(nèi)的城市變化,提出了全球性城市化動(dòng)態(tài)空間和時(shí)間變化的衡量標(biāo)準(zhǔn)。Shi等[132]利用DMSP/OLS數(shù)據(jù)和中國(guó)省級(jí)城市土地?cái)?shù)據(jù),評(píng)估了2000-2012年UDP(urban polycentric development)的時(shí)空變化和影響因素。

      目前,深度學(xué)習(xí) OCR 已廣泛應(yīng)用于卡證識(shí)別、票據(jù)單據(jù)識(shí)別、汽車(chē)相關(guān)識(shí)別(駕駛證、行駛證、車(chē)牌等)、合同文檔識(shí)別等領(lǐng)域,這些信息對(duì)于做好貸款資料審核等風(fēng)控業(yè)務(wù)十分有用。Sage等[133]提出了一種結(jié)合OCR標(biāo)記的文本、空間特征和RNN的端到端表字段提取方法,能夠有效提取文件流中的商業(yè)信息。Kumar等[134]使用OCR文字識(shí)別技術(shù)從票據(jù)和收據(jù)圖像中提取信息,并開(kāi)發(fā)了離線版應(yīng)用程序,供用戶(hù)及時(shí)、準(zhǔn)確、高效的完成賬單認(rèn)證工作。Jang等[135]從功能和情感維度出發(fā)研究了多維OCR內(nèi)容在網(wǎng)絡(luò)營(yíng)銷(xiāo)中的重要性。Agrawal等[136]基于AI+OCR技術(shù)研發(fā)了支票單的關(guān)鍵組成部分挖掘模型,以完成支票驗(yàn)證任務(wù)。Bansal等[137]利用OCR技術(shù)提出基于屬性的混合情感分類(lèi)(hybrid attribute based sentiment classification ,HABSC)方法,測(cè)算了多個(gè)品牌的情感傾向。

      2.2 認(rèn)知智能在金融科技領(lǐng)域的應(yīng)用

      1)關(guān)注度因子的加工及應(yīng)用

      金融市場(chǎng)的關(guān)注度指數(shù)可以有效地反映出公共投資者的注意力和情緒,信息被投資者關(guān)注后才能夠通過(guò)投資者的交易行為傳遞到資產(chǎn)的價(jià)格表現(xiàn)中,因此關(guān)注度指數(shù)可以用來(lái)預(yù)測(cè)資產(chǎn)價(jià)格和股票價(jià)格走勢(shì)。

      一般的關(guān)注度指數(shù)的構(gòu)建方式是通過(guò)社交媒體、搜索引擎等流量入口網(wǎng)站的相關(guān)關(guān)鍵指標(biāo)的搜索量確定,Wang等[138]使用搜索引擎的數(shù)據(jù)搜索量來(lái)衡量投資者對(duì)特定行業(yè)的關(guān)注度,通過(guò)文本分析技術(shù)TextRank從特定行業(yè)的文本語(yǔ)料中提取關(guān)鍵字,然后構(gòu)建描述該行業(yè)的關(guān)注度指數(shù)。文獻(xiàn)[139-140]均以特定時(shí)長(zhǎng)切片的谷歌搜索量構(gòu)建投資者關(guān)注度指數(shù)并研究其與股票交易量與股票回報(bào)之間的關(guān)系,二者均得到了正相關(guān)的結(jié)論,即關(guān)注度指數(shù)與股票交易量和股票匯報(bào)之間均有明顯的正相關(guān)關(guān)系。

      國(guó)內(nèi)學(xué)者Wang等[140]利用新聞數(shù)據(jù)開(kāi)發(fā)了媒體環(huán)境關(guān)注指數(shù),并通過(guò)實(shí)驗(yàn)證明該關(guān)注度指數(shù)與綠色產(chǎn)業(yè)公司股票之間存在著明顯的負(fù)相關(guān)關(guān)系。張同輝等[141]選取百度網(wǎng)絡(luò)搜索數(shù)據(jù),構(gòu)建了新的投資者關(guān)注指標(biāo)并以“上證指數(shù)”和“深證成指”高頻數(shù)據(jù)為研究樣本,研究了不同的投資者關(guān)注水平與市場(chǎng)波動(dòng)率之間的領(lǐng)先滯后關(guān)系,實(shí)驗(yàn)證明投資者關(guān)注不僅可以提高現(xiàn)有波動(dòng)率預(yù)測(cè)模型的樣本內(nèi)擬合能力,而且在投資者高關(guān)注時(shí)期,投資者關(guān)注可以顯著且穩(wěn)健地提高波動(dòng)模型的樣本外預(yù)測(cè)能力。

      2)文本情緒因子的加工及應(yīng)用

      互聯(lián)網(wǎng)上有大量的股票、債券及企業(yè)本身相關(guān)的評(píng)論及研報(bào)數(shù)據(jù)。從這些文本中提煉情緒信息在金融市場(chǎng)研究中具有重要意義。當(dāng)某些帶有情緒的新聞或評(píng)論出現(xiàn),特別是大量出現(xiàn)時(shí),關(guān)聯(lián)公司的股價(jià)可能在一定周期內(nèi)發(fā)生變化。例如,楊濤等[142]的研究就發(fā)現(xiàn)情緒正面的新聞報(bào)道通常會(huì)對(duì)相關(guān)概念股的股價(jià)產(chǎn)生正向影響,而情緒負(fù)面的新聞報(bào)道則往往對(duì)股價(jià)產(chǎn)生負(fù)向影響。

      Sun等[143]較早將自然語(yǔ)言處理技術(shù)應(yīng)用到金融文本情緒分析中來(lái),他們通過(guò)改進(jìn)預(yù)處理方式,包括刪除無(wú)用鏈接與數(shù)字、縮寫(xiě)擴(kuò)展、指代消解等增強(qiáng)了金融領(lǐng)域文本情感分類(lèi)器的性能。文獻(xiàn)[144]提出了一種基于BERT雙向編碼器的兩步優(yōu)化金融新聞情緒提取模型,該模型僅依靠少量標(biāo)注即可在財(cái)經(jīng)新聞上實(shí)現(xiàn)高性能的情感分類(lèi)。文獻(xiàn)[145]也證明了在金融文本情感分析領(lǐng)域,基于Transformer架構(gòu)的模型準(zhǔn)確率和數(shù)據(jù)使用效率均比其他基本模型優(yōu)秀。

      NLP建模技術(shù)的進(jìn)步在提升文本情緒識(shí)別精度的同時(shí)也催生了其在金融市場(chǎng)的應(yīng)用,突出表現(xiàn)在股價(jià)走勢(shì)預(yù)測(cè)上。Sousa等[146]利用標(biāo)注數(shù)據(jù)對(duì)BERT模型進(jìn)行微調(diào),建立了金融新聞數(shù)據(jù)的情感分類(lèi)模型,并利用模型輸出對(duì)道瓊斯工業(yè)指數(shù)走勢(shì)進(jìn)行預(yù)測(cè)。Li等[147-148]采用了類(lèi)似的方案對(duì)金融新聞數(shù)據(jù)進(jìn)行處理,并利用情感分析模型加工的特征構(gòu)建了回歸模型對(duì)股票價(jià)格進(jìn)行預(yù)測(cè),驗(yàn)證了輿情情緒信息對(duì)股票收益的顯著影響。Yang等[139]利用BERT編碼恐慌搜索詞的語(yǔ)義表示,進(jìn)一步結(jié)合自注意力深度學(xué)習(xí)模型改進(jìn)恐慌關(guān)注度指數(shù)質(zhì)量,并將其應(yīng)用到股價(jià)走勢(shì)預(yù)測(cè)上。

      近些年國(guó)內(nèi)利用NLP技術(shù)研究公司風(fēng)險(xiǎn)預(yù)警的文獻(xiàn)也不斷涌現(xiàn)。李成剛等[149]在上市公司風(fēng)險(xiǎn)預(yù)警的研究中發(fā)現(xiàn)加入文本情感值對(duì)預(yù)警模型的效果提升有利。姚瀟等[150]建立了適用于中國(guó)金融市場(chǎng)的情感詞典,并使用文本挖掘技術(shù)量化了管理層語(yǔ)調(diào)。該研究發(fā)現(xiàn):積極的管理層語(yǔ)調(diào)能夠顯著降低債券信用利差。董偉[151]提出了一個(gè)集成語(yǔ)言模型來(lái)處理分析師報(bào)告、新聞報(bào)告和社交媒體內(nèi)容信息,將文本解析成單詞權(quán)重特征、話題特征、情感特征以及社交網(wǎng)絡(luò)結(jié)構(gòu)特征。該研究發(fā)現(xiàn)社交媒體內(nèi)容對(duì)企業(yè)的金融財(cái)務(wù)欺詐預(yù)測(cè)有超前效應(yīng)。

      3)文本預(yù)期因子的加工及應(yīng)用

      文本預(yù)期因子是由文本數(shù)據(jù)中對(duì)未來(lái)趨勢(shì)存在確定性判斷的信息加工而來(lái)。Li等[152]在油價(jià)預(yù)測(cè)模型中嘗試引入文本數(shù)據(jù),構(gòu)建油價(jià)趨勢(shì)提取模型提取新聞中對(duì)未來(lái)油價(jià)的觀點(diǎn)傾向,以捕捉影響油價(jià)波動(dòng)的更直接的市場(chǎng)動(dòng)因。這是將深度學(xué)習(xí)技術(shù)應(yīng)用于原油預(yù)測(cè)的早期嘗試,也是使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取在線新聞媒體中的隱藏觀點(diǎn)判斷的初期應(yīng)用。

      Zhao等[153]也研究了基于網(wǎng)絡(luò)文本挖掘的油價(jià)預(yù)測(cè)模型,論文提取了網(wǎng)絡(luò)文本中對(duì)未來(lái)油價(jià)的4種預(yù)期信號(hào),包含積極、中性、負(fù)面、混合4種觀點(diǎn)。并將其應(yīng)用于下游的油價(jià)預(yù)期模型。論文研究發(fā)現(xiàn)具有強(qiáng)烈預(yù)期傾向(積極、負(fù)面)的文本數(shù)據(jù)相較于其他文本數(shù)據(jù)能更好地支持油價(jià)預(yù)測(cè)。

      楊兵等[154]利用年報(bào)文本數(shù)據(jù)研究了企業(yè)家市場(chǎng)預(yù)期對(duì)企業(yè)研發(fā)投入效應(yīng)的影響機(jī)制,持樂(lè)觀預(yù)期的企業(yè)家對(duì)企業(yè)研發(fā)投入具有激勵(lì)效應(yīng),持悲觀預(yù)期的企業(yè)家抑制企業(yè)研發(fā)投入。部慧等[155]從中國(guó)股市的股評(píng)數(shù)據(jù)提煉股評(píng)看漲看跌預(yù)期指標(biāo),并證明其對(duì)股票收益率和交易量有當(dāng)期影響,開(kāi)盤(pán)前非交易時(shí)段的股評(píng)預(yù)期對(duì)開(kāi)盤(pán)價(jià)具有預(yù)測(cè)力,開(kāi)盤(pán)后交易時(shí)段的股評(píng)預(yù)期對(duì)收盤(pán)價(jià)和日交易量具有更顯著的影響。

      4)基于知識(shí)圖譜的金融風(fēng)險(xiǎn)預(yù)警

      近些年,隨著感知認(rèn)知技術(shù)的進(jìn)步,知識(shí)圖譜在金融風(fēng)險(xiǎn)預(yù)警的研究中得到深入應(yīng)用。Liu等[156]通過(guò)爬取每個(gè)公司的新聞、識(shí)別命名實(shí)體并提取相關(guān)股票之間的業(yè)務(wù)關(guān)系來(lái)構(gòu)建企業(yè)知識(shí)圖譜。他們門(mén)控循環(huán)單元(gated recurrent unit, GRU)模型結(jié)合相關(guān)企業(yè)知識(shí)圖譜提供的信息,以預(yù)測(cè)股票的價(jià)格走勢(shì)。Elnagdy等[157]建議將知識(shí)圖譜與本體相結(jié)合以有效識(shí)別網(wǎng)絡(luò)安全保險(xiǎn)(cybersecurity insurance, CI)領(lǐng)域?qū)嶓w之間的復(fù)雜關(guān)系,同時(shí)提出了一種稱(chēng)為 SCIC 的網(wǎng)絡(luò)事件分類(lèi)模型,將語(yǔ)義網(wǎng)絡(luò)中的所有本體連接起來(lái)以生成知識(shí)表示。此外,知識(shí)圖譜可以用于處理高度凝練和隨時(shí)間變化的新聞?wù)Z言。DKN(deep knowledgeaware network)模型在新聞推薦中采用知識(shí)圖譜表示來(lái)充分發(fā)現(xiàn)新聞之間潛在的知識(shí)層次聯(lián)系,從而合理地為用戶(hù)擴(kuò)展推薦結(jié)果。文獻(xiàn)[157-158]結(jié)合非結(jié)構(gòu)化新聞文章和描述事件的結(jié)構(gòu)化 Wiki數(shù)據(jù),構(gòu)建以事件為中心的知識(shí)圖譜,能夠利用各種語(yǔ)言(包括英語(yǔ)、意大利語(yǔ)、荷蘭語(yǔ)和西班牙語(yǔ))描述世界變化并檢索相關(guān)新聞文章。Ciampaglia等[159]將假新聞檢測(cè)問(wèn)題視為知識(shí)圖譜中的關(guān)系預(yù)測(cè)任務(wù),從事實(shí)陳述網(wǎng)絡(luò)中挖掘異構(gòu)連接模式以檢查斷言的真實(shí)性。

      Van等[160]將知識(shí)圖譜中的圖表征學(xué)習(xí)引入信用卡欺詐研究領(lǐng)域,構(gòu)建了全新的信用卡欺詐檢測(cè)模型,為預(yù)測(cè)模型增加交易網(wǎng)絡(luò)與交易結(jié)構(gòu)的全新研究角度,提高了信用卡欺詐檢測(cè)的效率和準(zhǔn)確性。Shen等[161]將傳統(tǒng)特征與知識(shí)圖模型相結(jié)合來(lái)檢測(cè)財(cái)務(wù)報(bào)表舞弊行為,通過(guò)量化知識(shí)圖譜中的各種中心度等方法增加了新特征,提高了傳統(tǒng)機(jī)器學(xué)習(xí)算法的檢測(cè)精度。此外,多數(shù)實(shí)驗(yàn)結(jié)果表明,在融合了知識(shí)圖譜關(guān)聯(lián)特征后的規(guī)則策略能夠顯著提升會(huì)計(jì)欺詐識(shí)別的準(zhǔn)確性,縮小異常賬戶(hù)核查的范圍,使風(fēng)險(xiǎn)管理措施集中到最可疑的賬戶(hù)中,從而提升會(huì)計(jì)案防工作的質(zhì)效[162-163]。

      3 風(fēng)險(xiǎn)預(yù)警模型及其應(yīng)用研究

      近10年有關(guān)股市風(fēng)險(xiǎn)、信用風(fēng)險(xiǎn)等金融風(fēng)險(xiǎn)預(yù)警的研究較多,除了企業(yè)經(jīng)濟(jì)領(lǐng)域外,在計(jì)算機(jī)、數(shù)學(xué)、工程領(lǐng)域也有較多的研究(圖7柱狀圖),其中我國(guó)學(xué)者的研究世界排名第一(圖8)。這一方面顯示了金融風(fēng)險(xiǎn)預(yù)警這一問(wèn)題在專(zhuān)業(yè)領(lǐng)域的學(xué)術(shù)價(jià)值,也體現(xiàn)了金融風(fēng)險(xiǎn)預(yù)警技術(shù)已經(jīng)引起人工智能相關(guān)學(xué)科專(zhuān)家的關(guān)注。但相對(duì)一般的企業(yè)及風(fēng)險(xiǎn)預(yù)測(cè)而言,系統(tǒng)性等重大金融風(fēng)險(xiǎn)預(yù)警的研究相對(duì)較少(如圖7樹(shù)狀圖所示)。

      圖7 2011-2021年金融風(fēng)險(xiǎn)預(yù)警研究成果按研究領(lǐng)域排名Fig.7 Rankings of 2011-2021 financial risk early-warning researches by research field

      圖8 2011-2021年金融風(fēng)險(xiǎn)預(yù)警學(xué)術(shù)研究成果按國(guó)家排名Fig.8 Rankings of 2011-2021 financial risk early-warning researches by country

      上述有關(guān)金融風(fēng)險(xiǎn)的研究中,大部分以小樣本案例分析或信用評(píng)價(jià)方法為主。有監(jiān)督預(yù)測(cè)模型的應(yīng)用研究占比仍不高。而且,目前仍以傳統(tǒng)機(jī)器學(xué)習(xí)模型為多,但深度學(xué)習(xí)模型占比有上升的趨勢(shì),如圖9所示。下文對(duì)近幾年的相關(guān)研究進(jìn)行概述。

      圖9 各類(lèi)模型在金融風(fēng)險(xiǎn)預(yù)警中的研究成果Fig.9 Researches of different models in financial risk early-warning

      3.1 機(jī)器學(xué)習(xí)算法的應(yīng)用

      文獻(xiàn)[164-165]回顧了近年應(yīng)用機(jī)器學(xué)習(xí)、優(yōu)化等預(yù)測(cè)股票價(jià)格的研究,如神經(jīng)網(wǎng)絡(luò)類(lèi)中的加強(qiáng)反向傳播神經(jīng)網(wǎng)絡(luò)(EBPNNenhanced back propagation neural network,EBPNN)模型、使用隨機(jī)時(shí)間有效方程的Elman循環(huán)神經(jīng)網(wǎng)絡(luò)(elman recurrent neural network with a stochastic time effective function,ST-ERNN)模型、模糊邏輯方法中的自適應(yīng)網(wǎng)絡(luò)模糊推理系統(tǒng)(adaptive-network-based fuzzy inference system,ANFIS)、進(jìn)化循環(huán)模糊推理系統(tǒng) (self-evolving recurrent fuzzy inference system,SERFIS)、基于遺傳算法的關(guān)聯(lián)規(guī)則挖掘(genetic algorithm-based association rule mining ,GAACR)分類(lèi)模型,以及各類(lèi)混合模型、混合進(jìn)化模型等。文獻(xiàn)[166]構(gòu)建了一個(gè)2層結(jié)構(gòu)的網(wǎng)絡(luò)模型來(lái)刻畫(huà)經(jīng)濟(jì)組織之間的風(fēng)險(xiǎn)傳染機(jī)制,即第1層傳染網(wǎng)絡(luò)(基于權(quán)益和擔(dān)保)和第2層傳染網(wǎng)絡(luò)(基于信息溢出),綜合考慮了各類(lèi)風(fēng)險(xiǎn)傳導(dǎo)機(jī)制,從金融渠道和信息渠道2個(gè)維度定義了風(fēng)險(xiǎn)傳導(dǎo)網(wǎng)絡(luò)。文獻(xiàn)[167]提出局部線性徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(local linear radial basis function neural network,LLRBFNN) 模型,預(yù)測(cè)了某公司的金融風(fēng)險(xiǎn)?;趥鹘y(tǒng)時(shí)序模型及金融工程類(lèi)模型進(jìn)行風(fēng)險(xiǎn)研究在一定情況下也取得了良好的表現(xiàn)[168-174]。

      3.2 深度學(xué)習(xí)算法的應(yīng)用

      文獻(xiàn)[175]對(duì)深度網(wǎng)絡(luò)模型在金融風(fēng)險(xiǎn)領(lǐng)域的研究進(jìn)行了綜述,指出LSTM應(yīng)用相對(duì)較多。此外,文獻(xiàn)[176]提出了一種使用上下文無(wú)關(guān)語(yǔ)法(context-free grammar,CFG)生成豐富特征并利用支持向量機(jī)(support vector machine,SVM)進(jìn)行預(yù)測(cè)的模型框架。通過(guò)比對(duì)時(shí)序模型如自回歸模型(auto regression,AR)、自回歸移動(dòng)平均模型(autoregressive integrated moving average,ARIMA)、指數(shù)平滑模型(exponential smoothing,ETS)、指數(shù)移動(dòng)平均模型(exponential moving average,EMA)與基于本文特征生成方法的SVM模型以及基于標(biāo)準(zhǔn)技術(shù)指標(biāo)的SVM模型預(yù)測(cè)結(jié)果,可以得到基于本文特征生成方法的SVM模型性能更佳。文獻(xiàn)[177]利用兩層 LSTM模型,基于市場(chǎng)信息獲取的400個(gè)特征對(duì)股票市場(chǎng)風(fēng)險(xiǎn)進(jìn)行了預(yù)測(cè),該預(yù)測(cè)結(jié)果優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型融合結(jié)果。Li等[178]利用文本數(shù)據(jù)(例如新聞)提取了投資者因子,并使用基于LSTM及深度信念網(wǎng)絡(luò) (deep belief nets,DBN)的預(yù)測(cè)框架對(duì)股票價(jià)格進(jìn)行了預(yù)測(cè)。Vargas等[179]提出了一個(gè)RCNN模型來(lái)預(yù)測(cè)S&P500指數(shù)。該模型在傳統(tǒng)價(jià)格指標(biāo)的基礎(chǔ)上利用word2vec從財(cái)經(jīng)新聞標(biāo)題中提取了7個(gè)技術(shù)指標(biāo)。Zhang等[180]使用帶有LSTM+CNN以交易軟件提供的公開(kāi)可用指數(shù)為輸入對(duì)金融市場(chǎng)下行風(fēng)險(xiǎn)進(jìn)行了預(yù)測(cè)。該模型在訓(xùn)練過(guò)程中實(shí)施了生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)技術(shù),同時(shí)避免了復(fù)雜的金融理論研究和困難的技術(shù)分析,為非金融專(zhuān)業(yè)的普通交易者提供了便利。類(lèi)似基于LSTM、RNN等深度網(wǎng)絡(luò)算法對(duì)股票價(jià)格或金融風(fēng)險(xiǎn)進(jìn)行的研究可參見(jiàn)文獻(xiàn)[181-184]。

      4 結(jié)束語(yǔ)

      感知認(rèn)知技術(shù)本身面臨一些困難與瓶頸。首先,大量標(biāo)注讓研究人員在簡(jiǎn)單卻繁雜的標(biāo)注任務(wù)上耗費(fèi)了大量的時(shí)間。其次,各類(lèi)算法泛化應(yīng)用效果有降低甚至失效風(fēng)險(xiǎn)。不少基于深度神經(jīng)網(wǎng)絡(luò)的算法在基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)很好,但是在數(shù)據(jù)集之外的真實(shí)世界中則表現(xiàn)平平,這使得將算法應(yīng)用到現(xiàn)實(shí)場(chǎng)景的過(guò)程十分緩慢。其三則是跨場(chǎng)景遷移面臨障礙,深度神經(jīng)網(wǎng)絡(luò)對(duì)于場(chǎng)景的變化十分敏感。此外,現(xiàn)有文本處理技術(shù)對(duì)文本信息進(jìn)行深度理解和邏輯推理的能力較差。

      計(jì)算機(jī)視覺(jué)與認(rèn)知神經(jīng)科學(xué)、應(yīng)用數(shù)學(xué)和統(tǒng)計(jì)學(xué)等學(xué)科的交叉,與各類(lèi)軟硬件的融合搭配,未來(lái)將迎來(lái)更為旺盛的發(fā)展。高動(dòng)態(tài)復(fù)雜場(chǎng)景下的視覺(jué)場(chǎng)景理解、小樣本目標(biāo)識(shí)別、復(fù)雜語(yǔ)義行為理解等方向也會(huì)是未來(lái)發(fā)展的重要組成部分。本文挖掘在未來(lái)的發(fā)展中可能會(huì)存在如下發(fā)展趨勢(shì):1) 腦科學(xué)等領(lǐng)域的研究突破可能會(huì)創(chuàng)造出更強(qiáng)大的語(yǔ)義理解模型,以更好地分析長(zhǎng)文本、多歧義、深層邏輯等復(fù)雜文本數(shù)據(jù);2) 由于金融領(lǐng)域是需要較強(qiáng)解釋性的應(yīng)用領(lǐng)域,而傳統(tǒng)的深度模型大都處于一個(gè)黑盒子難以解釋的狀態(tài),深度模型在金融領(lǐng)域的可解釋性也將是未來(lái)一個(gè)重要的研究課題。

      可以預(yù)期,隨著圖像處理技術(shù)、自然語(yǔ)言處理技術(shù)的發(fā)展,未來(lái)能從圖像、文本中提取的基礎(chǔ)信息將更加精準(zhǔn)和多樣。然而,為了將這些基礎(chǔ)信息更好地用于金融風(fēng)險(xiǎn)預(yù)警建模,在領(lǐng)域知識(shí)的指引下巧妙使用圖像和自然語(yǔ)言處理技術(shù)將是未來(lái)十分重要的一個(gè)發(fā)展方向。因?yàn)椴⒎呛?jiǎn)單使用通用感知認(rèn)知技術(shù)就可以從海量異構(gòu)數(shù)據(jù)源中挖掘出可用于金融風(fēng)險(xiǎn)預(yù)警的有效因子。例如,通過(guò)研究股市、債券、信貸風(fēng)險(xiǎn)規(guī)律,反向推導(dǎo)至底層基礎(chǔ)信息需求,才指引我們從圖像中挖掘農(nóng)作物面積、成災(zāi)數(shù)據(jù)和原油運(yùn)輸數(shù)據(jù),從新聞、研報(bào)、評(píng)論中抽取與股價(jià)、油價(jià)、債券違約、企業(yè)風(fēng)險(xiǎn)預(yù)期有關(guān)的文本信息,并據(jù)此完善相關(guān)知識(shí)圖譜,最終才為金融風(fēng)險(xiǎn)預(yù)警模型的構(gòu)建提供了必要的因子與知識(shí)。

      最后,現(xiàn)有研究主要關(guān)注企業(yè)單點(diǎn)風(fēng)險(xiǎn),但風(fēng)險(xiǎn)傳導(dǎo)是更為關(guān)鍵的問(wèn)題。風(fēng)險(xiǎn)傳導(dǎo)路徑的推演不僅僅是一個(gè)預(yù)測(cè)問(wèn)題,其本質(zhì)更是一個(gè)推理問(wèn)題。雖然人工智能技術(shù)的進(jìn)步推動(dòng)了機(jī)器視覺(jué)技術(shù)、自然語(yǔ)言處理技術(shù)的突破性發(fā)展。但是其在復(fù)雜決策領(lǐng)域的表現(xiàn)仍不理想,例如在邏輯關(guān)系推理、投資決策、風(fēng)險(xiǎn)預(yù)警等領(lǐng)域,基于人工智能的推理方法明顯落后于專(zhuān)家推理??傮w來(lái)講,這些領(lǐng)域存在映射關(guān)系復(fù)雜、決策空間巨大、可學(xué)習(xí)樣本/數(shù)據(jù)缺稀、規(guī)律/數(shù)據(jù)分布時(shí)變性強(qiáng)的特點(diǎn)。為了解決這些問(wèn)題,要通過(guò)人類(lèi)知識(shí)與算法的融合實(shí)現(xiàn)更好的推理,這將是未來(lái)的一個(gè)重要研究方向。本文認(rèn)為強(qiáng)化學(xué)習(xí)算法為實(shí)現(xiàn)這一思想提供了良好的技術(shù)載體,未來(lái)應(yīng)該研究以專(zhuān)家知識(shí)為指導(dǎo)的強(qiáng)化學(xué)習(xí)算法,以期達(dá)到“青出于藍(lán)而勝于藍(lán)”的效果。

      猜你喜歡
      金融風(fēng)險(xiǎn)預(yù)警文本
      金融風(fēng)險(xiǎn)防范宣傳教育
      大社會(huì)(2020年3期)2020-07-14 08:44:16
      在808DA上文本顯示的改善
      構(gòu)建防控金融風(fēng)險(xiǎn)“防火墻”
      法國(guó)發(fā)布高溫預(yù)警 嚴(yán)陣以待備戰(zhàn)“史上最熱周”
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      園林有害生物預(yù)警與可持續(xù)控制
      大力增強(qiáng)憂患意識(shí) 進(jìn)一步防范金融風(fēng)險(xiǎn)
      關(guān)于當(dāng)前互聯(lián)網(wǎng)金融風(fēng)險(xiǎn)的若干思考
      機(jī)載預(yù)警雷達(dá)對(duì)IFF 的干擾分析
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      龙州县| 闽侯县| 苏州市| 临潭县| 麻江县| 宜昌市| 乌鲁木齐县| 蓬安县| 噶尔县| 安阳市| 子长县| 锡林浩特市| 白河县| 齐齐哈尔市| 合水县| 论坛| 邵武市| 临澧县| 同江市| 沧州市| 弥勒县| 浠水县| 太和县| 兴安盟| 新营市| 应用必备| 金溪县| 西城区| 平利县| 洪洞县| 崇左市| 赫章县| 壶关县| 太白县| 琼中| 玛纳斯县| 轮台县| 惠东县| 巴彦淖尔市| 巴林左旗| 那曲县|