• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      金融領(lǐng)域事件因果關(guān)系發(fā)現(xiàn)及事理圖譜構(gòu)建與應(yīng)用

      2023-10-24 14:54:44楊紀星朱劍林康怡琳
      中文信息學報 2023年7期
      關(guān)鍵詞:事理圖譜金融

      楊紀星,楊 波,2,朱劍林,2,康怡琳,2

      (1. 中南民族大學 計算機科學學院,湖北 武漢 430074;2. 信息物理融合智能計算國家民委重點實驗室,湖北 武漢 430074)

      0 引言

      在金融領(lǐng)域,事件發(fā)展動蕩多變,在事件的邏輯衍生中,事件內(nèi)部的復雜性決定多種事件直接或間接導致同一事件的發(fā)生,亦決定同一事件可直接或間接導致多種不同事件發(fā)生。因此,探究金融領(lǐng)域中事件的動態(tài)發(fā)展規(guī)律并實現(xiàn)事件發(fā)展脈絡(luò)的可視化表達,是金融行業(yè)迫切需要解決的階段性問題。

      近年來對于知識圖譜的研究及其構(gòu)建領(lǐng)域的日漸成熟,單一的確定性靜態(tài)知識類圖譜構(gòu)建模型已經(jīng)難以滿足業(yè)界的需求,特別在金融領(lǐng)域,事件具有動態(tài)發(fā)展性,靜態(tài)的知識圖譜難以全面地表現(xiàn)事件的邏輯規(guī)律。事理圖譜(Eventic Graph,EG)是一個基于事理邏輯構(gòu)建出來的知識庫,以事件為節(jié)點,以事件關(guān)系為核心的有向有環(huán)圖,刻畫并記錄事件之間的演化規(guī)律和模式,能夠有效解決事件預(yù)測和事件分析的問題[1]。

      Luo等人[2]于2016年首次從文本數(shù)據(jù)集中抽取出因果事件對,并將其構(gòu)建成因果事件網(wǎng)絡(luò)。Zhao等人[3]于2017年提出以規(guī)則模板的形式對事件因果進行抽取操作,即,其中,Pattern則是用來匹配因果關(guān)系觸發(fā)詞的正則表達式,Constraint則是句法約束,而Priority是基于模板的優(yōu)先級。同年,哈爾濱工業(yè)大學基于事理圖譜概念開發(fā)出的新一代LTP[4]語言技術(shù)平臺對事理圖譜的構(gòu)建有著巨大的推動作用。

      2018年,Dasgupta等人[5]在計算機語言協(xié)會上提出一種基于語言的遞歸神經(jīng)網(wǎng)絡(luò)架構(gòu),用于自動提取文本深層信息,該架構(gòu)使用詞嵌入和語言特征的方式檢測句子中提到的因果事件及其影響,并且以此為基礎(chǔ)提出兩個基線系統(tǒng)評估指標用于評估模型的性能。在研究過程中,發(fā)現(xiàn)添加額外語言層的雙層LSTM模型表現(xiàn)出更好的性能。由此,2020年以后,多位研究者針對不同領(lǐng)域提出事理圖譜構(gòu)建方案,如面向熱點話題的因果事理圖譜[6],基于城市軌道交通運營突發(fā)事件的事理圖譜[7]以及面向電信詐騙領(lǐng)域的事理圖譜[8]。

      然而,目前金融領(lǐng)域因果事理圖譜的構(gòu)建面臨諸多挑戰(zhàn),如因金融事件的復雜多變性以及針對金融事件缺少明確的定義與劃分標準,使得目前可用金融事件數(shù)據(jù)集較為匱乏;又如構(gòu)建方案缺少對比實踐,事件抽取任務(wù)精度較低,以致因果事理圖譜難以適應(yīng)數(shù)據(jù)量較大且精度要求較高的金融領(lǐng)域。

      為此,本文提出了一種新的金融領(lǐng)域事件論元的定義,制定了ATT+SBV的句法分析方案,以此提出面向金融因果事件的序列標注標簽定義,并在金融事件數(shù)據(jù)集中標注數(shù)據(jù)6 000條,然后提出了一種基于BERT+Bi-LSTM+CRF模型的信息抽取方案,并與不同神經(jīng)網(wǎng)絡(luò)模型做對比研究,以提升文本事件預(yù)測的準確性,通過Neo4j圖數(shù)據(jù)庫構(gòu)建金融因果事理圖譜,以可視化的方式揭示現(xiàn)實金融事件的演變邏輯規(guī)律,分析金融網(wǎng)絡(luò)中風險傳導擴散機制,為金融市場實現(xiàn)對市場環(huán)境的趨勢把控提供數(shù)據(jù)支持。

      1 金融事件論元定義

      在以往的金融事理圖譜中,作為節(jié)點的金融事件,具有廣泛多樣、知識粒度較粗的特點,使得事件實例的組成具有多樣性和不確定性,在事理圖譜的構(gòu)建上存在事件準確度過低的問題。因此,本文對金融事件的實體概念作出劃分,并定義金融事件本體的組成元素,從而提出更精確的金融事件本體。金融事件描述主要指金融領(lǐng)域中已發(fā)生的具有動態(tài)發(fā)展性質(zhì)的熱點事件,主要包括事件的實體及其屬性和事件變化的具體形式,因此事件論元的組成成分包括事件實體、描述性客體、時間、地點等特殊要素[9]。在具體表現(xiàn)形式上,本文將其表現(xiàn)為式(1)所示。

      e=

      (1)

      基于式(1),金融事件論元可由三元組表示,即將事件表示進行線性化,能夠?qū)⑽谋局械氖录涗洷硎緸橐粋€表達式,使金融事件在表示上有著嚴格的規(guī)范定義[10]。其中,D表示針對金融事件實體的描述性元素,如地理位置、產(chǎn)品名稱等;E表示金融事件中的事件實體,對應(yīng)事件描述中事件對象,如市場、產(chǎn)能、價格、豬瘟等;S表示體現(xiàn)金融事件對象的動態(tài)變化形式,如降低、停滯、分化、下跌等。以“國內(nèi)汽柴油價格下調(diào),導致煉油損耗逐月擴大、庫存價格下跌”事件作為案例,其中可將其劃分為三個事件論元,可認為“價格”“損耗”是事件的實體對象,而如“汽柴油”“煉油”和“庫存”則認為是對實體對象的描述詞,并將“下調(diào)”“擴大”和“下跌”認為是事件實體的動態(tài)形式。

      2 金融事件抽取研究

      2.1 文本預(yù)處理

      本文研究的金融事件數(shù)據(jù)主要來源于CCKS-2021發(fā)布在數(shù)競平臺的金融因果事件數(shù)據(jù)集(1)https://www.biendata.net/competition /ccks_2021_task6_2/,其數(shù)據(jù)結(jié)構(gòu)為金融因果事件的Json數(shù)據(jù),數(shù)據(jù)樣例為{“text_id”: ”123456”, “text”: “卡車需求不旺導致貨運行業(yè)盈利水平大幅度縮水”},該數(shù)據(jù)集的數(shù)據(jù)主要來自金融領(lǐng)域的公開新聞、報道。為了使事件抽取模型準確度更高,本文爬取了《人民日報》金融板塊近一年的事件標題作為擴充數(shù)據(jù)集。

      數(shù)據(jù)源的新聞文本在提取后通過正則表達式或者人工操作,對其進行清洗操作,具體是將與事件抽取任務(wù)無關(guān)的組織、數(shù)據(jù)等進行剔除,使得事件抽取任務(wù)在精確性上得到進一步提升。

      2.2 因果關(guān)聯(lián)觸發(fā)詞定義

      在自然語言句型模式匹配研究中,句子類型可以被劃分為轉(zhuǎn)折事件、順承事件、并列事件、條件事件以及因果事件,以此確定不同句型的相應(yīng)格式[11]。本文研究以金融因果事件作為主體,確定事件關(guān)系的因果觸發(fā)詞,通過先對事件觸發(fā)詞進行內(nèi)容定義,在關(guān)系匹配函數(shù)中對句子內(nèi)容進行關(guān)系模式匹配。

      在本文研究的金融因果事件關(guān)系中,將以表1中的事件因果觸發(fā)詞作為內(nèi)容定義。

      表1 因果關(guān)系觸發(fā)詞表

      在對文本事件進行事件關(guān)系分析時,如“國內(nèi)汽柴油價格下調(diào),導致煉油損耗逐月擴大、庫存價格下跌”,由以上關(guān)聯(lián)觸發(fā)詞,可匹配此事件中因果觸發(fā)詞為“導致”。因此,通過模板對事件類型劃分,可將“國內(nèi)汽柴油價格下調(diào)”劃分為原因事件,而“煉油損耗逐月擴大、庫存價格下跌”則被劃分為結(jié)果事件。

      2.3 基于依存句法分析的事件抽取方案

      2.3.1 依存句法分析

      依存句法分析是在語法分析的基礎(chǔ)上,根據(jù)其中依存關(guān)系,將其句法結(jié)構(gòu)表達出來[12]。其中,LTP語言技術(shù)平臺作為中文文本依存句法分析工具,相較于Stanford CoreNLP和SpaCy相關(guān)依存句法分析庫而言,LTP使用簡單,兼容性良好,標注的結(jié)果簡單易分析,速度較快,可以滿足大多數(shù)針對依存句法分析的應(yīng)用要求,其使用的BH-SDP[13]中文標注方案更適用于中文文本數(shù)據(jù)的處理。本文為了清楚地匹配事件論元關(guān)系,以LTP的關(guān)系標簽提出了ATT(定中)+SBV(主謂)句法分析形式(其在Stanford CoreNLP和SpaCy中的形式為NMOD+NSUBJ)來抽取事件。因此,此類表示事件的形式,可以使核心詞匯和構(gòu)成要素均在事件中得以體現(xiàn)。圖1為基于上述研究對“國內(nèi)汽柴油價格下調(diào),導致煉油損耗逐月擴大、庫存價格下跌”使用LTP語言技術(shù)平臺進行依存句法分析的弧線圖。

      圖1 事件文本依存句法分析弧線圖

      由上述事件抽取方案生成的事件結(jié)果,如表2所示。

      表2 依存句法分析生成事件

      由此看出,在事件表示上,此種方案具有設(shè)計簡單、性能良好、事件簡潔等特點,并體現(xiàn)事件變化的動態(tài)要求。

      2.3.2 金融事件抽取結(jié)果與分析

      依存句法分析進行事件抽取的方案基于預(yù)處理的文本數(shù)據(jù),通過因果關(guān)聯(lián)詞匹配確定事件因果劃分,經(jīng)過分詞、詞性標注以及依存句法分析,依照事件論元定義,最終以ATT(定中)+SBV(主謂)的形式構(gòu)建出金融事件,基本完成了構(gòu)建事理圖譜的數(shù)據(jù)要求。

      基于上述實驗,通過對關(guān)系抽取和事件抽取的結(jié)果進行統(tǒng)計,并對數(shù)據(jù)進行準確性分析,統(tǒng)計結(jié)果如表3所示。

      表3 因果事件及關(guān)系抽取統(tǒng)計表

      通過以上數(shù)據(jù)可知,在因果關(guān)系抽取任務(wù)上,準確率達到了90.2%,性能較為優(yōu)秀,但在基于依存句法分析的事件抽取中,發(fā)現(xiàn)存在SBV句法形式的句子個數(shù)偏少,事件抽取準確率只有75.2%,在性能上略低,此類基于依存句法分析進行事件抽取的方案在準確性和可持續(xù)性上不太適合進行大規(guī)模的數(shù)據(jù)處理以及對事件精度要求較高的金融領(lǐng)域。

      2.4 基于深度學習模型的事件抽取方案

      為彌補通過依存句法分析進行事件抽取中精度不高及可持續(xù)性無法滿足規(guī)模較大數(shù)據(jù)處理的不足,本文通過對數(shù)據(jù)集進行手動標注,構(gòu)建多種信息抽取模型,對比實驗對序列標注數(shù)據(jù)集進行訓練,以提高事件抽取任務(wù)的準確性。

      2.4.1 文本向量化及預(yù)訓練模型

      文本向量化實際上是將文本內(nèi)容通過算法技術(shù)使其轉(zhuǎn)換成機器能夠理解的向量形式。Word2Vec在由Google于2013年作為用于訓練詞向量模型的工具以來,其使用神經(jīng)網(wǎng)絡(luò)機制,對數(shù)量規(guī)模較大的文本數(shù)據(jù)進行訓練,其訓練結(jié)果可很好地度量詞與詞之間相似性[14]。2018年,Google提出聚焦于學習上下文關(guān)系的詞向量表示的預(yù)訓練模型,即BERT預(yù)訓練模型,其能夠挖掘文本的深層次信息并強化單詞的特征表示[15]。

      2.4.2 序列標注

      序列標注(Sequence Labeling),即基于給定的輸入序列,通過一定規(guī)則對此序列的每個位置標注上一個相應(yīng)的標簽的過程[16]。事件抽取即信息提取,可將其認為是一個序列標注任務(wù)。本文通過采用BMOES標注體系,對金融事件數(shù)據(jù)源進行人工標注,BMOES金融因果事件標注體系定義如表4所示。

      表4 BMOES序列標注說明

      基于以上序列標注規(guī)范,將標簽序列規(guī)定為{O,B-cause,M-cause,E-cause,B-effect,M-effect,E-effect,B-trigger,M-trigger,E-trigger,S-trigger},其中O標簽表示不屬于事件提取的任意事件,B-cause,M-cause,E-cause可分別表示文本屬于原因事件的開始、中間和結(jié)束,而B-effect,M-effect,E-effect則表示文本屬于結(jié)果事件的開始、中間和結(jié)束,B-trigger,M-trigger,E-trigger表示文本屬于因果觸發(fā)詞的開始、中間和結(jié)束,最后的S-trigger則表示為單個因果觸發(fā)詞?;谝陨弦?guī)范,通過序列標注工具YEDDA對事件進行標注任務(wù),如圖2所示。

      圖2 YEDDA序列標注工具

      通過以上標簽規(guī)范,本文對金融因果事件進行粗略標注,并基于金融事件論元定義及ATT+SBV句法規(guī)則進行精確修整,共標注6 000條,并按照 3∶1∶1 的比例將其分為訓練集、測試集和驗證集,以下則是根據(jù)標簽規(guī)范進行事件標注的事例。

      “非 B-cause/洲 M-cause/豬 M-cause/瘟 E-cause/對 O/我 O/國 O/豬O/肉 O/全 O/產(chǎn) O/業(yè) O/鏈 O/影 O/響 O/導 B-trigger/致 E-trigger/實 O/際 O/產(chǎn) B-effect/能 M-effect/減 M-effect/少 E-effect/、 O/豬 B-effect/肉 M-effect/價 M-effect/格 M-effect/嚴 O/重 O/分 M-effect/化 E-effect/、O/跨 B-effect/省 M-effect/運M-effect/輸 M-effect/停 M-effect/滯 E-effect/,O/北 O/方 O/生 B-effect/豬 M-effect/養(yǎng) M-effect/殖 M-effect/企 M-effect/業(yè) M-effect/大 O/面 O/積 O/虧 M-effect/損 E-effect/?!?/p>

      2.4.3 Bi-LSTM雙向長短時記憶網(wǎng)絡(luò)

      為處理事件序列問題,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)既考慮前一時刻的輸入,又賦予網(wǎng)絡(luò)對以往內(nèi)容的“記憶”能力。而雙向結(jié)構(gòu)的RNN不僅可從前向后保留給更前面的內(nèi)容,對其后面的內(nèi)容也進行了相應(yīng)保留,即雙向RNN便是由兩個RNN上下疊加而成的。

      但由于RNN本身基于時間反向傳播的特點仍會帶來如梯度消失或者是梯度爆炸的問題,因此并不能解決長距離依賴問題,引入長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Network, LSTM),其可通過梯度裁剪技術(shù)來克服梯度爆炸的相關(guān)問題,并由于其特殊的存儲“記憶”方式,也在一定程度上克服了梯度消失的問題。RNN的重復模塊包含單一的層,LSTM的重復模塊包含四個交互的層[17]。三個神經(jīng)單元模塊的LSTM內(nèi)部結(jié)構(gòu)如圖3所示。

      圖3 三個神經(jīng)單元模塊的LSTM內(nèi)部結(jié)構(gòu)

      在LSTM神經(jīng)網(wǎng)絡(luò)中,使用門結(jié)構(gòu)實現(xiàn)了對序列數(shù)據(jù)的遺忘和記憶,基于大量的文本序列數(shù)據(jù)對LSTM模型進行訓練之后,其可以捕捉文本上下文之間的依賴關(guān)系。通過訓練好的模型可直接根據(jù)指定的文本生成后續(xù)的預(yù)測內(nèi)容。因此在信息抽取研究中,采用LSTM模型解決序列標注任務(wù)。而雙向Bi-LSTM模型由文獻[18]提出,將LSTM模型進行雙層疊加,以形成雙向LSTM模型,使得上下文的信息得以連接起來。Bi-LSTM結(jié)構(gòu)如圖4所示。

      圖4 Bi-LSTM結(jié)構(gòu)

      2.4.4 條件隨機場

      Bi-LSTM模型解決上下文的關(guān)聯(lián)問題,但在實際的序列建模過程中,Bi-LSTM只考慮了輸入序列的信息,并沒有對標簽的轉(zhuǎn)移關(guān)系進行建模,以本文的BMOES序列標注為例,輸入序列為“煉油損耗擴大”,理想的標注結(jié)果為“B-effect M-effect M-effect M-effect M-effect E-effect”,但實際上可能出現(xiàn)的情況為“B-effect B-trigger M-effect O M-effect E-cause”。這是由于在建模的過程中,未對標簽的轉(zhuǎn)移關(guān)系進行條件約束,使得模型輸出一個錯誤的序列,因此引入條件隨機場(Conditional Random Field,CRF),即CRF層,通過引入標簽轉(zhuǎn)移矩陣,解決序列標注前后標簽不匹配的問題[19]。在這個過程中,Bi-LSTM與CRF取長補短,巧妙結(jié)合。

      線性鏈式條件隨機場通過兩個特征函數(shù)學習邊界。設(shè)P(y|x)為線性鏈式條件隨機場,則在隨機變量X取值為x的條件下,隨機變量Y取值為y的條件概率具有如式(2)所示的參數(shù)化表示形式。

      (2)

      其中兩個特征函數(shù)分為轉(zhuǎn)移特征函數(shù)和節(jié)點特征函數(shù),且取值只能為0或1。轉(zhuǎn)移特征函數(shù)依賴于當前節(jié)點i和上一個節(jié)點i-1,記為tk(yi-1,yi,x,i),節(jié)點特征函數(shù)只依賴于當前節(jié)點i,記為sl(yi,x,i)。

      其中,轉(zhuǎn)移特征函數(shù)對應(yīng)的權(quán)重值為λk,節(jié)點特征函數(shù)的權(quán)重值為μl,Z(x)為規(guī)范化因子,計算方法如式(3)所示。

      (3)

      整個序列標注過程可簡單描述為: 基于給定的序列標注數(shù)據(jù)集,通過將標注集進行排列組合以構(gòu)成多個可選標注列表,利用特征函數(shù)集合對每個標注結(jié)果進行打分,并將所有特征函數(shù)的分數(shù)進行加權(quán)求和,最后選擇分數(shù)最高的結(jié)果,即可信度最高的序列標注結(jié)果。圖5為線性鏈式條件隨機場的結(jié)構(gòu)。

      圖5 線性鏈式條件隨機場的結(jié)構(gòu)

      2.4.5 基于Bi-LSTM+CRF的信息抽取模型

      模型分為詞嵌入層即Embedding層、Bi-LSTM層以及CRF輸出層。

      在Embedding層,接受中文文本詞的輸入并將其轉(zhuǎn)換為詞向量形式。

      在Bi-LSTM層,接受Embedding層的輸出,輸出為文本詞對應(yīng)的每個實體種類的Score。此處對“煉B-cause 油M-cause 損M-cause 耗E-cause”進行分析,其中Score(x,y)由轉(zhuǎn)移特征概率和狀態(tài)特征概率兩部分組成,此時x為word index序列,y為label index序列。轉(zhuǎn)移特征概率是指在前面的輸出標記是B的情況下,當前的輸出標記是一個特定的數(shù)值,例如M的概率大小。而狀態(tài)特征是指在當前輸入的詞為“油”的條件下,當前輸出標記是一個特定的數(shù)值,例如M的概率大小,則Score(x,y)如式(4)所示。

      (4)

      此處的h指代Bi-LSTM的輸出,代表序列標注標簽的狀態(tài)特征分數(shù)值,P則是轉(zhuǎn)移特征矩陣,表示第i標簽從yi-1轉(zhuǎn)移到y(tǒng)i的轉(zhuǎn)移得分值。Bi-LSTM層內(nèi)部通過線性層將數(shù)據(jù)類型映射為(單次傳遞給程序用以訓練的參數(shù),句子長度,實體總數(shù))的類型,得出Score。

      在CRF層,接收Bi-LSTM的Score的輸出作為輸入,輸入通過了一個維度變換后的相加操作作為輸出。CRF的損失函數(shù)由真實路徑的分數(shù)和所有路徑的總分數(shù)組成,每種可能的路徑的分數(shù)為Pi,共有N條路徑,路徑的總分可由式(5)所示。

      Ptotal=P1+P2+…+PN=eS1+eS2+…+eSN

      (5)

      其中,eSi表示第i條路徑的分數(shù),因此損失函數(shù)可由式(6)表示。在訓練過程中,Bi-LSTM+CRF模型的參數(shù)值將隨著訓練過程的迭代不斷更新,使得真實路徑所占的比值越來越大。

      (6)

      在計算了每個字詞(token)歸一化概率矩陣和轉(zhuǎn)移概率矩陣之后,最后根據(jù)維特比算法得到整個文本句子的最優(yōu)概率輸出。

      基于上述Bi-LSTM+CRF模型設(shè)計,在參數(shù)設(shè)置上,基于詞嵌入,設(shè)置Embedding層的維度為256,隱藏層維度為256,設(shè)置單次傳遞給程序用以訓練的參數(shù)個數(shù)為16,在學習速率的設(shè)置上,設(shè)置學習率lr為5e-4,使得在學習過程中避免損失函數(shù)震蕩和學習難以收斂的問題。經(jīng)多次實驗發(fā)現(xiàn),將Epoch次數(shù)設(shè)置為12次可得最佳數(shù)據(jù)。

      2.4.6 基于BERT+Bi-LSTM+CRF的信息抽取模型

      為再次提高模型性能以及獲取字詞深層次特征的能力,將Bi-LSTM+CRF中的Embedding層換成BERT。BERT模型與Word2Vec不同,其通過聯(lián)合調(diào)節(jié)所有層中的上下文來預(yù)訓練深度進行雙向表示,語義編碼更加精確,圖6所示。

      圖6 Bi-LSTM+CRF模型結(jié)構(gòu)

      本文采用谷歌提供的BERT-base版本的中文模型,隱藏層維度為768。BERT初始學習率設(shè)置為 1e-5,Bi-LSTM層維度設(shè)置為128,Drop-rate設(shè)置為0.1,優(yōu)化器采用Adam算法。

      基于上述模型,執(zhí)行模型優(yōu)化策略。首先進行Epoch訓練優(yōu)化,統(tǒng)一訓練監(jiān)控指標和評估指標,將監(jiān)控指標由字詞(token)更改為實體級別F1值,在每個Epoch結(jié)束之后,計算驗證集的F1值,基于現(xiàn)有的Epoch的F1值與以往保存的最佳F1值進行比較,決定是否保存當前訓練模型,如若后續(xù)Epoch訓練的性能指標未有顯著變化,則執(zhí)行學習率的衰減策略。

      其次,進行分層學習率優(yōu)化。在模型構(gòu)建過程中,LSTM層是隨機初始化的,意味著學習的次數(shù)不夠或者學習率太小,隨機初始化的參數(shù)在反向傳播過程中并不能得到一個較大幅度的優(yōu)化,需進行分層封裝的學習率設(shè)置,實驗參照Su等人[20]的分層設(shè)置學習率方法,對模型每一層進行封裝,并分層設(shè)置學習率,此處BERT層初始學習率設(shè)置為1e-5,對Bi-LSTM層進行初始學習率的倍數(shù)操作。

      2.4.7 基于BERT+Bi-LSTM+CRF模型的事件預(yù)測任務(wù)

      基于構(gòu)建完成的BERT+Bi-LSTM+CRF模型,對金融事件文本執(zhí)行信息抽取任務(wù),實驗結(jié)果如表5所示。

      表5 事件預(yù)測

      2.4.8 金融事件抽取結(jié)果與分析

      為評估深度學習模型的信息抽取性能,本文采用F1-Score[21]作為序列標注任務(wù)的性能評估指標,其是精確率(Precision)、召回率(Recall)的調(diào)和平均數(shù)。其計算式如式(7)~式(9)所示。

      其中,TP指代分類器預(yù)測結(jié)果為正樣本,實際也為正樣本,即正樣本被正確識別的標簽數(shù)量;FP指代分類器預(yù)測結(jié)果為正樣本,實際為負樣本,即誤報的負樣本數(shù)量,FN是分類器預(yù)測結(jié)果為負樣本,實際為正樣本,即漏報的正樣本數(shù)量。

      根據(jù)上述性能評估指標研究,實驗結(jié)果如表6所示。

      表6 不同模型結(jié)果對比

      由表6可以看出,加入了BERT預(yù)訓練模型的Bi-LSTM+CRF模型獲得了更好的識別效果,其F1-Score達到了95.78%。與Word2Vec相比,BERT成功地將這種表達能力強,并且易于優(yōu)化的深層網(wǎng)絡(luò)應(yīng)用到了掩碼語言模型這個任務(wù)上,BERT每個位置經(jīng)過多次Transformer層輸出后的詞向量都有語境信息,BERT能直接地建模距離更遠的詞和詞之間的依賴關(guān)系,這是Word2Vec所不具備的[22]。實驗表明,在對數(shù)據(jù)的自標注過程中,依據(jù)金融事件論元定義和ATT+SBV的文本句法定義對金融事件元素做出的分析,在序列標注中可準確地標注出金融因果事件及其觸發(fā)詞,從而使得大量的序列標注數(shù)據(jù)能夠?qū)RF的轉(zhuǎn)移概率的學習效果有著顯著的提升,使得標簽?zāi)苡懈侠淼霓D(zhuǎn)移方式。同時依據(jù)金融領(lǐng)域因果的事件數(shù)據(jù)具有明顯的事件主語和動態(tài)變化趨勢,在特征提取時引入注意力機制,事件抽取的準確性較傳統(tǒng)的依存句法分析進行事件抽取的方案更能勝任復雜多樣的金融事件領(lǐng)域,并且BERT預(yù)訓練模型在詞之間具有長距離依賴優(yōu)勢,在抽取事件文本的深度特征上比其他信息抽取模型更加準確。因此,此模型在理論上可在數(shù)據(jù)集的漸續(xù)增加中提高性能,更具有可持續(xù)性。

      3 金融事件融合

      3.1 事件三元組生成

      根據(jù)事理圖譜構(gòu)建的任務(wù)定義,即從在結(jié)構(gòu)上看,事理圖譜是一個以節(jié)點代表事件,以邊代表事件關(guān)系且包含事件詞的結(jié)構(gòu)化多元組。因此本節(jié)研究工作基于上述事件抽取及事件關(guān)系匹配結(jié)果,將同一事件文本中的原因事件和結(jié)果事件以<因事件,事件關(guān)系,果事件>的三元組形式進行笛卡爾積式組合。表7為生成的部分事件三元組結(jié)果。

      表7 事件三元組結(jié)果

      通過信息抽取任務(wù)形成以<因事件,事件關(guān)系,果事件>為形式的事件三元組,再對其中所含的相似事件進行事件合并,也稱為事件融合。事件融合任務(wù)的必要性為得到精確完整的因果事件三元組,以提高整個事件抽取和事件關(guān)系匹配任務(wù)的數(shù)據(jù)質(zhì)量[23]。

      3.2 事件相似度計算

      在事件三元組構(gòu)建完成后,需針對相似語句進行替換處理,涉及文本相似度計算的問題,因此引入Jaccard系數(shù)進行文本相似度計算。對給定的兩個文本集合A和B,Jaccard系數(shù)被定義為A與B交集大小與A與B并集大小的比值,是計算機領(lǐng)域中實現(xiàn)文本相似度計算時常用的一種方法[24]。Jaccard系數(shù)值越大,文本之間相似度越高。其計算方法如式(10)所示。

      (10)

      3.3 事件合并處理

      通過式(10)求得的Jaccard系數(shù),針對事件三元組的因果事件進行分析,本文基于單建芳的事件相似度計算算法思想[25],采用相似文本算法將前置定語和主語(ATT)一致且相似度超過設(shè)定閾值(0.5)的事件進行列表合并。此時的事件相似度閾值設(shè)置是基于金融事件論元的元素定義,在事件主語及其前置賓語元素一致的共同前提下,通過計算金融事件論元中的共同事件主語及其描述詞元素在整個事件文本的相似度所得到的,能夠保證其事件語法相似和語義相似的合理性。同時,以首位事件作為第一優(yōu)先級事件,用其依次替換掉后續(xù)相似事件,并將缺少因事件或者果事件的三元組進行刪除處理。此工作合并結(jié)果如表8所示。

      表8 “非洲豬瘟”事件合并結(jié)果

      4 基于Neo4j圖數(shù)據(jù)庫的事理圖譜分析與可視化

      4.1 基于Neo4j圖數(shù)據(jù)庫的事理圖譜可視化

      圖數(shù)據(jù)庫是使用節(jié)點、邊和屬性來表示和存儲數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫,在復雜數(shù)據(jù)的關(guān)聯(lián)查詢上相較于傳統(tǒng)關(guān)系型數(shù)據(jù)庫具有明顯的性能優(yōu)勢,并且事理圖譜可表示為事件關(guān)系組成的有向有環(huán)圖,圖數(shù)據(jù)庫通過屬性圖模型可輕易創(chuàng)建多關(guān)系相連的事理圖譜。因此,本文選擇Neo4j圖數(shù)據(jù)庫[26]進行持久化存儲事件及事件關(guān)系數(shù)據(jù),并利用Neo4j自帶的可視化工具展現(xiàn)出金融因果事理圖譜。針對信息抽取結(jié)果,將事件存儲入Neo4j圖數(shù)據(jù)庫,將事件三元組的節(jié)點和關(guān)系依次導入Neo4j圖數(shù)據(jù)庫,基于Neo4j圖數(shù)據(jù)庫的金融因果事理圖譜存儲與可視化如圖7所示。

      圖7 基于Neo4j圖數(shù)據(jù)庫金融因果事理圖譜存儲與可視化

      針對某一事件無法進行單方面查詢研究的缺陷,Neo4j的查詢語言Cypher提供了可實現(xiàn)描述關(guān)系查詢的方案,例如,對“非洲豬瘟影響”事件進行單一事件分析,說明了事件發(fā)展的廣泛性。

      4.2 基于金融事理圖譜的事件演化案例分析

      金融事理圖譜可分析金融事件之間的邏輯關(guān)系,并揭示其發(fā)展規(guī)律。其中,事件作為事理圖譜中的節(jié)點承載著事件描述的重要信息,金融事件抽取是整個金融事理圖譜構(gòu)建的基礎(chǔ),金融事件的完整性關(guān)系到金融事理圖譜構(gòu)建的有效性和可讀性。金融事件論元基于金融事件的顯要特征,除完整保留事件實體及其描述性信息外,將事件發(fā)展態(tài)勢作為事件論元的相關(guān)要素,并與依存句法分析結(jié)合,從語義語法上準確描述金融事件的實體信息和發(fā)展路徑,豐富了事理圖譜中事件間事理特征的表達。同時,它基于事件實體之間直接或間接的關(guān)聯(lián)性,擴展了事件間的事理邏輯鏈[27]。

      本文選取颶風事件進行案例研究,以論證金融網(wǎng)絡(luò)中的風險傳導特點和擴散形式。2021年9月,颶風“艾達”和“尼古拉斯”席卷美國東南部,導致當?shù)厥烷_采設(shè)備損壞, 對原油開采和運輸產(chǎn)生了較大的阻礙,英國基準布倫特原油和美國西德克薩斯中質(zhì)油的價格上漲至近十年來的最高點,導致市場經(jīng)濟通脹等一系列突發(fā)事件,引起市場對非金融事件產(chǎn)生金融風險傳播的警惕。

      圖8為利用Cypher查詢“颶風”事件所產(chǎn)生的一系列事件影響的金融因果事理圖譜,其中颶風作為事件發(fā)展的擴散原點,導致如原油價格上漲、石油生產(chǎn)中斷、鐵礦石全年供應(yīng)下降等一系列金融事件。金融事件論元在將“原油價格”“石油生產(chǎn)”等事件實體信息正確表示出的同時,并表現(xiàn)價格的“上漲”態(tài)勢和生產(chǎn)的“中斷”現(xiàn)狀,體現(xiàn)了事件信息的簡要可讀性,揭示了事件的變化方向。對“颶風”引發(fā)的金融因果事理圖譜做分析,“颶風”帶動的連鎖反應(yīng),依賴金融事件網(wǎng)絡(luò),金融風險由傳導逐步發(fā)展為擴散態(tài)勢。在時序演化中,“颶風”引發(fā)石油礦石開采影響和運輸阻礙,其中原油價格上漲看似與颶風事件關(guān)聯(lián)甚小,但與其存在直接或間接的因果關(guān)聯(lián)性,并在風險傳染能力上高于風險傳導源頭事件,表現(xiàn)出較高的敏感性,提高了整個金融風險傳播網(wǎng)絡(luò)的復雜程度。因此,金融風險并非僅由金融事件的變化衍生傳導出來。

      圖8 “颶風”事件因果事理圖譜

      同時,“颶風”到原油價格完成擴散反應(yīng),不斷引起外商成本、海運成本和國際煤價等實體的變化,形成“網(wǎng)鏈式”的發(fā)展路徑。金融因果事理圖譜形成的金融風險網(wǎng)絡(luò)對與之相關(guān)的部分金融事件實體引發(fā)“漣漪”反應(yīng),導致金融風險的擴散,金融因果事理圖譜揭露了事件實體廣泛存在的各種關(guān)聯(lián)。在事件演化中還出現(xiàn)產(chǎn)油國局勢動蕩的政治事件。在“颶風”事件所形成的金融因果事理圖譜中,不同事件實體通過其發(fā)展態(tài)勢相互作用、相互影響,形成復雜廣泛的事件邏輯關(guān)系鏈條。

      通過上述實驗,使用Neo4j圖數(shù)據(jù)庫的可視化工具對事理圖譜進行了可視化展示?;贜eo4j圖數(shù)據(jù)庫構(gòu)建的金融因果事理圖譜具有驅(qū)動性的事件指向,揭露事件發(fā)生的多種原因及其次生影響,并在事件的走向上衍生出相關(guān)金融事件或非金融事件。針對某一事件的異常市場反應(yīng),基于金融事理圖譜,市場主體通過金融風險網(wǎng)絡(luò)之間的層層關(guān)聯(lián),對網(wǎng)絡(luò)中事件節(jié)點進行建模分析和多層邏輯推理,從事件關(guān)聯(lián)的視角揭示金融事件的演變規(guī)律和動因,實現(xiàn)事件邏輯發(fā)展的關(guān)鍵路徑探索,可較為迅速地進行事件溯源,以達到整個市場經(jīng)濟局勢變化的把握。同時,在面對金融市場的走向或者外部環(huán)境的突變上,當事件突發(fā)形成常態(tài)化時,可提前了解事件實體之間的關(guān)聯(lián),依據(jù)金融事件論元中的發(fā)展態(tài)勢要素,提前把握事件變化引發(fā)的金融風險傳導和擴散方向以及事件突發(fā)性帶來的風險影響,從而減少由市場經(jīng)驗主義帶來的不利影響,提高金融市場的應(yīng)變能力。

      5 結(jié)論

      本文重點針對面向金融領(lǐng)域的事理圖譜進行研究,在收集的金融事件數(shù)據(jù)集的基礎(chǔ)上,提出了適用于金融領(lǐng)域的事件表示方法,設(shè)計了一套適用于金融領(lǐng)域事件的序列標注方案,并標注了一套面向金融領(lǐng)域的因果事理圖譜語料庫;同時,在對事件抽取和事件關(guān)系研究方案上提出將依存句法分析方案和基于深度學習的多種神經(jīng)網(wǎng)絡(luò)模型方案進行了實踐對比,并針對模型性能進行了多種優(yōu)化策略,最終以BERT+Bi-LSTM+CRF模型在信息抽取的F1值為95.78%,具有顯著優(yōu)勢,更能勝任復雜多樣的金融領(lǐng)域事件,成為信息抽取的主要手段;最后,以Neo4j圖數(shù)據(jù)庫用作數(shù)據(jù)的持久化存儲,實現(xiàn)金融事理圖譜的結(jié)構(gòu)化存儲、查詢等功能,并通過金融因果事理圖譜可視化,分析金融風險網(wǎng)絡(luò)的傳導擴散機制,揭示金融風險并非僅由金融事件所引起,金融風險網(wǎng)絡(luò)中高敏感度的事件會產(chǎn)生“漣漪”反應(yīng),提升市場應(yīng)對金融風險的能力,為各類突發(fā)事件應(yīng)急預(yù)案的制定與響應(yīng)提供輔助數(shù)據(jù),輔助相關(guān)監(jiān)管部門研判事件發(fā)展的關(guān)鍵路徑,及時規(guī)避相關(guān)衍生事件帶來的金融風險,提高政府機構(gòu)的治理水平。

      猜你喜歡
      事理圖譜金融
      事理源于萬物,成于人類
      中學生報(2024年22期)2024-12-31 00:00:00
      闡釋現(xiàn)象 揭示事理——說明文寫作六步曲
      繪一張成長圖譜
      語 絲
      中外文摘(2020年13期)2020-11-12 13:05:19
      何方平:我與金融相伴25年
      金橋(2018年12期)2019-01-29 02:47:36
      君唯康的金融夢
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      P2P金融解讀
      金融扶貧實踐與探索
      社会| 三门县| 西乌珠穆沁旗| 正定县| 林甸县| 大庆市| 湘阴县| 高青县| 巴青县| 张家港市| 吕梁市| 大埔区| 芦溪县| 长乐市| 商洛市| 台前县| 濮阳县| 当阳市| 大石桥市| 彝良县| 徐州市| 武威市| 红原县| 温泉县| 邵阳县| 文成县| 锦屏县| 滦平县| 金华市| 西乌| 石家庄市| 钟山县| 门头沟区| 章丘市| 广汉市| 都兰县| 焦作市| 桐乡市| 闽清县| 英山县| 芜湖市|