• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于金融領域的因果事件抽取算法研究

      2023-04-13 11:40:06席建文
      現(xiàn)代計算機 2023年3期
      關鍵詞:因果關系向量文本

      席建文

      (西南民族大學電子信息學院,成都 610041)

      0 引言

      因果事件抽取技術是信息抽取領域重要的研究方向。而金融領域中含有大量的因果事件,這些因果事件直接地反映了一個經濟事件對另一個經濟事件的影響程度,這對于領域決策和分析具有一定的指導作用,為知識問答、數(shù)據(jù)預測、因果推斷等應用提供數(shù)據(jù)來源。但由于中文語言的復雜性、描述方式的多變性,真實文本中因果情況復雜難解,有大量的多因多果的情況,增加了抽取因果事件的難度。

      為了解決金融領域因果抽取的難題,我們構建了金融領域中的因果數(shù)據(jù)集,對因果事件中的組成結構進行定義,方便從因果句中抽取因果事件。同時研究了如何更準確地抽取因果關系,并提出了基于BERT 改進pipeline 結構的因果事件抽取模型PUBERT。

      1 相關工作

      本文相關的工作主要分為因果事件數(shù)據(jù)集的構建和因果事件關系抽取研究。

      針對因果事件標注的數(shù)據(jù)集目前主要有兩種標注方式,一是以詞級別的標注,將事件標注為詞語的形式,包括SemEval-2007 task 04[1]、SemEval-2010 task 8[2]、CaTeRS[3]和中文因果標注數(shù)據(jù)集CEC[4]等,另一種是以長句或長文段的標注方式,如Fincausal[5],將因果事件標注為一個完整的句子或者段落。

      事件因果關系抽取上的研究最早可追溯到20 世紀90 年代,早期研究圍繞基于規(guī)則的方法展開。Grishman 等[6]提出了PROTEUS 工具,使用語法和語義信息自動抽取文本中的時序關系和因果關系。Kaplan等[7]將文本表示為命題的集合,每個命題包含一個謂詞(通常為動詞)和多個論元,通過定義命題模板的方式抽取命題中的因果關系。Garcia[8]提出了COATIS 工具,該工具使用包含23 個因果性動詞的語言學模板自動地從法語文本中抽取因果關系。

      2000 年后,因果關系抽取研究逐漸轉移到基于統(tǒng)計與機器學習的方法上來。Girju[9]提出了使用C4.5 決策樹判斷“NP1-Verb-NP2”元組是否構成因果關系。Chang等[10]采用無監(jiān)督的方法從文本中學習短語指示因果關系的概率與詞對出現(xiàn)在因果關系中的概率,作為額外特征訓練貝葉斯分類器,判斷因果關系是否成立。2007 年,SemEval-2007 task 04[1]中提出了常見語義關系分類任務,其中包含因果關系。Girju等[11]使用SVM 在該任務上取得了當時最佳的效果。Sil 等[12]提出了PREPOST 系統(tǒng),使用基于RBF 核的SVM 結合PMI 特征判斷因果關系是否成立。付劍鋒等[13]提出使用層疊條件隨機場的方法,在事件序列上同時標注多個因果關系對。Silva 等[14]將CNN 應用于因果關系抽取任務中。這一系列的研究將因果關系抽取建模為分類任務,輸入是已經抽取好的事件或實體及其上下文,判斷它們是否構成因果關系,而并未關注原因、結果事件或實體本身的抽取工作。

      隨著自然語言處理技術的發(fā)展,一些研究者開始嘗試使用序列標注模型解決因果關系抽取問題。Dasgupta 等[15]提出將因果關系抽取建模為序列標注任務,在文本中直接標注出原因提及與結果提及的短語。Li 等[16]提出使用帶有自注意力機制的雙向LSTM-CRF 模型,結合經過領域遷移的詞向量應用于因果抽取任務?;谛蛄袠俗⒛P偷囊蚬槿》椒ㄊ且环N端到端的方法,可直接由文本得到因果事件和實體對,為因果關系抽取研究指明了新的方向。

      本工作分為四個部分,第一部分介紹金融領域因果數(shù)據(jù)集的建設和數(shù)據(jù)統(tǒng)計情況;第二部分介紹實驗方案,由事件抽取和因果關系抽取構建的整體pipeline 結構;第三部分進行對比實驗設計,并對結果進行分析;第四部分為總結。

      2 數(shù)據(jù)集構建

      本節(jié)目的是構建金融領域的因果事件數(shù)據(jù)集,包括數(shù)據(jù)來源的選擇、數(shù)據(jù)處理過程、標注規(guī)范的定義,以及對數(shù)據(jù)集的樣本情況進行統(tǒng)計分析。

      2.1 數(shù)據(jù)來源

      為使得數(shù)據(jù)集盡量貼合真實情況,我們從多個信息來源中獲取數(shù)據(jù),包括騰訊新聞、搜狗新聞的金融新聞和CCKS(China Conference on Knowledge Graph and Semantic Computing)金融因果事件比賽數(shù)據(jù)。

      本工作針對上述來源的文本進行分句,收集因果觸發(fā)詞方式,構造AC 自動機進行快速匹配,得到一批候選因果事件句子的數(shù)據(jù)。

      例如:

      “報告要點產品價格變動分析:油價下跌,甘氨酸、醋酸續(xù)漲原油價格下跌,主要因為OPE增產疊加美油產量持續(xù)增加”

      “國際貿易保護愈演愈烈,貿易摩擦升級,多國減少進口貿易量,導致特鋼出口難度進一步加大”

      “近期棉花價格上漲,推動二道絨價格上漲,并進一步傳導至棉漿粕”

      2.2 標注定義與規(guī)范

      我們使用標注工具label-studio,在經過規(guī)則篩選的候選數(shù)據(jù)集合中進行因果標注。任務定義為:在給定句子中,標注出事件片段、觸發(fā)詞,并標注出兩兩成對的事件片段之間是否存在因果關系。關于標注做出以下定義:

      事件片段定義為:描述了事物發(fā)展、狀態(tài)、動作的片段,形式可為詞語、短句、短語等,如“洪災”“各國經濟增長”“供需失衡”等。

      因果關系定義為:在邏輯、語法結構的表達上體現(xiàn)并能推理出來事件A 使得事件B 發(fā)生的情況,如“洪災對CPI 的影響主要在食品項,會導致糧食、蔬菜等價格階段性上漲”,其中事件“洪災” 與事件“糧食、蔬菜等價格階段性上漲”有因果關系。

      觸發(fā)詞定義為:在語句描述中為指示或說明了兩事件之間具有因果關系的詞或短語,如“導致”“因為”“影響”“將會”“由于”“隨著”等。

      因果數(shù)據(jù)構建難以快速發(fā)展的原因在于真實情況中文本的復雜性,而標注中往往需要一定程度的語言邏輯判斷,同時難免會帶有個人的主觀性,所以我們需要對標注因果事件的標注邊界有一個統(tǒng)一的規(guī)范。給出以下三條標注規(guī)范:

      (1)觸發(fā)詞必存原則:一條有效的因果事件數(shù)據(jù)樣本中應該至少包含一個觸發(fā)詞;

      (2)語義完備性原則:為了使得事件具有完備的語義,片段必須體現(xiàn)實際的動詞、名詞,指示代詞忽略掉;

      (3)語言簡明性原則:對于事件,在不影響理解語義的情況下,選擇最短的片段作為邊界。

      2.3 數(shù)據(jù)集統(tǒng)計分析

      為了避免數(shù)據(jù)集的構建出現(xiàn)漏標錯標的情況,我們采用兩人交叉標注,最后通過人工校驗并整理,獲得金融領域共計4000 條帶有因果關系的數(shù)據(jù)集,對數(shù)據(jù)集做以下分析:

      2.3.1 觸發(fā)詞統(tǒng)計

      我們統(tǒng)計了所有觸發(fā)詞的頻次,列出具有代表性的頻次top10的觸發(fā)詞如下:

      導致(1681)、影響(765)、由于(605)、預計(567)、使(394)、隨著(230)、有望(255)、推動(244)、因為(118)、如果(66)。

      2.3.2 因果事件長度統(tǒng)計

      對數(shù)據(jù)集文本從樣本數(shù)量、文本平均長度、事件平均長度、觸發(fā)詞平均長度進行了統(tǒng)計,結果如表1所示。

      表1 因果事件長度分布 單位:字

      2.3.3 多因果事件分布統(tǒng)計

      我們對單因果和多因果數(shù)據(jù)分布情況進行統(tǒng)計說明,內容如表2所示。

      表2 因果事件分布 單位:條

      其中單因果表示一條數(shù)據(jù)中只含有一對因果事件,如“市場乙二醇供應量的增加導致中國乙二醇進口量出現(xiàn)下降”。

      多對因果表示一條數(shù)據(jù)中包含有多對獨立(非連鎖)因果事件,如“美國等西方國家指責伊朗進行核活動是為了發(fā)展核武器,但伊朗堅稱其核活動僅用于和平目的”。

      多因多果表示一條數(shù)據(jù)中含有一因多果或多因一果事件,如:“美國頁巖氣供給的增加和美國、中國原油進口量回落導致原油大幅下跌”(多因一果);“厄爾尼諾可能導致巴西、印度的蔗糖減產,東南亞的橡膠及棕櫚油減產,阿根廷大豆增產、印度、澳大利亞的小麥減產”(一因多果)。

      連鎖因果表示一條數(shù)據(jù)中含有關系為:事件既為關系對中的果事件,同時也為另一個因果關系對中的因事件,如“隨著冬季國內氣溫下降,建筑工地開工受到明顯影響,對建材需求進一步萎縮,鋼材冬儲行情遲遲未能啟動,國內鋼材貨價格出現(xiàn)下降,越來越多的鋼企提出下調焦炭價格要求”。

      3 模型

      本工作針對因果事件關系的抽取主要采用pipeline 的結構,固而分為兩部分進行構建:事件抽取和關系抽取。

      3.1 pipeline結構

      模型流程如圖1 所示:文本數(shù)據(jù)輸入-> 事件抽取模塊-> 關系抽取模塊->輸出抽取結果。針對給定的句子,先進行事件抽取,得到事件實體,然后將得到的事件實體信息輸入到關系抽取模型中,最終得到正確的因果關系對。

      圖1 整體抽取模型結構

      3.2 事件抽取模塊

      本研究的事件抽取模塊采取命名實體識別BIO 的方式,使用BERT+CRF 結構有效地抽取事件和觸發(fā)詞。如圖2所示。

      圖2 事件抽取模塊

      3.3 關系抽取模塊

      為了更好地抽取出因果關系,同時充分利用事件抽取結果的語義信息,通過在輸入層融合實體信息(包括類型信息和邊界信息)來實現(xiàn)關系的預測。

      首先在輸入層實體前后插入自定義字符“TM”“EM”,當文本經過BERT 模型后,我們得到每個字的上下文表示作為中間層的向量。然后,將事件A 的前后兩個字符“TM”“EM”向量相加求平均獲得新向量“E_A”,在事件B和觸發(fā)詞C 上進行相同的操作得到新向量“E_B”和“E_C”,再將三個向量拼接,輸入到最后的liner層+softmax層后,即可得到最終的關系分類。

      在訓練過程中,我們會對除了正確組合以外的所有實體構成負樣本進行訓練,來提高模型對正確關系組識別的準確度。

      如下圖3所示。

      圖3 關系抽取模塊結構

      充分利用觸發(fā)詞的作用,將兩個事件中心位置最近的觸發(fā)詞作為一對,但觸發(fā)詞表示向量與事件表示向量之間的位置拼接受到實際位置的影響,我們認為這里包含的語義信息將為進一步的關系識別提供更好的抽取效果。

      4 實驗與分析

      4.1 實驗環(huán)境

      操作系統(tǒng)為Ubuntu16.04,使用Python 編程語言和Pytorch 深度學習框架,其中GPU 型號為GeForce GTX 2080Ti。

      4.2 評估指標

      對模型進行評估時,采用以下指標:

      其中:TP為預測中正確的關系個數(shù);TP+FP為預測的關系個數(shù);TP+FN為數(shù)據(jù)中真實的關系個數(shù)。評估pipeline 的結果時,需要對整體結構進行評估,故而除了預測的關系類型要求正確,預測的實體類型也必須正確,才認為預測的關系為正確。P、R、F1 公式不變,但按照更嚴格的標準進行計算。

      4.3 實驗效果分析

      表3所示為實驗結果。通過將PUBERT 和另外兩種模型進行對比,可以看到PUBERT 有更好的表現(xiàn),在金融領域復雜因果事件環(huán)境中,基于就近規(guī)則的BERT+Rule 模型難以處理多因多果的情況,而引入觸發(fā)詞語義信息的PUBERT模型能夠更好地理解因果事件之間的關系,在抽取上有明顯提升。

      表3 實驗效果對比

      5 結語

      PUBERT 以pipeline 結構搭建了獨特的關系抽取模型,不僅充分利用了事件抽取所得到的信息,而且能夠很好地識別事件之間的因果關系,相比較于BERT+MTB 和BERT+Rule 方法,其在金融因果數(shù)據(jù)集上有更好的表現(xiàn)。當然,受限于pipeline 結構本身,其結果比較依賴于事件抽取的效果,容易造成誤差積累,這些不足是我們下一步研究需要解決的問題。

      猜你喜歡
      因果關系向量文本
      向量的分解
      玩忽職守型瀆職罪中嚴重不負責任與重大損害后果的因果關系
      南大法學(2021年6期)2021-04-19 12:28:02
      聚焦“向量與三角”創(chuàng)新題
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      做完形填空題,需考慮的邏輯關系
      幫助犯因果關系芻議
      向量垂直在解析幾何中的應用
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
      向量五種“變身” 玩轉圓錐曲線
      金乡县| 乳山市| 闸北区| 寻甸| 虹口区| 瓮安县| 京山县| 莱西市| 筠连县| 武穴市| 星子县| 永福县| 南乐县| 开化县| 桐乡市| 南陵县| 吉木乃县| 泗水县| 凤山市| 高台县| 乡城县| 陵川县| 武夷山市| 苗栗县| 玉山县| 大渡口区| 鲁甸县| 谢通门县| 南涧| 鄂伦春自治旗| 通江县| 卓尼县| 六安市| 青州市| 张掖市| 临安市| 阳泉市| 泰兴市| 华蓥市| 广平县| 客服|