• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合金融領(lǐng)域情感詞典和注意力機(jī)制的細(xì)粒度情感分析

      2022-09-28 10:24:54祝清麟徐睿峰劉宇瀚毛瑞彬
      中文信息學(xué)報(bào) 2022年8期
      關(guān)鍵詞:細(xì)粒度詞典注意力

      祝清麟,梁 斌,徐睿峰,劉宇瀚,陳 奕,毛瑞彬

      (1. 哈爾濱工業(yè)大學(xué)(深圳) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,廣東 深圳 518055;2. 深圳證券信息有限公司,廣東 深圳 518028)

      0 引言

      隨著互聯(lián)網(wǎng)和金融行業(yè)的快速發(fā)展,在金融領(lǐng)域不斷出現(xiàn)大量專業(yè)的股評(píng)報(bào)告、研究報(bào)告等,以及個(gè)體投資者的個(gè)人看法和分析。無(wú)論是新聞報(bào)道還是針對(duì)相關(guān)主題與公司的評(píng)論信息,往往都包含有對(duì)相關(guān)事件與公司的評(píng)價(jià)與態(tài)度,具有豐富的投資和監(jiān)管參考價(jià)值。對(duì)這些評(píng)價(jià)信息的全面把握,有助于投資者更好地了解市場(chǎng),輔助投資決策。同時(shí),對(duì)于金融市場(chǎng)監(jiān)管者,有助于及早從評(píng)價(jià)中發(fā)現(xiàn)潛藏的問題,對(duì)于掌握市場(chǎng)動(dòng)態(tài)、消除市場(chǎng)風(fēng)險(xiǎn)也有著重要意義。為此,金融文本的情感分析研究正在成為當(dāng)前研究和應(yīng)用熱點(diǎn)。

      金融領(lǐng)域的文本實(shí)體級(jí)細(xì)粒度情感分析研究尚處于初級(jí)階段,也是細(xì)粒度情感分析重要的子任務(wù)[1],目前面臨著諸多挑戰(zhàn)。首先,缺乏高質(zhì)量、大規(guī)模的金融領(lǐng)域文本情感標(biāo)注語(yǔ)料,導(dǎo)致文本處理底層技術(shù)缺乏數(shù)據(jù)支撐?,F(xiàn)有的通用文本情感分析模型缺乏對(duì)金融領(lǐng)域文本特點(diǎn)的分析和利用,沒有考慮金融領(lǐng)域詞性特征,缺乏對(duì)金融領(lǐng)域情感先驗(yàn)知識(shí)的利用,因此在金融文本上表現(xiàn)欠佳。

      針對(duì)現(xiàn)有金融領(lǐng)域語(yǔ)料庫(kù)匱乏的問題,本文構(gòu)建了金融領(lǐng)域細(xì)粒度情感分析語(yǔ)料庫(kù)。首先對(duì)各大金融新聞網(wǎng)站進(jìn)行數(shù)據(jù)爬取與清洗,之后按照字級(jí)別對(duì)所爬取的數(shù)據(jù)進(jìn)行實(shí)體標(biāo)注和實(shí)體情感標(biāo)注??偣矘?biāo)注了5 206篇新聞稿,整理出3 325個(gè)實(shí)體和對(duì)應(yīng)的9 240條情感語(yǔ)句,并構(gòu)建了包含5 047個(gè)詞的金融領(lǐng)域情感詞典。

      針對(duì)現(xiàn)有方法對(duì)金融領(lǐng)域知識(shí)利用不足的問題,本文設(shè)計(jì)并實(shí)現(xiàn)了結(jié)合金融領(lǐng)域情感詞典和注意力機(jī)制的細(xì)粒度情感分析模型(Attention-based Recurrent Network Combined with Financial Lexicon, FinLexNet),該模型使用一個(gè)LSTM提取詞級(jí)別的文本信息,并基于金融情感詞典將文本中的詞分成“積極”“消極”“中立”“金融實(shí)體”“其他”五個(gè)類別對(duì)文章進(jìn)行表示,使用另一個(gè)LSTM提取金融領(lǐng)域詞性特征,這樣不僅能讓模型關(guān)注到不同類型詞語(yǔ)的特殊性,從而更好地理解上下文的語(yǔ)義信息,還能作為對(duì)細(xì)粒度信息的補(bǔ)充,獲取更宏觀的文本信息。模型還使用了金融領(lǐng)域的情感詞典指導(dǎo)注意力機(jī)制,使得注意力機(jī)制更加關(guān)注金融領(lǐng)域情感詞,在構(gòu)建的數(shù)據(jù)集上達(dá)到了同類模型的最佳效果。

      本文構(gòu)建了一個(gè)百萬(wàn)級(jí)的金融領(lǐng)域?qū)嶓w級(jí)細(xì)粒度情感分析語(yǔ)料庫(kù),并在此基礎(chǔ)上提出了一種結(jié)合金融情感詞典和注意力機(jī)制的情感分析模型,不僅對(duì)深入研究金融領(lǐng)域文本的情感分析具有很好的科學(xué)意義,同時(shí)可以服務(wù)于面向金融領(lǐng)域的輿情分析、市場(chǎng)判斷和監(jiān)管協(xié)調(diào),具有較好的應(yīng)用價(jià)值。

      1 相關(guān)研究

      細(xì)粒度情感分析是情感分析的一個(gè)熱門且具有重要應(yīng)用價(jià)值的領(lǐng)域[2],側(cè)重于對(duì)細(xì)粒度情感信息的挖掘。對(duì)于金融領(lǐng)域,實(shí)體級(jí)的細(xì)粒度情感分析用于分析出金融文本中出現(xiàn)的金融實(shí)體的情感,常用的分析方法有基于情感詞典、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三種。

      情感詞典是識(shí)別文本情感的有效工具,有不少學(xué)者研究構(gòu)建情感詞典的方法[3-[4],形成了如WordNet[5]等具有代表性的英文情感詞典和董振東等人編制的中文知網(wǎng)情感詞典HowNet。基于情感詞典的細(xì)粒度情感分析方法主要是利用句式詞庫(kù)和情感詞典去分析文本語(yǔ)句的特殊結(jié)構(gòu)及情感傾向詞,如Wu等[6]根據(jù)情感詞情感強(qiáng)度的不同而賦予不同的情感權(quán)重,然后進(jìn)行加權(quán)求和。Lipenkova等[7]提出了建立的詞典和通用語(yǔ)言規(guī)則相結(jié)合的方式,其在中文方面級(jí)情感分析任務(wù)上取得了較好的效果。

      基于機(jī)器學(xué)習(xí)進(jìn)行細(xì)粒度情感分析也是主流的方法之一,在早期的研究中,細(xì)粒度情感分析被當(dāng)作一般情感分類任務(wù),使用情感詞典、文本語(yǔ)義特征等提取文本特征來建立細(xì)粒度情感分類模型。Kiritchenko等[8]引入了產(chǎn)品的總體評(píng)分和情感詞庫(kù)兩個(gè)外部知識(shí),并和SVM分類器相結(jié)合,在SemEval 2014年競(jìng)賽中取得了最佳性能。Ramesh等[9]提出使用馬爾科夫隨機(jī)場(chǎng)解決在線課程MOOC中的方面級(jí)情感分類問題。郝志峰等[10]提出一種把情感對(duì)象識(shí)別看作一個(gè)序列標(biāo)記問題的方法,通過在傳統(tǒng)的CRF序列標(biāo)記模型上增加情感對(duì)象的全局節(jié)點(diǎn),有效地結(jié)合上下文信息、句法依賴以及情感詞典,從而可以識(shí)別出微博中的情感對(duì)象。然而傳統(tǒng)的機(jī)器學(xué)習(xí)方法通常需要依賴大量的人工篩選特征,這需要耗費(fèi)大量的時(shí)間和精力。

      隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員設(shè)計(jì)了一系列的神經(jīng)網(wǎng)絡(luò)自動(dòng)生成對(duì)象和內(nèi)容的低維度表示方法,并且在細(xì)粒度情感分類任務(wù)中得到了較好結(jié)果。Tang等[11]提出一種基于目標(biāo)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò) (TD-LSTM),依據(jù)目標(biāo)詞的位置將輸入的文本切分成左右兩個(gè)部分并分別送入LSTM,較傳統(tǒng)LSTM模型性能有所提升。注意力機(jī)制(Attention Mechanism)源于對(duì)人類視覺的研究,近年來,隨著注意力機(jī)制的深入研究,很多學(xué)者基于注意力機(jī)制提出了一系列的方法進(jìn)行細(xì)粒度情感分析。趙冬梅等[12]提出一種利用協(xié)同過濾算法計(jì)算得到用戶的情感分布矩陣,再使用注意力機(jī)制提取文本信息,從而進(jìn)行實(shí)現(xiàn)情感分類。曾峰等[13]提出了一種基于注意力機(jī)制的LSTM神經(jīng)網(wǎng)絡(luò)模型,從詞級(jí)別和句子級(jí)別兩個(gè)層面進(jìn)行語(yǔ)義提取,從而獲取不同詞語(yǔ)和句子的重要性。吳小華等[14]使用字向量對(duì)文本進(jìn)行字級(jí)別的表示,并使用雙向的LSTM網(wǎng)絡(luò)和注意力機(jī)制提取上下文之間的關(guān)系。

      金融領(lǐng)域細(xì)粒度情感分析研究較少,Cortis等[15]討論了SemEval-2017會(huì)議“金融微博和新聞的情感分析”任務(wù)三十余位參賽者的方法和工具,其中最多人使用的是基于傳統(tǒng)機(jī)器學(xué)習(xí)模型SVM和SVR的方法。Wang等[16]指出金融領(lǐng)域數(shù)據(jù)標(biāo)注需要廣泛的領(lǐng)域?qū)I(yè)知識(shí),進(jìn)行專業(yè)標(biāo)注會(huì)很昂貴,所以構(gòu)建的數(shù)據(jù)較少。Maia等[17]發(fā)布了一個(gè)非常小的數(shù)據(jù)集(FiQA),包含了金融領(lǐng)域的文本實(shí)例和文本中提到的實(shí)體,并給每個(gè)實(shí)體的情感打分。Yang等[18]基于ELMo模型提出了ULMFiT方法分析FiQA數(shù)據(jù)集上的金融實(shí)體情感。Salunkhel等[19]提出了一種用于方面分類的遷移學(xué)習(xí)方法和一種基于金融數(shù)據(jù)的情感預(yù)測(cè)的回歸方法,遷移學(xué)習(xí)方法利用了BERT,并使用了不同的回歸方法,其中線性支持向量回歸法的效果最好。

      細(xì)粒度情感分析的方法較多,但是在金融領(lǐng)域?qū)嶓w級(jí)細(xì)粒度的情感分析研究較少,尤其是在缺乏數(shù)據(jù)集的情況下使得金融領(lǐng)域的研究更難以開展。我們針對(duì)語(yǔ)料庫(kù)匱乏的問題構(gòu)建了金融領(lǐng)域細(xì)粒度情感分析語(yǔ)料庫(kù)。針對(duì)現(xiàn)有模型缺乏對(duì)金融領(lǐng)域知識(shí)利用的問題,提出了構(gòu)建結(jié)合金融領(lǐng)域情感詞典的細(xì)粒度情感分析方法,用金融領(lǐng)域情感詞指導(dǎo)注意力機(jī)制,并結(jié)合金融領(lǐng)域詞性特征,取得了同類模型的最佳性能。

      2 金融領(lǐng)域?qū)嶓w級(jí)細(xì)粒度情感分析語(yǔ)料庫(kù)構(gòu)建

      針對(duì)金融領(lǐng)域情感分析語(yǔ)料庫(kù)匱乏的問題,我們?cè)O(shè)計(jì)并構(gòu)建了金融領(lǐng)域?qū)嶓w級(jí)細(xì)粒度情感分析語(yǔ)料庫(kù)??紤]到新聞文本信息豐富、更新速度快且較為正規(guī),我們爬取了各大金融數(shù)據(jù)網(wǎng)站(21世紀(jì)經(jīng)濟(jì)報(bào)道(1)http://news.21so.com/chanye/、財(cái)新網(wǎng)(2)http://companies.caixin.com/news/、每經(jīng)網(wǎng)-公司版(3)http://www.nbd.com.cn/columns/346、生意社(4)http://news.toocle.com/list/c-3511-1.html、人民網(wǎng)(5)http://industry.people.com.cn/GB/413887/index.html)作為數(shù)據(jù)來源,采用Scrapy框架共計(jì)爬取22 681篇新聞文本,并對(duì)文章進(jìn)行了刪除特殊符號(hào)處理,利用正則匹配剔除一些無(wú)關(guān)信息等預(yù)處理。

      首先我們進(jìn)行了金融實(shí)體的標(biāo)注。對(duì)于金融實(shí)體,我們標(biāo)識(shí)出文本中的公司名、人名和品牌名稱。實(shí)體名基于長(zhǎng)匹配的原則進(jìn)行標(biāo)注,并通過天眼查輔助確定公司名、品牌名稱等。

      例如: “樂融致新和樂視網(wǎng)業(yè)務(wù)發(fā)展的頹勢(shì)仍沒有出現(xiàn)明顯的好轉(zhuǎn)?!?/p>

      在這個(gè)文本中“樂融致新”和“樂視網(wǎng)”為我們標(biāo)注的實(shí)體。

      對(duì)于金融實(shí)體情感標(biāo)注,我們將金融實(shí)體的情感極性標(biāo)注為三大類: 無(wú)情感、消極、積極,每一類指定的標(biāo)注準(zhǔn)則如下:

      (1) 積極情感

      對(duì)于積極情感的標(biāo)注,如果文本中出現(xiàn)了有利于公司經(jīng)營(yíng)的事實(shí),以及一些人為的積極評(píng)價(jià),則標(biāo)注為積極。

      例如: “伴隨著近年來白酒行業(yè)復(fù)蘇,水井坊業(yè)績(jī)也水漲船高?!?/p>

      (2) 中立情感

      對(duì)于中立情感的標(biāo)注,如果文本中出現(xiàn)的信息為與公司經(jīng)營(yíng)相關(guān),但無(wú)法判斷是有利還是不利的事情標(biāo)注為中立,包括以下情況:

      ① 一些與公司經(jīng)營(yíng)相關(guān)的事實(shí)性的陳述,包括(但不限于): 公司人事變更、子公司或者下屬經(jīng)營(yíng)企業(yè)的設(shè)立與關(guān)閉、公司財(cái)務(wù)或投資操作等。

      ② 既有有利事實(shí)也有不利事實(shí)(句中不存在盡管、然而、雖然、但是等表達(dá)情感偏向的轉(zhuǎn)折副詞)。

      ③ 一些與公司經(jīng)營(yíng)相關(guān)的中性人為表述與評(píng)價(jià)。

      例如: “電商是未來發(fā)展的方向,所有的企業(yè)都在發(fā)力,華為也不例外,但目前來看,這一動(dòng)作的成效需要檢驗(yàn)。”

      (3) 消極情感

      對(duì)于消極情感的標(biāo)注,若文本的信息不利于公司經(jīng)營(yíng),標(biāo)注為消極。包括一些不利于公司經(jīng)營(yíng)的事實(shí),以及一些人為的消極評(píng)價(jià)。

      例如: “由于游戲收入下滑,熱門游戲進(jìn)入周期末尾,近期市場(chǎng)對(duì)騰訊的評(píng)估本來就不太樂觀?!?/p>

      為了構(gòu)建金融領(lǐng)域細(xì)粒度情感分析數(shù)據(jù)集,從爬取的22 681篇新聞文章中選取了5 206篇標(biāo)注。首先由4名標(biāo)注人員進(jìn)行預(yù)標(biāo)注2 000條,在標(biāo)注過程中分別對(duì)各自的標(biāo)注結(jié)果進(jìn)行比對(duì),收集存差異與有歧義的地方,對(duì)各類實(shí)體以及針對(duì)模糊和有沖突的語(yǔ)境制定相應(yīng)的標(biāo)注準(zhǔn)則。在標(biāo)注過程中,每一段新聞文本由至少兩名標(biāo)注者獨(dú)立標(biāo)注,即標(biāo)注過程中標(biāo)注者之間彼此沒有交流,完全依賴先前制定好的準(zhǔn)則標(biāo)注。獨(dú)立標(biāo)注完成后,對(duì)于有差異或有錯(cuò)誤的標(biāo)注結(jié)果,一名額外的標(biāo)注者會(huì)參與討論,直到所有的標(biāo)注者意見統(tǒng)一后,對(duì)已標(biāo)注數(shù)據(jù)進(jìn)行人為修改,最終完成標(biāo)注。

      最終整理出3 325個(gè)金融實(shí)體,每個(gè)金融實(shí)體對(duì)應(yīng)一個(gè)或多個(gè)語(yǔ)句,共計(jì)有9 240條對(duì)應(yīng)的情感語(yǔ)句,共108.7萬(wàn)字。在9 240個(gè)情感語(yǔ)句中,金融實(shí)體情感是積極的有4 189條,中性的有3 202條,消極的有1 627條。具體的統(tǒng)計(jì)結(jié)果如表1所示。

      表1 金融實(shí)體情感數(shù)據(jù)統(tǒng)計(jì)

      通過分析金融文本數(shù)據(jù),根據(jù)經(jīng)驗(yàn)判斷出了哪些詞匯會(huì)影響對(duì)實(shí)體情感極性的判斷,從而構(gòu)建了一個(gè)金融領(lǐng)域情感詞典,其中包含了2 079個(gè)積極詞、1 070個(gè)中立詞和1 898個(gè)消極詞。金融領(lǐng)域情感詞典的具體統(tǒng)計(jì)信息如表2所示。

      表2 金融領(lǐng)域情感詞統(tǒng)計(jì)

      為了計(jì)算待標(biāo)注的語(yǔ)料庫(kù)與標(biāo)注者之間的一致性,計(jì)算了Cohen’s Kapp[20]值與Fleiss’ Kappa[21]值。 Fleiss’ Kappa值為0.668 6,表明實(shí)驗(yàn)標(biāo)注結(jié)果數(shù)據(jù)具有較好一致性。Cohen’s Kapp值達(dá)到0.721 0,說明標(biāo)注者可以在給定文本的情況下可靠地識(shí)別目標(biāo)實(shí)體的情感。

      3 結(jié)合金融領(lǐng)域情感詞典和注意力的細(xì)粒度情感分析模型

      本文提出的一種結(jié)合金融領(lǐng)域情感詞典和注意力的情感分析模型框架如圖1所示。為提取細(xì)粒度的語(yǔ)義信息,使用LSTM提取詞級(jí)別的語(yǔ)義信息(見模型右半部分);為了讓模型關(guān)注到不同類型詞語(yǔ)的特殊性,并獲取更宏觀的文本信息作為對(duì)詞級(jí)別信息的補(bǔ)充,使用另一個(gè)LSTM提取詞類級(jí)別的語(yǔ)義信息(見模型左半部分)。其中詞類級(jí)別的表示是指將文章詞分成5個(gè)類別: Pos,Neg,Neu,Entity,Other,即“積極”“消極”“中立”“金融實(shí)體”“其他”五個(gè)類別。然后使用Word2Vec模型對(duì)文本進(jìn)行訓(xùn)練,從而獲取每一類詞語(yǔ)詞向量的平均值來表示該類詞向量。為了關(guān)注到與預(yù)測(cè)情感極性相關(guān)度高的詞語(yǔ),使用金融實(shí)體與金融文本進(jìn)行詞級(jí)別的注意力。為了讓模型更加關(guān)注金融領(lǐng)域情感詞,模型還使用了金融領(lǐng)域情感詞典去指導(dǎo)注意力機(jī)制,從而使模型更加關(guān)注金融情感詞所在的位置,提升情感分析的準(zhǔn)確度。

      圖1 結(jié)合金融領(lǐng)域情感詞典和注意力的情感分析模型框架

      3.1 基于LSTM的詞級(jí)別編碼器

      為了提取文本的語(yǔ)義,使得其特征表示更加符合當(dāng)前語(yǔ)境信息,我們采用了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)提取詞級(jí)別的語(yǔ)義特征,將整條金融文本經(jīng)過分詞和詞嵌入之后輸入LSTM,如式(1)所示。

      (1)

      3.2 基于LSTM的詞類級(jí)別編碼器

      上一節(jié)中提取的文本是詞級(jí)別較為細(xì)粒度的信息,但不能注意到不同類別的詞匯。在本節(jié)中使用詞類級(jí)別的表示方法,本文基于領(lǐng)域情感詞典和已經(jīng)標(biāo)注好的金融實(shí)體,將文章詞分成5個(gè)類別: Pos,Neg,Neu,Entity,Other,即“積極”“消極”“中立”“金融實(shí)體”“其他”五個(gè)類別。其中“積極”“消極”“中立”來自標(biāo)注的情感詞典,“金融實(shí)體”為標(biāo)注的金融實(shí)體,“其他”為其他詞匯或是未登錄詞。然后使用Word2Vec模型對(duì)文本進(jìn)行訓(xùn)練,從而獲取每一類詞語(yǔ)詞向量的平均值來表示該類詞向量。通過詞類級(jí)別的表示不僅可以給模型提供不同詞類級(jí)別的信息,讓模型關(guān)注到不同類型詞語(yǔ)的特殊性,從而更好地理解上下文的語(yǔ)義信息,而且還能獲取更宏觀的文本信息,作為對(duì)詞級(jí)別較為細(xì)粒度的信息的補(bǔ)充。

      為了具體說明如何進(jìn)行詞類級(jí)別的表示,在此舉一個(gè)簡(jiǎn)單的例子: 經(jīng)過分詞后“騰訊 公司 股票 近期 下跌”這句話中有5個(gè)詞語(yǔ),其中“騰訊”和“公司”兩個(gè)詞語(yǔ)為金融實(shí)體, “股票”和“近期”屬于其他詞匯,“下跌”為消極類金融領(lǐng)域情感詞。則這句話的詞類級(jí)別表示為[Entity,Entity,Other,Other,Neg],每一類對(duì)應(yīng)著相同的詞向量。

      LSTM的隱狀態(tài)輸出序列[h1,h2,…,ht]可以作為當(dāng)前文本的特征表示,其中的ht對(duì)應(yīng)于文本序列中第t個(gè)詞的特征。

      為了提取詞類級(jí)別的語(yǔ)義特征,本文使用另一個(gè)LSTM網(wǎng)絡(luò)作為文本的特征提取器,將之前介紹的經(jīng)過詞嵌入表示的詞類級(jí)別文本輸入LSTM′,如式(2)所示。

      (2)

      3.3 詞級(jí)別的注意力機(jī)制

      通過兩個(gè)LSTM建模得到的文本表示,會(huì)給每一個(gè)詞分配相同的權(quán)重,因而無(wú)法準(zhǔn)確把握語(yǔ)義的重點(diǎn)。注意力機(jī)制的思想是不同的情境下不同文本的重要程度不同,在計(jì)算過程中將文本的語(yǔ)義根據(jù)分配的權(quán)重進(jìn)行加權(quán)求和,獲得與任務(wù)更相關(guān)的文本的表示。為了進(jìn)一步提升情感分析的準(zhǔn)確度,借助注意力機(jī)制,建模實(shí)體情感與各個(gè)詞語(yǔ)之間的關(guān)系,為子句的詞序列語(yǔ)義特征分配不同的權(quán)重,使得更重要的詞語(yǔ)得到更多的關(guān)注。式(3)與式(4)為詞語(yǔ)的注意力權(quán)重計(jì)算方式:

      LSTM提取的帶有注意力加權(quán)的子句文本特征表示如式(5)所示。

      (5)

      相似地,將詞類級(jí)別的語(yǔ)義信息送入LSTM′后,同樣使用注意力機(jī)制確定與實(shí)體相關(guān)的上下文語(yǔ)義信息,得到注意力得分為α′it,特征向量為o′i。

      3.4 基于金融領(lǐng)域情感詞典的注意力指導(dǎo)

      注意力機(jī)制能夠更好地關(guān)注到重要的詞匯從而提高模型識(shí)別的準(zhǔn)確率,但不一定能夠準(zhǔn)確地識(shí)別對(duì)結(jié)果有較大影響的詞語(yǔ)是哪些金融領(lǐng)域情感詞。為了解決這個(gè)問題,我們使用構(gòu)建的金融領(lǐng)域情感詞典去指導(dǎo)注意力機(jī)制,使得金融情感詞的獲得更多關(guān)注。

      為了使用構(gòu)建的金融領(lǐng)域情感詞典,對(duì)于一個(gè)輸入的分詞后的句子,構(gòu)建一個(gè)與分詞后的句子長(zhǎng)度相同的情感詞向量,稱為VecLex,并初始化為0。遍歷輸入金融文本中的詞語(yǔ),若其出現(xiàn)在金融領(lǐng)域情感詞典中,則在情感詞向量中將對(duì)應(yīng)位置設(shè)為1。

      為了更方便地理解金融領(lǐng)域情感詞向量的概念,舉一個(gè)簡(jiǎn)單的例子如圖2所示。假設(shè)輸入的金融文本為“騰訊 公司 股票 近期 下跌”,首先初始化一個(gè)情感詞向量[0,0,0,0,0],遍歷輸入的句子發(fā)現(xiàn)“下跌”這個(gè)詞出現(xiàn)在金融領(lǐng)域情感詞典中,屬于消極詞,便把“下跌”這個(gè)詞在情感詞向量對(duì)應(yīng)的位置設(shè)置為1,則該句話的情感詞向量為[0,0,0,0,1]。

      圖2 金融領(lǐng)域情感詞向量示意圖

      為了使得注意力機(jī)制更加關(guān)注金融領(lǐng)域情感詞,我們修改了損失函數(shù),在交叉熵?fù)p失后又加入了一項(xiàng)λ(α-VecLex)2。其中λ是確定情感詞典損失重要性的超參數(shù),α為注意力機(jī)制的得分,VecLex為情感詞典向量。從而使得注意力機(jī)制得分α去擬合金融情感詞向量,從而使模型更加關(guān)注輸入金融文本金融情感詞。

      之后將詞類級(jí)別的注意力表示和詞級(jí)別的注意力表示相結(jié)合,將兩個(gè)帶有注意力加權(quán)句子文本特征表示向量拼接起來,最后經(jīng)由softmax層得到模型的概率輸出,如式(6)所示。

      pi=softmax(oi⊕o′i)

      (6)

      其中,“⊕”為向量拼接操作,oi經(jīng)過LSTM的注意力機(jī)制的詞級(jí)別表示,o′i是經(jīng)過LSTM′的注意力機(jī)制的詞類級(jí)別表示。

      模型的最終的損失函數(shù)如式(7)所示。

      (7)

      其中,D為樣本集合,yi為子句真實(shí)標(biāo)簽,pi為模型的預(yù)測(cè)結(jié)果,λ是確定情感詞典損失重要性的超參數(shù),αnorm為L(zhǎng)STM詞級(jí)別注意力得分α和經(jīng)過LSTM′的詞類級(jí)別注意力得分α′的平均值。

      4 實(shí)驗(yàn)

      4.1 數(shù)據(jù)集

      實(shí)驗(yàn)數(shù)據(jù)集采用構(gòu)建的金融領(lǐng)域?qū)嶓w級(jí)細(xì)粒度情感分析語(yǔ)料庫(kù),將數(shù)據(jù)集分成測(cè)試集、驗(yàn)證集與訓(xùn)練集,具體的劃分如表3所示。

      表3 金融領(lǐng)域情感文本訓(xùn)練集測(cè)試集數(shù)據(jù)統(tǒng)計(jì)

      4.2 評(píng)價(jià)指標(biāo)

      本文使用準(zhǔn)確率(Accuracy,A)和Macro-F1值作為評(píng)價(jià)標(biāo)準(zhǔn)。

      4.3 實(shí)驗(yàn)設(shè)計(jì)

      4.3.1 詞向量

      實(shí)驗(yàn)的詞向量采用騰訊AI Lab公開的中文詞向量數(shù)據(jù)集[22],該數(shù)據(jù)集涵蓋面廣,囊括了800余萬(wàn)個(gè)中文詞語(yǔ),數(shù)據(jù)集的維度為200維。該詞向量的訓(xùn)練使用了騰訊提出的Directional Skip-Gram (DSG)算法,相比于廣泛采用的詞向量訓(xùn)練算法Skip-Gram (SG),DSG算法額外考慮了詞對(duì)的位置信息,從而能更準(zhǔn)確地表示詞匯的語(yǔ)義。具有詞語(yǔ)覆蓋率全、新鮮度高、詞向量準(zhǔn)確率高的特點(diǎn)。在訓(xùn)練的過程中詞向量不凍結(jié),參數(shù)隨訓(xùn)練一起更新。

      4.3.2 超參設(shè)置

      參數(shù)優(yōu)化采用 Adam[23]優(yōu)化算法, 學(xué)習(xí)率設(shè)置為 0.0001。對(duì)詞向量矩陣以及不同LSTM 層之間的連接采用Dropout[24],對(duì)LSTM 層內(nèi)部與隱狀態(tài)相關(guān)的權(quán)重矩陣采用 DropConnect[25]。Batch-size為128,Dropout為0.2,DropConnect為0.1,LSTM的隱藏層為200維,LSTM Attention的輸出為200維,LSTM′ Attention的輸出為50維,情感詞典損失重要性的超參數(shù)λ=0.035。

      4.3.3 對(duì)比模型介紹

      對(duì)比模型包括基礎(chǔ)的Bi-LSTM模型和近些年在方面級(jí)的情感分析(Aspect Based Sentiment Analysis)領(lǐng)域的深度學(xué)習(xí)模型進(jìn)行對(duì)比,參與對(duì)比的模型有以下幾種:

      ●Bi-LSTM: Bi-LSTM是Bi-directional Long Short-Term Memory的縮寫,是由前向LSTM與后向LSTM組合而成,使用Bi-LSTM模型提取文本的語(yǔ)義信息之后,直接送入softmax層進(jìn)行分類。

      ●TD-LSTM[11]: 基于目標(biāo)的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò),根據(jù)特定目標(biāo)單詞的所在位置,將訓(xùn)練語(yǔ)句拆分成左、右兩部分,通過LSTM獲取左、右部分兩個(gè)隱層的輸出,輸入分類器,獲取分類結(jié)果。

      ●IAN[26]: 該模型改進(jìn)了傳統(tǒng)的分類模型中將兩者分開獨(dú)立建模或者只針對(duì)內(nèi)容建模的方法,該模型先讓內(nèi)容和目標(biāo)分別通過不同的LSTM后,利用注意力機(jī)制實(shí)現(xiàn)兩者的信息交互,從而提升模型的準(zhǔn)確度。

      ●AOA[27]: 該模型建模了目標(biāo)和文本的交互關(guān)系,分別將文本和目標(biāo)經(jīng)過雙向的LSTM,并使用隱藏層的輸出接著計(jì)算兩者的交互矩陣,將該矩陣得到的信息送入softmax實(shí)現(xiàn)對(duì)情感的分類。

      ●MemNet[28]: 該模型利用了注意力機(jī)制的QA系統(tǒng)中的深度記憶網(wǎng)絡(luò),將方面詞的上下文信息作為存儲(chǔ)器中存儲(chǔ)的內(nèi)容,實(shí)現(xiàn)了一個(gè)針對(duì)方面級(jí)的情感分析模型。

      ●ATAE-LSTM[29]: 該模型利用了注意力機(jī)制來獲取上文下信息與目標(biāo)詞信息之間的關(guān)系,結(jié)合了LSTM神經(jīng)網(wǎng)絡(luò)與注意力機(jī)制提取句子語(yǔ)義,從而提升情感分類的準(zhǔn)確度。

      4.4 實(shí)驗(yàn)結(jié)果與分析

      4.4.1 總體性能

      所有實(shí)驗(yàn)均采用 NVIDIA GeForce GTX 2080Ti 顯卡進(jìn)行計(jì)算加速,并在單張顯卡下完成。在前文提到的數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),總體性能的實(shí)驗(yàn)結(jié)果如表4所示。

      表4 總體實(shí)驗(yàn)性能結(jié)果圖

      從實(shí)驗(yàn)結(jié)果可以看出,我們提出的模型FinLexNet取得了0.742 5的準(zhǔn)確度和0.714 7的F1值,均達(dá)到了對(duì)比模型的最佳效果?;A(chǔ)模型Bi-LSTM的效果最不理性,是因?yàn)橹荒塬@取總體的文本信息,并不能對(duì)實(shí)體進(jìn)行建模。TD-LSTM提取實(shí)體前后語(yǔ)句語(yǔ)義的綜合,性能有所提升。IAN和AOA實(shí)現(xiàn)了實(shí)體與模型之間的交互,更好地理解了實(shí)體在文中的語(yǔ)義信息,同Bi-LSTM相比也有不小性能提升。ATAE-LSTM使用注意力機(jī)制對(duì)實(shí)體和文本進(jìn)行建模,但是我們認(rèn)為注意力機(jī)制沒有準(zhǔn)確把握關(guān)鍵詞導(dǎo)致性能沒有明顯提升。我們提出的FinLexNet模型性能較好的原因是結(jié)合了金融領(lǐng)域詞性信息并用金融情感詞指導(dǎo)注意力機(jī)制,模型獲得的信息更加豐富、并使得注意力更好地把握關(guān)鍵詞。

      4.4.2 消融實(shí)驗(yàn)

      為了考察模型框架中各組件的貢獻(xiàn)程度,本文設(shè)置了模型中不同結(jié)構(gòu)的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

      消融實(shí)驗(yàn)?zāi)P驮O(shè)置具體細(xì)節(jié)如下:

      ●LSTM-ATT: 使用LSTM去提取文本信息,并使用注意力機(jī)制。

      ●LSTM-ATT-Lex: 使用LSTM提取文本信息,并使用標(biāo)注的情感詞典指導(dǎo)注意力機(jī)制。

      ●Double-LSTM-ATT: 使用兩個(gè)LSTM分別提取文本和詞類表示的文本信息,并使用注意力機(jī)制后輸入到softmax層,不使用標(biāo)注的情感詞典。

      ●Double-LSTM-ATT-Lex: 使用兩個(gè)LSTM分別提取文本和詞類表示的文本信息,并與注意力機(jī)制結(jié)合,使用標(biāo)注的情感詞典指導(dǎo)注意力機(jī)制。

      表5 消融實(shí)驗(yàn)結(jié)果

      從實(shí)驗(yàn)結(jié)果來看,使用金融領(lǐng)域情感詞典指導(dǎo)注意力機(jī)制對(duì)實(shí)驗(yàn)性能具有較大的提升,說明金融領(lǐng)域情感詞典中的詞對(duì)判斷實(shí)體的情感極性有較大的幫助,而通過修改損失函數(shù)可以有效地指導(dǎo)注意力機(jī)制著重關(guān)注金融領(lǐng)域情感詞,從而達(dá)到提升實(shí)驗(yàn)效果的目的。

      4.4.3 注意力可視化

      為了探究模型注意力機(jī)制關(guān)注的內(nèi)容,對(duì)三個(gè)輸入樣例的注意力權(quán)重進(jìn)行了可視化,顏色表示一個(gè)詞在給定句子中的重要性,顏色越深越重要。如圖3所示。

      圖3 注意力機(jī)制可視化圖

      如在第一段話中,金融實(shí)體為“派思股份”,情感極性為積極。從注意力可視化看出“溢價(jià)率極高”的顏色最深,對(duì)照了“派思股份”積極的情感極性。

      在第二段話中,金融實(shí)體為“智慧松德”,在文本中該公司對(duì)業(yè)績(jī)下滑進(jìn)行解釋,情感極性為消極。從注意力可視化可以看出“業(yè)績(jī)下滑”最能體現(xiàn)出情感極性,顏色最深。而連詞“導(dǎo)致”往往用于不好的結(jié)果,也被模型準(zhǔn)確的識(shí)別出來。

      第三段話中,金融實(shí)體為“信達(dá)生物”,文本說了撤回上市申請(qǐng)對(duì)公司的業(yè)務(wù)沒有影響,所以情感極性為中立。在可視化結(jié)果中著重強(qiáng)調(diào)了“主動(dòng)撤回”和“沒有影響”,較為準(zhǔn)確地找到了判斷情感極性的關(guān)鍵詞。

      通過以上可視化的結(jié)果可以說明,注意力機(jī)制較好地注意到了關(guān)鍵詞和金融領(lǐng)域情感詞典,有助于模型判斷金融實(shí)體的情感極性。

      4.4.4 錯(cuò)誤分析

      為了更好地改進(jìn)模型,選取了一些錯(cuò)誤案例進(jìn)行分析。為了更方便地進(jìn)行分析,將金融文本中的實(shí)體進(jìn)行了加粗表示,消極的語(yǔ)句加上了下劃線,積極的語(yǔ)句用波浪線標(biāo)識(shí)。

      例如: “市場(chǎng)認(rèn)為,從財(cái)務(wù)數(shù)據(jù)來看,宣亞的收購(gòu)是劃算的。宣亞2016年的營(yíng)業(yè)收入為4.67億元,凈利潤(rùn)為5 871.01萬(wàn)元。8月15日,宣亞國(guó)際發(fā)布2017年中報(bào),報(bào)告期內(nèi),公司實(shí)現(xiàn)營(yíng)業(yè)收入2.10億元,同比下降6.74;凈利潤(rùn)為2 722.00萬(wàn)元,同比增長(zhǎng)4.22。而映客直播的同期營(yíng)收達(dá)到了43.47億元,歸母凈利潤(rùn)更是高達(dá)4.8億元,遠(yuǎn)遠(yuǎn)高于上市公司。

      這個(gè)例子中,“映客直播”的情感極性為積極,而模型判斷為消極。分析原因是模型可能沒有找準(zhǔn)映客直播對(duì)應(yīng)的語(yǔ)句,同“宣亞國(guó)際”的營(yíng)收下降產(chǎn)生了混淆。

      例如: “中信銀行向佳兆業(yè)伸出援手始于佳兆業(yè)陷入債務(wù)危機(jī)之時(shí)。彼時(shí)中信銀行深圳分行對(duì)危機(jī)中的佳兆業(yè)施以援手,提供大約300億元資金助其解困,100億元用于置換佳兆業(yè)位于上海、杭州等地的8個(gè)優(yōu)質(zhì)資產(chǎn)項(xiàng)目債務(wù);另有100億元將作為佳兆業(yè)的后續(xù)開發(fā)貸款。此后平安銀行也與佳兆業(yè)達(dá)成全方位的戰(zhàn)略合作,簽約金額為500億元,用于支持佳兆業(yè)的未來發(fā)展。”

      該例子中,“佳兆業(yè)”的情感極性為積極,而模型判斷為中立。分析原因是模型注意到了消極觀點(diǎn)“陷入債務(wù)危機(jī)”,同時(shí)也注意到中信銀行伸出援手,提供了300億資金紓困,“支持佳兆業(yè)的未來發(fā)展”。從而認(rèn)為是中立。而如果進(jìn)一步的推理可以知道,這是一個(gè)利好的消息,所以情感極性更為積極。這說明雖然模型學(xué)習(xí)到了很多情感詞,但是由于缺乏對(duì)這種褒貶都存在的情況的進(jìn)一步推理,導(dǎo)致分類錯(cuò)誤。

      5 總結(jié)與展望

      本文構(gòu)建了一個(gè)金融領(lǐng)域?qū)嶓w級(jí)細(xì)粒度情感分析語(yǔ)料庫(kù),并提出了一種結(jié)合金融領(lǐng)域情感詞典和注意力的細(xì)粒度情感分析模型。為了利用金融領(lǐng)域詞性信息并結(jié)合粗細(xì)粒度的文章信息,本文使用兩個(gè)LSTM網(wǎng)絡(luò)分別提取詞類級(jí)別和詞語(yǔ)級(jí)別的語(yǔ)義。為了讓模型有針對(duì)性地關(guān)注對(duì)情感結(jié)果影響較大的詞語(yǔ),本文使用金融領(lǐng)域情感詞典對(duì)注意力機(jī)制進(jìn)行修正。最后,在本文標(biāo)注的金融領(lǐng)域細(xì)粒度情感分析語(yǔ)料庫(kù)上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文提出的結(jié)合金融領(lǐng)域情感詞典和注意力模型能有效提升細(xì)粒度情感分析的準(zhǔn)確性。未來的工作可以針對(duì)文本中有正負(fù)兩面評(píng)價(jià)金融實(shí)體的情感進(jìn)行研究,并考慮如何充分利用文本中的金融數(shù)字信息。

      猜你喜歡
      細(xì)粒度詞典注意力
      融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
      讓注意力“飛”回來
      細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
      米沃什詞典
      文苑(2019年24期)2020-01-06 12:06:50
      基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
      評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
      詞典例證翻譯標(biāo)準(zhǔn)探索
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
      A Beautiful Way Of Looking At Things
      海伦市| 阿图什市| 金沙县| 武胜县| 岑巩县| 东丽区| 措勤县| 阿拉尔市| 巧家县| 商洛市| 南城县| 嘉义县| 柳林县| 嵊泗县| 霍城县| 湘乡市| 辽中县| 黎平县| 双桥区| 全南县| 铜陵市| 岐山县| 大丰市| 红安县| 枝江市| 昌平区| 大名县| 榆社县| 肇源县| 平安县| 长沙县| 大厂| 邹城市| 新巴尔虎右旗| 千阳县| 蚌埠市| 堆龙德庆县| 石泉县| 泸水县| 屏东县| 唐河县|