王培培
[摘 要] 在財(cái)務(wù)信息領(lǐng)域,通過情感傾向分析可以發(fā)現(xiàn)財(cái)務(wù)人員的真實(shí)意圖,掌握真實(shí)的財(cái)務(wù)信息數(shù)據(jù),同時得出其褒貶性傾向,為企業(yè)管理者提供決策參考信息。尤其是有關(guān)具體的金融市場,信息輿情往往對整個市場的影響非常大,不僅會體現(xiàn)國家的大政方針,同時還能夠分析出行業(yè)的發(fā)展動向和市場前景的好壞,更為有益的是能夠了解到多元投資者的交易動向和具體感情傾向?;谖谋厩楦袘?yīng)用價值的分析判斷,提出要充分運(yùn)用目前網(wǎng)絡(luò)信息時代的豐富網(wǎng)絡(luò)信息資源,對其進(jìn)行各種數(shù)據(jù)挖掘和文本信息數(shù)值化處理,實(shí)現(xiàn)有用信息的提取與使用,充分運(yùn)用文本傾向性分析,得出情感傾向分析指標(biāo),確定具體的關(guān)鍵投資指標(biāo)文本積極和消極化的判斷,實(shí)現(xiàn)真正意義的財(cái)務(wù)信息利用與挖掘。
[關(guān)鍵詞] 情感分析;數(shù)據(jù)挖掘;財(cái)務(wù)數(shù)據(jù)
[中圖分類號] F253.7 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1009-6043(2017)08-0166-02
一、引言
科技的進(jìn)步和研究的深入進(jìn)一步推動了自然語言處理技術(shù)的前進(jìn)與發(fā)展,同時也推動了文本分類技術(shù)的完善。目前,文本情感分類技術(shù)已經(jīng)得到了大力的推廣與應(yīng)用。文本情感傾向性分析作為文本情感分類的重要構(gòu)成之一,嫣然已經(jīng)成為目前數(shù)據(jù)挖掘的研究重點(diǎn)之一。通過情感性分析不僅對計(jì)算機(jī)領(lǐng)域的發(fā)展有所裨益,同時對我國各行各業(yè)都能起到足夠好的推動作用。在財(cái)務(wù)信息領(lǐng)域,通過情感傾向分析可以發(fā)現(xiàn)財(cái)務(wù)人員的真實(shí)意圖,掌握真實(shí)的財(cái)務(wù)信息數(shù)據(jù),同時得出其褒貶性傾向,為企業(yè)管理者提供決策參考信息。尤其是有關(guān)具體的金融市場,信息輿情往往對整個市場的影響非常大,它不僅會體現(xiàn)國家的大政方針,同時還能夠分析出行業(yè)的發(fā)展動向和市場前景的好壞,更為有益的是能夠了解到多元投資者的交易動向和具體感情傾向。
二、文本情感分類在金融市場財(cái)務(wù)信息中的應(yīng)用
針對網(wǎng)絡(luò)、電視、廣播新聞中的文本進(jìn)行情感分類和分析能夠合理體現(xiàn)現(xiàn)實(shí)社會的實(shí)際情況,得到有關(guān)未來廣大投資者的情感傾向,幫助投資者制定合理的投資方案,例如運(yùn)用N元語言模型探索,得出有效的投資信息,最終運(yùn)用到具體投資決策中。尤其當(dāng)今社會是信息爆炸社會,文本情感分類能夠根據(jù)證券市場的實(shí)時行為,隨著時間節(jié)點(diǎn)的不同分析不同的情感變動。
文本分類技術(shù)和文本情感分析能夠滿足有關(guān)資本市場的大規(guī)模文本情感傾向分析,同時結(jié)果更為直觀具體,能夠帶給相關(guān)受益人更多的信息,降低了證券市場信息過于復(fù)雜的缺點(diǎn)。具體過程如下:首先,構(gòu)建數(shù)據(jù)庫后,利用情感傾向標(biāo)準(zhǔn)文本中形容詞、動詞或副詞短語,得出初步分析結(jié)果。其次,通過情感模式庫,評估第一步中涉及詞語的情感傾向,例如,與積極情緒相關(guān)的詞——陽線日益凸顯,就可以得出其結(jié)果為積極傾向的詞語;反之,與消極相關(guān)的詞——陰線出現(xiàn)幾率較大,就可以得出其結(jié)果為消極傾向的詞語。最后,將目標(biāo)文本中抽取出的短語、詞匯的情感傾向匯總分類到積極或消極中,最終得出市場走向。目前已有研究可以看出,文本情感分析技術(shù)運(yùn)用于資本市場和金融行業(yè)未來前景良好。
(一)市場預(yù)測
股票的價格波動、股票個股信息的變動以及個股所在市場行業(yè)的變動,這些信息不僅會影響到整個市場的情感波動,同時也直接導(dǎo)致投資者的感情波動,進(jìn)而影響到有關(guān)具體決策的真正實(shí)施。尤其是企業(yè)的個股股票價格除了受外部因素影響外,更多是與企業(yè)本身發(fā)展有關(guān),通過分析與企業(yè)自身有關(guān)的情感數(shù)據(jù),能夠重點(diǎn)關(guān)注企業(yè)預(yù)測股票市場的未來走勢。目前大部分研究都是結(jié)合數(shù)據(jù)文本分析技術(shù),對目標(biāo)企業(yè)進(jìn)行資料收集和信息分析,由此預(yù)測未來企業(yè)價格走勢,同時構(gòu)建具體模型,確定企業(yè)、市場對有關(guān)新聞的反應(yīng)模型,為后續(xù)工作打下基礎(chǔ)。
(二)信息服務(wù)
“互聯(lián)網(wǎng)+”時代的來臨,顯然已經(jīng)使得金融行業(yè)與網(wǎng)絡(luò)形成了密不可分的關(guān)系,尤其是網(wǎng)絡(luò)技術(shù)帶給金融行業(yè)的高新技術(shù),其中文本情感分析技術(shù)就是不可忽視的重要組成部分之一,它能夠?yàn)楦鞣教峁└痈咝Э旖莸男畔⒎?wù),實(shí)現(xiàn)了高效分析和決策。針對網(wǎng)絡(luò)新聞重復(fù)性較大的問題,文本數(shù)據(jù)分析技術(shù)能夠高效、快速的從語義相似度高的情況中迅速挖掘出有效信息,實(shí)現(xiàn)基于事件驅(qū)動的金融信息查詢系統(tǒng)。目前,現(xiàn)實(shí)生活中已經(jīng)有很多金融機(jī)構(gòu)構(gòu)建了自己的金融信息挖掘服務(wù)系統(tǒng),例如同花順的股票信息挖掘大數(shù)據(jù)系統(tǒng)、Google財(cái)經(jīng)搜索系統(tǒng)等,這些成型的系統(tǒng)都能夠提供給大家所需要的數(shù)據(jù)和信息。
三、基于語義理解的上市公司財(cái)務(wù)文本情感分析
(一)Web金融文本信息的情感計(jì)算框架
有關(guān)金融市場的互聯(lián)網(wǎng)評論對企業(yè)股票市場表現(xiàn)的聯(lián)系是非常密切、客觀且直接有效的,主要包含兩種信息:第一種信息的評論情感傾向并不是非常顯著,但是內(nèi)容能夠客觀真實(shí),有效信息更多;第二種信息情感傾向非常清晰,但是由于存在嚴(yán)重的情緒化問題,所以有效信息并不充足。針對各類信息,結(jié)合分類器提取情感分析所涉及的各種詞匯,包含各種類型的詞語,具體的情感分析值計(jì)算的方法如下:
1.構(gòu)建金融證券領(lǐng)域的情感領(lǐng)域數(shù)據(jù)庫。數(shù)據(jù)庫的構(gòu)建是基于中英文詞匯的同義詞林構(gòu)建,能夠結(jié)合金融證券市場特性和網(wǎng)絡(luò)語言的詞匯。
2.計(jì)算詞語情感傾向值。結(jié)合詞性標(biāo)注和詞匯的分類結(jié)果來分析情感詞,根據(jù)語素情感計(jì)算方法來計(jì)算情感傾向值。
3.計(jì)算語句情感傾向值。語句的結(jié)構(gòu)對情感值的表達(dá)很重要,同樣對于語句情感計(jì)算值也很重要,要充分考慮各種句子之間的關(guān)系,了解句子中間的語氣增強(qiáng)或翻轉(zhuǎn)等問題。
4.計(jì)算文檔情感傾向值。計(jì)算時把每個企業(yè)所有評論視為一個文檔,根據(jù)文當(dāng)中的詞語和語句來計(jì)算文檔情感傾向值。
5.年文檔情感均值計(jì)算。本項(xiàng)目把每個企業(yè)的所有評論的情感值進(jìn)行求和,然后除以全年文檔數(shù),得到年文檔情感均值。
(二)金融領(lǐng)域情感詞語庫的構(gòu)建
1.結(jié)合現(xiàn)有技術(shù),依據(jù)算法擴(kuò)充。由于金融市場時效性很強(qiáng),信息量巨大,且不像日常語言評論那樣有現(xiàn)成的數(shù)據(jù)庫,能夠直接生成情感語料庫,所以實(shí)際操作難度要高于電影評論分析的情況。所以,首先,要結(jié)合金融市場語料庫和正向種子詞集Seedc0={漲,走高,盈利},負(fù)向種子詞集Seedd0={跌,走低,虧損},并將它們作為輸入;其次,要結(jié)合同義詞詞林進(jìn)一步拓展其中的正負(fù)向詞集;最后,正向種子詞集和負(fù)向種子詞集中形成輸出。如此循環(huán),將輸出作為新的一次輸入最終形成完整數(shù)據(jù)庫。endprint
2.結(jié)合知網(wǎng)數(shù)據(jù)庫里的情感詞匯,并基于金融市場特性相結(jié)合,通過預(yù)處理來確定相應(yīng)的詞匯,豐富情感詞匯數(shù)據(jù)庫。
3.構(gòu)建網(wǎng)絡(luò)詞匯庫,補(bǔ)充新型詞匯的情感數(shù)據(jù)庫。例如一些網(wǎng)絡(luò)流行用詞,如“囧”、“我去”“藍(lán)色香菇”“給力”等,都是很明顯的網(wǎng)絡(luò)情感語言。
4.構(gòu)建修正值,避免由于詞庫詞語的偏差導(dǎo)致的誤差,根據(jù)修飾程度不同,分別給不同的程度副詞賦以不同的修正值grade。
(三)情感詞的情感傾向值計(jì)算
1.語素的情感分?jǐn)?shù)。根據(jù)詞的情感假設(shè),結(jié)合語境推導(dǎo)出有關(guān)詞匯的情感分析,符合漢語語言習(xí)慣,能夠更加準(zhǔn)確確定語素的情感分?jǐn)?shù)。通過詞語的語素在正向情感詞和負(fù)向情感詞中出現(xiàn)的頻率,來確定其到底是褒義還是貶義。
2.詞的情感傾向值的計(jì)算方法。掃描整個正向情感詞典和負(fù)向情感詞典,如果詞出現(xiàn)在正向情感詞典中,則詞的情感傾向性為1;如果詞出現(xiàn)在負(fù)向情感詞典中,則詞的情感傾向性為-1;如果詞沒有出現(xiàn)在詞典中,則通過語素情感值求和來計(jì)算其情感傾向性,和的值大于零,說明詞是褒義詞,否則是貶義詞;如果和的值接近于零,詞接近中性。
(四)句子的情感傾向值計(jì)算
為了衡量一個語素的褒貶傾向,為它定義正負(fù)兩個權(quán)重,然后遍歷其在正、負(fù)情感詞典的語素出現(xiàn)次數(shù),其差值即為該語素的情感分?jǐn)?shù)。如差值為正,則表示該語素更多地出現(xiàn)于褒義詞中,反之該語素更多地出現(xiàn)于貶義詞中。如果差值接近于0,則該語素是中性的。
(五)文檔和年文檔情感均值計(jì)算
計(jì)算出全年每個企業(yè)的每條文檔(評論)的情感傾向值后,將這些情感值進(jìn)行求和,然后除以此企業(yè)的全年文檔數(shù),即可得到該企業(yè)年文檔情感均值。按照此方法,求出所有樣本企業(yè)的年文檔情感均值。
五、展望
從目前已有研究可以看出,文本情感分析技術(shù)運(yùn)用于資本市場和金融行業(yè)前景良好。因此,未來要充分運(yùn)用目前網(wǎng)絡(luò)信息時代的豐富網(wǎng)絡(luò)信息資源,對其進(jìn)行各種數(shù)據(jù)挖掘和文本信息數(shù)值化處理,實(shí)現(xiàn)有用信息的提取與使用,充分運(yùn)用文本傾向性分析,得出情感傾向分析指標(biāo),確定具體的關(guān)鍵投資指標(biāo)的文本積極和消極化的判斷,實(shí)現(xiàn)真正意義的財(cái)務(wù)信息利用與挖掘。
[參考文獻(xiàn)]
[1]王洪偉,張對,鄭麗娟,等.網(wǎng)絡(luò)股評對股市走勢的影響:基于文本情感分析的方法[J].情報(bào)學(xué)報(bào),2015,34(11):1190-1202.
[2]徐勇,張慧,陳亮.一種基于情感分析的UGC模糊綜合評價方法——以淘寶商品文本評論UGC為例[J].情報(bào)理論與實(shí)踐,2016,39(6):64-69.
[責(zé)任編輯:蔡寧]endprint