徐月梅,施靈雨,蔡連僑
(北京外國語大學(xué) 信息科學(xué)技術(shù)學(xué)院,北京 100089)
隨著國際化進(jìn)程的加快和中國實(shí)力的逐漸增強(qiáng),中國的新聞事件日益受到關(guān)注,不同國家的媒體平臺會根據(jù)各自的立場進(jìn)行報道。例如,YouTube上一條關(guān)于武漢新冠疫情爆發(fā)伊始的視頻,有如下評論: “It is so terrible(英語)”“Le virus se propage à Wuhan(法語,意為病毒在武漢傳播)”、以及“怖すぎる(日語,意為太可怕了)”。分析這些多語言評論文本的情感傾向?qū)τ诰珳?zhǔn)把握國際輿論走向十分重要。
情感分析通過挖掘文本中的主觀性信息來判斷其情感傾向,例如,對某個事件的立場是褒揚(yáng)還是貶損?,F(xiàn)有情感分析主要采用監(jiān)督學(xué)習(xí)的方法,需要借助大量已標(biāo)注的文本對情感分析模型進(jìn)行訓(xùn)練,進(jìn)而實(shí)現(xiàn)對未標(biāo)注文本的情感預(yù)測。然而,有標(biāo)注的情感語料很難獲得,尤其是非英語語言的情感語料?,F(xiàn)有的情感分析研究在英語語言下積累了豐富的情感資源,例如,標(biāo)注語料、情感詞典等;而在其他語言中的情感分析研究相對較少,情感語料資源匱乏??缯Z言情感分析(Cross-Lingual Sentiment Analysis, CLSA)旨在利用某一種語言(源語言)的情感資源來協(xié)助其他語言(目標(biāo)語言)進(jìn)行相應(yīng)的情感分析。源語言一般為具有豐富情感資源的語言,例如,英語;目標(biāo)語言則為情感資源較為匱乏的語種,例如,法語、德語、日語等??缯Z言情感分析通過構(gòu)建不同語言之間的知識關(guān)聯(lián)以實(shí)現(xiàn)資源共享,能夠解決大部分非英語語種所面臨的情感資源匱乏的問題,因此成為近年來的研究熱點(diǎn)。
現(xiàn)有跨語言情感分析的方法按照技術(shù)路線的不同可以分為三類: 基于機(jī)器翻譯、基于平行語料庫以及基于深度學(xué)習(xí)的方法。
基于機(jī)器翻譯是跨語言情感分析研究的傳統(tǒng)方法[1-4],其核心思想是采用機(jī)器翻譯系統(tǒng)構(gòu)建語言之間的聯(lián)系,通過將已標(biāo)注的源語言文本翻譯為目標(biāo)語言文本,以此作為訓(xùn)練數(shù)據(jù),對目標(biāo)語言的未標(biāo)注語料進(jìn)行情感分析和預(yù)測。這類方法思路簡單,容易實(shí)現(xiàn),但會受到機(jī)器翻譯質(zhì)量的影響。例如,真實(shí)在線評論“He cannot oppose that suggestion more(他百分百反對這個建議)”,由機(jī)器翻譯得到的中文文本是“他不能再反對這個建議”,意思正好相反。
基于平行語料庫的方法主要通過平行語料集學(xué)習(xí)源語言和目標(biāo)語言在相同空間上的文本表示來進(jìn)行跨語言情感分析。例如,Zhou等人[5]利用部分標(biāo)記的平行語料形成跨語言情感分類子空間的學(xué)習(xí)框架。然而,對于大部分語言,高質(zhì)量、大規(guī)模的平行語料仍難以獲得,使得這類方法在不同的語種中開展研究時受到限制。
與基于機(jī)器翻譯和基于平行語料庫的方法不同,基于深度學(xué)習(xí)的跨語言情感分析為了減少對機(jī)器翻譯系統(tǒng)和平行語料庫的依賴,借助深度學(xué)習(xí)算法強(qiáng)大的特征自動提取能力和豐富的表示能力,將不同語言文本投影到同一個詞向量表示空間后,再進(jìn)行情感分析。這種方法主要基于Mikolov等人[6]提出的理論,即不同語言下同一語義的單詞呈相同的分布結(jié)構(gòu),因此將不同語言文本投影到同一語義空間后,相同語義的單詞距離接近。例如,英語和中文的單詞映射到同一語義空間后,“貓”和“cat”靠在一起,“狗”和“dog”靠在一起。
現(xiàn)有基于深度學(xué)習(xí)的跨語言情感分析非常依賴于文本的單詞向量表示(Word Embedding)。單詞是語言構(gòu)成的基本單元,識別不同語言的單詞并用統(tǒng)一的方式表示出來,對于基于深度學(xué)習(xí)的跨語言情感分析尤為重要。大部分現(xiàn)有工作[7-8]為了減少隨機(jī)詞向量表示對跨語言情感分析的影響,采用Word2Vec模型[9]得到源語言和目標(biāo)語言的詞向量表示。現(xiàn)有實(shí)驗(yàn)結(jié)果表明,相比于隨機(jī)初始化或者基于Word2Vec的源/目標(biāo)語言詞向量表示,借助預(yù)訓(xùn)練好的雙語詞嵌入(Bilingual Word Embedding, BWE)詞典能夠大大提升跨語言情感分析的效果[7]。比較遺憾的是高質(zhì)量的BWE詞典較難獲得,尤其是對于大部分缺少標(biāo)注語料的語言。因此,為了獲得高質(zhì)量的BWE詞典并且減少在BWE詞典生成過程中對目標(biāo)語言標(biāo)注數(shù)據(jù)的依賴,相關(guān)工作[10-12]研究無監(jiān)督的BWE詞典生成,借助大量無標(biāo)注的目標(biāo)語言數(shù)據(jù)生成BWE詞典,取得了較好的效果。然而,S?gaard等人[13]指出,基于無監(jiān)督的BWE詞典生成方法對于語言對的選擇非常敏感,僅僅依靠無監(jiān)督的學(xué)習(xí)方法在某些語言對(如英語-日語)上難以得到高質(zhì)量的BWE詞典,仍然需要借助目標(biāo)語言的監(jiān)督信息,例如,少量的雙語種子詞典等。
本文提出一種基于情感特征表示的跨語言情感分析模型,嘗試解決不同語言對的BWE詞典較難獲得的問題,不依賴于目標(biāo)語言的標(biāo)注數(shù)據(jù),而是通過引入源語言具備的豐富的情感監(jiān)督信息獲得情感感知的詞向量表示,從源語言的角度獲得兼顧語義信息和情感特征信息的詞向量表示,改進(jìn)現(xiàn)有基于Word2Vec詞向量表示的跨語言情感分析方法僅體現(xiàn)文本語義信息而忽略了單詞之間情感關(guān)聯(lián)的問題,有效提升跨語言情感分析的性能。
實(shí)驗(yàn)以英語作為源語言,分別將3種數(shù)據(jù)集上的6種不同語言(漢語、法語、德語、日語、韓語和泰語)作為目標(biāo)語言進(jìn)行測試。與機(jī)器翻譯方法、不采用情感特征表示的跨語言情感分析方法相比,該模型能夠分別提高跨語言情感分類預(yù)測性能約9.3%和8.7%。
跨語言情感分析研究旨在借助豐富的源語言情感分析資源幫助目標(biāo)語言開展情感分析工作,最早可追溯到2004年Yan等人[14]首次探索性地通過機(jī)器翻譯來解決跨語言情感分析問題。
諸多研究表明,通過跨語言情感分析能夠?qū)⒂⒄Z語言下積累的研究成果在其他語言情境下推廣應(yīng)用。例如,萬小軍[1]利用英語有標(biāo)注的情感分類數(shù)據(jù),通過機(jī)器翻譯實(shí)現(xiàn)中文文本的情感分類預(yù)測。余傳明等人[8]以亞馬遜的產(chǎn)品評論為例實(shí)現(xiàn)從英語到漢語和日語文本的情感分類預(yù)測。Vulic等人[15]通過跨語言詞向量實(shí)現(xiàn)英語和荷蘭語的相互檢索??缯Z言情感分析已成為情感分析領(lǐng)域的一個重要研究方向。
跨語言情感分析研究的難點(diǎn)在于目標(biāo)語言情感資源的匱乏以及不同語言之間情感表達(dá)無直接關(guān)聯(lián)[16],因此早期的跨語言情感分析主要采用機(jī)器翻譯來建立不同語言間的關(guān)聯(lián),利用機(jī)器翻譯系統(tǒng)直接將源語言語料翻譯成目標(biāo)語言,在此基礎(chǔ)上進(jìn)行情感分析任務(wù)。Carmen Benea等人[17]利用機(jī)器翻譯獲得目標(biāo)語言的標(biāo)注文本,然后利用有限的目標(biāo)語言標(biāo)注數(shù)據(jù)去訓(xùn)練情感分類器。萬小軍[2]首先實(shí)現(xiàn)從目標(biāo)語言到源語言的機(jī)器翻譯轉(zhuǎn)換,再訓(xùn)練情感分類模型進(jìn)行分類;在此基礎(chǔ)上又提出了半監(jiān)督的協(xié)同學(xué)習(xí)框架,進(jìn)一步利用目標(biāo)語言的無標(biāo)注語料來大大提升系統(tǒng)性能。雖然通過機(jī)器翻譯來構(gòu)建跨語言間的情感分析聯(lián)系已足夠成熟,但仍避免不了機(jī)器翻譯失誤對文本情感帶來的約10%的扭曲或反轉(zhuǎn)現(xiàn)象[18]。
為了克服機(jī)器翻譯質(zhì)量對跨語言情感分析的影響,相關(guān)工作利用雙語詞典、平行語料庫獲得一致空間上的文本表示后再進(jìn)行跨語言的情感分類。例如,Barnes等人[19]利用雙語詞典獲取投影矩陣,將源語言和目標(biāo)語言分別映射到共享空間。Zhou等人[5]利用部分標(biāo)記的平行語料庫形成跨語言情感分類子空間的學(xué)習(xí)框架。Turney等人[20]基于情感詞對在語料中的共現(xiàn)頻率來判斷詞的情感極性。對于基于雙語詞典的跨語言情感分析,關(guān)鍵在于如何構(gòu)建高質(zhì)量的雙語情感詞典。Wan等人[21]采用機(jī)器翻譯將英文情感詞典翻譯成中文,但存在一詞多義或者多詞一義的問題,導(dǎo)致中英詞條數(shù)量不對等。此外,雙語詞典和平行語料雙語資源很難獲取,僅在部分語言對之間建成較完備的雙語資源。
近年來,深度學(xué)習(xí)快速發(fā)展,在自然語言處理的各類任務(wù)上取得了不錯的成果,研究者們嘗試將深度學(xué)習(xí)技術(shù)應(yīng)用于跨語言情感分析,以減少對機(jī)器翻譯和平行語料庫的依賴。
基于深度學(xué)習(xí)中的生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)或者改進(jìn)生成對抗網(wǎng)絡(luò)(如對抗自動編碼器)的跨語言情感分析方法[14]被分別提出。這些工作[7-8,12]通過生成-對抗模式進(jìn)行迭代訓(xùn)練,得到目標(biāo)語言和源語言在相同語義特征空間的詞向量表示,實(shí)驗(yàn)表明,基于生成對抗網(wǎng)絡(luò)的方法在跨語言情感分析上具有明顯優(yōu)勢,性能優(yōu)于基于機(jī)器翻譯的跨語言情感分析方法。然而,基于生成對抗網(wǎng)絡(luò)的跨語言情感分析[7-8,12]需要借助BWE詞典,對于缺少BWE的語言對只能采用單語言下的隨機(jī)詞向量或者Word2Vec等詞向量模型,大大限制了基于深度學(xué)習(xí)的跨語言情感分析模型的性能。因此,近年來相關(guān)工作開始研究跨語言的詞向量表示(Cross Language Word Embedding, CLWE)以獲得不同語言對的BWE詞典,尤其是研究無監(jiān)督的CLWE生成[10-12]。例如,Meng Zhang等人[10]提出一種無監(jiān)督的基于對抗學(xué)習(xí)算法的雙語詞向量表示生成算法,以便獲得更好的詞向量表示,為下游的跨語言任務(wù)服務(wù)。S?gaard等人[13]研究發(fā)現(xiàn),基于無監(jiān)督的BWE詞典生成方法對于語言對的選擇非常敏感。對于部分語言對,依靠完全無監(jiān)督的CLWE難以得到高質(zhì)量的BWE詞典。
本文的研究沿襲基于生成對抗網(wǎng)絡(luò)的跨語言情感分析框架,在此基礎(chǔ)上提出基于詞向量情感特征表示的跨語言文本情感分析模型,通過引入情感感知的源語言詞向量表示,使得源語言的詞向量表示兼顧語義和情感特征信息,在基于深度學(xué)習(xí)的跨語言情感分析中關(guān)注到更多與情感分析任務(wù)相關(guān)的特征,提高跨語言情感分類性能。
圖1描述了情感感知的跨語言情感分析模型的構(gòu)建流程,主要包括3個模塊: 情感感知的源語言詞向量表示、基于生成對抗網(wǎng)絡(luò)的跨語言聯(lián)合特征提取以及情感分類預(yù)測模塊。
模型的基本思路是: 首先引入源語言的情感監(jiān)督信息,獲得情感感知的源語言詞向量表示,目標(biāo)語言的詞向量表示則通過隨機(jī)初始化或者采用Word2Vec獲得。然后,基于源語言情感感知的詞向量表示,利用生成對抗網(wǎng)絡(luò)獲得目標(biāo)語言與源語言在同一特征空間的聯(lián)合特征表示。最后,輸入上述兩 步獲得的源語言和目標(biāo)語言的聯(lián)合特征表示,基于已標(biāo)注的源語言文本語料對情感分類器進(jìn)行訓(xùn)練,預(yù)測目標(biāo)語言文本的情感傾向。
圖 1 跨語言情感分析模型構(gòu)建流程圖
給定源語言的標(biāo)注文檔用S={s1,s2,...sN}表示,N為文檔的個數(shù),sk表示S中的第k個文檔。S中文檔的情感標(biāo)注用Y={y1,y2,...yN}表示,yk=1表示文檔sk的情感極性為積極,yk=-1則表示情感極性為消極。目標(biāo)語言的待預(yù)測情感文檔用D={d1,d2,...,dN′}表示,N′為目標(biāo)語言文檔的個數(shù),dk表示D中的第k個文檔??缯Z言情感分析需要解決的問題是利用源語言的已標(biāo)注文本集合S和Y,預(yù)測目標(biāo)語言文檔集合D中的情感極性。
本文借助源語言的情感詞典和已標(biāo)注的源語言文本分別作為單詞級別(word-level)以及文檔級別(document-level)的情感監(jiān)督信息,獲得源語言情感感知的詞向量表示。
給定文檔sk={xk1,xk2,...,xkn},xki表示文檔sk中的第i個單詞,eki為單詞xki的詞向量表示,eki∈RM,M是詞向量的維度。
根據(jù)S中所有單詞構(gòu)成的詞匯表,構(gòu)造一個詞嵌入矩陣V∈RC×M,V中的每一行是一個單詞的詞向量表示,則C等于詞匯表中單詞的個數(shù)。利用正態(tài)分布初始化V中每一個單詞的詞向量表示。
2.1.1 單詞級別情感監(jiān)督
本文使用源語言的情感詞典作為單詞級別的情感監(jiān)督信息訓(xùn)練單詞的詞向量表示。對于S中每篇文檔的每個單詞x,通過查表V得到其詞向量表示e后,將e輸入到單詞級別的Softmax層,預(yù)測單詞的情感傾向,得到單詞的情感傾向分布p(c|e),如式(1)所示。
其中,θw和bw分別表示詞語級別Softmax層的權(quán)重值和偏置值,c∈{1,-1}表示單詞的情感極性,1表示正向,-1表示負(fù)向。
(2)
2.1.2 文檔級別情感監(jiān)督
使用已標(biāo)注的源語言標(biāo)注文本作為文檔級別的情感監(jiān)督信息。給定文檔S,通過查表V得到所有單詞的詞向量表示,令se表示文檔S的向量表示。定義se等于S中所有單詞的詞向量的均值,如式(3)所示。
其中,|s|表示文檔S中單詞的個數(shù)。將S的向量表示se輸入到文檔級別的Softmax層,根據(jù)向量表示se預(yù)測文檔的情感傾向概率,得到文檔S的情感分布值p(c|se),如式(4)所示。
其中,θd和bd分別表示文檔級別Softmax層的權(quán)重值和偏置值。
用平均交叉熵作為損失函數(shù),衡量文檔的情感分布預(yù)測值和文檔的真實(shí)情感標(biāo)注之間的距離,如式(5)所示。
2.1.3 聯(lián)合單詞級別和文檔級別的表示學(xué)習(xí)
單詞的詞向量表示應(yīng)同時考慮單詞級別和文檔級別的情感信息。因此,定義總的損失函數(shù)為單詞級別和文檔級別損失函數(shù)的和,如式(6)所示。
其中,α∈[0,1]為折中系數(shù),調(diào)整fword和fdoc對總的損失函數(shù)的影響。當(dāng)α=0時,單詞的詞向量表示僅考慮文檔語境的情感信息,α越大則考慮單詞語境的情感信息越多,在3.5.1節(jié)將測試分析不同α值對跨語言情感分析性能的影響。
源語言和目標(biāo)語言的詞向量空間轉(zhuǎn)換旨在根據(jù)已知源語言的詞向量表示得到目標(biāo)語言在同一語義空間的文本向量表示,這一過程非常適合用生成對抗網(wǎng)絡(luò)實(shí)現(xiàn)[24]。具體而言,主要包括生成器G和語言鑒別器D兩個模塊。
生成器G的目的是進(jìn)行特征提取和詞向量空間轉(zhuǎn)換,使生成的目標(biāo)語言詞向量分布接近于源語言的詞向量分布。設(shè)源語言的詞向量es服從分布ps,目標(biāo)語言的詞向量ed服從分布pd。生成器G通過學(xué)習(xí)一個映射函數(shù)g:M→M,使得g(ed)的分布盡可能接近于源語言的分布。
生成器的目標(biāo)是為了最小化源語言詞向量分布和目標(biāo)語言詞向量分布之間的JS散度距離[22],文中用Wasserstein距離代替JS散度距離計算,主要考慮其在超參數(shù)選擇上性能更穩(wěn)定。因此,生成器利用Wasserstein 距離衡量源語言詞向量分布ps和目標(biāo)語言詞向量分布pd之間的距離,目標(biāo)是最小化Wasserstein(ps,pd)。語言鑒別器D是一個二元分類器,將g(ed)作為輸入,輸出判別其是來自于目標(biāo)語言或者源語言。
G和D都是反向傳播的神經(jīng)網(wǎng)絡(luò),通過生成對抗訓(xùn)練互相博弈學(xué)習(xí)、反復(fù)迭代梯度更新,利用Adam進(jìn)行優(yōu)化。如果一個訓(xùn)練好的鑒別器D對于G轉(zhuǎn)換得到的詞向量分布無法判斷是來自于目標(biāo)語言或者源語言,說明生成器G實(shí)現(xiàn)了從目標(biāo)語言詞向量空間到源語言詞向量空間的轉(zhuǎn)換,迭代結(jié)束。
使用交叉熵?fù)p失函數(shù)定義生成器和鑒別器的損失函數(shù)。生成器的損失函數(shù)如式(7)所示。
其中,D(g(ed))表示鑒別器將生成器轉(zhuǎn)換后的詞向量判別為源語言的概率。
鑒別器的目標(biāo)是區(qū)別源語言向量和目標(biāo)語言向量的轉(zhuǎn)換,其損失函數(shù)如式(8)所示。
本文采用深度平均網(wǎng)絡(luò)(Deep Averaging Network,DAN)和CNN分別作為語言生成器G,相比于CNN,DAN具有更快的收斂時間[7]。語言鑒別器D則選擇隱藏層數(shù)量為1的多層感知機(jī)。
基于源語言和目標(biāo)語言在同一語義空間的詞向量表示,利用源語言的已標(biāo)注文本對情感分類器進(jìn)行訓(xùn)練后,輸入在同一語義空間表示的目標(biāo)語言文本,判別輸出其情感極性。
在跨語言情感分析中,目標(biāo)語言的詞向量空間轉(zhuǎn)換以及情感極性判別作為統(tǒng)一的整體,在訓(xùn)練過程中,同時將情感分類器的判別結(jié)果和語言鑒別器D的判別結(jié)果反饋給語言生成器G,優(yōu)化目標(biāo)語言的特征語義提取。使用超參數(shù)λ來平衡二者的影響,因此,語言生成器G的損失函數(shù)定義如式(10)所示。
為了驗(yàn)證所提基于情感特征表示的跨語言情感分析模型(Senti_Aware model)以不同語言為目標(biāo)進(jìn)行跨語言情感分析的性能,實(shí)驗(yàn)將已標(biāo)注的英語文本作為源語言,分別選取了6種不同的語言作為目標(biāo)語言進(jìn)行測試,并與5種對比算法進(jìn)行比較。5種對比算法分別是:
(1)單語言下的情感預(yù)測上限方法(以下簡稱Upper): 在目標(biāo)語言(漢語、法語、德語、日語、韓語和泰語)中使用該語言標(biāo)注好的文檔數(shù)據(jù)作為情感分類模型的輸入,然后將訓(xùn)練好的情感分類模型直接用于預(yù)測在該目標(biāo)語言下的未標(biāo)注文檔。Upper方法中選擇支持向量機(jī)(Support Vector Machine, SVM)模型作為分類模型。SVM在情感分類中表現(xiàn)優(yōu)異,優(yōu)于樸素貝葉斯、隨機(jī)森林等算法[23]。
(2)機(jī)器翻譯: 通過谷歌機(jī)器翻譯引擎將目標(biāo)語言翻譯成源語言文本,利用已標(biāo)注的源語言語料作為訓(xùn)練集對SVM情感分類器模型進(jìn)行訓(xùn)練,再對翻譯后的源語言文本進(jìn)行預(yù)測。
(3)Bi_W2V Model: 與Senti_Aware model采用相同的跨語言聯(lián)合特征提取模塊和情感分類預(yù)測模塊,參數(shù)設(shè)置亦相同;但沒有使用情感感知的源語言詞向量表示,而是用Word2Vec獲得源語言和目標(biāo)語言的向量表示。
(4)Bi_random Model: 與Bi_W2V model采用相同的模型和參數(shù)設(shè)置,但是使用隨機(jī)生成的源語言和目標(biāo)語言的詞向量表示替代Word2Vec詞向量表示。
(5)CLCDSA模型: Feng等人提出的一個基于Encoder-Decoder的無監(jiān)督跨語言跨領(lǐng)域情感分析(Cross Lingual Cross Domain Sentiment Analysis, CLCDSA)模型[24],利用有標(biāo)注的源語言數(shù)據(jù)和大量無標(biāo)注的目標(biāo)語言數(shù)據(jù),對跨語言同領(lǐng)域或者跨語言跨領(lǐng)域的文本情感進(jìn)行預(yù)測。實(shí)驗(yàn)中,CLCDSA采用與所提模型相同的數(shù)據(jù)集,數(shù)據(jù)集中所有文本作為同一個領(lǐng)域輸入,不再細(xì)分?jǐn)?shù)據(jù)的領(lǐng)域(例如屬于DVD、書籍或音樂)。實(shí)驗(yàn)參數(shù)設(shè)置與文獻(xiàn)[27]相同: 語言模型采用AWD-LSTM模型[24],每層的隱藏單元數(shù)為1 150,dropout rate=0.5,語言鑒別器采用1個3層的多層感知機(jī),每層有400個隱藏單元,訓(xùn)練的迭代數(shù)為20 000個steps,每個詞向量的維度為200。
考慮到?jīng)]有一個現(xiàn)有的數(shù)據(jù)集能夠提供5種語言以上的跨語言情感評測數(shù)據(jù),因此實(shí)驗(yàn)選取了3個數(shù)據(jù)集,包括6種不同的目標(biāo)語言,能夠測試所提模型在不同數(shù)據(jù)集、不同語言上的泛化性能。這也是首次在跨語言情感分析研究中選擇5種以上的語言進(jìn)行實(shí)驗(yàn)評測。
其中,源語言和目標(biāo)語言中的漢語、日語、法語和德語的數(shù)據(jù)來源于亞馬遜網(wǎng)站的產(chǎn)品評論多語種數(shù)據(jù)集[25],每種語言包括12 000條標(biāo)注的數(shù)據(jù),分別是1星、2星、4星和5星的產(chǎn)品評分,星值越大表示評分越高。實(shí)驗(yàn)中將3星以下的數(shù)據(jù)標(biāo)注為負(fù)向評論,將3星以上的數(shù)據(jù)標(biāo)注為正向評論。
韓語數(shù)據(jù)集的選取參考文獻(xiàn)[26],來源為韓國影評網(wǎng)站NAVER的用戶評論,一共包含20萬條評論的數(shù)據(jù),已標(biāo)注為正向或負(fù)向情感。為了與漢語、日語、法語和德語的數(shù)據(jù)測試規(guī)模保持一致,選取12 000條韓語數(shù)據(jù)作為跨語言預(yù)測數(shù)據(jù)。
泰語數(shù)據(jù)集的選取參考文獻(xiàn)[27],主要為用戶產(chǎn)品服務(wù)評論,一共包含26 737條評論,已標(biāo)注為正向、負(fù)向和中性情感極性。其中,正負(fù)向評論共11 601條,經(jīng)過數(shù)據(jù)預(yù)處理、分詞后選取長度大于 1的數(shù)據(jù),一共10 000條作為泰語跨語言預(yù)測數(shù)據(jù)。每個語種的數(shù)據(jù)集參數(shù)如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集參數(shù)
英語源語言采用已標(biāo)注數(shù)據(jù)中的6 000條作為訓(xùn)練數(shù)據(jù),6 000條作為測試數(shù)據(jù);所提模型不需要對目標(biāo)語言的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,因此目標(biāo)語言的標(biāo)注數(shù)據(jù)僅作為驗(yàn)證跨語言情感分析的性能使用,漢語、日語、法語、德語和韓語采用12 000條數(shù)據(jù)作為待預(yù)測數(shù)據(jù),泰語使用10 000條數(shù)據(jù)作為待預(yù)測數(shù)據(jù)。英語、日語、法語和德語還包括了大量無標(biāo)注數(shù)據(jù),這些未標(biāo)注的數(shù)據(jù)和已標(biāo)注的數(shù)據(jù)一起作為CLCDSA模型的輸入,訓(xùn)練得到英語、日語、法語和德語的二進(jìn)制編碼文件,而對于漢語、韓語和泰語的二進(jìn)制編碼文件則是通過采用規(guī)模相對較小的有標(biāo)注數(shù)據(jù),將標(biāo)注去掉后作為CLCDSA模型所需的目標(biāo)語言無標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,得到漢語、韓語和泰語的二進(jìn)制編碼文件。
在進(jìn)行跨語言情感分析前,需要對數(shù)據(jù)進(jìn)行預(yù)處理。統(tǒng)一去除實(shí)驗(yàn)數(shù)據(jù)集文本中的標(biāo)點(diǎn)及特殊符號。對于中文文本,采用jieba分詞器進(jìn)行分詞,使用百度停用詞表去除停用詞;對于日語文本,采用MeCab分詞系統(tǒng),在調(diào)用Python接口時引入sys模塊和MeCab模塊,在-Owakati模式(無詞性標(biāo)注)下進(jìn)行分詞。對于泰語文本,使用泰語自然語言處理庫PyThaiNlp進(jìn)行分詞。數(shù)據(jù)集中的法語、德語和韓語的文本,單詞之間已由空格分開,無需進(jìn)一步分詞。
實(shí)驗(yàn)的主要參數(shù)設(shè)置如表2所示。詞嵌入向量的維度最小等于50、最大等于200;Batch_size(批量大小)為50;Epoch(訓(xùn)練次數(shù))等于30;學(xué)習(xí)率為 5×10-4。超參數(shù)λ設(shè)置為0.01,相比于語言鑒別器的結(jié)果,情感分類器的判別結(jié)果對語言生成器而言影響更大一些。
表2 實(shí)驗(yàn)主要參數(shù)設(shè)置
采用準(zhǔn)確率(Accuracy)和F1值(F1-measure)作為情感分類預(yù)測的評價指標(biāo)。對于情感預(yù)測二分類問題,混淆矩陣如表3所示。
其中,TP表示文檔的實(shí)際情感標(biāo)簽為積極,模
表3 二分類混淆矩陣
型預(yù)測的結(jié)果為積極的個數(shù);FP表示文檔的實(shí)際標(biāo)簽為消極,模型預(yù)測的結(jié)果為積極的個數(shù);FN表示文檔的實(shí)際標(biāo)簽為積極,模型卻預(yù)測為消極的個數(shù);TN表示文檔的實(shí)際標(biāo)簽為消極,模型預(yù)測的結(jié)果也是消極的個數(shù)。
根據(jù)表3,準(zhǔn)確率的計算如(11)所示。
精確率和召回率的計算如(12)所示。
F1值作為精確率和召回率的綜合評價指標(biāo),計算如(13)所示。
表4展示了以英語為源語言,漢語、法語、德語、日語、韓語和泰語作為目標(biāo)語言的跨語言情感分類預(yù)測結(jié)果。表4中,每個目標(biāo)語言最優(yōu)的預(yù)測準(zhǔn)確率和F1值用加粗表示,次優(yōu)數(shù)值用下劃線表示。表4實(shí)驗(yàn)中,所提模型設(shè)置詞向量的維度為50維,α取值為0.8,分別采用DAN和CNN作為源語言和目標(biāo)語言聯(lián)合特征提取的語言生成器。后續(xù)章節(jié)將討論詞向量維度大小、α取值以及是否采用預(yù)訓(xùn)練好的BWE詞典作為聯(lián)合特征提取器對于實(shí)驗(yàn)結(jié)果的影響。
不同跨語言對之間的情感預(yù)測性能會受到數(shù)據(jù)集大小、數(shù)據(jù)本身質(zhì)量以及數(shù)據(jù)預(yù)處理程度的影響。例如,有的語言數(shù)據(jù)集本身的情感傾向表達(dá)比較明顯,有助于情感預(yù)測;而有的語言數(shù)據(jù)集情感傾向表達(dá)比較隱晦,不利于情感預(yù)測。這一點(diǎn)體現(xiàn)在Upper方法應(yīng)用在不同語言上的情感預(yù)測性能各不相同。在進(jìn)行跨語言情感預(yù)測時,既要進(jìn)行縱向?qū)Ρ?,即在同一種語言中對比不同算法的跨語言預(yù)測性能,分析不同算法的性能優(yōu)劣;又要進(jìn)行橫向?qū)Ρ?,分析同一個算法在不同語言中的跨語言預(yù)測性能。
表4 以英語為源語言,法語、德語、日語、漢語、韓語和泰語為目標(biāo)語言的跨語言情感預(yù)測
表4的實(shí)驗(yàn)結(jié)果表明,所提模型在漢語、法語、德語、日語、韓語和泰語6種不同語言上的跨語言情感分類的性能都優(yōu)于基于機(jī)器翻譯、Bi_random和Bi_W2V方法,驗(yàn)證了基于情感特征表示的跨語言文本情感分析方法的有效性。Upper方法提供了模型能達(dá)到的跨語言情感預(yù)測分類性能的上限值??梢钥吹?,所提模型Senti_Aware(DAN)在德語上準(zhǔn)確率和F1值分別為0.812和0.840,接近于Upper方法的0.854和0.856。
從不同語種比較,當(dāng)法語、德語作為目標(biāo)語言時,情感特征表示的優(yōu)勢更明顯。在法語實(shí)驗(yàn)中Senti_Aware(CNN)準(zhǔn)確率提升至0.738,F(xiàn)1值提高至0.846;在德語中準(zhǔn)確率和F1值則分別為0.818和0.826。在數(shù)據(jù)處理過程相同、參數(shù)條件不變情況下,縱向比較不同方法在不同語言上的性能,發(fā)現(xiàn)跨語言情感分類模型在德語數(shù)據(jù)集上表現(xiàn)最好,主要與不同語言之間的距離有關(guān)。英語與德語同屬日耳曼語族,雖然英語在詞匯上較法語接近,但在語法和語音上與德語更接近,因此在英語-德語語言對的跨語言情感分類中性能最好,符合實(shí)驗(yàn)預(yù)期。
分析Word2Vec詞向量生成對跨語言情感預(yù)測的影響。對比Bi_random和Bi_W2V在不同語言上的性能發(fā)現(xiàn),Bi_W2V相比Bi_random并沒有明顯的性能提升,說明相比于隨機(jī)生成得到的詞向量表示,采用Word2Vec對源語言和目標(biāo)語言分別生成獨(dú)立的詞向量空間對跨語言情感分類預(yù)測提升不明顯,更重要的是如何將兩個獨(dú)立的詞向量空間映射到同一語義空間。這也進(jìn)一步印證了在跨語言情感分析中,通過深度學(xué)習(xí)模型實(shí)現(xiàn)兩種語言的詞向量特征空間學(xué)習(xí)、遷移是非常重要的一步。
基于機(jī)器翻譯方法的性能在法語、德語和漢語上的跨語言情感預(yù)測性能甚至低于Bi_W2V算法。由于現(xiàn)有的翻譯引擎API接口不能支持多于 5 000 字的文本翻譯,實(shí)驗(yàn)過程對機(jī)器翻譯方法的實(shí)現(xiàn)需要將數(shù)據(jù)集切分成幾個部分,分開翻譯再合并,耗費(fèi)了大量的翻譯、數(shù)據(jù)整理時間;性能上卻沒有 Bi_W2V 簡單采用Word2Vec生成詞向量后進(jìn)行跨語言情感提取和預(yù)測的性能好。側(cè)面說明,相比于基于機(jī)器翻譯的跨語言情感預(yù)測,基于深度學(xué)習(xí)的方法優(yōu)勢明顯,是跨語言情感分析未來的發(fā)展方向。
CLCDSA方法在不同目標(biāo)語言上的跨語言情感預(yù)測性能差別較大,在法語、德語和日語的性能相比其他三種目標(biāo)語言性能更為突出,而在漢語上的性能最差(相比較其他算法)。除了上述分析中以英語為源語言,與目標(biāo)語言法語和德語更為接近以外(日語和英語的距離并不接近,可以看到和法語和德語相比,日語的效果明顯較低),主要原因在于: 法語、德語和日語數(shù)據(jù)集包括了大量的無標(biāo)注數(shù)據(jù)(表1),而數(shù)據(jù)集中的漢語、韓語和泰語則沒有提供無標(biāo)注數(shù)據(jù),實(shí)驗(yàn)中只能將對應(yīng)語言的有標(biāo)注數(shù)據(jù)去掉作為CLCDSA模型的無標(biāo)注數(shù)據(jù)進(jìn)行輸入。在漢語、韓語和泰語中,又以漢語的標(biāo)注數(shù)據(jù)最少,只有12 000條。實(shí)驗(yàn)結(jié)果確證了CLCDSA方法的結(jié)論,即利用目標(biāo)語言大量的無標(biāo)注數(shù)據(jù)學(xué)習(xí)單詞語義,有助于提高跨語言的情感預(yù)測。當(dāng)缺少標(biāo)注數(shù)據(jù)時,CLCDSA的性能明顯下降。此外,實(shí)驗(yàn)中曾將Chen等人[7]使用的數(shù)據(jù)集作為CLCDSA的中文無標(biāo)注數(shù)據(jù),發(fā)現(xiàn)對性能提升不大,主要原因在于酒店的用戶評論數(shù)據(jù)和亞馬遜數(shù)據(jù)集有一定區(qū)別,對于目標(biāo)待預(yù)測文本的語義學(xué)習(xí)幫助不大。
CLCDSA在法語和日語上得到了最好的情感預(yù)測準(zhǔn)確率,分別為0.788和0.673,高于所提模型Senti_Aware(CNN)的0.738和0.668。但從6種不同的目標(biāo)語言上看,所提模型在不同語言、不同數(shù)據(jù)集上的泛化性能更突出。在同樣的亞馬遜數(shù)據(jù)集上,所提模型在德語和漢語上的預(yù)測準(zhǔn)確率和F1值均優(yōu)于CLCDSA;在跨語言跨數(shù)據(jù)集時,即以亞馬遜用戶評論的英文數(shù)據(jù)集為數(shù)據(jù)源,預(yù)測目標(biāo)語言為韓語的電影評論數(shù)據(jù)集和目標(biāo)語言為泰語的產(chǎn)品數(shù)據(jù)集,Senti_Aware(DAN)相比CLCDSA具有明顯優(yōu)勢。此發(fā)現(xiàn)與文獻(xiàn)[24]中的結(jié)論吻合: CLCDSA在跨語言跨領(lǐng)域的情感預(yù)測性能低于在跨語言同領(lǐng)域中的性能。
對比分析不同的特征提取網(wǎng)絡(luò)對所提模型的影響。實(shí)驗(yàn)中分別利用DAN和CNN作為特征提取網(wǎng)絡(luò),發(fā)現(xiàn)改變特征提取網(wǎng)絡(luò),Senti_Aware的性能有波動但基本穩(wěn)定。相較于其他對比算法,Senti_Aware(DAN)和Senti_Aware(CNN)仍有明顯優(yōu)勢,表明本文模型在跨語言情感分析任務(wù)中的有效性。實(shí)驗(yàn)結(jié)果表明,特征網(wǎng)絡(luò)為CNN時的平均準(zhǔn)確率略高一些,將特征提取網(wǎng)絡(luò)從DAN改變?yōu)镃NN后,模型的準(zhǔn)確率可提升0.6%~1%。在訓(xùn)練過程中,DAN的收斂速度更快,CNN則相對速度較慢。例如,在型號為Tesla V100、顯存大小為31 GB的GPU服務(wù)器上跑相同的數(shù)據(jù)集和相同的實(shí)驗(yàn)設(shè)置,以泰語的數(shù)據(jù)集文本預(yù)測為例,基于DAN特征提取網(wǎng)絡(luò)的Senti_Aware需要時間約6分11秒,而基于CNN特征提取網(wǎng)絡(luò)的Senti_Aware需要時間約12分3秒,CLCDSA模型則需要42分50秒。
橫向?qū)Ρ瓤缯Z言情感預(yù)測模型在不同語言上的情感預(yù)測性能發(fā)現(xiàn): 當(dāng)法語、德語作為目標(biāo)語言時,跨語言情感預(yù)測性能更接近于Upper方法在單語言下的預(yù)測性能,明顯優(yōu)于以日語、漢語、韓語和泰語為目標(biāo)語言時的性能。以Senti_Aware(DAN)為例,所提模型在法語和德語上的預(yù)測準(zhǔn)確率分別為0.732和0.812,而在其他目標(biāo)語言上的預(yù)測準(zhǔn)確率都低于0.68,主要原因在于以英語為源語言時,英語-漢語、英語-德語跨語言對之間的語法、語義差別較小,而英語-漢語、英語-韓語和英語-泰語中這些語言對之間的距離較大。實(shí)驗(yàn)結(jié)果從側(cè)面說明,進(jìn)行跨語言情感分析應(yīng)從語言本身出發(fā),針對目標(biāo)語言選擇距離較近的源語言,提高跨語言情感分析的性能。
綜上所述,本文模型在不同語種、不同數(shù)據(jù)集實(shí)驗(yàn)中具有較強(qiáng)魯棒性,取得較好的分類效果,證明融合情感特征表示有助于跨語言情感分析。
本節(jié)討論影響跨語言情感分析模型的因素,主要討論不同α值、詞向量維度和是否采用預(yù)訓(xùn)練好的BWE詞典對模型的影響。以德語為目標(biāo)語言進(jìn)行分析,在其他幾個語言上的對比分析結(jié)果類似,因篇幅關(guān)系不一一列舉。
3.5.1 α值對跨語言情感分析的影響
在融合情感語義的詞嵌入訓(xùn)練過程中,α值大小會對詞嵌入的表示能力有影響。由于在德語數(shù)據(jù)集上分類效果表現(xiàn)最好,故選用德語數(shù)據(jù)集探究不同α值的影響,步長為0.1,實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 不同α值對于跨語言情感分類的影響
從圖2可以看出,α為0.1時分類準(zhǔn)確率可達(dá)到0.794,此時文檔級別的情感信息權(quán)重最大;當(dāng)α值逐漸增大,分類準(zhǔn)確率逐漸下降;當(dāng)α值為0.5時準(zhǔn)確率最低,此時單詞級別和文檔級別的情感信息權(quán)重相同。當(dāng)α值繼續(xù)增大,代表單詞級別的情感信息權(quán)重超過文檔級別情感信息,此時分類準(zhǔn)確率有所提升,并在α值為0.9時達(dá)到最高準(zhǔn)確率0.812。實(shí)驗(yàn)結(jié)果表明,單詞級別與文檔級別的情感信息均有較好的獨(dú)立監(jiān)督效果,但當(dāng)二者權(quán)重接近時,情感信息利用率下降,從而影響詞嵌入表示效果,進(jìn)而導(dǎo)致跨語言情感分類準(zhǔn)確率下降。
3.5.2 詞向量維度對跨語言情感分析的影響
詞向量的維度大小對單詞語義的表示能力有一定影響,因此本節(jié)實(shí)驗(yàn)分別將詞向量維度設(shè)置為50維、100維、150維、200維,探究詞向量維度對跨語言情感分析的影響。實(shí)驗(yàn)仍選用德語數(shù)據(jù)集,特征提取網(wǎng)絡(luò)選擇DAN,實(shí)驗(yàn)結(jié)果如表5所示。
表5 詞向量維度對跨語言情感分析的影響
從實(shí)驗(yàn)結(jié)果可以看出,在跨語言情感分類任務(wù)中隨著詞向量維度的升高,僅采用隨機(jī)詞嵌入的Bi_random 方法在詞向量維度為200維時分類準(zhǔn)確率也能達(dá)到0.618,F(xiàn)1值為0.708,且提升最為明顯。說明對于隨機(jī)初始化文本向量的Bi_random方法,詞向量維度較大時,表征的信息更多、效果更好。
當(dāng)采用Bi_W2V方法時,增大詞向量維度,準(zhǔn)確率有小幅度提升,當(dāng)詞向量為100維時Bi_W2V方法獲得最高F1值0.749,詞向量為150維時獲得最高準(zhǔn)確率0.768,而當(dāng)詞向量維度進(jìn)一步增大到200維時,準(zhǔn)確率和F1值反而有所下降。
對于Senti_Aware方法,改變詞向量維度大小對于分類準(zhǔn)確率提升不明顯,在維度為50維時已經(jīng)能很好融合情感語義信息,最高準(zhǔn)確率達(dá)到0.812,F(xiàn)1值達(dá)到0.840,具有很好的穩(wěn)定性。
對于CLCDSA方法,詞向量維度等于200時性能最好。隨著向量維度的降低,性能有所下降。下降的原因主要是Encoder-Decoder模型的參數(shù)隨著向量維度的下降而降低: 在詞向量維度等于200時,模型的參數(shù)個數(shù)是1 333萬個;當(dāng)詞向量維度等于50時,模型的參數(shù)個數(shù)降到72萬個。
3.5.3 BWE對跨語言情感分析的影響
本節(jié)討論BWE雙語詞嵌入詞典對跨語言情感分析的影響。相關(guān)工作指出,相比于隨機(jī)初始化的詞向量表示或Word2Vec詞向量表示,借助預(yù)訓(xùn)練的BWE詞典獲得源/目標(biāo)語言的詞向量表示能夠大大提升跨語言情感分析的效果[8]。
為了分析BWE對跨語言情感分析的影響,使用預(yù)訓(xùn)練好的BWE詞向量表示(以下簡稱Bi_BWE方法)替代基于情感特征表示的詞向量(即本文所提Senti_Aware方法)進(jìn)行對比實(shí)驗(yàn)。兩種方法采用完全相同的實(shí)驗(yàn)參數(shù)和設(shè)置,以DAN為特征提取網(wǎng)絡(luò),α值取0.9??紤]到不同語言對的BWE詞典較難獲得,在實(shí)驗(yàn)測試的6種目標(biāo)語言中,僅有英語-漢語、英語-法語和英語-德語具有預(yù)訓(xùn)練好的BWE詞典,因此本節(jié)的對比實(shí)驗(yàn)以漢語、法語和德語為例進(jìn)行。
實(shí)驗(yàn)中,英語-漢語BWE詞典來源于Zou等人的工作[28],一共包含了199 870個中英文單詞的詞向量表示;英語-法語和英語-德語的BWE詞典則來自于廣泛使用的MUSE雙語詞嵌入詞典集。MUSE雙語詞典(1)通過對各種語言的維基百科數(shù)據(jù)詞條進(jìn)行預(yù)訓(xùn)練得到,涵蓋了30種不同的語言,主要以歐盟國家的語言為主。,各包含40萬個雙語單詞的詞向量表示,其中,英語、法語和德語各有20萬個單詞。實(shí)驗(yàn)結(jié)果如表6所示。
表6 不同BWE詞典跨語言情感預(yù)測性能對比
分析表6的結(jié)果發(fā)現(xiàn),Senti_Aware與Bi_BWE相比仍具有一定優(yōu)勢,二者在漢語上性能相當(dāng),相比Bi_BWE,Seni_Aware模型在法語上略有提升,在德語上表現(xiàn)出明顯優(yōu)勢。此外,對比表4的實(shí)驗(yàn)結(jié)果,我們發(fā)現(xiàn)Bi_BWE的性能在不同語言上都明顯優(yōu)于Bi_random的隨機(jī)詞向量表示,但與Bi_W2V相比性能提升不大。分析原因主要如下:
第一,英語-漢語的BWE詞典是基于中英文用戶評論數(shù)據(jù)訓(xùn)練得到的,所采用的訓(xùn)練數(shù)據(jù)集與實(shí)驗(yàn)數(shù)據(jù)集比較貼近,能夠較好地表示實(shí)驗(yàn)數(shù)據(jù)集中單詞的詞向量,因此在漢語上性能提升較大;而英-法和英-德的BWE詞典是基于維基百科的數(shù)據(jù)詞條訓(xùn)練得到的,詞典大而全,但是在語義表達(dá)上并不貼合實(shí)驗(yàn)的用戶評論數(shù)據(jù)集,在性能上不如直接采用Word2Vec基于實(shí)驗(yàn)數(shù)據(jù)集生成得到的詞向量表示。
第二,Senti_Aware在德語上的跨語言情感預(yù)測性能提升最大,明顯優(yōu)于法語。從Bi_BWE的結(jié)果看德語和法語的性能相當(dāng)。除了上述分析的英語-德語之間的語義距離較英語-法語更近,另一主要原因在于實(shí)驗(yàn)數(shù)據(jù)集中德語用于訓(xùn)練目標(biāo)語言的詞向量表示的數(shù)據(jù)約為31萬條,而法語的數(shù)據(jù)量則約為5萬條(表1),數(shù)據(jù)量越多越有利于生成得到更好的詞向量表示,有助于下游的情感預(yù)測任務(wù)。
綜上實(shí)驗(yàn)結(jié)果表明,采用BWE詞典能夠提升跨語言情感分析性能,所采用的BWE詞典的語義應(yīng)與預(yù)測的數(shù)據(jù)集語義表示比較接近,才能有效提高跨語言情感預(yù)測的性能。
為了從語言學(xué)和語義角度分析基于源語言情感特征的詞向量表示相比Word2Vec更能兼顧單詞語義和情感特征信息,本節(jié)利用可視化方法對比Senti_Aware和Word2Vec模型所獲得的詞向量表示。
通過Word2Vec或Senti_Aware得到的單詞詞向量表示都是50維的高維向量,無法在二維平面進(jìn)行可視化,因此實(shí)驗(yàn)中采用主成分分析(Principal Component Analysis,PCA)方法對實(shí)驗(yàn)中獲得的詞向量表示進(jìn)行降維,最后在二維平面輸出。PCA常被用于高維數(shù)據(jù)的降維,提取高維數(shù)據(jù)的主要特征分量后映射到低維平面輸出[29]。
圖3 Word2Vec和Senti_Aware詞向量表示示例一
圖4 Word2Vec和Senti_Aware詞向量表示示例二
圖3和圖4分別展示了兩組單詞在Word2Vec和Senti_Aware詞向量表示下的二維平面可視化輸出。為了能夠清楚看到可視化的表示結(jié)果,實(shí)驗(yàn)選取了少量幾個單詞作為示例。圖中的每一個點(diǎn)代表一個單詞的高維詞向量在PCA降維后的二維平面嵌入結(jié)果,兩個點(diǎn)的詞向量表示越接近,則在二維平面越靠近。Word2Vec的詞向量表示結(jié)果在圖的左邊;Senti_Aware詞向量表示的結(jié)果在圖的右邊。
圖3中為一組單詞“good”、“delicious”、“hate”、“bad”、“exciting”、“happy”、“beautiful”在二維平面的可視化結(jié)果。這組單詞的情感極性比較明顯,可以看到Senti_Aware的詞向量表示兼顧了單詞的情感特征信息,能夠區(qū)分情感極性不同的單詞。例如,情感極性負(fù)面的單詞“hate”和“bad”比較靠近,而“good”和“delicious”則聚集在一起。對比Word2Vec的詞向量表示,單詞“happy”、“bad”和“beautiful”聚集在一起,無法有效區(qū)分單詞的情感極性。
在圖3的基礎(chǔ)上,增加幾個語義較為接近的單詞: “dog”、“cat”和“bird”,而隨機(jī)去掉幾個單詞,可視化結(jié)果如圖4所示??梢钥吹?,Word2Vec模型在語義表征上更有優(yōu)勢,能夠?qū)⒄Z義相近的單詞“dog”、“cat”和“bird”聚集在一起,但是單詞“hate”和“exciting”則仍重疊在一起。而Senti_Aware的詞向量表示則仍能明顯區(qū)分單詞的情感極性,“hate”作為情感極性為消極的單詞,與其他單詞有明顯的語義距離。
本文提出一種基于詞向量情感特征表示的跨語言文本情感分析方法,在缺乏BWE詞典的情況下實(shí)現(xiàn)從英語到其他目標(biāo)語言的跨語言情感極性預(yù)測,解決了在基于深度學(xué)習(xí)的跨語言情感分析中BWE詞典較難獲得的問題。所提方法在跨語言情感分析模型中引入源語言的情感監(jiān)督信息以獲得源語言情感感知的詞向量表示,使得詞向量表示能兼顧語義信息和情感特征信息,從而提高情感預(yù)測的性能。實(shí)驗(yàn)以英語已標(biāo)注的文本數(shù)據(jù)為源語言,分別在6種目標(biāo)語言(漢語、法語、德語、日語、韓語和泰語)的未標(biāo)注文本上進(jìn)行情感極性預(yù)測。
實(shí)驗(yàn)表明,所提模型在6種語言上均有較好表現(xiàn),優(yōu)于基于機(jī)器翻譯、基于Word2Vec和采用BWE雙語詞嵌入詞典的跨語言情感預(yù)測方法。所提模型在德語上的跨語言情感分類性能最好,達(dá)到0.812,接近于在德語單語言下的情感預(yù)測性能。本文還分析了影響跨語言情感分析模型的不同因素,實(shí)驗(yàn)發(fā)現(xiàn): ①單詞級別與文檔級別的情感信息均有較好的獨(dú)立監(jiān)督效果,能夠提升模型的性能;②選擇不同的特征提取網(wǎng)絡(luò)如DAN和CNN對模型的性能帶來0.6%~1%的影響,從模型預(yù)測準(zhǔn)確率和收斂速度上看,DAN的總體表現(xiàn)較好;③高維詞向量對于所提模型的分類準(zhǔn)確率提升作用不明顯,在維度為50維時已經(jīng)能很好融合情感語義信息;④采用BWE雙語詞典有助于跨語言情感預(yù)測,然而不同語言對的BWE詞典較難獲得,本文方法能夠在缺少BWE詞典的情況下實(shí)現(xiàn)跨語言情感極性預(yù)測。