• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于mBERT的東南亞小語種推特文本情感分析

      2023-05-30 06:37:42賀友程
      電腦知識(shí)與技術(shù) 2023年1期
      關(guān)鍵詞:小語種文本分類情感分析

      賀友程

      摘要:小語種由于其訓(xùn)練語料資源稀缺,在自然語言處理領(lǐng)域一直是一大難題,使用傳統(tǒng)的機(jī)器學(xué)習(xí)方法與神經(jīng)網(wǎng)絡(luò)方法,具有很大的瓶頸。而跨語言預(yù)訓(xùn)練語言模型的出現(xiàn),對(duì)于低資源語種的包括文本分類在內(nèi)的多項(xiàng)任務(wù),都起到了很大的提升效果。在基于海量語料訓(xùn)練得到的跨語言預(yù)訓(xùn)練語言模型mBERT的基礎(chǔ)上進(jìn)行微調(diào),相較于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,在情感分析任務(wù)的效率和準(zhǔn)確度都可得到不錯(cuò)的提升。

      關(guān)鍵詞: 小語種;預(yù)訓(xùn)練語言模型;文本分類;情感分析;BERT

      中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2023)01-0074-03

      1 引言

      對(duì)小語種文本的情感分析的方法,經(jīng)歷了從構(gòu)建其情感詞典并采用基于規(guī)則的無監(jiān)督方法、挖掘其文本特征并采用有監(jiān)督的分類方法,再到基于跨語種的方法。然而,傳統(tǒng)基于機(jī)器翻譯的方法,或直接將源語種情感詞典翻譯為目標(biāo)語種,或直接將目標(biāo)語種翻譯為源語種后進(jìn)行訓(xùn)練,模型效果不夠理想。

      對(duì)于低資源語種的情感分析,文獻(xiàn)[1]通過將目標(biāo)小語種機(jī)器翻譯為源語種,通過英語情感分類器對(duì)目標(biāo)小語種實(shí)現(xiàn)分類;文獻(xiàn)[2]提出CoNBiLSTM詞嵌入模型在多語言和多領(lǐng)域環(huán)境中進(jìn)行文本分類;文獻(xiàn)[3]比較了4種機(jī)器學(xué)習(xí)方法對(duì)少量的印尼語推特文本進(jìn)行情感分析的效果;文獻(xiàn)[4]提出LAAE網(wǎng)絡(luò)模型,通過LSTM+AAE獲得跨語言情感向量后利用雙向GRU進(jìn)行情感分類任務(wù);文獻(xiàn)[5]提出基于時(shí)間卷積注意力膠囊網(wǎng)絡(luò)的維吾爾語情感分類模型;文獻(xiàn)[6]研究了通過多任務(wù)學(xué)習(xí)訓(xùn)練小語種文本的情感分析模型。

      BERT[7]通過詞嵌入、句子類別、位置信息3個(gè)維度的特征,通過MLM與NSP進(jìn)行微調(diào),在包括文本分類在內(nèi)的多項(xiàng)任務(wù)中均取得良好效果。而mBERT跨語言模型則是BERT的一個(gè)分支,支持100多種語言的多項(xiàng)NLP任務(wù)。本文將mBERT運(yùn)用到東南亞小語種推特文本的情感分析中,構(gòu)建目標(biāo)語種數(shù)據(jù)集,對(duì)mBERT的輸出層進(jìn)行調(diào)整后,通過微調(diào)訓(xùn)練實(shí)現(xiàn)目標(biāo)東南亞小語種推特文本的情感分析器。

      2 數(shù)據(jù)預(yù)處理與數(shù)據(jù)集構(gòu)建

      Sentiment140[8]是由Go等構(gòu)建的包含了1,600,000條從推特爬取的推文的數(shù)據(jù)集,可用于情感分析相關(guān)的訓(xùn)練。本文基于其首先構(gòu)建了源語言的微調(diào)訓(xùn)練數(shù)據(jù)集,并借助谷歌翻譯構(gòu)建了目標(biāo)語言的微調(diào)訓(xùn)練數(shù)據(jù)集。

      2.1 源語言微調(diào)數(shù)據(jù)集構(gòu)建

      Sentiment140數(shù)據(jù)集可用于研究推特中關(guān)于品牌、產(chǎn)品、話題的情感極性,它移除了推文中的表情符號(hào),以csv文件格式存儲(chǔ)。它標(biāo)注了推文的情感極性(積極情感用4表示,消極情感用0表示)、ID、發(fā)布時(shí)間、發(fā)布用戶與內(nèi)容等信息,其格式如表1所示。

      對(duì)于微調(diào)訓(xùn)練數(shù)據(jù)集,僅需要關(guān)注其推文內(nèi)容與情感極性,因此本文從中分別截取了僅包含推文情感標(biāo)注與推文內(nèi)容的10000條正向情感推文與負(fù)向情感推文,共20000條數(shù)據(jù)作為源語言微調(diào)數(shù)據(jù)集。

      2.2 構(gòu)建目標(biāo)語言微調(diào)訓(xùn)練數(shù)據(jù)集

      本文利用了GitHub上的開源工具googletrans調(diào)用谷歌翻譯任務(wù),它具備快速、可靠的特點(diǎn),支持源語言自動(dòng)識(shí)別、批量翻譯、自定義服務(wù)地址以及HTTP/2。它的原理是通過構(gòu)造AJAX請(qǐng)求完成谷歌翻譯的請(qǐng)求過程,再對(duì)HTTP GET請(qǐng)求的返回結(jié)果進(jìn)行解析,得到最終的翻譯結(jié)果。通過設(shè)置多個(gè)翻譯服務(wù)地址,可以使其在每次翻譯時(shí)隨機(jī)選擇一個(gè)服務(wù)地址進(jìn)行請(qǐng)求,避免短時(shí)間內(nèi)對(duì)同一個(gè)地址進(jìn)行多次請(qǐng)求。

      3 mBERT模型與微調(diào)

      BERT模型的輸入表示由字向量(Token Embedding) 、文本向量(Segment Embedding) 和位置向量(Position Embedding) 三部分求和而成,模型輸出為各字對(duì)應(yīng)的融合全文語義信息后的向量表示,內(nèi)部則是由Transformer編碼器堆疊而成。

      BERT的多語言版本mBERT直接使用多語言的單語語料,采用MLM作為訓(xùn)練目標(biāo)進(jìn)行訓(xùn)練,過程中沒有加入任何信息來指示每句話的語種,也沒有促使不同語言同義句具有相似表達(dá)的顯性機(jī)制。它有cased與uncased兩個(gè)模型,均具備12層Transformer塊、768維的字向量與12個(gè)注意力機(jī)制頭。而前者會(huì)考慮字符的大小寫并支持非拉丁字符,因此本文選擇前者進(jìn)行微調(diào)訓(xùn)練。

      本文通過修改BERT中Processor的邏輯,調(diào)整最后的輸出層為二分類任務(wù),用上述得到的目標(biāo)語種二分類文本訓(xùn)練數(shù)據(jù)集進(jìn)行微調(diào)訓(xùn)練,最終得到目標(biāo)語種的推特文本情感分類模型,過程如圖1所示。

      4 實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文使用推特情感分析數(shù)據(jù)集Sentiment140中提取的20000條數(shù)據(jù)通過谷歌翻譯后得到的越南語(vi) 、泰語(th) 、緬甸語(my) 和印尼語(id) 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。由于通過googletrans進(jìn)行谷歌翻譯對(duì)于用戶直接調(diào)用AJAX請(qǐng)求的頻率有限制,而本文需要完成的翻譯量較大,因此采用多線程方式,結(jié)合多個(gè)谷歌翻譯服務(wù)地址,以加速文本的翻譯。為此,本文對(duì)20000條源語言推文數(shù)據(jù),采用以2000條為一組,8個(gè)谷歌翻譯服務(wù)地址,10個(gè)線程共同進(jìn)行翻譯任務(wù)。另外,由于mBERT原生支持的數(shù)據(jù)格式為tsv格式,因此將翻譯后的數(shù)據(jù)輸出為tsv格式,僅包含標(biāo)簽與數(shù)據(jù)兩項(xiàng)內(nèi)容。其中,按照9:1的方式劃分訓(xùn)練集與測(cè)試集。實(shí)驗(yàn)數(shù)據(jù)詳情見表2。

      4.2 評(píng)價(jià)標(biāo)準(zhǔn)

      本文進(jìn)行的是文本分類任務(wù),采用準(zhǔn)確率(A) 、精確率(P) 、召回率(R) 與F1值作為評(píng)價(jià)標(biāo)準(zhǔn)。定義如下:

      4.3 實(shí)驗(yàn)結(jié)果

      為了對(duì)比不同方法對(duì)東南亞小語種推特情感分析的效果,本文對(duì)比了文獻(xiàn)[3]中得到的兩種最佳方法:樸素貝葉斯算法與多層感知機(jī)算法。其中對(duì)多層感知機(jī)方法的實(shí)驗(yàn)采用維度為(50,50) 的隱藏層結(jié)構(gòu)。通過相同的方法劃分訓(xùn)練集與測(cè)試集,得到各項(xiàng)評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果如表3所示。

      實(shí)驗(yàn)結(jié)果表明,對(duì)于低資源的東南亞小語種,通過預(yù)訓(xùn)練跨語言模型mBERT進(jìn)行微調(diào)后得到的情感分析模型效果,要優(yōu)于樸素貝葉斯方法與多層感知機(jī)方法。

      5 結(jié)束語

      在情感分析的研究中,對(duì)于英語等語料庫豐富的高資源語種,已經(jīng)有非常成熟的研究與實(shí)踐方法,而對(duì)于低資源語種,尤其是包含東南亞語種在內(nèi)的小語種,由于訓(xùn)練數(shù)據(jù)缺乏,因此無法像英語等語種一樣訓(xùn)練出健壯成熟的單語言模型,目前在包括文本分類等任務(wù)中無法達(dá)到同等的效果。

      本文在對(duì)東南亞小語種情感分析相關(guān)研究的基礎(chǔ)上,探索了采用預(yù)訓(xùn)練跨語言模型mBERT進(jìn)行微調(diào)的方法對(duì)目標(biāo)語種推特文本的情感分析,實(shí)驗(yàn)結(jié)果表明該方法可以獲得比傳統(tǒng)的樸素貝葉斯方法與多層感知機(jī)方法更好的效果。然而,由于本文微調(diào)數(shù)據(jù)集基于機(jī)器翻譯得出,因此最終模型可能受機(jī)器翻譯模型效果的影響。未來可通過對(duì)微調(diào)訓(xùn)練數(shù)據(jù)進(jìn)行降噪處理、改善微調(diào)模型等,提升情感分類效果。

      參考文獻(xiàn):

      [1] Can E F,Ezen-Can A,Can F.Multilingual sentiment analysis:an RNN-based framework for limited data[EB/OL].[2021-09-20].2018:arXiv:1806.04511.https://arxiv.org/abs/1806.04511.

      [2] Nguyen H T,Le Nguyen M.Multilingual opinion mining on YouTube - A convolutional N-gram BiLSTM word embedding[J].Information Processing & Management,2018,54(3):451-462.

      [3] Indriani D,Nasution A H,Monika W,et al.Towards a sentiment analyser for low-resource languages[M]//Proceedings of International Conference on Smart Computing and Cyber Security.Singapore:Springer Singapore,2020:109-118.

      [4] 沈江紅,廖曉東.基于LAAE網(wǎng)絡(luò)的跨語言短文本情感分析方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2021,30(6):203-208.

      [5] Luo H, Yang Y, Dong R, et al. 基于時(shí)間注意力膠囊網(wǎng)絡(luò)的維吾爾語情感分類模型 (Uyghur Sentiment Classification Model Based on Temporal Attention Capsule Networks)[C]//Proceedings of the 20th Chinese National Conference on Computational Linguistics, 2021: 248-257.

      [6] Hande A,Hegde S U,Priyadharshini R,et al.Benchmarking multi-task learning for sentiment analysis and offensive language identification in under-resourced Dravidian languages[EB/OL]. [2022-03-20].2021:arXiv:2108.03867.https://arxiv.org/abs/2108.03867.

      [7] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language nderstanding[EB/OL].[2021-09-20].2018:arXiv:1810.04805.https://arxiv.org/abs/1810.04805.

      [8] Go A,Bhayani R,Huang L.Twitter sentiment classification using distant supervision[J].CS224N project report, Stanford,2009,1(12):2009.

      【通聯(lián)編輯:光文玲】

      猜你喜歡
      小語種文本分類情感分析
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
      在線評(píng)論情感屬性的動(dòng)態(tài)變化
      基于貝葉斯分類器的中文文本分類
      小語種就業(yè)現(xiàn)狀調(diào)查與分析
      商情(2016年42期)2016-12-23 16:59:56
      高職單招班小語種優(yōu)質(zhì)課堂教學(xué)探究
      教師·下(2016年10期)2016-12-03 09:32:13
      基于蟻群智能算法的研究文本分類
      文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
      科技視界(2016年24期)2016-10-11 09:36:57
      全球化背景下小語種語言的發(fā)展
      考試周刊(2016年45期)2016-06-24 13:37:23
      宜阳县| 绥棱县| 海门市| 合作市| 聂荣县| 道真| 桓仁| 韩城市| 东乌| 津南区| 吴江市| 怀柔区| 烟台市| 阿克陶县| 巴马| 普格县| 浪卡子县| 渭南市| 镇江市| 邓州市| 洪雅县| 漯河市| 浦县| 洪湖市| 荔浦县| 中方县| 开平市| 江永县| 儋州市| 玉林市| 台南市| 博白县| 衡南县| 衢州市| 西青区| 龙里县| 瓦房店市| 花莲市| 龙山县| 平遥县| 拉萨市|