• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于層級自適應(yīng)微調(diào)的長文本分類算法研究

      2023-11-30 04:55:18鄭堅王俊鑫陳奕林林靈鑫侯子豪
      無線互聯(lián)科技 2023年18期
      關(guān)鍵詞:注意力機制

      鄭堅 王俊鑫 陳奕林 林靈鑫 侯子豪

      作者簡介:鄭堅燚(1997— ),男,廣東汕頭人,工程師,碩士;研究方向:自然語言處理。

      摘要:隨著算力的提升,文本分類算法已進入深度學(xué)習時代。文章以深度學(xué)習下的自適應(yīng)微調(diào)長文本分類模型為基礎(chǔ),針對其策略網(wǎng)絡(luò)存在決策能力不足與離散噪聲這一問題,結(jié)合現(xiàn)有分層模型展開研究,提出融合層編碼的層級自適應(yīng)微調(diào)長文本分類模型,力求推進模型在長文本分類任務(wù)上的性能。首先,文章重構(gòu)策略網(wǎng)絡(luò),將策略網(wǎng)絡(luò)遷移至模型內(nèi)部,消除離散噪聲,提高決策精度。其次,考慮預(yù)訓(xùn)練模型的層級特征差異,文章提出層編碼,為策略網(wǎng)絡(luò)提供層位置信息,提高策略網(wǎng)絡(luò)對特征的層位置感知。文章基于Yelp-2013、IMDB、Reuters 3個國際數(shù)據(jù)集,利用對比實驗、燒蝕實驗驗證模型性能。實驗表明,文章提出的長文本分類模型相較于基線模型在3個數(shù)據(jù)集上的性能更優(yōu)。

      關(guān)鍵詞:長文本分類;預(yù)訓(xùn)練模型;注意力機制;循環(huán)神經(jīng)網(wǎng)絡(luò)

      中圖分類號:TP391.1? 文獻標志碼:A

      0? 引言

      隨著 5G 技術(shù)的發(fā)展,長文本數(shù)據(jù)量劇增。長文本數(shù)據(jù)在社會信息傳播中扮演了重要的角色,高效的長文本分類算法能提高數(shù)據(jù)管理系統(tǒng)對長文本數(shù)據(jù)的管理效率。良好的數(shù)據(jù)管理系統(tǒng)不僅能提高企業(yè)對長文本數(shù)據(jù)的管理水平,還能提高信息調(diào)配速率并優(yōu)化用戶體驗。隨著算力的提升,深度學(xué)習下的長文本分類算法研究也在不斷推進。

      當前,深度學(xué)習下的長文本分類算法研究可分為基于非預(yù)訓(xùn)練模型的淺層模型與基于預(yù)訓(xùn)練模型的深層模型。淺層模型基于Long Short Term Memory(LSTM)等時序模型搭建,如tree-LSTM、緩存 LSTM等[1-3]。該類模型具有計算量低、易于實現(xiàn)等優(yōu)點,但在長文本分類任務(wù)中仍存在梯度爆炸的問題。相較于前者,深層模型利用預(yù)訓(xùn)練模型對文本塊進行特征抽取,由此建模上下文,在長文本分類任務(wù)下的性能有較大的提升,如:Hierarchical BERT with An Aadaptive Fine-tuning Strategy(HAdaBERT)等[4]。但是,深層模型下的自適應(yīng)微調(diào)模型仍存在問題,如:策略網(wǎng)絡(luò)決策能力不足、離散噪聲等。

      1? 模型設(shè)計與原理

      針對自適應(yīng)微調(diào)模型所存在的問題,本文提出一種融合層編碼的層級自適應(yīng)微調(diào)長文本分類模型,模型結(jié)構(gòu)如圖1所示。該模型由Local Encoder(局部編碼器)與Global Encoder(全局編碼器)組成。其中,局部編碼器由融合層編碼的層級自適應(yīng)微調(diào)BERT(Layer Aadaptive Fine-tuning BERT with Layer Encoding,LAdaBERT/LE)組成,局部編碼器對文本塊進行特征提取,形成具有上下文特征的文本塊特征。全局編碼器由BiLSTM(Bi-directional Long Short Term Memory)、AGM(Attention-based Gated Memory Network)、輸出層組成,全局編碼器對文本塊特征進行融合,形成長文本特征后投入輸出層完成長文本分類任務(wù)[4]。

      1.1? 局部編碼器

      本文以自適應(yīng)微調(diào)模型為基礎(chǔ),由于該模型的輸入長度限制為512詞,待分類的長文本被分割為多個文本塊。為了建立文本塊之間的聯(lián)系,同一個長文本中的上一個文本塊的尾句取出,設(shè)置為下一個文本塊的首句。若當前文本塊長度超出文本塊閾值,則當前句將被保存,作為下一文本塊的首句。

      1.1.1? LAdaBERT/LE

      當長文本被分割為文本塊后被分別投入LAdaBERT/LE中提取文本塊特征。該模型由多層重復(fù)單元組成,其結(jié)構(gòu)如圖1中右側(cè)所示。其中,每層單元由動態(tài)BERT單元、靜態(tài)BERT單元、策略網(wǎng)絡(luò)組成。單層單元的計算公式如下:

      LayerOuti=Wai×pi+Wfi×(1-pi)(1)

      其中,LayerOuti為第i層輸出,Wai為當前層動態(tài)BERT單元輸出,Wfi為當前層靜態(tài)BERT單元輸出,pi為當前層策略權(quán)重。經(jīng)過多層單元計算,獲得最終的輸出Vi,即第i個文本塊特征。

      1.1.2? 策略網(wǎng)絡(luò)

      策略權(quán)重pi由策略網(wǎng)絡(luò)產(chǎn)生,其結(jié)構(gòu)如圖2所示。本文將策略網(wǎng)絡(luò)遷移到模型內(nèi)部,相比外部策略網(wǎng)絡(luò),內(nèi)部策略網(wǎng)絡(luò)更貼近決策層與決策信息,降低了決策難度。因此,在本文中,策略網(wǎng)絡(luò)利用多層全連接層與Sigmoid激活函數(shù)完成決策計算,Sigmoid激活函數(shù)的引入消除了離散噪聲。其計算公式如下:

      pi=σ(MLP(LayerOuti-1[0]+Li))(2)

      其中,σ表示Sigmoid激活函數(shù),MLP為全連接層,LayerOuti-1[0]表示上層輸出的第一個向量,Li表示當前層層編碼。

      1.1.3? 層編碼

      為了增強策略網(wǎng)絡(luò)對當前層位置的感知,本文提出層編碼。本文采用靜態(tài)構(gòu)建的方式產(chǎn)生層編碼,為策略網(wǎng)絡(luò)提供層位置信息,其計算公式如下:

      LE(l,2i)=sinl10 0002idmodel(3)

      LE(l,2i+1)=cosl10 0002idmodel(4)

      其中,l表示當前層位置,dmodel表示層編碼的維度,該維度與輸入向量維度一致,2i表示偶數(shù)維度,2i+1表示奇數(shù)維度。

      1.2? 全局編碼器

      文本塊經(jīng)LAdaBERT/LE處理后,歸屬于同個長文本的文本塊特征被按順序收集,由此構(gòu)建每個長文本的文本塊特征合集VCi,文本塊特征合集經(jīng)全局編碼器處理后形成長文本特征,該特征被投入分類層完成分類。

      1.2.1? 雙向交互網(wǎng)絡(luò)

      在全局編碼器中,文本塊特征集合首先被投入BiLSTM層進行特征交互,經(jīng)殘差連接后產(chǎn)生中間特征Hi,其計算公式如下:

      Hi=BiLSTM(VCi)+VCi(5)

      其中,BiLSTM表示BiLSTM層。在長文本中,并非所有特征具有同等重要性。本文引入AGM網(wǎng)絡(luò),該網(wǎng)絡(luò)通過注意力機制,計算中間特征的重要性并進行交互,由此產(chǎn)生長文本特征o。其計算公式如下:

      o=AGM(Hi)(6)

      其中,AGM表示AGM網(wǎng)絡(luò)。長文本特征向量o自此構(gòu)建完成。

      1.2.2? 輸出層

      與其他分類模型輸出層一致,本文采用全連接層與Softmax激活函數(shù)組合為輸出層,輸出層利用長文本特征計算并輸出樣本在各個類別上的概率,其計算公式如下:

      ycn^=Softmax(MLP(on))(7)

      其中, ycn^表示第n個樣本在c個類別上各自的預(yù)測概率,Softmax表示Softmax激活函數(shù)。本文針對長文本數(shù)據(jù)下的多分類與多標簽分類進行研究,因此采用交叉熵損失函數(shù),其計算公式如下:

      =-∑Ni=1(yi)×log( ycn^)(8)

      其中,yi為真實標簽,(.)為獨熱編碼。

      2? 數(shù)據(jù)集介紹

      本文針對長文本分類任務(wù),在 Yelp-2013、IMDB(Internet Movie Database)、Reuters 3個國際公開數(shù)據(jù)集上進行實驗。其中,數(shù)據(jù)集的樣本量分別為78 966、135 669、10 789,類別數(shù)分別為5、10、90,Yelp-2013與IMDB數(shù)據(jù)集為多分類任務(wù),評價指標為準確率,Reuters數(shù)據(jù)集為多標簽分類任務(wù),評價指標為F1分數(shù)。

      3? 實驗參數(shù)設(shè)置與分析

      3.1? 實驗參數(shù)設(shè)置

      本文所采用的實驗平臺為單卡單機平臺,操作系統(tǒng)為Windows 10 專業(yè)版,處理器為Intel(R)Core(TM)i7-10700 CPU @2.90 GHz,運算加速器為 RTX3090(24G),采用的編程語言為Python3.10,深度學(xué)習框架為Pytorch1.10.2,CUDA版本為11.7.1。對于Yelp-2013、IMDB、Reuters數(shù)據(jù)集,訓(xùn)練epoch分別設(shè)置為50、50、100,學(xué)習率分別設(shè)置為6e-5、1e-5、1.2e-4,文本塊閾值分別設(shè)置為160、160、360。

      3.2? 實驗結(jié)果分析

      本文采用對比實驗與燒蝕實驗驗證模型的有效性。實驗結(jié)果如表2所示。其中,TACC表示測試集準確率,DACC表示驗證集準確率,TF1表示測試集F1分數(shù),DF1表示驗證集F1分數(shù)。

      3.2.1? 對比實驗

      表2展示了多個模型在不同數(shù)據(jù)集上的表現(xiàn)情況,相較于基線模型,本文所提出的長文本分類模型在各個數(shù)據(jù)集上的表現(xiàn)最優(yōu),充分展示了該模型在長文本分類任務(wù)上的優(yōu)秀性能。

      3.2.2? 燒蝕實驗

      本文采用燒蝕實驗驗證內(nèi)部策略網(wǎng)絡(luò)與層編碼的有效性,實驗結(jié)果如表2所示。其中,LAdaBERT表示刪除層編碼后的模型,HAdaBERT表示采用外部策略網(wǎng)絡(luò)并去除層編碼的模型。由實驗結(jié)果可知,當模型采用內(nèi)部策略網(wǎng)絡(luò)時,模型性能有所提升,這表明內(nèi)部策略網(wǎng)絡(luò)相較于外部策略網(wǎng)絡(luò)的決策能力更高,進一步提升了模型在長文本分類任務(wù)上的性能。當模型采用內(nèi)部決策網(wǎng)絡(luò)并引入層編碼后,模型性能進一步提升,這表明層編碼所帶來的層位置信息提高了策略網(wǎng)絡(luò)的決策能力,進而提升了模型的長文本分類性能。

      4? 結(jié)語

      為了優(yōu)化自適應(yīng)微調(diào)模型在長文本分類任務(wù)上的性能,本文采用內(nèi)部策略網(wǎng)絡(luò)與層編碼提高決策網(wǎng)絡(luò)決策能力,提出融合層編碼的層級自適應(yīng)微調(diào)長文本分類算法。實驗表明,該模型在長文本分類任務(wù)上具有良好的分類性能。

      參考文獻

      [1]HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural computation,1997(8):1735-1780.

      [2]TAI K S,SOCHER R,MANNING C D.Improved semantic representations from tree-structured long short-term memory networks:Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing[C].Stroudsburg,PA:ACL,2015.

      [3]XU J,CHEN D,QIU X,et al.Cached long short-term memory neural networks for document-level sentiment classification:Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing[C].Stroudsburg,PA:ACL,2016.

      [4]KONG J,WANG J,ZHANG X.Hierarchical BERT with an adaptive fine-tuning strategy for document classification[J].Knowledge-Based Systems,2022(238):107872.

      (編輯? 王永超編輯)

      Research on long text classification algorithm based on hierarchical adaptive fine-tuning

      Zheng? Jianyi1, Wang? Junxin2, Chen? Yilin3, Lin? Lingxin4, Hou? Zihao5

      (Guangdong University of Technology, Guangzhou 510000, China)

      Abstract:? With the improvement of computational power, text classification algorithms have entered the era of deep learning. This article is based on an adaptive fine-tuning long text classification model under deep learning and focuses on the issues of insufficient decision-making ability and discrete noise in its policy network. By combining existing hierarchical models, a hierarchical adaptive fine-tuning long text classification model with fusion layer encoding is proposed, aiming to advance the performance of the model in long text classification tasks. Firstly, this article reconstructs the policy network by transferring it internally within the model, eliminating discrete noise and improving decision accuracy. Secondly, considering the hierarchical feature differences of pre-trained models, this article introduces layer encoding to provide layer position information to the policy network, enhancing the decision networks perception of feature layer positions. Based on the Yelp-2013, IMDB, and Reuters international datasets, this article validates the models performance through comparative experiments and ablative experiments. The results demonstrate that the proposed long text classification model outperforms the baseline model on all three datasets.

      Key words: long text classification; pre-training model; attention mechanism; recurrent neural network

      猜你喜歡
      注意力機制
      基于注意力機制的行人軌跡預(yù)測生成模型
      基于注意力機制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
      多特征融合的中文實體關(guān)系抽取研究
      基于序列到序列模型的文本到信息框生成的研究
      基于深度學(xué)習的手分割算法研究
      從餐館評論中提取方面術(shù)語
      面向短文本的網(wǎng)絡(luò)輿情話題
      基于自注意力與動態(tài)路由的文本建模方法
      基于深度學(xué)習的問題回答技術(shù)研究
      基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
      罗平县| 四平市| 衡南县| 临颍县| 鲜城| 福州市| 西藏| 龙门县| 虹口区| 同江市| 鄱阳县| 唐河县| 库尔勒市| 清丰县| 溧阳市| 汪清县| 新乐市| 卢龙县| 鸡泽县| 陈巴尔虎旗| 济宁市| 遵义县| 乌苏市| 东乡| 海宁市| 乌鲁木齐县| 密山市| 伊吾县| 靖远县| 花莲县| 元朗区| 敦煌市| 汉阴县| 大荔县| 浏阳市| 常熟市| 瑞昌市| 丹寨县| 华宁县| 雷波县| 富阳市|