• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多標簽文本分類研究綜述

      2024-01-24 08:52:09李楚貞江濤
      電腦知識與技術(shù) 2023年34期
      關(guān)鍵詞:特征提取深度學習

      李楚貞 江濤

      摘要:文章旨在對多標簽文本分類的最新研究進行全面回顧。首先,介紹其定義和過程,然后,詳細說明了多標簽文本分類方法并總結(jié)其研究趨勢和差距,多標簽文本分類方法為該領域的研究提供參考并指導未來研究。

      關(guān)鍵詞:多標簽文本分類;深度學習;特征提取

      中圖分類號:TP311? ? ? ? 文獻標識碼:A

      文章編號:1009-3044(2023)34-0071-03

      開放科學(資源服務)標識碼(OSID)

      0 引言

      自引入深度學習以來,多標簽文本分類方法已取得重大進展,但仍存在一些問題和挑戰(zhàn)。隨著標簽數(shù)量的增加,與每個文本相對應所有可能的標簽組合呈指數(shù)增長。在提取文本之后,使用哪種分類方法來提高文本分類的速度和準確性是其中一個挑戰(zhàn)。本文重點從多標簽文本分類方法出發(fā)闡述其優(yōu)缺點。

      1 多標簽文本分類

      多標簽文本分類方法根據(jù)預定義的標簽集是否具有層次關(guān)系大致可分為平面多標簽文本分類和層次多標簽文本分類。

      平面多標簽文本分類方法的預定義標簽集中的標簽與標簽之間沒有層次結(jié)構(gòu)。常見的平面多標簽的分類方式,主要包括了基于詞典的方式、基于機器學習的方式,以及基于深度學習的方式。

      1.1 基于詞典的方法

      早期的基于詞典的方法是一種半監(jiān)督方法。它根據(jù)與每個標簽相關(guān)詞典中的單詞數(shù)量為文檔分配標簽,并使用這一分類標準將文檔分類為多個單獨的類別。文獻[2]中使用了與領域無關(guān)的方法來自動生成詞典,節(jié)省了時間和精力。它將文檔中的文本向量與詞典中包含的每個標簽相關(guān)聯(lián)的詞匯進行匹配,從而實現(xiàn)準確分類?;谠~典的分類方法簡單明了,但它分類的背后是假設每個詞典中的所有單詞都具有相同的重要性。這在實踐中是不合理的。此外,基于詞典的方法忽略了多詞現(xiàn)象和多義現(xiàn)象,并且詞典可能是不完整的。

      1.2 基于機器學習的方法

      問題轉(zhuǎn)換方法與算法自適應方法,是兩個最常用的基于機器學習的多標簽文本分類方法。問題轉(zhuǎn)換方法主要有二元相關(guān)(BR)[3]、分類器鏈(CC)[4]、標簽冪集分解(LP)[5],算法自適應方法主要有ML-DT[6]、Rank SVM[7]和ML-KNN[8]。表1和表2分別對問題轉(zhuǎn)換方法和算法自適應方法進行總結(jié)。盡管部分方法可以捕獲標簽的相關(guān)性,但它們都只能捕捉標簽之間一階或二階的相關(guān)性,而無法捕獲高階的相關(guān)性。

      1.3 基于深度學習的方法

      1) 基于CNN方法

      BP-MLL是最早將神經(jīng)網(wǎng)絡模式運用到MLTC的方法。它使用一個完全連接的網(wǎng)絡和排名損失進行分類。2014年,在BP-MLL的基礎上,Nam等人[9]將損失函數(shù)修改為交叉熵損失函數(shù),同時使用AdaGrad優(yōu)化算法和dropout技術(shù),在大規(guī)模文本分類中取得了較好的性能。Kurata等人[10]使用CNN對多標簽文本分類任務進行了建模,它將句子中的單詞以單詞向量的形式疊加到句子矩陣中,再通過卷積和池化操作捕獲單詞之間的語義特征。Yang等人[11]還提供了一個雙孿生CNN系統(tǒng)(HSCNN)來處理多標簽文本類型的不均衡問題。該網(wǎng)絡采用混合機制,頭標簽采取單一結(jié)構(gòu),尾標簽采取孿生網(wǎng)絡結(jié)構(gòu)。

      上述方案都是完善CNN的架構(gòu)以滿足多標簽文本分類。盡管這種方法相對簡單,但使用池化操作會導致位置信息的丟失,并且當文本過長時,CNN不利于捕捉上下文之間的關(guān)系。

      2) 基于RNN方法

      在使用RNN時,經(jīng)常使用改進的RNN算法,包括Hochreiter等人提出的LSTM和Cho等人提出的GRU來解決長期依賴性問題。

      Xiao等人[12]提出了一種基于Word2vec和LSTM的文本分類模型。他們使用Word2vec來克服高維問題,再通過訓練LSTM分類模型,有效地對專利文本進行分類。Gao等人[13]將LSTM應用于多標簽文本分類。首先,LSTM用于獲得蛋白質(zhì)序列數(shù)據(jù)的長距離依賴性特征,然后對特征向量進行一維卷積處理。為了提高分類的準確性,Gao等人[13]采用基于多標簽排序的損失函數(shù)和RMSProp優(yōu)化算法。Zhou等人[14]提出具有注意機制的BiLSTM模型。該模型可以自動提取分類問題中最重要的特征。Liu等人[15]提出了一種基于BiGRU和注意力機制的BGRUA模型來識別HTTPS流量服務。

      3) 基于混合的方法

      為改善分類效果,研究者們建議將CNN與RNN相結(jié)合。Jang等人[16]提出了一個采用注意力機制的Bi-LSTM+CNN混合模型。它首先采用了Word2vec生成詞向量,然后再通過CNN獲得句子的局部特征。然后,再把局部特征饋送到Bi-LSTM中來獲得全局特征。Salur等人[17]提出了一種新的混合模型,該模型將不同的單詞嵌入與各種算法(LSTM、Bi-LSTM、CNN和GRU) 相結(jié)合。Xiao等人[18]設計了一種電能質(zhì)量擾動的綜合分類方法。它將CNN-GRU、ResNet-GRU和Inception-GRU三種方法集成在一起。為了提高對真實數(shù)據(jù)的分類性能,采用了“預訓練和再訓練”方法,作者將其方法與典型的深度學習方法和傳統(tǒng)的分類方法作了對比,結(jié)果顯示它在五個評價指標上性能更好。Dong等人[19]結(jié)合標簽嵌入和自交互注意機制對文本進行分類。這是首次嘗試在文本分類中使用自交互注意捕捉文本中所有句子之間的交互信息。Wang等人[20]證明標簽有助于獲得更重要的單詞進行分類。

      為了考慮標簽之間的相關(guān)性,Yang等人[21]首次提出把多標簽分類任務當作序列生成問題。盡管該模型可以獲得標簽之間的相關(guān)性,但解碼器基于其先前預測的標簽來預測下一個標簽。因此,模型最終結(jié)果在很大程度上取決于標簽的順序和分布。此外,該模型的編碼器僅使用BiLSTM來讀取文本序列。BiLSTM雖可以捕捉文本的全局特性,但卻無法捕捉文本的局部特征以及詞匯在文本中的位置信息。Liao等人[22]對多標簽分類序列生成模型進行修改。該模型不僅捕獲文本的局部特征與全局語義信息還考慮了標簽和標簽之間的相互關(guān)系,但該方法的預測結(jié)果仍然取決于標簽的順序,且誤差容易累積。為了避免誤差積累,Wang等人[23]提出一種基于動態(tài)路由的序列生成模型。該方法在隱藏層之后增加了動態(tài)路由聚合層,并實現(xiàn)了通過路由參數(shù)的全局共享來減少誤差積累的影響。為了避免依賴于標簽順序,Yang等人[24]提出了序列集模型,該模型通過強化學習進行訓練,但它只能減少而不是完全消除標簽序列的影響。Qin等人[25]提出自適應RNN序列預測模型,該模型可以發(fā)現(xiàn)最佳標簽順序,但它會產(chǎn)生較高的計算成本,因為它的訓練目的是找到最可能的標簽集,而不是標簽序列。Yang等人[26]提供了多標簽深層森林(MLDF)的技術(shù),它通過多層的標簽樹法來建立深層森林,而標記相關(guān)性則是利用逐層表示的方法來實現(xiàn)的。Wang等人[27]設計基于推理的多標簽推理器(ML Reasoner) 。它能夠利用標簽之間的信息,同時避免標簽順序敏感性的問題,但計算量大。

      2 結(jié)論

      本文重點闡述了多標簽文本分類中的分類方法,分析各種方法的優(yōu)點和局限性。學者們已經(jīng)證明標簽的相關(guān)性可以提高分類性能,但目前的分類方法大部分都只能減少標簽的順序依賴,無法完全消除標簽的順序依賴性問題,因此在以后的研究中將從這方面展開。

      參考文獻:

      [1] 劉心惠,陳文實,周愛,等.基于聯(lián)合模型的多標簽文本分類研究[J].計算機工程與應用,2020,56(14):111-117.

      [2] HMEIDI I,AL-AYYOUB M,MAHYOUB N A,et al.A lexicon based approach for classifying Arabic multi-labeled text[J].International Journal of Web Information Systems,2016,12(4):504-532.

      [3] BOUTELL M R,LUO J B,SHEN X P,et al.Learning multi-label scene classification[J].Pattern Recognition,2004,37(9):1757-1771.

      [4] READ J,PFAHRINGER B,HOLMES G,et al.Classifier chains for multi-label classification[J].Machine Learning,2011,85(3):333-359.

      [5] TSOUMAKAS G,KATAKIS I.Multi-label classification[J].International Journal of Data Warehousing and Mining,2007,3(3):1-13.

      [6] CLARE A,KING R D.Knowledge discovery in multi-label phenotype data[M]//Principles of Data Mining and Knowledge Discovery.Berlin,Heidelberg:Springer Berlin Heidelberg,2001:42-53.

      [7] ELISSEEFF A,WESTON J.A kernel method for multi-labelled classification[M]//Advances in Neural Information Processing Systems .The MIT Press,2002:681-688.

      [8] ZHANG M L,ZHOU Z H.ML-KNN:a lazy learning approach to multi-label learning[J].Pattern Recognition,2007,40(7):2038-2048.

      [9] NAM J,KIM J,LOZA MENCíA E,et al.Large-scale multi-label text classification—revisiting neural networks[M]//Machine Learning and Knowledge Discovery in Databases.Berlin,Heidelberg:Springer Berlin Heidelberg,2014:437-452.

      [10] KURATA G,XIANG B,ZHOU B W.Improved neural network-based multi-label classification with better initialization leveraging label co-occurrence[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA,USA:Association for Computational Linguistics,2016:521-526.

      [11] YANG W. MSCNN: a monomeric-siamese convolutional neural network for extremely imbalanced multi-label text classification[C]//Proceedings of the 2020 conference on empirical methods in natural language processing (EMNLP),2020.

      [12] XIAO L Z,WANG G Z,ZUO Y.Research on patent text classification based on Word2Vec and LSTM[C]//2018 11th International Symposium on Computational Intelligence and Design (ISCID).IEEE,2018:71-74.

      [13] GAO Z Y,SUN L J,WEI Z H.A multi-label classifier for human protein subcellular localization based on LSTM networks[C]//Proceedings of the 2018 International Conference on Advanced Control,Automation and Artificial Intelligence (ACAAI 2018)Paris,F(xiàn)rance:Atlantis Press,2018:248-252.

      [14] ZHOU P,SHI W,TIAN J,et al.Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2:Short Papers).Stroudsburg,PA,USA:Association for Computational Linguistics,2016:207-212.

      [15] LIU X,YOU J L,WU Y L,et al.Attention-based bidirectional GRU networks for efficient HTTPS traffic classification[J].Information Sciences,2020,541:297-315.

      [16] JANG B,KIM M,HARERIMANA G,et al.Bi-LSTM model to increase accuracy in text classification:combining Word2Vec CNN and attention mechanism[J].Applied Sciences,2020,10(17):5841.

      [17] SALUR M U,AYDIN I.A novel hybrid deep learning model for sentiment classification[J].IEEE Access,2020,8:58080-58093.

      [18] XIAO X G,LI K C.Multi-label classification for power quality disturbances by integrated deep learning[J].IEEE Access,1809(9):152250-152260.

      [19] DONG Y R,LIU P Y,ZHU Z F,et al.A fusion model-based label embedding and self-interaction attention for text classification[J].IEEE Access,2019,8:30548-30559.

      [20] WANG G Y,LI C Y,WANG W L,et al.Joint embedding of words and labels for text classification[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers).Stroudsburg,PA,USA:Association for Computational Linguistics,2018.

      [21] YANG P C,SUN X,LI W,et al.SGM:sequence generation model for multi-label classification[EB/OL].[2022-10-20].2018:arXiv: 1806.04822.https://arxiv.org/abs/1806.04822.pdf.

      [22] LIAO W Z,WANG Y,YIN Y C,et al.Improved sequence generation model for multi-label classification via CNN and initialized fully connection[J].Neurocomputing,2020,382:188-195.

      [23] 王敏蕊,高曙,袁自勇,等.基于動態(tài)路由序列生成模型的多標簽文本分類方法[J].計算機應用,2020,40(7):1884-1890.

      [24] YANG P C,LUO F L,MA S M,et al.A deep reinforced sequence-to-set model for multi-label classification[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2019:5252-5258.

      [25] QIN K C,LI C,PAVLU V,et al.Adapting RNN sequence prediction model to multi-label set prediction[EB/OL].[2022-10-22].2019:arXiv:1904.05829.https://arxiv.org/abs/1904.05829.pdf.

      [26] YANG L,WU X Z,JIANG Y,et al.Multi-label learning with deep forest[EB/OL].[2022-10-22].2019:arXiv:1911.06557.https://arxiv.org/abs/1911.06557.pdf.

      [27] WANG R,RIDLEY R,SU X A,et al.A novel reasoning mechanism for multi-label text classification[J].Information Processing & Management,2021,58(2):102441.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      特征提取深度學習
      基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
      電子制作(2019年15期)2019-08-27 01:12:00
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      一種基于LBP 特征提取和稀疏表示的肝病識別算法
      有體驗的學習才是有意義的學習
      電子商務中基于深度學習的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
      大數(shù)據(jù)技術(shù)在反恐怖主義中的應用展望
      深度學習算法應用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于DSP的直線特征提取算法
      东乡族自治县| 陵水| 金门县| 桃园市| 射阳县| 祁连县| 通化市| 新蔡县| 岳池县| 茌平县| 安西县| 泽普县| 铁力市| 姚安县| 恭城| 麦盖提县| 大埔区| 阿拉尔市| 夏河县| 诸城市| 紫金县| 青川县| 宣城市| 武冈市| 仁寿县| 胶州市| 团风县| 名山县| 兴安县| 武胜县| 彰化县| 阳春市| 泾川县| 南开区| 平罗县| 荥经县| 罗甸县| 交口县| 华池县| 双峰县| 德清县|