• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于互信息解決多標(biāo)簽文本分類中的長尾問題

      2024-11-04 00:00:00潘理虎李小華張睿謝斌紅楊楠張林梁

      摘 要:

      針對(duì)當(dāng)前解決多標(biāo)簽文本分類中長尾問題的方法多以破壞原本數(shù)據(jù)分布為代價(jià),在真實(shí)數(shù)據(jù)上的泛化性能下降,無法有效地緩解樣本的長尾分布的問題,提出了基于互信息解決長尾問題的多標(biāo)簽文本分類方法(MLTC-LD)。首先,創(chuàng)建關(guān)于標(biāo)簽樣本的關(guān)系矩陣,計(jì)算標(biāo)簽樣本間的依賴關(guān)系;其次,考慮標(biāo)簽樣本間關(guān)系程度的強(qiáng)弱構(gòu)造鄰居選擇器,將擁有強(qiáng)關(guān)系的鄰居信息作為主要語義特征并作為先驗(yàn)信息;最后,通過圖注意力神經(jīng)網(wǎng)絡(luò)將先驗(yàn)信息引入分類器,實(shí)現(xiàn)了借助分布頭部數(shù)據(jù)豐富類的知識(shí)來提高尾部數(shù)據(jù)貧乏類的性能的目標(biāo)。在三個(gè)不同的數(shù)據(jù)集上將MLTC-LD與八個(gè)基線模型進(jìn)行了廣泛的比較分析。實(shí)驗(yàn)結(jié)果表明,MLTC-LD 與最優(yōu)的HGLRN方法相比精確度分別提高了3.5%、0.3%、1.5%,證明了該方法的有效性。

      關(guān)鍵詞:多標(biāo)簽文本分類;長尾問題;互信息;先驗(yàn)信息

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)09-014-2664-07

      doi:10.19734/j.issn.1001-3695.2023.12.0623

      Addressing long-tail problem in multi-label text classification based on mutual information

      Pan Lihu1, Li Xiaohua1, Zhang Rui1, Xie Binhong1, Yang Nan1, Zhang Linliang2

      (1.College of Computer Science & Technology, Taiyuan University of Science & Technology, Taiyuan 030024, China; 2.Institute of Information Technology, Shanxi Institute of Transportation Science, Taiyuan 030006, China)

      Abstract:

      To address the long-tail problem in multi-label text classification (MLTC) where current methods often compromise the original data distribution, resulting in reduced generalization performance on real data and ineffective mitigation of the long-tail distribution issue, this paper proposed a method of multi-label text classification with long-tail distribution (MLTC-LD). Initially, it created a relationship matrix for label samples to compute dependencies between label samples. Then, considering the degree of relationships between label samples, it constructed a neighbor selector, which used information from neighbors with strong relationships as the main semantic features and as prior information. Finally, by incorporating this prior information through a graph attention neural network into the classifier, the method aimed to enrich the knowledge of categories with abundant head data to improve the performance of categories with sparse tail data. An extensive comparative analysis of MLTC-LD with eight baseline models across three different datasets was conducted. The experimental results show that MLTC-LD improves precision by 3.5%, 0.3%, and 1.5% respectively, compared to the best-performing HGLRN method, demonstrating the effectiveness of this approach.

      Key words:multi-label text classification(MLTC); long-tail problem; mutual information; prior information

      0 引言

      多標(biāo)簽文本分類(MLTC)是自然語言處理中一項(xiàng)基本任務(wù),旨在使用適當(dāng)?shù)姆诸惼鳛榻o定的文本分配多個(gè)標(biāo)簽,例如一則新聞“最近一部科幻電影在票房上取得巨大成功,該電影的特效和深刻的社會(huì)主題引發(fā)了公眾的熱烈討論”主要是關(guān)于電影的描述,屬于“娛樂”類別;電影涉及科幻元素,屬于“科技”類別,同時(shí),電影探討的社會(huì)主題可歸類于“社會(huì)”類別,因此該新聞文本可被標(biāo)注“娛樂”“科技”“社會(huì)”三個(gè)標(biāo)簽。該范式在標(biāo)簽推薦[1]、信息檢索[2]和情感分析[3]等不同領(lǐng)域得到了廣泛應(yīng)用。

      現(xiàn)如今的文本分類模型嚴(yán)重依賴于數(shù)據(jù)分布,訓(xùn)練樣本各類別往往假設(shè)是同等數(shù)量,即各類樣本數(shù)目是均衡的,但是在實(shí)際應(yīng)用中,不平衡數(shù)據(jù)普遍存在,其中大型數(shù)據(jù)集通常呈現(xiàn)如圖1所示的長尾標(biāo)簽分布[4]。在文本分類中,長尾模式可能意味著有一些非常特定或罕見的類別,這些類別的樣本數(shù)量很少,但類別種類繁多。以具體例子來說:在一個(gè)產(chǎn)品評(píng)論的數(shù)據(jù)集中,大多數(shù)評(píng)論可能集中在幾個(gè)主要類別,如“電子產(chǎn)品”“家居用品”,而像“稀有藏品”“古董書籍”這樣的類別雖然類別多,但每個(gè)類別的評(píng)論數(shù)量很少。其會(huì)導(dǎo)致訓(xùn)練模型側(cè)重樣本數(shù)目較多的類別,而“輕視”樣本數(shù)目較少類別,這給深度學(xué)習(xí)模型的訓(xùn)練帶來了巨大的挑戰(zhàn)。無論是傳統(tǒng)的機(jī)器學(xué)習(xí),還是如今流行的深度學(xué)習(xí)都是采用訓(xùn)練誤差最小化的原則從假設(shè)空間中求取最優(yōu)解,例如采用梯度下降的方法,這一過程對(duì)于分布均衡的數(shù)據(jù)集來說,是不存在問題的,然而對(duì)于存在長尾分布的樣本來說,訓(xùn)練出來的模型更偏向于樣本量大的類別,對(duì)樣本量少的類別欠擬合[5]。Anand等人[6]早在1993年就對(duì)不平衡數(shù)據(jù)做了比較深入的研究,發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)反向傳播收斂速度慢,其原因是訓(xùn)練集中多數(shù)樣本均屬于同一類。除此之外,Krawczyk等人[7]在不平衡問題上歸納了容易出現(xiàn)不平衡數(shù)據(jù)的應(yīng)用領(lǐng)域,充分說明了不平衡數(shù)據(jù)廣泛應(yīng)用在各個(gè)領(lǐng)域且使用頻率高,機(jī)器學(xué)習(xí)中普遍存在和亟待解決的問題,嚴(yán)重影響著模型的訓(xùn)練效果。目前解決長尾分布問題有類重新平衡、模塊改進(jìn)和集成學(xué)習(xí)三種主流方法。類重新平衡通過刪除多數(shù)類別的一些樣本或者復(fù)制少數(shù)類別的樣本,以實(shí)現(xiàn)類別均衡,使得模型更好地學(xué)習(xí)到少數(shù)類別的特征,但這樣做會(huì)導(dǎo)致數(shù)據(jù)信息的丟失,尤其是刪除多數(shù)類別的樣本時(shí),可能會(huì)損失多數(shù)類別的一些重要特征和模式。模塊改進(jìn)通過使用特定的技術(shù)和策略改進(jìn)模型在尾部類別上的學(xué)習(xí)能力,使其更好地適應(yīng)長尾分布的數(shù)據(jù)集,但由于長尾分布問題的多樣性和復(fù)雜性,不同的數(shù)據(jù)集和任務(wù)可能需要定制化的改進(jìn)方法,這增加了實(shí)施和調(diào)試的復(fù)雜性。集成學(xué)習(xí)能夠有效地集成稀有類別的分類器,使得在稀有類別上訓(xùn)練得到的分類器數(shù)量增加,從而改善對(duì)這些類別的識(shí)別能力,但由于需要訓(xùn)練和維護(hù)多個(gè)基分類器,這增加了計(jì)算和存儲(chǔ)的成本,如果數(shù)據(jù)集非常大或者基分類器比較復(fù)雜,這個(gè)額外的開銷可能會(huì)很高。因此,如何找到有效解決長尾分布帶來的數(shù)據(jù)不平衡問題的方法是一項(xiàng)重要的研究。

      為了解決MLTC中長尾標(biāo)簽分布帶來的復(fù)雜挑戰(zhàn),本文以增強(qiáng)模型的形式提出了一種新穎而有影響力的解決方案,稱為MLTC-LD,它利用了標(biāo)簽依賴性。這種方法的基石在于從訓(xùn)練數(shù)據(jù)中構(gòu)建標(biāo)簽關(guān)系矩陣,該矩陣構(gòu)成了標(biāo)簽關(guān)系圖的基礎(chǔ)。這個(gè)充滿先驗(yàn)信息的圖被無縫地集成到分類器中。MLTC-LD與僅依賴于損失函數(shù)的梯度更新的傳統(tǒng)方法不同,它率先引入了頭部標(biāo)簽的梯度下降。這種創(chuàng)新的集成使頭部標(biāo)簽?zāi)軌驅(qū)?yīng)用于尾部標(biāo)簽表示的轉(zhuǎn)換施加影響,有效地解決了長尾分布中固有的不平衡挑戰(zhàn),同時(shí)保持了原始數(shù)據(jù)分布的完整性。

      本文的主要貢獻(xiàn)如下:

      a)利用標(biāo)簽依賴性,提出了一種新穎有效的多標(biāo)簽文本分類模型。該方法包括在標(biāo)簽編碼層計(jì)算相互信息,促進(jìn)標(biāo)簽之間建立全面的關(guān)系矩陣。這個(gè)矩陣捕獲了標(biāo)簽相關(guān)性,是分類器性能增強(qiáng)的重要先驗(yàn)信息庫。

      b)提出了一種鄰居選擇器機(jī)制,旨在對(duì)關(guān)系矩陣中最相關(guān)的關(guān)系進(jìn)行采樣和精確定位。

      c)為了驗(yàn)證所提方法的有效性,在3個(gè)基準(zhǔn)數(shù)據(jù)集上與8個(gè)基線模型進(jìn)行了廣泛的對(duì)比實(shí)驗(yàn)。這些實(shí)驗(yàn)提供了MLTC-LD可以實(shí)現(xiàn)性能增益的經(jīng)驗(yàn)證據(jù),為其在解決多標(biāo)簽文本分類中的長尾分布挑戰(zhàn)的實(shí)用性方面提供了有價(jià)值的見解。

      1 相關(guān)工作

      1.1 多標(biāo)簽文本分類

      問題轉(zhuǎn)換、算法自適應(yīng)和神經(jīng)網(wǎng)絡(luò)是目前三種主流的多標(biāo)簽文本分類方法[8]。問題轉(zhuǎn)換方法[9]是獨(dú)立于算法的,通過分解樣本集將多標(biāo)簽分類任務(wù)轉(zhuǎn)換為多個(gè)單標(biāo)簽學(xué)習(xí)任務(wù),但不同于傳統(tǒng)的單標(biāo)簽分類,多標(biāo)簽分類中不同標(biāo)簽之間存在語義依賴關(guān)系,因此這種過于簡化的擴(kuò)展通常會(huì)帶來較差的性能。例如,RAKEL[10]使用隨機(jī)標(biāo)簽子集作為每個(gè)標(biāo)簽冪集(label powerset,LP)分類器的訓(xùn)練集,并最終通過投票整合多個(gè)LP分類器的預(yù)測,由于標(biāo)簽的指數(shù)增加,這種方法在訓(xùn)練中非常復(fù)雜。算法自適應(yīng)方法[9]是對(duì)算法進(jìn)行轉(zhuǎn)換以處理多標(biāo)簽問題。Bp-MLL[9]是第一個(gè)將傳統(tǒng)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為多標(biāo)簽分類的算法,它考慮了不同標(biāo)簽之間的關(guān)系,取得了更好的效果。隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型在多標(biāo)簽分類任務(wù)中表現(xiàn)良好。Yang等人[11]將深度強(qiáng)化學(xué)習(xí)納入 seq2seq模型,以減少標(biāo)簽排列對(duì)性能的影響,但模型忽略標(biāo)簽之間的相關(guān)性或者不考慮文本內(nèi)容關(guān)鍵信息,因此,不能得到較好的預(yù)測結(jié)果。

      1.2 深度長尾學(xué)習(xí)

      類重新平衡是緩解長尾問題最常用的方法,其中最直觀的方法是直接使用訓(xùn)練樣本的標(biāo)簽頻率進(jìn)行損失重新加權(quán)。例如,簡單校準(zhǔn)(SimCal)[5]提出了一種新的雙級(jí)類平衡采樣方法來處理長尾實(shí)例分割,它結(jié)合了圖像級(jí)重新采樣和實(shí)例級(jí)重新采樣,以緩解實(shí)例分割中的類不平衡問題,但在一定程度上降低了模型學(xué)習(xí)某些特征表示的能力。信息擴(kuò)充通過尋求在模型訓(xùn)練中引入額外的信息來提高模型性能。FTL[12]利用頭部類的類內(nèi)方差知識(shí)來指導(dǎo)尾部類樣本的特征增強(qiáng),從而使尾部類特征具有更高的類內(nèi)差異,從而導(dǎo)致更好的尾部類性能。稀有類樣本生成器(RSG)[13]建議生成新的尾部類樣本,以擴(kuò)大尾部類的特征空間。但考慮到頭部類有更多的樣本并且會(huì)被增強(qiáng),以上方法可能會(huì)進(jìn)一步增加不平衡。模塊改進(jìn)[14]的核心是多階段訓(xùn)練。最近的幾項(xiàng)研究通過增強(qiáng)分類器訓(xùn)練階段來創(chuàng)新解耦訓(xùn)練方案,OFA[15]通過將提取的尾部類的類特定特征與從頭部類提取的類通用特征相結(jié)合,通過尾部類特征增強(qiáng)創(chuàng)新了分類器重新訓(xùn)練。SimCal[5]提出,通過使用用于長尾實(shí)例分割的新的雙層類平衡采樣策略來校準(zhǔn)分類頭,從而增強(qiáng)分類器訓(xùn)練階段。DisAlign[5]使用新的自適應(yīng)校準(zhǔn)策略創(chuàng)新了分類器訓(xùn)練。集成基于學(xué)習(xí)的方法策略性地生成并組合多個(gè)網(wǎng)絡(luò)模塊,BBN[16]建議使用傳統(tǒng)學(xué)習(xí)分支和重新平衡分支兩個(gè)網(wǎng)絡(luò)分支,來處理長尾識(shí)別。之后,LTML[17]探索了雙邊分支網(wǎng)絡(luò)方案,以解決長尾多標(biāo)簽分類。然而,這類方法使用多個(gè)專家導(dǎo)致了更高的計(jì)算成本。

      2 MLTC-LD

      在RoBERT的基礎(chǔ)上,MLTC-LD引入了標(biāo)簽相關(guān)系數(shù)構(gòu)建的圖,利用圖上鄰居節(jié)點(diǎn)的信息對(duì)標(biāo)簽的信息進(jìn)行補(bǔ)充。對(duì)于每個(gè)標(biāo)簽,統(tǒng)計(jì)該標(biāo)簽與其他標(biāo)簽的相關(guān)系數(shù)并輸入鄰居選擇器進(jìn)行區(qū)分鄰居特征的有用性。在獲取了最佳鄰居節(jié)點(diǎn)標(biāo)簽后,使用圖注意力網(wǎng)絡(luò)對(duì)鄰居節(jié)點(diǎn)的語義表示進(jìn)行聚合。

      如圖2所示,MLTC-LD主要包含單詞嵌入模塊、標(biāo)簽增強(qiáng)模塊、關(guān)系聚合模塊和分類層模塊四個(gè)主要部分。

      3.3 對(duì)比實(shí)驗(yàn)

      3.3.1 基線模型

      為了充分驗(yàn)證本文方法的有效性,選擇以下8個(gè)基線模型進(jìn)行對(duì)比實(shí)驗(yàn):

      a)LSAN[23]是基于標(biāo)簽語義注意力學(xué)習(xí)特定于標(biāo)簽的文本表征;

      b)CNN[24]主要利用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)密集的特征矩陣以捕獲文本局部語義信息;

      c)CNN-RNN[25]使用CNN和RNN獲得局部和全局語義,并對(duì)標(biāo)簽之間的關(guān)系進(jìn)行建模;

      d)RoBERTa[26]由Facebook AI于2019年發(fā)布,是BERT的改進(jìn)版本,使用更大的文本語料庫進(jìn)行預(yù)訓(xùn)練,更好地捕捉了語言的各種模式和特性;

      e)SGM[27]為一種將多標(biāo)簽分類任務(wù)視為序列生成任務(wù)的模型,并將seq2seq用作多類分類器;

      f)AttentionXML[28]利用多標(biāo)簽注意力機(jī)制捕獲每個(gè)標(biāo)簽最相關(guān)的文本;

      g)Labeled-LDA[29]通過使用詞-標(biāo)簽概率獲取文本中詞與標(biāo)簽之間的相關(guān)性信息;

      h)HGLRN[30]提出了一種用于多標(biāo)簽文本分類的層級(jí)圖標(biāo)簽表示網(wǎng)絡(luò)。

      3.3.2 對(duì)比結(jié)果

      本文MLTC-LD在AAPD和RCV1-V2基準(zhǔn)數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示,表中黑體字表示結(jié)果最優(yōu)。從中可以看出,本文模型在AAPD和RCV1-V2數(shù)據(jù)集上的性能顯著優(yōu)于所有基線模型,特別是在RCV-V2數(shù)據(jù)集上表現(xiàn)突出。

      本文MLTC-LD在情感分析數(shù)據(jù)集ASAP上與基線模型的實(shí)驗(yàn)結(jié)果如表5所示。從實(shí)驗(yàn)結(jié)果可以看出,本文模型在ASAP上相較于其他基線模型整體上有明顯的提升,特別是在R以及F1兩個(gè)指標(biāo)上取得了最好的性能,在P指標(biāo)上排名僅次于CNN,證明了MLTC-LD在情感分析應(yīng)用領(lǐng)域上是有效的,以此證明了MLTC-LD的泛化能力。

      綜合方面來看,CNN-RNN、SGM、LSAN、RoBERTa、AttentionXML、Labeled-LDA和HGLRN這7個(gè)對(duì)比模型相比于MLTC-LD較差,原因在于這7個(gè)模型均沒有將全局標(biāo)簽之間的依賴關(guān)系考慮進(jìn)去,因?yàn)锳SAP和AAPD總詞數(shù)少、類別較為明確,在挖掘文本深層次語義信息與標(biāo)簽的關(guān)聯(lián)程度的過程中容易造成過擬合,導(dǎo)致模型在測試集上降低了文本的預(yù)測精度,所以對(duì)于更側(cè)重于文本語義挖掘的CNN相較于其他模型在ASAP和AAPD上學(xué)習(xí)效率更高,在所有的對(duì)比模型中精確率指標(biāo)占最大優(yōu)勢。相反,在RCV1-V2上,雖然各模型的分類效果都顯著提升,但MLTC-LD卻優(yōu)于所有對(duì)比模型,主要因?yàn)镸LTC-LD在捕獲標(biāo)簽之間的關(guān)聯(lián)性之外還對(duì)關(guān)聯(lián)性的特征進(jìn)行了篩選以獲取最相關(guān)的語義信息,所以MLTC-LD模型是優(yōu)越的。

      3.4 消融實(shí)驗(yàn)

      為了對(duì)MLTC-LD的整體效果進(jìn)行研究,本文針對(duì)標(biāo)簽關(guān)系矩陣、鄰居選擇器、標(biāo)簽語義注意力三個(gè)添加模塊進(jìn)行消融實(shí)驗(yàn)。

      3.4.1 驗(yàn)證標(biāo)簽關(guān)系矩陣的有效性

      本文研究引入了R-MLTC-LD,該模型僅包含標(biāo)簽關(guān)系矩陣,在ASAP、AAPD和RCV1-V2數(shù)據(jù)集上和8個(gè)基線模型之間進(jìn)行了比較實(shí)驗(yàn),結(jié)果如表6所示。研究結(jié)果表明,R-MLTC-LD在F1得分方面優(yōu)于基線模型。這種改進(jìn)可歸因于R-MLTC-LD從文本中捕獲全局信息并學(xué)習(xí)不同標(biāo)簽之間的依賴關(guān)系的能力。因此,R-MLTC-LD有效地補(bǔ)充了尾部標(biāo)簽類別的語義信息,證明了整合標(biāo)簽關(guān)系矩陣對(duì)模型分類性能的有益影響。

      3.4.2 驗(yàn)證鄰居選擇器的有效性

      本文構(gòu)建SR-MLTC-LD模型表示在R-MLTC-LD基礎(chǔ)上引入鄰居選擇器,在ASAP、AAPD和RCV1-V2數(shù)據(jù)集上分別與R-MLTC-LD進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示,從中可知,相比于R-MLTC-LD,SR-MLTC-LD在P、R與 F1上分別提升 1.1、0.9、0.5;3.0、2.2、0.9;1.1、1.8、0.4 個(gè)百分點(diǎn),這是因?yàn)镾R-MLTC-LD可以有效區(qū)分鄰居特征的有用性,避免了高噪聲的引入,同時(shí)也進(jìn)一步表明鄰居選擇器對(duì)模型的分類性能有一定優(yōu)化作用。

      3.4.3 驗(yàn)證標(biāo)簽語義注意力的有效性

      本文構(gòu)建SR-GAT模型表示在SR-MLTC-LD基礎(chǔ)上引入標(biāo)簽語義注意力,即MLTC-LD中的注意力模塊,在ASAP、AAPD和RCV1-V2數(shù)據(jù)集上分別與SR-MLTC-LD進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表8所示。從中可知,相比于SR-MLTC-LD,SR-GAT在P、R與F1上分別提升 1.8、1.9、1.8;3.0、1.5、2.5;1.1、2.5、0.9個(gè)百分點(diǎn),這是因?yàn)镸LTC-LD模塊通過注意力機(jī)制對(duì)標(biāo)簽關(guān)系圖結(jié)構(gòu)數(shù)據(jù)中每個(gè)標(biāo)簽節(jié)點(diǎn)與其鄰居標(biāo)簽節(jié)點(diǎn)做聚合操作,促進(jìn)了全局標(biāo)簽之間的緊密連接關(guān)系,更好地學(xué)習(xí)出標(biāo)簽特征信息表示,從而提高模型的整體性能。

      綜上所述,融合標(biāo)簽關(guān)系矩陣、引入鄰居選擇器、標(biāo)簽語義注意力可使得模型效果有所改善,說明本文MLTC-LD在整體上是更有效的。

      4 結(jié)束語

      本文提出了一種新方法來解決MLTC中長尾分布問題帶來的復(fù)雜挑戰(zhàn)。主要貢獻(xiàn)是引入了一種圖結(jié)構(gòu),它通過無縫地結(jié)合來自相鄰節(jié)點(diǎn)的見解,成為豐富標(biāo)簽信息的有力工具。標(biāo)簽之間精確關(guān)系系數(shù)的計(jì)算,加上鄰居選擇器的應(yīng)用,使本文方法能夠有效地識(shí)別最佳鄰居節(jié)點(diǎn)標(biāo)簽。實(shí)驗(yàn)結(jié)果基于對(duì)三個(gè)不同數(shù)據(jù)集的評(píng)估,展現(xiàn)了MLTC-LD在有效解決長尾問題方面的顯著性能優(yōu)勢。

      參考文獻(xiàn):

      [1]Widyasari R,Zhao Zhipeng,Cong T L,et al. Topic recommendation for github repositories: how far can extreme multi-label learning go? [C]// Proc of IEEE International Conference on Software Analysis,Evolution and Reengineering. Piscataway,NJ: IEEE Press,2023: 167-178.

      [2]Hambarde K A,Proena H. Information retrieval: recent advances and beyond[J]. IEEE Access,2023,11: 76581-76604.

      [3]Chen Lei,Wang Tianqi. Utilizing contrastive learning to address long tail issue in product categorization[C]// Proc of the 31st ACM International Conference on Information and Knowledge Management. New York: ACM Press,2022: 5081-5082.

      [4]Zhang Wenqiao,Liu Changshuo,Zeng Lingze,et al. Learning in imperfect environment: multi-label classification with long-tailed distribution and partial labels[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press,2023: 1423-1432.

      [5]Wang Tao,Li Yu,Kang Bingyi,et al. The devil is in classification: a simple framework for long-tail instance segmentation[C]// Proc of the 16th European Conference on Computer Vision. Berlin: Springer,2020: 728-744.

      [6]Anand R,Mehrotra K G,Mohan C K,et al. An improved algorithm for neural network classification of imbalanced training sets[J]. IEEE Trans on Neural Networks,1993,4(6): 962-969.

      [7]Krawczyk,Bartosz. Learning from imbalanced data: open challenges and future directions[J]. Progress in Artificial Intelligence,2016,5(4): 221-232.

      [8]Liu Xuying,Wu Jianxin,Zhou Zhihua,et al. Exploratory undersampling for class-imbalance learning[J]. IEEE Trans on Systems,2009,39(2): 539-550.

      [9]Zhang Minling,Zhou Zhihua. A review on multi-label learning algorithms[J]. IEEE Trans on Knowledge and Data Engineering,2014,26(8): 1819-1837.

      [10]Tsoumakas G,Vlahavas I. Random k-labelsets: an ensemble method for multi-label classification[J]. Pattern Recognition,2007,109: 107583.

      [11]Yang Pengcheng,Luo Fuli,Ma Shuming,et al. A deep reinforced sequence-to-set model for multi-label classification[C]// Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2019: 5252-5258.

      [12]Xi Yin,Xiang Yu,Sohn K,et al. Feature transfer learning for face recognition with under-represented data[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2019: 5697-5706.

      [13]Wang Jianfeng,Lukasiewicz T,Hu Xiaolin,et al. RSG: a simple but effective module for learning imbalanced datasets[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 3783-3792.

      [14]Huang Yi,Buse G,Abdullatif K,et al. Balancing methods for multil-abel text classifification with long-tailed class distribution[C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2021: 8153-8161.

      [15]Chu Peng,Bian Xiao,Liu Shaopeng,et al. Feature space augmentation for long-tailed dataC]// Proc of the 16th European Conference on Computer Vision. Berlin: Springer,2020: 694-710.

      [16]Zhang Songyang,Li Zeming,Yan Shipeng,et al. Distribution alignment: a unified framework for long-tail visual recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 2361-2370.

      [17]Zhou Boyan,Cui Quan,Wei Xiushen,et al. BBN: bilateral-branch network with cumulative learning for long-tailed visual recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2020: 9716-9725.

      [18]Guo Hao,Wang Song. Long-tailed multi-label visual recognition by collaborative training on uniform and rebalanced samplings[C]// Proc of Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021: 15089-15098.

      [19]Ren Yuyang,Zhang Haonan,Yu Peng,et al. Ada-MIP: adaptive self-supervised graph representation learning via mutual information and proximity optimization[J]. ACM Trans on Knowledge Discovery from Data,2023,17(5): article No. 69.

      [20]Bu Jiahao,Ren Lei,Zheng Shuang,et al. ASAP: a Chinese review dataset towards aspect category sentiment analysis and rating prediction[C]// Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technolo-gies. Stroudsburg,PA: Association for Computational Linguistics,2021: 2069-2079.

      [21]Yang Pengcheng,Sun Xu,Li Wei,et al. SGM: sequence generation model for multi-label classification[C]// Proc of the 27th International Conference on Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2018: 3915-3926.

      [22]Lewis D D,Yang Yiming,Rose T G,et al. RCV1: a new benchmark collection for text categorization research[J]. Journal of Machine Learning Research,2004,3(4): 361-397.

      [23]Xiao Lin,Chen Boli,Huang Xin,et al. Multi-label text classification method based on label semantic information[J]. Journal of Software,2020,31(4): 1079-1089.

      [24]Jacovi A,Shalom O S,Goldberg Y. Understanding convolutional neural networks for text classification[C]// Proc of EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. Stroudsburg,PA: Association for Computational Linguistics,2018: 56-65.

      [25]Liu Jingzhou,Chang Weicheng,Wu Yuexin,et al. Deep learning for extreme multi-label text classification[C]// Proc of the 40th International ACM SIGIR Conference. New York,NY: ACM Press,2017: 115-124.

      [26]Liu Yinhan,Ott M,Goyal N,et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL]. (2019-07-26). https://arxiv.org/abs/1907.11692.

      [27]Yang Pengcheng,Sun Xu,Li Wei,et al. SGM: sequence generation model for multi-label classification[C]// Proc of International Conference on Computational Linguistics. Stroudsburg,PA: Association for Computational Linguistics,2018: 3915-3926.

      [28]You Ronghui,Zhang Zihan,Wang Ziye,et al. AttentionXML: label tree-based attention-aware deep model for high-performance extreme multi-label text classification[C]// Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc.,2019: 820-5830.

      [29]趙宏,鄭厚澤,郭嵐. 基于詞-標(biāo)簽概率的多標(biāo)簽文本分類研究[J]. 蘭州理工大學(xué)學(xué)報(bào),2023,49(1): 103-109. (Zhao Hong,Zhen Houze,Guo Lan. Multi-label text classification based on word-label probability[J]. Journal of Lanzhou University of Technology,2023,49(1): 103-109.)

      [30]徐江玲,陳興榮. 基于層級(jí)圖標(biāo)簽表示網(wǎng)絡(luò)的多標(biāo)簽文本分類[J]. 計(jì)算機(jī)應(yīng)用研究,2023,41(2): 388-392,407. (Xu Jiangling,Chen Xingrong. Multi-label text classification based on hierarchical graph label representation network[J]. Application Research of Computers,2023,41(2): 388-392,407.)

      收稿日期:2023-12-23;修回日期:2024-02-19 基金項(xiàng)目:山西省自然科學(xué)基金資助項(xiàng)目(201901D111258);山西省智能軟件與人機(jī)環(huán)境系統(tǒng)研究生聯(lián)合培養(yǎng)示范基地項(xiàng)目(2022JD11);山西省留學(xué)人員管理委員會(huì)資助項(xiàng)目

      作者簡介:潘理虎(1974—),男,河南上蔡人,教授,博導(dǎo),博士,CCF會(huì)員,主要研究方向?yàn)樯疃葘W(xué)習(xí)與人工智能;李小華(1998—),女(通信作者),山西長治人,碩士,主要研究方向?yàn)樽匀徽Z言處理、多標(biāo)簽文本分類(1328162431@qq.com);張睿(1987—),男,山西太原人,副教授,碩導(dǎo),博士,主要研究方向?yàn)橹悄苄畔⑻幚?;謝斌紅(1971—),男,山西太原人,副教授,碩導(dǎo),碩士,主要研究方向?yàn)橹悄芑浖蜋C(jī)器學(xué)習(xí);楊楠,男,山西太原人,碩士,主要研究方向?yàn)樯疃葘W(xué)習(xí);張林梁,男,山西太原人,博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí).

      义乌市| 车致| 新津县| 垫江县| 连城县| 玛纳斯县| 兴文县| 日喀则市| 巴林左旗| 海林市| 渭南市| 葫芦岛市| 唐河县| 商水县| 章丘市| 茂名市| 昭平县| 凤庆县| 元江| 芒康县| 维西| 岐山县| 武平县| 大港区| 突泉县| 施甸县| 泾川县| 株洲市| 如皋市| 平乡县| 黄平县| 中方县| 丁青县| 城口县| 潼关县| 安泽县| 资中县| 铅山县| 读书| 闽清县| 定结县|