• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于提示學(xué)習(xí)的中文短文本分類方法

      2023-10-24 14:54:22穆建媛周鑫柯強(qiáng)繼朋袁運(yùn)浩
      中文信息學(xué)報 2023年7期
      關(guān)鍵詞:短文標(biāo)簽模板

      穆建媛,朱 毅,周鑫柯,李 云,強(qiáng)繼朋,袁運(yùn)浩

      (揚(yáng)州大學(xué) 計算機(jī)科學(xué)與技術(shù)系,江蘇 揚(yáng)州 225127)

      0 引言

      隨著互聯(lián)網(wǎng)通信新時代的到來,每天都有海量的互聯(lián)網(wǎng)信息產(chǎn)生,并且這些信息以飛快的速度在更迭,如新聞標(biāo)題[1]、微博推送[2]、論壇討論[3]、手機(jī)短信[4]等文本信息,這些大多是非結(jié)構(gòu)化的短文本數(shù)據(jù)。與傳統(tǒng)的長文本數(shù)據(jù)相比較,這些短文本數(shù)據(jù)的最大特點(diǎn)在于語句較短,其中包含的詞匯較少,語義較為發(fā)散,容易產(chǎn)生歧義。這些特點(diǎn)導(dǎo)致了短文本數(shù)據(jù)的關(guān)鍵特征信息難以提取,所以,如何對短文本進(jìn)行正確的分類處理,已成為熱門的研究方向。

      短文本分類是自然語言處理(Natural Language Processing, NLP)的重要任務(wù)之一,已經(jīng)有越來越多的國內(nèi)外學(xué)者對比進(jìn)行了大量的研究,并取得了很好的效果[5]。近年來,隨著深度學(xué)習(xí)的蓬勃發(fā)展,基于深度學(xué)習(xí)的分類模型應(yīng)用到短文本分類任務(wù)上也取得了較好的效果[6]。如Kim[6]在2014年提出的基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)的TextCNN模型,首次將CNN應(yīng)用到文本分類上。隨著研究的進(jìn)一步推進(jìn),預(yù)訓(xùn)練語言模型也被應(yīng)用到自然語言處理的任務(wù)中,如Sun等[7]研究了BERT(Bidirectional Encoder Representation from Transformers)在文本分類任務(wù)上的不同微調(diào)方法,包括文本的預(yù)處理、逐層學(xué)習(xí)率和災(zāi)難性遺忘等問題,在短文本分類任務(wù)上取得了較大的性能改進(jìn)。

      盡管傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型以及預(yù)訓(xùn)練語言模型已經(jīng)較為成熟地應(yīng)用到短文本分類任務(wù)中,并且取得了良好的分類效果。但是,這些方法在訓(xùn)練過程中通常需要大量的有標(biāo)簽或無標(biāo)簽的數(shù)據(jù)[8],且模型參數(shù)量較大。然而在實(shí)際應(yīng)用中,訓(xùn)練分類模型時,訓(xùn)練數(shù)據(jù)的來源是最大的難題之一。我們經(jīng)常面臨資源匱乏的數(shù)據(jù)問題,通常是因?yàn)橛?xùn)練時所需的大量數(shù)據(jù)相對來說難以獲取,并且在對大量的數(shù)據(jù)進(jìn)行訓(xùn)練時成本較高[9]。因此如何在少樣本數(shù)據(jù)的情況下,對短文本進(jìn)行準(zhǔn)確的分類,已經(jīng)成為實(shí)際應(yīng)用中巨大挑戰(zhàn)。

      為了解決這個問題,本文提出了一種基于提示學(xué)習(xí)的中文短文本分類方法,在僅有少樣本數(shù)據(jù)的情況下取得了良好的中文短文本分類效果。提示學(xué)習(xí)是自2021年開始自然語言處理領(lǐng)域掀起的一股新的浪潮[10],提示學(xué)習(xí)為了更好地利用預(yù)訓(xùn)練語言模型的知識,改變了輸入數(shù)據(jù)的格式,通過加入模板和構(gòu)建標(biāo)簽詞表的方式,將分類問題轉(zhuǎn)化為一個預(yù)測和標(biāo)簽詞相關(guān)的問題[11]。本文對以新聞標(biāo)題、外賣評論等為代表的中文短文本進(jìn)行分類,手動設(shè)計了不同的模板,通過實(shí)驗(yàn)選擇效果較好的模板對輸入的數(shù)據(jù)進(jìn)行了新的構(gòu)造,變成了一個帶有mask的短文本,通過詞向量的方式輸入提示學(xué)習(xí)的模型,最后將模型的輸出映射到該短文本所屬的真實(shí)標(biāo)簽后進(jìn)行預(yù)測。據(jù)我們所知,這是第一次將提示學(xué)習(xí)運(yùn)用到中文短文本分類上,并且與其他常用的分類方法相比,分類效果良好。

      本文的主要貢獻(xiàn)總結(jié)如下:

      (1) 提出了一種新的基于提示學(xué)習(xí)的中文短文本分類方法,充分利用了預(yù)訓(xùn)練語言模型的知識,分類效果較為理想。

      (2) 不同于以往的需要大量有標(biāo)簽或無標(biāo)簽的訓(xùn)練數(shù)據(jù)的分類器模型,本文方法僅僅需要很少的訓(xùn)練樣本就能實(shí)現(xiàn)良好的分類。

      (3) 實(shí)驗(yàn)結(jié)果證明,本方法在微博評論這種中文短文本數(shù)據(jù)集中,分類的準(zhǔn)確率明顯優(yōu)于現(xiàn)有的幾種方法,在僅有40個訓(xùn)練樣本的情況下比BERT預(yù)訓(xùn)練語言模型使用740個樣本的準(zhǔn)確率高出近6%。

      1 相關(guān)工作

      由于社交網(wǎng)絡(luò)以及互聯(lián)網(wǎng)應(yīng)用的大范圍普及,文本數(shù)據(jù)的交互已成為傳播信息的主要方式。在這個背景下,短文本數(shù)據(jù)大量出現(xiàn)在我們的視野中并正在爆炸式地增長。不同于較為規(guī)范的長文本,短文本通常具有稀疏性、即時性、不規(guī)范性,以及噪聲特征較多、更新迭代較快的特點(diǎn)[12]。這些特征都給短文本分類增加了很大難度,為了更好地解決這個問題,研究人員投入了大量的精力?,F(xiàn)有的短文本分類方法可以大致分為基于傳統(tǒng)機(jī)器學(xué)習(xí)、基于深度神經(jīng)網(wǎng)絡(luò)以及基于預(yù)訓(xùn)練語言模型三種方法。

      早期的短文本分類研究集中在傳統(tǒng)機(jī)器學(xué)習(xí)模型上,如樸素貝葉斯[13]、K近鄰[14]以及支持向量機(jī)(Support Vector Machine, SVM)[15]等算法。Peng等[16]提出了將N-gram[17]與樸素貝葉斯結(jié)合起來的方法,克服了樸素貝葉斯獨(dú)立假設(shè)的不足,增強(qiáng)了屬性間的聯(lián)系。Lin等[18]結(jié)合KNN與SVM算法,利用反饋改進(jìn)分類器預(yù)測的概率來提高其性能。但是這些方法往往忽略了文本中詞語和詞語之間的聯(lián)系,同時特征工程的構(gòu)建也較為復(fù)雜。并且由于數(shù)據(jù)的稀疏性問題,傳統(tǒng)機(jī)器學(xué)習(xí)在短文本分類上效果不佳。

      隨著研究的深入,深度神經(jīng)網(wǎng)絡(luò)被廣泛地應(yīng)用到短文本分類的任務(wù)中[19-20]。如Kalchbrenner等[21]在卷積神經(jīng)網(wǎng)絡(luò)[22]的基礎(chǔ)上提出了基于動態(tài)的卷積神經(jīng)網(wǎng)絡(luò)模型DCNN,該模型能處理不同長度的文本并取得了較好的性能表現(xiàn)。Lai等[23]將循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks, RNN)用于文本分類上。相比于CNN模型來說,RNN這種序列模型更容易捕捉到短文本的特征信息。Hochreiter等[24]對RNN進(jìn)行改進(jìn),提出了長短時記憶網(wǎng)絡(luò)(Long Short Term Memory Network, LSTM)模型,很好地解決了其梯度消失的問題。隨后的雙向長短時記憶網(wǎng)絡(luò)[25]比起RNN以及LSTM模型可以更好地獲取上下文信息。Zhou等[26]提出C-LSTM模型,這種混合模型將CNN與LSTM的優(yōu)勢結(jié)合起來,可以更好地提取句子中的全局信息。為了解決數(shù)據(jù)稀疏性的問題,Wang等[27]提出了一種結(jié)合顯式表示和隱式表示的深度CNN模型,通過詞嵌入、概念嵌入和字符嵌入來捕獲細(xì)粒度語義信息。Alam等[28]提出了一種基于CNN的方法,該方法使用單詞和實(shí)體來生成短文本表示。

      近年來,預(yù)訓(xùn)練語言模型已在短文本分類的實(shí)際應(yīng)用中獲得了更好的語言表示能力[29-30]。Devlin等[31]提出了基于雙向Transformer的BERT預(yù)訓(xùn)練模型,通過基于遮掩的語言模型更好地理解了上下文之間的語義。受BERT模型的啟示,Sun等[32]提出了ERNIE模型,該模型是知識增強(qiáng)的語義表示模型,同時在詞向量的表示方面比前者具有更好的泛化能力,并且適應(yīng)性較好,在中文的自然語言處理任務(wù)上取得了較好的性能表現(xiàn)。Lan等[33]提出了ALBERT模型,在縮減了BERT參數(shù)的基礎(chǔ)上性能不變,并且大大縮短了模型的訓(xùn)練時間。OpenAI團(tuán)隊(duì)提出的第一代生成式預(yù)訓(xùn)練語言模型GPT-1[34]、GPT-2[35]以及改進(jìn)后的GPT-3[36],它們隨著模型的增加以及訓(xùn)練數(shù)據(jù)規(guī)模的加大而實(shí)現(xiàn)較強(qiáng)的泛化能力,在自然語言生成任務(wù)上表現(xiàn)得更為突出。Raffel等[37]利用遷移學(xué)習(xí)的知識,通過引入一個統(tǒng)一的框架來將所有基于文本語言的問題轉(zhuǎn)換成文本到文本的格式,例如,分類任務(wù)的輸出是單詞而不是標(biāo)簽。

      盡管基于深度神經(jīng)網(wǎng)絡(luò)以及預(yù)訓(xùn)練語言模型的短文本分類方法已經(jīng)取得了較好的分類效果,但由于這些模型往往依賴大量的標(biāo)注或無標(biāo)注語料,在缺乏大規(guī)模訓(xùn)練數(shù)據(jù)時很難取得較好的效果。

      近期,提示學(xué)習(xí)作為自然語言處理的第四范式走進(jìn)了研究人員的視野。提示學(xué)習(xí)的基本思想是將輸入的文本信息按照特定的模板進(jìn)行處理,把任務(wù)重構(gòu)成一個更能充分利用預(yù)訓(xùn)練語言模型的形式,減少模型對大規(guī)模數(shù)據(jù)的依賴。通過借助合適的prompt減少了預(yù)訓(xùn)練和微調(diào)之間的差異,進(jìn)而使得模型在少量樣本上微調(diào)即可取得不錯的效果[38]。如Schick等[11]形式化地提出了提示學(xué)習(xí)的范式,并且對少樣本進(jìn)行了實(shí)驗(yàn)。Shin等[39]提出了基于梯度自動化搜索模板的方法,可以根據(jù)具體任務(wù)自動構(gòu)造模板,比手動構(gòu)造模板更為高效。Li等[40]提出參數(shù)化的提示,改善了原先離散的提示難以優(yōu)化的問題,可以根據(jù)不同的模型結(jié)構(gòu)定義不同的提示拼接方式,常用于生成任務(wù)。經(jīng)實(shí)踐發(fā)現(xiàn),提示的變化對實(shí)驗(yàn)的性能有較大的影響,Liu等[41]使用非自然語言的提示,將模板的構(gòu)建轉(zhuǎn)化為連續(xù)參數(shù)優(yōu)化問題,可以實(shí)現(xiàn)模板的自動構(gòu)建。不同于前人在微調(diào)階段使用提示的方法,Gu等[42]首次提出提示預(yù)訓(xùn)練過程,對預(yù)訓(xùn)練任務(wù)進(jìn)行調(diào)整,使其在后續(xù)的少樣本中獲得更好的性能。Han等[43]使用邏輯規(guī)則來構(gòu)建提示。考慮到前人工作中的映射基本上都是人工構(gòu)建或基于模型自動搜索獲得,容易帶來高偏差,Hu等[44]通過引入外部知識來擴(kuò)展標(biāo)簽詞的搜索空間,取得了較好的效果。大量的實(shí)驗(yàn)表明,基于提示學(xué)習(xí)的方法能夠較好地處理自然語言處理領(lǐng)域的下游任務(wù)。

      2 方法

      本節(jié)將介紹本文提出的基于提示學(xué)習(xí)的中文短文本分類方法。

      2.1 提示學(xué)習(xí)

      近代自然語言處理領(lǐng)域技術(shù)的發(fā)展可以分為四種范式,分別是非神經(jīng)網(wǎng)絡(luò)時代的完全監(jiān)督學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)的完全監(jiān)督學(xué)習(xí)、預(yù)訓(xùn)練-微調(diào)范式以及近期熱門的預(yù)訓(xùn)練-提示-預(yù)測范式[10]。在提示學(xué)習(xí)這一第四范式產(chǎn)生之前,基于預(yù)訓(xùn)練語言模型的分類模型使用預(yù)訓(xùn)練-微調(diào)范式,這個范式利用那些已經(jīng)在大規(guī)模未標(biāo)記數(shù)據(jù)上通過自監(jiān)督學(xué)習(xí)完成預(yù)訓(xùn)練的模型,在下游任務(wù)上使用少量人工標(biāo)記的數(shù)據(jù)進(jìn)行微調(diào),這比起傳統(tǒng)的全監(jiān)督學(xué)習(xí)更加省時省力高效。而我們利用提示學(xué)習(xí)的分類方法,不需要對預(yù)訓(xùn)練模型的參數(shù)進(jìn)行調(diào)整,而是把下游任務(wù)的輸入輸出形式改造成適合預(yù)訓(xùn)練模型的形式。它可以統(tǒng)一預(yù)訓(xùn)練和微調(diào)的優(yōu)化目標(biāo),并實(shí)現(xiàn)輕量、高效的下游任務(wù)微調(diào),從而更好地完成任務(wù)[45]。

      整個提示學(xué)習(xí)分類方法可以大致分為以下流程: 為輸入設(shè)計一個模板,構(gòu)造答案空間的映射,將輸入文本放入模板中,使用預(yù)訓(xùn)練語言模型進(jìn)行預(yù)測,最后將預(yù)測的結(jié)果映射回真實(shí)的標(biāo)簽。

      圖1為該方法的整體框架圖,我們將根據(jù)圖1在以下部分詳細(xì)闡述本文方法。

      2.2 模板生成

      在實(shí)際應(yīng)用中,一般在句中或句末設(shè)計模板填充答案。如果位于句中,稱為完型填空提示,適用于預(yù)測任務(wù)(或稱掩碼語言模型任務(wù));如果位于句末,稱為前綴提示,較適用于生成任務(wù)。因此,在中文短文本分類任務(wù)中,我們選擇完型填空提示。

      在我們提出的基于提示學(xué)習(xí)的中文短文本分類方法中,通過對輸入增加提示信息,我們將輸入的中文短文本形式化為自然的表達(dá),即增加了手工設(shè)計的模板。例如,要對新聞標(biāo)題進(jìn)行分類,如圖1所示,假設(shè)需要將輸入的句子x=“國際油價4日繼續(xù)下跌”分類到類別y1=“經(jīng)濟(jì)”或是y2=“教育”中,那么這個模板xp可以設(shè)置為如式(1)所示。

      這里的[CLS]指的是分類,BERT模型在文本前插入一個[CLS]符號,并將該符號對應(yīng)的輸出向量作為整個短文本的語義表示,然后用于分類。在原始文本中加入模板之后,將作為新的輸入數(shù)據(jù)進(jìn)入預(yù)訓(xùn)練語言模型。

      2.3 類別預(yù)測

      給定一組輸入的數(shù)據(jù)x={x1,…,xn},它們都將會被分類到類別y∈Y中,類別標(biāo)簽的集合記作Vy={v1,…,vn},其中,V是整個類別的集合。Vy中每個單詞v被填入[MASK]中的概率表示為p([MASK]=v∈Vy|xp),隨后文本分類任務(wù)可以轉(zhuǎn)化為類別標(biāo)簽詞的概率計算問題,如式(2)所示。

      p(y∈Y|x)=p([MASK]=v∈Vy|xp)

      (2)

      如在短文本“國際油價4日繼續(xù)下跌”的分類過程中,如果屬于y1=“經(jīng)濟(jì)”類別的概率大于y2=“教育”類別的概率,那么該文本就會被分類到“經(jīng)濟(jì)”中。

      2.4 標(biāo)簽詞映射

      所有的類別標(biāo)簽詞概率計算好以后,我們需要將每個標(biāo)簽詞上預(yù)測好的概率映射到對應(yīng)的類別中。假定映射時每個標(biāo)簽詞對于預(yù)測結(jié)果重要性相同,那么預(yù)測分?jǐn)?shù)的均值可以用來進(jìn)行分類。即可以使用目標(biāo)函數(shù)f進(jìn)行分類,如式(3)所示。

      (3)

      最終得到分類結(jié)果。

      3 實(shí)驗(yàn)

      3.1 數(shù)據(jù)集

      本實(shí)驗(yàn)的數(shù)據(jù)集采用THUCNews新聞數(shù)據(jù)集[46]、Chinese News Titles[1]數(shù)據(jù)集、中文外賣數(shù)據(jù)集以及微博評論數(shù)據(jù)集,以下簡記為THUC、CNT、WaiMai、WeiBo數(shù)據(jù)集,具體信息如表1所示。

      表1 4個數(shù)據(jù)集的具體信息

      3.2 對比實(shí)驗(yàn)

      通過與P-tuing[41]、TextCNN[47]以及預(yù)訓(xùn)練語言模型BERT[31]、ERNIE[32]基線方法進(jìn)行對比實(shí)驗(yàn),驗(yàn)證了本文方法的有效性。

      (1)P-tuning: 將模板的構(gòu)建轉(zhuǎn)化成參數(shù)優(yōu)化問題,實(shí)現(xiàn)模板的自動生成。

      (2)TextCNN: 把詞嵌入后的詞向量再通過卷積層和池化層來更好地構(gòu)造特征向量。

      (3)BERT: 利用預(yù)訓(xùn)練模型,將文本嵌入為詞向量,再送到分類器中進(jìn)行分類。

      (4)ERNIE: 將外部知識引入預(yù)訓(xùn)練語言模型中,對掩碼機(jī)制進(jìn)行了改進(jìn),更加適用于中文自然語言處理任務(wù)。

      3.3 實(shí)驗(yàn)設(shè)置

      為了模擬真實(shí)應(yīng)用中訓(xùn)練樣本不足的情況,實(shí)驗(yàn)過程中,我們進(jìn)行了5-shot、10-shot以及20-shot的k-shot少樣本實(shí)驗(yàn),最終以準(zhǔn)確率來評估模型的分類效果。實(shí)驗(yàn)參數(shù)的設(shè)置如下: 我們對訓(xùn)練輪數(shù)選取迭代輪次數(shù)為5,對于THUC以及CNT數(shù)據(jù)集,訓(xùn)練集的批大小設(shè)為32,學(xué)習(xí)率設(shè)為0.000 3;對于外賣評論以及微博評論數(shù)據(jù)集,批大小設(shè)為5,學(xué)習(xí)率設(shè)為0.000 3。

      同時對模型進(jìn)行了調(diào)整,選擇了具有較好性能的其他參數(shù)進(jìn)行實(shí)驗(yàn),如選取實(shí)驗(yàn)效果最優(yōu)的模板,這將在3.5節(jié)進(jìn)行展示。對于參數(shù)批大小、迭代輪次、學(xué)習(xí)率對實(shí)驗(yàn)結(jié)果的影響將在3.6節(jié)進(jìn)行展示。

      下面是對于實(shí)驗(yàn)訓(xùn)練樣本的說明: 在本文的模型中對于每一個k-shot實(shí)驗(yàn),我們從原始的訓(xùn)練集中抽取每個類的k個樣本數(shù)據(jù)來形成少量的shot訓(xùn)練集,并在每個類中抽取另外的k個樣本數(shù)據(jù)來構(gòu)成驗(yàn)證集。由于這些少樣本訓(xùn)練集和驗(yàn)證集選擇的不同對于實(shí)驗(yàn)結(jié)果有一定的影響,所以我們重復(fù)了三次隨機(jī)采樣,并對三次隨機(jī)采樣實(shí)驗(yàn)后的結(jié)果取平均值。

      由于TextCNN、BERT以及ERNIE各自性能的原因,我們也分別進(jìn)行了手動隨機(jī)采樣。以下是具體的采樣說明:

      (1) 在TextCNN的對比實(shí)驗(yàn)中,我們從THUC原始的180 000訓(xùn)練集中分別隨機(jī)采樣700(70×10)條、800(80×10)條以及900(90×10)條;從CNT原始的47 850訓(xùn)練集中隨機(jī)采樣1 920(60×32)條、2 240(70×32)條以及2 560(80×32)條;從WaiMai原始的5 000訓(xùn)練集中分別隨機(jī)采樣140(70×2)條、160(80×2)條、200(100×2)條;從WeiBo原始的100 000訓(xùn)練集中分別隨機(jī)采樣800(400×2)條、900(450×2)條、1 000(500×2)條樣本進(jìn)行實(shí)驗(yàn),為了避免較大的誤差,各自進(jìn)行三次不同的采樣后實(shí)驗(yàn)的結(jié)果取平均值。對照本文所提的模型中的5-shot、10-shot、20-shot樣本數(shù)。

      (2) 在BERT的對比實(shí)驗(yàn)中,我們從THUC原始的訓(xùn)練集中分別隨機(jī)采樣1 200(120×10)條、1 300(130×10)條以及1 400(140×10)條;從CNT原始的訓(xùn)練集中隨機(jī)采樣640(20×32)條、800(25×32)條以及960(30×32)條;從WaiMai原始的訓(xùn)練集中分別隨機(jī)采樣440(220×2)條、460(230×2)條、500(250×2)條;從WeiBo原始的訓(xùn)練集中分別隨機(jī)采樣680(340×2)條、700(350×2)條、740(370×2)條樣本進(jìn)行實(shí)驗(yàn)。同樣,對三次不同隨機(jī)采樣后的實(shí)驗(yàn)結(jié)果取平均值。對比本文的模型中的5-shot、10-shot、20-shot樣本數(shù)。

      (3) 在ERNIE的對比實(shí)驗(yàn)中,我們從THUC原始的訓(xùn)練集中分別隨機(jī)采樣800(80×10)條、900(90×10)條以及1 000(100×10)條;從CNT原始的訓(xùn)練集中隨機(jī)采樣960(30×32)條、1 600(50×32)條以及1 920(60×32)條;從WaiMai原始的訓(xùn)練集中分別隨機(jī)采樣240(120×2)條、260(130×2)條、300(150×2)條;從WeiBo原始的訓(xùn)練集中分別隨機(jī)采樣400(200×2)條、500(250×2)條、560(280×2)條樣本進(jìn)行實(shí)驗(yàn),對三次隨機(jī)不同采樣后的實(shí)驗(yàn)結(jié)果取平均值。對照本文所提的模型中的5-shot、10-shot、20-shot樣本數(shù)。

      3.4 實(shí)驗(yàn)結(jié)果

      表2及圖2~圖5詳細(xì)記錄了4個數(shù)據(jù)集的所有實(shí)驗(yàn)結(jié)果,從實(shí)驗(yàn)中可以得出以下結(jié)論。

      表2 4個數(shù)據(jù)集上不同模型的結(jié)果

      圖2 數(shù)據(jù)集為THUC時各模型的結(jié)果

      圖3 數(shù)據(jù)集為CNT時各模型的結(jié)果

      圖4 數(shù)據(jù)集為WaiMai時各模型的結(jié)果

      圖5 數(shù)據(jù)集為WeiBo時各模型的結(jié)果

      (1) 本實(shí)驗(yàn)所用的樣本數(shù)量不等,但是在樣本數(shù)增加的過程中,所有模型的實(shí)驗(yàn)性能都有所提高,這說明增加訓(xùn)練樣本的數(shù)量可以在少樣本的分類過程中提高分類效果。

      (2) 與TexTCNN以及BERT相比,本文方法在訓(xùn)練樣本數(shù)量相差巨大的情況下,仍取得了更好的分類效果。如在THUC和WeiBo數(shù)據(jù)集中,TextCNN訓(xùn)練樣本數(shù)分別達(dá)到提示學(xué)習(xí)所用樣本數(shù)的14和80倍;在WaiMai數(shù)據(jù)集中,BERT模型所用樣本數(shù)達(dá)到提示學(xué)習(xí)所用樣本數(shù)的44倍。

      (3) 在4個數(shù)據(jù)集中,ERNIE模型所用樣本數(shù)最高達(dá)到提示學(xué)習(xí)所用樣本數(shù)的40倍。這些實(shí)驗(yàn)結(jié)果說明在絕大多數(shù)情況下,本文的模型與以上三個對比方法相比取得了更為理想的分類效果,這就證明本文方法在少樣本的情況下是有效的。

      (4) P-tuing是在提示學(xué)習(xí)中自動生成模板的方法,經(jīng)過實(shí)驗(yàn),分類效果整體上優(yōu)于TextCNN以及BERT模型, 但是不及本文方法中手動設(shè)計模板的實(shí)驗(yàn)結(jié)果,這就說明通過我們手工設(shè)計的模板進(jìn)行實(shí)驗(yàn)的方法是更加有效的。

      3.5 模板選取

      模板的設(shè)計與選取在很大程度上也影響了提示學(xué)習(xí)的實(shí)驗(yàn)效果,使用好的模板可以得到較高的準(zhǔn)確率。在表3中列出了實(shí)驗(yàn)過程中手動設(shè)計的模板。

      表3 模板的具體內(nèi)容

      經(jīng)過對不同模板多次隨機(jī)實(shí)驗(yàn),我們發(fā)現(xiàn)并使用了分類效果較好的模板。表4列出了我們在 10-shot 樣本數(shù)時不同模板的實(shí)驗(yàn)結(jié)果。

      表4 10-shot時不同模板的準(zhǔn)確率

      3.6 參數(shù)敏感度

      在這一部分,本文研究所提方法中不同的參數(shù)對實(shí)驗(yàn)結(jié)果的影響,選取實(shí)驗(yàn)輪數(shù)、學(xué)習(xí)率以及批大小作為考察因素,在THUC數(shù)據(jù)集上選取100個樣本進(jìn)行實(shí)驗(yàn)。經(jīng)過實(shí)驗(yàn)我們發(fā)現(xiàn),隨著迭代輪次數(shù)量的增加分類的正確率在整體上呈現(xiàn)上升趨勢,這表明適當(dāng)?shù)卦黾佑?xùn)練輪數(shù)可以提高分類效果,但是隨著輪數(shù)的增加,所有模型的實(shí)驗(yàn)效果都有所提高,同時也會增加時間復(fù)雜度,所以主實(shí)驗(yàn)中我們只選擇了迭代輪次輪數(shù)為5。對于批大小的選擇,我們發(fā)現(xiàn)在32時得到較好的效果,由實(shí)驗(yàn)結(jié)果可知,批大小的選擇對實(shí)驗(yàn)結(jié)果有一定程度的影響。并且隨著模型的學(xué)習(xí)率的變化,實(shí)驗(yàn)結(jié)果也在一定范圍內(nèi)波動。圖6~圖8展示了具體的實(shí)驗(yàn)結(jié)果。

      圖6 10-shot時不同迭代輪次下模型的實(shí)驗(yàn)結(jié)果

      圖7 10-shot時不同批大小下模型的實(shí)驗(yàn)結(jié)果

      圖8 10-shot時不同學(xué)習(xí)率下模型的實(shí)驗(yàn)結(jié)果

      4 結(jié)論

      本文提出了一種基于提示學(xué)習(xí)的中文短文本分類方法,該方法不需要大量的訓(xùn)練數(shù)據(jù),充分利用了預(yù)訓(xùn)練語言模型的強(qiáng)大泛化能力,僅在少樣本的情況下即可解決短文本的分類問題,減少了對下游任務(wù)有監(jiān)督數(shù)據(jù)的依賴,經(jīng)過實(shí)驗(yàn)證明,該方法有效。下一步工作中,我們將嘗試使用高效的方法對分類標(biāo)簽的空間進(jìn)行擴(kuò)展,以便在不同的下游任務(wù)中取得更好的性能表現(xiàn)。

      猜你喜歡
      短文標(biāo)簽模板
      鋁模板在高層建筑施工中的應(yīng)用
      鋁模板在高層建筑施工中的應(yīng)用
      KEYS
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      Keys
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      標(biāo)簽化傷害了誰
      鋁模板在高層建筑施工中的應(yīng)用
      城市綜改 可推廣的模板較少
      基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
      平泉县| 沐川县| 治县。| 桃江县| 赫章县| 福清市| 柘荣县| 政和县| 玉树县| 宣武区| 宜黄县| 常宁市| 环江| 保德县| 望谟县| 鹤峰县| 五华县| 石台县| 塔河县| 耿马| 子洲县| 神木县| 克拉玛依市| 安图县| 邢台县| 紫金县| 华宁县| 张家港市| 乌恰县| 耒阳市| 鹿泉市| 凤庆县| 江达县| 平湖市| 寻甸| 庄河市| 利川市| 福建省| 即墨市| 苗栗市| 泸西县|