• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于少樣本學(xué)習(xí)的農(nóng)業(yè)領(lǐng)域短文本分類研究

      2022-08-10 08:08:12麻之潤董慧潔
      湖北農(nóng)業(yè)科學(xué) 2022年13期
      關(guān)鍵詞:短文分類樣本

      麻之潤,費(fèi) 凡,黎 芬,董慧潔,彭 琳

      (1.云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院,昆明 650000;2.綠色農(nóng)產(chǎn)品大數(shù)據(jù)智能信息處理工程研究中心,昆明 650000)

      隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)沉淀了大量的文本數(shù)據(jù)。在農(nóng)業(yè)領(lǐng)域如農(nóng)業(yè)氣象、農(nóng)資商品等,這些文本多以短文本的形式出現(xiàn)。如何對(duì)這類文本信息進(jìn)行有效分類,既方便網(wǎng)絡(luò)維護(hù)運(yùn)營者的管理以及發(fā)掘其信息價(jià)值,又能夠讓大眾方便快捷地選擇自己感興趣的內(nèi)容,這是文本分類方向研究的熱點(diǎn)問題。

      文本分類任務(wù)是自然語言處理領(lǐng)域的一項(xiàng)基礎(chǔ)且十分重要的工作,是當(dāng)前該領(lǐng)域的研究熱點(diǎn)之一。該任務(wù)主要指根據(jù)已經(jīng)定義好的類別標(biāo)簽對(duì)現(xiàn)有的一段文本進(jìn)行標(biāo)注。分類的文本又分為長文本和短文本;和長文本相比,短文本的時(shí)效性更強(qiáng),具有明顯的數(shù)據(jù)稀疏性,同時(shí)也存在著高噪聲、高度依賴上下文語境等問題[1],這是現(xiàn)階段短文本分類面臨的難點(diǎn)問題。

      1960—2010 年,研究人員主要基于統(tǒng)計(jì)模型來研究文本的分類,如樸素貝葉斯(NB)模型、K 近鄰(KNN)方法、支持向量機(jī)(SVM)方法等。Maron[2]研究了一種根據(jù)文檔內(nèi)容自動(dòng)分類的方法;李靜梅等[3]在假設(shè)特征獨(dú)立性的基礎(chǔ)上,就樸素貝葉斯的原理和應(yīng)用等問題進(jìn)行討論,并通過期望值最大法提高了其分類精度。余芳[4]基于web 文本的特征利用樸素貝葉斯算法實(shí)現(xiàn)了一個(gè)文本分類系統(tǒng),并獲得了很好的分類效果。Cover 等[5]提出了一種最近鄰決策規(guī)則用于文本分類。龐劍鋒[6]提出了一個(gè)能夠有效將文本分類算法和反饋方法相結(jié)合的方法,并建立了可行的系統(tǒng)。湛燕[7]基于K-近鄰、K-均值算法,提出了一種學(xué)習(xí)權(quán)值算法可以間接的優(yōu)化聚類結(jié)果。Joachims[8]討論了如何使用支持向量機(jī)運(yùn)用在文本分類任務(wù)中。2009 年,TF-IDF 通過TF 詞頻和IDF 逆文本頻率指數(shù)來評(píng)估單詞或者片段短語對(duì)一個(gè)完整語料庫的影響程度,如果一個(gè)陌生詞語在某篇隨機(jī)的文章中出現(xiàn)的頻率很高,但是在這個(gè)完整語料庫中出現(xiàn)的頻率較低,則其TF-IDF 值較高,即重要程度較高[9]。Mikolov 等[10]提出了新穎的word2vec 模型,用于從龐大數(shù)據(jù)集中計(jì)算單詞的連續(xù)矢量表示。Pennington 等[11]提出了一個(gè)新的全局對(duì)數(shù)線性回歸模型,在多項(xiàng)任務(wù)方面優(yōu)于相關(guān)模型。

      隨后文本分類進(jìn)入從機(jī)器學(xué)習(xí)到深度學(xué)習(xí)的快速發(fā)展道路。Kim[12]提出了一種用于文本分析的CNN——TextCNN。Iyyer 等[13]提出了一個(gè)簡(jiǎn)單的深度神經(jīng)網(wǎng)絡(luò)DAN,與同類模型相比僅需花費(fèi)少量培訓(xùn)時(shí)間就能夠獲得同等的成績(jī)。Tai 等[14]提出了一種LSTM 對(duì)樹型網(wǎng)絡(luò)拓?fù)涞母爬═ree-LSTM,在一些任務(wù)上強(qiáng)于LSTM。Grave 等[15]探討了一種簡(jiǎn)單有效的文本分類方法FastText,并獲得了良好的效果。2017 年,Vaswani 等[16]提出了幾乎僅靠注意力來完成任務(wù)的Transformer 模型,同時(shí)提出了可伸縮點(diǎn)積注意力。上述方法雖然在文本特征提取能力方面有了提升,但仍需要大量的文本數(shù)據(jù)作為支撐。

      本研究中的“少樣本”是指維度小、數(shù)量小的樣本[17],短文本指不超過200 個(gè)字符的文本[18]。對(duì)于文本分類任務(wù),目前常見的方法都需要基于大規(guī)模的人工標(biāo)注數(shù)據(jù)集。對(duì)于農(nóng)業(yè)領(lǐng)域的文本,大規(guī)模標(biāo)注數(shù)據(jù)成本很高,而且需要與原來的數(shù)據(jù)一起進(jìn)行重新訓(xùn)練。在圖像領(lǐng)域借助少量樣本對(duì)新樣本進(jìn)行分類的技術(shù)發(fā)展比較成熟,文本領(lǐng)域目前沒有廣泛應(yīng)用的成熟技術(shù)[19]。Vinyals 等[20]定義了一個(gè)少樣本數(shù)據(jù)集miniImageNet,一共有100 個(gè)類別,每個(gè)類別有600 個(gè)樣本,用于少樣本的研究。Han 等[19]在EMNLP 2018 中提出了一個(gè)少樣本的關(guān)系數(shù)據(jù)集,包含64 種關(guān)系用于訓(xùn)練,16 種關(guān)系用于驗(yàn)證和20 種關(guān)系用于測(cè)試,每種關(guān)系包含700 個(gè)樣本。本文基于此展開研究,提出的方法可以借助少量的樣本對(duì)農(nóng)業(yè)領(lǐng)域的文本進(jìn)行分類。

      1 相關(guān)理論

      1.1 少樣本學(xué)習(xí)

      少 樣 本 學(xué) 習(xí)(Few sample learning,F(xiàn)ew-shot learning,F(xiàn)SL),也稱小樣本學(xué)習(xí)(One sample learn?ing)[21]或單樣本學(xué)習(xí)(One-shot learning),可以追溯到21 世紀(jì)初[22]。這里few-shot 有計(jì)量的意思,指少樣本學(xué)習(xí),機(jī)器學(xué)習(xí)模型在學(xué)習(xí)了相當(dāng)類別的數(shù)據(jù)后,只需要少量的樣本就能夠快速學(xué)習(xí),對(duì)應(yīng)的有單樣本學(xué)習(xí),可看作樣本量為一情況下的一種少樣本學(xué)習(xí)。少樣本學(xué)習(xí)按照使用方法可分為3 種。①模型微調(diào)法。數(shù)據(jù)集分布相似的前提下,在目標(biāo)小數(shù)據(jù)集上對(duì)源數(shù)據(jù)集訓(xùn)練好的分類模型進(jìn)行個(gè)別層參數(shù)微調(diào),該方法因數(shù)據(jù)集分布不同易產(chǎn)生過擬合的結(jié)果。②數(shù)據(jù)增強(qiáng)法。利用輔助信息增強(qiáng)樣本特征,如添加標(biāo)簽數(shù)據(jù)進(jìn)行樣本數(shù)據(jù)擴(kuò)增、添加多樣特征進(jìn)行樣本特征空間增強(qiáng),便于模型提取特征,該方法因增加數(shù)據(jù)信息易引入噪聲數(shù)據(jù)。③遷移學(xué)習(xí)法。在一定關(guān)聯(lián)下,利用學(xué)會(huì)的知識(shí)和特征遷移到新知識(shí)的學(xué)習(xí)。本文主要從遷移學(xué)習(xí)模型方面著手展開少樣本學(xué)習(xí)研究。

      1.2 預(yù)訓(xùn)練模型

      預(yù)訓(xùn)練的思想究其本源是模型的全部參數(shù)不是以往的隨機(jī)初始化,而是通過特定任務(wù)(例如語言的模型)進(jìn)行一些預(yù)訓(xùn)練。試驗(yàn)表明,在大型的完整語料庫中進(jìn)行預(yù)訓(xùn)練(PTMs)能夠習(xí)得通用語言的表示,而這對(duì)之后的NLP 具體任務(wù)很有幫助,避免了從最初開始訓(xùn)練新模型。

      預(yù)訓(xùn)練模型自提出后便得到飛速發(fā)展,先后出現(xiàn)了ELMo[23]、ULMFiT[24]、BERT[25]、XLNet[26]等先進(jìn)的預(yù)訓(xùn)練語言模型。其中Devlin 等[25]引入了一種稱為BERT 的表示語言模型,它用Transformer 雙向編碼器表示,目的是聯(lián)合調(diào)節(jié)(jointly conditioning)所有層的左右和上下文,進(jìn)而預(yù)訓(xùn)練其深度雙向的表示,以此證明雙向的預(yù)訓(xùn)練對(duì)語言的表示非常重要,同時(shí)也證明了預(yù)訓(xùn)練表示的便捷性,減少了眾多復(fù)雜的特定任務(wù)設(shè)計(jì)等需求。Transformer 結(jié)構(gòu)模型拋棄了傳統(tǒng)的CNN 和RNN,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)是由Atten?tion 機(jī)制完全組成。更準(zhǔn)確地說,Transformer 僅由self-Attention 和Feed Forward Neural Network 組 成。本 質(zhì) 上,Transformer 是 一 個(gè)Encoder-Decoder 的 結(jié)構(gòu),其左側(cè)是編碼器,目的是使語料經(jīng)過輸入后能夠生成相應(yīng)的特征向量;右側(cè)是解碼器,其輸入有兩部分構(gòu)成,一部分是左側(cè)編碼器的輸出結(jié)果,另一部分是已經(jīng)預(yù)測(cè)的結(jié)果,目的是獲得最終的條件概率。其具體結(jié)構(gòu)如圖1 所示。

      圖1 BERT 中應(yīng)用的Transformer 網(wǎng)絡(luò)

      其中,Attention(Q,K,V):Attention( )

      Q,K,V=softmax,F(xiàn)eed Forward Neural Network 的全連接層第二層線性的激活函數(shù)為FFN( )

      Z=max(0,ZW1+b1)W2+b2

      BERT 模型針對(duì)的是英文或字的word 粒度的完形填空學(xué)習(xí)層面,并沒有考慮運(yùn)用訓(xùn)練數(shù)據(jù)中的詞法、語法結(jié)構(gòu)以及語義的相關(guān)信息,并以此來建模學(xué)習(xí)。相對(duì)而言,百度的ERNIE 模型先是對(duì)詞和實(shí)體等語義單元進(jìn)行掩碼操作,能夠讓模型了解完整語義的表示;ERNIE 用訓(xùn)練數(shù)據(jù)中的詞法、語法的結(jié)構(gòu)以及語義中的相關(guān)信息來統(tǒng)一建模,在語義表示方面較大地提高了其通用表示的能力。BERT 模型和ERNIE 模型的遮掩策略區(qū)別如圖2 所示。

      圖2 BERT 和ERNIE 之間不同的遮掩策略

      2 試驗(yàn)

      2.1 數(shù)據(jù)獲取

      本試驗(yàn)數(shù)據(jù)從淘金地-農(nóng)業(yè)網(wǎng)的農(nóng)業(yè)問答板塊問答分類頁面爬取,遵循國家法律與該網(wǎng)站的爬蟲協(xié)議——robots.txt,并保證該數(shù)據(jù)僅用于此次文本分類研究,不外傳與分享,不用于商業(yè)用途。首先分析了該網(wǎng)站的可視化結(jié)構(gòu)與前端代碼,知悉其數(shù)據(jù)傳輸方式為get 方式;再查看代碼,找到其頁面所需要的問答信息的具體標(biāo)簽,判斷該標(biāo)簽是否能準(zhǔn)確地定位到這個(gè)問題,判斷該標(biāo)簽的惟一準(zhǔn)確性;然后判斷不同問題頁面實(shí)現(xiàn)翻頁的方式方法;最后嘗試爬取單獨(dú)頁面并將信息寫入csv 文件中,成功后調(diào)試代碼,逐步實(shí)現(xiàn)爬取所有問題頁面的相關(guān)信息并逐行寫入csv 中。利用Scrapy 框架、Urllib、Requests等庫,運(yùn)用python 編程語言,從html頁面的特定標(biāo)簽中爬取問答分類頁面所有問句對(duì),存入csv 文件中。該問句對(duì)分為養(yǎng)殖技術(shù)、糧油種植、蔬菜種植、瓜果種植、藥材種植五大類,又可分為問題集和滿意答案集。

      2.2 數(shù)據(jù)清洗

      數(shù)據(jù)清洗是整個(gè)數(shù)據(jù)分析過程中極其重要且不可或缺的一個(gè)環(huán)節(jié),是對(duì)獲取數(shù)據(jù)進(jìn)行再一次審查與校對(duì)核驗(yàn)的過程,主要為了舍去多余重復(fù)的信息,改正現(xiàn)存的錯(cuò)誤問題,直至可以獲得一致的數(shù)據(jù)。常見的數(shù)據(jù)清洗步驟分為預(yù)處理階段的數(shù)據(jù)導(dǎo)入與查看、缺失數(shù)據(jù)清洗、格式內(nèi)容清洗、邏輯錯(cuò)誤清洗、不相關(guān)數(shù)據(jù)清洗和驗(yàn)證關(guān)聯(lián)性等。本研究共爬取了10 000 多條數(shù)據(jù)對(duì),經(jīng)過分析發(fā)現(xiàn)有部分殘缺值并刪除,部分重復(fù)值經(jīng)過對(duì)比后刪除,部分?jǐn)?shù)據(jù)帶有特殊格式和符號(hào)經(jīng)正則表達(dá)式刪除。通過上述環(huán)節(jié)對(duì)殘缺數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、重復(fù)數(shù)據(jù)進(jìn)行審查與刪除,后經(jīng)人工隨機(jī)校對(duì),保留了12 433 條問句對(duì)。對(duì)該數(shù)據(jù)集進(jìn)行分析處理,然后分組,S0 組為5 大類全量數(shù)據(jù)集,S1 組為5 大類等比縮小數(shù)據(jù)集,S2、S3、S4 為繼續(xù)等比例縮減后的5 大類數(shù)據(jù)集。

      隨機(jī)從短文本問題集中選取其中的70% 數(shù)據(jù)作為訓(xùn)練集,20% 數(shù)據(jù)作為測(cè)試集,10% 數(shù)據(jù)作為驗(yàn)證集,數(shù)據(jù)集統(tǒng)計(jì)如表1 所示。部分問題集訓(xùn)練語料見表2。

      表1 數(shù)據(jù)集統(tǒng)計(jì) (單位:條)

      表2 部分問題集訓(xùn)練語料

      首先將預(yù)處理好的數(shù)據(jù)集輸入基于BERT 和ERNIE 預(yù)訓(xùn)練模型進(jìn)行文本表示,具體過程為:將輸入數(shù)據(jù)轉(zhuǎn)換成嵌入向量X,根據(jù)嵌入向量得到q,k,v3 個(gè)向量,分別為每個(gè)向量計(jì)算score(score=q×k),用score 歸一化操作(),達(dá)到穩(wěn)定的梯度,對(duì)score 施加以softmax 激活函數(shù)。再分別取出本數(shù)據(jù)集的表示向量,該向量攜帶了大量的背景信息,具有豐富的表達(dá)能力。最后將這些向量輸入全連接層,經(jīng)過一系列的權(quán)重調(diào)整,得到分類結(jié)果。分類模型結(jié)構(gòu)如圖3 所示。同時(shí),將處理好的數(shù)據(jù)集在決策樹模型上做對(duì)比試驗(yàn)。

      圖3 分類模型結(jié)構(gòu)

      2.3 試驗(yàn)環(huán)境

      1)試驗(yàn)硬件。CPU 為Intel Xeon E5-2678 v3,內(nèi)存容量為128G,內(nèi)核為48 核,顯卡為GeForce RTX 3090,顯存容量為24 GB,操作系統(tǒng)為Ubuntu 18.04.5 LTS,Python 版本為3.8,PyTorch 深度學(xué)習(xí)框架,框架版本1.7.1,Cuda 版本為11.0。

      2)參數(shù)設(shè)置。BERT:batch_size=128,pad_size=32,learning_rate=5e-5,hidden_size=768,num_epochs=6;ERNIE:batch_size=128,pad_size=32,learn?ing_rate=5e-5,hidden_size=768,num_epochs=6。

      2.4 評(píng)價(jià)標(biāo)準(zhǔn)

      本研究從試驗(yàn)評(píng)價(jià)指標(biāo)的準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值來對(duì)決策樹模型基于BERT 模型和ERNIE 模型的農(nóng)業(yè)短文本分類算法的分類結(jié)果展開分析。

      準(zhǔn)確率(Accuracy)指分類器分類正確的樣本與總樣本之比。

      精確率(Precision)也稱為查準(zhǔn)率,指分類正確的正例個(gè)數(shù)與分類為正例的實(shí)例個(gè)數(shù)之比。

      召回率(Recall)也稱為查全率,代表分類正確的個(gè)數(shù)與實(shí)際正例的個(gè)數(shù)之比。

      F-Measure 為精確率和召回率的綜合評(píng)價(jià)指標(biāo)。

      當(dāng)β=1 時(shí),

      式中,TP代表正例的樣本預(yù)測(cè)依然為正例,F(xiàn)P代表負(fù)例的樣本預(yù)測(cè)為正例,F(xiàn)N代表正例的樣本預(yù)測(cè)為負(fù)例,F(xiàn)P代表負(fù)例的樣本預(yù)測(cè)依然為負(fù)例。

      2.5 試驗(yàn)結(jié)果

      對(duì)比試驗(yàn)結(jié)果見表3。由表3 可以看出,小樣本數(shù)據(jù)集中,隨著數(shù)據(jù)量的變少,不論是傳統(tǒng)模型還是預(yù)訓(xùn)練模型,準(zhǔn)確率、精確率和召回率均存在下降趨勢(shì);而基于ERNIE 預(yù)訓(xùn)練模型的準(zhǔn)確率、F1值處于較高水平,遠(yuǎn)高于同數(shù)據(jù)的決策樹模型。因此,本研究提出的基于BERT 模型和ERNIE 模型的農(nóng)業(yè)短文本分類算法能夠在數(shù)據(jù)量不足的情況下,便捷、有效地識(shí)別出文本所屬的農(nóng)業(yè)領(lǐng)域類別。

      表3 對(duì)比試驗(yàn)結(jié)果 (單位:%)

      3 小結(jié)

      本研究在處理農(nóng)業(yè)領(lǐng)域短文本分類任務(wù)時(shí),面對(duì)該領(lǐng)域經(jīng)過標(biāo)注的文本數(shù)據(jù)稀缺的現(xiàn)狀,以及對(duì)大量無標(biāo)簽數(shù)據(jù)進(jìn)行標(biāo)注又耗費(fèi)人力物力的問題,構(gòu)建了適用于農(nóng)業(yè)短文本分類的小樣本數(shù)據(jù)集,并根據(jù)數(shù)據(jù)量的大小分成不同的組別;然后構(gòu)建了基于BERT 和ERNIE 預(yù)訓(xùn)練模型的農(nóng)業(yè)短文本分類算法,并與基于決策樹模型的農(nóng)業(yè)短文本分類算法進(jìn)行對(duì)比分析。結(jié)果表明,構(gòu)建的農(nóng)業(yè)短文本分類算法能夠在數(shù)據(jù)量不足的情況下依然獲得較高的分類效果。下一步還將在農(nóng)業(yè)領(lǐng)域文本數(shù)據(jù)集的基礎(chǔ)上繼續(xù)完善模型和開發(fā)應(yīng)用系統(tǒng)。

      猜你喜歡
      短文分類樣本
      分類算一算
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      分類討論求坐標(biāo)
      KEYS
      推動(dòng)醫(yī)改的“直銷樣本”
      數(shù)據(jù)分析中的分類討論
      Keys
      教你一招:數(shù)的分類
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      综艺| 黎平县| 克山县| 神农架林区| 喀喇沁旗| 临朐县| 柳河县| 沙湾县| 八宿县| 三台县| 南雄市| 台北市| 织金县| 湾仔区| 布尔津县| 镇沅| 安宁市| 汕尾市| 保德县| 肃北| 浮梁县| 喀什市| 郧西县| 闸北区| 喀喇| 沁阳市| 平邑县| 延庆县| 和硕县| 石阡县| 鄄城县| 农安县| 乃东县| 西峡县| 万盛区| 嵊州市| 盱眙县| 通渭县| 利川市| 莫力| 张家港市|