• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于AI深度學(xué)習(xí)的新聞文本分類法研究

      2024-12-04 00:00:00龔靜鄭迪聰劉現(xiàn)芳
      關(guān)鍵詞:自然語(yǔ)言處理

      摘 要:針對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)未能考慮局部信息對(duì)新聞文本分類的影響以及無(wú)法及時(shí)捕獲長(zhǎng)距離特征信息等問(wèn)題,本文提出了一種基于AI深度學(xué)習(xí)的新聞文本分類方法。為進(jìn)一步驗(yàn)證新聞文本分類效果,該方法將徑向基函數(shù)模型與多層感知層模型結(jié)合,并進(jìn)行深度學(xué)習(xí)訓(xùn)練,通過(guò)樣本標(biāo)記迭代試驗(yàn)進(jìn)行測(cè)試。結(jié)果表明,AI深度學(xué)習(xí)加快了模型訓(xùn)練過(guò)程,提升了模型在迭代過(guò)程的正確率,降低了漏報(bào)率,顯著增強(qiáng)了分類效果。

      關(guān)鍵詞:AI深度學(xué)習(xí);新聞文本分類;自然語(yǔ)言處理;詞向量

      中圖分類號(hào):TP 391 文獻(xiàn)標(biāo)志碼:A

      隨著網(wǎng)絡(luò)信息大量增加,主流新聞網(wǎng)站每日需要提供海量新聞數(shù)據(jù),這些數(shù)據(jù)為新聞網(wǎng)站帶來(lái)了很多挑戰(zhàn)。新聞文本分類能夠?qū)ξ谋具M(jìn)行快速分類,提升網(wǎng)站工作效率。新聞文本分類廣泛應(yīng)用于各領(lǐng)域,例如網(wǎng)頁(yè)分類和用戶挖掘等。經(jīng)常使用的新聞文本分類方法有2種,即傳統(tǒng)機(jī)器學(xué)習(xí)與AI深度學(xué)習(xí)。傳統(tǒng)機(jī)器學(xué)習(xí)主要通過(guò)手工提取特征輸入分類器進(jìn)行訓(xùn)練,但是通常存在提取不全和高緯度等問(wèn)題[1],AI深度學(xué)習(xí)具有較好的分類效果,其可自動(dòng)選擇數(shù)據(jù)的標(biāo)注與訓(xùn)練順序,能夠快速完成新聞文本分類任務(wù),解決了在迭代訓(xùn)練過(guò)程中由于標(biāo)記時(shí)間限制,因此僅能在未標(biāo)記文本數(shù)據(jù)內(nèi)選擇樣本子集標(biāo)注后作為訓(xùn)練集來(lái)訓(xùn)練的問(wèn)題[2]。鑒于此,本文提出了一種基于AI深度學(xué)習(xí)的新聞文本分類方法,旨在解決信息紊亂的問(wèn)題,能夠顯著提升模型在迭代過(guò)程中的正確率并降低漏報(bào)率。當(dāng)存在海量數(shù)據(jù)時(shí),可以幫助用戶高效、快速完成信息定位,篩選各類場(chǎng)景下最有價(jià)值的信息,從而更高效地進(jìn)行數(shù)據(jù)分析。

      1 理論研究

      自然語(yǔ)言處理的快速發(fā)展提升了文本分類效率,已成為研究熱點(diǎn)。薛麗等[3](2023) 提出了用于學(xué)術(shù)文本分類的CNN-BiGRU模型,該模型篩選文本的局部信息,但是忽略了上下文語(yǔ)義關(guān)聯(lián)性信息。楊茜[4](2023)為了捕獲序列語(yǔ)義信息,繼續(xù)優(yōu)化長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的網(wǎng)絡(luò)結(jié)構(gòu),并提出了Bi-LSTM模型,該模型能夠同時(shí)用向前與向后對(duì)序列進(jìn)行掃描,但是當(dāng)單獨(dú)文本分類時(shí)僅能捕獲文本的語(yǔ)義信息,無(wú)法捕獲局部特征信息。針對(duì)這些問(wèn)題,本文提出基于AI深度學(xué)習(xí)的新聞文本分類法進(jìn)行合理、有效的分類。

      2 流程設(shè)計(jì)

      深度學(xué)習(xí)是對(duì)未標(biāo)記文本集內(nèi)有價(jià)值的子集進(jìn)行采樣,對(duì)其人工標(biāo)記后再展開相關(guān)訓(xùn)練的過(guò)程。該方式僅需標(biāo)記與迭代訓(xùn)練部分未標(biāo)記文本,就可以提高模型質(zhì)量,提升文本分類效果[5]。依托AI的學(xué)習(xí)方法是深度學(xué)習(xí)中的常見(jiàn)流程,本文也參考了該方法。維護(hù)未標(biāo)記文本數(shù)據(jù)集合,通過(guò)采樣函數(shù)選取集合內(nèi)需要進(jìn)行標(biāo)記或訓(xùn)練的文本數(shù)據(jù),對(duì)其標(biāo)記后添加已標(biāo)記的文本集合作為新的訓(xùn)練集。采樣函數(shù)在該過(guò)程中發(fā)揮了重要作用,其目的是根據(jù)預(yù)測(cè)標(biāo)記概率選取最有標(biāo)記價(jià)值的一系列數(shù)據(jù),具體流程如圖1所示。全量訓(xùn)練能夠獲得更高的精度,特別是當(dāng)進(jìn)行深度網(wǎng)絡(luò)訓(xùn)練時(shí),因此在模型迭代訓(xùn)練過(guò)程中直接使用該方法。

      3 采樣設(shè)計(jì)

      3.1 貝葉斯深度采樣

      貝葉斯深度采樣適用于深度網(wǎng)絡(luò)處理,在模型激活層前添加隱藏層,就可以在訓(xùn)練過(guò)程中對(duì)隱藏層權(quán)重的后驗(yàn)分布使用馬爾科夫算法得到類別概率的后驗(yàn)分布。在不同分類問(wèn)題中,使用該算法求解后驗(yàn)概率,如公式(1)所示。

      P(A|B)=P(B|A)·P(A)/P(B) " "(1)

      式中:P(A|B)為在B發(fā)生的情況下A出現(xiàn)的概率;P(B|A)為在A發(fā)生的情況下B出現(xiàn)的概率;P(A)為A發(fā)生的先驗(yàn)概率;P(B)為B發(fā)生的先驗(yàn)概率。這樣便可根據(jù)后驗(yàn)概率,在迭代中通過(guò)貝葉斯深度采樣從文本數(shù)據(jù)內(nèi)選擇合適數(shù)據(jù)展開訓(xùn)練,從而形成優(yōu)化后的AI深度學(xué)習(xí)法。

      3.2 辨識(shí)性深度采樣

      辨識(shí)性深度采樣是將AI深度學(xué)習(xí)轉(zhuǎn)化為分類任務(wù),選擇特定文本樣本后進(jìn)行標(biāo)記,減少標(biāo)記后與未標(biāo)記的文本集差異,從中篩選具有代表性的文本訓(xùn)練集。該方法定義了二值分類問(wèn)題,擬設(shè)1個(gè)輸入空間與標(biāo)記空間,輸入空間是到標(biāo)記空間的一種映射,選取標(biāo)記標(biāo)簽與未標(biāo)記標(biāo)簽,計(jì)算特征值后經(jīng)人工處理后得到代碼如下所示。

      mean_on_train=X_train.mean(axis=0)##計(jì)算特征均值

      std_on_train=X_train.std(axis=0)##計(jì)算特征標(biāo)準(zhǔn)差

      X_train_scald=(X_train-mean_on_train)/std_on_train##減去均值,乘以標(biāo)準(zhǔn)差的倒數(shù)

      X_test_scald=(X_test-mean_on_train)/std_on_train##對(duì)測(cè)試集做同樣處理

      通過(guò)數(shù)據(jù)縮放可知,由于采集前后存在一定差距,甚至出現(xiàn)過(guò)度擬合,因此可通過(guò)調(diào)整其他參數(shù)來(lái)提高采集過(guò)程的泛化性能。

      4 模型設(shè)計(jì)

      模型設(shè)計(jì)是AI深度學(xué)習(xí)的基礎(chǔ)環(huán)節(jié),與采樣設(shè)計(jì)共同構(gòu)成了完善的深度學(xué)習(xí)方法。采樣設(shè)計(jì)對(duì)其匹配的模型有不同要求,例如貝葉斯深度采樣只需要模型在預(yù)測(cè)過(guò)程中輸出置信度,其他采樣方法則需要與內(nèi)含嵌入表示的網(wǎng)絡(luò)模型相契合。

      當(dāng)表示新聞文本時(shí)AI深度學(xué)習(xí)模型使用雙向嵌入,同時(shí)在詞嵌入基礎(chǔ)上添加了句嵌入,在一定程度上優(yōu)化了原模型,從而更好地把握整體信息與詞句之間的關(guān)系,在各類自然語(yǔ)言處理任務(wù)中表現(xiàn)得更突出。模型的主要框架是過(guò)渡層,由數(shù)個(gè)編碼器與解碼器構(gòu)成。編碼器包括注意力機(jī)制、殘差網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)以及歸一處理4層構(gòu)件;解碼器在編碼器的基礎(chǔ)上添加了注意力層,由此實(shí)現(xiàn)了文本信息的解碼與序列化[6]。其中,注意力層是過(guò)渡層的內(nèi)核,其主要作用是通過(guò)計(jì)算詞句關(guān)聯(lián)性調(diào)整權(quán)重系數(shù),體現(xiàn)詞句之間的聯(lián)系,并在該過(guò)程中反映詞匯對(duì)所在句表達(dá)的重要性。

      模型設(shè)計(jì)主要包括以下3個(gè)步驟。1)序列輸入后進(jìn)入編碼器,經(jīng)線性轉(zhuǎn)換后得到表示文本字符的初始化矩陣。2)經(jīng)放縮點(diǎn)積獲得相關(guān)注意力值,據(jù)此體現(xiàn)當(dāng)模型進(jìn)行編碼時(shí)某個(gè)詞匯與所在句其他詞匯的關(guān)系。3)轉(zhuǎn)換注意力值,得到與模型輸入文本長(zhǎng)度相同的輸出量,該輸出量能夠提高語(yǔ)義效果。

      5 試驗(yàn)分析

      5.1 構(gòu)建數(shù)據(jù)集

      為驗(yàn)證模型性能,使用爬蟲技術(shù)在20Newsgroups新聞文本數(shù)據(jù)集上進(jìn)行比較,數(shù)據(jù)集包括18 000篇新聞文章,共涉及20個(gè)話題,通常用來(lái)進(jìn)行文本分類。本次試驗(yàn)使用語(yǔ)料庫(kù)包括經(jīng)濟(jì)、娛樂(lè)、文化、房產(chǎn)、游戲、體育、時(shí)事、科學(xué)、生活和社會(huì)等類別,不同類別涵蓋的文本樣本有所差異。抽取16 000條新聞數(shù)據(jù)作為訓(xùn)練集、1 000條數(shù)據(jù)作為測(cè)試集以及1 000條數(shù)據(jù)作為驗(yàn)證集,每條新聞經(jīng)人工標(biāo)記判斷是否為所需要的新聞文本。因?yàn)锳I深度學(xué)習(xí)需要數(shù)次查詢與標(biāo)記,所以創(chuàng)設(shè)簡(jiǎn)單的自動(dòng)標(biāo)記系統(tǒng),能夠更便捷地將采樣設(shè)計(jì)選擇的標(biāo)記文本發(fā)送至系統(tǒng),經(jīng)人工標(biāo)記后對(duì)模型進(jìn)行相應(yīng)訓(xùn)練。

      5.2 具體參數(shù)

      參數(shù)為模型內(nèi)的配置變量,參數(shù)設(shè)置不同會(huì)對(duì)試驗(yàn)結(jié)果產(chǎn)生一定影響。本次試驗(yàn)中的較模型包括AI深度學(xué)習(xí)模型、徑向基函數(shù)模型和多層感知器模型等神經(jīng)網(wǎng)絡(luò)模型,具體參數(shù)設(shè)置見(jiàn)表1。通過(guò)調(diào)整,AI深度學(xué)習(xí)模型訓(xùn)練的初始設(shè)置與訓(xùn)練參數(shù)均得到了顯著優(yōu)化,在對(duì)不同模型進(jìn)行深度訓(xùn)練的過(guò)程中,應(yīng)保持新增標(biāo)記文本數(shù)據(jù)統(tǒng)一,這樣能夠比較迭代過(guò)程中的性能差異以及性能提升速率。在訓(xùn)練的過(guò)程中還引入了“預(yù)先解除”策略,當(dāng)驗(yàn)證集的正確率停止上升時(shí)應(yīng)即刻解除,避免出現(xiàn)收斂性降低、過(guò)度擬合等情況,從而使訓(xùn)練效率顯著提升。

      5.3 試驗(yàn)環(huán)境

      本次試驗(yàn)環(huán)境見(jiàn)表2,為避免出現(xiàn)收斂性降低和過(guò)度擬合等情況,試驗(yàn)采用“預(yù)先解除”策略,即如果多次迭代后損失值較小,那么再迭代數(shù)次后便無(wú)須優(yōu)化參數(shù)。

      5.4 評(píng)價(jià)指標(biāo)

      評(píng)價(jià)指標(biāo)是評(píng)價(jià)數(shù)據(jù)表現(xiàn)情況的主要標(biāo)準(zhǔn),對(duì)新聞文本分類來(lái)說(shuō),一般采用正確率(Accuracy)與漏報(bào)率(Missrate)2個(gè)評(píng)價(jià)指標(biāo),該指標(biāo)經(jīng)過(guò)計(jì)算,可直觀觀察模型在新聞文本分類過(guò)程中的具體性能,因此試驗(yàn)決定采用上述指標(biāo)進(jìn)行研究。其中,正確率為不同類別正確率的均值,如公式(2)所示;漏報(bào)率為不同類別漏報(bào)率的均值,如公式(3)所示。

      (2)

      (3)

      式中:TP為文本正樣本被正確識(shí)別的量;FP為文本負(fù)樣本被誤報(bào)的量;TN為文本負(fù)樣本被正確識(shí)別的量;FN為文本正樣本被漏報(bào)的量。正確率反映模型正確判斷整體樣本的能力,值越大,性能越好;漏報(bào)率反映模型正確預(yù)測(cè)負(fù)樣本純度的能力,值越小,性能越好。

      5.5 結(jié)果分析

      為體現(xiàn)設(shè)計(jì)效果,驗(yàn)證本文提出的新聞文本分類法的有效性,筆者將AI深度學(xué)習(xí)模型與多層感知器模型、徑向基函數(shù)模型進(jìn)行比較。

      各模型的訓(xùn)練正確率如圖2所示,AI深度學(xué)習(xí)模型的正確率最高,當(dāng)?shù)?00次時(shí)精度達(dá)到了95.6%,遠(yuǎn)高于多層感知器模型的83.2%和徑向基函數(shù)模型的91.5%。其中,多層感知器模型的精度最低,說(shuō)明其雖然可以雙向傳輸記憶距離較遠(yuǎn)的文本信息,但是當(dāng)處理長(zhǎng)文本序列時(shí)遺忘門易丟失時(shí)間較久的序列信息,因此導(dǎo)致精度顯著降低;雖然徑向基函數(shù)模型具有提取局部特征信息的能力,但是提取上下文序列特征的能力不顯著,徑向基函數(shù)模型的正確率低于 AI 深度學(xué)習(xí)模型,當(dāng)提取整體文本時(shí)仍落后于 AI 深度學(xué)習(xí)模型。

      各模型的訓(xùn)練漏報(bào)率如圖3所示,3個(gè)模型起始均存在漏報(bào)情況,但是遺漏速度存在顯著差異。由試驗(yàn)可知,AI深度學(xué)習(xí)模型不僅漏報(bào)率更低,而且數(shù)據(jù)浮動(dòng)情況較少,當(dāng)?shù)?300 次時(shí),其漏報(bào)率為25.3%,遠(yuǎn)低于多層感知器模型的41.7%和徑向基函數(shù)模型的35.5%。

      3個(gè)模型在測(cè)試集中的訓(xùn)練分類結(jié)果見(jiàn)表3。由表3可知,AI深度學(xué)習(xí)模型在新聞文本測(cè)試集的召回率達(dá)到了92%,顯著優(yōu)于徑向基函數(shù)模型與多層感知器模型,分別提升了3%與9%。AI深度學(xué)習(xí)模型的F1分?jǐn)?shù)也較為優(yōu)秀,達(dá)到了91,說(shuō)明其能夠?qū)W習(xí)更多的文本分類特征,與徑向基函數(shù)模型、多層感知器模型相比具有較大優(yōu)勢(shì)。

      6 結(jié)語(yǔ)

      綜上所述,文本分類是自然語(yǔ)言處理領(lǐng)域的經(jīng)典任務(wù),本研究將AI深度學(xué)習(xí)應(yīng)用于新聞文本分類任務(wù)中。利用AI深度學(xué)習(xí)模型,以爬蟲收集的新聞文本數(shù)據(jù)信息為資料,以篩選所需新聞為目標(biāo),驗(yàn)證了AI深度學(xué)習(xí)模型、多層感知器模型和徑向基函數(shù)模型對(duì)深度神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練效果,為新聞文本分類的深度學(xué)習(xí)提供了可操作的實(shí)踐經(jīng)驗(yàn)。試驗(yàn)結(jié)果表明,AI深度學(xué)習(xí)加快了模型訓(xùn)練過(guò)程,提升了模型在迭代過(guò)程中的正確率,降低了漏報(bào)率,顯著增強(qiáng)了分類效果,尤其是AI深度學(xué)習(xí)模型與采樣設(shè)計(jì)緊密配合,成為較好的新聞文本分類深度學(xué)習(xí)策略。在后續(xù)研究中,可通過(guò)強(qiáng)化新聞文本數(shù)據(jù)與外部知識(shí)、構(gòu)建優(yōu)秀詞向量模型和提高新聞文本特征表示等方法進(jìn)一步優(yōu)化新聞文本分類工作。

      參考文獻(xiàn)

      [1]胡容波,郭誠(chéng),王錦浩,等. 基于深度學(xué)習(xí)的自然資源政策文本分類研究[J]. 高技術(shù)通訊,2023,33(7):692-703.

      [2]侯震,童惟依,鄧靖飛,等. 融合深度學(xué)習(xí)模型和上下文特征的健康話題短文本分類[J]. 電視技術(shù),2023,47(7):18-23,27.

      [3]薛麗,鄭含笑,吳昊辰. 基于CNN-BiGRU的學(xué)術(shù)文本分類研究[J]. 鄭州航空工業(yè)管理學(xué)院學(xué)報(bào),2023,41(3):61-68.

      [4]楊茜.基于Bi-LSTM和圖注意力網(wǎng)絡(luò)的多標(biāo)簽文本分類算法[J]. 計(jì)算機(jī)應(yīng)用與軟件,2023,40(9):145-150,183.

      [5]林子洛. 基于深度學(xué)習(xí)語(yǔ)言模型的心理學(xué)領(lǐng)域文本分類[J]. 軟件,2023,44(7):112-118.

      [6]張震.深度遷移學(xué)習(xí)在文本分類問(wèn)題中的應(yīng)用研究綜述[J]. 信息技術(shù)與信息化,2023(6):121-124.

      猜你喜歡
      自然語(yǔ)言處理
      基于LSTM自動(dòng)編碼機(jī)的短文本聚類方法
      自然語(yǔ)言處理與司法案例
      國(guó)外基于知識(shí)庫(kù)的問(wèn)答系統(tǒng)相關(guān)研究進(jìn)展及其啟示
      基于依存句法的實(shí)體關(guān)系抽取
      基于組合分類算法的源代碼注釋質(zhì)量評(píng)估方法
      面向機(jī)器人導(dǎo)航的漢語(yǔ)路徑自然語(yǔ)言組塊分析方法研究
      詞向量的語(yǔ)義學(xué)規(guī)范化
      漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
      HowNet在自然語(yǔ)言處理領(lǐng)域的研究現(xiàn)狀與分析
      科技視界(2016年5期)2016-02-22 11:41:39
      基于.NET的維哈柯多語(yǔ)種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      黔西| 大渡口区| 哈尔滨市| 红安县| 茌平县| 广州市| 疏附县| 长沙县| 大厂| 虞城县| 洞口县| 盐津县| 香港| 潜江市| 科尔| 鄂温| 攀枝花市| 平远县| 百色市| 扬州市| 故城县| 会理县| 元谋县| 安仁县| 忻州市| 青铜峡市| 大埔县| 皮山县| 西城区| 嵩明县| 五莲县| 涟源市| 疏勒县| 若羌县| 兴山县| 台北县| 桑植县| 张家界市| 娄烦县| 方正县| 陕西省|