• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合FastText模型和注意力機(jī)制的網(wǎng)絡(luò)新聞文本分類模型

      2022-03-11 06:55:21王婉張向先盧恒張莉曼
      現(xiàn)代情報(bào) 2022年3期
      關(guān)鍵詞:新聞標(biāo)題網(wǎng)絡(luò)新聞注意力

      王婉 張向先 盧恒 張莉曼

      關(guān)鍵詞:網(wǎng)絡(luò)新聞;文本分類;注意力機(jī)制;雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型

      近年來(lái),隨著移動(dòng)互聯(lián)技術(shù)的迅猛發(fā)展與智能設(shè)備的普及,網(wǎng)民數(shù)量持續(xù)攀升。據(jù)CNNIC統(tǒng)計(jì)[1],截至2020年12月,我國(guó)網(wǎng)民規(guī)模已高達(dá)9.89億。網(wǎng)絡(luò)新聞與社交平臺(tái)、搜索引擎等應(yīng)用形成有效聯(lián)動(dòng),加快構(gòu)筑了網(wǎng)絡(luò)新聞內(nèi)容生態(tài)體系。用戶在檢索新聞的過(guò)程中生成了海量非結(jié)構(gòu)化的網(wǎng)絡(luò)新聞文本數(shù)據(jù),構(gòu)成了熱搜平臺(tái)的信息生態(tài)系統(tǒng)。這些文本數(shù)據(jù)是網(wǎng)絡(luò)用戶對(duì)自己所感興趣的新聞內(nèi)容點(diǎn)擊生成,它聚焦了網(wǎng)絡(luò)用戶所關(guān)注的新聞熱點(diǎn),形成了具有新媒體時(shí)代特色的網(wǎng)絡(luò)新聞。這種特定情境下網(wǎng)絡(luò)新聞的變遷又深刻影響著社會(huì)輿論的演化與發(fā)展。熱搜平臺(tái)已然成為當(dāng)前網(wǎng)絡(luò)用戶獲取新聞資訊的主流平臺(tái),但面對(duì)大規(guī)模新聞文本數(shù)據(jù)量的激增,如何精準(zhǔn)、高效地實(shí)現(xiàn)網(wǎng)絡(luò)新聞文本分類,準(zhǔn)確了解用戶信息需求,成為網(wǎng)絡(luò)新聞平臺(tái)實(shí)現(xiàn)精準(zhǔn)、智能的信息服務(wù)所亟待解決的問(wèn)題。

      面對(duì)網(wǎng)絡(luò)空間大規(guī)模非結(jié)構(gòu)文本的涌現(xiàn),針對(duì)不同領(lǐng)域的文本分類問(wèn)題已然成為學(xué)者們較為關(guān)注的研究課題。目前,已有學(xué)者進(jìn)行了積極的嘗試:如ShotorbaniP等[2]基于LDA在線制造文本進(jìn)行主題建模與文本分類,以提高供應(yīng)商發(fā)現(xiàn)和知識(shí)獲取工具的智能化。LDA雖然能過(guò)濾掉一些常見(jiàn)卻無(wú)關(guān)緊要的詞語(yǔ),但網(wǎng)絡(luò)新聞文本往往較為簡(jiǎn)短,不利于訓(xùn)練LDA[3]。部分學(xué)者針對(duì)短文本的分類又開(kāi)展了相關(guān)研究:如KatameshN等[4]提出了基于詞袋模型和TF-IDF的多模態(tài)文本分類方法,但詞袋模型與TF-IDF是基于詞頻的文本表示,缺乏相似詞之間的語(yǔ)義化表達(dá),比如“我喜歡長(zhǎng)春”“我不喜歡長(zhǎng)春”其實(shí)這兩個(gè)文本并不相似,但詞袋模型會(huì)判別為高度相似。作為一種高效的文本特征表達(dá)方法,深度學(xué)習(xí)方法能夠更好地抽取出深層語(yǔ)義特征對(duì)文本進(jìn)行建模。因此,本文嘗試從網(wǎng)絡(luò)新聞文本的語(yǔ)義特征出發(fā),探索深度學(xué)習(xí)方法在網(wǎng)絡(luò)新聞文本分類的應(yīng)用效果。擬解決的研究問(wèn)題有以下3點(diǎn):①如何生成網(wǎng)絡(luò)新聞文本的向量表達(dá)以實(shí)現(xiàn)語(yǔ)義建模;②如何構(gòu)建網(wǎng)絡(luò)新聞的文本分類模型;③如何驗(yàn)證網(wǎng)絡(luò)新聞文本分類模型的優(yōu)越性。本文的理論貢獻(xiàn)在于:構(gòu)建了網(wǎng)絡(luò)新聞文本分類模型,提出了一種面向新聞文本分類的指導(dǎo)框架,豐富了知識(shí)組織的理論體系。本文的實(shí)踐價(jià)值在于:對(duì)網(wǎng)絡(luò)新聞文本分類的應(yīng)用實(shí)踐提供技術(shù)支撐,幫助平臺(tái)運(yùn)營(yíng)者科學(xué)地制定智能化知識(shí)組織與信息服務(wù)決策,以期為網(wǎng)絡(luò)用戶提供更加適配的新聞平臺(tái)智能信息服務(wù)。

      1相關(guān)研究評(píng)述及問(wèn)題提出

      1.1網(wǎng)絡(luò)新聞文本

      移動(dòng)互聯(lián)背景下,網(wǎng)絡(luò)用戶對(duì)于新聞內(nèi)容的獲取方式由傳統(tǒng)的單一平臺(tái)獲取轉(zhuǎn)變?yōu)榭缙脚_(tái)內(nèi)容聚合獲取。基于用戶點(diǎn)擊頻次高低的新聞,經(jīng)聚合后生成了網(wǎng)絡(luò)新聞平臺(tái)的熱搜榜單,構(gòu)成了熱搜平臺(tái)核心的信息服務(wù)模式。網(wǎng)絡(luò)新聞文本[5]以網(wǎng)絡(luò)為載體,對(duì)社會(huì)所發(fā)生的事實(shí)的報(bào)道形式,形成了某一時(shí)間段內(nèi),引發(fā)網(wǎng)絡(luò)用戶、媒體等高度關(guān)注的社會(huì)焦點(diǎn)。

      網(wǎng)絡(luò)新聞是輿情事件的高度凝練,也是還原輿情事件事實(shí)的真實(shí)報(bào)道,對(duì)其語(yǔ)義內(nèi)涵的挖掘與分類能夠呈現(xiàn)網(wǎng)絡(luò)用戶對(duì)于網(wǎng)絡(luò)新聞背后輿情事件的關(guān)注傾向性,明晰網(wǎng)絡(luò)用戶的信息需求類別,提升新聞平臺(tái)運(yùn)營(yíng)決策的科學(xué)性與精準(zhǔn)性。網(wǎng)絡(luò)新聞文本在語(yǔ)義上呈現(xiàn)概括性、層級(jí)性、序列性與包容性4個(gè)特點(diǎn)[6]。新聞標(biāo)題更是對(duì)網(wǎng)絡(luò)新聞內(nèi)容的高度凝練,其文本具有主題鮮明、內(nèi)涵厚重的特征,反映了網(wǎng)絡(luò)新聞文本最核心的內(nèi)容。學(xué)者們針對(duì)短文本的特征識(shí)別已做了積極的嘗試:如畢凌燕等[7]提出了適用于微博的基于概率模型的主題識(shí)別模型。微博文本雖具備短文本特征,但多為網(wǎng)絡(luò)語(yǔ)言表達(dá),噪音詞涵蓋較多,其方法并不適用于網(wǎng)絡(luò)新聞文本的表達(dá)范式。此外,新聞標(biāo)題相對(duì)于一般的短文本更為簡(jiǎn)短,其特征更為稀疏,語(yǔ)義識(shí)別更具挑戰(zhàn)性。因此,本文針對(duì)網(wǎng)絡(luò)新聞文本特征,探索更適配新聞平臺(tái)知識(shí)組織與服務(wù)的文本分類思路與方法。

      1.2基于深度學(xué)習(xí)的文本分類相關(guān)研究

      文本分類是自然語(yǔ)言處理的重要研究?jī)?nèi)容,在主題挖掘、知識(shí)發(fā)現(xiàn)等領(lǐng)域有著重要作用。傳統(tǒng)的文本特征提取如詞頻———逆文檔頻率向量、Onehot詞向量等均得到了廣泛應(yīng)用。如賀波等[8]運(yùn)用TF-IDF算法計(jì)算出文本特征,提出基于融合特征的商品文本分類方法。然而,這種特征提取方法通常僅能提取到淺層信息特征,未能有效捕捉深層語(yǔ)義信息,從而影響其在文本分類任務(wù)中的表現(xiàn)。近年來(lái),深度學(xué)習(xí)借助其強(qiáng)大的特征選擇與抽取能力[9],以及能夠自動(dòng)捕獲更高層次的語(yǔ)義信息,被情報(bào)界學(xué)者們廣泛關(guān)注,并積極開(kāi)展了面向文本分類的相關(guān)研究。針對(duì)文本主題分類方面,胡吉明等[10]融合了LDA主題模型和注意力機(jī)制,構(gòu)建了政策文本表示和分類的一體化框架。余傳明等[11]融合LDA2Vec方法構(gòu)建主題表示學(xué)習(xí)模型W-LDA2Vec將主題信息嵌入到詞表示、文檔表示中,有效提升了在熱點(diǎn)事件文本分類和主題相關(guān)度等任務(wù)上的效果;面向情感分類問(wèn)題,徐緒堪等[12]構(gòu)建了一種基于BiLSTM-CNN模型的微信推文情感分類模型。韓普等[13]結(jié)合注意力機(jī)制提出了基于CNN與BiLSTM模型的突發(fā)公共衛(wèi)生事件微博情感分類方法。可見(jiàn),結(jié)合注意力機(jī)制的BiLSTM模型在捕獲短文本的語(yǔ)義特征具有良好的效果,為本文提供了模型參考依據(jù)。此外,學(xué)者們對(duì)文本分類方法的改進(jìn)也做了相關(guān)研究:如RuanSF等[14]提出了基于改進(jìn)距離相關(guān)系數(shù)的加權(quán)樸素貝葉斯文本分類算法,以度量屬性對(duì)類別的重要性,為不同的術(shù)語(yǔ)分配不同的權(quán)重;為了提升特征選擇效果,唐曉波等[15]提出,基于關(guān)鍵詞詞向量特征擴(kuò)展的健康問(wèn)句分類模型。MehtaD等[16]認(rèn)為,BERT模型可以有效地運(yùn)用其深度語(yǔ)境化特性實(shí)現(xiàn)六標(biāo)簽分類的改進(jìn),從而實(shí)現(xiàn)虛假新聞的分類。ZhouYJ等[17]提出了融合循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和卷積神經(jīng)網(wǎng)絡(luò)CNN來(lái)提取文本的語(yǔ)義特征,從中捕獲與類相關(guān)的注意力表示以提高中文短文本的分類性能。SunNF等[18]將卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)3種模型合并為一個(gè)模型,獲得局部關(guān)聯(lián)特征和上下文特征,并驗(yàn)證了其模型的有效性與優(yōu)越性??梢?jiàn),RNN、CNN、BERT等深度學(xué)習(xí)模型在文本特征擴(kuò)展與分類任務(wù)中已表現(xiàn)出一定的優(yōu)越性,但卷積神經(jīng)網(wǎng)絡(luò)等模型因時(shí)間開(kāi)銷巨大,無(wú)法實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)新聞文本數(shù)據(jù)的高效分類。鑒于此,本文將探索基于深度學(xué)習(xí)的理論與方法的熱搜網(wǎng)絡(luò)新聞的文本分類方法,以提升網(wǎng)絡(luò)新聞標(biāo)題的語(yǔ)義特征抽取與文本分類效果,為新聞平臺(tái)運(yùn)營(yíng)者提供更精準(zhǔn)、高效的智能化知識(shí)組織模式。

      1.3基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞文本分類問(wèn)題的提出

      海量非結(jié)構(gòu)化的網(wǎng)絡(luò)新聞文本數(shù)據(jù),聚焦了生活中人們普遍關(guān)注的重要新聞,在一定程度上反映了網(wǎng)絡(luò)用戶對(duì)某個(gè)新聞話題的關(guān)注程度。對(duì)于網(wǎng)絡(luò)新聞的文本分類能夠?yàn)榫W(wǎng)絡(luò)用戶及時(shí)獲取以主題形式呈現(xiàn)的社會(huì)熱點(diǎn)信息,洞察網(wǎng)民對(duì)網(wǎng)絡(luò)新聞主題類別需求,為新聞平臺(tái)運(yùn)營(yíng)者提供更高效、智能的知識(shí)組織方式,以滿足網(wǎng)絡(luò)用戶信息需求與精準(zhǔn)服務(wù)的適配性。

      針對(duì)網(wǎng)絡(luò)新聞文本分類需考慮以下幾個(gè)問(wèn)題:其一,網(wǎng)絡(luò)新聞標(biāo)題文本屬于短文本,特征稀疏,直接應(yīng)用傳統(tǒng)的文本特征表達(dá)方法效果不佳[19];其二,采用何種方法能夠提升數(shù)據(jù)規(guī)模大、高維復(fù)雜的網(wǎng)絡(luò)新聞文本分類的精準(zhǔn)性和高效性。Ngram2vec模型集合了Word2vec模型與FastText模型的優(yōu)勢(shì),既可有效改善網(wǎng)絡(luò)新聞文本向量稀疏問(wèn)題,又可以提升文本特征向量表達(dá)的效率[20]。注意力機(jī)制[21]能夠?yàn)榫W(wǎng)絡(luò)新聞標(biāo)題文本的內(nèi)容特征分配不同的權(quán)重,提升標(biāo)題文本分類的準(zhǔn)確性。因此,本文通過(guò)融入FastText模型和注意力機(jī)制,選取并實(shí)現(xiàn)了Ngram2vec模型和BiLSTM_Atte模型作為網(wǎng)絡(luò)新聞文本分類技術(shù)框架的主要方法。

      綜上,基于深度學(xué)習(xí)的網(wǎng)絡(luò)新聞文本分類完全契合高效追蹤社會(huì)關(guān)注的熱點(diǎn)新聞主題,探究網(wǎng)絡(luò)用戶對(duì)于網(wǎng)絡(luò)新聞主題選擇的傾向性,明晰用戶信息需求,幫助平臺(tái)運(yùn)營(yíng)者科學(xué)地制定精準(zhǔn)服務(wù)策略。因此,本文立足于網(wǎng)絡(luò)新聞文本的語(yǔ)義特征,借助深度學(xué)習(xí)理論與方法,探索網(wǎng)絡(luò)新聞標(biāo)題文本的深層語(yǔ)義表達(dá),并結(jié)合注意力機(jī)制輸出到具有顯著相似性的主題標(biāo)簽上,實(shí)現(xiàn)探究深度學(xué)習(xí)方法在網(wǎng)絡(luò)新聞文本分類任務(wù)的應(yīng)用效果。

      2融合FastText模型和注意力機(jī)制的網(wǎng)絡(luò)新聞文本分類

      本文針對(duì)網(wǎng)絡(luò)新聞標(biāo)題文本的超短文本特征,探索融合FastText模型與注意力機(jī)制的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型(BiLSTM_Atte)[22]的網(wǎng)絡(luò)新聞文本分類模型在分類任務(wù)的應(yīng)用效果。

      2.1面向網(wǎng)絡(luò)新聞文本分類的深度學(xué)習(xí)模型

      2.1.1Ngram2vec模型

      文本向量化是文本分類的基礎(chǔ)。網(wǎng)絡(luò)新聞文本涉及領(lǐng)域廣泛且包含的詞語(yǔ)繁雜分散,傳統(tǒng)的向量空間模型高維且稀疏,并不適用于網(wǎng)絡(luò)新聞文本的分類任務(wù)。Ngram2vec模型融合了Word2vec模型和FastText模型,其支持抽象上下文特征和模型。Word2vec實(shí)現(xiàn)文本語(yǔ)義表征,將標(biāo)題文本編碼以表達(dá)其語(yǔ)義關(guān)系,并借用FastText中的多層Softmax函數(shù)提升訓(xùn)練速度。因此,本文采用二者結(jié)合的詞向量模型Ngram2vec,既實(shí)現(xiàn)了準(zhǔn)確表征網(wǎng)絡(luò)新聞文本的語(yǔ)義內(nèi)涵,又可以大幅度提升數(shù)據(jù)處理效率,使其向量化表示精準(zhǔn)、高效。

      1)Word2vec模型

      AlexanderG等[23]創(chuàng)建了Word2vec模型預(yù)訓(xùn)練的詞嵌入,用以學(xué)習(xí)詞嵌入或文本的向量化表示。一般常用的兩個(gè)模型為Skip-gram模型和CBOW模型。在訓(xùn)練過(guò)程中,兩種架構(gòu)又各有側(cè)重:CBOW模型在詞向量的訓(xùn)練速度方面表現(xiàn)出色;Skipgram模型雖然在訓(xùn)練速度上較慢,但是其訓(xùn)練低頻詞的效果較好[24]。由于網(wǎng)絡(luò)新聞文本的特殊性,其文本往往多包含專業(yè)詞與罕見(jiàn)詞。因此,本文選取Skip-gram模型訓(xùn)練詞向量。

      2)FastText模型

      2016年,F(xiàn)acebook首次提出FastText文本分類模型,其核心思想是將整篇文檔的詞及N元模型(n-gram)向量疊加平均得到文檔向量,然后使用文檔向量做多分類[25]。FastText結(jié)構(gòu)可簡(jiǎn)化為一個(gè)隱含層。它將平均單詞表示作為文本表示,提供給一個(gè)線性分類器。該結(jié)構(gòu)類似于Word2vec中的CBOW[26]模型,區(qū)別于CBOW輸出的是所預(yù)測(cè)的中間詞,而FastText輸出的是經(jīng)過(guò)隱藏層處理再Softmax函數(shù)計(jì)算每個(gè)類別的概率分布的文本類別。最后使用隨機(jī)梯度下降方法更新?lián)p失函數(shù),并更新權(quán)重參數(shù),以達(dá)到模型迭代的目的,使其預(yù)測(cè)速度大幅度提升。至此,本文在網(wǎng)絡(luò)新聞文本初步向量化表示(Word2vec)的基礎(chǔ)上,利用FastText模型,提高了網(wǎng)絡(luò)新聞文本的向量化表示效率,為后續(xù)更加高效地實(shí)現(xiàn)網(wǎng)絡(luò)新聞文本分類奠定了基礎(chǔ)。

      2.1.2BiLSTM_Atte模型

      網(wǎng)絡(luò)新聞文本分類是對(duì)網(wǎng)絡(luò)用戶所關(guān)注的不同的新聞主題類別的結(jié)果呈現(xiàn),其本質(zhì)特征是網(wǎng)絡(luò)新聞標(biāo)題的序列超短文本分類。循環(huán)神經(jīng)網(wǎng)絡(luò)具有圖靈完備性、記憶性和參數(shù)共享性[27],在學(xué)習(xí)序列特性方面具有一定的優(yōu)勢(shì)。因此,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[28]是處理預(yù)序列分類有關(guān)問(wèn)題的最佳選擇。但RNN模型在訓(xùn)練過(guò)程中計(jì)算的梯度會(huì)因累積乘法效應(yīng)而發(fā)生消失或者爆炸,導(dǎo)致模型訓(xùn)練速度緩慢。長(zhǎng)短期記憶網(wǎng)絡(luò)(LongShortTermMemory,LSTM)[29]恰好能解決這個(gè)問(wèn)題,通過(guò)引入輸入門和遺忘門更好地控制梯度,能夠更好地保留網(wǎng)絡(luò)新聞文本中的長(zhǎng)距離詞語(yǔ)依賴關(guān)系。通過(guò)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型(BiLSTM)[22]則可以較好地捕獲網(wǎng)絡(luò)新聞文本的雙向語(yǔ)義依賴。

      為了提升文本分類的準(zhǔn)確率,本文在LSTM模型的基礎(chǔ)上融入了注意力模型(AttentionModel)思想,將注意力機(jī)制(Attention)整合到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)BiLSTM模型,注意力模型在輸出時(shí),在“注意力區(qū)域”表征下一個(gè)輸出會(huì)重點(diǎn)關(guān)注輸入序列部分,根據(jù)關(guān)注度不同的權(quán)重來(lái)產(chǎn)生下一個(gè)輸出。由于注意力機(jī)制能夠增強(qiáng)超特征學(xué)習(xí)過(guò)程中底層單元的權(quán)重表示,并能充分利用網(wǎng)絡(luò)新聞文本中標(biāo)題的局部特征。因此,融入注意力機(jī)制的BiL?STM_Atte模型能夠提高對(duì)網(wǎng)絡(luò)新聞標(biāo)題中更為相關(guān)部分的關(guān)注程度,從而提升分類的準(zhǔn)確度。

      2.2基于Ngram2vec和BiLSTM_Atte模型的網(wǎng)絡(luò)新聞文本分類過(guò)程

      網(wǎng)絡(luò)新聞文本分類任務(wù)主要包括兩大部分,如圖1所示:一是將爬取網(wǎng)絡(luò)新聞文本通過(guò)詞嵌入方法進(jìn)行語(yǔ)義建模。對(duì)采集的網(wǎng)絡(luò)新聞文本語(yǔ)料進(jìn)行數(shù)據(jù)清洗、去停用詞、分詞等預(yù)處理。利用融合Word2vec模型與FastText模型的詞向量模型Ngram2vec訓(xùn)練詞向量提取實(shí)體特征。為了獲取完整的語(yǔ)義表達(dá),生成詞向量后進(jìn)行加權(quán)平均構(gòu)造句向量表達(dá),實(shí)現(xiàn)融合完整句特征的語(yǔ)義建模。二是構(gòu)建結(jié)合注意力機(jī)制的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型(BiLSTM_Atte)實(shí)現(xiàn)關(guān)系抽取。利用BiLSTM模型整合網(wǎng)絡(luò)新聞標(biāo)題文本的上下文特征,保證網(wǎng)絡(luò)新聞文本的語(yǔ)義完整性;同時(shí),針對(duì)網(wǎng)絡(luò)新聞標(biāo)題文本語(yǔ)義分布不均衡的問(wèn)題,引入注意力機(jī)制增加重要內(nèi)容的權(quán)重,以提升該模型的分類準(zhǔn)確率。將向量化文本表示導(dǎo)入結(jié)合注意力機(jī)制的雙向長(zhǎng)短期記憶網(wǎng)絡(luò)模型,利用多層注意力機(jī)制作用于BiL?STM_Atte模型的輸出層獲得更魯棒的文本局部特征,將增強(qiáng)后的特征向量導(dǎo)入分類器實(shí)現(xiàn)關(guān)系抽取。本實(shí)驗(yàn)將數(shù)據(jù)集分為實(shí)驗(yàn)組與測(cè)試組進(jìn)行實(shí)驗(yàn)對(duì)比,測(cè)試引入注意力機(jī)制對(duì)網(wǎng)絡(luò)輿情文本分類的效果影響,以解決傳統(tǒng)短文本語(yǔ)義特征學(xué)習(xí)能力不足的問(wèn)題,提升信息組織效率。

      本文借鑒了胡吉明等[9]提出的政策文本分類模型的結(jié)構(gòu),融合了FastText、Bi_LSTM、Attention模型的顯著性優(yōu)勢(shì),構(gòu)建了網(wǎng)絡(luò)新聞文本分類的深度學(xué)習(xí)模型,如圖2所示。通過(guò)詞嵌入模型Ngram2vec提取網(wǎng)絡(luò)新聞文本的局部特征,深度挖掘網(wǎng)絡(luò)新聞文本的語(yǔ)義信息。輸出的詞向量進(jìn)行加權(quán)平均,生成標(biāo)題句向量表達(dá)作為BiLSTM的輸入,引入At?tention機(jī)制加入注意力層為網(wǎng)絡(luò)新聞文本的特征配置差異化權(quán)重,最終通過(guò)Softmax層輸出網(wǎng)絡(luò)新聞文本所屬類別的概率值。

      3實(shí)驗(yàn)過(guò)程與對(duì)比分析

      針對(duì)上述提出的模型,本文以搜狗全網(wǎng)新聞數(shù)據(jù)平臺(tái)中的網(wǎng)絡(luò)新聞文本為實(shí)證分析對(duì)象,實(shí)驗(yàn)驗(yàn)證其有效性和優(yōu)越性。

      3.1數(shù)據(jù)預(yù)處理

      本文綜合運(yùn)用后裔采集器等第三方數(shù)據(jù)監(jiān)控平臺(tái)批量采集。數(shù)據(jù)采集的新聞文本數(shù)據(jù)是2020年12月1日—30日國(guó)內(nèi)外全網(wǎng)新聞數(shù)據(jù)26242條,每條數(shù)據(jù)包含一篇不限定主題的新聞標(biāo)題內(nèi)容。首先,進(jìn)行數(shù)據(jù)清晰。過(guò)濾掉原始數(shù)據(jù)中的媒體、時(shí)間、記者、編輯、標(biāo)簽5個(gè)字段,僅保留新聞標(biāo)題,再清洗廣告新聞標(biāo)題、重復(fù)新聞標(biāo)題以及包含特殊符號(hào)的無(wú)效新聞標(biāo)題,保留可用作實(shí)驗(yàn)樣本25498條,且選取了文本長(zhǎng)度在20~30個(gè)字符之間的標(biāo)題文本作為樣本,為了便于模型處理,統(tǒng)一標(biāo)題長(zhǎng)度為30,對(duì)于超過(guò)30的標(biāo)題進(jìn)行截?cái)?,?duì)于不足30的標(biāo)題進(jìn)行填充;其次,進(jìn)行分詞處理。借助Python中的Jieba自然語(yǔ)言處理分詞庫(kù)[27]實(shí)現(xiàn)新聞標(biāo)題分詞;最后,進(jìn)行過(guò)濾停用詞。為了提高數(shù)據(jù)分析效率,對(duì)樣本中不具有辨識(shí)性的,且會(huì)帶來(lái)大量噪聲的停用詞進(jìn)行處理,過(guò)濾掉無(wú)實(shí)際含義或?qū)Ψ治鼋Y(jié)果無(wú)實(shí)際影響的詞。本文采用哈工大停用詞表,過(guò)濾后的詞條為24992條,可作為實(shí)驗(yàn)樣本。

      3.2數(shù)據(jù)預(yù)訓(xùn)練

      預(yù)訓(xùn)練詞向量來(lái)源于清華大學(xué)的中文文本分類數(shù)據(jù)集THUCNews。THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005—2011年的歷史數(shù)據(jù)篩選過(guò)濾生成的新聞文檔。新浪中文預(yù)訓(xùn)練詞向量包是通過(guò)對(duì)大量新浪新聞文章用融合Word2vec模型和Fast?Text模型的Ngram2vec模型訓(xùn)練得到。由于本文的數(shù)據(jù)來(lái)自搜狗全網(wǎng)新聞平臺(tái),與新浪平臺(tái)的新聞文本在各方面都有較大的相似度。因此,選用新浪新聞中文預(yù)訓(xùn)練詞向量包對(duì)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練會(huì)比較適合。

      從清華大學(xué)的中文文本分類數(shù)據(jù)集THUCNews中抽取20萬(wàn)條新聞標(biāo)題內(nèi)容,共10個(gè)類別,每類2萬(wàn)條。類別分別為:金融、房地產(chǎn)、股票、教育、科學(xué)、社會(huì)、政治、體育、游戲、娛樂(lè)。數(shù)據(jù)以詞為單位輸入模型。預(yù)處理時(shí)合并新聞標(biāo)題作為基本語(yǔ)料庫(kù),然后對(duì)數(shù)據(jù)進(jìn)行處理。

      3.3模型應(yīng)用與對(duì)比分析

      本研究使用Pytorch深度學(xué)習(xí)框架進(jìn)行網(wǎng)絡(luò)新聞文本的分類模型的程序?qū)崿F(xiàn),將樣本數(shù)據(jù)按2∶1的比例劃分為訓(xùn)練集與測(cè)試集。為了保證實(shí)驗(yàn)的嚴(yán)謹(jǐn)性,本實(shí)驗(yàn)的對(duì)比實(shí)驗(yàn)的參數(shù)設(shè)置均為:預(yù)訓(xùn)練字向量維度128維,神經(jīng)元數(shù)量200,每批數(shù)據(jù)量的大小200,最大訓(xùn)練時(shí)期數(shù)100,Epoch值為6。將實(shí)驗(yàn)數(shù)據(jù)分別進(jìn)行詞向量嵌入,然后傳給雙向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入層,編碼之后經(jīng)過(guò)注意力機(jī)制作用于輸出層,進(jìn)行目標(biāo)的預(yù)測(cè)。關(guān)系抽取實(shí)則在嵌入時(shí),加入了實(shí)體的特征,與句子特征融合,處理后用結(jié)合注意力機(jī)制的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型進(jìn)行文本分類,根據(jù)最終輸出類別是否匹配實(shí)際類別判定網(wǎng)絡(luò)新聞文本分類的正確性。

      實(shí)驗(yàn)評(píng)判標(biāo)準(zhǔn)采用目前廣泛使用的精確率(Precision)、召回率(Recall)和F1值(F1-measure)3種評(píng)價(jià)指標(biāo)[19],這3種指標(biāo)計(jì)算公式如下:

      其中,式(1)是精確率的計(jì)算,TP+FP是指實(shí)際分類的文本總數(shù),TP是指正確分類的文本總數(shù)。式(2)是召回率的計(jì)算,TP+FN是指應(yīng)有的分類總數(shù)。式(3)F1是同時(shí)考慮精確率和召回率的綜合指標(biāo),取二者同時(shí)達(dá)到表現(xiàn)最優(yōu)的取值。

      本文實(shí)驗(yàn)的分類結(jié)果如表1所示。對(duì)結(jié)果分析可以看到,模型對(duì)“體育”“教育”這兩個(gè)類別的分類效果最好,其F1值均超過(guò)了94%。對(duì)“金融”“房地產(chǎn)”“娛樂(lè)”“社會(huì)”“游戲”的分類效果次之,其F1均值在91%左右。對(duì)“股票”“科學(xué)”“政治”分類效果最差,其F1值均值近87%。總體來(lái)看,融合FastText模型和注意力機(jī)制的網(wǎng)絡(luò)新聞文本分類模型分類效果較好,說(shuō)明本文所提出的分類框架是有效的,能夠較為準(zhǔn)確地實(shí)現(xiàn)網(wǎng)絡(luò)新聞文本分類。

      本文構(gòu)建了RNN、BiLSTM和BiLSTM_Atte模型進(jìn)行了對(duì)比試驗(yàn)。同時(shí),為了驗(yàn)證熱搜新聞文本分類模型所提出的文本表示方法的有效性,使用BiLSTM_Atte模型進(jìn)行兩次實(shí)驗(yàn),其中RNN、BiL?STM和BiLSTM_Atte-1所使用的數(shù)據(jù)未融入Fast?Text模型,BiLSTM_Atte-2融入FastText模型,模型對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。從表2數(shù)據(jù)可以看到,加入了注意力機(jī)制的F1值比單一模型的F1值要高,而且融入FastText模型能夠進(jìn)一步提升模型對(duì)于網(wǎng)絡(luò)新聞文本的分類準(zhǔn)確率,驗(yàn)證了本文所提出的網(wǎng)絡(luò)新聞文本分類模型的有效性。BiLSTM_Atte-2模型的F1值為92.03%,其精確率和召回率也高于其他3個(gè)模型,進(jìn)一步驗(yàn)證了融合Fast?Text模型與BiLSTM_Atte模型的網(wǎng)絡(luò)新聞文本分類模型性能的優(yōu)越性。

      由表3可知,本文構(gòu)建的熱搜新聞文本分類模型收斂速度快且準(zhǔn)確率均高于其他3種模型。在Epoch為1時(shí),本文提出的模型分類準(zhǔn)確率比BiL?STM_Atte-1模型提升1.18%,比RNN模型提升4.13%,比BiLSTM模型提升3.71%。這是因?yàn)楫?dāng)Epoch值較小時(shí),RNN、BiLSTM、BiLSTM_Atte-1神經(jīng)網(wǎng)絡(luò)模型無(wú)法較好地學(xué)習(xí)到新聞文本的深層次語(yǔ)義特征,而本文所提出的融合了FastText模型與BiLSTM_Atte模型的文本分類模型則可以較好地捕捉其語(yǔ)義特征并迅速調(diào)整參數(shù),以達(dá)到較好的收斂性。RNN模型與BiLSTM_Atte-1模型在Epoch3后均調(diào)整到相對(duì)穩(wěn)定的值,且具有較好的收斂效果。對(duì)比不同模型在各Epoch下的準(zhǔn)確率可以發(fā)現(xiàn),本文所構(gòu)建的新聞文本分類模型在Epoch1就獲得比較理想的效果。實(shí)驗(yàn)結(jié)果表明,本文所提出的融合FastText模型與BiLSTM_Atte模型的網(wǎng)絡(luò)新聞文本分類模型計(jì)算效率更高,主要得益于本文所提的基于Word2vec模型和FastText模型的網(wǎng)絡(luò)新聞文本表示方法,實(shí)現(xiàn)了模型的快速收斂。綜上,無(wú)論從模型的分類準(zhǔn)確率還是從計(jì)算效率來(lái)看,本文所提出的模型均具有良好的優(yōu)越性。

      通過(guò)混淆矩陣同樣可以建構(gòu)模型精度。如圖3的實(shí)驗(yàn)結(jié)果顯示,幾乎全部新聞熱點(diǎn)分類數(shù)據(jù)都集中在對(duì)角線上,說(shuō)明加入了注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型精度符合預(yù)期。從混淆矩陣中看到矩陣(5,5)的值為848,呈現(xiàn)為對(duì)角線最弱分類,對(duì)應(yīng)的為科技類網(wǎng)絡(luò)新聞,說(shuō)明科技類網(wǎng)絡(luò)新聞涉及領(lǐng)域眾多,專業(yè)術(shù)語(yǔ)繁雜,不同文本專業(yè)詞語(yǔ)差異較大,句子語(yǔ)義特征學(xué)習(xí)難度也較大,還需要對(duì)科技類訓(xùn)練庫(kù)進(jìn)一步完善以提升模型對(duì)科技類新聞文本的分類學(xué)習(xí)能力。

      3.4結(jié)論分析

      實(shí)驗(yàn)結(jié)果表明,利用本文提出的新聞文本分類模型具有一定的優(yōu)越性,實(shí)用價(jià)值高,為平臺(tái)運(yùn)營(yíng)者智能化知識(shí)組織提供有力指導(dǎo),具體來(lái)說(shuō)具有以下優(yōu)勢(shì):

      1)從表2的對(duì)比實(shí)驗(yàn)數(shù)據(jù)可以看出,融合了FastText與注意力機(jī)制的模型在精確率上提升至92.03%,達(dá)到了理想的預(yù)測(cè)精度。由此說(shuō)明,本文提出的融合FastText模型與注意力機(jī)制的雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型構(gòu)建的網(wǎng)絡(luò)新聞文本分類方法具有一定的優(yōu)越性。原因在于,結(jié)合注意力機(jī)制的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型能夠解決輸入矩陣存在特征稀疏、維度過(guò)高以及深層語(yǔ)義特征提取不充分等問(wèn)題,有效避免了RNN模型梯度爆炸和梯度消失。通過(guò)反復(fù)迭代訓(xùn)練,發(fā)揮了結(jié)合注意力機(jī)制的長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型強(qiáng)大的非線性映射能力,從而提升分類的精確率。

      2)從表3的各模型對(duì)比實(shí)驗(yàn)數(shù)據(jù)可知,本文提出的融合FastText模型和注意力機(jī)制的文本分類方法實(shí)現(xiàn)了模型的快速收斂,顯著提升了網(wǎng)絡(luò)新聞文本分類的速度,與傳統(tǒng)的文本分類方法相比效率更高,實(shí)用性更強(qiáng),為網(wǎng)絡(luò)新聞運(yùn)營(yíng)平臺(tái)提升知識(shí)組織效率提供重要參考依據(jù)。

      4結(jié)語(yǔ)

      本文針對(duì)網(wǎng)絡(luò)新聞文本特征提出了融合Fast?Text模型和注意力機(jī)制,基于Ngram2vec模型和BiLSTM_Atte模型的網(wǎng)絡(luò)新聞文本分類技術(shù)框架以實(shí)現(xiàn)網(wǎng)絡(luò)新聞文本分類。具體包括構(gòu)建了基于Word2vec模型與FastText模型相結(jié)合的網(wǎng)絡(luò)新聞文本表示模型Ngram2vec模型與結(jié)合注意力機(jī)制的網(wǎng)絡(luò)新聞文本分類模型BiLSTM_Atte模型。運(yùn)用Word2vec模型與FastText模型實(shí)現(xiàn)網(wǎng)絡(luò)新聞文本的向量化表示,改善了傳統(tǒng)文本分類方法對(duì)深層語(yǔ)義編碼能力不足與效率低下的問(wèn)題,提升了知識(shí)組織效率。通過(guò)模型對(duì)比實(shí)驗(yàn)分析,充分體現(xiàn)了本文所提出分類模型的優(yōu)越性,為網(wǎng)絡(luò)媒體運(yùn)營(yíng)平臺(tái)提供科學(xué)的決策依據(jù)。

      限于篇幅,本文只選取了單一網(wǎng)絡(luò)新聞平臺(tái)數(shù)據(jù)作為實(shí)驗(yàn)樣本,后續(xù)研究將擴(kuò)充實(shí)驗(yàn)樣本,進(jìn)一步開(kāi)展對(duì)模型的普適與泛化能力的驗(yàn)證與優(yōu)化研究,提升網(wǎng)絡(luò)新聞文本分類模型在數(shù)據(jù)驅(qū)動(dòng)情境下的泛化能力。并在此研究基礎(chǔ)上,與其他深度學(xué)習(xí)方法相融合,實(shí)現(xiàn)更加有效的深層語(yǔ)義挖掘,以期為網(wǎng)絡(luò)運(yùn)營(yíng)平臺(tái)提供更加精準(zhǔn)、高效的智能化知識(shí)組織模式。

      3218500338236

      猜你喜歡
      新聞標(biāo)題網(wǎng)絡(luò)新聞注意力
      讓注意力“飛”回來(lái)
      網(wǎng)絡(luò)新聞在公共管理中的作用及影響
      科技傳播(2019年22期)2020-01-14 03:06:22
      談新聞標(biāo)題的現(xiàn)實(shí)性
      活力(2019年22期)2019-03-16 12:49:06
      網(wǎng)絡(luò)新聞標(biāo)題與報(bào)紙新聞標(biāo)題的對(duì)比
      活力(2019年22期)2019-03-16 12:48:00
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      無(wú)意間擊中幽默的新聞標(biāo)題
      喜劇世界(2016年9期)2016-08-24 06:17:26
      采寫(xiě)網(wǎng)絡(luò)新聞要成為“多面手”
      新聞傳播(2015年9期)2015-07-18 11:04:12
      淺談新聞標(biāo)題的裝扮技巧
      新聞傳播(2015年22期)2015-07-18 11:04:06
      網(wǎng)絡(luò)新聞的交互性應(yīng)用
      新聞傳播(2015年3期)2015-07-12 12:22:35
      拉萨市| 绥德县| 大洼县| 比如县| 剑河县| 东安县| 肃南| 建平县| 安塞县| 公主岭市| 桐庐县| 浦城县| 竹山县| 全州县| 察隅县| 温泉县| 曲周县| 湘潭市| 茂名市| 遵义市| 凤庆县| 临夏市| 罗城| 法库县| 汾阳市| 鲜城| 拉萨市| 安福县| 蒙阴县| 新巴尔虎左旗| 吉木萨尔县| 桃园市| 靖西县| 龙海市| 安康市| 应城市| 化隆| 云梦县| 南丹县| 西乌珠穆沁旗| 松滋市|