• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT_DPCNN文本分類(lèi)算法的垃圾郵件過(guò)濾系統(tǒng)

      2022-05-30 12:21:50彭毅姜昕宇
      電腦知識(shí)與技術(shù) 2022年22期
      關(guān)鍵詞:垃圾郵件分類(lèi)

      彭毅 姜昕宇

      摘要:近年來(lái),研究表明垃圾郵件已經(jīng)出現(xiàn)在私人郵箱中,嚴(yán)重?cái)_亂了用戶體驗(yàn)。這也已成為各大通信公司的優(yōu)先研究事項(xiàng)?;趥鹘y(tǒng)的機(jī)器學(xué)習(xí)算法垃圾郵件過(guò)濾模型已經(jīng)得到了充分的研究。隨著研究人員在自然語(yǔ)言處理方面的深入研究,深度學(xué)習(xí)算法及其構(gòu)建的模型表現(xiàn)效果遠(yuǎn)強(qiáng)于傳統(tǒng)機(jī)器學(xué)習(xí)模型。本文基于現(xiàn)有的各類(lèi)分類(lèi)模型進(jìn)行了研究及比較,討論了如何對(duì)垃圾郵件數(shù)據(jù)集進(jìn)行識(shí)別,并建立了BERT_DPCNN模型,以改進(jìn)對(duì)電子郵件這種具有獨(dú)特特征文本的識(shí)別方法。本文使用DPCNN作為垃圾郵件分類(lèi)器,使用BERT預(yù)訓(xùn)練模型得到的文本向量作為DPCNN模型的輸入,以此加強(qiáng)模型的分類(lèi)效果,有助于提取到更多的語(yǔ)義信息,以此避免出現(xiàn)深度神經(jīng)網(wǎng)絡(luò)梯度消失所帶來(lái)的問(wèn)題。根據(jù)模型的召回率、準(zhǔn)確率和F1指數(shù),BERT_DPCNN模型可以比其他模型更有效地識(shí)別垃圾郵件。此外,從實(shí)驗(yàn)數(shù)據(jù)中可以看出,一些涉及深度模型的特征提取方法,如本文中的BERT模型,比基于word2vec的特征提取方法具有更明顯的優(yōu)勢(shì)。本文構(gòu)建的BERT_DPCNN模型可以存儲(chǔ)更多的語(yǔ)義環(huán)境信息,為文本分類(lèi)提供更多的基礎(chǔ),并提取更深層次的文本特征。它是一個(gè)具有最佳整體性能的模型,對(duì)垃圾郵件過(guò)濾具有重要價(jià)值。

      關(guān)鍵詞:垃圾郵件;分類(lèi);BERT;DPCNN

      中圖分類(lèi)號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2022)22-0066-04

      1 引言

      電子郵件是一種通過(guò)電子方式提供信息交換的交流形式,用戶可以在世界上任何地方以非常低的成本聯(lián)系任何互聯(lián)網(wǎng)用戶。但是由于缺乏足夠的監(jiān)督,大量垃圾郵件的產(chǎn)生和大規(guī)模傳播,垃圾郵件攔截軟件的高速發(fā)展迫不及待[1]。因此本文基于最新的語(yǔ)言處理模型BERT提出更加高效的過(guò)濾方法。

      文本分類(lèi)是一項(xiàng)重要任務(wù)。拋開(kāi)傳統(tǒng)的機(jī)器學(xué)習(xí)算法K-近鄰算法、決策樹(shù)算法等來(lái)說(shuō),CNN最初是用于文本分類(lèi)的神經(jīng)網(wǎng)絡(luò)模型[2],它是前饋網(wǎng)絡(luò),卷積層將每個(gè)小數(shù)據(jù)塊轉(zhuǎn)換為向量[3],并且可以并行處理。RNN雖具有循環(huán)的連接,但對(duì)并行處理不友好。Johnson[4]基于 RNN提出了 LSTM算法,解決了長(zhǎng)文本序列中容易出現(xiàn)梯度消失的問(wèn)題。Merrienboer[5]提出了 Gated Recur-rent Unit (GRU),它是一個(gè)簡(jiǎn)化的 LSTM,但是既保持了LSTM的效果,又節(jié)省了訓(xùn)練時(shí)間。雖然CNN和RNN都可以使用詞序信息,但CNN因其簡(jiǎn)單性和并行性而更受歡迎,尤其是在訓(xùn)練集比較大時(shí),與字符級(jí)CNN相比,詞級(jí)CNN的層數(shù)更淺。雖然字符級(jí)CNN的優(yōu)點(diǎn)是不需要處理大量不同的詞,但詞級(jí)CNN往往更有效。這證實(shí)了“單詞”的知識(shí)可以產(chǎn)生更好的表示。Kalchbrenner[6]提出了一種稱為Deep Pyramid CNN的模型,整個(gè)模型的計(jì)算被限制在小于卷積塊范圍的兩倍。同時(shí),其金字塔的獨(dú)特結(jié)構(gòu)也讓模型能夠發(fā)現(xiàn)文本中的長(zhǎng)距離依賴,因此模型提取全局特征的能力得到了極大的提升。

      因此,本文圍繞垃圾郵件過(guò)濾問(wèn)題,在NLP中通用的文本分類(lèi)處理方法上提出了 BERT預(yù)訓(xùn)練與 DPCNN相連接來(lái)構(gòu)造效果更高、結(jié)果更好的分類(lèi)器。在詞向量方面,以往的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型通常都使用word2vec生成詞向量。word2vec由詞義的分布式假設(shè)出發(fā),最終得到一個(gè)look-up table,每一個(gè)單詞被映射到一個(gè)唯一的稠密向量,因此也注定了它無(wú)法處理一詞多義的問(wèn)題。而 BERT使用的是 Transformer(中的編碼器)作為特征抽取器,這種方法對(duì)上下文有很好的利用,不需要像 BiLSTM那樣雙向堆疊。配合 MLM這樣的降噪目標(biāo)在大規(guī)模語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練,它的詞表示更加動(dòng)態(tài)(相對(duì)于word2vec) ,對(duì)于一詞多義的問(wèn)題理解上升了一個(gè)新高度。

      隨著深度學(xué)習(xí)以及遷移學(xué)習(xí)的發(fā)展,研究者開(kāi)始更多地把深度學(xué)習(xí)模型應(yīng)用到自然語(yǔ)言處理領(lǐng)域上去解決實(shí)際問(wèn)題。通過(guò)大量查閱文獻(xiàn)可以發(fā)現(xiàn)構(gòu)造的模型除了在訓(xùn)練速度上大大縮短了時(shí)間,更在模型的準(zhǔn)確率上有很大的提升,但是,隨著垃圾郵件種類(lèi)的層出不窮,應(yīng)用于垃圾郵件的模型還有很大的創(chuàng)新空間。

      2 模型構(gòu)建

      本節(jié)主要介紹BERT_DPCNN垃圾郵件過(guò)濾模型的設(shè)計(jì)構(gòu)建。

      2.1 模型介紹

      首先,本報(bào)告中使用的BERT是在傳統(tǒng)Transformer模型基礎(chǔ)上的改進(jìn)版本。它采用多頭注意力機(jī)制,同時(shí)添加殘差連接;擴(kuò)展模型關(guān)注不同位置的能力,解決了隨著網(wǎng)絡(luò)加深而出現(xiàn)的梯度耗散問(wèn)題。其次,本文創(chuàng)新提出了用BERT模型代替了DPCNN中的 region embedding,以抓捕更遠(yuǎn)距離的依賴關(guān)系,實(shí)現(xiàn)模型質(zhì)的飛躍。

      2.2 BERT框架

      BERT模型的輸入是一個(gè)單一的句子或句子對(duì),每個(gè)詞都是由相應(yīng)的3個(gè)嵌入特征組成。這三個(gè)嵌入特征是:標(biāo)記嵌入、片段嵌入和位置嵌入。詞嵌入是指將一個(gè)句子劃分為有限的共同子詞單元;片段嵌入用于區(qū)分兩個(gè)句子,如兩個(gè)句子是否為上句和下句;位置嵌入是指將一個(gè)詞的位置信息編碼為一個(gè)向量。該模型用[CLS]標(biāo)記分類(lèi)模型,非分類(lèi)模型可以省略;用[SEP]作為句子符號(hào),斷開(kāi)輸入語(yǔ)料的前后句子的聯(lián)系。BERT模型將這3個(gè)嵌入式特征作為模型輸入。

      而它的網(wǎng)絡(luò)架構(gòu)使用的是多層 Transformer結(jié)構(gòu),其最大的特點(diǎn)是拋棄了傳統(tǒng)的RNN和CNN,通過(guò)Attention機(jī)制將任意位置的兩個(gè)單詞的距離轉(zhuǎn)換成1,有效地解決了NLP中棘手的長(zhǎng)期依賴問(wèn)題。Transformer由6個(gè)Encoder和6個(gè)Decoder堆疊而成,它接收序列數(shù)據(jù),同樣輸出處理后的序列數(shù)據(jù)。同時(shí)采用了多頭注意力機(jī)制,相較于自注意力機(jī)制,它能為 attention 層提供了多個(gè)表示子空間,拓展了模型關(guān)注不同位置的能力。每個(gè)注意力頭都分配一個(gè)Query、Key和 Value 權(quán)重矩陣;對(duì)于每個(gè)注意力頭,計(jì)算其相應(yīng)的關(guān)照程度向量,將得到的向量拼接之后乘以矩陣,就得到最終的注意力矩陣 Z;它的完整計(jì)算過(guò)程如圖1所示:

      與傳統(tǒng)的自然語(yǔ)言詞向量編碼不同,BERT模型是一個(gè)預(yù)訓(xùn)練模型,它采用上下文敏感的句子級(jí)向量編碼,可以更準(zhǔn)確地量化詞的含義和同一詞在文本中的不同語(yǔ)境。同時(shí),它還可以實(shí)現(xiàn)對(duì)長(zhǎng)文中句子之間的關(guān)系進(jìn)行編碼。在使用BERT模型時(shí),需要針對(duì)具體任務(wù)進(jìn)行微調(diào),以獲得更好的性能。為了實(shí)現(xiàn)這一目標(biāo),BERT模型通過(guò)聯(lián)合訓(xùn)練屏蔽式LM和下句預(yù)測(cè)任務(wù),可以獲得更全面的詞向量表示;這可以更準(zhǔn)確地描述輸入文本的語(yǔ)義信息。當(dāng)使用BERT時(shí),不需要改變其核心架構(gòu),只需要添加一個(gè)新的層即可將BERT模型用于特定任務(wù)。

      2.3 DPCNN 網(wǎng)絡(luò)結(jié)構(gòu)

      在深度金字塔卷積神經(jīng)網(wǎng)絡(luò)中,其結(jié)構(gòu)是卷積層和下采樣層的交替;減少了神經(jīng)網(wǎng)絡(luò)內(nèi)部的數(shù)據(jù)量和每層的計(jì)算量,并呈金字塔形狀減少,這就是DPCNN得名的原因。DPCNN使用兩層等長(zhǎng)卷積來(lái)提高詞匯嵌入表示的豐富性。在每次卷積之后,它將進(jìn)行最大限度地池化,以此將序列的長(zhǎng)度壓縮到原始序列的一半;以便于它所能感知的文本段比之前更長(zhǎng)。隨著網(wǎng)絡(luò)的深化,該模型可以在文本中發(fā)現(xiàn)更長(zhǎng)距離的關(guān)聯(lián)和全局語(yǔ)義信息。因此,DPCNN比使用短距離關(guān)聯(lián)的淺層卷積神經(jīng)網(wǎng)絡(luò)有更高的準(zhǔn)確性。其主要特點(diǎn)如下。

      1) 含有一個(gè)region嵌入層,即含有多尺寸卷積濾波器的卷積層。具體操作是對(duì)文本區(qū)域進(jìn)行卷積運(yùn)算,得到區(qū)域文本的特征圖作為嵌入向量。

      2) 使用固定數(shù)量的特征圖進(jìn)行下采樣,這樣在進(jìn)行池化操作時(shí)可以降低總的計(jì)算復(fù)雜性。

      3) 等長(zhǎng)卷積。這個(gè)特征可以壓縮每個(gè)詞組的上下文信息及其左右相鄰詞的上下文信息,使每個(gè)詞組的含義更加豐富。DPCNN通過(guò)適當(dāng)?shù)厥褂秒p層等長(zhǎng)卷積來(lái)提高詞嵌入的語(yǔ)義豐富性。

      4) 殘差連接。在DPCNN中,具體的操作是將區(qū)域嵌入直接連接到每個(gè)區(qū)塊上;也就是說(shuō),直接將區(qū)域嵌入連接到最終的池化層或輸出層。這使得梯度可以忽略卷積層權(quán)重的影響,并將其直接傳遞給每個(gè)區(qū)塊而沒(méi)有損失,大大緩解了梯度耗散的問(wèn)題。

      傳統(tǒng)的 DPCNN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示:

      2.4? BERT_DPCNN模型

      在DPCNN的實(shí)際應(yīng)用中,一般使用region embedding作為模型的詞向量;它是TextCNN的包含多尺寸卷積濾波器卷積層的卷積結(jié)果,其本質(zhì)使用的也是N-gram,模型不能很好地理解語(yǔ)義。因此,本文選擇了將DPCNN中的region embedding進(jìn)行替換,正因?yàn)锽ERT使用了Transformer來(lái)提高模型效率以捕獲更遠(yuǎn)距離的依賴,因而可以捕獲真正雙向的基于上下文的信息。本論文使用基于PyTorch框架的BERT base uncase模型。該模型有 12 個(gè)Transformer層、768個(gè)隱藏單元、12個(gè)self-attention Header和1.1億個(gè)參數(shù)。

      BERT的預(yù)訓(xùn)練模型使用維基百科等數(shù)據(jù)進(jìn)行無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning) ,以此提高學(xué)習(xí)能力。模型BERT_DPCNN首先使用BERT將文本中的每個(gè)詞在輸入層轉(zhuǎn)化為詞向量,該過(guò)程由語(yǔ)義提取層中的Transformer編碼器處理,然后對(duì)每個(gè)詞向量進(jìn)行拼接,得到向量矩陣X,公式如下:

      X1:n= x1⊕x2⊕...⊕xn

      卷積過(guò)程生成特征使用等長(zhǎng)的卷積。h是卷積核W的大小,特征Ci可用以下公式表示:

      Ci= f (W *Xi:i+h-1+ b)

      上述公式中,f :非線性變換函數(shù),它的過(guò)程是先進(jìn)行矩陣乘法,得到結(jié)果后使用激活函數(shù)“Relu”來(lái)進(jìn)行非線性變換,最后進(jìn)行最大池化操作。經(jīng)過(guò)以上步驟,模型獲得了電子郵件的高級(jí)特征,最終通過(guò)連接全連接網(wǎng)絡(luò)+Softmax層實(shí)現(xiàn)了對(duì)電子郵件的分類(lèi)。本模型的結(jié)構(gòu)如圖3所示:

      3 模型結(jié)果

      3.1 模型表現(xiàn)

      為了更好地觀察訓(xùn)練過(guò)程以及優(yōu)化模型參數(shù),本文以100個(gè)batch來(lái)觀察模型的擬合情況以及準(zhǔn)確率,通過(guò)對(duì)訓(xùn)練集以及驗(yàn)證集的圖形觀察評(píng)估,確定了最終的模型效果,如圖4所示,能達(dá)到準(zhǔn)確率為99%的郵件過(guò)濾效果。

      在整個(gè)訓(xùn)練過(guò)程中,通過(guò)跟蹤訓(xùn)練集和驗(yàn)證集的accuracy、recall、F1等參數(shù)[7]來(lái)監(jiān)控模型的學(xué)習(xí)進(jìn)度。性能評(píng)估依照分類(lèi)報(bào)告(見(jiàn)表1) 。從下面的分類(lèi)報(bào)告可以清楚地看出,正常郵件中的召回指數(shù)證明99.79% 的郵件可以準(zhǔn)確識(shí)別。此外,每個(gè)類(lèi)別的F1分?jǐn)?shù)非常相似。換句話說(shuō),本文提出的模型在大多數(shù)情況下幾乎完美地對(duì)電子郵件進(jìn)行了分類(lèi)。

      另一種方式是描述分類(lèi)器在測(cè)試集上的表現(xiàn)。筆者使用的是混淆矩陣(如表2 所示) 或也稱為誤差矩陣[8],它能計(jì)算正確和不正確的預(yù)測(cè)。在每個(gè)類(lèi)別中進(jìn)行匯總和分布,這是混淆矩陣的主要特征。通常情況下,混淆矩陣代表分類(lèi)模型在預(yù)測(cè)時(shí)的“混淆”程度。因此,它可以檢查分類(lèi)器的錯(cuò)誤。

      3.2 與其他先進(jìn)模型的比較

      眾所周知,分類(lèi)模型中使用的算法從早期的樸素貝葉斯、SVM、LR等經(jīng)歷了長(zhǎng)時(shí)間的研究和討論,再到當(dāng)前的神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)模型包括TextCNN、BiLSTM、BiLSTM-Attention和BERT_DPCNN模型。其中BiLSTM是雙向LSTM,包括前向LSTM和后向LSTM。

      由于時(shí)間原因,本文無(wú)法構(gòu)建所有算法的模型進(jìn)行比較,因此參考了其他學(xué)者基于其他算法構(gòu)建的模型的性能。該模型的性能可以通過(guò)該模型的準(zhǔn)確率等各項(xiàng)指標(biāo)進(jìn)行比較來(lái)粗略判斷,但是由于使用的數(shù)據(jù)集存在一定的差異,效果也略有不同。下面將介紹提出的垃圾郵件過(guò)濾算法的性能[9]。

      該模型結(jié)合了基于自注意力的 ALBERT 和 Bi-LSTM 網(wǎng)絡(luò)。同時(shí)他還對(duì)比了word2vec和bert詞向量,一眼就能看出BERT的優(yōu)秀表現(xiàn),表3是其模型結(jié)果表。

      綜上而言,BERT_DPCNN 模型的實(shí)驗(yàn)結(jié)果在上述各項(xiàng)指標(biāo)上都取得了較好的效果,BERT_DPCNN的垃圾郵件過(guò)濾模型與傳統(tǒng)的垃圾郵件過(guò)濾算法性能相比具有顯著的優(yōu)勢(shì)。從理論上分析,特別是與word2vec特征提取方法相比,本文的垃圾郵件過(guò)濾模型可以在詞向量環(huán)節(jié)提取到更多的語(yǔ)義環(huán)境信息,因此也可以提供更多的依據(jù)實(shí)現(xiàn)最大化的文本分類(lèi)。通過(guò)訓(xùn)練結(jié)果的對(duì)比也可以顯示出本文提出的模型具有明顯優(yōu)勢(shì),這也說(shuō)明了本文所提出的基于BERT_DPCNN的垃圾郵件過(guò)濾模型值得擴(kuò)展到實(shí)際的垃圾郵件過(guò)濾系統(tǒng)中。

      4 總結(jié)

      4.1 討論與未來(lái)工作

      盡管已經(jīng)有很多優(yōu)秀的垃圾郵件過(guò)濾算法,但在現(xiàn)實(shí)應(yīng)用中,垃圾郵件的識(shí)別和分類(lèi)方面還有諸多的問(wèn)題需要解決。雖然本文提出BERT_DPCNN算法能根據(jù)垃圾郵件數(shù)據(jù)集的特點(diǎn)有效分類(lèi)和過(guò)濾垃圾郵件。但也有一些不足:

      1) 本文使用中等規(guī)模的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集中正負(fù)樣本的數(shù)量不是很均衡,會(huì)在一定程度上影響模型的訓(xùn)練和效果。未來(lái)應(yīng)該考慮使用更真實(shí)的大數(shù)據(jù)集進(jìn)行訓(xùn)練,實(shí)現(xiàn)精準(zhǔn)過(guò)濾。

      2) 本文的識(shí)別和分類(lèi)對(duì)象主要以英文字符內(nèi)容為主。與傳統(tǒng)算法比較,在識(shí)別的有效性上有一定的提升;未來(lái)為了提升模型的準(zhǔn)確率,降低分類(lèi)錯(cuò)誤的概率,可以增加郵件發(fā)件人、發(fā)送頻率等信息綜合考慮,進(jìn)一步增強(qiáng)信息的維度。

      此外,由于時(shí)間的限制,筆者不能探索所有的算法。因此,在未來(lái)的工作中,需要進(jìn)行更多的實(shí)驗(yàn),以與其他模型的性能進(jìn)行比較。另外,筆者還發(fā)現(xiàn)也有一些新的訓(xùn)練前模型,如LXnet可以有更好的性能,這些都值得在未來(lái)研究和討論。

      4.2 結(jié)論

      互聯(lián)網(wǎng)信息時(shí)代的到來(lái),人們身處異地就可以輕松地從用戶終端獲取信息,但是伴隨著出現(xiàn)的惡意信息也給人們帶來(lái)了巨大的困擾,誕生于這個(gè)互聯(lián)網(wǎng)時(shí)代的電子郵件也是如此。一方面,人們可以不受地域限制地隨時(shí)發(fā)送電子郵件進(jìn)行交流。另一方面,各式各樣的垃圾郵件也破壞了綠色健康的通信環(huán)境。由于垃圾郵件過(guò)濾模型的出現(xiàn),使這個(gè)問(wèn)題變得迎刃而解,垃圾郵件的識(shí)別和過(guò)濾將逐漸走向標(biāo)準(zhǔn)化。高效的垃圾郵件過(guò)濾系統(tǒng)可以幫助郵件服務(wù)提供商更準(zhǔn)確地?cái)r截一些騷擾用戶、危害用戶信息安全的郵件。然而,仍然清楚的是,即使對(duì)垃圾郵件識(shí)別進(jìn)行了大量研究,仍然需要優(yōu)化算法以不斷提高用戶滿意度。主流的垃圾郵件識(shí)別方法主要有關(guān)鍵字過(guò)濾和后臺(tái)人工審核,這帶來(lái)了識(shí)別效率低、維護(hù)成本高、效率低等諸多問(wèn)題。為了解決這個(gè)問(wèn)題,本文創(chuàng)新性地提出了一種新的模型識(shí)別方法,并通過(guò)使用特定數(shù)據(jù)集來(lái)訓(xùn)練提出的模型來(lái)進(jìn)行論證分析,證明該模型具有優(yōu)秀的垃圾郵件識(shí)別效果。

      綜合全文,本文主要完成了以下研究工作:

      1) 首先確定研究方向,查閱該方向的研究現(xiàn)狀以及不足,正式提出課題進(jìn)行可行性分析。通過(guò)對(duì)相關(guān)文獻(xiàn)的研究調(diào)查,詳細(xì)了解了電子郵件文本的特點(diǎn)以及垃圾郵件分類(lèi)技術(shù)的現(xiàn)狀問(wèn)題,郵件文字雜亂、特征復(fù)雜、語(yǔ)言具有相當(dāng)程度的獨(dú)特性。同時(shí),已有文章指出,對(duì)于郵件這種類(lèi)型的文本信息,可以利用BERT模型的詞向量來(lái)針對(duì)性地提取文本特征。

      2) 隨著遷移學(xué)習(xí)的發(fā)展,BERT模型逐漸流行起來(lái),其在文本分類(lèi)方面的優(yōu)越性能也備受關(guān)注。因此,為了解決這個(gè)問(wèn)題,本文創(chuàng)新性地提出了BERT_DPCNN垃圾郵件識(shí)別模型,在充分學(xué)習(xí)語(yǔ)義的基礎(chǔ)上,通過(guò)對(duì)有效郵件數(shù)據(jù)集的訓(xùn)練,得到的模型能夠準(zhǔn)確有效地提取郵件的特征,并實(shí)現(xiàn)垃圾郵件的有效過(guò)濾。

      3) 評(píng)估本文算法的性能。本文使用可信度極高的 kaggle 郵件數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和評(píng)估。最后的結(jié)果表明,本文提出的創(chuàng)新算法在accuracy、recall和F1等方面都表現(xiàn)出色。

      參考文獻(xiàn):

      [1] Goodman J,Yih W.Online discriminative Spam filter training[C]//. InProceedings of the 3rd conference on email and anti-spam (CEAS),2006.

      [2] Konstas I,Keller F,Demberg V,et al.Convolutional Neural Networks for Sentence Classification[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), Doha, Qatar, October 2014: 1746-1751.

      [3] Sanghani G,Kotecha K.Incremental personalized E-mail Spam filter using novel TFDCR feature selection with dynamic feature update[J].Expert Systems With Applications,2019,115:287-299.

      [4] Johnson R,Zhang T.Effective use of word order for text categorization with convolutional neural networks[C]//Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Denver,Colorado.Stroudsburg,PA,USA:Association for Computational Linguistics,2015: 103–112.

      [5] Cho K,van Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[EB/OL].2014:arXiv:1406.1078.https://arxiv.org/abs/1406.1078.

      [6] Kalchbrenner N,Grefenstette E,Blunsom P.A convolutional neural network for modelling sentences[EB/OL].2014:arXiv:1404.2188.https://arxiv.org/abs/1404.2188.

      [7] ANGUITA D, GHIO A, RIDELLA S, et al. Kfold cross validation for error rate estimate in support vector machines [C]// DMIN 2009: Proceedings of the 2009 International Conference on Data Mining. Las Vegas: CSREA Press, 2009: 291-297.

      [8] Vieira J P A,Moura R S.An analysis of convolutional neural networks for sentence classification[C]//2017 XLIII Latin American Computer Conference (CLEI).Cordoba,Argentina.IEEE,2017:1-5.

      [9] VISA S, RAMSAY B, RALESCU A L, et al. Confusion matrix-based feature selection (2011). [C]//Proceedings of The 22nd Midwest Artificial Intelligence and Cognitive Science Conference 2011, Cincinnati, Ohio, USA. April 16–17, 2011:120–127.

      【通聯(lián)編輯:唐一東】

      猜你喜歡
      垃圾郵件分類(lèi)
      從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語(yǔ)單詞的起源出人意料地有趣 精讀
      分類(lèi)算一算
      垃圾分類(lèi)的困惑你有嗎
      大眾健康(2021年6期)2021-06-08 19:30:06
      一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測(cè)算法
      分類(lèi)討論求坐標(biāo)
      數(shù)據(jù)分析中的分類(lèi)討論
      教你一招:數(shù)的分類(lèi)
      基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過(guò)濾模型
      給塑料分分類(lèi)吧
      石器部落
      罗定市| 汉寿县| 宜川县| 龙井市| 清镇市| 调兵山市| 德庆县| 青海省| 康保县| 海伦市| 禹州市| 三穗县| 营口市| 岳西县| 乐安县| 漯河市| 安化县| 阳山县| 武穴市| 横峰县| 漳浦县| 丽水市| 永春县| 图们市| 旬邑县| 宜宾县| 灵宝市| 新平| 台北市| 龙门县| 瓦房店市| 陆川县| 建阳市| 成都市| 海林市| 昌平区| 县级市| 青田县| 隆昌县| 兴化市| 剑河县|