• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于DSR和BGRU模型的聊天文本證據(jù)分類方法

      2022-04-18 01:23:40張宇李炳龍李學(xué)娟張和禹
      關(guān)鍵詞:黑話聊天記錄語義

      張宇,李炳龍,李學(xué)娟,張和禹

      (1. 信息工程大學(xué),河南 鄭州 450001;2. 河南理工大學(xué),河南 焦作 454003)

      0 引言

      隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,智能手機(jī)的使用頻率也在快速增長(zhǎng)。但智能手機(jī)在給人們帶來便利的同時(shí),也給犯罪帶來了便利。利用智能手機(jī)犯罪的記錄在不斷增長(zhǎng)。以往的手機(jī)取證主要關(guān)注手機(jī)保存的地理信息數(shù)據(jù)、短信、通話記錄等。但隨著社交軟件的發(fā)展,社交軟件所保留的聊天記錄已經(jīng)成為新的取證來源。根據(jù)CNNIC發(fā)布的調(diào)查報(bào)告顯示[1],截至2021年1月,我國社交軟件的使用人數(shù)已經(jīng)達(dá)到96 012萬。正是由于社交軟件的流行,社交軟件上的聊天記錄具有重要的取證意義。

      取證人員通過對(duì)聊天記錄進(jìn)行分析來找到與案情相關(guān)的數(shù)據(jù),但問題在于聊天記錄大量繁雜,而取證人員采用的方式是手動(dòng)搜索或者通過設(shè)置過濾器的方法,這樣的方法低效而且很可能會(huì)遺漏關(guān)鍵證據(jù)。此外,近年來,犯罪分子的反取證意識(shí)不斷提高,在使用社交軟件時(shí)往往采用“黑話”來傳遞犯罪信息。例如,在非法借貸中“高炮”指一種超高息的短期借款;電信詐騙中“金主”指實(shí)施詐騙者,“水房”指洗錢機(jī)構(gòu);毒品交易中“豬肉”“蘋果”等指冰毒,“溜冰”指吸食冰毒。“黑話”影響了取證的效率。因此需要一種文本分類方法來從犯罪領(lǐng)域的聊天記錄中篩選出關(guān)鍵數(shù)據(jù)。

      將文本分類技術(shù)應(yīng)用到聊天記錄中仍有許多問題需要解決。

      第一,犯罪領(lǐng)域的聊天文本具有鮮明的犯罪特征,常用的聊天記錄預(yù)處理方法會(huì)丟失這些特征。

      第二,隨著時(shí)間的移動(dòng),“黑話”不斷出現(xiàn)并更新。出現(xiàn)新單詞會(huì)降低分類器的準(zhǔn)確性,某些語義信息會(huì)在文本量化期間被忽略。

      第三,“黑話”,如“豬肉”“蘋果”等涉毒詞,往往與涉及的領(lǐng)域無關(guān),這需要結(jié)合上下文信息才能被認(rèn)為與犯罪行為有關(guān)。這種“一詞多義”問題影響分類器的效果。

      為了將文本分類技術(shù)應(yīng)用到聊天記錄來篩選與犯罪有關(guān)的文本,本文提出了一種聊天記錄犯罪證據(jù)分類方法。該方法通過更新文本特征表示和文本特征提取技術(shù)來提高分類性能。

      針對(duì)犯罪相關(guān)的文本分類主要應(yīng)用于社交平臺(tái)所產(chǎn)生的聊天記錄。文獻(xiàn)[2]提出ARPR(AHP-relation-PageRank)算法。該算法采用TF-IDF(term frequency-inverse document frequency)方法對(duì)涉毒關(guān)鍵詞進(jìn)行提取并對(duì)其詞向量加權(quán),然后以好友關(guān)系為鏈接建立關(guān)系網(wǎng)絡(luò)作為PageRank的入度與出度來計(jì)算相對(duì)應(yīng)的PageRank權(quán)值。ARPR算法結(jié)合TF-IDF方法和PageRank方法對(duì)聊天文本進(jìn)行處理,使其能根據(jù)禁毒領(lǐng)域的業(yè)務(wù)需求,篩選出聊天文本中涉及的重點(diǎn)嫌疑人員。

      與其他文本分類任務(wù)相比,與犯罪相關(guān)的文本特點(diǎn)是存在大量的“黑話”(一詞多義)現(xiàn)象。有不少研究者將深度學(xué)習(xí)用于解決文本分類中的一詞多義問題[3-4]。文獻(xiàn)[5]引入RNN(recurrent neural network)抽取詞語特征,其中詞語的特征不僅與當(dāng)前詞有關(guān)還與它的上文有關(guān)。這種做法使得詞語的特征表示會(huì)隨著上文的變化而變化,具有語義的特性。但RNN循環(huán)機(jī)制過于簡(jiǎn)單,在梯度反向傳播時(shí)會(huì)產(chǎn)生梯度爆炸或梯度消失等錯(cuò)誤狀況,從而造成訓(xùn)練過程停滯。LSTM(long short-term memory)和GRU(gated recurrent unit)在傳統(tǒng)RNN的基礎(chǔ)上引入“門機(jī)制”,在一定限度上避免了RNN的失誤。以此為基礎(chǔ),大部分模型對(duì)GRU和LSTM模型實(shí)施改良。文獻(xiàn)[6]為了增強(qiáng)模型中上下文信息的處理效果,在LSTM模型的基礎(chǔ)上新增了外部記憶單元。但外部記憶單元參數(shù)量大,容易影響準(zhǔn)確度。Tang等[7]提出CLSTM模型來解決一詞多義問題,該模型在LSTM的基礎(chǔ)上,引入注意力機(jī)制,取得了不錯(cuò)的效果。文獻(xiàn)[8]在文獻(xiàn)[9]的基礎(chǔ)上進(jìn)行改進(jìn),引入注意力機(jī)制來聚焦文本中的重要信息。文獻(xiàn)[10]與文獻(xiàn)[8]類似,區(qū)別在于,其引入BGRU來代替LSTM,相比文獻(xiàn)[8],文獻(xiàn)[10]提出的模型在時(shí)間性能上有較大提升。

      以上的研究將RNN、CNN這樣的模型結(jié)構(gòu)串聯(lián)起來用于文本分類,但這種層疊串聯(lián)的模型結(jié)構(gòu)會(huì)隨著層次的加深丟失特征信息。針對(duì)這一問題,文獻(xiàn)[11]提出一種雙通道深度學(xué)習(xí)模型,該模型并行采用 CNN和LSTM分別從字、詞角度對(duì)不同嵌入方式下的文本進(jìn)行特征提取,并將雙通道提取出的特征進(jìn)行融合,從而進(jìn)行分類。文獻(xiàn)[12]將CNN和LSTM并聯(lián)起來,并在模型的后端綜合各通道提取的特征進(jìn)行分類。

      總而言之,本文的研究技術(shù)流程如圖1所示。

      圖1 研究技術(shù)流程 Figure 1 Research technology process

      本文的主要貢獻(xiàn)如下。

      1) 提出犯罪領(lǐng)域的聊天文本預(yù)處理的手段,使其保存犯罪領(lǐng)域特征。

      2) 提出動(dòng)態(tài)語義表示模型(DSR)對(duì)詞進(jìn)行特征表示。該模型首先在預(yù)訓(xùn)練好的詞向量上使用聚類算法選擇語義詞。然后采用稀疏約束訓(xùn)練語義詞對(duì)新單詞進(jìn)行稀疏表示。采用DSR模型能有效降低新單詞對(duì)分類器準(zhǔn)確性的影響。

      3) 采用BGRU模型[13]從詞向量組成的文本中進(jìn)行上下文特征提取,并對(duì)其改進(jìn)使其能適應(yīng)“黑話特點(diǎn)”從而能根據(jù)上下文變化來解決“黑話”一詞多義問題。

      1 模型設(shè)計(jì)

      為從犯罪領(lǐng)域的聊天記錄中篩選出關(guān)鍵數(shù)據(jù),本文提出結(jié)合DSR模型和BGRU模型的聊天記錄文本分類方法。其中,DSR模型用于捕獲語義層次的信息,BGRU模型提取詞向量的文本特征并用于分類。首先對(duì)聊天記錄進(jìn)行分類,分為訓(xùn)練集和測(cè)試集,在預(yù)處理后,先訓(xùn)練訓(xùn)練集,而后對(duì)結(jié)果進(jìn)行測(cè)試,通過反饋的正確率驗(yàn)證模型的準(zhǔn)確率,來看模型是否有效。DSR-BGRU模型結(jié)構(gòu)如圖2所示,主要分為4個(gè)模塊:聊天記錄預(yù)處理;DSR模型進(jìn)行文本特征表示;BGRU提取文本特征;實(shí)施文本分類。

      圖2 DSR-BGRU模型結(jié)構(gòu) Figure 2 The structure of DSR-BGRU model

      1.1 聊天記錄預(yù)處理

      1) 在聊天記錄中,除了文本數(shù)據(jù)外,還存在符號(hào)、表情、圖片、語氣詞等非文本數(shù)據(jù),這些非文本數(shù)據(jù)將會(huì)變成亂碼而影響數(shù)據(jù)處理的結(jié)果,因此應(yīng)先去除這類數(shù)據(jù)。但犯罪領(lǐng)域的聊天記錄中的圖片內(nèi)容往往是展示用于犯罪的道具,或者觸犯法律的物品。這類圖片具有較高的取證價(jià)值以及鮮明的犯罪領(lǐng)域特征。DSR模型采用識(shí)圖工具識(shí)別圖片內(nèi)容,并將其輸出為文本替代聊天記錄中的圖片。

      2)犯罪分子在聊天記錄中會(huì)用“黑話”來掩蓋自己的犯罪意圖,這類詞往往具有名詞的特性。DSR模型對(duì)聊天記錄分詞切割后標(biāo)注詞性用于后續(xù)的加權(quán),標(biāo)注結(jié)果如表1所示,詞性對(duì)應(yīng)含義如表2所示。

      表1 分詞及詞性標(biāo)注結(jié)果Table 1 Word segmentation and speech tagging results

      表2 詞性對(duì)應(yīng)含義Table 2 Corresponding meaning of word

      1.2 文本特征表示

      本文提出DSR模型對(duì)文本進(jìn)行特征表示。DSR模型通過聚類算法篩選出語義詞,并通過單詞屬性與語義詞的加權(quán)組合對(duì)非語義詞詞向量進(jìn)行特征表示,且將語義詞用于對(duì)新單詞進(jìn)行稀疏表示。

      1.2.1 語義詞篩選與重構(gòu)

      語義詞的篩選基于已經(jīng)預(yù)訓(xùn)練好的詞向量。采用預(yù)訓(xùn)練的詞向量,模型將每個(gè)單詞的嵌入向量w組成矩陣。然后對(duì)聊天信息T進(jìn)行聚類分析,將具有相似語義的單詞劃分為同一類。在每個(gè)聚類過程中,提取聚類中心作為文本的語義詞。

      本文使用AP聚類算法計(jì)算文本的聚類中心并作為語義詞,假設(shè)文本的嵌入向量集為,將S定義為詞向量之間的相似矩陣,s(i,j)表示wi和wj兩個(gè)詞向量之間的相同程度,值為兩個(gè)詞向量之間的歐式距離。信息矩陣用A來表示,而吸引信息矩陣用R來表示,R中r(i,j)描述wj適合作為wi的聚類中心的適用性,A中a(i,j)描述wi選擇wj作為其聚類中心的適用性,如式(1)~式(4)所示。

      若在多次迭代后聚類中心保持不變或迭代次數(shù)超過了設(shè)置的迭代次數(shù),將停止計(jì)算,并將計(jì)算出的聚類中心作為語義詞,最終取A+R最大的wk作為聚類中心。

      基于上述方法,DSR模型可以將文本中相似的詞語替換為相應(yīng)的語義詞并且對(duì)訓(xùn)練集中的每個(gè)文本都生成了語義詞集合 SW 。該集合包含m個(gè)語義詞 {sw1,sw2,… , swm}。訓(xùn)練集中文本的語義詞集合會(huì)組成詞庫,用于對(duì)測(cè)試集中的新單詞進(jìn)行表示,從而進(jìn)一步提高了模型的自適應(yīng)能力。

      模型結(jié)合詞的各項(xiàng)特征以及與詞相近的語義詞來表示訓(xùn)練集中的非語義詞詞向量。采用式(5)對(duì)語義詞集合的詞進(jìn)行特征融合。

      其中,MTF()是特征融合函數(shù)。不同于僅使用統(tǒng)計(jì)特征來表示所有單詞的傳統(tǒng)單詞袋(BoW),DSR模型結(jié)合單詞頻率、單詞詞性、單詞位置這3個(gè)特征來重構(gòu)詞向量。

      單詞頻率是單詞在文本中出現(xiàn)的次數(shù)。單詞頻率越高,單詞越重要。它是統(tǒng)計(jì)功能中常用的詞屬性之一。模型運(yùn)用函數(shù)來計(jì)算詞頻因子 frei,如下所示。

      n是單詞wi在文章中的出現(xiàn)次數(shù)。非線性函數(shù)有兩個(gè)優(yōu)點(diǎn):一是詞頻因子與詞頻成正比;二是詞頻因數(shù)與詞頻成正比。當(dāng)詞頻增加到一定程度時(shí),詞頻因子的值會(huì)減小,符合語言現(xiàn)實(shí)。

      詞性因子是詞性的量化。對(duì)文本語義有較大影響的語義詞大多數(shù)是名詞。與名詞相比,形容詞和動(dòng)詞對(duì)句子不會(huì)產(chǎn)生太大的影響。在對(duì)文本的分類中,詞性的不同產(chǎn)生的影響也不一樣,因此根據(jù)詞性將詞分為3類:

      單詞在文本中的位置在判斷其重要性方面也具有重要價(jià)值。不同的單詞出現(xiàn)在文本的不同位置,對(duì)語義的影響也不同。根據(jù)如下公式定義位置的影響力:

      firsti是wi首先出現(xiàn)的位置, lasti是wi最后出現(xiàn)的位置,sumi是文本中單詞的總數(shù)。

      這里,構(gòu)造融合特征來表示語義詞,計(jì)算如下。

      其中,frei是單詞頻率因子,posi是詞性因子,loci是單詞位置因子,α1、α2和α3是特征因子的權(quán)重,S(wi)表示 SW 中與wi相近的語義詞。因此,根據(jù)式(5),可以使用{V(w( 1)),V(w( 2)),… ,V(w(i) )}j來表示具有i個(gè)詞的文本Tj。

      1.2.2 稀疏表示

      由于訓(xùn)練集和測(cè)試集是隨機(jī)分配的,并且詞庫中的語義詞由訓(xùn)練集中的詞組成,而從測(cè)試集提取的詞可能不會(huì)出現(xiàn)在詞庫中。如果從測(cè)試文本中提取的詞未出現(xiàn)在詞庫中,則將使用其他語義詞來稀疏地表示這些詞。目標(biāo)函數(shù)如下。

      或者

      y是需要重建的樣本,X是嵌入向量的矩陣,ε和λ都是小的正常數(shù)。

      盡管L_1范數(shù)在回歸訓(xùn)練樣本的選擇中起著隱性作用,但迭代解的計(jì)算成本很高,用L_2范數(shù)代替正則化項(xiàng)。目標(biāo)函數(shù)可以表示為

      稀疏表示為:

      其中,λ是權(quán)重參數(shù),ki是測(cè)試文本中的第i個(gè)新單詞對(duì)應(yīng)的詞向量,xi∈Rm是重構(gòu)向量,K∈Rm×n由詞庫中的m個(gè)語義詞向量組成,n是詞向量維度,最后將被稀疏表示過的新語義詞添加到詞庫中,用來提高模型的適應(yīng)性。

      1.3 文本特征提取

      本文使用BGRU模型從訓(xùn)練的詞向量組成的文本向量矩陣提取文本特征。

      聊天記錄中的“黑話”與原有的語義有較大的差別,需要根據(jù)上下文才能理解“黑話”的歧義。本文在BGRU模型上進(jìn)行改進(jìn)來適應(yīng)這一特點(diǎn)。BGRU模型由兩個(gè)反向的GRU模型組成,GRU模型結(jié)構(gòu)如圖3所示。

      圖3中,Zt為更新門,rt為重置門,xt表示t時(shí)刻的輸入;ht?1為隱藏層,表示t?1時(shí)刻的輸出;σ為Sigmoid函數(shù);ht為隱藏層,表示t時(shí)刻的輸出;在xt和ht?1輸入GRU之前分別添加固定值β和1 ?β作為權(quán)重來控制xt和ht?1的輸入影響。GRU 模型中各個(gè)門計(jì)算如式(14)~式(17)所示。

      圖3 GRU模型結(jié)構(gòu) Figure 3 Structure of GRU model

      其中,Wz表示更新門連接的權(quán)重矩陣,Wr表示重置門連接的權(quán)重矩陣,“?”表示兩個(gè)矩陣元素的相乘。

      圖4 BGRU模型結(jié)構(gòu) Figure 4 Structure of BGRU model

      BGRU模型中每一個(gè)時(shí)刻狀態(tài)計(jì)算如式(18)、式(19)所示。輸出則由這兩個(gè)方向的GRU的狀態(tài)共同決定,如式(20)所示。

      其中,wt表示正向輸出的權(quán)重矩陣,vt表示反向輸出的權(quán)重矩陣,bt表示t時(shí)刻的偏置矩陣。

      經(jīng)過反復(fù)測(cè)試,β為0.2時(shí),分類效果最好,這時(shí),BGRU模型提取的文本特征受到上下文的影響較大,這也符合聊天記錄中的“黑話”特點(diǎn)。

      1.4 文本分類

      本文通過Keras框架搭建BGRU模型來提取文本特征,其中模型的組成部分有:輸入層使用DSR模型進(jìn)行詞的向量表示組成的文本矩陣;大小為64的BGRU隱藏層;從模型的兩個(gè)方向輸入的輸入序列;通過隱藏層提取文本的上文信息特征和文本的下文信息特征;用式(21)結(jié)合隱藏層的兩個(gè)方向。

      其中,Tijt表示在t時(shí)刻輸入的第j個(gè)文本的i個(gè)詞向量組成的文本矩陣;hijt表示在t時(shí)刻BGRU的輸出。

      輸出層softmax的大小與文本分類的類別一致,數(shù)據(jù)二分類后結(jié)果存在兩個(gè)神經(jīng)元,分別代表正常與異常。

      通過softmax函數(shù)進(jìn)行文本分類,分類函數(shù)如式(22)所示。

      其中,wi表示特征提取層到輸出層的權(quán)重系數(shù)矩陣,bi表示相應(yīng)的偏置,hijt表示在t時(shí)刻特征提取層的輸出向量。

      2 實(shí)驗(yàn)分析

      本文實(shí)驗(yàn)的目的如下。

      1) 分析DSR模型中不同單詞屬性加權(quán)方法對(duì)分類效果的影響以及對(duì)新單詞的稀疏表示方法的效果。

      2) 分析犯罪領(lǐng)域的聊天記錄存在的“黑話”現(xiàn)象特點(diǎn)。

      3) 比較不同文本分類模型的性能。

      2.1 實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)環(huán)境為x86平臺(tái),Intel CPU,內(nèi)存16 GB,硬盤100 GB。操作系統(tǒng)Windows10家庭版,使用TensorFlow的深度學(xué)習(xí)庫 Keras 進(jìn)行模型搭建與測(cè)試。

      2.2 數(shù)據(jù)集

      實(shí)驗(yàn)數(shù)據(jù)來自實(shí)驗(yàn)所用Android智能手機(jī)。手機(jī)中有與1 000個(gè)微信好友的聊天記錄,這1 000個(gè)會(huì)話內(nèi)容包括正常聊天和與犯罪相關(guān)的聊天。正常聊天和與犯罪相關(guān)的聊天主題如表3所示。本文將正常聊天內(nèi)容標(biāo)注為“正常文本”,與犯罪相關(guān)的文本標(biāo)注為“異常文本”,這些聊天記錄共包含24 100條聊天短文本。從聊天記錄中隨機(jī)抽取一些數(shù)據(jù)集,包括正常、異常兩類,每個(gè)類別的數(shù)據(jù)集按4:1的比例分為訓(xùn)練集、測(cè)試集兩部分。數(shù)據(jù)結(jié)果用csv格式進(jìn)行存儲(chǔ),如表4所示。

      表3 聊天記錄主題Table 3 The topic of chat record

      表4 數(shù)據(jù)集劃分Table 4 Data set division table

      另外,如表5所示,本文使用4個(gè)數(shù)據(jù)集來評(píng)估DSR模型的性能,其中ChnSentiCorp_htl_all來自譚松波的“酒店評(píng)論數(shù)據(jù)集”,waimai_10k是Github網(wǎng)站“某外賣平臺(tái)收集的用戶評(píng)價(jià)數(shù)據(jù)集”,online_shoping_10_cats是Github網(wǎng)站“各電商平臺(tái)的用戶評(píng)價(jià)數(shù)據(jù)集”,weibo_senti_100k來自于新浪微博評(píng)論數(shù)據(jù)集。由于關(guān)于異常文本分類的數(shù)據(jù)集較少,因此本文挑選常見的用于文本情感傾向判別的中文數(shù)據(jù)集。數(shù)據(jù)集中80%為訓(xùn)練集,其余文本為測(cè)試集。

      表5 中文數(shù)據(jù)集Table 5 Chinese data set

      2.3 模型評(píng)估

      本文采用精確率、召回率和F1值對(duì)分類結(jié)果進(jìn)行評(píng)估。其中,F(xiàn)N(false negative)、FP(false positive)和TP(true positive)分別表示正常文本預(yù)測(cè)為異常文本數(shù)量,異常文本預(yù)測(cè)為正常文本數(shù)量,正常文本預(yù)測(cè)為正常文本數(shù)量。計(jì)算如下所示。

      2.4 BGRU模型超參數(shù)

      實(shí)驗(yàn)采用參數(shù)固定法,確定BGRU模型的超參數(shù),如優(yōu)化器、損失函數(shù)、激活函數(shù)等。

      本文使用的是BGRU模型訓(xùn)練超參數(shù)如表6所示。

      表6 BGRU模型訓(xùn)練超參數(shù)Table 6 BGRU model training super-parameter

      經(jīng)過反復(fù)實(shí)驗(yàn)測(cè)試,當(dāng)采用表6的超參數(shù),以準(zhǔn)確率作為評(píng)估標(biāo)準(zhǔn),訓(xùn)練輪數(shù)達(dá)到27時(shí),實(shí)驗(yàn)效果最好。精確率隨輪數(shù)變化如圖5所示。

      圖5 精確率隨輪數(shù)變化 Figure 5 The graph of accuracy with the number of rounds

      2.5 DSR模型性能評(píng)估

      在NLP中有很多量化單詞權(quán)重的方法,常見的有TF-IDF加權(quán)和單詞頻率加權(quán)。本文將單詞的位置、頻率、詞性特征相結(jié)合來量化單詞權(quán)重。在實(shí)驗(yàn)中,本文研究比較了這些量化單詞權(quán)重方法的效果。圖6中的結(jié)果表明,加權(quán)組合比其他加權(quán)方法更有效。

      圖6 不同單詞屬性加權(quán)方法的影響 Figure 6 Influence of different word attribute weighting methods

      為了驗(yàn)證稀疏表示方法的有效性,本文在4個(gè)數(shù)據(jù)集上測(cè)試了去掉稀疏表示方法的情況下,各方法的F1值。

      如圖7所示,稀疏表示方法提高了大多數(shù)數(shù)據(jù)集上分類器的性能。ChnSentiCorp數(shù)據(jù)集上的優(yōu)化性能較差,原因是訓(xùn)練集與測(cè)試集中的詞重合比較大,因此動(dòng)態(tài)表示添加的新詞較少。其他數(shù)據(jù)集上訓(xùn)練集和測(cè)試集詞語重合較少,但詞義相近。這提高了稀疏表示的效果。

      圖7 稀疏表示的影響 Figure 7 The influence of sparse representation

      圖7中F1_1展示的是去掉稀疏表示的分類結(jié)果的F1值,F(xiàn)1_2展示的是加上稀疏表示的分類結(jié)果的F1值。

      2.6 “黑話”現(xiàn)象探討

      犯罪領(lǐng)域的聊天記錄存在“黑話”現(xiàn)象。本文比較了被用作“黑話”的單詞在數(shù)據(jù)集中正常文本和異常文本中的特征表示。由于單詞的特征表示維度較高,本文使用sklearn算法庫中的T-SNE算法進(jìn)行降維可視化,結(jié)果如圖8所示。

      圖8 “黑話”足球在不同文本領(lǐng)域的特征表示 Figure 8 Feature representation of "slang" football in different text fields

      如圖8所示,“黑話”在異常文本領(lǐng)域中分布較廣,在正常文本中集中為特定領(lǐng)域。而且不同領(lǐng)域的“黑話”特征表示相近,異常文本中不同領(lǐng)域的“黑話”特征表示相距較遠(yuǎn)。這說明“黑話”在犯罪領(lǐng)域中語義不固定,且與原義有較大偏差。“黑話”的歧義問題也是自然語言處理中經(jīng)典的“一詞多義”問題,所以利用上下文識(shí)別其真實(shí)意義是解決這一問題的方法。但在應(yīng)用時(shí)應(yīng)根據(jù)“黑話”的特點(diǎn),進(jìn)行特征表示時(shí)減小詞本身的含義影響,放大上下文的影響。

      2.7 模型對(duì)比

      為了充分驗(yàn)證DSR-BGRU文本分類模型的有效性、增強(qiáng)對(duì)比性,本文不僅與其他犯罪文本分類研究進(jìn)行對(duì)比,而且采取目前比較流行的面向社交媒體的文本分類模型進(jìn)行比較分析。這些研究的詳細(xì)信息如下。

      1) DSR-BGRU:本文提出的文本分類模型,分別運(yùn)用DSR模型和BGRQ模型對(duì)文本進(jìn)行特征表示及提取。

      2) 文獻(xiàn)[2]:文獻(xiàn)[2]將PageRank算法和關(guān)系網(wǎng)絡(luò)相結(jié)合,提出一種ARPR算法。該算法采用TF-IDF方法提取群聊人員的群聊涉毒關(guān)鍵詞,并對(duì)涉毒關(guān)鍵詞在涉毒嫌疑程度排序中的貢獻(xiàn)進(jìn)行度量;然后以層次分析法引導(dǎo)聚合各維度信息計(jì)算得到的嫌疑人員權(quán)重為權(quán)重系數(shù),以好友關(guān)系為鏈接建立關(guān)系網(wǎng)絡(luò)作為PageRank的入度與出度來計(jì)算相對(duì)應(yīng)的PageRank權(quán)值。

      3) 文獻(xiàn)[14]:文獻(xiàn)[14]對(duì)單詞的特征表示訓(xùn)練方法進(jìn)行了改進(jìn),根據(jù)分類任務(wù)目標(biāo)對(duì)預(yù)訓(xùn)練的詞嵌入基于對(duì)應(yīng)領(lǐng)域的詞庫進(jìn)行針對(duì)性的重構(gòu)來增強(qiáng)分類效果。

      4) 文獻(xiàn)[15]:文獻(xiàn)[15]提出了BLS(broad learning system)模型用于文本分類,該模型在LSTM的基礎(chǔ)上進(jìn)行了改進(jìn),引入了注意力機(jī)制來關(guān)注重點(diǎn)單詞,并且增加了遺忘門來控制上下文信息的傳遞。

      5) 文獻(xiàn)[16]:文獻(xiàn)[16]提出了一種被稱為DE-CNN的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)可以將與上下文相關(guān)的概念合并到卷積神經(jīng)網(wǎng)絡(luò)中,以進(jìn)行短文本分類。模型首先利用兩層分別提取概念和上下文,使用關(guān)注層提取與上下文相關(guān)的概念;然后,將這些概念合并到文本特征表示中以進(jìn)行短文本分類。

      6) 文獻(xiàn)[17]:文獻(xiàn)[17]使用BERT預(yù)訓(xùn)練語言模型對(duì)短文本進(jìn)行句子層面的特征向量表示,并使用softmax對(duì)其進(jìn)行分類。

      由表7可以看出,本文提出的模型在準(zhǔn)確率、召回率、F1這3個(gè)指標(biāo)上都有較明顯的優(yōu)勢(shì)。文獻(xiàn)[2]采用的模型各項(xiàng)指標(biāo)均最低,原因在于它采用TF-IDF方法提取群聊人員的群聊涉毒關(guān)鍵詞,對(duì)于“黑話”的一詞多義、更新速度快的特點(diǎn)難以適應(yīng),盡管是適用于分類涉毒領(lǐng)域的聊天文本,但在其他犯罪領(lǐng)域的聊天文本上表現(xiàn)較差。文獻(xiàn)[14]與文獻(xiàn)[2]在數(shù)據(jù)集上表現(xiàn)效果相近,是因?yàn)椴捎妙愃频姆椒◤?qiáng)化在單一文本領(lǐng)域的表現(xiàn)能力,適應(yīng)性較弱。文獻(xiàn)[17]與文獻(xiàn)[15]相比,性能較弱。是因?yàn)橄啾任墨I(xiàn)[17]引入的注意力機(jī)制,文獻(xiàn)[15]根據(jù)分類目標(biāo)對(duì)預(yù)訓(xùn)練的詞嵌入能更增強(qiáng)模型的特征表示能力。文獻(xiàn)[16]相比文獻(xiàn)[15]和文獻(xiàn)[17],將注意力機(jī)制結(jié)合卷積層神經(jīng)網(wǎng)絡(luò),有效捕捉上下文語法語義以及更深層次的信息,從實(shí)驗(yàn)結(jié)果來看性能表現(xiàn)較好。

      表7 對(duì)比實(shí)驗(yàn)結(jié)果Table 7 Results of the compare experiment

      從對(duì)比實(shí)驗(yàn)的結(jié)果來看,能有效捕捉句子中的序列、上下文、語法語義以及更深層次的信息的模型在犯罪領(lǐng)域的聊天文本分類上有不錯(cuò)的表現(xiàn)能力。這是因?yàn)榉缸镱I(lǐng)域中“黑話”一詞多義的特點(diǎn)要求模型從上下文語境中提取深層次信息的能力。本文提出的DSR-BGRU模型針對(duì)BGRU模型做的改進(jìn)使得在犯罪領(lǐng)域的聊天文本分類上具有一定優(yōu)勢(shì)。

      2.8 模型缺點(diǎn)

      本節(jié)對(duì)數(shù)據(jù)集中分類錯(cuò)誤的聊天文本進(jìn)行了探討。在分類錯(cuò)誤的聊天文本中,表情符、特殊符號(hào)作為“黑話”來掩蓋真實(shí)的犯罪意圖。本文研究提出的模型在預(yù)處理環(huán)節(jié)丟棄了表情符和特殊符號(hào),這可能會(huì)丟棄潛在的“黑話”,從而造成誤判。

      此外,本文針對(duì)BGRU模型做的改進(jìn)是添加了固定參數(shù)β來控制輸入單詞與上下文對(duì)語義的影響。這種單一權(quán)重的使用降低了“黑話”單詞對(duì)語義的影響,也降低了其他單詞對(duì)語義的影響。

      3 結(jié)束語

      本文提出一個(gè)文本分類模型用于解決數(shù)字取證時(shí)遇到的聊天文本分類難題。本文提出DSR模型將語料中的詞語用高維的詞向量表示,接著將詞向量輸入改進(jìn)后的BGRU模型中提取特征,最后連上一個(gè)softmax輸出層,這樣就建立了一個(gè)文本分類模型。該模型使用DSR對(duì)文本預(yù)訓(xùn)練來從語義層面對(duì)聊天文本進(jìn)行特征表示,再使用改進(jìn)后的BGRU對(duì)使用這些詞向量組成的文本提取上下文特征,從而能夠更好地準(zhǔn)確理解評(píng)論文本的語義信息。實(shí)驗(yàn)結(jié)果表明,使用DSR-BGRU模型能夠更加準(zhǔn)確地完成識(shí)別和提取與犯罪事件有關(guān)聊天證據(jù)。

      但DSR-BGRU模型存在一定不足,其無法處理聊天文本中的表情符和特殊符號(hào)以及使用固定參數(shù)控制輸入單詞與上下文對(duì)語義的影響。針對(duì)這些不足,可以對(duì)所有表情符號(hào)與特殊符號(hào)生成獨(dú)特的特征向量后再引入文本分類中以及引入注意力機(jī)制[8],根據(jù)單詞詞義或其他屬性變化參數(shù)值來控制輸入單詞與上下文對(duì)語義的影響。

      猜你喜歡
      黑話聊天記錄語義
      儲(chǔ)存聊天記錄用掉兩個(gè)半三峽水電站電量
      軍事文摘(2022年16期)2022-08-24 01:51:22
      語言與語義
      網(wǎng)聊“黑話”破解詞典
      00后靠說“黑話”提高社交效率
      意林繪閱讀(2019年1期)2019-03-05 19:56:28
      “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
      無損遷移微信聊天記錄
      電腦迷(2015年7期)2015-05-30 04:50:35
      認(rèn)知范疇模糊與語義模糊
      恢復(fù)iPhone誤刪的微信記錄
      電腦迷(2014年20期)2014-04-29 18:09:00
      輕松實(shí)現(xiàn)移動(dòng)端QQ聊天記錄漫游
      電腦迷(2013年8期)2013-04-29 00:44:03
      10句常用“職場(chǎng)黑話”
      東方女性(2013年8期)2013-04-29 00:44:03
      邹城市| 石首市| 原阳县| 福鼎市| 屏东市| 安乡县| 稻城县| 肇源县| 农安县| 贵德县| 新闻| 黄浦区| 肃南| 东乌| 松溪县| 航空| 禄丰县| 宣恩县| 海伦市| 阜新| 高安市| 巩留县| 沐川县| 亳州市| 谢通门县| 和平区| 海口市| 阿鲁科尔沁旗| 桐乡市| 玉溪市| 宜兴市| 桐乡市| 柘城县| 嘉鱼县| 临海市| 祥云县| 五峰| 读书| 包头市| 铜山县| 灵石县|