• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      社交網(wǎng)絡(luò)中的敏感內(nèi)容檢測方法研究

      2019-08-12 06:15孟旭陽徐雅斌
      現(xiàn)代電子技術(shù) 2019年15期
      關(guān)鍵詞:多任務(wù)指紋語義

      孟旭陽 徐雅斌

      摘 ?要: 為了有效解決社交網(wǎng)絡(luò)中對敏感詞進(jìn)行變形處理而逃避被檢測和過濾的問題,首先識別敏感詞及敏感詞的變形詞,并采用敏感詞指紋匯聚方法將敏感詞的變形詞與原詞進(jìn)行關(guān)聯(lián)。在此基礎(chǔ)上,采用語義指紋技術(shù)檢測重復(fù)發(fā)布的敏感內(nèi)容。其次,建立基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型(MTL?CNN),綜合敏感性和情感傾向兩個方面對發(fā)布文本進(jìn)行檢測。對比實驗結(jié)果表明,提出的敏感內(nèi)容檢測方法具有較高的處理速率和檢測準(zhǔn)確率。

      關(guān)鍵詞: 社交網(wǎng)絡(luò); 敏感內(nèi)容; 指紋匯聚; 情感傾向; 多任務(wù)學(xué)習(xí); 處理速率; 檢測準(zhǔn)確率

      中圖分類號: TN915?34; TP391 ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)15?0072?07

      Research on sensitive content detection in social networks

      MENG Xuyang1, 2, XU Yabin1, 2

      (1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science & Technology University, Beijing 100101, China;

      2. School of Computer, Beijing Information Science & Technology University, Beijing 100101, China)

      Abstract: In order to solve the problem in social networks that the sensitive words are often processed by distortion for exception from detection and filtering, the deformable words of sensitive words are identified, and the sensitive words fingerprint convergence method is used to associate the variant words of the sensitive words with original sensitive words. On this basis, the semantic fingerprint technology is used to detect repetitively published sensitive content. A multi?task learning based convolutional neural network (MTL?CNN) model is established to detect the published texts in the aspects of comprehensive sensitivity and emotional tendency. The comparison experiment results show that the proposed sensitive content detection method has high processing speed and detection accuracy.

      Keywords: social network; sensitive content; fingerprint convergence; emotional tendency; multi?task learning; processing speed; detection accuracy

      0 ?引 ?言

      社交網(wǎng)絡(luò)已經(jīng)成為廣大網(wǎng)民溝通交流的重要平臺和獲取信息的重要入口。然而,社交網(wǎng)絡(luò)的廣泛應(yīng)用同樣給敏感內(nèi)容的傳播提供了網(wǎng)絡(luò)空間。少數(shù)人借助社交網(wǎng)絡(luò)發(fā)布暴力恐怖信息和政治敏感內(nèi)容。如何高效、準(zhǔn)確地實現(xiàn)敏感內(nèi)容檢測,減少誤判、漏判現(xiàn)象,打造健康安全的社交網(wǎng)絡(luò)環(huán)境成為巨大挑戰(zhàn)?;陉P(guān)鍵詞匹配的檢測方法[1?4],忽略了變形詞與原詞之間的關(guān)聯(lián)性?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的敏感內(nèi)容檢測方法[5?8]準(zhǔn)確率較低。文獻(xiàn)[9?11]在敏感主題的基礎(chǔ)上考慮情感傾向因素獲得較高的準(zhǔn)確率,但需要訓(xùn)練兩個模型,效率不高。文獻(xiàn)[12?14]采用深度學(xué)習(xí)方法,獲得了較好的效果。

      針對現(xiàn)有研究中存在的問題,本文提出的敏感內(nèi)容檢測方法不僅可以有效提高檢測的準(zhǔn)確性,而且能夠很好的滿足檢測的實時性。

      1 ?敏感內(nèi)容檢測框架

      本文提出的敏感內(nèi)容檢測框架主要由三部分組成,如圖1所示。

      1) 敏感詞指紋匯聚:在對用戶待發(fā)布文本進(jìn)行預(yù)處理的基礎(chǔ)上,識別敏感詞和各種變形偽裝敏感詞。通過本文提出的敏感詞指紋匯聚方法,對識別出的敏感變形詞打上指紋值將其與原詞關(guān)聯(lián)。其中,根據(jù)是否出現(xiàn)敏感詞、變形情況等判斷文本是否為可疑文本。

      圖1 ?敏感內(nèi)容檢測框架圖

      2) 通過語義指紋技術(shù)快速自動檢測重復(fù)敏感內(nèi)容:對1)中判斷為可疑文本的內(nèi)容,采用本文改進(jìn)的基于語義指紋的快速相似敏感內(nèi)容檢測算法生成文本的語義指紋,并與事先建好的敏感文本指紋庫(D_stf)進(jìn)行快速匹配,實現(xiàn)快速自動檢測重復(fù)敏感內(nèi)容。

      3) 基于多任務(wù)學(xué)習(xí)的敏感內(nèi)容檢測卷積神經(jīng)網(wǎng)絡(luò)模型:對于在敏感指紋庫沒有比對成功的可疑文本采用基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行檢測。若檢測結(jié)果為敏感文本,則將其語義指紋添加到D_stf庫中,方便下次敏感內(nèi)容重復(fù)檢測。

      2 ?敏感詞檢測

      2.1 ?敏感詞變形詞匯識別

      基于原始的敏感關(guān)鍵詞通過與敏感詞庫進(jìn)行匹配即可。然而,為了躲避檢測,敏感關(guān)鍵詞都進(jìn)行了變形處理。比如,夾雜特殊符號“#”“*”“&”等,拼音/拼音首字母代替字,繁體字代替,同音字代替等。

      經(jīng)分析發(fā)現(xiàn),同音字替換由于前后都不成詞,往往在分詞時會出現(xiàn)連續(xù)單字(3個及3個以上),而正常文本很少出現(xiàn)這種情況。除此之外,敏感詞常出現(xiàn)在偽裝現(xiàn)象(如拼音替代)附近,因此只需對偽裝現(xiàn)象周圍的詞進(jìn)行重點檢測即可,避免傳統(tǒng)方法要將整個文本轉(zhuǎn)化為拼音與敏感詞庫匹配而導(dǎo)致效率低下的問題。

      因此,本文在已有方法的基礎(chǔ)上做出改進(jìn),改進(jìn)部分的敏感詞變形詞匯識別算法如下:

      輸入:社交網(wǎng)絡(luò)中的待發(fā)布文本T,敏感關(guān)鍵詞表D。

      輸出:成功識別的敏感詞變形詞匯集合[S]。

      1) 去除文本中夾雜的特殊符號,進(jìn)行繁簡轉(zhuǎn)化;

      2) 分詞處理,若分詞結(jié)果中出現(xiàn)連續(xù)3個及以上的單字,則將連續(xù)單字轉(zhuǎn)化為對應(yīng)的拼音;

      3) 若分詞結(jié)果中出現(xiàn)拼音/拼音首字母,則以此拼音/拼音首字母為中心,將前后4個詞匯均轉(zhuǎn)為漢字對應(yīng)的拼音/拼音首字母;

      4) 判斷步驟2)、步驟3)中連續(xù)的拼音或拼音首字母序列組合是否為敏感詞匯所對應(yīng)的拼音或拼音首字母。若是,則成功識別為詞庫中該敏感詞匯的變形詞匯,并加入集合[S]。

      2.2 ?敏感詞指紋匯聚

      雖然對敏感詞進(jìn)行了變形偽裝,但其語義并沒有發(fā)生變化。針對這種情況,本文提出將各種變形詞打上指紋并與原詞進(jìn)行關(guān)聯(lián),即實現(xiàn)敏感詞指紋匯聚,從語義角度保證變形詞與原詞的關(guān)聯(lián)性。

      敏感詞指紋(F)定義:使用Jenkins Hash[15]哈希函數(shù)對原始的敏感詞[wi]進(jìn)行哈希處理,得到一個[k]位的哈希值即為該敏感詞[wi]的指紋值[fi],每類敏感詞的指紋具有唯一性。

      例如:敏感詞[wi]=“打砸搶燒”,為了便于說明問題,使用Jenkins Hash函數(shù)得到二進(jìn)制hash值為100110,即[wi]對應(yīng)的指紋值[fi]=“100110”(此處示例[k]=6)。注意,實際實驗采用64位指紋。

      敏感詞指紋匯聚是指將敏感詞[wi]的各種變體詞匯[wi_j]均映射到原始敏感詞的指紋[fi]上。這樣無論多少個變體詞匯,每個變體詞匯[wi_j]均代表這個原始的敏感詞[wi]。以“打砸搶燒”為例,敏感詞指紋匯聚原理及過程如圖2所示。

      圖2 ?敏感詞指紋匯聚原理及過程示意圖

      本文共收集2 289個敏感關(guān)鍵詞,首先通過哈希函數(shù)計算每個敏感詞的指紋值,并構(gòu)建如圖2所示的敏感指紋詞庫(D_sw)。從圖2中可看出,當(dāng)敏感詞[wi]=“打砸搶燒”,對應(yīng)的敏感詞指紋[fi]=“100110”,識別出的各種變形偽裝詞匯都將其打上指紋[fi],則此時[n]個詞匯[wi_1,wi_2,wi_3,…,wi_n]對應(yīng)的指紋均為[fi],與原詞[wi]關(guān)聯(lián)。

      3 ?相似敏感內(nèi)容檢測

      3.1 ?語義指紋的生成

      由于受社交網(wǎng)絡(luò)信息傳播的時效性影響,不法分子會經(jīng)常重復(fù)發(fā)布相同或相似的敏感內(nèi)容來保證傳播效果。為保證檢測的實時性,采用語義指紋技術(shù)快速自動檢測這些重復(fù)發(fā)布的敏感內(nèi)容。

      Simhash[16?17]算法不僅檢測的準(zhǔn)確率高、速度快,同時還可根據(jù)指紋距離反映出文本內(nèi)容間的差異程度,被認(rèn)為是目前文本相似檢測處理中最有效的算法之一[18]。

      但是,由于在社交網(wǎng)絡(luò)中充滿了口語化表達(dá),加之還存在著敏感詞變形偽裝現(xiàn)象,經(jīng)典Simhash算法對相似敏感內(nèi)容的檢測性能并不是很理想。為此,本文對Simhash算法進(jìn)行改進(jìn),形成SWFC?SFG語義指紋生成方法,對應(yīng)算法如下:

      輸入:社交網(wǎng)絡(luò)中的待發(fā)布文本T。

      輸出:文本T的語義指紋[F],指紋長度[k]設(shè)為64位。

      1) 對文本T分詞,得到詞的集合[W],[W=]{[w1,w2,…,wn]};

      2) 對文本進(jìn)行敏感詞和敏感變形詞識別,并將各種敏感變形偽裝詞進(jìn)行指紋匯聚,指紋值為[k]位的二進(jìn)制hash值;

      3) 對T中剩余每個元素(詞),利用哈希函數(shù)計算得到[k]位的二進(jìn)制hash值,以詞頻作為權(quán)重,根據(jù)元素各位的hash值,進(jìn)行調(diào)整。調(diào)整原則:若當(dāng)前詞的hash值第[i]位為1,則將其置為該詞的權(quán)值,若為0,則將其置為負(fù)權(quán)值;

      4) 將T中所有元素在3)中得到的hash值集合,按位進(jìn)行求和運算,結(jié)果記為[F];

      5) 確定語義指紋[F]的值:若[F]的第[i]位為正數(shù),則指紋[F]的第[i]位置為1;反之,置為0。

      SWFC?SFG語義指紋生成方法融入敏感變形詞指紋匯聚過程,使得敏感變形詞與原詞采用相同的編碼表示這組敏感詞,避免了Simhash算法不支持同義詞、敏感變形詞與原詞之間的語義問題,從而提高了敏感文本相似度檢測性能。

      3.2 ?相似敏感文本檢測

      得到文本的語義指紋后,通過兩兩比較語義指紋間的漢明距離,漢明距離越小,則代表文本的語義越相似。

      事先建立敏感文本指紋庫D_stf,將已知敏感文本的語義指紋入庫,并不斷更新D_stf,再次遇到將會被自動識別。相似敏感文本檢測過程如下:

      1) 由SWFC?SFG算法得到文本的語義指紋[Fi]。

      2) 查詢敏感文本指紋庫D_stf,查看漢明距離小于[R]([R]通過實驗得到最佳值)的指紋是否存在。若存在,則認(rèn)為當(dāng)前文本與D_stf中某條文本表達(dá)一致,那么這個文本將被直接判定為敏感文本。

      4 ?基于多任務(wù)學(xué)習(xí)的敏感內(nèi)容檢測卷積神經(jīng)網(wǎng)絡(luò)模型(MTL?CNN)

      多任務(wù)學(xué)習(xí)[19](Multi?Task Learning,MTL)是一種機(jī)器學(xué)習(xí)的方法,最早由Caruana在1997年提出。多任務(wù)學(xué)習(xí)的目標(biāo)在于把多個相關(guān)任務(wù)放在一起學(xué)習(xí),利用任務(wù)之間的相關(guān)性,找尋任務(wù)之間有價值的共性,通過在多個任務(wù)之間共享,相互協(xié)助模型的訓(xùn)練[20]。特別是在數(shù)據(jù)量較少的情況下,這種知識的共享對每個任務(wù)的學(xué)習(xí)格外有幫助[21]。

      文本內(nèi)容往往具有一定的語義傾向,含有敏感詞匯但卻并不一定是敏感內(nèi)容。只有根據(jù)文字所表達(dá)的真實含義和情感傾向去鑒別才是正確的判斷。

      結(jié)合兩個任務(wù)(Task1:敏感內(nèi)容檢測;Task2:文本情感極性識別)來構(gòu)造多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(Multi?task Learning Convolution Neural Networks,MTL?CNN)模型,用以實現(xiàn)敏感內(nèi)容檢測。其中,Task1為主任務(wù),Task2為輔助任務(wù)。

      相比LSTM等模型,基于卷積神經(jīng)網(wǎng)絡(luò)的方法可以接收平行化輸入的文本信息,大大降低了網(wǎng)絡(luò)模型的訓(xùn)練時間。同時,卷積神經(jīng)網(wǎng)絡(luò)有著優(yōu)異的特征自抽取能力和端到端的分類功能。

      本文建立的基于多任務(wù)學(xué)習(xí)的敏感內(nèi)容檢測卷積神經(jīng)網(wǎng)絡(luò)模型如圖3所示。

      從圖3可以看出,首先將完成預(yù)處理以及分詞后的文本通過訓(xùn)練好的詞向量模型順序映射為詞向量,此時文本內(nèi)容轉(zhuǎn)化為詞向量矩陣,并作為MTL?CNN敏感內(nèi)容檢測的輸入。然后,由MTL?CNN模型對輸入層的詞向量矩陣進(jìn)行卷積操作。由于MTL?CNN模型同時關(guān)注兩個任務(wù)的優(yōu)化目標(biāo),兩個任務(wù)在訓(xùn)練過程中共享參數(shù),使得模型能夠自動獲取文本中豐富的局部特征向量,其中不僅包括文本敏感性特征,還包括情感極性特征。通過模型的訓(xùn)練過程,可以很好的結(jié)合兩個任務(wù)的文本分類標(biāo)簽,通過卷積運算獲得一系列的規(guī)則。例如:“負(fù)面敏感性詞匯+正面情感極性=敏感內(nèi)容”“負(fù)面敏感性詞匯+負(fù)面情感極性=非敏感內(nèi)容”“正面敏感性詞匯+負(fù)面情感極性=敏感內(nèi)容”等,使得此模型很好地應(yīng)用于最終的敏感內(nèi)容分類。

      卷積過后,是池化(pooling)操作,即降維。選擇對兩個任務(wù)最終分類結(jié)果影響較大的特征。

      擁有來自各個卷積核的輸出向量,將其進(jìn)行拼接。在特征拼接之前的所有參數(shù)為Task1和Task2共享,特征拼接之后,兩個任務(wù)由各自的參數(shù)進(jìn)行分類。最后,兩個任務(wù)均通過softmax層得到每個任務(wù)屬于不同分類的概率分布情況。

      以Task1的高準(zhǔn)確率為最終目標(biāo),當(dāng)Task2對Task1的作用不明顯時,或者Task1損失值小于某一限定值或迭代次數(shù)超出規(guī)定的最大值時,停止更新網(wǎng)絡(luò)權(quán)值,訓(xùn)練完成。

      5 ?實驗分析

      本文使用新浪微博數(shù)據(jù)集,其共包含2 649 567條微博數(shù)據(jù)。從此數(shù)據(jù)集中收集政治相關(guān)主題內(nèi)容共21 451條,其中,實際為政治敏感非法內(nèi)容2 318條(由于涉及敏感內(nèi)容,收集的此類敏感非法內(nèi)容較少)。其他主題的文本隨機(jī)取21 500條。從情感傾向上看,正向文本23 784條,負(fù)向文本19 167條。

      5.1 ?基于語義指紋的相似敏感內(nèi)容檢測實驗

      1) [R](閾值)的確定

      構(gòu)建一個包括1 000條文本(其中重復(fù)或相似文本數(shù)為100)的數(shù)據(jù)集,通過相似檢測的查全率、查準(zhǔn)率指標(biāo)來觀察不同[R]值對結(jié)果的影響。本文分別對閾值1~7進(jìn)行了實驗,結(jié)果如圖4所示。

      從圖4中可以看出,當(dāng)[R≥5]時,查準(zhǔn)率開始下降,即存在將實際非相似的文本判斷為相似文本的情況。如果文本與已知敏感內(nèi)容相似,則會直接被判為敏感內(nèi)容。為了避免誤判,需保證查準(zhǔn)率為1,由此可以確定[R]的最佳取值為4。

      2) 改進(jìn)前后算法查準(zhǔn)率、查全率及[F]值對比

      將改進(jìn)后的SWFC?SFG算法與Simhash算法進(jìn)行比較,在同一數(shù)據(jù)集上的測試結(jié)果如表1所示。

      圖4 ?不同[R]值下本文算法的查準(zhǔn)率與查全率

      表1 ?算法對比

      ? ? ? ? ??

      3) 不同數(shù)量級文本相似檢測耗時對比

      將SWFC?SFG算法與傳統(tǒng)的編輯距離算法(Levenshtein Distance)進(jìn)行對比,不同數(shù)量級的文本相似度檢測計算耗時情況如圖5所示。

      圖5 ?算法計算耗時對比圖

      從圖5可看出,SWFC?SFG算法要優(yōu)于傳統(tǒng)的編輯距離算法,隨著文本數(shù)量的增加,耗時增加并不明顯。

      5.2 ?基于多任務(wù)學(xué)習(xí)的敏感內(nèi)容檢測實驗

      1) 實驗和模型參數(shù)設(shè)置

      首先對數(shù)據(jù)集進(jìn)行人工標(biāo)注:每條數(shù)據(jù)有兩個標(biāo)簽。其中,label1表示是否為政治敏感內(nèi)容;label2表示情感極性。

      分類前,采用中科院分詞工具NLPIR[22]進(jìn)行分詞,并采用gensim的word2vec工具訓(xùn)練詞向量空間。訓(xùn)練參數(shù)配置如下:選用CBOW(Continuous Bag?of?Words)模型[23] ;上下文滑動窗口大小為8;單詞向量維度設(shè)為300。對于未出現(xiàn)在詞向量語料中的詞匯,則進(jìn)行隨機(jī)初始化操作。

      基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)分類實驗采用的編程語言為Python 3.6,工具包為Google開源深度學(xué)習(xí)框架TensorFlow,其他網(wǎng)絡(luò)參數(shù)設(shè)置如表2所示。

      表2 ?基于多任務(wù)學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)設(shè)置

      模型總的損失函數(shù)式(3)和每個任務(wù)的損失函數(shù)式(4)中的參數(shù)[λ],[λl2]經(jīng)交叉驗證[24]取經(jīng)驗值[λ]= 0.05,[λl2] = 0.001。

      2) 模型對比實驗

      為驗證本文方法的合理性和性能,在同一數(shù)據(jù)集上,與傳統(tǒng)基于單任務(wù)的敏感內(nèi)容檢測方法進(jìn)行對比實驗。本文采用最常用的10折交叉驗證方式,并以查準(zhǔn)率(Precision)、查全率(Recall)、F?Score作為評價指標(biāo)。在相同測試集上進(jìn)行實驗,結(jié)果如圖6所示。由圖6可看出本文的MTL?CNN模型優(yōu)于傳統(tǒng)的分類模型。

      圖6 ?MTL?CNN與傳統(tǒng)單任務(wù)敏感內(nèi)容檢測實驗對比圖

      為了進(jìn)一步說明多任務(wù)學(xué)習(xí)對本文研究的有效性,在同樣數(shù)據(jù)集下與單任務(wù)的CNN,LSTM模型進(jìn)行了對比。除此之外,由于文獻(xiàn)[11]在敏感信息識別時同樣考慮了情感極性因素,但基于兩個單任務(wù)模型分別進(jìn)行。因而也與文獻(xiàn)[11]進(jìn)行了對比實驗,結(jié)果如表3所示。

      從表3結(jié)果可看出,本文基于多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)檢測模型在各個指標(biāo)上均優(yōu)于單任務(wù)的CNN,LSTM模型。在與文獻(xiàn)[11]的對比實驗中,本文方法在各指標(biāo)上也均有較大提升,由此也證明了采用的兩個任務(wù)共同學(xué)習(xí)方法的有效性。同時也體現(xiàn)了本文基于多任務(wù)學(xué)習(xí)的方法在數(shù)據(jù)量較少的情況下,具有明顯的優(yōu)勢。

      表3 ?對比實驗結(jié)果

      ? ??

      圖7 ?模型的時效性對比圖

      由圖7可見,本文方法的檢測耗時更少,能夠更好的滿足實時檢測的需要。而文獻(xiàn)[11]需要訓(xùn)練兩個模型,首先得到情感傾向,然后再通過敏感度模型進(jìn)行計算,最終綜合判定,從而耗時較長。

      3) 模型擴(kuò)展與推廣

      MTL?CNN模型同樣適用于任何類型的敏感內(nèi)容檢測。例如:對于黃、賭、毒、暴力恐怖等敏感內(nèi)容,只需獲取相應(yīng)的數(shù)據(jù)語料并進(jìn)行標(biāo)注,確保每條文本均包括敏感內(nèi)容與情感極性兩類標(biāo)簽,然后對模型進(jìn)行訓(xùn)練即可。

      此外,若要同時檢測多類敏感內(nèi)容,只需準(zhǔn)備好相應(yīng)的數(shù)據(jù)并將模型的Task1部分的二分類任務(wù)轉(zhuǎn)變?yōu)槎喾诸惾蝿?wù)即可,完成到多個類別的映射。

      為了驗證模型的可擴(kuò)展性,收集了暴力恐怖類型數(shù)據(jù),進(jìn)一步針對政治敏感和暴力恐怖這兩類敏感內(nèi)容數(shù)據(jù)開展實驗。兩種類型數(shù)據(jù)量保持一致,重新訓(xùn)練模型后,對測試集進(jìn)行檢測所得實驗結(jié)果如表4所示。

      表4 ?擴(kuò)展性實驗結(jié)果

      6 ?結(jié) ?論

      針對各種敏感變形詞問題,提出敏感詞指紋匯聚方法,并將其引入指紋生成算法,提出SWFC?SFG語義指紋生成方法,能夠快速、自動檢測相似或重復(fù)敏感內(nèi)容。本文還進(jìn)一步提出并構(gòu)建MTL?CNN模型,結(jié)合敏感性與文本情感極性兩個任務(wù)共同學(xué)習(xí)。通過實驗分析發(fā)現(xiàn),本文方法不僅準(zhǔn)確率有了較大提升,而且能夠保證檢測的實時性。此外,實驗表明MTL?CNN模型仍具有很好的可擴(kuò)展性。

      參考文獻(xiàn)

      [1] 段磊,唐常杰,左劼,等.Web實時環(huán)境兩級過濾中文文本內(nèi)容自學(xué)習(xí)算法[J].計算機(jī)科學(xué)與探索,2011,5(8):695?706.

      DUAN Lei, TANG Changjie, ZUO Jie, et al. Two level filte?ring Chinese text content self?learning algorithm in Web real?time environment [J]. Journal of frontiers of computer science and technology, 2011, 5(8): 695?706.

      [2] 薛朋強(qiáng),努爾布力,吾守爾[?]斯拉木.基于網(wǎng)絡(luò)文本信息的敏感信息過濾算法[J].計算機(jī)工程與設(shè)計,2016,37(9):2447?2452.

      XUE Pengqiang, Nuet Buli, Wushour Silamu. Sensi?tive information filtering algorithm based on network text information [J]. Computer engineering and design, 2016, 37(9): 2447?2452.

      [3] 徐建忠,羅準(zhǔn)辰,張亮.語義擴(kuò)展技術(shù)在敏感數(shù)據(jù)識別中的應(yīng)用研究[J].現(xiàn)代電子技術(shù),2016,39(12):80?82.

      XU Jianzhong, LUO Zhunchen, ZHANG Liang. Application of semantic extension technology in sensitive data recognition [J]. Modern electronics technique, 2016, 39(12): 80?82.

      [4] 孫艷,周學(xué)廣,陳濤.意會關(guān)鍵詞信息取證方法[J].計算機(jī)工程,2011,37(19):266?269.

      SUN Yan, ZHOU Xueguang, CHEN Tao. Method of sense keywords information forensics [J]. Computer engineering, 2011, 37(19): 266?269.

      [5] 陳洋.維吾爾語不良文本信息過濾技術(shù)研究[D].烏魯木齊:新疆大學(xué),2014.

      CHEN Yang. Research on the filtering method of Uyghur adverse text information [D]. Urumqi: Xinjiang University, 2014.

      [6] ZENG J, DUAN J, WU C. Adaptive topic modeling for detection objectionable text [C]// 2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence. Atlanta: IEEE, 2013: 381?388.

      [7] 俞浩亮.互聯(lián)網(wǎng)不良信息采集抽取及識別技術(shù)研究[D].昆明:昆明理工大學(xué),2016.

      YU Haoliang. Research on extraction and recognition technology of internet bad information [D]. Kunming: Kunming University of Science and Technology, 2016.

      [8] ZHONG H, LI H, SQUICCIARINI A, et al. Con?tent?driven detection of cyberbullying on the instagram social network [C]// 2016 International Joint Conference on Artificial Intelligence. New York: AAAI Press, 2016: 3952?3958.

      [9] 孟璽,周西平,吳紹忠.語義分析在反恐研究領(lǐng)域的應(yīng)用研究[J].情報雜志,2017,36(3):13?17.

      MENG Xi, ZHOU Xiping, WU Shaozhong. The ap?plication research of semantic analysis in the field of anti?terrorism [J]. Journal of intelligence, 2017, 36(3): 13?17.

      [10] 劉梅彥,黃改娟.面向信息內(nèi)容安全的文本過濾模型研究[J].中文信息學(xué)報,2017,31(2):126?131.

      LIU Meiyan, HUANG Gaijuan. Research on text filter model for information content security [J]. Journal of Chinese information processing, 2017, 31(2): 126?131.

      [11] 李揚,潘泉,楊濤.基于短文本情感分析的敏感信息識別[J].西安交通大學(xué)學(xué)報,2016,50(9):80?84.

      LI Yang, PAN Quan, YANG Tao. Identification of sensitive information based on short text sentiment analysis [J]. Journal of Xian Jiaotong University, 2016, 50(9): 80?84.

      [12] NEERBEKY J, ASSENTZ I, DOLOG P. TABOO: detecting unstructured sensitive information using re?cursive neural networks [C]// 2017 IEEE International Conference on Data Engineering. San Diego: IEEE, 2017: 1?7.

      [13] ALI S H A, OZAWA S, NAKAZATO J, et al. An autonomous online malicious spam email detection system using extended RBF network [C]// 2015 International Joint Conference on Neural Networks. Kil?larney: IEEE, 2015: 1?7.

      [14] 景亞鵬.基于深度學(xué)習(xí)的欺騙性垃圾信息識別研究[D].上海:華東師范大學(xué),2014.

      JING Yapeng. Research of deceptive opinion spam recognition based on deep learning [D]. Shanghai: Central China Normal University, 2014.

      [15] JENKINS B. A hash function for hash table lookup [EB/OL]. [[1997?02?23] .] https: //www.researchgate.net/publication/2449?57345_A_hash_function_for_hash_table_lookup.

      [16] CHARIKAR M S. Similarity estimation techniques from rounding algorithms [C]// Thirty?Fourth ACM Symposium on Theory of Computing. Quebec: ACM, 2002: 380?388.

      [17] MANKU G S, JAIN A, SARMA A D. Detecting near?duplicates for Web crawling [C]// 2007 International Conference on World Wide Web. Banff: ACM, 2007: 141?150.

      [18] SADOWSKI C, LEVIN G. Simhash: Hash?based similarity detection [EB/OL].[ 2007?05?12]. https://core.ac.uk/display/23320221.

      [19] CARUANA R. Multi?task learning [M]. Pittsburgh: Carnegie Mellon University, 1997: 5?50.

      [20] 歐陽寧,馬玉濤,林樂平.基于多任務(wù)學(xué)習(xí)的多姿態(tài)人臉重建與識別[J].計算機(jī)應(yīng)用,2017,37(3):896?900.

      OUYANG Ning, MA Yutao, LIN Leping. Multitask learning based multi?pose face reconstruction and recognition [J]. Journal of computer applications, 2017, 37(3): 896?900.

      [21] 邵蔚元,郭躍飛.多任務(wù)學(xué)習(xí)及卷積神經(jīng)網(wǎng)絡(luò)在人臉識別中的應(yīng)用[J].計算機(jī)工程與應(yīng)用,2016,52(13):32?37.

      SHAO Weiyuan, GUO Yuefei. Application of multi?task lear?ning and convolutional neural network in face recognition [J]. Computer engineering and applications, 2016, 52(13): 32?37.

      [22] NLPIR. NLPIR?ICTCLAS system [EB/OL]. [2018?02?15]. http: //ictclas.nlpir.org/.

      [23] GT. Word2Vec (Part 2): NLP with deep learning with tensorflow (CBOW) [EB/OL]. [2015?03?05]. http://www.thushv.com/natural_language_processing/word2vec?part?2?nlp?with?deep?learning?with?tensorflow?cbow/.

      [24] 李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012:14?15.

      LI Hang. Statistical learning methods [M]. Beijing: Tsinghua University Press, 2012: 14?15.

      猜你喜歡
      多任務(wù)指紋語義
      像偵探一樣提取指紋
      為什么每個人的指紋都不一樣
      語言與語義
      基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
      基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      電測與儀表(2016年5期)2016-04-22
      基于自適應(yīng)稀疏變換的指紋圖像壓縮
      可疑的指紋
      認(rèn)知范疇模糊與語義模糊
      克拉玛依市| 连山| 唐海县| 牙克石市| 汉沽区| 甘南县| 绥阳县| 昌平区| 门源| 牡丹江市| 兴业县| 乾安县| 孟津县| 黄梅县| 宿州市| 巴塘县| 江北区| 桦川县| 桃园市| 吉安县| 新巴尔虎左旗| 三亚市| 辛集市| 屯留县| 襄垣县| 定南县| 文山县| 卓资县| 万安县| 高清| 崇阳县| 双鸭山市| 卢湾区| 城步| 镇平县| 岗巴县| 西畴县| 育儿| 广南县| 汝阳县| 达尔|