• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于情感計算與深度學習的彈幕文本敏感詞識別方法

      2022-07-12 04:33:06葉海燕
      常州工學院學報 2022年3期
      關鍵詞:查全率查準率彈幕

      葉海燕

      (巢湖學院信息工程學院,安徽 合肥 238024)

      要實現(xiàn)對彈幕文本數(shù)據(jù)的安全保護,必須準確識別彈幕文本內(nèi)容,并進一步確認,并識別出的彈幕文本是否存在敏感部分和機密部分,如果及時隱藏此類彈幕文本,可進一步保證數(shù)據(jù)在傳輸和使用過程中的安全性[1-3]。傳統(tǒng)的彈幕文本識別方法,一般需要手動設置一些敏感詞,然后利用大數(shù)據(jù)技術對屏幕文本進行批量篩選,找到相同的文本。但是一般的詞都會有近似詞,只有設置的敏感詞才能被識別,而相似詞無法識別。因此,在批量篩選彈出文本中的敏感詞時常有遺漏。例如,如果文本中含有“秋季果實”“豐收成果”“大豐收”等與“豐收果實”意義相近的詞語時,就無法準確識別和隱藏;丁建立等[4]基于組合式深度學習網(wǎng)絡,進行混合文本情感分類,有效提升了混合文本分類的準確率;周錦峰等[5]通過對漢字進行特殊編碼,提出一種綜合考慮讀音及字形特點的音形碼漢字相似度改進算法。

      因此,本文提出一種基于情感計算與深度學習的彈幕文本敏感詞識別方法。在情感計算和深度學習的相互配合下,構建出彈幕文本識別模型,它可以進一步識別彈幕文本表達的內(nèi)容,迅速掌握關鍵詞,然后對其敏感度進行計算,并對其分級,進而不同程度地隱藏識別出的敏感詞,保證彈幕文本的安全性。

      1 數(shù)據(jù)預處理

      在分析彈幕文本前對彈幕文本進行預處理,可減少多噪音數(shù)據(jù)的干擾,從而提高文本識別準確度。

      通常情況下,中文彈幕文本的詞語之間沒有分割之處,只能靠人工朗讀分辨。本模型采用gxy分詞輔助器對中英文混合彈幕進行分詞處理。首先將中英文彈幕分為中文彈幕和英文彈幕,然后對中文彈幕文本中的常用名詞進行識別。這些常用名詞的出現(xiàn)會對分詞輔助器造成干擾。比如,“情感計算方法”通常會被分詞輔助器分為“情感”“計算”“方法”,舉例不當將“情感計算”4個字分開后,以此得到的分詞內(nèi)容會對后期敏感詞識別造成一定的干擾。為此,在進行分詞前,一定要注意識別常用名詞和涉及保密文件的名稱代號,將其去除后才可以分詞。

      為了使分詞更容易,去掉不利于判斷文本敏感度的輔助詞,如“的”“地”“得”等。此外,采用NbZ方法去除輔助詞。列出所有敏感詞內(nèi)容相似的詞,判斷每個彈幕文本與敏感詞的相似度,記錄最小相似度,比較多個最小相似度范圍,最終結果用于確定每個敏感詞的最小相似度范圍。預處理過程如圖1所示。

      圖1 預處理過程

      圖1中,由于相似度越小的彈幕文本對判斷彈幕文本敏感度的干擾越大,因此經(jīng)過上述過程后,當彈幕文本與敏感詞的相似度小于最后確定的值域時,則默認為這個彈幕文本的敏感因素被去除。

      2 關鍵詞提取

      彈幕文本的所有內(nèi)容都是由詞語表達出來的,在一個文本中,每個詞語對表達文本主題起到的作用不盡相同,例如,“情感敏感計算”“敏感程度”等詞語對表達文本主題的作用遠高于“保護”“持續(xù)”等詞語,因此,提取出文本中對表達文本主題作用更大的關鍵詞,可以更加快速地識別出彈幕文本是否包含敏感詞。目前,能夠提取出關鍵詞的算法非常多,如TF-IDF算法和TextRank算法,本文采用情感計算法提取文本關鍵詞[6-11],其計算表達式如下:

      (1)

      3 情感計算與深度學習彈幕文本敏感詞識別模型構建

      情感計算與深度學習彈幕文本敏感詞識別模型是以深度學習理論中的卷積神經(jīng)網(wǎng)絡原理為基礎,模型的識別過程利用階層結構對輸入信息進行平移不變分類。首先,利用情感計算方法構建彈幕文本敏感詞識別模型;其次,為了提高工作效率和準確性,采用DHT方法對模型進行敏感度訓練。

      3.1 構建彈幕文本敏感詞識別模型

      基于深度學習理論,采用情感計算方法構建的識別模型工作流程如圖2所示。

      圖2 識別模型工作流程

      根據(jù)獲得的敏感詞匯集,計算輸入文本的敏感相似度,公式如下:

      Similarity(word)=

      (2)

      式中:P代表敏感詞匯集;So代表敏感性系數(shù)。

      根據(jù)敏感相似度,判斷文本是否為敏感詞:

      (3)

      若文本敏感度判斷函數(shù)S(x)為0,則標記為非敏感詞,加入敏感詞判斷詞庫后輸出;若結果為1,則識別為敏感詞。至此完成彈幕文本敏感詞識別模型的基本構建。

      為了對模型的識別能力進行強化,需要進一步分析敏感等級,對敏感詞用敏感等級標注,與非敏感詞一起加入敏感詞判斷詞庫,方便下次識別。

      3.2 采用DHT方法訓練模型敏感度

      為了提高模型識別的準確性和工作效率,采用DHT方法對模型進行訓練,將現(xiàn)有的敏感詞進行等級分類,根據(jù)詞語的實際應用場合對敏感詞匯集進行由高到低的等級標注。

      DHT方法將所有信息均以哈希表條目形式加以存儲,這些條目被分散存儲在各個節(jié)點上,構成巨大的分布式哈希表。因此,可以形象地把這張哈希大表看成是一本字典:只要知道信息索引的key,便可通過Kademlia協(xié)議來查詢其所對應的敏感度信息,而不管這個敏感度信息究竟是存儲在哪一個節(jié)點上。

      將DHT方法應用到敏感詞識別模型訓練中,key的值等于已知的敏感詞字符串的160 bit SHA1散列,而其對應的敏感度value則為一個列表,在這個列表中,給出了所有敏感詞信息,這些信息可以簡單地用一個4元組條目表示(敏感詞、敏感集中詞、文本長度、敏感度)。由此通過構造一個敏感詞哈希表來實現(xiàn)敏感度計算,與敏感詞匯集的敏感詞相似度越高,則敏感程度越高,計算過程如下:

      (4)

      彈幕文本過長會對詞語敏感程度造成一定的影響,所以要用得到的結果除以整個彈幕文本長度N,再進行SMALL縮放處理,使其處于0~2,根據(jù)值域結果判斷詞語的敏感等級。本文將值域劃分為kSMALL≤0.5為L1等級,0.5

      表1 敏感詞集

      模型經(jīng)過以上訓練,能夠更快、更準確地完成敏感詞識別。

      4 實驗對比

      4.1 實驗環(huán)境

      本仿真實驗在CPU為2.4 GHz、8 GiB內(nèi)存的Inter Core(TM)i7處理器上進行,并與傳統(tǒng)方法(文獻[4]方法)進行對比。此次研究在Past KDDCups(http://www.kdd.org/kdd-cup)網(wǎng)站中隨機抽選30個數(shù)據(jù)集,經(jīng)過預處理后,將具有某些敏感詞的2 000個數(shù)據(jù)隨機分成5份,為實驗提供數(shù)據(jù)基礎。

      4.2 查全率對比

      查全率是被正確檢索的樣本數(shù)與應當被檢索到的樣本數(shù)之比。設,識別出的敏感詞為TP,未識別出的敏感詞為FN,查全率公式如下:

      (5)

      對比本文方法與傳統(tǒng)方法的查全率,結果如圖3所示。

      圖3 查全率對比

      從圖3分析可知,當數(shù)據(jù)集為80個時,傳統(tǒng)識別方法查全率相對較低,這可能是由于數(shù)據(jù)量較小,誤判對實驗結果影響較大所致,從而降低了查全率。而本文提出的基于情感計算與深度學習的彈幕文本敏感詞識別方法的查全率達到85%以上,能對文本詞匯進行綜合分析,提高了識別效果。

      4.3 查準率對比

      查準率是被正確識別的樣本數(shù)與被識別樣本總數(shù)之比。設,識別出的敏感詞為TP,未識別出的敏感詞為FP,查準率公式如下:

      (6)

      傳統(tǒng)方法與本文方法的敏感詞查準率的對比結果,如圖4所示。

      圖4 查準率對比

      通過分析圖4發(fā)現(xiàn),傳統(tǒng)方法的查準率偏低,原因是敏感詞識別過程中拆分較復雜,對識別結果干擾較大。而本文方法具有較高的查準率,基本能夠保持在92%以上。

      4.4 識別時間對比

      2種方法的敏感詞匯識別時間見圖5,通過分析可發(fā)現(xiàn),隨著數(shù)據(jù)量的增加,傳統(tǒng)方法與本方法的識別時間也相應增加。對比可知,傳統(tǒng)方法的識別時間一直高于本文方法,證明本文方法取得了較好的應用效果。

      圖5 識別時間對比

      綜上所述,本文的識別方法較傳統(tǒng)方法查全率高、查準率高,并且有效減少了識別時間,證明了本文方法的有效性。本文的識別方法綜合運用了情感計算方法與深度學習方法,對詞匯特征進行了有效的擴展與學習,從而提高了應用效果。

      5 結語

      本文提出的彈幕文本敏感詞識別方法以當前最熱門的情感計算方法和深度學習為基礎,并與關鍵詞提取和敏感度計算技術相結合,精準地計算出彈幕文本中每個詞語的敏感度,并形成敏感詞匯網(wǎng)絡,將高于敏感值域的敏感詞都記錄在冊,提高了查準率與查全率,保證了相似詞、敏感詞被準確識別。

      由于研究條件與時間的限制,所設計的實驗只選擇了少部分的詞匯進行實驗,在未來研究中,為更加深入研究該算法,可進行大規(guī)模實驗,以及時發(fā)現(xiàn)識別方法中存在的不足,從而為相關領域提供性能更為優(yōu)越的敏感詞識別方法。

      猜你喜歡
      查全率查準率彈幕
      彈幕
      HOLLOW COMFORT
      漢語世界(2021年2期)2021-04-13 02:36:18
      “彈幕”防御大師
      一大撥彈幕正在向你襲來……
      海量圖書館檔案信息的快速檢索方法
      基于數(shù)據(jù)挖掘技術的網(wǎng)絡信息過濾系統(tǒng)設計
      基于詞嵌入語義的精準檢索式構建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于深度特征分析的雙線性圖像相似度匹配算法
      中文分詞技術對中文搜索引擎的查準率及查全率的影響
      华蓥市| 宁阳县| 健康| 卢龙县| 阳东县| 奈曼旗| 舟山市| 古丈县| 沁水县| 池州市| 衡山县| 托克逊县| 乌鲁木齐市| 桓台县| 奉新县| 商河县| 灌云县| 连江县| 东宁县| 新疆| 宝清县| 固安县| 泽库县| 沙坪坝区| 公安县| 渝北区| 博爱县| 常德市| 田阳县| 上林县| 蓝山县| 沾化县| 连城县| 社会| 仙桃市| 建宁县| 安阳县| 淄博市| 巴东县| 九台市| 乐业县|