• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學習和特征分析的隱蔽性有害信息識別方法研究

      2023-07-21 12:24:34張安康劉加兵
      計算機應用文摘 2023年14期
      關鍵詞:特征分析深度學習

      張安康 劉加兵

      摘 要 互聯(lián)網(wǎng)上的有害信息層出不窮 而隨著各項技術的發(fā)展 有害信息采用各種方式隱藏其核心內(nèi)容 以躲避各類算法的識別和檢索 目前 對此類隱蔽性有害信息識別的常用方法主要是基于人工智能技術 采用人工標注和訓練學習的方式 但是算法較為復雜 對資源的需求較大 因此 一種新思路為 從隱蔽性有害信息的特征出發(fā) 分析出其特征規(guī)律 并基于以上結果設計一種新方法 同時降低人工參與和算法復雜度 最后 通過不同的樣本庫 對基于深度學習的方法和基于特征分析的方法效果進行對比分析 得到不同場景下的應用方案 為識別隱蔽性有害信息工作提供參考

      關鍵詞 隱蔽性有害信息 文本識別 深度學習 特征分析

      中圖法分類號TP18? ?文獻標識碼A

      1 引言

      隨著互聯(lián)網(wǎng)的高速發(fā)展,產(chǎn)生了大量有害信息,如詐騙、謠言、色情、暴恐等。如果對這些信息不加以檢測和控制,不僅嚴重威脅人們的精神和物質(zhì)財產(chǎn)安全,更嚴重制約著網(wǎng)絡空間的健康發(fā)展[1~2] 。網(wǎng)絡空間是現(xiàn)實世界的延伸,而并非法外之地?!毒W(wǎng)絡安全法》規(guī)定,國家保護公民依法使用網(wǎng)絡的權利,但不允許任何個人和組織有違背憲法法律、公共秩序以及社會公德的網(wǎng)絡行為。由于互聯(lián)網(wǎng)信息數(shù)量龐大、結構復雜、形式豐富,單純依靠監(jiān)管人工審核難以做到全面細致,并且需要耗費大量人力物力成本。因此,人工智能、數(shù)據(jù)挖掘等新技術新手段在近年來被廣泛應用于有害信息識別工作。其主要方式為,通過人工提取樣本數(shù)據(jù),利用機器學習、深度學習等模型實現(xiàn)有害信息的自動識別,通過人工標注和算法迭代,實現(xiàn)識別效率的提升[4~5] 。

      不過,也正是由于有害信息智能識別技術的發(fā)展,促使有害信息想方設法逃避智能算法的識別。最典型的方式為有害信息的核心內(nèi)容被各種手段隱蔽(如特殊符號、火星文、標志符號等),從而規(guī)避智能算法的檢索。對于此類信息,目前已有部分研究,本文稱其為隱蔽性有害信息。為研究隱蔽性有害信息的特點,前期本文收集了約5 000 萬條原始數(shù)據(jù),并初步分析了隱蔽性有害信息的特點,主要表現(xiàn)為隱蔽性有害信息普遍不直接顯示明文內(nèi)容,而是通過增加特殊字符的方式隱藏關鍵信息,從而增加識別難度。

      為實現(xiàn)隱蔽性有害信息的識別,常用方法為基于深度學習的經(jīng)典算法模型,通過訓練集加人工標注的方式訓練算法,繼而實現(xiàn)算法對隱蔽性有害信息的識別。本文基于隱蔽性有害信息的特征研究結果,提出一種方法———不使用人工標注,而是通過比對特征的方式進行隱蔽性有害信息的識別。本文通過對以上方法的研究,為實現(xiàn)快速、實用、準確地識別隱蔽性有害信息提供了一種思路。

      2 隱蔽性有害信息特征分析

      本文對收集到的屬地有害信息原始數(shù)據(jù)進行多維度分析,識別出了有害信息的特征,初步分析如下。

      (1)語言特征:通過分析輸出結果發(fā)現(xiàn),有害信息均含有部分特殊文字,如火星文等,但并非全文都是特殊文字。其具體如表1 所列。

      (2)文字特征:通過分析輸出結果發(fā)現(xiàn),有害信息中的特殊文字一般不局限于某一類,繁體字、異體字、形近字等都會出現(xiàn)。其具體如表2 所列。

      (3)信息特征:通過分析發(fā)現(xiàn),有害信息一般含有網(wǎng)址、QQ 號、微信號等,否則無法傳遞關鍵信息,僅含有特殊字符但不含以上任何信息的文本基本不包含有害內(nèi)容。其具體如表3 所列。

      (4)邏輯特征:通過分析發(fā)現(xiàn),QQ 號和微信號基本都使用特殊字符,很少使用完全明文信息,但網(wǎng)址基本都是明文。其具體如表4 所列。

      特征總結:有害信息基本為正常文字和特殊字符混合,特殊文字一般不局限于某一類,一般都含有網(wǎng)址、QQ 號、微信號等。QQ 號和微信號基本都使用特殊字符,如變種“Q”或變種“V\微”等,避免被關鍵字識別檢索;而網(wǎng)址基本都是明文,否則無法被目標用戶直接點擊,其他文字使用特殊字符,主要目的為在隱蔽性和可讀性之間尋求平衡。

      3 基于深度學習的傳統(tǒng)識別方法

      3.1 理論模型簡介

      在人工智能領域,研究人員設計了多種文本表示和識別類算法,本文采用經(jīng)典的BERT 模型。BERT模型是谷歌公司的研究人員于2018 年提出的一種典型的預訓練表征模型[6~7] ,采用maskedlanguage model(MLM)技術,用于生成深層次的文本特征表示,同時引入了遮蔽式語言模型,用于隨機遮蔽文本序列中的部分詞語。

      BERT 模型按照功能模塊分為輸入層、預訓練層和輸出層。輸入層由Token Embeddings, SegmentEmbeddings 和Position Embeddings 3 個部分組成;預訓練層生成雙向的深層文本特征表示,采用MLM 對雙向的Transformers 預訓練;輸出層對模型內(nèi)部的參數(shù)進行微調(diào),得到最終的模型輸出結果。

      BERT 模型主要結構如圖1 所示,基礎模塊為BERT Layer, 多個基礎模塊疊加組成了BERTEncoder,多個BERT Encoder 最終構成完整的BERT模型。

      3.2 系統(tǒng)方案設計

      利用BERT 模型設計一種識別隱蔽性有害信息的傳統(tǒng)方案(如圖2 所示),主要分為輸入、輸出、文本識別模型和人工標注等模塊。從本文收集到的樣本庫中取出一部分樣本并將其作為該模型的訓練集,通過人工標注進行訓練和調(diào)優(yōu),總體方案與目前人工智能領域普遍使用的深度學習BERT 模型設計方案類似。

      4 一種基于特征分析的識別方法

      4.1 方案設計

      上述傳統(tǒng)的有害信息識別方法是機器學習和深度學習理論的經(jīng)典應用之一。如果將其應用到本文研究的隱蔽性有害信息識別中,有以下2 點可以優(yōu)化:一是傳統(tǒng)的有害信息識別方法需要人工參與標注,算法質(zhì)量一定程度上取決于人工標注的質(zhì)量;二是在海量文本數(shù)據(jù)情況下,人工標注工作需要耗費大量的人力資源,對課題或者項目的成本控制帶來極大挑戰(zhàn)。因此,為降低人工參與對算法的影響以及算法復雜度和人工成本,本文提出一種技術路線:通過研究分析隱蔽性有害信息的特點,將隱蔽性有害信息作為一個整體,針對其特征進行要素提取,以識別出隱蔽性有害信息。其具體技術框架如圖3 所示。

      4.2 具體算法

      根據(jù)隱蔽性有害信息的特征分析結果,本文設計了一種算法———通過兩級要素提取模型識別出有害信息,不需要人工標注參與。其具體算法框架如圖4所示。

      (1)文本分類環(huán)節(jié)。在該環(huán)節(jié),首先判斷輸入的文本信息是否含有特殊字符。根據(jù)本文分析的隱蔽性有害信息的特征,不含特殊字符的文本基本不是有害信息,故將含有特殊字符的信息全部作為結果,輸出到第二級信息識別模型中并將其進行處理。判斷是否含有特殊字符的方法為將該文本與標準字符庫進行比對,只要有任意字符不在標注字符庫,即判定為含有特殊字符,將該文本輸出。

      (2)信息識別環(huán)節(jié)。在該環(huán)節(jié),將第一級的輸出作為輸入,根據(jù)有害信息的特征進行判斷,判斷條件為該信息是否包含明文網(wǎng)址或QQ 號或微信關鍵字。具體判斷方法為使用正則規(guī)則比對“.+連續(xù)字母或數(shù)字”判斷是否包含網(wǎng)址;通過比對“Q”字符及其變種字符庫和連續(xù)數(shù)字判斷是否包含QQ 號;比對“微”字符及其相關變種字符庫判斷是否包含微信號。若輸入文本滿足以上3 個條件的任意一種,則判定該文本為隱蔽性有害信息,并將該文本輸出。

      (3)算法特點:本算法在文本分類和信息識別環(huán)節(jié)無需人工標注及人工參與,降低了算法人力成本。同時,本算法采取的兩級要素提取模型僅需要使用正則表達式和比對字符庫的方式實現(xiàn),算法復雜度低,降低了算法所需的軟硬件成本。

      5 對比分析

      5.1 評價指標

      混淆矩陣是機器學習中總結分類模型預測結果的常用工具,數(shù)據(jù)集中的記錄以矩陣形式且按照真實類別與分類模型預測的類別2 個判斷標準進行匯總。其中,矩陣的行表示真實值,矩陣的列表示預測值。以典型的二分類評估指標為例,其中定義的一些符號含義如下。

      (1)TP(True Positive):將正類預測為正類數(shù),真實為0,預測也為0。

      (2)FN(False Negative):將正類預測為負類數(shù),真實為0,預測為1。

      (3)FP(False Positive):將負類預測為正類數(shù),真實為1,預測為0。

      (4)TN(True Negative):將負類預測為負類數(shù),真實為1,預測也為1。

      本文的應用場景為最典型的二分類模型,正類代表該樣本為隱蔽性有害信息,負類代表該樣本不屬于隱蔽性有害信息。評價算法結果的矩陣表現(xiàn)形式如圖5 所示。

      矩陣行數(shù)據(jù)相加是真實值類別數(shù),列數(shù)據(jù)相加是分類后的類別數(shù)。因此,根據(jù)以上矩陣可以得到以下計算公式:

      召回率(正)= a / (a+b) (1)

      準確率(正)= a / (a+c) (2)

      召回率和準確率是評價分類模型預測結果的常用指標,在本文的二分類應用場景中,召回率(正)表示經(jīng)算法模型預測為隱蔽性有害信息的樣本數(shù)量,在真實值為隱蔽性有害信息的樣本總數(shù)中的占比;準確率(正)表示真實值為隱蔽性有害信息的樣本,且經(jīng)算法模型成功預測為隱蔽性有害信息的樣本數(shù)量,在算法模型輸出的所有預測為隱蔽性有害信息樣本數(shù)量的占比。

      5.2 結果與分析

      本文使用前期收集到的有害信息原始數(shù)據(jù),并將其劃分成3 個樣本庫,分別對基于深度學習的傳統(tǒng)算法(下稱算法1)和本文設計的基于特征分析的算法(下稱算法2)進行效果驗證。對于算法1,將樣本庫中一部分樣本作為訓練集,采用人工標注的方法進行訓練調(diào)優(yōu)。對于算法2,直接將樣本庫送入算法模型中并進行篩選,不使用人工參與算法,僅在輸出結果對比分析時,使用人工進行分析。

      5.2.1 準確率結果分析

      根據(jù)2 個算法模型和3 個樣本庫,對算法準確率進行研究和對比分析,如圖6 所示。

      根據(jù)圖6 可以得到以下結論。

      (1)算法1 和算法2 的準確率差異不大,均可以達到80%的目標要求。

      (2)在不同樣本庫條件下,算法1 的準確率總體比較平穩(wěn),而算法2 的準確率波動相對較大。

      (3)算法2 的準確率與樣本庫的相關性較大,在某些樣本庫條件下,算法2 的準確率優(yōu)于算法1。為分析算法2 的準確率結果,本文對3 個樣本庫進行了抽樣分析,與算法2 使用的隱蔽性有害信息的分析特征進行對比。分析發(fā)現(xiàn),在樣本庫2 條件下,算法2 的準確性相對較高的原因主要是樣本庫2 中滿足前期總結的隱蔽性有害信息特征的文本,屬于非有害信息的數(shù)量很少,而樣本庫1 和樣本庫3 中有少量非有害信息文本也符合隱蔽性有害信息特征,但總體影響不大。

      5.2.2 召回率結果分析

      根據(jù)2 個算法模型和3 個樣本庫,對算法召回率進行研究和對比分析,如圖7 所示。

      根據(jù)圖7 可以得到以下結論。

      (1)算法1 和算法2 的召回率差異不大,在不同樣本庫條件下,算法1 的召回率總體比較平穩(wěn),而算法2 的召回率波動相對較大。

      (2)算法1 的召回率總體高于算法2,因算法2 的召回率與樣本庫的相關性較大。

      為分析算法2 的召回率結果,本文同樣對3 個樣本庫進行了抽樣分析,與算法2 使用的隱蔽性有害信息的分析特征進行對比。在樣本庫2 條件下,算法2召回率相對較低的原因主要是前期總結的隱蔽性有害信息的特征與樣本庫2 匹配程度較低,有少量有害信息文本不符合算法2 所使用的規(guī)律特征。因此,算法2 依賴于前期隱蔽性有害信息的特征總結,以及樣本庫與特征總結的匹配程度,特征總結越完備,樣本庫的匹配度越高,召回率越高。

      5.2.3 應用場景分析

      基于以上結果分析,算法1 和算法2 各有特點,需結合應用場景進行選擇。算法1 采用目前相對成熟的機器學習算法和人工標注方式,輸出識別樣本的準確率和召回率均相對穩(wěn)定,全部維持在85%和82%以上。但算法1 較為復雜,對硬件資源要求較高,同時需要人工參與,因此適用于對識別樣本準確率和召回率的穩(wěn)定性要求較高且資源充足的場景。算法2采用特征總結對比的方式,輸出識別樣本的準確率和召回率依賴于特征總結的完備性,以及樣本庫與特征總結的匹配程度,因此波動相對較大。但算法2 的優(yōu)勢在于實現(xiàn)相對簡單,算法復雜度遠低于算法1,同時不需要人工標注,對資源的需求相對較小,因此適用于對樣本識別穩(wěn)定性要求相對較低但資源有限的場景(如實驗研究), 或者用于對龐大樣本庫的粗略篩選,其作為后續(xù)某個算法的輸入樣本,以減少后續(xù)某個算法模型的運行時間。

      本文算法能夠基于隱蔽性有害信息的特征減少算法復雜度,為智能識別隱蔽性有害信息工作提供了參考。

      參考文獻:

      [1] 龔文全.人工智能在有害信息識別服務的應用和發(fā)展趨勢[J].電信網(wǎng)技術,2018(2):10?14.

      [2] 陶冶,王志軍,劉鏑,等.基于大數(shù)據(jù)的信息通信欺詐事件發(fā)現(xiàn)技術研究[J].信息通信技術,2017,11(3):7?12.

      [3] 黃欣榮.大數(shù)據(jù)時代的精準詐騙及其治理[J].新疆師范大學學報,2017,38(4):86?92.

      [4] 趙京勝,宋夢雪,高祥,等.自然語言處理中的文本表示研究[J].軟件學報,2022,33(1):102?128.

      [5] 張千,王慶瑋,張悅,等.基于深度學習的文本特征提取研究綜述[J].計算機技術與發(fā)展,2019,29(12):61?65.

      [6] DEVLIN J,CHANG M W,LEE K,et al.BERT:Pre?training ofDeep Bidirectional Transformers for Language Understanding[ J ]. North American Chapter of the Association forComputational Linguistics,2018:179?195.

      [7] 李杰,李歡.基于深度學習的短文本評論產(chǎn)品特征提取及情感分類研究[J].情報理論與實踐,2018,41(2):143?148.

      作者簡介:

      張安康(1989—),碩士,工程師,研究方向:信息安全、通信信息系統(tǒng)。

      劉加兵(1993—),碩士,初級工程師,研究方向:網(wǎng)絡安全、通信信息系統(tǒng)。

      猜你喜歡
      特征分析深度學習
      泡罩包裝揮發(fā)性有機物排放特征分析
      2012 年南海夏季風特征分析
      有體驗的學習才是有意義的學習
      電子商務中基于深度學習的虛假交易識別研究
      MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構
      大數(shù)據(jù)技術在反恐怖主義中的應用展望
      深度學習算法應用于巖石圖像處理的可行性研究
      軟件導刊(2016年9期)2016-11-07 22:20:49
      基于深度卷積網(wǎng)絡的人臉年齡分析算法與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:47:34
      基于PowerPC的脈內(nèi)特征分析算法的工程實現(xiàn)
      雷達與對抗(2015年3期)2015-12-09 02:38:53
      腎康注射液不良反應特征分析
      栾城县| 龙陵县| 晴隆县| 福鼎市| 饶河县| 龙山县| 墨脱县| 招远市| 赣州市| 福贡县| 改则县| 江山市| 遂溪县| 浦东新区| 石家庄市| 上虞市| 昌江| 南昌市| 抚远县| 宝坻区| 修武县| 盱眙县| 马关县| 凤台县| 聂拉木县| 安达市| 凤阳县| 潞城市| 禹州市| 双江| 双桥区| 乌兰察布市| 原阳县| 合水县| 永吉县| 即墨市| 绥阳县| 神池县| 东光县| 育儿| 长白|