• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      涉詐網(wǎng)絡(luò)平臺的檢測技術(shù)研究與實(shí)現(xiàn)*

      2023-02-23 04:55:32孟彩霞毛夏怡林俊豪
      警察技術(shù) 2023年1期
      關(guān)鍵詞:域名網(wǎng)絡(luò)平臺網(wǎng)頁

      孟彩霞 毛夏怡 林俊豪

      1. 鐵道警察學(xué)院 2. 廣州鐵路公安局 3. 南昌鐵路公安局

      引言

      近年來,各類電信網(wǎng)絡(luò)詐騙犯罪與前沿網(wǎng)絡(luò)技術(shù)相結(jié)合,手法更迭迅速、窩點(diǎn)擴(kuò)散廣泛、作案群體專業(yè)、黑灰產(chǎn)業(yè)泛濫,全國涉詐警情數(shù)量仍處高位,涉案金額不斷攀升。國內(nèi)外研究者為遏制不法分子利用網(wǎng)絡(luò)平臺實(shí)施詐騙的違法犯罪行為,提出了許多檢測方法,主要包括傳統(tǒng)檢測方法和深度學(xué)習(xí)檢測方法。PhishTank平臺收集了世界各地提交的可能與詐騙有關(guān)的網(wǎng)站,利用黑白名單方法對比和分析用戶提交的數(shù)據(jù)是否是平臺收集的可疑涉詐網(wǎng)站[1]。該方法無法處理名單中暫不存在的數(shù)據(jù),可能造成漏判的情況。啟發(fā)式方法是依賴人為經(jīng)驗(yàn)以及有效特征信息的檢測方法,通過建立規(guī)則來實(shí)現(xiàn)網(wǎng)頁的檢測,Sachin、Birmohan提出的AVBMEO以及Yang hulin等人使用的TF-IDF統(tǒng)計(jì)算法[2],都使用了啟發(fā)式方法。但是隨著涉詐網(wǎng)站和正常網(wǎng)站之間的差異性逐漸縮小,規(guī)則更新也愈加困難[3],導(dǎo)致檢測誤判率較高。視覺相似性方法是比較網(wǎng)站的外觀顯示界面特征,計(jì)算相似度是否達(dá)到某一閾值來判斷網(wǎng)站是否涉詐,F(xiàn)u等人提出了基于Earth Mover” s Distance的檢測算法以及朱怡等人研究的基于視覺特征的仿冒域名檢測方法[4]。該方法計(jì)算負(fù)擔(dān)較重,對視覺特征不同的網(wǎng)頁難以檢測成功。機(jī)器學(xué)習(xí)相關(guān)方法大多是基于收集到的特征集,具有較強(qiáng)的數(shù)據(jù)分類和聚類能力,檢測準(zhǔn)確性更高,Sandeep Kumar Satapathy等人使用的樸素貝葉斯和支持向量機(jī)模型對涉詐網(wǎng)站進(jìn)行分類[5]。但該方法需要消耗大量的底層系統(tǒng)時(shí)間,且處理特征集以外的數(shù)據(jù)比較困難。基于傳統(tǒng)人工特征提取的深度學(xué)習(xí)檢測方法可以有針對性地提取所需特征,能夠得到較好的準(zhǔn)確率,解決維度系數(shù)災(zāi)難問題,具有一定的泛化能力[6]。袁其祥通過手工提取20個(gè)URL的特征,通過預(yù)處理和字符嵌入將URL處理為向量的形式,再使用卷積神經(jīng)網(wǎng)絡(luò)和雙向長短期記憶網(wǎng)絡(luò)進(jìn)行特征提取,構(gòu)建深度學(xué)習(xí)模型,使其具有較高的魯棒性[7]。但是,這種方法需要人工提取特征,對復(fù)雜特征的處理能力有限,導(dǎo)致學(xué)習(xí)過程耗時(shí)費(fèi)力?;诒碚鲗W(xué)習(xí)的深度學(xué)習(xí)檢測方法可以自動抽象出語義特征,節(jié)省大量成本。Priya、Selvakumar等人將URL字符串表示成特征向量,再輸入深度學(xué)習(xí)模型進(jìn)行訓(xùn)練[8],實(shí)現(xiàn)了對涉詐網(wǎng)站的快速檢測,具有良好效果。該方法節(jié)省了繁雜特征提取的過程,但僅僅檢測URL的特征不夠全面,沒有對網(wǎng)絡(luò)平臺進(jìn)行整體分析,識別準(zhǔn)確率還有待提高,可能會出現(xiàn)誤判漏判的情況。

      基于電信網(wǎng)絡(luò)詐騙的嚴(yán)峻形勢,本文通過表征學(xué)習(xí)、雙向長短期記憶神經(jīng)網(wǎng)絡(luò)與特征融合訓(xùn)練檢測模型,將網(wǎng)站的各類屬性分別表示在矩陣空間上,將表征矩陣輸入CNN 和BiLSTM并添加Attention機(jī)制,從而學(xué)習(xí)更多隱含特征,精準(zhǔn)快速檢測涉詐網(wǎng)站,為公安機(jī)關(guān)辦理電詐案件提供新的思路。

      一、深度學(xué)習(xí)相關(guān)技術(shù)

      (一)卷積神經(jīng)網(wǎng)絡(luò)

      卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)被廣泛用于圖像識別和分類,近年也流行于網(wǎng)頁檢測上,通過將網(wǎng)頁數(shù)據(jù)轉(zhuǎn)換為矩陣的形式,進(jìn)行訓(xùn)練學(xué)習(xí)。

      CNN通常包括輸入數(shù)據(jù)、提取特征、識別分類三個(gè)部分,由卷積層、池化層和全連接層組成,主要特點(diǎn)是能夠通過“卷積核”捕獲局部特征,降低計(jì)算復(fù)雜度,減少訓(xùn)練時(shí)間,使訓(xùn)練模型更加穩(wěn)定。

      (二)雙向長短期記憶神經(jīng)網(wǎng)絡(luò)

      雙向長短期記憶神經(jīng)網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM),能很好地獲取整句話乃至上下文信息,通過全面分析歷史信息和預(yù)測信息,更充分地學(xué)習(xí)數(shù)據(jù)的隱含特征。如圖1所示,BiLSTM通常由一組向前的LSTM和一組向后的LSTM結(jié)合而成,將結(jié)果拼接輸出。

      二、基于深度學(xué)習(xí)的涉詐網(wǎng)絡(luò)平臺檢測方法

      (一)特征分析

      1. URL字符串特征分析

      URL為網(wǎng)站的訪問鏈接,是用戶進(jìn)入網(wǎng)站的入口,由協(xié)議、域名、端口、文件路徑、參數(shù)五部分組成。根據(jù)目前網(wǎng)站發(fā)展趨勢,結(jié)合現(xiàn)階段研究者提出的特征,分析出以下有利于區(qū)分是否為涉詐網(wǎng)站的特征信息。

      (1)URL域名中是否存在IP地址。由于大量域名已被合法網(wǎng)站注冊,涉詐網(wǎng)站沒有注冊到合適的域名,或者因?yàn)樽杂蛎枰獙?shí)名認(rèn)證,而使用域名進(jìn)行詐騙可能更加容易被監(jiān)管人員追蹤,從而使得URL域名直接顯示為IP地址的形式。

      (2)URL中域名拼寫錯(cuò)誤。一些涉詐網(wǎng)站可能會刻意模仿大型正常網(wǎng)站的域名來混淆視聽,例如將“taobao”更改為“taoba0”。

      (3)URL的端口號。不同端口對應(yīng)不同服務(wù),比如HTTP一般為80,HTTPS一般為433,而22端口通常用來實(shí)現(xiàn)遠(yuǎn)程連接服務(wù),開放此端口可能存在惡意網(wǎng)絡(luò)行為。

      (4)URL中是否出現(xiàn)特殊敏感字符。觀察許多涉詐網(wǎng)站URL后發(fā)現(xiàn),在其路徑部分,可能出現(xiàn)一些敏感詞,比如“l(fā)ogin”“account”等;而在參數(shù)部分,可能出現(xiàn)中文字符被編碼的情況,比如“網(wǎng)絡(luò)詐騙”將被瀏覽器解析為“%E7%BD%91%E7%BB%9C%E8%AF%88%E9%AA%97”。

      (5)URL中是否包含“@”。瀏覽器解析URL字符串時(shí),會忽略“@”之前的內(nèi)容,例如在瀏覽器中訪問“https: //www.baidu.com@vip.com/”,其實(shí)進(jìn)入的是“https://www. vip.com/”。

      (6)URL字符的長度。涉詐網(wǎng)站可能存在URL過長的問題,字符排列隨機(jī),信息熵值較大,也有些涉詐網(wǎng)站為了解決這一問題,采用短鏈接的形式發(fā)送給受害者。

      (7)URL中“.”的數(shù)量。正常URL一般使用兩個(gè)“.”來分割域名,如果一個(gè)URL中“.”出現(xiàn)的次數(shù)過多,則可能存在多個(gè)域名,存在涉詐風(fēng)險(xiǎn)。

      (8)URL中“//”的數(shù)量。URL參數(shù)中可能開放重定向,將真正想讓用戶請求訪問的鏈接放到參數(shù)中,導(dǎo)致一個(gè)URL中含有多個(gè)“//”,從而實(shí)現(xiàn)頁面重定向。

      (9)URL中標(biāo)志信息的來源。網(wǎng)頁加載時(shí),圖像標(biāo)志信息通常會一起加載,正常情況下,這些圖標(biāo)和網(wǎng)站URL來自同一域名,如果來自不同域名,則存在虛假網(wǎng)站的可能。

      (10)URL中數(shù)字、特殊字符的數(shù)量。涉詐網(wǎng)絡(luò)平臺通常含有很多數(shù)字和特殊字符。

      2. HTML特征分析

      HTML是由一系列元素構(gòu)成的用于定義內(nèi)容結(jié)構(gòu)的標(biāo)記語言,瀏覽器解析元素的標(biāo)簽,可以形成DOM樹,如圖2所示。

      首先對HTML內(nèi)容進(jìn)行深入分析,許多涉詐網(wǎng)站在模仿其他大型網(wǎng)站時(shí),通過修改其HTML文本內(nèi)容來實(shí)施詐騙,從而考慮到可能存在以下特征。

      (2)HTML文本關(guān)鍵詞。涉詐網(wǎng)站為引誘用戶進(jìn)行一系列操作,獲取用戶個(gè)人隱私,可能會在網(wǎng)頁中加入一些獎勵(lì)機(jī)制,誘導(dǎo)用戶進(jìn)入圈套,比如顯示登錄有獎、可獲益等關(guān)鍵詞。

      (3)HTML文本內(nèi)容長度。據(jù)統(tǒng)計(jì),正常網(wǎng)頁和涉詐網(wǎng)頁與其HTML文本內(nèi)容長度的關(guān)系如圖3所示,HTML文本長度越長,正常網(wǎng)站數(shù)量所占比例越高。

      (4)HTML標(biāo)簽內(nèi)是否含有敏感詞。比如標(biāo)簽中包含Email、password等敏感詞,容易導(dǎo)致用戶信息泄露。

      3. DOM結(jié)構(gòu)特征分析

      許多涉詐網(wǎng)站在模仿其他大型網(wǎng)站時(shí),為降低成本,可能直接通過腳本自動生成,而導(dǎo)致HTML文本內(nèi)容的差異性不大,但本質(zhì)上的DOM結(jié)構(gòu)卻會存在較大差異。通過分析,DOM結(jié)構(gòu)可能存在以下特征。

      (1)DOM結(jié)構(gòu)的相似性。涉詐網(wǎng)站通常都具有類似的目的,比如獲取用戶個(gè)人信息、賬號密碼等內(nèi)容,因此其在網(wǎng)頁結(jié)構(gòu)上可能存在一定的相似性。

      (2)DOM結(jié)構(gòu)長度。涉詐網(wǎng)站制作可能較為簡單,與正常網(wǎng)站相比,在DOM結(jié)構(gòu)長度上可能具有一定的差異。據(jù)統(tǒng)計(jì),涉詐網(wǎng)頁和正常網(wǎng)頁與其DOM結(jié)構(gòu)長度的關(guān)系如圖4所示,DOM結(jié)構(gòu)長度越長,正常網(wǎng)站數(shù)量所占比例越高。

      (二)模型結(jié)構(gòu)設(shè)計(jì)

      1. 流程設(shè)計(jì)

      在深度學(xué)習(xí)領(lǐng)域,判別網(wǎng)站是否涉詐,可以看作一個(gè)二分類問題,具體而言可分為是涉詐網(wǎng)站和不是涉詐網(wǎng)站兩類。根據(jù)上一節(jié)的特征分析可知,采用深度學(xué)習(xí)技術(shù)檢測網(wǎng)站是否涉詐的方法具有一定的可行性??紤]到手工提取特征的工作量較大,本實(shí)驗(yàn)通過表征學(xué)習(xí)技術(shù)自動處理原始樣本數(shù)據(jù),再結(jié)合深度學(xué)習(xí)技術(shù)有效提取特征信息,基本實(shí)現(xiàn)對涉詐網(wǎng)絡(luò)平臺的檢測。

      具體流程主要包括數(shù)據(jù)獲取、網(wǎng)頁表征、模型搭建、結(jié)果分類四大步驟,如圖5所示。

      實(shí)驗(yàn)所需的正常網(wǎng)站和涉詐網(wǎng)站數(shù)據(jù)分別來自Alexa和PhishTank兩大平臺。其中Alexa平臺收錄有上十億的合法網(wǎng)站鏈接,并且根據(jù)每個(gè)鏈接的訪問量、瀏覽量等數(shù)據(jù)進(jìn)行綜合排名,可以作為正常網(wǎng)站數(shù)據(jù)集的收集渠道。而PhishTank平臺則收錄了大量非法涉詐網(wǎng)站數(shù)據(jù),目前已累計(jì)記錄七百多萬條數(shù)據(jù),并且每天實(shí)時(shí)更新,可以在此獲取涉詐網(wǎng)絡(luò)平臺的最新數(shù)據(jù)。

      2. 網(wǎng)頁表征

      表征學(xué)習(xí)可以將原始樣本自動表示為模型的輸入數(shù)據(jù),為深度學(xué)習(xí)提取特征信息奠定基礎(chǔ),提高運(yùn)算效率。在檢測涉詐網(wǎng)絡(luò)平臺時(shí),可以將網(wǎng)頁表征為矩陣的形式,從URL、HTML、DOM三個(gè)角度分析每一個(gè)網(wǎng)頁,有效表達(dá)復(fù)雜多變的特征。

      此次表征學(xué)習(xí)技術(shù)的實(shí)現(xiàn)主要包含樣本標(biāo)準(zhǔn)化、網(wǎng)頁嵌入表征兩大步驟:

      (1)樣本標(biāo)準(zhǔn)化是對原始數(shù)據(jù)集進(jìn)行預(yù)處理。首先將輸入樣本看作是一條條的文本信息,對文本中的詞句進(jìn)行分割,統(tǒng)計(jì)每個(gè)數(shù)據(jù)長度,然后將原始數(shù)據(jù)序列化,固定序列長度為L,超過L的部分截取為新的序列,小于L的部分使用填充,再構(gòu)建映射表對標(biāo)準(zhǔn)序列進(jìn)行編碼。

      (2)網(wǎng)頁嵌入表征是先將映射后的序列用獨(dú)熱編碼(one-hot)表示,然后輸入嵌入層(Embedding Layer)降低矩陣維度,解決獨(dú)熱編碼矩陣較為稀疏、易造成維度災(zāi)難的問題,再通過迭代更新、優(yōu)化權(quán)重系數(shù),防止過擬合,最終將網(wǎng)頁表征成一個(gè)低維向量空間。

      以URL為例,正常網(wǎng)站的URL和涉詐網(wǎng)站的URL往往在字符頻率、位置和特殊字符出現(xiàn)次數(shù)上有著不同的特征信息,如表1、表2所示。

      ?

      ?

      據(jù)此,對URL的具體表征過程如下:

      ①計(jì)算URL中包含的字符,并按字符數(shù)量大小創(chuàng)建一個(gè)語料庫;

      ②固定字符串的長度L1=200,超過L1的部分截取為新的序列,小于L1的部分使用填充;

      ③根據(jù)語料庫構(gòu)建映射表,對URL進(jìn)行標(biāo)準(zhǔn)化編碼,其中[1,96]映射表由26個(gè)大寫字母、26個(gè)小寫字母、10個(gè)數(shù)字、33個(gè)特殊字符和1個(gè)填充符組成。

      為更好地學(xué)習(xí),除了處理單個(gè)字符之外,還將對URL中的詞進(jìn)行優(yōu)化處理:

      ①先使用“:”“//”“.”特殊字符將URL分割成“單詞”的形式,根據(jù)詞頻統(tǒng)計(jì),建立語料庫,如(“www”,“google”,“com”);

      ②然后固定URL單詞數(shù)量N1=100,超過N1的部分截取為新的序列,小于N1的部分使用填充;

      ③最后根據(jù)語料庫的大小建立映射表,對URL進(jìn)行編碼。

      URL分別經(jīng)過上述標(biāo)準(zhǔn)化處理后,再進(jìn)行嵌入表征:

      ①將映射后的序列用one-hot表示,如標(biāo)準(zhǔn)化編碼(2,3),對應(yīng)的one-hot為[[0,1,0,…,0],[0,0,1,…,0]];

      ②將獨(dú)熱編碼矩陣W輸入Embedding Layer再次降低維度,與隨機(jī)權(quán)重參數(shù)x相乘,得到較小矩陣V,見公式(1)。輸入Embedding Layer是因?yàn)橥ㄟ^字符標(biāo)準(zhǔn)化編碼得到one-hot矩陣較為稀疏,容易造成維度災(zāi)難問題。

      最終將URL字符串表征為兩個(gè)低維向量空間,過程如圖6所示。

      進(jìn)一步解析URL字符串,將其處理成HTML本文信息和DOM結(jié)構(gòu)。分別對HTML的詞、句進(jìn)行表征,結(jié)果如圖7所示;對DOM結(jié)構(gòu)進(jìn)行表征,結(jié)果如圖8所示。

      3. 模型搭建

      實(shí)驗(yàn)構(gòu)建的深度學(xué)習(xí)模型由CNN-BiLSTM改進(jìn)而成,在CNN、BiLSTM的基礎(chǔ)上添加了注意力機(jī)制(Attention)和特征融合,最后通過全連接輸出分類結(jié)果,其中輸入數(shù)據(jù)為URL、HTML、DOM表征學(xué)習(xí)得到的矩陣。

      (1)卷積神經(jīng)網(wǎng)絡(luò)層

      CNN對輸入的表征矩陣進(jìn)行卷積與池化。卷積核數(shù)量為k,大小為j×j,步長為s,與輸入矩陣W進(jìn)行卷積運(yùn)算,得到新的矩陣Q,計(jì)算公式見(2)。池化窗口大小為k×k,采用最大池化處理,得到CNN層的輸出序列Z,計(jì)算公式見(3)。

      (2)雙向長短期記憶神經(jīng)網(wǎng)絡(luò)層

      BiLSTM能夠通過隱藏層學(xué)習(xí)向前、向后兩個(gè)方向的信息,利用記憶單元和門控機(jī)制管理特征信息,將池化后的Z輸入到BiLSTM層,得到特征序列H,公式見(4)。

      (3)注意力機(jī)制層

      Attention用于提高重要信息的影響程度。在t時(shí)刻BiLSTM層輸出Ht時(shí) ,設(shè)置一個(gè)權(quán)重矩陣wa和 tanh偏置ba,計(jì)算出注意力參數(shù)et, 通過softmax得到歸一化權(quán)值αt,最后加權(quán)求和得到一個(gè)新的特征向量C,公式見(5)~(7)所示。

      (4)特征融合層和輸出層

      在特征融合層中,將URL、HTML、DOM經(jīng)過Attention 輸出的特征向量Cu1、Cu2、Ct1、Ct2、Cd,采用首尾拼接組合的方法,分別進(jìn)行特征融合,將得到Cu、Ct、Cd序列輸入全連接層,重組后再度拼接組合,最后全連接得到新序列A,特征融合過程如圖9所示。

      在輸出層,模型采用Sigmoid函數(shù)實(shí)現(xiàn)二分類問題的預(yù)測,公式見(8)。判斷是否為涉詐網(wǎng)絡(luò)平臺。

      三、實(shí)驗(yàn)

      (一)數(shù)據(jù)集

      實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練、驗(yàn)證和測試三個(gè)部分,分別為7:2:1,如表3所示。其中訓(xùn)練集用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型;驗(yàn)證集用于檢驗(yàn)?zāi)P偷挠行?,并調(diào)節(jié)模型參數(shù),直至接近理想效果;測試集則用于測試訓(xùn)練好的模型,輸出評價(jià)指標(biāo)。

      ?

      (二)實(shí)驗(yàn)參數(shù)

      1. 系統(tǒng)環(huán)境

      實(shí)驗(yàn)采用Windows10操作系統(tǒng),TensorFlow2.3.0、Keras2.3.0框架,以及Anaconda4.8.3、Python3.6.7編譯環(huán)境。

      2. 模型參數(shù)

      模型設(shè)置卷積神經(jīng)網(wǎng)絡(luò)中的卷積、池化層數(shù)為1,卷積核大小為5×5、數(shù)量為128、步長為1,池化窗口大小為3×3。雙向長短期記憶神經(jīng)網(wǎng)絡(luò)中的層數(shù)為1,隱藏單元為128。全連接層數(shù)為3。批量數(shù)為64,Dropout為0.5,迭代次數(shù)為100。

      (三)評價(jià)指標(biāo)

      對于二分類問題的檢測主要涉及4種情況,以本實(shí)驗(yàn)為例,分別為:

      ①TP:被模型預(yù)測為涉詐的網(wǎng)站中,實(shí)際為涉詐網(wǎng)站樣本的數(shù)量;

      ②FP:被模型預(yù)測為涉詐的網(wǎng)站中,實(shí)際為正常網(wǎng)站樣本的數(shù)量;

      ③FN:被模型預(yù)測為正常的網(wǎng)站中,實(shí)際為涉詐網(wǎng)站樣本的數(shù)量;

      ④TN:被模型預(yù)測為正常的網(wǎng)站中,實(shí)際為正常網(wǎng)站樣本的數(shù)量。

      根據(jù)以上情況,實(shí)驗(yàn)采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1這4個(gè)評價(jià)指標(biāo)。Accuracy表示被預(yù)測正確的網(wǎng)站數(shù)量占所有網(wǎng)站的比例,公式見(9)。Precision表示在所有被預(yù)測為涉詐的網(wǎng)站中實(shí)際為涉詐網(wǎng)站樣本的概率,見公式(10)。Recall表示在實(shí)際為涉詐網(wǎng)站的樣本中被預(yù)測為涉詐網(wǎng)站的概率,見公式(11)。F1是一個(gè)綜合指標(biāo),它是精確率與召回率的調(diào)和平均,取值在0到1之間,F(xiàn)1越大性能越好,公式見(12)。

      (四)結(jié)果分析

      1. 模型結(jié)果

      實(shí)驗(yàn)通過多層神經(jīng)網(wǎng)絡(luò)對不同特征進(jìn)行分別訓(xùn)練、融合輸出,提高了模型的準(zhǔn)確性,訓(xùn)練過程中Accuracy和Loss的變化如圖10、圖11所示。

      最終得到的各項(xiàng)評價(jià)指標(biāo)值如表4所示,各項(xiàng)性能結(jié)果較優(yōu)。

      ?

      2. 對比實(shí)驗(yàn)

      在上述實(shí)驗(yàn)的基礎(chǔ)上,分別從輸入數(shù)據(jù)和模型結(jié)構(gòu)上設(shè)置對照組,通過對比結(jié)果來驗(yàn)證模型的有效性。

      (1)輸入數(shù)據(jù)的對比實(shí)驗(yàn)

      根據(jù)目前的研究現(xiàn)狀,許多實(shí)驗(yàn)通過分析URL特征,或是分析URL和HTML的組合特征進(jìn)行分析?;诖?,如表5所示,設(shè)置以下實(shí)驗(yàn)。

      ?

      (2)模型結(jié)構(gòu)的對比實(shí)驗(yàn)

      根據(jù)目前主流的CNN和BiLSTM模型結(jié)構(gòu),分別設(shè)置以下對比實(shí)驗(yàn),如表6所示。

      ?

      由此證明,使用URL、HTML、DOM輸入數(shù)據(jù),以及CNN與BiLSTM的組合模型來檢測涉詐網(wǎng)絡(luò)平臺的方法有效可行。

      四、結(jié)語

      本文通過將網(wǎng)站的URL字符串、HTML文本、DOM結(jié)構(gòu)分別表示在矩陣空間上,解決了手工提取特征的困難以及只提取URL字符串單一特征的問題;將表征矩陣輸入CNN和BiLSTM后,再添加一層Attention,從而學(xué)習(xí)更多隱含特征。測試結(jié)果表明,該模型具有較高的準(zhǔn)確率。

      猜你喜歡
      域名網(wǎng)絡(luò)平臺網(wǎng)頁
      一種基于5G網(wǎng)絡(luò)平臺下的車險(xiǎn)理賠
      網(wǎng)絡(luò)平臺補(bǔ)短板 辦學(xué)質(zhì)量穩(wěn)提升
      基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計(jì)
      電子制作(2018年10期)2018-08-04 03:24:38
      如何購買WordPress網(wǎng)站域名及綁定域名
      基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
      電子制作(2017年2期)2017-05-17 03:54:56
      網(wǎng)絡(luò)平臺打開代表履職新視窗
      網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
      電子測試(2015年18期)2016-01-14 01:22:58
      依托網(wǎng)絡(luò)平臺,構(gòu)建學(xué)習(xí)評價(jià)新模式
      騰訊八百萬美元收購域名
      10個(gè)必知的網(wǎng)頁設(shè)計(jì)術(shù)語
      会泽县| 易门县| 永胜县| 淮阳县| 阜新| 封丘县| 南陵县| 溧水县| 杭锦旗| 收藏| 独山县| 富裕县| 吴川市| 朝阳区| 滨州市| 庆阳市| 徐汇区| 剑阁县| 勐海县| 克什克腾旗| 重庆市| 抚顺市| 余姚市| 樟树市| 宁津县| 吴川市| 新河县| 磴口县| 北宁市| 汉川市| 陆河县| 绥宁县| 南城县| 泰宁县| 六安市| 三明市| 勃利县| 阳新县| 吉安市| 大兴区| 山丹县|