• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的不良應(yīng)用域名早期識別方法①

      2024-03-20 08:21:48胡安磊李振宇謝高崗
      高技術(shù)通訊 2024年2期
      關(guān)鍵詞:域名特征向量語義

      胡安磊 田 語 陳 勇 李振宇 謝高崗

      (*中國科學(xué)院計算技術(shù)研究所 北京 100190)

      (**中國互聯(lián)網(wǎng)絡(luò)信息中心 北京 100190)

      (***中國科學(xué)院計算機網(wǎng)絡(luò)信息中心 北京 100083)

      (****中國科學(xué)院大學(xué) 北京 100049)

      域名是用于識別和定位互聯(lián)網(wǎng)資源的層次化、結(jié)構(gòu)式字符標(biāo)識,是重要的互聯(lián)網(wǎng)基礎(chǔ)資源,絕大多數(shù)互聯(lián)網(wǎng)應(yīng)用都以有一定意義的域名作為訪問入口。然而,域名也被不良甚至惡意網(wǎng)站所利用,嚴(yán)重影響互聯(lián)網(wǎng)的健康發(fā)展。本文從域名管理的角度出發(fā),聚焦在承載涉黃涉賭等不良內(nèi)容的網(wǎng)站所應(yīng)用域名(簡稱不良應(yīng)用域名)的早期(即在注冊之際)識別。不良應(yīng)用域名的早期識別可以更好地保護互聯(lián)網(wǎng)用戶的權(quán)益和保障互聯(lián)網(wǎng)健康發(fā)展,對我國網(wǎng)絡(luò)空間的治理也具有重要意義。

      已有對不良應(yīng)用域名識別的方法[1-4],通常是根據(jù)網(wǎng)頁文本內(nèi)容、圖片內(nèi)容等對域名對應(yīng)的網(wǎng)站進(jìn)行特征分析,訓(xùn)練模型以判斷網(wǎng)站是否涉黃涉賭,進(jìn)而判斷域名是否被用于不良應(yīng)用。這類檢測方法準(zhǔn)確性較好,但存在滯后性導(dǎo)致時效性不足。全球注冊量最大的國家頂級域名,始終存在一定數(shù)量的.CN域名被用于承載涉黃涉賭等不良內(nèi)容的網(wǎng)站。目前主要通過自動化內(nèi)容檢測手段發(fā)現(xiàn)潛在的不良應(yīng)用域名,并輔以人工判定的方式,實現(xiàn)對不良應(yīng)用域名的標(biāo)注與管理。需要說明的是,不良應(yīng)用域名與惡意域名盡管同屬于域名濫用[5],但二者存在很大的不同。惡意域名通常不對應(yīng)具體網(wǎng)站,所以其域名并不需要考慮易于記憶等因素,而重點考慮如何逃避檢測,如使用域名生成算法(domain generation algorithm,DGA)產(chǎn)生大量惡意域名,而只有一個是用來與遠(yuǎn)程控制服務(wù)器連接。與此相反,不良應(yīng)用域名對應(yīng)具體網(wǎng)站,而且用戶可能直接輸入域名訪問,所以域名的文本特性(如字符熵)等與惡意域名差異大。因此,已有針對惡意域名的識別方法并不能直接應(yīng)用于不良應(yīng)用域名。

      本文研究不良應(yīng)用域名的早期識別方法,旨在域名注冊時,準(zhǔn)確識別出將來可能被用于不良網(wǎng)站的域名,從而為域名管理者提前開展監(jiān)測或治理提供支撐。該問題是有監(jiān)督的二分類問題,即給定部分不良應(yīng)用域名作為種子,對域名進(jìn)行二分類,從而識別出不良應(yīng)用域名和正常域名。為此,本文利用預(yù)訓(xùn)練語言模型基于Transformer 的雙向編碼器(bidirectional encoder representation from transformers,BERT)提取域名的文本語義特征,并提出基于注意力機制融合域名的文本語義特征和注冊特征(如注冊商、生命周期等),實現(xiàn)對域名的分類。

      本文的主要貢獻(xiàn)如下。

      (1)特征提取。從域名注冊信息和域名文本語義2 方面提取域名的特征,實現(xiàn)在域名注冊階段的特征提取,實現(xiàn)不良應(yīng)用域名的早期檢測。此外,為了準(zhǔn)確全面提取文本語義特征,提出基于預(yù)訓(xùn)練語言模型BERT 的域名文本語義特征提取方法。

      (2)分類模型。設(shè)計基于注意力機制的域名分類方法。該方法使用注意力機制考慮不同特征作用差異,有效融合域名的注冊信息和語義信息,并最終通過全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)域名的分類,識別出不良應(yīng)用域名。

      (3)數(shù)據(jù)與實驗。從海量.CN 國家頂級域名中,提取2021 年某時間段內(nèi)發(fā)現(xiàn)并處置的涉黃涉賭網(wǎng)站域名以及正常網(wǎng)站域名(按工信部要求完成網(wǎng)站備案的域名)為實驗數(shù)據(jù)集,實驗結(jié)果表明所提方法分類準(zhǔn)確率(F1 分?jǐn)?shù))達(dá)到0.99,同時通過魯棒性分析和消融實驗進(jìn)一步驗證了所提方法的有效性。

      1 相關(guān)工作

      域名濫用(DN abuse),即域名的非正當(dāng)使用,如域名被用于網(wǎng)絡(luò)釣魚欺詐、涉黃涉賭網(wǎng)站、垃圾郵件發(fā)送、惡意軟件分發(fā)、僵尸網(wǎng)絡(luò)控制等各種違法違規(guī)場景。近年來,互聯(lián)網(wǎng)名稱與數(shù)字地址分配機構(gòu)(Internet Corporation for Assigned Names and Numbers,ICANN)所召開的歷次全體大會均將域名濫用治理列為專門議題進(jìn)行研討,并開展了若干有意義的探索和嘗試。此外,ICANN 還專門發(fā)起了面向全球的域名濫用活動報告項目,旨在面向各大頂級域名定期提供相應(yīng)的域名濫用活動監(jiān)測及評價服務(wù)。2020 年8 月,歐盟委員會專門就域名濫用治理議題面向全社會發(fā)起公開招標(biāo),旨在評估域名濫用情況對于歐盟網(wǎng)絡(luò)生態(tài)的影響情況及應(yīng)對策略。國際安全事件應(yīng)急響應(yīng)小組論壇也專門設(shè)立域名濫用工作組,專門研究域名濫用治理相關(guān)議題。域名被用于涉黃涉賭類網(wǎng)站在我國網(wǎng)絡(luò)管理的實踐中屬于域名濫用的一種,也可稱之為涉黃涉賭不良應(yīng)用。

      傳統(tǒng)不良應(yīng)用域名檢測發(fā)現(xiàn)主要有2 種方式:一種是通過爬取網(wǎng)站的文本和圖像數(shù)據(jù),根據(jù)內(nèi)容分析網(wǎng)站使用的域名是否涉及不良應(yīng)用,網(wǎng)絡(luò)賭博、淫穢色情等不良網(wǎng)站的網(wǎng)頁內(nèi)容存在高度相似性,利用圖像相似性聚類和相似性搜索等技術(shù)[6],可以進(jìn)行涉黃涉賭不良應(yīng)用域名的檢測。這種方法準(zhǔn)確性較好但計算量大,而且域名被識別為不良應(yīng)用域名時往往已經(jīng)活躍了一段時間,時效性不高;另一種方法是通過網(wǎng)站注冊域名自身特征信息進(jìn)行分析識別,通過分析正常域名和不良應(yīng)用域名(特別是機器產(chǎn)生的域名)在文本上的構(gòu)成差異進(jìn)行檢測[7-8]。這種方法僅依賴域名文本結(jié)構(gòu)特征,準(zhǔn)確率不高且容易逃避,此外不良應(yīng)用域名需要考慮便于記憶,所以通常不借助機器來產(chǎn)生域名。

      在其他類型的域名濫用檢測發(fā)現(xiàn)方面,如惡意域名監(jiān)測,已有方法基于域名本身和域名解析數(shù)據(jù)提取特征并構(gòu)建分類器。通過提取其結(jié)構(gòu)特征、統(tǒng)計特征、語言學(xué)特征,并利用監(jiān)督學(xué)習(xí)方法對域名進(jìn)行分類,可以識別DGA 產(chǎn)生的惡意域名[9]。通過聚類關(guān)聯(lián)辨識出同一DGA 或其變體生成的域名,然后分別提取每一個聚類集合中算法生成域名的TTL(time-to-live)、解析IP(Internet protocol)分布、歸屬、Who is 的更新、完整性及域名的活動歷史特征等,利用支持向量機(support vector machine,SVM)分類器可以過濾出其中的惡意域名[10]。然而,與DGA域名不同,本文關(guān)注的不良應(yīng)用域名需要考慮便于記憶以吸引更多的用戶訪問,因此其域名的字符分布與正常域名差別并不像DGA 域名與正常域名的差別那么大,因此DGA 域名的識別方法并不適用于不良應(yīng)用域名的識別。

      近年來,深度學(xué)習(xí)方法被應(yīng)用于域名的分類。文獻(xiàn)[11]提出了一種利用長短期記憶(long-short term memory,LSTM)網(wǎng)絡(luò)對域名進(jìn)行分類的方法。文獻(xiàn)[12]針對數(shù)據(jù)集不平衡的問題對該模型進(jìn)行了改進(jìn)。文獻(xiàn)[13]在LSTM 的基礎(chǔ)上應(yīng)用類對抗學(xué)習(xí)技術(shù),對每一個域名實施字符級別的擾動,提升了對從未出現(xiàn)過的惡意域名的識別精度。僅依賴于字符特征的域名分類方法容易被攻擊者逃避,為此研究者發(fā)現(xiàn)攻擊者難以偽造域名系統(tǒng)(domain name system,DNS)流量中的隱藏聯(lián)系,比如受相同攻擊者感染的受害者傾向于查詢相同或部分重疊的惡意域名集合,而未受感染的客戶端幾乎不查詢這些域名;同時,由于經(jīng)濟上的限制,攻擊者很難擁有大量的網(wǎng)絡(luò)資源,因此他們對資源的重用也在惡意域名之間構(gòu)建了內(nèi)在關(guān)聯(lián)。據(jù)此,研究人員提出通過構(gòu)建域名-主機圖、域名-IP 地址的異構(gòu)圖檢測惡意域名[14-18]。但這種方法依賴于域名的請求數(shù)據(jù),即在惡意域名活躍后才能實施檢測。本文從國家頂級域管理的實際需求出發(fā),聚焦在不良應(yīng)用域名的早期發(fā)現(xiàn),即在注冊時檢測。

      在惡意域名的早期檢測方面,研究人員考察了惡意域名和正常域名在注冊商、注冊歷史、早期的DNS 查詢行為、域名結(jié)構(gòu)特征等方面的差異性[19-21],但如何有效提取并融合這些特征實現(xiàn)對域名的準(zhǔn)確分類,仍然具有較大的挑戰(zhàn)。

      2 方法

      本文提出了融合域名注冊信息和域名文本語義信息的不良應(yīng)用域名早期識別方法,具體流程如圖1所示。識別流程共分為3 個模塊,在特征提取模塊,系統(tǒng)分別從域名注冊信息和域名文本信息2個部分獲得域名的局部特征;接著,系統(tǒng)結(jié)合注意力機制獲得域名的向量表示;最后,系統(tǒng)將向量表示輸入到全連接網(wǎng)絡(luò)對域名進(jìn)行分類。

      2.1 特征提取模塊

      本文從域名注冊信息和域名文本語義2 方面提取域名的特征,從而在域名注冊階段檢測可疑的不良應(yīng)用域名。

      (1)注冊時間。不良應(yīng)用網(wǎng)站往往一次性注冊大量不良應(yīng)用域名,這一方面是因為需要足夠數(shù)量的不良應(yīng)用域名支撐其不良內(nèi)容的承載(如定時更換所使用的域名),另一方面是出于經(jīng)濟成本原因(一次性注冊大量域名時,單個域名成本低)。因此,注冊時間是一個重要特征,可提取注冊年份、注冊月份、周幾(day-of-week)、一個月中的第幾天(day-of-month)、一年中的第幾天(fay-of-year)五維特征來描述域名的注冊時間。

      (2)生命周期。由于注冊生命周期更長的域名需要支付更高的費用,而現(xiàn)有檢測機制下域名在用于不良應(yīng)用后較短時間內(nèi)往往就會被檢測出來而無法繼續(xù)使用,因此攻擊者傾向于注冊有效時長為最短年限的域名來節(jié)省成本。本文將過期時間和生命時長作為2 個重要特征。

      (3)注冊人和注冊商。出于對成本和政策的考慮,不良應(yīng)用網(wǎng)站往往會選擇特定的注冊商進(jìn)行域名注冊,因此本文將注冊人和注冊商也納入域名的注冊特征。

      2.1.1 域名注冊信息特征提取

      在域名注冊信息方面,提取了如表1 所示的13維向量。

      表1 對域名注冊信息提取的特征及其描述

      2.1.2 域名語義信息特征提取

      在不良應(yīng)用域名分類任務(wù)中,不良應(yīng)用域名具有易記性、可讀性和可解釋性等特征,因此傳統(tǒng)的語言和結(jié)構(gòu)特征(如N-gram,元音的比例、數(shù)字字符的比例等)往往無法準(zhǔn)確區(qū)分不良應(yīng)用域名和正常域名。同時,不良應(yīng)用域名也會偽裝成正常域名的樣子,從而騙取用戶點擊,如example.com 和exanple.com 等。為此,本文采用域名的語義信息代替了域名的結(jié)構(gòu)信息作為域名的文本特征。

      本文選擇使用BERT 進(jìn)行不良應(yīng)用域名的語義表示。相較于在小規(guī)模數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)的方法,在大型語料庫上采用新定義的掩碼語言模型(masked language model,MLM)進(jìn)行預(yù)訓(xùn)練的BERT能夠獲得無偏見的單詞級別的向量表示[22];相較于以往的單向語言模型(從左到右或者從右到左),BERT 采用深層的雙向Transformer[23]生成能融合左右上下文信息的深層雙向語言表征。在預(yù)訓(xùn)練后,只需微調(diào)BERT 模型的輸出層,即可滿足各種下游任務(wù)需求。由于BERT 的輸出是單詞(token)級別的,因此本文將特殊標(biāo)記[CLS]的768 維輸出作為域名的文本表示向量,這是因為[CLS]本身無語義信息,能更公平地融合文本中其他單詞的語義信息。

      2.2 向量表示模塊

      如圖2 所示,本文通過基于注意力機制的節(jié)點特征聚合操作來綜合處理域名的注冊信息和語義信息并生成域名節(jié)點的表征向量。

      圖2 向量表示模塊示意圖

      由于不同方面的特征維數(shù)不一樣,所以本文采用線性變換矩陣Mi(該矩陣將作為神經(jīng)網(wǎng)絡(luò)的參數(shù)得到訓(xùn)練)將注冊信息特征向量x1和語義信息特征向量x2映射到相同維度(各768 維):

      此外,由于在域名向量表征中,不同源的特征對于識別和區(qū)分不同類型的域名具有不同的影響,因此本文提出了一種特征聚合方法,基于注意力機制來凸顯它們之間的重要性差異。該方法將對來自不同特征源的特征向量進(jìn)行加權(quán)求和,并選擇性地篩選出一些重要的信息,從而使注意力集中在這些信息上。這些特征的注意力分?jǐn)?shù)可以通過式(2)來進(jìn)行計算。

      這里,引入softmax對原始計算的注意力分?jǐn)?shù)進(jìn)行歸一化,并通過softmax的特性更加突出重要特征的權(quán)重。att(xi) 為注意力打分函數(shù),計算x′i和q的相關(guān)性,常見的方法包括求兩者的向量點積、向量余弦相似度等,本文采取了向量點積的方式,具體計算方式如式(3)所示。

      其中,σ代表LeakyReLU 函數(shù),q代表注意力向量,是神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的一個參數(shù)。

      最后,通過對兩方面的特征加權(quán)聚合就得到了域名的1 356 維表征向量:

      2.3 分類模塊

      獲得域名的向量表示后,不良應(yīng)用域名識別問題即轉(zhuǎn)化為了二分類問題,本模塊采用以線性整流函數(shù)(rectified linear unit,ReLU)為激活函數(shù)的全連接網(wǎng)絡(luò)來進(jìn)行分類,目標(biāo)函數(shù)為交叉熵?fù)p失函數(shù):

      其中,yi為標(biāo)簽值,y′i為預(yù)測值。

      綜上域名分類器的訓(xùn)練過程如算法1 所示。獲得訓(xùn)練好的分類器后,即可對域名進(jìn)行分類,從而識別出不良應(yīng)用域名。

      2.4 計算復(fù)雜度分析

      參數(shù)量是指模型訓(xùn)練中需要訓(xùn)練的參數(shù)總數(shù),用來衡量模型的大小,也即計算空間復(fù)雜度。

      (1)全連接層。在特征映射和分類模塊中,采用了全連接網(wǎng)絡(luò)來進(jìn)行線性變換,全連接層的參數(shù)包括權(quán)重矩陣和偏置矩陣,前者的參數(shù)量為dimin×dimout,后者的參數(shù)量為dimout。特征映射中,dimin=13,dimout=768,分類模塊的全連接層中,dimin=768,dimout=2。

      (2)注意力機制。在本文提出的基于注意力機制的特征聚合模塊中,通過計算特征向量和注意力向量q的相關(guān)性給特征向量打分,q是神經(jīng)網(wǎng)絡(luò)需要學(xué)習(xí)的參數(shù),其大小就是特征向量的維數(shù),在本文中維數(shù)為768。

      3 實驗

      3.1 實驗設(shè)置

      3.1.1 數(shù)據(jù)集

      本文采集的數(shù)據(jù)集包括:

      (1)2021 年12 月發(fā)現(xiàn)并處置的被用于涉黃涉賭網(wǎng)站的不良應(yīng)用.CN 域名;

      (2)正常網(wǎng)站應(yīng)用域名數(shù)據(jù)(按工信部要求完成網(wǎng)站備案的正常網(wǎng)站應(yīng)用.CN 域名)。

      實驗所用數(shù)據(jù)集共包含1 萬個不良應(yīng)用域名及其注冊信息,以及5 萬個正常域名及其注冊信息。域名信息示例如表2 所示。需要說明的是,在數(shù)據(jù)集中,域名注冊者通過去隱私化轉(zhuǎn)換為字符串編號,每一個注冊者對應(yīng)一個唯一字符串id,其中,對于注冊者不在訓(xùn)練集中的新域名,該字段填充為已有最大注冊者編號加1;注冊商為域名的注冊服務(wù)商簡稱;注冊日期20210724 代表域名注冊在2021 年7月24 日,到期日期20220912 代表域名到期日期為2022 年9 月12 日。

      表2 域名信息示例

      3.1.2 評價指標(biāo)

      評價指標(biāo)如表3 所示。考慮到在樣本不均衡的場景下(不良應(yīng)用域名的占比較低),僅使用準(zhǔn)確率作為評價指標(biāo)難以進(jìn)行有效評估。另一方面,本文提出的模型希望在注冊階段就盡可能地檢測出可疑的不良應(yīng)用域名,從而能對其后續(xù)網(wǎng)絡(luò)活動進(jìn)行更好地監(jiān)測,及時發(fā)現(xiàn)其可能的惡意行為。因此,本文以不良應(yīng)用域名為正樣本,以F1 分?jǐn)?shù)和召回率為主,同時結(jié)合精確率和準(zhǔn)確率作為評價指標(biāo)。

      表3 評價指標(biāo)及其描述

      3.2 實驗結(jié)果對比

      現(xiàn)有的不良應(yīng)用域名檢測方法主要可以分為2大類,一類基于域名本身和域名解析數(shù)據(jù)提取特征并構(gòu)建分類器;另一類通過DNS 流量構(gòu)建域名-主機圖、域名-IP 地址等異構(gòu)圖尋找惡意域名之間的聯(lián)系。但依賴于域名解析數(shù)據(jù)的方法需要在惡意域名活躍后才能實施檢測,本文旨在域名注冊階段進(jìn)行不良應(yīng)用域名的檢測,因此本節(jié)選取了如下4 種只依賴于域名注冊信息的方法作為基線方法。

      (1)FANCI(feature-based automated NXDomain classification and intelligence)[9]。它是一種經(jīng)典的惡意域名檢測方法,提取域名的結(jié)構(gòu)特征、統(tǒng)計特征、語言學(xué)特征,并將3 類21 個特征直接連接形成45 維的域名特征向量。FANCI 提取的結(jié)構(gòu)特征包括:域名長度、子域名數(shù)目、子域名長度均值、是否擁有有效的TLD、是否擁有TLD 作為子域名等;提取的語言學(xué)特征包括:元音比例、不同字符的個數(shù)、重復(fù)出現(xiàn)的子符的比例、連續(xù)數(shù)字的比例等;提取的統(tǒng)計特征包括:熵值和N-Gram。再通過支持向量機對域名進(jìn)行分類。

      (2)隨機森林方法。它是在實際生產(chǎn)環(huán)境中被大量使用的經(jīng)典機器學(xué)習(xí)方法,受到文獻(xiàn)[9]方法中啟發(fā),本文選擇了其他有代表性的有監(jiān)督學(xué)習(xí)模型作為基線方法,輸入和本文提出方法所選取的特征一致,即域名的注冊信息向量和語義信息向量。

      (3)決策樹。與隨機森林方法中所述相同,決策樹的輸入和本文提出方法所選取的特征一致,即域名的注冊信息向量和語義信息向量。

      (4)LSTM。文獻(xiàn)[11]提出了一種利用LSTM 網(wǎng)絡(luò)對域名進(jìn)行分類的方法,只依賴于域名的文本信息,故而也可以用以進(jìn)行不良應(yīng)用域名的早期識別。

      本文按照8 ∶2 的比例劃分訓(xùn)練集與測試集,使用Python3.8 編程語言[24],并使用Sklearn 第三方庫實現(xiàn)上述機器學(xué)習(xí)方法。對于本文提出的方法,結(jié)合Transformers 庫獲得BERT 預(yù)訓(xùn)練網(wǎng)絡(luò),并在Py-Torch 深度學(xué)習(xí)框架上實現(xiàn)了后續(xù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。

      表4 展示了本文提出的方法及上述基線方法的實驗結(jié)果。(1)5 個方法都取得了很高的準(zhǔn)確率,其中隨機森林和本文方法的準(zhǔn)確率都超過了99%,同時隨機森林、FANCI、LSTM 和本文方法都取得了超過90%的精確率。(2)對于真實的不良應(yīng)用域名檢測場景,考慮到不良應(yīng)用域名占比極少,且危害性大,希望盡可能檢測到所有的不良應(yīng)用域名,因此希望模型有更高的召回率。而在召回率方面,本文提出的方法表現(xiàn)遠(yuǎn)超另外3 個方法。隨機森林、決策樹和FANCI 的召回率都在50%左右,即僅有50%左右的不良應(yīng)用域名被檢測出來,而LSTM 網(wǎng)絡(luò)受到類別不平衡的影響更大,這是由于訓(xùn)練樣本不平衡,模型更容易偏向樣本量多的類別,以此來降低損失。而本文提出的方法獲得了0.999 0 的召回率,即99.9%的不良應(yīng)用域名都可以被檢出。(3)綜合考慮精確率和召回率,可以看到本文方法的F1 分?jǐn)?shù)要遠(yuǎn)優(yōu)于其他方法,這證明了本方法的有效性和可靠性。

      表4 實驗結(jié)果對比

      3.3 魯棒性分析

      為了證明本方法在不良應(yīng)用域名占比變化時的魯棒性,本節(jié)對正常域名進(jìn)行了不同程度的降采樣,控制不良應(yīng)用域名和正常域名的比例從1 ∶1 變化到1 ∶9,結(jié)果如表5 所示。可以看到模型在所有比例的數(shù)據(jù)集下召回率都在99%以上,驗證了本文方法的魯棒性,即在不同比例下該方法都能檢測出超過99%的不良應(yīng)用域名。

      表5 模型在不良應(yīng)用域名占比變化時的表現(xiàn)

      3.4 參數(shù)調(diào)節(jié)與分析

      本節(jié)在不良應(yīng)用域名和正常域名的比例為1 ∶7的數(shù)據(jù)集上(3.2 節(jié)中F1 最高的數(shù)據(jù)集)對學(xué)習(xí)率(learning rate)和批大小(batchsize)進(jìn)行了調(diào)參實驗,實驗結(jié)果如表6 和表7 所示。

      表6 模型在學(xué)習(xí)率變化時的表現(xiàn)

      表7 模型在批大小變化時的表現(xiàn)

      (1)學(xué)習(xí)率設(shè)為1 ×10-3時,會出現(xiàn)網(wǎng)絡(luò)不收斂、損失(loss)震蕩的情況,同時在表5 中可以看到,學(xué)習(xí)率在1 ×10-6時網(wǎng)絡(luò)收斂慢,在相同訓(xùn)練輪次(epoch)時模型表現(xiàn)差于另外2 種情況;在1 ×10-4和1 ×10-5時模型表現(xiàn)穩(wěn)定且F1 都在0.99 以上,在后續(xù)實驗中選擇學(xué)習(xí)率為1 ×10-5。

      (2)類似地,當(dāng)批大小設(shè)為16 時,會出現(xiàn)損失震蕩的情況。批增大會使下降的方向更準(zhǔn)確、震蕩更小,減少隨機性;但另一方面,批增大時,對網(wǎng)絡(luò)參數(shù)的修正變慢,想達(dá)到同樣精度所需的訓(xùn)練輪次會變多,因此在相同輪次的情況下,可以看到模型表現(xiàn)隨批大小變大而變差,在后續(xù)實驗中選擇批大小為64。

      3.5 消融實驗

      為了驗證本文選取特征的有效性和必要性,本節(jié)進(jìn)行了消融實驗,表8 展示了各簡化版本模型的F1 分?jǐn)?shù)。

      表8 消融實驗結(jié)果

      (1)w/o attribute(即不考慮注冊信息): 本實驗只采用BERT 的輸出作為域名的特征向量,亦即后續(xù)神經(jīng)網(wǎng)絡(luò)的輸入。

      (2)w/o BERT(即不考慮域名文本語義特征):本實驗只采用從域名信息中提取的13 維屬性向量作為域名的特征向量。

      (3)w/otime_att(即不考慮注冊信息中的時間信息):本實驗采用從域名信息中提取的注冊信息作為域名的特征向量(2 維)和BERT 的輸出作為域名的特征向量。

      (4)w/oreg_att(即不考慮注冊者和注冊商信息):本實驗采用從域名信息中提取的時間信息作為域名的特征向量(11 維)和BERT 的輸出作為域名的特征向量。

      (5)w/o registrar(即不考慮注冊者信息):考慮到注冊信息,尤其是注冊者,是具有很強指向性的特征,本實驗去掉注冊者這一維特征向量,采用從域名信息中提取的時間信息和注冊商信息(12 維)和BERT 的輸出作為域名的特征向量。

      (6)w/o duration(即不考慮域名注冊時的存活時間):考慮到在不良應(yīng)用域名檢測中,生命周期相較于注冊時間、過期時間可能是更有區(qū)分度的特征,本實驗去掉存活時間這一維特征向量,采用從域名信息中提取的注冊時間信息、過期時間信息和注冊信息(12 維)和BERT 的輸出作為域名的特征向量。

      通過實驗(1)和(2)可以看出,在只用域名的文本特征或只用注冊信息時,隨著不良應(yīng)用域名的占比減小,模型表現(xiàn)也劇烈下降,而結(jié)合兩者后,模型表現(xiàn)很穩(wěn)定,具有了很強的魯棒性。

      而實驗(3)和(4)中,雖然模型表現(xiàn)仍會隨著不良應(yīng)用域名占比的減小而降低,但大部分都穩(wěn)定在0.80 以上,魯棒性較前2 組實驗有大幅度提升,側(cè)面驗證了2 種特征的結(jié)合是保障魯棒性的來源。另一方面,第3 組實驗的模型表現(xiàn)普遍略高于第4 組實驗,這說明了注冊人信息的貢獻(xiàn)度高于時間信息。

      實驗(5)和(6)中,模型表現(xiàn)隨不良應(yīng)用域名占比減小呈現(xiàn)出先下降后上升的情況,這可能是因為在總數(shù)據(jù)量較小時域名存活信息和注冊者信息較為重要,失去這2 個信息會導(dǎo)致模型表現(xiàn)明顯下降;但在數(shù)據(jù)量較大時模型能很好地根據(jù)如語義特征、注冊時間特征等其他特征對不良應(yīng)用域名進(jìn)行識別。

      為進(jìn)一步研究模型F1 下降的原因,本節(jié)對前4組消融實驗的精確率、召回率和準(zhǔn)確率進(jìn)行了比較和分析,結(jié)果如圖3 所示。

      圖3 4 組消融實驗的精確率、召回率和準(zhǔn)確率

      對于實驗(1),可以看到其精確率和準(zhǔn)確率隨著不良應(yīng)用域名占比下降而有所提高,當(dāng)不良應(yīng)用域名和正常域名的比例達(dá)到1 ∶9 時,其模型準(zhǔn)確率甚至超過了90%。這是由于當(dāng)樣本不平衡時,模型會學(xué)習(xí)到訓(xùn)練集中樣本比例的先驗信息,而更傾向于將樣本歸為多數(shù)類(此時是正常域名),以至于多數(shù)類精度好而少數(shù)類精度差,召回率的劇烈下降也說明了這一點。也就是說,實驗(1)能夠較為精準(zhǔn)地預(yù)測正常域名,但并不能有效地將不良應(yīng)用域名識別出來。

      從實驗(2)可以看到,其精確率、召回率、準(zhǔn)確率都顯著下降,說明此時模型已經(jīng)不具有分辨不良應(yīng)用域名的能力,這也進(jìn)一步證明了采用文本選取特征的必要性。

      對于實驗(3)和(4),其精確率、召回率和準(zhǔn)確率的變化趨勢具有相似性,即:模型的準(zhǔn)確率和召回率隨不良應(yīng)用域名占比減小變化不明顯,具有一定的穩(wěn)定性;而模型的精確率隨不良應(yīng)用域名占比減小呈明顯的下降趨勢,可以說模型F1 分?jǐn)?shù)下降的來源正是其精確率的下降。也就是說,當(dāng)正常域名占比增加時,正常域名被預(yù)測為不良應(yīng)用域名的概率也會大幅增加,而不良應(yīng)用域名仍然能夠保持被識別。而實驗(3)和(4)保持了原模型中的注意力機制和神經(jīng)網(wǎng)絡(luò),區(qū)別只在于從域名信息中提取特征的維數(shù),這從側(cè)面證明了本文提出的模型的有效性。

      4 結(jié)論

      本文從早期檢測被用于涉黃涉賭網(wǎng)站的不良應(yīng)用域名的實際需求出發(fā),設(shè)計了一種基于深度學(xué)習(xí)的不良應(yīng)用域名早期識別方法。該方法僅依賴注冊時的信息,首先,從注冊商、注冊時間、有效時長等方面提取域名注冊信息特征,并基于預(yù)訓(xùn)練模型BERT 提取域名的語義信息;其次,使用基于注意力機制的特征聚合來綜合處理域名的注冊信息和語義信息并生成域名節(jié)點的表征向量;最后,通過基于全連接網(wǎng)絡(luò)進(jìn)行域名分類。本文方法在真實數(shù)據(jù)集上取得了0.99 的F1 分?jǐn)?shù)。此外,本文還對正常域名進(jìn)行了不同程度的降采樣,控制不良應(yīng)用域名和正常域名的比例從1 ∶1 變化到1 ∶9,實驗結(jié)果驗證了本文方法的魯棒性。綜上所述,本文方法實現(xiàn)了高效、高準(zhǔn)確率、高魯棒性的不良應(yīng)用域名早期檢測。

      猜你喜歡
      域名特征向量語義
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      語言與語義
      一類特殊矩陣特征向量的求法
      如何購買WordPress網(wǎng)站域名及綁定域名
      EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應(yīng)用
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      騰訊八百萬美元收購域名
      認(rèn)知范疇模糊與語義模糊
      頂級域名爭奪戰(zhàn):ICANN放出1930個通用頂級域名,申請者有上千家
      兴山县| 共和县| 寿阳县| 宜丰县| 富民县| 鄂托克前旗| 鹤山市| 潼南县| 洞口县| 禄丰县| 潍坊市| 湘潭县| 郴州市| 农安县| 涿州市| 庄河市| 全州县| 南汇区| 资溪县| 县级市| 南江县| 保德县| 营山县| 金川县| 依兰县| 措勤县| 吉安县| 千阳县| 铅山县| 綦江县| 黎平县| 长春市| 堆龙德庆县| 图们市| 信宜市| 吉林省| 平谷区| 镇巴县| 磴口县| 赣州市| 临夏县|