• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于信息熵的異常數(shù)據(jù)判別方法

      2023-10-18 12:44:06楊亞琦李博雄楊東霞
      科學(xué)技術(shù)創(chuàng)新 2023年24期
      關(guān)鍵詞:香農(nóng)因變量信息熵

      楊亞琦,李博雄,楊東霞,劉 燕

      (1.云南省市場監(jiān)督管理局信息中心,云南 昆明;2.昆明學(xué)院信息工程學(xué)院,云南 昆明;3.云南省高校數(shù)據(jù)治理與智能決策重點實驗室,云南 昆明;4.云南省信息技術(shù)發(fā)展中心,云南 昆明)

      引言

      近年來,我國已將“數(shù)字經(jīng)濟”列入國家發(fā)展戰(zhàn)略,黨的十九屆四中全會首次將“數(shù)據(jù)”列為生產(chǎn)要素,充分凸顯了數(shù)據(jù)在經(jīng)濟活動和社會活動中的巨大價值。數(shù)字經(jīng)濟時代,在海量數(shù)據(jù)中進行數(shù)據(jù)挖掘尤為重要。異常數(shù)據(jù)檢測判別能提升數(shù)據(jù)的質(zhì)量,有助于挖掘出數(shù)據(jù)的潛在價值,成為數(shù)據(jù)治理領(lǐng)域一項重要工作。在眾多數(shù)據(jù)判別模型[4]中,邏輯回歸模型以泛化能力強、算法簡單高效而得到了廣泛應(yīng)用。

      祝政等[1]以邏輯回歸模型對奶牛行為進行研究,其奶牛行為姿態(tài)判別的準確率較高。張黎等[2]以二元邏輯回歸模型對我國農(nóng)業(yè)上市公司財務(wù)危機進行研究,對公司財務(wù)危機的總體預(yù)測正確率近九成。劉成圓[3]以邏輯回歸模型對專利質(zhì)量評估體系構(gòu)建進行建模,其全領(lǐng)域和化學(xué)領(lǐng)域獲獎預(yù)測準確率較低。在傳統(tǒng)邏輯回歸模型中,因為結(jié)構(gòu)簡單,很難擬合復(fù)雜數(shù)據(jù)的真實分布。且很難處理數(shù)據(jù)不平衡的問題,如果正負樣本的比例差距較大,模型區(qū)分能力不會很好。在韋婷婷[4]等對中文專利關(guān)鍵詞抽取研究中,利用LSTM神經(jīng)網(wǎng)絡(luò)(LSTM神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體)改進邏輯回歸模型,準確率有所提升,但模型泛化能力較弱,不適用于其他類型的判別。因此,一種泛化能力強且準確率高的異常數(shù)據(jù)判別模型有很大的研究價值。

      1948 年,香農(nóng)提出了“信息熵”的概念。但熵這一概念并不是香農(nóng)首先提出的,最早提出熵這一概念的是物理學(xué)家克勞修斯,他提出一種熱力學(xué)系統(tǒng)的狀態(tài)函數(shù),將其稱之為熱熵,也稱作熵。香農(nóng)在研究所得的式子在數(shù)學(xué)層面上與熱熵完全相同,所以香農(nóng)也將其稱之為熵,一般稱為信息熵或香農(nóng)熵。一條信息所含有的信息量的多少和它的不確定性有緊密聯(lián)系,可以理解為,信息量的度量等于不確定性的多少也等于信息熵。變量的不確定性越大,熵也就越大。對于任意一個隨機變量x,x 事件發(fā)生概率為P(x),它的熵H(X)定義如公式(1)所示。

      信息熵實踐應(yīng)用于多個學(xué)科領(lǐng)域,其應(yīng)用范圍非常廣泛。起初,科學(xué)家試圖用信息熵概念來解決心理學(xué)、生理學(xué)等學(xué)科許多未能解決的問題。自信息熵提出后二十年,信息論推廣到生物學(xué)和神經(jīng)生物學(xué)。隨著計算機逐漸發(fā)展,通訊能力極大提高,信息熵的概念得到了學(xué)者的極大重視。施魯?shù)佟に_斯瓦特(Sarswat Shruti)[9]香農(nóng)熵對e-C60 散射的共振狀態(tài)進行了標桿化。計算了e-C60 散射的共振波函數(shù)、總截面、部分截面和散射相移, 以考察共振引起的局域特性。

      在“數(shù)據(jù)治理”中,也可利用信息熵[10]的思想,一條信息的信息量與它的不確定性有直接關(guān)系,如果要搞清楚該數(shù)據(jù),需要了解的信息越多,其信息熵就越大。所以,利用信息熵思想來判別數(shù)據(jù)是否是異常數(shù)據(jù)是一項很重要的工作。

      針對以上研究現(xiàn)狀,本文設(shè)計了一種泛化能力強,適用于大部分領(lǐng)域的判別模型,并通過實驗驗證了該判別方法的有效性。

      1 傳統(tǒng)邏輯回歸判別模型

      本文提出的異常數(shù)據(jù)判別算法,主要使用邏輯算法模型將數(shù)據(jù)轉(zhuǎn)化為概率值在[0,1]的概率問題后選擇切割閾值對概率值進行切割,切割值大于概率值則判別為正常數(shù)據(jù),切割值小于概率值則判別為異常數(shù)據(jù),從而判別數(shù)據(jù)是否正常。尋找判別準確率最高的切割值作為最優(yōu)切割值并用于對測試集進行測試,測試所得的準確率即為該異常數(shù)據(jù)判別方法[13]的準確率。

      基于邏輯回歸的異常數(shù)據(jù)判別算法,其特征在于把需要判別的數(shù)據(jù)對象定義為N,N=(N1,N2,…,Nm),把與數(shù)據(jù)集N 同類型且已知是非為異常的數(shù)據(jù)對象定義為X,X=(X1,X2,…,Xn)。n、m 為數(shù)據(jù)集包含的元素個數(shù),Xi為數(shù)據(jù)集X 中的第i 個元素,Yj為數(shù)據(jù)集Y中第j 個元素。

      假設(shè)對于數(shù)據(jù)Xi,因變量Ai的輸出值為1,即數(shù)據(jù)Xi為異常數(shù)據(jù);同理數(shù)據(jù)Xi的因變量的輸出值為0,即數(shù)據(jù)Xi為正常數(shù)據(jù);解釋變量為Xi,Ai與Xi之間的關(guān)系由概率P(Ai=1)來解釋。因此概率P(Ai=1)定義如公式(2)所示:

      其中ai是Xi的線性模型的估計值,ε是隨機變量誤差值。

      通過轉(zhuǎn)換公式(2),可以得到公式(3)

      使用邏輯回歸轉(zhuǎn)換,可以得到邏輯回歸模型,如公式(4)所示:

      因此,因變量Ai可以表示為公式(5):

      其中,p 為切割值,在取值范圍[0,1],以步長為0.001 取1000 個切割值。將不同切割值p 下因變量Ai與該條數(shù)據(jù)是否正常進行對比,使用邏輯回歸判別為正常數(shù)據(jù)且真實數(shù)據(jù)也為正常數(shù)據(jù)則判別正確,同理判別為異常數(shù)據(jù)且真實數(shù)據(jù)也為異常數(shù)據(jù)則判別正確,其余判別結(jié)果與真實數(shù)據(jù)對比則為判別錯誤。統(tǒng)計不同切割值p 下判別的準確率,選擇最優(yōu)切割值時對應(yīng)的最優(yōu)判別準確率作為邏輯回歸模型判別算法的準確率。

      2 基于信息熵改進的判別方法

      由上述基于邏輯回歸的異常數(shù)據(jù)判別算法[7]可以算出邏輯回歸模型判別算法的準確率,至此本文提出一種基于信息熵的異常數(shù)據(jù)判別算法改進。依然假設(shè)對于數(shù)據(jù)Xi,因變量Bi的輸出值為1,即數(shù)據(jù)Xi為異常數(shù)據(jù);同理數(shù)據(jù)Xi的因變量的輸出值為0,即數(shù)據(jù)Xi為正常數(shù)據(jù);解釋變量為Xi,Bi與Xi之間的關(guān)系由P(Bi=1)來解釋。因此概率P(Bi=1)定義如公式(6):

      其中ai是Xi的線性模型的估計值,ε是隨機變量誤差值。

      通過轉(zhuǎn)換公式(6),可以得到

      使用邏輯回歸轉(zhuǎn)換,可以得到邏輯回歸模型,如公式(8)所示:

      通過公式(8)可將數(shù)據(jù)的子特征轉(zhuǎn)化為一個取值范圍在[0.1]的概率,即可求得P(Bi=1),利用香農(nóng)公式(公式(9)),計算數(shù)據(jù)Xi通過邏輯回歸模型所求概率的信息熵。

      至此用一個取值范圍為[0,1]步長為0.001 的切割值p 來切割信息熵P(Bi=1)。當(dāng)切割值p 大于信息熵P(Bi=1),則判別為正常數(shù)據(jù),反之則判別為異常數(shù)據(jù)。用公式(10)表示。

      將不同切割值p 下因變量Bi與該條數(shù)據(jù)是否正常進行對比,使用基于信息熵的異常數(shù)據(jù)判別算法判別為正常數(shù)據(jù)且真實數(shù)據(jù)也為正常數(shù)據(jù)則判別正確,同理判別為異常數(shù)據(jù)且真實數(shù)據(jù)也為異常數(shù)據(jù)則判別正確,其余判別結(jié)果與真實數(shù)據(jù)對比則為判別錯誤。計算切割值p 下判別的準確率,確定判別準確率作為基于信息熵的異常數(shù)據(jù)判別算法的準確率。

      由此可統(tǒng)計出基于邏輯回歸的異常數(shù)據(jù)判別算法的準確率和基于信息熵的異常數(shù)據(jù)判別算法的準確率。

      3 判別算法

      對于已經(jīng)知道數(shù)據(jù)結(jié)果的作為訓(xùn)練集X,與訓(xùn)練集X 同類型但不知道數(shù)據(jù)結(jié)果的數(shù)據(jù)作為測試集Y。訓(xùn)練集和測試集中以[0,1]作為因變量,0 代表正常數(shù)據(jù),1 代表異常數(shù)據(jù)。當(dāng)數(shù)據(jù)的信息熵大于切割值時判別為正常數(shù)據(jù),小于切割值時判別為異常數(shù)據(jù)。

      算法一:基于信息熵的判別算法

      輸入:訓(xùn)練集X、測試集Y

      輸出:測試集Y 的判別結(jié)果

      步驟一:選取訓(xùn)練集X 中的子特征計算邏輯回歸概率。

      步驟二:選取最優(yōu)切割值來切割數(shù)據(jù)集中邏輯回歸概率。

      步驟三:利用香農(nóng)公式計算邏輯回歸概率的信息熵。

      步驟四:利用經(jīng)過香農(nóng)公式計算信息熵后的最優(yōu)切割值對測試集Y 進行判別。

      步驟五:輸出測試集Y 的判別結(jié)果。

      以訓(xùn)練集X 和測試集Y 作為輸入,輸出測試集Y的判別結(jié)果。定義邏輯回歸公式和香農(nóng)定理公式,對每一個數(shù)據(jù)計算其邏輯回歸概率再計算信息熵。再次對計算結(jié)果進行讀入,使用切割值進行切割,當(dāng)一條數(shù)據(jù)的信息熵大于切割值時即可判別為正常數(shù)據(jù),小于切割值時判別為異常數(shù)據(jù)。尋找一個判別準確率最高的切割值為最優(yōu)切割值,并將最優(yōu)切割值切割結(jié)果作為測試集Y 的判別結(jié)果。

      假設(shè)訓(xùn)練集X 中的數(shù)據(jù)條數(shù)為n,測試集Y 中的數(shù)據(jù)條數(shù)為m。每次循環(huán)都需要進行全部讀取,因此算法中時間復(fù)雜度為O(n2),空間復(fù)雜度為O(n×m)。算法實現(xiàn)了在訓(xùn)練集中尋找最優(yōu)切割值并用最優(yōu)切割值對測試集Y 進行判別。

      4 實驗

      本文以CIC-IDS2017 數(shù)據(jù)集中DDoS 攻擊數(shù)據(jù)為例[8]。CIC-IDS2017 數(shù)據(jù)集中的DDos 攻擊數(shù)據(jù)一個有225745 條數(shù)據(jù)(其中,Lable 為BENIGN 的數(shù)據(jù)為97718 條,標記為“0”,Label 為DDos 的數(shù)據(jù)為128027條,標記為“1”),選擇一半數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集N尋找最優(yōu)切割值,并選取另一半數(shù)據(jù)集作為測試數(shù)據(jù)集M并判別算法的準確率。

      針對測試數(shù)據(jù)集N,選取Bwd 包長度標準(Bwd Packet Length Std)、平均包大?。ˋverage Packet Size)、流持續(xù)時間(Flow Duration)和流量標準(Flow IAT Std)這4 個特征行為作為解釋變量,以Label 列數(shù)據(jù)作為因變量,對這5 列數(shù)據(jù)進行回歸分析,得出回歸系數(shù):α1=-7.86529E-09,α2=0.000171636,α3=3.11E-08,α4=-2.31371E-05,ε=0.365008007。然后,利用邏輯回歸模型,把以上數(shù)據(jù)帶入公式(2),可以計算出P(Ai=1)的值,接著,切割值pi在[0,1]之間由小到大取值,取步長為0.01,帶入公式(5),計算出每個切割值p所對應(yīng)的準確率。準確率與切割值的關(guān)系如圖1 所示。

      圖1 基于邏輯回歸的異常數(shù)據(jù)判別方法各切割值的準確率

      由圖1 可以看出,當(dāng)取切割值p=0.6 時得出最優(yōu)準確率85.62%。

      利用香農(nóng)公式求信息熵改進后邏輯回歸模型求出測試數(shù)據(jù)集里每條數(shù)據(jù)的信息熵P(Bi=1),接著,將基于邏輯回歸異常數(shù)據(jù)判別算法的最優(yōu)切割值帶入香農(nóng)公式計算后所得的信息熵作為切割值p,帶入公式(7),計算出切割值p 的信息熵為0.447。將切割值的信息熵0.447 作為切割值用于切割每條數(shù)據(jù)的信息熵P(Bi=1),統(tǒng)計加入信息熵后的判別準確率為86.68%。

      為了驗證0.447 作為切割值切割各個數(shù)據(jù)的信息熵P(Bi=1)后的準確率是否為最優(yōu)準確率,將準確率與各個切割值的關(guān)系如圖2 所示。

      圖2 基于信息熵的異常數(shù)據(jù)判別方法各切割值的準確率

      由圖2 可以看出當(dāng)切割值為0.447 時取基于信息熵的異常數(shù)據(jù)判別算法的最優(yōu)準確率86.68%。將對于CIC-IDS2017 數(shù)據(jù)集的各個測試模型進行對比(見表1)。

      表1 對于CIC-IDS2017 數(shù)據(jù)集的測試模型評價

      此時可以本作品提出的異常數(shù)據(jù)改進方法比傳統(tǒng)邏輯回歸模型的準確率提高了1.02%,證明了本作品的改進方法準確率比單純的邏輯回歸模型得到了提高。本文同樣對比了在同一數(shù)據(jù)集中其他算法模型的準確率,對比結(jié)果中僅有BI-LSTM-GMM 模型對CIC-IDS2017 中DDoS 數(shù)據(jù)集比本文設(shè)計的判別算法準確率高0.12%。但BI-LSTM-GMM的模型復(fù)雜度為O(nm+n2+n)其中n 為hidden_size,m 為input_size。而本文設(shè)計方法的模型復(fù)雜度為O(f+1)其中f 為特征數(shù)量。在模型復(fù)雜度上基于信息熵的判別方法明顯優(yōu)于BI-LSTM-GMM,同時從判別準確率上看效果相差不大。整體上本文設(shè)計的基于信息熵的判別方法較優(yōu)。

      5 結(jié)論

      本文提出一種基于信息熵的異常數(shù)據(jù)判別方法,采用香農(nóng)公式計算信息熵,綜合提供了邏輯回歸模型的異常數(shù)據(jù)判別方法的準確率。在以CIC-IDS2017 數(shù)據(jù)集中DDoS 攻擊數(shù)據(jù)為測試案例中,選取Bwd Packet Length Std、Average Packet Size、Flow Duration和Flow IAT Std 這4 個特征行為作為解釋變量,以Label 列數(shù)據(jù)作為因變量。使用基于邏輯回歸的異常數(shù)據(jù)判別方法在切割值為0.6 時取最優(yōu)準確率,其值為85.62%,使用基于信息熵的異常數(shù)據(jù)判別方法在切割值為0.447 時取最優(yōu)準確率,其值為86.68%。由此可以證明本文提出改進的異常數(shù)據(jù)判別方法準確率較原邏輯回歸異常數(shù)據(jù)判別方法得到了提升。

      本文的研究對異常數(shù)據(jù)判別方法提出了合理的改進,為“數(shù)據(jù)治理”工作打下了更加深厚的基礎(chǔ)。當(dāng)然本文提出的改進算法僅使用了CIC-IDS2017 數(shù)據(jù)集中DDoS 攻擊數(shù)據(jù)作為測試案例,后續(xù)研究將更關(guān)注于在邏輯回歸模型中加入香農(nóng)公式求信息熵這一方法提高判別準確率的數(shù)學(xué)原理,并加大對其他數(shù)據(jù)集測試效果的研究。

      猜你喜歡
      香農(nóng)因變量信息熵
      基于信息熵可信度的測試點選擇方法研究
      調(diào)整有限因變量混合模型在藥物經(jīng)濟學(xué)健康效用量表映射中的運用
      中國藥房(2022年7期)2022-04-14 00:34:30
      大衛(wèi),不可以
      適應(yīng)性回歸分析(Ⅳ)
      ——與非適應(yīng)性回歸分析的比較
      基于信息熵的實驗教學(xué)量化研究
      電子測試(2017年12期)2017-12-18 06:35:48
      偏最小二乘回歸方法
      校園恩仇錄:小混混和易拉罐女王的故事
      一種基于信息熵的雷達動態(tài)自適應(yīng)選擇跟蹤方法
      艾米麗的呼嚕
      基于信息熵的IITFN多屬性決策方法
      监利县| 榕江县| 宜章县| 清徐县| 邵阳市| 太和县| 清涧县| 明溪县| 洛川县| 遂平县| 江油市| 新民市| 金堂县| 栾城县| 陆川县| 辽阳市| 翁源县| 通渭县| 荥经县| 丰原市| 浪卡子县| 敖汉旗| 汝州市| 张家界市| 黄陵县| 平潭县| 麻江县| 哈巴河县| 屯留县| 准格尔旗| 平原县| 托克托县| 泗阳县| 东山县| 怀化市| 鄂州市| 永州市| 武功县| 大足县| 武冈市| 筠连县|