• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于深度神經(jīng)網(wǎng)絡的企業(yè)信息系統(tǒng)用戶異常行為預測

      2020-07-12 05:09:32彭艷紅葛世倫
      管理科學 2020年1期
      關鍵詞:信息系統(tǒng)分類預測

      尹 雋,彭艷紅,陸 怡,葛世倫,劉 鵬

      1 江蘇科技大學 江蘇高校哲學社會科學重點研究基地,江蘇 鎮(zhèn)江 212003 2 江蘇科技大學 經(jīng)濟管理學院,江蘇 鎮(zhèn)江 212003 3 中國工商銀行 軟件開發(fā)中心,上海 200120

      引言

      企業(yè)信息系統(tǒng)用戶異常行為是系統(tǒng)正常用戶行為模式之外、對企業(yè)信息系統(tǒng)正常運行造成影響的行為[1]。隨著企業(yè)信息系統(tǒng)應用的深入,用戶異常行為的威脅也日益嚴重,不僅影響用戶的工作質(zhì)量和效率,甚至給企業(yè)造成經(jīng)濟損失,威脅到企業(yè)的安全[2-3]。如近10年中國銀行業(yè)的違規(guī)金額損失事故中,由內(nèi)部員工系統(tǒng)使用異常行為引發(fā)的事故占比高達51%[4];2018年4月,韓國三星證券因用戶違規(guī)操作,造成企業(yè)損失高達1.87億美元[5]。對企業(yè)信息系統(tǒng)的用戶異常行為進行預測成為業(yè)界和學界廣泛關注的焦點問題。

      系統(tǒng)使用日志忠實地記錄了系統(tǒng)用戶的行為數(shù)據(jù),使捕捉和分析系統(tǒng)用戶的異常行為成為可能[6],對系統(tǒng)日志進行分析逐漸成為識別用戶異常行為的有效手段。關于系統(tǒng)日志的分析,學界主要形成基于模型[7]、基于規(guī)則[8]和數(shù)據(jù)驅(qū)動[9-10]3類方法,但是,隨著信息系統(tǒng)復雜程度的不斷加大,前兩種方法逐漸難以滿足數(shù)量呈指數(shù)級上升的系統(tǒng)日志的分析需求[11]。因此,結合系統(tǒng)日志提出有針對性的、數(shù)據(jù)驅(qū)動的用戶異常行為分析方法成為學界廣泛探索的開放性課題。

      本研究采用數(shù)據(jù)驅(qū)動的系統(tǒng)日志分析方法,針對企業(yè)信息系統(tǒng)異常行為預測的問題,結合企業(yè)信息系統(tǒng)特征界定企業(yè)信息系統(tǒng)用戶的異常行為,并構建一個加入業(yè)務維度特征的新特征工程方案,采用更能抽象復雜行為模式的深度神經(jīng)網(wǎng)絡方法進行預測,以船舶制造A企業(yè)日志數(shù)據(jù)為實驗環(huán)境進行驗證,初步實驗結果表明,該預測框架在分析和預測企業(yè)信息系統(tǒng)用戶異常行為問題上具有更好的效果。

      1 相關研究評述

      1.1 信息系統(tǒng)領域用戶異常行為

      ANDERSON[12]最早將信息系統(tǒng)用戶異常行為定義為濫用對系統(tǒng)及其數(shù)據(jù)的授權訪問權限。隨后,DENNING[13]提出與軟件系統(tǒng)常規(guī)行為完全不同的用戶行為是異常行為。此外,由于異常行為預測與用戶行為模式之間的密切關系,ZHANG et al.[1]稱異常行為為系統(tǒng)正常用戶行為模式之外的行為。

      按照信息系統(tǒng)的架構層次,可以將信息系統(tǒng)用戶異常行為分為網(wǎng)絡層網(wǎng)絡用戶異常行為、數(shù)據(jù)層數(shù)據(jù)庫用戶異常行為、表達層用戶鼠標異常行為和應用層社交網(wǎng)絡用戶異常行為等,詳見表1。以網(wǎng)絡用戶異常行為研究最為活躍和深入,具體分為基于主機[14]、基于網(wǎng)絡[15]和混合型[16-18]3類問題的研究,目前相關研究成果已運用到政府、能源、教育、電子商務、醫(yī)療和制造業(yè)等各個領域,多數(shù)已開發(fā)了對應的入侵檢測系統(tǒng)。近些年,隨著信息系統(tǒng)承載的數(shù)據(jù)越來越豐富且重要,有學者開始關注信息系統(tǒng)數(shù)據(jù)層的用戶異常行為。李海斌等[19]提出一種無監(jiān)督的檢測數(shù)據(jù)庫內(nèi)部合法用戶行為的方法;SALLAM et al.[20]研究基于query語句向量化特征的異常檢測方法。此外,在信息系統(tǒng)越來越重視用戶體驗的同時,表達層的用戶異常行為也開始受到關注。ZHENG et al.[22]根據(jù)用戶標識,使用支持向量機分類器構建用戶特征的鼠標移動模式;許洪軍等[23]通過卷積神經(jīng)網(wǎng)絡分析用戶鼠標軌跡,檢測用戶異常的鼠標行為。但相對而言,已有研究對應用層的關注并不夠,僅有部分研究對社交網(wǎng)絡用戶異常行為進行探討,針對惡意用戶[24-26]、僵尸用戶[27]、垃圾用戶[28]和虛假用戶[29]等的識別進行研究,但這僅僅是應用層的一個領域。實際上,企業(yè)信息系統(tǒng)用戶異常行為的威脅不容忽視,因為企業(yè)內(nèi)部用戶能夠通過系統(tǒng)驅(qū)動企業(yè)的核心業(yè)務,一旦異常行為造成損失,對企業(yè)而言可能就是致命的打擊。

      1.2 用戶異常行為的特征模型

      為保證預測方法的有效性,需結合具體情景選擇有助于識別用戶異常行為的特征。此外,還需要考慮數(shù)據(jù)獲取和處理時的可行性和效率因素。目前在預測用戶異常行為的研究中選取的特征主要分為兩類,一類是用戶的個體屬性特征。李海斌等[19]在研究數(shù)據(jù)庫用戶異常行為時,選取用戶角色和用戶工作狀態(tài)等用戶屬性特征;談磊等[24]在分析社交網(wǎng)絡惡意行為時選取用戶資料為特征。另一類是用戶的行為屬性特征。李海斌等[19]選取數(shù)據(jù)庫的單日內(nèi)訪問數(shù)據(jù)量、單日內(nèi)訪問不同表總個數(shù)作為特征;張艷梅等[30]在對新浪微博的異常用戶行為進行分析時選取發(fā)文頻率、發(fā)博文數(shù)和離線時間等行為屬性;岳虹等[25]在對僵尸微博用戶進行分析時選取轉(zhuǎn)發(fā)比例和提及其他用戶比例等屬性。

      表1 信息系統(tǒng)領域用戶異常行為研究Table 1 Research on User Abnormal Behavior in Information System Domain

      1.3 預測用戶異常行為的方法

      根據(jù)已有研究,預測用戶異常行為的方法可以分為統(tǒng)計方法和基于機器學習的方法。統(tǒng)計方法是指收集和分析用戶行為數(shù)據(jù)并由數(shù)據(jù)得出結論的一系列方法,包括分析用戶行為正常狀態(tài)以及與正常行為不同的異常行為。然而,統(tǒng)計方法需要準確的統(tǒng)計分布,當統(tǒng)計特征值不明顯或者變化較大時,誤報率和漏報率高,而且隨著數(shù)據(jù)量和特征維度的增長,還導致異常行為分析效率降低。例如,經(jīng)典的多元線性回歸方法(MLR)適用于線性相關情況的預測,且需事先篩選出對因變量影響較高的自變量。為此,很多研究通過機器學習方法取得了較好的預測效果,相應的方法有樸素貝葉斯方法(NB)、K近鄰算法(KNN)、支持向量機算法(SVM)和神經(jīng)網(wǎng)絡算法等。樸素貝葉斯方法較適合小數(shù)據(jù)規(guī)模,且對于數(shù)據(jù)的表達形式較敏感,需要計算先驗概率;K近鄰模型的時間和空間復雜度都比較高,效率相對比較低;SVM能較好地解決高維問題并提高泛化能力,在預測大規(guī)模日志行為數(shù)據(jù)的異常行為研究中的應用越來越廣泛[24,26],但當特征變量較多時,分類效率有所降低;而神經(jīng)網(wǎng)絡算法以神經(jīng)元數(shù)學模型為基礎,通過模擬人腦學習新事物的方式工作,通過獲取主題的行為模式特征,利用神經(jīng)網(wǎng)絡的識別、分類和歸納能力,實現(xiàn)對用戶行為模式的預測,其優(yōu)勢在于效率和準確率高、適應性強,目前越來越多地應用在專門的網(wǎng)絡防御和預測社交網(wǎng)絡用戶行為異常等任務中[19]。

      1.4 評述

      綜上所述,針對用戶異常行為數(shù)據(jù)的多層次、大規(guī)模和數(shù)據(jù)不平衡等特點,已有研究從信息系統(tǒng)架構的多個層次開展了許多有益的工作。然而,作為直接面向用戶的信息系統(tǒng)應用層,其識別模式有別于其他技術層次,具有高度的領域相關性和更直接的行為后果,已有研究還有待進一步豐富和深化。①從應用領域方面,已有研究大多關注社交網(wǎng)絡用戶的異常行為,這些僅反映一個代表性領域。②從方法方面,由于用戶異常行為數(shù)據(jù)的特征,相關工作主要基于機器學習的方法進行預測,對于小規(guī)模的用戶異常行為數(shù)據(jù),貝葉斯的識別效率較高,但計算復雜;對于相對高維的數(shù)據(jù),SVM具有較好的性能,因而在預測異常用戶行為研究中被廣泛使用[24,26],但當特征變量較多時,分類效果并不好;神經(jīng)網(wǎng)絡算法能克服上述兩種方法的缺陷,對當前大規(guī)模、高維的用戶異常行為數(shù)據(jù),其預測的表現(xiàn)更好[19],但收斂速度慢,且特征的抽取只有一層?;谏鲜龇治?,本研究關注應用層的企業(yè)信息系統(tǒng)領域,該領域的用戶異常行為不僅影響用戶工作質(zhì)量,更重要的是直接影響企業(yè)效益,甚至企業(yè)安全;在方法方面選用深度神經(jīng)網(wǎng)絡,建立現(xiàn)有特征模型到高層次語義特征之間的映射關系,以提高預測的準確率。

      2 企業(yè)信息系統(tǒng)用戶異常行為預測框架

      信息系統(tǒng)中的用戶異常行為帶來的負面影響程度不一,但都不可小覷,如用戶在不允許登錄系統(tǒng)的時間段內(nèi)[1]向未經(jīng)授權的目的地發(fā)送敏感數(shù)據(jù)、企圖入侵計算機或無意中非法操作了信息系統(tǒng),可能造成數(shù)據(jù)泄露和丟失等情況。此外,用戶由于自身原因出現(xiàn)的工作超時行為[31]和不當退出行為,使用戶工作效率降低或數(shù)據(jù)損壞和丟失,甚至造成直接或間接經(jīng)濟損失[32]。因此,結合企業(yè)信息系統(tǒng)特征和已有研究,本研究將企業(yè)信息系統(tǒng)用戶異常行為定義為:當企業(yè)信息用戶偏離正常行為模式,或者用戶的行為有可能具有非法操作系統(tǒng)的嫌疑,對企業(yè)業(yè)務造成威脅時,稱為異常。

      在前述分析的基礎上,本研究提出建立企業(yè)信息系統(tǒng)用戶異常行為預測框架,見圖1,該模型主要包括用戶異常行為分類和界定、特征工程、模型訓練和模型評估4個模塊。其基本思想為:首先,本研究關注應用層用戶行為異常,這種異常往往與時間和地點相關,具體包括無意產(chǎn)生、基于規(guī)則和基于知識3類異常[33],本研究模型將結合已有研究和企業(yè)信息系統(tǒng)的管理特征進行異常行為的進一步分類和界定。其次,由于企業(yè)信息系統(tǒng)本質(zhì)是對各企業(yè)具體業(yè)務的管理,不同的業(yè)務類型直接影響用戶行為模式,因此本研究提出將業(yè)務維度納入特征模型,以提升特征的識別度。此外,考慮到用戶異常行為的復雜性,本研究采用深度神經(jīng)網(wǎng)絡作為用戶異常行為的預測方法,該方法更能適應多維度和大規(guī)模的數(shù)據(jù),有助于建立現(xiàn)有特征模型到高層次語義特征之間的映射關系,從而提高預測的準確率。

      2.1 用戶異常行為分類和界定

      用戶異常行為的分類和界定是進行分析預測的起點,目前用戶異常行為研究涉及到多種異常行為的分類,如按復雜程度分為簡單異常和復雜異常[19],按發(fā)生的層次分為運輸層異常和網(wǎng)絡層異常等[34]。本研究考慮可能對企業(yè)信息系統(tǒng)產(chǎn)生不良后果的用戶異常行為,從用戶認知特征的角度進行異常行為分類,即結合ZHAO et al.[33]的研究將異常分為無意產(chǎn)生、基于規(guī)則和基于知識。此外,為了能夠更明確地界定用戶異常行為,梳理相應的界定標準,目前應用層的異常行為主要基于時間和地點進行界定。

      綜合已有研究以及對企業(yè)情況的訪談調(diào)研,將企業(yè)信息系統(tǒng)異常行為的分類、界定方式以及可能的情景和后果進行梳理,結果見表2。

      (1)基于時間的用戶行為異常界定

      主要考慮兩種時間,用戶登錄時間Tin和退出時間Tout,且均以秒計算。假設企業(yè)規(guī)定每天CTin時刻開始工作,CTout時刻結束工作,考慮到真實的企業(yè)情景,合理的登錄和退出時間可能允許有偏差,因此用一個偏離值ΔT修正合理登錄和退出時間,相應地,可以界定的3類基于時間的異常分別為無退出時間異常、非正常時間登錄異常和超出合理操作時間異常。

      圖1 企業(yè)信息系統(tǒng)用戶異常行為預測框架Figure 1 Prediction Framework of User Abnormal Behavior in Enterprise Information System

      分類說明企業(yè)信息系統(tǒng)異常界定可能的情景和后果無意產(chǎn)生未按計劃執(zhí)行的動作[33]基于時間:無退出時間誤操作或操作不規(guī)范,使業(yè)務未進行完就退出模塊可能后果:數(shù)據(jù)冗余、數(shù)據(jù)異?;谝?guī)則規(guī)則被錯誤地應用于熟悉的場景[33,35]基于時間:非正常時間登錄(1)用戶可能盜用賬戶信息,在非正常時間登錄基于地點:未在規(guī)定地點登錄(2)用戶可能盜用賬戶信息,在非常規(guī)地點登錄可能后果:數(shù)據(jù)泄露或執(zhí)行違規(guī)業(yè)務操作,如修改審批價格造成經(jīng)濟損失、違規(guī)審批采購單造成企業(yè)生產(chǎn)受阻基于知識思維模式錯誤或知識儲備不足[33,35]基于時間:超出合理操作時間(1)用戶登錄后長時間不退出,占用系統(tǒng)資源(2)用戶登錄后立刻退出,形成無效操作可能后果:大量類似操作造成系統(tǒng)堵塞

      ①無退出時間異常

      此類異常對應無退出時間的記錄。當用戶誤操作、操作不規(guī)范等原因?qū)е滦畔⑾到y(tǒng)無響應或異常關閉時,用戶正常的業(yè)務操作進程中斷,則系統(tǒng)中的退出時間Tout丟失,此時的操作記錄中Tout∈?。

      ②非正常時間登錄異常

      該類異常對應非正常登錄時間記錄。根據(jù)企業(yè)實際情況,企業(yè)正常的工作時間為CTin-ΔT~CTout+ΔT。若操作記錄中出現(xiàn)登錄時間Tin?(CTin-ΔT,CTout+ΔT),表明用戶在不允許登錄系統(tǒng)的時間段內(nèi)非法登錄系統(tǒng),可能破壞信息系統(tǒng)的安全性,使企業(yè)機密信息被泄漏,嚴重時還導致其核心競爭力下降。因此,本研究將該行為對應的操作記錄定義為非正常時間登錄異常。

      ③超出合理操作時間異常

      (2)基于地點的用戶行為異常界定

      地點是指用戶登錄企業(yè)信息系統(tǒng)所處的位置,通常用IP地址表示主機所處的位置,用戶通常在固定的地方使用信息系統(tǒng)完成企業(yè)業(yè)務。根據(jù)企業(yè)具體情況分為兩種,一種是設定企業(yè)正常IP地址總集合IPset;另一種對用戶行為控制要求高的企業(yè),可以以用戶為單位設置其能進行操作的正常IP地址集合(UserID,IPset),相應地,可以界定超出正常IP地址集合登錄的行為即為未在規(guī)定地點登錄異常。

      2.2 特征工程

      特征工程主要實現(xiàn)從原始數(shù)據(jù)到可供算法直接使用的特征數(shù)據(jù)的轉(zhuǎn)化,特征決定了機器學習的上限,而訓練模型只是盡可能接近該上限,因此結合具體研究問題進行特征模型構建尤其重要。已有相關研究的特征模型主要分為用戶屬性特征和用戶行為特征兩類。由于企業(yè)信息系統(tǒng)承載了各企業(yè)的具體業(yè)務,應考慮將用戶行為涉及的業(yè)務維度納入特征模型。

      基于上述分析,本研究提出構建用戶屬性特征、用戶行為特征和業(yè)務特征3類特征,3類特征的選取思路如下。

      (1)用戶屬性特征

      已有研究發(fā)現(xiàn),在信息系統(tǒng)操作過程中,性別是一個影響個體對信息系統(tǒng)認知和行為的重要因素[36-37],而年齡的差異使用戶對系統(tǒng)的認知和處理方式等有所不同,從而影響用戶使用信息系統(tǒng)的態(tài)度和行為[38-39]。此外,根據(jù)認知決策理論的闡述[40],用戶在復雜環(huán)境中做出決策,受到個人經(jīng)驗和技術能力的影響,具體而言,工齡是用戶在企業(yè)工作時間長短,主要體現(xiàn)用戶的工作經(jīng)驗[41],職稱級別主要用于區(qū)分用戶的工作能力和技術水平[42]。因此,在用戶基本屬性方面,本研究選取性別、出生日期、進廠日期和職稱級別4個特征。

      (2)用戶行為特征

      用戶的操作時間、時間間隔和操作技能成熟度等因素都對用戶行為產(chǎn)生影響[43],本研究將這3個特征納入用戶行為特征的子集。

      (3)業(yè)務特征

      用戶操作的功能與其業(yè)務職能直接掛鉤,因此需要考慮用戶操作功能的業(yè)務特性,具體包括用戶操作系統(tǒng)的業(yè)務類型和業(yè)務成熟度。此外,在企業(yè)內(nèi)部各部門之間,用戶行政級別的高低體現(xiàn)了不同用戶群體之間的業(yè)務責任差異,這類職責差異直接影響其行為模式[44]。因此,本研究選取業(yè)務層級、業(yè)務操作類型和業(yè)務成熟度3個特征。

      特征模型的構建具體包含4個過程。①原始特征提取,就本框架而言,將從企業(yè)信息系統(tǒng)的用戶基本信息數(shù)據(jù)、用戶日志數(shù)據(jù)和業(yè)務數(shù)據(jù)中進行抽?。虎谀繕颂卣鳂嬙?;③特征數(shù)值化編碼;④特征分級縮放。

      2.3 模型訓練

      由于企業(yè)信息系統(tǒng)用戶行為數(shù)據(jù)量大,模式復雜,為了能層層抽取用戶異常行為的抽象特征,建立現(xiàn)有的特征模型到高層次語義特征之間的映射關系,結合對用戶異常行為相關預測方法的分析,本框架選擇深度神經(jīng)網(wǎng)絡(DNN)構建預測模型。目前深度神經(jīng)網(wǎng)絡被廣泛用于圖像處理、語音識別、搜索引擎等許多領域,它能夠從大量數(shù)據(jù)中學習分類所需的高層和抽象的特征表示[45]。

      DNN模型是一種前饋人工神經(jīng)網(wǎng)絡[45],根據(jù)節(jié)點在網(wǎng)絡中的位置,可分為輸入層、隱藏層和輸出層。與淺層網(wǎng)絡相比,DNN具有多個隱藏層,且每一層也可以有數(shù)量較多的神經(jīng)單元,當前層的輸出將作為下一層的輸入。由此,可構造出層層疊加的網(wǎng)絡結構,見圖2。

      圖2 DNN結構概念圖Figure 2 DNN Structure Concept Diagram

      DNN中各變量間都存在對應關系。假設存在(N+1)層的DNN,其中,輸入層為第0層,隱藏層為第1層到第(N-1)層,輸出層為第N層。存在n∈(0,N],對任意的第n層,都有如下對應關系,即

      (1)

      (2)

      具體訓練過程為:將原始特征輸入深度神經(jīng)網(wǎng)絡的Sequential模型,進行多次的模擬訓練,選擇出最優(yōu)的初始化參數(shù)設置,在最優(yōu)參數(shù)的模型訓練下獲得最高層的特征表達,將其輸入混淆矩陣分類模型[46]中進行模型的評估。

      表3 UserLog表中原始數(shù)據(jù)的部分記錄Table 3 Partial Record of the Original Data in the UserLog Table

      表4 UserInfo表中原始數(shù)據(jù)的部分記錄Table 4 Partial Record of the Original Data in the UserInfo Table

      2.4 模型評估

      為測量和驗證本研究預測框架的有效性和準確性,本研究將進行兩個層次的模型評估。第1層,考慮是否加入業(yè)務特征,比較模型的預測效果;第2層,與統(tǒng)計類經(jīng)典方法(多元線性回歸)和機器學習經(jīng)典方法(支持向量機)進行比較,驗證模型預測的準確性。

      具體評估指標方面,采用召回率、查準率和AUC共3個常用指標,召回率和查準率反映預測方法針對信息系統(tǒng)異常行為的分類能力,AUC值主要用來評估二值分類器的好壞。

      3 實驗結果和分析

      為驗證預測框架的有效性,本研究選取A船舶制造企業(yè)為實驗對象,因為:①該企業(yè)為行業(yè)內(nèi)業(yè)績領先的大型修造船企業(yè),屬于典型的大型單件小批制造企業(yè),業(yè)務復雜,因而樣本具有一定的代表性;②企業(yè)于2011年11月起開始正式啟用ERP系統(tǒng)并應用至今,良好的應用基礎為本研究提供了大量的實驗數(shù)據(jù),對該樣本進行研究具有可行性;③企業(yè)在信息化應用過程中出現(xiàn)過多次由用戶異常行為造成的損失,對用戶異常行為的管理提出明確的需求,這為本研究提供了良好的案例環(huán)境。

      3.1 數(shù)據(jù)準備

      本研究選取A企業(yè)2011年10月至2017年9月共72個月的用戶操作企業(yè)信息系統(tǒng)日志數(shù)據(jù)作為數(shù)據(jù)來源,采用覆蓋用戶范圍較廣的業(yè)務部門、職能部門和信息部門的信息系統(tǒng)作為研究對象。就本研究而言,需要用到系統(tǒng)中的日志信息表(UserLog)、用戶信息表(UserInfo)和系統(tǒng)信息表(Module),基本數(shù)據(jù)情況見表3、表4和表5。字段含義分別為LoginName為用戶名,LoginTime為登錄時間,LogoutTime為退出時間,ModuleName為功能名,Department為所在部門,Gender為性別,BirthDate為出生日期,JoinDate為進廠日期,Prank為職稱級別,PositionRank為行政級別,MoName為模塊名,ModuleType為功能類型,SysName為系統(tǒng)名。

      表5 Module表中原始數(shù)據(jù)的部分記錄Table 5 Partial Record of the Original Data in the Module Table

      注:DSS為決策支持系統(tǒng),TPS為事務處理系統(tǒng)。

      經(jīng)統(tǒng)計,UserLog表中源數(shù)據(jù)共1 611 288條,通過對表中空缺數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)、重復數(shù)據(jù)以及不完整數(shù)據(jù)進行處理,共獲取1 569 246條日志數(shù)據(jù),結合UserInfo表得到研究樣本,用戶信息統(tǒng)計見表6。

      根據(jù)用戶信息系統(tǒng)使用日志數(shù)據(jù)計算出登錄時長(LoginTime-LogoutTime),單位為秒(s),統(tǒng)計結果見表7。

      3.2 用戶異常行為數(shù)據(jù)

      結合2.1,根據(jù)異常發(fā)生情況的不同,本研究將企業(yè)信息系統(tǒng)中可能的用戶異常行為分為3類,即無退出時間異常、非正常時間登錄異常和超出合理操作時間異常。該企業(yè)規(guī)定的工作時間范圍為8:00-18:00,根據(jù)企業(yè)實際情況,設置偏離值為2小時,則正常登錄時間范圍為6:00-20:00,若操作記錄中出現(xiàn)登錄時間Tin?(6:00,20:00),則表明用戶在不允許登錄系統(tǒng)的時間段內(nèi)異常登錄系統(tǒng),具體統(tǒng)計情況見表8。

      表8 3類用戶異常行為分類數(shù)據(jù)描述Table 8 Three Types of User Abnormal Behavior Classification Data Description

      圖3 月異常率趨勢Figure 3 Monthly Abnormal Rate Trend

      3.3 特征構建

      本框架的特征模型包含4個過程。

      (1)原始特征提取,從日志數(shù)據(jù)中提取所有9個原始特征。

      在用戶基本屬性方面,選取用戶名、性別、出生日期、進廠日期和職稱級別5個原始特征,主要從用戶信息表進行特征數(shù)據(jù)提??;在用戶系統(tǒng)業(yè)務屬性方面選取業(yè)務層級和操作功能類型兩個原始特征,主要從系統(tǒng)信息表和日志信息表提取特征數(shù)據(jù);在用戶行為屬性特征方面,選取登錄時間和操作功能兩個原始特征,主要從日志信息表提取特征數(shù)據(jù)。

      (2)目標特征構建,通過特征提取得到9維特征子集后,進一步構建新特征。

      在用戶基本屬性方面,對用戶年齡和工齡進行目標特征構建,用戶年齡=當前操作日期-出生日期,工齡=當前操作日期-進廠日期;在用戶系統(tǒng)業(yè)務屬性方面,構建業(yè)務成熟度特征,業(yè)務成熟度為功能投入使用至員工本次登錄時間的間隔月數(shù);在用戶行為屬性特征方面,增加技能成熟度、登錄時間間隔和操作時間段3個目標特征,技能成熟度是指本次操作為止該用戶操作的總次數(shù),登錄時間間隔為距上一次登錄時間的間隔,操作時間段指用戶登錄的時間段。

      與具體數(shù)據(jù)表的特征匹配情況見圖4。

      (3)特征數(shù)值化編碼,見表9。

      (4)特征分級縮放。由于用戶原始特征對極端值不太敏感,故本研究使用分級縮放對操作技能成熟度和登錄時間間隔兩個特征進行數(shù)據(jù)的標準化,見表10。

      3.4 DNN模型參數(shù)設置

      (1)在具體的DNN模型構建中,本研究設置適當?shù)呐叽?batch_size=128)和訓練輪次(epochs=100),使模型在內(nèi)存不溢出的情況下達到最佳運算效率。為提高模型收斂效果,本研究采用可變的學習速率方案,令學習速率隨著學習進展逐步減小。具體的動態(tài)學習率計算方法為

      (3)

      其中,lrate為學習率;initial_lrate為初始學習率,本研究模型中為0.10;drop為每個周期的衰減率,本研究模型中為0.50;epoch為當前訓練輪次數(shù)量;epochs_drop為每個周期中包含的訓練輪次數(shù)量,本研究模型中為4,即模型的學習率每經(jīng)過4個訓練輪次就會衰減50%。

      (2)本研究在其他條件不變的情況下,改變模型中的隱藏層層數(shù)和層中神經(jīng)元數(shù)量,采用業(yè)務信息系統(tǒng)的全特征子集進行訓練和測試,得到的模型性能對比結果見圖5和圖6。其中,圖例中每條線對應的數(shù)組表示輸入層、隱藏層和輸出層神經(jīng)元的個數(shù)。例如,圖5中紫色線對應的數(shù)組為[10,16,32,16,1],表示的神經(jīng)網(wǎng)絡配置為:包含10個神經(jīng)元的輸入層和1個神經(jīng)元的輸出層,隱藏層的數(shù)量為3個,3個隱藏層中包含的神經(jīng)元個數(shù)分別為16、32、16。

      綜合分析圖5和圖6的結果可以發(fā)現(xiàn),當網(wǎng)絡配置為[10,64,128,256,128,64,1]時,模型性能處于相對最好、最穩(wěn)定的狀態(tài)。因此,本研究的DNN模型中采用該配置下的參數(shù)值。

      圖4 企業(yè)信息系統(tǒng)用戶異常行為特征匹配關系Figure 4 Matching Relationship of User Abnormal Behavior Characteristics of Enterprise Information System

      圖5 不同隱藏層層數(shù)與層中神經(jīng)元數(shù)量配置下模型召回率對比Figure 5 Comparison Diagram of Recall of Model Based on Different Number of Hidden Layers and Neurons in the Layer

      表10 技能成熟度和登錄時間間隔分級映射對應關系Table 10 Hierarchical Mapping Correspondence of Skill Maturity and Logintime Interval

      (3)本研究在解決分類不平衡問題時采用設置懲罰系數(shù)的方法[47],通過降低負樣本對模型的影響和提高正樣本對模型的影響來保障正負樣本對模型的影響大致相同,以提高模型訓練的有效性。

      (4)配置合理的激活函數(shù)[48],讓模型具備非線性因素,提高模型的表達能力。此外,為避免過擬合現(xiàn)象[49],模型加入Dropout層,優(yōu)化了網(wǎng)絡層之間的連接結構。

      3.5 模型分類效果評估

      采用兩個實驗分別對本研究提出的預測框架中特征模型的有效性以及最終預測結果的有效性進行分析。

      圖6 不同隱藏層層數(shù)與層中神經(jīng)元數(shù)量配置下模型AUC對比Figure 6 Comparison Diagram of AUC of Model Based on Different Number of Hidden Layers and Neurons in the Layer

      3.5.1 實驗1:特征模型對比

      對比不考慮業(yè)務特征和加入業(yè)務特征的情況下,驗證本預測框架的性能。具體步驟為:①選擇所有用戶的行為日志數(shù)據(jù),基于已有研究,只采用包括用戶基本屬性和行為屬性的7個經(jīng)典特征進行預測;②加入代表業(yè)務特性的3個特征進行訓練,比較不同特征數(shù)量下本研究方法的分類效果,驗證本研究提出的特征模型有效性。

      實驗1的對比分析共輸出100行模型性能數(shù)據(jù),以訓練輪次為橫坐標,模型性能為縱坐標,繪制預測結果折線圖,結果見圖7。圖7中的(a)、(b)、(c)分別給出召回率、查準率和AUC的變化趨勢,可以看出,加入業(yè)務特性后的特征模型預測準確性有明顯提高,召回率、查準率和AUC分別提高3.52%、2.16%和3.36,說明這些業(yè)務特征能夠提高特征模型對用戶異常行為的識別度。

      這進一步說明就本案例而言,本預測模型的特征選取方式是合理的,符合企業(yè)信息系統(tǒng)的特點。但與傳統(tǒng)預測方法相比是否具有優(yōu)勢,需要通過第2個實驗進一步驗證。

      3.5.2 實驗2:預測方法的對比

      通過與MLR分類和SVM分類等其他預測方法的對比驗證本研究模型的有效性。此外,考慮到A企業(yè)信息系統(tǒng)用戶來自不同部門,不同部門用戶產(chǎn)生的行為異常往往是不同的。因此,為了進一步考察預測框架的適用性,下面的預測實驗也包含了針對不同部門的異常行為預測分析。

      (1)MLR分類

      所有部門:

      0.4005X5+0.1196X6-0.2007X7-0.3935X8+

      0.6493X9+0.1774X10-7.1149

      (4)

      業(yè)務部門:

      0.0016X5+0.0018X6+0.0012X7+0.0003X8-

      0.0544X9-0.0495X10-0.0157

      (5)

      職能部門:

      0.0004X5+0.001X6+0.0013X7-0.0012X8-

      0.0447X9-0.1096X10-0.0197

      (6)

      信息部門:

      0.0028X5+0.0001X6+0.0001X7+0.0009X8-

      0.0404X9-0.0004X10-0.3809

      (7)

      表11 多重線性回歸結果Table 11 Results for Multiple Linear Regression

      (a)召回率對比

      (b)查準率對比

      (c)AUC對比圖7 不同特征數(shù)量下的比較結果Figure 7 Comparison Results with Different Feature Quantities

      表12 MLR模型的預測結果Table 12 Prediction Results for the MLR Model

      根據(jù)表12,各部門的召回率都遠低于50%的自然分類結果,MLR的分類效果很差,表明用戶行為模式呈現(xiàn)出線性不可分的狀態(tài)。因此,不能采用MLR的方法進行用戶異常行為的分類。

      (2)SVM分類

      MLR分類實驗的研究結果表明,用戶異常行為的預測問題是線性不可分的問題,因此屬于非線性分類的SVM問題,需要引入內(nèi)核擴展方法。本研究有10個輸入維度,根據(jù)公式可知,如果映射到特征空間,會產(chǎn)生65個維度,故需要尋找合適的核函數(shù),降低計算量,提高運算效率。測試發(fā)現(xiàn),高斯核函數(shù)的性能相對較好,選該函數(shù)作為SVM模型的核函數(shù),并對其γ值進行配置測試,發(fā)現(xiàn)γ=20時效果最佳;選擇1 024作為批尺寸的大小,使模型在內(nèi)存允許的情況下達到最大的運算速度;采用構建懲罰系數(shù)的計算方法,解決分類不平衡的問題。實驗結果見表13。

      表13 SVM模型的預測結果Table 13 Prediction Results for the SVM Model

      根據(jù)表13,所有部門以及3個部門在SVM模型下的預測結果均高于自然分類的50%的閾值,明顯優(yōu)于MLR預測結果,但仍然沒有達到理想狀態(tài),說明10個維度的特性仍然沒有很好地抽取出來用于最后的訓練。從分類效果看,SVM模型相當于單層神經(jīng)網(wǎng)絡的訓練效果。因此,本研究的用戶異常行為預測框架中采用深度神經(jīng)網(wǎng)絡模型是合理的,可以層層抽取各個特征的特性用于訓練。

      根據(jù)表11~表13,將3種預測模型或方法進行信息匯總,結果見表14。

      統(tǒng)計方法中的MLR分類結果表明,3個部門的召回率都低于自然分類結果,表明用戶異常行為呈現(xiàn)出線性不可分的數(shù)據(jù)狀態(tài),而采用非線性的SVM模型進行分類,分類效果得到顯著提高。但由于非線性的SVM模型相當于單層的簡單神經(jīng)網(wǎng)絡的特性,其抽取各個特征的特性的能力較弱,故在防止過度擬合的情況下,需要考慮增加模型的復雜度以提高模型的召回率。在最終采用的深度神經(jīng)網(wǎng)絡分類模型中,所有部門、業(yè)務部門和職能部門的用戶異常行為預測的召回率分別為74.28%、77.40%和73.64%,查準率分別為77.12%、84.56%和74.68%,AUC分別為0.84、0.88和0.82;但信息部門的召回率和查準率始終都低于70%,AUC低于0.75,即該模型在信息部門的數(shù)據(jù)上表現(xiàn)較差。由此可以表明,DNN模型在用戶異常行為分類問題的研究中,性能優(yōu)于MLR和SVM預測模型。

      此外,對3個部門的模型進一步比較可以發(fā)現(xiàn),在與企業(yè)業(yè)務直接相關的業(yè)務部門和職能部門中,用戶異常行為被較好地識別出來,而信息部門的分類效果不佳,這也恰好說明本研究選取的特征與企業(yè)的業(yè)務緊密相關,而信息部門用戶的主要職責是輔助其他部門用戶實施信息系統(tǒng),其本身的操作不涉及企業(yè)的主要業(yè)務流程,因此用本研究的用戶異常行為預測框架預測信息部門的用戶異常行為效果欠佳。

      綜合以上實驗結果可知,本研究提出的加入業(yè)務維度的特征模型能夠有效提高模型的效果,與統(tǒng)計方法和機器學習方法相比,本研究模型表現(xiàn)得更好。

      表14 不同預測模型的預測結果對比信息匯總Table 14 Comparison Information Summary for Prediction Results of Different Prediction Models

      4 結論

      4.1 研究結果

      針對企業(yè)信息系統(tǒng)用戶異常行為的預測問題,為提高預測的準確性,本研究基于深度神經(jīng)網(wǎng)絡方法構建一種企業(yè)信息系統(tǒng)用戶異常行為預測框架,并進行驗證,得出研究結果如下。

      (1)提出一套企業(yè)信息系統(tǒng)的非開放式用戶異常行為預測框架,具體包括用戶異常行為分類和界定、特征工程、模型訓練和模型評估4個模塊,并通過案例企業(yè)的實際數(shù)據(jù)初步驗證了其有效性。

      (2)加入業(yè)務特征后的新特征工程方案,在預測和分析企業(yè)信息系統(tǒng)異常行為方面有更好的表現(xiàn),召回率、查準率和AUC分別提高3.52%、2.16%和3.36。

      (3)通過與統(tǒng)計方法的MLR和機器學習的SVM比較,預測效果均有相應提升,與MLR相比,召回率和查準率分別提高16.49%和7.48%;與SVM相比,召回率、查準率和AUC分別提高3.09%、5.09%和0.08。

      4.2 理論意義和實踐意義

      本研究的理論意義在于:①與已有研究主要考慮網(wǎng)絡層、數(shù)據(jù)層和表達層的用戶異常行為不同,本研究重點聚焦應用層的企業(yè)信息系統(tǒng),提出基于深度神經(jīng)網(wǎng)絡的用戶異常行為預測框架,補充和豐富了用戶異常行為的研究成果,并通過一個典型企業(yè)的實驗分析初步驗證了該模型的有效性。②驗證了深度神經(jīng)網(wǎng)絡方法對應用層用戶異常行為預測研究的作用, 一定程度上為深度學習在應用層用戶異常行為的預測研究方面增加了新的證據(jù)。已有關于應用層用戶異常行為的研究大部分集中在社交網(wǎng)絡領域,對企業(yè)信息系統(tǒng)缺乏關注,且主要采用機器學習方法,如貝葉斯[30]和SVM[24,26]等,這些方法屬于單層的特征學習,對復雜的行為模式缺乏多層次的特征抽取。本研究提出一個更為集成的特征方案,即在企業(yè)信息系統(tǒng)情景下考慮加入業(yè)務特征維度,并采用深度神經(jīng)網(wǎng)絡抽取并建立高層次語義特征的映射,豐富了用戶異常行為的理論研究,也為后續(xù)其他復雜行為模式的用戶異常行為預測研究提供了新的研究思路。

      本研究的實踐意義在于:①本研究使用實際的企業(yè)信息系統(tǒng)用戶行為數(shù)據(jù)進行實驗,提出的方法預測性能較好,可以將該方法推廣到企業(yè),輔助企業(yè)進行更有針對性的預防和管理決策,減少用戶異常行為可能帶來的損失;②除關注影響異常的用戶特征和行為特征,業(yè)務特性也是影響異常的一個關鍵因素,企業(yè)需要充分關注用戶操作所對應的屬性,如業(yè)務類型和業(yè)務層級,這些可能是企業(yè)制定差異化安全策略的重要依據(jù)。

      4.3 局限性和未來研究方向

      本研究仍然存在一些局限性,需要在未來研究中進行擴展。①不同的用戶異常行為可能帶來不同的后果,本研究目前是將3類用戶異常行為都視為一類進行研究,未來研究可細化分析不同用戶異常行為的預測模型,使研究更具有針對性;②由于實驗企業(yè)的實際情況,本預測框架只初步驗證3類基于時間的用戶異常,在未來研究中應逐步加入基于地點的用戶異常情況,如結合企業(yè)的業(yè)務特征和政策環(huán)境,進一步收集其他類型企業(yè)的信息系統(tǒng)數(shù)據(jù)集進行分析;③本研究的相關結果主要通過構建預測框架和實驗分析得到,在后續(xù)的研究中應嘗試從理論層面尋找企業(yè)信息系統(tǒng)用戶異常行為的影響機制,進而對用戶異常行為的管理提出更有針對性的管控策略。

      猜你喜歡
      信息系統(tǒng)分類預測
      無可預測
      黃河之聲(2022年10期)2022-09-27 13:59:46
      選修2-2期中考試預測卷(A卷)
      選修2-2期中考試預測卷(B卷)
      企業(yè)信息系統(tǒng)安全防護
      哈爾濱軸承(2022年1期)2022-05-23 13:13:18
      分類算一算
      分類討論求坐標
      基于區(qū)塊鏈的通航維護信息系統(tǒng)研究
      電子制作(2018年11期)2018-08-04 03:25:54
      數(shù)據(jù)分析中的分類討論
      信息系統(tǒng)審計中計算機審計的應用
      消費導刊(2017年20期)2018-01-03 06:26:40
      教你一招:數(shù)的分類
      清水县| 昌乐县| 西林县| 广昌县| 海口市| SHOW| 梁河县| 安多县| 兰坪| 荃湾区| 斗六市| 大宁县| 海宁市| 周宁县| 密山市| 洮南市| 奉贤区| 抚松县| 南开区| 青州市| 黄浦区| 丰原市| 临潭县| 晋州市| 改则县| 谷城县| 延吉市| 手机| 利川市| 辛集市| 新田县| 沽源县| 泾源县| 广东省| 淮安市| 申扎县| 资兴市| 柳林县| 惠东县| 长治县| 安阳市|