趙 文 霍旭輪
(三亞航空旅游職業(yè)學(xué)院,海南 三亞 572000)
隨著信息技術(shù)的發(fā)展,在高校信息管理中將數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校網(wǎng)絡(luò)維護(hù)管理、教學(xué)資源管理和教務(wù)管理等方面已經(jīng)成為一種重要的手段。其中,在高校網(wǎng)絡(luò)維護(hù)管理方面,應(yīng)用數(shù)據(jù)挖掘技術(shù)對于網(wǎng)絡(luò)故障進(jìn)行診斷,找出導(dǎo)致故障發(fā)生的原因,提高網(wǎng)絡(luò)運(yùn)維的效率,對于高校網(wǎng)絡(luò)健康發(fā)展具有非常重要的現(xiàn)實(shí)意義。
高校網(wǎng)絡(luò)運(yùn)維管理系統(tǒng)是保障高校校園網(wǎng)絡(luò)服務(wù)質(zhì)量的主要系統(tǒng)之一,其能夠準(zhǔn)確并及時地應(yīng)對各類網(wǎng)絡(luò)故障,保證高校網(wǎng)絡(luò)的服務(wù)水平。高校網(wǎng)絡(luò)具有典型的用戶特征、數(shù)據(jù)交換特點(diǎn)和網(wǎng)絡(luò)應(yīng)用需求,因此高校網(wǎng)絡(luò)運(yùn)維管理系統(tǒng)主要是對用戶運(yùn)維管理、網(wǎng)絡(luò)資源運(yùn)行管理和網(wǎng)絡(luò)資源監(jiān)控管理。其中,用戶運(yùn)維管理是用戶可以自助開通和變更服務(wù)內(nèi)容和狀態(tài);網(wǎng)絡(luò)資源運(yùn)行管理是對校內(nèi)的IP地址資源、網(wǎng)絡(luò)設(shè)備資源、設(shè)備設(shè)置信息、應(yīng)用服務(wù)資源進(jìn)行管理;網(wǎng)絡(luò)資源監(jiān)控管理是對網(wǎng)絡(luò)路由拓?fù)錉顟B(tài)、入網(wǎng)設(shè)備位置追蹤、網(wǎng)絡(luò)設(shè)備監(jiān)控系統(tǒng)和應(yīng)用服務(wù)監(jiān)控系統(tǒng)管理。
數(shù)據(jù)挖掘是基于數(shù)據(jù)倉庫提取具有潛在價值的信息,經(jīng)過加工計算發(fā)現(xiàn)規(guī)律,進(jìn)而為決策做出可靠性判斷。數(shù)據(jù)挖掘的前提要保證被挖掘的數(shù)據(jù)具有一定的規(guī)模、挖掘模型具有復(fù)雜性、數(shù)據(jù)變量具有離散性和挖掘算法評價的有效性。數(shù)據(jù)挖掘的對象可以是關(guān)系數(shù)據(jù)庫中結(jié)構(gòu)化的數(shù)據(jù),也可以是時間序列、多媒體、互聯(lián)網(wǎng)數(shù)據(jù)等半結(jié)構(gòu)化或者異構(gòu)型數(shù)據(jù)。數(shù)據(jù)挖掘的過程經(jīng)歷了數(shù)據(jù)的準(zhǔn)備、數(shù)據(jù)的挖掘和數(shù)據(jù)結(jié)果應(yīng)用三個階段,首先對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行篩選,得到目標(biāo)數(shù)據(jù),再經(jīng)過預(yù)處理和變換得到規(guī)范數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘,最后對數(shù)據(jù)做出解釋或評價得到所需要的知識。
數(shù)據(jù)挖掘是一門交叉性的技術(shù),針對不同的對象挖掘的方法可形式不同,因此數(shù)據(jù)挖掘算法種類非常多,常見的算法主要包括:遺傳算法、關(guān)聯(lián)規(guī)則算法、決策樹算法、時序算法、BP神經(jīng)網(wǎng)絡(luò)算法等。本文所研究的數(shù)據(jù)挖掘技術(shù)在高校網(wǎng)絡(luò)運(yùn)維管理中的應(yīng)用主要采用了決策樹、關(guān)聯(lián)規(guī)則、時間序列三種算法。
決策樹算法是根據(jù)事件發(fā)生的數(shù)據(jù)進(jìn)行歸納學(xué)習(xí),進(jìn)而進(jìn)行預(yù)測建模的算法。決策樹算法的挖掘過程經(jīng)歷了數(shù)據(jù)的預(yù)處理、構(gòu)建決策樹模型、樣本集驗(yàn)證和預(yù)測分析四個過程。數(shù)據(jù)的預(yù)處理是對數(shù)據(jù)集進(jìn)行整合、清洗、規(guī)范化和離散;構(gòu)建決策樹模型是創(chuàng)建決策樹,并對決策樹訓(xùn)練樣本數(shù)據(jù)集;樣本集驗(yàn)證是對決策樹模型輸入樣本集,通過歸納或者分類判斷決策樹的可靠性;預(yù)測分析利用決策樹模型得到預(yù)測的結(jié)果,并對結(jié)果進(jìn)行分析。
關(guān)聯(lián)規(guī)則算法是描述事件之間的關(guān)聯(lián)性的一種算法,其表 現(xiàn) 形 式 為。 如 果 設(shè)是項(xiàng)的集合,與任務(wù)相關(guān)的數(shù)據(jù)集為D,集合T是數(shù)據(jù)集中的每個事務(wù)T?I,規(guī)則A?B的支持度為,置 信 度 為,支持度和置信度的值越大則關(guān)聯(lián)性越高。
時序算法是通過時間序列分析作出未知的預(yù)測,假設(shè)已知時間序列{X}在{1到m-1}的歷史時刻觀測值為{X1,X2,…,Xm-1},那么對未來時刻m+l(≥1)的值Xm+1進(jìn)行預(yù)測,l=1則進(jìn)行單步預(yù)測,l>1則進(jìn)行多步預(yù)測。在時序算法中,本文運(yùn)用了回歸滑動平均算法,該算法是預(yù)測時間序列常用的算法之一,該算法原理是利用數(shù)據(jù)間的自相關(guān)性通過歷史騷動和歷史值對影響系統(tǒng)預(yù)測值的因素進(jìn)行分析,原理公式表達(dá)為:
其中p和q為模型階數(shù),xm+l和是m+l時刻的真實(shí)值與預(yù)測值,{εt}為白噪聲序列,φi和θj為模型的待估參數(shù)。
基于數(shù)據(jù)挖掘技術(shù)的高校網(wǎng)絡(luò)運(yùn)維管理模型要求能夠?qū)崿F(xiàn)對數(shù)據(jù)倉庫錯誤或者缺失的數(shù)據(jù)進(jìn)行清理,并采用決策樹、關(guān)聯(lián)規(guī)則和時序算法進(jìn)行多層次的挖掘,實(shí)現(xiàn)網(wǎng)絡(luò)故障信息的挖掘和對數(shù)據(jù)挖掘結(jié)果的查詢與展示。
數(shù)據(jù)倉庫是進(jìn)行數(shù)據(jù)挖掘的基礎(chǔ),根據(jù)高校網(wǎng)絡(luò)運(yùn)維管理特點(diǎn)構(gòu)建數(shù)據(jù)倉庫包括數(shù)據(jù)源層、數(shù)據(jù)獲取層、數(shù)據(jù)存儲層和數(shù)據(jù)分析層。數(shù)據(jù)倉庫中存儲數(shù)據(jù)包括用戶信息、網(wǎng)絡(luò)故障處理信息、基于時序的網(wǎng)絡(luò)故障統(tǒng)計信息和網(wǎng)絡(luò)故障類型信息與診斷信息。這些數(shù)據(jù)信息中一部分存在數(shù)據(jù)不一致、數(shù)據(jù)不完整、數(shù)據(jù)重復(fù)等問題,為此要對數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和加載操作,也就是ETL(Extract-Transform-Load)處理。數(shù)據(jù)處理完成后構(gòu)建數(shù)據(jù)倉庫,根據(jù)高校網(wǎng)絡(luò)運(yùn)維管理特征建立故障分析事實(shí)表、學(xué)生信息維表、網(wǎng)絡(luò)故障信息維表、網(wǎng)絡(luò)故障統(tǒng)計信息維表。故障分析事實(shí)表如表1所示:
表1 故障分析事實(shí)表
學(xué)生信息維表如表2所示:
表2 學(xué)生信息維表
網(wǎng)絡(luò)故障信息維表如表3所示:
表3 網(wǎng)絡(luò)故障信息維表
網(wǎng)絡(luò)故障統(tǒng)計信息維表如表4所示:
表4 網(wǎng)絡(luò)故障統(tǒng)計信息維表
決策樹挖掘是利用決策樹算法對網(wǎng)絡(luò)故障信息的關(guān)系和規(guī)律進(jìn)行分析,找出導(dǎo)致網(wǎng)絡(luò)故障發(fā)生的因素。其挖掘過程主要包括四個步驟:一是創(chuàng)建項(xiàng)目及選擇數(shù)據(jù)源;二是選擇屬性;三是創(chuàng)建挖掘結(jié)構(gòu);四是挖掘處理并建立挖掘模型。
創(chuàng)建項(xiàng)目及選擇數(shù)據(jù)源可以采用SQLServer Data Tools for Visual Studio工具對數(shù)據(jù)倉庫中的特定數(shù)據(jù)表建立數(shù)據(jù)源視圖;選擇被預(yù)處理過的網(wǎng)絡(luò)故障信息表中的故障編號、網(wǎng)絡(luò)故障類型、故障診斷結(jié)果等屬性進(jìn)行處理;運(yùn)用決策樹算法進(jìn)行挖掘,將網(wǎng)絡(luò)故障類型作為輸入變量,故障診斷結(jié)果作為預(yù)測變量,建立挖掘模型,得到?jīng)Q策樹依賴關(guān)系網(wǎng)絡(luò)。
關(guān)聯(lián)規(guī)則挖掘是利用關(guān)聯(lián)規(guī)則算法對網(wǎng)絡(luò)故障因素之間的關(guān)聯(lián)性進(jìn)行挖掘,發(fā)現(xiàn)潛在的故障危機(jī),從而降低網(wǎng)絡(luò)故障的發(fā)生率。其挖掘過程包括創(chuàng)建挖掘結(jié)構(gòu)和建立挖掘模型。創(chuàng)建挖掘結(jié)構(gòu)是對數(shù)據(jù)倉庫中的預(yù)處理網(wǎng)絡(luò)故障信息表中的報修人、故障診斷結(jié)果、學(xué)生信息表中的學(xué)號等屬性進(jìn)行關(guān)聯(lián)規(guī)則算法計算,分別設(shè)置支持度參數(shù)和置信度參數(shù),支持度參數(shù)可以控制算法生成的項(xiàng)集數(shù),置信度參數(shù)可以限制模型生成的規(guī)則數(shù)目,進(jìn)行處理后查看挖掘結(jié)果。
時序挖掘是依據(jù)歷史記錄進(jìn)行預(yù)測,采用連續(xù)的時間段統(tǒng)計的故障類型作為數(shù)據(jù)基礎(chǔ),預(yù)測未來網(wǎng)絡(luò)故障發(fā)生的概率和原因。其挖掘過程包括創(chuàng)建挖掘結(jié)構(gòu)和建立挖掘模型。創(chuàng)建挖掘結(jié)構(gòu)選擇數(shù)據(jù)倉庫預(yù)處理過的網(wǎng)絡(luò)故障統(tǒng)計信息表中故障發(fā)生的數(shù)量、故障發(fā)生的日期、故障發(fā)生的區(qū)域和類型等屬性進(jìn)行處理,運(yùn)用時序算法選擇時間范圍,將網(wǎng)絡(luò)故障發(fā)生數(shù)量設(shè)置為輸入變量和預(yù)測變量,將故障統(tǒng)計時間、區(qū)域和類型聯(lián)合設(shè)置為鍵列,設(shè)置時間序列重復(fù)疊加時間間隔參數(shù)、時間軸參數(shù)等通過挖掘模型查看其挖掘結(jié)果。
本文以某高校網(wǎng)絡(luò)運(yùn)維管理為例,該校2008年建立網(wǎng)絡(luò)運(yùn)維管理系統(tǒng),系統(tǒng)為了保證高校網(wǎng)絡(luò)服務(wù)質(zhì)量,主要功能包括網(wǎng)絡(luò)設(shè)備的監(jiān)控、網(wǎng)絡(luò)故障的報修和網(wǎng)絡(luò)故障的處理等。經(jīng)過十年的故障信息數(shù)據(jù)積累,已經(jīng)形成了龐大的、有價值的數(shù)據(jù)庫,可以作為基于數(shù)據(jù)挖掘技術(shù)的高校網(wǎng)絡(luò)運(yùn)維管理分析源數(shù)據(jù)。采用ASP.NET平臺進(jìn)行開發(fā),ADOMD.NET分析服務(wù)數(shù)據(jù)訪問接口和開放XMLA協(xié)議與分析服務(wù)器通信,調(diào)用本文的預(yù)測模型使用DMX質(zhì)量查詢數(shù)據(jù)挖掘結(jié)果。
采用決策樹算法對數(shù)據(jù)進(jìn)行分類,獲得的缺失事例數(shù)為0,由此可以判定決策樹挖掘的數(shù)據(jù)具有完整性,ETL數(shù)據(jù)處理的結(jié)果符合數(shù)據(jù)質(zhì)量要求,決策樹挖掘結(jié)果如圖1所示。
圖1 決策樹挖掘結(jié)果
由圖1可知,導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定的主要因素“接入層交換機(jī)因素”的概率最高,事例達(dá)到2413件,進(jìn)而縮小了網(wǎng)絡(luò)故障診斷的范圍,提高了故障排除的效率。
關(guān)聯(lián)規(guī)則挖掘是通過數(shù)據(jù)層面的挖掘表現(xiàn)事務(wù)之間的關(guān)聯(lián)關(guān)系。例如:在高校網(wǎng)絡(luò)運(yùn)維管理中,因感染病毒而導(dǎo)致的網(wǎng)絡(luò)異常非常常見,但是要準(zhǔn)確判斷病毒導(dǎo)致網(wǎng)絡(luò)故障的具體原因則非常困難,如果采用全盤查殺非常耗時,所以通過大數(shù)據(jù)挖掘來判定病毒入侵的方式和感染的位置對于快速處理網(wǎng)絡(luò)故障具有非常好的效果。本文針對決策樹挖掘結(jié)果“接入層交換機(jī)因素”的關(guān)聯(lián)關(guān)系進(jìn)行雙向預(yù)測,接入層交換機(jī)工作不穩(wěn)定所關(guān)聯(lián)的關(guān)系主要有計算機(jī)系統(tǒng)問題、網(wǎng)卡故障、室內(nèi)網(wǎng)絡(luò)模塊損壞、認(rèn)證客戶端故障、網(wǎng)絡(luò)病毒攻擊、網(wǎng)卡工作不穩(wěn)定、認(rèn)證客戶端版本問題和網(wǎng)絡(luò)連接會話數(shù)超過限制閾值等,將所有關(guān)聯(lián)關(guān)系連接按照強(qiáng)弱篩選,結(jié)果如圖2所示,“接入層交換機(jī)因素”與“網(wǎng)絡(luò)連接會話數(shù)超過限值閾值”雙向關(guān)聯(lián),并且關(guān)聯(lián)強(qiáng)度最大,所以得到的挖掘結(jié)果是可以提供控制網(wǎng)絡(luò)連接會話數(shù)量和合理設(shè)置網(wǎng)絡(luò)連接會話數(shù)閾值的方式預(yù)防接入層交換機(jī)工作不穩(wěn)定問題的發(fā)生。關(guān)聯(lián)規(guī)則挖掘是通過對網(wǎng)絡(luò)問題關(guān)聯(lián)關(guān)系的分析找到關(guān)聯(lián)強(qiáng)度最大的因素,分析出潛在的風(fēng)險,進(jìn)而能夠提前做出預(yù)防措施降低故障發(fā)生的概率。
圖2 關(guān)聯(lián)規(guī)則挖掘結(jié)果
將高校網(wǎng)絡(luò)運(yùn)維管理的數(shù)據(jù)按照時間區(qū)分,選擇2008年10月28日至2018年4月28日的連續(xù)時間數(shù)據(jù)進(jìn)行挖掘,得到的挖掘結(jié)果如圖3所示,該數(shù)據(jù)存在連續(xù)的時間軸維度,在以往的數(shù)據(jù)中9月是網(wǎng)絡(luò)故障集中的高發(fā)期,這是與學(xué)生結(jié)束假期回校學(xué)習(xí)的時間規(guī)律相吻合。
圖3 時序挖掘結(jié)果
本文通過構(gòu)建高校網(wǎng)絡(luò)故障信息數(shù)據(jù)倉庫,利用數(shù)據(jù)挖掘技術(shù)對網(wǎng)絡(luò)故障信息進(jìn)行挖掘,介紹了三種在高校網(wǎng)絡(luò)運(yùn)維管理中應(yīng)用廣泛的數(shù)據(jù)挖掘方式,包括網(wǎng)絡(luò)故障決策樹挖掘、網(wǎng)絡(luò)故障關(guān)聯(lián)規(guī)則挖掘和網(wǎng)絡(luò)故障時序挖掘,三種數(shù)據(jù)挖掘方式對于高校網(wǎng)絡(luò)運(yùn)維管理具有非常重要的應(yīng)用價值,能夠準(zhǔn)確判斷故障發(fā)生的原因,并找到導(dǎo)致故障發(fā)生的因素,進(jìn)而能夠提前做出預(yù)防措施降低故障發(fā)生的概率。同時,又能夠判斷出高校網(wǎng)絡(luò)故障高發(fā)的時間,便于維護(hù)人員提前做好運(yùn)維準(zhǔn)備工作。在高校網(wǎng)絡(luò)運(yùn)維管理中,數(shù)據(jù)挖掘技術(shù)具有很好的應(yīng)用效果。今后還需要對算法進(jìn)行不斷的優(yōu)化,以提高數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。