吳紀安 中國人民銀行西寧中心支行
數(shù)據(jù)挖掘是從數(shù)據(jù)倉庫、數(shù)據(jù)庫等數(shù)據(jù)平臺中挖掘所需內(nèi)容的過程,是信息技術(shù)日益發(fā)展與完善的必然結(jié)果。數(shù)據(jù)挖掘和多學科技術(shù)的集成之間有著十分密切的關(guān)系,如信息檢索、模式識別、神經(jīng)網(wǎng)絡(luò)及統(tǒng)計學等。通過進行有效、深入的數(shù)據(jù)挖掘,能從數(shù)據(jù)庫當中調(diào)取或抽選那些有趣、滿足自身需要的知識與信息。本文就IT基礎(chǔ)設(shè)施監(jiān)控系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的實際應(yīng)用作一探討。
針對此階段而言,其注重從決策層面或視角去理解、認知項目的相關(guān)要求與目標,并且把這些內(nèi)容實時轉(zhuǎn)化為有助于目標實現(xiàn)的初步規(guī)劃,或是幫助數(shù)據(jù)挖掘的具體問題定義。數(shù)據(jù)挖掘目標定義為:(1)探究系統(tǒng)負載規(guī)律。找尋處于隱藏狀態(tài)的系統(tǒng)運行方面的負載規(guī)律,以便為系統(tǒng)維護人員提供準確依據(jù)與支撐。(2)定位系統(tǒng)性能瓶頸。針對系統(tǒng)整體效能來講,可能有瓶頸存在,通過開展數(shù)據(jù)挖掘工作,應(yīng)能夠?qū)ο到y(tǒng)瓶頸進行準確定位,對于比較缺乏的系統(tǒng)資源,及時給予補充,如升級網(wǎng)絡(luò)設(shè)備、擴大內(nèi)存容量等。(3)評估系統(tǒng)生命周期。伴隨人民銀行業(yè)務(wù)種類日益增多及業(yè)務(wù)量的持續(xù)增加,系統(tǒng)負載勢必會增大,如果其潛能被完全開發(fā)之后,系統(tǒng)便需要更新?lián)Q代,此時,對系統(tǒng)壽命進行準確評估十分必要。
此階段初始點為匯總數(shù)據(jù),后逐漸深入,包含了解數(shù)據(jù)、對數(shù)據(jù)質(zhì)量進行鑒別并探究數(shù)據(jù)的內(nèi)在含義。通過了解初期項目,得知監(jiān)控數(shù)據(jù)主要包含2部分,其一,數(shù)據(jù)庫、主機與網(wǎng)絡(luò)設(shè)備的運行指標,如數(shù)據(jù)庫數(shù)據(jù)字典命中率、網(wǎng)絡(luò)設(shè)備丟包率等,這些數(shù)據(jù)能夠用于對系統(tǒng)性能瓶頸的定位,還可以用作探尋系統(tǒng)的負載規(guī)律。其二,數(shù)據(jù)庫、主機與網(wǎng)絡(luò)設(shè)備的事件數(shù)據(jù)。針對數(shù)據(jù)庫、主機的事件來講,其由IR Prognosis將SNMP Trap發(fā)送至HP Network Manager,而關(guān)于網(wǎng)絡(luò)設(shè)備的事件,則由SNMP Trap發(fā)送SNMP Trap至HP Network Manager,然后通過HP Network Node Manager將數(shù)據(jù)寫庫。
對于此階段而言,其包含了全部自原始數(shù)據(jù)當中構(gòu)建的數(shù)據(jù)集活動。針對數(shù)據(jù)準備的任務(wù)而言,可能執(zhí)行多次,包含有屬性、記錄與表格的選取,另外還囊括數(shù)據(jù)的清理與轉(zhuǎn)化。通過分析原始數(shù)據(jù),從中可發(fā)現(xiàn)數(shù)據(jù)當中有不一致的情況,如在發(fā)送的SNMP Trap當中(由IR Prognosis發(fā)送),把事件依據(jù)嚴重程度進行分析,即危急、錯誤、警告與信息;而HP Network Node Manager把事件劃分為5級,即危急錯誤、初級錯誤、警告、正常與主要錯誤。須轉(zhuǎn)換與清理數(shù)據(jù),以此來清除數(shù)據(jù)的不一致。對此,可構(gòu)建2個模型。(1)模型Ⅰ。確定主機CPU、內(nèi)存利用率、網(wǎng)絡(luò)設(shè)備CPU、緩存利用率,構(gòu)建系統(tǒng)負載模型;(2)模型Ⅱ。確定每周故障發(fā)生次數(shù),構(gòu)建系統(tǒng)故障規(guī)律模型。
此階段會運用各種建模技術(shù),并且調(diào)校它們的參數(shù),使其維持在最佳值。通常來講,針對同一個數(shù)據(jù)挖掘問題類型而言,其會有許多建模技術(shù),其中的部分建模技術(shù)對數(shù)據(jù)格式有著特殊要求,所以,須從此階段返回至數(shù)據(jù)準備階段。
基于數(shù)據(jù)分析層面而言,進此階段便證明已構(gòu)建一個或多個高質(zhì)量模型。在還未進入模型最終部署前,為確保模型能將研究目標切實體現(xiàn)出來,需全面、細致的評估模型,并對模型的各個步驟進行審查。在此項目當中,利用負載模型,數(shù)據(jù)挖掘人員得出的結(jié)論如下:(1)網(wǎng)絡(luò)設(shè)備的負載,包含其兩部分內(nèi)容,即CPU利用率與緩存利用率,相比與主機類全部負載指標,普遍偏高,所以,需對網(wǎng)絡(luò)設(shè)備進行適當性升級。(2)系統(tǒng)的整體負荷呈現(xiàn)出緩慢上升趨向,符合系統(tǒng)維護人員的預(yù)期。
利用故障模型,可得出如下結(jié)論:(1)網(wǎng)絡(luò)部分出現(xiàn)的故障數(shù)量較主機部分,明顯偏多,所以,在配置系統(tǒng)維護人員方面,應(yīng)偏向于網(wǎng)絡(luò)維護部分;(2)通過運用一元線性回歸方程對本行系統(tǒng)的健康運行時間進行預(yù)測,得知其符合預(yù)期要求與目標。
通過驗證,表明上述結(jié)論參考價值高,準確性高。另外,還提出了修改意見,如加大趨勢的全面性,增加負載模型具體的指標類型;更改故障模型的一元線性回歸,使之轉(zhuǎn)變?yōu)楦唠A多項式回歸,以此來實現(xiàn)預(yù)測準確性的提升。
綜上,數(shù)據(jù)挖掘是各學科融合的框架下的前沿領(lǐng)域,能從各學科當中獲取有用內(nèi)容,切實做到博采眾長、為我所用的目的。因此,在IT基礎(chǔ)設(shè)計監(jiān)控系統(tǒng)中運用數(shù)據(jù)挖掘技術(shù),有著廣闊的應(yīng)用價值及實際意義。
[1]張卉.數(shù)據(jù)挖掘技術(shù)在B2B電子商務(wù)商品銷售中的應(yīng)用研究[D].北方工業(yè)大學,2013.
[2]朱德志.數(shù)據(jù)挖掘中的數(shù)據(jù)質(zhì)量檢驗[J].金融電子化,2007(7):55-56.