楊艷秋 中國人民武裝警察部隊警官學院 四川成都 610000
目前,在大數(shù)據(jù)領域每年都會出現(xiàn)新的技術,這些技術有效的推動了大數(shù)據(jù)的發(fā)展。數(shù)據(jù)挖掘能夠有效的在大規(guī)模的數(shù)據(jù)中分析出隱藏的數(shù)據(jù)價值。海量數(shù)據(jù)挖掘是可規(guī)劃的數(shù)據(jù)分析行為,在數(shù)據(jù)量大,數(shù)據(jù)結構不統(tǒng)一的情況下,建設基于大數(shù)據(jù)的武警信息平臺需要從搭建初期就要有數(shù)據(jù)思維。本文立足于數(shù)據(jù)平臺搭建的方法論。
大數(shù)據(jù)的挖掘需要從生命周期做數(shù)據(jù)規(guī)劃,主本文從元數(shù)據(jù)規(guī)劃、數(shù)據(jù)質量分析及提升,數(shù)據(jù)標簽,數(shù)據(jù)建模,數(shù)據(jù)可視化五個步驟進行闡述。
元數(shù)據(jù)規(guī)劃,主要是從運行數(shù)據(jù),經(jīng)營數(shù)據(jù),行為數(shù)據(jù),維護數(shù)據(jù)以及其他數(shù)據(jù)中來建立,其中經(jīng)營數(shù)據(jù)包含其他系統(tǒng)的數(shù)據(jù),如內部管理系統(tǒng),Web信息系統(tǒng),科研系統(tǒng)數(shù)據(jù)集 運行數(shù)據(jù)比如系統(tǒng)在運行中產(chǎn)生的告警,預警,事件等 行為數(shù)據(jù)如登錄事件,點擊次數(shù)、頻率,訪問頁面的地址,分享或者下載的文件等 維護數(shù)據(jù)如機房斷電緊急恢復,對于其他的數(shù)據(jù)如天氣情況,位置信息,環(huán)境信息等。通過對元數(shù)據(jù)的規(guī)劃,能夠有效的將異構的數(shù)據(jù)做集成處理,交給下一步做數(shù)據(jù)清洗。
數(shù)據(jù)質量分析及提升也就是數(shù)據(jù)清洗,也可以叫數(shù)據(jù)預處理,我們收集到的元數(shù)據(jù)做進一步的處理如數(shù)據(jù)一致性,處理無效值和缺失值等。我們常用到的方法可以是:批量數(shù)據(jù)補全,對一些數(shù)據(jù)集中的數(shù)據(jù),采用求平均、求最值或者其他數(shù)學計算公式得到補全?;蛘哂闷睢⑨槍I(yè)務的異常值或可以是統(tǒng)計可以查看到的數(shù)據(jù)做數(shù)據(jù)清洗。
數(shù)據(jù)標簽我們也可以叫做數(shù)據(jù)切片,也就是從不同的維度描述數(shù)據(jù),如基礎標簽:存儲,安全登記,怎么訪問 數(shù)據(jù)倉儲標簽:周期性,是全面/增量 具體的業(yè)務標簽,是管理系統(tǒng),是某個功能相關,為這些數(shù)據(jù)做標簽處理。
數(shù)據(jù)建模是將我們的數(shù)據(jù)降維,做歸一化處理后,變成單個指標或一個數(shù)據(jù)模型,在這一個步驟中,我們可以細分為多個小方法,第一:需要針對具體的業(yè)務場景或針對已有的數(shù)學模型選擇 第二:需要訓練選定的數(shù)據(jù)模型,通常需要根據(jù)業(yè)務、具體使用情況調整模型的參數(shù)配置 第三:通過訓練模型,對比模型是否受用,與標準值的對比,通過一些數(shù)學指標如:平均誤差率,判定系數(shù)等評估模型的正確性、查全性、查全率。第四:評估出最優(yōu)模型檢驗模型在真實的業(yè)務場景中的效果,并進行優(yōu)化。通過以上的步驟,并通過聚類、關聯(lián)規(guī)則、EM、KNN等數(shù)據(jù)分析方法可以進行大規(guī)模的指標化,找出數(shù)據(jù)中的價值。
數(shù)據(jù)可視化,為了能夠更直觀的看到數(shù)據(jù),它是關于數(shù)據(jù)視覺表現(xiàn)形式的科學技術研究,解決我們在視覺上,空間上的不足,常用的手段包括:圖形化,表格化等。
本文就元數(shù)據(jù)規(guī)劃、數(shù)據(jù)質量分析及提升,數(shù)據(jù)標簽,數(shù)據(jù)建模,數(shù)據(jù)可視化五個步驟對基于大數(shù)據(jù)武警數(shù)據(jù)平臺搭建做了方法闡述。