林碧蘭 張暉 黃學田
【摘要】目前電信運營商均在進行各類網(wǎng)絡及數(shù)據(jù)的集約化,集約化過程中數(shù)據(jù)涉及較多環(huán)節(jié),任何一個環(huán)節(jié)出現(xiàn)問題都會影響數(shù)據(jù)質(zhì)量。本文對數(shù)據(jù)質(zhì)量管控內(nèi)容、運營商數(shù)據(jù)質(zhì)量現(xiàn)狀做了深入研究,詳細論述了如何借助系統(tǒng),通過數(shù)據(jù)質(zhì)量監(jiān)控和數(shù)據(jù)質(zhì)量分析等手段,發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題,并針對可能出現(xiàn)的各類數(shù)據(jù)質(zhì)量問題,提出了切實可行的解決方案。該體系方案已在中國電信多個數(shù)據(jù)集中項目中得到了實施,并取得了良好的應用效果。
【關(guān)鍵詞】質(zhì)量監(jiān)控 質(zhì)量分析 數(shù)據(jù)補救措施
“數(shù)據(jù),已經(jīng)滲透到當今每一個行業(yè)和業(yè)務職能領域?!贝髷?shù)據(jù)時代的來臨,為企業(yè)特別是運營商帶來了前所未有的機遇,與此同時,數(shù)據(jù)分析及應用的挑戰(zhàn)也接踵而來。運營商所需存儲處理的數(shù)據(jù)量驚人,數(shù)據(jù)來源及結(jié)構(gòu)繁多復雜,要想充分發(fā)揮大數(shù)據(jù)所賦予的價值,必須擁有可靠、準確、及時的高質(zhì)量數(shù)據(jù)。
只有從高質(zhì)量的大規(guī)模數(shù)據(jù)中提取隱含的真實有用的信息,運營商才能做出更加精準、更加符合市場和客戶需求的決策,否則大數(shù)據(jù)的優(yōu)勢將化為泡影。為此,運營商需要更加注重大數(shù)據(jù)時代下的數(shù)據(jù)質(zhì)量。
一、數(shù)據(jù)質(zhì)量管控內(nèi)容
數(shù)據(jù)質(zhì)量管理,是指對數(shù)據(jù)從計劃、獲取、存儲、共享、維護、應用、消亡生命周期的每個階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進行識別、度量、監(jiān)控、預警等一系列管理活動,并通過改善和提高組織的管理水平使得數(shù)據(jù)質(zhì)量獲得進一步提高。數(shù)據(jù)質(zhì)量通常通過以下幾個維度來衡量:完整性、準確性和及時性。完整性指的是數(shù)據(jù)信息是否存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個數(shù)據(jù)記錄缺失,也可能是數(shù)據(jù)中某個字段信息的記錄缺失。準確性是統(tǒng)計數(shù)據(jù)質(zhì)量在統(tǒng)計信息客觀真實性方面的體現(xiàn),是統(tǒng)計數(shù)據(jù)使用者的首要要求。數(shù)據(jù)的準確性包含正確性和有效性。及時性是統(tǒng)計數(shù)據(jù)質(zhì)量在統(tǒng)計信息的時間價值上的體現(xiàn),及時性對于數(shù)據(jù)分析本身要求并不高,但如果數(shù)據(jù)分析周期加上數(shù)據(jù)建立的時間過長,就可能導致分析得出的結(jié)論失去了借鑒意義。
二、產(chǎn)生數(shù)據(jù)質(zhì)量問題的原因
數(shù)據(jù)分析系統(tǒng)的靈魂是數(shù)據(jù)。“臟數(shù)據(jù)”,即數(shù)據(jù)質(zhì)量差的數(shù)據(jù),它們的存在直接影響了分析系統(tǒng)的使用質(zhì)量。如果數(shù)據(jù)倉庫中存在著大量的不可信賴的臟數(shù)據(jù),那么基于它所做的分析項目就會受到極大的影響。因此提高數(shù)據(jù)質(zhì)量是運營商大數(shù)據(jù)分析必須面對的問題。為了更好地解決數(shù)據(jù)質(zhì)量問題,就必須對臟數(shù)據(jù)來源有個清晰的了解。歸結(jié)起來主要有3個來源:源系統(tǒng)、數(shù)據(jù)集成過程及數(shù)據(jù)分析過程。
致使源數(shù)據(jù)系統(tǒng)中存在臟數(shù)據(jù)的原因主要包括:數(shù)據(jù)實施過程中完整性受到破壞但未被發(fā)現(xiàn);軟硬件故障導致數(shù)據(jù)質(zhì)量被破壞;不同的源系統(tǒng)的數(shù)據(jù)相互之間不一致,這可能由于各系統(tǒng)來自不同的廠商,沒有統(tǒng)一的數(shù)據(jù)定義,沒有采用統(tǒng)一的規(guī)則等;沒有正確的命名規(guī)范或數(shù)據(jù)定義,可能會導致統(tǒng)計上的混淆。
第二大產(chǎn)生臟數(shù)據(jù)的過程就是在源數(shù)據(jù)加載到數(shù)據(jù)倉庫之前的清洗、加載流程,即數(shù)據(jù)集成過程。由于錄入到數(shù)據(jù)倉庫的數(shù)據(jù)來自于各個不同平臺系統(tǒng),源數(shù)據(jù)之間的數(shù)據(jù)結(jié)構(gòu)、信息編碼、數(shù)據(jù)定義等方面可能都不一致,集成過程就是把這些凌亂的數(shù)據(jù)源進行整理和統(tǒng)一。而開發(fā)人員對數(shù)據(jù)源系統(tǒng)的業(yè)務方面理解的不充分,導致規(guī)則理解錯誤,或者即使規(guī)則很明確,ETL開發(fā)的過程中也會發(fā)生一些錯誤,例如邏輯錯誤、書寫錯誤等,這些都將直接導致臟數(shù)據(jù)的產(chǎn)生。
數(shù)據(jù)分析建模是指用適當?shù)慕y(tǒng)計分析方法、模型對收集來的大量數(shù)據(jù)進行分析,提取有用信息形成結(jié)論。在該過程中,可能存在同一指標不同開發(fā)人員多個算法、或者開發(fā)人員人為處理錯誤等導致臟數(shù)據(jù)的產(chǎn)生。
三、傳統(tǒng)數(shù)據(jù)質(zhì)量管控方式
運營商的各個網(wǎng)管、IT系統(tǒng)經(jīng)過長期的建設演進,雖然在各系統(tǒng)內(nèi)部已初具一些數(shù)據(jù)質(zhì)量監(jiān)控手段,但傳統(tǒng)的數(shù)據(jù)質(zhì)量監(jiān)控方式仍比較單一,由各自專業(yè)網(wǎng)管承擔,通常需較多人為干預,效率較低,且數(shù)據(jù)質(zhì)量好壞很大程度上依賴于維護人員的業(yè)務熟悉程度。目前運營商在進行各類數(shù)據(jù)的集約化,集約化過程中數(shù)據(jù)涉及采集層、處理層及應用層等多層面,而且網(wǎng)管、平臺數(shù)據(jù)從采集、處理到大數(shù)據(jù)應用,需跨多地域多個專業(yè)系統(tǒng),專業(yè)領域跨度大且涉及多個廠商及不同接口,存在越來越多數(shù)據(jù)質(zhì)量隱患環(huán)節(jié),任何一個環(huán)節(jié)出現(xiàn)問題都會影響數(shù)據(jù)質(zhì)量。
傳統(tǒng)的數(shù)據(jù)管理模式逐漸滿足不了網(wǎng)絡運維管理集中化及大數(shù)據(jù)分析的要求,難以對數(shù)據(jù)質(zhì)量進行有效監(jiān)控,無法快速對各類數(shù)據(jù)問題進行溯源分析,且數(shù)據(jù)質(zhì)量監(jiān)控工作各個環(huán)節(jié)相應的角色和職責等機制未建立,難以支撐數(shù)據(jù)質(zhì)量問題的及時處理。
在網(wǎng)管集約化的演進趨勢下,亟需建議一套完善的數(shù)據(jù)質(zhì)量管控體系,智能化主動發(fā)現(xiàn)問題,并改變以往逐層進行問題排查的盲目工作方式。
在該體系下,對跨區(qū)域、跨系統(tǒng)數(shù)據(jù)端到端采集、處理流程進行梳理,設置數(shù)據(jù)質(zhì)量監(jiān)測點,并通過可視化視圖使網(wǎng)管維護人員清晰地發(fā)現(xiàn)和定位問題出現(xiàn)點,主動地發(fā)現(xiàn)解決問題,并采用自動派單及時通知相關(guān)維護人員處理,提升數(shù)據(jù)維護效率及數(shù)據(jù)質(zhì)量。
四、建立數(shù)據(jù)質(zhì)量管控體系
建立數(shù)據(jù)質(zhì)量監(jiān)控體系需基于統(tǒng)一數(shù)據(jù)集約及監(jiān)控平臺上從數(shù)據(jù)質(zhì)量監(jiān)控、分析及數(shù)據(jù)補救幾個環(huán)節(jié)入手,下圖為數(shù)據(jù)質(zhì)量管控體系結(jié)構(gòu)規(guī)劃圖。
4.1數(shù)據(jù)質(zhì)量監(jiān)控
數(shù)據(jù)質(zhì)量主要監(jiān)控功能包括數(shù)據(jù)完整性、準確性、及時性監(jiān)控、數(shù)據(jù)異常告警以及接口運行監(jiān)控等。在采集層及數(shù)據(jù)處理主要階段設置數(shù)據(jù)質(zhì)量檢測點,支持對數(shù)據(jù)質(zhì)量的全程監(jiān)控,同時,將監(jiān)控界面可視化,使維護人員能夠快速直觀地定位到問題所在。
4.1.1數(shù)據(jù)完整性監(jiān)控
對數(shù)據(jù)的完整性監(jiān)控,通過系統(tǒng)界面設置各類數(shù)據(jù)在每個采集周期的監(jiān)控粒度、系統(tǒng)進行數(shù)據(jù)完整性檢查的時間周期后,應可以看到該采集源下數(shù)據(jù)完整性監(jiān)控的矩陣圖,該界面提供具體采集信息,包括完整率、采集條數(shù)、經(jīng)驗值、完整率閾值等。比如對省平臺上報的文件數(shù)量或大小波動是否大于閾值進行監(jiān)控,對省平臺上報文件數(shù)量、大小與集團平臺獲取到的文件數(shù)量、文件大小是否一致進行核對和監(jiān)控等,并形成告警,提供可視界面對告警信息的詳情查看的輔助功能。
4.1.2數(shù)據(jù)準確性監(jiān)控
數(shù)據(jù)質(zhì)量監(jiān)控是以數(shù)據(jù)的提供信息的準確性為目標。數(shù)據(jù)準確性監(jiān)控,主要是針對重點考核的指標進行正確性、有效性的監(jiān)控和分析。
數(shù)據(jù)正確性監(jiān)控。根據(jù)同期或歷史經(jīng)驗值(可設置)進行重點采集和指標合理性對比分析,能夠自動對那些超出閾值的重點指標進行篩選,以及同一指標在不同報表或報告中是否一致對比等。這種情況可能會發(fā)生在當其他檢查規(guī)則都未出現(xiàn)異常時,指標準確性仍可能出現(xiàn)異常,如某天的數(shù)據(jù)上報文件數(shù)量和大小都正常,但文件的部分指標值為0或與上月波動超過閥值。
數(shù)據(jù)有效性監(jiān)控。大多數(shù)情況下,字段的空值、空字符串、負值、0都是無效信息,或者某些字段有固定的格式,若與格式不相符,我們也認為該取值是無效信息。無效值的比例越多,建模時能夠利用的信息就越少。當無效值的比例大到一定程度,我們甚至認為該變量對于建模是無效的。對于無效值較多的變量,我們將首先懷疑數(shù)據(jù)處理過程是否存在錯誤。如無錯誤,對于極差和無效的變量,在建模時將慎用甚至棄用。系統(tǒng)應支持對多維度重要字段數(shù)據(jù)無效率的分析,當無效率超過閾值時,在下一步數(shù)據(jù)分析前剔除該部分數(shù)據(jù)。另外,系統(tǒng)應支持對異常值的原因分析。
及時監(jiān)控的同時,系統(tǒng)均應形成告警,并在可視界面上提供對告警信息的詳情查看的輔助功能,運維人員可及時對這些異常指標進行數(shù)據(jù)處理和采取相應補救措施,避免這些不合理的采集數(shù)據(jù)對上層應用決策和分析造成負面影響。
4.1.3數(shù)據(jù)及時性監(jiān)控
對數(shù)據(jù)及時性進行監(jiān)控,應具備對上報接口是否及時上報或數(shù)據(jù)處理過程是否在規(guī)定的時間內(nèi)處理完成進行監(jiān)控的能力。在數(shù)據(jù)可視矩陣圖上應能夠清晰地標注出采集及時的數(shù)據(jù)、延時的數(shù)據(jù)、采集異常的數(shù)據(jù),以及處理延時、異常的數(shù)據(jù)。
同時,該功能能夠?qū)Σ患皶r或異常的數(shù)據(jù)進行及時監(jiān)控,形成告警,并提供可視界面對告警信息的詳情查看的輔助功能。
4.1.4接口運行監(jiān)控
監(jiān)控接口是避免故障突發(fā)的重要措施。通過分析運行情況,監(jiān)控接口能實現(xiàn)異常情況的提前預警,有效地縮短故障持續(xù)時間。接口運行監(jiān)控是指采集適配平臺對各接口的運行情況的監(jiān)控功能。
接口監(jiān)控負責監(jiān)控與統(tǒng)一適配平臺對接的接口,包括接口連接是否正常,連接進程狀態(tài),連接數(shù)量,數(shù)據(jù)采集是否正常、網(wǎng)絡速率是否正常等。主要根據(jù)接口調(diào)用返回的異常結(jié)果來進行顯示。同時,能夠支持將接口運行狀態(tài)形成告警,并以可視界面進行管理。
4.2數(shù)據(jù)質(zhì)量分析
數(shù)據(jù)質(zhì)量分析功能要求系統(tǒng)能夠支持多手段、多維度數(shù)據(jù)質(zhì)量分析。分析手段方面,采用總量稽核和分量稽核的全面校驗手段??偭炕说幕舅惴ㄊ菍θ肟谠春统隹诟飨噜徧幚憝h(huán)節(jié)的數(shù)據(jù),進行數(shù)據(jù)總量的驗證??偭框炞C需要對所有度量指標進行比對,如總記錄數(shù)、總次數(shù)、總時長、文件大小等。
分量稽核是在總量稽核正確的前提下,從各個角度對重要指標進行稽核,比如對各類重要數(shù)據(jù)的占比、同比、環(huán)比、異常比例、不同節(jié)點問是否一致等進行比較,以保證數(shù)據(jù)的質(zhì)量。
分析維度方面,可從系統(tǒng)維度、廠家維度、省份維度、接口類型維度等多維度分析。通過總量稽核、分量稽核及多維度地分析處理,系統(tǒng)生成相關(guān)的數(shù)據(jù)稽核報表,從而評定數(shù)據(jù)質(zhì)量,并對其進行有效的管理。
4.3數(shù)據(jù)補救措施
當數(shù)據(jù)不完整、延時、不準確等狀況發(fā)生時,應主要致力保障采集層數(shù)據(jù)質(zhì)量以支撐上層應用系統(tǒng)正常運行。主要的補救措施包括數(shù)據(jù)自動補采、人工補采、數(shù)據(jù)剔除等。
4.3.1系統(tǒng)自動補采
當系統(tǒng)發(fā)現(xiàn)數(shù)據(jù)不完整時,系統(tǒng)應能依據(jù)策略自動或手動觸發(fā)數(shù)據(jù)補采。數(shù)據(jù)自動補采策略內(nèi)容包括補采檢查時間點、數(shù)據(jù)完整率補采閥值等。系統(tǒng)支持定時輪詢檢測數(shù)據(jù)完整率情況,當數(shù)據(jù)完整率低于設定值時,管理服務器會根據(jù)補采策略在閑時下發(fā)補采任務,自動執(zhí)行數(shù)據(jù)補采操作,同時系統(tǒng)應支持補采完成通知配置。
4.3.2人工補采
當通過完整率監(jiān)控無法發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題時(即有時通過數(shù)據(jù)準確性發(fā)現(xiàn)問題),支持通過系統(tǒng)界面,選擇相應的補采策略,進行手工補采??芍С诌M行單個時間點、單個文件、單個指標的補采,也可支持批量補采。
4.3.3數(shù)據(jù)剔重及填充
在進行數(shù)據(jù)處理前,有個一比較重要的操作就是去除數(shù)據(jù)中的重復記錄。有時候由于接口或網(wǎng)絡的問題,數(shù)據(jù)源傳過來時會存在較多的相同數(shù)據(jù),就需要將這些重復數(shù)據(jù)剔除掉。在進行完整性監(jiān)控時,需要對源數(shù)據(jù)和采集數(shù)據(jù)進行一致性比較,當采集數(shù)據(jù)量大于源數(shù)據(jù)時,需要支持對該部分數(shù)據(jù)進行剔重的功能。
當源系統(tǒng)數(shù)據(jù)由于客觀原因?qū)е聼o法進行自動或人工補采時,系統(tǒng)可支持維護人員根據(jù)數(shù)據(jù)填充規(guī)則對近期缺失的數(shù)據(jù)進行批量填補,以確保數(shù)據(jù)的完整性。數(shù)據(jù)填補規(guī)則包括指標的設定、指標值的范圍設定(平均值、最大值、經(jīng)驗值,數(shù)值可編輯)、數(shù)據(jù)填補時間段及時間點的設定。另外,可以憑借經(jīng)驗值對由于設備故障或網(wǎng)絡等因素產(chǎn)生的異常數(shù)據(jù)或者偏離很大的數(shù)據(jù)進行修補,從而保障數(shù)據(jù)質(zhì)量。
五、結(jié)束語
目前,上述數(shù)據(jù)質(zhì)量管控體系方案已在中國電信集團公司網(wǎng)運部的數(shù)據(jù)集約項目中得到了初步實施及驗證。通過該體系系統(tǒng),維護人員可較快定位數(shù)據(jù)質(zhì)量問題所在,數(shù)據(jù)質(zhì)量得到了較好地管控。
隨著網(wǎng)絡運行及經(jīng)營數(shù)據(jù)的日趨龐大,數(shù)據(jù)質(zhì)量的稽查工作也將變成日常工作中越來越重要的一項。如何盡量避免在數(shù)據(jù)質(zhì)量核查時過多的人工操作,避免因手工操作而產(chǎn)生的人為性失誤,這就需要對整個系統(tǒng)、業(yè)務流程非常熟悉和了解,對每一個可能發(fā)生的數(shù)據(jù)質(zhì)量問題都能夠提出應對措施,爭取數(shù)據(jù)質(zhì)量監(jiān)控和數(shù)據(jù)質(zhì)量解決全部實現(xiàn)程序自動化。另外,制定出更科學的數(shù)據(jù)質(zhì)量評判規(guī)則及標準,以便建立一套完善的數(shù)據(jù)質(zhì)量管控體系,這也是在今后的數(shù)據(jù)質(zhì)量管理工作中努力的目標和方向。