王玉
摘要:本文針對采煤機運行狀態(tài)數(shù)據(jù)實時清洗技術(shù)分析,結(jié)合理論實踐,在簡要闡述狀態(tài)數(shù)據(jù)實時清洗必要性的基礎(chǔ)上,分析了目前數(shù)據(jù)清洗中存在的問題,并提出采煤機運行狀態(tài)數(shù)據(jù)實時清洗技術(shù)的具體應(yīng)用。分析結(jié)果表明,采煤機在運行過程中,會產(chǎn)生大量數(shù)據(jù),一些是有用數(shù)據(jù),一些是無用數(shù)據(jù),科學(xué)合理的應(yīng)用數(shù)據(jù)清洗技術(shù),可保證數(shù)據(jù)質(zhì)量,提升采煤機運行性能,值得高度重視。
關(guān)鍵詞:采煤機;運行狀態(tài)數(shù)據(jù);數(shù)據(jù)清洗技術(shù);數(shù)據(jù)檢測
引言
在信息化工程不斷推進(jìn)的背景下,數(shù)據(jù)倉庫的應(yīng)用愈發(fā)普遍,對采煤機而言,數(shù)據(jù)倉庫是決策支持的基礎(chǔ),也是保證采煤機時刻處于最佳運行狀態(tài)的關(guān)鍵。但數(shù)據(jù)倉庫中包含多種數(shù)據(jù),需要存儲在不同的硬件平臺上,采用不同的操作系統(tǒng),在具體運行過程中,受到多方面因素的共同影響,難免會發(fā)生數(shù)據(jù)質(zhì)量問題。如相似數(shù)據(jù)重復(fù)記錄、異常數(shù)據(jù)記錄等。通過數(shù)據(jù)清洗技術(shù),可對數(shù)據(jù)倉中數(shù)據(jù)進(jìn)行規(guī)范、標(biāo)準(zhǔn)、有序的整理,及時消除數(shù)據(jù)歧義,提升數(shù)據(jù)質(zhì)量?;诖?,開展采煤機運行狀態(tài)數(shù)據(jù)實時清洗技術(shù)分析就顯得尤為必要。
1、采煤機運行狀態(tài)數(shù)據(jù)實時清洗的重要性
采煤機運行狀態(tài)數(shù)據(jù)通常會存儲在數(shù)據(jù)倉庫中,但采煤機在運行中經(jīng)常會形成一些臟數(shù)據(jù),對數(shù)據(jù)倉庫造成不良影響,甚至?xí)绊憯?shù)據(jù)倉庫運行的效率,降低采煤機運行狀態(tài)數(shù)據(jù)的挖掘效能,影響最終的決策管理效果。為保證采煤機數(shù)據(jù)倉庫系統(tǒng)中各項數(shù)據(jù)記錄的準(zhǔn)確性、一致性,就必須先對采煤機運行狀態(tài)數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)清洗就是數(shù)據(jù)預(yù)處理的核心環(huán)節(jié),在整個數(shù)據(jù)倉庫中占據(jù)非常重要的地位。
2、目前數(shù)據(jù)清洗中存在的問題
第一,數(shù)據(jù)清洗屬于一個嶄新的研究課題,專業(yè)研究數(shù)據(jù)清洗機構(gòu)比較少。目前數(shù)據(jù)清洗的研究主要體現(xiàn)在英文數(shù)據(jù)上。而中文數(shù)據(jù)清洗和英文數(shù)據(jù)存在較大出入,英文數(shù)據(jù)清洗的排序方式,還不能完全適應(yīng)中文數(shù)據(jù)清洗。
第二,雖然目前檢測重復(fù)記錄備受關(guān)注,也出現(xiàn)了很多措施方法,但無論是檢測效率,還是檢測精度,都不太理想。尤其是大規(guī)模數(shù)據(jù)清洗時,耗時比較長,需要更加先進(jìn)算法的支持。
第三,現(xiàn)有的很多數(shù)據(jù)清洗軟件、系統(tǒng)、工具都只能對特定的領(lǐng)域進(jìn)行清洗,存在較大的局限性。
第四,我國現(xiàn)有數(shù)據(jù)清洗工具比較少,且多集中在重復(fù)記錄數(shù)據(jù)清洗上,很少有研究關(guān)于完整數(shù)據(jù)、錯誤數(shù)據(jù)的清洗問題。很少利用孤立點的檢測方法來檢測數(shù)據(jù)源中的各項異常記錄。
3、采煤機運行狀態(tài)數(shù)據(jù)實時清洗技術(shù)
3.1構(gòu)建數(shù)據(jù)清洗系統(tǒng)框架
現(xiàn)有的數(shù)據(jù)清洗系統(tǒng)存在很多局限性,如:缺乏必需的擴展性、交互性等,急需設(shè)計出一種全新的數(shù)據(jù)清洗系統(tǒng)框架。
3.2數(shù)據(jù)檢測
數(shù)據(jù)檢測是采煤機運行狀態(tài)數(shù)據(jù)實時清洗的第一步,主要作用是確定目標(biāo)數(shù)據(jù)存在何種問題,再通過現(xiàn)成的檢測算法進(jìn)行檢測,用戶還可以實際情況,適當(dāng)添加和調(diào)整算法,利于提升數(shù)據(jù)檢測的效率和準(zhǔn)確性,這也反應(yīng)了該數(shù)據(jù)實時清洗系統(tǒng)的靈活性及擴展性。常用的數(shù)據(jù)檢測算法有以下兩種:
第一種,統(tǒng)計學(xué)算法,如切比雪夫定理、貝葉斯推理等,都是數(shù)據(jù)檢測中常用的統(tǒng)計學(xué)算法,其中切比雪夫定理的應(yīng)用最多,主要內(nèi)容是假設(shè)X是一個隨機變數(shù)取區(qū)間(0,∞)上的數(shù)值,F(xiàn)(x)是其分布函數(shù),設(shè)Xα(α>0)的數(shù)學(xué)期望M(Xα)存在,a>0,則不等式成立。通過切比雪夫定理,可計算某個字段值的平均值、標(biāo)準(zhǔn)差、取值范圍、最大值、最小值等。依次來發(fā)現(xiàn)數(shù)據(jù)中存在的異常字段,可隨機選擇樣本數(shù)據(jù)進(jìn)行分析,雖然隨度比較快,但準(zhǔn)確有待提升。
第二種,模式識別法。通過數(shù)據(jù)挖掘和機器學(xué)習(xí)算法來尋找異常數(shù)據(jù),通過劃分、分類、聚類等技術(shù)相互結(jié)合的方法,可發(fā)現(xiàn)采煤機運行狀態(tài)的異常記錄數(shù)據(jù)。如果一個模式被定義為數(shù)據(jù)集中的一組記錄具有P%的相似字段,P是根據(jù)采煤機運行實際情況的確定值,一般都在90%以上,應(yīng)用此種數(shù)據(jù)檢測算法,可生成一個記錄子集,而不是整個數(shù)據(jù)集,發(fā)現(xiàn)模式的幾率會大幅度提升。
3.3數(shù)據(jù)清洗策略
就采煤機運行狀態(tài)數(shù)據(jù)而言,數(shù)據(jù)質(zhì)量問題主要存在兩大類,其一是模式數(shù)據(jù)質(zhì)量問題,其二是數(shù)據(jù)本身的質(zhì)量問題,因此,在數(shù)據(jù)清洗時也有兩種清洗策略,一種是模式層的數(shù)據(jù)清洗策略,另一種是實例層的數(shù)據(jù)清洗策略。
3.3.1 模式層的數(shù)據(jù)清洗策略
在模式層中,數(shù)據(jù)質(zhì)量問題主要體現(xiàn)為結(jié)構(gòu)設(shè)計不合理,缺乏屬性間的完整性和約束性,從沖突的角度來看,包括兩種沖突,一種是命名沖突,另一種是結(jié)構(gòu)沖突。命名沖突又可分為同名異義和異名同義,其中同名異義指的是相同名稱代表著不同的對象,異名同義則指不同名稱代表了相同對象。結(jié)構(gòu)沖突引發(fā)的主要原因是在不同數(shù)據(jù)源中進(jìn)行的不同表示方式引起的。常見結(jié)構(gòu)沖突包括:數(shù)據(jù)類型沖突、數(shù)據(jù)依賴沖突、數(shù)據(jù)關(guān)鍵字沖突等。一旦發(fā)現(xiàn)數(shù)據(jù)模式問題,也不代表能夠非常輕松的解決相關(guān)問題,僅憑計算機對數(shù)據(jù)模式結(jié)構(gòu)進(jìn)行結(jié)構(gòu)修改,很難完成數(shù)據(jù)清洗。需要手工清洗來完成。在手工清洗過程中,可采用計算機轉(zhuǎn)換函數(shù),如隊列操作的SUM函數(shù)、ADD函數(shù)、DROP函數(shù)等輔助清洗,以降低手工清洗的工作量。
3.3.2實例層數(shù)據(jù)清洗策略
在采煤機運行狀態(tài)數(shù)據(jù)實例層數(shù)據(jù)清洗中,需要結(jié)合不同的情況,選擇與之相適的數(shù)據(jù)清洗策略。
數(shù)據(jù)集中異常記錄清洗,可采取空值清洗策略,空值問題可簡單的分為兩種,一種是缺失值,另一種是空值。其中前者是字段的值實際存在,但值卻是空值。在處理時可將字段值直接替換為空。缺失值處理時,某些缺失值可從根本數(shù)據(jù)源或者其他數(shù)據(jù)源中推導(dǎo)出來,可以用平均值推導(dǎo)、中間值推導(dǎo),也可以用復(fù)雜的概率統(tǒng)計函數(shù)值來代替缺失值在,但準(zhǔn)確性有限,此時可人工屬于一個比較接近的值,以保證數(shù)據(jù)清洗質(zhì)量。
結(jié)束語
綜上所述,本文結(jié)合理論實踐,分析了采煤機運行狀態(tài)數(shù)據(jù)實時清洗技術(shù),分析結(jié)果表明,針對采煤機運行狀態(tài)數(shù)據(jù)存在的質(zhì)量問題,需要采取有針對性的數(shù)據(jù)清洗技術(shù),有數(shù)據(jù)檢測系統(tǒng)、數(shù)據(jù)清洗清洗、設(shè)計評估系統(tǒng)、元數(shù)據(jù)管理系統(tǒng)組成的數(shù)據(jù)清洗系統(tǒng),可對各項數(shù)據(jù)進(jìn)行全面分析,然后開展有針對性的清洗,保證數(shù)據(jù)質(zhì)量,具有很強的通用性、適應(yīng)性及交互性,滿足采煤機持續(xù)穩(wěn)定運行的需求,值得大范圍推廣應(yīng)用。
參考文獻(xiàn)
[1]曹勇,崔治國,武根峰,等.基于機器學(xué)習(xí)算法的空調(diào)系統(tǒng)運行數(shù)據(jù)噪聲識別與清洗技術(shù)研究[J].建筑節(jié)能,2018,046(005):79-83.