丁 萌,樊 偉,王子涵
(1.空軍工程大學(xué),陜西 西安 710000;2.大連理工大學(xué),遼寧 大連 116000)
數(shù)據(jù)挖掘在煙機設(shè)備管理中的應(yīng)用
丁 萌1,樊 偉1,王子涵2
(1.空軍工程大學(xué),陜西 西安 710000;2.大連理工大學(xué),遼寧 大連 116000)
針對人為發(fā)現(xiàn)煙機設(shè)備故障趨勢難度大的問題,運用數(shù)據(jù)挖掘技術(shù)提取煙機設(shè)備中隱含的、人們事先不知道的但又是潛在有用的信息與知識,并根據(jù)這些信息、知識對煙機設(shè)備故障問題進行預(yù)測分析,將人為發(fā)現(xiàn)轉(zhuǎn)化為機器發(fā)現(xiàn),從而為企業(yè)提供設(shè)備維修方面的決策支持,減少設(shè)備維修時間與成本消耗。以卷接電機為實例,利用決策樹算法進行分類,分類結(jié)果與人為經(jīng)驗相符合,驗證了數(shù)據(jù)挖掘技術(shù)在預(yù)測煙機設(shè)備故障趨勢中的可行性。
數(shù)據(jù)挖掘;決策樹;設(shè)備故障
目前,國內(nèi)大多數(shù)煙草企業(yè)煙機設(shè)備仍然采用“以人工定期計劃維修為主”的維修方式,且維修計劃費用大的驚人,人工定制計劃也容易產(chǎn)生設(shè)備“欠修”、“過修”等問題。為能夠解決該問題,各煙草企業(yè)部署了MES系統(tǒng)或ERP系統(tǒng),但這些系統(tǒng)只是采用傳統(tǒng)的統(tǒng)計方法對采集數(shù)據(jù)進行匯總,并沒有對數(shù)據(jù)進行更專業(yè)、更深層次的分析、挖掘,導(dǎo)致對煙機設(shè)備的故障趨勢預(yù)測能力不足,只能定期管理維修工單作業(yè)[1]。針對以上情況,本文提出運用數(shù)據(jù)挖掘技術(shù),即決策樹算法對海量采集數(shù)據(jù)進行發(fā)掘,發(fā)現(xiàn)其內(nèi)在知識與規(guī)律,為設(shè)備的穩(wěn)定性夯實基礎(chǔ),提高機效,降低企業(yè)設(shè)備成本。
2.1 數(shù)據(jù)挖掘的概述
數(shù)據(jù)挖掘(data mining,DM)是一種決策支持過程[2],是從數(shù)據(jù)倉庫大量數(shù)據(jù)中提取出隱藏的、先前未知的、有價值的信息的非平凡過程。數(shù)據(jù)挖掘通過分析每一個數(shù)據(jù),通過數(shù)據(jù)準備、規(guī)律尋找和規(guī)律表示3個步驟從大量數(shù)據(jù)中尋找其規(guī)律特性,進而為人們提供決策支持。
2.2 數(shù)據(jù)挖掘的方法
數(shù)據(jù)挖掘是人工智能與數(shù)據(jù)庫技術(shù)相結(jié)合的產(chǎn)物,主要用于海量數(shù)據(jù)的處理、分析、歸納、總結(jié),其中包含神經(jīng)網(wǎng)絡(luò)、決策樹、粗糙集、聚類、遺傳算法等幾種比較重要的方法。這些方法的側(cè)重點和用途都不盡相同,本文針對煙機設(shè)備(即煙機卷接設(shè)備)故障進行預(yù)測,根據(jù)決策樹方法的簡易性與強有力的預(yù)測功能,選擇此方法對卷接設(shè)備故障樣本庫進行挖掘,生成規(guī)則庫,為故障分類提供決策依據(jù),并達到預(yù)期的目的。
3.1 決策樹方法簡介
決策樹是一種應(yīng)用較為廣泛的分類方法,它是對樣本數(shù)據(jù)進行學(xué)習(xí)與訓(xùn)練,得到具有價值、揭示數(shù)據(jù)內(nèi)部關(guān)聯(lián)規(guī)則的一種樹結(jié)構(gòu)。主要用于預(yù)測模型與歸納的知識表示形式。
3.2 決策樹的表示
決策樹通過樹的根以及相應(yīng)的葉子節(jié)點對實例進行分類。樹上的每個節(jié)點是對實例某個屬性的測試,且該節(jié)點的每個后繼分支對應(yīng)該屬性的一個可能值。分類方法就是從樹的根節(jié)點開始,測試這個節(jié)點的屬性,接著按照給定實例的屬性值對應(yīng)的樹枝向下移動,然后重復(fù)上述過程直到葉子節(jié)點。圖1是一個典型的決策樹。這個決策樹根據(jù)卸盤機電機的溫度與電流來決定電機是否正常工作或報警。
3.3 C4.5算法
決策樹基本算法主要有ID3算法、C4.5算法、x2統(tǒng)計算法、并行決策樹算法等。根據(jù)本文的樣本集與這些算法廣泛應(yīng)用度,選擇C4.5算法對卷接設(shè)備數(shù)據(jù)進行挖掘、分析設(shè)備樣本故障數(shù)據(jù),更好地預(yù)測[3]。
C4.5算法基本原理是計算每個屬性的信息增益比,把具有最高信息增益比的屬性作為給定集合的測試屬性,然后創(chuàng)建一個節(jié)點,以此屬性為標記,創(chuàng)建屬性每個值的分枝,最后按照此劃分樣本。
假設(shè)S是類標記樣本訓(xùn)練集,類標號Ci具有m個不同值(i=1,2…,m),CiS是Ci類的樣本集合,|S|和|CiS|分別指S和CiS中的樣本個數(shù)。
(1)對S中樣本分類所需的期望信息由下式給出:
(2)又假定按照屬性A劃分S中的樣本,且屬性A將S劃分成v個不同的類。在該劃分之后,為了得到準確的分類還需下面式子度量:
(3)計算信息增益公式:
Gain(A)=INfo(S)-InfoA(S)
(4)在屬性A上得到的信息增益比為:
本文采用2012年、2013年兩年的卷接設(shè)備[5](卷煙機、接嘴機、裝盤機、電機等)數(shù)據(jù)作為初始樣本集,同時應(yīng)用聚類方法中的K-means算法進行聚類。在確定各類的基礎(chǔ)上,對2014上半年的采集數(shù)據(jù)依據(jù)C4.5算法進行分類。分類實驗結(jié)果基本準確,能夠起到預(yù)測卷接設(shè)備故障的效果。但由于卷接設(shè)備包括子設(shè)備較多,因此只論述卷接電機[16]的決策樹結(jié)構(gòu)。圖2給出了電機診斷決策樹結(jié)構(gòu),其中值4.4、3.23、1.93、3.17是原始卷接電機數(shù)據(jù)樣本通過C4.5算法得到。
數(shù)據(jù)挖掘作為一項比較先進的數(shù)據(jù)處理技術(shù),在國內(nèi)得到了迅速的發(fā)展,也取得了較多成果,但在煙草行業(yè)的應(yīng)用極少,尤其是煙機設(shè)備的應(yīng)用方面。本文針對決策樹方法在煙機設(shè)備方面的應(yīng)用進行了探討,并嘗試對設(shè)備的故障問題進行了發(fā)掘。實踐證明,決策樹能夠很好地對故障問題進行預(yù)測分析,在發(fā)現(xiàn)有價值的知識與信息方面取得了較好的效果。
[1]卿宇搏,莫學(xué)芳,吳上海.故障診斷技術(shù)綜述及發(fā)展趨勢[J].中國儲運,2012,(11):124-127.
[2]毛國君,段立娟,王實.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005:1-82.
[3]顏文娟.五種決策樹算法的比較研究[D].大連:大連理工大學(xué),2011.
[4]魯文波.基于聲場空間分布特征的機械故障診斷方法及其應(yīng)用研究[D].上海:上海交通大學(xué),2012.
[5]陶永峰.數(shù)據(jù)挖掘在煙草行業(yè)質(zhì)量管理中的應(yīng)用[D].武漢:武漢理工大學(xué),2007.
[6]黃愛輝.決策樹C4.5算法的改進及應(yīng)用[J].科學(xué)技術(shù)與工程,2009,(01):34-36.
[7]吳澤樟,趙曉雷.煙草制絲設(shè)備偷停故障的分析與處理[J].企業(yè)技術(shù)開發(fā),2013,(04):49-50.
[8]超高.速卷接機多軸同步運動控制技術(shù)實驗研究[D].湖南:湖南大學(xué),2013.
[9]林德民.批次控制技術(shù)在制絲線上的應(yīng)用[J].自動化儀表,2013,(04):28-31.
[10]梁岳.狀態(tài)監(jiān)測系統(tǒng)在煙草制絲線的集成應(yīng)用[J].機電信息,2014,(27):133-134.
[11]何文婕,劉晉,王能友.制絲線監(jiān)控系統(tǒng)升級改造[J].中國包裝工業(yè),2014,(10):84.
[12]姜鑫,周彬.數(shù)據(jù)挖掘技術(shù)在水電廠主設(shè)備狀態(tài)檢修中的應(yīng)用研究[J].水電自動化與大壩監(jiān)測,2014,(04):45-47.
[13]紀懷猛.電力系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)[J].長春工業(yè)大學(xué)學(xué)報:自然科學(xué)版,2014,(02):35-36.
[14]張迎春.基于數(shù)據(jù)挖掘技術(shù)的保護設(shè)備故障信息管理與分析系統(tǒng)[J].無線互聯(lián)科技,2014,(05):78-79.
[15]姚明鏡,張春良,岳夏.故障診斷技術(shù)在煙草機械中的應(yīng)用和發(fā)展趨勢[J].機械制造,2014,(06):71-72.
[16]王英卓.煙機發(fā)電機組油膜振蕩的診斷分析與處理[J].電工技術(shù),2014,(08):42-43.
[17]翁海寬,江劍.測試技術(shù)在設(shè)備故障診斷中的具體應(yīng)用[J].新技術(shù)新工藝,2015,(04):145-148.
[責(zé)任編輯:王榮榮 英文編輯:劉彥哲]
Data Mining in Hood Equipment Management
DING Meng,FAN Wei,WANG Zi-han
(1.The Air Force Engineering University,Xi’an,Shanxi 10000,China;2.Dalian University of Technology,Dalian,Liaoning 116000,China)
To the problem that it is very difficult to find failure trend,data mining technology is used to derive implicit but useful information and knowledge that people do not know in advance in tobacco machinery,and then tobacco machinery failure problems are predicatively analyzed based on the information and knowledge,thus transforming man-found to machine-found to provide decision support in equipment maintenance for enterprises and reducing maintenance time and cost consuming equipment.Taking making and plug assembling machine as example,the decision tree is used to classify cigarettes,and the result conforms to people’s experience.It verifies the feasibility of predicting failure trend in hood equipment by data mining.
data mining;decision tree;equipment failure
丁萌(1994-),女,河北唐山人,空軍工程大學(xué)2012級信息與導(dǎo)航學(xué)院信息工程專業(yè)學(xué)生。
TP 311.12
A
10.3969/j.issn.1673-1492.2015.06.006
來稿日期:2015-09-22