鄭芳菲
(1.中煤科工集團(tuán)重慶研究院有限公司,重慶400039;2.重慶市礦山物聯(lián)網(wǎng)關(guān)鍵技術(shù)工程技術(shù)研究中心,重慶400039)
數(shù)據(jù)挖掘技術(shù)經(jīng)過二三十年的不斷發(fā)展,已經(jīng)成為一個(gè)理論與應(yīng)用相對健全的學(xué)科,它與數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)理論學(xué)等緊密相關(guān),把對數(shù)據(jù)的應(yīng)用分析從簡單地?cái)?shù)據(jù)查詢,上升到了知識(shí)挖掘和關(guān)聯(lián)發(fā)現(xiàn),并提供決策支持。隨著大數(shù)據(jù)被不斷提及與重視,多個(gè)行業(yè)和領(lǐng)域中的數(shù)據(jù)挖掘技術(shù)相關(guān)的應(yīng)用也越來越多。在煤礦開采行業(yè)中,數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于安全預(yù)測和生產(chǎn)輔助決策當(dāng)中,對保障煤礦安全開采,提高生產(chǎn)效率,降低開采成本,具有非常重要的意義[1]。
數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道但又是潛在有用的信息和知識(shí)的過程,它是知識(shí)發(fā)現(xiàn)(Knowledge-Discovery in Databases,KDD)過程中的一個(gè)重要環(huán)節(jié)[2],如圖1所示。
圖1 知識(shí)發(fā)現(xiàn)
數(shù)據(jù)挖掘技術(shù)以數(shù)據(jù)倉庫為研究對象,以統(tǒng)計(jì)分析方法和可視化技術(shù)為基礎(chǔ),并結(jié)合機(jī)器學(xué)習(xí)和人工智能方法,逐漸形成了自己特有的算法和技術(shù),主要有以下幾類:
一是分類預(yù)測型方法,該方法是研究最多的數(shù)據(jù)挖掘方法,常見的有決策樹方法、神經(jīng)網(wǎng)絡(luò)方法、貝葉斯方法[3]等。
決策樹方法,是一種依托于策略抉擇而建立起來的樹,它代表的是對象屬性與對象值之間的一種映射關(guān)系,樹的最頂層結(jié)點(diǎn)是根結(jié)點(diǎn),沿著由根結(jié)點(diǎn)到樹葉結(jié)點(diǎn)的路徑,可以轉(zhuǎn)換成IF-THEN分類規(guī)則。
神經(jīng)網(wǎng)絡(luò)方法是一種模仿人的思維方式,用生物神經(jīng)元的“刺激-反饋”的學(xué)習(xí)方式對數(shù)據(jù)集進(jìn)行處理的算法。人工神經(jīng)元是人工神經(jīng)網(wǎng)絡(luò)操作的基本信息處理單位,而人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程就是神經(jīng)元連接權(quán)值的調(diào)整過程,其實(shí)現(xiàn)是按照一定的規(guī)則去迭代地改變權(quán)值矩陣的值。
貝葉斯分類方法以貝葉斯定理為理論基礎(chǔ),是一種非常典型的基于統(tǒng)計(jì)方法學(xué)的數(shù)據(jù)挖掘分類模型。它依據(jù)事件的先驗(yàn)概率,并由先驗(yàn)信息和樣本信息確定事件的后驗(yàn)概率。貝葉斯分類方法有樸素貝葉斯分類和相對更高級(jí)、應(yīng)用更廣泛的貝葉斯網(wǎng)絡(luò)兩種分類方法。
二是由關(guān)聯(lián)分析方法和聚類方法等組成的描述型方法。關(guān)聯(lián)分析方法是由其他事物對另外一個(gè)事物進(jìn)行預(yù)測,前提條件則是這個(gè)事物與另外一個(gè)或多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)分析方法意在挖掘隱藏在數(shù)據(jù)之間的相互關(guān)系,最終形成了包括支持度和置信度2個(gè)參數(shù)的關(guān)聯(lián)規(guī)則,其中支持度反映了發(fā)現(xiàn)規(guī)則的有用性,而置信度則體現(xiàn)了規(guī)則的確定性。
聚類分析方法是將一個(gè)數(shù)據(jù)集分成多個(gè)不同的類或結(jié)果集,而這些類內(nèi)元素間的相似性盡可能地高,而類與類之間的區(qū)別性也盡可能地大。目前主要的聚類算法有K-means、Chemeleon、DBSCAN和STING等[4]。
隨著網(wǎng)絡(luò)信息快速地增長與膨脹,為了從海量的網(wǎng)絡(luò)數(shù)據(jù)中快速準(zhǔn)確地獲取有用信息,適用于網(wǎng)絡(luò)/文本數(shù)據(jù)挖掘的方法也成為近年來數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn)。由于當(dāng)前網(wǎng)絡(luò)信息絕大部分是由自然語言描述組成的,一般需要將這種非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)后再利用前文所述方法進(jìn)行處理。
當(dāng)前,國外特別是美國等發(fā)達(dá)國家,十分重視數(shù)據(jù)挖掘的開發(fā)與應(yīng)用。作為科學(xué)技術(shù)研究最前沿的地區(qū),美國長期占據(jù)著數(shù)據(jù)挖掘相關(guān)技術(shù)研究的核心地位,許多科研機(jī)構(gòu)和IT企業(yè)都非常重視數(shù)據(jù)挖掘技術(shù)的開發(fā)應(yīng)用,IBM、谷歌、微軟、思科等都相繼成立了專門的研究中心。目前最主要的數(shù)據(jù)挖掘軟件有Knowledge Studio、SPSSClementines、Cognos Scenario等。
與國外相比,國內(nèi)對數(shù)據(jù)挖掘的研究起步稍晚,缺少整體力量,研究人員主要集中在高校與科研院所,數(shù)據(jù)挖掘軟件產(chǎn)業(yè)還不成熟,但是發(fā)展前景良好,特別是在大數(shù)據(jù)流行的今天,對大數(shù)據(jù)的處理實(shí)質(zhì)上也是對數(shù)據(jù)進(jìn)行分析與挖掘的一種體現(xiàn)[5]。華為、阿里巴巴、騰訊、百度、360等公司已經(jīng)開始采集分析大量的用戶習(xí)慣和用戶消費(fèi)行為數(shù)據(jù),進(jìn)行各類數(shù)據(jù)挖掘分析與關(guān)聯(lián)規(guī)則發(fā)現(xiàn),目的就在于了解用戶的行為習(xí)慣,提供更為準(zhǔn)確的商品推薦和其他服務(wù)。
煤炭在我國的一次能源消耗中長期占據(jù)著70%左右的比例,是國民經(jīng)濟(jì)發(fā)展的重要支柱,煤礦開采因?yàn)槠涔逃械漠a(chǎn)業(yè)特點(diǎn)也決定了這一行業(yè)一直以來都屬于高危產(chǎn)業(yè)。因此,對煤礦企業(yè)生產(chǎn)過程中的監(jiān)控以及對企業(yè)的管理上,都是國家高度重視的。而數(shù)據(jù)挖掘,作為一門廣泛應(yīng)用且不斷發(fā)展的技術(shù),在煤礦中也得到了應(yīng)用,并在安全生產(chǎn)、企業(yè)管理等多個(gè)層面上發(fā)揮了重要的作用。
由于煤礦安全生產(chǎn)過程中,涉及的要素非常多,要素間的關(guān)聯(lián)性也非常復(fù)雜,數(shù)據(jù)挖掘技術(shù)的應(yīng)用也相對較多,且切入點(diǎn)比較廣泛,可以應(yīng)用在安全生產(chǎn)方面的各個(gè)環(huán)節(jié)中,目前比較普遍的是在瓦斯預(yù)警、隱患事故分析與預(yù)測、機(jī)械故障診斷和煤礦電網(wǎng)綜合管理等。
廣義的礦井瓦斯是指井下有害氣體的總稱,它是煤礦發(fā)生安全事故的一個(gè)主要因素,它的濃度高低直接影響井下的安全指數(shù),容易產(chǎn)生爆炸、突出和燃燒事故?,F(xiàn)有的瓦斯預(yù)警方法,多是通過廣泛結(jié)合井下瓦斯、一氧化碳等有害氣體的濃度,以及氧氣濃度、井下溫度、頂板壓力以及地質(zhì)條件等各環(huán)境因素之間的關(guān)聯(lián)關(guān)系進(jìn)行分析與挖掘[6]。如通過對歷史監(jiān)測數(shù)據(jù)的有效分析,并結(jié)合實(shí)時(shí)監(jiān)測數(shù)據(jù)和實(shí)際情況,利用關(guān)聯(lián)性數(shù)據(jù)分析與對比算法,設(shè)置合理的支持度和置信度,發(fā)現(xiàn)其中的關(guān)聯(lián)性,并通過不斷地現(xiàn)場試驗(yàn)與調(diào)試,給出并結(jié)合實(shí)時(shí)報(bào)警消息,給出合理的預(yù)警預(yù)測信息,提前做出有針對性的防范措施,減小事故發(fā)生概率和人員傷亡情況。
隱患事故分析與預(yù)測[7],也是數(shù)據(jù)挖掘技術(shù)在煤礦安全生產(chǎn)中的一個(gè)主要應(yīng)用點(diǎn),它秉承“一切事故都是由小的隱患在空間與時(shí)間上的積累”的概念,通過對各類事故的調(diào)研分析,利用對已有不合格項(xiàng)和人的不安全行為等數(shù)據(jù)的分析,發(fā)現(xiàn)各類隱患與事故之間的關(guān)聯(lián),實(shí)現(xiàn)對隱患與不安全行為的整改,減少隱患在空間與時(shí)間上的積累,降低事故的發(fā)生次數(shù)。
利用數(shù)據(jù)挖掘技術(shù)進(jìn)行機(jī)械故障診斷[8],是當(dāng)前比較流行的一個(gè)研究熱點(diǎn)。煤礦開采中要使用到相當(dāng)多的大型機(jī)電設(shè)備,目前主要是通過研究已經(jīng)積累的、海量的、煤礦機(jī)械的各種運(yùn)行數(shù)據(jù),掌握煤礦機(jī)械的故障形成和發(fā)展過程,了解設(shè)備故障的內(nèi)在本質(zhì)和特征,建立故障模型,提前預(yù)測故障部位,做到降低設(shè)備損耗、降低故障發(fā)生頻率、減少停電停風(fēng)次數(shù)的目的。
隨著國家“兩化”融合的不斷推進(jìn),煤礦信息化與煤礦綜合自動(dòng)化項(xiàng)目不斷上馬,大型煤礦企業(yè)均已建立了自己生產(chǎn)數(shù)據(jù)庫,存放了企業(yè)生產(chǎn)過程中安全、管理及營銷等各類數(shù)據(jù),對這些數(shù)據(jù)的挖掘與利用,目前也已經(jīng)受到重視。利用關(guān)聯(lián)分析和聚類分析的數(shù)據(jù)挖掘方法,對這些海量數(shù)據(jù)進(jìn)行合理的區(qū)分,將具有關(guān)聯(lián)性、相似性和相反性的數(shù)據(jù)進(jìn)行分類整理,發(fā)現(xiàn)生產(chǎn)、管理和營銷之間的關(guān)聯(lián)關(guān)系,能夠在一定程度上優(yōu)化生產(chǎn)開采模式和流程,降低企業(yè)能耗,減少事故發(fā)生概率和人員傷亡情況,提高煤礦企業(yè)數(shù)據(jù)資源的利用效率和勞動(dòng)生產(chǎn)率,也為煤礦企業(yè)帶來更多地經(jīng)濟(jì)效益。
雖然數(shù)據(jù)挖掘技術(shù)已經(jīng)開始在煤礦生產(chǎn)中發(fā)揮作用,但其應(yīng)用過程中也存在以下幾個(gè)主要問題:
一是重理論輕實(shí)用。不少大型煤礦企業(yè)和科研院所就數(shù)據(jù)挖掘技術(shù)在煤礦中的應(yīng)用,已經(jīng)做了較多的前期理論研究,形成了數(shù)量不少的理論總結(jié)和數(shù)據(jù)挖掘模型,但真正在煤礦中使用并發(fā)揮價(jià)值的,特別是在瓦斯預(yù)測和管理決策等方面的還是寥寥無幾,前期投入與實(shí)際研究成果不成比例。
二是行業(yè)信息化水平較低,基礎(chǔ)支持不夠。由于我國煤炭行業(yè)信息化起步較晚,發(fā)展水平較低,煤礦信息化的相關(guān)標(biāo)準(zhǔn)不全,且更偏重于硬件設(shè)備的生產(chǎn)投入,相對缺少對軟件自動(dòng)化與信息化發(fā)展的支持,雖然大型煤礦已經(jīng)建立了數(shù)據(jù)倉庫,但各類異構(gòu)系統(tǒng)較多,數(shù)據(jù)完整性、關(guān)聯(lián)性和一致性上有待提高,給數(shù)據(jù)挖掘前期的數(shù)據(jù)清洗、數(shù)據(jù)集成和數(shù)據(jù)轉(zhuǎn)換帶來了非常大的困難,造成數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性和指導(dǎo)意義較低。
三是煤礦數(shù)據(jù)挖掘技術(shù)的應(yīng)用與推廣成本較高。我國煤礦產(chǎn)地分布不均,煤炭質(zhì)量與產(chǎn)量差別巨大,開采環(huán)境各異,一個(gè)煤礦建立起來的數(shù)據(jù)挖掘模型往往不適應(yīng)于其他煤礦,造成前期投入較高,但預(yù)測準(zhǔn)確性較低,很難取得理想的經(jīng)濟(jì)效益,缺乏推廣基礎(chǔ)。
目前,數(shù)字化礦山的建設(shè)工作正在不斷推進(jìn),煤礦開采逐步走向智能化,無人或少人煤礦是未來煤礦開采的必然趨勢[9]。解決當(dāng)前數(shù)據(jù)挖掘技術(shù)在使用過程中存在的各類問題,提高數(shù)據(jù)挖掘技術(shù)的應(yīng)用場景和預(yù)測結(jié)果,是實(shí)現(xiàn)煤礦智能化的一個(gè)重要手段。
首先,需要不斷培養(yǎng)既有煤礦專業(yè)知識(shí)和地質(zhì)地理知識(shí),又掌握數(shù)據(jù)挖掘算法的復(fù)合型高新技術(shù)人才,集中科研力量,建立綜合性的煤礦安全基礎(chǔ)研究機(jī)構(gòu),保證可持續(xù)的人才、經(jīng)費(fèi)和科研時(shí)間的投入,是研究成果能否有關(guān)鍵性突破的決定性因素。
其次,結(jié)合當(dāng)前快速發(fā)展的煤礦物聯(lián)網(wǎng)技術(shù),以及云計(jì)算和云存儲(chǔ)的技術(shù),實(shí)現(xiàn)煤礦中人、機(jī)和各類環(huán)境參數(shù)的深度融合,建立完善的災(zāi)害預(yù)警模型,提升預(yù)警速度和預(yù)警結(jié)果的準(zhǔn)確性。
最后,提高煤礦企業(yè)的管理水平,逐步增加數(shù)據(jù)挖掘技術(shù)在煤礦生產(chǎn)中的應(yīng)用場景和認(rèn)可程度,實(shí)現(xiàn)對井下各類機(jī)電設(shè)備工作狀態(tài)的即時(shí)診斷,做到及時(shí)預(yù)測、優(yōu)化決策,提高挖掘結(jié)果的準(zhǔn)確性,指導(dǎo)煤礦企業(yè)的安全生產(chǎn)。
隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,煤礦信息化水平的不斷提高,上馬的子系統(tǒng)越來越多,煤礦數(shù)據(jù)規(guī)模會(huì)進(jìn)一步膨脹,系統(tǒng)集成和綜合信息平臺(tái)將會(huì)成為煤礦信息化的主流方向,數(shù)據(jù)融合與數(shù)據(jù)標(biāo)準(zhǔn)化是實(shí)現(xiàn)這一主流方向的基礎(chǔ),結(jié)合當(dāng)前較為成熟的云計(jì)算技術(shù),數(shù)據(jù)挖掘技術(shù)在煤礦中的應(yīng)用會(huì)越來越多,進(jìn)而減少各類安全事故的發(fā)生,優(yōu)化企業(yè)資源,提高綜合競爭力,最終實(shí)現(xiàn)安全生產(chǎn)。
[1]賴振丹.數(shù)據(jù)挖掘技術(shù)在煤礦企業(yè)中的應(yīng)用[J].煤炭技術(shù),2013,32(6):124-125.
[2]韓家煒著,范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京,機(jī)械工業(yè)出版社,2000.
[3]李玲俐.數(shù)據(jù)挖掘中分類算法綜述[J].重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,28(4):44-47.
[4]周濤,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進(jìn)展[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(12):100-111.
[5]王惠中,彭安群.數(shù)據(jù)挖掘研究現(xiàn)狀及發(fā)展趨勢[J].工礦自動(dòng)化,2011(2):29-30.
[6]李瑞華.數(shù)據(jù)挖掘在煤礦安全監(jiān)測中的應(yīng)用[D].西安:西安電子科技大學(xué),2010.
[7]趙作鵬,尹志民,陳金翠,等.煤礦隱患數(shù)據(jù)挖掘模型及適用挖掘算法[J].煤炭科學(xué)技術(shù),2010,38(3):67-69,27.
[8]李洪燕,陳步英,趙美枝.數(shù)據(jù)挖掘技術(shù)在煤礦機(jī)械故障診斷中的應(yīng)用[J].煤礦機(jī)械,2012,33(12):259-261.
[9]毛善君.“高科技煤礦”信息化建設(shè)的戰(zhàn)略思考及關(guān)鍵技術(shù)[J].煤炭學(xué)報(bào),2014,39(8):1572-1583.