• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于煤礦預(yù)警監(jiān)測(cè)的數(shù)據(jù)挖掘算法應(yīng)用研究

      2019-12-27 07:22:34
      山西電子技術(shù) 2019年6期
      關(guān)鍵詞:數(shù)據(jù)表隱患數(shù)據(jù)挖掘

      張 丁

      (1.太原理工大學(xué),山西 太原 030001;2.中國(guó)太原煤炭交易中心有限公司,山西 太原 030024)

      0 引言

      煤炭企業(yè)生產(chǎn)工作環(huán)境區(qū)域狹隘,照明情況差,存在易燃易爆氣體等固有的特點(diǎn)決定了其高危行業(yè)的屬性。隨著技術(shù)的不斷發(fā)展,大部分煤礦陸續(xù)部署實(shí)時(shí)監(jiān)控的安全監(jiān)控系統(tǒng),但各系統(tǒng)之間缺乏對(duì)整體的有效管控,導(dǎo)致大量安全隱患數(shù)據(jù)激增,難以通過(guò)科學(xué)方法對(duì)安全生產(chǎn)環(huán)境進(jìn)行預(yù)警監(jiān)測(cè)。為了更好地進(jìn)行生產(chǎn)過(guò)程監(jiān)測(cè)與管理決策,對(duì)隱患數(shù)據(jù)的發(fā)掘提出了新的要求。數(shù)據(jù)挖掘技術(shù)通過(guò)對(duì)各類隱患數(shù)據(jù)的收集處理、預(yù)測(cè)分析,可以很好地跨越限制[1]。本文通過(guò)對(duì)煤礦生產(chǎn)過(guò)程中的隱患數(shù)據(jù)建立數(shù)據(jù)倉(cāng)庫(kù),采用關(guān)聯(lián)規(guī)則算法進(jìn)行數(shù)據(jù)挖掘分析預(yù)測(cè),實(shí)現(xiàn)對(duì)煤礦生產(chǎn)的安全預(yù)警,起到對(duì)生產(chǎn)安全事故的預(yù)防和指導(dǎo)作用。

      煤礦生產(chǎn)是一個(gè)動(dòng)態(tài)復(fù)雜的過(guò)程,涉及到隱患數(shù)據(jù)眾多,預(yù)警監(jiān)測(cè)數(shù)據(jù)挖掘模型分為數(shù)據(jù)采集與重構(gòu)、關(guān)聯(lián)算法挖掘及預(yù)測(cè)分析3大模塊。

      1 數(shù)據(jù)準(zhǔn)備

      1.1 數(shù)據(jù)采集與重構(gòu)

      數(shù)據(jù)準(zhǔn)備工作是關(guān)系到數(shù)據(jù)挖掘成功與否的重要步驟,占據(jù)整個(gè)數(shù)據(jù)挖掘工作超過(guò)60%的工作量[2]。由于各監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)格式等無(wú)法滿足需要,將所有與業(yè)務(wù)系統(tǒng)相關(guān)的原始數(shù)據(jù)進(jìn)行收集,錄入到滿足數(shù)據(jù)挖掘要求的數(shù)據(jù)庫(kù)中。

      本文主要針對(duì)煤礦安全生產(chǎn)過(guò)程中的隱患數(shù)據(jù)進(jìn)行挖掘。為提高開(kāi)發(fā)效率,縮短開(kāi)發(fā)周期,使用SQL Server 2008數(shù)據(jù)庫(kù)管理工具,對(duì)不同數(shù)據(jù)源進(jìn)行數(shù)據(jù)轉(zhuǎn)換處理,導(dǎo)入生成隱患參數(shù)數(shù)據(jù)庫(kù),使用OLAP提供的應(yīng)用接口進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)分析,提取關(guān)聯(lián)規(guī)則,預(yù)測(cè)分析,為用戶提供決策支持服務(wù)。使用的開(kāi)發(fā)工具及其作用,見(jiàn)表1。

      表1 數(shù)據(jù)庫(kù)開(kāi)發(fā)工具及作用

      生成的隱患數(shù)據(jù)庫(kù)包含:瓦斯?jié)舛?、瓦斯壓力、溫度、通風(fēng)量、煤層厚度等。

      1.2 數(shù)據(jù)預(yù)處理

      經(jīng)過(guò)重構(gòu)的數(shù)據(jù)大多數(shù)存在噪聲,包含空值及不一致數(shù)據(jù),為保證數(shù)據(jù)挖掘算法效率,提高關(guān)聯(lián)規(guī)則的有效性,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。例如,清洗與挖掘關(guān)聯(lián)規(guī)則無(wú)關(guān)的數(shù)據(jù)采集人等冗余屬性,刪除孤立數(shù)據(jù),可以有效地降低數(shù)據(jù)復(fù)雜度。將數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘作為預(yù)測(cè)分析結(jié)果,以瓦斯?jié)舛葦?shù)據(jù)為例,將瓦斯?jié)舛取⑼L(fēng)量、溫度、煤層厚度等處理形成部分?jǐn)?shù)據(jù)表,如表2。

      表2 隱患數(shù)據(jù)表

      2 Apriori關(guān)聯(lián)規(guī)則挖掘算法

      2.1 數(shù)據(jù)挖掘的相關(guān)概念

      關(guān)聯(lián)規(guī)則算法是從事務(wù)數(shù)據(jù)庫(kù)的大量隨機(jī)、模糊的數(shù)據(jù)中,通過(guò)數(shù)據(jù)提取挖掘出數(shù)據(jù)之間的關(guān)聯(lián)性及依賴性,發(fā)現(xiàn)對(duì)分析結(jié)果有價(jià)值的知識(shí),可描述如下:

      設(shè)I={i1,i2,…,im}是由m個(gè)不同的數(shù)據(jù)項(xiàng)組成的集合。設(shè)D是在I上的事務(wù)集合,它由各個(gè)事務(wù)所組成,記為D={t1,t2,...,tn},其中ti(i=1,2,...,n)是單個(gè)事務(wù),ti都對(duì)應(yīng)I上的一個(gè)集合Iti,它是I的一個(gè)子集,即Iti?I,有一個(gè)唯一的標(biāo)識(shí)符TID。若項(xiàng)集X?I且X?T,則事務(wù)T包含項(xiàng)集X[2]。

      關(guān)聯(lián)規(guī)則就是形如:X?Y[support=s%,confidence=c%]的規(guī)則[3],其中X和Y都是項(xiàng)的集合且X?I,Y?I,X∩Y=φ。support=s%表示規(guī)則的支持度為s%,即事務(wù)數(shù)據(jù)庫(kù)D中有s%的事物包含X和Y;confidence=c%則表示規(guī)則的置信度為c%,即事務(wù)數(shù)據(jù)庫(kù)D中包含X的事務(wù)中有c%的事務(wù)也包含了Y。

      頻繁數(shù)據(jù)項(xiàng)集:假設(shè)用戶設(shè)定最小支持度為min_support,稱min_support為支持度閾值,其中對(duì)于支持度大于支持度閾值的項(xiàng)集,我們稱之為頻繁項(xiàng)集,也叫大項(xiàng)目集。

      強(qiáng)關(guān)聯(lián)規(guī)則:對(duì)于事務(wù)集合D,強(qiáng)關(guān)聯(lián)規(guī)則是指滿足不小于最小支持度min_support,且不小于最小置信度min_confidence的頻繁數(shù)據(jù)項(xiàng)集。此時(shí),關(guān)聯(lián)規(guī)則X?Y被稱為強(qiáng)關(guān)聯(lián)規(guī)則。

      2.2 關(guān)聯(lián)規(guī)則算法挖掘步驟

      對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘的首要任務(wù)是給出最小支持度和最小置信度閾值。主要分為兩個(gè)步驟:1) 依據(jù)最小支持度,產(chǎn)生頻繁項(xiàng)集;2) 由步驟1) 頻繁項(xiàng)集和最小置信度確定生成強(qiáng)關(guān)聯(lián)規(guī)則。示意圖如圖1。

      圖1 關(guān)聯(lián)規(guī)則挖掘算法模型

      關(guān)聯(lián)規(guī)則挖掘的一種經(jīng)典算法為R.AGRAWAL等人提出的Apriori算法,其核心思想為:遞歸掃描事務(wù)數(shù)據(jù)庫(kù)D,直至生成全部頻繁項(xiàng)集,找到滿足設(shè)定條件的關(guān)聯(lián)規(guī)則。步驟如下:

      1) 掃描事務(wù)數(shù)據(jù)庫(kù)全部數(shù)據(jù),得到1-項(xiàng)集合C1;

      2) 依據(jù)給定支持度閾值min_support,由1-項(xiàng)集合C1得出頻繁1-項(xiàng)集合K1;

      3)i>1時(shí),重復(fù)步驟4-6;

      4) 對(duì)得到的Ki集合進(jìn)行連接剪枝,得到(i+1)-項(xiàng)集合Ci+1;

      5) 依據(jù)給定支持度閾值min_support,由(i+1)-項(xiàng)集合Ci+1得出頻繁(i+1)-項(xiàng)集合Ki+1;

      6) 如果集合K≠?,i=i+1,轉(zhuǎn)到步驟4,如果K=?,則轉(zhuǎn)到步驟7;

      7) 依據(jù)給定的置信度閾值min_confidence,得到滿足條件的頻繁集則為關(guān)聯(lián)規(guī)則,算法結(jié)束。

      3 挖掘結(jié)果預(yù)測(cè)分析

      本文采用Apriori算法挖掘數(shù)據(jù)關(guān)聯(lián)規(guī)則,例如針對(duì)瓦斯?jié)舛葦?shù)據(jù)表中的所有的相關(guān)屬性進(jìn)行關(guān)聯(lián)規(guī)則挖掘,而不僅僅局限于某一個(gè)特定屬性。而Apriori算法需要處理量化后的離散值,所以需要首先對(duì)數(shù)據(jù)離散化,得到不同的分布區(qū)間。設(shè)定瓦斯?jié)舛鹊念愋蜆?biāo)號(hào)為Q、瓦斯壓力為R、通風(fēng)量為S、溫度為T(mén)及煤層厚度為U。我們依據(jù)數(shù)據(jù)表中屬性值的情況得到:瓦斯?jié)舛鹊姆植紖^(qū)間為Q1:[0-0.16],Q2:(0.16-0.30],Q3:(0.30-~];瓦斯壓力的分布區(qū)間為R1:[0-7],R2:(8-16],R3:(16-~];通風(fēng)量的分布區(qū)間為S1:[0-1200],S2:(1200-1300],S3:(1300-~];溫度的分布區(qū)間為T(mén)1:[~-11],T2:(11-15],T3:(15-~];煤層厚度的分布區(qū)間為U1:[0-4],U2:(4-7],U3:(7-~]。離散化的數(shù)據(jù)表分布如表3。

      表3 離散化隱患數(shù)據(jù)表

      我們?cè)O(shè)定最小支持度閾值min_support=0.45,最小置信度閾值min_confidence=0.75,使用Apriori算法對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,得到部分關(guān)聯(lián)規(guī)則如下:

      (1)S1?Q3;(2)Q3?R3;(3)T1?R1;

      將對(duì)應(yīng)的區(qū)間類型標(biāo)號(hào)對(duì)應(yīng)數(shù)據(jù)區(qū)間,則關(guān)聯(lián)規(guī)則(1)的實(shí)際含義為:煤礦中通風(fēng)量等級(jí)越低,則礦道內(nèi)瓦斯?jié)舛鹊燃?jí)越高;關(guān)聯(lián)規(guī)則(2)的實(shí)際含義為:礦道中瓦斯?jié)舛鹊燃?jí)越高,則瓦斯壓力等級(jí)也越高;關(guān)聯(lián)規(guī)則(3)的實(shí)際含義為:礦道中溫度等級(jí)越低,則瓦斯壓力等級(jí)也越低。

      根據(jù)得到的部分關(guān)聯(lián)規(guī)則,發(fā)現(xiàn)煤礦生產(chǎn)過(guò)程的隱患數(shù)據(jù)之間的數(shù)據(jù)關(guān)聯(lián)與實(shí)際生產(chǎn)的客觀事實(shí)相吻合。所以,我們利用得到的關(guān)聯(lián)規(guī)則,可以很好地對(duì)生產(chǎn)過(guò)程進(jìn)行防范,從而降低生產(chǎn)事故的發(fā)生幾率。

      4 結(jié)束語(yǔ)

      本文以煤礦生產(chǎn)過(guò)程隱患數(shù)據(jù)的監(jiān)測(cè)預(yù)警為背景,針對(duì)數(shù)據(jù)種類繁多、復(fù)雜,數(shù)據(jù)量大的特點(diǎn),構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),提出了采用Apriori數(shù)據(jù)挖掘算法進(jìn)行數(shù)據(jù)之間關(guān)聯(lián)規(guī)則挖掘,得到的關(guān)聯(lián)規(guī)則為實(shí)際生產(chǎn)提供了較好的參考意義,有效地降低了煤礦安全事故的發(fā)生幾率。采用傳統(tǒng)的Apriori算法復(fù)雜度較高,存在較大的優(yōu)化空間,如何降低算法復(fù)雜度,取得更好地關(guān)聯(lián)規(guī)則挖掘效率是在此基礎(chǔ)上,下一步研究的方向。

      猜你喜歡
      數(shù)據(jù)表隱患數(shù)據(jù)挖掘
      隱患隨手拍
      隱患隨手拍
      互聯(lián)網(wǎng)安全隱患知多少?
      隱患隨手拍
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      湖北省新冠肺炎疫情數(shù)據(jù)表
      黨員生活(2020年2期)2020-04-17 09:56:30
      基于列控工程數(shù)據(jù)表建立線路拓?fù)潢P(guān)系的研究
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      圖表
      上饶市| 平潭县| 郎溪县| 原平市| 同心县| 鄂州市| 昌都县| 交城县| 东丽区| 呼伦贝尔市| 长阳| 肥乡县| 邮箱| 宕昌县| 凌云县| 普兰县| 大姚县| 青神县| 兰坪| 浠水县| 东乌珠穆沁旗| 兴安盟| 宜川县| 鱼台县| 嫩江县| 正宁县| 抚州市| 改则县| 涟源市| 长乐市| 大港区| 柳州市| 承德市| 渝中区| 太谷县| 漳平市| 长顺县| 五寨县| 崇州市| 时尚| 涞源县|