趙 科
(長(zhǎng)治學(xué)院, 山西 長(zhǎng)治 046000)
為準(zhǔn)確把握安全生產(chǎn)的特點(diǎn)和規(guī)律,2016年,國(guó)務(wù)院安委會(huì)出臺(tái)印發(fā)了《標(biāo)本兼治遏制重特大事故工作指南》,要求煤礦在內(nèi)企業(yè)構(gòu)建安全風(fēng)險(xiǎn)分級(jí)管控和隱患排查治理雙重預(yù)防機(jī)制,提升安全生產(chǎn)整體預(yù)控能力,從而有效遏制事故發(fā)生。其中,建立完善隱患排查治理體系,要“明確和細(xì)化隱患排查的事項(xiàng)、內(nèi)容”,還要達(dá)到“實(shí)現(xiàn)隱患排查治理的閉環(huán)管理”的目標(biāo)。自雙重預(yù)防機(jī)制實(shí)施以來,事故隱患排查治理的信息化管理系統(tǒng)幾乎成為煤礦企業(yè)的“標(biāo)配”,管理平臺(tái)在長(zhǎng)期的使用中積累了大量的煤礦事故隱患數(shù)據(jù)。由于對(duì)隱患數(shù)據(jù)缺乏有效的研究手段,難以將隱患數(shù)據(jù)充分利用并形成良性反饋機(jī)制,導(dǎo)致煤礦企業(yè)長(zhǎng)期陷入“數(shù)據(jù)爆炸但知識(shí)匱乏”的尷尬局面,隱患數(shù)據(jù)無法為隱患排查治理的閉環(huán)管理提供相關(guān)決策支持,煤礦生產(chǎn)安全依舊存在“認(rèn)識(shí)不深刻、管理不周到”的突出問題[1].
如何從大量的不斷增長(zhǎng)的煤礦事故隱患數(shù)據(jù)中有效挖掘事故隱患背后隱藏的規(guī)律、規(guī)則和特點(diǎn),提升對(duì)事故隱患的認(rèn)識(shí)并反饋到煤礦事故隱患排查治理閉環(huán)管理成為當(dāng)下煤礦事故隱患領(lǐng)域的一個(gè)研究熱點(diǎn)。有部分學(xué)者圍繞煤礦事故隱患數(shù)據(jù)進(jìn)行了研究。李仕瓊[2]利用Fp-Crowth 算法對(duì)煤礦安全隱患的屬性數(shù)據(jù)進(jìn)行規(guī)律總結(jié);張大偉[3]基于OLAM方法通過微軟SSIS對(duì)煤礦隱患數(shù)據(jù)進(jìn)行挖掘;張長(zhǎng)魯[4]運(yùn)用六何分析法實(shí)現(xiàn)煤礦文本型隱患數(shù)據(jù)的知識(shí)顯性化;譚章祿等[5-6]基于LDA挖掘煤礦安全隱患記錄數(shù)據(jù)的隱患主題,構(gòu)建煤礦安全隱患語義網(wǎng)絡(luò)后進(jìn)行聚類分析;毛瑞軍等[7]通過采用時(shí)間序列分析模型挖掘煤礦歷史隱患數(shù)據(jù);高曉旭等[8]借助算法挖掘煤礦隱患數(shù)據(jù)多維度間的關(guān)聯(lián)關(guān)系;彭德軍等[9]基于卷積神經(jīng)網(wǎng)絡(luò)有效提取煤礦隱患信息關(guān)鍵語義;田水承等[10]對(duì)煤礦頂板事故調(diào)查報(bào)告進(jìn)行網(wǎng)絡(luò)中心性分析和核心邊緣結(jié)構(gòu)分析。
上述研究為煤礦事故隱患數(shù)據(jù)的挖掘利用提供了參考思路,但是鮮有對(duì)煤礦事故隱患數(shù)據(jù)特征屬性的針對(duì)性研究。本文利用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法,充分考慮煤礦事故隱患數(shù)據(jù)特性,對(duì)隱患文本數(shù)據(jù)進(jìn)行研究分析,為發(fā)掘事故隱患信息的規(guī)律聯(lián)系和揭示煤礦事故隱患整體態(tài)勢(shì)提供了一種新的思路和手段,以期為煤礦事故隱患排查治理閉環(huán)管理提供決策信息支持。
以宏源集團(tuán)富家凹煤礦2017—2018年共3958條事故隱患數(shù)據(jù)作為研究對(duì)象,根據(jù)雙重預(yù)防機(jī)制要求,每條事故隱患數(shù)據(jù)中包含了隱患描述、責(zé)任單位、隱患位置、整改措施、資金、時(shí)限等字段內(nèi)容。在對(duì)煤礦事故隱患數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),針對(duì)隱患描述、責(zé)任單位、隱患位置3個(gè)字段信息進(jìn)行研究分析。部分隱患數(shù)據(jù)見表1.
表1 煤礦事故隱患部分?jǐn)?shù)據(jù)
煤礦事故隱患數(shù)據(jù)采用自然語言記錄,由漢字、數(shù)字、英文字母及標(biāo)點(diǎn)符號(hào)組成,是中文文本數(shù)據(jù)。從表1可以看出,煤礦事故隱患文本數(shù)據(jù)記錄較口語化、專業(yè)詞匯多,同時(shí),每條隱患文本數(shù)據(jù)中隱患多維信息常常是幾個(gè)詞語的簡(jiǎn)單組合,這是典型的中文“短文本”數(shù)據(jù)[11],以上煤礦事故隱患文本數(shù)據(jù)的特點(diǎn)屬性都為其研究利用增加了難度。
在實(shí)際工作中,煤礦事故隱患短文本數(shù)據(jù)由現(xiàn)場(chǎng)工作人員手工輸入,內(nèi)容采用中文常用習(xí)慣表達(dá),是非結(jié)構(gòu)化的中文文本信息。在煤礦事故隱患短文本關(guān)聯(lián)規(guī)則挖掘前,需要進(jìn)行文本預(yù)處理操作,將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別的結(jié)構(gòu)化數(shù)據(jù)。文本預(yù)處理通常包括分詞、去停用詞、文本表示等內(nèi)容[12].
1.2.1 分詞
中文分詞是將連續(xù)的中文句式按照一定的規(guī)范切分后,重新組合成詞的序列的過程。煤礦事故隱患短文本數(shù)據(jù)是以漢字為主的連貫表達(dá),不像英文句式中單詞用空格區(qū)分,所以需要將隱患中文句子準(zhǔn)確分隔成一個(gè)個(gè)詞。
R是一種軟件語言和操作環(huán)境,常用于數(shù)據(jù)挖掘和可視化研究領(lǐng)域。jiebaR是R語言在文本數(shù)據(jù)挖掘中最常使用的中文分詞工具包。由于分詞使用場(chǎng)景不同,因此,在實(shí)際應(yīng)用中的分詞效果也取決于分詞詞庫的好壞。通過總結(jié)搜狗細(xì)胞詞庫中的公共詞庫和手動(dòng)添加專業(yè)詞匯的方式建立了煤礦事故隱患用戶詞典,見圖1,豐富了中文分詞詞庫,提高了中文詞匯拆分的準(zhǔn)確性,保障了后續(xù)研究的順利進(jìn)行。例如隱患短文本數(shù)據(jù)為“1236軌道巷皮帶有兩處接頭不合格”,分詞后得到的結(jié)果是:“1236軌道巷”“皮帶”“有”“兩”“處”“接頭”“不合格”。此處的“1236軌道巷”實(shí)現(xiàn)準(zhǔn)確分詞,正是在分詞詞庫中手動(dòng)添加專業(yè)詞匯的結(jié)果。
圖1 煤礦事故隱患用戶詞典
1.2.2 去停用詞
停用詞是指在文本中無實(shí)際意義,去掉后不影響主旨的詞、字符。常見的中文停用詞可以分為兩類,一是表達(dá)中常用,在語句中發(fā)揮結(jié)構(gòu)功能,主要包括數(shù)詞、量詞、介詞、連詞、助詞、意義有限的動(dòng)詞等,如“的”“與”等詞;二是標(biāo)點(diǎn)符號(hào)和無意義的數(shù)[13].
分詞之后,刪除停用詞的操作稱之為去停用詞。以隱患短文本數(shù)據(jù) “1236軌道巷皮帶有兩處接頭不合格”為例,經(jīng)分詞和去停用詞的操作后,得到結(jié)果為:“1236軌道巷”“皮帶”“接頭”“不合格”,去停用詞刪去了“有”“兩”“處”3個(gè)字符,均屬于中文停用詞中的第一類情形。
1.2.3 文本表示
文本表示是采用模型將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為計(jì)算機(jī)可以識(shí)別和處理的結(jié)構(gòu)化數(shù)據(jù),目前通常采用向量空間模型。
向量空間模型是由Salton等人提出,現(xiàn)被廣泛應(yīng)用于文本數(shù)據(jù)挖掘中的文本表示[14]. 在煤礦事故隱患短文本數(shù)據(jù)研究中,將每條隱患數(shù)據(jù)看作一個(gè)文檔,隱患短文本經(jīng)過分詞和去停用詞后的結(jié)果成為隱患文檔的特征項(xiàng),每個(gè)文檔均由特征項(xiàng)構(gòu)成,隱患文檔空間向量模型即可表示為:
Document=D(t1,t2,…,tn)
(1)
式中:tk是特征項(xiàng),其中1≤k≤n.
關(guān)聯(lián)規(guī)則起源于美國(guó)沃爾瑪超市購物籃分析,超市管理者通過分析顧客購買商品習(xí)慣和偏好,在此基礎(chǔ)上實(shí)施更加精準(zhǔn)的產(chǎn)品優(yōu)化、推薦銷售等營(yíng)銷策略,提高超市的產(chǎn)品銷量和經(jīng)濟(jì)效益[15]. 關(guān)聯(lián)規(guī)則作為數(shù)據(jù)挖掘的關(guān)鍵技術(shù)之一,其目標(biāo)就是在大量數(shù)據(jù)集中尋找對(duì)象集合之間存在的關(guān)聯(lián)性和因果性,為管理者提供參考建議。
在關(guān)聯(lián)規(guī)則中,一個(gè)事件的發(fā)生,很可能會(huì)引起另一個(gè)事件的發(fā)生,將煤礦事故隱患數(shù)據(jù)文本預(yù)處理后的結(jié)果看作不同事件,例如“1236軌道巷”“皮帶”“接頭”“不合格”,那么事件“皮帶”的出現(xiàn),就有可能推測(cè)事件“接頭”出現(xiàn)。將關(guān)聯(lián)規(guī)則挖掘用于煤礦事故隱患短文本數(shù)據(jù)研究,能夠快速精準(zhǔn)地從數(shù)量龐大的煤礦事故隱患數(shù)據(jù)中得到煤礦事故隱患問題的概況和細(xì)節(jié),為煤礦經(jīng)營(yíng)者針對(duì)事故隱患排查治理工作提供參考。
關(guān)聯(lián)規(guī)則的度量方式包括支持度、置信度和提升度[16]. 在關(guān)聯(lián)規(guī)則挖掘中將每條煤礦事故隱患數(shù)據(jù)看作一個(gè)事務(wù),事務(wù)里記錄了事故隱患的多維信息,全部的事務(wù)組成了事務(wù)集D.
D={d1,d2,…,di,…,dn}
(2)
式中:di是煤礦事故隱患數(shù)據(jù),其中1≤i≤n.
將每條隱患短文本預(yù)處理后的特征項(xiàng)看作事務(wù)的屬性,稱之為項(xiàng),總項(xiàng)集是所有項(xiàng)的集合。
I={i1,i2,…,ij,…,im}
(3)
式中:ij是項(xiàng),其中1≤j≤m.
隱患短文本預(yù)處理后的項(xiàng)或項(xiàng)集X和Y屬于總項(xiàng)集I,且兩者無交集,蘊(yùn)含式X?Y表示X和Y同時(shí)出現(xiàn)的規(guī)則。
在事務(wù)集D中,X和Y在總項(xiàng)集I出現(xiàn)的概率稱為支持度。
(4)
式中:X和Y表示沒有交集的項(xiàng)或項(xiàng)集。
當(dāng)X出現(xiàn)時(shí),若能以一定的概率推測(cè)出Y,則在事務(wù)集D中同時(shí)含有X和Y的事務(wù)總量除以只有X的事務(wù)總量的商為置信度。
(5)
關(guān)聯(lián)規(guī)則中支持度和置信度的值同時(shí)高于對(duì)應(yīng)分析期望值稱為強(qiáng)關(guān)聯(lián),否則為弱關(guān)聯(lián)。
在X條件下Y發(fā)生概率除以Y單獨(dú)發(fā)生的概率的商稱為提升度。
(6)
提升度大于1則為有效強(qiáng)關(guān)聯(lián)規(guī)則,具有分析價(jià)值;提升度等于1則說明X和Y相互獨(dú)立;提升度小于1,關(guān)聯(lián)規(guī)則無效。
Apriori算法由Agrawal等人提出,是基于頻繁項(xiàng)集和強(qiáng)關(guān)聯(lián)規(guī)則搜索過程的遞歸算法[17]. 基礎(chǔ)思想是在設(shè)定支持度的前提下,不斷尋找事物集中的頻繁項(xiàng)集,從頻繁1項(xiàng)集一直搜索到頻繁(k+1)項(xiàng)集不存在,結(jié)果中最高為頻繁k項(xiàng)集,然后再根據(jù)置信度過濾掉以上結(jié)果中不符合的弱關(guān)聯(lián)規(guī)則。目前主要運(yùn)用在市場(chǎng)推銷、互聯(lián)網(wǎng)個(gè)性推薦等領(lǐng)域。
將Apriori算法思想轉(zhuǎn)化為實(shí)現(xiàn)計(jì)算過程,見圖2流程圖。在算法開始之前設(shè)置最小支持度和最小置信度,然后從事物集中開始尋找候選項(xiàng)集,從最小候選1項(xiàng)集開始根據(jù)最小支持度判斷是否為頻繁1項(xiàng)集,以此類推,直到得出最大頻繁k項(xiàng)集。在每生成一個(gè)頻繁項(xiàng)集后,對(duì)置信度進(jìn)行計(jì)算,值大于最小置信度的輸出為強(qiáng)關(guān)聯(lián)規(guī)則,否則將非強(qiáng)關(guān)聯(lián)規(guī)則舍棄。
圖2 Apriori算法流程
使用R語言環(huán)境對(duì)“隱患描述”短文本數(shù)據(jù)進(jìn)行Apriori算法關(guān)聯(lián)規(guī)則挖掘。在算法運(yùn)行前,支持度和置信度參數(shù)需要根據(jù)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行調(diào)整,由于3958條事故隱患短文本分詞之后數(shù)量是以萬為單位,因此支持度和置信度參數(shù)設(shè)置不能過大。經(jīng)過反復(fù)試驗(yàn),當(dāng)支持度的值為0.005,置信度的值為0.5,Apriori算法挖掘結(jié)果良好。將得到的關(guān)聯(lián)規(guī)則部分輸出,見表2.
表2 煤礦事故隱患部分關(guān)聯(lián)規(guī)則
結(jié)合關(guān)聯(lián)規(guī)則原理,可以對(duì)該試驗(yàn)輸出結(jié)果進(jìn)行解讀:
1) 支持度分析。由定義可知,支持度這項(xiàng)參數(shù)用來度量沒有交集的兩項(xiàng)事務(wù)在總事務(wù)集中出現(xiàn)的概率。在試驗(yàn)的3958條煤礦事故隱患數(shù)據(jù)中,出現(xiàn)頻率較高的隱患內(nèi)容有積水影響行人、支架漏液、淤泥多、風(fēng)筒脫節(jié)、皮帶跑偏等,分別出現(xiàn)了57次、44次、32次、29次、29次。
2) 置信度分析。置信度越高,表示前項(xiàng)事務(wù)推斷后項(xiàng)事務(wù)出現(xiàn)的概率越大。表中第一條規(guī)則,當(dāng)隱患內(nèi)容中出現(xiàn)“下浮煤”時(shí),這條隱患一定是與“皮帶”有關(guān)的;在{液壓管}?{漏液}這條規(guī)則中,當(dāng)隱患內(nèi)容中出現(xiàn)“液壓管”時(shí),該隱患有76.67%的可能是在描述液壓管漏液。
在試驗(yàn)中,將置信度參數(shù)設(shè)置為0.5,從結(jié)果看來,甚至出現(xiàn)了100%,這是因?yàn)樵谟涗涬[患內(nèi)容時(shí)的表達(dá)描述方式簡(jiǎn)易,體現(xiàn)在置信度中就是事務(wù)間聯(lián)系密切度高。
3) 提升度分析。提升度大于1表示強(qiáng)關(guān)聯(lián)規(guī)則。在挖掘結(jié)果中,{碼放}?{材料}、{破碎}?{頂板}、{液壓管}?{漏液}這3條規(guī)則的提升度明顯較高,說明“材料”“頂板”“漏液”等特征項(xiàng)單獨(dú)出現(xiàn)的概率較小,而常常分別在隱患內(nèi)容中提到“碼放”“破碎”“液壓管”時(shí)出現(xiàn)。
R語言是一個(gè)統(tǒng)計(jì)計(jì)算和制圖的優(yōu)秀工具,善于將數(shù)據(jù)挖掘結(jié)果進(jìn)行可視化呈現(xiàn)。將煤礦事故隱患數(shù)據(jù)基于Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘后通過圖像的方式能夠全面直觀展示隱患信息關(guān)聯(lián)規(guī)則細(xì)節(jié),使煤礦經(jīng)營(yíng)管理者迅速掌握事故隱患信息中存在的薄弱環(huán)節(jié)和工作短板,明確煤礦現(xiàn)場(chǎng)隱患排查治理的工作重心。
圖3是使用R語言對(duì)“隱患描述”短文本數(shù)據(jù)進(jìn)行Apriori算法關(guān)聯(lián)規(guī)則挖掘可視化輸出結(jié)果。圖中支持度越大,圓圈的面積越大;提升度越大,圓圈的顏色越深。
圖3 隱患描述關(guān)聯(lián)規(guī)則
將關(guān)聯(lián)規(guī)則輸出為可視化圖像后能夠看出,“隱患描述”內(nèi)容信息成簇狀聚集呈現(xiàn),簇中心有支架、皮帶、風(fēng)筒、積水、排水管路、迎頭、頂板等事務(wù),圍繞簇中心出現(xiàn)的事務(wù)作為特征詞,對(duì)隱患內(nèi)容的形式作出全面說明。以支架隱患為例,圖2以“支架”為簇中心展示了支架隱患高頻出現(xiàn)的具體形式,包括“支架錯(cuò)茬”“支架漏液”“支架十字頭壞”“支架咬架”“支架液壓管接頭”等。
在對(duì)“隱患描述”關(guān)聯(lián)規(guī)則可視化圖像分析的基礎(chǔ)上,增加了“隱患位置”和“責(zé)任單位”進(jìn)行關(guān)聯(lián)規(guī)則分析,并將結(jié)果可視化輸出,分別得到圖4和圖5.
圖4 隱患描述和隱患位置關(guān)聯(lián)規(guī)則
圖5 隱患信息關(guān)聯(lián)規(guī)則
由圖4可以看出,在關(guān)聯(lián)規(guī)則挖掘中增加了“隱患位置”后,隱患發(fā)生形式與隱患位置之間存在明確的關(guān)聯(lián)性,也就是說,不同位置的隱患有著各自的特征。1234工作面、1238工作面的支架隱患比較突出,形式多樣,包括支架錯(cuò)茬、十字頭壞、支架壓力不足、咬架、接頂不實(shí)、支架漏液等。在1238軌道巷、三采區(qū)軌道巷、三采區(qū)皮帶巷中,隱患問題主要集中在風(fēng)筒、皮帶、幫錨、迎頭支護(hù)等方面。
圖5隱患信息關(guān)聯(lián)規(guī)則挖掘中包含了隱患描述、隱患位置和責(zé)任單位3項(xiàng)信息,輸出圖片暴露出相關(guān)責(zé)任單位在生產(chǎn)工作中高頻常見的容易造成的事故隱患。綜采隊(duì)的工作隱患集中在工作面,有支架操作管理隱患和工作面積水隱患;掘一隊(duì)集中在軌道巷,常見隱患涉及到風(fēng)筒、幫錨、鋼棚支護(hù);掘二隊(duì)問題暴露在皮帶巷和聯(lián)巷,隱患涉及到材料碼放、皮帶、鋼棚支護(hù)等方面。煤礦經(jīng)營(yíng)管理者可以根據(jù)這些信息對(duì)相關(guān)責(zé)任單位和隊(duì)組加強(qiáng)工作技能培訓(xùn),提高工作生產(chǎn)水平,嚴(yán)格規(guī)范施工要求,從而在源頭上降低隱患發(fā)生的幾率。
Apriori算法模型研究對(duì)象與煤礦事故隱患短文本數(shù)據(jù)特征高度契合,為煤礦事故隱患短文本分析利用提供了理論支持和實(shí)踐途徑。結(jié)果表明,Apriori算法揭示了蘊(yùn)藏在煤礦隱患數(shù)據(jù)中的關(guān)聯(lián)規(guī)則,通過可視化圖像直觀展示出煤礦事故隱患中存在的薄弱環(huán)節(jié)和短板,對(duì)煤礦現(xiàn)場(chǎng)的隱患管理工作有重要的啟示和指導(dǎo)意義。