李 琰 ,劉 珍 ,陳南希
(西安科技大學 管理學院,陜西 西安 710000)
目前,我國能源行業(yè)呈現(xiàn)“富煤、貧油、少氣”的特點。煤炭資源儲量高,開采成本與技術難度遠低于石油、天然氣,這決定了煤炭仍將在我國能源結構中占重要位置[1]。信息技術高速發(fā)展、融合創(chuàng)新,推動了煤炭行業(yè)的數(shù)字化、信息化、智能化轉型,也對煤礦企業(yè)運營管理和安全生產(chǎn)提出了新的挑戰(zhàn)。同時,煤礦企業(yè)的安全信息感知能力極大提升,產(chǎn)生了海量的行為安全數(shù)據(jù)[2]。為此,將礦企生產(chǎn)實際和礦工行為數(shù)據(jù)相結合,運用文本挖掘技術對數(shù)據(jù)中蘊含的信息、知識和規(guī)律進行探究,研究礦工不安全行為,有助于解決企業(yè)安全數(shù)據(jù)膨脹、知識提取效率低等問題,有效提高礦企員工安全隱患洞察力,降低礦工不安全行為發(fā)生率。
研究以某大型煤礦企業(yè)為研究對象,選擇2017—2021 年記錄的不安全行為管控表作為數(shù)據(jù)來源,內容包括時間、班次、詳細描述、風險及預警等級等字段。通過梳理、匯總、排序,共獲得44 069 條安全數(shù)據(jù)。
數(shù)據(jù)挖掘中,文本預處理不可或缺,與主題提取結果的科學性和準確性密切相關[3]。使用LDA 實現(xiàn)對礦工不安全行為的主題數(shù)據(jù)挖掘,自定義煤礦專業(yè)詞匯庫,保證分詞、去停用詞的各步操作最優(yōu),數(shù)據(jù)處理結果可靠。
具體為:①建立專業(yè)詞庫:根據(jù)《煤炭行業(yè)法》、《煤礦安全規(guī)程》、《煤礦安全監(jiān)察條例》等開發(fā)自定義詞庫,避免有效詞匯(如“安全意識”、“防護眼鏡”等)被誤分、停用[4];②中文分詞:在Python 開發(fā)環(huán)境中調用jieba 程序包對 “人員不安全行為詳細描述”進行分詞,并選擇每篇TFIDF 得分最高的前100 個關鍵詞[5];③去停用詞:使用line.strip 函數(shù)刪除文本中的停用詞,過濾行為數(shù)據(jù)中的標點符號、無實際含義的功能詞(“是”、“的”、“嗎”、“了”等)、礦工姓名、日期等,提高數(shù)據(jù)挖掘的精度。
采用Perplexity(困惑度)來確定LDA 模型最優(yōu)主題數(shù)[6],確定挖掘12 個相關主題。根據(jù)確定的最優(yōu)主題數(shù),在LDA 模型擬合步驟中設置numtopic和alpha 參數(shù),得出礦工不安全行為主題提取結果見表1。因“人員不安全行為詳細描述”大部分文本較短,選擇挖掘每個主題Top 5 的關鍵詞。
表1 礦工不安全行為主題Table 1 Theme of miners’ unsafe behavior
根據(jù)不安全行為管控表中的人員不安全行為詳細描述和主題提取結果,將主題詞進行整合歸納。例如主題2 的主題詞“未戴”、“佩戴”、“防護眼鏡”等,對應主題內涵可以總結為“未戴防護眼鏡”;主題5 的主題詞包括“用水”、“沖洗”、“電纜”等,相應的主題內涵可概括為“用水沖洗電氣設備”;主題6 的主題詞包括“班前會”、“參加”、“遲到”等,對應主題內涵可總結為“參加班會遲到”;主題10 的主題詞包括“上崗”、“疲勞”、“精神恍惚”等,相應的主題內涵總結為“疲勞作業(yè)”。
通過研究相關文獻,查閱煤礦安全規(guī)程、工傷亡事故分類標準及集團內部規(guī)章制度,將上述12 個主題劃分為《“三違”管理制度》等規(guī)章制度,將主題劃分為“忽視個人防護”、“忽視管理條例”、“違法違規(guī)操作”、“忽視作業(yè)流程”、“分散注意力”5 大類,礦工不安全行為主題內涵及主題類型見表2。
表2 礦工不安全行為主題內涵及類型Table 2 Theme connotation and types of miners’ unsafe behavior
語義網(wǎng)絡是節(jié)點和有向弧組成的圖示,可以結構化描述事件的定義及客體之間的相互關系[7]。基于礦工個體不安全行為提取結果,通過Net-Draw 工具搭建的礦工不安全行為的語義網(wǎng)絡圖如圖1。
圖1 礦工不安全行為語義網(wǎng)絡Fig.1 Semantic network of miners’ unsafe behavior
礦工不安全行為語義網(wǎng)絡圖整體呈“核心—邊緣”特點,圖中包含核心及邊緣節(jié)點,這些節(jié)點之間形成不同的子群,兩節(jié)點間連線表明關鍵詞來源于同一“人員不安全行為詳細描述”。通過連線將節(jié)點串聯(lián)成巨大的網(wǎng)絡[8],直觀描述了礦工不安全行為的主題關鍵詞,方便獲取關鍵安全信息。
通過文本挖掘工具RostCM6 建立詞頻VNA矩陣,引入網(wǎng)絡分析集成工具Ucinet 對礦工不安全行為語義網(wǎng)絡的中心性進行分析。
中心性分析反映某個節(jié)點在網(wǎng)絡中的重要程度,可以通過點度中心性、接近中心性和中介中心性來衡量,是社會網(wǎng)絡分析的主要方面[9-10]。礦工不安全行為主題詞中心性具體分析結果見表3。
表3 礦工不安全行為語義網(wǎng)絡中心性分析結果Table 3 Results of semantic network centrality analysis of miners’ unsafe behavior
根據(jù)礦工不安全行為主題提取結果和語義網(wǎng)絡中心性分析情況,由“攜帶”、 “司機”、“駕駛”、“熄火”、“吸煙”、“隨身”、“安全帽”、“安全帽”等關鍵詞發(fā)現(xiàn),主題1、主題3、主題4、主題7、主題11 所表行為是建議礦企管理層高度重視和堅決防控的礦工不安全行為??臻g類關鍵詞“井下”、“車輛”、“工作面”、“現(xiàn)場”等描述了礦工不安全行為高發(fā)地點為井下、工作面和行車途中,需在此加大監(jiān)管力度和隱患排查力度,規(guī)范員工行為,防范煤礦安全事故。
從44 069 條礦工不安全行為記錄中提取了12個礦工不安全行為主題。借助RostCM6.0 軟件繪制礦工不安全行為語義網(wǎng)絡圖,清晰展現(xiàn)了各主題詞間的關聯(lián)關系。通過文本挖掘、主題提取和語義網(wǎng)絡中心性分析,得出井下、工作面、行車途中3 個礦工不安全行為高發(fā)地點,不戴安全帽、不系安全帶、私自摘掉安全帽、入井攜帶違規(guī)物品、駕駛車輛不合規(guī)范5 個高頻主題,為煤礦安全事故防控提供參考。