• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于深度學(xué)習(xí)的施工安全隱患整改智能推薦系統(tǒng)

      2023-12-01 02:53:54劉震趙嵩楊濤蔡太偉
      大數(shù)據(jù) 2023年6期
      關(guān)鍵詞:標(biāo)段文檔隱患

      劉震,趙嵩,楊濤,蔡太偉

      1.廣東粵海珠三角供水有限公司,廣東 廣州 511455;

      2.云南大學(xué)信息學(xué)院,云南 昆明 650504;

      3.深圳市科榮軟件股份有限公司,廣東 深圳 518063;

      4.華南師范大學(xué)華南先進(jìn)光電子研究院,廣東 廣州 510006

      0 引言

      隨著信息技術(shù)的不斷發(fā)展,水利工程建設(shè)安全管理正向信息化和智能化轉(zhuǎn)型[1]。施工安全隱患的排查治理是工程建設(shè)中安全管理的重要手段。隨著信息化系統(tǒng)的普及與應(yīng)用,人工排查、手動(dòng)錄入的施工安全隱患管理在排查過(guò)程中積累了大量非結(jié)構(gòu)化的安全隱患文本數(shù)據(jù),但這些數(shù)據(jù)尚未得到充分利用。因此,利用人工智能從海量的歷史數(shù)據(jù)中挖掘出隱藏信息和潛在規(guī)律,從而促進(jìn)水利工程建設(shè)由信息化模式向智能化模式發(fā)展[2],對(duì)于提高施工安全隱患的排查治理效率具有重要的現(xiàn)實(shí)意義。

      目前,不少學(xué)者對(duì)安全隱患文本數(shù)據(jù)的挖掘展開(kāi)了研究。例如:劉梅等[3]利用相關(guān)性檢驗(yàn)挖掘安全隱患特征之間的關(guān)聯(lián);譚章祿等[4]利用狄利克雷分配模型挖掘煤礦安全隱患,揭示了生產(chǎn)單位、責(zé)任主題與隱患致因之間的關(guān)系;陳述等[5]通過(guò)短語(yǔ)提取技術(shù)揭示了安全隱患時(shí)空分布特征;林旭杰等[6]采用Apriori關(guān)聯(lián)算法挖掘煤礦安全隱患之間的關(guān)聯(lián)規(guī)則;Le等[7]、Jatnika等[8]將深度學(xué)習(xí)的方法運(yùn)用到提高建筑工程術(shù)語(yǔ)語(yǔ)義相似度計(jì)算的準(zhǔn)確性上,為隱患文本知識(shí)挖掘增加了可信度。為了從歷史案例中挖掘出有用的信息和經(jīng)驗(yàn),1995年Kumar[9]首次將案例推理技術(shù)應(yīng)用到工程設(shè)計(jì)領(lǐng)域,為案例推理技術(shù)在各種工程領(lǐng)域的應(yīng)用提供了理論基礎(chǔ)。例如:鄭霞忠等[10]通過(guò)融合案例推理與深度學(xué)習(xí)的方法,結(jié)合歷史安全隱患數(shù)據(jù)來(lái)輔助隱患治理方案的制訂;原江濤等[11]基于案例推理技術(shù),提出了一種煤礦安全隱患排查治理信息系統(tǒng)并應(yīng)用于實(shí)際生產(chǎn);夏登友等[12]利用情景元技術(shù)對(duì)案例進(jìn)行描述和表示,提出了一種基于規(guī)則的推理方法,并實(shí)現(xiàn)了一個(gè)應(yīng)急決策支持系統(tǒng),對(duì)相關(guān)領(lǐng)域的應(yīng)急決策提供了有效的幫助。

      綜上所述,以往的研究大多聚焦于隱患問(wèn)題的智能分類(lèi)和隱患問(wèn)題關(guān)聯(lián)規(guī)則的挖掘,忽略了歷史隱患案例中潛藏的信息。為了充分挖掘安全隱患?xì)v史案例中的有用信息和經(jīng)驗(yàn),本文從歷史案例視角對(duì)施工安全隱患進(jìn)行分析,幫助安全管理者深入探析隱患事件發(fā)生的特征和規(guī)律,并根據(jù)相似的隱患案例制訂有效的隱患預(yù)防措施,從而降低類(lèi)似隱患的發(fā)生概率。類(lèi)似的視角還包括事故因素分析和風(fēng)險(xiǎn)評(píng)估等。為此,本文結(jié)合文本特征提取、關(guān)聯(lián)規(guī)則挖掘和文本相似度計(jì)算等方法,提出了施工安全隱患整改智能推薦系統(tǒng)。該方法融合SSM算法和Doc2Vec模型來(lái)優(yōu)化檢索推薦過(guò)程,并在檢索階段分析相關(guān)歷史案例信息。計(jì)算隱患描述之間的相似度時(shí),考慮了上下文邏輯和短文本語(yǔ)義特征。最后,參考相似度最大的歷史案例,將檢索出的整改措施作為當(dāng)前隱患問(wèn)題的推薦整改方案。

      1 數(shù)據(jù)來(lái)源與預(yù)處理

      1.1 數(shù)據(jù)來(lái)源

      以珠江三角洲水資源配置工程為研究對(duì)象,在該工程的建設(shè)過(guò)程中,安全檢查單位每月對(duì)其負(fù)責(zé)的施工標(biāo)段進(jìn)行安全檢查,檢查過(guò)程中檢查人員發(fā)現(xiàn)施工現(xiàn)場(chǎng)存在安全隱患問(wèn)題,并指示施工單位在規(guī)定的期限內(nèi)進(jìn)行整改,之后將檢查和整改記錄上傳到安全管理信息系統(tǒng)。本文的研究數(shù)據(jù)來(lái)源于從安全管理系統(tǒng)中獲取到的2019—2023年期間80 953條安全隱患原始數(shù)據(jù),其中,將2019—2022年期間的65 714條數(shù)據(jù)作為歷史案例數(shù)據(jù),2022—2023年期間的15 239條數(shù)據(jù)作為測(cè)試數(shù)據(jù)。每條安全隱患數(shù)據(jù)主要包含標(biāo)段、隱患描述、隱患類(lèi)型、整改措施和檢查日期等字段,前4個(gè)字段均為非結(jié)構(gòu)化的文本數(shù)據(jù)。其中,隱患類(lèi)型分為環(huán)境隱患、人的不安全行為、管理隱患、設(shè)備設(shè)施及物料隱患4類(lèi)。部分安全隱患記錄見(jiàn)表1。

      表1 部分安全隱患記錄

      1.2 預(yù)處理

      為了獲得有效的施工安全隱患數(shù)據(jù),本文結(jié)合工程施工安全隱患的判定標(biāo)準(zhǔn)等相關(guān)規(guī)范,手動(dòng)對(duì)數(shù)據(jù)進(jìn)行了處理。首先,人工記錄的數(shù)據(jù)可能存在含有主觀推斷的信息、缺失值、異常值等數(shù)據(jù),因此,手動(dòng)剔除上述信息以獲得有效的安全隱患數(shù)據(jù)。其次,針對(duì)水利工程施工安全領(lǐng)域的特點(diǎn),構(gòu)建了該領(lǐng)域的安全隱患字典用于輔助分詞,包括手動(dòng)添加專(zhuān)有名詞到自定義詞典,例如“高處墜落”“電氣安全”“腳手架”等。這能夠完善分詞效果,有效避免術(shù)語(yǔ)被錯(cuò)誤分開(kāi)或合并的情況發(fā)生,從而提高數(shù)據(jù)處理和分析的精確度。再次,采用哈工大停用詞表,并將不規(guī)范的關(guān)鍵詞、無(wú)意義的詞添加到停用詞表中,用于去除隱患問(wèn)題描述文本中的停用詞,例如空格、標(biāo)點(diǎn)符號(hào)等影響文本處理與分析的無(wú)效信息。最后,采用了Jieba分詞對(duì)隱患問(wèn)題描述文本進(jìn)行分詞。

      2 研究方法

      2.1 基于TF-IDF算法的隱患特征提取

      詞頻-逆向文檔頻率(term frequency–inverse document frequency,TF-IDF)是一種常用的文本特征提取算法。TFIDF算法可以提取出文檔中的關(guān)鍵詞,評(píng)估提取出的關(guān)鍵詞在文檔集合中的重要程度。關(guān)鍵詞的重要程度與該關(guān)鍵詞在文檔中的出現(xiàn)頻率(term frequency,TF)成正比。TF的計(jì)算方式如式(1)。

      其中,ni,j是安全隱患詞語(yǔ)i在安全隱患文檔j中出現(xiàn)的次數(shù),分母則表示安全隱患文檔中所有詞匯出現(xiàn)的次數(shù)總和。關(guān)鍵詞的重要程度與該詞在文檔集合中出現(xiàn)的頻率(inverse document frequency,IDF)成反比。IDF值計(jì)算方式如式(2)。

      其中,|D|表示語(yǔ)料庫(kù)中的文檔總數(shù),dj表示文檔樣本,|{j:ti∈dj}|表示包含詞語(yǔ)ti的文檔數(shù)目。將關(guān)鍵詞的TF值和IDF值進(jìn)行乘積,得到該詞的TF-IDF值,該值越大表示該關(guān)鍵詞在文檔中的重要程度越高[13]。文本特征選擇還有互信息算法、信息增益算法、卡方檢驗(yàn)算法等[14]。在本文的研究數(shù)據(jù)中,每條數(shù)據(jù)通常只包含很少的關(guān)鍵詞,數(shù)據(jù)非常稀疏,故采用TF-IDF算法來(lái)提取安全隱患中的關(guān)鍵詞作為隱患特征。

      2.2 基于深度學(xué)習(xí)的施工安全隱患整改智能推薦系統(tǒng)

      在隱患排查治理中,安全隱患具有高復(fù)發(fā)性,因此,可以借助歷史安全隱患治理方案,縮短查詢(xún)隱患相關(guān)知識(shí)的時(shí)間,及時(shí)制訂隱患整改措施。除此之外,安全隱患之間還具有相關(guān)性,一個(gè)隱患的發(fā)生往往可能導(dǎo)致其他隱患的出現(xiàn)。在復(fù)用歷史安全隱患治理經(jīng)驗(yàn)的同時(shí),可挖掘出與當(dāng)前隱患關(guān)聯(lián)的一系列安全隱患問(wèn)題并給出整改措施,從而提高隱患治理的效率,實(shí)現(xiàn)無(wú)隱患早防控、有隱患早發(fā)現(xiàn)和早治理的目標(biāo)。為此提出了基于深度學(xué)習(xí)的施工安全隱患整改智能推薦系統(tǒng),系統(tǒng)框架如圖1所示。

      在對(duì)施工安全隱患整改智能推薦系統(tǒng)的研究中,面臨整體數(shù)據(jù)規(guī)模大且存在較多稀疏數(shù)據(jù)的挑戰(zhàn)。當(dāng)入庫(kù)一條安全隱患時(shí),首先,采用TF-IDF算法提取出隱患的特征,每個(gè)隱患特征都包括一個(gè)或多個(gè)安全隱患,每個(gè)安全隱患至少歸類(lèi)到一個(gè)隱患特征中。其次,采用FP-Growth算法從頻繁項(xiàng)集列表中挖掘出與當(dāng)前安全隱患特征相關(guān)聯(lián)的頻繁項(xiàng)(安全隱患特征集),再將這些安全隱患特征下的安全隱患案例作為當(dāng)前安全隱患潛在的預(yù)警信息。然后,利用SSM算法對(duì)當(dāng)前入庫(kù)的安全隱患與數(shù)據(jù)庫(kù)中的歷史安全隱患案例進(jìn)行初步匹配,得到粗糙的相似案例集合,進(jìn)一步采用Doc2Vec模型來(lái)計(jì)算當(dāng)前安全隱患與相似案例集合中每一條安全隱患的相似度。最后,合并相似度最高的安全隱患案例與關(guān)聯(lián)的安全隱患案例,將其推薦為當(dāng)前安全隱患的整改方案。

      2.2.1 基于FP-Growth算法的隱患關(guān)聯(lián)規(guī)則挖掘

      關(guān)聯(lián)規(guī)則是一種描述不同項(xiàng)集之間關(guān)聯(lián)關(guān)系的表達(dá)式,通常采用X→Y的形式表示,其中X和Y是不相交的項(xiàng)集。常用的關(guān)聯(lián)規(guī)則挖掘算法包括Apriori算法、FP-Growth算法等。Apriori算法需要生成大量的候選集,在處理大規(guī)模數(shù)據(jù)時(shí)會(huì)非常耗時(shí)間和空間。而FP-Growth算法通過(guò)壓縮數(shù)據(jù)、構(gòu)建FP樹(shù)去除了生成候選集的過(guò)程,大大減少了時(shí)間和空間的消耗。因此,本文采用FP-Growth算法挖掘安全隱患之間的關(guān)聯(lián)規(guī)則,從而建立頻繁項(xiàng)集列表。

      FP-Growth算法主要分為兩個(gè)步驟:構(gòu)建FP樹(shù)和基于FP樹(shù)生成頻繁項(xiàng)集[15]。FP樹(shù)是一種基于頻繁模式挖掘的數(shù)據(jù)結(jié)構(gòu),用于高效地存儲(chǔ)和查找數(shù)據(jù)集中的頻繁項(xiàng)集。FP樹(shù)由一個(gè)根節(jié)點(diǎn)和多個(gè)項(xiàng)節(jié)點(diǎn)組成,每個(gè)項(xiàng)節(jié)點(diǎn)表示一個(gè)頻繁項(xiàng),每個(gè)節(jié)點(diǎn)包括一個(gè)計(jì)數(shù)器和指向相同項(xiàng)節(jié)點(diǎn)的鏈表指針。構(gòu)建FP樹(shù)的過(guò)程如下:遍歷數(shù)據(jù)集統(tǒng)計(jì)每個(gè)項(xiàng)的支持度計(jì)數(shù),根據(jù)支持度計(jì)數(shù)構(gòu)建項(xiàng)頭表;按照支持度降序遍歷數(shù)據(jù)集,將事務(wù)中的每個(gè)項(xiàng)按順序加入根節(jié)點(diǎn);為每個(gè)節(jié)點(diǎn)創(chuàng)建一個(gè)初始值為1的計(jì)數(shù)器,如果該節(jié)點(diǎn)存在項(xiàng)節(jié)點(diǎn),則計(jì)數(shù)器加1,以此遞歸地構(gòu)建FP樹(shù)?;贔P樹(shù)生成頻繁項(xiàng)集的過(guò)程如下:從根節(jié)點(diǎn)開(kāi)始,依次遍歷每個(gè)頻繁項(xiàng)的鏈表,生成以該項(xiàng)為結(jié)尾的頻繁項(xiàng)集;采用遞歸方法,在每個(gè)以該項(xiàng)為結(jié)尾的前綴路徑上構(gòu)建條件模式基,從而繼續(xù)生成更長(zhǎng)的頻繁項(xiàng)集。

      2.2.2 SSM算法

      SSM算法[16]的原理是通過(guò)計(jì)算兩個(gè)序列之間的最長(zhǎng)公共子序列(longest common subsequence,LCS)的長(zhǎng)度來(lái)計(jì)算兩個(gè)序列的相似度。假設(shè)兩個(gè)序列分別為X和Y,LCS(X,Y)的長(zhǎng)度為len(LCS(X,Y)),那么它們的相似度計(jì)算如式(3)。

      與SSM算法類(lèi)似的算法還有編輯距離算法、Jaccard相似度算法和余弦相似度算法等。相比于編輯距離算法[17]和Jaccard相似度算法[18],SSM算法可以處理不同長(zhǎng)度的序列。在施工安全隱患數(shù)據(jù)中,往往會(huì)存在序列長(zhǎng)度不同的隱患數(shù)據(jù)。如果使用編輯距離算法和Jaccard相似度算法,則需要對(duì)數(shù)據(jù)進(jìn)行維度對(duì)齊,這樣會(huì)導(dǎo)致部分信息丟失。與余弦相似度算法相比,SSM算法考慮了序列中元素的順序,能夠發(fā)現(xiàn)相同子序列的位置和順序。綜上所述,SSM算法在文本相似度匹配、序列相似度匹配方面表現(xiàn)更優(yōu)。因此,本研究利用SSM算法對(duì)當(dāng)前入庫(kù)的安全隱患與數(shù)據(jù)庫(kù)中的歷史安全隱患案例進(jìn)行初步匹配,得到粗糙的相似案例集合。

      2.2.3 基于Doc2Vec模型計(jì)算文本相似度

      Doc2Vec[19]是一種深度學(xué)習(xí)模型,用于將一個(gè)文檔表示為固定長(zhǎng)度的向量,它是Word2Vec模型[20-21]的擴(kuò)展。Word2Vec模型可以將單個(gè)單詞表示為向量,而Doc2Vec在訓(xùn)練模型時(shí)不僅考慮了每個(gè)單詞的上下文信息,還考慮了整個(gè)文檔的語(yǔ)境,為每個(gè)文檔生成一個(gè)唯一的向量表示。Doc2Vec有兩種算法,分別是分布記憶(distributed memory,DM)算法和分布詞袋(distributed bag of words,DBOW)算法。DM算法將文檔的向量作為額外的輸入傳遞給模型,然后預(yù)測(cè)文檔中的單詞,其結(jié)構(gòu)如圖2所示。

      圖2 DM 算法結(jié)構(gòu)

      DBOW算法結(jié)構(gòu)如圖3所示。在DBOW算法中,每個(gè)句子都被視為一個(gè)“袋子”,每個(gè)單詞的順序被忽略,每個(gè)單詞都被獨(dú)立地考慮。而該模型的目標(biāo)是在不考慮上下文的情況下,根據(jù)整個(gè)句子預(yù)測(cè)中心詞。相比DM算法,DBOW算法更簡(jiǎn)單和快速,通常適用于文本分類(lèi)等任務(wù),而DM模型則更適合語(yǔ)義相關(guān)性和相似性的建模任務(wù)。本文使用Doc2Vec模型中的DM算法來(lái)計(jì)算當(dāng)前安全隱患與經(jīng)過(guò)SSM算法匹配得到的粗糙相似案例集合中每一條安全隱患的相似度。在這個(gè)過(guò)程中,Doc2Vec模型首先會(huì)將相似案例集合中的每條安全隱患都轉(zhuǎn)化為唯一的向量表示,通過(guò)計(jì)算它們之間的向量余弦相似度來(lái)衡量它們之間的相似度。

      圖3 DBOW模型結(jié)構(gòu)

      3 結(jié)果分析

      各施工標(biāo)段安全隱患的數(shù)量分布如圖4所示。由圖可知,B3、B4、C1是安全隱患高發(fā)的3個(gè)標(biāo)段,因此,選用這3個(gè)標(biāo)段的數(shù)據(jù)進(jìn)行隱患特征挖掘與可視化。

      圖4 各個(gè)施工標(biāo)段隱患的數(shù)量分布

      3.1 隱患特征分析

      利用B3、B4和C1這3個(gè)標(biāo)段的安全隱患數(shù)據(jù)來(lái)繪制?;鶊D[22]。首先,將每個(gè)標(biāo)段的所有安全隱患數(shù)據(jù)作為一個(gè)文檔,采用TF-IDF算法提取每個(gè)文檔的關(guān)鍵詞,選擇TF-IDF值較大的前幾個(gè)關(guān)鍵詞作為對(duì)應(yīng)施工標(biāo)段的安全隱患特征;其次,利用RAWGraphs2.0軟件繪制施工標(biāo)段-隱患類(lèi)型?;鶊D,如圖5所示。該桑基圖從左至右依次表示施工標(biāo)段、隱患特征和隱患類(lèi)型,每個(gè)節(jié)點(diǎn)的寬度表示該隱患特征TF-IDF值大小,節(jié)點(diǎn)之間的分支代表信息的流動(dòng),分支的寬度則反映了信息流量的大小。從桑基圖中可以直觀地了解到不同的施工標(biāo)段各自存在的主要安全隱患問(wèn)題特征。豎向分析顯示,配電箱、滅火器和鋼筋加工棚這3個(gè)隱患特征對(duì)應(yīng)的節(jié)點(diǎn)寬度最大,說(shuō)明各標(biāo)段發(fā)生與這3個(gè)特征有關(guān)的安全隱患最多。而從橫向角度來(lái)看,這3個(gè)特征詞包含的信息流寬度最大,這表明與它們有關(guān)的隱患問(wèn)題發(fā)生的頻率最高。從施工標(biāo)段的角度來(lái)看,B3和B4標(biāo)段易發(fā)生與配電箱和滅火器相關(guān)的隱患,C1標(biāo)段易發(fā)生與隧洞和鋼筋加工棚相關(guān)的隱患。

      圖5 施工標(biāo)段-隱患類(lèi)型?;鶊D

      3.2 安全隱患整改推薦結(jié)果分析

      3.2.1 關(guān)聯(lián)規(guī)則挖掘結(jié)果分析

      在分析當(dāng)前隱患問(wèn)題時(shí),首先采用TF-IDF算法對(duì)當(dāng)前隱患數(shù)據(jù)進(jìn)行特征提取,其次根據(jù)FP-Growth算法挖掘關(guān)聯(lián)規(guī)則,置信度的閾值為0.5,支持度的閾值為0.002,再經(jīng)過(guò)人工篩選,最終得到了7 688條關(guān)聯(lián)規(guī)則。部分關(guān)聯(lián)規(guī)則見(jiàn)表2。以第一條關(guān)聯(lián)規(guī)則為例,它表示當(dāng)配電箱出現(xiàn)時(shí),通常會(huì)伴隨著“不規(guī)范”“滅火器”“接線”這3個(gè)事務(wù);支持度為0.0031,說(shuō)明同時(shí)包含“配電箱”“不規(guī)范”“滅火器”和“接線”的事務(wù)數(shù)比較少;置信度為0.75,意味著當(dāng)一條安全隱患記錄中出現(xiàn)了配電箱時(shí),有75%的概率出現(xiàn)“不規(guī)范”“滅火器”“接線”這3個(gè)事務(wù)。

      表2 部分關(guān)聯(lián)規(guī)則

      如圖6所示,當(dāng)安全檢查人員發(fā)現(xiàn)并記錄隱患后,通過(guò)TF-IDF提取隱患的特征,得到“安全距離”“防護(hù)措施”等安全隱患特征。以“安全距離”這一特征為例,通過(guò)關(guān)聯(lián)規(guī)則得到“警示”“設(shè)置”“標(biāo)識(shí)牌”等頻繁項(xiàng)集。再以“警示”這一頻繁項(xiàng)為例,能夠匹配到相似的安全隱患問(wèn)題描述,并且檢索出對(duì)應(yīng)的整改方案。

      圖6 關(guān)聯(lián)規(guī)則分析

      3.2.2 相似度計(jì)算實(shí)驗(yàn)分析

      從2022—2023年期間的測(cè)試數(shù)據(jù)中,分別從環(huán)境隱患、人的不安全行為、管理隱患、設(shè)備設(shè)施及物料隱患這4個(gè)類(lèi)型中依次隨機(jī)抽取300條作為隱患問(wèn)題描述測(cè)試樣本。為了使抽取的樣本更具有代表性,抽取的樣本涵蓋了水利工程建設(shè)中的8種不同作業(yè)內(nèi)容,如圖7所示。

      圖7 不同作業(yè)內(nèi)容測(cè)試樣本占比

      將從各個(gè)安全隱患類(lèi)型中抽取出來(lái)的1 200條測(cè)試樣本分別通過(guò)SSM算法匹配到對(duì)應(yīng)的案例集,再通過(guò)Doc2Vec模型計(jì)算案例集中的安全隱患與當(dāng)前隱患的相似度[23],最終綜合準(zhǔn)確率為0.869。部分安全隱患相似度匹配樣例見(jiàn)表3。

      為了進(jìn)一步驗(yàn)證該推薦系統(tǒng)的有效性,將上述系統(tǒng)推薦的整改措施與安全管理者制定的整改措施進(jìn)行對(duì)比[24],推薦準(zhǔn)確率采用Doc2Vec模型計(jì)算的文本相似度,安全隱患整改推薦系統(tǒng)的綜合準(zhǔn)確率為0.914。見(jiàn)表4,本文提出的施工安全隱患智能推薦系統(tǒng)得到的安全隱患整改措施與安全管理者制訂的安全隱患整改措施一致性較強(qiáng),該推薦系統(tǒng)能較為準(zhǔn)確地匹配出當(dāng)前安全隱患的整改措施。

      表4 部分安全隱患整改措施推薦準(zhǔn)確率

      本文針對(duì)同一輸入,對(duì)比分析分別采用SSM、Doc2Vec、SSM+Doc2Vec這3種模型得到的相似度排名前5條的安全隱患,各模型效果見(jiàn)表5。以輸入“焊工棚二氧化碳?xì)馄繜o(wú)防護(hù)棚、無(wú)防傾倒措施”為例,SSM模型注意到了“無(wú)防傾倒措施”“二氧化碳”“氣瓶”等特征詞,模型表現(xiàn)一般;在Doc2Vec模型中,“防護(hù)棚”這一特征詞的權(quán)重較大,模型匹配效果最差;SSM+Doc2Vec模型首先經(jīng)過(guò)SSM篩選出相似度排名前1 000的安全隱患,再利用Doc2Vec模型將這1 000條安全隱患轉(zhuǎn)化為唯一的向量表示,最后計(jì)算這些向量余弦相似度來(lái)衡量它們之間的相似度,該模型同時(shí)注意到了“焊工棚”“無(wú)防傾倒措施”“二氧化碳”“氣瓶”等特征詞,不僅降低了模型的計(jì)算量,而且保留了關(guān)鍵的隱患特征詞,故其綜合表現(xiàn)最好。

      表5 各模型效果對(duì)比表(部分)

      在從測(cè)試數(shù)據(jù)中隨機(jī)采樣得到的1 200個(gè)測(cè)試樣本上,采用Doc2Vec模型計(jì)算文本的相似度,各模型的綜合準(zhǔn)確率見(jiàn)表6。SSM+Doc2Vec比SSM高0.032,比Doc2Vec高0.056。因此,本文提出的SSM+Doc2Vec模型在水利工程施工安全隱患文本上的表現(xiàn)優(yōu)于單獨(dú)采用SSM算法和Doc2Vec的方法。

      表6 各模型綜合準(zhǔn)確率

      3.2.3 算法性能對(duì)比與分析

      為了進(jìn)一步驗(yàn)證算法的優(yōu)越性,采用相同的數(shù)據(jù)集并配置相同的實(shí)驗(yàn)環(huán)境,將本文提出的方法與文獻(xiàn)[10]提出的基于Word2Vec計(jì)算目標(biāo)案例與歷史案例相似度的方法進(jìn)行對(duì)比。結(jié)果表示,本文提出的方法在安全隱患整改推薦上的綜合準(zhǔn)確率達(dá)到0.869,優(yōu)于文獻(xiàn)[10]取得的0.802。當(dāng)數(shù)據(jù)整體規(guī)模大且存在較多稀疏數(shù)據(jù)時(shí),本文提出的方法采用SSM+Doc2Vec模型,可以更全面地挖掘案例描述的語(yǔ)義信息,在安全隱患整改推薦中能夠提供更加準(zhǔn)確的結(jié)果。

      綜上所述,基于深度學(xué)習(xí)的施工安全隱患整改智能推薦系統(tǒng)從多個(gè)方面提高了智能推薦方案的準(zhǔn)確率和速度。首先,采用TF-IDF算法和FP-Growth算法提取和挖掘安全隱患的關(guān)聯(lián)規(guī)則,可以更加準(zhǔn)確地找到與當(dāng)前安全隱患相關(guān)聯(lián)的案例,從而提高了整改方案的完整性。其次,利用SSM算法初步匹配歷史案例和當(dāng)前入庫(kù)案例,減少了后續(xù)模型的計(jì)算量,提高了系統(tǒng)的運(yùn)行效率。最后,采用Doc2Vec模型計(jì)算當(dāng)前安全隱患與相似案例集合中每一條安全隱患的相似度,推薦最符合當(dāng)前情況的整改方案,輔助安全管理人員在隱患管理工作中更好地進(jìn)行決策。

      4 結(jié)束語(yǔ)

      本文構(gòu)建了基于深度學(xué)習(xí)的施工安全隱患整改智能推薦系統(tǒng)。首先,基于TFIDF算法進(jìn)行安全隱患特征提取,并通過(guò)?;鶊D可視化安全隱患特征。其次,通過(guò)SSM算法對(duì)當(dāng)前入庫(kù)的安全隱患與數(shù)據(jù)庫(kù)中的歷史安全隱患案例進(jìn)行初步匹配,得到粗糙的相似案例集合。然后,采用Doc2Vec模型計(jì)算當(dāng)前安全隱患與相似案例集合中每一條安全隱患的相似度,合并相似度最高的安全隱患案例與關(guān)聯(lián)的安全隱患案例,將其推薦為當(dāng)前安全隱患的整改方案。本文在復(fù)用歷史隱患治理經(jīng)驗(yàn)的同時(shí),挖掘出歷史隱患數(shù)據(jù)中存在的關(guān)聯(lián)規(guī)則,為安全隱患的排查治理提供了更全面的視角。驗(yàn)證結(jié)果表明,本文方法在安全患整改智能推薦任務(wù)上表現(xiàn)出色,能夠快速、準(zhǔn)確地為當(dāng)前安全隱患問(wèn)題推薦整改方案。在未來(lái)的工作中,將進(jìn)一步完善安全隱患關(guān)聯(lián)規(guī)則庫(kù)和隱患整改推薦的方案。

      猜你喜歡
      標(biāo)段文檔隱患
      隱患隨手拍
      隱患隨手拍
      互聯(lián)網(wǎng)安全隱患知多少?
      隱患隨手拍
      有人一聲不吭向你扔了個(gè)文檔
      基于RI碼計(jì)算的Word復(fù)制文檔鑒別
      恩億梯中標(biāo)嫩丹高速公路兩個(gè)標(biāo)段的機(jī)電工程
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      西安地鐵5號(hào)線5標(biāo)段
      黑龍江省三江治理工程23個(gè)標(biāo)段開(kāi)標(biāo)
      云霄县| 喀喇沁旗| 广平县| 瑞昌市| 库伦旗| 南川市| 凤山县| 武鸣县| 含山县| 内丘县| 漳州市| 措勤县| 徐水县| 海安县| 浪卡子县| 昭苏县| 盐山县| 普陀区| 临桂县| 和田县| 绥滨县| 光山县| 华宁县| 富宁县| 达州市| 临高县| 札达县| 阳信县| 平塘县| 叙永县| 桃园市| 崇文区| 探索| 青铜峡市| 依安县| 东乌珠穆沁旗| 娄烦县| 印江| 临城县| 安吉县| 福建省|