• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘在石油石化企業(yè)HSE信息系統(tǒng)中的應用分析

      2015-05-18 12:00:18薛彥宇杜志虎吳同心
      個人電腦 2015年4期
      關鍵詞:決策樹數(shù)據(jù)挖掘關聯(lián)

      薛彥宇 杜志虎 吳同心

      石油石化企業(yè)HSE信息系統(tǒng)是建立在國際先進的HSE管理理念和方法基礎之上的信息系統(tǒng),對全面推進HSE體系建設工作提供了重要載體和有效工具,對石油石化行業(yè)的健康安全發(fā)展具有重要意義。

      隨著信息技術的飛速發(fā)展,產(chǎn)生了大量的分散在各信息系統(tǒng)中的數(shù)據(jù)。面對大量孤立的數(shù)據(jù)資源,如何有效的管理和重用數(shù)據(jù)信息,挖掘出對企業(yè)有重要價值的信息從而為企業(yè)決策者提供風險分析和決策支持的有效依據(jù),成為信息系統(tǒng)發(fā)展面臨的一個亟需解決的問題。此時,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術的產(chǎn)生和發(fā)展為該問題提供了有效的解決方法。本文對數(shù)據(jù)挖掘技術在石油石化企業(yè)HSE信息系統(tǒng)建設中的應用做了初步分析,重點分析了決策支持樹算法和關聯(lián)規(guī)則在HSE信息系統(tǒng)中的應用。并舉例表明,數(shù)據(jù)挖掘技術應用于HSE信息系統(tǒng)能夠有效的挖掘出潛在的知識,并可為企業(yè)決策提供支持。本文主要是對數(shù)據(jù)挖掘技術在石油石化企業(yè)HSE信息系統(tǒng)建設中的應用做了積極的嘗試,對企業(yè)的HSE信息管理、風險分析、決策支持具有一定的參考價值。

      引言

      石油石化企業(yè)HSE信息系統(tǒng)是建立在國際先進的HSE管理理念和方法基礎之上的信息系統(tǒng),對全面推進HSE體系建設工作提供了重要載體和有效工具,對石油石化行業(yè)的健康安全發(fā)展具有重要意義。HSE信息系統(tǒng)加強了數(shù)據(jù)錄入管理,確保了數(shù)據(jù)的準確性、及時性及規(guī)范性,因此也累積了大量的數(shù)據(jù)信息。數(shù)據(jù)作為信息的載體,其存儲工具(數(shù)據(jù)庫)在過去幾十年間得以迅速發(fā)展,使得數(shù)據(jù)存儲問題基本得到解決。雖然這些大量存儲在數(shù)據(jù)庫中的數(shù)據(jù)本身是沒有意義的,但由數(shù)據(jù)及對數(shù)據(jù)的解釋和分析所構成的信息,卻是一種價值菲薄的資源。因此,對大量數(shù)據(jù)進行分析,從中提取出對企業(yè)有重要價值的信息成為當下熱點,在此情形下,數(shù)據(jù)挖掘技術在HSE信息系統(tǒng)中的應用成為企業(yè)風險分析和決策支持的利器。

      隨著科學管理方法的應用和推廣,數(shù)據(jù)分析技術在企業(yè)信息管理中的作用得到了前所未有的發(fā)揮。數(shù)據(jù)挖掘則是一種有效的數(shù)據(jù)分析技術,在許多行業(yè)中扮演著越來越重要的角色。數(shù)據(jù)挖掘所固有的挖掘潛在有價值信息的特性,使其在眾多領域得到成功運用,如市場預測、互聯(lián)網(wǎng)營銷、銀行業(yè)務、通訊行業(yè)等諸多領域。美國鋼鐵公司利用基于數(shù)據(jù)挖掘技術的ISPA系統(tǒng)研究分析產(chǎn)品性能規(guī)律并進行質(zhì)量控制,取得了顯著效果。美國著名市場研究公司Information Resources等紛紛使用數(shù)據(jù)挖掘工具來應對迅速增長的銷售和市場信息,通過市場預測取得了巨大收益[1]。

      與國外相比,國內(nèi)對數(shù)據(jù)挖掘技術的應用研究稍晚,并沒有普及到各行各業(yè)中。石油石化企業(yè)HSE信息系統(tǒng)的數(shù)據(jù)挖掘是發(fā)現(xiàn)和利用企業(yè)安全、環(huán)保、健康數(shù)據(jù)內(nèi)在知識,實現(xiàn)系統(tǒng)深層次應用的關鍵技術手段。然而,目前國內(nèi)大多數(shù)石油石化企業(yè)HSE信息系統(tǒng)僅實現(xiàn)了數(shù)據(jù)規(guī)范化錄入、存儲及簡單的匯總統(tǒng)計和分類查詢的功能,并沒有對原始數(shù)據(jù)進行深層次的挖掘,無法實現(xiàn)對企業(yè)健康安全環(huán)保未來趨勢的分析、預測、等功能,無法幫助企業(yè)發(fā)現(xiàn)業(yè)務的發(fā)展趨勢,預測未知的結果。本文首先介紹了數(shù)據(jù)挖掘技術的概念及關鍵技術,然后對數(shù)據(jù)挖掘技術在企業(yè)HSE信息系統(tǒng)建設中的應用做了初步分析,重點分析了決策支持樹算法和關聯(lián)規(guī)則挖掘在HSE信息系統(tǒng)中的應用。實例表明,數(shù)據(jù)挖掘技術應用于HSE信息系統(tǒng)能夠有效的挖掘出潛在的知識,并可為企業(yè)決策提供支持。

      數(shù)據(jù)挖掘技術概念及數(shù)據(jù)挖掘方法

      數(shù)據(jù)挖掘技術的產(chǎn)生和發(fā)展使得人們可以從數(shù)據(jù)中挖掘出有用的、隱藏的知識,數(shù)據(jù)挖掘是一門多學科的綜合產(chǎn)物,包括數(shù)據(jù)庫技術、人工智能、機器學習、神經(jīng)網(wǎng)絡、模式識別、統(tǒng)計學等學科。數(shù)據(jù)挖掘通常定義為,從海量數(shù)據(jù)中抽取出隱含的、先前未知的并具有潛在價值的模型或規(guī)則等有用知識的非平凡過程,是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘是一種決策支持過程,它可以對數(shù)據(jù)進行分析、歸納、推理,從而挖掘出潛在的模式,為決策者提供決策支持。

      (1)數(shù)據(jù)挖掘的過程,具體分為以下步驟:

      數(shù)據(jù)清理:消除重復的、不完全的、違反語義約束的數(shù)據(jù)。

      數(shù)據(jù)集成:多種數(shù)據(jù)源可以組合在一起,通過數(shù)據(jù)提取程序聚集到數(shù)據(jù)倉庫中。

      數(shù)據(jù)選擇:從數(shù)據(jù)倉庫中檢索與分析任務相關的數(shù)據(jù)。

      數(shù)據(jù)變換:數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,如通過匯總或聚集操作。

      數(shù)據(jù)挖掘:通過數(shù)學的、非數(shù)學的、演繹的或歸納的數(shù)據(jù)挖掘方法提取規(guī)則模式。

      模式評估:根據(jù)某種興趣度度量,識別規(guī)則模式中真正有趣的模式。

      知識表示:使用可視化和知識表示技術,向用戶展示挖掘出的知識。

      (2)數(shù)據(jù)挖掘主要方法

      在數(shù)據(jù)挖掘的整個過程中,數(shù)據(jù)挖掘的方法是最為關鍵的。利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有關聯(lián)規(guī)則、決策樹、聚類、神經(jīng)網(wǎng)絡、機器學習等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。

      1. 關聯(lián)規(guī)則方法:基于關聯(lián)規(guī)則法的數(shù)據(jù)挖掘是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關聯(lián)性或相關性。關聯(lián)規(guī)則反映一個事物與其他事物之間的相互依存性和關聯(lián)性。如果兩個或者多個事物之間存在一定的關聯(lián)關系,那么,其中一個事物就能夠通過其他事物進行預測。

      2. 決策樹方法:決策樹方法主要用于分類和預測?;跊Q策樹方法的數(shù)據(jù)挖掘是利用信息論中的信息增益尋找數(shù)據(jù)庫中具有最大信息量的字段,建立決策樹的一個結點,再根據(jù)字段的不同取值建立樹的分支;在每個分枝子集中,重復建立樹的下層結點和分支的過程,即可建立決策樹。然后把決策樹的節(jié)點分裂過程轉(zhuǎn)化為“if….then….”的規(guī)則,利用這些規(guī)則就可以對新數(shù)據(jù)進行分類。其中最具代表性的是CART,ID3,C4.5等算法。

      3. 分類聚類法:基于分類的數(shù)據(jù)挖掘就是假定數(shù)據(jù)庫中的每個對象屬于一個特定的類,然后根據(jù)不同的分類方法將數(shù)據(jù)庫中的數(shù)據(jù)分配到各類中去。而基于聚類的數(shù)據(jù)挖掘是將實體對象集合依照某種相似性度量原則劃分為若干個類似實體對象組成的多個類或簇的過程。分類和聚類都是一個對目標數(shù)據(jù)進行劃分,使類間的相似性盡可能的小,類內(nèi)相似性盡量大的過程。他們的區(qū)別在于分類事先知道類的個數(shù)及特征,而聚類則事先不知道。

      4. 神經(jīng)網(wǎng)絡法:人工神經(jīng)網(wǎng)絡通過模擬人類的思維行為,能夠高效率地解決預測、模式識別、分類和聚類分析等數(shù)據(jù)挖掘問題?;谏窠?jīng)網(wǎng)絡的數(shù)據(jù)挖掘無須事先建模,因此對于缺乏理論模型和先驗知識的數(shù)據(jù)挖掘問題具有較好的適應性。人工神經(jīng)網(wǎng)絡具有分布式存儲信息的特點,并且能夠自組織學習和并行處理信息,因此能夠解決眾多以往方法很難解決高復雜度問題。

      5. 機器學習法:機器學習的目的是根據(jù)給定的訓練樣本求輸入輸出之間依賴關系,使它能夠?qū)ξ粗敵鲎龀霰M可能準確地預測。大多數(shù)機器學習方法使用人類的認識模型模仿人類的學習方法從數(shù)據(jù)中提取知識,由于機器學習經(jīng)過多年的研究,已取得了一些較滿意的成果,因此,在數(shù)據(jù)挖掘中可以利用目前比較成熟的機器學習方法。

      數(shù)據(jù)挖掘技術在HSE信息系統(tǒng)中的應用分析

      數(shù)據(jù)挖掘技術應用于石油石化企業(yè)HSE信息系統(tǒng),能夠幫助企業(yè)更有效的控制重大災害事故的發(fā)生,并能預測將來可能會發(fā)生事故的重大隱患;能夠降低企業(yè)處理安全、健康隱患的成本;更好的實現(xiàn)社會效益、環(huán)境效益及經(jīng)濟效益。HSE信息系統(tǒng)與數(shù)據(jù)挖掘技術的結合能夠更有效的削減和控制企業(yè)在生產(chǎn)過程中存在的健康、安全、環(huán)境等危害因素,對規(guī)范企業(yè)HSE管理,降低企業(yè)運營風險,樹立企業(yè)形象有積極的推進作用。本文通過介紹關聯(lián)規(guī)則法和決策樹法這兩種典型的數(shù)據(jù)挖掘方法在HSE信息系統(tǒng)中的應用來分析數(shù)據(jù)挖掘技術對HSE信息系統(tǒng)數(shù)據(jù)分析能力的有效提升,實例說明數(shù)據(jù)挖掘技術在HSE系統(tǒng)建設中的意義之所在。

      基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘在HSE系統(tǒng)中的應用分析

      關聯(lián)模式是數(shù)據(jù)挖掘的一種重要模式,其主要任務就是挖掘事物之間潛在的關聯(lián)規(guī)則。關聯(lián)規(guī)則的目的是在一個數(shù)據(jù)集中找出項與項之間的內(nèi)在關系,也稱之為購物藍分析,即通過事物之間的關聯(lián)規(guī)則,可以根據(jù)一種行為的發(fā)生,來推測另一種行為的發(fā)生概率,從而更好地掌握看似毫無關系的事物之間的發(fā)展規(guī)律,這也是基于關聯(lián)規(guī)則的數(shù)據(jù)挖掘意義之所在。

      關聯(lián)規(guī)則的形式如下A => B[support, confidence],其中support為支持度,支持度為在所有事件中,A事件和B事件同時發(fā)生的概率;confidence為置信度,置信度是根據(jù)A事件的發(fā)生,推斷B事件發(fā)生的可信程度、可靠程度。他們分別描述了關聯(lián)規(guī)則的有用性和確定性。其中支持度support(A=>B)=support(A∪B)=P(A∪B),即A和B同時發(fā)生的概率;置信度confidence(A=>B)=P(B|A)=P(A∪B)/P(A),是一個條件概率,即在A發(fā)生的事件中同時發(fā)生B的概率。例如關聯(lián)規(guī)則:購買面包 =>購買牛奶[10%, 60%],意味著10%的顧客同時購買面包和牛奶,購買面包的顧客60%也會購買牛奶。

      關聯(lián)規(guī)則數(shù)據(jù)挖掘主要分為兩步:1)找出所有頻繁項集,即根據(jù)最小支持度找出所有頻繁項集,頻繁項集為大于最小支持度的項集。2)由頻繁項集產(chǎn)生強關聯(lián)規(guī)則,在所有的頻繁項集中,如果它們的置信度大于或等于最小可信度,就可以根據(jù)這些頻繁集產(chǎn)生強關聯(lián)規(guī)則。

      本文以某石化企業(yè)HSE信息系統(tǒng)為系統(tǒng)原型,介紹關聯(lián)規(guī)則算法在HSE系統(tǒng)中的應用。

      本例屬于多維關聯(lián)規(guī)則數(shù)據(jù)挖掘,為了簡化說明數(shù)據(jù)挖掘的應用,本文不一步一步按照關聯(lián)規(guī)則算法的步驟進行關聯(lián)規(guī)則的挖掘,而是假設存在一個既定的規(guī)則,我們通過計算來驗證該規(guī)則的可信性。本文假設存在這樣一個規(guī)則:承包商(X,"是" )∧事故日期(X,第三季度)=>事故類型(X,"交通事故" )。此處事故日期已經(jīng)進行離散化處理,離散化后的數(shù)據(jù)集如表1。該數(shù)據(jù)為測試數(shù)據(jù),僅作為挖掘算法在HSE信息系統(tǒng)中的應用分析所用。

      經(jīng)統(tǒng)計計算得,支持度support(承包商(X,是)∧事故日期(X,第三季度)=>事故類型(X,交通事故))=62?200=31%。

      confidence(承包商(X,是)∧事故日期(X,第三季度)=>事故類型(X,交通事故))=(62/200)/(95/200)=65.3%。因此,該關聯(lián)規(guī)則的支持度為31%,置信度為65.3%。意味著,在所有的事故事件中事故方為承包商、事故日期為第三季度、事故類型為交通事故同時出現(xiàn)的概率為31%,當事故方為承包商、事故日期為第三季度時,有65.3%的可能發(fā)生的是交通事故。因此,我們有理由相信承包商、第三季度與交通事故之間有較強的相關性,當承包商和第三季度這兩個因素同時出現(xiàn)的時候,應該做好交通事故的防范。

      基于決策樹的數(shù)據(jù)挖掘在HSE系統(tǒng)中的應用分析

      決策樹學習是以實例為基礎的歸納學習算法,它著眼于從一組無次序、無規(guī)則的事例中推理出決策樹表示形式的分類規(guī)則,通常用來形成分類器和預測模型,可以對未知數(shù)據(jù)進行分類或預測?;跊Q策樹的數(shù)據(jù)挖掘是屬于預測式數(shù)據(jù)挖掘的一種數(shù)據(jù)分析方法,其目的是根據(jù)樣本數(shù)據(jù)集找出能準確描述并區(qū)分數(shù)據(jù)類或概念的模型,以便依據(jù)實體的屬性值及其它約束條件將其劃分到某個數(shù)據(jù)類別中去[2]。決策樹的構成包括三個步驟:第一步為決策樹生成階段,根據(jù)部分訓練樣本集,按照廣度優(yōu)先遞歸算法建立決策樹,直到每個葉子節(jié)點都屬于某一類為止;第二步為決策樹剪枝階段,利用剩余的數(shù)據(jù)對決策樹進行檢驗,去掉一些可能是噪音或者異常的數(shù)據(jù),降低噪聲數(shù)據(jù)對分類正確率的影響;第三步即使用決策樹對未知數(shù)據(jù)進行分類,從決策樹的根節(jié)點到葉節(jié)點的一條路徑就形成了一條分類規(guī)則。

      本文以ID3(Iterative Dichotomizer 3)決策樹算法為例介紹基于決策樹的數(shù)據(jù)挖掘在HSE信息系統(tǒng)中的應用。ID3算法是決策樹算法的代表,用信息增益作為決策樹各級節(jié)點屬性選擇的標準,在構造決策樹過程中,每一步都是選擇信息增益值最大的屬性作為當前分裂屬性。信息增益值越大,說明該測試屬性對分類提供的信息越多,ID3算法即是在每個節(jié)點選擇信息增益最大的屬性作為測試屬性,該屬性使結果分區(qū)中對元組分類所需要的信息量最小,確保找到一棵簡單的樹。

      對數(shù)據(jù)集D中的元組分類所需要的期望信息計算公式如下:Info(D)=-∑_(i=1)^m?〖p_i 〖log〗_2 (p_i)〗。其中,p_i是D中任意元組屬于類c_i的非零概率。Info(D)是識別D中元組的類別所需要的平均信息量,Info(D)又稱為熵。假設用屬性A將D劃分為v個子分區(qū){D_1,D_2,…,D_v},在此劃分之后,還需要多少信息才能得到準確的分類,該信息量計算公式如下: Info_A (D)=∑_(j=1)^v?〖D_j/D 〖Info(D〗_j)〗。Info_A (D)是基于按A劃分對D元組分類所需要的期望信息。需要的期望信息越小,分區(qū)純度越高。信息增益定義為原來的信息需求與新的信息需求之間的差,即〖Gain(A)=Info(D)-Info〗_A (D)[3]。

      以某企業(yè)HSE信息系統(tǒng)廢氣監(jiān)測模塊中煙氣記錄為例介紹基于決策樹的數(shù)據(jù)挖掘的應用,如圖3。數(shù)據(jù)離散化處理后如表2。該數(shù)據(jù)為測試數(shù)據(jù),僅作為挖掘算法在HSE信息系統(tǒng)中的應用分析所用。

      根據(jù)ID3決策支持樹算法對測試數(shù)據(jù)集進行處理后得到?jīng)Q策支持樹如圖4。將決策樹進行廣度優(yōu)先搜索,對每一個葉子結點,求出從根結點到葉結點的路徑。該路徑上所有的結點的劃分條件并在一起,即構成一條分類規(guī)則。根據(jù)該決策樹可以生成以下產(chǎn)生式規(guī)則:

      IF 煙氣黑度=高 THEN 超標

      IF 煙氣黑度=中 AND 煙氣溫度=高 THEN 不超標

      IF 煙氣黑度=中 AND 煙氣溫度=中或低 AND SO2濃度=高 THEN 超標

      IF 煙氣黑度=中 AND 煙氣溫度=中或低 AND SO2濃度=中或低 THEN 不超標

      IF 煙氣黑度=低 THEN 不超標

      產(chǎn)生式規(guī)則生成以后,可以對未知數(shù)據(jù)進行分類或預測,如監(jiān)測到一條新的煙氣記錄為{黑度:4,煙氣溫度:76,O2:6,CO:280,SO2:160,NOx:300,HS:83},該記錄中黑度為4,處于高煙氣黑度范圍,因此根據(jù)決策支持樹可以直接判定該監(jiān)測記錄超標。因此基于決策樹的數(shù)據(jù)挖掘可以輔助企業(yè)決策者進行風險預測等操作,以改善管理者的決策能力、降低決策風險,以此提高決策的科學性和準確性。

      結論

      本文首先分析了石油石化企業(yè)HSE信息系統(tǒng)的現(xiàn)狀與缺陷,分析了HSE信息系統(tǒng)與數(shù)據(jù)挖掘技術結合的必要性和迫切性。然后對數(shù)據(jù)挖掘技術及挖掘方法做了比較宏觀的介紹。最后重點分析了決策支持樹算法和關聯(lián)規(guī)則在HSE信息系統(tǒng)中的應用,并以某企業(yè)HSE系統(tǒng)為原型介紹了這兩種數(shù)據(jù)挖掘方法的應用。實例說明,可以挖掘出事務各因素之間的關聯(lián)規(guī)則,通過這些規(guī)則,可以根據(jù)一種行為的發(fā)生,來推測另一種行為的發(fā)生概率,從而更好地掌握看似毫無關系的事物之間的發(fā)展規(guī)律;也可以構造決策支持樹,對未知的事務進行分類和預測,并可為企業(yè)決策者提供決策支持。因此數(shù)據(jù)挖掘技術應用于HSE信息系統(tǒng)能夠有效的挖掘出藏于數(shù)據(jù)中的潛在知識。本文對數(shù)據(jù)挖掘技術應用于石油石化企業(yè)HSE信息系統(tǒng)建設中做了積極的嘗試,對企業(yè)的HSE信息管理、風險分析、決策支持具有一定的參考價值?!?/p>

      參考文獻

      [1] 馮國良. 數(shù)據(jù)挖掘在信息管理系統(tǒng)中的應用研究[D]. 天津工業(yè)大學, 2008

      [2] 季桂樹, 陳沛玲, 宋航. 決策樹分類算法研究綜述[J]. 科技廣場, 2007

      [3] 范明,孟小峰譯. 數(shù)據(jù)挖掘:概念與技術第三版[M]. 北京:機械工業(yè)出版社.2012

      猜你喜歡
      決策樹數(shù)據(jù)挖掘關聯(lián)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      “一帶一路”遞進,關聯(lián)民生更緊
      當代陜西(2019年15期)2019-09-02 01:52:00
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      奇趣搭配
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      基于決策樹的出租車乘客出行目的識別
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      博乐市| 高雄县| 肇源县| 临清市| 钟祥市| 耒阳市| 云南省| 和顺县| 凭祥市| 崇阳县| 康定县| 南木林县| 炉霍县| 沾益县| 改则县| 鞍山市| 新营市| 吐鲁番市| 延长县| 弥勒县| 福海县| 夹江县| 荔浦县| 行唐县| 自治县| 长泰县| 阿图什市| 宝鸡市| 项城市| 凤冈县| 红安县| 瑞丽市| 鹤山市| 攀枝花市| 新邵县| 丹棱县| 临颍县| 项城市| 日喀则市| 怀仁县| 瑞丽市|