• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于 Apriori關(guān)聯(lián)規(guī)則算法的消防大數(shù)據(jù)分析方法研究

      2017-03-09 07:17:23◆張
      關(guān)鍵詞:項(xiàng)集置信度子集

      ◆張 婷

      (湖北省消防總隊(duì) 湖北 430061)

      基于 Apriori關(guān)聯(lián)規(guī)則算法的消防大數(shù)據(jù)分析方法研究

      ◆張 婷

      (湖北省消防總隊(duì) 湖北 430061)

      本文運(yùn)用消防云大數(shù)據(jù)平臺(tái),通過(guò)Hadoop的相關(guān)組件,構(gòu)建了分布式大數(shù)據(jù)采集分析框架,研究建立Apriori關(guān)聯(lián)規(guī)則算法對(duì)已輸入保存的大規(guī)模消防火災(zāi)數(shù)據(jù)進(jìn)行計(jì)算分析,力圖找出火災(zāi)發(fā)生因素之間的關(guān)聯(lián)關(guān)系。

      Apriori關(guān)聯(lián)規(guī)則;算法;大數(shù)據(jù);消防

      0 引言

      隨著我國(guó)經(jīng)濟(jì)的發(fā)展,城鎮(zhèn)化建設(shè)加快步伐以及消防力量的有限,給消防部隊(duì)防火和滅火提出新的挑戰(zhàn)。隨著消防信息化建設(shè)水平的不斷提高,我國(guó)消防數(shù)據(jù)以驚人的速度增加,對(duì)于這些消防火災(zāi)的大數(shù)據(jù),如何加以采集、存儲(chǔ)與分析利用,結(jié)合大數(shù)據(jù)的計(jì)算技術(shù)找出火災(zāi)發(fā)生的關(guān)鍵因素之間的某些關(guān)聯(lián)規(guī)則與客觀規(guī)律為我所用,成為急迫的當(dāng)務(wù)之急。

      1 MapReduce分布式計(jì)算框架下的消防大數(shù)據(jù)分析建模

      MapReduce把對(duì)大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個(gè)主節(jié)點(diǎn)管理下的各個(gè)分節(jié)點(diǎn)共同完成,然后通過(guò)整合各個(gè)節(jié)點(diǎn)的中間結(jié)果,得到最終結(jié)果。

      MapReduce分布式計(jì)算框架模型中,通過(guò)JobTracker通過(guò)任務(wù)調(diào)度,將Apriori關(guān)聯(lián)規(guī)則算法計(jì)算分配給每一個(gè)TaskTracker,TaskTracker將進(jìn)行模型Apriori關(guān)聯(lián)規(guī)則算法計(jì)算火災(zāi)數(shù)據(jù),其計(jì)算結(jié)果通過(guò)調(diào)用的方式進(jìn)行匯總,提高處理效率。

      Apriori關(guān)聯(lián)規(guī)則算法判定條件:支持度(Support)和置信度(Confidence)

      設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目集合,事物數(shù)據(jù)庫(kù)D={t1,t2,…,tn}是由一系列具有唯一標(biāo)識(shí)TID的事物組成,每個(gè)事物ti(I = 1, 2, … , n)都對(duì)應(yīng)I上的一個(gè)子集。

      例如在火災(zāi)記錄中,I是全部火災(zāi)因素的集合,D是火災(zāi)出現(xiàn)的因素,每個(gè)元組ti是一次火災(zāi)的因素集合,它便是I的一個(gè)子集。

      如果一個(gè)項(xiàng)目集A?I,則它在D上的支持度是包含A事物集在D中所占的百分比。關(guān)聯(lián)規(guī)則是形如X?Y的邏輯蘊(yùn)含式,其中X?I,Y?I,且X∩Y=?。如果事務(wù)數(shù)據(jù)庫(kù)D中有s%的事務(wù)包含X∪Y,則稱(chēng)關(guān)聯(lián)規(guī)則X?Y的支持度為s%。

      若還是有上定義在I和D形如X?Y關(guān)聯(lián)規(guī)則,它的置信度是指包含X和Y的事物數(shù)與包含X的事物數(shù)之比,給定全局項(xiàng)目集I和數(shù)據(jù)庫(kù)D ,D中所有滿足指定的最小支持度(MinSupport)的項(xiàng)目集,即大于或等于MinSupport的I的非空子集,稱(chēng)為頻繁項(xiàng)目集(頻集)。在頻繁項(xiàng)目集中挑選出所有不被其他元素包含的頻繁項(xiàng)目集稱(chēng)為最大頻繁項(xiàng)目集(最大頻集)。

      在I上滿足最小支持度和最小置信度(MinConfidence)的關(guān)聯(lián)規(guī)則稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則。

      假設(shè)考慮項(xiàng)集{A,B,C,D,E},這些項(xiàng)集任意的排列組合將會(huì)產(chǎn)生25=32項(xiàng)集組合,而每個(gè)項(xiàng)組合都是一個(gè)產(chǎn)生規(guī)則的可能候選項(xiàng)集。

      由此可見(jiàn)在產(chǎn)生如此大量的規(guī)則,而這些規(guī)則大部分可能并不是都為我們所需要的,所以在產(chǎn)生的規(guī)則中我們需要篩選出那些支持度、置信度較高的強(qiáng)相關(guān)規(guī)則[3]。

      2 Apriori關(guān)聯(lián)規(guī)則算法模型

      首先,將循環(huán)數(shù)據(jù)集,將其中所有的1階項(xiàng)集全部找出來(lái),根據(jù)預(yù)先設(shè)定的最小支持度閥值找出1階項(xiàng)集中的頻繁項(xiàng)集,記為I1。然后通過(guò)上步的1階頻繁項(xiàng)集計(jì)算2階候選集C2,同樣篩選出滿足條件的2階頻繁項(xiàng)集,記為I2;重復(fù)上面的步驟,直到根據(jù) IK-1所產(chǎn)生的候選 CK中的所有項(xiàng)集支持度都小于最小支持度,即不再有頻繁項(xiàng)集產(chǎn)生為止。

      不斷重復(fù)迭代的過(guò)程中,關(guān)于生成候選項(xiàng)集與置信度判斷涉及到“連接”與“剪枝”兩個(gè)部分。我們先看看 Apriori算法的重要性質(zhì):一個(gè)項(xiàng)集是頻繁的,它的所有非空子集都必須是頻繁項(xiàng)集。

      連接是指由lK生成CK-1候選集的過(guò)程,lK自身與自身連接,連接的條件是兩個(gè)K項(xiàng)集合前k-1項(xiàng)相同,第K項(xiàng)不同。lK自身連接的目的是通過(guò)已知的頻繁項(xiàng)集構(gòu)成長(zhǎng)度更大的項(xiàng)集,這樣項(xiàng)集為頻繁項(xiàng)集的概率更大,從而減少了計(jì)算量。

      在連接下,還是會(huì)產(chǎn)生非頻繁的候選項(xiàng)集,剪枝指的就是剔除這些非頻繁的候選項(xiàng)集。對(duì)任意候選頻繁項(xiàng)集 CK,如果其有k-1項(xiàng)子集不是頻繁的,則可以剔除此候選項(xiàng)集。

      推導(dǎo)強(qiáng)規(guī)則方法:

      對(duì)于每個(gè)頻繁子集(除了項(xiàng)集 )I,找出項(xiàng)集所有的非空真子集;

      對(duì)于I的每一個(gè)子集s,形成一個(gè)規(guī)則s ? I-s;

      對(duì)于每一個(gè)規(guī)則R,計(jì)算它的置信度conf(R) =sup(I)/sup(s) ;如果conf(R)≥min_conf,則選取R為強(qiáng)規(guī)則。

      3 消防云大數(shù)據(jù)平臺(tái)上的Apriori關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)

      3.1 消防云上構(gòu)建Hadoop大數(shù)據(jù) cluster

      在省級(jí)消防云上,利用云的管理工具開(kāi)設(shè)三個(gè)計(jì)算空間,分別在三個(gè)節(jié)點(diǎn)空間上安裝 JAVA并配置環(huán)境變量,使用:java version "1.8.0_141",安裝Hadoop 2.7.3。

      配置集群文件- etc/hadoop/core-site.xml, etc/hadoop/hdfs-s ite.xml, etc/hadoop/yarn-site.xml and etc/ hadoop/mapred-site.xml,etc/hadoop/slaves.

      啟動(dòng) Hadoop,查找進(jìn)程,主節(jié)點(diǎn) yuh1有 ResourceManager、NameNode、SecondaryNameNode;其他節(jié)點(diǎn)中 NodeManager、DataNode進(jìn)程,Hadoop大數(shù)據(jù)環(huán)境搭建成功。

      3.2 MapReduce計(jì)算框架下的Apriori算法實(shí)現(xiàn)

      將2中的Apriori中算法過(guò)程,結(jié)合MapReduce模型:

      String terms[]=value.tostring() .split(“,”)

      對(duì)于第一次計(jì)算輸入map的key為火災(zāi)標(biāo)識(shí),value為火災(zāi)因素,以逗號(hào)隔開(kāi)的形式。輸出以火災(zāi)因素為新的標(biāo)識(shí) key,整數(shù)1為value,輸出的結(jié)果再經(jīng)過(guò)reduce計(jì)算,輸出結(jié)果key為火災(zāi)因素標(biāo)識(shí),value為求和數(shù)據(jù),其中拋棄小于最小支持度數(shù)據(jù),結(jié)果再經(jīng)過(guò)計(jì)算,得出火災(zāi)因素關(guān)聯(lián)關(guān)系。

      3.3 大數(shù)據(jù)實(shí)例分析

      從某省消防云大數(shù)據(jù)平臺(tái)的火警實(shí)時(shí)受理及出警系統(tǒng)中抽取近3年(2013年1月-2017年6月)火災(zāi)數(shù)據(jù)構(gòu)成分析計(jì)算的大數(shù)據(jù)實(shí)例集。由于數(shù)據(jù)涉及保密,選取常見(jiàn)的火災(zāi)因素抽象成數(shù)字 1,2,3,4,5;火災(zāi)類(lèi)型名稱(chēng)抽象成T100,T200,T300,T400;最小的支持度定義如0.5。

      第一次掃描,因素1,出現(xiàn)次數(shù)為2次,2為3次,3為3次,4為1次,5為3次,表示為C1: {1}:2, {2}:3, {3}:3, {4}:1, {5}:3 ,其支持度分別是0.5、0.75、0.75、0.25、0.75,去掉支持度<0.5的,變成F1: {1}:2, {2}:3, {3}:3, {5}:3

      得到數(shù)據(jù),作為第二次計(jì)算的輸入數(shù)據(jù)因素 1,2同時(shí)出現(xiàn)為1次,1,3同時(shí)出現(xiàn)為2次,1,5同時(shí)出現(xiàn)為1次,2,3同時(shí)出現(xiàn)2次,2,5同時(shí)出現(xiàn)為3次,3,5同時(shí)出現(xiàn)為2次,表示C2: {1,2}:1,{1,3}:2, {1,5}:1, {2,3}:2, {2,5}:3, {3,5}:2,得到支持度為0.5、0.75、0.75、0.75,去掉支持度<0.5的得到F2: {1,3}:2, {2,3}:2, {2,5}:3,{3,5}:2

      在這里要用到 Apriori算法的性質(zhì):K+1項(xiàng)頻繁集的任意 K項(xiàng)頻繁集必須是頻繁的,也就是說(shuō)如果K+1項(xiàng)頻繁集中如果有一項(xiàng)K項(xiàng)頻繁集不頻繁,那么K+1項(xiàng)頻繁集也是不頻繁的。

      進(jìn)行第三此掃描同時(shí)出現(xiàn)2,3,5為2次表示為C3: {2, 3, 5}:2,其支持度為0,5,

      得到最后的關(guān)聯(lián)規(guī)則。

      為2時(shí),同時(shí)出現(xiàn)3的支持度為0.5,置信度為0.6666667;

      為3時(shí),同時(shí)出現(xiàn)2的支持度為0.5,置信度為0.6666667;

      為3時(shí),同時(shí)出現(xiàn)5的支持度為0.5,置信度為0.6666667;

      為5時(shí),同時(shí)出現(xiàn)3的支持度為0.5,置信度為0.6666667;

      為2時(shí),同時(shí)出現(xiàn)5的支持度為0.75,置信度為1;

      為5時(shí),同時(shí)出現(xiàn)2的支持度為0.75,置信度為1

      為2時(shí),同時(shí)出現(xiàn)3和5的支持度為0.5,置信度為0.6666667;

      為3和5時(shí),同時(shí)出現(xiàn)2的支持度為0.5,置信度為1;

      為3時(shí),同時(shí)出現(xiàn)2和5的支持度為0.5,置信度為0.6666667;

      為2和5時(shí),同時(shí)出現(xiàn)3的支持度為0.5,置信度為0.6666667;

      為5時(shí),同時(shí)出現(xiàn)2和3的支持度為0.5,置信度為0.6666667;

      為2和3時(shí),同時(shí)出現(xiàn)5的支持度為0.5,置信度為1。

      3.4 實(shí)例分析結(jié)果

      定義最小置信度定義為0.8,分析結(jié)果如下:

      同時(shí)發(fā)生2,5的概率為0.75,發(fā)生2的時(shí)候發(fā)生5的概率為1。

      同時(shí)發(fā)生2,5的概率為0.75,發(fā)生5的時(shí)候發(fā)生2的概率為1。

      同時(shí)發(fā)生2,3,5的概率為0.5,發(fā)生{3,5}的時(shí)候發(fā)生2的概率為1。

      同時(shí)發(fā)生2,3,5的概率為0.5,發(fā)生{2,3}的時(shí)候發(fā)生5的概率為1。

      4 結(jié)束語(yǔ)

      造成火災(zāi)的原因比較,涉及因素多,例如氣象、建筑結(jié)構(gòu)、人員素質(zhì)等等,若將這些因素也列入 Apriori關(guān)聯(lián)規(guī)則算法的項(xiàng)目集合中,還需要更加豐富的專(zhuān)業(yè)知識(shí),并通過(guò)大量數(shù)據(jù)學(xué)習(xí)訓(xùn)練,調(diào)整 Apriori項(xiàng)目集合,更好地找到因素之間的關(guān)聯(lián)規(guī)則。因此,下一步的研究工作將集中在優(yōu)化算法模型,提高算法效率。

      [1]楚志勇,侯遵澤.基于 Dijkstra算法的鄉(xiāng)鎮(zhèn)消防站選址問(wèn)題[J].中國(guó)安全生產(chǎn)科學(xué),2011.

      [2]嚴(yán)珍珍,邢立寧,陳英武.蟻群算法求解消防站的選址問(wèn)題[J].科學(xué)技術(shù)與工程,2011.

      [3]朱海.基于關(guān)聯(lián)規(guī)則 Apriori算法的作業(yè)風(fēng)險(xiǎn)預(yù)警研究[D].吉林:吉林大學(xué),2014.

      猜你喜歡
      項(xiàng)集置信度子集
      由一道有關(guān)集合的子集個(gè)數(shù)題引發(fā)的思考
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      拓?fù)淇臻g中緊致子集的性質(zhì)研究
      關(guān)于奇數(shù)階二元子集的分離序列
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      每一次愛(ài)情都只是愛(ài)情的子集
      都市麗人(2015年4期)2015-03-20 13:33:22
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項(xiàng)集的快速挖掘算法
      多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
      芜湖县| 云霄县| 綦江县| 名山县| 南京市| 平罗县| 林州市| 拜泉县| 班玛县| 周口市| 波密县| 赣州市| 托克逊县| 修文县| 巴青县| 榆社县| 宁远县| 建平县| 磴口县| 宽城| 搜索| 永平县| 张北县| 罗甸县| 娱乐| 安远县| 西华县| 克什克腾旗| 湟源县| 卢氏县| 天长市| 江安县| 黑水县| 利辛县| 建宁县| 涟水县| 晋宁县| 祁连县| 宁明县| 汝阳县| 莆田市|