• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      關(guān)聯(lián)規(guī)則算法在環(huán)境數(shù)據(jù)分析中的應(yīng)用

      2019-10-21 10:06:01丁健邱俊強(qiáng)吳笑笑
      科學(xué)與財(cái)富 2019年20期
      關(guān)鍵詞:項(xiàng)集置信度事務(wù)

      丁健 邱俊強(qiáng) 吳笑笑

      摘 要:隨著時(shí)代的不斷變遷,我們的生活方式更加便捷。然而,于此同時(shí),我們所生存的環(huán)境由此變惡劣了,雖然現(xiàn)在我們?cè)诓粩嗟刂卫憝h(huán)境,然而還是未能制止住環(huán)境的惡化。因此,我們現(xiàn)在在治理環(huán)境的同時(shí),也要預(yù)防環(huán)境的變化。所以,本文利用關(guān)聯(lián)規(guī)則算法,通過(guò)數(shù)據(jù)挖掘,找出環(huán)境數(shù)據(jù)的CONDITION、AQI、PRES、HUM這四項(xiàng)數(shù)據(jù)進(jìn)行研究,得到了如下結(jié)論:研究數(shù)據(jù)的變化與天氣變化情況關(guān)聯(lián)不大,尤其是AQI值的變化難以推斷。最后,本文證實(shí)了根據(jù)CONDITION、AQI、PRES、HUM這四項(xiàng)數(shù)據(jù)難以推測(cè)出天氣的變化。

      關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;

      一、引言

      如今的環(huán)境氣候的變化難測(cè),雖然總體是呈現(xiàn)溫度上升,但氣候的升升跌跌難以猜測(cè)。所以,為了方便我們的日常穿衣出行,我們需要做出環(huán)境氣候變化的預(yù)測(cè)。

      因此,環(huán)境的大數(shù)據(jù)分析成為了一項(xiàng)十分重要的用來(lái)預(yù)測(cè)天氣變化的武器。通過(guò)關(guān)聯(lián)規(guī)則,分析出環(huán)境中各個(gè)成分的變化的聯(lián)動(dòng)性,從而的出環(huán)境中各個(gè)成分的關(guān)聯(lián)性,用來(lái)預(yù)測(cè)未來(lái)環(huán)境中各個(gè)成分的變化情況從而得出氣候的變化趨勢(shì),有利于我們對(duì)氣候變化的把握。

      在利用關(guān)聯(lián)規(guī)則對(duì)環(huán)境數(shù)據(jù)進(jìn)行分析時(shí),本文選取了我國(guó)南京地區(qū)的2016年~2018年的CONDITION、AQI、PRES、HUM這四項(xiàng)數(shù)據(jù)進(jìn)行實(shí)證研究。為了使數(shù)據(jù)更具有可比性、價(jià)值性、直觀性,對(duì)數(shù)據(jù)進(jìn)行篩選,剔除了沒(méi)有成效的數(shù)據(jù)。

      二、相關(guān)研究

      我國(guó)主要通過(guò)環(huán)境統(tǒng)計(jì)分析,通過(guò)檢測(cè)空氣中各成分的變化,利用環(huán)境模糊聚類(lèi)分析、環(huán)境判別分析、環(huán)境主成分分析和環(huán)境因子分析這些常用的環(huán)境統(tǒng)計(jì)分析模型;也有少數(shù)利用現(xiàn)代環(huán)境數(shù)據(jù)處理常用的人工神經(jīng)網(wǎng)絡(luò)方法和空間統(tǒng)計(jì)分析方法。不過(guò)這些都存在一些局限性:缺乏有關(guān)制度的結(jié)合,主要是環(huán)境監(jiān)測(cè)制度,排污許可證制度和環(huán)境信息公開(kāi)制度;指標(biāo)體系還不完善;缺乏數(shù)據(jù)質(zhì)量保障制度和規(guī)范。

      三、關(guān)聯(lián)規(guī)則對(duì)我國(guó)環(huán)境數(shù)據(jù)的分析

      (一)關(guān)聯(lián)規(guī)則簡(jiǎn)介

      關(guān)聯(lián)規(guī)則的一般性描述是: 設(shè)I={Itemset 1 , Itemset 2 , ? ,Itemset m }是項(xiàng)的集合, D是數(shù)據(jù)庫(kù)事務(wù)的集合,其中每個(gè)事務(wù)T是一個(gè)非空項(xiàng)集,使得T∈I,關(guān)聯(lián)規(guī)則是形如A =>B的蘊(yùn)涵式,其中A∈I , B∈I,A≠?,B≠?,并且 A∩B = ?,對(duì)于關(guān)聯(lián)規(guī)則 A =>B 在事務(wù)集D中成立:

      支持度: Sup=P(A?B)=|A?B|/|D| (1)

      置信度: Conf=P(B|A)=|A?B|/|A| (2)

      其中 P(A?B) 表示事務(wù)數(shù)據(jù)庫(kù)D中包含A∪B的概率,P(B|A) 事務(wù)數(shù)據(jù)庫(kù)D 中包含 A的事務(wù)同時(shí)也包含 B的事務(wù)的概率。定義同時(shí)滿足最小支持度閾值(min_Sup)和最小置信度閾值(min_Conf)的規(guī)則稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則。強(qiáng)關(guān)聯(lián)規(guī)則不一定都是有趣的,在此引入提升度來(lái)擴(kuò)充關(guān)聯(lián)規(guī)則的支持度-置信度框架,過(guò)濾掉無(wú)趣的相關(guān)規(guī)則。

      提升度: Lift=P(B|A)/P(B)=Conf(A=>B)/Supp(B)(3)

      即B在包含A 的事務(wù)集中出現(xiàn)的概率與B在事務(wù)數(shù)據(jù)庫(kù)D中出現(xiàn)的概率的比值,探究A的出現(xiàn)“提升”B出現(xiàn)的程度。若提升度大于1,則說(shuō)規(guī)則是有趣的。若規(guī)則提升度等于1,則兩者相互獨(dú)立,沒(méi)有相關(guān)性。若該規(guī)則提升度小于1,實(shí)為負(fù)相關(guān)的偽規(guī)則,可能會(huì)對(duì)決策產(chǎn)生誤導(dǎo)。

      (二) 算法簡(jiǎn)介

      Apriori 算法是Agrawal和R.Srikant 于1994年提出的一種發(fā)現(xiàn)頻繁項(xiàng)集的基本算法, 使用逐層搜索的迭代方法,其思想是利用已知的高頻數(shù)據(jù)項(xiàng)集推導(dǎo)更高層的高頻數(shù)據(jù)項(xiàng)集。Apriori 算法是一種寬度優(yōu)先算法,其具體步驟過(guò)程為:

      S1:首先掃描數(shù)據(jù)庫(kù),計(jì)算 D 中所有單個(gè)項(xiàng)集的支持度, 找出1- 頻繁項(xiàng)集的集合,記為 L1。

      S2:利用已生成的L k-1 ,即(k-1)-頻繁項(xiàng)集來(lái)生成Lk,即 k-頻繁項(xiàng)集。

      S3:第S2步利用先驗(yàn)性質(zhì)壓縮搜索空間,其應(yīng)用分為以下兩步過(guò)程:

      連接步:假定事務(wù)或項(xiàng)集中的項(xiàng)按字典序排序。對(duì)L k-1中的元素兩兩進(jìn)行比對(duì), 如果它們前k-2項(xiàng)相同 ,而最后一項(xiàng)不同,則將二者進(jìn)行連接得到k-候選項(xiàng)集。

      剪枝步:對(duì)候選k-項(xiàng)集C k 進(jìn)行剪枝,從C k 中刪除所有(k-1)-子集不全包含在L k- 1 中的項(xiàng)集,從而得到k-頻繁項(xiàng)集。

      S4:依次循環(huán)調(diào)用連接步和剪枝步,直至產(chǎn)生所有頻繁項(xiàng)集。

      (三)通過(guò)環(huán)境數(shù)據(jù)的算法實(shí)現(xiàn)

      首先我們將我們需要的數(shù)據(jù)導(dǎo)出來(lái),這里我先用2016年1月的數(shù)據(jù)做例子,見(jiàn)表1:

      因?yàn)槲覀兿胍^察這些數(shù)據(jù)之間的聯(lián)系,為了輸入數(shù)據(jù)的方便,我們首先設(shè)立事件:

      將COND數(shù)據(jù)中的晴設(shè)置為事件1,多云設(shè)置為事件2,陰設(shè)置為事件3,小雨設(shè)置為事件4,雨夾雪設(shè)置為事件5,小雪設(shè)置為事件6,小到中雪設(shè)置為事件7。

      同理,將AQI中的1~50設(shè)置為事件a,51~100設(shè)置為事件b,101~150設(shè)置為事件c,151~200設(shè)置為事件d,201~250設(shè)置為事件e,251+設(shè)置為事件f。

      PRES中,1011~1015設(shè)置為事件g,1016~1020設(shè)置為事件h,1021~1025設(shè)置為事件i,1026~1030設(shè)置為事件j,1031+設(shè)置為事件k。

      HUM中,1~20設(shè)置為事件l,21~40設(shè)置為事件m,41~60設(shè)置為事件n,61~80設(shè)置為事件o,81~100設(shè)置為事件p。

      接下來(lái),我們需要設(shè)立支持度和置信度,就暫且將支持度和置信度都先設(shè)置為0.6。

      四、分析結(jié)果

      首先看表2,表2是將數(shù)據(jù)轉(zhuǎn)換之后的圖,接下來(lái)我們將表2中的數(shù)據(jù)導(dǎo)入到算法中,帶入計(jì)算。我們首先通過(guò)天氣分類(lèi),將為同一類(lèi)型的天氣的各成分輸入其中,通過(guò)設(shè)置最小支持度和最小置信度,從而得出天氣狀況和環(huán)境成分的關(guān)聯(lián)。

      表3是事件1即晴的時(shí)候?qū)⒆钚≈С侄群妥钚≈眯哦仍O(shè)為0.1所得到的結(jié)果。通過(guò)觀察可以猜測(cè)數(shù)d,j,p這三個(gè)類(lèi)型與晴天的關(guān)聯(lián)較大,即出現(xiàn)d,j,p時(shí),晴天可能性較大;表4是事件2即多云的時(shí)候?qū)⒆钚≈С侄群妥钚≈眯哦仍O(shè)為0.1所得到的結(jié)果。有結(jié)果可推出d,i,p這三個(gè)因素對(duì)應(yīng)著多云著一天氣情況;表5是事件3即陰天的時(shí)候?qū)⒆钚≈С侄群妥钚≈眯哦仍O(shè)為0.1所得到的結(jié)果。結(jié)果表明i,o,p對(duì)其影響較大,但由于o,p同屬于HUM中,所以需要取舍,由F1的出現(xiàn)頻率所以選p......表6和表7的結(jié)果以此類(lèi)推即可得出。

      不過(guò),經(jīng)過(guò)檢查發(fā)現(xiàn),通過(guò)這樣得到的結(jié)果并不完全可靠,其中還欠缺不少未考慮到的因素,例如:國(guó)家政策對(duì)AQI值的影響,節(jié)假日對(duì)環(huán)境的影響等。所以我們統(tǒng)計(jì)的結(jié)果在與之后的數(shù)據(jù)對(duì)比中,發(fā)現(xiàn)不少有出入的地方。所以我們暫且還不能單憑一些環(huán)境成分就能準(zhǔn)確地預(yù)測(cè)出未來(lái)的天氣狀況。我們還需要加以改進(jìn)。

      參考文獻(xiàn):

      [1]楊恩. 關(guān)聯(lián)規(guī)則挖掘方法的改進(jìn)及應(yīng)用研究[EB/OL]. 北京:中國(guó)科技論文在線 [2009-05-06].

      [2]崔妍, 包志強(qiáng). 關(guān)聯(lián)規(guī)則挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2016, 33(2): 330-334.

      [3]劉林東,齊德昱.一種改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法研究[J]. 2018.6

      [4]王曉峰,王天然,趙越.一種自頂向下挖掘長(zhǎng)頻繁項(xiàng)的有效方法[J].計(jì)算機(jī)研究與發(fā)展,2004,41(1):148-155.

      *雙創(chuàng)項(xiàng)目:南京審計(jì)大學(xué)金審學(xué)院雙創(chuàng)項(xiàng)目201813994005Y

      猜你喜歡
      項(xiàng)集置信度事務(wù)
      “事物”與“事務(wù)”
      基于分布式事務(wù)的門(mén)架數(shù)據(jù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      河湖事務(wù)
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項(xiàng)集的快速挖掘算法
      SQLServer自治事務(wù)實(shí)現(xiàn)方案探析
      多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
      石狮市| 景德镇市| 始兴县| 通许县| 勐海县| 遵义市| 木里| 元谋县| 丹凤县| 太保市| 内丘县| 八宿县| 西乡县| 深水埗区| 景洪市| 叶城县| 得荣县| 宜州市| 云梦县| 老河口市| 郓城县| 凤城市| 饶河县| 鄂托克旗| 都安| 越西县| 襄城县| 孙吴县| 红桥区| 元阳县| 平定县| 岗巴县| 张家界市| 滦平县| 凤山县| 永寿县| 永州市| 康保县| 宁远县| 五指山市| 新建县|