丁健 邱俊強(qiáng) 吳笑笑
摘 要:隨著時(shí)代的不斷變遷,我們的生活方式更加便捷。然而,于此同時(shí),我們所生存的環(huán)境由此變惡劣了,雖然現(xiàn)在我們?cè)诓粩嗟刂卫憝h(huán)境,然而還是未能制止住環(huán)境的惡化。因此,我們現(xiàn)在在治理環(huán)境的同時(shí),也要預(yù)防環(huán)境的變化。所以,本文利用關(guān)聯(lián)規(guī)則算法,通過(guò)數(shù)據(jù)挖掘,找出環(huán)境數(shù)據(jù)的CONDITION、AQI、PRES、HUM這四項(xiàng)數(shù)據(jù)進(jìn)行研究,得到了如下結(jié)論:研究數(shù)據(jù)的變化與天氣變化情況關(guān)聯(lián)不大,尤其是AQI值的變化難以推斷。最后,本文證實(shí)了根據(jù)CONDITION、AQI、PRES、HUM這四項(xiàng)數(shù)據(jù)難以推測(cè)出天氣的變化。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;
一、引言
如今的環(huán)境氣候的變化難測(cè),雖然總體是呈現(xiàn)溫度上升,但氣候的升升跌跌難以猜測(cè)。所以,為了方便我們的日常穿衣出行,我們需要做出環(huán)境氣候變化的預(yù)測(cè)。
因此,環(huán)境的大數(shù)據(jù)分析成為了一項(xiàng)十分重要的用來(lái)預(yù)測(cè)天氣變化的武器。通過(guò)關(guān)聯(lián)規(guī)則,分析出環(huán)境中各個(gè)成分的變化的聯(lián)動(dòng)性,從而的出環(huán)境中各個(gè)成分的關(guān)聯(lián)性,用來(lái)預(yù)測(cè)未來(lái)環(huán)境中各個(gè)成分的變化情況從而得出氣候的變化趨勢(shì),有利于我們對(duì)氣候變化的把握。
在利用關(guān)聯(lián)規(guī)則對(duì)環(huán)境數(shù)據(jù)進(jìn)行分析時(shí),本文選取了我國(guó)南京地區(qū)的2016年~2018年的CONDITION、AQI、PRES、HUM這四項(xiàng)數(shù)據(jù)進(jìn)行實(shí)證研究。為了使數(shù)據(jù)更具有可比性、價(jià)值性、直觀性,對(duì)數(shù)據(jù)進(jìn)行篩選,剔除了沒(méi)有成效的數(shù)據(jù)。
二、相關(guān)研究
我國(guó)主要通過(guò)環(huán)境統(tǒng)計(jì)分析,通過(guò)檢測(cè)空氣中各成分的變化,利用環(huán)境模糊聚類(lèi)分析、環(huán)境判別分析、環(huán)境主成分分析和環(huán)境因子分析這些常用的環(huán)境統(tǒng)計(jì)分析模型;也有少數(shù)利用現(xiàn)代環(huán)境數(shù)據(jù)處理常用的人工神經(jīng)網(wǎng)絡(luò)方法和空間統(tǒng)計(jì)分析方法。不過(guò)這些都存在一些局限性:缺乏有關(guān)制度的結(jié)合,主要是環(huán)境監(jiān)測(cè)制度,排污許可證制度和環(huán)境信息公開(kāi)制度;指標(biāo)體系還不完善;缺乏數(shù)據(jù)質(zhì)量保障制度和規(guī)范。
三、關(guān)聯(lián)規(guī)則對(duì)我國(guó)環(huán)境數(shù)據(jù)的分析
(一)關(guān)聯(lián)規(guī)則簡(jiǎn)介
關(guān)聯(lián)規(guī)則的一般性描述是: 設(shè)I={Itemset 1 , Itemset 2 , ? ,Itemset m }是項(xiàng)的集合, D是數(shù)據(jù)庫(kù)事務(wù)的集合,其中每個(gè)事務(wù)T是一個(gè)非空項(xiàng)集,使得T∈I,關(guān)聯(lián)規(guī)則是形如A =>B的蘊(yùn)涵式,其中A∈I , B∈I,A≠?,B≠?,并且 A∩B = ?,對(duì)于關(guān)聯(lián)規(guī)則 A =>B 在事務(wù)集D中成立:
支持度: Sup=P(A?B)=|A?B|/|D| (1)
置信度: Conf=P(B|A)=|A?B|/|A| (2)
其中 P(A?B) 表示事務(wù)數(shù)據(jù)庫(kù)D中包含A∪B的概率,P(B|A) 事務(wù)數(shù)據(jù)庫(kù)D 中包含 A的事務(wù)同時(shí)也包含 B的事務(wù)的概率。定義同時(shí)滿足最小支持度閾值(min_Sup)和最小置信度閾值(min_Conf)的規(guī)則稱(chēng)為強(qiáng)關(guān)聯(lián)規(guī)則。強(qiáng)關(guān)聯(lián)規(guī)則不一定都是有趣的,在此引入提升度來(lái)擴(kuò)充關(guān)聯(lián)規(guī)則的支持度-置信度框架,過(guò)濾掉無(wú)趣的相關(guān)規(guī)則。
提升度: Lift=P(B|A)/P(B)=Conf(A=>B)/Supp(B)(3)
即B在包含A 的事務(wù)集中出現(xiàn)的概率與B在事務(wù)數(shù)據(jù)庫(kù)D中出現(xiàn)的概率的比值,探究A的出現(xiàn)“提升”B出現(xiàn)的程度。若提升度大于1,則說(shuō)規(guī)則是有趣的。若規(guī)則提升度等于1,則兩者相互獨(dú)立,沒(méi)有相關(guān)性。若該規(guī)則提升度小于1,實(shí)為負(fù)相關(guān)的偽規(guī)則,可能會(huì)對(duì)決策產(chǎn)生誤導(dǎo)。
(二) 算法簡(jiǎn)介
Apriori 算法是Agrawal和R.Srikant 于1994年提出的一種發(fā)現(xiàn)頻繁項(xiàng)集的基本算法, 使用逐層搜索的迭代方法,其思想是利用已知的高頻數(shù)據(jù)項(xiàng)集推導(dǎo)更高層的高頻數(shù)據(jù)項(xiàng)集。Apriori 算法是一種寬度優(yōu)先算法,其具體步驟過(guò)程為:
S1:首先掃描數(shù)據(jù)庫(kù),計(jì)算 D 中所有單個(gè)項(xiàng)集的支持度, 找出1- 頻繁項(xiàng)集的集合,記為 L1。
S2:利用已生成的L k-1 ,即(k-1)-頻繁項(xiàng)集來(lái)生成Lk,即 k-頻繁項(xiàng)集。
S3:第S2步利用先驗(yàn)性質(zhì)壓縮搜索空間,其應(yīng)用分為以下兩步過(guò)程:
連接步:假定事務(wù)或項(xiàng)集中的項(xiàng)按字典序排序。對(duì)L k-1中的元素兩兩進(jìn)行比對(duì), 如果它們前k-2項(xiàng)相同 ,而最后一項(xiàng)不同,則將二者進(jìn)行連接得到k-候選項(xiàng)集。
剪枝步:對(duì)候選k-項(xiàng)集C k 進(jìn)行剪枝,從C k 中刪除所有(k-1)-子集不全包含在L k- 1 中的項(xiàng)集,從而得到k-頻繁項(xiàng)集。
S4:依次循環(huán)調(diào)用連接步和剪枝步,直至產(chǎn)生所有頻繁項(xiàng)集。
(三)通過(guò)環(huán)境數(shù)據(jù)的算法實(shí)現(xiàn)
首先我們將我們需要的數(shù)據(jù)導(dǎo)出來(lái),這里我先用2016年1月的數(shù)據(jù)做例子,見(jiàn)表1:
因?yàn)槲覀兿胍^察這些數(shù)據(jù)之間的聯(lián)系,為了輸入數(shù)據(jù)的方便,我們首先設(shè)立事件:
將COND數(shù)據(jù)中的晴設(shè)置為事件1,多云設(shè)置為事件2,陰設(shè)置為事件3,小雨設(shè)置為事件4,雨夾雪設(shè)置為事件5,小雪設(shè)置為事件6,小到中雪設(shè)置為事件7。
同理,將AQI中的1~50設(shè)置為事件a,51~100設(shè)置為事件b,101~150設(shè)置為事件c,151~200設(shè)置為事件d,201~250設(shè)置為事件e,251+設(shè)置為事件f。
PRES中,1011~1015設(shè)置為事件g,1016~1020設(shè)置為事件h,1021~1025設(shè)置為事件i,1026~1030設(shè)置為事件j,1031+設(shè)置為事件k。
HUM中,1~20設(shè)置為事件l,21~40設(shè)置為事件m,41~60設(shè)置為事件n,61~80設(shè)置為事件o,81~100設(shè)置為事件p。
接下來(lái),我們需要設(shè)立支持度和置信度,就暫且將支持度和置信度都先設(shè)置為0.6。
四、分析結(jié)果
首先看表2,表2是將數(shù)據(jù)轉(zhuǎn)換之后的圖,接下來(lái)我們將表2中的數(shù)據(jù)導(dǎo)入到算法中,帶入計(jì)算。我們首先通過(guò)天氣分類(lèi),將為同一類(lèi)型的天氣的各成分輸入其中,通過(guò)設(shè)置最小支持度和最小置信度,從而得出天氣狀況和環(huán)境成分的關(guān)聯(lián)。
表3是事件1即晴的時(shí)候?qū)⒆钚≈С侄群妥钚≈眯哦仍O(shè)為0.1所得到的結(jié)果。通過(guò)觀察可以猜測(cè)數(shù)d,j,p這三個(gè)類(lèi)型與晴天的關(guān)聯(lián)較大,即出現(xiàn)d,j,p時(shí),晴天可能性較大;表4是事件2即多云的時(shí)候?qū)⒆钚≈С侄群妥钚≈眯哦仍O(shè)為0.1所得到的結(jié)果。有結(jié)果可推出d,i,p這三個(gè)因素對(duì)應(yīng)著多云著一天氣情況;表5是事件3即陰天的時(shí)候?qū)⒆钚≈С侄群妥钚≈眯哦仍O(shè)為0.1所得到的結(jié)果。結(jié)果表明i,o,p對(duì)其影響較大,但由于o,p同屬于HUM中,所以需要取舍,由F1的出現(xiàn)頻率所以選p......表6和表7的結(jié)果以此類(lèi)推即可得出。
不過(guò),經(jīng)過(guò)檢查發(fā)現(xiàn),通過(guò)這樣得到的結(jié)果并不完全可靠,其中還欠缺不少未考慮到的因素,例如:國(guó)家政策對(duì)AQI值的影響,節(jié)假日對(duì)環(huán)境的影響等。所以我們統(tǒng)計(jì)的結(jié)果在與之后的數(shù)據(jù)對(duì)比中,發(fā)現(xiàn)不少有出入的地方。所以我們暫且還不能單憑一些環(huán)境成分就能準(zhǔn)確地預(yù)測(cè)出未來(lái)的天氣狀況。我們還需要加以改進(jìn)。
參考文獻(xiàn):
[1]楊恩. 關(guān)聯(lián)規(guī)則挖掘方法的改進(jìn)及應(yīng)用研究[EB/OL]. 北京:中國(guó)科技論文在線 [2009-05-06].
[2]崔妍, 包志強(qiáng). 關(guān)聯(lián)規(guī)則挖掘綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2016, 33(2): 330-334.
[3]劉林東,齊德昱.一種改進(jìn)的關(guān)聯(lián)規(guī)則挖掘算法研究[J]. 2018.6
[4]王曉峰,王天然,趙越.一種自頂向下挖掘長(zhǎng)頻繁項(xiàng)的有效方法[J].計(jì)算機(jī)研究與發(fā)展,2004,41(1):148-155.
*雙創(chuàng)項(xiàng)目:南京審計(jì)大學(xué)金審學(xué)院雙創(chuàng)項(xiàng)目201813994005Y