• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于貝葉斯的大數(shù)據(jù)異常值檢測(cè)模型研究

      2020-03-30 03:19:04周梁琦章權(quán)魏莉
      電腦知識(shí)與技術(shù) 2020年1期
      關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)

      周梁琦 章權(quán) 魏莉

      摘要:隨著物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等信息產(chǎn)業(yè)的不斷進(jìn)步,數(shù)據(jù)規(guī)模越來越大、處理難度也逐漸加大。而海量的數(shù)據(jù)中,異常數(shù)據(jù)會(huì)干擾后續(xù)的挖掘、預(yù)測(cè)與分析。因此,有必要對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè),提高數(shù)據(jù)的準(zhǔn)確性。但由于數(shù)據(jù)量過大,大數(shù)據(jù)常常不具備明顯的分布特征,然而對(duì)非典型特征的數(shù)據(jù)進(jìn)行建模是一個(gè)挑戰(zhàn),因?yàn)橥评頃?huì)變得更加困難。以空氣質(zhì)量大數(shù)據(jù)為例,研究了如何將不具備明顯分布特征的大數(shù)據(jù),利用獨(dú)立的高斯分布混合分布描述此類數(shù)據(jù)。在前期研究的高斯混合模型+神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上優(yōu)化了均值和協(xié)方差的選取,使得結(jié)果更加準(zhǔn)確。這對(duì)于異常數(shù)據(jù)檢測(cè)具有重要意義,更大程度地提高檢測(cè)的準(zhǔn)確性。

      關(guān)鍵詞:異常值檢測(cè);貝葉斯聚類算法;高斯混合模型;神經(jīng)網(wǎng)絡(luò);模型融合

      中圖分類號(hào):TP3-05 文獻(xiàn)標(biāo)識(shí)碼:A

      文章編號(hào):1009-3044(2020)01-0207-03

      1概述

      隨著物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)等信息產(chǎn)業(yè)的不斷進(jìn)步,數(shù)據(jù)發(fā)生了“大爆炸”。人們將這種海量數(shù)據(jù)稱之為“大數(shù)據(jù)”,數(shù)據(jù)規(guī)模越大、處理難度越大,但如果能夠有效地組織和使用大數(shù)據(jù),對(duì)其進(jìn)行科學(xué)的挖掘,產(chǎn)生的價(jià)值將會(huì)更大。而海量的數(shù)據(jù)中,異常數(shù)據(jù)會(huì)干擾后續(xù)的挖掘、預(yù)測(cè)與分析。因此,有必要對(duì)異常數(shù)據(jù)進(jìn)行檢測(cè),提高數(shù)據(jù)的準(zhǔn)確性。

      空氣質(zhì)量數(shù)據(jù)在實(shí)際監(jiān)測(cè)過程中,由于樣品的采集、分析和采樣地點(diǎn)的偶發(fā)事件、各種環(huán)境要素本身的時(shí)空變化以及本身的數(shù)據(jù)特點(diǎn)等一系列因素的影響,導(dǎo)致數(shù)據(jù)常常不具備明顯的分布特征。所以本文以空氣質(zhì)量大數(shù)據(jù)為例,提出一種基于貝葉斯優(yōu)化的聚類模型。

      2研究現(xiàn)狀

      在大數(shù)據(jù)下,人們產(chǎn)生的數(shù)據(jù)量激增,為人們分析利用數(shù)據(jù)提供了大而廣的數(shù)據(jù)來源,然而這些數(shù)據(jù)往往呈現(xiàn)結(jié)構(gòu)復(fù)雜、噪聲多等特性,傳統(tǒng)的數(shù)據(jù)異常值檢測(cè)方法已經(jīng)難以進(jìn)行有效的數(shù)據(jù)分析,這已成為人們深度挖掘大數(shù)據(jù)潛在價(jià)值的阻礙。

      現(xiàn)有方法對(duì)具有非典型特征的大數(shù)據(jù)異常值檢測(cè),在實(shí)際應(yīng)用中往往出現(xiàn)效率低或準(zhǔn)確性差等問題。如何提高大數(shù)據(jù)異常值檢測(cè)的效率和準(zhǔn)確性,對(duì)數(shù)據(jù)挖掘、數(shù)據(jù)分析以及預(yù)測(cè)具有重要意義。異常值檢測(cè)最先是在統(tǒng)計(jì)學(xué)方向出現(xiàn)的,接著,Knorr等將其應(yīng)用到了數(shù)據(jù)挖掘領(lǐng)域中。

      對(duì)于已有的異常值檢測(cè)方法基本能夠按下面的標(biāo)準(zhǔn)分成三大類別:

      以數(shù)據(jù)的分布為基礎(chǔ)來檢測(cè)離群值,這個(gè)方法一開始就以所已知的數(shù)據(jù)滿足一個(gè)已有的概率模型或者概率分布,接著按照數(shù)據(jù)點(diǎn)與假定的分布中的點(diǎn)是否一致來檢測(cè)異常值。但是由于實(shí)際中的數(shù)據(jù)很難準(zhǔn)確得到其概率分布,因此這種方法在應(yīng)用上有比較大的局限。

      以數(shù)據(jù)間的距離為基礎(chǔ)來檢測(cè)離群值,這個(gè)方法一開始是由Knott與Ng一起提出,他們認(rèn)為,若是一個(gè)數(shù)據(jù)與集合里的絕大部分?jǐn)?shù)據(jù)間的距離都比之前設(shè)定的閾值大,那么它便是一個(gè)異常數(shù)據(jù)。該方法的不足的地方就是比較難確定基準(zhǔn)值和距離。

      以數(shù)據(jù)密度為依據(jù)來檢測(cè)離群值,這個(gè)方法最早被Breunig提出來,通過衡量一個(gè)對(duì)象與它周圍對(duì)象的無關(guān)程度來判斷是否為離群點(diǎn)。該方法能夠探測(cè)到包括基于距離方法探測(cè)不到的所有異常值,但它仍有一些問題,比如方法中涉及的參數(shù)確定問題。

      為了彌補(bǔ)異常值檢測(cè)算法的不足,后來的很多學(xué)者發(fā)展了很多不一樣的算法來改善異常值算法。姜立明[4]等人利用聚類算法來對(duì)模糊集的進(jìn)行降維和對(duì)單元格邊長選擇了加權(quán)處理,運(yùn)用了一種基于單元格的離群值挖掘方法,該算法對(duì)高維數(shù)據(jù)具有良好的延展性,可是還是要人為設(shè)定參數(shù)。曾穎等人通過對(duì)數(shù)據(jù)流進(jìn)行聚類算法來減少數(shù)據(jù)量,對(duì)聚類之后的數(shù)據(jù)采用凝聚聚類算法檢測(cè)異常值。胡云等人利用了粗糙理論來分析異常數(shù)據(jù),進(jìn)行異常數(shù)據(jù)的檢測(cè),并使用了一種新的方法,該方法充分采用屬性歸約技術(shù)來去除多余屬性,并通過對(duì)以近鄰為基礎(chǔ)的異常加權(quán)因子的計(jì)算,來最終判斷異常數(shù)據(jù)的集合。徐衡分別研究了寶雞市空氣質(zhì)量于氣象因素之間的關(guān)系,并分別建立了回歸方程,并提出了相應(yīng)的空氣治理辦法及措施。沈勁等人對(duì)廣東省順德區(qū)進(jìn)行空氣質(zhì)量分析,并建立了基于氣象因子聚類和多遠(yuǎn)回歸的方程來預(yù)測(cè)空氣污染物濃度。

      雖然已有一些學(xué)者從不同方面對(duì)大數(shù)據(jù)的異常值檢測(cè)方法進(jìn)行了研究,但是由于大數(shù)據(jù)的復(fù)雜性,使得模型需要設(shè)置大量參數(shù)并且參數(shù)難以確定。

      針對(duì)大數(shù)據(jù)異常值檢測(cè),以空氣質(zhì)量大數(shù)據(jù)為例,研究空氣質(zhì)量數(shù)據(jù)下異常值檢測(cè)的特點(diǎn),綜合分析各種方法的優(yōu)劣,擬使用貝葉斯及神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行聚類及優(yōu)化,提高異常值檢測(cè)的準(zhǔn)確性和效率。

      3模型及方法

      3.1數(shù)據(jù)分析

      本文使用我國某一城市2014-2018年度空氣PM2.5一天24小時(shí)監(jiān)測(cè)的污染數(shù)據(jù)。在本次研究中,相關(guān)PM2.5數(shù)據(jù)來源于大數(shù)據(jù)網(wǎng)站。數(shù)據(jù)分布如圖1所示,可以看出數(shù)據(jù)大致集中在7到8個(gè)區(qū)域。

      通過對(duì)數(shù)據(jù)的大致分析,本文選取混合高斯模型作為基礎(chǔ)模型對(duì)數(shù)據(jù)進(jìn)行異常值的處理。

      3.2貝葉斯混合高斯模型

      本文所采用混合高斯模型,其目的是利用數(shù)據(jù)的密度進(jìn)行初步聚類,使得數(shù)據(jù)體現(xiàn)出明顯的分布特征,以便于后續(xù)對(duì)數(shù)據(jù)進(jìn)行合理聚類,剔除其中的可疑或不合理的數(shù)據(jù),使被監(jiān)測(cè)的空氣質(zhì)量狀況能夠得到真實(shí)反映。

      此模型中由于對(duì)均值和協(xié)方差的計(jì)算會(huì)花費(fèi)大量的時(shí)間、費(fèi)用,因此,在優(yōu)化時(shí)通常希望在少量代價(jià)下得到滿意解,貝葉斯優(yōu)化側(cè)重于減少評(píng)估代價(jià),保證其能夠僅經(jīng)過少數(shù)次目標(biāo)函數(shù)評(píng)估即可得到近優(yōu)解。在最優(yōu)化采集函數(shù)的前提下,貝葉斯優(yōu)化能夠在理論上保證最終收斂。這是因?yàn)榈^程中每次迭代都采樣最有“潛力”的點(diǎn)進(jìn)行評(píng)估,只要保證足量的迭代次數(shù),算法最終一定會(huì)收斂到全局最優(yōu)解。

      3.3基于cNN的空氣質(zhì)量數(shù)據(jù)異常檢測(cè)模型

      由于氣候數(shù)據(jù)之間存在明顯的關(guān)聯(lián)性,因此不能從單一方面說明某個(gè)數(shù)據(jù)是異常值,必須建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。BP神經(jīng)網(wǎng)絡(luò)算法具有強(qiáng)大的非線性映射,但是在樣本數(shù)量大、復(fù)雜性高等情況下存在訓(xùn)練速度慢、誤差大和時(shí)間復(fù)雜度高等缺點(diǎn)。貝葉斯聚類能夠?qū)?shù)據(jù)進(jìn)行模塊化分類,將高相似度數(shù)據(jù)聚集在數(shù)據(jù)集中,并且不同數(shù)據(jù)集之間差異較大,為了彌補(bǔ)BP神經(jīng)網(wǎng)絡(luò)算法的缺點(diǎn),將聚類后的數(shù)據(jù)集作為訓(xùn)練樣本。結(jié)合上述兩種算法,能夠取長補(bǔ)短,避免單獨(dú)應(yīng)用一種算法的局限性,更好地改善訓(xùn)練質(zhì)量。

      BP神經(jīng)網(wǎng)絡(luò)由輸入層、若干個(gè)隱層和輸出層組成,層與層之間是全連接的,每一個(gè)連接弧連接兩個(gè)神經(jīng)元,并賦有權(quán)值作為前一層神經(jīng)元對(duì)后一層神經(jīng)元的影響程度,每一層內(nèi)部的任意兩個(gè)節(jié)點(diǎn)都是互不相連。它的學(xué)習(xí)規(guī)則是使用最速下降法,通過方向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值。

      3.4融合模型整體結(jié)構(gòu)

      針對(duì)空氣質(zhì)量數(shù)據(jù),將混合高斯模型和神經(jīng)網(wǎng)絡(luò)融合。首先,對(duì)空氣質(zhì)量數(shù)據(jù)進(jìn)行聚類處理,然后將聚類后數(shù)據(jù)集作為BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練樣本。通過比較網(wǎng)絡(luò)的輸出值和真實(shí)值實(shí)現(xiàn)數(shù)據(jù)的異常檢測(cè),達(dá)到目的,總體設(shè)計(jì)模型如圖3所示。

      4實(shí)驗(yàn)仿真

      將空氣質(zhì)量大數(shù)據(jù)放入模型中訓(xùn)練,得到訓(xùn)練后的數(shù)據(jù)特征。如圖4均值分布情況所示,這里均值分布等同于之后神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)簇的個(gè)數(shù)。

      單一的神經(jīng)網(wǎng)絡(luò)與貝葉斯高斯混合模型的效果進(jìn)行比較,結(jié)果如圖5所示。圖中藍(lán)色的線是神經(jīng)網(wǎng)絡(luò)的正確率,黃的線是貝葉斯高斯混合模型+神經(jīng)網(wǎng)絡(luò)的正確率。

      5結(jié)論

      為了解決大數(shù)據(jù)中異常數(shù)據(jù)的影響,提出了一種貝葉斯優(yōu)化的異常值檢測(cè)模型。通過貝葉斯推理,對(duì)混合高斯模型中均值及協(xié)方差的選取進(jìn)行了優(yōu)化,降低了模型的使用難度及成本;同時(shí)本方法相對(duì)于單個(gè)模型提升了準(zhǔn)確率,加快了收斂速度,得到了更好的檢測(cè)效果。但cNN模型的構(gòu)建是一個(gè)耗時(shí)的工程,如果能更快地確定參數(shù),將大大降低成本,提高效率,這將是未來的優(yōu)化方向。

      猜你喜歡
      神經(jīng)網(wǎng)絡(luò)
      BP神經(jīng)網(wǎng)絡(luò)在路標(biāo)識(shí)別上的應(yīng)用研究
      基于HPSO-BP神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
      電子制作(2019年24期)2019-02-23 13:22:36
      基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
      基于GA-BP神經(jīng)網(wǎng)絡(luò)的光伏陣列MPPT研究
      安溪县| 清流县| 清丰县| 龙海市| 蓬莱市| 左权县| 南开区| 深圳市| 宜城市| 保康县| 武穴市| 卢龙县| 恩施市| 太仆寺旗| 迭部县| 宁海县| 泸水县| 珠海市| 安义县| 台东县| 桐乡市| 舞阳县| 西丰县| 郎溪县| 绥棱县| 中牟县| 淅川县| 尼木县| 山阳县| 清徐县| 宣武区| 岱山县| 桂东县| 惠东县| 鹿邑县| 钦州市| 布拖县| 安吉县| 南漳县| 交口县| 香港|