• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      云計(jì)算物聯(lián)網(wǎng)體系的數(shù)據(jù)挖掘模式設(shè)計(jì)

      2015-12-20 03:51:08曹建春
      艦船科學(xué)技術(shù) 2015年6期
      關(guān)鍵詞:原始數(shù)據(jù)復(fù)雜度數(shù)據(jù)挖掘

      曹建春,曾 赟

      (黃河水利職業(yè)技術(shù)學(xué)院,河南 開封475004)

      0 引 言

      隨著海洋運(yùn)輸及海底開發(fā)業(yè)務(wù)的發(fā)展,基于海上各種應(yīng)用的電子信息系統(tǒng)越來越多,如用于海底開發(fā)的目標(biāo)探測(cè)系統(tǒng),在海運(yùn)業(yè)務(wù)中發(fā)揮重要作用的氣象傳感網(wǎng)絡(luò),現(xiàn)有的這些應(yīng)用大多是基于物聯(lián)網(wǎng)的體系結(jié)構(gòu),其利用各種類型的傳感器對(duì)目標(biāo)物采集數(shù)據(jù),然后發(fā)送至各自系統(tǒng)的信息處理中心進(jìn)行數(shù)據(jù)處理及挖掘。隨著業(yè)務(wù)的增加,傳統(tǒng)的信息處理系統(tǒng)無論在數(shù)據(jù)挖掘的處理效率,還是數(shù)據(jù)存儲(chǔ)容量都無法滿足日益擴(kuò)張的應(yīng)用服務(wù)。

      云計(jì)算是一種分布式﹑并行化的計(jì)算架構(gòu)[1],它利用虛擬化技術(shù)把分布在不同地方的計(jì)算資源按照一定的邏輯進(jìn)行組合,同一處理任務(wù)可以通過進(jìn)程的劃分運(yùn)行在云系統(tǒng)不同的計(jì)算節(jié)點(diǎn),有效的增加了系統(tǒng)的信息處理速率。同時(shí),基于云的數(shù)據(jù)挖掘算法可以避免傳統(tǒng)算法中收斂速率過慢,時(shí)效性過低的缺點(diǎn),有效提高了海上海量數(shù)據(jù)挖掘的效率。

      本文在研究現(xiàn)有的云計(jì)算架構(gòu)及數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,改造Apriori 算法,提出一種基于云計(jì)算的高性能數(shù)據(jù)挖掘算法,并進(jìn)行仿真,同時(shí)和傳統(tǒng)的算法進(jìn)行比較分析。

      1 基于云的數(shù)據(jù)挖掘原理

      1.1 云計(jì)算架構(gòu)

      云計(jì)算是最新的信息科學(xué)研究方向,利用虛擬化的技術(shù)將分布在不同地方的計(jì)算機(jī)硬件進(jìn)行統(tǒng)一,對(duì)所有硬件資源進(jìn)行抽象,并按照一定的邏輯進(jìn)行資源劃分。

      對(duì)于用戶端,云架構(gòu)是一種透明的[2]﹑安全可靠并且可擴(kuò)展的架構(gòu)。用戶無需知道具體的硬件資源,只需提交作業(yè),則云服務(wù)器自動(dòng)進(jìn)行資源分配。

      圖1 為云計(jì)算平臺(tái)架構(gòu)圖。

      圖1 云計(jì)算平臺(tái)架構(gòu)Fig.1 The cloud computing platform architecture

      云計(jì)算服務(wù)平臺(tái)根據(jù)用戶申請(qǐng)的任務(wù)所需要資源動(dòng)態(tài)的進(jìn)行平臺(tái)中計(jì)算及存儲(chǔ)資源的分配。當(dāng)前可利用資源不能滿足用戶所需資源時(shí),云計(jì)算平臺(tái)通過監(jiān)控服務(wù)控制程序從可用資源池中調(diào)用新的可用資源放入當(dāng)前資源池中。

      1.2 數(shù)據(jù)挖掘原理

      在云計(jì)算平臺(tái)中,不同應(yīng)用程序所得到的數(shù)據(jù)是按照一定的邏輯關(guān)系進(jìn)行編排,組成一個(gè)數(shù)據(jù)隊(duì)列。然后利用云處理平臺(tái)統(tǒng)一進(jìn)行處理,根據(jù)不同的用戶需求來分配相應(yīng)的資源。

      具體步驟如下:

      假設(shè)海上不同應(yīng)用程序所得到的數(shù)據(jù)集合為{b1,b2,…bp},應(yīng)用程序的個(gè)數(shù)為p,數(shù)據(jù)之間的復(fù)雜度設(shè)為λ。云計(jì)算平臺(tái)首先將數(shù)據(jù)集合{b1,b2,…,bp}進(jìn)行融合,屬性相同的數(shù)據(jù)進(jìn)行合并,轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)隊(duì)列{e1,e2,…,cq},其中屬性個(gè)數(shù)為q。

      首先需要求得數(shù)據(jù)bi與需求之間的耦合性[3]:

      則針對(duì)特性需求數(shù)據(jù)bi進(jìn)行數(shù)據(jù)挖據(jù),所需要的耗時(shí)公式如下:

      式(1)分析可知,數(shù)據(jù)之間復(fù)雜系數(shù)λ 與數(shù)據(jù)挖掘需求之間呈現(xiàn)線性關(guān)系,隨著應(yīng)用系數(shù)數(shù)據(jù)復(fù)雜度的提升而提升。式(2)分析可知對(duì)不同的應(yīng)用系統(tǒng),其數(shù)據(jù)挖據(jù)之間的耦合性增強(qiáng),則最終的處理時(shí)間隨之增加。

      在海上各種數(shù)據(jù)處理系統(tǒng)有可能處于不同的地點(diǎn),并且各種信息處理系統(tǒng)架構(gòu)也可能不同,隨著應(yīng)用的增多,無論從復(fù)雜度還是處理信息量都有了指數(shù)級(jí)增長(zhǎng)。傳統(tǒng)的集中式數(shù)據(jù)挖掘處理平臺(tái)的計(jì)算性能以及存儲(chǔ)容量已經(jīng)越來越不能滿足業(yè)務(wù)的擴(kuò)展,并且傳統(tǒng)算法在處理多屬性數(shù)據(jù)挖掘算法時(shí),容易陷入局部最優(yōu)點(diǎn)。

      2 基于云計(jì)算的數(shù)據(jù)挖掘模式設(shè)計(jì)

      2.1 云計(jì)算對(duì)數(shù)據(jù)挖據(jù)的優(yōu)化處理

      如上節(jié)所示,利用統(tǒng)一的信息處理平臺(tái)對(duì)不同應(yīng)用的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘處理時(shí),其算法的收斂效果較差,并且計(jì)算資源和存儲(chǔ)資源并不能滿足客戶需求的增長(zhǎng),從而導(dǎo)致信息系統(tǒng)的效率降低。本文利用分布式的云架構(gòu)對(duì)數(shù)據(jù)挖掘算法進(jìn)行改進(jìn),提出一種分布式架構(gòu)及網(wǎng)格處理的Apriori 數(shù)據(jù)挖掘[4]算法,有效提升了計(jì)算效率。

      首先在初始化階段,云計(jì)算服務(wù)器需要對(duì)各種需要處理的數(shù)據(jù),根據(jù)屬性進(jìn)行判斷、排序、優(yōu)化等操作,下面詳細(xì)描述其步驟:

      1)對(duì)不同應(yīng)用程序所得到的數(shù)據(jù)集合的屬性進(jìn)行統(tǒng)計(jì),并將隨機(jī)的數(shù)據(jù)集合按照不同的數(shù)據(jù)屬性重新進(jìn)行排序。

      2)對(duì)排序后的序列進(jìn)行簡(jiǎn)化處理,相同屬性的數(shù)據(jù)刪除冗余數(shù)據(jù)。并且云服務(wù)器端需要構(gòu)建各數(shù)據(jù)之間的關(guān)聯(lián)系數(shù)。

      ①首先得到不同屬性數(shù)據(jù)的邏輯關(guān)系集。

      ②假設(shè)用戶所需的數(shù)據(jù)集的屬性為B,經(jīng)過云服務(wù)器端邏輯處理后的邏輯屬性為D,則需要計(jì)算用戶需求E 與原始數(shù)據(jù)及屬性B 及處理后的邏輯屬性D 之間的關(guān)系:η(D,E)及η(D - {B},E)。

      3)計(jì)算原始屬性B 與用戶需求E 之間的關(guān)聯(lián)系數(shù),公式如下:

      若計(jì)算的該關(guān)聯(lián)系數(shù)大于0,則表示原始屬性B與用戶需求E 之間相關(guān),則在云存儲(chǔ)端保存原始數(shù)據(jù);否則,則說明原始屬性B 代表的數(shù)據(jù)集與用戶需求沒有關(guān)系,不保存數(shù)據(jù)。

      4)最后將經(jīng)過上述步驟處理的有效數(shù)據(jù)保存在云數(shù)據(jù)庫(kù)端。

      數(shù)據(jù)冗余判斷及關(guān)聯(lián)性處理如圖2 所示。

      圖2 數(shù)據(jù)關(guān)聯(lián)處理模型Fig.2 Data processing model

      通過上面預(yù)處理后,能有效降低數(shù)據(jù)的復(fù)雜性,并且去除冗余數(shù)據(jù),為接下來的數(shù)據(jù)挖掘提供有效數(shù)據(jù)。

      2.2 云數(shù)據(jù)挖掘算法

      本文利用Apriori 算法對(duì)云數(shù)據(jù)挖掘進(jìn)行計(jì)算。首先統(tǒng)計(jì)經(jīng)過云計(jì)算服務(wù)器預(yù)處理的數(shù)據(jù)屬性個(gè)數(shù),得到針對(duì)每個(gè)不同屬性的業(yè)務(wù)數(shù)據(jù)集。然后對(duì)每個(gè)屬性的數(shù)據(jù)逐次進(jìn)行計(jì)算。首先計(jì)算得出屬性種類為1 的需要挖掘的數(shù)據(jù)集,記為M1。然后根據(jù)與屬性為1 的關(guān)聯(lián)系數(shù),計(jì)算屬性種類為2 的需要挖掘的數(shù)據(jù)集,記為M2,同理依次計(jì)算屬性為3,4,…,L的數(shù)據(jù)集,并記錄為M3,M4,…,ML。為了有效地進(jìn)行計(jì)算的資源分配[5],按照如下步驟進(jìn)行:

      1)對(duì)集合進(jìn)行關(guān)聯(lián)

      對(duì)每個(gè)屬性的信息集ML-1做自相關(guān)運(yùn)算,得到相關(guān)矩陣集Di,假設(shè)m1,m2∈ML-1,則mj(k)為包含所有屬性的信息集M1,M2,…,ML中排序?yàn)閖 的向量中的第k 元素,云計(jì)算服務(wù)器端把信息集合中的每個(gè)向量按照升序排列,有:

      同時(shí),本文假設(shè)在信息集M1,M2,…,ML相鄰向量之間互相關(guān),則每個(gè)矩陣向量中元素m1,m2也具有相關(guān)性,數(shù)據(jù)之間進(jìn)行連接操作可以簡(jiǎn)化數(shù)據(jù)挖掘算法的復(fù)雜度,具體公式如下所示:

      最終經(jīng)過關(guān)聯(lián)處理后的數(shù)據(jù)表達(dá)式如下:

      2)冗余數(shù)據(jù)裁剪

      數(shù)據(jù)挖掘是從海量的信息中提取出用戶所需數(shù)據(jù),而原始數(shù)據(jù)中包含大量的數(shù)據(jù)冗余信息,需要進(jìn)行裁剪。若原始數(shù)據(jù)集為Di,包含所有屬性的數(shù)據(jù)集,則D 為數(shù)據(jù)集Ml,Ml超集,也即Ml∈Dl,同時(shí)根據(jù)Dl所包含的數(shù)據(jù)屬性數(shù)目來推斷出ML-1,則推斷過程中由于原始數(shù)據(jù)集Dl數(shù)目信息量過于龐大,其算法復(fù)雜度很高,所以需要對(duì)Dl作冗余裁剪及壓縮數(shù)據(jù)信息含量。若屬性i 的數(shù)據(jù)集Mi與屬性j 的數(shù)據(jù)集Mj之間信息存在交叉數(shù)據(jù),則對(duì)交叉數(shù)據(jù)進(jìn)行裁剪,最終實(shí)現(xiàn)對(duì)原始數(shù)據(jù)集Dl的簡(jiǎn)化。

      3 算法仿真

      本仿真平臺(tái)為Visual c ++6.0,構(gòu)建的云計(jì)算平臺(tái)原始數(shù)據(jù)集為所有信息數(shù)據(jù)總量P,數(shù)據(jù)屬性的個(gè)數(shù)為l,沒有經(jīng)過處理后的信息集為{b1,b2,…,bp},經(jīng)過云服務(wù)器端處理后的信息集為{c1,c2,…c3},那么原始數(shù)據(jù)集中的向量bj與經(jīng)過邏輯處理后的向量ck之間可以進(jìn)行關(guān)系描述。

      對(duì)上述數(shù)據(jù)可以計(jì)算基于云計(jì)算的數(shù)據(jù)挖掘算法耗時(shí),公式如下:

      上述耗時(shí)是衡量算法最重要的性能指標(biāo)。

      在本次實(shí)驗(yàn)中數(shù)據(jù)屬性設(shè)為15,每個(gè)屬性的數(shù)據(jù)樣本量為1 000。

      第1 個(gè)實(shí)驗(yàn)假設(shè)數(shù)據(jù)屬性不同的數(shù)據(jù)之間的沒有相關(guān)性,也即數(shù)據(jù)的復(fù)雜度較低,圖3 為利用傳統(tǒng)的算法與本算法的比較曲線圖。

      圖3 復(fù)雜度小的數(shù)據(jù)處理耗時(shí)曲線圖Fig.3 The time curve of the small complexity data processing

      數(shù)據(jù)屬性不同的數(shù)據(jù)之間的有相關(guān)性,也即數(shù)據(jù)的復(fù)雜度較高,圖4 同樣為利用傳統(tǒng)的算法與本算法的比較曲線圖。

      圖4 復(fù)雜度大的數(shù)據(jù)處理耗時(shí)曲線圖Fig.4 The time curve of the big complexity data processing

      4 結(jié) 語

      現(xiàn)代海洋業(yè)務(wù)的信息處理系統(tǒng)業(yè)務(wù)越來越多,傳統(tǒng)的對(duì)多業(yè)務(wù)的數(shù)據(jù)挖據(jù)算法的時(shí)效性已經(jīng)越來越不能滿足客戶的需求;同時(shí),隨著計(jì)算機(jī)科學(xué)的發(fā)展,基于云計(jì)算集分布式架構(gòu)在處理多數(shù)據(jù)信息處理中的應(yīng)用越來越成熟。

      本文在研究現(xiàn)有的云計(jì)算架構(gòu)及數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,改造Apriori 算法,提出了一種基于云計(jì)算的高性能數(shù)據(jù)挖掘算法,并進(jìn)行仿真。

      [1]GOETHALS B.Memory issues in frequent itemset mining[C]//Proc of ACM Symposium on Applied Computing.New York,NY:ACM,2004:530 -534.

      [2]BARALIS E,CERQUITELLI T,CHIUSANO S.Index support for frequent itemset mining in a relational DBMS[C]//Proc of Data Engineering 2005.ICDE 2005.Los Alamitos,CA:IEEE Computer Society,2005:754-765.

      [3]WILLIAM A M,MOHAMMED J Z.Systems support for scalable data mining[J].ACM SIGKDD Explorations Newsletter,2000,2(2):56 -65.

      [4]臧麗娜,鄭艷娟,張宇敬.面向云計(jì)算的船舶生產(chǎn)信息平臺(tái)建設(shè)[J].艦船科學(xué)技術(shù),2014,36(12):107 -111.ZANG Li-na,ZHENG Yan-juan,ZHANG Yu-jing.Research on ship production information platform based on cloud computing[J].Ship Science and Technology,2014,36(12):107 -111.

      [5]曹強(qiáng),潘維光.?dāng)?shù)據(jù)挖掘技術(shù)在艦載信息系統(tǒng)中的應(yīng)用研究[J].艦船科學(xué)技術(shù),2005,27(8):62 -65.CAO Qiang,PAN Wei-guang.A study of DM technique using in warship C4ISR[J].Ship Science and Technology,2005,27(8):62 -65.

      猜你喜歡
      原始數(shù)據(jù)復(fù)雜度數(shù)據(jù)挖掘
      GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
      一種低復(fù)雜度的慣性/GNSS矢量深組合方法
      全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
      汽車零部件(2017年4期)2017-07-12 17:05:53
      求圖上廣探樹的時(shí)間復(fù)雜度
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      出口技術(shù)復(fù)雜度研究回顧與評(píng)述
      留坝县| 忻州市| 长乐市| 宜兴市| 浦北县| 蒙阴县| 重庆市| 尼勒克县| 宁乡县| 锦屏县| 饶阳县| 桃园县| 偏关县| 枝江市| 鱼台县| 武城县| 墨江| 疏勒县| 子长县| 玛曲县| 潼关县| 天门市| 余江县| 武义县| 深水埗区| 景洪市| 湘潭县| 灌云县| 乌恰县| 周口市| 文水县| 普格县| 清徐县| 泸定县| 临沭县| 忻城县| 郑州市| 遵义县| 东丰县| 佛冈县| 庆阳市|