• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      以大數(shù)據(jù)為基礎(chǔ)的挖掘數(shù)據(jù)引擎研究

      2018-11-26 09:33:32趙亮梁勝彬楚廣琳
      電腦知識與技術(shù) 2018年24期

      趙亮 梁勝彬 楚廣琳

      摘要:該文在開篇介紹了大數(shù)據(jù)的基本內(nèi)涵、主要特點(diǎn)和研究價值。隨后淺述了數(shù)據(jù)挖掘的三種工具和四類主要算法,并在第三部分簡述了一種以Spark為基礎(chǔ)的數(shù)據(jù)挖掘算法的模型結(jié)構(gòu)。

      關(guān)鍵詞:大數(shù)據(jù)挖掘;數(shù)據(jù)挖掘引擎;Spark模型優(yōu)化

      中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)24-0261-01

      隨著信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)科技的不斷進(jìn)步,人們?nèi)粘I钪薪佑|到的數(shù)據(jù)呈爆炸式增長,現(xiàn)有的很多數(shù)據(jù)已經(jīng)超過了傳統(tǒng)軟件的處理能力,人們將這類數(shù)據(jù)稱為大數(shù)據(jù)。大數(shù)據(jù)的特點(diǎn)也十分明顯,例如其數(shù)量龐大、種類繁多、產(chǎn)生的速度十分快、研究價值極大等。也正是基于這幾點(diǎn),所以現(xiàn)在很多研究機(jī)構(gòu)都對大數(shù)據(jù)的相關(guān)處理進(jìn)行分析。例如,在生物醫(yī)藥方面,大數(shù)據(jù)可以幫助醫(yī)生快速判斷病情;在商業(yè)方面,采用大數(shù)據(jù)相關(guān)技術(shù)可以根據(jù)用戶搜索的記錄來向商家提供用戶的偏好,提高用戶的購買欲望;在交通運(yùn)輸上,采用大數(shù)據(jù)相關(guān)技術(shù)可以動態(tài)觀測龐大的交通信息網(wǎng),為用戶出行及時規(guī)避擁堵路段。因此研究大數(shù)據(jù)是時代科技進(jìn)步的趨勢。

      1 數(shù)據(jù)挖掘概述

      1.1 數(shù)據(jù)挖掘的主要算法和工具

      現(xiàn)代開發(fā)出來的數(shù)據(jù)挖掘算法可以分為以下四類:(1)關(guān)聯(lián)規(guī)則分析算法:此類算法通常是用來尋找兩類關(guān)聯(lián)性較大的數(shù)據(jù),例如在購買早餐時,發(fā)現(xiàn)購買了包子的人都會選擇購買一包餐紙,因此在包子鋪里面提供餐紙會提高兩者的銷量。(2)聚類算法:此類算法是用來找出數(shù)據(jù)之間的相似項(xiàng),相當(dāng)于對具有某同一屬性的數(shù)據(jù)進(jìn)行歸納。(3)展望回歸算法:此類算法首要是用來展望大數(shù)據(jù)的走向,常見的有線性回歸算法。(4)排序算法:此類算法是通過規(guī)定某一指標(biāo),以此指標(biāo)的數(shù)量來對相關(guān)數(shù)據(jù)進(jìn)行排序,經(jīng)典的有谷歌的PageRank算法。

      Orange、Apache Mahout、和Spark是常用的數(shù)據(jù)挖掘工具。這三種工具分別應(yīng)用于不同的場景進(jìn)行數(shù)據(jù)挖掘,例如Orange就是通過python來實(shí)現(xiàn)數(shù)據(jù)挖掘的。

      1.2 大數(shù)據(jù)挖掘的現(xiàn)狀和難點(diǎn)

      作為一種已經(jīng)發(fā)展了十余年的技術(shù),前人已經(jīng)開發(fā)出了很多經(jīng)典的大數(shù)據(jù)挖掘算法和工具,這些算法和工具還是有一定的應(yīng)用局限,例如此類算法沒有辦法應(yīng)用于數(shù)據(jù)集的挖掘。主要原因是以下五點(diǎn):(1)大數(shù)據(jù)的內(nèi)存占用量大得驚人,傳統(tǒng)的軟件根本無法承受如此海量的數(shù)據(jù),例如,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫在對大數(shù)據(jù)進(jìn)行相關(guān)操作的時候就顯得力不從心。(2)大數(shù)據(jù)的儲存、讀取和計(jì)算方式與傳統(tǒng)數(shù)據(jù)有差別。同時為了提高大數(shù)據(jù)算法的處理能力,很多模型和計(jì)算框架都是并行的。(3)一般來說大數(shù)據(jù)挖掘都是在計(jì)算機(jī)群上進(jìn)行操作的,這不僅對設(shè)備要求高,對相關(guān)從業(yè)人員的要求更高。(4)針對大數(shù)據(jù)集的數(shù)據(jù)挖掘工具少而且操作難度大,對用戶友好度低,并且難以實(shí)現(xiàn)數(shù)據(jù)可視化。(5)處理實(shí)時傳遞的數(shù)據(jù),請求有一個可用性高,吞吐量大的傳輸體系。

      2 數(shù)據(jù)挖掘引擎的構(gòu)建

      2.1 以Spark為基礎(chǔ)的數(shù)據(jù)挖掘算法

      文章擬采取Spark作為基礎(chǔ)引擎。因?yàn)槠漭^Mabout來說,計(jì)算速度優(yōu)勢明顯,尤其是在大數(shù)據(jù)的處理背景下。Spark作為擁有RDD(彈性分布式數(shù)據(jù)集)和共享變量的編程模型,不僅能夠讓所有節(jié)點(diǎn)的內(nèi)存并行,而且還可以在不同節(jié)點(diǎn)處對共享向量進(jìn)行復(fù)制。用戶再次使用某一RDD,無須重新建立一個新的RDD,大大提高了其運(yùn)行速度。但是目前來說Spark還存在著一些缺點(diǎn),例如:只有八種算法,覆蓋量少,而且其中沒有涉及PageRank算法和關(guān)聯(lián)算法(Apriori算法)。因此文中主要結(jié)合這兩種算法,對Spark進(jìn)行優(yōu)化。首先關(guān)聯(lián)算法是一種基本的數(shù)據(jù)挖掘方法,能夠挖掘出在設(shè)定值范圍內(nèi)的與大數(shù)據(jù)事件相關(guān)的事件。傳統(tǒng)的關(guān)聯(lián)算法,在每請求一次計(jì)算的過程中都要對整個數(shù)據(jù)庫進(jìn)行一次遍歷,當(dāng)數(shù)據(jù)量小的時候,關(guān)聯(lián)算法優(yōu)勢明顯。但是如果是面對海量的大數(shù)據(jù),就難以高效快捷的完成整個工作。利用Spark的特點(diǎn)可以對關(guān)聯(lián)算法進(jìn)行優(yōu)化,我們可以將數(shù)據(jù)存于RDD中,進(jìn)行第一階段的計(jì)算,然后再進(jìn)行迭代計(jì)算。北京郵電大學(xué)的范嘉麒[[1]]已經(jīng)成功的建立了此類并行算法模型。針對PageRank算法也可以利用Spark進(jìn)行優(yōu)化,這類算法是谷歌率先研發(fā)出的,通過計(jì)算某一網(wǎng)頁的具體鏈接數(shù),對網(wǎng)頁排序按照鏈接數(shù)從小到大依次排列。

      2.2 優(yōu)化引擎系統(tǒng)的整體設(shè)計(jì)和思路概述

      整個系統(tǒng)的設(shè)計(jì)要考慮到實(shí)用性和高效性,因此必須對用戶友好且使用方便,而且為了提高用戶的使用效率,必須實(shí)現(xiàn)底層透明。所以在設(shè)計(jì)時將整個系統(tǒng)的構(gòu)建成了三個層次:

      (1)數(shù)據(jù)處理引擎是最底層,這個引擎的主體是Spark集群。作為挖掘數(shù)據(jù)的核心層,其主要包含了三個組件:Spark SQL、數(shù)據(jù)挖掘算法和Spark Streaming。這三個組件各有各的功能,分別是:語句查詢功能、數(shù)據(jù)挖局算法、流式數(shù)據(jù)處理。(2)第二層是中間層,這一層主要是用來解決同時有多個用戶請求控制和遠(yuǎn)程調(diào)用。不僅能夠讓用戶在本地直接進(jìn)行數(shù)據(jù)調(diào)用而且可以保證多個用戶同時進(jìn)行數(shù)據(jù)處理。(3)最上面一層是用戶層,這層的設(shè)計(jì)目的就是可以讓用戶直接接入系統(tǒng),包含了Orange插件。

      通過王小燕等人[[2]]的相關(guān)實(shí)驗(yàn),我們也可以看出上文涉及的Spark算法具有明顯速度優(yōu)勢,而且隨著數(shù)據(jù)處理量的不斷增大,時間增長,這種優(yōu)勢會變得越發(fā)明顯。

      參考文獻(xiàn):

      [1] 范嘉麒.基于大數(shù)據(jù)的數(shù)據(jù)挖掘引擎[M].北京:北京郵電大學(xué),2015.

      [2] 王小燕,張麗敏.基于大數(shù)據(jù)的數(shù)據(jù)挖掘引擎研究[J].電子設(shè)計(jì)工程,2017,25

      (15):31-34.

      [3] 楊占華,楊燕.數(shù)據(jù)挖掘在智能搜索引擎中的應(yīng)用[J].微計(jì)算機(jī)信息2006,22(43):244-246.

      [4] 凌志泉.搜索引擎中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)工程與設(shè)計(jì),2003,24(09): 70-72.

      【通聯(lián)編輯:代影】

      尼木县| 龙门县| 万年县| 怀来县| 阿图什市| 进贤县| 鄄城县| 海原县| 闵行区| 万全县| 阿巴嘎旗| 林西县| 海城市| 五河县| 灌云县| 吕梁市| 东丰县| 辽阳市| 山阴县| 邢台县| 伊宁县| 汕尾市| 寻乌县| 抚顺县| 康定县| 冕宁县| 同仁县| 微山县| 青浦区| 博罗县| 景泰县| 阿图什市| 溧水县| 略阳县| 大关县| 鹿邑县| 青岛市| 彭阳县| 普兰店市| 双柏县| 衡南县|