• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于大數(shù)據(jù)的分析與挖掘問題研究

      2017-04-05 09:56:22管翔輝
      數(shù)字通信世界 2017年5期
      關(guān)鍵詞:結(jié)構(gòu)化數(shù)據(jù)庫用戶

      管翔輝

      (空軍工程大學(xué),西安 710077)

      基于大數(shù)據(jù)的分析與挖掘問題研究

      管翔輝

      (空軍工程大學(xué),西安 710077)

      由于信息時代互聯(lián)網(wǎng)不斷發(fā)展,數(shù)據(jù)信息量以指數(shù)增長,使得“大數(shù)據(jù)”是繼“物聯(lián)網(wǎng)”和“云計算”之后最流行的科技詞匯。當(dāng)無法用一臺機器簡單處理大量數(shù)據(jù)時,往往需要創(chuàng)新的方法來處理和存儲大數(shù)據(jù)。而大數(shù)據(jù)處理核心是其挖掘和分析過程,因此,本文提供了一個大數(shù)據(jù)的概述,以便我們在生活中利用一些系統(tǒng)的思維來更好地對待和處理大數(shù)據(jù)。

      大數(shù)據(jù);大數(shù)據(jù)分析;大數(shù)據(jù)挖掘

      1 引言

      如今,社會正在迎來一個大規(guī)模產(chǎn)生、分享和應(yīng)用數(shù)據(jù)的時代[1],數(shù)據(jù)正在成為巨大的信息資產(chǎn)。傳統(tǒng)的數(shù)據(jù)分析方法認(rèn)為:數(shù)據(jù)是結(jié)構(gòu)化的形式,可以很容易地在一臺機器上適應(yīng)相關(guān)數(shù)據(jù)庫及分析[2]。隨著時代趨勢的改變,產(chǎn)生數(shù)據(jù)的性質(zhì)和類型也在不斷變化。目前,最常見的數(shù)據(jù)類型是圖像和文本,而這些類型的數(shù)據(jù)很難適應(yīng)相關(guān)數(shù)據(jù)庫,使得無法用傳統(tǒng)的方法來分析。因此,需要一種超過傳統(tǒng)數(shù)據(jù)庫處理能力的數(shù)據(jù)——大數(shù)據(jù)。大數(shù)據(jù)能夠依次處理結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的數(shù)據(jù)[3]。其中,結(jié)構(gòu)化數(shù)據(jù)能夠很輕易地適應(yīng)關(guān)系數(shù)據(jù)庫,也可以使用簡單或復(fù)雜的結(jié)構(gòu)化查詢語言(Structured Query Language,SQL)進(jìn)行處理。半結(jié)構(gòu)化數(shù)據(jù)雖然不適合于數(shù)據(jù)庫,但具有一定的便于分析數(shù)據(jù)的組織特性,例如:可擴(kuò)展標(biāo)記語言(Extensible Markup Language,XML)和非SQL數(shù)據(jù)庫。非結(jié)構(gòu)化數(shù)據(jù)中,如視頻,圖像,文本,演示文稿,音頻文件,網(wǎng)頁等[4],這些不適合進(jìn)入數(shù)據(jù)庫[5]。

      大數(shù)據(jù)不僅涉及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而且數(shù)據(jù)量十分“龐大”。其中的數(shù)據(jù)單位不僅僅局限在兆字節(jié)或百萬兆字節(jié),而是千兆字節(jié)甚至澤字節(jié),并且未來還會逐步增大。大數(shù)據(jù)通過分布在多臺機器上,從而能夠分析許多復(fù)雜的數(shù)據(jù)結(jié)構(gòu)。

      然而,大數(shù)據(jù)發(fā)展的阻礙在于數(shù)據(jù)的流動性和可獲取性。由于數(shù)據(jù)量大,如果沒有行之有效的分析與挖掘方法,則會降低獲取到數(shù)據(jù)的實用性。另一點就是社會中數(shù)據(jù)擁有權(quán)和隱私保護(hù)權(quán)問題,也使得大數(shù)據(jù)的建立平添了許多困難[6]。

      綜上所述,大數(shù)據(jù)是指數(shù)量巨大、類型多樣、不夠精煉、處理迅速的數(shù)據(jù)體系。而對其分析和挖掘,不僅僅是對數(shù)據(jù)簡單地統(tǒng)計,更是從紛亂復(fù)雜的數(shù)據(jù)庫中提煉高價值的數(shù)據(jù)內(nèi)容,獲取深層次的信息要素。

      2 大數(shù)據(jù)目的與特征

      2.1 目的

      使用大數(shù)據(jù)的最終目標(biāo)是根據(jù)數(shù)據(jù)分析得到的結(jié)論,提供一些能夠解決復(fù)雜或是連鎖問題的方案。例如,根據(jù)采集所有用戶購買一種商品的顏色分布,反饋給供應(yīng)商和廠家,便可以在之后的生產(chǎn)中為各個顏色的商品量增加“用戶喜愛顏色”的權(quán)值,使得之后的生產(chǎn)出現(xiàn)更少的產(chǎn)品滯銷和冗余,從而降低成本,增加利潤;網(wǎng)站通過分析用戶點擊,可以向用戶推薦用戶可能感興趣的內(nèi)容,從而增加之后的網(wǎng)站訪問量。因此,大數(shù)據(jù)能夠通過分析數(shù)據(jù),大幅降低成本,并大幅改善在執(zhí)行計算任務(wù)所需的時間。

      2.2 特征分類

      在數(shù)字化時代,社會思維產(chǎn)生了轉(zhuǎn)變,通過大數(shù)據(jù),我們分析事物不再單純依靠少量數(shù)據(jù)樣本,而是需要與事物相關(guān)的所有數(shù)據(jù);其次,由于信息產(chǎn)生途徑急劇增多,我們能夠接受數(shù)據(jù)來源復(fù)雜無序;而且我們能夠關(guān)注對于事物發(fā)生,不僅探求因果關(guān)系,還有相關(guān)關(guān)系。

      通過分析和總結(jié),大數(shù)據(jù)的特征分為全體性、多樣性、相關(guān)性、數(shù)據(jù)性及價值性。

      2.2.1 數(shù)據(jù)全體性

      在信息獲取有限的時代,缺少數(shù)據(jù)分析的工具,因此需要用部分?jǐn)?shù)據(jù)提煉更多的信息,即隨機采樣。然而,現(xiàn)在數(shù)據(jù)獲取、存儲和處理技術(shù)均已十分發(fā)達(dá),因此采集的樣本需要從個別轉(zhuǎn)為總體。由于采樣忽視細(xì)節(jié)上的考察,對突發(fā)的情況難以掌握,為分析數(shù)據(jù)帶來了片面性,所以,盡可能收集更多的數(shù)據(jù),組成大數(shù)據(jù),才能更好的分析事物性質(zhì),讓其為我們所用。

      2.2.2 數(shù)據(jù)多樣性

      當(dāng)收集到的數(shù)據(jù)少時,只有提高其精確性,才能一定程度上保證結(jié)果的正確性。相較于采樣有限中細(xì)微差別放大直至影響整個結(jié)果,在大數(shù)據(jù)中,允許多種及不精確不再是個缺點。由于容錯標(biāo)準(zhǔn)降低,每部分?jǐn)?shù)據(jù)都有其本身的用途,不再是為歸納總結(jié)結(jié)果而使用的樣本。通過這些個別數(shù)據(jù),人們往往可以發(fā)現(xiàn)新的線索。

      2.2.3 數(shù)據(jù)相關(guān)性

      小數(shù)據(jù)時代,分析數(shù)據(jù)能力不強,數(shù)據(jù)間的關(guān)系往往限于單一線性關(guān)系,即有因有果。而大數(shù)據(jù)為我們帶來的數(shù)據(jù)增多使我們發(fā)現(xiàn)在復(fù)雜的分析中往往有許多非線性關(guān)系,而且愈加混亂,因此大數(shù)據(jù)挖掘中也在尋求不同的方法分析這些非因果的數(shù)據(jù)關(guān)系。

      實際中,大數(shù)據(jù)的相關(guān)關(guān)系能夠為我們提供一些因果關(guān)系考慮不到的視角,通過這些獨特開放的視角,我們能夠更全面地解決非線性的事物關(guān)系,得到我們需要的答案,且不惟一。

      2.2.4 數(shù)據(jù)性

      數(shù)據(jù)性是指通過計量和記錄來量化信息,將一切資源,如文字、圖像、聲音等信息數(shù)據(jù)化。在大數(shù)據(jù)中,數(shù)據(jù)化帶來的優(yōu)點是減少了分析數(shù)據(jù)的阻礙,增加了計算機閱讀的效率,世界中的原本不可直接分析的事物因此變成了一系列的數(shù)據(jù)。

      2.2.5 數(shù)據(jù)價值性

      由于信息對于市場的重要性以及信息本身的成本,大數(shù)據(jù)分析擁有巨大的價值。隨著獲取和儲存數(shù)據(jù)成本的降低,使得保存數(shù)據(jù)比丟失數(shù)據(jù)容易得多,因而不斷擴(kuò)充數(shù)據(jù)庫,提高了其價值。

      另外,數(shù)據(jù)不僅僅有其即時分析提煉出的價值,更有深層次的潛在價值。之前,即時用過的數(shù)據(jù)我們認(rèn)為已經(jīng)得到其價值,便會立即刪除,但現(xiàn)在的大數(shù)據(jù)則會一直保留這些數(shù)據(jù),使得在之后某個未知時刻發(fā)揮其剩余的價值。在大數(shù)據(jù)中利用“老”數(shù)據(jù)意為數(shù)據(jù)創(chuàng)新,分為數(shù)據(jù)再利用、數(shù)據(jù)再重組、數(shù)據(jù)擴(kuò)展等。

      3 大數(shù)據(jù)分析與挖掘技術(shù)

      大數(shù)據(jù)分析與挖掘的過程分為采集、預(yù)處理、儲存、實時處理和應(yīng)用等。其中關(guān)鍵技術(shù)在于計算機如何處理大數(shù)據(jù)[7]。

      3.1 數(shù)據(jù)采集

      大數(shù)據(jù)的采集分為基礎(chǔ)支撐和智能感知。其中,基礎(chǔ)支撐是大數(shù)據(jù)平臺所提供的服務(wù)器、數(shù)據(jù)庫和信息源,而智能感知是指針對大數(shù)據(jù)感知、傳輸和識別等技術(shù)。

      3.2 預(yù)處理

      大數(shù)據(jù)能夠?qū)κ褂梅治雠c挖掘技術(shù)前的數(shù)據(jù)集進(jìn)行提前篩選,如數(shù)據(jù)的清除,集成,變換與歸納。雖然大數(shù)據(jù)具有包容性和多樣性,但在具體分析與挖掘某樣事物時,仍需要對數(shù)據(jù)集中包含的雜質(zhì)進(jìn)行清理,從而選擇可用的類型。

      3.3 數(shù)據(jù)存儲

      對于大數(shù)據(jù),在計算機或者云端進(jìn)行存儲時,需要分門別類進(jìn)行存儲與管理,當(dāng)數(shù)據(jù)改變類型時,需要及時挖掘出來,修改存儲地址,尤其是非線性的數(shù)據(jù)關(guān)系。

      3.4 實時處理與應(yīng)用

      實時處理要求大數(shù)據(jù)分析與挖掘方法的快速性,以保證更快地從分析中得到結(jié)果。

      在處理大數(shù)據(jù)的過程中,有許多具體應(yīng)用技術(shù):

      (1)并行計算。它涉及到在多臺機器上同時處理數(shù)據(jù),每個機器有自己的操作系統(tǒng),內(nèi)存,計算的速度和分區(qū)工作的數(shù)據(jù)。每個機器通過消息交換和傳遞使得最后的輸出更有效,大大減少了分析大數(shù)據(jù)的時間。

      (2)分布式文件系統(tǒng)。在網(wǎng)絡(luò)中遠(yuǎn)程客戶端能夠受到適當(dāng)?shù)氖跈?quán),訪問任意數(shù)量在中央服務(wù)器中存儲的文件。分布式系統(tǒng)能夠使用統(tǒng)一的命名習(xí)慣以及映射方案來跟蹤文件所在的位置。當(dāng)客戶端從服務(wù)器檢索文件時,該文件作為客戶機上的正常文件,用戶能夠以同樣的方式使用,與本地存儲文件的方法一樣。當(dāng)用戶對該文件檢索完成時,它會通過網(wǎng)絡(luò)返回到服務(wù)器,并存儲當(dāng)前修改過的文件以便以后進(jìn)行檢索。

      (3)Apache分布式計算。它是指一個開放式軟件程序,能夠使中央服務(wù)器通過分布式計算來處理大數(shù)據(jù)集群。它可以從一臺服務(wù)器擴(kuò)展到數(shù)千臺,并具有非常高的容錯能力。這種計算在并不依賴高端硬件的條件下,仍然能夠檢測和處理應(yīng)用層的故障。

      (4)數(shù)據(jù)密集型計算。它是一種使用數(shù)據(jù)并行方法來處理大數(shù)據(jù)的并行計算應(yīng)用程序。基于數(shù)據(jù)搭配和用于執(zhí)行計算的程序或算法原則,數(shù)據(jù)密集型計算通過并行和分布式系統(tǒng)互連的單一集成計算資源計算機來分析大數(shù)據(jù)。

      4 基于MapReduce的大數(shù)據(jù)分析處理

      在大數(shù)據(jù)分析與挖掘的具體應(yīng)用中,MapReduce是一種用于處理大數(shù)據(jù)集的集群分布式并行程序模型[8],通常分為兩個步驟:

      (1)Map:映射器執(zhí)行過濾和分類。

      (2)Reduce:減速器執(zhí)行之前分析出的結(jié)果,并且允許有多個減速器并行集成。

      比如,在網(wǎng)絡(luò)客戶端使用MapReduce模型可以根據(jù)用戶的需要自我調(diào)整。其中,映射器作為文件及對數(shù)據(jù)接收過濾的輸入界面,可以保存其結(jié)果;而減速器作為映射器的輸出,能夠統(tǒng)計每個IP地址和頁面的數(shù)量。這個輸出能夠顯示每個用戶使用最頻繁的頁面,從而推薦用戶可能感興趣的廣告。

      5 結(jié)束語

      對比傳統(tǒng)處理數(shù)據(jù)的方式,本文主要概述了大數(shù)據(jù)分析與挖掘及一些具體應(yīng)用。通過大數(shù)據(jù)目的、分類與分析挖掘的技術(shù),覆蓋大數(shù)據(jù)的主要方面,說明了現(xiàn)代應(yīng)用大數(shù)據(jù)的合理性和必然性,并且闡述了大數(shù)據(jù)可以利用一些并行運算應(yīng)用于網(wǎng)絡(luò)客戶端,甚至延伸到廣告領(lǐng)域。但同時,大數(shù)據(jù)分析中的許多技術(shù)還未成熟,還需要我們進(jìn)一步的去研究。

      [1] S Sagiroglu,D Sinanc. Big data: A review[C], International Conference on Collaboration Technologies & Systems,2013:42-47.

      [2] M News. Making Sense of Big Data[J], Proceedings of the National Academy of Sciences of the United States of America,2013,110(45) :18031-2.

      [3] 韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué)博士學(xué)位論文,2013

      [4] 程學(xué)旗,靳小龍,王元卓等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報,2014,25(09):1889-1908

      [5] 任磊,杜一,馬帥等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014,25(09):1909-1936

      [6] R Gupta,S Gupta,A Singhal. Big Data: Overview[J], International Journal of Computer Trends & Technology,2014,9(5).

      [7] 陳良辰.大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)研究[J].?dāng)?shù)字技術(shù)與應(yīng)用,2015(11):93-93

      [8] J Dean,S Ghemawat. MapReduce: Simplified Data Processing on Large Clusters[C], Conference on Symposium on Opearting Systems Design & Implementation, 2004, 51(1):137-150.

      Research on the Analysis and Mining of Big Data

      Guan Xianghui
      (Air Force Engineering University, Xi’an, 710077)

      Due to the continuous development of the Internet in the information age, the amount of data to increase the index, making big data is the Internet of things and cloud computing, the most popular scientific and technical vocabulary. When a machine is not able to handle large amounts of data, it is often necessary to create new methods to process and store large data. The core of large data processing is the process of mining and analysis, so this paper provides an overview of large data, so that we use some of the system's thinking in life to better deal with and deal with big data.

      Big Data; Big data analysis; Big data mining

      10.3969/J.ISSN.1672-7274.2017.05.009

      TP391

      A文章編碼:1672-7274(2017)05-0028-03

      管翔輝,男,1991年生,西安人,空軍工程大學(xué)在職碩士,研究方向為計算機技術(shù)與應(yīng)用。

      猜你喜歡
      結(jié)構(gòu)化數(shù)據(jù)庫用戶
      促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      計算機教育(2020年5期)2020-07-24 08:53:00
      數(shù)據(jù)庫
      財經(jīng)(2017年2期)2017-03-10 14:35:35
      關(guān)注用戶
      商用汽車(2016年11期)2016-12-19 01:20:16
      關(guān)注用戶
      商用汽車(2016年6期)2016-06-29 09:18:54
      數(shù)據(jù)庫
      財經(jīng)(2016年15期)2016-06-03 07:38:02
      關(guān)注用戶
      商用汽車(2016年4期)2016-05-09 01:23:12
      數(shù)據(jù)庫
      財經(jīng)(2016年3期)2016-03-07 07:44:46
      數(shù)據(jù)庫
      財經(jīng)(2016年6期)2016-02-24 07:41:51
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      长沙市| 阿拉善右旗| 景洪市| 天祝| 黄大仙区| 安福县| 岚皋县| 班戈县| 南皮县| 陇川县| 怀来县| 涡阳县| 从化市| 鄂伦春自治旗| 鄱阳县| 定安县| 榆林市| 大港区| 盐山县| 施甸县| 定结县| 吉木萨尔县| 睢宁县| 龙井市| 滨州市| 宜章县| 湘乡市| 浠水县| 阳西县| 长岛县| 绩溪县| 栾城县| 陇西县| 黔西县| 封开县| 临安市| 昌黎县| 泸州市| 灌南县| 兰州市| 金乡县|