大數(shù)據(jù)分析技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。大數(shù)據(jù)分析的關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用。
數(shù)據(jù)是指通過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù),是大數(shù)據(jù)知識(shí)服務(wù)模型的根本。大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層和基礎(chǔ)支撐層,其中智能感知層主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等,涉及到大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸和接入等技術(shù)?;A(chǔ)支撐層提供大數(shù)據(jù)服務(wù)平臺(tái)所需的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫及物聯(lián)網(wǎng)資源等基礎(chǔ)支撐環(huán)境,涉及的技術(shù)包括分布式虛擬存儲(chǔ)技術(shù),大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護(hù)技術(shù)等。
主要完成對(duì)已接收數(shù)據(jù)的辨析、抽取、清洗等操作。其中數(shù)據(jù)抽取過程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的結(jié)構(gòu),以達(dá)到快速分析處理的目的。數(shù)據(jù)清洗則是將沒有價(jià)值的數(shù)據(jù)進(jìn)行過濾“去噪”,提取出有效的數(shù)據(jù),提高大數(shù)據(jù)分析的準(zhǔn)確性。
使用存儲(chǔ)器把采集到的數(shù)據(jù)存儲(chǔ)起來,建立相應(yīng)的數(shù)據(jù)庫,并進(jìn)行管理和調(diào)用,主要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問題。涉及到的技術(shù)包括異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù),大數(shù)據(jù)組織技術(shù),大數(shù)據(jù)建模技術(shù)、大數(shù)據(jù)索引技術(shù)、大數(shù)據(jù)移動(dòng)、備份、復(fù)制等技術(shù)、大數(shù)據(jù)可視化技術(shù)等。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘涉及的技術(shù)方法很多,可以從不同的角度進(jìn)行分類。根據(jù)挖掘任務(wù)可分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫、時(shí)態(tài)數(shù)據(jù)庫、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫、遺產(chǎn)數(shù)據(jù)庫以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法可分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。綜合起來,涉及到的技術(shù)包括可視化分析、數(shù)據(jù)挖掘算法、預(yù)測(cè)性分析、語義引擎、數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,將海量的信息數(shù)據(jù)在經(jīng)過分布式數(shù)據(jù)挖掘處理后將結(jié)果可視化,需要使用生動(dòng)的圖表來呈現(xiàn)數(shù)據(jù),讓用戶能夠方便、快捷地看懂?dāng)?shù)據(jù),做出正確的決策。為了達(dá)到這一目標(biāo),對(duì)于數(shù)據(jù)可視化應(yīng)用軟件的開發(fā)就迫在眉睫,數(shù)據(jù)可視化軟件的開發(fā)既要保證實(shí)現(xiàn)其功能用途,同時(shí)又要兼顧美學(xué)形式,這樣就對(duì)數(shù)據(jù)可視化軟件提出了更高的要求,企業(yè)需要將積累的各類數(shù)據(jù)整合起來實(shí)時(shí)分析,推動(dòng)自身實(shí)現(xiàn)數(shù)據(jù)智能化管理,增強(qiáng)核心競(jìng)爭(zhēng)力,將數(shù)據(jù)價(jià)值轉(zhuǎn)化為商業(yè)價(jià)值,獲取最大化利益。