張 蕊,趙蓮蓮
(山東華宇工學(xué)院,山東 德州 253034)
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使人們的工作、生活、學(xué)習(xí)方式發(fā)生了很大變化,基于網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)信息呈現(xiàn)出快速增長(zhǎng)的趨勢(shì)?;ヂ?lián)網(wǎng)產(chǎn)生的數(shù)據(jù)信息龐大,繁雜,內(nèi)容豐富,在很多領(lǐng)域有著較高的應(yīng)用價(jià)值。數(shù)據(jù)處理是對(duì)數(shù)據(jù)進(jìn)行收集、分析、存儲(chǔ)、傳輸?shù)倪^(guò)程,將有價(jià)值的信息篩選出來(lái),發(fā)揮其價(jià)值。傳統(tǒng)的數(shù)據(jù)處理方式精度不高,處理速度慢,不適應(yīng)當(dāng)前大數(shù)據(jù)分析的要求。大數(shù)據(jù)分析技術(shù)及云計(jì)算網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)分析中的應(yīng)用,可以大大提高數(shù)據(jù)分析速度和準(zhǔn)確度。
基于互聯(lián)網(wǎng)絡(luò)產(chǎn)生的海量數(shù)據(jù)信息蘊(yùn)藏著巨大的價(jià)值,通過(guò)對(duì)數(shù)據(jù)信息的處理分析,可以將有價(jià)值的信息挖掘出來(lái)。數(shù)據(jù)信息種類(lèi)多,結(jié)構(gòu)復(fù)雜,價(jià)值密度低,有可能部分?jǐn)?shù)據(jù)的價(jià)值不是很大,要想在龐雜的數(shù)據(jù)信息中挖掘有價(jià)值的信息,只有通過(guò)加工整理,進(jìn)行深度研究,才能使數(shù)據(jù)成為內(nèi)容豐富、形式多樣、具有價(jià)值的重要信息。從這個(gè)角度來(lái)看,數(shù)據(jù)處理是對(duì)原始數(shù)據(jù)的重新整合利用,只有通過(guò)數(shù)據(jù)處理才能將數(shù)據(jù)的價(jià)值發(fā)揮出來(lái),使數(shù)據(jù)信息具有利用價(jià)值。
數(shù)據(jù)分析為現(xiàn)代化的科學(xué)管理提供了重要的幫助??茖W(xué)管理不僅要了解表面問(wèn)題,更重要的是要更好地認(rèn)識(shí)事物的本質(zhì),梳理好事物之間的關(guān)系,查找問(wèn)題所在,提出針對(duì)性的解決對(duì)策。要想實(shí)現(xiàn)這一目標(biāo),要借助數(shù)據(jù)分析,透過(guò)事物表面分析其本質(zhì),將事物之間隱藏的規(guī)律挖掘出來(lái),為科學(xué)決策提供參考依據(jù)。
基于互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)信息非常龐大,以幾何倍數(shù)增長(zhǎng),且數(shù)據(jù)信息之間排列雜亂無(wú)章,數(shù)據(jù)價(jià)值密度低,在部分?jǐn)?shù)據(jù)信息中,可能只有一小部分?jǐn)?shù)據(jù)信息有價(jià)值,需要將所有的數(shù)據(jù)信息整合到一起才能將其蘊(yùn)藏的價(jià)值挖掘出來(lái)。這就要求高精度的數(shù)據(jù)處理分析,處理速度要快,才能滿(mǎn)足社會(huì)發(fā)展的需要。
傳統(tǒng)的數(shù)據(jù)處理技術(shù)存在著不足,主要是安全穩(wěn)定性不足,無(wú)法對(duì)非結(jié)構(gòu)數(shù)據(jù)進(jìn)行有效處理。安全性一直是數(shù)據(jù)處理分析中的難題,海量的數(shù)據(jù)信息涉及個(gè)人隱私、企業(yè)機(jī)密,如果安全工作做不好,將導(dǎo)致數(shù)據(jù)信息泄露,可能引發(fā)嚴(yán)重的后果。如果將數(shù)據(jù)處理工作交由大數(shù)據(jù)分析公司來(lái)處理,將耗費(fèi)大量的資金和時(shí)間,在一定程度上增加企業(yè)的運(yùn)營(yíng)成本。數(shù)據(jù)分為結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù),結(jié)構(gòu)數(shù)據(jù)是可以利用統(tǒng)一的結(jié)構(gòu)來(lái)表示的數(shù)據(jù),如數(shù)字、符號(hào)等;非結(jié)構(gòu)數(shù)據(jù)沒(méi)有統(tǒng)一的結(jié)構(gòu),如圖像、音頻、網(wǎng)頁(yè)等?;诨ヂ?lián)網(wǎng)產(chǎn)生的大量數(shù)據(jù)大多是非結(jié)構(gòu)的數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)處理技術(shù)主要是對(duì)結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,而無(wú)法對(duì)非結(jié)構(gòu)數(shù)據(jù)進(jìn)行處理,多數(shù)數(shù)據(jù)無(wú)法通過(guò)傳統(tǒng)數(shù)據(jù)技術(shù)進(jìn)行處理,而對(duì)小部分?jǐn)?shù)據(jù)進(jìn)行傳統(tǒng)技術(shù)處理得到的分析結(jié)果往往不全面,不能很好地把握事物的發(fā)展規(guī)律,無(wú)法進(jìn)行科學(xué)性的預(yù)測(cè),不能為決策管理提供參考。
大數(shù)據(jù)處理流程可以分為數(shù)據(jù)采集、處理、分析、顯示幾個(gè)部分。在數(shù)據(jù)采集階段,由于數(shù)據(jù)來(lái)源廣泛,數(shù)據(jù)信息龐雜,對(duì)于數(shù)據(jù)的采集常用系統(tǒng)日志采集、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)庫(kù)采集等方法,可以在短時(shí)間內(nèi)對(duì)海量數(shù)據(jù)信息完成采集工作,更好地為數(shù)據(jù)處理奠定基礎(chǔ)。在數(shù)據(jù)處理階段,要對(duì)收集到的原始數(shù)據(jù)進(jìn)行預(yù)處理,讓數(shù)據(jù)結(jié)構(gòu)統(tǒng)一起來(lái),便于后續(xù)分析。根據(jù)實(shí)際需要,將無(wú)效的數(shù)據(jù)信息篩選掉,將保留的數(shù)據(jù)信息進(jìn)行統(tǒng)一的格式轉(zhuǎn)化,在數(shù)據(jù)處理階段主要應(yīng)用去噪、格式化等方式。在數(shù)據(jù)分析階段,要對(duì)預(yù)處理后的數(shù)據(jù)信息進(jìn)行深度挖掘和分析。這個(gè)過(guò)程需要根據(jù)用戶(hù)的需求,結(jié)合數(shù)據(jù)的不同價(jià)值,在數(shù)據(jù)挖掘工具的應(yīng)用下,對(duì)數(shù)據(jù)信息進(jìn)行分析。實(shí)際應(yīng)用中,多數(shù)的數(shù)據(jù)分析商有專(zhuān)業(yè)的服務(wù)軟件,借助分析軟件可以更好地對(duì)數(shù)據(jù)進(jìn)行分析,提高分析效率和精度。數(shù)據(jù)的顯示主要應(yīng)用可視化技術(shù),因?yàn)楹A康臄?shù)據(jù)在進(jìn)行分析后,分析結(jié)果利用傳統(tǒng)的模式無(wú)法展示出來(lái),利用數(shù)據(jù)可視化技術(shù)可以讓數(shù)據(jù)分析結(jié)果更加直觀地展現(xiàn)出來(lái),為用戶(hù)提供便利。
大數(shù)據(jù)分析的主要優(yōu)勢(shì)是:其一,數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘算法是數(shù)據(jù)分析的核心,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,有很多的數(shù)據(jù)算法被應(yīng)用于數(shù)據(jù)分析中,以分析不同類(lèi)型及不同格式的數(shù)據(jù)信息。常用的數(shù)據(jù)挖掘算法主要有決策樹(shù)算法、樸素貝葉斯算法、支持向量機(jī)算法等,這些算法都有各自的優(yōu)勢(shì)及不足,在實(shí)際運(yùn)用中,要科學(xué)選擇一種或幾種算法來(lái)完成數(shù)據(jù)挖掘工作。利用數(shù)據(jù)挖掘算法可以很好地將數(shù)據(jù)特點(diǎn)表現(xiàn)出來(lái),將數(shù)據(jù)價(jià)值挖掘出來(lái)。其二,預(yù)測(cè)性分析。大數(shù)據(jù)是基于互聯(lián)網(wǎng)發(fā)展起來(lái)的,大數(shù)據(jù)分析可以借助模型來(lái)對(duì)某些事物未來(lái)發(fā)展趨勢(shì)進(jìn)行科學(xué)預(yù)測(cè)。如生產(chǎn)企業(yè)可以借助產(chǎn)品的銷(xiāo)售信息來(lái)預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)產(chǎn)品的需求情況,為企業(yè)生產(chǎn)提供參考。其三,可視化分析。這是大數(shù)據(jù)分析中的一個(gè)重要功能,利用可視化分析技術(shù)可以使數(shù)據(jù)結(jié)構(gòu)及特點(diǎn)展現(xiàn)得更加直觀。
數(shù)據(jù)傳輸安全。在數(shù)據(jù)分析中應(yīng)用云計(jì)算網(wǎng)絡(luò)技術(shù),可有效保證數(shù)據(jù)安全。在實(shí)際應(yīng)用中,用戶(hù)端的數(shù)據(jù)越多,越容易遭受安全威脅,當(dāng)病毒攻擊計(jì)算機(jī)系統(tǒng)時(shí),云計(jì)算技術(shù)可以實(shí)現(xiàn)對(duì)病毒的攔截,確保計(jì)算機(jī)數(shù)據(jù)安全。通常利用云計(jì)算技術(shù)監(jiān)控?cái)?shù)據(jù)傳輸路徑,假如有病毒或黑客攻擊,就會(huì)預(yù)警,確保傳輸通道安全。
數(shù)據(jù)使用安全。為了更好地提升計(jì)算機(jī)用戶(hù)數(shù)據(jù)信息及系統(tǒng)安全,要加強(qiáng)對(duì)用戶(hù)身份的認(rèn)證,利用實(shí)名制方式來(lái)認(rèn)證用戶(hù)身份。這樣一旦出現(xiàn)網(wǎng)絡(luò)安全問(wèn)題,可以有效鎖定可疑目標(biāo),減少惡意攻擊。用戶(hù)在登錄計(jì)算機(jī)時(shí),可進(jìn)行用戶(hù)名及密碼的核實(shí),防止不法分子竊取數(shù)據(jù)信息。
云計(jì)算是傳統(tǒng)計(jì)算機(jī)與網(wǎng)絡(luò)技術(shù)融合的產(chǎn)物,在大數(shù)據(jù)分析中具有以下優(yōu)勢(shì):其一,降低運(yùn)算成本。相比于傳統(tǒng)的計(jì)算機(jī)運(yùn)算方式,云計(jì)算不需要硬盤(pán),完全可以在云端進(jìn)行運(yùn)算,節(jié)省了大量的硬盤(pán)空間,降低了運(yùn)行成本。其二,提升運(yùn)行效率。云計(jì)算涉及的程序及進(jìn)程少,確保了計(jì)算機(jī)的穩(wěn)定安全運(yùn)行,可以使計(jì)算機(jī)性能大大提升,提高了計(jì)算機(jī)的運(yùn)行效率。其三,數(shù)據(jù)存儲(chǔ)更加安全。傳統(tǒng)的硬盤(pán)存儲(chǔ)空間有限,硬盤(pán)損壞會(huì)導(dǎo)致數(shù)據(jù)丟失。云端計(jì)算機(jī)的存儲(chǔ)空間幾乎是無(wú)限的,數(shù)據(jù)在云端的存儲(chǔ)相當(dāng)于進(jìn)行了備份,保證了數(shù)據(jù)信息的安全。
計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展,新媒體的應(yīng)用,使人們的生活、工作方式發(fā)生了很大變化,由此產(chǎn)生了大量的數(shù)據(jù)信息。大數(shù)據(jù)分析技術(shù)及云計(jì)算網(wǎng)絡(luò)技術(shù)為數(shù)據(jù)分析提供了重要的技術(shù)支持。應(yīng)根據(jù)具體情況選擇合適的數(shù)據(jù)處理方式,充分發(fā)揮數(shù)據(jù)分析和云計(jì)算網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì)。