魏云
摘 要:現(xiàn)階段,隨著互聯(lián)網(wǎng)的普及和信息技術(shù)的快速發(fā)展,數(shù)據(jù)的種類和數(shù)量以前所未有的速度快速增長著,我們所處的時代已是數(shù)據(jù)日益滲透的時代,“大數(shù)據(jù)”已經(jīng)來臨?,F(xiàn)如今,各行各業(yè)都在使用大數(shù)據(jù),人們的生產(chǎn)生活已無法離開大數(shù)據(jù),無論是從事大數(shù)據(jù)的專業(yè)者還是普通用戶都有著一個共同的感觸:大數(shù)據(jù)很有用!但是,大數(shù)據(jù)的價值并在數(shù)據(jù)本身,而是數(shù)據(jù)處理和分析,因為沒有經(jīng)過處理和分析的數(shù)據(jù),其價值是難以體現(xiàn)的。伴隨互聯(lián)網(wǎng)消費的蓬勃發(fā)展,我們每一位網(wǎng)絡(luò)消費者都曾有過被精準(zhǔn)推送廣告信息的經(jīng)歷,眾多的互聯(lián)網(wǎng)平臺如阿里、京東、亞馬遜等也因接觸規(guī)模巨大的網(wǎng)絡(luò)消費群體而獲得大量數(shù)據(jù),但是若不對這些數(shù)據(jù)進(jìn)行處理、分析和挖掘就很難從大數(shù)據(jù)中辨別隱藏在其中的能對決策提供支撐的信息,當(dāng)然也就沒法產(chǎn)生價值。對數(shù)據(jù)進(jìn)行有效處理和分析就是廣告被精準(zhǔn)推送的原因之一,那么如何處理、分析、挖掘出有用的大數(shù)據(jù)?如何更好地管理和利用大數(shù)據(jù)已是人們普遍關(guān)注的話題。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)處理 分析應(yīng)用研究
引言
在云計算、物聯(lián)網(wǎng)技術(shù)不斷發(fā)展下,逐漸形成了大數(shù)據(jù),作為一項革命性技術(shù),大數(shù)據(jù)當(dāng)中蘊含大量不同的信息。在21世紀(jì)以來,大數(shù)據(jù)時代顛覆了傳統(tǒng)信息數(shù)據(jù)的應(yīng)用方式,當(dāng)今社會數(shù)據(jù)挖掘無時無刻不在改變著人們的生活,結(jié)合信息整合額技術(shù),更能夠?qū)崿F(xiàn)多元化、豐富化信息內(nèi)容,這也成為了當(dāng)今人們重點研究的課題。其不僅可以出了龐大的信息群體,還可以呈現(xiàn)出多個種類信息邏輯功能,消除信息源之間的相互影響、空間局限。由此可見,加強數(shù)據(jù)挖掘的信息整合技術(shù)研究有著重要意義。
一、大數(shù)據(jù)分析的前期準(zhǔn)備
數(shù)據(jù)變得越來越常見,數(shù)據(jù)分析的價值也越來越凸顯。但是,大數(shù)據(jù)分析前是需要做好一定準(zhǔn)備工作的,這個工作其實就是在預(yù)處理階段要做的工作,即數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)轉(zhuǎn)換。因為初始獲得的數(shù)據(jù)多含噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)或冗余數(shù)據(jù),通過數(shù)據(jù)清理對數(shù)據(jù)進(jìn)行噪聲識別,對錯誤、缺失或冗余數(shù)據(jù)進(jìn)行過濾與修正,進(jìn)而提高數(shù)據(jù)的一致性、準(zhǔn)確性與可用性;通過數(shù)據(jù)集成將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來存放到一個一致的數(shù)據(jù)存儲中,進(jìn)而提高數(shù)據(jù)的完整性域安全性;通過數(shù)據(jù)歸約將去噪后的數(shù)據(jù)根據(jù)相關(guān)要求對數(shù)據(jù)屬性進(jìn)行處理,在保證數(shù)據(jù)完整性的基礎(chǔ)上,獲得比原始數(shù)據(jù)小且合乎要求的數(shù)據(jù);最后再用線性或非線性的數(shù)學(xué)變換方法將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù),即通過數(shù)據(jù)轉(zhuǎn)換實現(xiàn)數(shù)據(jù)統(tǒng)一。
二、應(yīng)用措施分析
2.1數(shù)據(jù)存儲技術(shù)
數(shù)據(jù)的存儲就是指將網(wǎng)上新增的數(shù)據(jù)通過技術(shù)手段儲存起來,當(dāng)用戶需要時再將數(shù)據(jù)調(diào)取出來使用。如今網(wǎng)上每天就會新增上萬億GB的數(shù)據(jù),數(shù)據(jù)存儲的工作量也大大增加,現(xiàn)在云存儲,云盤技術(shù)的發(fā)展有效解決了這一問題,每個用戶都可以將自己有用但占內(nèi)存的數(shù)據(jù)存到云盤上,對于整個網(wǎng)絡(luò)來說,云存儲技術(shù)和云計算技術(shù)的出現(xiàn)及時解決了日益激增的網(wǎng)絡(luò)數(shù)據(jù)。
2.2數(shù)據(jù)挖掘與數(shù)據(jù)倉庫
信息整合技術(shù)作為數(shù)據(jù)挖掘技術(shù)的衍生品,是基于數(shù)據(jù)挖掘的基礎(chǔ)上,實現(xiàn)信息整合。在信息挖掘或整合過程中,必須要從信息整合的數(shù)據(jù)倉庫中獲取數(shù)據(jù)挖掘庫或數(shù)據(jù)集市。從數(shù)據(jù)倉庫當(dāng)中直接獲取挖掘信息有諸多助益。數(shù)據(jù)倉庫下的數(shù)據(jù)清理和數(shù)據(jù)挖掘數(shù)據(jù)清理差不多,如果數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫中已經(jīng)清理完畢,則在數(shù)據(jù)挖掘、整合時就沒有必要再清理一次,并且可以解決數(shù)據(jù)不一致等問題。信息整合的數(shù)據(jù)倉庫中,數(shù)據(jù)挖掘庫只是一個子集,并非是物理層面上的單獨數(shù)據(jù)庫。如果數(shù)據(jù)倉庫數(shù)據(jù)信息非常緊張你,則可以再建立一個數(shù)據(jù)挖掘庫。當(dāng)然,數(shù)據(jù)挖掘并非要構(gòu)建一個數(shù)據(jù)倉庫,并非是必須環(huán)節(jié)。信息整合技術(shù)可以構(gòu)建一個巨大的數(shù)據(jù)倉庫,可以將那不同資源整合到一起,解決數(shù)據(jù)間的沖突問題,將那所有數(shù)據(jù)導(dǎo)入到數(shù)據(jù)倉庫內(nèi)是一項非常大工程。所以,只是為了挖掘數(shù)據(jù),可以將幾個事務(wù)數(shù)據(jù)庫導(dǎo)入只讀數(shù)據(jù)庫當(dāng)中,將其作為一個數(shù)據(jù)集市,并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘。
2.3分布集群數(shù)據(jù)庫在大數(shù)據(jù)中的應(yīng)用
目前,許多數(shù)據(jù)增長率很高的大型數(shù)據(jù)庫系統(tǒng)正被用于改善全球人類活動,如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫已成為提高數(shù)據(jù)訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數(shù)據(jù)訪問,分布集群數(shù)據(jù)庫的問題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時間的最佳方法之一。基于規(guī)則的聚類是提供數(shù)據(jù)庫自動聚類和數(shù)據(jù)存儲模式解釋的解決方案之一,基于規(guī)則的集群通過分析屬性和記錄上的數(shù)據(jù)庫結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個集群,每個規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點的可重用性,而節(jié)點本身就是圖形結(jié)構(gòu)的功能。為了實現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫可以通過分析記錄來處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫的圖形結(jié)構(gòu)由三種節(jié)點組成:起始節(jié)點、判斷節(jié)點和處理節(jié)點。開始節(jié)點表示節(jié)點轉(zhuǎn)換的開始位置;判斷節(jié)點表示要在數(shù)據(jù)庫中檢查的屬性。分布集群數(shù)據(jù)庫規(guī)則提取的節(jié)點準(zhǔn)備包括兩個階段:節(jié)點定義和節(jié)點排列。節(jié)點定義的目的是準(zhǔn)備創(chuàng)建規(guī)則,節(jié)點排列是選擇重要的節(jié)點,以便高效地提取大量規(guī)則。節(jié)點排列由以下兩個順序過程執(zhí)行,第一個過程是查找模板規(guī)則,第二個過程是結(jié)合第一個過程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過程中,分布集群數(shù)據(jù)庫規(guī)則提取中只使用了少數(shù)幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點排列方法具有更好的聚類結(jié)果,這兩個過程中的規(guī)則生成都是通過圖結(jié)構(gòu)的演化來實現(xiàn)。
2.4大規(guī)模并行處理技術(shù)的應(yīng)用
大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計算中,應(yīng)該結(jié)合編程技術(shù),標(biāo)準(zhǔn)語言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個良好的優(yōu)化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務(wù),可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計算中,當(dāng)兩個計算操作在不同的操作單元上執(zhí)行時,才能在一個dsp核心的vliw命令中并行執(zhí)行兩個計算操作。根據(jù)運算執(zhí)行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執(zhí)行兩個操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標(biāo)記“1”表示第一種類型的標(biāo)識,標(biāo)記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數(shù)據(jù)依賴關(guān)系,則可以進(jìn)行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數(shù)據(jù)計算和分析中,如果有足夠多的通用寄存器來執(zhí)行這兩個操作,并且它們可以并行執(zhí)行,代碼就會并行化,提升數(shù)據(jù)計算的效率。
結(jié)語
為了更好地服務(wù)于社會、服務(wù)于人民,我們有許多的思維需要轉(zhuǎn)變,有許多的知識需要學(xué)習(xí),有許多的技術(shù)需要研究。要不斷變革和創(chuàng)新數(shù)據(jù)處理技術(shù),不斷完善數(shù)據(jù)的分析方法等。
參考文獻(xiàn)
[1] 王春駒.“大數(shù)據(jù)”時代的計算機信息處理技術(shù)研究[J].通訊世界,2016(6):92-94.