張書月
(廣州工商學(xué)院電子信息工程系,廣東廣州,510850)
大數(shù)據(jù),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。關(guān)于大數(shù)據(jù),麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征[1]。了解大數(shù)據(jù)的具體定義,認(rèn)識大數(shù)據(jù)的價值,在當(dāng)前的社會背景下有重要的意義。
圖1 計算機(jī)信息處理技術(shù)的基本操作原理結(jié)構(gòu)
計算機(jī)信息處理技術(shù)具體指的是利用計算機(jī)對信息做處理的技術(shù)。對此種技術(shù)做具體的分類發(fā)現(xiàn)其主要有三類:其一是信息系統(tǒng)技術(shù)。信息系統(tǒng)技術(shù)是以計算機(jī)為中心,以數(shù)據(jù)庫和通信網(wǎng)絡(luò)技術(shù)為依托實現(xiàn)對信息處理的技術(shù)。其二是數(shù)據(jù)庫技術(shù),將信息進(jìn)行整序是數(shù)據(jù)庫技術(shù)的核心內(nèi)容,它能將相關(guān)的信息集合,實現(xiàn)信息的有序存儲和有效利用。其三是檢索技術(shù),檢索技術(shù)的利用使得信息數(shù)據(jù)的查詢與利用更加的便捷。具體來講,計算機(jī)信息處理技術(shù)的利用極大的便捷了信息的處理,實現(xiàn)了信息數(shù)據(jù)利用的價值提升。
大數(shù)據(jù)在當(dāng)前的時代背景下具有重要的利用價值,具體研究大數(shù)據(jù)有三方面的重要意義:首先,大數(shù)據(jù)是一個國家的信息戰(zhàn)略資源,其研究的深度對于國家信息安全的競爭力提升而言具有重要的幫助。其次,大數(shù)據(jù)的研究可以加速大數(shù)據(jù)的利用,而在大數(shù)據(jù)的利用背景下,產(chǎn)業(yè)發(fā)展的分析會更加的準(zhǔn)確,這對于我國的產(chǎn)業(yè)升級和經(jīng)濟(jì)發(fā)展結(jié)構(gòu)調(diào)整來講有重要的意義。也就是說大數(shù)據(jù)的分析研究可以推進(jìn)我國產(chǎn)業(yè)進(jìn)步。最后是大數(shù)據(jù)引發(fā)了科學(xué)思維革命,所以研究大數(shù)據(jù)可以更好的實現(xiàn)科學(xué)研究。
大數(shù)據(jù)研究在當(dāng)前的社會既有挑戰(zhàn)也有機(jī)遇,從目前的分析來看,機(jī)遇主要表現(xiàn)在三個方面:其一是數(shù)據(jù)的發(fā)掘和應(yīng)用能夠產(chǎn)生更為顯著的產(chǎn)業(yè)價值;其二是大數(shù)據(jù)時代帶來了信息安全、云計算以及物聯(lián)網(wǎng)的新形勢;其三是大數(shù)據(jù)對信息安全的要求帶來了信息安全的進(jìn)一步發(fā)展[2]。有機(jī)遇自然也有挑戰(zhàn),具體的挑戰(zhàn)體現(xiàn)在兩方面:首先是大數(shù)據(jù)時代對數(shù)據(jù)挖掘的要求有了明顯的提升。其次是大數(shù)據(jù)時代下的信息安全要求更高。
計算機(jī)處理技術(shù)在社會不斷進(jìn)步的基礎(chǔ)上其內(nèi)容在不斷的豐富。就大數(shù)據(jù)時代的計算即處理技術(shù)分析來看,其包含的內(nèi)容更加的復(fù)雜,以下是技術(shù)的具體分析。
首先,大數(shù)據(jù)時代下的計算機(jī)處理技術(shù),比較重要的一項內(nèi)容是DEEP WEB數(shù)據(jù)感知與獲取技術(shù)。所謂的DEEP WEB技術(shù)實際上就是網(wǎng)絡(luò)深層空間技術(shù),此技術(shù)的數(shù)據(jù)量信息規(guī)模比較大,信息的動態(tài)變化、分布性和訪問方式都比較的特殊。具體分析DEEP WEB技術(shù)的利用,其主要是對數(shù)據(jù)做充分的利用,然后將其進(jìn)行高質(zhì)量的集成,由此達(dá)到數(shù)據(jù)的抽取和整合。從具體的利用分析來看,DEEP WEB技術(shù)的使用可以將有用信息數(shù)據(jù)從大量的數(shù)據(jù)中進(jìn)行抽取,實現(xiàn)對其的利用,所以此種技術(shù)的使用對于數(shù)據(jù)的準(zhǔn)確利用具有重要的幫助。
其次,分布式數(shù)據(jù)存儲是大數(shù)據(jù)時代下計算機(jī)處理技術(shù)的重要利用。從目前的分布式數(shù)據(jù)存儲技術(shù)利用分析來看,其現(xiàn)實價值的發(fā)揮基于谷歌公司的GPS技術(shù),此技術(shù)在IBM以及百度等企業(yè)中進(jìn)行著大量的應(yīng)用并獲得了迅速的發(fā)展。具體分析分布式存儲,其主要利用的是列存儲的概念,而所謂的列存儲,具體指以列為單位的存儲形式,和行存儲進(jìn)行比較,這種存儲方式在數(shù)據(jù)壓縮方面的優(yōu)勢顯著,循環(huán)更加的迅速。觀察該技術(shù)在實踐中的應(yīng)用效果,發(fā)現(xiàn)其在海量數(shù)據(jù)的加載和磁盤空間的高效利用方面表現(xiàn)出了明顯優(yōu)勢。
其三,大數(shù)據(jù)時代下的計算機(jī)處理技術(shù)中,數(shù)據(jù)高效索引也是重要的一項。就當(dāng)前的主流索引技術(shù)分析來看是谷歌公司提出的BIGTABLE技術(shù)。分析當(dāng)前的索引技術(shù),集中的焦點主要有兩個:其一是聚簇索引,此種索引方式可以同時按照索引的順序?qū)θ康臄?shù)據(jù)結(jié)構(gòu)進(jìn)行存儲。其二是互補(bǔ)式聚簇索引。此種索引方式主要是利用副本為索引列進(jìn)行互為補(bǔ)充的索引表創(chuàng)建。在此種索引方式的具體利用中,其還會與查詢結(jié)果估算進(jìn)行結(jié)合,從而實現(xiàn)最優(yōu)的數(shù)據(jù)查詢計劃。
計算機(jī)處理技術(shù)在大數(shù)據(jù)時代的第四種重要利用是基于內(nèi)容信息的數(shù)據(jù)挖掘。所謂的基于內(nèi)容信息的數(shù)據(jù)挖掘,具體指的是網(wǎng)絡(luò)搜索技術(shù)和實體關(guān)聯(lián)的分析。研究當(dāng)今的互聯(lián)網(wǎng)現(xiàn)狀發(fā)現(xiàn)排序?qū)W習(xí)算法是互聯(lián)網(wǎng)信息搜索的熱點,而此種算法的具體提出主要針對的是大規(guī)模的社會媒體信息量具有短文本的特征?;诖颂卣鳎门判?qū)W習(xí)算法可以很好的處理和分析數(shù)據(jù)信息。而對排序?qū)W習(xí)算法做具體討論,其主要包含了逐點、逐對和逐列三項內(nèi)容。
遺傳算法和神經(jīng)網(wǎng)絡(luò)也是大數(shù)據(jù)時代下計算機(jī)處理技術(shù)的重要技術(shù)內(nèi)容。從具體的分析來看,遺傳算法的提出主要借鑒的內(nèi)容是生物界的進(jìn)化規(guī)律演化的隨機(jī)化搜索方法,而要利用遺傳辦法進(jìn)行尋優(yōu),需要采用概率化方法,因為其能夠?qū)λ阉鞯姆较蜃鲎詣诱{(diào)整。目前,遺傳算法已經(jīng)得到了普遍性的應(yīng)用,具體表現(xiàn)在機(jī)器的學(xué)習(xí)、信號的處理等方面。模擬神經(jīng)算法,其主要是在模擬動物運(yùn)行神經(jīng)的基礎(chǔ)上形成的網(wǎng)絡(luò)行為,是一種可以利用分布式并行信息處理的數(shù)學(xué)算法。
在大數(shù)據(jù)時代,計算機(jī)信息處理技術(shù)的第六項應(yīng)用體現(xiàn)在分類分析和聚類分析方面。所謂的分類分析,具體指的是對數(shù)據(jù)點進(jìn)行分類,然后再做新的數(shù)據(jù)點確立,所以其具體的使用可以在明確假設(shè)和客觀結(jié)構(gòu)的前提基礎(chǔ)上進(jìn)行,從而對客戶的行為做預(yù)測。聚類分析,其具體指在不明確限制的基礎(chǔ)上對對象組做集合,然后對對象組進(jìn)行分析的方法。具體討論分類分析和聚類分析,其在數(shù)據(jù)挖掘方面的作用表現(xiàn)十分的突出。
在大數(shù)據(jù)時代背景下,計算機(jī)信息處理技術(shù)還包括數(shù)據(jù)分析技術(shù)。做數(shù)據(jù)分析技術(shù)的研究發(fā)現(xiàn)其主要包括了情感分析、網(wǎng)絡(luò)分析、時域序列分析以及回歸分析四方面的內(nèi)容。在具體分析中,情感分析主要是對自然語言做主觀的判斷,而網(wǎng)絡(luò)分析則是基于網(wǎng)絡(luò)特點的判斷??臻g分析主要是做點集拓?fù)涞牧私狻?傮w來講,在計算機(jī)信息處理技術(shù)的具體利用中,最為重要的便是對數(shù)據(jù)進(jìn)行利用,而數(shù)據(jù)處理技術(shù)便是對具體數(shù)據(jù)的利用。
大數(shù)據(jù)時代在當(dāng)前社會的表現(xiàn)越來越強(qiáng)烈,在這樣的大環(huán)境下,計算機(jī)信息處理技術(shù)的發(fā)展傾向也更加的明顯??偨Y(jié)當(dāng)前的技術(shù)利用實踐和研究實踐,發(fā)現(xiàn)技術(shù)進(jìn)步再往三個方向發(fā)展:其一是計算機(jī)網(wǎng)絡(luò)在向著云計算的方向發(fā)展,而且這種趨勢在逐漸的增強(qiáng)。其二是計算機(jī)技術(shù)在向開放式網(wǎng)絡(luò)傳輸發(fā)展。出于社會公共網(wǎng)絡(luò)應(yīng)用的要求,開放式網(wǎng)絡(luò)的規(guī)模在不斷的擴(kuò)大。其三是計算機(jī)和計算機(jī)網(wǎng)絡(luò)的融合性發(fā)展更加的顯著,而這種融合性發(fā)展對于滿足社會需要來講意義顯著。
大數(shù)據(jù)時代背景下的計算機(jī)信息處理技術(shù)在不斷的豐富和發(fā)展,具體的討論相關(guān)技術(shù)內(nèi)容并就大數(shù)據(jù)時代下的計算機(jī)信息處理技術(shù)具體利用做分析,這可以更好的認(rèn)識技術(shù),從而在實踐中強(qiáng)化對其的應(yīng)用。