摘 要:在信息時代,數(shù)據(jù)本身可以稱為資產(chǎn)和生產(chǎn)資料,而數(shù)據(jù)的有效利用是實(shí)現(xiàn)其價值的重要途徑。計(jì)算機(jī)大數(shù)據(jù)信息處理技術(shù)為數(shù)據(jù)價值的挖掘提供了基礎(chǔ)支撐,通過分析和處理使數(shù)據(jù)作為資產(chǎn)和生產(chǎn)資料的價值被充分挖掘,從而實(shí)現(xiàn)更高形式的數(shù)據(jù)資產(chǎn)管理。本文主要論述了計(jì)算機(jī)大數(shù)據(jù)技術(shù)及信息處理技術(shù),分析了信息時代大數(shù)據(jù)信息處理技術(shù)面臨的機(jī)遇和挑戰(zhàn),探討了大數(shù)據(jù)信息處理的關(guān)鍵技術(shù)。旨在為數(shù)據(jù)資料價值的挖掘和大數(shù)據(jù)信息處理技術(shù)的應(yīng)用提供一些參考思路,以促進(jìn)大數(shù)據(jù)信息處理技術(shù)的推廣和應(yīng)用。
關(guān)鍵詞:計(jì)算機(jī);大數(shù)據(jù)信息處理技術(shù);數(shù)據(jù)資料;應(yīng)用
引言
生活在信息時代,我國隨時隨地的被各種各樣的信息所包圍。這些獨(dú)立的信息看似毫無價值,但實(shí)際上潛藏著豐富的價值。各類獨(dú)立的信息每天以驚人的速度增長,且數(shù)據(jù)種類和來源趨向于多樣化形式,這種數(shù)據(jù)快速增長的狀態(tài)和數(shù)據(jù)內(nèi)容的海量化推動了大數(shù)據(jù)及其處理技術(shù)的發(fā)展。數(shù)據(jù)本身作為一種資產(chǎn)和生產(chǎn)資料,其利用價值毋庸置疑。海量的數(shù)據(jù)經(jīng)過采集、收集、整合、分析后其潛在價值被挖掘出來,利用價值得到提升,這就是大數(shù)據(jù)信息處理技術(shù)的魅力所在。大數(shù)據(jù)信息處理技術(shù)是信息化時代社會資源充分利用、資源高效管理的重要技術(shù),大數(shù)據(jù)信息處理技術(shù)的推廣應(yīng)用對信息時代優(yōu)化資產(chǎn)管理有著重要的作用。研究計(jì)算機(jī)大數(shù)據(jù)信息處理技術(shù)對于了解其優(yōu)勢和處理技術(shù),推廣大數(shù)據(jù)處理技術(shù)有著重要的意義。
一、大數(shù)據(jù)技術(shù)
(一)定義
大數(shù)據(jù)旨在規(guī)定的時間內(nèi)應(yīng)用相關(guān)軟件或工具對信息內(nèi)容進(jìn)行抓取、采集、管理、處理后形成的數(shù)據(jù)集合[1]。
(二)特征
大數(shù)據(jù)的明顯特征是數(shù)量巨大、數(shù)據(jù)種類和來源多樣化、分析處理速度快、價值密度低、商業(yè)價值高。
(三)構(gòu)成
大數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等。結(jié)構(gòu)化數(shù)據(jù)具有固定的結(jié)構(gòu),如學(xué)生信息表,它有固定的名稱、ID、電話、地址等,一般存儲于專用的結(jié)構(gòu)化數(shù)據(jù)庫中。非結(jié)構(gòu)化數(shù)據(jù)無法用固定的結(jié)構(gòu)表示,如網(wǎng)頁信息、聲音信息、視頻信息、圖像信息、文本文件信息等,一般是以整條記錄的形式存儲在數(shù)據(jù)庫中的。半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu)和一定的靈活性,如HTML、XML,存儲時根據(jù)數(shù)據(jù)記錄的大小和特點(diǎn)選擇合適的存儲方式[2]。
二、大數(shù)據(jù)信息處理技術(shù)
(一)定義
大數(shù)據(jù)信息處理技術(shù)指應(yīng)用特定的大數(shù)據(jù)處理流程對數(shù)據(jù)資源進(jìn)行采集、分析和處理,將處理結(jié)果轉(zhuǎn)化為可視化的圖表的方式。經(jīng)過數(shù)據(jù)統(tǒng)計(jì)與分析后結(jié)果以圖表的形式呈現(xiàn),其結(jié)果清晰明了、簡潔直觀,能夠一目了然的觀察到已挖掘的數(shù)據(jù)價值。
(二)特征
大數(shù)據(jù)信息處理技術(shù)的內(nèi)容規(guī)模和體量較大,數(shù)據(jù)類型、格式呈現(xiàn)多樣化特點(diǎn),信息處理具有時效性和準(zhǔn)確性,信息處理結(jié)果包含巨大的商業(yè)價值。從大數(shù)據(jù)結(jié)構(gòu)特點(diǎn)分析,大數(shù)據(jù)信息處理技術(shù)數(shù)據(jù)關(guān)系復(fù)雜,處理難度大,處理過程需要應(yīng)用大數(shù)據(jù)處理的硬件設(shè)備、軟件平臺、集群分布式存儲數(shù)據(jù)庫及計(jì)算結(jié)構(gòu)完成海量數(shù)據(jù)的采集、存儲、計(jì)算、分析及處理。從大數(shù)據(jù)信息處理的相應(yīng)能力上看,大數(shù)據(jù)信息處理具有名副其實(shí)的準(zhǔn)實(shí)時計(jì)算特征。
(三)優(yōu)勢
大數(shù)據(jù)信息處理在各個領(lǐng)域及企業(yè)競爭之間的應(yīng)用優(yōu)勢尤為明顯。大部分企業(yè)將大數(shù)據(jù)信息處理技術(shù)作為高效利用數(shù)據(jù)價值的重要舉措。應(yīng)用大數(shù)據(jù)信息處理技術(shù)可以提高數(shù)據(jù)資源的回收利用率,挖掘數(shù)據(jù)信息的潛在商業(yè)價值。目前,大數(shù)據(jù)在企業(yè)競爭之間的應(yīng)用優(yōu)勢表現(xiàn)如下:(1)提高生產(chǎn)力的優(yōu)勢。一些企業(yè)應(yīng)用大數(shù)據(jù)處理技術(shù)對項(xiàng)目計(jì)劃的可行性進(jìn)行分析,通過擴(kuò)大數(shù)據(jù)項(xiàng)目來提高生產(chǎn)能力,為提高生產(chǎn)提供了可行性參考依據(jù)。(2)改變營銷策略的優(yōu)勢。數(shù)據(jù)盈利是分析企業(yè)營銷方式,指導(dǎo)營銷決策的重要依據(jù)。企業(yè)應(yīng)用大數(shù)據(jù)信息處理技術(shù)對一定周期內(nèi)數(shù)據(jù)盈利進(jìn)行精確分析,從而分析客戶的忠誠度,為企業(yè)更加有商業(yè)價值的營銷決策提供參考。(3)預(yù)測發(fā)展方向,指導(dǎo)任務(wù)目標(biāo)制定的優(yōu)勢。大數(shù)據(jù)信息處理技術(shù)目前已經(jīng)涉及各個領(lǐng)域、各個行業(yè)及不同企業(yè)之間,市場規(guī)模在不斷的擴(kuò)大化。大數(shù)據(jù)信息處理技術(shù)在行業(yè)之間的競爭與日俱增,這位大數(shù)據(jù)信息處理技術(shù)的應(yīng)用提供了更廣闊的發(fā)展空間。企業(yè)通過綜合分析行業(yè)及產(chǎn)業(yè)內(nèi)的發(fā)展情況,對比企業(yè)自身的發(fā)展條件,有助于預(yù)測行業(yè)內(nèi)的發(fā)展方向和企業(yè)在該行業(yè)內(nèi)的發(fā)展優(yōu)勢、發(fā)展不足之處,通過分析找到問題的關(guān)鍵,從而指導(dǎo)企業(yè)制定任務(wù)目標(biāo),幫助企業(yè)找到在該行業(yè)內(nèi)正確的發(fā)展方向。
(四)處理流程
大數(shù)據(jù)信息處理的流程總共分為四步,依次是:數(shù)據(jù)采集→數(shù)據(jù)導(dǎo)入及清洗處理→數(shù)據(jù)統(tǒng)計(jì)分析與挖掘→結(jié)果可視化。大數(shù)據(jù)信息處理流程的第一步是應(yīng)用ETL工具將各類數(shù)據(jù)抽取到相應(yīng)的文件及數(shù)據(jù)庫中;第二步是將采集好的數(shù)據(jù)進(jìn)行清洗和預(yù)處理,之后再進(jìn)行整合、去重、異?;幚?、數(shù)據(jù)歸一處理等,最后以分布式結(jié)構(gòu)的方式將預(yù)處理好的數(shù)據(jù)存儲到分布式數(shù)據(jù)庫中;第三步是將預(yù)處理好的數(shù)據(jù)采用SPSS工具、結(jié)構(gòu)算法模型等進(jìn)行統(tǒng)計(jì)分析,并設(shè)定數(shù)據(jù)分析的主題,經(jīng)過各類算法計(jì)算后深入挖掘數(shù)據(jù)價值,使數(shù)據(jù)起到預(yù)測的效果;第四步是結(jié)果的可視化呈現(xiàn),這些以圖表形式呈現(xiàn)的簡潔直觀、清洗明了,無論是大數(shù)據(jù)分析專家,還是普通用戶,都能根據(jù)可視化圖表了解到數(shù)據(jù)資料表現(xiàn)的內(nèi)在價值,其結(jié)果有著較高的接受率[3]。
三、大數(shù)據(jù)信息處理技術(shù)發(fā)展面臨的機(jī)遇與挑戰(zhàn)
(一)面臨的機(jī)遇
大數(shù)據(jù)信息處理技術(shù)對于挖掘數(shù)據(jù)資源的潛在價值有著重要的意義。在信息時代,信息數(shù)據(jù)的市場價值不斷擴(kuò)大,企業(yè)可應(yīng)用數(shù)據(jù)資源來了解客戶、分析市場,為企業(yè)營銷和發(fā)展提供決策依據(jù)。隨著大數(shù)據(jù)信息處理在企業(yè)業(yè)務(wù)中的應(yīng)用程度加深,大數(shù)據(jù)信息處理技術(shù)有了更大的發(fā)展空間。企業(yè)為提高競爭優(yōu)勢應(yīng)用大數(shù)據(jù)信息處理技術(shù)對競爭對手或市場進(jìn)行分析,以此來提高自身的競爭優(yōu)勢,這就是大數(shù)據(jù)信息處理技術(shù)發(fā)展的新機(jī)遇。
(二)面臨的挑戰(zhàn)
目前,計(jì)算機(jī)大數(shù)據(jù)信息處理技術(shù)面臨的最大挑戰(zhàn)就是網(wǎng)絡(luò)信息安全隱患。網(wǎng)絡(luò)信息安全隱患是一直伴隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)發(fā)展的一個問題,該問題具體表現(xiàn)為大數(shù)據(jù)信息存儲失真、信息真假難辨、信息病毒、信息泄漏等問題。對于大數(shù)據(jù)信息處理而言,失真信息、虛假信息、病毒信息、信息泄漏等都會影響大數(shù)據(jù)信息處理的效率、質(zhì)量,最終影響信息結(jié)果的決策作用。企業(yè)在應(yīng)用大數(shù)據(jù)處理技術(shù)分析市場和競爭對手時,信息泄漏將會給企業(yè)造成嚴(yán)重的經(jīng)濟(jì)損失、名譽(yù)損失及業(yè)務(wù)決策損失等,這是大數(shù)據(jù)信息處理技術(shù)發(fā)展面臨的巨大挑戰(zhàn)。
四、大數(shù)據(jù)信息處理技術(shù)
(一)基礎(chǔ)技術(shù)
大數(shù)據(jù)信息處理技術(shù)基礎(chǔ)技術(shù)包括分布式計(jì)算技術(shù)、分布式文件系統(tǒng)技術(shù)、分布式數(shù)據(jù)庫技術(shù)、數(shù)據(jù)庫與數(shù)據(jù)倉庫技術(shù)、云計(jì)算虛擬化技術(shù)。它們發(fā)揮各自的優(yōu)勢,確保大數(shù)據(jù)信息處理過程中數(shù)據(jù)采集加工、數(shù)據(jù)存儲、信息安全以及信息分析的有效性和安全性,為數(shù)據(jù)資源管理提供了強(qiáng)有力的技術(shù)基礎(chǔ)。
1.分布式計(jì)算技術(shù)
分布式計(jì)算技術(shù)是相對于傳統(tǒng)的集中式計(jì)算技術(shù)而言的。這種數(shù)據(jù)計(jì)算的優(yōu)勢在于將大數(shù)據(jù)分割為若干小塊,采用分布式節(jié)點(diǎn)計(jì)算模式進(jìn)行計(jì)算,最終再講計(jì)算接故宮進(jìn)行合并,以得到統(tǒng)一的數(shù)據(jù)結(jié)論。如雙十一不同地區(qū)消費(fèi)者習(xí)慣的統(tǒng)計(jì),滅國加州大學(xué)伯克利分校通過互聯(lián)網(wǎng)傳輸信息,發(fā)動世界世界各地的志愿者對所一定的數(shù)據(jù)進(jìn)行計(jì)算,最終合并分析結(jié)果,這就是分布式計(jì)算[4]。
2.分布式文件系統(tǒng)技術(shù)
分布式文件系統(tǒng)技術(shù)指將數(shù)據(jù)分散在不同的獨(dú)立設(shè)備上,系統(tǒng)結(jié)構(gòu)為可擴(kuò)產(chǎn)結(jié)構(gòu),此時多仁愛服務(wù)器共同分擔(dān)數(shù)據(jù)存儲的負(fù)荷,提高了系統(tǒng)運(yùn)行的可靠性、穩(wěn)定性。該技術(shù)確保了系統(tǒng)結(jié)構(gòu)擴(kuò)展的可行性。在大數(shù)據(jù)信息處理方面,應(yīng)用元數(shù)據(jù)管理技術(shù)、系統(tǒng)高可擴(kuò)展技術(shù)、存儲層級內(nèi)的優(yōu)化技術(shù)、負(fù)載存儲優(yōu)化技術(shù),確保了太服務(wù)器同時運(yùn)行時信息處理的高效性,減低了大數(shù)據(jù)存儲處理的負(fù)荷。
3.分布式數(shù)據(jù)庫技術(shù)
分布式數(shù)據(jù)庫技術(shù)的核心思想史將集中式數(shù)據(jù)庫中存儲的數(shù)據(jù)分散到多個數(shù)據(jù)庫中,利用網(wǎng)絡(luò)節(jié)點(diǎn)連接主機(jī)與各個數(shù)據(jù)庫,從而卻把數(shù)據(jù)存儲的完整性和分布計(jì)算的高效性。該技術(shù)的特點(diǎn)在于高可擴(kuò)展性、高并發(fā)性、高可用性,有助于提高數(shù)據(jù)存儲容量、擴(kuò)大用戶響應(yīng)規(guī)模、加強(qiáng)數(shù)據(jù)備份。
4.數(shù)據(jù)庫與數(shù)據(jù)倉庫技術(shù)
數(shù)據(jù)庫與數(shù)據(jù)倉庫技術(shù)都面向的是數(shù)據(jù)存儲。數(shù)據(jù)庫存儲的是數(shù)據(jù)集合,數(shù)據(jù)倉庫存儲的是具有面向主題的、集成性較高的、相對穩(wěn)定的、能夠梵音歷史變化的數(shù)據(jù)集合。從數(shù)據(jù)存儲的范圍來看,數(shù)據(jù)倉庫存儲技術(shù)的存儲范圍小于數(shù)據(jù)庫,數(shù)據(jù)倉庫主要為數(shù)據(jù)的管理決策提供依據(jù)。在設(shè)計(jì)上,數(shù)據(jù)庫需要避免數(shù)據(jù)冗余的問題,主要目的是為了方便和高效的存儲數(shù)據(jù)。數(shù)據(jù)倉庫色應(yīng)重視主題域的設(shè)計(jì),目的是為了支持?jǐn)?shù)據(jù)的分析與決策。
5.云計(jì)算與虛擬化技術(shù)
云計(jì)算技術(shù)是基于云網(wǎng)絡(luò)、互聯(lián)網(wǎng)而形成的一種可擴(kuò)展的虛擬化資源。云計(jì)算技術(shù)的實(shí)現(xiàn)由共享服務(wù)、應(yīng)用軟件、存儲器、服務(wù)器、網(wǎng)絡(luò)等資源共同提供。供應(yīng)商通過對數(shù)據(jù)的管理實(shí)現(xiàn)與用戶的交易,用戶通過付費(fèi)來獲取大數(shù)據(jù)資源。這種虛擬化技術(shù)有KVM虛擬機(jī)提供解決方案。云計(jì)算的特點(diǎn)是CPU虛擬化、內(nèi)存虛擬化、I/O虛擬化。就大數(shù)據(jù)信息處理技術(shù)而言,起到核心作用的是虛擬化技術(shù),而云計(jì)算則是應(yīng)用虛擬化技術(shù)實(shí)現(xiàn)對大數(shù)據(jù)的統(tǒng)計(jì)和分析。
(二)信息采集及加工技術(shù)
大數(shù)據(jù)信息處理技術(shù)應(yīng)用的準(zhǔn)確性與信息采集加工的準(zhǔn)確性有著直接的關(guān)聯(lián)。信息采集和加工的目的是為了提高基礎(chǔ)信息的真實(shí)性和有效性,選擇更有價值的和更加符合用戶需求的信息導(dǎo)入計(jì)算機(jī)數(shù)據(jù)庫,并對采集的信息進(jìn)行分類,最后在傳遞給用戶,這有助于提高用戶的滿意度[5]。
(三)信息存儲技術(shù)
大數(shù)據(jù)信息存儲工作時信息處理的前提條件。常見的信息類型包括圖片、音頻、視頻、文字等多種形式,這種多樣化的信息類型對計(jì)算機(jī)信息存儲能力提出了更高的要求。信息存儲技術(shù)首先要滿足信息多樣化存儲的需求,其次要提高計(jì)算機(jī)分類存儲的能力,再者要提高重復(fù)信息合并的能力。通過提升信息存儲技術(shù),避免信息冗余,提高大數(shù)據(jù)信息處理的效率。
(四)信息安全技術(shù)
在信息時代,信息的透明化已經(jīng)不足為奇。造成信息流失和透明化的原因較多,其中信息管理安全系數(shù)較差是影響信息泄漏的重要原因之一。隨著大數(shù)據(jù)技術(shù)的提升,信息資源潛在的價值越來越被企業(yè)所重視,因此提高大數(shù)據(jù)信息存儲的安全性是大數(shù)據(jù)信息處理技術(shù)發(fā)展的必要前提。特別是一些核心信息需要加強(qiáng)信息安全管理。為此,企業(yè)必須要提升核心信息的加密能力,采用加密技術(shù)、防火墻技術(shù)、數(shù)字驗(yàn)證技術(shù)等對數(shù)據(jù)庫加強(qiáng)安全管理,確保信息的安全性[6]。
(五)信息分析技術(shù)
數(shù)據(jù)信息通過采集、錄入等存儲在不同的數(shù)據(jù)庫中,再由主機(jī)根據(jù)大數(shù)據(jù)信息處理的需求調(diào)取數(shù)據(jù),完成對不同數(shù)據(jù)庫中同一面向的數(shù)據(jù)的整合分析,深入挖掘數(shù)據(jù)資料的潛在價值。在數(shù)據(jù)分析層,Mabout、Spark、Storm等技術(shù)主要服務(wù)于數(shù)據(jù)計(jì)算,而Echart、Superset等主要服務(wù)于數(shù)據(jù)結(jié)果的可視化,Hsdoop軟件則為大數(shù)據(jù)信息處理技術(shù)的集成提供了條件。它集合大數(shù)據(jù)不同階段的計(jì)算技術(shù),確保了數(shù)據(jù)綜合分析的有效性。
結(jié)語
綜上所述,計(jì)算機(jī)大數(shù)據(jù)信息處理技術(shù)在信息化時代面臨著全新的機(jī)遇和挑戰(zhàn)。大數(shù)據(jù)爆炸式增長為大數(shù)據(jù)信息處理技術(shù)提供了廣闊的發(fā)展空間,同時也因?yàn)閿?shù)據(jù)內(nèi)容多樣化、數(shù)據(jù)來源復(fù)雜化的特征,大數(shù)據(jù)信息處理中信息的安全管理面臨著更加嚴(yán)峻的市場考驗(yàn)。一些大數(shù)據(jù)信息代表著企業(yè)的核心,核心資產(chǎn)的泄漏嚴(yán)重影響著企業(yè)的發(fā)展。大數(shù)據(jù)信息處理技術(shù)在確保數(shù)據(jù)資產(chǎn)價格深入挖掘的同時,還要確保信息的安全性,提高大數(shù)據(jù)處理的信息加密功能,通過綜合應(yīng)用大數(shù)據(jù)信息處理的基礎(chǔ)技術(shù)、信息采集加工技術(shù)、信息存儲技術(shù)、信息安全技術(shù)、信息分析技術(shù)等,加強(qiáng)對大數(shù)據(jù)信息的安全管理和綜合處理分析,提高大數(shù)據(jù)處理的安全性和信息分析的有效性。唯有抓住機(jī)遇,積極應(yīng)對挑戰(zhàn),應(yīng)用大數(shù)據(jù)信息處理技術(shù)來加強(qiáng)企業(yè)信息的管理,企業(yè)才能在大數(shù)據(jù)信息時代保持發(fā)展活力,與時俱進(jìn),持續(xù)向前。
參考文獻(xiàn)
[1]邵志國.計(jì)算機(jī)大數(shù)據(jù)信息處理技術(shù)研究[J].信息與電腦(理論版),2018(23):9-10.
[2]余美華.大數(shù)據(jù)背景下的計(jì)算機(jī)信息處理技術(shù)分析[J].山東工業(yè)技術(shù),2019(06):148.
[3]杜璽倫.大數(shù)據(jù)時代下計(jì)算機(jī)信息處理技術(shù)研究[J].計(jì)算機(jī)產(chǎn)品與流通,2019(07):142.
[4]賈睿.計(jì)算機(jī)大數(shù)據(jù)信息處理技術(shù)研究[J].中國新通信,2019,21(15):63.
[5]王春駒.“大數(shù)據(jù)”時代的計(jì)算機(jī)信息處理技術(shù)研究[J].通訊世界,2016(06):92-94.
[6]陳張榮.“大數(shù)據(jù)”時代的計(jì)算機(jī)信息處理技術(shù)研究[J].黑龍江生態(tài)工程職業(yè)學(xué)院學(xué)報,2016(03):23-25.
作者簡介:
雷琳 (1982-)女(漢族),重慶,大本,副教授,主要研究方向:計(jì)算機(jī)基礎(chǔ)、數(shù)據(jù)庫、算法