山東醫(yī)學(xué)高等專科學(xué)校 陳 軍
大數(shù)據(jù)是信息技術(shù)與專業(yè)技術(shù)、信息技術(shù)產(chǎn)業(yè)與各個(gè)領(lǐng)域有機(jī)融合的典型領(lǐng)域,在國(guó)民經(jīng)濟(jì)發(fā)展中具有廣闊的應(yīng)用前景。大數(shù)據(jù)時(shí)代到來(lái)后我國(guó)的數(shù)據(jù)規(guī)模已經(jīng)超過(guò)美國(guó)而位居世界首位,原因與我國(guó)是全球的人口大國(guó)、制造業(yè)大國(guó)、互聯(lián)網(wǎng)大國(guó)、物聯(lián)網(wǎng)大國(guó),每個(gè)環(huán)節(jié)無(wú)時(shí)無(wú)刻不再產(chǎn)生著數(shù)據(jù),而如何處理、調(diào)動(dòng)、應(yīng)用大數(shù)據(jù)則成為一個(gè)不可回避的現(xiàn)實(shí)問(wèn)題。信息處理技術(shù)(Information Processing Technology)與計(jì)算機(jī)的有機(jī)結(jié)合使得數(shù)據(jù)的處理更加得心應(yīng)手,但大數(shù)據(jù)時(shí)代的沖擊下其所使用信息處理技術(shù)勢(shì)必會(huì)出現(xiàn)深刻的變革。因此,在此種背景下對(duì)計(jì)算機(jī)信息處理技術(shù)展開(kāi)深入分析具有重要的研究?jī)r(jià)值和現(xiàn)實(shí)意義。
“大數(shù)據(jù)”為近些年來(lái)涌現(xiàn)出來(lái)的科技新詞。麥肯錫公司首先提出了全球步入“大數(shù)據(jù)”時(shí)代,數(shù)據(jù)已經(jīng)滲透到了各行各業(yè)的方方面面,并且成為最重要的生產(chǎn)要素之一,時(shí)至今日已經(jīng)在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域、軍事、金融、通訊等行業(yè)中得到了廣泛的應(yīng)用并成為推動(dòng)技術(shù)創(chuàng)新的重要助力。哈佛大學(xué)加里·金曾經(jīng)指出“大數(shù)據(jù)是一場(chǎng)革命,海量的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開(kāi)啟了量化進(jìn)程?!北M管目前了解“大數(shù)據(jù)”的群體依然不多,但不可否認(rèn)的是“大數(shù)據(jù)”帶來(lái)技術(shù)革新卻早已經(jīng)潛移默化的走入了百姓日常生活之中,如網(wǎng)購(gòu)過(guò)程中“大數(shù)據(jù)”可以為消費(fèi)者提供同類產(chǎn)品的比價(jià)、準(zhǔn)確預(yù)測(cè)你的喜好等優(yōu)質(zhì)服務(wù);民生領(lǐng)域中“大數(shù)據(jù)”省去了業(yè)務(wù)的眾多環(huán)節(jié),無(wú)需備齊各種證件、無(wú)需反復(fù)奔波、無(wú)需排隊(duì)等待,通過(guò)下載應(yīng)用程序(Application,App)并在線上辦理即可,以交管12123為例,在該平臺(tái)上即可以完成違章查詢、扣分、交罰款等業(yè)務(wù);醫(yī)療領(lǐng)域中網(wǎng)上預(yù)約掛號(hào)有效的縮短了患者等待時(shí)間,使得就診更為便捷。以上種種便利均得益于大數(shù)據(jù)時(shí)代帶來(lái)的技術(shù)創(chuàng)新。數(shù)據(jù)每時(shí)每刻都在產(chǎn)生,但形成的數(shù)據(jù)卻并不都具有使用價(jià)值,各種渠道在拓寬了數(shù)據(jù)來(lái)源的同時(shí)亦使得信息多樣化特點(diǎn)凸顯,如何從中篩選出有用的數(shù)據(jù)就成為擺在大數(shù)據(jù)時(shí)代面前的一道難題。
傳統(tǒng)數(shù)據(jù)信息的采集主要通過(guò)爬蟲(chóng)或者是抽取-清洗轉(zhuǎn)換-加載(Extract-Transform-Load,ETL)完成,其中爬蟲(chóng)常用的有Requests、BeautifulSoup、scrapy、selenium等,能夠滿足特定需求的人群使用,獲取數(shù)據(jù)后進(jìn)行數(shù)據(jù)清洗即可以從中篩選出感興趣或者是有用的數(shù)據(jù)信息。ETL則能夠打破業(yè)務(wù)系統(tǒng)間“數(shù)據(jù)孤島”現(xiàn)象,借助數(shù)據(jù)抽取、數(shù)據(jù)清洗、庫(kù)內(nèi)轉(zhuǎn)換、規(guī)則檢查、數(shù)據(jù)加載即可以完成數(shù)據(jù)處理的整個(gè)流程。雖然以上手段能夠在一定程度上滿足使用者的使用需求,但大數(shù)據(jù)時(shí)代到來(lái)后以上工具所采集到的數(shù)據(jù)信息關(guān)聯(lián)度較差、離散度較高且很難聚合在一起,由此使得數(shù)據(jù)信息資源并未得到充分的挖掘。由此信息采集技術(shù)在原有流程基礎(chǔ)上做出了革新,即:數(shù)據(jù)采集的同時(shí)完成數(shù)據(jù)標(biāo)簽的添加操作,利用標(biāo)簽將彼此具有內(nèi)在關(guān)聯(lián)性的數(shù)據(jù)關(guān)聯(lián)起來(lái),以視頻數(shù)據(jù)采集為例,在采集視頻數(shù)據(jù)本身的同時(shí)亦可以加入視頻發(fā)布時(shí)間、發(fā)布者、點(diǎn)贊及評(píng)論等標(biāo)簽,通過(guò)圖數(shù)據(jù)庫(kù)技術(shù)即可以完成對(duì)收錄視頻數(shù)據(jù)的迅速分析。相較于傳統(tǒng)數(shù)據(jù)收集停留于一級(jí)數(shù)據(jù)的不足,大數(shù)據(jù)時(shí)代下的信息采集技術(shù)通過(guò)設(shè)定標(biāo)簽,根據(jù)使用者需求設(shè)定檢索規(guī)則、檢測(cè)策略、檢索關(guān)鍵詞即可以實(shí)現(xiàn)對(duì)數(shù)據(jù)信息逐步細(xì)化的目的,可以為使用者提供多級(jí)數(shù)據(jù),整個(gè)數(shù)據(jù)鏈中的每個(gè)節(jié)點(diǎn)均可以被其掌握,明確上下游關(guān)系,使其具有較強(qiáng)的可追溯性。由于相同標(biāo)簽下的數(shù)據(jù)存在著顯著的內(nèi)在關(guān)聯(lián)性,使用者通過(guò)對(duì)部分?jǐn)?shù)據(jù)信息進(jìn)行深入分析就可以對(duì)整體數(shù)據(jù)變化規(guī)律做出推測(cè),從根本上提高了數(shù)據(jù)分析的準(zhǔn)確性。近些年來(lái)云計(jì)算(Cloud Computing)的興起給數(shù)據(jù)信息采集工作提供了強(qiáng)大的便利,隨著信息技術(shù)的發(fā)展,云計(jì)算為分布式計(jì)算(Distributed Computation)、效用計(jì)算(Utility Computing)、負(fù)載均衡(Load Balance)、并行計(jì)算(Parallel Computing)、網(wǎng)絡(luò)存儲(chǔ)(Network Storage)、熱備份冗雜技術(shù)(Hot Standy Router Protocol,HSRP)、虛擬化技術(shù)的有機(jī)整合,使其具備了實(shí)施監(jiān)測(cè)數(shù)據(jù)庫(kù)以及動(dòng)態(tài)信息采集的能力,經(jīng)由云平臺(tái)從多個(gè)數(shù)據(jù)庫(kù)中同時(shí)采集數(shù)據(jù)信息。
步入大數(shù)據(jù)時(shí)代后雖然業(yè)界對(duì)于大數(shù)據(jù)的具體量級(jí)并未給出明確的界定,但肯定不會(huì)低于太字節(jié)(Terabyte,TB),并且總體上數(shù)據(jù)缺乏統(tǒng)一的規(guī)律,數(shù)據(jù)類型也十分多樣,如圖表、表格、日志等,甚至還有視頻以及音頻。此外,大數(shù)據(jù)并非一成不變,而是每時(shí)每刻都在更新,由此使得數(shù)據(jù)規(guī)模不斷擴(kuò)大。各種數(shù)據(jù)在獲取之后需要在第一時(shí)間保存,以防止數(shù)據(jù)的丟失,削弱其蘊(yùn)藏的使用價(jià)值。大數(shù)據(jù)時(shí)代本質(zhì)上屬于數(shù)據(jù)爆發(fā)的時(shí)代,種類繁雜、規(guī)模龐大的數(shù)據(jù)存儲(chǔ)就成為一個(gè)棘手問(wèn)題。目前國(guó)外流行的DEEP WEB技術(shù)成為大數(shù)據(jù)時(shí)代下一種備受推崇的信息存儲(chǔ)技術(shù),在統(tǒng)一的存儲(chǔ)環(huán)境中數(shù)據(jù)信息在規(guī)模、分布方式、動(dòng)態(tài)變化等方面均有著相對(duì)應(yīng)的特點(diǎn),集成處理能力更高。谷歌公司研發(fā)的分布式存儲(chǔ)技術(shù)(Google File System,GFS)成為大數(shù)據(jù)時(shí)代下數(shù)據(jù)信息存儲(chǔ)技術(shù)的個(gè)中翹楚,該技術(shù)將整個(gè)系統(tǒng)分為了三個(gè)角色,分別為客戶端、主服務(wù)器、數(shù)據(jù)塊服務(wù)器,客戶端提供應(yīng)用程序的訪問(wèn)接口,通過(guò)應(yīng)用程序客戶即可以直接調(diào)用庫(kù)函數(shù)。主服務(wù)器則是整個(gè)管理技術(shù)的節(jié)點(diǎn),負(fù)責(zé)元數(shù)據(jù)的存儲(chǔ)并由每個(gè)數(shù)據(jù)塊節(jié)點(diǎn)實(shí)施更新元數(shù)據(jù)。數(shù)據(jù)塊服務(wù)器負(fù)責(zé)數(shù)據(jù)的具體存儲(chǔ)工作,將數(shù)據(jù)信息按照固定大小進(jìn)行分塊,一般情況下默認(rèn)為64兆,每一塊被稱之為一個(gè)數(shù)據(jù)塊且具有為宜的64位標(biāo)簽。該信息存儲(chǔ)技術(shù)已經(jīng)在萬(wàn)國(guó)商業(yè)機(jī)器公司、百度等知名企業(yè)中得到了廣泛的應(yīng)用,其所具有的優(yōu)勢(shì)在于以列存儲(chǔ)為數(shù)據(jù)信息的主要存儲(chǔ)方式,有效的壓縮了龐大的數(shù)據(jù)信息,占據(jù)的空間更小,磁盤(pán)空間實(shí)際利用率處于較高水平。在今后工作中只需要不斷完善現(xiàn)有的信息存儲(chǔ)方式即可以滿足當(dāng)前乃至今后一段時(shí)間的信息存儲(chǔ)需求。
云計(jì)算采取的信息存儲(chǔ)技術(shù)與GFS不盡相同,高可用性、高可靠性、經(jīng)濟(jì)性好為云計(jì)算的主要原則,除了利用分布式存儲(chǔ)來(lái)對(duì)數(shù)據(jù)信息進(jìn)行保存外,還充分運(yùn)用了冗余存儲(chǔ)技術(shù)對(duì)已經(jīng)存儲(chǔ)的數(shù)據(jù)進(jìn)行處理以提高其可靠性,通俗而言就是將一份數(shù)據(jù)存儲(chǔ)多個(gè)副本。GFS面向的客戶群為企業(yè)用戶,而云計(jì)算則可以滿足幾乎所有的用戶使用需求,在云技術(shù)不斷完善下其所具有的高吞吐率越發(fā)引起社會(huì)各界的關(guān)注,核心系統(tǒng)中擁有大量的服務(wù)器,存儲(chǔ)系統(tǒng)為谷歌公司的GFS以及Hadoop團(tuán)隊(duì)研發(fā)的Hadoop分布式文件系統(tǒng),可以滿足海量的、大型的、分布式的數(shù)據(jù)存儲(chǔ)與訪問(wèn)需求。但當(dāng)前需要考慮的問(wèn)題在于如何完成內(nèi)部存儲(chǔ)數(shù)據(jù)的快速準(zhǔn)確定位、保障數(shù)據(jù)存儲(chǔ)的安全性、底層設(shè)備數(shù)據(jù)存儲(chǔ)不均等方面。
大數(shù)據(jù)時(shí)代下數(shù)據(jù)已經(jīng)被全球公認(rèn)為繼土地、勞動(dòng)力、資本之后的第四大生產(chǎn)要素。在萬(wàn)物互聯(lián)的時(shí)代,海量的數(shù)據(jù)信息匯聚在一起,以大數(shù)據(jù)為基礎(chǔ)商業(yè)領(lǐng)域形成了精準(zhǔn)營(yíng)銷以及智能進(jìn)化的布局,智能商業(yè)時(shí)代拉開(kāi)大幕。經(jīng)過(guò)處理之后的數(shù)據(jù)信息往往蘊(yùn)藏著豐厚的經(jīng)濟(jì)收益,但互聯(lián)網(wǎng)是一個(gè)開(kāi)放性平臺(tái),任何人、任何時(shí)間都能夠借助互聯(lián)網(wǎng)獲取感興趣的數(shù)據(jù)信息,由此使得數(shù)據(jù)信息存在著較高的風(fēng)險(xiǎn),信息安全問(wèn)題備受社會(huì)各界的矚目。步入大數(shù)據(jù)時(shí)代后的信息安全技術(shù)研發(fā)取得了突破性進(jìn)展,依托現(xiàn)場(chǎng)可編程門陣列(Field-Programmable Gate Array,F(xiàn)PGA)的高速并行技術(shù)、以太網(wǎng)高速數(shù)據(jù)傳輸技術(shù)、多路輸入輸出技術(shù)、密鑰管理技術(shù)研發(fā)的高速密碼運(yùn)算設(shè)備使得數(shù)據(jù)安全得到了有效提升。該設(shè)備能夠利用SM4算法對(duì)重要、關(guān)鍵數(shù)據(jù)進(jìn)行加密處理,有助于防止數(shù)據(jù)泄露,提高保密性;使用SM3算法對(duì)數(shù)據(jù)進(jìn)行散列處理,獲得數(shù)據(jù)摘要后再進(jìn)行散列運(yùn)算后有助于避免數(shù)據(jù)被篡改,數(shù)據(jù)完整性大幅提升;數(shù)據(jù)傳輸期間使用數(shù)字簽名來(lái)提升業(yè)務(wù)行為的抗否性,同時(shí)使用驗(yàn)證簽名確認(rèn)身份;用戶訪問(wèn)權(quán)限控制對(duì)于保證使用者身份真實(shí)性具有重要意義,加密模組利用管理員以及操作員兩級(jí)身份實(shí)現(xiàn)對(duì)訪問(wèn)權(quán)限的控制。除此之外繼續(xù)完善現(xiàn)有計(jì)算機(jī)信息安全管理體系也是提升數(shù)據(jù)安全的重要舉措。
結(jié)語(yǔ):綜上所述,大數(shù)據(jù)時(shí)代給各行各業(yè)均帶來(lái)了極大的便利,催生了智能商業(yè)時(shí)代,但如何對(duì)數(shù)據(jù)信息進(jìn)行處理就成為一個(gè)首要解決的問(wèn)題。傳統(tǒng)信息處理技術(shù)越發(fā)難以契合大數(shù)據(jù)時(shí)代發(fā)展所需,使得數(shù)據(jù)蘊(yùn)藏的價(jià)值并未充分挖掘。本文從信息采集技術(shù)、信息存儲(chǔ)技術(shù)、信息安全技術(shù)三方面對(duì)步入大數(shù)據(jù)時(shí)代后計(jì)算機(jī)信息處理技術(shù)發(fā)展趨勢(shì)進(jìn)行總結(jié),希望能夠?yàn)樘嵘髷?shù)據(jù)安全提供幫助,