黃瑞國
摘要:隨著我國社會經(jīng)濟與技術的發(fā)展與進步,我國以全面進入網(wǎng)絡信息化時代,計算機技術也在不斷地創(chuàng)新與改革,為人們的日常生活便利帶來了很大的作用。在這個信息化的新時代中,人們每天所接觸的信息量數(shù)以萬計。能夠取得有效的信息,不僅可以節(jié)約時間,還能滿足各種不同的需求。大數(shù)據(jù)技術及大數(shù)據(jù)測試技術正是現(xiàn)在社會發(fā)展的需求,在此基礎上,該文就著重分析了大數(shù)據(jù)測試技術的特點及難點,并且研究了其發(fā)展前景。
關鍵詞:大數(shù)據(jù);測試技術;發(fā)展前景
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)27-0001-02
在互聯(lián)網(wǎng)、云計算等一些網(wǎng)絡技術的推動下,其數(shù)據(jù)也越發(fā)膨脹,規(guī)模也呈現(xiàn)幾倍上升趨勢,目前我們已正式跨入大數(shù)據(jù)時代,開發(fā)其中所蘊含的信息及“寶藏”是我國乃至國外研究人員的目標。如今社會的發(fā)展需要大數(shù)據(jù)技術,因為其數(shù)據(jù)量大、結構復雜、種類繁多,人們可以從其中獲取更多具有價值性的信息。
1 淺析大數(shù)據(jù)
1.1 大數(shù)據(jù)的概念
由于云時代的到來,大數(shù)據(jù)技術也吸引了國內外研究人員的注意力。顧名思義,大數(shù)據(jù)就是由大量結構化的數(shù)據(jù)構成的大型數(shù)據(jù)倉庫,是一種觀察世界的全新手段和方法,利用其思維與處理技術構成一個數(shù)據(jù)庫,從而創(chuàng)建一個透明化的世界關系結構。從互聯(lián)網(wǎng)發(fā)展至今,大數(shù)據(jù)是這個過程的一個象征性技術,在云技術不斷地創(chuàng)新及改革上,這些難以收集也不好運用的數(shù)據(jù)被研究人員科學合理地進行利用,隨著我國各行各業(yè)的不斷發(fā)展,大數(shù)據(jù)也會在此過程中為其提供一系列有利的價值。[1]
1.2 大數(shù)據(jù)的特征
大數(shù)據(jù)運用現(xiàn)在的軟件技術是很難收集及存儲、分析共享的,國內外研究人員用了四個V概括了大數(shù)據(jù)的基本特征。
1.2.1 (Volume)數(shù)據(jù)體量大。
在此技術的發(fā)展過程中,已經(jīng)由原先的TB級別躍升為目前的PB級別,其數(shù)據(jù)量最高可達200PB。目前我國普通的計算機容量是TB量級,一些大型企業(yè)是EB量級。
1.2.2 (Variety)數(shù)據(jù)類型多
大數(shù)據(jù)技術具有多樣式的特征,所以主要有結構化數(shù)據(jù)和非結構數(shù)據(jù)兩種形式。非結構數(shù)據(jù)與結構化數(shù)據(jù)相對比,后者是以文本為主,前者的種類則眾多,主要有網(wǎng)絡中的日志、視頻、音頻、圖片等,這對數(shù)據(jù)的處理能力也有較高要求。
1.2.3 (Velocity)處理速度快
處理速度快是大數(shù)據(jù)技術與傳統(tǒng)數(shù)據(jù)技術最明顯的特征,具國內外研究學者分析,在2020年,全球數(shù)據(jù)的使用量可能會達到35.2ZB之多。在這么多數(shù)據(jù)的面前,大數(shù)據(jù)就充分地發(fā)揮了其自身特性,為企業(yè)的可持續(xù)發(fā)展起到重要作用。
1.2.4 (Value)價值密度低
在大數(shù)據(jù)中,其價值密度是與數(shù)據(jù)量成反比的。對于使用現(xiàn)金的計算機算法準確地對數(shù)據(jù)中的價值進行有效提純,是目前國內外研究大數(shù)據(jù)技術的一個難點也要點。
在如今這個發(fā)展迅速的時代,大數(shù)據(jù)技術已經(jīng)成為了網(wǎng)絡技術可持續(xù)發(fā)展的趨勢和要點,在我國各行各業(yè)包括研究界都有廣泛應用。大數(shù)據(jù)技術具有高性能、高效率及方便管理等優(yōu)點,其本身的結構和系統(tǒng)設計的也較為復雜,所以對大數(shù)據(jù)測試技術的研究還是比較薄弱的。[2]
2 淺析大數(shù)據(jù)技術的特點
2.1 大數(shù)據(jù)基礎上發(fā)明的軟件被廣泛應用
近幾年隨著大數(shù)據(jù)技術在我國各行各業(yè)都被廣泛應用,使其走向信息化和科技化。其中在大數(shù)據(jù)技術基礎上發(fā)明的Hadoop分布式處理軟件、Hbase數(shù)據(jù)庫及一些可視化軟件都對我國行業(yè)的發(fā)展有著重要的意義。
2.2 大數(shù)據(jù)的智能處理技術
大數(shù)據(jù)技術是從海量的數(shù)據(jù)中獲取有效的數(shù)據(jù)并且進行智能處理分析,人們可以從中發(fā)現(xiàn)對自己有用的信息、知識及創(chuàng)造無窮的智慧,對今后我國社會的發(fā)展有重要的作用。在此前提下,就必須在大數(shù)據(jù)中引進智能處理技術,將大數(shù)據(jù)的分析、管理等技術與人工智能相融合,目前我國機器的數(shù)據(jù)自動分析、語言理解及自動識別等一些智能技術已經(jīng)和大數(shù)據(jù)技術工作的流程完美融合。[3]
2.3 非結構化數(shù)據(jù)處理正在迅速發(fā)展
上文說到非結構化數(shù)據(jù)處理與傳統(tǒng)的處理技術不同,其是以圖片、視頻及音頻等數(shù)據(jù)展現(xiàn)的,隨著云技術時代的到來,此類信息也越來越多。所以我國目前對非結構化數(shù)據(jù)處理技術越來越有需求,非結構化數(shù)據(jù)技術中的采集技術等也正在不斷地創(chuàng)新及發(fā)展。
2.4 分布式處理架構
上文說到大數(shù)據(jù)技術有多種處理技術,其處理方法也是隨著社會的進步而不斷創(chuàng)新的,傳統(tǒng)的處理方式已經(jīng)無法滿足現(xiàn)如今社會人們的需求。在人們對此不斷創(chuàng)新及摸索的過程中,在大數(shù)據(jù)技術中發(fā)現(xiàn)了分布式處理架構,此時它也成了其的主要處理數(shù)據(jù)方式,這是時代在發(fā)展與進步的表現(xiàn)。在分布式處理架構中,分布式文件系統(tǒng)、處理數(shù)據(jù)庫及編程環(huán)境等一系列的技術在今天都被人們廣泛應用與各行各業(yè)中。[4]
3 大數(shù)據(jù)測試技術
3.1 大數(shù)據(jù)測試流程
大數(shù)據(jù)測試的主要流程如圖1。
大數(shù)據(jù)的分析處理流程主要可分為5個階段:
1)采集。大數(shù)據(jù)在分析處理中的采集是運用其中的數(shù)據(jù)庫來進行接收來自客戶端的數(shù)據(jù),比如Web客戶端、App客戶端等等,并且客戶端用戶可以通過大數(shù)據(jù)中的這些數(shù)據(jù)庫對信息進行收集、查詢、處理等工作。[5]比如傳統(tǒng)的MySQL數(shù)據(jù)庫及Oracle數(shù)據(jù)庫是用來保存一些日常數(shù)據(jù)的,除了這些數(shù)據(jù)庫,Redis等一些NoSQL數(shù)據(jù)庫也可采集數(shù)據(jù)。大數(shù)據(jù)分析處理中采集的特點就是在并發(fā)數(shù)高。
2)導入、預處理。大數(shù)據(jù)處理過程中采集時擁有很多數(shù)據(jù)庫,對于這么龐大的數(shù)據(jù)進行科學分析遠遠是不夠的,還是要將這些數(shù)據(jù)導入到一個大型的集中數(shù)據(jù)庫,在此之前將其進行簡單的預處理。其中Sqoop和Flunm等一些工具就可以將這些數(shù)據(jù)進行互相操作。其中導入和預處理的特點就是導入量大,每秒可導入百兆或者千兆。
3)統(tǒng)計分析數(shù)據(jù)。將大量的數(shù)據(jù)導入到一個大型的集中數(shù)據(jù)庫中,通過使用分布式技術來對其中的數(shù)據(jù)進行分析、匯總等。統(tǒng)計分析數(shù)據(jù)的特點就是導入量大,其查詢數(shù)據(jù)量也大,請求較多。Hadoop此產(chǎn)品是使用最多的。
4)數(shù)據(jù)挖掘。與前面三個階段不同的是,數(shù)據(jù)挖掘并沒有預先設定其主題,而是在現(xiàn)有的數(shù)據(jù)中進行各種計算,以達到預算的效果,從而達到復雜數(shù)據(jù)分析的要求。比較有名的算法主要有K-means(聚類)、SVM(統(tǒng)計學習)及naive Bayes(分類),工具主要有Mahout。[6]數(shù)據(jù)挖掘的過程中的特點是看數(shù)據(jù)中文件的格式是否都達到要求。
5)數(shù)據(jù)分析。當大數(shù)據(jù)測試分析過程結束之后,產(chǎn)生的數(shù)據(jù)會被自動的移至其倉庫中或者系統(tǒng)中。然后對其中的數(shù)據(jù)進行分析,這就是大數(shù)據(jù)處理技術所要解決的問題。數(shù)據(jù)分析過程的特點是要在具體的數(shù)據(jù)下才能使業(yè)務更加流暢,并且能夠有效的分析其數(shù)據(jù),從而得出科學有效的策略。
4 大數(shù)據(jù)測試技術未來發(fā)展前景的分析
對于我國社會技術的發(fā)展現(xiàn)狀來看,大數(shù)據(jù)技術在未來的發(fā)展前景也是非??捎^的,大數(shù)據(jù)技術在我國各行各業(yè)中都得到了廣泛的應用。目前我國大數(shù)據(jù)技術公司有三種:技術類、創(chuàng)新類、數(shù)據(jù)類,但是不斷是那種數(shù)據(jù)公司,對于我國社會發(fā)展都是不可缺少的。其中技術類大數(shù)據(jù)公司被我們所熟知的主要是一些IT公司,他們注重的是數(shù)據(jù)的處理;創(chuàng)新類大數(shù)據(jù)公司注重的是富有想象力的員工,能夠面對相同數(shù)據(jù)擁有自己獨特的簡介,并且能夠有所創(chuàng)新;數(shù)據(jù)類大數(shù)據(jù)公司是與我們人類日常生活相關的,比如一些客戶端(新浪、百度、淘寶等),或者一些大型的連鎖企業(yè)、金融企業(yè)等,這些企業(yè)都有大量的數(shù)據(jù),不過其中有價值的信息也比較容易被忽略。[7]不管是哪類數(shù)據(jù)公司,大數(shù)據(jù)技術會在今后社會發(fā)展中越來越好。
1)在云計算基礎上的數(shù)據(jù)分析測試平臺將會更加完善
在社會飛速發(fā)展的這幾年,其中云計算技術發(fā)展也甚是迅速,在此基礎上其的應用范圍也越來越大,這也包括大數(shù)據(jù)技術在云計算技術中的應用。云技術的發(fā)展也為大數(shù)據(jù)技術的發(fā)展提供了一個較好地處理平臺和技術,還為其提供了全新的計算方式、更大的存儲空間及資源等等。另外,創(chuàng)新后的云計算技術也具備相對豐富的IT資源,這也為大數(shù)據(jù)技術的發(fā)展提供了良好的資源,在兩者都不斷創(chuàng)新的基礎上,大數(shù)據(jù)技術平臺也會日益成熟,其處理水平也會得到明顯的提升。
2)大數(shù)據(jù)技術中的數(shù)據(jù)分析將會進一步發(fā)展
在大數(shù)據(jù)技術分析處理中,數(shù)據(jù)分析有著重要的地位,隨著社會的發(fā)展,其也將會逐漸成為大數(shù)據(jù)技術中的核心技術。大數(shù)據(jù)技術主要是對大量數(shù)據(jù)進行智能處理,從其中獲取有效的信息,要想在今后的發(fā)展中實現(xiàn)此功能,就要對數(shù)據(jù)進行分析處理。此過程則是數(shù)據(jù)分析的基礎,所以數(shù)據(jù)分析在今后的創(chuàng)新發(fā)展中會得到進一步的發(fā)展,其大數(shù)據(jù)測試技術也會得到創(chuàng)新及發(fā)展。[8]
5 結束語
總而言之,隨著我國社會經(jīng)濟及技術的不斷發(fā)展與創(chuàng)新,信息化時代也將到來,大數(shù)據(jù)技術也稱為了我國人民在日常生活中不可缺少的一部分,在我國各行各業(yè)的發(fā)展中都有著重要的作用。在互聯(lián)網(wǎng)技術和云計算技術發(fā)展的促進中,大數(shù)據(jù)技術在未來的發(fā)展也將更加智能、先進,也將會涉及我國更多的行業(yè)領域,為我國人民生活中創(chuàng)造出更大的便利,為我國科技的創(chuàng)新及發(fā)展提供新的技術。
參考文獻:
[1] 李鵬飛, 盧瑾, 辛一. 基于專利的大數(shù)據(jù)技術發(fā)展情報分析及戰(zhàn)略研究[J]. 情報雜志, 2014(9): 45-50.
[2] 王驍. 基于Hadoop大數(shù)據(jù)平臺資源及用戶行為檢測技術的研究[D]. 北京: 北京交通大學, 2015.
[3] 李紀舟, 葉小新, 丁云峰, 等. 大數(shù)據(jù)關鍵技術、主要特點及發(fā)展趨勢[J]. 電信技術研究, 2013(3): 58-64.
[4] 代亮, 陳婷, 許宏科, 等. 大數(shù)據(jù)測試技術研究[J]. 計算機應用研究, 2014, 31(6): 1606-1611.
[5] 吳韶鴻. 大數(shù)據(jù)開源技術發(fā)展研究[J]. 現(xiàn)代電信科技, 2014(8): 17-22.
[6] 郭麗娟. 大數(shù)據(jù)的特點及未來發(fā)展趨勢[J]. 信息通信, 2014(10): 195-195.
[7] 趙濤. 基于云計算的軟件測試技術探索與研究[D]. 西安: 西安電子科技大學, 2014.
[8] 梁志國. 大數(shù)據(jù)時代計量校準理論與技術的發(fā)展展望[J]. 計測技術, 2015, 35(6): 6-9.