蔡武越
(教育部考試中心,北京 100084)
網(wǎng)上評卷海量圖像數(shù)據(jù)云存儲技術(shù)應(yīng)用探析
蔡武越
(教育部考試中心,北京 100084)
針對目前國家教育考試網(wǎng)上評卷海量圖像文件的存儲管理問題,本文提出基于Hadoop的NoSqL云存儲方案,提高評卷海量數(shù)據(jù)安全性和存儲可靠性,構(gòu)建分布式、可擴展、高可用性和可靠性的云存儲平臺。通過分析基于Hadoop平臺云計算體系和基于HDFS/HBase的云存儲技術(shù),結(jié)合網(wǎng)上評卷海量圖像文件的存儲需求和實際,規(guī)劃基于Hadoop/HDFS/HBase的國家教育考試云存儲中心的數(shù)據(jù)交換平臺,并對在國家教育考試中深入應(yīng)用此平臺給出設(shè)計方案,提出發(fā)展愿景。
教育考試;網(wǎng)上評卷;海量圖像數(shù)據(jù);云存儲
網(wǎng)上評卷是教育考試信息化、數(shù)字化趨勢推動下的現(xiàn)代化評卷管理模式,改變了過去紙質(zhì)試卷評閱中難以解決的效率、質(zhì)量和可控制性等關(guān)鍵問題。近年來,國家教育考試全部采用了網(wǎng)上評卷模式。網(wǎng)上評卷的基礎(chǔ)性工作之一就是將考生紙介質(zhì)答卷掃描成為符合評閱要求的電子圖片。在大規(guī)??荚囍?,一個考試項目一次考試就需要存儲、處理上億個圖像文件。由于網(wǎng)上評卷圖像文件屬于非結(jié)構(gòu)化數(shù)據(jù),使用關(guān)系數(shù)據(jù)庫往往會造成數(shù)據(jù)導(dǎo)入、導(dǎo)出、編輯修改的負擔(dān),所以目前大多數(shù)應(yīng)用系統(tǒng)中使用文件方式直接存儲在操作系統(tǒng)的管理平臺上,其安全性、可操作性都存在隱患。
針對網(wǎng)上評卷的海量圖像文件及相關(guān)數(shù)據(jù)的管理問題,本文提出應(yīng)用NoSqL云存儲進行管理的解決方案,可以較好地解決數(shù)據(jù)可靠性、傳遞效率、可檢索性、計算處理等方面的問題,為今后實現(xiàn)全國性網(wǎng)絡(luò)化存儲管理探索可行的技術(shù)模式。
目前,在海量數(shù)據(jù)處理方面已經(jīng)形成了很多專業(yè)技術(shù),最為突出的是NoSqL數(shù)據(jù)庫技術(shù)。NoSqL數(shù)據(jù)庫技術(shù)大多采用鍵值方式存儲技術(shù)存儲非結(jié)構(gòu)化數(shù)據(jù),解決一般關(guān)系數(shù)據(jù)庫中的格式?jīng)_突和處理效率問題。同時,在處理超大規(guī)模數(shù)據(jù)時,需要采用分布式存儲方式,為保障可靠性、彈性伸縮、標準化服務(wù)等特性需要在云平臺上構(gòu)建存儲系統(tǒng)。
云計算(cloud computing)是結(jié)合了分布式、并行計算、網(wǎng)絡(luò)存儲服務(wù)、虛擬化資源、負載均衡等技術(shù)提供的網(wǎng)絡(luò)計算服務(wù),其目標是實現(xiàn)資源共享、定制服務(wù)和高性能網(wǎng)絡(luò)應(yīng)用服務(wù)[1]。實質(zhì)上,云計算的關(guān)鍵技術(shù)之一就是解決海量數(shù)據(jù)的存儲問題。當(dāng)云計算系統(tǒng)運算和處理的核心是大量數(shù)據(jù)的存儲和管理時,云計算系統(tǒng)中就需要配置大量的存儲設(shè)備并建立高可靠性、高效率和統(tǒng)一服務(wù)的存儲服務(wù),而云計算服務(wù)的主要目標之一就是提供可定制、高可靠性的存儲服務(wù)。云存儲是一個以數(shù)據(jù)存儲和管理為核心的云計算系統(tǒng),使用云存儲技術(shù)解決大規(guī)模數(shù)據(jù)存儲和計算處理是今后很多應(yīng)用領(lǐng)域的海量數(shù)據(jù)解決方案,也是數(shù)據(jù)技術(shù)的未來發(fā)展方向。
云存儲是云計算平臺提供的最基本的服務(wù),通過使用虛擬化和分布式技術(shù),將大量存儲資源虛擬化,提供可定制和高可靠性服務(wù),大大改善了過去單獨劃分使用存儲所造成的資源共享、可擴展和可靠性問題,未來數(shù)據(jù)的存儲方式都會逐漸轉(zhuǎn)向云存儲。在各類數(shù)據(jù)存儲中,海量小文件(小于1MB的文件)是各類系統(tǒng)中遇到的最關(guān)鍵的存儲難題,超大規(guī)模網(wǎng)站的圖片資源、網(wǎng)頁等都面臨存儲和檢索問題,使用NoSqL技術(shù)可有效解決這類問題。將NoSqL數(shù)據(jù)庫部署在云平臺中可以實現(xiàn)較為完美的技術(shù)結(jié)合。
云存儲(cloud storage)通過集群應(yīng)用、網(wǎng)格技術(shù)和分布式文件系統(tǒng)等功能完成海量數(shù)據(jù)的存儲和管理[2]。云存儲的核心是應(yīng)用軟件與存儲設(shè)備相結(jié)合,通過應(yīng)用軟件來實現(xiàn)存儲設(shè)備向存儲服務(wù)的轉(zhuǎn)變。將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務(wù)訪問功能。與傳統(tǒng)的存儲設(shè)備相比,云存儲不僅僅是一個硬件,而是一個網(wǎng)絡(luò)設(shè)備、存儲設(shè)備、服務(wù)器、應(yīng)用軟件、公用訪問接口、接入網(wǎng)和客戶端程序等多個部分組成的復(fù)雜系統(tǒng)[3]。
通常,從云存儲的技術(shù)實現(xiàn)層次上看,從底層向上,可以分為存儲層、基礎(chǔ)管理層、應(yīng)用接口層、訪問層四個層次,如圖1所示。
圖1 云存儲系統(tǒng)的結(jié)構(gòu)模型
將數(shù)據(jù)存儲在文件中是較為傳統(tǒng)的方式,目前很多中小型網(wǎng)站和操作系統(tǒng)中都使用文件存儲各類數(shù)據(jù)。云平臺中也提供了各類文件存儲技術(shù),現(xiàn)有的云存儲分布式文件系統(tǒng)包括GFS、HDFS、Lustre、FastDFS、PVFS、GPFS、PFS、Ceph和TFS等。它們的許多設(shè)計理念類似,同時也各有特色。GFS(Google File System)是Google公司為了滿足本公司需求而開發(fā)的基于Linux的專有分布式文件系統(tǒng)。Lustre由SUN公司開發(fā)和維護,是一個集群文件系統(tǒng),規(guī)模大、安全可靠,具備高可用性,目前已經(jīng)運用在一些領(lǐng)域,例如HP SFS產(chǎn)品等。它的下一代集群文件系統(tǒng)可以支持超過10 000個節(jié)點,可以存儲數(shù)以PB的數(shù)據(jù)量。HDFS(Hadoop Distributed File System)主要用來存儲大文件。HDFS在存儲小文件時,通常的做法是先將很多小文件合并成一個大文件再保存到HDFS,同時為這些小文件建立索引,以便進行快速存取。典型技術(shù)包括Hadoop自帶的Archive、SequenceFile,但均需要用戶自己編寫程序,實現(xiàn)小文件的合并。TFS(Taobao File System)對HDFS的元數(shù)據(jù)存儲架構(gòu)進行了調(diào)整。在元數(shù)據(jù)節(jié)點僅存放數(shù)據(jù)塊與數(shù)據(jù)節(jié)點的映射,而將文件與數(shù)據(jù)塊的映射關(guān)系保存到文件名,不再需要在元數(shù)據(jù)節(jié)點同時存放這兩類映射,在系統(tǒng)層面解決小文件問題。但由于文件名包含數(shù)據(jù)塊信息,為文件和數(shù)據(jù)塊建立了強關(guān)系,導(dǎo)致數(shù)據(jù)塊使用僵硬,TFS在文件的命名、移動方面帶來新的問題,限制了其應(yīng)用范圍。
以GFS、HDFS為代表的適用于流式訪問大文件的分布式存儲系統(tǒng),若直接用來存儲圖片,由于元數(shù)據(jù)膨脹,在擴展性和性能方面均存在嚴重問題。文件系統(tǒng)本身僅能用來存儲文件,不能進行信息管理和進一步的數(shù)據(jù)處理分析。
NoSqL是Not Only SqL的簡稱,其目標是設(shè)計實現(xiàn)一種超出傳統(tǒng)關(guān)系型數(shù)據(jù)庫(流行的名稱是“Sql數(shù)據(jù)庫”)的數(shù)據(jù)管理技術(shù),管理互聯(lián)網(wǎng)上海量數(shù)據(jù)尤其是海量小文件。在各類NoSqL技術(shù)中,Hadoop平臺的HBase是較為成熟和流行的系統(tǒng),由Apache開源社區(qū)開發(fā)提供[4]。
HBase是Apache的Hadoop項目的子項目。HBase是基于Hadoop的NoSqL數(shù)據(jù)庫,是Hadoop分布式文件存儲系統(tǒng)HDFS支撐下的NoSqL數(shù)據(jù)庫。相比單純文件系統(tǒng),HBase很容易做權(quán)限控制,因為和關(guān)系數(shù)據(jù)庫一樣,權(quán)限的授予和回收都使用grant和revoke,且HBase更容易做數(shù)據(jù)分析和數(shù)據(jù)挖掘。某些場景下,也可以在Hive中創(chuàng)建外部表來訪問HBase表中的數(shù)據(jù),并可用Sqoop和關(guān)系型數(shù)據(jù)庫導(dǎo)入導(dǎo)出。如圖2所示。
圖2 Hadoop生態(tài)體系
網(wǎng)上評卷圖像文件是評卷信息系統(tǒng)的基礎(chǔ)數(shù)據(jù),具有非結(jié)構(gòu)化、大數(shù)據(jù)的基本特征。針對目前可預(yù)計的一定時間范圍內(nèi),其存儲處理的數(shù)據(jù)量可以達到海量大數(shù)據(jù)的程度。以碩士研究生招生考試試卷掃描圖像及其考生信息數(shù)據(jù)為例,某東部省2017年度報名人數(shù)為18萬余人,其中報本省院校的有9萬余人,按照每人考試科目是4科、每科試卷掃描圖像為2~4個文件、每個文件大小為幾十KB到幾百KB計算,圖像容量大小約為0.21TB,全國總數(shù)據(jù)量可達到6.3TB。其中文件數(shù)目多,在操作系統(tǒng)環(huán)境下小圖片文件的存儲、管理較為困難。碩士研究生招生考試還是國家教育考試中規(guī)模較小的考試,其他考試數(shù)據(jù)量會更大,同時上述計算并沒有包括整圖、分圖、軌跡記錄等重復(fù)冗余性存儲,隨著時間的增加,歷史數(shù)據(jù)量會爆炸性增長,海量數(shù)據(jù)存儲管理將是亟須解決的問題。
從教育考試領(lǐng)域管理大發(fā)展來看,信息系統(tǒng)的統(tǒng)一整合和集中控制越來越重要,全國信息匯總與區(qū)域數(shù)據(jù)分發(fā)將成為常態(tài)化任務(wù)。例如,碩士研究生招生考試的特點要求各省之間做數(shù)據(jù)交換,目前的方式是人工攜帶數(shù)據(jù),集中拷貝后分發(fā),效率較低,且管理過程復(fù)雜,工作量龐大。各省獲取到數(shù)據(jù)后還得重新導(dǎo)入,無法實時、自動交換和核查圖像,且歷年數(shù)據(jù)在跨系統(tǒng)應(yīng)用中存在障礙,難以完成進一步的數(shù)據(jù)挖掘和應(yīng)用。
采用Hadoop與HBase技術(shù),因為基于內(nèi)容的海量圖像框架,不僅可以解決海量圖像的存儲與數(shù)據(jù)傳輸問題,還能將原本設(shè)計的圖像檢索算法直接移植到分布式環(huán)境中并行處理,依靠MapReduce集群的并行計算能力,實現(xiàn)對海量圖像的檢索。
網(wǎng)上評卷海量圖像文件存儲平臺的基本需求是滿足數(shù)據(jù)管理和數(shù)據(jù)交換,具體包括以下幾個方面:(1)存儲系統(tǒng)需要支持應(yīng)用系統(tǒng)對數(shù)據(jù)的存取及檢索調(diào)用,使目前的文件管理狀態(tài)能夠過渡到數(shù)據(jù)庫管理狀態(tài)。(2)數(shù)據(jù)存取效率能夠滿足應(yīng)用系統(tǒng)的需求,在大規(guī)模評卷系統(tǒng)(3 000~5 000位評卷教師同時評閱)中能夠應(yīng)對圖像的并發(fā)調(diào)用。(3)滿足對數(shù)據(jù)的安全性、可靠性保存要求,在管理權(quán)限控制、底層硬件故障、異地容災(zāi)等方面具有技術(shù)支持。(4)解決數(shù)據(jù)切分、交換的問題,尤其是數(shù)據(jù)遷移的效率問題。(5)滿足系統(tǒng)的彈性擴展需求。隨著數(shù)據(jù)信息總量的擴大,存儲系統(tǒng)為了滿足需求必須不斷地動態(tài)擴大存儲規(guī)模。這使得存儲系統(tǒng)必須能夠支持新的存儲節(jié)點不斷加入,確保數(shù)據(jù)在各個存儲節(jié)點的均勻分布,滿足存儲空間以及網(wǎng)絡(luò)帶寬的負載均衡。(6)在海量的數(shù)據(jù)信息中,高效查找定位目標數(shù)據(jù)是提高系統(tǒng)性能的關(guān)鍵。存儲系統(tǒng)必須可以高效完成數(shù)據(jù)尋址,最大限度地減少平均響應(yīng)時間,提供數(shù)據(jù)服務(wù)的吞吐量[5]。
除上述需求之外,存儲系統(tǒng)應(yīng)該能夠支撐具有并行和分布式計算能力的開發(fā)平臺,實現(xiàn)數(shù)據(jù)的動態(tài)處理、數(shù)據(jù)分析、智能計算與挖掘,為數(shù)據(jù)的進一步應(yīng)用奠定基礎(chǔ)。
HBase是一個分布式的、持久的、強一致性的數(shù)據(jù)存儲系統(tǒng),具有優(yōu)異的讀寫性能。它是列存儲數(shù)據(jù)庫,底層通過HDFS做數(shù)據(jù)存儲,更支持MapReduce的批量式計算和隨機查詢。近年來使用HBase的用戶數(shù)量迅猛增長,主要原因在于HBase產(chǎn)品變得更加可靠,性能更好,并且產(chǎn)生了更多成功的應(yīng)用領(lǐng)域和更龐大的用戶群體,而且越來越多的公司開始投入大量資源來支持和使用它。隨著越來越多的商業(yè)服務(wù)供應(yīng)商提供支持,大量用戶更加自信地將HBase應(yīng)用于關(guān)鍵數(shù)據(jù)管理。
HBase存儲關(guān)鍵大規(guī)模數(shù)據(jù)具有以下幾個方面的優(yōu)勢:(1)高可靠性。HBase基于Bigtable技術(shù)開發(fā),運行在Hadoop上,其基礎(chǔ)數(shù)據(jù)管理的平臺是HDFS,在文件管理層做了分布式數(shù)據(jù)冗余,具有高可靠性。很多大數(shù)據(jù)用戶的應(yīng)用案例也證明了其服務(wù)于海量數(shù)據(jù)的可靠性能力。(2)高并發(fā)讀寫。使用日志文件(HLOG)和內(nèi)存存儲將隨機寫轉(zhuǎn)換成順序?qū)?,保證穩(wěn)定的數(shù)據(jù)插入速率;讀寫?yīng)毩?,這兩種操作沒有沖突。(3)高可用伸縮性。支撐能力可以隨服務(wù)器增長而線性增長,表的數(shù)據(jù)表按鍵值范圍自動分片,分布在不同的機器上,實現(xiàn)自動負載均衡。(4)讀寫的低延遲。由于采用了數(shù)據(jù)按列存儲和并發(fā)處理技術(shù),數(shù)據(jù)讀寫的延遲很低,適于大規(guī)模訪問數(shù)據(jù)的應(yīng)用系統(tǒng)。(5)低成本實現(xiàn)。當(dāng)數(shù)據(jù)量變得越來越多時,數(shù)據(jù)存儲管理會形成越來越高的成本需求,使用傳統(tǒng)的專業(yè)存儲設(shè)備其成本和升級費用將難以承受。而HBase基于Linux操作系統(tǒng)和分布式文件系統(tǒng)HDFS,支持較多壓縮算法,可以在廉價的PC上實現(xiàn),且成本較低[6]。
通過上述對HBase數(shù)據(jù)存儲系統(tǒng)特性的分析,可以清楚地看到,該系統(tǒng)能夠滿足前面提到的網(wǎng)上評卷圖像文件管理的各種需求,尤其是Hadoop平臺的數(shù)據(jù)處理開發(fā)支撐能力,也能夠為進一步開展數(shù)據(jù)分析提供支持?;贖adoop和HDFS的NoSqL數(shù)據(jù)庫系統(tǒng),HBase的系統(tǒng)架構(gòu)和數(shù)據(jù)存儲管理方式如圖3所示[7]。
3.3.1 數(shù)據(jù)存儲工作模式
使用HBase存儲網(wǎng)上評卷圖像文件的工作方式可以分為直接和間接兩種。如果建立統(tǒng)一的分布式平臺,從圖像掃描采集、分割、匯總提交、支撐網(wǎng)上評卷系統(tǒng)、歸檔全過程進行管理,則可以只在HBase中完成圖像數(shù)據(jù)的存儲,可以稱為直接模式。如果結(jié)合目前的各類前段獨立系統(tǒng),將數(shù)據(jù)從各省采集系統(tǒng)中轉(zhuǎn)入HBase,然后再分發(fā)到各個系統(tǒng)中,則稱為間接模式[8]。
圖3 HBase/HDFS/Hadoop數(shù)據(jù)存儲系統(tǒng)結(jié)構(gòu)
HBase更適合管理海量圖像小文件。在存儲格式上,由于數(shù)據(jù)和坐標都是以字節(jié)數(shù)組的形式存儲(視為字符串),可以支持存儲任意的數(shù)據(jù)類型。同時,HBase是基于HDFS的簡單結(jié)構(gòu)化數(shù)據(jù)分布式存儲技術(shù),被用來存儲圖片文件時,具有系統(tǒng)層小文件合并、全局名字空間等多種優(yōu)勢。HBase是采用面向列的存儲模型,按列簇來存儲和處理數(shù)據(jù),即同一列簇的數(shù)據(jù)會連續(xù)存儲。HBase在存儲每個列簇時,會以Key-Value的方式來存儲每行單元格(Cell)中的數(shù)據(jù),形成若干數(shù)據(jù)塊,然后把數(shù)據(jù)塊保存到HFile中,最后把HFile保存到后臺的HDFS上。HBase數(shù)據(jù)塊限制為64MB,由于用單元格存儲圖片小文件的內(nèi)容,存儲數(shù)據(jù)的過程實際上隱含了把圖片小文件打包的過程。若對于所有小于64M的圖片均進行打包,則會加大打包文件的過程資源損耗,因此需要定一個閾值,當(dāng)文件大小超過該閾值后進行打包操作,否則直接通過namenode進行上傳。最新版本的Hadoop支持文件追加append操作,采用了“標記法”對Mapfile打包小文件時的增刪改查進行處理,從而能保證圖片存儲訪問的效率[9]。
鑒于目前應(yīng)用前端整合的難度和系統(tǒng)的演變性,應(yīng)該先采用間接模式進行數(shù)據(jù)管理,逐漸過渡到直接模式。間接管理模式下圖像數(shù)據(jù)的存儲處理過程如下:(1)海量圖片小文件處理模塊從用戶接口接收用戶上傳的文件。(2)處理模塊通過合并算法將符合條件的海量小文件進行合并處理。(3)處理模塊通過文件寫入模塊將處理后的文件上傳至云存儲,數(shù)據(jù)分發(fā)階段向用戶分發(fā)數(shù)據(jù)。(4)云存儲將待下載文件通過文件讀出模塊交付到海量小文件處理模塊。(5)處理模塊通過分離算法將經(jīng)過合并處理的文件進行分離處理。(6)處理模塊將處理后的文件通過用戶接口發(fā)給用戶。
3.3.2 數(shù)據(jù)分發(fā)工作方式
由于答題卡圖像采集數(shù)據(jù)和網(wǎng)上評卷等系統(tǒng)運行在省平臺,各省之間需要進行大規(guī)模的數(shù)據(jù)交換。在數(shù)據(jù)交換過程中,教育部考試中心(以下簡稱考試中心)可以應(yīng)用云存儲系統(tǒng)的大規(guī)模處理和高可靠性建立交換數(shù)據(jù)平臺,各省考試院作為使用云存儲系統(tǒng)用戶進行數(shù)據(jù)提供和提取。云存儲系統(tǒng)能夠有效創(chuàng)建、管理、維護中心交換區(qū)和各省云用戶區(qū)數(shù)據(jù)??荚囍行臑樵朴脩艚⒎?wù)系統(tǒng),檢查接收各省用戶數(shù)據(jù),并進行數(shù)據(jù)的分發(fā)和相應(yīng)處理??荚囍行膶υ拼鎯ζ脚_進行統(tǒng)一規(guī)劃,各省只要把需要分發(fā)的信息表的查詢和導(dǎo)出權(quán)限授予合適的用戶,即可實現(xiàn)初步的分發(fā)控制,如圖4所示。
從互聯(lián)網(wǎng)和云計算技術(shù)的發(fā)展趨勢看,云存儲會逐漸代替領(lǐng)域用戶群的隔離式本地存儲,計算處理也將會逐漸轉(zhuǎn)移到云計算方式。因此,從教育考試數(shù)據(jù)管理的長期應(yīng)用發(fā)展來看,建立云存儲體系勢在必行。在云存儲平臺中,考試中心和各省用戶都將作為云存儲的終端用戶,各個應(yīng)用系統(tǒng)將數(shù)據(jù)共享或分區(qū)管理在云平臺上,通過嚴格的權(quán)限限制和加密保護,提供檢索、計算、上傳、下載等處理功能,以達到有效管理考試數(shù)據(jù)信息的目的。
基于Hadoop/HDFS/HBase的云存儲是一種動態(tài)可調(diào)整、基于互聯(lián)網(wǎng)的存儲解決方案。云存儲可以讓用戶很容易增加存儲容量,而且不需要購買、安裝和管理任何存儲基礎(chǔ)設(shè)施,卻提供了一個完善的備份、容災(zāi)數(shù)據(jù)中心。采用分布式存儲比采用共享存儲成本節(jié)省60%以上,擴展性好,元數(shù)據(jù)字段可根據(jù)應(yīng)用情況靈活添加[10],系統(tǒng)存儲容量、并行處理能力可按需平滑擴展。由HBase后臺處理圖片打包,避免了二次開發(fā);系統(tǒng)架構(gòu)統(tǒng)一、簡單,易管理維護;支持根據(jù)圖片文件的多個屬性進行綜合檢索;可自動發(fā)現(xiàn)文件讀寫錯誤,并進行糾正。
圖4 教育部考試中心與省數(shù)據(jù)交換系統(tǒng)示意圖
云計算技術(shù)目前已經(jīng)成為互聯(lián)網(wǎng)上的主流應(yīng)用支撐平臺,各大互聯(lián)網(wǎng)公司都積極追逐云技術(shù)及其應(yīng)用,各類著名的互聯(lián)網(wǎng)應(yīng)用系統(tǒng)和網(wǎng)站也都采用云計算平臺進行構(gòu)建,應(yīng)用云計算是未來信息系統(tǒng)的發(fā)展方向和趨勢。使用云存儲技術(shù)及流行的非結(jié)構(gòu)化平臺存儲網(wǎng)上評卷海量數(shù)據(jù)具有統(tǒng)一性、標準化和適應(yīng)主流技術(shù)的優(yōu)勢,目前由于云存儲技術(shù)復(fù)雜性較高,可選擇的系統(tǒng)平臺也較多,對各類技術(shù)的理解和掌握存在一定差異,導(dǎo)致考試系統(tǒng)(特別是網(wǎng)上評卷系統(tǒng))在應(yīng)用云計算技術(shù)提升業(yè)務(wù)支撐水平及運維能力方面還處于研究和探索狀態(tài)。但是,隨著數(shù)據(jù)的積累和對系統(tǒng)信息處理、過程數(shù)據(jù)保護、全程化管理等業(yè)務(wù)的要求,教育考試數(shù)據(jù)量正在迅速增長,對數(shù)據(jù)管理能力和安全可靠性要求日益提高,傳統(tǒng)的單點或本地數(shù)據(jù)管理技術(shù)方式已遠遠不能滿足其要求。從國家教育考試整體領(lǐng)域應(yīng)用層面統(tǒng)一規(guī)劃和利用好計算資源,采用分布式云存儲降低教育考試領(lǐng)域信息化成本,對提高信息處理能力和保障信息安全具有巨大的推動作用,對進一步提升國家教育考試信息化水平具有戰(zhàn)略意義。
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.
[2]楊傳輝.大規(guī)模分布式存儲系統(tǒng)[M].北京:機械工業(yè)出版社,2016.
[3]李智慧.大型網(wǎng)站技術(shù)架構(gòu)[M].北京:電子工業(yè)出版社,2013.
[4]范東來.Hadoop海量數(shù)據(jù)處理[M].北京:人民郵電出版社,2016.
[5]彭建烽,魏文國,鄭東煒,等.基于Hadoop的海量小文件合并的研究與設(shè)計[J].廣東技術(shù)師范學(xué)院學(xué)報,2016,37(11).
[6]施磊磊,施化吉,束長波,等.基于Hadoop和HBase的分布式索引模型的研究[J].信息技術(shù),2015(6).
[7]孫趙旭.Hadoop平臺下基于HBase的海量數(shù)據(jù)處理研究[D].桂林:桂林理工大學(xué),2014.
[8]GEORGE L.HBase權(quán)威指南[M].代志遠,劉佳,蔣杰,譯.北京:人民郵電出版社,2013.
[9]葛微,羅圣美,周文輝,等.HiBase:一種基于分層式索引的高效HBase查詢技術(shù)與系統(tǒng)[J].計算機學(xué)報,2016(1):140-153.
[10]賀正紅,周婭,文締堯,等.面向HBase的大規(guī)模數(shù)據(jù)加載研究[J].計算機系統(tǒng)應(yīng)用,2016,25(6):231-237.
Exploratory Analysis of the Application of Cloud Storage Technology for Massive Online Scoring Image Data
CAI Wuyue
(National Education Examinations Authority,Beijing 100084,China)
In view of the storage and management problem of massive image data files in national education examination online marking system,a cloud storage solution is introduced in this paper,which is aimed to solve the issues on security and reliability and to create a distributed,scalability,high-availability and high-reliability platform.In light of analysis of Hadoop cloud computing system and HDFS/HBase cloud storage technology,based on the requirement of the storage for massive online scoring image files,a data exchange platform is proposed for the national education test cloud storage center based on Hadoop/HDFS/HBase.Ultimately,a plan as well as an attractive prospect is outlined for an in-depth application of this platform in national education examinations.
Education Examinations;Online Scoring;Massive Image Data;Cloud Storage
G405
A
1005-8427(2017)06-0048-7
10.19360/j.cnki.11-3303/g4.2017.06.008
(責(zé)任編輯:陳寧)
蔡武越(1974—),男,教育部考試中心,工程師。