王莉 張勇
摘? 要:圖像識(shí)別及其圖像修復(fù)技術(shù)在目前的數(shù)字化領(lǐng)域應(yīng)用非常廣泛,在金融、安防領(lǐng)域尤為突出。因此,從經(jīng)濟(jì)和實(shí)用性角度出發(fā)基于大數(shù)據(jù)的圖像修復(fù)技術(shù)有著廣闊的應(yīng)用前景。但大數(shù)據(jù)環(huán)境下復(fù)雜的數(shù)據(jù)存儲(chǔ)是數(shù)據(jù)圖像修復(fù)的關(guān)鍵,如何建立一個(gè)高效、安全、高容量的基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)庫(kù),是數(shù)據(jù)庫(kù)建立需要考慮的關(guān)鍵問(wèn)題。下文從數(shù)據(jù)庫(kù)架構(gòu)的構(gòu)成、應(yīng)用目的、數(shù)據(jù)量大小、訪問(wèn)量、安全要求等各個(gè)角度研究和討論圖像數(shù)據(jù)庫(kù)的建立,力求使數(shù)據(jù)庫(kù)建立在安全、合理、流暢的數(shù)據(jù)庫(kù)架構(gòu)之上,達(dá)到最優(yōu)的數(shù)據(jù)庫(kù)架構(gòu)模型。
關(guān)鍵詞:圖像識(shí)別;圖像處理;大數(shù)據(jù);架構(gòu)
中圖分類(lèi)號(hào):TP392? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Design and Implementation of Image Database?Architecture Based on Big Data Platform
WANG Li,ZHANG Yong
(Department of Computer Information,Suzhou Vocational and Technological College,Suzho 234101,China)
Abstract:Image recognition and image restoration technology are widely used in the current digital fields,especially in the fields of finance and security.Therefore,from the perspective of economy and practicability,image restoration technology based on big data has broad application prospects.However,complex data storage in big data environment is the key to data image restoration.How to build an efficient,safe and high-capacity database based on big data platform is the key issue to be considered in database establishment. In this paper, the establishment of image database is studied and discussed from the aspects of the structure of database,application purpose,data volume,access volume,security requirements and so on,in order to build the database based on a safe,reasonable and smooth database architecture and to achieve the optimal database architecture model.
Keywords:image recognition;image processing;big data;architecture
1? ?引言(Introduction)
數(shù)據(jù)庫(kù)作為數(shù)字信息的載體在數(shù)字生活中起著極其重要的作用,無(wú)論是動(dòng)態(tài)網(wǎng)站設(shè)計(jì)、數(shù)據(jù)挖掘、大數(shù)據(jù)存儲(chǔ)等各個(gè)領(lǐng)域都很重要。數(shù)字圖像作為數(shù)字信息的表現(xiàn)形式有著其他數(shù)字信息不可比擬的特點(diǎn),存數(shù)量大、格式復(fù)雜、程序處理困難等都是其固有的屬性。因此,基于大數(shù)據(jù)平臺(tái)的圖像數(shù)據(jù)庫(kù)架構(gòu)的建設(shè)在整個(gè)平臺(tái)建設(shè)中顯得非常重要。
2? 圖像數(shù)據(jù)的分類(lèi)及特點(diǎn)(Classification and?characteristics of image data)
隨著數(shù)碼相機(jī)、掃描儀、視屏攝錄設(shè)備的廣泛應(yīng)用,越來(lái)越多的數(shù)字圖像數(shù)據(jù)大量產(chǎn)生,這些數(shù)據(jù)圖像因格和采集設(shè)備等的不同有著很大的差別,不同的格式及設(shè)備采集的圖像特點(diǎn)也不相同。
2.1? ?位圖數(shù)據(jù)
位圖數(shù)據(jù)由若干點(diǎn)陣構(gòu)成,每個(gè)點(diǎn)稱(chēng)為一個(gè)像素。文件大小與像素密集度有關(guān)。當(dāng)文件太大時(shí)處理速就會(huì)變慢,但點(diǎn)陣所表達(dá)的圖像色彩豐富、逼真,品質(zhì)較高。
2.2? ?JPEG圖像數(shù)據(jù)
JPEG是由國(guó)際標(biāo)準(zhǔn)組織(ISO)和國(guó)際電話(huà)電報(bào)咨詢(xún)委員會(huì)(CCITT)為靜態(tài)圖像所創(chuàng)建的第一個(gè)國(guó)際數(shù)字圖像壓縮標(biāo)準(zhǔn),其不僅可以提供有損壓縮也可以提供無(wú)損壓縮。比傳統(tǒng)的圖像壓縮方式有不可比擬的優(yōu)越性。其特點(diǎn)如下:一次將圖像由左到右、由上到下順序處理;當(dāng)圖像傳輸?shù)臅r(shí)間較長(zhǎng)時(shí),可將圖像分?jǐn)?shù)次處理,以從模糊到清晰的方式來(lái)傳送圖像[1];其壓縮出來(lái)的圖像可以在較低分辨率的設(shè)備上顯示出高分辨率的效果。
2.3? ?TIFF標(biāo)記圖像文件格式
TIFF支持可選壓縮、可擴(kuò)展格式許多可選功能,TIFF是廣泛支持的格式,尤其是在Macintosh計(jì)算機(jī)和基于Windows的計(jì)算機(jī)之間[2]。以任何顏色深度存儲(chǔ)單個(gè)光柵圖像,其缺點(diǎn)是TIFF在Web瀏覽器得不到支持,而且TIFF之間的文件兼容性也存在問(wèn)題。
2.4? ?PNG格式
PNG(Portable Network Graphics)是近幾年來(lái)網(wǎng)絡(luò)上比較流行的圖像格式。其優(yōu)點(diǎn)是目前保證最不失真的格式,存貯形式豐富,兼有GIF和JPG的色彩模式的特點(diǎn);其缺點(diǎn)是不支持動(dòng)畫(huà)應(yīng)用效果。
3 大數(shù)據(jù)數(shù)據(jù)庫(kù)設(shè)計(jì)與優(yōu)化(Design and? optimization of big data database)
3.1? ?數(shù)據(jù)庫(kù)架構(gòu)的設(shè)計(jì)
數(shù)據(jù)庫(kù)架構(gòu)是數(shù)據(jù)資源布置方式的統(tǒng)稱(chēng),一個(gè)合理的架構(gòu)可以提高數(shù)據(jù)的安全性和數(shù)據(jù)訪問(wèn)的速度。目前提供大數(shù)據(jù)訪問(wèn)的平臺(tái)提供商,廣泛采用B/S結(jié)構(gòu)的數(shù)據(jù)庫(kù)前端平臺(tái)搭建模式(圖1)。B/S結(jié)構(gòu)具有使用方便、成本低、適應(yīng)強(qiáng)等特點(diǎn),但這種基于動(dòng)態(tài)網(wǎng)站建設(shè)技術(shù)的數(shù)據(jù)平臺(tái)前端建立模式最大的缺點(diǎn)就是安全性不能得到很好的保障[3]。因此,在大數(shù)據(jù)平臺(tái)下數(shù)據(jù)庫(kù)的架構(gòu)設(shè)計(jì)必須采用相關(guān)的措施提高數(shù)據(jù)庫(kù)的安全性。
為了提高數(shù)據(jù)庫(kù)平臺(tái)的安全性,在數(shù)據(jù)庫(kù)核心層的外圍需采用多層控制機(jī)制,通常從平臺(tái)的使用、管理、控制、維護(hù)等方面數(shù)據(jù)庫(kù)架構(gòu)可由:產(chǎn)品層、接入層、網(wǎng)絡(luò)層、中間件、存儲(chǔ)層、運(yùn)維服務(wù)等幾個(gè)層級(jí)(圖2)。
各層的具體作用如下:
產(chǎn)品層:該層是數(shù)據(jù)庫(kù)架構(gòu)的硬件平臺(tái),平臺(tái)設(shè)備由服務(wù)商提供。主要負(fù)責(zé)整個(gè)架構(gòu)軟硬件設(shè)備的管理和使用。對(duì)于性能的要求與平臺(tái)硬件的構(gòu)成有關(guān),基本要求是平臺(tái)必須具備對(duì)整體架構(gòu)安全性、實(shí)用性、操控性的管理[4,5]。
接入層:接入層負(fù)責(zé)對(duì)外提供數(shù)據(jù)服務(wù),對(duì)于大數(shù)據(jù)平臺(tái),如果要提高服務(wù)品質(zhì),良好的接入層設(shè)計(jì)可以使數(shù)據(jù)得到高效的應(yīng)用。大數(shù)據(jù)平臺(tái)要面向眾多的使用對(duì)象,接入層是每個(gè)使用對(duì)象必須經(jīng)過(guò)的訪問(wèn)節(jié)點(diǎn)。接入層要提供有線(xiàn)、無(wú)線(xiàn)、云上數(shù)據(jù)等各種接入服務(wù)。如果從數(shù)據(jù)的安全性考慮,對(duì)眾多的接入請(qǐng)求,接口要建立足夠的安全保障機(jī)制。但如果復(fù)雜的安全保障機(jī)制建立在接口層,會(huì)使接入速度降低、服務(wù)品質(zhì)下降[6]。從大數(shù)據(jù)的使用初衷考慮在服務(wù)品質(zhì)和安全性這兩方面權(quán)衡,在接口層一般對(duì)安全性不做硬性要求,從而保證提供較高的服務(wù)品質(zhì)。
中間件:大數(shù)據(jù)的特點(diǎn)就是數(shù)據(jù)量大而復(fù)雜,如何使用戶(hù)快速、便捷地從海量數(shù)據(jù)獲取所需信息,是架構(gòu)設(shè)計(jì)必須考慮的。目前,多采用多語(yǔ)言支持、SQL二級(jí)索引等中間件來(lái)提高訪問(wèn)效率。另外,在中間件的下層多采用HBase面向列的開(kāi)源數(shù)據(jù)庫(kù)提供數(shù)據(jù)庫(kù)技術(shù)支持。
存儲(chǔ)層:該層作為數(shù)據(jù)的存儲(chǔ)空間的管理層是整個(gè)數(shù)據(jù)庫(kù)架構(gòu)的核心,目前采用Ali-HDFS、共享存儲(chǔ)OSS等管理數(shù)據(jù)資源,為數(shù)據(jù)保存提供高效組織方式[7]。
運(yùn)維服務(wù):大數(shù)據(jù)架構(gòu)的使用對(duì)象眾多,使用方式和使用習(xí)慣差異很大,平臺(tái)架構(gòu)運(yùn)行后會(huì)有很多問(wèn)題需要進(jìn)一步服務(wù)。只有在不斷的維護(hù)和改進(jìn)中平臺(tái)的功能才能更加完善[8]。現(xiàn)在平臺(tái)維護(hù)主要涉及全鏈路監(jiān)控、自動(dòng)運(yùn)維、資源調(diào)度、運(yùn)維部署、物理機(jī)等幾個(gè)方面。
3.2? ?安全數(shù)據(jù)庫(kù)的建立
為了提高大數(shù)據(jù)平臺(tái)的服務(wù)品質(zhì),在接口層對(duì)于安全性沒(méi)有采用過(guò)多的設(shè)計(jì)。但數(shù)據(jù)的安全還是大數(shù)據(jù)系統(tǒng)必須考慮的問(wèn)題。因此,除了在產(chǎn)品層對(duì)于安全性的總體硬件部署之外,在數(shù)據(jù)庫(kù)的結(jié)構(gòu)設(shè)計(jì)上安全性的本質(zhì)要求必須充分體現(xiàn)(圖3)。
數(shù)據(jù)庫(kù)是大數(shù)據(jù)系統(tǒng)的核心,因此安全層次的部署也相當(dāng)復(fù)雜。如圖3所示,可以采用專(zhuān)用安全數(shù)據(jù)庫(kù)系統(tǒng)對(duì)核心數(shù)據(jù)庫(kù)進(jìn)行保護(hù),數(shù)據(jù)庫(kù)安全管理層結(jié)構(gòu)主要構(gòu)成及功能如下:
統(tǒng)一安全管理:主要功能負(fù)責(zé)整個(gè)數(shù)據(jù)庫(kù)安全管理層的高層管理,具體有配置管理、安全審計(jì)、操作日志管理、用戶(hù)管理、權(quán)限管理、日志分析等功能。
監(jiān)控管理子系統(tǒng):包括警告管理、性能管理、配置管理,在警告管理模塊主要實(shí)現(xiàn)警告過(guò)濾、警告分析、預(yù)處理、格式化等功能;性能管理模塊主要包括數(shù)據(jù)稽查、閾值對(duì)比、數(shù)據(jù)匯總、預(yù)處理等功能;配置管理主要包括數(shù)據(jù)整合、異常處理、數(shù)據(jù)審核等功能[9]。
安全數(shù)據(jù)庫(kù):核心數(shù)據(jù)庫(kù)是大數(shù)據(jù)平臺(tái)提供服務(wù)的信息載體,有著極其嚴(yán)格的配置管理控制。在安全控制及信息過(guò)濾的過(guò)程中也會(huì)需要大量的數(shù)據(jù)需要建立數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),但從數(shù)據(jù)結(jié)構(gòu)及安全配置管理的角度去考慮,這些存儲(chǔ)的數(shù)據(jù)不需要供給大數(shù)據(jù)客戶(hù)使用,因此需建立專(zhuān)用的安全數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。這類(lèi)數(shù)據(jù)庫(kù)主要有警告數(shù)據(jù)庫(kù)、性能數(shù)據(jù)庫(kù)、配置數(shù)據(jù)庫(kù)等。
3.3? ?核心數(shù)據(jù)庫(kù)的構(gòu)成
當(dāng)數(shù)據(jù)庫(kù)的安全控制功能分離出去后,核心數(shù)據(jù)庫(kù)的設(shè)計(jì)主要涉及大數(shù)據(jù)采集、大數(shù)據(jù)清理、大數(shù)據(jù)標(biāo)準(zhǔn)化、大數(shù)據(jù)結(jié)構(gòu)化幾個(gè)方面[4](圖4)。
大數(shù)據(jù)采集:包含業(yè)務(wù)數(shù)據(jù)匯集系統(tǒng)、用戶(hù)行為數(shù)據(jù)采集系統(tǒng)、大數(shù)據(jù)爬蟲(chóng)采集系統(tǒng)。
大數(shù)據(jù)清洗:包含業(yè)務(wù)數(shù)據(jù)清洗系統(tǒng)、用戶(hù)行為數(shù)據(jù)清洗系統(tǒng)、互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)清洗系統(tǒng)。
大數(shù)據(jù)標(biāo)準(zhǔn)化:包含用戶(hù)多ID匹配系統(tǒng)、商品多ID匹配系統(tǒng)。
大數(shù)據(jù)結(jié)構(gòu)化:包含用戶(hù)標(biāo)簽管理系統(tǒng)、商品標(biāo)簽管理系統(tǒng)。
圖形圖像處理是目前需求比較大的業(yè)務(wù),在安防、醫(yī)學(xué)、考古領(lǐng)域都有涉及。尤其是圖像修復(fù)更有著廣大的應(yīng)用市場(chǎng),人臉識(shí)別、考古修復(fù)等都在應(yīng)用。因此基于大數(shù)據(jù)的圖像修復(fù)系統(tǒng)中,圖像數(shù)據(jù)庫(kù)的建立尤為重要。圖像數(shù)據(jù)具有文件大、種類(lèi)多、存儲(chǔ)結(jié)構(gòu)復(fù)雜等特點(diǎn)。在建立圖像數(shù)據(jù)庫(kù)時(shí)所得到的數(shù)據(jù)同樣存在著不可預(yù)知的數(shù)據(jù)[10]。為了更精確的定位有用的存儲(chǔ)信息,核心數(shù)據(jù)庫(kù)建立時(shí)必須按照大數(shù)據(jù)采集—大數(shù)據(jù)清洗—大數(shù)據(jù)標(biāo)準(zhǔn)化—大數(shù)據(jù)結(jié)構(gòu)化的步驟對(duì)數(shù)據(jù)進(jìn)行優(yōu)化,以便客戶(hù)在使用時(shí)獲得更為精確的圖像數(shù)據(jù)。
4? ?結(jié)論(Conclusion)
基于大數(shù)據(jù)的圖形圖像處理是大數(shù)據(jù)的主要應(yīng)用方向,良好的數(shù)據(jù)庫(kù)架構(gòu)可以提高處理的速度,減少誤差,最大限度地提高工作效率。按文中所述,構(gòu)建合理安全的大數(shù)據(jù)數(shù)據(jù)庫(kù)架構(gòu)是大數(shù)據(jù)平臺(tái)建設(shè)必須遵循的規(guī)律,也是大數(shù)據(jù)應(yīng)用發(fā)展的必經(jīng)之路。
參考文獻(xiàn)(References)
[1] Trevor H.Booth.Species distribution modelling tools and databases to assist managing forests under climate change[J].Forest Ecology and Management,2018(04):196-202.
[2] Nagori N P,MalodeV.Communication Interface for Deaf-Mute People using Microsoft Kinect[J].International Conference on Automatic Control and Dynamic Optimization Techniques,2017(03):1-5.
[3] Gu B B,Li Z X,Zhang X L,et al.The interaction between schema matching and record matching in data integration[J].IEEE Transactions on Knowledge and Data Engineering,2016(05):187-192.
[4] 傅穎勛,羅圣美,舒繼武.安全云存儲(chǔ)系統(tǒng)與關(guān)鍵技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2013(01):136-145.
[5] 張勇.數(shù)字圖像大數(shù)據(jù)中心的研究與實(shí)現(xiàn)[J].淮陰工學(xué)院學(xué)報(bào),2017(01):30-33.
[6] 陳云亮.分級(jí)存儲(chǔ)系統(tǒng)中基于進(jìn)化算法的數(shù)據(jù)管理與保護(hù)關(guān)鍵技術(shù)研究[D].華中科技大學(xué),2013:37-42.
[7] 任崇廣.面向海量數(shù)據(jù)處理領(lǐng)域的云計(jì)算及其關(guān)鍵技術(shù)研究[D].南京理工大學(xué),2013:23-26.
[8] 肖輝輝,段艷明.基于改進(jìn)花授粉算法的移動(dòng)機(jī)器人路徑規(guī)劃研究[J].軟件導(dǎo)刊,2018(11):22-25.
[9] 謝光.數(shù)據(jù)庫(kù)大數(shù)據(jù)量存儲(chǔ)結(jié)構(gòu)的探索[J].通訊世界,2017(11):29-30.
[10] 張玉英.目前信息技術(shù)背景下的數(shù)據(jù)庫(kù)安全技術(shù)[J].電子技術(shù)與軟件工程,2017(13):261-263.