陳彥道 河北地質(zhì)大學(xué) 信息工程學(xué)院 吉林 白山 134300 申永康 河北地質(zhì)大學(xué) 信息工程學(xué)院 安徽 亳州 233600
Web的程序應(yīng)用通常都是B/S模式,這種程序主要是利用應(yīng)用程序,并對(duì)程序語(yǔ)言加以應(yīng)用,這樣就會(huì)和編寫(xiě)的數(shù)據(jù)存在相應(yīng)的不同。Web應(yīng)用程序非常獨(dú)特,主要是立足于Web之上,不是采用傳統(tǒng)的方法進(jìn)行。這項(xiàng)應(yīng)用能夠生成規(guī)模龐大的數(shù)據(jù),這些數(shù)據(jù)積累到一定的規(guī)模后就會(huì)引發(fā)相應(yīng)的質(zhì)變,形成一種大數(shù)據(jù)。
大數(shù)據(jù)給系統(tǒng)帶來(lái)的挑戰(zhàn)主要分為三個(gè)方面。第一,存儲(chǔ)的規(guī)模十分龐大,一般情況下都會(huì)達(dá)到量級(jí)。第二,存儲(chǔ)的管理非常復(fù)雜,不僅包括結(jié)構(gòu)化,相應(yīng)的也包括非結(jié)構(gòu)化,半結(jié)構(gòu)化的數(shù)據(jù)也囊括其中,技術(shù)上很難達(dá)到統(tǒng)一,對(duì)體制無(wú)法高效的進(jìn)行管控。第三,對(duì)數(shù)據(jù)服務(wù)具有較高的水平,服務(wù)種類(lèi)也非常多。上層不同,就會(huì)對(duì)存儲(chǔ)系統(tǒng)的性能以及可靠性具有不同的要求。目前,大數(shù)據(jù)的規(guī)模不停在擴(kuò)展,結(jié)構(gòu)逐漸向著復(fù)雜化進(jìn)展,讓這些指標(biāo)全部放大,技術(shù)上存在一定的難度。
這些挑戰(zhàn)對(duì)存儲(chǔ)領(lǐng)域來(lái)說(shuō)已經(jīng)是長(zhǎng)期存在的問(wèn)題。處于大數(shù)據(jù)背景之下,要想對(duì)這些數(shù)據(jù)全面解決,就需要讓這些問(wèn)題的技術(shù)難度隨著量級(jí)成倍提高,讓存儲(chǔ)技術(shù)從質(zhì)上能夠有所改變。大數(shù)據(jù)背景下對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理,不僅需要對(duì)上層提供一個(gè)高效便捷的高效的數(shù)據(jù)訪問(wèn)接口,將PB快速存儲(chǔ)起來(lái)。在指定的時(shí)間之內(nèi),完成數(shù)據(jù)的加載工作,并對(duì)數(shù)據(jù)做好讀取,提高數(shù)據(jù)的正確性,讓數(shù)據(jù)能夠具有一定的可用性。要想將以上要求全面完成,需要與管理技術(shù)進(jìn)一步進(jìn)行存儲(chǔ),并進(jìn)行研究。
1.高可用性
通過(guò)多個(gè)機(jī)器以及多個(gè)機(jī)制避免單點(diǎn)故障,對(duì)在線故障的節(jié)點(diǎn)數(shù)據(jù)需要重新進(jìn)行建設(shè),并讓其數(shù)據(jù)恢復(fù),對(duì)不同粒度的數(shù)據(jù)遷移能夠支持,存儲(chǔ)一個(gè)備份,能夠保證各種異常,讓其處于正常服務(wù)的能力。
2.高性能
將內(nèi)存數(shù)據(jù)庫(kù)以及分布式數(shù)據(jù)庫(kù)有效組合在一起,讓大數(shù)據(jù)存儲(chǔ)系統(tǒng)的吞吐能力全面提高,讓系統(tǒng)的時(shí)間能夠全面響應(yīng)。查詢以及寫(xiě)入性的方式會(huì)讓集群規(guī)模大量擴(kuò)展全面提升,讓存儲(chǔ)在應(yīng)用過(guò)程中不會(huì)出現(xiàn)性能上的瓶頸。
3.可擴(kuò)展性
使用分片的方式有效將數(shù)據(jù)拆分,對(duì)數(shù)據(jù)做好分散工作,然后讓其從實(shí)例上實(shí)施“負(fù)載分流”。利用數(shù)據(jù)分流內(nèi)存庫(kù)對(duì)系統(tǒng)的全局視圖全面存儲(chǔ)起來(lái),保證系統(tǒng)在存儲(chǔ)中能夠高效運(yùn)轉(zhuǎn)。
互聯(lián)網(wǎng)在還沒(méi)有出現(xiàn)之前,產(chǎn)生數(shù)據(jù)的方式主要是人機(jī)會(huì)話方式產(chǎn)生的,主要的數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主。系統(tǒng)在應(yīng)用過(guò)程中主要是利用傳統(tǒng)的方法對(duì)數(shù)據(jù)進(jìn)行管理。系統(tǒng)的數(shù)據(jù)在增長(zhǎng)過(guò)程中十分緩慢,系統(tǒng)相對(duì)來(lái)說(shuō)月比較孤立。使用傳統(tǒng)模式下的數(shù)據(jù)庫(kù),能夠滿足各個(gè)應(yīng)用的開(kāi)發(fā)?;ヂ?lián)網(wǎng)的不斷發(fā)展之下,數(shù)碼設(shè)備也全面展開(kāi)應(yīng)用。如今獲取數(shù)據(jù)的來(lái)源已經(jīng)不是人機(jī)會(huì)話,而是通過(guò)各種設(shè)備全面產(chǎn)生的。
為了讓W(xué)eb能夠滿足大數(shù)據(jù)存儲(chǔ)的需求,就需要設(shè)計(jì)一種新的數(shù)據(jù)庫(kù)處理架構(gòu),主要架構(gòu)可以分為兩類(lèi),一類(lèi)是分布式數(shù)據(jù)庫(kù)引擎,另一類(lèi)是分布式數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)兩個(gè)部分。分布式數(shù)據(jù)庫(kù)引擎主要還是對(duì)引擎進(jìn)行處理過(guò)程中對(duì)文件進(jìn)行擴(kuò)展和處理,對(duì)連接池統(tǒng)一進(jìn)行處理和管理,對(duì)驅(qū)動(dòng)有效進(jìn)行加載,做好事務(wù)處理,并做好緩存管理,對(duì)SQL解析活動(dòng)有效進(jìn)行優(yōu)化,將數(shù)據(jù)有效進(jìn)行合并,通過(guò)邏輯對(duì)關(guān)系眾多的數(shù)據(jù)庫(kù)以及文件系統(tǒng)有效管理起來(lái)。分布式存儲(chǔ)節(jié)點(diǎn)會(huì)將數(shù)據(jù)重新進(jìn)行加載并做好存儲(chǔ)工作,對(duì)數(shù)據(jù)做好查詢工作,提高數(shù)據(jù)的讀取能力。其他數(shù)據(jù)需要采取不同的方式對(duì)數(shù)據(jù)做好存儲(chǔ)和處理工作。對(duì)各類(lèi)數(shù)據(jù)有效進(jìn)行存儲(chǔ)并加以處理,對(duì)數(shù)據(jù)做好劃分工作,讓數(shù)據(jù)能夠存儲(chǔ)于不同的數(shù)據(jù)庫(kù)存儲(chǔ)節(jié)點(diǎn)之中,讓普通數(shù)據(jù)庫(kù)以及海量數(shù)據(jù)庫(kù)的壓力全面進(jìn)行降低。對(duì)各個(gè)節(jié)點(diǎn)的計(jì)算資源有效進(jìn)行計(jì)算,讓整個(gè)架構(gòu)的性能能夠全面提高。
圖1 新型的分布式數(shù)據(jù)庫(kù)處理架構(gòu)
在后臺(tái)存儲(chǔ)中,使用新型的數(shù)據(jù)庫(kù)結(jié)構(gòu),以Web中的大數(shù)據(jù)為應(yīng)用基準(zhǔn),對(duì)分析類(lèi)應(yīng)用完成搜索工作,起到一定的支撐作用。運(yùn)行環(huán)境主要是以低成本為主要基準(zhǔn)點(diǎn),不僅具有較高的性能,也局域高擴(kuò)展性,給分析類(lèi)應(yīng)用能夠起到良好的作用,起到一定的支撐作用。為了讓存儲(chǔ)系統(tǒng)的架構(gòu)性能全面提高,不僅需要考慮性能,還需要考慮成本和容量,使內(nèi)存儲(chǔ)庫(kù)和數(shù)據(jù)庫(kù)能夠有效進(jìn)行混合組網(wǎng),圖2表示的就是混合組網(wǎng)的過(guò)程。利用數(shù)據(jù)同步總線對(duì)設(shè)定的數(shù)據(jù)進(jìn)行存儲(chǔ),讓分布式運(yùn)算能夠滿足對(duì)數(shù)據(jù)較高的存取需求。
圖2 數(shù)據(jù)庫(kù)混合組網(wǎng)圖
數(shù)據(jù)在同步過(guò)程中,只要的方式有三種。第一,對(duì)內(nèi)存數(shù)據(jù)庫(kù)中的數(shù)據(jù)有效進(jìn)行加載,并及時(shí)做好更新,系統(tǒng)在剛開(kāi)始運(yùn)轉(zhuǎn)的時(shí)候,內(nèi)存數(shù)據(jù)庫(kù)就需要按照相應(yīng)的同步數(shù)據(jù)范圍完成業(yè)務(wù)數(shù)據(jù)的加載工作,讓數(shù)據(jù)能夠及時(shí)更新。第二,內(nèi)存數(shù)據(jù)庫(kù)向后的數(shù)據(jù)要保持相應(yīng)的同步,如果內(nèi)存數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)發(fā)生相應(yīng)變更時(shí),一些新的數(shù)據(jù)就會(huì)變更到后臺(tái)的數(shù)據(jù)庫(kù)中實(shí)施固化存儲(chǔ)。第三,內(nèi)存數(shù)據(jù)庫(kù)之間最好能夠同步。多臺(tái)內(nèi)存數(shù)據(jù)庫(kù)有效進(jìn)行負(fù)載均衡狀況時(shí),,如果其中一臺(tái)的內(nèi)存數(shù)據(jù)庫(kù)存在相應(yīng)的變化,對(duì)數(shù)據(jù)做好后臺(tái)的同步之后,還需要將數(shù)據(jù)向其他內(nèi)存庫(kù)有效進(jìn)行同步。
大數(shù)據(jù)誕生之后,歷史迎來(lái)一次重大的轉(zhuǎn)型,技術(shù)已經(jīng)向著數(shù)據(jù)的領(lǐng)域進(jìn)展。數(shù)據(jù)價(jià)值的不斷凸顯之下,信息的重要性全面展現(xiàn)出來(lái),后期技術(shù)將會(huì)推動(dòng)數(shù)據(jù)全面進(jìn)步。未來(lái)大數(shù)據(jù)也將向著存儲(chǔ)和傳輸方向發(fā)展。對(duì)大數(shù)據(jù)充分進(jìn)行挖掘和應(yīng)用之后,會(huì)對(duì)企業(yè)的商業(yè)模式產(chǎn)生相應(yīng)的影響。