楊文暉,袁進(jìn)?。?放,1b,2
(1.成都理工大學(xué)a.地球探測(cè)與信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,b.地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,成都 610059;2.成都大學(xué)模式識(shí)別與智能信息處理四川省高校重點(diǎn)實(shí)驗(yàn)室,成都 610106)
面向海量空間數(shù)據(jù)的分級(jí)存儲(chǔ)模型研究
楊文暉1a,袁進(jìn)俊1a*,苗 放1a,1b,2
(1.成都理工大學(xué)a.地球探測(cè)與信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,b.地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,成都 610059;2.成都大學(xué)模式識(shí)別與智能信息處理四川省高校重點(diǎn)實(shí)驗(yàn)室,成都 610106)
空間信息技術(shù)和遙感遙測(cè)等技術(shù)的飛速發(fā)展,產(chǎn)生了海量的遙感、地災(zāi)等行業(yè)空間信息數(shù)據(jù)。如何對(duì)海量空間數(shù)據(jù)進(jìn)行合理的分級(jí)存儲(chǔ),以滿足大數(shù)據(jù)時(shí)代下空間信息、地理信息等行業(yè)應(yīng)用,這已成為日益緊迫的問(wèn)題。海量空間數(shù)據(jù)分級(jí)存儲(chǔ)作為一種全新的存儲(chǔ)模式,為解決該問(wèn)題提出了新的思路。結(jié)合海量空間數(shù)據(jù)的特點(diǎn)和日常數(shù)據(jù)應(yīng)用的規(guī)律,提出了基于訪問(wèn)熱度和聚類關(guān)聯(lián)的海量空間數(shù)據(jù)分級(jí)存儲(chǔ)模型,該模型主要包括熱點(diǎn)數(shù)據(jù)分級(jí)、關(guān)聯(lián)數(shù)據(jù)分級(jí)、數(shù)據(jù)的遷移三部分。最后通過(guò)嫦娥2號(hào)遙感數(shù)據(jù)模擬訪問(wèn)試驗(yàn),優(yōu)化了數(shù)據(jù)升級(jí)閥值,證明了分級(jí)存儲(chǔ)模型用于海量空間數(shù)據(jù)的可行性。
空間數(shù)據(jù);遙感遙測(cè);分級(jí)存儲(chǔ);密度聚類算法;數(shù)據(jù)關(guān)聯(lián)
空間數(shù)據(jù)已廣泛應(yīng)用于社會(huì)各行業(yè)、各部門,如城市規(guī)劃、交通、銀行、航空航天等。隨著空間信息技術(shù)和遙感遙測(cè)等技術(shù)的飛速發(fā)展,產(chǎn)生了海量、實(shí)時(shí)、異構(gòu)的空間信息數(shù)據(jù)。如何對(duì)海量空間數(shù)據(jù)進(jìn)行合理的分級(jí)存儲(chǔ),以使海量空間數(shù)據(jù)能夠滿足不斷變化的地理信息等應(yīng)用的需要,這已成為日益緊迫的問(wèn)題[1]。海量空間數(shù)據(jù)分級(jí)存儲(chǔ)模型的提出基于四點(diǎn)因素:①數(shù)據(jù)分級(jí)方面,空間數(shù)據(jù)和所有數(shù)據(jù)一樣具有2-8效應(yīng),即一段時(shí)間內(nèi)只有兩成左右的數(shù)據(jù)被系統(tǒng)經(jīng)常用到,所以常被用到的數(shù)據(jù)應(yīng)該備份存儲(chǔ)在能被系統(tǒng)快速獲取的設(shè)備上[2-3];②數(shù)據(jù)存儲(chǔ)方面,數(shù)據(jù)存儲(chǔ)設(shè)備的I/O性能和價(jià)格相差很大,比如內(nèi)存、固態(tài)硬盤SSD、磁盤陣列RAID、機(jī)械硬盤等,所以應(yīng)當(dāng)根據(jù)不同數(shù)據(jù)讀寫速度需求的不同,選擇不同的存儲(chǔ)設(shè)備以節(jié)約成本提高效率[4-5];③數(shù)據(jù)遷移方面,數(shù)據(jù)本身的價(jià)值和使用率也處在不斷變化之中,所以就要求存儲(chǔ)的數(shù)據(jù)根據(jù)其價(jià)值和使用頻率的變化動(dòng)態(tài)調(diào)整其存儲(chǔ)位置[6-7];④數(shù)據(jù)關(guān)聯(lián)方面,空間數(shù)據(jù)本身具有地理坐標(biāo)的特殊屬性,熱點(diǎn)數(shù)據(jù)的關(guān)聯(lián)與地理坐標(biāo)密不可分?;谝陨纤狞c(diǎn)因素,海量空間數(shù)據(jù)分級(jí)存儲(chǔ)模型的研究勢(shì)在必行。
1.1 空間數(shù)據(jù)的特點(diǎn)
空間數(shù)據(jù)表現(xiàn)了地理空間實(shí)體的位置、大小、形狀、方向以及幾何拓?fù)潢P(guān)系??臻g數(shù)據(jù)的組織表達(dá)采用柵格數(shù)據(jù)和矢量數(shù)據(jù)作為兩種最基本的形式。
遙感影像數(shù)據(jù)是一種以柵格形式表示的數(shù)據(jù)。隨著所描述范圍的擴(kuò)大和空間分辨率的提高,數(shù)據(jù)量呈幾何級(jí)數(shù)地增長(zhǎng)。
柵格數(shù)據(jù)是以二維矩陣的形式來(lái)表示空間地物的數(shù)據(jù)組織方式,每個(gè)矩陣單位稱為一個(gè)柵格單元(cell)。柵格的每個(gè)數(shù)據(jù)表示地物或現(xiàn)象的屬性數(shù)據(jù),而矢量數(shù)據(jù)結(jié)構(gòu)是利用點(diǎn),線,面的形式來(lái)表達(dá)現(xiàn)實(shí)世界。然而不論是柵格數(shù)據(jù)還是矢量數(shù)據(jù),它們都有個(gè)共同的地理坐標(biāo)屬性。因此我們?cè)趯?duì)空間數(shù)據(jù)進(jìn)行分級(jí)存儲(chǔ)時(shí),應(yīng)當(dāng)充分利用空間數(shù)據(jù)的地理坐標(biāo)屬性。這里在對(duì)關(guān)聯(lián)空間數(shù)據(jù)進(jìn)行分級(jí)時(shí),就充分利用了空間數(shù)據(jù)的坐標(biāo)屬性,采用空間數(shù)據(jù)密度聚類算法來(lái)對(duì)關(guān)聯(lián)的空間數(shù)據(jù)進(jìn)行分級(jí)。
1.2 密度聚類算法介紹
基于密度聚類算法[8]來(lái)判斷熱點(diǎn)數(shù)據(jù)區(qū)域,從而對(duì)關(guān)聯(lián)的熱點(diǎn)數(shù)據(jù)進(jìn)行分級(jí)。密度聚類算法認(rèn)為,在整個(gè)數(shù)據(jù)樣本空間中,各目標(biāo)類族是由一群稠密樣本點(diǎn)組成的,而這些稠密樣本點(diǎn)被低密度區(qū)域(噪聲)分割,而密度聚類算法就是要濾過(guò)低密度區(qū)域,發(fā)現(xiàn)樣本稠密的樣本點(diǎn)。
DBSCAN(Density-based Spatial Clustering of Applications with Noise)[9]是一種基于高密度聯(lián)通區(qū)域的聚類算法,它將類簇定義為高密度相連點(diǎn)的最大集合,它本身對(duì)噪聲不敏感,并且能發(fā)現(xiàn)任意形狀的類簇。
1.3 空間數(shù)據(jù)分級(jí)存儲(chǔ)模型
本模型采用3級(jí)分層結(jié)構(gòu):硬件層、管理層、應(yīng)用層(圖1)。
1.3.1 硬件層
硬件層是空間數(shù)據(jù)的存儲(chǔ)實(shí)體,具體的數(shù)據(jù)遷移操作都實(shí)際發(fā)生在硬件層。硬件層根據(jù)所存儲(chǔ)的數(shù)據(jù)熱度優(yōu)先級(jí)不同,以及存儲(chǔ)設(shè)備自身訪問(wèn)速度的不同,將數(shù)據(jù)和存儲(chǔ)設(shè)備都由高到低分為一一對(duì)應(yīng)的1級(jí)~3級(jí)。分別是:存儲(chǔ)1級(jí)數(shù)據(jù)的內(nèi)存DDR、存儲(chǔ)2級(jí)數(shù)據(jù)的固態(tài)硬盤SSD、存儲(chǔ)3級(jí)數(shù)據(jù)的機(jī)械硬盤。
所有數(shù)據(jù)一開始都放置在最低優(yōu)先級(jí)的3級(jí)存儲(chǔ)設(shè)備上,系統(tǒng)運(yùn)行中新寫入的數(shù)據(jù)一開始也都存儲(chǔ)在第3級(jí)存儲(chǔ)設(shè)備中。當(dāng)最低級(jí)3級(jí)設(shè)備中的數(shù)據(jù)優(yōu)先級(jí)提高,需要遷移到較高級(jí)別的設(shè)備中時(shí),都采用復(fù)制的方式把數(shù)據(jù)拷貝到高優(yōu)先級(jí)的設(shè)備中。當(dāng)高級(jí)別的設(shè)備(即1級(jí)、2級(jí))之間進(jìn)行數(shù)據(jù)遷移時(shí),都采用移動(dòng)的方式進(jìn)行數(shù)據(jù)遷移。
表1 設(shè)備優(yōu)先級(jí)和數(shù)據(jù)熱度優(yōu)先級(jí)對(duì)照表Tab.1 Equipment priority and data heat priority table
1.3.2 管理層
管理層存儲(chǔ)著所有空間數(shù)據(jù)的標(biāo)識(shí),負(fù)責(zé)整個(gè)系統(tǒng)模型的數(shù)據(jù)訪問(wèn)管理、數(shù)據(jù)分級(jí)管理和數(shù)據(jù)遷移管理,管理層的具體功能通過(guò)數(shù)據(jù)管理中心實(shí)現(xiàn)。
數(shù)據(jù)管理中心包含一個(gè)數(shù)據(jù)訪問(wèn)單元,用于管理數(shù)據(jù)的訪問(wèn)操作(圖1)。
圖1 數(shù)據(jù)訪問(wèn)示意圖Fig.1 Schematic diagram of data access
數(shù)據(jù)管理中心記錄了最近一月甚至更久的數(shù)據(jù)使用記錄。數(shù)據(jù)使用記錄的格式如表2所示。
表2 數(shù)據(jù)使用記錄格式Tab.2 The format of Data using record
數(shù)據(jù)管理中心存儲(chǔ)著所有空間數(shù)據(jù)的數(shù)據(jù)標(biāo)識(shí),這些數(shù)據(jù)構(gòu)成一個(gè)數(shù)據(jù)標(biāo)識(shí)散列表中。數(shù)據(jù)標(biāo)識(shí)的結(jié)構(gòu)如表3所示。
表3 數(shù)據(jù)標(biāo)識(shí)結(jié)構(gòu)Tab.3 Data identification structure
數(shù)據(jù)管理中心包含一個(gè)分級(jí)遷移控制器,它負(fù)責(zé)數(shù)據(jù)升級(jí)和數(shù)據(jù)遷移操作。當(dāng)數(shù)據(jù)標(biāo)識(shí)的數(shù)據(jù)使用記錄達(dá)到某個(gè)熱度升級(jí)閥值時(shí),分級(jí)遷移控制器對(duì)數(shù)據(jù)進(jìn)行遷移,并修改該數(shù)據(jù)標(biāo)識(shí)的優(yōu)先級(jí)和優(yōu)先訪問(wèn)位置。
1.3.3 應(yīng)用層
應(yīng)用程序根據(jù)不同的業(yè)務(wù)需求對(duì)數(shù)據(jù)進(jìn)行不同的處理,實(shí)現(xiàn)多種多樣的功能。硬件層和管理層對(duì)應(yīng)用層是透明的。當(dāng)應(yīng)用層需要請(qǐng)求數(shù)據(jù)時(shí),直接給管理層發(fā)送所請(qǐng)求數(shù)據(jù)的ID,并從管理層得到該數(shù)據(jù)的訪問(wèn)位置。然后應(yīng)用層再直接從硬件層讀取數(shù)據(jù),模型結(jié)構(gòu)圖見圖2所示。
圖2 空間數(shù)據(jù)分級(jí)模型結(jié)構(gòu)圖Fig.2 The spatial data classification model
2.1 分級(jí)策略思想
該分級(jí)策略是一種基于訪問(wèn)頻率和密度聚類的空間數(shù)據(jù)分級(jí)策略[10],該策略采用兩套分級(jí)規(guī)則,①用于調(diào)整被訪問(wèn)數(shù)據(jù)的優(yōu)先級(jí);②用于調(diào)整關(guān)聯(lián)數(shù)據(jù)的優(yōu)先級(jí)。
首先對(duì)于被訪問(wèn)數(shù)據(jù),每次數(shù)據(jù)使用時(shí),數(shù)據(jù)管理中心都會(huì)增加一條數(shù)據(jù)使用記錄,并定時(shí)將該記錄寫入數(shù)據(jù)標(biāo)識(shí)中,從而使得分級(jí)遷移控制器根據(jù)該數(shù)據(jù)最近的使用頻率,判斷該數(shù)據(jù)是否需要升級(jí)或者降級(jí),并將優(yōu)先級(jí)發(fā)生變化數(shù)據(jù)遷移到新的優(yōu)先級(jí)對(duì)應(yīng)的存儲(chǔ)設(shè)備中。
其次對(duì)于熱點(diǎn)關(guān)聯(lián)數(shù)據(jù),鑒于空間數(shù)據(jù)具有顯著地地理坐標(biāo)特性,當(dāng)有數(shù)據(jù)提升到較高優(yōu)先級(jí)時(shí),數(shù)據(jù)管理中心的分級(jí)遷移控制器根據(jù)空間數(shù)據(jù)密度聚類算法,可以找到該被訪問(wèn)數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù),從而將熱點(diǎn)數(shù)據(jù)區(qū)域中的關(guān)聯(lián)數(shù)據(jù)進(jìn)行熱度升級(jí),并將其遷移到新的優(yōu)先級(jí)對(duì)應(yīng)的存儲(chǔ)設(shè)備中,以此滿足系統(tǒng)對(duì)高密度訪問(wèn)的熱點(diǎn)數(shù)據(jù)進(jìn)行快速訪問(wèn)的需求。
2.2 分級(jí)策略實(shí)施規(guī)則
2.2.1 數(shù)據(jù)分級(jí)存儲(chǔ)規(guī)劃
將空間數(shù)據(jù)的優(yōu)先級(jí)分為1~3級(jí),數(shù)字越小優(yōu)先級(jí)越高,數(shù)據(jù)初始放置的時(shí)候,將所有數(shù)據(jù)的優(yōu)先級(jí)都定為最低優(yōu)先級(jí)別3級(jí)。按1~3優(yōu)先級(jí)從高到低的順序,不同優(yōu)先級(jí)的數(shù)據(jù)分別存儲(chǔ)在內(nèi)存DDR、固態(tài)硬盤SSD、機(jī)械硬盤中。
2.2.2 基于訪問(wèn)頻率的熱點(diǎn)數(shù)據(jù)分級(jí)方法
當(dāng)數(shù)據(jù)標(biāo)識(shí)表中某個(gè)數(shù)據(jù)標(biāo)識(shí)的使用記錄的頻率達(dá)到某個(gè)閥值時(shí),就需要變更該數(shù)據(jù)的優(yōu)先級(jí),并對(duì)該數(shù)據(jù)做遷移,再將遷移后的優(yōu)先訪問(wèn)位置存入該數(shù)據(jù)標(biāo)識(shí)中(圖3)。
圖3 熱點(diǎn)訪問(wèn)數(shù)據(jù)分級(jí)示意圖Fig.3 Classification of hotspot access data
具體步驟:每次應(yīng)用層使用數(shù)據(jù)時(shí),管理層的數(shù)據(jù)管理中心都會(huì)在數(shù)據(jù)使用記錄表中增加一條使用記錄。數(shù)據(jù)使用記錄表里面存放了一個(gè)月甚至更長(zhǎng)時(shí)間的數(shù)據(jù)使用記錄,以便以后系統(tǒng)功能擴(kuò)展使用。數(shù)據(jù)管理中心的分級(jí)遷移控制器,每隔一分鐘定時(shí)讀取最近一分鐘的數(shù)據(jù)使用記錄,再把這一分鐘內(nèi)的數(shù)據(jù)使用記錄增加到對(duì)應(yīng)數(shù)據(jù)ID的數(shù)據(jù)標(biāo)識(shí)表中,同時(shí)刪除該數(shù)據(jù)標(biāo)識(shí)中一周以前的數(shù)據(jù)使用記錄,然后統(tǒng)計(jì)該數(shù)據(jù)標(biāo)識(shí)中使用記錄的頻率,再根據(jù)以下數(shù)據(jù)優(yōu)先級(jí)分級(jí)規(guī)則決定該數(shù)據(jù)的分級(jí)變化,若該數(shù)據(jù)優(yōu)先級(jí)發(fā)生變化,升級(jí)遷移控制器則向硬件層下達(dá)數(shù)據(jù)遷移指令,遷移完成后再將新的數(shù)據(jù)優(yōu)先訪問(wèn)地址寫入該數(shù)據(jù)表示中。
熱點(diǎn)數(shù)據(jù)優(yōu)先級(jí)分級(jí)規(guī)則:設(shè)定一個(gè)數(shù)據(jù)訪問(wèn)頻率分級(jí)閥值K,對(duì)于每分鐘使用次數(shù)達(dá)到K1次的數(shù)據(jù),將優(yōu)先級(jí)直接提升為最高級(jí)1級(jí);對(duì)于每小時(shí)使用次數(shù)達(dá)到K2次的數(shù)據(jù),若當(dāng)前優(yōu)先級(jí)未達(dá)到2以上,則將其優(yōu)先級(jí)直接提升為2級(jí)表(表4)。
表4 熱點(diǎn)數(shù)據(jù)優(yōu)先級(jí)分級(jí)規(guī)則Tab.4 Hot data priority classification rules
2.2.3 基于密度聚類算法的關(guān)聯(lián)數(shù)據(jù)分級(jí)方法
當(dāng)某個(gè)數(shù)據(jù)的優(yōu)先級(jí)被提升到較高級(jí)別時(shí),需要查找其關(guān)聯(lián)數(shù)據(jù),然后將得到的關(guān)聯(lián)數(shù)據(jù)的優(yōu)先級(jí)也相應(yīng)提高(圖4)。
圖4 關(guān)聯(lián)數(shù)據(jù)升級(jí)示意圖Fig.4 Associated data upgrade
具體步驟:當(dāng)數(shù)據(jù)管理中心的升級(jí)遷移控制器,檢測(cè)到某個(gè)數(shù)據(jù)的優(yōu)先級(jí)被提升到較高級(jí)別時(shí),升級(jí)遷移控制器就通過(guò)空間數(shù)據(jù)密度聚類算法得到其關(guān)聯(lián)數(shù)據(jù)的一組數(shù)據(jù)ID,并將這組數(shù)據(jù)ID對(duì)應(yīng)的數(shù)據(jù)優(yōu)先級(jí)提升為該數(shù)據(jù)優(yōu)先級(jí)的下一級(jí)別,并將這些數(shù)據(jù)依次遷移到新的存儲(chǔ)設(shè)備中,然后將新的優(yōu)先訪問(wèn)位置更新到數(shù)據(jù)標(biāo)識(shí)中。
關(guān)聯(lián)數(shù)據(jù)優(yōu)先級(jí)分級(jí)規(guī)則:因?yàn)榈?級(jí)數(shù)據(jù)的下一級(jí)別為最低級(jí)3級(jí),所以對(duì)第2級(jí)數(shù)據(jù)進(jìn)行聚類算法查找關(guān)聯(lián)數(shù)據(jù)是沒(méi)有意義的;同時(shí)也因?yàn)榫垲愃惴〞?huì)占用大量計(jì)算資源,所以只有當(dāng)數(shù)據(jù)的優(yōu)先級(jí)被提高到較高的優(yōu)先級(jí)時(shí),才對(duì)該數(shù)據(jù)進(jìn)行空間數(shù)據(jù)密度聚類算法找出其關(guān)聯(lián)數(shù)據(jù),并提升其關(guān)聯(lián)數(shù)據(jù)的級(jí)別。具體規(guī)則為:當(dāng)某一數(shù)據(jù)的優(yōu)先級(jí)被提高到1級(jí)時(shí),對(duì)該數(shù)據(jù)進(jìn)行一次空間數(shù)據(jù)密度聚類算法,對(duì)于聚類算法得到的相關(guān)數(shù)據(jù),若這些相關(guān)數(shù)據(jù)的級(jí)別未達(dá)到2級(jí)以上,則將這些相關(guān)數(shù)據(jù)的優(yōu)先級(jí)提升為2級(jí)。
3.1 實(shí)驗(yàn)數(shù)據(jù)及實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)數(shù)據(jù)對(duì)象選擇的是嫦娥2號(hào)遙感數(shù)據(jù)(1T)。作為空間數(shù)據(jù)的一種,嫦娥2號(hào)遙感數(shù)據(jù)具有量大、數(shù)據(jù)結(jié)構(gòu)復(fù)雜的特點(diǎn),處理起來(lái)速度非常慢。通過(guò)對(duì)數(shù)據(jù)進(jìn)行分級(jí)存儲(chǔ)實(shí)驗(yàn),驗(yàn)證該方法的效率。
實(shí)驗(yàn)環(huán)境部署在三臺(tái)DELL PowerEdge 2950服務(wù)器上面,一臺(tái)部署應(yīng)用程序用于請(qǐng)求遙感數(shù)據(jù);一臺(tái)部署數(shù)據(jù)管理中心用于分級(jí)和調(diào)度遙感數(shù)據(jù);一臺(tái)部署為硬件層用于存儲(chǔ)數(shù)據(jù),并額外掛載了多種存儲(chǔ)設(shè)備,實(shí)現(xiàn)數(shù)據(jù)分級(jí)存儲(chǔ)(表5)。
3.2 熱點(diǎn)訪問(wèn)數(shù)據(jù)分級(jí)策略數(shù)據(jù)遷移實(shí)驗(yàn)
該實(shí)驗(yàn)通過(guò)模擬高頻率數(shù)據(jù)調(diào)用,得到了各數(shù)據(jù)升級(jí)閥值K值在不同取值下的設(shè)備利用率,收據(jù)訪問(wèn)命中率及數(shù)據(jù)平均訪問(wèn)延遲曲線。
表5 實(shí)驗(yàn)環(huán)境Tab.5 Experimental environment
3.2.1 實(shí)驗(yàn)結(jié)果
由圖5可以看出,隨著應(yīng)用程序?qū)?shù)據(jù)的持續(xù)訪問(wèn),一級(jí)設(shè)備的利用率會(huì)不斷增加并逐漸趨于穩(wěn)定;其中當(dāng)K1取值10次/s時(shí),設(shè)備率利用率最高。
由圖6可以看出,隨著應(yīng)用程序?qū)?shù)據(jù)的持續(xù)訪問(wèn),數(shù)據(jù)訪問(wèn)在一級(jí)設(shè)備中的命中率不斷增加;但是當(dāng)K1取值10次/s時(shí),由于設(shè)備使用率滿負(fù)荷導(dǎo)致命中率陡然降低。
圖5 一級(jí)SSD設(shè)備利用率在不同K1值的變化曲線Fig.5 Change curve of level 1SSD equipment utilization in differentvalues of K1
圖6 一級(jí)SSD設(shè)備數(shù)據(jù)訪問(wèn)命中率在不同K1值的變化曲線Fig.6 Change curve of level 1SSD equipment data access shot in differentvalues of K1
由圖7可以看出,隨著應(yīng)用程序?qū)?shù)據(jù)的持續(xù)訪問(wèn),數(shù)據(jù)訪問(wèn)的平均延遲逐漸減小,分級(jí)存儲(chǔ)的優(yōu)勢(shì)不斷顯現(xiàn),但是當(dāng)K1取值10次/s時(shí),由于設(shè)備很快滿負(fù)荷,導(dǎo)致數(shù)據(jù)延遲陡然增加。
圖7 數(shù)據(jù)平均訪問(wèn)延遲在不同K1值的變化曲線Fig.7 Change curve of average data access delay in different values of K1
3.2.2 實(shí)驗(yàn)分析及結(jié)論
綜合以上三個(gè)實(shí)驗(yàn)指標(biāo),可以發(fā)現(xiàn)當(dāng)K1取值10次/s時(shí),設(shè)備利用率最高,但由于設(shè)備很快滿負(fù)荷運(yùn)轉(zhuǎn),會(huì)導(dǎo)致系統(tǒng)運(yùn)行緩慢,影響數(shù)據(jù)命中率和數(shù)據(jù)訪問(wèn)速度;當(dāng)看取值20次/s時(shí),數(shù)據(jù)命中率和數(shù)據(jù)訪問(wèn)延遲最佳。綜合分析可以知道,當(dāng)數(shù)據(jù)升級(jí)閥值K1取值20次/s時(shí),系統(tǒng)的綜合性能最佳。
3.3 關(guān)聯(lián)數(shù)據(jù)分級(jí)策略數(shù)據(jù)遷移實(shí)驗(yàn)
該實(shí)驗(yàn)通過(guò)對(duì)關(guān)聯(lián)數(shù)據(jù)的遷移測(cè)試,在實(shí)驗(yàn)一中得到的最佳升級(jí)閥值K1取值20次/s的情況下,對(duì)有無(wú)運(yùn)用關(guān)聯(lián)數(shù)據(jù)分級(jí)策略二者之間的數(shù)據(jù)訪問(wèn)延遲進(jìn)行比較,以及對(duì)二者數(shù)據(jù)遷移量的大小進(jìn)行比較,以此驗(yàn)證關(guān)聯(lián)數(shù)據(jù)遷移策略的優(yōu)勢(shì)。
熱點(diǎn)數(shù)據(jù)升級(jí)閥值K1取最佳值20次/s,隨著系統(tǒng)的運(yùn)行,高級(jí)設(shè)備中的熱點(diǎn)數(shù)據(jù)慢慢增加,數(shù)據(jù)更多的在高速存儲(chǔ)設(shè)備中訪問(wèn),使得數(shù)據(jù)訪問(wèn)的整體延遲逐漸減小,并且在采用了基于空間數(shù)據(jù)密度聚類算法的關(guān)聯(lián)數(shù)據(jù)分級(jí)策略后,數(shù)據(jù)的訪問(wèn)延遲總體減少,加快了數(shù)據(jù)的訪問(wèn)速率。
從圖9可以看出,隨著數(shù)據(jù)訪問(wèn)的繼續(xù),系統(tǒng)單位時(shí)間內(nèi)的數(shù)據(jù)遷移量由高到低逐漸趨于平穩(wěn)。采用了關(guān)聯(lián)數(shù)據(jù)分級(jí)策略后,系統(tǒng)的數(shù)據(jù)遷移量會(huì)有所減少,從而緩解了系統(tǒng)的性能。
大數(shù)據(jù)時(shí)代,帶來(lái)了海量遙感遙測(cè),地質(zhì)災(zāi)害等空間信息數(shù)據(jù)存儲(chǔ)的問(wèn)題。作者提出了一種基于熱點(diǎn)訪問(wèn)頻率的數(shù)據(jù)分級(jí)策略和一種基于空間數(shù)據(jù)密度聚類算法的數(shù)據(jù)分級(jí)策略。通過(guò)對(duì)嫦娥2號(hào)數(shù)據(jù)進(jìn)行模擬實(shí)驗(yàn),提升了數(shù)據(jù)升級(jí)閾值,大大加快了熱點(diǎn)數(shù)據(jù)的訪問(wèn)速率,并充分利用了高級(jí)存儲(chǔ)設(shè)備的利用率。由于關(guān)聯(lián)數(shù)據(jù)分級(jí)策略的貢獻(xiàn),使得設(shè)備的數(shù)據(jù)遷移量明顯降低。整體的分級(jí)存儲(chǔ)策略及模型,實(shí)現(xiàn)了空間數(shù)據(jù)的高效存儲(chǔ),為海量空間信息數(shù)據(jù)存儲(chǔ)提供了一個(gè)可行解決方案。
圖8 有無(wú)關(guān)聯(lián)數(shù)據(jù)分級(jí)策略的數(shù)據(jù)訪問(wèn)延遲比較Fig.8 Data access delay compareof associated data and no associated dataclassification strategyin best upgrade threshold
圖9 有無(wú)關(guān)聯(lián)數(shù)據(jù)分級(jí)策略下的單位之間數(shù)據(jù)遷移量對(duì)比Fig.9 Data migration quantity between unitscontrast ofassociated data and no associated datain best upgrade threshold
[1] 百度百科.面向數(shù)據(jù)的體系結(jié)構(gòu)[OL].http://baike.baidu.com/subview/649092/12822804.htm. Baidu Encyclopedia.DOA[OL].http://baike.baidu.com/subview/649092/12822804.htm.(In Chinese)
[2] 聶雪軍,秦磊華,周敬利.內(nèi)容感知存儲(chǔ)系統(tǒng)中自動(dòng)分級(jí)存儲(chǔ)模型研究[J].小型微型計(jì)算機(jī)系統(tǒng),2011,32 (6):1151-1156.
NIE X J,QIN L H,ZHOU J L.Research on auto-tiering storage model in content aware storage system [J].Journal of Chinese Computer Systems,2011,32 (6):1151-1156.(In Chinese)
[3] 劉曉然.基于文件的數(shù)據(jù)分級(jí)存儲(chǔ)的研究與實(shí)現(xiàn)[D].昆明:昆明理工大學(xué),2013.
LIU X R.Research and implementation of data-based hierarchical storage of files[D].Kunming:Kunming University of Science and Technology,2013.(In Chinese)
[4] MEI H,LING X,LI G B,A data migration strategy for HSM based on data value[J].Journal of Information &Computational Science,2011,8(2):312-319.
[5] ZOLGHADRI M J,MANSOORI E G.Weighting fuzzy classification rulesusing receiver operating characteristics(ROC)analysis[J].Information Sciences,2007,177(11):2296-2307.
[6] 敖莉,于得水,舒繼武,等.一種海量數(shù)據(jù)分級(jí)存儲(chǔ)系統(tǒng)TH-TS[J].計(jì)算機(jī)研究與發(fā)展,2011,48(6):1089-1100.
AO L,YU D SH,SHU J W,et al.A tiered storage system for massive data:TH-TS[J].Journal of Computer Research and Development,2011,48(6):1089-1100.(In Chinese)
[7] 呂帥.基于對(duì)象的分級(jí)存儲(chǔ)系統(tǒng)數(shù)據(jù)遷移技術(shù)研究[D].長(zhǎng)沙:國(guó)防科學(xué)技術(shù)大學(xué),2009.
LV SH.Research on object-based data migration technology of hierarchical storage system[D].Changsha:National University of Defense Technology,2009.(In Chinese)
[8] 王芳,張順達(dá),馮丹,等.對(duì)象存儲(chǔ)系統(tǒng)中的柔性對(duì)象分布策略[J].華中科技大學(xué)學(xué)報(bào):自然科學(xué)版,2007,35 (3):46-48.
WANG F,ZHANG SH D,F(xiàn)ENG D,et al.Hybrid object allocation policy for object storage systems[J].Journal of Huazhong University of Science and Technology:Natural Science Edition,2007,35(3):46-48.(In Chinese)
[9] 聶躍光.基于密度聚類的空間數(shù)據(jù)挖掘算法研究[D].太原:太原科技大學(xué),2008.
NIE Y G.Study of spatial data mining algorithm based on density clustering[D].Taiyuan:Taiyuan University of Science and Technology,2008.(In Chinese)
[10]馮少榮,肖文俊.DBSCAN聚類算法的研究與改進(jìn)[J].中國(guó)礦業(yè)大學(xué)學(xué)報(bào),2008,37(1):105-110.
FENG SH R,XIAO W J.An improved DBSCAN clustering algorithm[J].Journal of China University of Mining &Technology,2008,37(1):105-110.(In Chinese)
[11]于彥偉,王沁,鄺俊,等.一種基于密度的空間數(shù)據(jù)流在線聚類算法[J].自動(dòng)化學(xué)報(bào),2012,38(6):1051-1058.
YU Y W,WANG Q,KUANG J,et al.An on-line density-based clustering algorithm for spatial data stream[J].Acta Automatica Sinica,2012,38(6):1051 -1058.(In Chinese)
Research of tiered storage model for massive spatial data
YANG Wen-h(huán)ui1a,YUAN Jin-jun1a*,MIAO Fang1a,1b,2
(1.Chengdu University of Technology a.Key Lab of Earth Exploration &Information Techniques of Ministry of Education,Chengdu University of Technology,b.State Key Laboratory of Geohazard Prevention and Geoenvironment Protection,Chengdu 610059,China;2.Key Lab of Pattern Recognition and Intelligent Information Processing of University of Sichuan Province,Chengdu College,Chengdu 610106,China)
With the rapid development of space information technology and remote sensing technology,vast amounts of spatial information data like remote sensing and geological disasterwere produce.How reasonable tier stored massive spatial data to make meet the needs of applications like spatial information and geographic information is becoming an increasingly urgent problem.Hierarchical storage massive spatial data as a new model for solving the problem put forward new ideas.Combined with the characteristics of massive spatial data and rule of daily data application,put forward the data presented hierarchical data storage model and the associated heat-based access massive spatial clustering,the model includes hot data classification,association data classification,data migration in three parts.Finally,simulation access testing on Change 2remote sensing data optimized the threshold of data upgrade;it proved the feasibility of the tiered storage model for spatial data.
spatial data;remote Sensing;tiered storage;density clustering algorithm;data association
TP 301
:A
10.3969/j.issn.1001-1749.2015.06.19
1001-1749(2015)06-0783-07
2014-11-11改回日期:2015-04-19
國(guó)家自然科學(xué)基金項(xiàng)目(61071121);成都市經(jīng)信委科技專項(xiàng)項(xiàng)目(201102153)
楊文暉(1969-),女,副教授,從事計(jì)算機(jī)技術(shù)及應(yīng)用方向的研究,E-mail:ywhui@cdut.edu.cn。
*通信作者:袁進(jìn)俊(1989-),男,碩士,從事分布式存儲(chǔ)與計(jì)算、空間信息技術(shù)及應(yīng)用方向的研究,E-mail:373611905@qq.com。