• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      海量空間數(shù)據(jù)的分布式存儲(chǔ)查詢優(yōu)化分析

      2023-09-16 02:34:36張新建楊春
      中國科技縱橫 2023年13期
      關(guān)鍵詞:空間數(shù)據(jù)海量分布式

      王 云 張新建 楊春

      (中國電子科技集團(tuán)公司第二十八研究所,江蘇南京 210028)

      0 引言

      目前,空間數(shù)據(jù)逐漸朝著空間大數(shù)據(jù)的方向發(fā)展,且呈現(xiàn)多樣化的發(fā)展趨勢(shì),其中包含地名地址數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、傳感器數(shù)據(jù)等。因此,在空間數(shù)據(jù)處理的視角下,可通過分布式數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì),利用SQL 數(shù)據(jù)庫進(jìn)行存儲(chǔ),該方法在實(shí)際使用中具有成本低、擴(kuò)展性強(qiáng)等優(yōu)點(diǎn)[1]。在對(duì)海量空間數(shù)據(jù)的分布式存儲(chǔ)查詢研究中,要結(jié)合空間數(shù)據(jù)的處理需求對(duì)空間數(shù)據(jù)進(jìn)行分類控制,并提高海量空間數(shù)據(jù)的分類存儲(chǔ)查詢效果。

      1 研究背景

      海量空間數(shù)據(jù)查詢是在時(shí)空數(shù)據(jù)查詢的基礎(chǔ)上,對(duì)不隨時(shí)間變化的空間數(shù)據(jù)對(duì)象進(jìn)行查詢,其中包含范圍查詢、點(diǎn)查詢以及KNN 查詢等多種方式。在進(jìn)行數(shù)據(jù)查詢與信息處理的過程中,利用SQL 數(shù)據(jù)庫對(duì)海量空間數(shù)據(jù)的存儲(chǔ)模式、處理方式以及查詢過程等方面進(jìn)行綜合分析,在數(shù)據(jù)查詢過程中,需根據(jù)存儲(chǔ)模型以及數(shù)據(jù)類型,提高海量空間數(shù)據(jù)的查詢性能。在空間索引中,可根據(jù)海量空間數(shù)據(jù)的特點(diǎn),結(jié)合DBMS 實(shí)現(xiàn)空間數(shù)據(jù)庫的搭建與應(yīng)用[2]。在多維空間對(duì)象的索引下,可根據(jù)索引特征建立多維特征的空間對(duì)象,并通過圖計(jì)算的方式,利用分布式平臺(tái),對(duì)海量空間數(shù)據(jù)進(jìn)行管理??臻g對(duì)象的管理與位置服務(wù)質(zhì)量有直接的關(guān)系,在建立大數(shù)據(jù)集合的視角下,海量空間數(shù)據(jù)查詢要從I/O、索引等角度進(jìn)行綜合分析,并建立分布式數(shù)據(jù)庫,進(jìn)一步提高海量空間數(shù)據(jù)的分布管控水平。

      2 研究方法

      2.1 實(shí)驗(yàn)環(huán)境

      在建立分布式平臺(tái)的基礎(chǔ)上,進(jìn)行海量空間數(shù)據(jù)的分布存儲(chǔ)查詢優(yōu)化,還需要建立統(tǒng)一的數(shù)據(jù)集,對(duì)SQL 數(shù)據(jù)庫與Spark 分布式內(nèi)存計(jì)算平臺(tái)的聯(lián)合應(yīng)用性能展開討論。創(chuàng)建實(shí)驗(yàn)環(huán)境,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分析,并對(duì)海量空間數(shù)據(jù)進(jìn)行存儲(chǔ)查詢,從而檢驗(yàn)分布式內(nèi)存計(jì)算平臺(tái)的數(shù)據(jù)存儲(chǔ)查詢性能。在實(shí)驗(yàn)過程中,硬件配置包含Intel W3505 CPU、500G-Disk、4G-Memory、傳統(tǒng)關(guān)系數(shù)據(jù)庫MySQL 數(shù)據(jù)庫。搭建Spark 計(jì)算框架,則是通過Standalone 模式進(jìn)行部署。創(chuàng)建3 個(gè)節(jié)點(diǎn)的分布計(jì)算集群,包含一個(gè)主管理節(jié)點(diǎn)以及兩個(gè)計(jì)算節(jié)點(diǎn),對(duì)海量空間數(shù)據(jù)資源進(jìn)行集中化管理,同時(shí)利用分布式文件系統(tǒng)HDFS 為海量空間數(shù)據(jù)的存儲(chǔ)支持,達(dá)到檢驗(yàn)海量空間數(shù)據(jù)查詢性能的目的[3,4]。

      2.2 實(shí)驗(yàn)數(shù)據(jù)

      在對(duì)海量空間數(shù)據(jù)進(jìn)行分析的過程中,實(shí)驗(yàn)數(shù)據(jù)分析是利用TPC-H 數(shù)據(jù)集進(jìn)行分析,建立TPC-H 模型后,可對(duì)1GB-10000GB 的空間數(shù)據(jù)進(jìn)行讀取與分析。本次實(shí)驗(yàn)分析是選擇ORDERS 的O-ORDDERKEY 屬性以及LINETEM 中的L-ORDERKEY 屬性進(jìn)行分析,具體數(shù)據(jù)集如表1 所示。

      表1 TPC-H數(shù)據(jù)集

      在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)與處理中,要對(duì)海量空間數(shù)據(jù)進(jìn)行查詢與分析,并通過數(shù)據(jù)綜合處理與統(tǒng)計(jì)分析,建立關(guān)系數(shù)據(jù)庫,具體的數(shù)據(jù)表屬性如表2 所示。

      表2 TPC-H數(shù)據(jù)表屬性

      在海量空間數(shù)據(jù)存儲(chǔ)查詢中,對(duì)SQL 與Spark 的連接查詢性能進(jìn)行檢驗(yàn),以單位時(shí)間內(nèi)的海量數(shù)據(jù)查詢量為評(píng)估標(biāo)準(zhǔn),并對(duì)數(shù)據(jù)邏輯關(guān)系進(jìn)行統(tǒng)計(jì)與計(jì)算。具體的計(jì)算公式如下。

      在上述公式中,公式1 以及公式3 分別是針對(duì)SQL以及Spark 組間內(nèi)的所有元數(shù)據(jù)進(jìn)行統(tǒng)計(jì),其中NMySQL以及NSpark是平臺(tái)對(duì)海量空間數(shù)據(jù)完成查詢的平均時(shí)間,Num_Result則是海量空間數(shù)據(jù)查詢的數(shù)據(jù)數(shù)量。在進(jìn)行計(jì)算與分析中,TAve-Spark集群計(jì)算框架,可以保存節(jié)點(diǎn)數(shù)據(jù)。在數(shù)據(jù)統(tǒng)計(jì)與分析中,可引入Spark 以及MySQL 的性能,并對(duì)兩者的性能進(jìn)行對(duì)比分析[5,6]。

      2.3 實(shí)驗(yàn)分析

      在實(shí)驗(yàn)數(shù)據(jù)分析中,針對(duì)海量空間數(shù)據(jù)存儲(chǔ)查詢性能進(jìn)行測(cè)試,將Spark 平臺(tái)中Map 端與Reduce 端進(jìn)行連接,并對(duì)數(shù)據(jù)關(guān)系進(jìn)行分析,在創(chuàng)建空間數(shù)據(jù)后,可以發(fā)現(xiàn)隨著組數(shù)的增加,兩大數(shù)據(jù)表的數(shù)據(jù)處理也存在一定的差異,在前6 組實(shí)驗(yàn)中,兩者之間的時(shí)間差異并不大,隨著組數(shù)據(jù)越來越多,會(huì)出現(xiàn)數(shù)據(jù)溢出的情況,Spark 平臺(tái)選擇ReduceJoin 算法進(jìn)行對(duì)比分析,連接查詢性能的影響結(jié)果如表3 所示。

      表3 Spark運(yùn)行內(nèi)存對(duì)海量空間數(shù)據(jù)查詢性能的影響

      結(jié)合上述信息數(shù)據(jù),可以發(fā)現(xiàn)A 組的變化波動(dòng)比較小,這說明隨著海量空間數(shù)據(jù)量的增加,Spark 的內(nèi)存也需要逐漸提升,這對(duì)優(yōu)化空間數(shù)據(jù)的查詢效果有促進(jìn)作用。

      在Spark 以及MySQL 的應(yīng)用中,要從索引應(yīng)用的角度進(jìn)行分析,其查詢結(jié)果如圖1 所示。

      圖1 MySQL有索引查詢與Spark查詢

      結(jié)合上述結(jié)果可以發(fā)現(xiàn),Spark 平臺(tái)具有性能優(yōu)勢(shì),可實(shí)現(xiàn)海量空間數(shù)據(jù)的統(tǒng)計(jì)與分析。在單位時(shí)間內(nèi),平均完成查詢量的變化比較明顯,在執(zhí)行時(shí)間分解的基礎(chǔ)上,可在單位時(shí)間內(nèi),實(shí)現(xiàn)海量空間數(shù)據(jù)的存儲(chǔ)查詢,并提高數(shù)據(jù)統(tǒng)計(jì)與分析的綜合水平。

      3 研究結(jié)果

      3.1 內(nèi)存存儲(chǔ)模型設(shè)計(jì)

      應(yīng)用索引對(duì)數(shù)據(jù)傳輸過程進(jìn)行優(yōu)化,需要從空間數(shù)據(jù)分布的角度進(jìn)行優(yōu)化,并基于融合空間編碼技術(shù),利用內(nèi)存存儲(chǔ)模型進(jìn)行計(jì)算,其模型搭建如圖2 所示。

      圖2 分布式存儲(chǔ)模型

      海量空間數(shù)據(jù)的內(nèi)存存儲(chǔ)控制要盡可能減少屬性輸出,降低冗余數(shù)據(jù)以及查詢負(fù)載對(duì)海量空間數(shù)據(jù)分析的影響。在數(shù)據(jù)整合與處理的基礎(chǔ)上,可通過分布式存儲(chǔ)模型解決查詢負(fù)載問題。

      3.2 TrieTree 索引設(shè)計(jì)與實(shí)現(xiàn)

      在建立海量空間數(shù)據(jù)分布式存儲(chǔ)查詢優(yōu)化機(jī)制的過程中,已經(jīng)證明索引的應(yīng)用可提高海量空間數(shù)據(jù)的處理效果,基于此,引入TrieTree 索引,對(duì)海量空間數(shù)據(jù)的分布式存儲(chǔ)查詢過程進(jìn)行優(yōu)化,在實(shí)現(xiàn)數(shù)據(jù)整合的同時(shí),可利用海量空間對(duì)象數(shù)據(jù)存儲(chǔ)與內(nèi)存存儲(chǔ)分析的方式提高海量空間數(shù)據(jù)存儲(chǔ)與查詢的精度。實(shí)現(xiàn)TrieTree 索引應(yīng)用的具體設(shè)計(jì)步驟如下。

      (1)在給定范圍內(nèi)查詢輸入的坐標(biāo)點(diǎn);(2)計(jì)算數(shù)據(jù)覆蓋面;(3)訪問數(shù)據(jù)庫中所有的MBR;(4)掃描匹配時(shí)間戳;(5)數(shù)據(jù)篩選;(6)實(shí)現(xiàn)數(shù)據(jù)統(tǒng)計(jì)與分析。

      3.3 分布式存儲(chǔ)模型實(shí)現(xiàn)與查詢優(yōu)化

      在存儲(chǔ)模型優(yōu)化過程中,可通過組合粗粒度定位以及本地掃描的方式對(duì)分布式存儲(chǔ)模型進(jìn)行優(yōu)化,在建立優(yōu)化模型的基礎(chǔ)上,固定海量空間數(shù)據(jù)的查詢半徑,對(duì)冗余數(shù)據(jù)進(jìn)行處理,并根據(jù)數(shù)據(jù)查詢過程以及數(shù)據(jù)分析目的對(duì)數(shù)據(jù)處理過程進(jìn)行完善,從而降低數(shù)據(jù)冗余區(qū)域。在分布式存儲(chǔ)模型的應(yīng)用下,可通過編碼精度以及檢索MBR 數(shù)量之間的關(guān)系控制,提高分布式存儲(chǔ)模型對(duì)空間數(shù)據(jù)存儲(chǔ)查詢的優(yōu)化效果[7]。

      4 啟示建議

      4.1 明確衡量標(biāo)準(zhǔn)

      在海量空間數(shù)據(jù)分布式存儲(chǔ)查詢優(yōu)化過程中,要明確海量空間數(shù)據(jù)的分類標(biāo)準(zhǔn),根據(jù)海量空間數(shù)據(jù)的類型,從不同數(shù)據(jù)統(tǒng)計(jì)與分析的角度,提高數(shù)據(jù)分析與處理的精度。一方面,減小海量空間數(shù)據(jù)檢索面積,并對(duì)海量空間數(shù)據(jù)之間的關(guān)系進(jìn)行整合與處理,提高數(shù)據(jù)整合處理效果;另一方面,對(duì)不同查詢半徑的編碼精度以及檢索過程進(jìn)行優(yōu)化,并根據(jù)海量空間數(shù)據(jù)類型對(duì)數(shù)據(jù)集進(jìn)行優(yōu)化,可利用POI 數(shù)據(jù)對(duì)海量空間數(shù)據(jù)進(jìn)行存儲(chǔ)與查詢,滿足實(shí)際操作需求。

      4.2 重視數(shù)據(jù)應(yīng)用

      場(chǎng)景不同,海量空間數(shù)據(jù)也存在一定的差異性,所以,在分布式存儲(chǔ)模型的應(yīng)用中,可在數(shù)據(jù)環(huán)境下,對(duì)數(shù)據(jù)存儲(chǔ)過程、數(shù)據(jù)空間占比進(jìn)行優(yōu)化,并利用SQL 數(shù)據(jù)庫,依托數(shù)據(jù)關(guān)系,提高海量空間數(shù)據(jù)的分析與查詢處理效果。在數(shù)據(jù)分析與處理中,還需要利用不同的編碼精度,提高海量空間數(shù)據(jù)查詢的時(shí)效性與處理效果。在海量空間數(shù)據(jù)應(yīng)用下,可調(diào)整編碼存儲(chǔ)精度與查詢時(shí)間之間的關(guān)系,并對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),滿足海量空間數(shù)據(jù)分析的需求。

      4.3 更新查詢方法

      在對(duì)海量空間數(shù)據(jù)的查詢方法進(jìn)行更新的過程中,要結(jié)合海量空間數(shù)據(jù)的操作與處理需求,對(duì)查詢數(shù)據(jù)進(jìn)行整合與分析,并更新查詢方式,利用不同的索引對(duì)Spark與MySQL 數(shù)據(jù)庫之間的數(shù)據(jù)處理時(shí)間、性能等進(jìn)行對(duì)比優(yōu)化,從而提高海量空間數(shù)據(jù)的分布式查詢分析效果。

      5 結(jié)語

      海量空間數(shù)據(jù)的存儲(chǔ)與查詢性能的優(yōu)化,要利用融合空間編碼技術(shù)以及分布式存儲(chǔ)模型對(duì)海量空間數(shù)據(jù)進(jìn)行分類存儲(chǔ),并保證數(shù)據(jù)操作與控制的綜合水平。實(shí)現(xiàn)海量空間數(shù)據(jù)優(yōu)化,要在數(shù)據(jù)查詢與分析的基礎(chǔ)上,對(duì)海量空間對(duì)象存儲(chǔ)以及數(shù)據(jù)處理等進(jìn)行融合,最大化提高海量空間數(shù)據(jù)的檢索效率與處理效果,并滿足實(shí)時(shí)性的查詢需求。在海量空間數(shù)據(jù)查詢與處理中,可對(duì)分布式存儲(chǔ)模型的實(shí)際應(yīng)用進(jìn)行調(diào)整,提高數(shù)據(jù)分析的可擴(kuò)展性,并滿足海量空間數(shù)據(jù)分類管理與查詢分析的綜合需求。

      猜你喜歡
      空間數(shù)據(jù)海量分布式
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      一個(gè)圖形所蘊(yùn)含的“海量”巧題
      元數(shù)據(jù)驅(qū)動(dòng)的多中心空間數(shù)據(jù)同步方法研究
      基于DDS的分布式三維協(xié)同仿真研究
      西門子 分布式I/O Simatic ET 200AL
      基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
      客戶端空間數(shù)據(jù)緩存策略
      新平| 武安市| 台湾省| 铅山县| 中宁县| 巴南区| 织金县| 东乡族自治县| 天门市| 得荣县| 思茅市| 赤峰市| 元朗区| 万年县| 克拉玛依市| 淮阳县| 蓬安县| 铜山县| 绥中县| 拉萨市| 沂水县| 巴林左旗| 南投市| 镇宁| 铁力市| 嘉兴市| 淅川县| 威信县| 白银市| 新闻| 绵竹市| 甘南县| 宁津县| 遵义县| 河池市| 长沙县| 依兰县| 阿勒泰市| 青神县| 抚宁县| 博罗县|