• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      云環(huán)境下基于分布式計(jì)算平臺(tái)的交通大數(shù)據(jù)高效查詢研究

      2017-04-06 02:07呂家琦
      企業(yè)文化·下旬刊 2016年12期

      呂家琦

      摘要:隨著時(shí)代的發(fā)展與信息技術(shù)的廣泛應(yīng)用。現(xiàn)如今,數(shù)據(jù)的爆炸式增長(zhǎng)已經(jīng)成為熱點(diǎn)問(wèn)題。尤其是在交通領(lǐng)域內(nèi),研究的深入必然產(chǎn)生海量的數(shù)據(jù)信息,同時(shí)也帶來(lái)了數(shù)據(jù)存儲(chǔ)了數(shù)據(jù)查詢方面的難題。云平臺(tái)的產(chǎn)生和應(yīng)用為海量數(shù)據(jù)的存儲(chǔ)和查詢提供了一種新的有效方法。本文以交通大數(shù)據(jù)為研究對(duì)象,主要探討了基于分布式數(shù)據(jù)庫(kù)HBase的大數(shù)據(jù)查詢策略。本文的研究為交通大數(shù)據(jù)的高效查詢研究提供了一種新的思路。

      關(guān)鍵詞:云環(huán)境;分布式計(jì)算;大數(shù)據(jù)查詢;HBase

      一、綜述

      隨著大數(shù)據(jù)時(shí)代的到來(lái),給對(duì)應(yīng)的應(yīng)用領(lǐng)域帶來(lái)了一系列的挑戰(zhàn)。如數(shù)據(jù)的存儲(chǔ)方式和數(shù)據(jù)的實(shí)時(shí)訪問(wèn)等。大數(shù)據(jù)的存儲(chǔ)和高效查詢成為了研究熱點(diǎn)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)難以滿足海量數(shù)據(jù)的存儲(chǔ)和實(shí)時(shí)查詢的要求。Hadoop云平臺(tái)具有并行性,高可靠性和可擴(kuò)展性的優(yōu)勢(shì)因而得到研究人員的廣泛關(guān)注。HBase作為一種分布式數(shù)據(jù)庫(kù)使海量數(shù)據(jù)的存儲(chǔ)和高效訪問(wèn)提供了可能。

      二、關(guān)鍵技術(shù)介紹

      (一)Hadoop

      在Hadoop平臺(tái)上,HDFS作為數(shù)據(jù)存儲(chǔ)的文件系統(tǒng),MapReduce負(fù)責(zé)數(shù)據(jù)的并行計(jì)算。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,Hadoop具有擴(kuò)展性更強(qiáng),數(shù)據(jù)處理方式更加泛化,處理類型更加廣泛的特點(diǎn)。對(duì)于海量數(shù)據(jù)來(lái)說(shuō),分布式計(jì)算平臺(tái)Hadoop是代替?zhèn)鹘y(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)的必然選擇。

      (二)HBase

      HBase基于分布式平臺(tái)的分布式數(shù)據(jù)庫(kù),與傳統(tǒng)數(shù)據(jù)庫(kù)相比,HBase是基于列存儲(chǔ),適合于結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)的數(shù)據(jù)庫(kù),這一點(diǎn)與大數(shù)據(jù)具有的特點(diǎn)不謀而合,所以說(shuō),HBase適合存儲(chǔ)數(shù)據(jù)的存儲(chǔ)于處理。HBase將數(shù)據(jù)按照表、行和列進(jìn)行存儲(chǔ)。

      三、數(shù)據(jù)遷移與查詢策略的研究

      (一)數(shù)據(jù)遷移

      通常,交通行業(yè)的相關(guān)數(shù)據(jù)收到業(yè)務(wù)的影響,目前都存儲(chǔ)與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),如ORACLE等中。為了對(duì)海量的交通數(shù)據(jù)進(jìn)行分析研究,就涉及到要將數(shù)據(jù)從傳統(tǒng)數(shù)據(jù)庫(kù)中導(dǎo)入到分布式數(shù)據(jù)庫(kù)中,也就是所謂的數(shù)據(jù)遷移。目前可通過(guò)相應(yīng)的工具,如Sqoop或importTsv等完成數(shù)據(jù)的遷移過(guò)程。數(shù)據(jù)遷移中,首先要在HBase中設(shè)計(jì)好對(duì)應(yīng)的表結(jié)構(gòu),因?yàn)镠Base中,RowKey是表中每條記錄的“主鍵”,能夠?qū)崿F(xiàn)對(duì)某條數(shù)據(jù)的快速定位,Rowkey的設(shè)計(jì)非常重要。Colunm Familv代表列族,包含一個(gè)或者多個(gè)相關(guān)列。所以在進(jìn)行數(shù)據(jù)遷移前,要完成RowKey和Column Family的設(shè)計(jì)。

      (二)索引的建立

      HBase無(wú)可置疑擁有其優(yōu)勢(shì),但其本身只對(duì)rowkey支持毫秒級(jí)的快速檢索,對(duì)于多字段的組合查詢卻無(wú)能為力。針對(duì)HBase的多條件查詢也有多種方案,基于Sok的HBase多條件查詢?cè)硎菍Base表中涉及條件過(guò)濾的字段和rowkey在Sok中建立索引,通過(guò)Sok的多條件查詢快速獲得符合過(guò)濾條件的rowkey值,拿到這些rowkey之后在HBase中通過(guò)指定rowkey進(jìn)行查詢。

      (三)實(shí)驗(yàn)與分析

      本集群選擇8臺(tái)物理機(jī)搭建,硬件配置為4G內(nèi)存,80G硬盤容量,集群內(nèi)部通過(guò)SSH連通。軟件配置為L(zhǎng)inuxCentOS操作系統(tǒng),Hadoop2.6.0,Hbase2.7.3,hivel.2.1,對(duì)應(yīng)的還有sqoop負(fù)責(zé)數(shù)據(jù)遷移,Sok負(fù)責(zé)索引的建立。實(shí)驗(yàn)數(shù)據(jù)來(lái)自高速公路收費(fèi)系統(tǒng)中近三個(gè)月的綠色通道數(shù)據(jù)。數(shù)據(jù)總量約100萬(wàn)條,500G。

      實(shí)驗(yàn)步驟:

      1設(shè)計(jì)HBASE表結(jié)構(gòu),確定RowKey和ColunmFamily中包含的元組。

      2利用Sqoop將數(shù)據(jù)從ORACLE中遷移到HBASE中。

      3利用Sok為所要查詢的數(shù)據(jù)屬性建立相應(yīng)索引。

      4按照數(shù)據(jù)量由小到大的順序,分四次進(jìn)行查詢效率對(duì)比實(shí)驗(yàn)。

      圖1展示了未建立索引和建立索引的數(shù)據(jù)查詢時(shí)間對(duì)比。

      通過(guò)上圖的展示表明,若未對(duì)存儲(chǔ)的HBase中的數(shù)據(jù)設(shè)計(jì)索引,則進(jìn)行數(shù)據(jù)查詢時(shí),查詢的時(shí)間與數(shù)據(jù)量大小無(wú)關(guān),耗時(shí)在5000秒左右。當(dāng)利用Sok對(duì)存儲(chǔ)在HBase中的數(shù)據(jù)設(shè)計(jì)索引后,能夠大幅度的降低數(shù)據(jù)的查詢時(shí)間。當(dāng)數(shù)據(jù)量在100萬(wàn)條時(shí),花費(fèi)的查詢時(shí)間耗時(shí)為8分鐘左右。通過(guò)對(duì)比可以看出,建立索引能夠減少數(shù)據(jù)查詢時(shí)間,提高查詢效率,滿足對(duì)交通大數(shù)據(jù)實(shí)時(shí)查詢的要求。

      四、總結(jié)

      本文是云平臺(tái)Hadoop框架上,基于分布式數(shù)據(jù)庫(kù)Hbase的海量數(shù)據(jù)的存儲(chǔ)和查詢。主要從數(shù)據(jù)遷移,索引的建立和通過(guò)相關(guān)的實(shí)驗(yàn)對(duì)比來(lái)展示云環(huán)境下,分布式數(shù)據(jù)庫(kù)對(duì)海量數(shù)據(jù)存儲(chǔ)和查詢的優(yōu)勢(shì)。本文根據(jù)實(shí)際研究?jī)?nèi)容,對(duì)高速公路特色車輛進(jìn)行查詢,通過(guò)對(duì)實(shí)驗(yàn)展示了建立索引對(duì)非主鍵數(shù)據(jù)的查詢效率的提升。放眼大數(shù)據(jù)行業(yè),在未來(lái)的研究中,針對(duì)Hadoop和HBase的優(yōu)化研究將會(huì)繼續(xù)進(jìn)行,這樣才能進(jìn)一步提高數(shù)據(jù)的查詢效率,使云技術(shù)更好的服務(wù)于大數(shù)據(jù)行業(yè)。

      弥渡县| 民县| 安阳县| 灌南县| 卢氏县| 修水县| 桂阳县| 穆棱市| 章丘市| 綦江县| 印江| 方山县| 皮山县| 泾川县| 瑞安市| 深水埗区| 洛浦县| 桂平市| 格尔木市| 安岳县| 龙泉市| 孟连| 崇阳县| 漠河县| 宁化县| 彭州市| 宜黄县| 鱼台县| 威信县| 成都市| 阿巴嘎旗| 光山县| 灌南县| 商城县| 赞皇县| 葫芦岛市| 郧西县| 高碑店市| 哈密市| 洛扎县| 内江市|