• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于HBase的房地產(chǎn)評(píng)估大數(shù)據(jù)整合策略

      2016-06-20 06:48:56聶竹青陳智明陳義明
      中國(guó)資產(chǎn)評(píng)估 2016年11期
      關(guān)鍵詞:關(guān)系數(shù)據(jù)庫(kù)空間數(shù)據(jù)百度

      聶竹青 陳智明 陳義明

      國(guó)內(nèi)外一些研究機(jī)構(gòu)或公司已經(jīng)開始整合和利用房地產(chǎn)評(píng)估數(shù)據(jù),試圖實(shí)現(xiàn)自動(dòng)和批量評(píng)估[1, 3-6]。他們都基于關(guān)系數(shù)據(jù)模型建模,使用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)。對(duì)于表示地理信息的空間數(shù)據(jù),采用連接數(shù)據(jù)庫(kù)的GIS地理信息系統(tǒng)開發(fā)引擎,將空間數(shù)據(jù)存入關(guān)系數(shù)據(jù)庫(kù)中,甚至有的直接使用文件存儲(chǔ)圖片。傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)的存儲(chǔ)方式有如下問題:

      1.傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)大多集中存儲(chǔ),即使是分布存儲(chǔ),也有非常嚴(yán)格的限制,不利于存儲(chǔ)容量的大規(guī)模擴(kuò)充。

      2.盡管關(guān)系型數(shù)據(jù)庫(kù)可以通過陣列和存儲(chǔ)網(wǎng)絡(luò)擴(kuò)充容量,但對(duì)這些存儲(chǔ)的訪問仍然是集中的,不能利用分布式計(jì)算能力,成為數(shù)據(jù)分析的瓶頸。

      一、大數(shù)據(jù)技術(shù)

      按照百度百科的觀點(diǎn),大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策等積極目的的信息。

      大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。如果采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)和計(jì)算方式,這些數(shù)據(jù)將會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作,需要將數(shù)據(jù)存在先進(jìn)的分布式數(shù)據(jù)庫(kù)如HBase(Hadoop Database)中。正在廣泛試用的大數(shù)據(jù)存儲(chǔ)和分析平臺(tái)是基于hadoop的開源軟件棧,它的體系結(jié)構(gòu)如圖1所示。

      圖1 基于hadoop的大數(shù)據(jù)平臺(tái)體系結(jié)構(gòu)

      HDFS Hadoop Distributed File System,即分布式文件系統(tǒng),是整個(gè)大數(shù)據(jù)平臺(tái)的基礎(chǔ)和核心。HDFS有高容錯(cuò)性的特點(diǎn),可以部署在價(jià)格低廉的硬件設(shè)備上。能夠按照實(shí)際需求很方便擴(kuò)充文件系統(tǒng)的存儲(chǔ)容量。它提供高吞吐量來訪問應(yīng)用程序的數(shù)據(jù),適合那些有超大規(guī)模數(shù)據(jù)集的應(yīng)用程序,是大數(shù)據(jù)存儲(chǔ)和處理的基礎(chǔ)。

      MapReduce基于HDFS文件系統(tǒng),采用“分而治之”的思想,把對(duì)大規(guī)模數(shù)據(jù)集的操作,分發(fā)給一個(gè)主節(jié)點(diǎn)管理下的各分節(jié)點(diǎn)共同并行完成,接著通過整合各分節(jié)點(diǎn)的中間結(jié)果,得到最終的結(jié)果。簡(jiǎn)單地說,MapReduce就是“任務(wù)的分散與結(jié)果的匯總”。

      HBase是一個(gè)高可靠性、高性能、可伸縮的分布式數(shù)據(jù)庫(kù),利用該技術(shù)可在廉價(jià)PC Server上搭建起大規(guī)模結(jié)構(gòu)化存儲(chǔ)集群。它是Google Bigtable的開源實(shí)現(xiàn),使用HDFS作為文件存儲(chǔ)系統(tǒng),利用MapReduce來處理HBase中的海量數(shù)據(jù)。HBase的表可以想象成一個(gè)大的映射關(guān)系,每一行都有一個(gè)可排序的主鍵和任意多的列,同一張表里面的每一行數(shù)據(jù)都可以有截然不同的列,數(shù)據(jù)是稀疏存儲(chǔ)的。列名字的格式是:

      表1 HBase數(shù)據(jù)的概念視圖

      二、房地產(chǎn)評(píng)估大數(shù)據(jù)

      (一)房地產(chǎn)大數(shù)據(jù)的范圍

      基于房地產(chǎn)評(píng)估數(shù)據(jù)的特點(diǎn),同時(shí)也受限于評(píng)估方法以及數(shù)據(jù)現(xiàn)狀,數(shù)據(jù)的范圍與組織方式也不相同。如加拿大的Stephen Foster和Stanley Hamilton在構(gòu)建不列顛哥倫比亞省的評(píng)估機(jī)構(gòu)(The British Columbian Assessment Authority of BCAA)時(shí),將數(shù)據(jù)組織為產(chǎn)權(quán)標(biāo)識(shí)數(shù)據(jù)、土地?cái)?shù)據(jù)、住宅改進(jìn)數(shù)據(jù)、商業(yè)改進(jìn)數(shù)據(jù)和銷售數(shù)據(jù),其他所有數(shù)據(jù)都掛接在財(cái)產(chǎn)標(biāo)識(shí)數(shù)據(jù)下。IAAO 在《Mass Appraisal of Real Property》中將批量評(píng)估數(shù)據(jù)劃分為所有權(quán)數(shù)據(jù)、銷售數(shù)據(jù)、收入和支出數(shù)據(jù)、成本數(shù)據(jù)、地圖數(shù)據(jù)(地籍圖、稅務(wù)地圖)等,并通過數(shù)據(jù)清單手冊(cè)來定義屬性特征和格式。耿繼進(jìn)等人根據(jù)房地產(chǎn)數(shù)據(jù)的特征、含義及是否含有空間信息,將房地產(chǎn)評(píng)估數(shù)據(jù)組織為房地產(chǎn)屬性數(shù)據(jù)、房地產(chǎn)空間數(shù)據(jù)、房地產(chǎn)價(jià)格數(shù)據(jù)和房地產(chǎn)評(píng)估參數(shù)數(shù)據(jù)四大類。陳杰雷認(rèn)為房地產(chǎn)估價(jià)咨詢數(shù)據(jù)庫(kù)的數(shù)據(jù)來源分為4部分:

      1.中介房源資料信息、交易信息和評(píng)估公司的評(píng)估報(bào)告;

      2.政府部門,如統(tǒng)計(jì)局、房地產(chǎn)行業(yè)協(xié)會(huì)發(fā)布的房地產(chǎn)數(shù)據(jù):房地產(chǎn)企業(yè)土地購(gòu)置價(jià)格、商品房銷售均價(jià)等;

      3.各類相關(guān)專業(yè)機(jī)構(gòu)(如中國(guó)經(jīng)濟(jì)統(tǒng)計(jì)快報(bào)、中國(guó)房地產(chǎn)統(tǒng)計(jì)年鑒)發(fā)布的統(tǒng)計(jì)數(shù)據(jù),如房屋銷售價(jià)格指數(shù)、房屋租賃價(jià)格指數(shù)、土地交易價(jià)格指數(shù)等;

      4.相關(guān)網(wǎng)站抓取的數(shù)據(jù)。

      目前,房地產(chǎn)大數(shù)據(jù)尚沒有一個(gè)權(quán)威的定義,我們認(rèn)為:房地產(chǎn)評(píng)估大數(shù)據(jù)是有關(guān)房地產(chǎn)的位置空間信息、屬性信息、交易信息以及其他與房地產(chǎn)相關(guān)的政策、經(jīng)濟(jì)信息的集合。本文中我們將以房地產(chǎn)空間數(shù)據(jù)、屬性數(shù)據(jù)、價(jià)格數(shù)據(jù)和評(píng)估參數(shù)數(shù)據(jù)為例說明基于HBase的數(shù)據(jù)建模方式。

      (二)房地產(chǎn)大數(shù)據(jù)的獲取途徑和技術(shù)

      房地產(chǎn)大數(shù)據(jù)的存在范圍很廣,涉及到國(guó)土、規(guī)劃、房管、房產(chǎn)中介、評(píng)估公司和物價(jià)等部門或公司,根據(jù)實(shí)際情況,這些數(shù)據(jù)可以有如下幾種收集方式:

      1.自整:即將自己公司多年積累下來的數(shù)據(jù)資料信息化;

      2.外購(gòu):從外部如房地產(chǎn)中介公司購(gòu)買一些交易數(shù)據(jù),這些交易價(jià)格數(shù)據(jù)可能比房產(chǎn)管理部門的數(shù)據(jù)更準(zhǔn)確;

      3.外采:組織人員使用一些工具手段實(shí)地采集數(shù)據(jù),如后面將闡述的房屋位置點(diǎn)或宗地范圍就可以利用現(xiàn)在的智能手機(jī)終端輕易獲取。如果購(gòu)買數(shù)據(jù)的代價(jià)高于外采,則可以考慮這種方法;

      4.搜索:很多房地產(chǎn)信息都發(fā)布在網(wǎng)絡(luò)上,特別是一些行業(yè)專業(yè)網(wǎng)站的信息尤其豐富,可以利用網(wǎng)絡(luò)爬蟲對(duì)這些網(wǎng)站進(jìn)行垂直搜索,使用現(xiàn)代信息檢索技術(shù)從中提取感興趣的數(shù)據(jù)。

      隨著大數(shù)據(jù)在全球利用步伐的加快,各種各樣的數(shù)據(jù)開放聯(lián)盟相繼建立,如中國(guó)香港就已經(jīng)加入了數(shù)據(jù)開放聯(lián)盟,如果國(guó)內(nèi)能夠盡快的意識(shí)到數(shù)據(jù)開放的重要性,數(shù)據(jù)獲取費(fèi)用將大幅降低,可利用的數(shù)據(jù)將更加豐富多樣。

      (三)大數(shù)據(jù)整合需要解決的問題

      整合來自不同部門、不同數(shù)據(jù)庫(kù)的數(shù)據(jù),可能會(huì)出現(xiàn)如下問題:

      一是數(shù)據(jù)不一致:同一個(gè)概念在不同系統(tǒng)中有不同的術(shù)語(yǔ),或者同一個(gè)術(shù)語(yǔ)在不同的系統(tǒng)中表示不同的含義,即使同一個(gè)術(shù)語(yǔ),數(shù)據(jù)的表示形式上可能還是不同,如數(shù)據(jù)單位的問題。解決這個(gè)問題需要建立行業(yè)數(shù)據(jù)標(biāo)準(zhǔn),開發(fā)不同數(shù)據(jù)之間的轉(zhuǎn)換規(guī)則,即元數(shù)據(jù)。

      二是數(shù)據(jù)異構(gòu):大數(shù)據(jù)的一個(gè)特征就是多樣性,除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還有大量的非結(jié)構(gòu)化數(shù)據(jù),如聲音和圖片等。數(shù)據(jù)的異構(gòu)特性阻礙了大數(shù)據(jù)的綜合利用。分布式數(shù)據(jù)庫(kù)系統(tǒng)HBase為異構(gòu)數(shù)據(jù)提供了一種統(tǒng)一的存儲(chǔ)方式,為大數(shù)據(jù)的綜合、高效利用提供了技術(shù)條件。

      三、基于HBase的房地產(chǎn)大數(shù)據(jù)存儲(chǔ)策略

      房地產(chǎn)評(píng)估大數(shù)據(jù)典型地包括:位置空間信息、房地產(chǎn)屬性信息、房地產(chǎn)價(jià)格信息和房地產(chǎn)評(píng)估參數(shù)。房地產(chǎn)屬性數(shù)據(jù)是指土地、樓宇和房屋等房地產(chǎn)實(shí)體的物理屬性,如樓層、朝向、建造年代等房地產(chǎn)特征信息;房地產(chǎn)空間數(shù)據(jù)是指與房地產(chǎn)空間位置相關(guān)的數(shù)據(jù),包括基礎(chǔ)地理信息、宗地圖、樓宇分布圖、地形圖等;房地產(chǎn)價(jià)格數(shù)據(jù)是評(píng)估的重要可比案例來源,包括買賣價(jià)格、租賃價(jià)格等。房地產(chǎn)評(píng)估參數(shù)數(shù)據(jù)是指與評(píng)估方法或模型相關(guān)的參數(shù)配置信息。

      空間數(shù)據(jù)表示房地產(chǎn)位置信息,是直觀顯示房地產(chǎn)周圍環(huán)境的重要手段??臻g數(shù)據(jù)通常以圖片數(shù)據(jù)出現(xiàn),給存儲(chǔ)和利用帶來挑戰(zhàn)。目前的主要方法是采用SDE空間數(shù)據(jù)引擎技術(shù)將空間數(shù)據(jù)存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中。SDE是在常規(guī)數(shù)據(jù)庫(kù)管理系統(tǒng)之上添加的用于實(shí)現(xiàn)空間數(shù)據(jù)存儲(chǔ)和管理的中間件,用戶可以通過SDE技術(shù)靈活地利用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)管理空間數(shù)據(jù)。這種方法需要勾畫各個(gè)圖層的柵格圖片,從關(guān)系數(shù)據(jù)庫(kù)中讀寫需要經(jīng)過SDE的轉(zhuǎn)換。本文提出一種基于百度地圖表示位置信息的方式,并設(shè)計(jì)HBase表結(jié)構(gòu)。

      (一)百度地圖表示空間數(shù)據(jù)

      百度地圖是百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司開發(fā)的地圖產(chǎn)品,除了普通地圖的常見功能外,還具有許多強(qiáng)大的功能,如查找周圍興趣點(diǎn)旅館、酒店、銀行、超市等和自然環(huán)境如水系和道路,路徑規(guī)劃和導(dǎo)航,最新版還有三維地圖、實(shí)景圖片和衛(wèi)星遙感實(shí)物地圖。因此,對(duì)于房地產(chǎn)的位置信息和一些重要屬性,我們只需要在百度地圖進(jìn)行準(zhǔn)確定位,然后基于定位從衛(wèi)星或三維地圖實(shí)地查看或者搜索周圍環(huán)境,給評(píng)估提供重要依據(jù)。本文定義兩種重要對(duì)象:點(diǎn)和區(qū)域來描述位置和范圍。

      點(diǎn)point:地面上某個(gè)地點(diǎn)在地圖上對(duì)應(yīng)的表示,如某棟樓宇的位置。利用智能手機(jī)的移動(dòng)網(wǎng)絡(luò)或GPS定位,很容易獲取某地點(diǎn)在地圖上得對(duì)應(yīng)點(diǎn)。

      區(qū)域area:地面上某個(gè)范圍在地圖上的對(duì)應(yīng)表示,如商業(yè)區(qū)和一塊宗地。一個(gè)區(qū)域可以由一個(gè)邊界上點(diǎn)的集合來表示。區(qū)域可以繞著邊界運(yùn)動(dòng),獲取足夠多的點(diǎn)圍成。

      利用百度地圖提供的強(qiáng)大的javascript編程接口,可以很容易地在地圖上描出點(diǎn)和區(qū)域。

      (二)基于Hbase的房地產(chǎn)大數(shù)據(jù)存儲(chǔ)設(shè)計(jì)

      本節(jié)將以城市為單位基于HBase對(duì)房地產(chǎn)數(shù)據(jù)建模,按照范圍由大到小的順序設(shè)計(jì)HBase的各張表格,對(duì)于每張表,主要設(shè)計(jì)它的行關(guān)鍵字和組成列族。設(shè)計(jì)表的順序如圖2所示:

      圖2 基于HBase的房地產(chǎn)數(shù)據(jù)建模順序圖

      各表的表結(jié)構(gòu)設(shè)計(jì)如下:

      城市城市id,屬性列族,居住區(qū)列族,商業(yè)區(qū)列族,工業(yè)區(qū)列族,宗地列族,居民小區(qū)列族…

      對(duì)于每一個(gè)區(qū)域,建立一張表,如居民小區(qū)表結(jié)構(gòu)如下:

      居民小區(qū)居民小區(qū)id,區(qū)域點(diǎn)集,屬性列族,樓宇列族

      樓宇樓宇id,位置點(diǎn),屬性列族,套房列族

      套房套房id,屬性列族,價(jià)格列族,評(píng)估參數(shù)列族

      每張表由固定的列族組成,每個(gè)列族可以含任意多個(gè)列,是相應(yīng)元素的一個(gè)枚舉,如居住區(qū)列族枚舉所有居住區(qū),每一列表示一個(gè)居住區(qū),內(nèi)容填入居住區(qū)表中的居住區(qū)id。在圖2中,從左到右,左邊列族中的列填入右邊下級(jí)表中的id。這種設(shè)計(jì)可以實(shí)現(xiàn)如下功能:

      1.按照從左到右的順序可以獲取一個(gè)套房的所有相關(guān)信息,查看百度的三維地圖和衛(wèi)星地圖,符合人們平時(shí)查詢房地產(chǎn)信息的習(xí)慣;

      2.由套房的位置點(diǎn)查詢其余相關(guān)信息,如從百度地圖直接選取一個(gè)位置的房地產(chǎn),查詢相關(guān)信息;

      3.由于HBase的更新實(shí)際上是在相應(yīng)列中插入一條帶新時(shí)間戳的數(shù)據(jù),因此,每張表中都保存了相應(yīng)對(duì)象的歷史變更,這些變更很容易查詢獲取,為房地產(chǎn)相關(guān)數(shù)據(jù)的分析挖掘提供了便利。

      4.利用百度地圖的功能,可以獲取某棟樓宇周圍的交通、水系和其他公共設(shè)施數(shù)據(jù);

      (三)前景和展望

      百度地圖功能日益強(qiáng)大,在每天一定的訪問次數(shù)內(nèi)免費(fèi)使用,它提供靈活、方便的javascript api使我們能夠開發(fā)與空間數(shù)據(jù)相關(guān)的應(yīng)用,避免了設(shè)計(jì)GIS柵格數(shù)據(jù)的繁瑣工作。HBase是建立在分布式文件系統(tǒng)上的新型數(shù)據(jù)庫(kù)系統(tǒng),數(shù)據(jù)分布存儲(chǔ),有很好的容錯(cuò)性和可擴(kuò)充性,能夠使用mapreduce編程模型并行分布訪問和計(jì)算處理,是大數(shù)據(jù)存儲(chǔ)的最佳工具。本文提出基于百度地圖和HBase數(shù)據(jù)庫(kù)的房地產(chǎn)評(píng)估大數(shù)據(jù)的整合存儲(chǔ)策略,解決了房地產(chǎn)大數(shù)據(jù)的整合和存儲(chǔ)問題,并且給大規(guī)模的數(shù)據(jù)訪問和分析處理開辟了廣闊的空間。

      猜你喜歡
      關(guān)系數(shù)據(jù)庫(kù)空間數(shù)據(jù)百度
      關(guān)系數(shù)據(jù)庫(kù)在高爐數(shù)據(jù)采集系統(tǒng)中的應(yīng)用
      山東冶金(2022年2期)2022-08-08 01:51:30
      Robust adaptive UKF based on SVR for inertial based integrated navigation
      百度年度熱搜榜
      元數(shù)據(jù)驅(qū)動(dòng)的多中心空間數(shù)據(jù)同步方法研究
      百度遭投行下調(diào)評(píng)級(jí)
      基于索引結(jié)構(gòu)的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞檢索
      百度“放衛(wèi)星”,有沒有可能?
      太空探索(2014年4期)2014-07-19 10:08:58
      基于文件系統(tǒng)的分布式海量空間數(shù)據(jù)高效存儲(chǔ)與組織研究
      一種基于數(shù)據(jù)圖劃分的關(guān)系數(shù)據(jù)庫(kù)關(guān)鍵詞檢索方法
      客戶端空間數(shù)據(jù)緩存策略
      盘锦市| 永昌县| 芮城县| 锦屏县| 新兴县| 肃北| 陵川县| 钟山县| 定日县| 津南区| 丰台区| 宁蒗| 基隆市| 沁阳市| 敦煌市| 泾阳县| 桓仁| 郴州市| 岳西县| 黄石市| 洛宁县| 岳西县| 西青区| 方正县| 塔河县| 沅江市| 九台市| 黄大仙区| 黔西县| 芜湖县| 元江| 西吉县| 常州市| 绥滨县| 铜川市| 牡丹江市| 金乡县| 鄂伦春自治旗| 德惠市| 道孚县| 开平市|