• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      大數(shù)據(jù)產(chǎn)業(yè)研究綜述

      2018-03-22 12:03廖勁為于娟
      現(xiàn)代商貿(mào)工業(yè) 2018年6期
      關(guān)鍵詞:產(chǎn)業(yè)政策大數(shù)據(jù)技術(shù)大數(shù)據(jù)

      廖勁為 于娟

      摘 要:大數(shù)據(jù)是信息技術(shù)發(fā)展融合的新焦點(diǎn)和新引擎,正深刻影響著經(jīng)濟(jì)和社會(huì)的發(fā)展。為了促進(jìn)我國(guó)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,首先從國(guó)內(nèi)外大數(shù)據(jù)產(chǎn)業(yè)概況、相關(guān)政策規(guī)劃、大數(shù)據(jù)技術(shù)等三方面概述大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀,然后從我國(guó)信息化水平建設(shè)現(xiàn)狀出發(fā),從數(shù)據(jù)開(kāi)放、人才培養(yǎng)和技術(shù)研發(fā)三方面給出我國(guó)發(fā)展大數(shù)據(jù)產(chǎn)業(yè)的建議。

      關(guān)鍵詞:大數(shù)據(jù);大數(shù)據(jù)產(chǎn)業(yè);產(chǎn)業(yè)政策;大數(shù)據(jù)技術(shù)

      中圖分類號(hào):F2 文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.1672-3198.2018.06.003

      1 引言

      大數(shù)據(jù)(Big Data),是指利用傳統(tǒng)數(shù)據(jù)處理應(yīng)用捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的巨量數(shù)據(jù)集。大數(shù)據(jù)是信息技術(shù)發(fā)展融合的新焦點(diǎn),是信息產(chǎn)業(yè)持續(xù)高速增長(zhǎng)的新引擎,正深刻影響著經(jīng)濟(jì)和社會(huì)的發(fā)展。自2012年起,美、英、德、日等發(fā)達(dá)國(guó)政府紛紛發(fā)布大數(shù)據(jù)相關(guān)的綱領(lǐng)性文件,意圖通過(guò)實(shí)施大數(shù)據(jù)戰(zhàn)略改善社會(huì)生產(chǎn)力、創(chuàng)造新的經(jīng)濟(jì)社會(huì)價(jià)值,進(jìn)而提升國(guó)家核心競(jìng)爭(zhēng)力。2015年9月,我國(guó)國(guó)務(wù)院發(fā)布《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,將發(fā)展大數(shù)據(jù)產(chǎn)業(yè)上升到我國(guó)國(guó)家戰(zhàn)略。

      2 大數(shù)據(jù)產(chǎn)業(yè)

      大數(shù)據(jù)產(chǎn)業(yè)主要特征:(1)數(shù)據(jù)資產(chǎn)化。數(shù)據(jù)滲透到社會(huì)的方方面面,逐漸成為各組織的核心資產(chǎn)之一,是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的核心驅(qū)動(dòng)力。(2)技術(shù)高創(chuàng)新性。大數(shù)據(jù)產(chǎn)業(yè)的關(guān)鍵技術(shù)包括高效率低成本的大數(shù)據(jù)存儲(chǔ)、索引查詢、數(shù)據(jù)清洗、異構(gòu)數(shù)據(jù)集成以及數(shù)據(jù)可視化等。(3)決策智能化。組織決策從業(yè)務(wù)層到戰(zhàn)略層均需利用數(shù)據(jù)支持決策,“用數(shù)據(jù)說(shuō)話”,克服決策者的有限理性,推動(dòng)決策朝著科學(xué)化、智能化的方向發(fā)展。(4)服務(wù)個(gè)性化。通過(guò)數(shù)據(jù)挖掘用戶的興趣和偏好,提供個(gè)性化服務(wù),提高服務(wù)質(zhì)量,滿足用戶更高層次需求并獲得更高的經(jīng)濟(jì)收益。

      2.1 大數(shù)據(jù)產(chǎn)業(yè)鏈

      大數(shù)據(jù)產(chǎn)業(yè)鏈?zhǔn)且源髷?shù)據(jù)產(chǎn)品價(jià)值鏈為線索沿橫向從數(shù)據(jù)收集、存儲(chǔ)、分析到應(yīng)用逐級(jí)遞進(jìn),以大數(shù)據(jù)技術(shù)為中心沿縱向從底層的基礎(chǔ)硬件設(shè)施、大數(shù)據(jù)軟件技術(shù)到頂層的完整IT解決方案服務(wù),大數(shù)據(jù)產(chǎn)業(yè)鏈各環(huán)節(jié)如圖1所示。

      2.2 大數(shù)據(jù)產(chǎn)業(yè)規(guī)模

      隨著大數(shù)據(jù)成為國(guó)家戰(zhàn)略以及大數(shù)據(jù)技術(shù)和商業(yè)模式的逐漸成熟,大數(shù)據(jù)在各行業(yè)、各領(lǐng)域快速拓展。市場(chǎng)焦點(diǎn)從概念炒作迅速轉(zhuǎn)移到實(shí)際應(yīng)用,大數(shù)據(jù)進(jìn)入全面發(fā)展的快車道,呈現(xiàn)出應(yīng)用創(chuàng)新成為主要驅(qū)動(dòng)力、融資并購(gòu)成為市場(chǎng)熱點(diǎn)、產(chǎn)業(yè)生態(tài)不斷優(yōu)化和基礎(chǔ)設(shè)施建設(shè)更加合理等特點(diǎn)。

      美國(guó)憑借信息技術(shù)優(yōu)勢(shì)和軟硬件核心技術(shù)基礎(chǔ)占據(jù)了大數(shù)據(jù)產(chǎn)業(yè)鏈前端;歐洲、日本、韓國(guó)和澳大利亞等國(guó)家處于政府引導(dǎo)和基礎(chǔ)研究階段。目前我國(guó)大數(shù)據(jù)發(fā)展屬于初級(jí)階段,但各地開(kāi)展大數(shù)據(jù)研究和應(yīng)用的積極性高漲,都在加速推廣大數(shù)據(jù)的理論研究和實(shí)踐開(kāi)發(fā),近幾年市場(chǎng)規(guī)模明顯增速。2016年我國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模約168億,同比增長(zhǎng)45%,預(yù)計(jì)2017-2020年增速保持在30%以上。但目前不可忽視的是我國(guó)還未形成完整成熟的大數(shù)據(jù)產(chǎn)業(yè)鏈,尤其缺少成熟的高端產(chǎn)品和配套服務(wù)。大數(shù)據(jù)存儲(chǔ)和云計(jì)算服務(wù)仍是目前的主流產(chǎn)品,而數(shù)據(jù)收集和集成的前端服務(wù),數(shù)據(jù)挖掘分析和可視化的后端產(chǎn)品,及大數(shù)據(jù)整體解決方案仍存在巨大空白。

      目前我國(guó)大數(shù)據(jù)產(chǎn)業(yè)鏈呈現(xiàn)初級(jí)階段發(fā)展不均衡,區(qū)域分布明顯等特征:(1)京津冀,集聚效應(yīng)開(kāi)始顯現(xiàn),產(chǎn)業(yè)鏈條初步健全;(2)長(zhǎng)三角,開(kāi)展布局城市增多,智慧城市、云計(jì)算成重要支撐;(3)珠三角,政策扶持持續(xù)發(fā)力,產(chǎn)業(yè)發(fā)展進(jìn)入良性循環(huán);(4)中西部,鼎足之勢(shì)初現(xiàn)端倪,漸成產(chǎn)業(yè)發(fā)展新增長(zhǎng)點(diǎn)。

      2.3 大數(shù)據(jù)產(chǎn)業(yè)實(shí)踐

      大數(shù)據(jù),在經(jīng)濟(jì)預(yù)警、輿情分析、健康醫(yī)療、農(nóng)業(yè)精準(zhǔn)管理、城市綜合治理、電信運(yùn)營(yíng)、互聯(lián)網(wǎng)金融、電子商務(wù)等領(lǐng)域已出現(xiàn)先導(dǎo)應(yīng)用并在不斷深化。大數(shù)據(jù)產(chǎn)業(yè)實(shí)踐主要由數(shù)據(jù)擁有者、技術(shù)提供商、數(shù)據(jù)運(yùn)營(yíng)商和數(shù)據(jù)應(yīng)用者四個(gè)主要角色構(gòu)成。

      (1)數(shù)據(jù)擁有者是指擁有數(shù)據(jù)的組織,包括有數(shù)據(jù)且運(yùn)用較成熟的互聯(lián)網(wǎng)企業(yè),如百度、Google;有數(shù)據(jù)但運(yùn)用不好的傳統(tǒng)組織,例如政府、銀行;采集開(kāi)放數(shù)據(jù)或與其他數(shù)據(jù)擁有者合作而獲得數(shù)據(jù)資源的大數(shù)據(jù)服務(wù)商,如九次方。

      (2)技術(shù)提供商是為數(shù)據(jù)擁有者提供數(shù)據(jù)采集、存儲(chǔ)、計(jì)算、分析、咨詢等服務(wù)的企業(yè),包括提供基礎(chǔ)軟硬件領(lǐng)域的IBM和華為等,計(jì)算服務(wù)領(lǐng)域的Amazon和微軟等,大數(shù)據(jù)分析領(lǐng)域的Palantir和Splunk等。

      (3)數(shù)據(jù)運(yùn)營(yíng)商是對(duì)數(shù)據(jù)進(jìn)行加工處理后,以數(shù)據(jù)產(chǎn)品、數(shù)據(jù)應(yīng)用等形式直接為需求方提供服務(wù)的企業(yè),如阿里巴巴和沃爾瑪?shù)龋赡芡瑫r(shí)擁有大數(shù)據(jù)資源、大數(shù)據(jù)核心分析技術(shù)和大數(shù)據(jù)場(chǎng)景化應(yīng)用能力。

      (4)數(shù)據(jù)應(yīng)用者是大數(shù)據(jù)價(jià)值的最終受益者,通過(guò)對(duì)自有數(shù)據(jù)資源的開(kāi)發(fā)、重用或者從外部購(gòu)買數(shù)據(jù)產(chǎn)品,將其應(yīng)用于自身的業(yè)務(wù)場(chǎng)景或服務(wù)場(chǎng)景中創(chuàng)造新的價(jià)值,如信貸服務(wù)和智能交通領(lǐng)域。

      3 大數(shù)據(jù)產(chǎn)業(yè)政策規(guī)劃

      3.1 國(guó)外相關(guān)政策規(guī)劃

      為了充分利用大數(shù)據(jù)的潛在價(jià)值,美、英、德、日等發(fā)達(dá)國(guó)政府均制定了大數(shù)據(jù)相關(guān)的綱領(lǐng)性文件,并啟用官方數(shù)據(jù)開(kāi)放門戶,助力大數(shù)據(jù)從收集、集成到分析等的大數(shù)據(jù)處理過(guò)程。本文依據(jù)相關(guān)信息整理了主要發(fā)達(dá)國(guó)家發(fā)展大數(shù)據(jù)的戰(zhàn)略文件,如表1所示。

      表1說(shuō)明,國(guó)外政府大數(shù)據(jù)政策措施具有以下特征:

      (1)從戰(zhàn)略層面規(guī)劃布局我國(guó)大數(shù)據(jù)產(chǎn)業(yè)鏈。為搶占大數(shù)據(jù)發(fā)展主動(dòng)性,多數(shù)國(guó)家搶先頒布國(guó)家戰(zhàn)略層面規(guī)劃推動(dòng)國(guó)內(nèi)大數(shù)據(jù)理論研究、技術(shù)研發(fā)、產(chǎn)業(yè)發(fā)展和交叉領(lǐng)域應(yīng)用,以確保國(guó)家在大數(shù)據(jù)領(lǐng)域的國(guó)際領(lǐng)先地位。

      (2)重視政策輔助。具體來(lái)說(shuō)包括數(shù)據(jù)開(kāi)放共享、產(chǎn)業(yè)扶持、人才培養(yǎng)、資金保障等,力求構(gòu)筑良性生態(tài)環(huán)境。

      3.2 我國(guó)相關(guān)政策規(guī)劃

      各部委大數(shù)據(jù)相關(guān)政策與規(guī)劃。在2010年后,特別是2014年以后各部委密集制定出臺(tái)了諸多關(guān)于大數(shù)據(jù)產(chǎn)業(yè)的決定、規(guī)劃和指導(dǎo)意見(jiàn),對(duì)大數(shù)據(jù)產(chǎn)業(yè)進(jìn)行明確的支持和鼓勵(lì)。詳見(jiàn)表2。

      地方政府大數(shù)據(jù)相關(guān)政策與規(guī)劃。大數(shù)據(jù)產(chǎn)業(yè)野蠻生長(zhǎng)的同時(shí),我國(guó)一些地方政府也開(kāi)始密集出臺(tái)相關(guān)政策,對(duì)大數(shù)據(jù)產(chǎn)業(yè)進(jìn)行支持、規(guī)劃和指導(dǎo)。依據(jù)我國(guó)信息化水平較高地區(qū)的政府網(wǎng)站,整理相關(guān)政策如表3。

      表2和表3說(shuō)明,我國(guó)從中央政府到地方政府均積極推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)建設(shè)。但相比歐美等發(fā)達(dá)國(guó)家,我國(guó)信息化總體水平比較落后,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展起步較晚,導(dǎo)致配套規(guī)劃與政策存在較多缺口。

      4 大數(shù)據(jù)技術(shù)

      大數(shù)據(jù)產(chǎn)業(yè)發(fā)展以大數(shù)據(jù)技術(shù)為基礎(chǔ),包括:針對(duì)大數(shù)據(jù)“4V”特征的大數(shù)據(jù)收集、存儲(chǔ)、分析與可視化等大數(shù)據(jù)處理技術(shù)。大數(shù)據(jù)處理流程是指:在合適工具的輔助下,按照一定的標(biāo)準(zhǔn)對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行收集和集成,并統(tǒng)一存儲(chǔ);利用恰當(dāng)?shù)臄?shù)據(jù)處理技術(shù)分析提取存儲(chǔ)數(shù)據(jù)中有益的知識(shí)信息,并通過(guò)恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。Hadoop作為一個(gè)可開(kāi)發(fā)與運(yùn)行處理大數(shù)據(jù)的軟件平臺(tái),解決了大數(shù)據(jù)處理流程的一些關(guān)鍵問(wèn)題。按照?qǐng)D1所示大數(shù)據(jù)產(chǎn)業(yè)鏈的大數(shù)據(jù)處理流程,分析大數(shù)據(jù)技術(shù)研究現(xiàn)狀。

      4.1 大數(shù)據(jù)收集

      大數(shù)據(jù)收集是指對(duì)組織內(nèi)部已有數(shù)據(jù)和組織外部數(shù)據(jù)等進(jìn)行收集、整合的過(guò)程。這些數(shù)據(jù)包括組織原有信息系統(tǒng)的數(shù)據(jù),以及通過(guò)網(wǎng)絡(luò)爬蟲、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等各種方式收集的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù)。

      (1)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。利用ETL(數(shù)據(jù)抽取、轉(zhuǎn)換和加載)技術(shù)對(duì)不同數(shù)據(jù)源中的異構(gòu)數(shù)據(jù)抽取到臨時(shí)中間層進(jìn)行清洗、轉(zhuǎn)換、集成,然后加載到數(shù)據(jù)倉(cāng)庫(kù)中,作為OLAP(聯(lián)機(jī)分析處理)、數(shù)據(jù)分析的基礎(chǔ)。

      (2)網(wǎng)絡(luò)爬蟲技術(shù)。網(wǎng)絡(luò)爬蟲和主題爬蟲能夠自動(dòng)有效地提取萬(wàn)維網(wǎng)上的相關(guān)網(wǎng)頁(yè),是大數(shù)據(jù)收集的核心技術(shù)之一。Nutch是一種基于Java開(kāi)源的完全分布式爬蟲,可以在Hadoop的分布式集群上運(yùn)行,并實(shí)現(xiàn)大規(guī)模信息收集。

      (3)物聯(lián)網(wǎng)技術(shù)。物聯(lián)網(wǎng)結(jié)合硬件和軟件兩方面來(lái)實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、監(jiān)控、接入、傳輸、初步處理和管理等。

      4.2 大數(shù)據(jù)存儲(chǔ)

      大數(shù)據(jù)存儲(chǔ)是指把不同來(lái)源、不同格式及不同類型的數(shù)據(jù)在邏輯上或物理上有機(jī)的集中,并納入到數(shù)據(jù)聚合平臺(tái)中,方便數(shù)據(jù)的輸入和輸出。大數(shù)據(jù)存儲(chǔ)技術(shù)分為文件系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)兩部分。

      大數(shù)據(jù)文件系統(tǒng)解決海量且形態(tài)各異的數(shù)據(jù)存儲(chǔ)問(wèn)題,分布式系統(tǒng)的容錯(cuò)問(wèn)題及大數(shù)據(jù)中的冗余問(wèn)題等。目前典型的大數(shù)據(jù)文件系統(tǒng)有:分布式文件系統(tǒng)GFS(Google File System)和Ceph、以流數(shù)據(jù)訪問(wèn)模式存儲(chǔ)超大文件的HDFS(Hadoop Distributed File System)、基于分布式內(nèi)存的“低延遲”文件系統(tǒng)Tachyou。

      在數(shù)據(jù)庫(kù)系統(tǒng)方面,相對(duì)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)技術(shù),大數(shù)據(jù)的數(shù)據(jù)庫(kù)系統(tǒng)更重視分布式數(shù)據(jù)存儲(chǔ)的一致性問(wèn)題。根據(jù)一致性要求的強(qiáng)弱不同,分布式數(shù)據(jù)存儲(chǔ)策略可分為ACID和BASE兩類。ACID是指數(shù)據(jù)庫(kù)事務(wù)具有的4個(gè)特性:原子性(atomicity)、一致性(consistency)、隔離性(isolation)、持久性(durability),對(duì)一致性要求比較強(qiáng)。BASE則指:基本可用(basically available)、柔性事務(wù)/軟狀態(tài)(soft-state,允許暫時(shí)不同步)和最終一致性(eventual consistency),對(duì)一致性要求較弱。表4列舉了常見(jiàn)的分布式數(shù)據(jù)庫(kù)系統(tǒng)。

      基于BASE的數(shù)據(jù)庫(kù)系統(tǒng)主要強(qiáng)調(diào)可用性和弱一致性,這種系統(tǒng)無(wú)法較好地處理分布式數(shù)據(jù)存儲(chǔ)的一致性問(wèn)題。為此,Google研發(fā)了基于ACID的具有高可擴(kuò)展性和高可用性的Megastore、Spanner和Mesa系統(tǒng):Megastore系統(tǒng)基于Bigtable,能夠?qū)崿F(xiàn)類似關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)的數(shù)據(jù)模型;Spanner系統(tǒng)彌補(bǔ)了Megastore在吞吐量方面的缺陷,支持細(xì)粒度控制副本以及讀和寫的外部一致性;Mesa系統(tǒng)是一個(gè)具備跨地域復(fù)制和近實(shí)時(shí)特性的可伸縮數(shù)據(jù)倉(cāng)庫(kù),具有PB級(jí)數(shù)據(jù)處理能力和亞秒級(jí)響應(yīng)能力。

      4.3 大數(shù)據(jù)分析

      大數(shù)據(jù)分析是指利用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)等方法挖掘潛藏在數(shù)據(jù)中的深度信息,為商務(wù)智能、決策支持、信息預(yù)測(cè)等提供有用信息,實(shí)現(xiàn)數(shù)據(jù)的增值。由于數(shù)據(jù)來(lái)源的多樣性、數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性、數(shù)據(jù)量的快速增長(zhǎng),大數(shù)據(jù)建模完全超出傳統(tǒng)技術(shù)能夠處理的范圍,目前尚未見(jiàn)有效的多源異構(gòu)數(shù)據(jù)分析模型。

      目前,大數(shù)據(jù)計(jì)算框架主要有:批處理框架、流處理框架、交互式計(jì)算框架和圖處理框架等。

      (1)批處理框架。Google的Map-Reduce編程模型是最具代表性的批處理框架。其核心設(shè)計(jì)思想是:將問(wèn)題分而治之,以及通過(guò)將計(jì)算推導(dǎo)數(shù)據(jù)而不是數(shù)據(jù)推導(dǎo)計(jì)算,有效避免了因數(shù)據(jù)傳輸產(chǎn)生的大量通信開(kāi)銷。Map-Reduce模型簡(jiǎn)單,且現(xiàn)實(shí)中很多問(wèn)題都可用Map-Reduce模型來(lái)表示,在生物信息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用。

      (2)流處理框架。Twitter的Storm是最具代表性的流處理框架之一,其工作流程是:主控節(jié)點(diǎn)接受提交的任務(wù),并負(fù)責(zé)將該任務(wù)分發(fā)給工作節(jié)點(diǎn)執(zhí)行;工作節(jié)點(diǎn)上運(yùn)行的后臺(tái)程序Supervisor調(diào)度該任務(wù)去執(zhí)行特定的代碼。Storm編程模型簡(jiǎn)單、容錯(cuò)性高,且可快速可靠地處理消息。除此之外,常見(jiàn)的流處理框架還有Facebook的Scribe和Linkedin的Samza等。

      (3)交互式計(jì)算框架。Spark是最具代表性的交互式計(jì)算框架之一,提出了一個(gè)新的數(shù)據(jù)存儲(chǔ)概念RDD,能夠在并行計(jì)算的各個(gè)階段進(jìn)行有效的數(shù)據(jù)共享,極大提高了數(shù)據(jù)存儲(chǔ)和查詢效率。

      (4)圖處理框架。Pregel是Google針對(duì)分布式圖計(jì)算、BSP(Bulk Synchronous Parallel,整體同步并行計(jì)算模型)研發(fā)的計(jì)算框架,其基本思想是以節(jié)點(diǎn)(有活躍及不活躍兩種狀態(tài),初始狀態(tài)為活躍狀態(tài))為中心進(jìn)行計(jì)算,完成計(jì)算后每個(gè)節(jié)點(diǎn)主動(dòng)進(jìn)入不活躍狀態(tài),如果接收到信息,則激活,沒(méi)有活躍節(jié)點(diǎn)和消息時(shí),整個(gè)算法結(jié)束。Pregel主要用于BFS圖遍歷、最短路、PageRank計(jì)算等。

      在實(shí)際的生產(chǎn)環(huán)境中,為解決不同問(wèn)題,常常需要將多種大數(shù)據(jù)計(jì)算框架部署在統(tǒng)一的集群中,共享集群資源,為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,是集群實(shí)現(xiàn)更好的資源管理利用和數(shù)據(jù)共享。典型的統(tǒng)一資源管理與調(diào)度平臺(tái)有YARN和Mesos。

      4.4 大數(shù)據(jù)可視化

      數(shù)據(jù)可視化,是指數(shù)據(jù)及數(shù)據(jù)分析結(jié)果的視覺(jué)表現(xiàn)形式和相應(yīng)的人機(jī)交互技術(shù),是將數(shù)據(jù)以清晰、簡(jiǎn)單易懂的圖形圖像等形式進(jìn)行展示,以便更直觀和高效地洞悉大數(shù)據(jù)背后的信息和發(fā)現(xiàn)其中未知信息的處理過(guò)程。相比傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)的可視化,大數(shù)據(jù)可視化更著重于文本等非結(jié)構(gòu)化數(shù)據(jù)的可視化技術(shù)的研發(fā)。

      文本可視化是指將文本中蘊(yùn)含的語(yǔ)義特征(如詞頻、主題、邏輯結(jié)構(gòu)等)直觀地展示出來(lái)。典型的文本可視化技術(shù)是標(biāo)簽云,將關(guān)鍵詞根據(jù)詞頻或其他特征按照一定規(guī)律進(jìn)行布局排列,用字體、顏色、大小等圖形屬性對(duì)關(guān)鍵詞進(jìn)行可視化。除此之外,還有DAViewer和DocuBurst等語(yǔ)義結(jié)構(gòu)可視化技術(shù)。

      網(wǎng)絡(luò)的圖可視化,基于網(wǎng)絡(luò)節(jié)點(diǎn)和連接的拓?fù)潢P(guān)系,直觀展示網(wǎng)絡(luò)中的潛在模式關(guān)系。典型的圖可視化技術(shù)TreeNetViz,綜合了放射圖、基于空間填充法的樹圖等技術(shù),直觀展示了圖節(jié)點(diǎn)之間的關(guān)系,但缺乏對(duì)大數(shù)據(jù)環(huán)境下的可視化支持,在此基礎(chǔ)上,Hurter等人提出基于邊捆綁的方法,使得復(fù)雜網(wǎng)絡(luò)可視化效果更為清晰。

      此外,大數(shù)據(jù)背景下,多維數(shù)據(jù)的數(shù)據(jù)項(xiàng)分布規(guī)律及其屬性之間的潛在關(guān)系的可視化也是當(dāng)前的研究熱點(diǎn)之一。投影是多維數(shù)據(jù)可視化的代表性技術(shù)之一,將各維度屬性集合通過(guò)投影函數(shù)映射到一個(gè)方塊形圖形標(biāo)記中,并根據(jù)維度之間的關(guān)聯(lián)度對(duì)各個(gè)小方塊進(jìn)行布局,既反映了維度屬性值的分布規(guī)律,也直觀展示了多維度之間的語(yǔ)義關(guān)系。除此之外,還有散點(diǎn)圖和平行坐標(biāo)(parallel coordinates)等技術(shù)。

      5 我國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展建議

      依據(jù)國(guó)內(nèi)外大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀,從我國(guó)信息化水平現(xiàn)狀的實(shí)際出發(fā),結(jié)合我國(guó)大數(shù)據(jù)產(chǎn)業(yè)相關(guān)的政策與規(guī)劃,對(duì)我國(guó)發(fā)展大數(shù)據(jù)產(chǎn)業(yè)提出相應(yīng)對(duì)策和建議如下幾點(diǎn)。

      5.1 適度開(kāi)放數(shù)據(jù)資源

      數(shù)據(jù)的開(kāi)放與整合是大數(shù)據(jù)開(kāi)發(fā)利用的先決條件。如何突破“不愿、不敢、不會(huì)”開(kāi)放數(shù)據(jù)的瓶頸,是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重點(diǎn)和難點(diǎn)。

      政府是大規(guī)模原始數(shù)據(jù)的采集者。可以行政中心數(shù)據(jù)系統(tǒng)為依托,推進(jìn)公共數(shù)據(jù)資源的集中與適度開(kāi)放。在已出臺(tái)的《政務(wù)信息資源共享管理暫行辦法》的基礎(chǔ)上,進(jìn)一步細(xì)化政府部門以及事業(yè)單位等公共機(jī)構(gòu)數(shù)據(jù)資源清單和格式標(biāo)準(zhǔn)。在政務(wù)數(shù)據(jù)系統(tǒng)的基礎(chǔ)上,集合匯聚各部門包括垂直部門及各市的政務(wù)數(shù)據(jù),建立各級(jí)政府和部門間的數(shù)據(jù)交換共享機(jī)制,建設(shè)統(tǒng)一的政務(wù)數(shù)據(jù)資源庫(kù),設(shè)立面向社會(huì)的政府?dāng)?shù)據(jù)服務(wù)網(wǎng),進(jìn)一步推進(jìn)政務(wù)公開(kāi)工作。

      此外,還應(yīng)建設(shè)企事業(yè)單位的大數(shù)據(jù)庫(kù),推進(jìn)行業(yè)內(nèi)數(shù)據(jù)資源的共享和分析??梢越梃b“廣東省企業(yè)情況綜合數(shù)據(jù)平臺(tái)”的做法,分塊和集中管理相結(jié)合,綜合政府部門、社會(huì)、互聯(lián)網(wǎng)等不同渠道數(shù)據(jù),建設(shè)政府統(tǒng)一的經(jīng)濟(jì)管理大數(shù)據(jù)庫(kù),通過(guò)ETL技術(shù)重點(diǎn)集成企業(yè)的幾個(gè)關(guān)鍵維度數(shù)據(jù),完善政府企業(yè)綜合數(shù)據(jù)收集工作,掌握和分析企業(yè)生產(chǎn)經(jīng)營(yíng)情況,繪制經(jīng)濟(jì)地圖,發(fā)布產(chǎn)業(yè)數(shù)據(jù),適度促進(jìn)數(shù)據(jù)的開(kāi)放、分析與再利用。

      5.2 引培大數(shù)據(jù)人才

      大數(shù)據(jù)建設(shè)的各個(gè)環(huán)節(jié)都依賴專業(yè)人員完成,但我國(guó)大數(shù)據(jù)人才缺口很大。為此,應(yīng)充分發(fā)揮高等院校的科研力量和師資優(yōu)勢(shì),增設(shè)大數(shù)據(jù)相關(guān)專業(yè)和體系,同時(shí)加大科研投入。培養(yǎng)我國(guó)本土信息化高素質(zhì)復(fù)合人才,重點(diǎn)加快加強(qiáng)信息管理、統(tǒng)計(jì)學(xué)領(lǐng)域碩士生和博士生等高端人才的培養(yǎng)。加大在職信息領(lǐng)域工程碩士的招生力度,力求培養(yǎng)高層次大數(shù)據(jù)管理和技術(shù)人才。另一方面,擴(kuò)大人才基數(shù),對(duì)各行業(yè)在崗在職的社會(huì)人員進(jìn)行大數(shù)據(jù)繼續(xù)教育和培訓(xùn),使其認(rèn)清大數(shù)據(jù)的價(jià)值,提升大數(shù)據(jù)素養(yǎng),明晰大數(shù)據(jù)需求與應(yīng)用理念。

      此外,還可制定對(duì)口優(yōu)惠的人才引進(jìn)政策,在已有“千人計(jì)劃”上更有針對(duì)性地從國(guó)外引進(jìn)建設(shè)與發(fā)展大數(shù)據(jù)所需的各類高層次人才。各地政府還可以借鑒北京市建立的“首都信息化人才培養(yǎng)基地”對(duì)精英人才進(jìn)行培訓(xùn),通過(guò)加強(qiáng)類似同類型基地的建設(shè),筑巢引鳳以吸引海內(nèi)外人才和項(xiàng)目,并能夠?qū)λ麄冞M(jìn)行系統(tǒng)性的本土化培育,了解我國(guó)整體背景,讓人才更有方向性地投入我國(guó)發(fā)展大數(shù)據(jù)的實(shí)踐中。

      5.3 攻關(guān)大數(shù)據(jù)技術(shù)

      由于國(guó)內(nèi)外對(duì)大數(shù)據(jù)技術(shù)的研發(fā)方興未艾,發(fā)展大數(shù)據(jù)產(chǎn)業(yè)將面臨各方面的大數(shù)據(jù)技術(shù)挑戰(zhàn):(1)大數(shù)據(jù)收集技術(shù),數(shù)字化不夠及數(shù)據(jù)質(zhì)量問(wèn)題將影響大數(shù)據(jù)的整合與開(kāi)發(fā)和數(shù)據(jù)分析結(jié)果的準(zhǔn)確性。(2)大數(shù)據(jù)存儲(chǔ)技術(shù),傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)已無(wú)法滿足大數(shù)據(jù)存儲(chǔ)和快速檢索的需要。(3)大數(shù)據(jù)分析技術(shù),如何高效實(shí)時(shí)地對(duì)大量多源異構(gòu)數(shù)據(jù)進(jìn)行全局分析,發(fā)揮數(shù)據(jù)整合的力量,是大數(shù)據(jù)的關(guān)鍵難題之一。(4)大數(shù)據(jù)可視化技術(shù)。大數(shù)據(jù)分析的結(jié)果需要以簡(jiǎn)潔、直觀易懂的形式展示、解釋給用戶。

      數(shù)據(jù)安全是大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展的重要保障,面臨的主要挑戰(zhàn)有:(1)用戶隱私保護(hù)技術(shù),大數(shù)據(jù)未被妥善處理,會(huì)對(duì)用戶的隱私造成極大損害,甚至危害國(guó)家安全。(2)數(shù)據(jù)可信驗(yàn)證技術(shù),大數(shù)據(jù)分析的基礎(chǔ)是可信的數(shù)據(jù),但數(shù)據(jù)在傳播中會(huì)逐步失真,甚至出現(xiàn)偽造的數(shù)據(jù)。(3)訪問(wèn)控制技術(shù),大數(shù)據(jù)通常應(yīng)用與多個(gè)場(chǎng)景,需要對(duì)不同用戶設(shè)置不同的訪問(wèn)權(quán)限。

      6 結(jié)論

      目前我國(guó)大數(shù)據(jù)產(chǎn)業(yè)尚處于起步階段,整體發(fā)展要基于現(xiàn)實(shí)的信息化發(fā)展水平和國(guó)情。發(fā)展大數(shù)據(jù)產(chǎn)業(yè),既需要較高的信息化水平和良好的信息產(chǎn)業(yè)發(fā)展環(huán)境為基礎(chǔ),也要有先進(jìn)的管理理念和應(yīng)用實(shí)踐來(lái)牽頭。一方面需要轉(zhuǎn)變管理理念,另一方面需要解決關(guān)鍵技術(shù)問(wèn)題。從管理理念上,要重視數(shù)據(jù)資產(chǎn),決策過(guò)程“用數(shù)據(jù)說(shuō)話”。在技術(shù)上,要研發(fā)有效低價(jià)的大數(shù)據(jù)的收集、存儲(chǔ)、分析和可視化等關(guān)鍵環(huán)節(jié)技術(shù)。

      參考文獻(xiàn)

      [1]Wikipedia. Big data[EB/OL]. https://en.wikipedia.org/wiki/Big_data.

      [2]James M, Michael C, Brad B, et al. Big Data: The Next Frontier for Innovation, Competition, and Productivity [R]. McKinsey Global Institute, 2011: 8-10.

      [3]Jeffrey M. U.S. Science Policy: Agencies Rally to Tackle Big Data [J]. Science, 2012, 336(6077): 22.

      [4]Alexandros L, Jagadish H. V. Challenges and Opportunities with Big Data [C]. In: Proc. VLDB Endowment, 2012, 5(12): 2032-2033.

      [5]國(guó)務(wù)院. 促進(jìn)大數(shù)據(jù)發(fā)展綱要[EB/OL]. [2015-09-05]. http://www.gov.cn/zhengce/content/2015-09/05/content_10137.htm.

      [6]福建省人民政府發(fā)展研究中心課題組 李強(qiáng), 陳明旺, 劉立菁. 推進(jìn)福建大數(shù)據(jù)發(fā)展的對(duì)策思考[J]. 發(fā)展研究, 2015,(12): 8-15.

      [7]迪莉婭. 我國(guó)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展研究[J]. 科技進(jìn)步與對(duì)策, 2014,(4): 56-60.

      [8]李文蓮, 夏健明. 基于“大數(shù)據(jù)”的商業(yè)模式創(chuàng)新[J]. 中國(guó)工業(yè)經(jīng)濟(jì), 2013,(5):83-95.

      [9]貴陽(yáng)大數(shù)據(jù)交易所. 2016年中國(guó)大數(shù)據(jù)交易產(chǎn)業(yè)白皮書[R]. 2016,05(25).

      [10]陳桂龍. 我國(guó)大數(shù)據(jù)發(fā)展?fàn)顩r[J]. 中國(guó)建設(shè)信息化, 2015,(Z1):34-35.

      [11]中國(guó)信通院. 2017年中國(guó)大數(shù)據(jù)發(fā)展調(diào)查報(bào)告. 2017,03(28).

      [12]中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院. 2015年中國(guó)信息化發(fā)展水平評(píng)估報(bào)告[EB/OL]. [2016-06-14]. http://www.miit.gov.cn/n1146290/n1146402/n1146445/c4838381/part/4838390.pdf.

      [13]孫麗娟. 大數(shù)據(jù)產(chǎn)業(yè)鏈及變現(xiàn)[J]. 通信企業(yè)管理, 2016,(6):38-41.

      [14]毛國(guó)君, 胡殿軍, 謝松燕. 基于分布式數(shù)據(jù)流的大數(shù)據(jù)分類模型和算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2017,(1):161-175.

      [15]孟小峰, 慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(1): 146-169.

      [16]Dittrich J, Quiané-Ruiz J A. Efficient big data processing in Hadoop MapReduce[J]. Proceedings of the VLDB Endowment, 2012, 5(12): 2014-2015.

      [17]徐俊剛, 裴瑩. 數(shù)據(jù)ETL研究綜述[J]. 計(jì)算機(jī)科學(xué), 2011, 38(4):15-20.

      [18]胡萍瑞,李石君. 基于URL模式集的主題爬蟲[J]. 計(jì)算機(jī)應(yīng)用研究,2018,(03):1-2.

      [19]Yu G, Xie X, Liu Z. The design and realization of open-source search engine based on Nutch[C]//Anti-Counterfeiting Security and Identification in Communication (ASID), 2010 International Conference on. IEEE, 2010: 176-180.

      [20]錢志鴻, 王義君. 物聯(lián)網(wǎng)技術(shù)與應(yīng)用研究[J]. 電子學(xué)報(bào), 2012, 40(5):1023-1029.

      [21]Ghemawat S, Gobioff H, Leung S T. The Google file system[C]// Nineteenth ACM Symposium on Operating Systems Principles. ACM, 2003:29-43.

      [22]Weil S A, Brandt S A, Miller E L, et al. Ceph: A scalable, high-performance distributed file system[C]//Proceedings of the 7th symposium on Operating systems design and implementation. USENIX Association, 2006: 307-320.

      [23]Shvachko K, Kuang H, Radia S, et al. The hadoop distributed file system[C]//Mass storage systems and technologies (MSST), 2010 IEEE 26th symposium on. IEEE, 2010: 1-10.

      [24]Li H, Ghodsi A, Zaharia M, et al. Tachyon: Reliable, memory speed storage for cluster computing frameworks[C]//Proceedings of the ACM Symposium on Cloud Computing. ACM, 2014: 1-15.

      [25]陳軍成, 丁治明, 高需. 大數(shù)據(jù)熱點(diǎn)技術(shù)綜述[J]. 北京工業(yè)大學(xué)學(xué)報(bào), 2017,(03):358-367.

      [26]DeCandia G, Hastorun D, Jampani M, et al. Dynamo: amazon's highly available key-value store[J]. ACM SIGOPS operating systems review, 2007, 41(6): 205-220.

      [27]Lakshman A, Malik P. Cassandra: a decentralized structured storage system[J]. ACM SIGOPS Operating Systems Review, 2010, 44(2): 35-40.

      [28]Chang F, Dean J, Ghemawat S, et al. Bigtable: A distributed storage system for structured data[J]. ACM Transactions on Computer Systems (TOCS), 2008, 26(2): 1-26.

      [29]RIOS G, JUDD D. Load balancing for hypertable[C]//Proceedings of the 8th AAAI Conference on AI for Data Center Management and Cloud Computing ( AAAIWS'11-08). San Francisco: AAAI Press, 2011: 24-26.

      [30]Chodorow K. MongoDB: the definitive guide[M]. Cambridge: O'Reilly Media, Inc., 2010:1-193.

      [31]Anderson J C, Lehnardt J, Slater N. CouchDB: The Definitive Guide. Time to relax[M]. Cambridge: O'Reilly Media, Inc., 2010:1-245.

      [32]Webber J. A programmatic introduction to neo4j[C]//the 3rd annual conference on Systems, programming, and applications: software for humanity. ACM, 2012: 217-218.

      [33]Roggen D, Lombriser C, Rossi M, et al. Titan: an enabling framework for activity-aware" pervasive apps" in opportunistic personal area networks[J]. EURASIP Journal on Wireless Communications and Networking, 2011,(1): 1-22.

      [34]Baker J, Bond C, Corbett J C, et al. Megastore: Providing scalable, highly available storage for interactive services[C]//CIDR. 2011, 11: 223-234.

      [35]Corbett J C, Dean J, Epstein M, et al. Spanner: Google's globally distributed database[J]. ACM Transactions on Computer Systems (TOCS), 2013, 31(3): 8.

      [36]Gupta A, Yang F, Govig J, et al. Mesa: Geo-replicated, near real-time, scalable data warehousing[J]. Proceedings of the VLDB Endowment, 2014, 7(12): 1259-1270.

      [37]Xindong Wu, Xingquan Zhu, Gong-Qing Wu, et al. Data Mining with Big Data [J]. IEEE Transactions on Knowledge and Data Engineering (TKDE), 2014, 26(1): 97-107.

      [38]Dean J, Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.

      [39]Christensen R, Wang L, Li F, et al. STORM: Spatio-temporal online reasoning and management of large spatio-temporal data[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. ACM, 2015: 1111-1116.

      [40]Scribe[EB/OL]. Scribe. https://www.scribesoft.com/.

      [41]Goodhope K, Koshy J, Kreps J, et al. Building LinkedIn's Real-time Activity Data Pipeline[J]. IEEE Data Eng. Bull., 2012, 35(2): 33-45.

      [42]Zaharia M, Chowdhury M, Franklin M J, et al. Spark: cluster computing with working sets[C]// Usenix Conference on Hot Topics in Cloud Computing. USENIX Association, 2010:1765-1773.

      [43]Malewicz G, Austern M H, Bik A J C, et al. Pregel: a system for large-scale graph processing[C]//Proceedings of the 2010 ACM SIGMOD International Conference on Management of data. ACM, 2010: 135-146.

      [44]Vavilapalli V K, Murthy A C, Douglas C, et al. Apache hadoop yarn: Yet another resource negotiator[C]//the 4th annual Symposium on Cloud Computing. ACM, 2013: 5.

      [45]Hindman B, Konwinski A, Zaharia M, et al. Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center[C]// Proceedings of the 8th USENIX Symposium on Networked Systems Design and Implementation. 2011, 11(2011): 22-22.

      [46]任磊, 杜一, 馬帥,等. 大數(shù)據(jù)可視分析綜述[J]. 軟件學(xué)報(bào), 2014,(9):1909-1936.

      [47]Wu Y, Provan T, Wei F, et al. Semantic‐preserving word clouds by seam carving[C]//Computer Graphics Forum. Blackwell Publishing Ltd, 2011, 30(3): 741-750.

      [48]Zhao J, Chevalier F, Collins C, et al. Facilitating discourse analysis with interactive visualization[J]. IEEE Transactions on Visualization and Computer Graphics, 2012, 18(12): 2639-2648.

      [49]Collins C, Carpendale S, Penn G. Docuburst: Visualizing document content using language structure[C]//Computer graphics forum. Blackwell Publishing Ltd, 2009, 28(3): 1039-1046.

      [50]Gou L, Zhang X L. Treenetviz: Revealing patterns of networks over tree structures[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(12):2449-2458.

      [51]Hurter C, Ersoy O, Telea A. Graph bundling by kernel density estimation[C]//Computer Graphics Forum. Blackwell Publishing Ltd, 2012, 31(3pt1): 865-874.

      [52]Lee J H, McDonnell K T, Zelenyuk A, et al. A structure-based distance metric for high-dimensional space exploration with multidimensional scaling[J]. IEEE transactions on visualization and computer graphics, 2014, 20(3): 351-364.

      [53]Elmqvist N, Dragicevic P, Fekete J D. Rolling the dice: Multidimensional visual exploration using scatterplot matrix navigation[J]. IEEE transactions on Visualization and Computer Graphics, 2008, 14(6): 1539-1148.

      [54]Geng Z, Peng Z M, Laramee R S, et al. Angular histograms: Frequency-based visualizations for large, high dimensional data[J]. IEEE Transactions on Visualization and Computer Graphics, 2011, 17(12): 2572-2580.

      [55]國(guó)務(wù)院. 政務(wù)信息資源共享管理暫行辦法[EB/OL]. [2016-09-05]. http://www.gov.cn/zhengce/content/2016-09/19/content_5109486.htm.

      [56]數(shù)聯(lián)尋英. 大數(shù)據(jù)人才報(bào)告[EB/OL].[2016-07-15]. http://www.shulianxunying.com/.

      猜你喜歡
      產(chǎn)業(yè)政策大數(shù)據(jù)技術(shù)大數(shù)據(jù)
      我國(guó)衛(wèi)星應(yīng)用產(chǎn)業(yè)政策及分析
      中國(guó)制造,產(chǎn)業(yè)政策引導(dǎo)產(chǎn)業(yè)健康發(fā)展
      爭(zhēng)議產(chǎn)業(yè)政策
      大邑县| 灵璧县| 江达县| 衡南县| 察雅县| 古交市| 萨迦县| 小金县| 措勤县| 沅江市| 金沙县| 萍乡市| 枣强县| 益阳市| 藁城市| 米脂县| 石林| 汕头市| 皮山县| 正宁县| 泗水县| 布尔津县| 灌云县| 板桥市| 文化| 沾益县| 城口县| 吴旗县| 邵武市| 孝昌县| 理塘县| 林口县| 栖霞市| 甘孜县| 平湖市| 龙口市| 汨罗市| 成都市| 库尔勒市| 冕宁县| 昭觉县|