• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)技術(shù)前瞻

      2023-04-06 21:08:30梅宏杜小勇金海程學(xué)旗柴云鵬石宣化靳小龍王亞沙劉馳
      大數(shù)據(jù) 2023年1期
      關(guān)鍵詞:數(shù)據(jù)管理系統(tǒng)

      梅宏,杜小勇,金海,程學(xué)旗,柴云鵬,石宣化,靳小龍,王亞沙,劉馳

      1.高可信軟件技術(shù)教育部重點實驗室(北京大學(xué)),北京 100871;

      2.中國人民大學(xué)信息學(xué)院,北京 100872;

      3.華中科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430074;

      4.中國科學(xué)院計算技術(shù)研究所,北京 100086;

      5.中國科學(xué)院大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049;

      6.北京理工大學(xué)計算機(jī)學(xué)院,北京 100081

      0 引言

      世界主要國家高度重視大數(shù)據(jù)發(fā)展,我國也將發(fā)展大數(shù)據(jù)作為國家戰(zhàn)略。2015年8月,國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號),明確提出“數(shù)據(jù)已成為國家基礎(chǔ)性戰(zhàn)略資源”。2016年3月,《中華人民共和國國民經(jīng)濟(jì)和社會發(fā)展第十三個五年規(guī)劃綱要》正式提出“實施國家大數(shù)據(jù)戰(zhàn)略”。2017年10月,黨的十九大報告中提出加快推進(jìn)大數(shù)據(jù)與實體經(jīng)濟(jì)深度融合發(fā)展。2017年12月8日,在中共中央政治局第二次集體學(xué)習(xí)時,習(xí)近平總書記發(fā)表講話,做出了“大數(shù)據(jù)是信息化發(fā)展的新階段”這一重要論斷,要求“審時度勢精心謀劃超前布局力爭主動,實施國家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字中國”。黨的二十大報告指出數(shù)字技術(shù)與實體經(jīng)濟(jì)深度融合具有重大意義。

      大數(shù)據(jù)技術(shù)鏈條長,從采集、傳輸?shù)焦芾?、處理、分析、?yīng)用,形成一個完整的數(shù)據(jù)生命周期,同時在多個階段涉及數(shù)據(jù)治理。由于數(shù)據(jù)采集用到的傳感器技術(shù)和數(shù)據(jù)傳輸依賴的通信技術(shù)分別屬于基礎(chǔ)器件和通信學(xué)科領(lǐng)域,本文不涉及這兩類技術(shù)。同時,大數(shù)據(jù)應(yīng)用面比較廣,應(yīng)用發(fā)展?fàn)顟B(tài)不是技術(shù)問題,故本文也不涉及。另外,雖然大數(shù)據(jù)的發(fā)展已經(jīng)經(jīng)歷了10多個年頭,在一些應(yīng)用領(lǐng)域(特別是互聯(lián)網(wǎng)領(lǐng)域)取得了較好的成效,但是總體而言,大數(shù)據(jù)基礎(chǔ)理論和核心技術(shù)仍不成熟,大數(shù)據(jù)治理體系遠(yuǎn)未建立,大數(shù)據(jù)發(fā)展仍然處于初級階段。因此,為了更好地發(fā)展大數(shù)據(jù)技術(shù),本文聚焦數(shù)據(jù)生命周期中大數(shù)據(jù)管理、處理、分析和治理4類技術(shù),梳理國內(nèi)外技術(shù)發(fā)展現(xiàn)狀,特別是亟須清楚研判我國大數(shù)據(jù)技術(shù)發(fā)展與國際先進(jìn)技術(shù)之間的差距。此外,信息技術(shù)發(fā)展的主流一直是以計算為中心的,數(shù)據(jù)僅作為輸入和輸出圍繞著計算任務(wù)組織,信息系統(tǒng)設(shè)計和優(yōu)化的核心目標(biāo)是計算效能的提升。隨著數(shù)據(jù)體量的快速增長,以計算為中心的技術(shù)體系開始顯現(xiàn)出弊端,算力增長難以跟上數(shù)據(jù)規(guī)模的增長,形成“剪刀差”。近年來,一種以數(shù)據(jù)為中心的新技術(shù)體系日益受到關(guān)注,有望成為縮小“剪刀差”的突破點。一些具有潛力的創(chuàng)新技術(shù)已經(jīng)出現(xiàn)了,包括:在算法理論體系上,從由多項式精確算法主導(dǎo)演變?yōu)橛蓙喚€性概率近似算法主導(dǎo);在大數(shù)據(jù)方法體系上,從經(jīng)驗沉淀驅(qū)動演變?yōu)閿?shù)據(jù)模型驅(qū)動,從單純依賴機(jī)器發(fā)展到“人在回路”的協(xié)作計算模式;在大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)上,通過以數(shù)據(jù)為中心的泛在操作系統(tǒng),圍繞著數(shù)據(jù)間的互操作,高效組織廣域計算資源等。因此,在大數(shù)據(jù)應(yīng)用需求的驅(qū)動下,計算技術(shù)體系正面臨重構(gòu),從“以計算為中心”向“以數(shù)據(jù)為中心”轉(zhuǎn)型。在新的計算技術(shù)體系下,一些基礎(chǔ)理論和核心技術(shù)問題亟待破解,新型大數(shù)據(jù)系統(tǒng)技術(shù)成為重要發(fā)展方向,同時面臨以下四大挑戰(zhàn)。

      挑戰(zhàn)一:如何構(gòu)建以數(shù)據(jù)為中心的計算體系。全球大數(shù)據(jù)規(guī)模增長快速。2020年全球新增數(shù)據(jù)規(guī)模為64 ZB,是2016年的400%,預(yù)計2035年新增數(shù)據(jù)將高達(dá)2 140 ZB,數(shù)據(jù)量呈現(xiàn)指數(shù)級增長。隨著數(shù)字經(jīng)濟(jì)的發(fā)展和數(shù)字化轉(zhuǎn)型的深入,愈來愈多的數(shù)據(jù)資源正以數(shù)據(jù)要素的形態(tài)獨立存在,并參與數(shù)字經(jīng)濟(jì)活動的全過程。因此需要構(gòu)建以數(shù)據(jù)為中心的新型計算體系,以適應(yīng)新的應(yīng)用環(huán)境。如何組織和管理超大規(guī)模的數(shù)據(jù)要素已經(jīng)成為一項難題,如大數(shù)據(jù)管理面臨著數(shù)據(jù)跨域訪問帶來的各種問題、系統(tǒng)規(guī)模持續(xù)增大帶來的可用性下降、維護(hù)大規(guī)模數(shù)據(jù)帶來的成本和能耗持續(xù)增高等嚴(yán)峻挑戰(zhàn)。

      挑戰(zhàn)二:如何滿足大數(shù)據(jù)高效處理的需求。數(shù)據(jù)規(guī)模呈指數(shù)級增長,數(shù)據(jù)動態(tài)傾斜、稀疏關(guān)聯(lián)、應(yīng)用復(fù)雜,傳統(tǒng)大數(shù)據(jù)處理架構(gòu)處理成本高、時效性差,如何滿足規(guī)模海量、格式復(fù)雜、需求多變的大數(shù)據(jù)高效處理需求是大數(shù)據(jù)處理面臨的重要挑戰(zhàn)。

      挑戰(zhàn)三:如何實現(xiàn)多源異構(gòu)大數(shù)據(jù)的可解釋性分析。隨著數(shù)據(jù)量持續(xù)地爆炸式增長和各類應(yīng)用的不斷拓展與深化,基于深度學(xué)習(xí)的主流方法因其僅關(guān)注單源單模態(tài)數(shù)據(jù)且模型只知其然不知其所以然的特性,已無法滿足發(fā)展需求。如何打破數(shù)據(jù)多源異構(gòu)造成的隔閡,融合多域甚至全域數(shù)據(jù)中蘊(yùn)含的知識,實現(xiàn)分析結(jié)果的可解釋,從而提升其可用性,是當(dāng)前大數(shù)據(jù)分析面臨的主要挑戰(zhàn)。

      挑戰(zhàn)四:如何形成系統(tǒng)化大數(shù)據(jù)治理框架與關(guān)鍵技術(shù)。針對大數(shù)據(jù)應(yīng)用過程中的對數(shù)據(jù)匯聚融合、質(zhì)量保障、開放流通、標(biāo)準(zhǔn)化和生態(tài)系統(tǒng)建設(shè)的需求,大數(shù)據(jù)治理技術(shù)逐漸成為發(fā)展熱點。然而當(dāng)前系統(tǒng)化的大數(shù)據(jù)治理框架尚未形成,開放共享、質(zhì)量評估、價值預(yù)測等關(guān)鍵技術(shù)遠(yuǎn)未成熟,這成為制約大數(shù)據(jù)發(fā)展的主要瓶頸。

      本文在計算體系重構(gòu)的背景下,對大數(shù)據(jù)管理、處理、分析和治理4個方面的主要技術(shù)挑戰(zhàn)、國內(nèi)外研究現(xiàn)狀與差距做出研判,并提出大數(shù)據(jù)技術(shù)發(fā)展的十大趨勢。

      1 大數(shù)據(jù)管理技術(shù)

      1.1 主要技術(shù)挑戰(zhàn)

      大數(shù)據(jù)管理是大數(shù)據(jù)生命周期中的重要環(huán)節(jié)。大數(shù)據(jù)管理技術(shù)主要包括大數(shù)據(jù)的組織、存儲、計算與訪問等相關(guān)技術(shù)。盡管數(shù)據(jù)管理技術(shù)與系統(tǒng)已經(jīng)經(jīng)歷了近60年的發(fā)展,但由于大數(shù)據(jù)具有超大規(guī)模、高速增長、類型多樣、高復(fù)雜性等特點,大數(shù)據(jù)管理仍然面臨諸多嚴(yán)峻挑戰(zhàn),特別表現(xiàn)在以下3個方面。

      (1)高性能挑戰(zhàn)

      一直以來,追求數(shù)據(jù)訪問的高性能是數(shù)據(jù)庫系統(tǒng)的核心問題。隨著摩爾定律接近終結(jié),傳統(tǒng)硬件性能提升乏力。在數(shù)據(jù)規(guī)模高速增長的情況下,大數(shù)據(jù)管理遇到的高性能挑戰(zhàn)更加突出,迫切需要尋找性能提升的新驅(qū)動力,尤其是要充分利用近年來發(fā)展迅速的各種新硬件和人工智能技術(shù),最大限度發(fā)揮異構(gòu)架構(gòu)帶來的機(jī)會。

      (2)可用性挑戰(zhàn)

      數(shù)據(jù)管理系統(tǒng)是大數(shù)據(jù)產(chǎn)業(yè)的核心基礎(chǔ)設(shè)施,因此其可用性至關(guān)重要。大數(shù)據(jù)規(guī)模呈現(xiàn)指數(shù)級高速增長,大數(shù)據(jù)業(yè)務(wù)環(huán)境也非常復(fù)雜,大數(shù)據(jù)管理系統(tǒng)往往規(guī)模極大且具有很高的復(fù)雜度,因此各類錯誤發(fā)生的概率顯著提升,可能導(dǎo)致服務(wù)中斷、無法保證正確性,甚至可能存在惡意節(jié)點引發(fā)虛假消息或數(shù)據(jù)篡改等嚴(yán)重問題。這給大數(shù)據(jù)管理系統(tǒng)的可用性帶來更大的挑戰(zhàn)。

      (3)能效挑戰(zhàn)

      目前維護(hù)和管理超大規(guī)模數(shù)據(jù)的能耗占比已經(jīng)很高?,F(xiàn)有技術(shù)往往以性能提升為導(dǎo)向,能效不高,因此面向快速增長的大數(shù)據(jù),迫切需要發(fā)展和應(yīng)用高能效大數(shù)據(jù)管理技術(shù)。

      1.2 國內(nèi)外研究現(xiàn)狀與差距比較

      新一代大數(shù)據(jù)管理技術(shù)的創(chuàng)新發(fā)展主要圍繞高性能、高可用、高能效3個方面展開。

      在高性能大數(shù)據(jù)管理領(lǐng)域,新的性能提升動力主要包括新硬件和人工智能驅(qū)動兩個途徑。在新硬件方面,美國在內(nèi)存數(shù)據(jù)庫并發(fā)控制、非易失存儲器(nonvolatile memory,NVM)數(shù)據(jù)管理、GPU數(shù)據(jù)庫、異構(gòu)計算數(shù)據(jù)庫等方面的技術(shù)和產(chǎn)品均處于領(lǐng)先地位[1],德國的SAP HANA是高性能數(shù)據(jù)庫的代表之一[2]。我國在NVM、遠(yuǎn)程直接內(nèi)存訪問(remote direct memory access,RDMA)、硬件事務(wù)內(nèi)存(hardware transactional memory,HTM)等新硬件數(shù)據(jù)管理技術(shù)方面也提出一系列先進(jìn)的創(chuàng)新成果,如上海交通大學(xué)的RMDA和HTM結(jié)合方案[3],以及中國科學(xué)院計算技術(shù)研究所的NVM日志與恢復(fù)方法[4]等。在人工智能驅(qū)動的高性能大數(shù)據(jù)管理方面,美國率先提出學(xué)習(xí)索引[5]、Self-Design[6]等技術(shù),微軟[7]、甲骨文[8]、亞馬遜等企業(yè)已在數(shù)據(jù)庫產(chǎn)品中使用智能驅(qū)動技術(shù)。我國在學(xué)習(xí)索引、自動調(diào)優(yōu)、智能查詢優(yōu)化、智能數(shù)據(jù)分區(qū)等領(lǐng)域的創(chuàng)新也非?;钴S,如阿里巴巴[9]、華為[10]、騰訊等企業(yè)的數(shù)據(jù)庫產(chǎn)品加入了數(shù)據(jù)自動調(diào)優(yōu)、自動運維等自治技術(shù),清華大學(xué)等高校提出一系列AI4DB創(chuàng)新技術(shù)[11-12]。

      在高可用大數(shù)據(jù)管理領(lǐng)域,數(shù)據(jù)冗余是應(yīng)對軟硬件錯誤的主要手段,核心技術(shù)是分布式共識和分布式事務(wù)處理,難點在于同時實現(xiàn)高可用和高性能[13]。美國是該方向的引領(lǐng)者,核心算法和最早的系統(tǒng)都來自美國[14-15]。國內(nèi)阿里巴巴、清華大學(xué)、上海交通大學(xué)、中國人民大學(xué)等在核心的分布式事務(wù)和共識協(xié)同優(yōu)化技術(shù)等方面取得了系列創(chuàng)新成果[16-17]。國產(chǎn)數(shù)據(jù)庫PolarDB、TiDB等可用性水平已達(dá)到國際一流水準(zhǔn)[16,18]。另一類可用性問題是網(wǎng)絡(luò)中部分節(jié)點存在惡意,如發(fā)送虛假消息或篡改數(shù)據(jù)等。目前國際主流應(yīng)對技術(shù)是區(qū)塊鏈,主要發(fā)展趨勢是通過公鏈和聯(lián)盟鏈相互融合、適度降低安全性要求等方式提升區(qū)塊鏈的性能[19-20]。我國的區(qū)塊鏈大數(shù)據(jù)管理技術(shù)發(fā)展和應(yīng)用已接近國際一流水平,國產(chǎn)聯(lián)盟鏈系統(tǒng)(螞蟻鏈、騰訊區(qū)塊鏈和百度超級鏈等)每秒交易量均超過1萬,并在區(qū)塊鏈發(fā)票、區(qū)塊鏈司法存證、區(qū)塊鏈物流溯源等領(lǐng)域廣泛應(yīng)用。

      在高能效大數(shù)據(jù)管理領(lǐng)域,云數(shù)據(jù)管理技術(shù)通過資源共享、資源調(diào)度來顯著減少硬件資源和能源的消耗,并使用低功耗硬件和數(shù)據(jù)壓縮等軟件方法進(jìn)一步降低能耗。美國的亞馬遜和Snowflake分別是聯(lián)機(jī)事務(wù)處理(on-line transaction processing,OLTP)和聯(lián)機(jī)分析處理(online analysis processing,OLAP)領(lǐng)域云數(shù)據(jù)庫的全球引領(lǐng)者;美國亞馬遜、谷歌、微軟、Meta等公司率先探索基于異構(gòu)硬件和壓縮的低功耗數(shù)據(jù)管理技術(shù)[21]。而國內(nèi)的高能效云數(shù)據(jù)庫技術(shù)發(fā)展非常快,已與美國技術(shù)水平接近,如阿里云的PolarDB率先提出分離內(nèi)存技術(shù)[22],中國人民大學(xué)等高校也通過異構(gòu)計算和壓縮數(shù)據(jù)直接計算方式構(gòu)建了新型高能效數(shù)據(jù)管理引擎[23]。近年來,國內(nèi)外在云數(shù)據(jù)管理的基礎(chǔ)上探索國家范圍內(nèi)的一體化高能效數(shù)據(jù)管理,例如美國蘋果、谷歌等公司通過智能編排,將數(shù)據(jù)智能地在多個數(shù)據(jù)中心進(jìn)行分布和計算,降低總體能耗[24]。我國提出了算力網(wǎng)絡(luò)的概念和國際標(biāo)準(zhǔn),正式啟動“東數(shù)西算”工程,充分利用中西部地區(qū)的氣候、能源等優(yōu)勢,在全國布局算力網(wǎng)絡(luò)國家樞紐節(jié)點,并逐步在人工智能、圖像渲染、金融和政企業(yè)務(wù)等領(lǐng)域應(yīng)用[25]。我國在高能效一體化數(shù)據(jù)管理技術(shù)方面走在世界前列。

      綜上所述,近年來我國大數(shù)據(jù)管理技術(shù)和產(chǎn)品的發(fā)展都非???,如在聯(lián)機(jī)事務(wù)處理基準(zhǔn)測試TPC-C排行榜中,OceanBase以707 351 007 tpmC的性能排名世界第一,打破了甲骨文等國外公司長期壟斷的局面。我國大數(shù)據(jù)管理技術(shù)與國外頂尖水平(絕大部分情況指美國)雖然存在一定差距,但大部分領(lǐng)域的差距并不大,具備趕超的機(jī)會;在高能效一體化大數(shù)據(jù)管理等領(lǐng)域,甚至有局部領(lǐng)先。

      1.3 小結(jié)

      美國在新一代大數(shù)據(jù)管理技術(shù)方面仍處于全球領(lǐng)先和主導(dǎo)地位;歐盟在部分領(lǐng)域的產(chǎn)品和創(chuàng)新技術(shù)上有一定優(yōu)勢;日本、俄羅斯等其他國家相對而言在技術(shù)、產(chǎn)品和生態(tài)上均缺乏優(yōu)勢。而我國大數(shù)據(jù)管理技術(shù)進(jìn)步非???,在我國大規(guī)模市場的培育下,頭部企業(yè)的產(chǎn)品能力和頂尖高校的創(chuàng)新能力已經(jīng)達(dá)到或接近國際一流水準(zhǔn),明顯超越日本、俄羅斯等國家一些領(lǐng)域的技術(shù)創(chuàng)新也領(lǐng)先于歐洲,與美國的差距在迅速減?。挥绕涫窃诟吣苄б惑w化大數(shù)據(jù)管理等領(lǐng)域,我國已經(jīng)在國際上搶先一步發(fā)展。

      2 大數(shù)據(jù)處理技術(shù)

      2.1 主要技術(shù)挑戰(zhàn)

      過去10年,數(shù)據(jù)規(guī)模呈指數(shù)級增長,數(shù)據(jù)處理的時效性問題成為大數(shù)據(jù)處理系統(tǒng)面臨的核心問題。同時數(shù)據(jù)應(yīng)用蓬勃發(fā)展,數(shù)據(jù)深度價值挖掘、數(shù)據(jù)實時處理等新型處理需求進(jìn)一步提高了數(shù)據(jù)處理復(fù)雜度,大規(guī)模數(shù)據(jù)處理系統(tǒng)中數(shù)據(jù)動態(tài)傾斜、稀疏關(guān)聯(lián)、超大容量等特征給系統(tǒng)帶來資源效率低、時空開銷大、擴(kuò)展困難等嚴(yán)重問題。作為大數(shù)據(jù)領(lǐng)域典型關(guān)聯(lián)關(guān)系的圖數(shù)據(jù),由于其不規(guī)則數(shù)據(jù)訪問、計算-訪存比小、依賴關(guān)系復(fù)雜等特點,給現(xiàn)有大數(shù)據(jù)處理架構(gòu)帶來了并行流水執(zhí)行效率低、訪存局部性低、內(nèi)外存通道利用率低和鎖同步開銷大等技術(shù)挑戰(zhàn)。

      2.2 國內(nèi)外研究現(xiàn)狀與差距比較

      大數(shù)據(jù)處理通常有兩種方式,一種為離線處理模式,另一種為在線處理模式,與之對應(yīng)的系統(tǒng)為批處理系統(tǒng)和流處理系統(tǒng)。同時作為互聯(lián)網(wǎng)以及科學(xué)計算領(lǐng)域重要的數(shù)據(jù)形態(tài),圖數(shù)據(jù)因其結(jié)構(gòu)特殊,多采用專用系統(tǒng)處理。本節(jié)將從批處理、流處理以及圖計算3個方面進(jìn)行比較。

      (1)批處理

      作為最早的大數(shù)據(jù)處理模式,從谷歌公司提出MapReduce[26]模型開始,美國一直引領(lǐng)該領(lǐng)域的發(fā)展。近10年,從開源Apache Hadoop到美國加州大學(xué)伯克利分校的AMPLab研發(fā)的Spark系統(tǒng),在技術(shù)生態(tài)上完全詮釋了大數(shù)據(jù)處理從“擴(kuò)展性優(yōu)先”設(shè)計到“性能優(yōu)先”設(shè)計的過渡,大幅提升了大數(shù)據(jù)的處理性能,同時也為更多類型的大數(shù)據(jù)處理業(yè)務(wù)(如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等)提供了支持。為了更好地支撐分布式AI應(yīng)用,同樣由美國加州大學(xué)伯克利分校領(lǐng)導(dǎo)的AnyScale公司提出了Ray框架,通過動態(tài)定制計算依賴,取得了比Spark更優(yōu)異的計算性能。另外,異構(gòu)計算成為大數(shù)據(jù)處理系統(tǒng)時效性提升的重要手段。美國NVIDIA公司牽頭針對不同應(yīng)用領(lǐng)域,開源了RAPIDS GPU數(shù)據(jù)科學(xué)庫[27-28],存內(nèi)計算[29]之類的近數(shù)據(jù)處理方法在體系結(jié)構(gòu)領(lǐng)域獲得廣泛關(guān)注。

      我國過去10年在大數(shù)據(jù)處理系統(tǒng)領(lǐng)域也取得了巨大進(jìn)展,尤其以大型互聯(lián)網(wǎng)企業(yè)為代表,如阿里巴巴自研的MaxComput引擎可提供高效的數(shù)據(jù)處理功能,在大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)倉庫和BI分析、網(wǎng)站的日志分析、電子商務(wù)網(wǎng)站的交易分析、用戶特征和興趣挖掘等領(lǐng)域獲得較好應(yīng)用。此外,阿里云基于Flink開發(fā)了Blin系統(tǒng),實現(xiàn)了流處理和批處理的統(tǒng)一,在批流融合相關(guān)技術(shù)指標(biāo)方面達(dá)到了國際領(lǐng)先水平。在學(xué)術(shù)界,國內(nèi)在大數(shù)據(jù)處理的單點技術(shù)突破上也取得了系列進(jìn)展,如上海交通大學(xué)的Espresso[30]、華中科技大學(xué)的Deca系統(tǒng)[31],性能大幅領(lǐng)先國際同類系統(tǒng)。目前我國的多數(shù)大數(shù)據(jù)批處理系統(tǒng)還是建立在國際開源的基礎(chǔ)之上的,自研系統(tǒng)國際占有率非常有限,整體技術(shù)水平仍有較大差距,生態(tài)差距更大。

      (2)流處理

      國際上現(xiàn)有流處理系統(tǒng)按體系結(jié)構(gòu)劃分主要可分為并行流處理系統(tǒng)[32]、分布式流處理系統(tǒng)[33]。采用分布式集群架構(gòu)的分布式流處理系統(tǒng)成為當(dāng)前國際上流處理系統(tǒng)的主流,近年來發(fā)展出圍繞Storm[33]、Flink、Spark Streaming[34]等開源系統(tǒng)的軟件生態(tài)。為了提高分布式流處理系統(tǒng)的性能,現(xiàn)有工作主要采用數(shù)據(jù)并行[35-36]、流水線并行[37]等技術(shù)提升系統(tǒng)性能。數(shù)據(jù)并行主要充分利用單個計算節(jié)點上的多核并行資源,對部署到某個計算節(jié)點的具體的計算階段進(jìn)行多實例并行化,從而充分發(fā)揮多核資源的并行性,提高系統(tǒng)的吞吐率。數(shù)據(jù)并行優(yōu)化方面的代表性工作是Nasir M A U等人[35-36]提出的PKG(partial key grouping)數(shù)據(jù)劃分策略,該策略解決了系統(tǒng)由動態(tài)傾斜性帶來的負(fù)載不均問題,提升了系統(tǒng)的資源效率,并被Apache的Storm開源項目采納集成。流水線并行的主要思想是將流處理的計算邏輯分解為多個階段,將不同的計算階段部署到分布式集群中的不同計算節(jié)點上,通過流水線技術(shù)提高系統(tǒng)資源并行效率,從而提升系統(tǒng)的整體性能。流水線并行方面的代表性工作是Abdelhamid A S等人[37]提出的Prompt系統(tǒng)。

      國內(nèi)流處理系統(tǒng)方面主要基于現(xiàn)有國際開源的相關(guān)工作進(jìn)行優(yōu)化改進(jìn)。阿里巴巴通過收購德國創(chuàng)業(yè)公司Data Artisans,購入了Apache Flink,并進(jìn)行了若干優(yōu)化改進(jìn),目前絕大部分阿里巴巴的業(yè)務(wù)跑在流處理平臺上。數(shù)據(jù)并行方面的典型系統(tǒng)工作是PStream[38],該系統(tǒng)基于Apache Storm平臺對高頻的鍵值使用輪詢劃分的方式平衡負(fù)載,同時對低頻的鍵值使用哈希劃分的方式避免額外的數(shù)據(jù)聚合開銷。相比于國際上最新的PKG系統(tǒng),PStream將系統(tǒng)吞吐率提升了2.3倍,處理時延縮短了64%。PStream在華為公司有所應(yīng)用,但在開源社區(qū)的推廣方面不及PKG系統(tǒng)。在流水線并行方面,目前國內(nèi)研究較少。同時,由于現(xiàn)有系統(tǒng)多基于國際開源軟件架構(gòu),國內(nèi)的流處理系統(tǒng)研究也承襲了現(xiàn)有國際開源框架的弊端,如難以針對多語義查詢進(jìn)行靈活部署等。

      (3)圖計算

      圖計算技術(shù)是由谷歌公司首次提出的。為了支持分布式圖計算,谷歌公司設(shè)計了國際上首個分布式圖計算系統(tǒng)Pregel[39]。該系統(tǒng)將迭代圖算法表示為簡單編程的多次迭代,以簡化分布式圖計算應(yīng)用的開發(fā)和在底層分布式平臺上的高效執(zhí)行。后續(xù)國外研究團(tuán)隊也提出了諸多軟件和硬件優(yōu)化技術(shù)[40-44]來提高圖計算性能。例如,為了支持PC上的圖計算,國外研究團(tuán)隊研發(fā)了首個單機(jī)圖計算系統(tǒng)GraphChi[45],其采用并行滑動窗口技術(shù),大幅降低外存的亂序訪問次數(shù)。普林斯頓大學(xué)的研究人員研發(fā)了首個面向圖計算的專用加速器Graphicionado[46],其將以頂點為中心的編程模型中的功能模塊抽象為相應(yīng)的流水線階段,在保證通用性的同時,顯著提升了圖計算指令效率。

      相比而言,國內(nèi)研究團(tuán)隊在圖計算領(lǐng)域起步略晚,但隨著國內(nèi)互聯(lián)網(wǎng)行業(yè)和技術(shù)的迅猛發(fā)展,國內(nèi)圖計算市場需求日益高漲?!笆濉逼陂g,我國科技部啟動了“面向圖計算的通用計算機(jī)技術(shù)與系統(tǒng)”項目。國內(nèi)一批研究人員在圖計算領(lǐng)域進(jìn)行了深入研究和大量攻關(guān)工作,提出了多種高性能圖計算系統(tǒng)[47-49]和圖計算硬件加速器[50-52]。清華大學(xué)研究團(tuán)隊開發(fā)的基于神威·太湖之光的超大規(guī)模圖計算系統(tǒng)“神圖”系統(tǒng)入圍國際超算大會戈登貝爾獎[53]。華中科技大學(xué)研發(fā)的DepGraph[54]斬獲2021年11月國際Green Graph 500和Graph 500榜單兩項全球第一,基于鵬城云腦II系統(tǒng)研發(fā)的圖計算系統(tǒng)再次獲得2022年11月Graph 500 SSSP性能第一。隨著國內(nèi)圖計算技術(shù)的迅猛發(fā)展,國內(nèi)圖計算研發(fā)能力在圖計算的理論研究、系統(tǒng)研發(fā)和體系結(jié)構(gòu)設(shè)計方面均已達(dá)到世界前列。

      2.3 小結(jié)

      作為大數(shù)據(jù)技術(shù)生態(tài)的重要一環(huán),大數(shù)據(jù)處理技術(shù)在過去10年飛速發(fā)展,尤其因為其巨大的產(chǎn)業(yè)需求,國際、國內(nèi)大型企業(yè)均投入了大量人力、物力參與研發(fā),技術(shù)生態(tài)上依舊蓬勃。我國在該領(lǐng)域發(fā)展迅速,但后發(fā)特征明顯,單點技術(shù)突破較好,整體生態(tài)與歐美差距較大,缺乏生態(tài)引領(lǐng)系統(tǒng)出現(xiàn)。在批處理系統(tǒng)、流處理系統(tǒng)上,我國基本以國外開源跟蹤改進(jìn)為主,圖處理技術(shù)由于與國際發(fā)展時間基本同步,國內(nèi)有部分系統(tǒng)與國際同類系統(tǒng)處于同一技術(shù)水平。

      3 大數(shù)據(jù)分析技術(shù)

      3.1 主要技術(shù)挑戰(zhàn)

      大數(shù)據(jù)分析技術(shù)旨在實現(xiàn)從數(shù)據(jù)到信息再到知識甚至到?jīng)Q策的價值轉(zhuǎn)換。近年來,大數(shù)據(jù)分析技術(shù)迅猛發(fā)展,性能和效率均取得了顯著的提升,并促進(jìn)了相關(guān)行業(yè)或產(chǎn)業(yè)的智能化發(fā)展。例如,基于深度學(xué)習(xí)的蛋白質(zhì)折疊分析技術(shù)幫助生物學(xué)取得了重大進(jìn)展;金融數(shù)據(jù)分析技術(shù)幫助銀行業(yè)大幅降低了金融欺詐的風(fēng)險。然而,廣泛深入的應(yīng)用在給大數(shù)據(jù)分析技術(shù)的發(fā)展帶來更高的需求的同時,也使其面臨著更深層的挑戰(zhàn)。首先,大數(shù)據(jù)分析的對象逐漸從相對小規(guī)模、單模態(tài)的數(shù)據(jù)轉(zhuǎn)變?yōu)榇篌w量、多模態(tài)的數(shù)據(jù),如何對大規(guī)模異構(gòu)多模態(tài)數(shù)據(jù)進(jìn)行融合分析?其次,單一來源的數(shù)據(jù)往往體量較小或統(tǒng)計分布的代表性不夠,相應(yīng)分析模型的性能受到制約,如何在保護(hù)數(shù)據(jù)安全與隱私的前提下進(jìn)行多方數(shù)據(jù)的聯(lián)合學(xué)習(xí)與分析從而實現(xiàn)數(shù)據(jù)價值的最大化?最后,諸多應(yīng)用不再滿足于對大數(shù)據(jù)相關(guān)性的簡單建模與分析,更期待能夠挖掘現(xiàn)象背后的因果規(guī)律,如何通過因果推斷滿足分析技術(shù)在可解釋性、穩(wěn)定性、公平性以及可回溯性等方面的更高需求?

      3.2 國內(nèi)外研究現(xiàn)狀與差距比較

      針對前述3個方面的挑戰(zhàn),本節(jié)對國內(nèi)外相應(yīng)的研究現(xiàn)狀進(jìn)行了梳理,并比較了差距。

      隨著信息技術(shù)的飛速發(fā)展,多模態(tài)數(shù)據(jù)已成為數(shù)據(jù)資源的主要形式,國內(nèi)外研究者近些年對多模態(tài)數(shù)據(jù)融合分析給予了高度關(guān)注,也取得了顯著研究成效。當(dāng)前,國際上多模態(tài)技術(shù)的頂尖研究團(tuán)隊有卡內(nèi)基梅隆大學(xué)的MultiComp Lab和麻省理工學(xué)院的Synthetic Intelligence Lab等。這些團(tuán)隊在AAAI、ICLR等相關(guān)領(lǐng)域的國際頂會上發(fā)表了諸多突破性成果[55]。除此之外,微軟2022年提出通用多模態(tài)基礎(chǔ)模型BEiT-3[56],它在視覺和視覺-語言任務(wù)上都實現(xiàn)了當(dāng)時最先進(jìn)的遷移性能。同年,谷歌提出了多模態(tài)大模型PaLI[57],在多語言圖文數(shù)據(jù)上進(jìn)行訓(xùn)練,效果超過了BEiT-3。目前,多模態(tài)技術(shù)已在軍事、交通等領(lǐng)域得到了越來越深入的應(yīng)用。例如,美國桑迪亞國家實驗室提出了多模態(tài)的軍事概念裝備。緊跟國外研究的步伐,國內(nèi)研究團(tuán)隊也加快了對多模態(tài)數(shù)據(jù)分析技術(shù)的攻關(guān),并取得了一些突破性成果。例如,2021年,中國科學(xué)院自動化研究所研發(fā)了全球首個三模態(tài)大模型“紫東太初”[58],并在2022年的世界人工智能大會上獲得最高獎項。在應(yīng)用方面,國內(nèi)將多模態(tài)技術(shù)與商業(yè)、醫(yī)療等領(lǐng)域進(jìn)行了有效結(jié)合。例如,地平線的多模語音算法團(tuán)隊在2020年長安UNI-T車型上實現(xiàn)大規(guī)模量產(chǎn),是全球首個能夠在端上實時預(yù)測并實現(xiàn)大規(guī)模量產(chǎn)的團(tuán)隊。綜合來看,國內(nèi)的多模態(tài)技術(shù)在基礎(chǔ)理論和核心技術(shù)方面與國際先進(jìn)水平還存在著一定的差距,但是與具體應(yīng)用領(lǐng)域結(jié)合較好,有效實現(xiàn)了科技成果的落地轉(zhuǎn)化。

      隨著信息化進(jìn)程的發(fā)展,各個企業(yè)或同一企業(yè)的不同部門生產(chǎn)并存儲了大量應(yīng)用數(shù)據(jù),跨部門、跨機(jī)構(gòu)的數(shù)據(jù)流通與共享能夠更大程度地挖掘數(shù)據(jù)的潛在價值。然而,數(shù)據(jù)的流通共享受到數(shù)據(jù)安全、商業(yè)機(jī)密、個人隱私等多方面的嚴(yán)格約束。為了應(yīng)對上述問題,2016年谷歌提出聯(lián)邦學(xué)習(xí)(federated learning)的概念[59],用于解決多方數(shù)據(jù)聯(lián)合學(xué)習(xí)與分析的挑戰(zhàn),并推出TensorFlow Federated聯(lián)邦學(xué)習(xí)開源框架,引起學(xué)術(shù)界和工業(yè)界的強(qiáng)烈關(guān)注。除此之外,Open Mind推出的Pysyft聯(lián)邦學(xué)習(xí)框架[60]能夠與主流深度學(xué)習(xí)框架兼容,熱度居高不下。目前,聯(lián)邦學(xué)習(xí)已經(jīng)得到一定程度的領(lǐng)域應(yīng)用。蘋果公司將聯(lián)邦學(xué)習(xí)應(yīng)用在IOS 13跨設(shè)備QuickType鍵盤“Hey Siri”的人聲分類上;NVIDIA公司推出了NVIDIA Clara醫(yī)療學(xué)習(xí)平臺[61],將聯(lián)邦學(xué)習(xí)技術(shù)應(yīng)用在醫(yī)療領(lǐng)域。在國內(nèi),微眾銀行AI團(tuán)隊2018年系統(tǒng)性地闡述了聯(lián)邦學(xué)習(xí)理論,其能夠保證各企業(yè)在自有數(shù)據(jù)不出本地、不違規(guī)的前提下進(jìn)行聯(lián)合建模,大幅提升了機(jī)器學(xué)習(xí)建模的效果,之后微眾銀行AI團(tuán)隊又于2019年開源了首個工業(yè)級聯(lián)邦學(xué)習(xí)技術(shù)框架FATE[62],受到廣泛關(guān)注。此外,近幾年,百度推出了開源聯(lián)邦學(xué)習(xí)框架PaddleFL,阿里巴巴利用聯(lián)邦學(xué)習(xí)等隱私計算技術(shù)推出了DataTrust平臺,二者均在自然語言處理和推薦算法等領(lǐng)域進(jìn)行了落地實踐。綜合來看,我國相關(guān)團(tuán)隊與企業(yè)已成為聯(lián)邦學(xué)習(xí)技術(shù)的重要貢獻(xiàn)者,積極參與到聯(lián)邦學(xué)習(xí)技術(shù)的研發(fā)與標(biāo)準(zhǔn)的制定中。

      現(xiàn)有大數(shù)據(jù)分析技術(shù)在穩(wěn)定性、可解釋性、公平性、可回溯性等方面存在著天然不足,主要原因是現(xiàn)有技術(shù)往往只關(guān)注變量統(tǒng)計意義上的相關(guān)性分析與建模,而這其中勢必存在不符合變量因果規(guī)律的偽相關(guān)。因果推斷技術(shù)旨在發(fā)現(xiàn)變量之間的因果規(guī)律?,F(xiàn)有最主流的因果模型為潛在結(jié)果框架[63]和結(jié)構(gòu)因果模型[64],兩個模型分別由美國科學(xué)家Rubin和美國以色列裔科學(xué)家Pearl J等人提出。他們都認(rèn)為因果關(guān)系指的是兩個事物之間改變一個是否能夠影響另一個的關(guān)系。Pearl J等人[65]提出了“因果之梯”的概念,自下而上將問題劃分為關(guān)聯(lián)、干預(yù)和反事實3個層次,分別對應(yīng)于觀察、行動和想象3類活動。而回答因果問題需要借助干預(yù)或者反事實。基于這兩個主流的因果模型,微軟[66]等外國公司在積極探索因果相關(guān)的研究。國內(nèi)因果相關(guān)研究起步較晚,但發(fā)展較快。清華大學(xué)Cui P等人[67]提出了穩(wěn)定學(xué)習(xí)的概念,在傳統(tǒng)機(jī)器學(xué)習(xí)框架下通過引入因果推斷技術(shù),尋求數(shù)據(jù)中的“不變性機(jī)制”。中國科學(xué)技術(shù)大學(xué)Zhang Y等人[68]關(guān)注因果推薦系統(tǒng)相關(guān)的研究,嘗試挖掘用戶與商品之間的因果關(guān)系。南京大學(xué)Zhu Z M等人[69]則關(guān)注因果強(qiáng)化學(xué)習(xí)的相關(guān)研究。綜合來看,因果推斷技術(shù)國外起步較早,并開創(chuàng)了奠基性的框架。國內(nèi)研究雖然起步較晚,但相關(guān)研究的發(fā)展呈良好態(tài)勢。

      3.3 小結(jié)

      從上述分析可以看出,面向大數(shù)據(jù)分析前沿需求,以美國為代表的西方國家起步較早,在多模態(tài)數(shù)據(jù)融合技術(shù)、聯(lián)邦學(xué)習(xí)技術(shù)以及因果推斷技術(shù)的基礎(chǔ)理論和核心技術(shù)上已經(jīng)形成了比較完善的分析和應(yīng)用生態(tài),且在諸多領(lǐng)域得到了廣泛應(yīng)用。國內(nèi)大數(shù)據(jù)分析技術(shù)在基礎(chǔ)理論和核心技術(shù)等方面不斷靠近國際先進(jìn)水平,保持著快速發(fā)展的良好勢頭。

      4 大數(shù)據(jù)治理技術(shù)

      4.1 主要技術(shù)挑戰(zhàn)

      在應(yīng)用蓬勃發(fā)展的過程中,大數(shù)據(jù)面臨數(shù)據(jù)產(chǎn)權(quán)、交易流通、收益分配等一系列問題,從而使大數(shù)據(jù)治理逐漸成為各國關(guān)注的熱點,相關(guān)技術(shù)也發(fā)展迅速。大數(shù)據(jù)治理是以數(shù)據(jù)為對象,以最大限度釋放數(shù)據(jù)價值為目的,在確保數(shù)據(jù)安全的前提下,貫穿于數(shù)據(jù)全生命周期的由多方主體參與的共建共享共治的數(shù)據(jù)價值釋放的過程。大數(shù)據(jù)治理技術(shù)面臨的主要挑戰(zhàn)包括5個方面:一是匯聚融合,如何將海量、多源、分散、異構(gòu)的數(shù)據(jù)匯聚融合成便于分析利用的數(shù)據(jù)資源;二是質(zhì)量保障,如何評估大數(shù)據(jù)的質(zhì)量、檢測及修正其中存在的錯漏,提升數(shù)據(jù)質(zhì)量;三是開放流通,如何打通數(shù)據(jù)孤島,使數(shù)據(jù)可以突破原生信息系統(tǒng)的邊界,通過開放流通形成更大范圍、更高價值的數(shù)據(jù)資源;四是數(shù)據(jù)安全與隱私保護(hù),如何在釋放數(shù)據(jù)價值的同時保證數(shù)據(jù)不被破壞、泄露和濫用;五是標(biāo)準(zhǔn)化與生態(tài)系統(tǒng)建設(shè),如何協(xié)調(diào)各利益方的訴求,建立共同遵循的數(shù)據(jù)標(biāo)準(zhǔn)體系,并促進(jìn)形成大數(shù)據(jù)軟硬件生態(tài)系統(tǒng)等。

      4.2 國內(nèi)外研究現(xiàn)狀與差距比較

      在大數(shù)據(jù)匯聚融合方面,圖靈獎獲得者M(jìn)ichael Stonebraker教授的研究最具代表性,其將大數(shù)據(jù)融合處理相關(guān)研究分為3代[70],分別解決傳統(tǒng)數(shù)據(jù)倉庫場景(十余個數(shù)據(jù)源)、跨組織數(shù)據(jù)共享場景(數(shù)十個數(shù)據(jù)源)和數(shù)據(jù)湖場景(數(shù)百個數(shù)據(jù)源)的數(shù)據(jù)融合問題。相應(yīng)的技術(shù)路線也存在顯著的差異,從第一代基于規(guī)則的ETL系統(tǒng),到第二代基于機(jī)器學(xué)習(xí)的Data Curation系統(tǒng),再發(fā)展到第三代機(jī)器驅(qū)動、人在回路的智能融合系統(tǒng)。清華大學(xué)圍繞物聯(lián)網(wǎng)場景,主導(dǎo)研發(fā)了Apache IoTDB,在國內(nèi)外產(chǎn)生了一定的影響力;阿里巴巴、華為、京東等企業(yè)提出了建設(shè)“數(shù)據(jù)中臺”[71],大數(shù)據(jù)匯聚融合作為數(shù)據(jù)中臺的核心技術(shù)能力,在實踐中得到了創(chuàng)新發(fā)展。

      在大數(shù)據(jù)質(zhì)量保障方面,ACM/IEEE Fellow加拿大滑鐵盧大學(xué)教授Ihab Ilyas研發(fā)了HoloClean系統(tǒng)[72],該系統(tǒng)主要解決關(guān)系數(shù)據(jù)的錯誤檢測和修復(fù)問題,在城市、醫(yī)療等領(lǐng)域的真實數(shù)據(jù)集上將數(shù)據(jù)質(zhì)量提升了1~2倍。谷歌公司構(gòu)建了Knowledge Vault系統(tǒng),提出了知識融合方法,解決了萬維網(wǎng)事實抽取過程中的數(shù)據(jù)質(zhì)量問題,構(gòu)建了規(guī)模遠(yuǎn)大于現(xiàn)有開源知識圖譜的結(jié)構(gòu)化知識庫[73]。清華大學(xué)的相關(guān)學(xué)者提出了人在回路的數(shù)據(jù)質(zhì)量提升方法,提出在算法的回路中優(yōu)化地引入人的識別與推理能力,在提升數(shù)據(jù)質(zhì)量的同時,有效地控制人工參與的成本[74]。哈爾濱工業(yè)大學(xué)的相關(guān)學(xué)者提出了一系列的數(shù)據(jù)清洗方法,解決了工業(yè)時序數(shù)據(jù)場景下的錯誤檢測與修復(fù)問題,顯著地提升了數(shù)據(jù)質(zhì)量[75]。在工業(yè)界,阿里巴巴公司推出了DataWorks全鏈路數(shù)據(jù)治理工具,華為公司推出數(shù)智融合系統(tǒng),這些系統(tǒng)主要針對企業(yè)數(shù)據(jù)倉庫和數(shù)據(jù)湖的真實場景,通過數(shù)據(jù)建模、數(shù)據(jù)集成、數(shù)據(jù)血緣等技術(shù)手段,支持面向數(shù)據(jù)全生命周期的質(zhì)量保障能力。

      在大數(shù)據(jù)開放流通方面,數(shù)聯(lián)網(wǎng)成為互聯(lián)網(wǎng)之上實現(xiàn)可信可管可控的數(shù)據(jù)互聯(lián)互通和大數(shù)據(jù)應(yīng)用的核心技術(shù)。數(shù)聯(lián)網(wǎng)是基于軟件定義的,將各種異構(gòu)數(shù)據(jù)平臺和系統(tǒng)連接起來,在“物理/機(jī)器”互聯(lián)網(wǎng)之上形成的“虛擬/數(shù)據(jù)”網(wǎng)絡(luò),它正在世界范圍內(nèi)發(fā)展成為大數(shù)據(jù)時代的一種新型信息基礎(chǔ)設(shè)施。當(dāng)前最有影響力的數(shù)聯(lián)網(wǎng)技術(shù)路線是互聯(lián)網(wǎng)發(fā)明人、圖靈獎得主Robert Kahn提出的數(shù)字對象架構(gòu)(digital object architecture,DOA)[76],美國、英國、德國、俄羅斯、中國等國是DOA標(biāo)識解析系統(tǒng)Handle全球根節(jié)點的參與者。北京大學(xué)自主研發(fā)的“黑盒式”互操作技術(shù)及燕云DaaS系統(tǒng)[77],提出顛覆式的數(shù)據(jù)互操作技術(shù)途徑——“黑盒”思路,消除了系統(tǒng)源碼、數(shù)據(jù)庫表、后臺權(quán)限、原開發(fā)團(tuán)隊等“白盒”依賴,信息孤島開放效率得到大幅提升。在此基礎(chǔ)上,2018—2021年,北京大學(xué)、清華大學(xué)、中國科學(xué)院等,在科技部“云計算與大數(shù)據(jù)”國家重點研發(fā)計劃專項的支持下提出了數(shù)聯(lián)網(wǎng)中國云方案。中國信息通信研究院于2018年開始建設(shè)兼容DOA的國家工業(yè)互聯(lián)網(wǎng)標(biāo)識解析系統(tǒng)。我國以DOA為代表的數(shù)聯(lián)網(wǎng)系統(tǒng)軟件方面取得了國際先進(jìn)的技術(shù)成果[78]。

      在大數(shù)據(jù)安全與隱私保護(hù)方面,同態(tài)加密允許數(shù)據(jù)分析處理過程中,直接在密文數(shù)據(jù)上進(jìn)行計算而無須事先解密,很好地解決了大數(shù)據(jù)價值利用與數(shù)據(jù)安全和隱私保護(hù)的矛盾,近年來受到各界高度重視,從學(xué)術(shù)研究逐漸進(jìn)入實際應(yīng)用。2017年IBM、微軟、Intel、NIST的研究者主導(dǎo)創(chuàng)立了同態(tài)加密標(biāo)注化委員會,致力于研制同態(tài)加密安全性、API和應(yīng)用的標(biāo)準(zhǔn)。安全多方計算在保持各方數(shù)據(jù)隱私的同時,使多方可以合作完成某個共同的計算目標(biāo)。此項技術(shù)是密碼學(xué)的分支領(lǐng)域,在大數(shù)據(jù)應(yīng)用的推動下逐漸成為熱點,特別是針對機(jī)器學(xué)習(xí)場景,谷歌率先提出聯(lián)邦學(xué)習(xí)概念,近年來得到快速發(fā)展。2020年美國Meta、日本NTT、中國阿里巴巴等眾多企業(yè)共同創(chuàng)建了安全多方計算聯(lián)盟MPC Alliance,旨在推進(jìn)安全多方計算的認(rèn)知、接受和采用。當(dāng)前谷歌、OpenMind、LatticeX基金會,以及我國的百度、字節(jié)跳動等公司推出了各自的開源聯(lián)邦學(xué)習(xí)框架,該領(lǐng)域呈現(xiàn)出百家爭鳴的態(tài)勢。

      在標(biāo)準(zhǔn)化與生態(tài)系統(tǒng)建設(shè)方面,ISO/IEC JTC 1、ITU-T、IEEE等國際各大標(biāo)準(zhǔn)組織積極制定大數(shù)據(jù)相關(guān)標(biāo)準(zhǔn),已形成包括參考模型、關(guān)鍵技術(shù)、安全隱私、領(lǐng)域應(yīng)用等在內(nèi)的比較全面的標(biāo)準(zhǔn)體系。我國成立了大數(shù)據(jù)標(biāo)準(zhǔn)工作組與大數(shù)據(jù)安全標(biāo)準(zhǔn)特別工作組,現(xiàn)已發(fā)布35項國家標(biāo)準(zhǔn),并積極參與國際標(biāo)準(zhǔn)的制定。同時,圍繞大數(shù)據(jù)的開源軟硬件社區(qū)蓬勃發(fā)展,全球最大的代碼托管平臺GitHub截至2020年采用社交化方式匯聚了全球約1億代碼倉,以及近6 000萬名開發(fā)者,成為科技創(chuàng)新的強(qiáng)大引擎。開源硬件方面,OpenCores已經(jīng)成為全世界最大的免費開源硬件IP核線上社區(qū)。在大數(shù)據(jù)開源軟件領(lǐng)域,截至2020年木蘭社區(qū)托管的代碼倉庫量超過1 500萬。在開源硬件方面,2007年美國賽靈思公司的大學(xué)計劃資助創(chuàng)建了中國首個開源硬件社區(qū)OpenHW。中國科學(xué)院的科學(xué)數(shù)據(jù)銀行、上海交通大學(xué)推動白玉蘭開放數(shù)據(jù)集社區(qū)做了很好的嘗試,已經(jīng)產(chǎn)生影響力。

      4.3 小結(jié)

      大數(shù)據(jù)治理技術(shù)整體上尚不成熟,很多技術(shù)仍然處于探索階段。在大數(shù)據(jù)匯聚融合方面,對比美歐日俄,我國的優(yōu)勢在于數(shù)據(jù)資源豐富、政府推動有力、行業(yè)應(yīng)用廣泛,這些為技術(shù)的創(chuàng)新發(fā)展奠定了良好的基礎(chǔ)。然而,我國也顯示出單點研究居多、整體性的系統(tǒng)創(chuàng)新不足、研究比較分散、缺乏有影響力的主流系統(tǒng)、缺乏應(yīng)用示范效應(yīng)等不足。在大數(shù)據(jù)質(zhì)量保障方面,我國處于追趕狀態(tài),差距主要體現(xiàn)為基礎(chǔ)理論薄弱、缺乏面向大數(shù)據(jù)全生命周期的統(tǒng)一的質(zhì)量治理模型;缺乏可實現(xiàn)數(shù)據(jù)質(zhì)量、治理成本、治理時延的統(tǒng)一優(yōu)化的通用數(shù)據(jù)質(zhì)量保障系統(tǒng);缺乏尚無突破多組織跨轄域環(huán)境下的全鏈路數(shù)據(jù)質(zhì)量追蹤與治理體系。在大數(shù)據(jù)開放流通方面,我國的“黑盒”互操作技術(shù)和燕云DaaS系統(tǒng)已成為打破數(shù)據(jù)孤島的“撒手锏”技術(shù),達(dá)到國際領(lǐng)先水平;在此我國已提出了數(shù)聯(lián)網(wǎng)中國云方案,制定了DOIP新版標(biāo)準(zhǔn),總體與國外處于技術(shù)并跑的階段。一批行業(yè)級和區(qū)域級數(shù)聯(lián)網(wǎng)基礎(chǔ)設(shè)施正在開展建設(shè),使得我國在數(shù)聯(lián)網(wǎng)應(yīng)用方面取得國際領(lǐng)先地位。在大數(shù)據(jù)安全與隱私保護(hù)方面,我國應(yīng)用較多,基礎(chǔ)性、原創(chuàng)性成果不足,還有待大力發(fā)展;在標(biāo)準(zhǔn)化與生態(tài)系統(tǒng)建設(shè)方面,我國緊跟國際發(fā)展前沿,大數(shù)據(jù)標(biāo)準(zhǔn)體系設(shè)計已基本形成,并在穩(wěn)步推進(jìn)中。我國開源生態(tài)建設(shè)方面近年來雖然有所進(jìn)展,但總體處于跟跑階段,部分我國企業(yè)主導(dǎo)的開源項目(如華為CarbonData)嶄露頭角,但是我國主導(dǎo)的生態(tài)系統(tǒng)尚未建立。整體上我國數(shù)據(jù)治理技術(shù)發(fā)展較晚,體系遠(yuǎn)未成形,技術(shù)產(chǎn)品生態(tài)仍由外國主導(dǎo),同時在以數(shù)聯(lián)網(wǎng)為代表的數(shù)據(jù)開放流通技術(shù)方面與國際先進(jìn)水平相當(dāng)。

      5 大數(shù)據(jù)技術(shù)的未來發(fā)展趨勢

      在大數(shù)據(jù)應(yīng)用需求的驅(qū)動下,計算技術(shù)體系正在重構(gòu),從“以計算為中心”向“以數(shù)據(jù)為中心”轉(zhuǎn)型,在新的計算技術(shù)體系下,一些基礎(chǔ)理論和核心技術(shù)問題亟待破解。本文提出新型大數(shù)據(jù)系統(tǒng)技術(shù)發(fā)展的十大趨勢。

      趨勢一:數(shù)據(jù)與應(yīng)用進(jìn)一步分離,實現(xiàn)數(shù)據(jù)要素化。數(shù)據(jù)一開始是依附于具體應(yīng)用的。數(shù)據(jù)庫技術(shù)的出現(xiàn)使得數(shù)據(jù)與應(yīng)用實現(xiàn)了第一次分離。數(shù)據(jù)存儲在數(shù)據(jù)庫中,不再依賴具體的應(yīng)用而存在。數(shù)據(jù)要素化的需求將推動數(shù)據(jù)與應(yīng)用進(jìn)一步分離,數(shù)據(jù)不再依賴于具體的業(yè)務(wù)場景,數(shù)據(jù)以獨立的形態(tài)存在于數(shù)據(jù)庫中,并通過數(shù)據(jù)服務(wù)為不同的業(yè)務(wù)場景提供服務(wù)。例如,人口數(shù)據(jù)庫可以為全部的涉及人口信息的業(yè)務(wù)場景提供服務(wù)。

      趨勢二:數(shù)聯(lián)網(wǎng)成為數(shù)字化時代的新型信息基礎(chǔ)設(shè)施。將形成一套完整的數(shù)聯(lián)網(wǎng)基礎(chǔ)軟件理論、系統(tǒng)軟件架構(gòu)、關(guān)鍵技術(shù)體系,包括:針對數(shù)聯(lián)網(wǎng)軟件以數(shù)據(jù)為中心的特點,需要從復(fù)雜網(wǎng)絡(luò)和復(fù)雜系統(tǒng)等復(fù)雜性理論出發(fā),研究數(shù)聯(lián)網(wǎng)軟件的結(jié)構(gòu)組成、行為模式和外在性質(zhì);針對數(shù)聯(lián)網(wǎng)軟件的數(shù)據(jù)傳存算一體化需求,需要采用數(shù)據(jù)互操作技術(shù)和軟件定義思想,研究數(shù)聯(lián)網(wǎng)軟件運行機(jī)理、體系結(jié)構(gòu)與關(guān)鍵機(jī)制;針對數(shù)聯(lián)網(wǎng)軟件跨層級、跨地域、跨系統(tǒng)運行帶來的可靠性、可用性、安全性等質(zhì)量挑戰(zhàn),需要以數(shù)據(jù)驅(qū)動為手段,研究數(shù)聯(lián)網(wǎng)環(huán)境下保障服務(wù)質(zhì)量與保護(hù)質(zhì)量的原理、機(jī)制與方法。

      趨勢三:從單域到跨域數(shù)據(jù)管理,促進(jìn)數(shù)據(jù)要素的共享與協(xié)同。以數(shù)據(jù)為中心的計算的核心目標(biāo)是數(shù)據(jù)價值的最大化,關(guān)鍵要打破“數(shù)據(jù)孤島”,實現(xiàn)數(shù)據(jù)要素的高效共享與協(xié)同。傳統(tǒng)數(shù)據(jù)管理局限在單一企業(yè)、業(yè)務(wù)、數(shù)據(jù)中心等內(nèi)部,未來大數(shù)據(jù)管理將從傳統(tǒng)的單域模式發(fā)展到跨域模式,跨越空間域、管轄域和信任域。但跨空間域會造成網(wǎng)絡(luò)時延較高且不穩(wěn)定;跨管轄域會造成數(shù)據(jù)與應(yīng)用異構(gòu),數(shù)據(jù)管理復(fù)雜度大大提升;跨信任域則要求具備容忍各類惡意錯誤的能力。跨域帶來的這些變化將為大數(shù)據(jù)技術(shù)帶來新的機(jī)遇和挑戰(zhàn)。

      趨勢四:大數(shù)據(jù)管理與處理系統(tǒng)體系結(jié)構(gòu)異構(gòu)化日趨明顯。體系結(jié)構(gòu)創(chuàng)新進(jìn)入“黃金十年”,圍繞不同數(shù)據(jù)處理特征的新型加速器(GPU、TPU、APU等各種xPU)層出不窮,存儲器件快速發(fā)展,高速固態(tài)硬盤(solid state disk,SSD)、新型非易失內(nèi)存、新型計算網(wǎng)絡(luò)等成為大數(shù)據(jù)處理系統(tǒng)的重要硬件配置,計算與存儲的融合趨勢明顯。為了最大限度地發(fā)揮數(shù)據(jù)管理能力,大數(shù)據(jù)管理系統(tǒng)在存儲、網(wǎng)絡(luò)、計算等硬件上最大化挖掘新型硬件的處理能力。在處理上針對不同數(shù)據(jù)處理需求,配置不同計算與存儲硬件成為大數(shù)據(jù)處理系統(tǒng)的主流架構(gòu)。數(shù)據(jù)驅(qū)動的計算架構(gòu)快速發(fā)展,以數(shù)據(jù)流為中心的系統(tǒng)結(jié)構(gòu)成為重要的系統(tǒng)設(shè)計理念。

      趨勢五:擴(kuò)展性優(yōu)先設(shè)計到性能優(yōu)先設(shè)計。數(shù)據(jù)規(guī)模急劇增長,大數(shù)據(jù)處理需求越來越走向深度價值挖掘,數(shù)據(jù)處理計算愈發(fā)密集,數(shù)據(jù)管理與處理的成本成為大數(shù)據(jù)管理與處理系統(tǒng)的重要考量因素,傳統(tǒng)“擴(kuò)展性優(yōu)先”的大數(shù)據(jù)處理系統(tǒng)設(shè)計將會被“以性能優(yōu)先”的系統(tǒng)設(shè)計代替。Spark、Flink等系統(tǒng)在大數(shù)據(jù)處理生態(tài)系統(tǒng)中的占有率明顯體現(xiàn)了這一趨勢,圖計算(圖加速器、圖計算框架等)、深度學(xué)習(xí)框架(Tensorflow、PyTorch等)等領(lǐng)域?qū)S么髷?shù)據(jù)處理系統(tǒng)的崛起也是這一系統(tǒng)設(shè)計理念在技術(shù)生態(tài)上的表現(xiàn)。智能化數(shù)據(jù)管理、近似計算等新興管理和處理方法成為性能優(yōu)先設(shè)計的重要技術(shù)手段。

      趨勢六:近數(shù)處理成為突破大數(shù)據(jù)處理系統(tǒng)性能瓶頸的重要途徑。存算一體類體系結(jié)構(gòu)技術(shù)快速發(fā)展,新型SSD等新型存儲贏家功能愈發(fā)豐富,分布式計算系統(tǒng)邊緣能力迅速發(fā)展。以上3種體系結(jié)構(gòu)技術(shù)發(fā)展為大數(shù)據(jù)近數(shù)處理提供了良好的發(fā)展契機(jī)。近數(shù)處理體現(xiàn)在“存儲上移”(如在GPU、現(xiàn)場可編程門陣列(fieldprogrammable gate array,F(xiàn)PGA)等計算設(shè)備上集成HBM)、“算力下沉”(如在DRAM內(nèi)存或者SSD存儲設(shè)備上集成處理能力)、“分布擴(kuò)展”(如在云、邊、端分布式處理數(shù)據(jù),降低數(shù)據(jù)處理中心壓力)3個方面。

      趨勢七:從單域單模態(tài)分析到多域多模態(tài)融合,實現(xiàn)廣譜關(guān)聯(lián)計算。傳統(tǒng)大數(shù)據(jù)分析技術(shù)大多僅聚焦于單一來源、單一模態(tài)的數(shù)據(jù),而實際應(yīng)用中往往要對來自不同來源、不同模態(tài)(如文本、圖像、音視頻等)的數(shù)據(jù)進(jìn)行聯(lián)合分析,從而實現(xiàn)不同來源與不同模態(tài)數(shù)據(jù)之間的信息互補(bǔ)。此外,諸多領(lǐng)域的大數(shù)據(jù)具有重要的時空屬性,當(dāng)前研究對這類信息的利用還不夠充分。因此,探究能夠跨模態(tài)關(guān)聯(lián)、跨時空關(guān)聯(lián)的廣譜關(guān)聯(lián)技術(shù)是大數(shù)據(jù)分析處理的一個重要趨勢。

      趨勢八:從聚焦關(guān)聯(lián)到探究因果,實現(xiàn)分析結(jié)果可解釋。如何讓大數(shù)據(jù)分析模型更加穩(wěn)定且具有可解釋性,從而使其分析結(jié)果對于用戶而言變得更加可信、更加可用最好還能具備一定的可回溯性,是大數(shù)據(jù)分析面臨的巨大挑戰(zhàn)。雖然因果推斷與可解釋性分析技術(shù)取得了一定進(jìn)展,但總體來說尚處于起步階段,離實際應(yīng)用還有很長一段距離。因此,從關(guān)聯(lián)到因果也是未來大數(shù)據(jù)分析技術(shù)的重要研究方向。

      趨勢九:高能效大數(shù)據(jù)技術(shù)是可持續(xù)發(fā)展的關(guān)鍵。全球大數(shù)據(jù)量的持續(xù)高速增長,以及“碳達(dá)峰、碳中和”目標(biāo)的提出,要求大數(shù)據(jù)技術(shù)棧必須走低碳高效、可持續(xù)發(fā)展的路線。例如云數(shù)據(jù)管理系統(tǒng)以資源共享、節(jié)能高效為主要特點,將是未來大數(shù)據(jù)管理的主要基礎(chǔ)形態(tài);在云數(shù)據(jù)管理基礎(chǔ)上的全國一體化高能效大數(shù)據(jù)管理,由于算力和數(shù)據(jù)要素的大規(guī)模調(diào)度與流通,可以進(jìn)一步成為未來大數(shù)據(jù)管理的主要方向,形成低碳發(fā)展新格局。

      趨勢十:大數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和以開源社區(qū)為核心的軟硬件生態(tài)系統(tǒng)將成為發(fā)展的重點。隨著大數(shù)據(jù)在各個領(lǐng)域應(yīng)用的迅速普及,標(biāo)準(zhǔn)化需求將不斷增長,與大數(shù)據(jù)流動融合、質(zhì)量評估,以及與行業(yè)、領(lǐng)域應(yīng)用密切相關(guān)的大數(shù)據(jù)標(biāo)準(zhǔn)將成為發(fā)展重點。開源社區(qū)在大數(shù)據(jù)軟硬件生態(tài)建設(shè)中的地位不斷加強(qiáng),對開源社區(qū)的主導(dǎo)權(quán)爭奪將成為各國技術(shù)、產(chǎn)品和市場競爭的重點。

      6 結(jié)束語

      回顧國內(nèi)外大數(shù)據(jù)技術(shù)在管理、處理、分析與治理4個方面近10年的發(fā)展,可以看出:數(shù)據(jù)規(guī)模高速增長,現(xiàn)有處理計算能力已經(jīng)成為瓶頸;數(shù)據(jù)成為生產(chǎn)要素,但數(shù)據(jù)價值釋放不充分;從產(chǎn)業(yè)生態(tài)重點的變遷看,呈現(xiàn)出“應(yīng)用先于理論技術(shù),市場先于標(biāo)準(zhǔn)法規(guī)”的現(xiàn)象。雖然大數(shù)據(jù)已經(jīng)在一些應(yīng)用領(lǐng)域(特別是互聯(lián)網(wǎng)領(lǐng)域)取得了較好的成效,但是大數(shù)據(jù)基礎(chǔ)理論和應(yīng)用技術(shù)不成熟,大數(shù)據(jù)治理體系遠(yuǎn)未建立??傮w上,大數(shù)據(jù)發(fā)展仍然處于初級階段。

      我國在大數(shù)據(jù)發(fā)展方面取得了積極進(jìn)展,但總體上較國際先進(jìn)水平,仍存在差距。具體地,大數(shù)據(jù)管理技術(shù)大部分領(lǐng)域與國外頂尖水平基本相同或接近,其中高能效一體化大數(shù)據(jù)管理領(lǐng)域處于國際領(lǐng)先水平;大數(shù)據(jù)處理技術(shù)多數(shù)領(lǐng)域與國外頂尖水平尚存在技術(shù)差距,在資源和互聯(lián)網(wǎng)應(yīng)用領(lǐng)域大數(shù)據(jù)處理技術(shù)應(yīng)用較好,與國際最高水平基本持平;大數(shù)據(jù)分析的基礎(chǔ)理論與核心技術(shù)方面與國際先進(jìn)水平還存在著一定差距,在商業(yè)等領(lǐng)域應(yīng)用方面已超越國外;大數(shù)據(jù)治理技術(shù)整體上發(fā)展較晚,體系遠(yuǎn)未成形,技術(shù)產(chǎn)品生態(tài)仍由國外主導(dǎo),同時在以數(shù)聯(lián)網(wǎng)為代表的數(shù)據(jù)開放流通技術(shù)方面與國際先進(jìn)水平相當(dāng)。

      面向未來,在大數(shù)據(jù)應(yīng)用需求的驅(qū)動下,計算技術(shù)體系有必要進(jìn)行重構(gòu),以數(shù)據(jù)為中心的新型大數(shù)據(jù)系統(tǒng)技術(shù)成為重要方向,信息技術(shù)體系將從“以計算為中心”向“以數(shù)據(jù)為中心”轉(zhuǎn)型,新的基礎(chǔ)理論和核心技術(shù)問題仍有待探索和破解。以大數(shù)據(jù)管理、處理、分析和治理為核心的大數(shù)據(jù)技術(shù)在原有通用計算體系上的持續(xù)優(yōu)化仍有發(fā)展空間,以數(shù)據(jù)為中心的新技術(shù)體系將成為縮小大數(shù)據(jù)規(guī)模指數(shù)級增長與大數(shù)據(jù)計算需求和能力之間“剪刀差”的突破點。

      猜你喜歡
      數(shù)據(jù)管理系統(tǒng)
      Smartflower POP 一體式光伏系統(tǒng)
      企業(yè)級BOM數(shù)據(jù)管理概要
      定制化汽車制造的數(shù)據(jù)管理分析
      海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
      WJ-700無人機(jī)系統(tǒng)
      ZC系列無人機(jī)遙感系統(tǒng)
      北京測繪(2020年12期)2020-12-29 01:33:58
      CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
      基于PowerPC+FPGA顯示系統(tǒng)
      半沸制皂系統(tǒng)(下)
      列控數(shù)據(jù)管理平臺的開發(fā)
      福建省| 攀枝花市| 康乐县| 襄汾县| 石楼县| 中牟县| 白山市| 饶阳县| 泰来县| 德清县| 宜黄县| 建宁县| 辉南县| 醴陵市| 新野县| 望奎县| 佛教| 汝阳县| 沙田区| 临泽县| 阿尔山市| 隆回县| 垫江县| 阿克陶县| 离岛区| 陵川县| 青阳县| 定南县| 江西省| 荆门市| 陆丰市| 金坛市| 哈尔滨市| 健康| 湖口县| 驻马店市| 肇庆市| 金昌市| 米脂县| 邳州市| 永平县|