• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)中臺(tái)框架與實(shí)踐

      2023-12-01 02:53:56吳信東應(yīng)澤宇盛紹靜蔣婷婷卜晨陽(yáng)張贊
      大數(shù)據(jù) 2023年6期
      關(guān)鍵詞:中臺(tái)家譜管理

      吳信東,應(yīng)澤宇,盛紹靜,蔣婷婷,卜晨陽(yáng),張贊

      1.大數(shù)據(jù)知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(合肥工業(yè)大學(xué)),安徽 合肥 230009;

      2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009

      0 引言

      隨著移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的快速發(fā)展,人類社會(huì)進(jìn)入了大數(shù)據(jù)時(shí)代。為了充分利用大數(shù)據(jù)時(shí)代海量數(shù)據(jù)蘊(yùn)含的巨大價(jià)值,社會(huì)各機(jī)構(gòu)(政府、企業(yè)等)紛紛進(jìn)入數(shù)字化轉(zhuǎn)型,引發(fā)了數(shù)字化轉(zhuǎn)型方法的積極探索。但是數(shù)字化轉(zhuǎn)型卻伴隨著許多困難,很多機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型并不成功,而其中一個(gè)重要的原因是沒有統(tǒng)一、可行的轉(zhuǎn)型路徑和相關(guān)技術(shù)方案。

      通過中臺(tái)實(shí)現(xiàn)數(shù)據(jù)化轉(zhuǎn)型是一條可行的道路。2015年年底,阿里巴巴集團(tuán)對(duì)外宣布全面啟動(dòng)阿里巴巴集團(tuán)2018年中臺(tái)戰(zhàn)略[1]。此后,騰訊、今日頭條等企業(yè)開始了中臺(tái)建設(shè)的摸索與實(shí)踐。中臺(tái)建設(shè)已經(jīng)成為互聯(lián)網(wǎng)企業(yè)尋求數(shù)字化轉(zhuǎn)型的突破口。經(jīng)過近5年時(shí)間的發(fā)展,中臺(tái)已經(jīng)取得相當(dāng)成熟的推廣和應(yīng)用。數(shù)據(jù)中臺(tái)行業(yè)的市場(chǎng)份額已經(jīng)由開始商品化的2019年的38億元在兩年時(shí)間內(nèi)增長(zhǎng)到101億元[2],選擇搭建數(shù)據(jù)中臺(tái)的企業(yè)也越來越多,已經(jīng)不限于互聯(lián)網(wǎng)企業(yè)。不過數(shù)據(jù)中臺(tái)面臨著未有統(tǒng)一的中臺(tái)概念和數(shù)據(jù)中臺(tái)建設(shè)標(biāo)準(zhǔn)、規(guī)范以及評(píng)價(jià)指標(biāo)的問題[3],這使得很多有數(shù)字化轉(zhuǎn)型需求的機(jī)構(gòu)無法準(zhǔn)確把握中臺(tái)的意義而錯(cuò)失了中臺(tái)建設(shè)的良機(jī)。

      因此,為數(shù)據(jù)中臺(tái)下一個(gè)貼切的定義,總結(jié)一套具有共性的數(shù)據(jù)中臺(tái)建設(shè)方法很有必要。本文首先分析中臺(tái)建設(shè)必要性和重要性,對(duì)國(guó)內(nèi)外數(shù)據(jù)中臺(tái)相關(guān)研究進(jìn)行介紹,并給出數(shù)據(jù)中臺(tái)的正式定義;其次給出基本技術(shù)框架(物理管理、邏輯管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)服務(wù)、信息安全管理)并介紹相關(guān)內(nèi)容;接著,以華譜數(shù)據(jù)中臺(tái)建設(shè)為例,介紹華譜數(shù)據(jù)中臺(tái)結(jié)合HAO智能模型的總體架構(gòu)和相關(guān)開發(fā)方案是如何成功處理海量家譜數(shù)據(jù)的;最后總結(jié)當(dāng)前數(shù)據(jù)中臺(tái)的挑戰(zhàn)和產(chǎn)業(yè)發(fā)展前景。

      1 研究背景

      人類利用計(jì)算機(jī)技術(shù)管理數(shù)據(jù)到目前為止大體上經(jīng)歷了(手工)報(bào)表、報(bào)表系統(tǒng)、數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)、大數(shù)據(jù)平臺(tái)等概念階段[4]。每個(gè)階段人們都在尋找更加有效的數(shù)據(jù)利用方式,而數(shù)據(jù)中臺(tái)是現(xiàn)階段有效實(shí)現(xiàn)數(shù)據(jù)價(jià)值的解決方案之一。

      目前國(guó)內(nèi)對(duì)數(shù)據(jù)中臺(tái)的研究趨于成熟,數(shù)據(jù)中臺(tái)已在互聯(lián)網(wǎng)、電力等多個(gè)行業(yè)廣泛應(yīng)用[5]。阿里巴巴提出的OneData中臺(tái)體系為中臺(tái)建設(shè)的實(shí)踐打下了堅(jiān)實(shí)的基礎(chǔ)[6]。在基礎(chǔ)能力平臺(tái)的建設(shè)上,林鴻等[7]提出使用分布式微服務(wù)技術(shù)架構(gòu)的方案。在數(shù)據(jù)治理上,中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)發(fā)布《數(shù)據(jù)治理標(biāo)準(zhǔn)化白皮書》,確定了一系列數(shù)據(jù)治理的標(biāo)準(zhǔn)和實(shí)踐方案。在數(shù)據(jù)服務(wù)方面,微服務(wù)框架Duboo提供了一系列可進(jìn)行微服務(wù)治理的開源組件[8]。

      國(guó)外并沒有提出數(shù)據(jù)中臺(tái)這一概念,但在大數(shù)據(jù)技術(shù)上有成熟的發(fā)展。在數(shù)據(jù)治理上有ApacheAtlas這樣在 Hadoop 生態(tài)系統(tǒng)上的元數(shù)據(jù)治理框架[9],基礎(chǔ)能力平臺(tái)上有諸如Spring Cloud等微服務(wù)框架。

      綜上所述,在數(shù)字化轉(zhuǎn)型的背景下,各行各業(yè)都在建設(shè)數(shù)據(jù)中臺(tái)。但各行各業(yè)的場(chǎng)景千差萬別,難以總結(jié)出行業(yè)間共同享有的業(yè)務(wù)共性,本文由此提出可能用于數(shù)據(jù)中臺(tái)構(gòu)建過程的技術(shù)框架。

      2 數(shù)據(jù)中臺(tái)概念

      中臺(tái)的概念是基于前后臺(tái)架構(gòu)的傳統(tǒng)模式提出的。前臺(tái)指的是由各類用戶終端系統(tǒng)組成的一個(gè)整體,后臺(tái)指的是可以管理企業(yè)的核心資源(數(shù)據(jù)+計(jì)算)的系統(tǒng)[10]。前后臺(tái)基于特定的業(yè)務(wù)而成立,并僅為這條業(yè)務(wù)線服務(wù),久而久之許多業(yè)務(wù)產(chǎn)生各種獨(dú)立的前后臺(tái)整體,形成“煙囪式開發(fā)”的形式。前后臺(tái)交互模式如圖1所示。

      圖1 前后臺(tái)交互模式

      由于大數(shù)據(jù)時(shí)代業(yè)務(wù)需求具有快速響應(yīng)和定制化的特點(diǎn),單獨(dú)設(shè)立后臺(tái)定制化開發(fā)會(huì)產(chǎn)生重復(fù)開發(fā)、交付周期延長(zhǎng)等弊端。同時(shí)前后臺(tái)開發(fā)會(huì)導(dǎo)致“數(shù)據(jù)孤島”,數(shù)據(jù)和數(shù)據(jù)能力彼此孤立、難以共享,造成信息化協(xié)作困難,大數(shù)據(jù)分析和知識(shí)圖譜建設(shè)無法進(jìn)行,數(shù)據(jù)價(jià)值不能體現(xiàn),不能快速響應(yīng)業(yè)務(wù)需求。為解決上述問題,中臺(tái)的概念開始被提出。中臺(tái)對(duì)全域數(shù)據(jù)進(jìn)行數(shù)據(jù)治理,以共享數(shù)據(jù)服務(wù)的方式實(shí)現(xiàn)數(shù)據(jù)共享,通過搭建獨(dú)立的中間平臺(tái),打通業(yè)務(wù)和數(shù)據(jù)環(huán)節(jié),減少冗余,增加復(fù)用,快速響應(yīng)用戶需求,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)創(chuàng)新。

      總體來說,數(shù)據(jù)中臺(tái)是想要打通“數(shù)據(jù)孤島”提高數(shù)據(jù)價(jià)值的策略,但目前還沒有統(tǒng)一的定義[11-12]。筆者在此提供一個(gè)從數(shù)據(jù)資產(chǎn)化角度的定義[13]:數(shù)據(jù)中臺(tái)將一個(gè)機(jī)構(gòu)(企業(yè)、事業(yè),或政府部門)的數(shù)據(jù)作為戰(zhàn)略資產(chǎn)進(jìn)行管理,是從數(shù)據(jù)收集到處理應(yīng)用的一套管理機(jī)制,以期提高數(shù)據(jù)質(zhì)量,實(shí)現(xiàn)廣泛的數(shù)據(jù)共享,最終實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化。

      從上述定義出發(fā),可以得到數(shù)據(jù)中臺(tái)必須滿足的兩點(diǎn)要求。其一,數(shù)據(jù)中臺(tái)需要實(shí)現(xiàn)數(shù)據(jù)的全局管理。首先,數(shù)據(jù)中臺(tái)管理全局?jǐn)?shù)據(jù)是從數(shù)據(jù)收集到處理應(yīng)用的全流程管理。此外,數(shù)據(jù)中臺(tái)掌控的全局?jǐn)?shù)據(jù)要為業(yè)務(wù)賦能、避免“數(shù)據(jù)孤島”,需要提供廣泛的高質(zhì)量數(shù)據(jù)共享服務(wù)。因此,數(shù)據(jù)中臺(tái)的管理要做到全數(shù)域管理、全時(shí)段管理、數(shù)據(jù)全平臺(tái)共享。

      其二,數(shù)據(jù)中臺(tái)需要實(shí)現(xiàn)數(shù)據(jù)智能化。數(shù)據(jù)中臺(tái)管理全局?jǐn)?shù)據(jù)的最終目的是數(shù)據(jù)資產(chǎn)價(jià)值最大化,其主要方法是通過數(shù)據(jù)挖掘等技術(shù)從數(shù)據(jù)中獲取有價(jià)值的信息和新知,為業(yè)務(wù)和決策賦能。

      綜上所述,數(shù)據(jù)中臺(tái)在整個(gè)機(jī)構(gòu)的業(yè)務(wù)行為鏈中處于中心位置,具有核心重要性。各個(gè)業(yè)務(wù)前臺(tái)和組織部門通過中臺(tái)取得驅(qū)動(dòng)業(yè)務(wù)、決策展開的數(shù)據(jù)或數(shù)據(jù)洞見,同時(shí),前臺(tái)在業(yè)務(wù)中產(chǎn)生的新數(shù)據(jù)也會(huì)源源不斷地匯聚到中臺(tái)中,形成交互閉環(huán),驅(qū)動(dòng)機(jī)構(gòu)良性發(fā)展。中臺(tái)交互模式如圖2所示。另外,筆者為強(qiáng)調(diào)中臺(tái)的中心化管理能力和核心重要性,沒有使用Middle Platform等說明中臺(tái)處在前后臺(tái)中的中間環(huán)節(jié)的英文翻譯,而是使用了Central Platform作為中臺(tái)的英文翻譯。

      圖2 中臺(tái)交互模式

      3 數(shù)據(jù)中臺(tái)框架

      數(shù)據(jù)中臺(tái)的建設(shè)依托于建設(shè)機(jī)構(gòu)的原信息化系統(tǒng)和具體業(yè)務(wù)需求進(jìn)行[4],因此數(shù)據(jù)中臺(tái)的建設(shè)方案具有特殊性,很難有完全通用的數(shù)據(jù)中臺(tái)標(biāo)準(zhǔn)建設(shè)架構(gòu)。但是,數(shù)據(jù)中臺(tái)的建設(shè)都基于相同的最終目的——實(shí)現(xiàn)數(shù)據(jù)價(jià)值最大化(數(shù)據(jù)全局管理和數(shù)據(jù)智能化)。同時(shí)數(shù)據(jù)中臺(tái)的建設(shè)與前沿的大數(shù)據(jù)技術(shù)息息相關(guān),因此在數(shù)據(jù)中臺(tái)的建設(shè)思路和技術(shù)選擇上具有共性。本文結(jié)合大數(shù)據(jù)技術(shù)的發(fā)展,以筆者在對(duì)數(shù)據(jù)中臺(tái)的實(shí)際建設(shè)中歸納出的7個(gè)數(shù)據(jù)中臺(tái)的核心功能[13](如圖2所示)為基礎(chǔ),提出了數(shù)據(jù)中臺(tái)的參考框架,如圖3所示。

      圖3 數(shù)據(jù)中臺(tái)的參考框架

      數(shù)據(jù)中臺(tái)的參考框架是一個(gè)層次模型。物理管理解決整個(gè)系統(tǒng)數(shù)據(jù)存儲(chǔ)、運(yùn)算、共享等基礎(chǔ)能力的實(shí)體機(jī)器搭建和軟件操作平臺(tái)搭建,并完成大數(shù)據(jù)采集和匯聚;在此基礎(chǔ)上對(duì)存儲(chǔ)數(shù)據(jù)進(jìn)行邏輯管理,使得原始數(shù)據(jù)經(jīng)過整治變成標(biāo)準(zhǔn)可操作的有統(tǒng)一數(shù)據(jù)模型管理的數(shù)據(jù)集;數(shù)據(jù)資產(chǎn)管理對(duì)標(biāo)準(zhǔn)化、可操作的全局?jǐn)?shù)據(jù)進(jìn)行價(jià)值管理和共享管理,并利用算法開發(fā)數(shù)據(jù)資產(chǎn),使之智能化,釋放資本價(jià)值;數(shù)據(jù)服務(wù)與業(yè)務(wù)相結(jié)合,通過統(tǒng)一的數(shù)據(jù)接口為業(yè)務(wù)提供數(shù)據(jù)服務(wù),完成數(shù)據(jù)資產(chǎn)的實(shí)際利用;信息安全管理貫穿建設(shè)的始終,為數(shù)據(jù)的處理提供安全保障。

      3.1 物理管理

      物理管理包括物理工具支撐、基礎(chǔ)能力平臺(tái)、數(shù)據(jù)采集與匯聚。物理工具支撐是最底層的硬件集合,基礎(chǔ)能力平臺(tái)是對(duì)物理工具存儲(chǔ)、計(jì)算能力的抽象、管理,數(shù)據(jù)采集與匯聚是基于基礎(chǔ)能力平臺(tái)實(shí)現(xiàn)的數(shù)據(jù)中臺(tái)的初步功能。

      (1)物理工具支撐

      隨著機(jī)構(gòu)規(guī)模的擴(kuò)大、數(shù)據(jù)量的激增,機(jī)構(gòu)對(duì)算力和存儲(chǔ)等物理工具的要求自然進(jìn)入了云計(jì)算的時(shí)代,機(jī)構(gòu)需要部署其云服務(wù)平臺(tái)以滿足基本的算力和存儲(chǔ)需求。此外,機(jī)構(gòu)還需要根據(jù)自己的業(yè)務(wù)特性增派一些特殊實(shí)體資源,如物聯(lián)網(wǎng)系統(tǒng)需要增派大量傳感器。

      云服務(wù)系統(tǒng)的架構(gòu)部署有3種模式[14]:公有云、私有云和混合云。公有云是第三方公司通過互聯(lián)網(wǎng)連接提供給用戶的云,如AWS、華為云等,采用這種架構(gòu)能夠減少硬件開銷,但安全性得不到足夠的保障;私有云是機(jī)構(gòu)搭建基礎(chǔ)設(shè)施且只供內(nèi)部使用的云,這種架構(gòu)安全性高,但是需要耗費(fèi)硬件且運(yùn)維成本高;混合云的架構(gòu)結(jié)合了公有云和私有云的優(yōu)勢(shì),將重要的數(shù)據(jù)服務(wù)建設(shè)在私有云上以求得安全穩(wěn)定,把不重要的資源鋪設(shè)在公有云上,減少硬件成本。

      (2)基礎(chǔ)能力平臺(tái)

      基礎(chǔ)能力平臺(tái)是對(duì)底層復(fù)雜硬件資源的抽象,并提供統(tǒng)一數(shù)據(jù)存取、計(jì)算等基礎(chǔ)能力的技術(shù)集合。單體架構(gòu)模式[15]難以滿足云計(jì)算時(shí)代應(yīng)用可彈性擴(kuò)展、異構(gòu)數(shù)據(jù)資源標(biāo)準(zhǔn)化管理、適應(yīng)業(yè)務(wù)快速迭代等需求,因而云計(jì)算領(lǐng)域經(jīng)過多年的發(fā)展積累已經(jīng)形成了一套高可用的、彈性、可管理的被稱為云原生(cloud native)技術(shù)的基礎(chǔ)架構(gòu)。

      云原生架構(gòu)是一種利用云計(jì)算優(yōu)勢(shì)來構(gòu)建和運(yùn)行應(yīng)用程序的方法[16],它是一個(gè)技術(shù)和方法論的集合,包含4個(gè)要素:容器、微服務(wù)、DevOps、持續(xù)集成和持續(xù)交付(CI/CD)。這4個(gè)要素可以很好地滿足中臺(tái)建設(shè)的需求。首先,容器化開發(fā)使應(yīng)用能夠輕易地?cái)U(kuò)容到系統(tǒng)之中,容器化又具有相對(duì)封閉性保障數(shù)據(jù)的安全,通過微服務(wù)的接口方式使共享變得簡(jiǎn)單;其次,通過持續(xù)集成和持續(xù)交付技術(shù)能夠極大地提高軟件上線效率,滿足了快速迭代的需求;再次,通過容器化和微服務(wù)方式開發(fā)的應(yīng)用能夠被當(dāng)作組件,由云平臺(tái)的自動(dòng)化工具統(tǒng)一管理、實(shí)時(shí)監(jiān)控,實(shí)現(xiàn)了標(biāo)準(zhǔn)化配置和管理;最后,云原生架構(gòu)本身就是建立在云計(jì)算基礎(chǔ)上的架構(gòu)體系,對(duì)分布式架構(gòu)具有優(yōu)良的適應(yīng)性。綜上所述,數(shù)據(jù)中臺(tái)的基礎(chǔ)能力平臺(tái)建設(shè)適合在云原生架構(gòu)上進(jìn)行。

      CNCF(cloud native computing foundation)是Google、Red Hat、Microsoft等大型云計(jì)算廠商以及一些開源軟件公司共同成立的云原生計(jì)算基金會(huì),它提供了云原生架構(gòu)的路線圖[17],云原生架構(gòu)建設(shè)步驟見表1。

      表1 云原生架構(gòu)建設(shè)步驟

      云原生架構(gòu)之內(nèi)還需要選擇合適的大數(shù)據(jù)計(jì)算能力。數(shù)據(jù)中臺(tái)的大數(shù)據(jù)計(jì)算引擎可以分為即席查詢、離線計(jì)算、分布式計(jì)算、流式計(jì)算4個(gè)平臺(tái)[18]。即席查詢引擎需要對(duì)海量數(shù)據(jù)進(jìn)行秒級(jí)的實(shí)時(shí)查詢和計(jì)算,可以使用高性能和低時(shí)延的Impala;離線計(jì)算技術(shù)需要實(shí)現(xiàn)超大規(guī)模的批量計(jì)算,Hive是一款基于HDFS的MapReduce計(jì)算框架,對(duì)單節(jié)點(diǎn)的處理器利用率達(dá)到90%,是離線計(jì)算的選擇之一;分布式計(jì)算平臺(tái)可以選擇Hadoop、Spark、Flink等;流式處理平臺(tái)可以選擇Storm、Spark Streaming等。

      (3)數(shù)據(jù)采集與匯聚

      系統(tǒng)全域的原始數(shù)據(jù)都存放在各部門自身的業(yè)務(wù)系統(tǒng)中,需要經(jīng)過數(shù)據(jù)采集將數(shù)據(jù)匯聚起來,構(gòu)建一個(gè)打通所有原始數(shù)據(jù)域的數(shù)據(jù)湖(data lake)[16]。

      數(shù)據(jù)湖需要存儲(chǔ),可以根據(jù)數(shù)據(jù)的種類和結(jié)構(gòu)類型選取適宜的存儲(chǔ)工具。例如,日志數(shù)據(jù)和通用文件可以選擇HDFS進(jìn)行存儲(chǔ),HIVE存儲(chǔ)關(guān)系型數(shù)據(jù),采用圖數(shù)據(jù)庫(kù)存儲(chǔ)具有關(guān)聯(lián)性的大數(shù)據(jù)集等。

      3.2 邏輯管理

      邏輯管理要將在物理管理得到的原始數(shù)據(jù)經(jīng)過處理加工,轉(zhuǎn)變成可理解、可操作的具有統(tǒng)一語(yǔ)義和結(jié)構(gòu)的數(shù)據(jù)資產(chǎn)。邏輯管理分為數(shù)據(jù)表示和數(shù)據(jù)治理兩部分。

      3.2.1 數(shù)據(jù)表示

      數(shù)據(jù)中臺(tái)需要集中管理海量多源異構(gòu)的業(yè)務(wù)數(shù)據(jù),因此需要根據(jù)不同數(shù)據(jù)源的數(shù)據(jù)特征,明確數(shù)據(jù)的結(jié)構(gòu)、語(yǔ)義和標(biāo)準(zhǔn)等表示信息。數(shù)據(jù)表示主要包括數(shù)據(jù)標(biāo)準(zhǔn)管理和元數(shù)據(jù)管理。

      數(shù)據(jù)標(biāo)準(zhǔn)是指保障數(shù)據(jù)的內(nèi)外部使用和交換的一致性和準(zhǔn)確性的規(guī)范性約束[19]。一般數(shù)據(jù)標(biāo)準(zhǔn)會(huì)通過標(biāo)準(zhǔn)文件發(fā)布,但在中臺(tái)建設(shè)中,由于各個(gè)“數(shù)據(jù)孤島”間的獨(dú)立性,各個(gè)業(yè)務(wù)系統(tǒng)人員對(duì)標(biāo)準(zhǔn)的理解難免產(chǎn)生認(rèn)知偏差,難以保證標(biāo)準(zhǔn)的落實(shí),因此數(shù)據(jù)中臺(tái)要有一套由規(guī)范要求、流程制度、技術(shù)工具共同組成的管理體系確保數(shù)據(jù)治理各個(gè)階段的數(shù)據(jù)的標(biāo)準(zhǔn)化以及標(biāo)準(zhǔn)的沉淀。數(shù)據(jù)標(biāo)準(zhǔn)管理包括數(shù)據(jù)接入標(biāo)準(zhǔn)、命名標(biāo)準(zhǔn)、數(shù)據(jù)格式標(biāo)準(zhǔn)、數(shù)據(jù)安全標(biāo)準(zhǔn)、資源管理標(biāo)簽等多個(gè)方面。數(shù)據(jù)中臺(tái)數(shù)據(jù)標(biāo)準(zhǔn)管理可通過區(qū)塊鏈[20]、流程自動(dòng)化等技術(shù)工具來保障。

      元數(shù)據(jù)管理包含了一系列標(biāo)準(zhǔn):數(shù)據(jù)格式、代碼規(guī)范、數(shù)據(jù)隱私規(guī)則、數(shù)據(jù)表的命名原則等。其將數(shù)據(jù)資產(chǎn)用清晰直觀的方式呈現(xiàn),讓數(shù)據(jù)資產(chǎn)真正被讀懂。但由于“數(shù)據(jù)孤島”問題,元數(shù)據(jù)自發(fā)產(chǎn)生多元化、非標(biāo)準(zhǔn)化的協(xié)調(diào)發(fā)展問題。為保障元數(shù)據(jù)的統(tǒng)一性,可以采用語(yǔ)義互操作、結(jié)構(gòu)互操作、協(xié)議互操作等方法[21]來解決相關(guān)問題。

      3.2.2 數(shù)據(jù)治理

      根據(jù)數(shù)據(jù)管理能力成熟度評(píng)估模型[22],數(shù)據(jù)治理是指對(duì)數(shù)據(jù)進(jìn)行處置、格式化和規(guī)范化的過程。由此可見,數(shù)據(jù)中臺(tái)的數(shù)據(jù)治理是對(duì)數(shù)據(jù)中臺(tái)中的機(jī)構(gòu)全局?jǐn)?shù)據(jù)進(jìn)行處置、格式化和規(guī)范化的過程。數(shù)據(jù)治理的格式化、規(guī)范化過程在數(shù)據(jù)中臺(tái)建設(shè)中的內(nèi)涵可以理解為統(tǒng)一的數(shù)據(jù)規(guī)范和統(tǒng)一的數(shù)據(jù)建模及其管理的落地。數(shù)據(jù)中臺(tái)的數(shù)據(jù)治理主要包括4個(gè)子功能的實(shí)現(xiàn):數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換、數(shù)據(jù)集成。

      (1)數(shù)據(jù)規(guī)范

      數(shù)據(jù)規(guī)范是指進(jìn)入數(shù)據(jù)中臺(tái)的數(shù)據(jù)(輸入)和經(jīng)過數(shù)據(jù)中臺(tái)處理的數(shù)據(jù)(輸出)都必須符合的規(guī)范[16]。其通過一系列技術(shù)手段確保數(shù)據(jù)中臺(tái)中的數(shù)據(jù)I/O符合數(shù)據(jù)標(biāo)準(zhǔn)。例如,通過對(duì)數(shù)據(jù)庫(kù)屬性值設(shè)置一系列約束(完整性約束、唯一性約束、空值規(guī)則等)實(shí)現(xiàn)對(duì)數(shù)據(jù)的檢驗(yàn)。

      (2)數(shù)據(jù)清洗

      數(shù)據(jù)清洗的功能是偵測(cè)數(shù)據(jù)集中的“臟數(shù)據(jù)”,并對(duì)“臟數(shù)據(jù)”進(jìn)行清洗進(jìn)而達(dá)到提高數(shù)據(jù)質(zhì)量的目的。數(shù)據(jù)清洗可以分為屬性錯(cuò)誤清洗、不完整數(shù)據(jù)清洗以及相似重復(fù)記錄的清洗[23]。

      屬性錯(cuò)誤清洗識(shí)別并清洗違反數(shù)據(jù)庫(kù)原定義的完整性約束的沖突數(shù)據(jù)。識(shí)別方法有通過指定合法數(shù)據(jù)庫(kù)實(shí)例模式的定性方法或在離群點(diǎn)檢測(cè)的基礎(chǔ)上采用統(tǒng)計(jì)方法識(shí)別沖突數(shù)據(jù)的定量方法。屬性錯(cuò)誤可以通過光滑噪聲技術(shù)自動(dòng)修正,或人工修正。

      不完整數(shù)據(jù)清洗針對(duì)的是數(shù)據(jù)缺失現(xiàn)象。清洗工作可以通過忽略、全局變量填充的方法處理缺失數(shù)值,也可以通過統(tǒng)計(jì)和數(shù)值預(yù)測(cè)的方法,如中心度填充、最可能值填充處理。

      相似重復(fù)記錄清洗的重點(diǎn)是識(shí)別出相同或不同數(shù)據(jù)集中兩個(gè)實(shí)體是否指代同一實(shí)體,即實(shí)體對(duì)齊。實(shí)體對(duì)齊的基礎(chǔ)方法是文本相似度度量,大致分為基于字符的(如編輯距離)、基于單詞的(如 Jaccard系數(shù))、混合型(如 softTF-IDF)和基于語(yǔ)義(如 WordNet)的4種方法。相似重復(fù)數(shù)據(jù)集的清洗一般采用先排序后合并的思想,使用優(yōu)先隊(duì)列算法、近鄰排序算法等實(shí)現(xiàn)。

      (3)數(shù)據(jù)交換

      數(shù)據(jù)交換的功能是將原始數(shù)據(jù)轉(zhuǎn)換為符合特定模式的目標(biāo)數(shù)據(jù),同時(shí)保證目標(biāo)數(shù)據(jù)能正確反映原始數(shù)據(jù)的內(nèi)容。數(shù)據(jù)交換給數(shù)據(jù)集成提供了基本條件。數(shù)據(jù)交換的實(shí)現(xiàn)一般分為以下兩種方式[23]。

      ● 協(xié)議式交換:指源系統(tǒng)和目標(biāo)系統(tǒng)之間定義一個(gè)數(shù)據(jù)交換交互協(xié)議,遵循制定的協(xié)議,通過將一個(gè)系統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)移植到另一個(gè)系統(tǒng)的數(shù)據(jù)庫(kù)來完成數(shù)據(jù)交換。

      ● 標(biāo)準(zhǔn)化交換:建立一個(gè)可供多方共享的方法作為統(tǒng)一的標(biāo)準(zhǔn),實(shí)現(xiàn)跨平臺(tái)應(yīng)用程序之間的數(shù)據(jù)共享和交換。

      在數(shù)據(jù)中臺(tái)中需要靈活運(yùn)用以上兩種方法。如果幾個(gè)數(shù)據(jù)源與中臺(tái)的轉(zhuǎn)換規(guī)則相似,那么可以使用標(biāo)準(zhǔn)化交換減少點(diǎn)對(duì)點(diǎn)的協(xié)議式交換開發(fā)成本;如果有的數(shù)據(jù)源比較特殊,無法復(fù)用標(biāo)準(zhǔn)化交換功能,那么可以單獨(dú)做點(diǎn)對(duì)點(diǎn)的協(xié)議式交換開發(fā)。

      協(xié)議式交換可與區(qū)塊鏈技術(shù)結(jié)合。區(qū)塊鏈技術(shù)具有公開透明、不易被篡改等優(yōu)勢(shì),因此可以保障已經(jīng)處理過的有價(jià)值數(shù)據(jù)進(jìn)行流轉(zhuǎn)、存儲(chǔ)及追溯,從而提升數(shù)據(jù)交互效能。劉峰等[24]基于此提出了一種面向雙中臺(tái)雙鏈架構(gòu)的內(nèi)生性數(shù)據(jù)安全交互協(xié)議,取得了優(yōu)良的實(shí)驗(yàn)結(jié)果。

      (4)數(shù)據(jù)集成

      數(shù)據(jù)集成的目標(biāo)是將多源異構(gòu)數(shù)據(jù)匯聚后的無序原始數(shù)據(jù)(可以是數(shù)據(jù)湖)通過標(biāo)準(zhǔn)化得到能夠客觀描述機(jī)構(gòu)主要業(yè)務(wù)和功能時(shí)序狀態(tài)的可理解、可操作的有序數(shù)據(jù)集。數(shù)據(jù)集成技術(shù)協(xié)調(diào)數(shù)據(jù)源之間不匹配問題[25],將異構(gòu)、分布數(shù)據(jù)集成在一起,為用戶提供統(tǒng)一視圖,便于用戶更加透明地訪問數(shù)據(jù)源。數(shù)據(jù)集成的方式主要分為3種:數(shù)據(jù)復(fù)制、虛擬集成、基于本體建模的數(shù)據(jù)集成。

      ① 數(shù)據(jù)復(fù)制

      數(shù)據(jù)復(fù)制方法是將用戶可能用到的其他數(shù)據(jù)源的數(shù)據(jù)預(yù)先復(fù)制到統(tǒng)一的數(shù)據(jù)源中,用戶使用時(shí),僅需要訪問單一的數(shù)據(jù)源或少量的數(shù)據(jù)源。數(shù)據(jù)復(fù)制方法使得異構(gòu)、分布數(shù)據(jù)統(tǒng)一在一個(gè)數(shù)據(jù)庫(kù)中,因此提高了解析查詢效率;但數(shù)據(jù)復(fù)制需要一定的時(shí)間,因此數(shù)據(jù)的實(shí)時(shí)一致性難以保證。數(shù)據(jù)復(fù)制方法的常用方式是數(shù)據(jù)倉(cāng)庫(kù)方法[26]。

      ② 虛擬集成

      虛擬集成技術(shù)保持各數(shù)據(jù)源的分散狀態(tài),通過建立一個(gè)反映全局?jǐn)?shù)據(jù)的由邏輯模型構(gòu)成的邏輯視圖達(dá)到間接掌握全局?jǐn)?shù)據(jù)的效果。虛擬集成技術(shù)使用虛擬化技術(shù)實(shí)現(xiàn)邏輯模型到各分散數(shù)據(jù)源的數(shù)據(jù)控制。杜小勇等[27]提出了一種基于中間模式的數(shù)據(jù)集成系統(tǒng)架構(gòu),中間模式對(duì)下層數(shù)據(jù)源管理各個(gè)分散數(shù)據(jù)源的邏輯封裝,中間模式向上層數(shù)據(jù)應(yīng)用提供統(tǒng)一的數(shù)據(jù)模式和數(shù)據(jù)訪問的通用接口。當(dāng)用戶有查詢請(qǐng)求時(shí),中間模式按照元數(shù)據(jù)編譯請(qǐng)求語(yǔ)句,分解成對(duì)各數(shù)據(jù)源的特定操作。

      虛擬集成系統(tǒng)免去了海量數(shù)據(jù)匯聚的弊端,虛擬化服務(wù)和基于邏輯視圖的操作對(duì)用戶也非常友好。但如果異構(gòu)的數(shù)據(jù)源繁多復(fù)雜,開發(fā)封裝器和映射模式的代價(jià)將會(huì)非常大。

      ③ 基于本體建模的數(shù)據(jù)集成

      集成同一領(lǐng)域的異構(gòu)數(shù)據(jù)庫(kù)有3個(gè)主要問題:語(yǔ)義、語(yǔ)法和結(jié)構(gòu)的異質(zhì)性?;诒倔w的建模方法能描述領(lǐng)域概念術(shù)語(yǔ),表達(dá)概念間的內(nèi)在聯(lián)系,實(shí)現(xiàn)不同概念之間的集成和轉(zhuǎn)換,并保持語(yǔ)義上的一致性。同時(shí)能夠通過本體的推理機(jī)制消除不同領(lǐng)域的重復(fù)定義,發(fā)現(xiàn)其中隱含的關(guān)系,能夠充分解決上述3個(gè)問題[28]。在具有跨專業(yè)跨流程的電網(wǎng)企業(yè)全類別全過程項(xiàng)目管理信息模型的信息描述中有成功應(yīng)用[29]。目前,基于本體建模的數(shù)據(jù)集成方法包括單本體方法、多本體方法和混合本體方法3種[23]。

      在數(shù)據(jù)中臺(tái)的實(shí)際應(yīng)用中,統(tǒng)一的本體模型不僅要結(jié)合組織絕大部分?jǐn)?shù)據(jù)需求,還要提供兼容性和擴(kuò)展性以滿足特定的數(shù)據(jù)需求。以國(guó)家電網(wǎng)公司統(tǒng)一數(shù)據(jù)模型(SG-CIM)[30]為例,其通過組織智能審定出企業(yè)的公共信息模型,保證統(tǒng)一性,同時(shí)其為分派部門提供了統(tǒng)一的物理模型基線版,保證底層結(jié)構(gòu)的一致性,各分部門按照本地需求可在模型的允許范圍內(nèi)擴(kuò)展模型,這樣從根本上保證了數(shù)據(jù)模型的一致性,又兼具了可擴(kuò)展性。

      3.3 數(shù)據(jù)資產(chǎn)管理

      數(shù)據(jù)資產(chǎn)管理的任務(wù)是面向業(yè)務(wù)設(shè)置配套的管理體系以達(dá)到數(shù)據(jù)資產(chǎn)價(jià)值的釋放。數(shù)據(jù)資產(chǎn)管理主要包括:數(shù)據(jù)價(jià)值管理、數(shù)據(jù)共享管理、算法開發(fā)管理。

      3.3.1 數(shù)據(jù)價(jià)值管理

      數(shù)據(jù)價(jià)值管理是對(duì)數(shù)據(jù)內(nèi)在價(jià)值的度量,可以從數(shù)據(jù)投入成本和數(shù)據(jù)應(yīng)用價(jià)值兩方面來開展[31],即對(duì)數(shù)據(jù)資產(chǎn)的總投資收益率(return on investment,ROI)的衡量。數(shù)據(jù)價(jià)值管理目的是衡量數(shù)據(jù)的價(jià)值以便調(diào)整數(shù)據(jù)資產(chǎn)的投資結(jié)構(gòu),提高資產(chǎn)收益。其作用是挖掘數(shù)據(jù)資產(chǎn)價(jià)值潛力和評(píng)估數(shù)據(jù)采集維護(hù)成本,將兩者做綜合評(píng)判以幫助機(jī)構(gòu)合理調(diào)度整體資源,實(shí)現(xiàn)降本增效的目的,數(shù)據(jù)價(jià)值管理是數(shù)據(jù)資產(chǎn)管理的核心部分。數(shù)據(jù)投入成本主要包括硬件、能源和人力成本,這一部分成本投入較容易計(jì)算。而數(shù)據(jù)中臺(tái)為機(jī)構(gòu)提供集中化、智能化的數(shù)據(jù)服務(wù),進(jìn)而將數(shù)據(jù)轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)變現(xiàn)的過程是間接的、漫長(zhǎng)的,故數(shù)據(jù)應(yīng)用價(jià)值是難以即時(shí)獲知的。

      目前對(duì)數(shù)據(jù)資產(chǎn)總投資收益率的估計(jì)可以通過對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和情感分析得到,用訪問量、好評(píng)率等信息表現(xiàn)數(shù)據(jù)價(jià)值;或者通過回溯實(shí)際業(yè)務(wù)經(jīng)驗(yàn),歸納可靠的評(píng)估指標(biāo)來界定數(shù)據(jù)的應(yīng)用價(jià)值,如活性評(píng)估、數(shù)據(jù)質(zhì)量評(píng)估、數(shù)據(jù)稀缺性評(píng)估、數(shù)據(jù)時(shí)效性評(píng)估、數(shù)據(jù)應(yīng)用場(chǎng)景經(jīng)濟(jì)性評(píng)估等。

      3.3.2 數(shù)據(jù)共享管理

      數(shù)據(jù)中臺(tái)提供的廣泛數(shù)據(jù)共享會(huì)帶來數(shù)據(jù)安全和資源占用等相關(guān)問題,如越權(quán)訪問數(shù)據(jù)、大量訪問導(dǎo)致服務(wù)器崩潰等。為了避免以上問題,維護(hù)核心功能和資產(chǎn)價(jià)值的順利實(shí)現(xiàn),需要一套預(yù)防、監(jiān)控、分析數(shù)據(jù)共享的管理方案。

      這套方案需要從共享的需求和實(shí)際問題入手,制訂數(shù)據(jù)共享的條件、規(guī)范流程以及監(jiān)管手段。例如,某數(shù)據(jù)服務(wù)在業(yè)務(wù)中共享量比較大,可以在管理機(jī)制上優(yōu)先保障該數(shù)據(jù)服務(wù)的共享資源;又或者數(shù)據(jù)共享中涉及資源競(jìng)爭(zhēng),數(shù)據(jù)共享管理機(jī)制就要事先制訂好涉及資源競(jìng)爭(zhēng)時(shí)的共享策略。

      3.3.3 算法開發(fā)管理

      數(shù)據(jù)資產(chǎn)管理的核心作用是使經(jīng)過采集、治理后的數(shù)據(jù)通過算法被使用起來,服務(wù)于業(yè)務(wù)和產(chǎn)生商業(yè)洞見。根據(jù)使用數(shù)據(jù)的目的,算法可以分為業(yè)務(wù)型算法和數(shù)據(jù)開發(fā)型算法。

      業(yè)務(wù)型算法是基于前臺(tái)業(yè)務(wù)產(chǎn)生的一系列操作數(shù)據(jù)需求定制并由中臺(tái)統(tǒng)一管理的算法。在中臺(tái)框架下,業(yè)務(wù)數(shù)據(jù)需求會(huì)先搜索中臺(tái)的數(shù)據(jù)服務(wù)體系中是否存在可復(fù)用的接口,如果直接調(diào)用,可免去二次開發(fā)的過程;如果不能直接調(diào)用,中臺(tái)將開發(fā)任務(wù)派發(fā)給后臺(tái),讓其按照中臺(tái)的規(guī)定進(jìn)行開發(fā),后臺(tái)接口開發(fā)完成后由中臺(tái)統(tǒng)一管理。

      數(shù)據(jù)開發(fā)型算法應(yīng)由數(shù)據(jù)中臺(tái)內(nèi)部開發(fā)。數(shù)據(jù)開發(fā)型算法是基于數(shù)據(jù)中臺(tái)管理全局?jǐn)?shù)據(jù)的能力進(jìn)行的對(duì)決策洞見、業(yè)務(wù)優(yōu)化的探索。數(shù)據(jù)開發(fā)型算法會(huì)從全局?jǐn)?shù)據(jù)中挖掘新知識(shí),或者通過機(jī)器學(xué)習(xí)優(yōu)化業(yè)務(wù)功能,以此達(dá)到數(shù)據(jù)驅(qū)動(dòng)決策,數(shù)據(jù)賦能業(yè)務(wù)的資產(chǎn)價(jià)值。

      數(shù)據(jù)中臺(tái)進(jìn)行全局大數(shù)據(jù)開發(fā),首先要建立一個(gè)機(jī)器學(xué)習(xí)平臺(tái)。機(jī)器學(xué)習(xí)平臺(tái)建設(shè)基于數(shù)據(jù)中臺(tái)的發(fā)展理念,要求對(duì)數(shù)據(jù)處理、特征工程、特征重要性分析、常見算法模型和一致性校驗(yàn)等核心功能進(jìn)行組件化封裝,同時(shí)要求開發(fā)按照統(tǒng)一的代碼規(guī)范、協(xié)作機(jī)制、模型管理、上線流程進(jìn)行,以便共享和復(fù)用,此外平臺(tái)應(yīng)該根據(jù)實(shí)際的算法技術(shù)特點(diǎn)和業(yè)務(wù)需求變化進(jìn)行算法的升級(jí)。目前機(jī)器學(xué)習(xí)平臺(tái)在市面上有不少產(chǎn)品,比如Google TFX、Facebook的FBLearner、阿里巴巴的PAI平臺(tái)等[32]。

      3.4 數(shù)據(jù)服務(wù)

      數(shù)據(jù)服務(wù)是數(shù)據(jù)中臺(tái)的最后一個(gè)環(huán)節(jié),也是數(shù)據(jù)資產(chǎn)發(fā)揮其價(jià)值的時(shí)刻。對(duì)全局?jǐn)?shù)據(jù)進(jìn)行能力抽象和統(tǒng)一管理是為了將數(shù)據(jù)價(jià)值和數(shù)據(jù)能力共享給各部門,各部門通過復(fù)用中臺(tái)提供的數(shù)據(jù)服務(wù)給業(yè)務(wù)賦能。數(shù)據(jù)中臺(tái)管理數(shù)據(jù)服務(wù)有以下4點(diǎn)要求:

      ● 數(shù)據(jù)服務(wù)的形式是應(yīng)用程序接口(application programming interface,API)且API要交由數(shù)據(jù)中臺(tái)統(tǒng)一管理;

      ● API要避免重復(fù)建設(shè);

      ● 保障數(shù)據(jù)獲取及時(shí)、高效和穩(wěn)定;

      ● 數(shù)據(jù)中臺(tái)管理的API具有可擴(kuò)展性。

      數(shù)據(jù)服務(wù)可分為通用型服務(wù)和專用型服務(wù)。通用型服務(wù)是指能夠被廣泛復(fù)用的數(shù)據(jù)服務(wù),一般指對(duì)數(shù)據(jù)中臺(tái)管理的數(shù)據(jù)集的增刪改查以及利用人工智能和數(shù)據(jù)挖掘技術(shù)開發(fā)的分析工具。專用型服務(wù)應(yīng)對(duì)的是無法全部通過復(fù)用通用型服務(wù)解決的業(yè)務(wù)場(chǎng)景,基于特定場(chǎng)景的特征開發(fā)出的數(shù)據(jù)服務(wù)。專用型服務(wù)中具有共性的部分也可被分離出來作為通用型服務(wù)。

      3.5 信息安全管理

      數(shù)據(jù)中臺(tái)構(gòu)建在云上,與互聯(lián)網(wǎng)天然連接,必須要做好對(duì)互聯(lián)網(wǎng)的安全防范工作。全局的安全保障體系需要圍繞 ISO 七層模型建立,對(duì)各個(gè)層級(jí)進(jìn)行安全把控,保障系統(tǒng)正常使用[33]。除了建設(shè)一般性的外部網(wǎng)絡(luò)安全保障,在內(nèi)部也需要依其自身特點(diǎn)構(gòu)建相應(yīng)的安全管理措施。此外,數(shù)據(jù)中臺(tái)打通分散數(shù)據(jù)源的過程會(huì)帶來不可預(yù)知的數(shù)據(jù)泄露風(fēng)險(xiǎn)。而且數(shù)據(jù)中臺(tái)匯聚的數(shù)據(jù)是全局性的,一旦遭到威脅必將帶來巨大的損失。

      針對(duì)數(shù)據(jù)安全威脅,機(jī)構(gòu)應(yīng)當(dāng)從數(shù)據(jù)安全和隱私保護(hù)兩方面使用對(duì)應(yīng)的安全管理技術(shù)手段。

      (1)數(shù)據(jù)安全

      ● 數(shù)據(jù)容災(zāi)備份:為避免因?yàn)闉?zāi)害、停電、誤刪等意外性事件造成資產(chǎn)流失,數(shù)據(jù)需要備份。

      ● 數(shù)據(jù)權(quán)限:控制數(shù)據(jù)能夠被哪些用戶做哪些操作。一般在數(shù)據(jù)建模階段就要明確,同時(shí)要保證權(quán)限的動(dòng)態(tài)調(diào)整。

      ● 非法操作警報(bào)和審計(jì):要有詳細(xì)的日志記錄,用于實(shí)時(shí)審計(jì)或者事后審計(jì),對(duì)敏感數(shù)據(jù)要建立實(shí)時(shí)的報(bào)警機(jī)制以防事態(tài)蔓延。

      (2)隱私保護(hù)

      ● 身份認(rèn)證:證明用戶身份,保證數(shù)據(jù)權(quán)限的實(shí)施。

      ● 數(shù)據(jù)脫敏:個(gè)人私密信息,如密碼、身份證號(hào)、手機(jī)號(hào)、郵箱、地址等,應(yīng)該采取加密存儲(chǔ)、模糊化存儲(chǔ)的方式。

      4 華譜系統(tǒng):數(shù)據(jù)中臺(tái)的建設(shè)實(shí)踐

      家譜歷史悠久,蘊(yùn)含豐富的歷史、經(jīng)濟(jì)和文化等信息,具有極高的社會(huì)和經(jīng)濟(jì)價(jià)值。與此同時(shí),家譜數(shù)據(jù)是具有海量、多源、異構(gòu)、自治等大數(shù)據(jù)特征[34]的碎片化數(shù)據(jù),通過信息化手段進(jìn)行家譜數(shù)據(jù)系統(tǒng)建設(shè)和家譜知識(shí)挖掘、推理等面臨許多難題。難題主要包括數(shù)據(jù)數(shù)字化、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)服務(wù)化3個(gè)方面。數(shù)據(jù)數(shù)字化是指將傳統(tǒng)文本類型多樣的家譜電子化并匯聚起來需要極大的成本;數(shù)據(jù)標(biāo)準(zhǔn)化是指多源家譜數(shù)據(jù)的不一致性使得數(shù)據(jù)融合、治理困難;數(shù)據(jù)服務(wù)化是指家譜修撰面向龐大且需求復(fù)雜的用戶,家譜修撰功能不能單一,需要做到個(gè)性化、定制化。為提高家譜大數(shù)據(jù)的挖掘和分析利用,從2016年開始, 筆者團(tuán)隊(duì)建設(shè)了一個(gè)面向所有華人姓氏的家譜系統(tǒng)——華譜系統(tǒng)。到目前為止,華譜系統(tǒng)已有超過1 867萬條人物數(shù)據(jù)和721個(gè)姓氏。華譜系統(tǒng)主頁(yè)如圖4所示。

      圖4 華譜系統(tǒng)主頁(yè)

      華譜系統(tǒng)為解決上述數(shù)據(jù)數(shù)字化、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)服務(wù)化問題,采用一套人類智能(HI)、人工智能(AI)和組織智能(OI)三者的交互和協(xié)同的HAO智能體系[35],在數(shù)據(jù)中臺(tái)的參考框架上進(jìn)一步細(xì)化,結(jié)合家譜修建的具體場(chǎng)景打造了Huapu-CP框架進(jìn)行數(shù)據(jù)中臺(tái)建設(shè)。以下將圍繞Huapu-CP介紹現(xiàn)階段華譜數(shù)據(jù)中臺(tái)應(yīng)對(duì)的問題和解決方法。Huapu-CP框架[13]如圖5所示。

      圖5 Huapu-CP框架[13]

      4.1 華譜數(shù)據(jù)中臺(tái):物理管理

      在物理管理層,華譜數(shù)據(jù)中臺(tái)選用圖數(shù)據(jù)庫(kù)集群的方式將數(shù)據(jù)分布存儲(chǔ)在云端,實(shí)現(xiàn)高性能、彈性擴(kuò)展和容災(zāi)的數(shù)據(jù)存儲(chǔ)。在對(duì)比MapReduce與Spark用于大數(shù)據(jù)分析的優(yōu)缺點(diǎn)[36]后,華譜數(shù)據(jù)中臺(tái)選用Spark計(jì)算架構(gòu),提高了系統(tǒng)的運(yùn)行效率。在分布式查詢方面,華譜數(shù)據(jù)中臺(tái)通過圖劃分算法,將子圖分布到不同機(jī)器上進(jìn)行并行查詢[37],分布式查詢框架如圖6所示。華譜數(shù)據(jù)中臺(tái)的數(shù)據(jù)采集主要通過線下數(shù)據(jù)采集、互聯(lián)網(wǎng)數(shù)據(jù)采集、線上行為采集和內(nèi)部數(shù)據(jù)匯聚4種方式。其中互聯(lián)網(wǎng)數(shù)據(jù)采集借助WebCollector[38]工具。

      圖6 分布式查詢框架

      4.2 華譜數(shù)據(jù)中臺(tái):邏輯管理

      邏輯管理層是數(shù)據(jù)中臺(tái)建設(shè)的核心,是數(shù)據(jù)資產(chǎn)化的主戰(zhàn)場(chǎng)。其中邏輯管理包括數(shù)據(jù)表示和數(shù)據(jù)治理兩層。在數(shù)據(jù)表示層,華譜數(shù)據(jù)中臺(tái)基于HAO智能構(gòu)建親屬關(guān)系模型,并采用本體粒度劃分技術(shù),分別以“家譜”“人物”“用戶”為單元構(gòu)建知識(shí)圖譜。數(shù)據(jù)治理層分成了4個(gè)模塊——數(shù)據(jù)規(guī)范、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成,4個(gè)模塊依次進(jìn)行。

      華譜系統(tǒng)采用領(lǐng)域?qū)<铱偨Y(jié)的一套計(jì)算機(jī)可理解的規(guī)則庫(kù)的啟發(fā)式字典方法和數(shù)據(jù)字典完成數(shù)據(jù)規(guī)范。數(shù)據(jù)清洗模塊面對(duì)原始數(shù)據(jù)丟失、采集或錄入信息有誤的問題,通過錯(cuò)誤關(guān)系模式挖掘[39]和屬性自動(dòng)填充機(jī)制解決。屬性自動(dòng)填充機(jī)制是將人類智能定義的屬性自動(dòng)填充規(guī)則轉(zhuǎn)化為可執(zhí)行程序的方法。錯(cuò)誤關(guān)系模式挖掘是基于人類智能歸納總結(jié)定義的親屬關(guān)系圖中的錯(cuò)誤模式圖,通過子圖匹配算法定位噪聲,然后將檢測(cè)的噪聲數(shù)據(jù)反饋給用戶修正以實(shí)現(xiàn)數(shù)據(jù)清洗。數(shù)據(jù)交換模塊采用協(xié)議式交換的方法,制訂了一套通用的必須遵守的交互協(xié)議,打通了數(shù)據(jù)壁壘。團(tuán)隊(duì)利用實(shí)體對(duì)齊、沖突消解和數(shù)據(jù)融合等技術(shù)開發(fā)了碎片化家譜融合框架——FDFHAO(結(jié)合 HAO 智能模型的碎片化數(shù)據(jù)融合框架)[40],對(duì)家譜數(shù)據(jù)進(jìn)行集成,實(shí)現(xiàn)碎片化家譜知識(shí)的融合。FDF-HAO框架深度融合了人類智能(HI)和組織智能(OI)中的專家知識(shí)和數(shù)據(jù)標(biāo)準(zhǔn),給出了一套新的面向家譜數(shù)據(jù)的數(shù)據(jù)抽取方法、無監(jiān)督實(shí)體對(duì)齊算法、沖突解決機(jī)制和屬性融合算法。筆者通過實(shí)驗(yàn)證明了在家譜數(shù)據(jù)上的有效性和高性能。FDF-HAO框架如圖7所示。

      圖7 FDF-HAO框架[40]

      4.3 華譜數(shù)據(jù)中臺(tái):知識(shí)圖譜構(gòu)建

      從海量異構(gòu)的家譜數(shù)據(jù)中獲取潛在知識(shí)是使數(shù)據(jù)資產(chǎn)價(jià)值最大化的關(guān)鍵,因此構(gòu)建知識(shí)圖譜是數(shù)據(jù)中臺(tái)數(shù)據(jù)智能化的關(guān)鍵環(huán)節(jié),是華譜數(shù)據(jù)中臺(tái)數(shù)據(jù)資產(chǎn)管理的中心。但是由于知識(shí)圖譜模型在譜系學(xué)領(lǐng)域還處于起步階段,一般的家譜知識(shí)模型不適用于中國(guó)家譜的知識(shí)圖譜構(gòu)建,因此筆者團(tuán)隊(duì)基于中國(guó)家譜的特點(diǎn)構(gòu)建了中國(guó)家譜知識(shí)圖譜模型[41],并將其應(yīng)用在華譜知識(shí)圖譜(Huapu-KG)的構(gòu)建中。

      Huapu-KG采用本體粒度劃分技術(shù),劃分了“家譜”“人物”“用戶”3種家譜知識(shí)元素。在知識(shí)元素內(nèi)部,本文對(duì)該粒度下本體屬性的描述進(jìn)行了靜態(tài)屬性和動(dòng)態(tài)屬性的區(qū)分,保證了本體信息的可變性。在家譜知識(shí)元素的基礎(chǔ)上,通過組合家譜知識(shí)元素?cái)?shù)據(jù)中臺(tái)可得到能夠表達(dá)復(fù)雜語(yǔ)義、提高知識(shí)描述能力的家譜知識(shí)單元,如“超點(diǎn)”“跨姓家譜”“群組”。

      此外,由于中國(guó)家譜中存在大量專有名詞和生僻詞匯,筆者在領(lǐng)域?qū)<业膸椭?,利用HAO智能和“簡(jiǎn)化復(fù)雜性”策略開發(fā)了親屬名詞庫(kù)。名詞庫(kù)解釋了晦澀難懂的單詞,提高了家譜知識(shí)的可讀性。Huapu-KG示例[41]如圖8所示。

      圖8 Huapu-KG示例[41]

      4.4 華譜數(shù)據(jù)中臺(tái):數(shù)據(jù)服務(wù)

      華譜數(shù)據(jù)中臺(tái)的建設(shè)是以數(shù)據(jù)應(yīng)用為驅(qū)動(dòng)的,通過開發(fā)數(shù)據(jù)服務(wù),實(shí)現(xiàn)敏捷的應(yīng)用開發(fā),最終將數(shù)據(jù)使用起來,發(fā)揮數(shù)據(jù)資產(chǎn)的價(jià)值。目前華譜數(shù)據(jù)中臺(tái)已經(jīng)開發(fā)出家譜人物查詢、家譜樹展示、家譜自動(dòng)分卷、譜系圖打印和家譜打印等服務(wù)。

      家譜人物查詢服務(wù)提供了統(tǒng)一的人物查詢?nèi)肟?,如圖9所示,方便家譜人物的快速查找和后續(xù)操作。家譜樹展示功能憑借華譜知識(shí)圖譜,以樹狀圖的形式向用戶展示整個(gè)家譜結(jié)構(gòu),如圖10所示,家族脈絡(luò)清晰。家譜自動(dòng)分卷服務(wù)適用于家譜立世人物較多的情況,系統(tǒng)會(huì)提供自動(dòng)分卷功能,智能分配每卷人數(shù)。譜系圖打印和家譜打印等服務(wù)可以離線文件的形式輸出譜系圖便于修譜中的校對(duì)工作,如圖11所示,也能夠直接輸出可打印的家譜文件。

      圖9 家譜人物查詢

      圖10 家譜樹展示示例

      圖11 譜系圖打印

      4.5 華譜數(shù)據(jù)中臺(tái):信息安全管理

      在華譜數(shù)據(jù)中臺(tái)的建設(shè)過程中,主要出現(xiàn)了3個(gè)層面的信息安全問題。

      ● 數(shù)據(jù)治理層:收集的數(shù)據(jù)存在不一致的問題,同一實(shí)體對(duì)應(yīng)多個(gè)實(shí)體數(shù)據(jù),在數(shù)據(jù)清洗階段無法辨別不一致的數(shù)據(jù)是否應(yīng)該舍棄,如果將不一致的數(shù)據(jù)舍棄,可能會(huì)產(chǎn)生重要信息的丟失,降低數(shù)據(jù)的質(zhì)量。

      ● 用戶權(quán)限管理:系統(tǒng)內(nèi)不同角色的權(quán)限不同,用戶也可能擁有多個(gè)角色,同時(shí)用戶對(duì)應(yīng)的角色也可能變化,角色對(duì)應(yīng)的權(quán)限也會(huì)動(dòng)態(tài)變化。在這樣復(fù)雜的權(quán)限變動(dòng)中僅根據(jù)角色難以判斷用戶權(quán)限,需要進(jìn)一步進(jìn)行數(shù)據(jù)層面的權(quán)限判斷。因此,如何管理好靈活變動(dòng)的用戶權(quán)限是一個(gè)重要的問題。

      ● 應(yīng)用權(quán)限管理:華譜系統(tǒng)的應(yīng)用都通過數(shù)據(jù)中臺(tái)獲取數(shù)據(jù),但是不同系統(tǒng)能夠獲取的數(shù)據(jù)是不同的。限制數(shù)據(jù)中臺(tái)對(duì)應(yīng)用的數(shù)據(jù)獲取權(quán)限保證數(shù)據(jù)安全,同時(shí)保證數(shù)據(jù)中臺(tái)能夠發(fā)揮最大限度的數(shù)據(jù)共享能力非常關(guān)鍵。

      針對(duì)不一致數(shù)據(jù)的存儲(chǔ)問題,華譜數(shù)據(jù)中臺(tái)采用了基于超點(diǎn)的多源數(shù)據(jù)存儲(chǔ)方案,如圖12所示。超點(diǎn)是在保留原數(shù)據(jù)的情況下,將所有相同實(shí)體融合成一個(gè)新的節(jié)點(diǎn)。超點(diǎn)保留了各數(shù)據(jù)源的初始數(shù)據(jù),做到全面保留信息以便對(duì)信息進(jìn)行查缺補(bǔ)漏;通過人類智能校驗(yàn),審查多條不一致數(shù)據(jù)是不是同一實(shí)體,保證了超點(diǎn)內(nèi)信息的真實(shí)可靠,而且超點(diǎn)提供了信息溯源的依據(jù),可以根據(jù)用戶的需要和權(quán)限提供對(duì)應(yīng)實(shí)體最相關(guān)的信息。

      圖12 基于超點(diǎn)的多源數(shù)據(jù)存儲(chǔ)方案

      針對(duì)用戶權(quán)限的多重角色沖突問題和應(yīng)用權(quán)限過高造成數(shù)據(jù)泄露的問題,筆者采用基于圖數(shù)據(jù)庫(kù)“粗細(xì)粒度結(jié)合”的權(quán)限管理方法和基于HAO模型權(quán)限管理的閉環(huán)架構(gòu),構(gòu)建了統(tǒng)一的權(quán)限控制中心管理用戶和應(yīng)用權(quán)限[13]?;趫D數(shù)據(jù)庫(kù)的“粗細(xì)粒度結(jié)合”的權(quán)限管理方法用粗粒度表示用戶所擁有的角色,通過查詢用戶角色表和角色權(quán)限表實(shí)現(xiàn),如果有權(quán)限則直接返回;否則,執(zhí)行細(xì)粒度的權(quán)限查詢。細(xì)粒度表示的是數(shù)據(jù)層面的權(quán)限管理,即某個(gè)具體的數(shù)據(jù)被設(shè)置的權(quán)限,權(quán)限控制通過查詢圖數(shù)據(jù)庫(kù)中該數(shù)據(jù)被設(shè)定的權(quán)限邊完成?!按旨?xì)粒度結(jié)合”的權(quán)限管理方法通過粗細(xì)粒度相結(jié)合的查詢方法,既保證了訪問控制管理的靈活性,又保證了用戶權(quán)限的完備性,能夠有效地解決同一用戶多重角色沖突的問題。而且在細(xì)粒度查詢中,圖數(shù)據(jù)庫(kù)用邊的形式存儲(chǔ)用戶是否具有人物的修改權(quán)限,因此對(duì)細(xì)粒度數(shù)據(jù)查詢的時(shí)間復(fù)雜度只有O(1),具有良好的查詢效率。“粗細(xì)粒度結(jié)合”的用戶權(quán)限管理方法[13]如圖13所示。

      圖13 “粗細(xì)粒度結(jié)合”的用戶權(quán)限管理方法[13]

      基于HAO模型的權(quán)限管理閉環(huán)架構(gòu)如圖14所示,利用HI、AI、OI的協(xié)同作用,準(zhǔn)確、靈活、可靠地分配多粒度下的權(quán)限。系統(tǒng)設(shè)計(jì)與維護(hù)人員發(fā)揮專家知識(shí)和組織通用標(biāo)準(zhǔn)決定角色定義、用戶組劃分等權(quán)限內(nèi)容;AI基于日志進(jìn)行用戶分析,通過用戶行為追蹤、操作日志分析、用戶畫像等工作分析現(xiàn)有權(quán)限管理的不足之處,同時(shí)發(fā)掘操作行為較好的優(yōu)質(zhì)用戶,數(shù)據(jù)分析結(jié)果交由系統(tǒng)設(shè)計(jì)維護(hù)人員重新定義權(quán)限;最后,系統(tǒng)管理員根據(jù)權(quán)限管理規(guī)定動(dòng)態(tài)分配權(quán)限。

      圖14 基于HAO模型的權(quán)限管理閉環(huán)架構(gòu)[13]

      華譜系統(tǒng)中的應(yīng)用或服務(wù)都通過數(shù)據(jù)中臺(tái)的統(tǒng)一數(shù)據(jù)接口獲取數(shù)據(jù),用戶通過請(qǐng)求應(yīng)用或服務(wù)獲取數(shù)據(jù),為了實(shí)現(xiàn)對(duì)用戶權(quán)限、應(yīng)用權(quán)限的統(tǒng)一管控,分別設(shè)置了用戶權(quán)限控制中心和應(yīng)用權(quán)限控制中心,如圖15所示,用戶對(duì)應(yīng)用/服務(wù)的請(qǐng)求會(huì)經(jīng)過用戶權(quán)限控制中心的驗(yàn)證,用戶有權(quán)請(qǐng)求該服務(wù),那么用戶權(quán)限控制中心將調(diào)用請(qǐng)求應(yīng)用/服務(wù),如果驗(yàn)證不通過,用戶請(qǐng)求將會(huì)被駁回。通過驗(yàn)證的用戶請(qǐng)求調(diào)用的應(yīng)用/服務(wù)將請(qǐng)求數(shù)據(jù)中臺(tái)的數(shù)據(jù)接口,應(yīng)用權(quán)限控制中心首先驗(yàn)證應(yīng)用是否有使用該數(shù)據(jù)接口的權(quán)限,通過驗(yàn)證再由應(yīng)用權(quán)限控制中心調(diào)用請(qǐng)求的數(shù)據(jù)接口,查詢數(shù)據(jù)直接返回給應(yīng)用。

      圖15 權(quán)限控制中心[13]

      5 挑戰(zhàn)和前景展望

      通過華譜數(shù)據(jù)中臺(tái)的建設(shè),筆者成功實(shí)踐了基于HAO的家譜數(shù)據(jù)中臺(tái)建設(shè)框架Huapu-CP。但在實(shí)踐之中筆者也發(fā)現(xiàn)數(shù)據(jù)中臺(tái)研究和開發(fā)還面臨著以下挑戰(zhàn)。

      挑戰(zhàn)1:廣泛共享的理念和數(shù)據(jù)安全之間的矛盾。

      廣泛的數(shù)據(jù)共享是數(shù)據(jù)中臺(tái)建設(shè)的初衷和目標(biāo)之一。但要實(shí)現(xiàn)廣泛的數(shù)據(jù)共享就需要提高分散數(shù)據(jù)源的數(shù)據(jù)開放程度,操作不慎可能會(huì)威脅到數(shù)據(jù)和隱私安全,得不償失;如果過度重視數(shù)據(jù)和隱私安全導(dǎo)致“數(shù)據(jù)孤島”則使數(shù)據(jù)中臺(tái)的建設(shè)失去了意義。如何從實(shí)際業(yè)務(wù)環(huán)境中把握總臺(tái)數(shù)據(jù)開放性的尺度是未來研究的重點(diǎn)和難點(diǎn)。

      挑戰(zhàn)2:難以將數(shù)據(jù)中臺(tái)建設(shè)方案統(tǒng)一化。

      雖然本文提出的中臺(tái)框架的五大部分是絕大多數(shù)數(shù)據(jù)中臺(tái)建設(shè)中要進(jìn)行的,但卻不能直接把這五大部分當(dāng)成統(tǒng)一建設(shè)框架,原因有3個(gè)。其一,機(jī)構(gòu)內(nèi)原本的信息化建設(shè)程度不一,為了保持原系統(tǒng)的功能可持續(xù)同時(shí)接入統(tǒng)一的中臺(tái)系統(tǒng)是難題;其二,機(jī)構(gòu)內(nèi)要整合的數(shù)據(jù)多源、異構(gòu),建設(shè)者必須要根據(jù)具體情況靈活使用技術(shù)、方法;其三,中臺(tái)建設(shè)方使用中臺(tái)的目的、業(yè)務(wù)場(chǎng)景多樣,這就意味著必須根據(jù)實(shí)際業(yè)務(wù)需求調(diào)整中臺(tái)的建設(shè)方向。

      挑戰(zhàn)3:數(shù)據(jù)中臺(tái)建設(shè)的動(dòng)態(tài)性、長(zhǎng)期性。

      數(shù)據(jù)中臺(tái)的建設(shè)不是一朝一夕完成的。在大數(shù)據(jù)時(shí)代,業(yè)務(wù)需求會(huì)隨著市場(chǎng)發(fā)生快速變化,建設(shè)者需要根據(jù)數(shù)據(jù)做出精細(xì)化管理,而組織數(shù)據(jù)、訓(xùn)練數(shù)據(jù)模型必須在實(shí)踐中積累能力,中臺(tái)沉淀這些能力為未來的業(yè)務(wù)和決策提供快速、高效的服務(wù),因此數(shù)據(jù)中臺(tái)是在動(dòng)態(tài)中建設(shè)的,是一個(gè)長(zhǎng)期性的工程。

      挑戰(zhàn)4:沒有經(jīng)驗(yàn)豐富的技術(shù)團(tuán)隊(duì)和成熟的檢驗(yàn)工具、標(biāo)準(zhǔn)。

      數(shù)據(jù)中臺(tái)建設(shè)團(tuán)隊(duì)涉及業(yè)務(wù)、技術(shù)、管理部門之間的協(xié)作,單一的技術(shù)人才無法勝任,需要更多的復(fù)合型人才。同時(shí)數(shù)據(jù)中臺(tái)的建設(shè)缺少成熟的檢驗(yàn)工具、標(biāo)準(zhǔn),數(shù)據(jù)中臺(tái)建設(shè)的優(yōu)劣短期內(nèi)可能仍舊停留在數(shù)據(jù)服務(wù)的效果這個(gè)單一評(píng)價(jià)指標(biāo)上。

      目前來看,數(shù)據(jù)中臺(tái)依然有不錯(cuò)的前景,主要包括以下幾個(gè)方面。

      前景一:數(shù)據(jù)中臺(tái)助力機(jī)構(gòu)數(shù)字化轉(zhuǎn)型將成為趨勢(shì)。

      對(duì)于海量數(shù)據(jù)的存儲(chǔ)、管理和價(jià)值實(shí)現(xiàn)問題,數(shù)據(jù)中臺(tái)展現(xiàn)了其可行性和有效性。這將促進(jìn)越來越多的數(shù)字化轉(zhuǎn)型機(jī)構(gòu)選擇建設(shè)數(shù)據(jù)中臺(tái)。

      前景二:數(shù)據(jù)中臺(tái)產(chǎn)品逐漸具備標(biāo)準(zhǔn)化潛力。

      隨著近年來選擇建設(shè)數(shù)據(jù)中臺(tái)的領(lǐng)域越來越多,其中包括互聯(lián)網(wǎng)、零售、物聯(lián)網(wǎng)、政府部門、城市建設(shè)等,數(shù)據(jù)中臺(tái)建設(shè)的總體經(jīng)驗(yàn)越來越多,相信未來關(guān)于數(shù)據(jù)中臺(tái)建設(shè)的理論一定會(huì)取得長(zhǎng)足的進(jìn)步。

      前景三:促進(jìn)機(jī)構(gòu)內(nèi)團(tuán)隊(duì)協(xié)作能力。

      數(shù)據(jù)中臺(tái)打破“數(shù)據(jù)孤島”現(xiàn)象,通過數(shù)據(jù)將業(yè)務(wù)、技術(shù)、組織等相關(guān)人員聯(lián)系在一起,加強(qiáng)了跨部門之間的交流,提高了團(tuán)隊(duì)協(xié)作能力,由技術(shù)上的數(shù)字化轉(zhuǎn)型推動(dòng)了組織結(jié)構(gòu)上的平臺(tái)化轉(zhuǎn)型。

      前景四:促進(jìn)大數(shù)據(jù)、云計(jì)算及人工智能技術(shù)發(fā)展。

      數(shù)據(jù)中臺(tái)推動(dòng)了海量數(shù)據(jù)在機(jī)構(gòu)內(nèi)的集成,為人工智能技術(shù)提供了數(shù)據(jù)資源。龐大的數(shù)據(jù)將會(huì)推動(dòng)大數(shù)據(jù)治理技術(shù)的升級(jí),海量的運(yùn)算需求也會(huì)增加云計(jì)算的需要。

      前景五:知識(shí)圖譜技術(shù)對(duì)新一代數(shù)據(jù)中臺(tái)技術(shù)的推動(dòng)作用。

      傳統(tǒng)的二維表在知識(shí)表達(dá)上有很多局限性,而知識(shí)圖譜則能更好地描述實(shí)體與關(guān)系,復(fù)雜的圖結(jié)構(gòu)更有利于探索數(shù)據(jù)之間的關(guān)聯(lián),獲取知識(shí)。新一代數(shù)據(jù)中臺(tái)技術(shù)不僅要融合數(shù)據(jù),還要存取知識(shí)、使用知識(shí),因此知識(shí)圖譜技術(shù)將對(duì)新一代數(shù)據(jù)中臺(tái)的建設(shè)起到推動(dòng)作用。

      6 結(jié)束語(yǔ)

      數(shù)據(jù)中臺(tái)是數(shù)字化轉(zhuǎn)型中的一個(gè)技術(shù)熱點(diǎn),目前數(shù)據(jù)中臺(tái)面臨理論不完善、概念不統(tǒng)一、建設(shè)方案差異大的問題。本文總結(jié)了數(shù)據(jù)中臺(tái)的相關(guān)研究背景,敘述了數(shù)據(jù)中臺(tái)的概念,接著分析了數(shù)據(jù)中臺(tái)的架構(gòu)方案差異和建設(shè)目標(biāo),給出了數(shù)據(jù)中臺(tái)的建設(shè)框架,對(duì)建設(shè)框架中的物理管理、邏輯管理、數(shù)據(jù)資產(chǎn)管理、數(shù)據(jù)服務(wù)、信息安全管理做出介紹。然后以華譜系統(tǒng)的建設(shè)為例證明了基于 HAO 智能的家譜數(shù)據(jù)中臺(tái)框架Huapu-CP的實(shí)際可行性。最后介紹了當(dāng)前數(shù)據(jù)中臺(tái)建設(shè)的挑戰(zhàn)和前景。

      猜你喜歡
      中臺(tái)家譜管理
      家即是國(guó),鉤沉史海樂為舟——“家譜文化的傳揚(yáng)者”朱炳國(guó)
      棗前期管理再好,后期管不好,前功盡棄
      中臺(tái)是媒體轉(zhuǎn)型必經(jīng)之路嗎?
      ——媒體中臺(tái)建設(shè)的特點(diǎn)和誤區(qū)
      視聽界(2021年2期)2021-11-27 00:30:14
      關(guān)于零售企業(yè)“中臺(tái)”建設(shè)的研究
      汽車制造企業(yè)質(zhì)量中臺(tái)研究
      以技術(shù)開發(fā)中心為中臺(tái),數(shù)字化轉(zhuǎn)型之見解
      “這下管理創(chuàng)新了!等7則
      雜文月刊(2016年1期)2016-02-11 10:35:51
      人本管理在我國(guó)國(guó)企中的應(yīng)用
      從《家譜》看吉林回族的源流與走向
      2010上半年古籍拍賣會(huì)上的家譜表現(xiàn)
      天一閣文叢(2011年1期)2011-10-23 01:44:34
      宜兰市| 洛扎县| 当阳市| 孟村| 通化县| 高碑店市| 特克斯县| 江北区| 顺平县| 霍林郭勒市| 榆社县| 邵阳县| 德江县| 彭州市| 临潭县| 宜宾县| 宁强县| 曲阜市| 宜兴市| 塘沽区| 连州市| 镇沅| 高清| 毕节市| 凤山县| 绥芬河市| 长宁县| 景谷| 六枝特区| 陆川县| 西城区| 抚顺县| 明水县| 文安县| 嘉祥县| 马公市| 江城| 徐闻县| 临澧县| 邹城市| 佛学|