貢桑德慶 安淵
引言
數(shù)據(jù)血緣是指在數(shù)據(jù)的全生命周期中,因數(shù)據(jù)的加工、融合、流轉(zhuǎn)等產(chǎn)生的數(shù)據(jù)與數(shù)據(jù)之間的多種關(guān)系。通俗地講,數(shù)據(jù)A經(jīng)過處理產(chǎn)生了數(shù)據(jù)B,我們則稱數(shù)據(jù)A和數(shù)據(jù)B具有血緣關(guān)系。不管是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù),都存在數(shù)據(jù)血緣關(guān)系。數(shù)據(jù)血緣還具有歸屬性、多源性、可溯性和層次性等特性。
數(shù)據(jù)血緣應用
目前,數(shù)據(jù)血緣分析技術(shù)在數(shù)據(jù)治理和數(shù)據(jù)倉庫領(lǐng)域的應用已經(jīng)比較廣泛,基于數(shù)據(jù)血緣的四大特征,其主要應用有以下幾個方面:
數(shù)據(jù)溯源
依托于數(shù)據(jù)血緣關(guān)系可溯性的特點,根據(jù)血緣中的數(shù)據(jù)鏈路關(guān)系,可實現(xiàn)指定數(shù)據(jù)的來源和去向追溯,幫助用戶理解數(shù)據(jù)含義,在全流程上定位數(shù)據(jù)問題,進行數(shù)據(jù)關(guān)聯(lián)影響分析等,解決多層復雜邏輯處理后數(shù)據(jù)難以理解、難以應用和錯誤難以定位的問題。
數(shù)據(jù)價值評估
數(shù)據(jù)價值是數(shù)據(jù)管理的核心標準,不管是數(shù)據(jù)交易中的數(shù)據(jù)定價還是數(shù)據(jù)安全中的保護等級,數(shù)據(jù)價值都是一個重要的參考因素。因此,如何準確地評估數(shù)據(jù)價值成為企業(yè)面臨的一大難題。傳統(tǒng)的數(shù)據(jù)價值評估,往往完全依靠相關(guān)法規(guī)要求和業(yè)務經(jīng)驗,缺少在具體應用場景中的評估依據(jù),數(shù)據(jù)價值評估脫離了數(shù)據(jù)的應用場景和真實的業(yè)務價值。而數(shù)據(jù)血緣則提供了一種基于數(shù)據(jù)實際應用的價值評估方法,使用者越多、使用量級越大、更新越頻繁的數(shù)據(jù)具有更高價值。
數(shù)據(jù)質(zhì)量評估
數(shù)據(jù)血緣清晰地記錄了數(shù)據(jù)來源以及數(shù)據(jù)流轉(zhuǎn)過程中的處理方式和處理規(guī)則,能實現(xiàn)對各個數(shù)據(jù)節(jié)點的分析和數(shù)據(jù)質(zhì)量評估。
數(shù)據(jù)歸檔參考
數(shù)據(jù)血緣中記錄了數(shù)據(jù)的去向,可清晰地掌握數(shù)據(jù)被消費的情況,一旦數(shù)據(jù)沒有消費者,也就意味著數(shù)據(jù)已失去價值。此時,可以對這些數(shù)據(jù)進行進一步評估,考慮進行歸檔或銷毀處理。
在數(shù)據(jù)安全治理中,數(shù)據(jù)血緣的應用場景主要是數(shù)據(jù)溯源和數(shù)據(jù)價值評估。數(shù)據(jù)溯源可以幫助數(shù)據(jù)管理者理清數(shù)據(jù)脈絡,形成數(shù)據(jù)圖譜,協(xié)助構(gòu)建數(shù)據(jù)安全管理體系,或追蹤數(shù)據(jù)泄露節(jié)點、數(shù)據(jù)風險節(jié)點等。數(shù)據(jù)價值評估可以輔助數(shù)據(jù)分類分級體系建設(shè),指導數(shù)據(jù)的分級管控和分級保護。
數(shù)據(jù)血緣分析
盡管數(shù)據(jù)血緣分析還未在數(shù)據(jù)安全治理中廣泛應用,但考慮數(shù)據(jù)血緣的特性和應用場景,其在未來必將發(fā)揮重要作用。數(shù)據(jù)血緣分析作為數(shù)據(jù)血緣的應用方式,是一個貫穿數(shù)據(jù)生命周期的過程,涉及流程、技術(shù)、產(chǎn)品等多維度內(nèi)容。數(shù)據(jù)血緣分析可分為三大模塊:數(shù)據(jù)血緣建設(shè)、數(shù)據(jù)血緣分析、數(shù)據(jù)血緣可視化。
數(shù)據(jù)血緣建設(shè)
數(shù)據(jù)血緣建設(shè)并不是建設(shè)數(shù)據(jù)血緣關(guān)系,因為數(shù)據(jù)血緣關(guān)系是數(shù)據(jù)流轉(zhuǎn)過程中自動產(chǎn)生的。數(shù)據(jù)血緣建設(shè)的目標是當數(shù)據(jù)被生產(chǎn)時,數(shù)據(jù)生產(chǎn)過程能被及時、準確地記錄和存儲下來。因此,數(shù)據(jù)血緣建設(shè)并不是一個指定的動作,而是一種管理流程和數(shù)據(jù)意識,需要延伸到數(shù)據(jù)產(chǎn)生之前,從數(shù)據(jù)存儲的設(shè)計開始。
數(shù)據(jù)血緣建設(shè)是數(shù)據(jù)血緣分析的前提條件,準確、完整、及時記錄信息才能帶來有效的血緣分析效果,由于部分數(shù)據(jù)源本身的數(shù)據(jù)血緣建設(shè)準備較差,在某些業(yè)務場景中需要人工介入進行梳理。
數(shù)據(jù)血緣分析
數(shù)據(jù)血緣分析針對數(shù)據(jù)流轉(zhuǎn)過程中產(chǎn)生并記錄的各種信息進行采集、處理和分析,對數(shù)據(jù)之間的血緣關(guān)系進行系統(tǒng)性梳理、關(guān)聯(lián),并將梳理完成后的信息進行存儲。由于企業(yè)數(shù)據(jù)龐雜等問題,數(shù)據(jù)血緣分析通常需要借助工具或系統(tǒng)展開,實現(xiàn)血緣信息數(shù)據(jù)的自動采集分析。
數(shù)據(jù)血緣分析通常按數(shù)據(jù)血緣的層級進行,層級基于業(yè)務需求和某些數(shù)據(jù)特性可能有差別,常見的分析層級為應用級、數(shù)據(jù)級和字段級。數(shù)據(jù)血緣分析的目標是實現(xiàn)數(shù)據(jù)來源的精確追溯、流轉(zhuǎn)過程的準確還原、數(shù)據(jù)去向的精準定位。數(shù)據(jù)血緣分析需要考慮以下幾個方面:
(1)全面性。數(shù)據(jù)處理過程實際上是程序?qū)?shù)據(jù)進行傳遞、運算演繹和歸檔的過程。為確保數(shù)據(jù)血緣的完整性,必須將整個系統(tǒng)作為數(shù)據(jù)血緣的分析對象,才能夠真正做到溯源。
(2)及時性。數(shù)據(jù)之間的關(guān)系是隨時變動的,為保證數(shù)據(jù)血緣的準確性和可用性,數(shù)據(jù)血緣分析必須與數(shù)據(jù)保持同步更新,確保數(shù)據(jù)血緣的分析結(jié)果面向最新的數(shù)據(jù)和數(shù)據(jù)關(guān)系。
(3)適用性。數(shù)據(jù)血緣分析技術(shù)和實現(xiàn)方式有多種,分析的廣度、深度和維度也有不同,因此,數(shù)據(jù)血緣分析需要在實現(xiàn)需求目標的前提下開展。
數(shù)據(jù)血緣可視化
血緣分析完成后,需要依靠可視化技術(shù)將分析結(jié)果清晰、直觀地傳遞給用戶,幫助客戶進行二次分析和具體應用。數(shù)據(jù)血緣圖譜是血緣分析中最常用的可視化方案。
業(yè)務需求的差異將決定血緣分析層次和血緣層級的差異,進而體現(xiàn)在數(shù)據(jù)血緣圖譜上。因此,數(shù)據(jù)血緣圖譜要基于數(shù)據(jù)血緣層級進行分層展現(xiàn),直觀地從應用層級、數(shù)據(jù)層級、字段層級呈現(xiàn)數(shù)據(jù)的血緣關(guān)系。
在具體應用中,受到業(yè)務需求差異和可采集分析的血緣信息影響,數(shù)據(jù)血緣圖譜的呈現(xiàn)方式可能存在差異,但其整體形態(tài)基本一致。以某個數(shù)據(jù)為核心節(jié)點,體現(xiàn)該節(jié)點的數(shù)據(jù)來源、數(shù)據(jù)去向、流轉(zhuǎn)路徑以及路徑中的處理方式和規(guī)則。因此,數(shù)據(jù)血緣可視化視圖中應至少包含以下元素:
(1)數(shù)據(jù)節(jié)點標記數(shù)據(jù)的具體信息,如所有者、層次信息、終端信息等,根據(jù)不同的血緣層次和業(yè)務需求,數(shù)據(jù)節(jié)點的信息有所差異。根據(jù)數(shù)據(jù)類型的不同,數(shù)據(jù)節(jié)點可分為主節(jié)點、數(shù)據(jù)流入節(jié)點和數(shù)據(jù)流出節(jié)點。
(2)數(shù)據(jù)血緣圖譜呈現(xiàn)數(shù)據(jù)血緣關(guān)系,而主節(jié)點作為數(shù)據(jù)血緣圖譜的核心,應是可方便切換的。
(3)數(shù)據(jù)流入節(jié)點是主節(jié)點的父節(jié)點,標記了主節(jié)點的數(shù)據(jù)來源,可能有多個或多層。
(4)數(shù)據(jù)流出節(jié)點是主節(jié)點的子節(jié)點,標記主節(jié)點的數(shù)據(jù)去向,也可能有多個或多層。在數(shù)據(jù)流出節(jié)點中有一種特殊的終端節(jié)點,數(shù)據(jù)到達終端節(jié)點后,將不再向別處流轉(zhuǎn)。
(5)流轉(zhuǎn)線路標記數(shù)據(jù)的流轉(zhuǎn)路徑,通常從流入節(jié)點匯聚到主節(jié)點,再從主節(jié)點擴散到流出節(jié)點。在流轉(zhuǎn)線路中,不僅可標記數(shù)據(jù)的流轉(zhuǎn)關(guān)系,還可以通過線路的粗細、長短等標記數(shù)據(jù)量級和更新頻率。
(6)處理節(jié)點標記數(shù)據(jù)流轉(zhuǎn)過程中的處理方式和規(guī)則,通常用于數(shù)據(jù)節(jié)點之間的流轉(zhuǎn)線路上。通過處理節(jié)點可以直觀地了解數(shù)據(jù)在兩個節(jié)點之間流轉(zhuǎn)時,利用何種規(guī)則進行了處理。
結(jié)語
隨著數(shù)據(jù)爆發(fā)式增長,數(shù)據(jù)之間的關(guān)系越發(fā)復雜,為數(shù)據(jù)安全治理工作帶來巨大挑戰(zhàn)。在這樣的背景下,具備可溯性、歸屬性等特征的數(shù)據(jù)血緣將在數(shù)據(jù)安全治理過程中發(fā)揮越來越大的作用。數(shù)據(jù)血緣應用需要依賴豐富的可分析數(shù)據(jù)、強大的數(shù)據(jù)采集能力、血緣分析能力和清晰直觀的血緣圖譜,貫穿數(shù)據(jù)全生命周期。數(shù)據(jù)血緣應用不僅要從技術(shù)層面重視,還需從數(shù)據(jù)安全治理的流程、制度、意識層面進行配合,才能產(chǎn)生預期的效果。
參考文獻:
[1]劉勇.一種計算機網(wǎng)絡關(guān)鍵節(jié)點識別方法[J].電子設(shè)計工程,2021,29(17):99-103,108.
[2]溫婷.網(wǎng)絡與數(shù)據(jù)安全產(chǎn)業(yè)迎高光時刻[N].上海證券報,2021-09-02(005).
[3]張思瑋.網(wǎng)絡安全發(fā)展迎來新拐點[N].中國科學報,2021-09-02(003).
[4]安全信任試點 助力車聯(lián)網(wǎng)產(chǎn)業(yè)健康發(fā)展[N].中國電子報,2021-08-31(006).
[5]劉勇.一種計算機網(wǎng)絡關(guān)鍵節(jié)點識別方法[J].電子設(shè)計工程,2021,29(17):99-103,108.
作者簡介:貢桑德慶(1989—),西藏拉薩人,現(xiàn)就職于西藏自治區(qū)黨委網(wǎng)信辦。