薛 巖
(中國電力工程顧問集團華東電力設(shè)計院有限公司,上海 200000)
在“數(shù)字中國”“新基建”等理念的指導(dǎo)下,數(shù)據(jù)應(yīng)用的廣度和深度都顯著增強。與此同時,5G 網(wǎng)絡(luò)的應(yīng)用,進一步保障了信息傳遞的時效性。在此次防疫工作中,“健康碼”作為“數(shù)據(jù)”與“物聯(lián)網(wǎng)”相結(jié)合的典型代表,體現(xiàn)了數(shù)據(jù)分析的輔助決策作用。
人們對數(shù)據(jù)信息關(guān)注的最終目的,是要突破技術(shù)上的局限性,在時間和空間上創(chuàng)造價值。在實踐過程中,作者發(fā)現(xiàn),想要快速有效地找尋精準信息,實屬不易。鑒于此種情況,本文通過分析既有數(shù)據(jù)理論及其局限性,提出“克蘇魯式數(shù)據(jù)結(jié)構(gòu)模型”理論,歸納其構(gòu)成特征,以求對數(shù)據(jù)信息的利用更為高效。
自“大數(shù)據(jù)”[1]一詞問世以來,其作者花費大量的篇幅闡述“大數(shù)據(jù)”的特征,簡言之,即為“混雜”且“相關(guān)”的“全體數(shù)據(jù)”。繼而,國際商業(yè)機器公司(International Business Machines Corporation,IBM)提出了受到業(yè)界認可的大數(shù)據(jù)“5V”特點。除此之外,其他關(guān)于數(shù)據(jù)的理論也層出不窮。以往大部分理論使用的模型,其數(shù)據(jù)來源明確、數(shù)據(jù)結(jié)構(gòu)清晰且分類工整,但是,此類理想化的數(shù)據(jù)模型在實際生產(chǎn)生活中難以復(fù)制。人們?nèi)缃袼幍沫h(huán)境信息模式逐步演化為全方位覆蓋型,其直接后果為:參與者需要花費大量時間精力,才可能獲取對自身有利的些許信息。
作者在此將龐大數(shù)據(jù)信息中模糊繁冗,且具有自身主觀能動性的數(shù)據(jù)構(gòu)成定義為“克蘇魯式數(shù)據(jù)結(jié)構(gòu)模型(Cthulhu Data Structure Model,簡稱CDSM)”。克蘇魯式數(shù)據(jù)結(jié)構(gòu)模型的構(gòu)成相較于既有(理想化的)數(shù)據(jù)理論模型而言,可稱之為“非典型”數(shù)據(jù)模型。作者之所以將該類數(shù)據(jù)結(jié)構(gòu)模型命名為“克蘇魯式”,主要從以下幾方面考慮其與數(shù)據(jù)的共通性:
(1)克蘇魯式數(shù)據(jù)結(jié)構(gòu)模型源于目前人們對其形象普適的認可度。
(2)克蘇魯其象征意義為“水”,在幾乎所有宗教文化中,“水”代表了能量,兼具創(chuàng)造與毀滅的特性。該特性如同數(shù)據(jù)一般——龐大、隱秘,載舟亦覆舟,參與者通常感到被其無形的力量包圍,卻又混沌其中,尋而不得。
(3)人們不能準確說明其為何物,卻又(在其傳遞過程中)受其無形的控制,被其左右,而該力量又起著主導(dǎo)或輔助決策的作用,使參與者陷入一種“集體無意識”狀態(tài)[3]。
(4)其觸手形象的粘滯感,與數(shù)據(jù)間交錯纏繞的關(guān)系相吻合。
(5)在錯綜復(fù)雜的數(shù)據(jù)信息中,每類信息卻又如同觸手般有著相對獨立的分類,觸手伸出的過程可看做是目標逐漸明確的過程,即取舍的過程。
(6)如同觸手具有再生功能一樣,數(shù)據(jù)同樣具有再生、更新與迭代的能力。
(7)可根據(jù)環(huán)境及時作出調(diào)整,以適應(yīng)不同的需求。具有強大的自適應(yīng)能力,可發(fā)揮其主觀能動的特性。
(8)具有分布式模塊化母題[4]的單元模式,其母題可通過并行或次生單元無限發(fā)展與循環(huán)。
上述分析內(nèi)容闡述了克蘇魯式數(shù)據(jù)結(jié)構(gòu)模型理論的依據(jù),概括了其主要特征,相較于既有數(shù)據(jù)模型理論而言,雖然在許多方面存在相似性,但CDSM 仍不乏自身特征屬性,例如,該模型對數(shù)據(jù)的分類并不純粹,自創(chuàng)建之初,其數(shù)據(jù)便具有生長、選擇性取舍等特點。
2.2.1 單體數(shù)據(jù)的非獨立性和數(shù)據(jù)族群的關(guān)聯(lián)性
此處“數(shù)據(jù)獨立”的概念與信息技術(shù)(Information Technology,IT)行業(yè)術(shù)語中數(shù)據(jù)庫構(gòu)建的“獨立”[5]概念有所不同。它既肯定單體數(shù)據(jù)自身的價值,也強調(diào)單體數(shù)據(jù)之間的關(guān)聯(lián)、聯(lián)動的特性;此外,單體數(shù)據(jù)以及由大量單體數(shù)據(jù)構(gòu)成的數(shù)據(jù)族群之間的關(guān)系,也會由于量變而產(chǎn)生質(zhì)變。單體數(shù)據(jù)在數(shù)據(jù)族群中充當著重要的角色。
2.2.2 數(shù)據(jù)與其載體間的虛實轉(zhuǎn)換特性
數(shù)據(jù)非實體,它需要通過一定的載體才能呈現(xiàn)給數(shù)據(jù)信息的參與者。數(shù)據(jù)相對于其載體而言,為“虛”,這與中國傳統(tǒng)的哲學(xué)思想不謀而合。在特定條件下,數(shù)據(jù)與其載體之間可以相互轉(zhuǎn)換。例如,現(xiàn)階段的建筑信息模型(Building Information Modeling,BIM)中,呈現(xiàn)給參與者的三維數(shù)字化模型為依附于其上的數(shù)據(jù)屬性信息的載體;而為建筑實體而言,該模型又轉(zhuǎn)化為數(shù)據(jù)。這一過程便是數(shù)據(jù)(虛)與載體(實)相互轉(zhuǎn)化的過程,是虛擬與現(xiàn)實的結(jié)合。數(shù)據(jù)與載體的虛實轉(zhuǎn)換,如圖1 所示。
圖1 數(shù)據(jù)與載體的虛實轉(zhuǎn)換
2.2.3 數(shù)據(jù)的相對準確性
數(shù)據(jù)在產(chǎn)生、傳遞與使用過程中受人為因素影響較大。參與者又受限于自身素質(zhì)、使用工具及現(xiàn)有技術(shù)條件等方面的影響,不可避免會產(chǎn)生誤差與錯誤。此外,數(shù)據(jù)也同時受載體穩(wěn)定性的影響,容易損壞或丟失。但是,數(shù)據(jù)本身并不存在錯誤一說。
2.2.4 數(shù)據(jù)的增減、更新迭代與規(guī)則的確定性
在生產(chǎn)實踐中,鮮有事物存在畢其功于一役的情況,在面對與數(shù)據(jù)信息相關(guān)的內(nèi)容時,更是如此。數(shù)據(jù)不斷的更新迭代,甚至?xí)霈F(xiàn)新的類型及其族群。在此過程中,涉及數(shù)據(jù)信息的增減與修改,一旦數(shù)據(jù)出現(xiàn)變動,在反饋不及時的情況下,則可能形成混亂的局面。為避免上述情況的發(fā)生,在這一體系中,規(guī)則的制定就顯得尤為重要。故在規(guī)則既定的情況下,數(shù)據(jù)主動或被動產(chǎn)生的變化,實為良性的螺旋上升前進的過程。
2.2.5 數(shù)據(jù)傳遞的多向性
數(shù)據(jù)的可傳遞性即為數(shù)據(jù)的流通性,很大程度上依賴于參與者對數(shù)據(jù)的分類與標記[6]。標記,主要是考慮數(shù)據(jù)在流通過程中對其可追蹤的要求。參與者對流通數(shù)據(jù)的“實時性”“吞吐量”[7]提出了較高的要求,且其側(cè)重點在于“分析流過系統(tǒng)的數(shù)據(jù)”[8],數(shù)據(jù)的價值便在于流通。一個階段的完成,數(shù)據(jù)使命并未結(jié)束,而應(yīng)高效地將已有數(shù)據(jù)運行至下游階段。此外,數(shù)據(jù)在傳遞的過程中具有多向性,并不僅是自上而下的單一方向。
2.2.6 數(shù)據(jù)需求的多樣性與數(shù)據(jù)取舍的目的性
在目前的實施階段中,對于數(shù)據(jù)信息的選擇、歸類仍處于一個摸索階段,在面對龐大的數(shù)據(jù)信息時,參與者在“大象無形”的狀態(tài)下,甚至?xí)l(fā)出“物聯(lián)網(wǎng)沒有數(shù)據(jù)”的感慨。正如全球都在“抖音(TikTok)”進行時,有多少內(nèi)容是受眾方真正需要的,而不是在大量的信息中迷失。為保證上述數(shù)據(jù)流通的順利進行,其關(guān)鍵便是找尋與篩選“優(yōu)質(zhì)數(shù)據(jù)”,往往需要反復(fù)多輪地進行數(shù)據(jù)篩選,從而最終完成對數(shù)據(jù)的取舍工作。
以下便對數(shù)據(jù)取舍構(gòu)成進行簡要剖析:
(1)數(shù)據(jù)的選擇。此過程在既定規(guī)則下對數(shù)據(jù)信息進行“類”的劃分。該過程表現(xiàn)為不同“觸手”的生長過程:在目標未確定時,混沌的狀態(tài)蘊含各種可能。有目的、有差別地將所接受信息進行宏觀的“類”的甄別篩選,分類與目標逐步清晰明朗。該過程為針對數(shù)據(jù)取舍進行的第一輪選擇。
(2)數(shù)據(jù)的分離與剝離。較上一過程而言,該階段對于數(shù)據(jù)的篩選更為謹慎,為第二輪選擇。在數(shù)據(jù)整理的過程中,“刪除”[9]是理想化的操作狀態(tài)。但在實踐過程中,往往通過“分離”與“剝離”對數(shù)據(jù)進行取舍,分離比剝離更為便宜?!胺蛛x”適用于數(shù)據(jù)對象之間關(guān)聯(lián)性本就不大的情況。分離后,數(shù)據(jù)間牽扯的可能性較小,甚至可以達到相對獨立的狀態(tài)。但對于數(shù)據(jù)的“剝離”,則常常讓操作者陷入難以取舍的境地,究其原因,主要有以下幾點:
a.在實施剝離的過程中,針對數(shù)據(jù)取舍的規(guī)則尚未完全明確,受人為主觀因素影響大,根據(jù)參與者的不同而產(chǎn)生偏差。
b.數(shù)據(jù)的剝離過程會產(chǎn)生一種粘滯感,數(shù)據(jù)間常常彼此相容,羈絆不清,這是由于數(shù)據(jù)本身屬性(關(guān)聯(lián)性)決定的。
數(shù)據(jù)取舍的實質(zhì)就是對既有數(shù)據(jù)信息進行精簡,是減法過程。相對于加法而言,減法的邏輯思維方式與過程,更為嚴謹與審慎。
(3)數(shù)據(jù)取舍目的與評判標準。作者認為,在目前的數(shù)據(jù)整理工作中,受多方(技術(shù)水平、人力、財力等)因素的限制,參與者首先要定義數(shù)據(jù)與數(shù)據(jù)族群的用途,并在整個過程中不斷完善與調(diào)整,使目標逐步清晰明確。只有在這一思路的指導(dǎo)下,數(shù)據(jù)的甄別篩選工作才能更為有效的實施。
2.2.7 數(shù)據(jù)結(jié)構(gòu)的模塊化母題
數(shù)據(jù)結(jié)構(gòu)的母題,為數(shù)據(jù)處理過程提供模塊支持,如“太極”生出的“兩儀”,或計算機二進制代碼“0”“1”一般,可生出無限可能。與其將數(shù)據(jù)進行模塊化母題的解構(gòu)理解為分類的過程,不如說這是一個思路整理、數(shù)據(jù)分類的過程。這一過程中,將CDSM 進行類的分割與項的比較,在橫向與縱向方面均有動作。將既有數(shù)據(jù)在多個維度進行分布式的劃分[10-12],在數(shù)據(jù)整理,或進行數(shù)據(jù)并行搜索時,均可為使用者提供便利。
根據(jù)上述克蘇魯式數(shù)據(jù)結(jié)構(gòu)的特征,歸納總結(jié)建立如圖2 所示的結(jié)構(gòu)模型。
圖2 克蘇魯式數(shù)據(jù)結(jié)構(gòu)模型
從其結(jié)構(gòu)模型圖中可以看出,數(shù)據(jù)及數(shù)據(jù)族群是整個模型的核心,確定目標以進行數(shù)據(jù)分類,將已歸類數(shù)據(jù)進行處理,在此過程中往往伴隨數(shù)據(jù)的更迭等內(nèi)容,這一過程完成后,便可將處理好的數(shù)據(jù)應(yīng)用于后續(xù)階段。
在面對龐大數(shù)據(jù)信息時,采用克蘇魯式數(shù)據(jù)結(jié)構(gòu)模型,為數(shù)據(jù)整理提供了一種新的思維方式與思考方法。參與者有意對數(shù)據(jù)信息進行多次逐輪的取舍,最終將分類條理、精簡明確的數(shù)據(jù)信息流轉(zhuǎn)[13]應(yīng)用于后續(xù)工作中,提高生產(chǎn)效率。加之目前倡導(dǎo)的“數(shù)字孿生(Digital Twin)”[14]等概念,使得虛擬與現(xiàn)實的界限更為模糊。在這種情況下,CDSM 不失為一種有效的方法。