摘? 要:數(shù)據(jù)密集型科研范式下,科研和創(chuàng)新越來越依賴于海量的科學(xué)數(shù)據(jù)。文章首先分析了科學(xué)數(shù)據(jù)共享目前遇到的困境,探討了區(qū)塊鏈應(yīng)用于科學(xué)數(shù)據(jù)共享的優(yōu)勢和適用性,其次從共識機制、區(qū)塊結(jié)構(gòu)和智能合約三個方面進(jìn)行了模型設(shè)計,提出了基于區(qū)塊鏈的科學(xué)數(shù)據(jù)共享總體模型,最后,指出區(qū)塊鏈技術(shù)在科學(xué)數(shù)據(jù)共享中的應(yīng)用還存在諸多問題和挑戰(zhàn)。
關(guān)鍵詞:區(qū)塊鏈;科學(xué)數(shù)據(jù)共享;數(shù)據(jù)模型
中圖分類號:TP311.13;R-05? ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)21-0156-03
Abstract:Under the paradigm of data-intensive scientific research,scientific research and innovation increasingly rely on massive scientific data. This paper first analyzes the current dilemma of scientific data sharing,discusses the advantages and applicability of block chain in scientific data sharing,then designs the model from three aspects of consensus mechanism,block structure and intelligent contract,and proposes the overall model of scientific data sharing based on block chain. Finally,it points out that there are still many problems and challenges in the application of blockchain technology in scientific data sharing.
Keywords:blockchain;scientific data sharing;data model
0? 引? 言
在數(shù)據(jù)密集型科研范式下,科學(xué)研究和科技創(chuàng)新越來越依賴于對海量數(shù)據(jù)的管理、分析和再利用,數(shù)據(jù)即服務(wù)(DaaS)理念下的科學(xué)數(shù)據(jù)生態(tài)系統(tǒng)正在優(yōu)化發(fā)展。然而參與主體的數(shù)據(jù)共享意愿、個人隱私保護(hù)、數(shù)據(jù)產(chǎn)權(quán)歸屬等問題嚴(yán)重制約了科學(xué)數(shù)據(jù)共享生態(tài)環(huán)境的可持續(xù)發(fā)展。在大數(shù)據(jù)時代,科研人員與數(shù)據(jù)發(fā)生的一切關(guān)系中,哪怕是一個極其細(xì)小的動作,都會產(chǎn)生一系列電子軌跡。區(qū)塊鏈技術(shù)可以創(chuàng)造出無法篡改的全生命周期數(shù)據(jù)軌跡,并且能夠安全地記錄數(shù)據(jù)從產(chǎn)生到出版過程中的所有節(jié)點,由此可改善科學(xué)數(shù)據(jù)共享中一系列問題。因此,區(qū)塊鏈對于科學(xué)數(shù)據(jù)共享模式創(chuàng)新具有重要的意義。
1? 科學(xué)數(shù)據(jù)共享困境分析
1.1? 科學(xué)數(shù)據(jù)共享阻力分析
從諸多研究和調(diào)查結(jié)果來看,科學(xué)數(shù)據(jù)共享的阻力主要來自于以下幾個方面:(1)數(shù)據(jù)生產(chǎn)者的回報如何得以保證的問題。即如何精確計算每個生產(chǎn)者的貢獻(xiàn)并給予其相應(yīng)的回報;(2)時間、人力和資金成本問題。科學(xué)數(shù)據(jù)的生產(chǎn)不同于一般的數(shù)據(jù)生產(chǎn),每一項數(shù)據(jù)的產(chǎn)出需要耗費大量的人力物力和時間,成本越高共享門檻就越高;(3)數(shù)據(jù)共享的發(fā)布和再利用等過程中涉及的法律問題。科學(xué)數(shù)據(jù)是在科學(xué)研究過程中產(chǎn)生的,通常并未嚴(yán)格確權(quán)和出版,往往容易引起知識產(chǎn)權(quán)等糾紛;(4)保密問題。即涉及的用戶隱私和保密問題,及泄密事后追溯問題等;(5)對數(shù)據(jù)的錯用、誤用和錯誤詮釋帶來的影響以及對數(shù)據(jù)原始生產(chǎn)者和使用者的潛在危害。
通過區(qū)塊鏈分布式賬本發(fā)布的科學(xué)數(shù)據(jù),從數(shù)據(jù)的產(chǎn)生、更新和使用都將被廣播到每一個節(jié)點,每個人對于數(shù)據(jù)的貢獻(xiàn)和使用都是透明可追溯的。任何人都可以知道數(shù)據(jù)是從哪里來、如何更新、如何使用以及利益如何分配、權(quán)利和義務(wù)方是誰,從而可以制定完善的保障和激勵規(guī)則,促進(jìn)科學(xué)數(shù)據(jù)的共享。
1.2? 科學(xué)數(shù)據(jù)使用問題分析
科學(xué)數(shù)據(jù)在共享之后的使用過程中,存在的主要問題包括:(1)結(jié)果重現(xiàn)性差??茖W(xué)數(shù)據(jù)可能因為數(shù)據(jù)不完整、技術(shù)太復(fù)雜、數(shù)據(jù)錯用誤用等原因,導(dǎo)致重現(xiàn)原來的研究結(jié)果困難重重;(2)傾向于發(fā)布正面結(jié)果??茖W(xué)研究中錯誤方法和結(jié)果具有很高的價值,可以讓后來者避免無效重復(fù)工作,提高研究效率。但是錯誤的科學(xué)數(shù)據(jù)往往會被丟棄;(3)學(xué)術(shù)信用評價難度大。在科學(xué)數(shù)據(jù)共享過程中并不存在完全可信的中介,由于科學(xué)數(shù)據(jù)數(shù)量巨大,缺少統(tǒng)一評價體系,信用評價難度大且權(quán)威性不足[1]。以上問題的存在,嚴(yán)重影響了科學(xué)數(shù)據(jù)共享的有效利用。
區(qū)塊鏈允許去中心化的、持續(xù)版本的數(shù)據(jù),這樣就可以創(chuàng)建一個共享的基礎(chǔ)架構(gòu),在其中存儲每一筆交易。在區(qū)塊鏈上工作,意味著無論何時何地,研究人員以任何方式在任何階段創(chuàng)建的內(nèi)容和交易,無論是正面還是負(fù)面的結(jié)果,都將存儲在一個分布式平臺所有節(jié)點中,從而保證了數(shù)據(jù)的完整性。通過區(qū)塊鏈的不可篡改、安全可信、集體維護(hù)等特性,可以讓所有節(jié)點的研究人員參與到對數(shù)據(jù)正確性的審查和驗證當(dāng)中,從而保證了數(shù)據(jù)的正確性。通過區(qū)塊鏈技術(shù),科學(xué)數(shù)據(jù)的學(xué)術(shù)信用評價維度將變得多樣化,由于評價過程的可追溯性,評價者必然會更加嚴(yán)謹(jǐn)和客觀。
2? 科學(xué)數(shù)據(jù)共享應(yīng)用區(qū)塊鏈的適用性分析
首先,具有結(jié)構(gòu)適用性??茖W(xué)數(shù)據(jù)共享的本質(zhì)是協(xié)作創(chuàng)建、修改、使用和共享大量動態(tài)信息和數(shù)據(jù),需要建立分布式共享數(shù)據(jù)庫。區(qū)塊鏈作為創(chuàng)新性的去中心化基礎(chǔ)架構(gòu)與分布式計算范式,其分布式賬本數(shù)據(jù)模型本質(zhì)上就是分布式共享數(shù)據(jù)庫。其次,具有對象適用性??茖W(xué)數(shù)據(jù)共享需要眾多參與對象的協(xié)調(diào)與支撐,共享行為主要發(fā)生在地位相對平等的主體之間。區(qū)塊鏈通常采用對等式網(wǎng)絡(luò)組織分布式、自治性節(jié)點參與數(shù)據(jù)驗證,各節(jié)點地位對等且以扁平式拓?fù)浣Y(jié)構(gòu)相互聯(lián)通。因此,科學(xué)數(shù)據(jù)共享的對象特征與區(qū)塊鏈去中心化、自治性等特點高度契合。最后,具有功能適用性。區(qū)塊鏈技術(shù)能夠有效解決分布式系統(tǒng)交互過程中普遍面臨的難題——拜占庭將軍問題[2],即在缺失可信任第三方機構(gòu)情形下,分布式節(jié)點怎樣達(dá)成共識、建立互信。區(qū)塊鏈的這個功能特點與促進(jìn)科學(xué)數(shù)據(jù)共享驅(qū)動機制完善、共享意愿達(dá)成的功能需求相匹配。
3? 科學(xué)數(shù)據(jù)管理區(qū)塊鏈模型構(gòu)建
區(qū)塊鏈包括公有鏈、聯(lián)盟鏈和私有鏈,三者使用范圍有所不同。公有鏈各個節(jié)點可以自由加入和退出網(wǎng)絡(luò),并參加鏈上數(shù)據(jù)的讀寫,讀寫時以扁平的拓?fù)浣Y(jié)構(gòu)互聯(lián)互通,網(wǎng)絡(luò)中不存在任何中心化的服務(wù)端節(jié)點;聯(lián)盟鏈各個節(jié)點通常有與之對應(yīng)的實體機構(gòu)組織,通過授權(quán)后才能加入與退出網(wǎng)絡(luò),各機構(gòu)組織組成利益相關(guān)的聯(lián)盟,共同維護(hù)區(qū)塊鏈的健康運轉(zhuǎn);私有鏈各個節(jié)點的寫入權(quán)限收歸內(nèi)部控制,而讀取權(quán)限可視需求有選擇性地對外開放[3]。通過以上描述可以發(fā)現(xiàn),具有對應(yīng)實體機構(gòu)組織的、有限規(guī)模的科學(xué)數(shù)據(jù)共享比較適合采用聯(lián)盟鏈。
3.1? 共識機制
公有鏈的運行模式?jīng)Q定了其必須需要代幣才能保證共識機制的有效性??茖W(xué)數(shù)據(jù)共享聯(lián)盟鏈有具體資產(chǎn)(科學(xué)數(shù)據(jù))上鏈,可以使用Token對資產(chǎn)標(biāo)記,不需要發(fā)行代幣。如果需要對資產(chǎn)進(jìn)行定價,該Token根據(jù)科學(xué)數(shù)據(jù)真實價值可以轉(zhuǎn)換成代幣。為保證海量科學(xué)數(shù)據(jù)的共享效率,需要有足夠快的出塊速度,因此科學(xué)數(shù)據(jù)共享聯(lián)盟鏈采用BFT-DPoS(帶有拜占庭容錯的委托股權(quán)證明)共識機制進(jìn)行輪流記賬[4],類似于董事會運作模式。董事會成員數(shù)量有限,由大家選舉產(chǎn)生,被選中的董事會成員可以行使記賬權(quán)利。具體做法是全部節(jié)點周期性地投票選舉出可信的N個超級節(jié)點,然后由他們隨機或輪流生產(chǎn)區(qū)塊(記賬),這樣就避免了POW算法的耗時問題,相當(dāng)于提前建立新人。同時,這些超級節(jié)點也負(fù)責(zé)對新區(qū)塊進(jìn)行確認(rèn)投票,收到的確認(rèn)數(shù)一旦超過設(shè)定閾值,即表示達(dá)成共識。
3.2? 區(qū)塊結(jié)構(gòu)
區(qū)塊鏈數(shù)據(jù)模型分為交易模型和賬戶模型。交易模型,即以數(shù)字貨幣為基礎(chǔ)的區(qū)塊鏈中的交易,通常就是轉(zhuǎn)賬。比特幣就是典型交易模型,其數(shù)據(jù)結(jié)構(gòu)如表1所示,每個區(qū)塊由區(qū)塊頭和區(qū)塊體兩部分組成,區(qū)塊體中存放了自前一區(qū)塊之后發(fā)生的所有交易;區(qū)塊頭中存放了前塊哈希、隨機數(shù)、Merkle根等。交易模型雖可方便地驗證交易,但卻無法快速查詢賬戶狀態(tài)。參考以太坊、Hyperledger Fabric等采用的賬戶模型[5,6],本文設(shè)計的科學(xué)數(shù)據(jù)共享賬戶模型中,區(qū)塊頭除含有交易Merkle根外,還含有針對賬戶狀態(tài)數(shù)據(jù)的狀態(tài)Merkle根、針對交易執(zhí)行日志的日志Merkle根。根據(jù)BFT-DPoS共識機制,區(qū)塊頭還含有生產(chǎn)者、確認(rèn)數(shù)、下一個生產(chǎn)者三個字段。生產(chǎn)者就是超級節(jié)點,負(fù)責(zé)對每一筆科研數(shù)據(jù)共享交易及科研用戶狀態(tài)變化進(jìn)行記賬,即生產(chǎn)新區(qū)塊,具體見表1。
3.3? 智能合約
區(qū)塊鏈本質(zhì)上是一個分布式數(shù)據(jù)庫,通過“交易”來進(jìn)行數(shù)據(jù)更改。智能合約其實是一段被存儲在區(qū)塊鏈上的代碼,由區(qū)塊鏈預(yù)置條件觸發(fā),它從區(qū)塊鏈數(shù)據(jù)庫讀取或?qū)懭霐?shù)據(jù),因此可以類比地看作是區(qū)塊鏈數(shù)據(jù)庫里的“存儲過程”。因為區(qū)塊鏈?zhǔn)欠植际降?,在科學(xué)數(shù)據(jù)共享場景下,智能合約受到如下限制:(1)無法隱藏機密數(shù)據(jù)。因為每個節(jié)點都保存著一份完整區(qū)塊鏈數(shù)據(jù)庫副本,通過技術(shù)手段不難獲取里面的機密數(shù)據(jù)。此外,智能合約代碼對所有節(jié)點可見,導(dǎo)致包括安全漏洞在內(nèi)的所有缺陷都可見;(2)智能合約不適合通過外部服務(wù)觸發(fā)。因為科學(xué)數(shù)據(jù)共享區(qū)塊鏈為了達(dá)成共識,參與驗證的每個節(jié)點都需要讀取至少一次外部服務(wù),造成對外部服務(wù)的反復(fù)讀取,因網(wǎng)絡(luò)故障、延時和攻擊等因素,使其可靠性下降。
圖1? 科學(xué)數(shù)據(jù)共享智能合約運行機制
考慮到以上限制,科學(xué)數(shù)據(jù)共享智能合約將被限制在區(qū)塊鏈數(shù)據(jù)庫中,只處理與“交易”有關(guān)的事務(wù),處理過程中禁止讀取外部服務(wù),但處理結(jié)果將提供給外部服務(wù)讀取。此外,科學(xué)數(shù)據(jù)被獲取之后的信息因不屬于“交易”信息,且可能會揭示科研機構(gòu)內(nèi)部機密,將不再由智能合約進(jìn)行處理,而是由外部服務(wù)進(jìn)行處理??茖W(xué)數(shù)據(jù)共享智能合約整體運行機制具體如圖1所示。
基于區(qū)塊鏈的科學(xué)數(shù)據(jù)共享模型總體設(shè)計思路是:本模型采用聯(lián)盟鏈,以BFT-DPoS(帶有拜占庭容錯的委托股權(quán)證明)作為共識算法,由超級節(jié)點(生產(chǎn)者)負(fù)責(zé)記賬。區(qū)塊頭包括交易、狀態(tài)和日志三種Merkle根。考慮到科學(xué)數(shù)據(jù)的海量性,區(qū)塊鏈只存儲其信息索引,該索引可以是透明的,因為最終獲取實際數(shù)據(jù)的環(huán)節(jié)仍將通過區(qū)塊鏈驗證其行為的合法性。智能合約以策略屬性作為預(yù)置觸發(fā)條件的基礎(chǔ),包括資源、事務(wù)和狀態(tài)三個合約集合。智能合約只處理與“交易”有關(guān)的事務(wù),且不能讀取外部服務(wù)。外部服務(wù)通過讀取區(qū)塊鏈(含智能合約)上的數(shù)據(jù),完成相應(yīng)的事務(wù)邏輯處理,例如:獲取某一科學(xué)數(shù)據(jù),包括三個步驟,即:(1)取得其信息索引;(2)驗證訪問合法性;(3)下載到本地。前兩個步驟都需要外部服務(wù)讀取區(qū)塊鏈才能完成相應(yīng)處理。科學(xué)數(shù)據(jù)共享模型具體如圖2所示。
4? 結(jié)? 論
區(qū)塊鏈最初主要應(yīng)用于金融領(lǐng)域,然后逐漸向物聯(lián)網(wǎng)、能源、法律、知識產(chǎn)權(quán)保護(hù)等其他領(lǐng)域迅速擴展[7]。信息資源管理領(lǐng)域區(qū)塊鏈的使用尚處于起步階段?;趨^(qū)塊鏈的科學(xué)數(shù)據(jù)共享具有獨特優(yōu)勢的同時,也存在著一些問題,例如海量的科學(xué)數(shù)據(jù),基本不可能直接存儲在區(qū)塊鏈上,而只能對其信息索引進(jìn)行存儲。這種方式會產(chǎn)生對云存儲的依賴,削弱去中心化效果。另外,由于區(qū)塊鏈的不可更改特性,記錄在區(qū)塊的數(shù)據(jù)不能刪除也難以屏蔽,這給信息監(jiān)管帶來很大困難??傊瑓^(qū)塊鏈技術(shù)在科學(xué)數(shù)據(jù)共享中的應(yīng)用有許多不可替代的優(yōu)勢,但也還存在諸多問題仍需解決和改進(jìn)。
參考文獻(xiàn):
[1] 趙斌.在區(qū)塊鏈上進(jìn)行科學(xué)研究和數(shù)據(jù)共享:理念與舉措 [EB/OL].(2018-05-16). http://blog.sciencenet.cn/blog-502444-1114310.html.
[2] 范捷,易樂天,舒繼武.拜占庭系統(tǒng)技術(shù)研究綜述 [J].軟件學(xué)報,2013,24(6):1346-1360.
[3] 邵奇峰,金澈清,張召,等.區(qū)塊鏈技術(shù):架構(gòu)及進(jìn)展 [J].計算機學(xué)報,2018,41(5):969-988.
[4] 區(qū)塊鏈斜杠青年.EOS的BFT-DPOS共識機制的進(jìn)化過程及背后邏輯 [EB/OL].(2018-05-18).https://blog.csdn.net/itleaks/article/details/80359033.
[5] Ethereum. Ethereum for Beginners [EB/OL].[2019-08-19]. https://ethereum.org/beginners/.
[6] Hyperledger. About Hyperledger [EB/OL].[2019-09-12]. https://www.hyperledger.org/about.
[7] 何蒲,于戈,張巖峰,等.區(qū)塊鏈技術(shù)與應(yīng)用前瞻綜述 [J].計算機科學(xué),2017,44(4):1-7+15.
作者簡介:王顯斌(1983.10-),男,漢族,湖南湘西人,圖書館館員,畢業(yè)于華中師范大學(xué),碩士,研究方向:數(shù)字圖書館與數(shù)據(jù)挖掘。