羅棋 閔超 顏嘉麒等
DOI:10.3969/j.issn.1008-0821.2021.09.016
[中圖分類號]TP311 [文獻標識碼]A [文章編號]1008-0821(2021)09-0157-10
自2008年中本聰(Satoshi Nakamoto)發(fā)表《Bitc-oin:A Peer-to-Peer Electronic Cash System》以來,各界研究人員對其底層核心技術(shù)——“區(qū)塊鏈”的探索和研究熱情水漲船高,由于其“可追溯”“防篡改”等特性,它在其他領(lǐng)域的重要程度日益凸顯。但在這種備受各界學(xué)者關(guān)注的情況下,王江等指出,雖然我國在區(qū)塊鏈研究方面生產(chǎn)力占據(jù)世界第一,然而最具有影響力的區(qū)塊鏈研究的來源期刊、論文、作者等都來自于國外,因此,把握國際學(xué)者對于該領(lǐng)域的研究現(xiàn)狀及熱點主題的演化,有利于我國的學(xué)者發(fā)現(xiàn)研究新趨勢,學(xué)習(xí)和借鑒有益成果,為我國的“區(qū)塊鏈”研究提供參考。
1區(qū)塊鏈主題的相關(guān)科學(xué)計量研究及其不足
近些年來,學(xué)界有許多關(guān)于區(qū)塊鏈研究現(xiàn)狀、研究熱點以及主題演化等方面的研究。Firdaus A等以Scopus數(shù)據(jù)庫收錄的2013—2018年的區(qū)塊鏈相關(guān)文章為研究對象,運用文獻計量的方法進行分析,發(fā)現(xiàn)最活躍的國家是美國,其次是中國和德國。Dabbagh M等分析了Web of Science數(shù)據(jù)庫中2013—2018年的相關(guān)論文,指出了其主要學(xué)科分布包括:計算機科學(xué)、工程學(xué)、電信學(xué)、商學(xué)、經(jīng)濟學(xué)等。王發(fā)明等選取“CNKI期刊庫”2015—2017年5月的論文,使用Cite Space可視化工具,從關(guān)鍵詞、作者共現(xiàn)等角度,分析了我國區(qū)塊鏈的研究熱點,該研究認為我國區(qū)塊鏈領(lǐng)域尚處于探索期,并且將熱點主題概括為基礎(chǔ)研究和應(yīng)用研究兩個方面。汪園等也運用Cite Space可視化工具,對2015—2017年的相關(guān)文獻進行了分析,從文獻類型(科普評論類、探索研究類)、期刊分布、學(xué)科分布等方面對區(qū)塊鏈相關(guān)研究進行描述總結(jié)。花敏等通過對2015—2019年CNKI數(shù)據(jù)庫和WOS數(shù)據(jù)庫相關(guān)文獻的對比分析,從發(fā)文量、高產(chǎn)機構(gòu)等多個角度展開,該研究認為中國和美國是兩個開展區(qū)塊領(lǐng)域研究的主力國家,2015—2019年,我國在區(qū)塊鏈領(lǐng)域發(fā)表的外文文章的數(shù)量始終高居榜首并迅猛增長。但是正如王江等的發(fā)現(xiàn),最具有影響力的區(qū)塊鏈研究的來源期刊、論文、作者等都來自于國外,所以本文以國際區(qū)塊鏈研究為研究對象,分析其熱點主題演化情況,以期為我國學(xué)者提供借鑒參考。
當(dāng)前研究大多以科學(xué)數(shù)據(jù)庫中的文獻及引文數(shù)據(jù)為研究對象,特別是關(guān)鍵詞,使用文獻計量的方法及工具,特別是關(guān)鍵詞共現(xiàn)分析,從作者、期刊及機構(gòu)等角度分析區(qū)塊鏈研究熱點。但是題錄數(shù)據(jù)中,摘要包含的信息沒有得到有效的利用,僅僅靠關(guān)鍵詞只能反映文章的大致方向,難以挖掘其隱含的語義信息。
LDA(Latent Dirichlet Allocation)主題模型能夠很好地解決這一問題,通過抽取摘要中隱含的主題信息,為后續(xù)研究提供研究主題分布上的參考。Chen H等運用LDA模型對截至2015年發(fā)表在MIS Quarterly等3本信息系統(tǒng)領(lǐng)域頂級刊物上的文章進行了主題建模,深入分析了信息系統(tǒng)領(lǐng)域的研究問題,以及各研究問題間的關(guān)聯(lián)。趙紫鵑等運用LDA模型對“第十三屆全國復(fù)雜網(wǎng)絡(luò)大會”的會議摘要文本進行了文本挖掘,得到了10類研究主題。李躍艷等選取SIGIR會議論文為研究對象,使用LDA模型,分析了近10年信息檢索領(lǐng)域的研究熱點與演化趨勢??梢?,使用LDA主題模型探究某具體領(lǐng)域的熱點主題可以從更細的粒度分析推斷文章內(nèi)容,挖掘隱含的語義信息,得到更加細致的結(jié)論,因此,本研究采用LDA主題模型來挖掘國際區(qū)塊鏈領(lǐng)域研究的熱點主題,并分析其隨時間演化情況,以期為我國學(xué)者把握研究前沿和熱點提供參考。
2模型與方法
本研究以Web of Science核心合集SCI-EX-PANDED和SSCI中區(qū)塊鏈相關(guān)的文獻數(shù)據(jù)作為數(shù)據(jù)來源,根據(jù)研究目的對其進行清洗,保留對分析有用的字段,使用LDA主題模型對文獻的研究內(nèi)容(標題、摘要、關(guān)鍵詞)進行主題挖掘,計算困惑度以確定最優(yōu)主題數(shù),根據(jù)高概率的詞對主題進行標注;并計算主題強度,劃分出熱點主題,并按時間窗口進行離散化處理,分析熱點主題隨時間的演化情況。本研究整體框架如圖1所示。
2.1 LDA主題模型
挖掘科研文獻主題的方法有很多,傳統(tǒng)的詞頻分析或者共詞分析的方法也可達到揭示科研文獻數(shù)據(jù)集的研究主題的目的,但是關(guān)鍵詞之間可能存在“共生現(xiàn)象”,可能有多個高頻的關(guān)鍵詞同屬于一個主題,導(dǎo)致詞頻較低的關(guān)鍵詞所屬的主題難以發(fā)掘。并且傳統(tǒng)的方法以關(guān)鍵詞為研究對象,本身損失了很多語義信息(例如摘要中包含的信息),只能大致反映文章的方向,難以挖掘其隱含的語義信息,分析文本的規(guī)模也有限。而主題模型的出現(xiàn),較好地解決了這一問題,不僅能夠處理大規(guī)模的文本數(shù)據(jù),還能挖掘出語料中潛在的語義信息,因此,本文采用LDA主題模型來挖掘國際區(qū)塊鏈研究的熱點主題。
(Latent Dirichlet Allocation,LDA)潛在狄利克雷分配模型,是一種常見的主題模型,2003年由Blei D M等共同提出??梢哉J為LDA是PLSA(Probabilistic Latent Semantic Analysis,概率潛在語義分析)的拓展,LDA使用了先驗分布,克服了學(xué)習(xí)過程中的過擬合問題。該模型假設(shè):①主題由詞的多項分布表示;②文檔由主題的多項分布表示;③主題一詞分布和文檔—主題分布,兩者的先驗分布都是狄利克雷分布。借由狄利克雷分布是多項分布的共軛先驗分布這一特性,可以通過觀測的單詞序列,推斷出文檔—主題分布和主題—詞分布,挖掘出隱含的主題層,其生成過程如圖2所示。
LDA模型將代表文本的詞頻向量(文檔—詞頻矩陣)作為輸入,通過迭代輸出推斷出的文檔—主題分布、主題—詞分布,即每個文檔由各個主題生成的概率、每個主題包含各個詞的概率。圖2中的節(jié)點表示隨機變量:實心節(jié)點表示觀測變量,空心節(jié)點表示隱變量;有向邊表示概率依存的關(guān)系;矩形板塊表示重復(fù),板塊內(nèi)數(shù)字表示重復(fù)次數(shù)。圖2中使用的符號及其含義如表1所示。
LDA主題模型的參數(shù)估計過程其實就是根據(jù)觀測變量的取值估計隱變量的值,其參數(shù)估計的方法主要有3種,分別是:吉布斯采樣算法(Gibbs Sampling)、變分推斷算法(Variational Bayesian In-ference)和最大期望算法(Expectation Maximiza-tion),張健偉通過實驗發(fā)現(xiàn),期望最大算法在某些關(guān)鍵的預(yù)測能力指標上(例如:預(yù)測混淆度)優(yōu)于其他兩種算法,并且可以在較短的時間內(nèi)收斂,因此本研究采用期望最大算法來進行LDA主題模型的參數(shù)估計。
2.2熱點主題挖掘及演化分析
熱點主題的挖掘,即判斷某主題是否為熱點主題有一個主要依據(jù)的指標——主題強度。該指標專用于描述一個主題的熱門程度,另一關(guān)鍵指標是主題強度閾值,如果某主題強度高于閾值則認為該主題為熱門主題,反之則非熱門主題。關(guān)于主題強度的計算,孫孟孟在其學(xué)位論文中進行了詳細的討論。主要有以下3種方法:①基于主題支持文檔數(shù)量;②基于語料庫中主題概率;③基于文本主題顯著性。3種計算方法各有特點,比較常用的是第2種基于語料庫中主題概率的方法,孫孟孟只給出了偽碼,吳查科等將其提煉,具體公式為:
第一階段,為了得到較為可靠的數(shù)據(jù),本研究選擇了Web of Science核心合集中的SCI-EXPAND-ED和SSCI作為數(shù)據(jù)來源,選擇其中的“主題”字段,檢索式為TS=“Blockchain$”or TS=“Block Chain$”,時間段是2008—2020年,文獻類型為Article和Review。檢索策略制定的原因如下:①時間:之所以選擇2008年作為起始時間,是因為區(qū)塊鏈的概念于2008年中本聰(Satoshi Nakamoto)的《Bitcoin:A Peer-to-Peer Electronic Cash Sys-tem》(常譯作“比特幣白皮書”)一文中首次提出,之前并未有這個詞匯;②檢索式:中本聰提出“區(qū)塊鏈”時稱之為“Chain of Blocks”,經(jīng)中文翻譯為“區(qū)塊鏈”,后學(xué)者多用“Blockchain”作為其英文稱謂,但是也有部分學(xué)者使用“BlockChain”,結(jié)合各自的單復(fù)數(shù)形式,所以采用此檢索式,共收集到3675篇文獻(檢索時間為2021年1月3日)。
第二階段,通過所屬學(xué)科的過濾,和對文獻的摘要閱讀,分析其是否與“區(qū)塊鏈”主題相關(guān),比如:學(xué)科類別為“PHYSICS PARTICLES FIELDS”(物理粒子場)的文章《A Muhipoint Conformal Block Chain in d Dimensions》經(jīng)過對其摘要的閱讀,與“區(qū)塊鏈”并無關(guān)聯(lián),便將此篇文獻剔除。用相同方法過濾了與“區(qū)塊鏈”主題無關(guān)的文獻,經(jīng)過初步篩選得到3522篇文獻;接著將年份和國別等關(guān)鍵字段缺失的文獻剔除,得到最終文獻集3211篇,下面將使用此文獻數(shù)據(jù)集進行進一步的主題挖掘與分析。
3.2研究主題分析
欲深入探究國際區(qū)塊鏈領(lǐng)域的研究內(nèi)容,挖掘其潛在的語義信息,需要借助LDA模型從摘要數(shù)據(jù)集中抽取主題,發(fā)現(xiàn)熱門主題,參考馬永紅等的研究框架,本節(jié)研究具體的分析處理框架如圖4所示。
3.2.1文本預(yù)處理
對科學(xué)文獻數(shù)據(jù)集進行LDA主題建模的預(yù)處理一般步驟包括:①提取文獻的“摘要”字段:②分詞;③去除停用詞;④構(gòu)建“文檔—詞”矩陣。本研究基于以上步驟,且為了提升LDA主題模型的聚類效果,進行了以下4步處理:
1)將文獻的“標題”“摘要”“關(guān)鍵詞”合并作為待分析文本,由于3.1數(shù)據(jù)采集與整理得到的3211篇文獻中有56篇文獻缺失了“摘要”數(shù)據(jù),為了在更大程度上保留原有的信息,本研究不剔除缺失的記錄,而是參考Chen H等的做法,將“標題”“摘要”“關(guān)鍵詞”合并后作為一個整體而后進行分詞,分詞后獲得的詞的集合用于下一步處理。
2)在“去除停用詞”步驟時,除了使用R語言中Tidytext包默認的停用詞,也根據(jù)主題建模的結(jié)果反饋,將“主題—詞分布”中無意義的高頻詞匯(例如:“Paper”)加入“自定義停用詞表”,排除其對結(jié)果的干擾。
3)加入了“詞干提取”步驟:由于許多詞匯含義相同,卻擁有不同的形式(單復(fù)數(shù)、詞性等),造成詞頻過于分散,影響聚類效果,所以提取真正代表其含義的詞干,降低稀疏性。
4)在構(gòu)建“文檔—詞”矩陣之前,先使用TF-IDF(Term Frequency-Inverse Document Frequen-cy)得分對詞匯進行篩選,將不重要的詞匯剔除,減少詞項(特征數(shù)目),降低“文檔一詞”矩陣的維度,提高聚類效果。實際操作時,通過多次實驗,發(fā)現(xiàn)每個文檔取TF-IDF得分前20的詞匯,維度損失較少,聚類結(jié)果較好。
3.2.2確定主題數(shù)
主題模型中主題數(shù)目是一個關(guān)鍵參數(shù),但是關(guān)于如何確定主題數(shù)目,學(xué)者們眾說紛紜,主要有兩大類方式:①Blei D M等提出的困惑度(Per-plexity)的方法,該指標反映了模型的擬合程度,困惑度越小,模型的擬合程度越好,可以通過多次實驗找到其極小值的方法來確定主題數(shù)目;②計算“主題相似度”的方式,常見的有計算Jensen-Shan-non散度(JS散度)的方法,關(guān)鵬等對其做了詳細的研究,當(dāng)主題數(shù)接近最優(yōu)值時,JS散度較小,反之則較大。綜合前人的研究,本研究采用學(xué)者使用較多的困惑度的方式來確定最優(yōu)主題數(shù)。
使用R語言中的Topicmodels包進行主題建模,主題數(shù)目的變化區(qū)間為[2,30],計算的結(jié)果如圖5所示。從圖像可以看出,當(dāng)主題數(shù)目小于8時,隨著主題數(shù)目的增加,困惑度不斷減小,擬合效果越來越好;當(dāng)大于8時,困惑度逐漸穩(wěn)定在高點;所以,本研究確定的最優(yōu)主題數(shù)為8。
確定最優(yōu)主題數(shù)為8之后,代入LDA模型,使用期望最大算法估計參數(shù)取值,最終得到“文檔—主題分布”和“主題—詞分布”。各個主題中概率較高的特征詞如表2所示。
根據(jù)上表中展示的高概率特征詞,對每個主題進行“命名”(標注),然后結(jié)合“文檔—主題分布”對命名結(jié)果進行驗證。例如:Topicl中概率較高的詞是“Blockchain”“Vehicl”“Secur”“Net-work”,根據(jù)詞干的提示,可以將其命名為“區(qū)塊鏈”+“車聯(lián)網(wǎng)安全”,然后將文檔按照由Topicl生成的概率進行排序,概率較高的3篇代表性文獻分別是《A Blockchain Based Certificate Revocation Scheme for Vehicular Communication Systems》《Physical Layer Security of Autonomous Driving:Se-cure Vehicle-to-Vehicle Communication in A Security Cluster》《Blockchain-Based Dynamic Key Man-agement for Heterogeneous Intelligent Transportation Systems》,經(jīng)過對其閱讀研判,確為研究“區(qū)塊鏈”在“車聯(lián)網(wǎng)安全”方面應(yīng)用的文章,印證了標注的準確性。按照此模式分別對8個主題進行標注,結(jié)果如表3所示。因為本研究對象為國際區(qū)塊鏈研究,為了簡便起見,后文在提到主題標注時,將省去“區(qū)塊鏈+”。
3.2.3熱點主題挖掘
僅僅對主題進行標注是不夠的,還需要根據(jù)主題強度對熱點主題進行挖掘,為我國學(xué)者研究選題提供參考。根據(jù)式(2)得出主題強度閾值為0.125,根據(jù)公式1計算出各個主題的主題強度,具體的結(jié)果如圖6所示。
從圖中可以看出,Topic2、Topic5、Topic6、Top-ie7的主題強度值高于主題強度閾值,屬于“熱門主題”,下面結(jié)合有代表性的論文對熱點主題逐個進行解析。
1)Topic2(醫(yī)療健康領(lǐng)域):
醫(yī)療健康領(lǐng)域隨著老齡化的發(fā)展,越來越受到各國的關(guān)注,但是醫(yī)療健康是一個復(fù)雜的系統(tǒng),至少需要三方的參與:醫(yī)療服務(wù)的核心提供方(醫(yī)生、護士等)、關(guān)聯(lián)服務(wù)提供方(醫(yī)學(xué)研究、保險等)、醫(yī)療服務(wù)的用戶(病人、公眾等)。這樣一個多方參與的系統(tǒng),其中數(shù)據(jù)的管理共享、隱私保護的問題亟待解決,催生了大量相關(guān)研究:DhagarraD等試圖通過區(qū)塊鏈技術(shù)構(gòu)建一個綜合的醫(yī)療保險框架來整合碎片化的健康記錄,改善醫(yī)療服務(wù)的均衡性;Zhang P等構(gòu)建了一個基于區(qū)塊鏈的去中心化應(yīng)用程序來進行安全和可擴展的數(shù)據(jù)共享,協(xié)助臨床診斷。
2)Topic5(數(shù)據(jù)隱私保護):
隨著云存儲等技術(shù)的不斷發(fā)展和云服務(wù)提供商的涌現(xiàn),極大地降低了用戶存儲數(shù)據(jù)的成本,但是云服務(wù)提供商能否對數(shù)據(jù)的安全和隱私保護負責(zé),始終是一個困擾用戶的難題,“棱鏡門”事件、“夜鶯計劃”等隱私泄露事件層出不窮。這一關(guān)鍵問題吸引了大量學(xué)者研究:Huang P等提出了一種協(xié)作審核的區(qū)塊鏈框架,引入了共識節(jié)點代替單個的第三方,試圖解決數(shù)據(jù)所有者和云服務(wù)提供商之間的信任問題;Yang X等則利用區(qū)塊的不可預(yù)測性構(gòu)造挑戰(zhàn)信息,來防止惡意的審核第三方和云服務(wù)器串通。
3)Topic6(能源交易與共識算法):
能源問題特別是電能的分布式整合問題長久以來困擾著工業(yè)界和學(xué)界,隨著區(qū)塊鏈技術(shù)特別是其實用共識算法的出現(xiàn),使得分布式的整合和配電成為可能,越來越多的框架被提出并進行了小范圍的試點:Hayes B P等提出了一種配電網(wǎng)絡(luò)和本地對等能源交易平臺結(jié)合的仿真方法,采用基于區(qū)塊鏈的雙拍賣機制,使用歐洲郊區(qū)的配電網(wǎng)案例演示了該方法;Cai W等將傳統(tǒng)的拜占庭容錯算法改進,大大提高了交易速度,使其適用于能源領(lǐng)域?qū)崟r處理交易的需求。
4)Topic7(物聯(lián)網(wǎng)安全):
包括射頻識別技術(shù)(RFID)、傳感器技術(shù)在內(nèi)的物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,也產(chǎn)生了許多網(wǎng)絡(luò)常見問題,易受攻擊、劫持,安全性和網(wǎng)絡(luò)性能都面臨考驗,學(xué)者們運用區(qū)塊鏈技術(shù)提出了多種方法來提高物聯(lián)網(wǎng)的安全性并保障其網(wǎng)絡(luò)性能:Rathore S等利用區(qū)塊鏈提供分散式的攻擊檢測,來緩解現(xiàn)有架構(gòu)中的“單點故障”問題;Sahay R等運用區(qū)塊鏈上的智能合約來生成實時警報,能夠有效地識別被篡改的節(jié)點。
花敏等的研究表明,國外區(qū)塊鏈領(lǐng)域的三大研究熱點為“智能合約”“物聯(lián)網(wǎng)”“隱私問題”,也印證了本文的研究發(fā)現(xiàn),但是囿于其采用的關(guān)鍵詞聚類方法,對語義信息損失較多,無法對熱點領(lǐng)域進行更深入的分析,本研究由于采用LDA主題模型,可以挖掘篇名、摘要和關(guān)鍵詞中的語義信息,能夠從更細的粒度上挖掘發(fā)現(xiàn)熱點主題。
3.2.4主題演化分析
根據(jù)后離散方法,離散到各個年份后,計算了各個主題對應(yīng)的主題強度,結(jié)果如圖7所示,由于數(shù)據(jù)源中2010年和2011年沒有“區(qū)塊鏈”相關(guān)的文章,所以圖示中跳過了該年份。圖中橫坐標表示年份,縱坐標表示主題強度值,柱體的高度反映主題強度的大小。
通過圖7可以發(fā)現(xiàn),隨著時間的推移,堆積圖從原有的單調(diào)的幾個顏色,開始變得色彩豐富,即區(qū)塊鏈研究從原有的僅涉及其技術(shù)本身的研究,如:Topic4(加密貨幣)、Topic5(數(shù)據(jù)隱私保護),開始向其他領(lǐng)域如Topic2(醫(yī)療健康)等進行滲透和拓展。這也向我國研究學(xué)者提出了更高的要求:除了在區(qū)塊鏈底層技術(shù)(如:共識算法等方面)發(fā)力,也要重點關(guān)注區(qū)塊鏈技術(shù)在其他領(lǐng)域(如:醫(yī)療健康等)的融合拓展研究。除了整體的趨勢變化,其中Topic3、Topic4隨時間演化特點較為明顯,下面詳細進行分析
1)Topic3(商務(wù)智能合約):
2013年,以太坊白皮書的問世,使人們看到了區(qū)塊鏈的應(yīng)用潛力,不只是可以分布式記賬,還可以部署合約,把區(qū)塊鏈帶人了2.0時代,“智能合約”開始受到廣泛關(guān)注,從圖中也可以看出從2013年開始,代表“智能合約”的Topic3(灰色)相關(guān)文章開始出現(xiàn)。Chang S E等從信用支付的角度,研究了區(qū)塊鏈技術(shù)在國際貿(mào)易過程中的適用性;Eenmaa-Dimitrieva H等從合同法學(xué)者的角度出發(fā),倡議使用智能合約來提供比傳統(tǒng)交易更便宜快捷的交易服務(wù)。
2)Topic4(加密貨幣):
Topic4比較有代表性,“加密貨幣”是區(qū)塊鏈的傳統(tǒng)主題,區(qū)塊鏈正是由中本聰于2008年在比特幣白皮書中首次提出,所以在2008年的時候主題強度比較高,但是隨著區(qū)塊鏈在其他領(lǐng)域應(yīng)用研究的蓬勃發(fā)展,漸漸勢微,但是2015年以來,隨著以太坊(ETH)、門羅幣(XMR)、達世幣(DASH)等多種加密貨幣的涌現(xiàn),使得公眾對加密貨幣的關(guān)注度空前提高,學(xué)界也從其安全性、經(jīng)濟性等多角度開始了如火如荼的研究:Wu Y等提出了一種識別可疑比特幣地址的框架,可以發(fā)現(xiàn)犯罪網(wǎng)絡(luò)并提供可視化功能:Bousfield D從經(jīng)濟學(xué)和網(wǎng)絡(luò)演化的角度對加密貨幣,特別是比特幣及其替代貨幣的持久性和可行性進行了分析。
本研究還參考王發(fā)明等對于區(qū)塊鏈應(yīng)用研究的劃分,將區(qū)塊鏈應(yīng)用研究劃分為3大類型,也將挖掘出的主題與之對應(yīng):①區(qū)塊鏈1.0,諸如虛擬數(shù)字貨幣等對于區(qū)塊鏈的傳統(tǒng)應(yīng)用(對應(yīng)Topic4加密貨幣);②區(qū)塊鏈2.0,主要涉及智能合約的使用,例如在證券登記、期貨、票據(jù)等金融市場的應(yīng)用(對應(yīng)Topic3商務(wù)智能合約);③區(qū)塊鏈3.0,區(qū)塊鏈在其他更廣闊的領(lǐng)域的應(yīng)用,特別是用于解決各領(lǐng)域的信任、共享等問題(對應(yīng)其余的6個主題)。不難發(fā)現(xiàn),上述兩個演化特點明顯的主題,正是代表了區(qū)塊鏈1.0和區(qū)塊鏈2.0的演化特點。為了解析當(dāng)今學(xué)界對于各個類別研究的占比情況,將2020年各主題強度求和,代表各個類別的應(yīng)用研究的熱度,結(jié)果如圖8所示。
從圖中可以看出,如今對于區(qū)塊鏈的研究已經(jīng)不只局限于諸如“加密貨幣”“智能合約”等傳統(tǒng)領(lǐng)域,而是拓展到其他領(lǐng)域,正如對圖7分析得到的結(jié)論一樣,區(qū)塊鏈的研究呈現(xiàn)多樣化的態(tài)勢。如今對于區(qū)塊鏈3.0的研究如火如荼,但區(qū)塊鏈1.0和區(qū)塊鏈2.0的研究并未消亡,究其原因,正是對于其傳統(tǒng)領(lǐng)域應(yīng)用研究的逐步深入,帶動和啟發(fā)了更多應(yīng)用場景的實施,我國的學(xué)者在拓展更多應(yīng)用場景的同時,也要關(guān)注其技術(shù)發(fā)展帶來的新特性,有針對性地尋找其新的應(yīng)用場景。
4結(jié)語
4.1結(jié)論
本研究收集Web of Science核心合集SCI-EX-PANDED和SSCI中2008—2020年區(qū)塊鏈領(lǐng)域的文獻,運用LDA主題建模,從熱點主題和主題演化兩個方面對國外區(qū)塊鏈研究進行了分析,得出以下結(jié)論。
1)國際區(qū)塊鏈研究自2008年開始,經(jīng)過10余年的發(fā)展,如今已經(jīng)形成非常豐富的概念內(nèi)涵。國際學(xué)者比較關(guān)心的區(qū)塊鏈研究領(lǐng)域包括商業(yè)智能合約、數(shù)字貨幣、數(shù)據(jù)隱私保護、能源交易與共識算法、物聯(lián)網(wǎng)安全、工業(yè)供應(yīng)鏈、車聯(lián)網(wǎng)安全、醫(yī)療健康等。這些研究極大擴展了區(qū)塊鏈的內(nèi)涵,也奠定了該領(lǐng)域的理論與實踐研究基礎(chǔ)。
2)在全部國際區(qū)塊鏈研究主題中,醫(yī)療健康、數(shù)據(jù)隱私保護、能源交易與共識算法和物聯(lián)網(wǎng)安全4個主題的主題強度高于閾值,即4個主題作為當(dāng)下區(qū)塊鏈研究的熱點主題,代表著國際區(qū)塊鏈領(lǐng)域?qū)W者最關(guān)心的熱點話題。在未來一段時間內(nèi)仍然是區(qū)塊鏈研究中的熱點。
3)商務(wù)智能合約和加密貨幣兩個主題都是在區(qū)塊鏈技術(shù)發(fā)展早期出現(xiàn),其共同演化特征都是在相關(guān)重要文獻發(fā)表之后開始受到更多關(guān)注,從此研究熱度開始上升。另外,也發(fā)現(xiàn)了區(qū)塊鏈領(lǐng)域研究早期的話題大多與區(qū)塊鏈本身技術(shù)相關(guān),如加密貨幣和數(shù)據(jù)隱私保護;而到了發(fā)展后期,其研究熱點開始向應(yīng)用研究轉(zhuǎn)移,如醫(yī)療健康、車聯(lián)網(wǎng)等。
4)從主題分布上看,國際區(qū)塊鏈領(lǐng)域主題熱度分布近年來逐漸趨于均衡,說明領(lǐng)域研究的結(jié)構(gòu)相較于早期已開始變得穩(wěn)定。
4.2建議
基于本研究的發(fā)現(xiàn),結(jié)合上述分析結(jié)論與我國區(qū)塊鏈領(lǐng)域研究現(xiàn)狀和行業(yè)發(fā)展需求,提出以下建議。
1)重視國外研究成果,從中獲取國外區(qū)塊鏈研究前沿,以此指導(dǎo)我國學(xué)者、企業(yè)界相關(guān)從事者抓住區(qū)塊鏈領(lǐng)域的發(fā)展現(xiàn)狀,追蹤最前沿的研究熱點。本研究對國際區(qū)塊鏈文獻進行主題分析,結(jié)果正是國外當(dāng)前的研究熱點,了解、分析這些熱點出現(xiàn)的背景以及對社會、經(jīng)濟的影響,可以快速了解國外區(qū)塊鏈研究的現(xiàn)有布局,以提升我國研究的戰(zhàn)略視野和競爭力。
2)加快研究成果的轉(zhuǎn)化與落地。本研究展示國際區(qū)塊鏈研究從早期的純技術(shù)理論研究逐漸轉(zhuǎn)向了應(yīng)用研究。由于區(qū)塊鏈的產(chǎn)業(yè)價值更多體現(xiàn)在市場應(yīng)用方面,解決具體社會、經(jīng)濟問題,因此國際研究興趣的轉(zhuǎn)變說明國際學(xué)者開始更多地關(guān)注區(qū)塊鏈技術(shù)的市場化和產(chǎn)業(yè)化,而在這方面,我國能力較弱。應(yīng)當(dāng)加強高校與企業(yè)之間的合作創(chuàng)新,加速科研成果的技術(shù)、應(yīng)用轉(zhuǎn)化,促進區(qū)塊鏈研究價值最大化。
4.3不足
本研究的不足之處是數(shù)據(jù)源較為單一,只選取了期刊數(shù)據(jù)庫,如今技術(shù)迭代加快,高質(zhì)量的會議論文也具有很高的研究價值。未來考慮結(jié)合會議論文、專利和替代計量學(xué)指標,對主題進行深度的挖掘,并結(jié)合深度學(xué)習(xí)算法,進行技術(shù)發(fā)展的預(yù)測研究。