邱均平 沈超
DOI:10.3969/j.issn.1008-0821.2021.09.003
[中圖分類號(hào)]G250.2 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2021)09-0022-10
“大數(shù)據(jù)”一詞在《中共中央關(guān)于制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和二0三五年遠(yuǎn)景目標(biāo)的建議》(以下簡(jiǎn)稱《建議》)中一共出現(xiàn)了3次?!督ㄗh》指出,要推動(dòng)大數(shù)據(jù)同各產(chǎn)業(yè)深度融合,加快大數(shù)據(jù)中心建設(shè),以及加強(qiáng)宏觀經(jīng)濟(jì)治理數(shù)據(jù)庫(kù)等建設(shè),提升大數(shù)據(jù)等現(xiàn)代技術(shù)手段輔助治理能力,可見(jiàn)國(guó)家對(duì)于大數(shù)據(jù)的重視。大數(shù)據(jù)一詞于2008年9月首次在《Nature》雜志被提出,此后大數(shù)據(jù)迅速引起了學(xué)術(shù)界的廣泛關(guān)注,不同學(xué)科的學(xué)者紛紛開(kāi)始從自己學(xué)科的角度去探索大數(shù)據(jù)的含義概念、大數(shù)據(jù)的分析方法和大數(shù)據(jù)在本學(xué)科的應(yīng)用。在以文獻(xiàn)、信息和數(shù)據(jù)為研究對(duì)象的圖書(shū)情報(bào)學(xué)科內(nèi)對(duì)大數(shù)據(jù)進(jìn)行的研究也迅速增長(zhǎng)??萍嘉墨I(xiàn)作為學(xué)術(shù)成果的重要載體,是科研人員大量智慧汗水的結(jié)晶,是進(jìn)行知識(shí)傳播和學(xué)術(shù)交流的重要途徑。因此,對(duì)科技文獻(xiàn)進(jìn)行計(jì)量分析,能夠了解大數(shù)據(jù)的發(fā)展現(xiàn)狀,預(yù)測(cè)其發(fā)展趨勢(shì)。
對(duì)大數(shù)據(jù)領(lǐng)域相關(guān)文獻(xiàn)進(jìn)行計(jì)量分析的研究,國(guó)內(nèi)一些學(xué)者多是通過(guò)文獻(xiàn)計(jì)量的相關(guān)方法進(jìn)行的。趙悅陽(yáng)等使用Web of Science的分析功能和可視化軟件UCINET、gCLUTO,對(duì)Web of Science數(shù)據(jù)庫(kù)中的相關(guān)論文進(jìn)行發(fā)文分析、詞頻分析、共現(xiàn)分析和雙聚類分析。得出高產(chǎn)國(guó)家(地區(qū))、高產(chǎn)機(jī)構(gòu)、高產(chǎn)作者和研究熱點(diǎn)的結(jié)論。童子頤以中國(guó)學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(kù)中我國(guó)大數(shù)據(jù)研究相關(guān)論文的高頻關(guān)鍵詞作為統(tǒng)計(jì)數(shù)據(jù),對(duì)其進(jìn)行共詞分析,并在此基礎(chǔ)上對(duì)其進(jìn)行聚類分析和多維尺度分析,得出我國(guó)大數(shù)據(jù)研究的熱點(diǎn)主要有:大數(shù)據(jù)技術(shù)、新聞傳媒中的大數(shù)據(jù)、大數(shù)據(jù)應(yīng)用等。代芯瑜等對(duì)我國(guó)2003—2012年發(fā)表的有關(guān)大數(shù)據(jù)研究論文進(jìn)行統(tǒng)計(jì),利用文獻(xiàn)計(jì)量法和可視化分析方法,從宏觀上把握近年來(lái)我國(guó)的大數(shù)據(jù)研究現(xiàn)狀及研究重點(diǎn),并得到相關(guān)研究結(jié)論。夏軍輝等對(duì)圖書(shū)情報(bào)領(lǐng)域關(guān)于大數(shù)據(jù)的研究現(xiàn)狀、熱點(diǎn)、主要研究方法和發(fā)展趨勢(shì)進(jìn)行了分析和整理。王春華等使用CNKI數(shù)據(jù)庫(kù),將學(xué)科定為圖書(shū)情報(bào)與數(shù)字圖書(shū)館,將主題定為大數(shù)據(jù),將得到的文獻(xiàn)數(shù)據(jù)運(yùn)用詞頻統(tǒng)計(jì)方法和共詞分析方法,借助SPSS軟件和UCINET軟件,對(duì)這些文獻(xiàn)數(shù)據(jù)進(jìn)行聚類分析、戰(zhàn)略坐標(biāo)圖分析和核心一邊緣結(jié)構(gòu)分析,得出了國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域大數(shù)據(jù)研究的8個(gè)熱點(diǎn)研究主題,并對(duì)熱點(diǎn)研究主題進(jìn)行了詳細(xì)的解析。虞秋雨等以近5年圖書(shū)情報(bào)領(lǐng)域在中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)中核心期刊收錄的有關(guān)“大數(shù)據(jù)”主題的文獻(xiàn)為研究對(duì)象,建立了一種以g指數(shù)為主要基礎(chǔ)的劃分高頻詞的方法,利用Excel軟件進(jìn)行數(shù)據(jù)統(tǒng)計(jì)并構(gòu)造共詞矩陣。同時(shí)借助SPSS、Paiek軟件對(duì)矩陣進(jìn)行可視化分析、K-core分析以及聚類分析,研究文獻(xiàn)中各關(guān)鍵詞間的關(guān)系,探討了近5年我國(guó)圖書(shū)情報(bào)領(lǐng)域關(guān)于大數(shù)據(jù)主題的研究熱點(diǎn)。黃鸝等基于Web of Science數(shù)據(jù)庫(kù),從發(fā)文年代、國(guó)家(地區(qū))和機(jī)構(gòu)、核心作者及主要期刊分布幾方面分析了醫(yī)學(xué)信息學(xué)科大數(shù)據(jù)研究的現(xiàn)狀和進(jìn)展,借助軟件對(duì)關(guān)鍵詞進(jìn)行聚類分析,發(fā)現(xiàn)研究熱點(diǎn)主要集中在臨床決策支持系統(tǒng)、臨床研究數(shù)據(jù)管理、電子健康檔案、轉(zhuǎn)化生物信息學(xué)和遺傳流行病學(xué)等方面。范婷等運(yùn)用雙聚類法對(duì)醫(yī)學(xué)大數(shù)據(jù)的研究熱點(diǎn)進(jìn)行了分析,得出發(fā)文量分布、期刊分布、高頻主題詞及共詞聚類結(jié)果。
上述研究中,對(duì)研究熱點(diǎn)進(jìn)行分析多用文獻(xiàn)計(jì)量的方法,借助LDA主題模型分析大數(shù)據(jù)領(lǐng)域文獻(xiàn)的熱點(diǎn)研究主題的文章極少。為適應(yīng)當(dāng)前文獻(xiàn)數(shù)量劇增的現(xiàn)狀,本文試圖借助LDA模型,對(duì)CNKI數(shù)據(jù)庫(kù)中標(biāo)題帶有“大數(shù)據(jù)”的中文期刊論文進(jìn)行文本建模,通過(guò)困惑度確定模型的最優(yōu)主題數(shù),并對(duì)文檔—主題矩陣和主題—詞矩陣進(jìn)行分析,以期了解大數(shù)據(jù)領(lǐng)域研究現(xiàn)狀和研究熱點(diǎn),為研究人員提供參考。
1相關(guān)技術(shù)
1.1 LDA
LDA(Latent Dirichlet Allocation)模型,是由Blei D M等于2003年提出的一種基于概率模型的主題模型算法,LDA是一種非監(jiān)督機(jī)器學(xué)習(xí)的文本挖掘技術(shù),可以用來(lái)識(shí)別大規(guī)模文檔集或語(yǔ)料庫(kù)中的潛在隱藏的主題信息。
LDA模型算法中一篇文章的每個(gè)詞都是通過(guò)以一定概率選擇了某個(gè)主題,并從該主題中以一定概率選擇某個(gè)詞語(yǔ)這樣的過(guò)程得到的。該方法假設(shè)文本中的每個(gè)詞是從一個(gè)潛在隱藏的主題中抽取出來(lái)的。對(duì)于語(yǔ)料庫(kù)中的每篇文檔,LDA定義了如下生成過(guò)程:首先,對(duì)每一篇文檔,從主題分布中抽取一個(gè)主題;其次,從上述被抽到的主題中所對(duì)應(yīng)的單詞分布中抽取一個(gè)單詞;最后,重復(fù)上述過(guò)程直至遍歷文檔中的每一個(gè)單詞。
本文主要采用Gibbs采樣算法求解得到全局的主題Z的分布和詞語(yǔ)W的分布。作為無(wú)監(jiān)督機(jī)器學(xué)習(xí),需要事先確定3個(gè)超參數(shù)α、β、k(最優(yōu)主題數(shù)),α、β選取一般為默認(rèn)值,最優(yōu)主題數(shù)k通過(guò)困惑度計(jì)算確定。困惑度的計(jì)算公式如式(1)所示。其中,D為測(cè)試集;M為文本數(shù)量;di為文檔d中的單詞序列;Ni為文檔d的單詞數(shù)目。
困惑度能夠衡量LDA主題模型預(yù)測(cè)樣本的精確程度,因此,理論上困惑度越小說(shuō)明模型預(yù)測(cè)精準(zhǔn)度越高,困惑度最低或是拐點(diǎn)處對(duì)應(yīng)的k就為最佳主題數(shù)。
1.2 LDAvis
LDAvis是一種主題可視化方法,于2014年由Sievert C等提出。LDAvis以特征詞和主題的關(guān)聯(lián)程度選擇表示主題的特征詞,并且LDAvis可視化圖可以幫助人們從整體的視角觀察各個(gè)主題之間的關(guān)系。簡(jiǎn)單來(lái)說(shuō),就是LDAvis探究了主題一主題、主題一詞語(yǔ)之間的關(guān)聯(lián)。主題一主題用多維標(biāo)度的方式,將兩者投影在低維空間,從而進(jìn)行比較分析;主題與詞語(yǔ)之間的關(guān)聯(lián)綜合了詞頻和詞語(yǔ)的獨(dú)特性兩種屬性。其中λ就是調(diào)節(jié)兩種屬性哪個(gè)占比更大的重要參數(shù)。λ的取值在0~1之間,λ的最優(yōu)取值需要根據(jù)具體問(wèn)題進(jìn)行具體分析。
2研究設(shè)計(jì)
2.1數(shù)據(jù)來(lái)源
實(shí)驗(yàn)領(lǐng)域?yàn)榇髷?shù)據(jù)。中文數(shù)據(jù)采集時(shí)間段為2008—2020年,檢索日期為2021年3月10日。
中國(guó)知網(wǎng)(CNKI)為文獻(xiàn)的數(shù)據(jù)來(lái)源。限定文獻(xiàn)為SCI期刊、EI期刊、核心期刊、CSSCI/CSCD,文獻(xiàn)類型設(shè)定為期刊、中文。設(shè)定使用專業(yè)檢索,設(shè)定檢索式為“TI=‘大數(shù)據(jù)”,其中“TI”表示標(biāo)題。下載全記錄文獻(xiàn)信息并以Excel格式批量導(dǎo)出,篩去重復(fù)以及不完整的文獻(xiàn)記錄,最后得到總計(jì)80797篇文獻(xiàn)。
按年份將樣本中的文獻(xiàn)進(jìn)行分類,并統(tǒng)計(jì)每年的文獻(xiàn)數(shù)量,繪制折線圖,其變化情況如圖1所示??梢钥闯?,2008—2011年發(fā)文量較少,從2012年開(kāi)始發(fā)文量呈穩(wěn)定增長(zhǎng)的趨勢(shì)??偟膩?lái)說(shuō),可以將時(shí)間分為兩段,2008—2011年為初步探索期,2012—2020年為快速增長(zhǎng)期。
2.2文本預(yù)處理和LDA參數(shù)設(shè)置
將下載好的文獻(xiàn)按年份進(jìn)行分類,形成各年份的文獻(xiàn)信息文件,并將文件格式轉(zhuǎn)換為CSV以便后續(xù)處理,從文獻(xiàn)信息中提取標(biāo)題、關(guān)鍵詞、摘要信息形成LDA模型的語(yǔ)料來(lái)源。對(duì)語(yǔ)料來(lái)源文件用Python中的Jieba分詞組件進(jìn)行分詞操作,從而得到文檔一詞矩陣。然后,借助Python軟件中Sklearn包構(gòu)建LDA模型。在構(gòu)建模型前需要確定模型的最優(yōu)主題數(shù),本文結(jié)合模型困惑度來(lái)確定模型的最優(yōu)主題數(shù)。首先,將主題數(shù)區(qū)間設(shè)為[0,40],步長(zhǎng)設(shè)為2,α、β設(shè)為默認(rèn)值;其次,根據(jù)各個(gè)主題數(shù)的困惑度,選取困惑度最低的主題數(shù)作為最優(yōu)主題數(shù)。運(yùn)行程序得到的結(jié)果主要有兩個(gè):文獻(xiàn)一主題分布和主題一詞分布。
2.3實(shí)驗(yàn)結(jié)果與分析
2.3.1主題內(nèi)容分析
結(jié)合文獻(xiàn)一主題分布和主題一詞分布,繪制出各主題及各主題下所對(duì)應(yīng)的文獻(xiàn)數(shù)量按年份排列的表格,如表1、表2所示。
通過(guò)對(duì)表1、表2中的內(nèi)容進(jìn)行分析可以看出,大數(shù)據(jù)技術(shù)在各個(gè)時(shí)間段的研究中應(yīng)用型研究較多,且在許多領(lǐng)域中的研究具有連續(xù)性和一貫性。下面挑選出具有代表性的9個(gè)主題,并以主題標(biāo)簽為關(guān)鍵詞在原始數(shù)據(jù)中的標(biāo)題列篩選包含該主題標(biāo)簽的論文,對(duì)這些論文進(jìn)行LDA主題聚類和pyLDAvis可視化,并進(jìn)行分析。
1)圖書(shū)館服務(wù)。這一主題在2013—2020年都有體現(xiàn),并且其所對(duì)應(yīng)的文獻(xiàn)數(shù)量較多,說(shuō)明國(guó)內(nèi)圖書(shū)館領(lǐng)域的大數(shù)據(jù)研究較多。以“圖書(shū)館”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是圖書(shū)館和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”和“圖書(shū)館”3個(gè)詞,避免這3個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,有關(guān)圖書(shū)館這個(gè)主題的研究有以下幾個(gè)分支:對(duì)高校圖書(shū)館的研究;對(duì)圖書(shū)館員的研究,如對(duì)圖書(shū)館員的信息素養(yǎng)進(jìn)行研究;對(duì)圖書(shū)館內(nèi)的文獻(xiàn)進(jìn)行研究;對(duì)圖書(shū)館用戶讀者行為進(jìn)行研究,如對(duì)讀者的隱私保護(hù)的研究等。圖2為“圖書(shū)館服務(wù)”主題下各個(gè)主題的LDAvis可視圖。
2)智慧城市建設(shè)、城市智慧交通等有關(guān)地區(qū)規(guī)劃建設(shè)的主題也在許多年份中有所體現(xiàn),說(shuō)明大數(shù)據(jù)技術(shù)在城市建設(shè)、交通建設(shè)等方面應(yīng)用較多。以“智慧城市”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是智慧城市和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“智慧”“城市”4個(gè)詞,避免這4個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,有關(guān)智慧城市主題的研究有以下幾個(gè)分支:有關(guān)城鄉(xiāng)規(guī)劃、城市規(guī)劃的研究;有關(guān)城鄉(xiāng)治理的研究;有關(guān)數(shù)據(jù)及數(shù)據(jù)中心平臺(tái)的研究;有關(guān)交通的研究等。圖3為“智慧城市”主題下各個(gè)主題的LDAvis可視圖。
3)大數(shù)據(jù)在教育領(lǐng)域的應(yīng)用研究也較多。主要集中在教學(xué)模式改革等方面。以“教育”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是教育和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“教育”3個(gè)詞,避免這3個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,有關(guān)教育主題的研究有以下幾個(gè)分支:對(duì)大學(xué)生創(chuàng)新創(chuàng)業(yè)的研究;對(duì)網(wǎng)絡(luò)教育資源的研究;對(duì)遠(yuǎn)程教育的研究;對(duì)教師教學(xué)評(píng)價(jià)的研究;對(duì)高校思政教育的研究等。圖4為“教育”主題下各個(gè)主題的LDAvis可視圖。
4)大數(shù)據(jù)與商務(wù)、金融相結(jié)合,對(duì)電子商務(wù)、互聯(lián)網(wǎng)金融、網(wǎng)絡(luò)營(yíng)銷等新興產(chǎn)業(yè)起到了極大的促進(jìn)作用,例如利用用戶大數(shù)據(jù),電子商務(wù)平臺(tái)能夠精準(zhǔn)地投放廣告和商品,促進(jìn)商品的銷量。以“商務(wù)”“金融”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是商務(wù)、金融和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“商務(wù)”“金融”4個(gè)詞,避免這4個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,金融商務(wù)的研究有以下幾個(gè)分支:對(duì)小微企業(yè)的研究:對(duì)金融風(fēng)險(xiǎn)的研究;對(duì)物流供應(yīng)鏈的研究;對(duì)信息智能分析的研究;對(duì)個(gè)性化服務(wù)的研究;對(duì)電子商務(wù)的研究等。圖5為“金融商務(wù)”主題下各個(gè)主題的LDAvis可視圖。
5)大數(shù)據(jù)在政務(wù)工作和國(guó)家治理方面也發(fā)揮著極大的作用。如浙江省推出的“最多跑一次”便民服務(wù),便是依靠著大數(shù)據(jù)技術(shù)。極大地方便了辦事群眾,同時(shí)也精簡(jiǎn)了政府機(jī)構(gòu)人員。以“政務(wù)”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是政務(wù)和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“政務(wù)”3個(gè)詞,避免這3個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,政務(wù)主題的研究有以下幾個(gè)分支:信息公開(kāi)、資源共享;對(duì)電子政務(wù)的研究等。圖6為“政務(wù)”主題下各個(gè)主題的LDAvis可視圖。
6)大數(shù)據(jù)技術(shù)與傳播媒體的結(jié)合,使得信息的傳播更為快速和準(zhǔn)確。以“傳媒”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是傳媒和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“傳媒”3個(gè)詞,避免這3個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,傳媒主題的研究有以下幾個(gè)分支:傳播媒介創(chuàng)新和傳統(tǒng)媒體面臨的挑戰(zhàn)等。圖7為“傳媒”主題下各個(gè)主題的LDAvis可視圖。
7)數(shù)字醫(yī)療、醫(yī)療信息數(shù)字化則是大數(shù)據(jù)技術(shù)在醫(yī)療領(lǐng)域中的應(yīng)用,這樣的應(yīng)用能夠在一定程度上解決“看病難、看病貴”的問(wèn)題。以“醫(yī)療”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是醫(yī)療和大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“醫(yī)療”3個(gè)詞,避免這3個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,醫(yī)療主題的研究有以下幾個(gè)分支:醫(yī)療信息化;對(duì)患者隱私保護(hù)的研究;對(duì)智能監(jiān)測(cè)的研究等。圖8為“醫(yī)療”主題下各個(gè)主題的LDAvis可視圖。
8)網(wǎng)絡(luò)安全、信息安全兩大主題在絕大多數(shù)年份中都有體現(xiàn),說(shuō)明人們十分重視網(wǎng)絡(luò)安全和信息安全。大數(shù)據(jù)時(shí)代,人們的各種信息都以數(shù)據(jù)的形式存在于網(wǎng)絡(luò)上,如何保障這些數(shù)據(jù)信息的安全就成了全民所關(guān)注的熱點(diǎn)。以“網(wǎng)絡(luò)安全”和“信息安全”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是網(wǎng)絡(luò)安全和信息安全以及大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“網(wǎng)絡(luò)安全”“信息安全”4個(gè)詞,避免這4個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,網(wǎng)絡(luò)信息安全的研究有以下幾個(gè)分支:個(gè)人隱私安全的研究;信息管理的研究;防御系統(tǒng)的研究;網(wǎng)絡(luò)環(huán)境的研究等。圖9為“網(wǎng)絡(luò)、信息安全”主題下各個(gè)主題的LDAvis可視圖。
9)大數(shù)據(jù)技術(shù)還應(yīng)用在企業(yè)組織管理、產(chǎn)業(yè)轉(zhuǎn)型升級(jí)等方面,大數(shù)據(jù)技術(shù)的應(yīng)用能夠更好地促進(jìn)社會(huì)經(jīng)濟(jì)發(fā)展。以“企業(yè)”和“產(chǎn)業(yè)”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是企業(yè)、產(chǎn)業(yè)以及大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“企業(yè)”“產(chǎn)業(yè)”4個(gè)詞,避免這4個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,企業(yè)產(chǎn)業(yè)主題的研究有以下幾個(gè)分支:對(duì)財(cái)務(wù)管理的研究;對(duì)管理模式創(chuàng)新的研究;對(duì)工業(yè)產(chǎn)業(yè)鏈的研究;對(duì)中小企業(yè)的研究;對(duì)人力資源的研究等。圖10為“企業(yè)、產(chǎn)業(yè)”主題下各個(gè)主題的LDAvis可視圖。
大數(shù)據(jù)的研究也體現(xiàn)了與時(shí)俱進(jìn)性,說(shuō)明大數(shù)據(jù)技術(shù)與各個(gè)領(lǐng)域的研究都具有可融合性。
1)精準(zhǔn)扶貧這一主題在2017年首次出現(xiàn),在隨后的幾年中也有體現(xiàn)。以“扶貧”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是扶貧以及大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“扶貧”3個(gè)詞,避免這3個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,這些主題詞代表了扶貧的各個(gè)方面,比如教育、政府治理;也可以看出對(duì)農(nóng)村進(jìn)行扶貧的重要性等。圖11為“精準(zhǔn)扶貧”主題下各個(gè)主題的LDAvis可視圖。
2)在2020年的研究主題中出現(xiàn)了疫情防控,2020年新冠疫情肆虐,而利用新技術(shù)防控疫情能夠更有效率地對(duì)疫情進(jìn)行遏制。以“疫情”為關(guān)鍵詞在各年度原始數(shù)據(jù)中的標(biāo)題列進(jìn)行篩選,將得到的論文進(jìn)行LDA主題聚類,由于研究的就是疫情以及大數(shù)據(jù)主題,所以在停用詞表中加入“大數(shù)據(jù)”“數(shù)據(jù)”“疫情”3個(gè)詞,避免這3個(gè)詞多次出現(xiàn),影響主題聚類效果。從結(jié)果可以看出,疫情防控主題的研究有以下幾個(gè)分支:對(duì)人口流動(dòng)進(jìn)行研究;企業(yè)復(fù)工復(fù)產(chǎn)的研究;傳染病預(yù)測(cè)預(yù)警的研究;對(duì)政府治理的研究等。圖12為“疫情”主題下各個(gè)主題的LDAvis可視圖。
2.3.2文獻(xiàn)聚類及主題強(qiáng)度分析
為了更好地了解不同主題的研究狀態(tài),根據(jù)文檔一主題分布,對(duì)每個(gè)主題下的文獻(xiàn)數(shù)量進(jìn)行分析,同時(shí)結(jié)合主題強(qiáng)度的定義,即主題強(qiáng)度主要描述了主題在某一時(shí)期的熱門程度。在某一時(shí)期關(guān)于某個(gè)主題的文獻(xiàn)數(shù)量越多,說(shuō)明該主題的強(qiáng)度越高,可以被認(rèn)為是熱點(diǎn)主題。對(duì)表1、表2進(jìn)行分析可以得出:
1)2008—2012年時(shí)間窗口內(nèi),“企業(yè)信息計(jì)算分析”主題所包含的文獻(xiàn)數(shù)量最多,所以“企業(yè)信息計(jì)算分析”主題為該時(shí)間窗口的熱點(diǎn)主題。同理,可以得出2013年的熱點(diǎn)主題為“信息管理”;2014年的熱點(diǎn)主題為“經(jīng)濟(jì)發(fā)展戰(zhàn)略”;2015年的熱點(diǎn)主題為“技術(shù)發(fā)展”;2016年的熱點(diǎn)主題為“大數(shù)據(jù)時(shí)代面臨的機(jī)遇與挑戰(zhàn)”;2017年的熱點(diǎn)主題為“大數(shù)據(jù)對(duì)社會(huì)的影響”;2018年的熱點(diǎn)主題為“大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)”;2019年的熱點(diǎn)主題為“大數(shù)據(jù)對(duì)社會(huì)的影響”;2020年的熱點(diǎn)主題為“大數(shù)據(jù)對(duì)社會(huì)生活的影響”。從各個(gè)時(shí)間窗口的熱點(diǎn)主題可以看出,在前期關(guān)于大數(shù)據(jù)的研究主要集中在對(duì)數(shù)據(jù)信息的管理和分析上,后期研究熱點(diǎn)逐漸轉(zhuǎn)變?yōu)榇髷?shù)據(jù)產(chǎn)生的影響。
2)不難發(fā)現(xiàn),除了包含文獻(xiàn)數(shù)量最多的主題外,還有一些主題在時(shí)間窗口中也占據(jù)較大的比例。并且有許多主題在多個(gè)時(shí)間窗口中出現(xiàn)。所以本文挑選4個(gè)占據(jù)比例較大的且在多個(gè)時(shí)間窗口出現(xiàn)的主題,對(duì)其進(jìn)行主題強(qiáng)度隨時(shí)間變化的分析。結(jié)果如圖13所示??梢钥闯觥皥D書(shū)館服務(wù)”這一主題在2013—2016年呈現(xiàn)穩(wěn)定上升的趨勢(shì),在2017年有所下降,但2018年又有所回升,之后呈下降趨勢(shì);“智慧城市”這一主題總體呈上升趨勢(shì),但在個(gè)別年份有下降的波動(dòng);“市場(chǎng)營(yíng)銷”主題在2016年之前呈上升趨勢(shì),并在2016年文獻(xiàn)數(shù)量達(dá)到最高,接著在2017年、2018年、2019年下降至0篇,2020年又上升至383篇;“信息安全”主題在2008—2014年呈上升趨勢(shì),到2015年下降至0篇,接著又呈現(xiàn)上升趨勢(shì),直到2019年,之后呈現(xiàn)下降趨勢(shì)。
3結(jié)論與分析
本文借助LDA主題模型,結(jié)合模型困惑度判斷確定模型的最優(yōu)主題數(shù),同時(shí)考慮文獻(xiàn)發(fā)表時(shí)間,以年為單位劃分時(shí)間窗口(由于2008—2012年的論文數(shù)較少,所以將這4年合并成一個(gè)時(shí)間窗口),共分為9個(gè)時(shí)間窗口。對(duì)這9個(gè)時(shí)間窗口中的文獻(xiàn)進(jìn)行主題挖掘,對(duì)挖掘到的主題的內(nèi)容進(jìn)行研究,并選取11個(gè)具有代表性的主題對(duì)這些主題內(nèi)的論文再次進(jìn)行LDA主題聚類和LDAvis主題可視化,進(jìn)一步分析主題內(nèi)的研究熱點(diǎn);對(duì)挖掘到的主題進(jìn)行強(qiáng)度分析,按照主題包含的文獻(xiàn)數(shù)量確定每個(gè)時(shí)間窗口的熱點(diǎn)主題,筆者還挑選了4個(gè)主題對(duì)其主題強(qiáng)度隨時(shí)間的變化趨勢(shì)進(jìn)行展示分析。結(jié)果表明,LDA模型能夠較為準(zhǔn)確地提取大數(shù)據(jù)領(lǐng)域文獻(xiàn)的研究主題,這有利于研究人員了解該領(lǐng)域的發(fā)展?fàn)顟B(tài),把握未來(lái)的研究方向,探尋新興主題。
當(dāng)然,本文亦存在不足之處:①本文選取的樣本數(shù)量較大(篇),具有一定的實(shí)踐意義,但僅僅考慮到了中文期刊文獻(xiàn),未考慮到外文文獻(xiàn),未來(lái)研究可以考慮擴(kuò)大樣本容量,以充分了解大數(shù)據(jù)領(lǐng)域的發(fā)展?fàn)顟B(tài);②各個(gè)主題的標(biāo)簽是筆者根據(jù)關(guān)鍵詞和自己的主觀判斷總結(jié)的,具有一定的主觀性。