黃月 張昕
關鍵詞:知識結構;LDA模型;主題詞;共詞分析;數(shù)據(jù)挖掘
文獻數(shù)據(jù)知識發(fā)現(xiàn)的研究對象一般是學術檢索系統(tǒng)提供的科學文獻題錄,包含題目、作者、摘要、關鍵詞、分類號、來源、參考文獻等元素,這些元素分別作為檢索系統(tǒng)的檢索項提供檢索入口,此外通用的學術檢索系統(tǒng)還提供了包含題目、關鍵詞、摘要3種元素構成的“主題詞”。
知識結構(IntellectualStructure),指根據(jù)某一領域的科學文獻進行分析,通過對基于某種關系構成的文獻矩陣進行聚類而得到的組群及其關系。其中,每一組群對應該領域的一個研究子領域(或稱研究主題)[1]。
針對科學文獻題錄信息進行知識結構識別是文獻計量分析的一項重要任務,有助于幫助該領域的研究者了解研究主題及其關系。相比于關鍵詞,學術檢索系統(tǒng)中的主題詞更能反映作者關于這篇文獻主旨的概括。與傳統(tǒng)的知識結構識別方法相比,LDA模型可以有效挖掘文獻詞語之間的語義關系,彌補傳統(tǒng)文獻計量在詞語間處理能力的不足,對題目、摘要等長文本進行主題提取可以在更大程度上保留文獻原始信息,能在一定程度上解決關鍵詞無法很好概括文獻信息的問題。本文探索基于主題詞和LDA模型的知識結構識別,以數(shù)據(jù)挖掘領域頂尖期刊論文為例,并通過實驗證明了其有效性。
1相關工作概述
1.1知識結構識別
傳統(tǒng)學科知識結構識別方法是二步式的,即首先構建文獻元素相似性矩陣,然后對該矩陣進行結構識別。常見文獻元素相似性矩陣構建方法包括:文獻共被引、作者共被引、文獻耦合、作者文獻耦合和共詞分析等。這些思想已被廣泛應用于知識結構識別,并獲得了有效性驗證。其中,通過共同詞語聯(lián)系到一起的文獻可能表示一個共同的研究主題[2],共詞分析常以高頻關鍵詞作為分析對象,在研究過程中沒有涉及到文本中包含的語義信息,得到研究結果比較粗略。
越來越多的學者開始利用主題模型構建方法,對文本語義內(nèi)容進行分析,對學科主題進行研究。隱含狄利克雷分配(LatentDirichletAllocation,LDA)模型,是一種比較成熟的主題模型[3],是一種無監(jiān)督學習技術,可被用來識別大規(guī)模文檔集中潛在主題信息,與針對某一領域進行知識結構識別的本質(zhì)一致。LDA已被廣泛用于科學文獻情報分析,既包括主題識別[4]、主題演化[5]、新興主題發(fā)現(xiàn)[6]、學科交叉主題識別[7]等將LDA應用于不同領域的研究,也包括不同語料下主題抽取效果分析[8]、最優(yōu)主題個數(shù)確定[9]等利用LDA優(yōu)化主題識別研究。
1.2LDA模型
LDA模型,在2003年由BleiDM等[10]提出認為一篇文檔是由一組詞組成的集合,詞與詞之間沒有前后順序關系,且語料庫中的文檔也沒有順序關系。它是一個關于文檔、主題、詞語的3層貝葉斯概率生成模型,其核心思想是把文檔看成隱含主題的一個概率分布,主題看成詞語的一個概率分布。文檔到主題服從多項式分布,主題到詞服從多項式分布,而該多項分布的參數(shù)服從Dirichlet分布。
LDA模型首先由Dirichlet分布得到主題分布的參數(shù)的分布,然后隨機生成一個文檔的主題分布,之后在該文檔的每個位置,依據(jù)該文檔的主題分布隨機生成一個主題;然后由Dirichlet分布得到詞語分布的參數(shù)的分布,再得到主題的詞語分布,在該位置依據(jù)該主題的詞語分布隨機生成一個詞語,直到文檔的最后一個位置,生成整個文檔;最后重復以上過程,生成所有的文檔。
2研究設計
2.1研究思路
為探究考慮主題詞和LDA模型進行知識結構識別的有效性,本文進行3步研究,如圖1所示。首先,根據(jù)選定領域特點確定數(shù)據(jù)源、獲取原始數(shù)據(jù)、進行數(shù)據(jù)預處理,以得到格式統(tǒng)一、主題詞(題目、摘要和關鍵詞)齊全的實驗數(shù)據(jù)。然后,以關鍵詞或主題詞為實驗對象,利用共現(xiàn)聚類或LDA模型分別進行知識結構識別,即進行4組知識結構識別實驗。其中,利用文獻計量網(wǎng)絡可視化軟件VOSviewer的共現(xiàn)聚類進行知識結構識別,利用自編的Python程序構建關鍵詞或主題詞語料庫作為LDA模型輸入,使用開源GibbsLDA++工具包進行LDA模型訓練得到知識結構識別結果。最后,結合數(shù)據(jù)挖掘領域知識,對上述4組實驗結果進行兩兩有共性分析元素的對比分析,獲得基于關鍵詞和主題詞進行知識結構識別的差異、基于共現(xiàn)聚類和LDA模型進行知識結構識別的差異。
2.2基于LDA模型的知識結構識別方法
本文結合目前主流做法,提出如下基于LDA模型的知識結構識別方法。
步驟1:根據(jù)實驗目的獲取實驗數(shù)據(jù)。本研究針對兩種數(shù)據(jù)進行基于LDA模型的知識結構識別,一種是針對論文的關鍵詞,另一種是針對由題目、摘要和關鍵詞得到的切分后的主題詞。
步驟2:語料庫的數(shù)據(jù)預處理。因為題目和摘要是短句和短篇形式,需要針對實驗數(shù)據(jù)進行分詞、去符號、詞性還原和去停用詞處理。
步驟3:參數(shù)估計和推斷。利用LDA開源工具GibbsLDA++進行模型訓練,得到兩個超參數(shù)α、β的值。
步驟4:最優(yōu)主題個數(shù)K的確定。觀察不同主題個數(shù)下困惑度[11]的變化,利用拐點來確定K。
步驟5:計算在確定α、β、K下的研究主題情況。
3實驗數(shù)據(jù)
3.1數(shù)據(jù)源選取
數(shù)據(jù)挖掘作為一個相對新的研究領域還不是一種現(xiàn)有學科的子類別,因而采用在“谷歌學術指標(GoogleScholarMetrics,GSM)”的“工程和計算機科學”類別的子類“數(shù)據(jù)挖掘與分析”中出現(xiàn)的出版物作為數(shù)據(jù)源。
GSM主要使用h5指數(shù)和h5中位數(shù)兩種指數(shù)來幫助研究者去評估近期學術出版物中文章的可見度和影響力。2019版GSM涵蓋2014—2018年發(fā)表的文章,指標基于2019年7月在谷歌學術搜索中索引的所有文章的引用,這也包括來自谷歌學術指標本身未涵蓋的文章的引用[12]。在2019版GSM中列出了數(shù)據(jù)挖掘領域的9種學術期刊[13],進行統(tǒng)計,如表1所示,數(shù)據(jù)挖掘頂尖期刊的歷史都不是很長。《IEEETransactionsonKnowledgeandDataEngineering》是這里的第一個專業(yè)期刊,創(chuàng)刊于1989年,也比計算機其他領域(如:人工智能)的頂尖期刊歷史要短。此外,只有3種數(shù)據(jù)挖掘頂尖期刊創(chuàng)刊于21世紀之前,其余期刊創(chuàng)刊時間全部在2007年之后。
綜上,本文以2019版GSM中“數(shù)據(jù)挖掘與分析”類別下的9種學術期刊在2014—2018年的題錄作為數(shù)據(jù)源。
3.2原始數(shù)據(jù)獲取及預統(tǒng)計
本文數(shù)據(jù)獲取策略:首先從文摘數(shù)據(jù)庫中WebofScience數(shù)據(jù)庫(WOS)中進行檢索,檢索不到的以Scopus數(shù)據(jù)庫作補充。在WOS核心合集,利用基本檢索精確匹配出版物名稱,時間跨度為2014—2018年,選擇全記錄與引用的參考文獻進行題錄下載保存為.txt文件。在Scopus中按ISSN進行精確檢索,出版時間為2014—2018年,選擇所有字段進行題錄下載保存為.ris文件。最終,共計下載3341條題錄。
通過對2014—2018年9種數(shù)據(jù)挖掘領域頂尖學術期刊的年度發(fā)文量(599篇、691篇、712篇、663篇、676篇)統(tǒng)計發(fā)現(xiàn),總體呈現(xiàn)先上升后下降趨勢。2014—2016年發(fā)文量增長率逐年降低,2016年發(fā)文量達到了最高點(712篇),這說明2016年是數(shù)據(jù)挖掘領域的一個重要轉(zhuǎn)折點,2016年之前數(shù)據(jù)挖掘領域一直是研究的熱點。之后在2017年發(fā)文量達到最低點,2018年略有回升,但仍低于2015年的發(fā)文量數(shù)據(jù),說明數(shù)據(jù)挖掘領域研究已經(jīng)逐漸成熟,發(fā)文量逐漸趨于平穩(wěn)。
3.3原始數(shù)據(jù)預處理
由于本文獲取的原始數(shù)據(jù)來源于不同科學文獻數(shù)據(jù)庫(WOS和Scopus)的題錄格式不同,需要對此異構數(shù)據(jù)進行預處理。
1)把Scopus題錄格式轉(zhuǎn)換為更為普遍的WOS題錄格式。利用CiteSpace對從Scopus獲取的原始題錄將.ris轉(zhuǎn)換為.txt格式,獲得3341條具有統(tǒng)一WOS格式的題錄。
2)保證WOS和Scopus中的關鍵詞字段含義相同。已知WOS包括作者關鍵詞DE和擴展關鍵詞ID,而Scopus中只提供作者關鍵詞KW。經(jīng)核實發(fā)現(xiàn),經(jīng)過格式轉(zhuǎn)換過的題錄將Scopus中作者關鍵詞的縮寫由KW變?yōu)镮D,這與Scopus本意不一致,因此將格式轉(zhuǎn)換過的題錄文本中的作者關鍵詞縮寫由ID替換為DE。至此,獲得本文實驗數(shù)據(jù)共計3341篇文檔。
4 實驗結果與分析
4.1基于關鍵詞和共現(xiàn)聚類的知識結構識別結果
利用VOSviewer針對實驗數(shù)據(jù)中的作者關鍵詞進行關鍵詞共現(xiàn)聚類分析,結果采用圖譜顯示。結合領域知識,得到2014—2018年數(shù)據(jù)挖掘領域頂尖期刊研究,可以歸納為7個研究主題(如圖2所示,括號里數(shù)字為類規(guī)模)。
研究主題1為“聚類分類算法研究”,包括:clustering、classification、machinelearning、featureselection、informationretrieval、sentimentanalysis、datastreams、transferlearning等。研究主題2為“復雜網(wǎng)絡和圖挖掘”,包括:socialnetworkanaly?sis、communitydetection、graphmining、anomalydetection、complexnetwork、communitystructure等。研究主題3為“大數(shù)據(jù)和云計算”,包括:bigda?ta、queryprocessing、mapreduce、cloudcomputing、hadoop等。研究主題4為“社會媒體語義分析”,包括:socialnetworking(online)、socialmedia、onlinesocialnetwork、website、semantics等。研究主題5為“社會網(wǎng)絡預測和影響力分析”,包括:so?cialnetwork、forecasting、linkprediction、socialin?fluence、informationdiffusion等。研究主題6為“算法設計與實現(xiàn)”,包括algorithms、experimentation、performance、design等。研究主題7為“推薦系統(tǒng)研究”,包括:collaborativefiltering、recommendersystems、matrixfactorization等。這7個研究主題之間,聚類分類算法與大數(shù)據(jù)和云計算、復雜網(wǎng)絡和圖挖掘、社會媒體語義分析聯(lián)系較為緊密,復雜網(wǎng)絡和圖挖掘與社會媒體語義分析、社會網(wǎng)絡預測和影響力分析聯(lián)系較為緊密,推薦系統(tǒng)研究與社會網(wǎng)絡預測和影響力分析聯(lián)系較為緊密。
4.2基于主題詞和共現(xiàn)聚類的知識結構識別結果
把實驗數(shù)據(jù)中的作者關鍵詞部分整理為分詞詞典,利用自編的正向最大匹配算法對題目和摘要進行分詞,并對每一條題錄內(nèi)容中篩選出的關鍵詞部分通過自編算法進行去重,用Notepad++對篩選出的關鍵詞添加作者關鍵詞DE及VOSviewer軟件讀取數(shù)據(jù)必須識別到的縮寫內(nèi)容。經(jīng)多次共現(xiàn)次數(shù)實驗,基于主題詞共現(xiàn)聚類得到的網(wǎng)絡結構均不是十分清晰,大致可以得到5個主題(如圖3所示,括號里數(shù)字為類規(guī)模)。
研究主題1為“大數(shù)據(jù)管理與算法效率研究”,包括:datamining、bigdata、scalability、pri?vacy、effectivenessandefficiency、semantics、exper?imentalevaluation等。研究主題2為“分類和預測研究”,包括:classification、prediction、optimiza?tion、machinelearning、regression、featureselection等。研究主題3為“社會網(wǎng)絡分析和圖挖掘”,包括:socialnetwork、socialnetworks、twitter、socialmedia、theory、communitydetection、socialnetworkanalysis等。研究主題4為“推薦系統(tǒng)研究”,包括:ranking、recommendersystems、collaborativefil?tering、matrixfactorization、experimentation、baselinemethod、crowdsourcing、recommendersystem等。研究主題5為“聚類和時間序列分析”,包括:cluste?ring、timeseries、realdataset、datastreams、cluste?ringmethod、anomalydetection、knowledgediscovery、clusteringalgorithms、datastream等。在這5個研究主題中,社會網(wǎng)絡分析和圖挖掘與推薦系統(tǒng)研究這兩個研究主題聯(lián)系較為緊密。
4.3基于關鍵詞和LDA模型的知識結構識別結果
1)利用自編Python程序抽取實驗數(shù)據(jù)中的關鍵詞作為語料庫。
2)語料庫的數(shù)據(jù)預處理。利用Python語言在JupyterNotebook軟件環(huán)境下,自定義Clean函數(shù),對實驗語料庫進行分詞、去符號、詞性還原處理,最終得到本實驗語料庫的詞規(guī)模為37013。
3)參數(shù)估計和推斷。在Linux環(huán)境下,基于開源工具包GibbsLDA++實現(xiàn)模型訓練,設置迭代次數(shù)1000次,得到超參數(shù)α=1.430000、β=0.100000。
4)最優(yōu)主題個數(shù)確定。困惑度計算結果如圖4所示,在主題個數(shù)為35時困惑度最小,因此得到最優(yōu)主題個數(shù)K=35。
根據(jù)模型輸出文件獲得每個主題下與該主題最相關的詞語以及權重。主題1“軌跡數(shù)據(jù)挖掘”包括mining、image、trajectory、probabilistic等。主題2“復雜網(wǎng)絡拓撲結構分析”包括network、com?plex、degree、topology、coefficient等。主題3“隱私安全保護”包括privacy、spatial、service、secur?ity、trust等。主題4“文本語義抽取”包括seman?tic、extraction、text、pattern等。主題5“動態(tài)圖算法設計”包括design、dynamic、algorithm、graph、multiview等。主題6“矩陣分解”包括matrix、de?tection、factorization、nonnegative等。主題7“模糊分類算法”包括fuzzy、classification、statistic、rank等。主題8“自然語言處理概率語法模型”包括language、sentiment、natural、probabilistic、clas?sification等。主題9“時空數(shù)據(jù)挖掘”包括meth?od、location、network、performance、factor、spatio?temporal等。主題10“推薦系統(tǒng)研究”包括system、filtering、recommender、collaborative、design等。主題11“復雜網(wǎng)絡節(jié)點中心性度量”包括model、centrality、feature、network、computational等。主題12“信息檢索中的相似度分析”包括analysis、re?trieval、similarity、discovery、cluster等。主題13“在線社交媒體互動語義分析”包括social、medi?um、twitter、online、interaction、sentiment等。主題14“基于約束的距離聚類算法”包括clustering、learning、set、distance、algorithm、model、constraint等。主題15“最近鄰算法研究”包括query、pro?cessing、bayesian、neighbor、nearest、summarization、network、skyline、object、parallel、approximate、da?tabase等。主題16“搜索流分析”包括search、temporal、space、stream、analytics等。主題17“基于眾包的深度學習”包括algorithm、learning、ontology、crowdsourcing、deep等。主題18“機器學習及人工智能在文本上的應用”包括learning、machine、text、intelligence、artificial等。主題19“分布式計算模型及分布式數(shù)據(jù)庫”包括compu?ting、database、distributed、model、machine等。主題20“馬爾可夫隨機場模型及最大似然算法研究”包括system、markov、random、likelihood、estima?tion等。主題21“主題模型及文本分類”包括modeling、topic、management、event、classification等。主題22“復雜網(wǎng)絡社團結構發(fā)現(xiàn)”包括com?munity、network、detection、dynamic、structure等。主題23“基于分解的網(wǎng)絡優(yōu)化方法”包括optimi?zation、social、network、learning、decomposition、structural、unsupervised等。主題24“特征選擇及用戶行為研究”包括selection、feature、user、be?havior、reduction、learning、profile、social等。主題25“圖聚類分析”包括graph、detection、sampling、latent、clustering、similarity等。主題26“社交網(wǎng)絡中的異常檢測”包括social、online、network、exper?imentation、rank、anomaly、spam、influence等。主題27“決策樹算法”包括algorithm、tree、per?formance、decision、ensemble等。主題28“時間序列分類”包括classification、time、series、visualiza?tion、kernel等。主題29“網(wǎng)絡度量和行為檢測”包括network、detection、behavior、metric、meas?ure、linear、database等。主題30“圖表征研究”包括graph、quality、representation、optimization、embedding等。主題31“數(shù)據(jù)不平衡及增量問題研究”包括analytics、concept、imbalanced、incre?mental、subgraph等。主題32“頻繁模式挖掘”包括pattern、rule、frequent、experimentation、utility、sequential、association等。主題33“基于回歸的鏈路預測”包括prediction、regression、link、stream、online等。主題34“擴散理論及演化模型”包括model、influence、theory、diffusion、analysis等。主題35“基于半監(jiān)督的排序研究”包括ranking、local、semisupervised、selection、measurement等。
4.4基于主題詞和LDA模型的知識結構識別結果
1)利用自編Python程序抽取實驗數(shù)據(jù)中的主題詞作為語料庫。利用Python庫re模塊的正則表達式對字符串進行處理,根據(jù)文本格式選擇multi?line模式,篩選出題目TI、關鍵詞DE、摘要AB3部分內(nèi)容。
2)語料庫的數(shù)據(jù)預處理。利用Python語言在JupyterNotebook軟件環(huán)境下,自定義Clean函數(shù),對實驗語料庫進行分詞、去符號、詞性還原和去停用詞處理,最終得到本實驗語料庫的詞規(guī)模為377408。
3)參數(shù)估計和推斷。在Linux環(huán)境下,基于開源工具包GibbsLDA++實現(xiàn)模型訓練,設置迭代次數(shù)1000次,得到超參數(shù)α=1.470000、β=0.100000。
4)最優(yōu)主題個數(shù)確定。困惑度計算結果如圖5所示,在主題個數(shù)為34時困惑度最小,因此得到最優(yōu)主題個數(shù)K=34。
根據(jù)模型輸出文件獲得每個主題下與該主題最相關的詞語以及權重。主題1“復雜網(wǎng)絡節(jié)點中心性度量”包括network、node、measure、complex、sampling、centrality、degree等。主題2“事件進程監(jiān)測”包括event、process、temporal、technique、management、natural、source、news、monitoring等。主題3“時空數(shù)據(jù)挖掘”包括service、spatial、ap?proach、probabilistic、propose、effectiveness等。主題4“文本語義相似性研究”包括similarity、text、document、semantic、method、retrieval等。主題5“聚類算法研究”包括clustering、algorithm、meth?od、matrix、proposed、distance、subspace、vector等。主題6“優(yōu)化算法研究”包括method、space、solution、concept、constraint、optimization等。主題7“信息擴散影響度研究”包括influence、metric、diffusion、based、propagation等。主題8“動態(tài)社交網(wǎng)絡鏈接預測”包括network、social、interac?tion、link、relationship、dynamic等。主題9“分類算法研究”包括learning、classification、machine、label、domain等。主題10“知識系統(tǒng)應用研究”包括knowledge、system、technology、application、computing、study、cloud等。主題11“時間序列分析”包括time、series、study、product、method、dy?namic等。主題12“特征選擇及分類研究”包括feature、classification、selection、classset等。主題13“社團結構發(fā)現(xiàn)算法研究”包括community、de?tection、structure、anomaly、algorithm等。主題14“分布式任務性能研究”包括task、performance、distribution、result、sample、mechanism等。主題15“在線社交媒體網(wǎng)絡行為研究”包括social、us?er、online、medium、networking、behavior等。主題16“醫(yī)療數(shù)據(jù)挖掘”包括framework、predictive、patient、compared、video、record、accuracy、medi?cal、health、result、condition、disease等。主題17“圖像表征研究”包括approach、technique、multi?ple、representation、image、visualization等。主題18“分布式計算研究”包括algorithm、framework、distributed、rule、datasets、processing、mapreduce等。主題19“軌跡數(shù)據(jù)挖掘”包括pattern、mining、discovery、trajectory、frequent、traffic、sequence等。主題20“異構數(shù)據(jù)挖掘”包括topic、type、paper、object、finding、heterogeneous、inference、relation?ship等。主題21“回歸模型研究”包括method、model、regression、variable、paper、proposed、sta?tistical、linear等。主題22“搜索排序研究”包括search、ranking、framework、question等。主題23“數(shù)據(jù)庫查詢處理”包括query、database、stream、object、processing等。主題24“決策樹算法”包括approach、method、set、tree、decision、strategy等。主題25“基于移動通訊數(shù)據(jù)的人類行為研究”包括mobile、human、activity、article、impact、pa?per、tag、identification、phone等。主題26“推薦系統(tǒng)研究”包括user、system、recommendation、i?tem、preference、approach、rating、filtering、recom?mender、collaborative等。主題27“定位預測”包括prediction、location、application、resource、paper等。主題28“隱私安全保護”包括privacy、utili?ty、technique、control、access、security等。主題29“情感分析”包括analysis、sentiment、tweet、language、mining等。主題30“圖算法研究”包括graph、algorithm、edge、path、vertex等。主題31“數(shù)據(jù)集處理研究”包括approach、dataset、size、estimation等。主題32“大數(shù)據(jù)分析工具”包括data、paper、analytics、level、challenge、tradition?al、tool、massive等。主題33“算法性能研究”包括algorithm、efficient、application、result、perform?ance、scheme等。主題34“潛在混合模型研究”包括modeling、role、latent、factor、hierarchical、pa?rameter、mixture等。
4.5結果對比分析
在上述4組實驗基礎上,進行兩兩有共性分析元素的對比分析,包括以下4個方面。
1)分別基于關鍵詞、主題詞進行共現(xiàn)聚類的知識結構識別對比。4.1和4.2實驗結果表明,在關鍵詞基礎上,加入了分詞后的題目、摘要,得到的聚類個數(shù)變少,研究主題不夠突出,因為針對一篇文獻而言,其主題詞涵蓋的詞組往往比其關鍵詞范圍廣,故文獻之間的共性會變大,基于主題詞共現(xiàn)得到的聚類個數(shù)會變少。
2)基于關鍵詞分別進行共現(xiàn)聚類、LDA模型的知識結構識別對比。4.1和4.3實驗結果表明,前者得到的研究主題個數(shù)遠遠小于后者得到的研究主題個數(shù),前者得到的研究主題更概括。例如,前者的研究主題2“復雜網(wǎng)絡和圖挖掘”與后者的研究主題2“復雜網(wǎng)絡拓撲結構分析”、研究主題11“復雜網(wǎng)絡節(jié)點中心性度量”、研究主題22“復雜網(wǎng)絡社團結構發(fā)現(xiàn)”和研究主題29“網(wǎng)絡度量和行為檢測”緊密相關。
3)基于主題詞分別進行共現(xiàn)聚類、LDA模型的知識結構識別對比。4.2和4.4實驗結果表明,前者得到的研究主題個數(shù)遠遠小于后者得到的研究主題個數(shù),后者得到的研究主題更為細分和具體。例如,前者的研究主題5“聚類和時間序列分析”對應后者的研究主題5“聚類算法研究”和研究主題11“時間序列分析”。再如,后者可以識別得到“文本語義相似性研究”“信息擴散影響度研究”“醫(yī)療數(shù)據(jù)挖掘”等細粒度研究主題。
4)分別基于關鍵詞、主題詞進行LDA模型的知識結構識別對比。4.3和4.4實驗結果表明,二者得到的研究主題規(guī)模接近,均得到了細粒度的研究主題,二者存在大量共同或相關的研究主題和少量有差異的研究主題。例如,研究主題“軌跡數(shù)據(jù)挖掘”“隱私安全保護”“時空數(shù)據(jù)挖掘”“推薦系統(tǒng)研究”“復雜網(wǎng)絡節(jié)點中心性度量”均被二者識別出來。又如,前者的研究主題34“擴散理論及演化模型”和后者的研究主題7“信息擴散影響度研究”很接近。此外,前者的研究主題6“矩陣分解”、后者的研究主題20“異構數(shù)據(jù)挖掘”是二者有差異的研究主題。
進一步根據(jù)數(shù)據(jù)挖掘背景知識,分析這4組實驗,基于關鍵詞(或主題詞)和共現(xiàn)聚類的知識結構識別獲得的研究主題粒度更大,得到的研究主題更具概括性,例如:聚類、分類、推薦系統(tǒng)研究,并且可以獲得研究主題之間的關系,例如:社會網(wǎng)絡分析和推薦系統(tǒng)研究聯(lián)系較為緊密。而基于關鍵詞(或主題詞)和LDA模型的知識結構識別獲得的研究主題粒度更小、更具體,提供的語義信息更多。具體而言:①研究主題結合具體應用領域,能夠體現(xiàn)數(shù)據(jù)挖掘與其他領域的結合情況,例如“醫(yī)療數(shù)據(jù)挖掘”;②研究主題更細致,例如可以識別出“復雜網(wǎng)絡節(jié)點中心性度量”和“異構數(shù)據(jù)挖掘”這樣的具體研究主題;③研究主題涉及面更廣,包括“軌跡數(shù)據(jù)挖掘”“情感分析”“時間序列分析”“基于眾包的深度學習”等主題。這應該是由于主題詞包括題目、關鍵詞、摘要3部分,相較于關鍵詞共現(xiàn)聚類只利用文獻的關鍵詞信息,前者產(chǎn)生的可解讀信息更多。
綜上,若針對同樣的關鍵詞(或主題詞),基于關鍵詞的共現(xiàn)聚類效果要好于基于主題的共現(xiàn)聚類效果,基于共現(xiàn)聚類獲得的研究主題較為籠統(tǒng),但可以獲得研究主題之間的關系,而LDA模型獲得的研究主題涉及具體應用更廣、主題更加細分。
5結論
針對科學文獻挖掘知識結構兼具研究價值和實際價值。已有進行知識結構識別的方法鮮有從主題詞包括的題目、摘要和關鍵詞3方面入手,而考慮詞語間語義信息的知識結構識別十分重要。本文充分考慮作者定義的具有高度語義概括的題目、摘要和關鍵詞,提出了基于主題詞和采用LDA模型的知識結構識別方法,即首先要保證語料庫包含文獻的題目、摘要和關鍵詞信息,然后對語料庫進行分詞、去符號、詞性還原和去停用詞預處理,再利用開源工具GibbsLDA++進行LDA模型的超參估計,最后利用困惑度來確定最優(yōu)主題個數(shù)。以基于谷歌學術指標獲得的2014—2018年數(shù)據(jù)挖掘頂尖學術期刊論文為數(shù)據(jù)源,進行基于關鍵詞(或主題詞)、采用共現(xiàn)聚類(或LDA模型)的4組交叉實證分析。結果表明,基于關鍵詞共現(xiàn)聚類不僅可以獲得聚類結果,還可以獲得類之間的關系,而基于主題詞和LDA模型的知識結構識別有效且相對于傳統(tǒng)的基于關鍵詞共現(xiàn)聚類得到的研究主題更結合具體應用領域、更細致,可以提供更多的信息用于研究主題解讀。在未來研究中,考慮對LDA模型進行改進以發(fā)現(xiàn)具體領域的新興研究主題。
3576500338220