• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于LDA和加權(quán)Word2vec的科學(xué)知識(shí)圖譜構(gòu)建研究

      2022-05-12 09:25:24楊云帆李坤琪楊秀璋羅子江
      現(xiàn)代計(jì)算機(jī) 2022年5期
      關(guān)鍵詞:科學(xué)知識(shí)圖譜向量

      趙 凱,楊云帆,袁 杰,李坤琪,楊秀璋,羅子江

      (貴州財(cái)經(jīng)大學(xué)信息學(xué)院,貴陽(yáng) 550025)

      0 引言

      隨著科學(xué)研究環(huán)境逐步改善,大量研究成果問(wèn)世,科學(xué)文獻(xiàn)數(shù)量呈指數(shù)式增長(zhǎng),但是科研工作者閱讀、分析、利用文獻(xiàn)的速度遠(yuǎn)遠(yuǎn)低于文獻(xiàn)發(fā)表的速度,科學(xué)知識(shí)圖譜就是在此情況下出現(xiàn)的一種提升文獻(xiàn)利用效率的科學(xué)方法,在趨勢(shì)研究、熱點(diǎn)發(fā)現(xiàn)、學(xué)科發(fā)展研究方面具有重要意義。有關(guān)科學(xué)知識(shí)圖譜最早可追溯到20 世紀(jì)60年代,美國(guó)科學(xué)研究所名譽(yù)所長(zhǎng)Eugene 等人在引文數(shù)據(jù)的基礎(chǔ)上手繪完成DNA 領(lǐng)域發(fā)展圖譜,此后,作為科學(xué)知識(shí)圖譜發(fā)展史上具有里程碑意義的文獻(xiàn)共被引分析和作者共被引分析方法也被逐步提出,為科學(xué)知識(shí)圖譜的早期發(fā)展奠定了堅(jiān)實(shí)基礎(chǔ)。21 世紀(jì)以來(lái),眾多學(xué)者致力于科學(xué)知識(shí)圖譜可視化的研究,2004年美國(guó)雷德賽爾大學(xué)的陳超美教授開發(fā)了CiteSpace,后由大連理工大學(xué)WISE 實(shí)驗(yàn)室引入國(guó)內(nèi),主要功能是對(duì)特定領(lǐng)域文獻(xiàn)進(jìn)行計(jì)量以探尋學(xué)科領(lǐng)域演化的關(guān)鍵路徑及知識(shí)轉(zhuǎn)折點(diǎn);2008年瑞典于默奧大學(xué)的Perrson 教授開發(fā)了BibExcel,主要用于文獻(xiàn)計(jì)量分析;2009年荷蘭萊頓大學(xué)科技研究中心的Van和Waltman開發(fā)了VOSviewer,主要面向文獻(xiàn)數(shù)據(jù),側(cè)重科學(xué)知識(shí)的可視化。近年來(lái)國(guó)內(nèi)關(guān)于科學(xué)知識(shí)圖譜的文獻(xiàn)數(shù)量也逐年增多,據(jù)中國(guó)知網(wǎng)相關(guān)數(shù)據(jù)顯示,2019年與科學(xué)知識(shí)圖譜相關(guān)的中文文獻(xiàn)量為714篇,相比2018年的553篇增長(zhǎng)了29%。

      1 相關(guān)研究概述

      科學(xué)知識(shí)圖譜作為一種直觀展示科學(xué)知識(shí)間關(guān)聯(lián)度的方法,受到眾多學(xué)者青睞。國(guó)外相關(guān)研究中,Price作為科學(xué)知識(shí)圖譜的早期開拓者,為科學(xué)知識(shí)圖譜的發(fā)現(xiàn)與發(fā)展做出了重要貢獻(xiàn);德國(guó)著名科學(xué)計(jì)量學(xué)家Kretschmer有關(guān)三維空間模型的研究為科學(xué)知識(shí)圖譜的進(jìn)一步發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。我國(guó)學(xué)者對(duì)于科學(xué)知識(shí)圖譜的研究相比于國(guó)外學(xué)者較晚,陳悅和劉則淵于2005年將科學(xué)知識(shí)圖譜的概念引入國(guó)內(nèi),為我國(guó)科學(xué)知識(shí)圖譜相關(guān)研究奠定基礎(chǔ);侯海燕以可視化方法對(duì)《科學(xué)計(jì)量學(xué)》1978年至2004年發(fā)表的1927 篇論文做作者共引分析,發(fā)現(xiàn)世界上最有影響力的50 位科學(xué)計(jì)量學(xué)家;劉榮在科學(xué)知識(shí)圖譜的基礎(chǔ)上,通過(guò)多維度分析、主成分分析等方法,研究分析了創(chuàng)新歷史與其現(xiàn)狀,并在此基礎(chǔ)上針對(duì)我國(guó)的實(shí)際情況,提出保持較高增速與增強(qiáng)國(guó)力的幾點(diǎn)建議;歐陽(yáng)芬和張蕾選取1949—2019年CNKI數(shù)據(jù)庫(kù)中收錄的2248 篇有關(guān)語(yǔ)文教材的相關(guān)論文,運(yùn)用CiteSpace 軟件繪制語(yǔ)文教材的研究機(jī)構(gòu)、研究作者、研究熱點(diǎn)等知識(shí)圖譜,深層挖掘新中國(guó)成立70周年以來(lái)語(yǔ)文教材的發(fā)展趨勢(shì);王露楊和楊國(guó)立收集CSSCI 中11284 篇與外國(guó)語(yǔ)言學(xué)研究有關(guān)的論文,運(yùn)用知識(shí)圖譜方法分析了外國(guó)語(yǔ)言學(xué)研究的研究熱點(diǎn)和發(fā)展趨勢(shì);王山等運(yùn)用關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜分析、關(guān)鍵詞引用突變分析、共詞聚類分析等方法對(duì)中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)下載的2013—2017年政治經(jīng)濟(jì)學(xué)研究領(lǐng)域的相關(guān)文獻(xiàn)進(jìn)行了科學(xué)計(jì)量分析,發(fā)現(xiàn)了近年政治經(jīng)濟(jì)學(xué)的研究現(xiàn)狀、研究熱點(diǎn),預(yù)測(cè)了政治經(jīng)濟(jì)學(xué)未來(lái)的發(fā)展趨勢(shì);陶于祥等采用時(shí)間演化分析、詞頻分析等方法,利用CiteSpace可視化軟件作出學(xué)科共現(xiàn)圖譜,綜合梳理了國(guó)內(nèi)外人工智能領(lǐng)域的發(fā)展脈絡(luò)、演變過(guò)程和研究熱點(diǎn);許曉陽(yáng)等通過(guò)結(jié)合專利與論文兩類文獻(xiàn),以關(guān)鍵詞共現(xiàn)為基礎(chǔ),識(shí)別學(xué)科研究熱點(diǎn)。

      綜上所述,科學(xué)知識(shí)圖譜中,關(guān)鍵詞共現(xiàn)圖譜與主題演化圖譜是學(xué)者們常用的可視化分析方法,其中的常規(guī)算法通常采用向量空間模型(vector space model,VSM)表示文本。基于向量相似距離來(lái)計(jì)算文本相似度,主要缺陷是沒(méi)有考慮詞語(yǔ)之間的語(yǔ)法關(guān)系,忽略了詞語(yǔ)之間的相似性,無(wú)法解決文本數(shù)據(jù)中存在同義詞和多義詞的情況。針對(duì)此問(wèn)題,本文采用基于潛在狄利克雷分布(latent dirichlet allocation,LDA)和加權(quán)Word2vec 的科學(xué)知識(shí)圖譜構(gòu)建方法。該方法首先利用LDA 模型抽取主題及每個(gè)主題下的關(guān)鍵詞,再用Word2vec 獲取每個(gè)主題下關(guān)鍵詞的詞向量,通過(guò)加權(quán)計(jì)算詞向量得到主題向量,進(jìn)而計(jì)算主題相似度與重要度,最后以可視化方法構(gòu)建主題共現(xiàn)圖譜和主題演化圖譜,從而達(dá)到從語(yǔ)義層面揭示領(lǐng)域發(fā)展變化的目標(biāo)。

      2 相關(guān)技術(shù)介紹

      2.1 LDA模型

      LDA是一種無(wú)監(jiān)督學(xué)習(xí)的主題概率生成模型,也被稱作三層貝葉斯概率模型,是在PLSA(probabilistic latent semantic analysis)模型的基礎(chǔ)上增加貝葉斯架構(gòu)模塊所形成的,具體模型如圖1所示。

      圖1 LDA文檔主題生成模型

      2.2 Word2vec

      Word2vec是2013年Google 公司開發(fā)的一款用于詞向量計(jì)算的開源工具,它根據(jù)上下文信息將輸入的特征詞訓(xùn)練為詞向量,用空間向量的相似度來(lái)表示語(yǔ)義相似度。其提供兩種語(yǔ)言模型,分別是CBOW(continuous bag-ofwords)模型和Skip-gram 模型。CBOW 模型旨在通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞的概率,其結(jié)構(gòu)如圖2 所示;Skip-gram 模型則利用當(dāng)前詞的詞向量來(lái)預(yù)測(cè)上下文,其結(jié)構(gòu)如圖3所示。兩種模型輸入輸出的內(nèi)容完全相反,但在模型的訓(xùn)練過(guò)程上是相同的。

      圖2 CBOW模型

      圖3 Skip-gram 模型

      3 基于LDA和加權(quán)Word2vec的科學(xué)知識(shí)圖譜構(gòu)建研究

      本文旨在從語(yǔ)義層面揭示領(lǐng)域發(fā)展變化情況,采用基于LDA和加權(quán)Word2vec 的科學(xué)知識(shí)圖譜構(gòu)建方法,以中國(guó)知網(wǎng)某領(lǐng)域期刊題目、摘要及關(guān)鍵詞作為分析對(duì)象,經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,利用LDA 模型抽取主題與關(guān)鍵詞,再采用Word2vec 獲取關(guān)鍵詞的詞向量,通過(guò)加權(quán)計(jì)算詞向量得到主題向量,進(jìn)而計(jì)算主題相似度與重要度,最后以可視化方法構(gòu)建知識(shí)圖譜。具體流程如圖4所示。

      圖4 基于LDA和加權(quán)Word2vec的科學(xué)知識(shí)圖譜構(gòu)建研究方法

      3.1 數(shù)據(jù)來(lái)源與數(shù)據(jù)預(yù)處理

      期刊論文的題目、摘要和關(guān)鍵詞能夠較好地反映研究領(lǐng)域的熱點(diǎn)主題和發(fā)展過(guò)程,因此本文以中國(guó)知網(wǎng)某領(lǐng)域期刊題目、摘要及關(guān)鍵詞為分析對(duì)象。數(shù)據(jù)預(yù)處理主要包括中文分詞、去除停用詞和關(guān)鍵詞過(guò)濾。文中運(yùn)用的分詞工具為Python 語(yǔ)言環(huán)境下結(jié)巴(Jieba)分詞工具;去停用詞階段使用的是哈工大公開的停用詞表;關(guān)鍵詞過(guò)濾采用TF-IDF 算法,通過(guò)計(jì)算每個(gè)詞語(yǔ)的TF-IDF 值過(guò)濾小于指定閾值的詞語(yǔ),形成關(guān)鍵詞集合。

      3.2 利用LDA主題概率生成模型抽取主題

      本文基于Python 第三方模塊sklearn 中的LDA 模型實(shí)現(xiàn)主題分布研究,并調(diào)用可視化包pyLDAvis 來(lái)確定主題數(shù)量。對(duì)比傳統(tǒng)的困惑度方法,視距圖(Intertopic Distance Map)更加清晰直觀地展現(xiàn)各主題之間的關(guān)系和對(duì)應(yīng)主題下關(guān)鍵詞詞頻,從而達(dá)到合理確定主題數(shù)量的目標(biāo),避免主題中關(guān)鍵詞重疊或過(guò)于稀疏。

      3.3 利用Word2vec獲取關(guān)鍵詞詞向量

      研究以預(yù)處理后的文檔為基礎(chǔ)數(shù)據(jù),采用CBOW 模型,利用Python 語(yǔ)言下的Word2vec 第三方包將詞訓(xùn)練為詞向量,然后從中提取主題下各關(guān)鍵詞的詞向量,以便后續(xù)處理。

      3.4 加權(quán)主題向量計(jì)算

      主題為多個(gè)不同頻次的關(guān)鍵詞集合,以往研究通常采用主題內(nèi)所有關(guān)鍵詞詞向量的均值來(lái)表示該主題向量,但這種方法沒(méi)有考慮到詞頻問(wèn)題。因此本文采用TF-IDF 加權(quán)平均法對(duì)主題內(nèi)不同關(guān)鍵詞賦予不同權(quán)重,計(jì)算公式如式(1)所示。

      式(1)中:表示主題的主題向量;為關(guān)鍵詞的詞向量;w為關(guān)鍵詞的TFIDF值;為主題中關(guān)鍵詞數(shù)量。

      3.5 主題相似度與重要度計(jì)算

      主題相似度(resemblance,Res)反映主題之間的關(guān)聯(lián)性和演化趨勢(shì),其值為不同主題之間的語(yǔ)義相似度,表示主題間的關(guān)聯(lián)性,是以?shī)A角余弦公式為基礎(chǔ)改進(jìn)的,具體計(jì)算公式如式(2)所示。

      式(2)中:是根據(jù)式(1)計(jì)算得到的加權(quán)主題向量;(,,…)表示主題向量各個(gè)維度的數(shù)值;Re(,)表示主題與主題間的主題相似度。

      主題重要度(imporantance,Imp)反映主題在研究領(lǐng)域內(nèi)的重要程度,數(shù)值的大小與主題重要度成正比,其隨時(shí)間的變化情況能夠反映主題在領(lǐng)域中相對(duì)重要性的變化。本文采用主題內(nèi)各關(guān)鍵詞TF-IDF 的均值表示主題重要度,具體計(jì)算公式如式(3)所示

      式(3)中:topic表示主題;為主題中關(guān)鍵詞個(gè)數(shù);TFIDF分別表示關(guān)鍵詞的文本頻率與逆文檔頻率指數(shù)。

      3.6 科學(xué)知識(shí)圖譜構(gòu)建

      目前基于內(nèi)容分析的科學(xué)知識(shí)圖譜存在以下不足:①關(guān)鍵詞共現(xiàn)圖譜不具有主題概念、無(wú)法判斷關(guān)鍵詞歸屬。②主題演化圖譜不包含時(shí)間信息,無(wú)法判斷主題隨時(shí)間的變化趨勢(shì)。解決上述問(wèn)題。本文參照傳統(tǒng)的關(guān)鍵詞共現(xiàn)圖譜和文獻(xiàn)主題演化圖譜,構(gòu)建包含關(guān)鍵詞歸屬的主題共現(xiàn)圖譜和增加時(shí)間橫軸的主題演化圖譜,結(jié)合兩種圖譜集中展示學(xué)科主題、主題重要度和主題相似度等三個(gè)方面的信息。

      (1)主題。通過(guò)圓形表示每個(gè)主題,在主題演化圖譜中結(jié)合了時(shí)間橫軸展現(xiàn)不同時(shí)間段的主題信息。

      (2)主題重要度。通過(guò)圓形的大小表現(xiàn)主題重要度,圓形半徑越大,主題重要度越高。

      (3)主題相似度。為展現(xiàn)各主題隨著時(shí)間推移的演變趨勢(shì),將各主題用寬度不等的線連接,連線的寬度與主題間相似度成正比。

      4 實(shí)證研究結(jié)果

      為了驗(yàn)證本文提出的基于LDA和加權(quán)Word2vec 的科學(xué)知識(shí)圖譜構(gòu)建方法的可行性,本文采用信息服務(wù)領(lǐng)域的期刊論文做實(shí)證研究,數(shù)據(jù)來(lái)源于中國(guó)知網(wǎng)數(shù)據(jù)庫(kù),主要包含期刊題目、摘要和關(guān)鍵詞三個(gè)方面,涉及58917篇期刊論文,時(shí)間節(jié)點(diǎn)跨越2000—2019 共20年。研究將整體數(shù)據(jù)分為兩種形式,第一種是將20年數(shù)據(jù)依據(jù)每4年一個(gè)階段劃分為5 部分,在此基礎(chǔ)上繪制主題演化圖譜,以研究近20年信息服務(wù)領(lǐng)域的主題演化趨勢(shì);另外一種是將總數(shù)據(jù)進(jìn)行整體分析,所得結(jié)果作為主題共現(xiàn)圖譜繪制依據(jù),借此探討信息服務(wù)領(lǐng)域近20年來(lái)的研究熱點(diǎn)。

      4.1 主題提取結(jié)果

      本文通過(guò)調(diào)用pyLDAvis 繪制視距圖以確定合理的主題數(shù)量,因篇幅限制僅展示總數(shù)據(jù)主題1 的關(guān)鍵詞,如圖5 所示,五個(gè)圓圈表示五個(gè)主題,基本沒(méi)有重疊,表示提取效果良好,右邊為關(guān)鍵詞詞頻。另外總年段數(shù)據(jù)的主題提取結(jié)果如表1所示,各年段數(shù)據(jù)的主題提取結(jié)果如表3所示。

      表1 2000—2019年總數(shù)據(jù)各主題關(guān)鍵詞

      圖5 總數(shù)據(jù)視距圖

      4.2 主題相似度與主題重要度計(jì)算

      主題相似度計(jì)算:利用式(2)計(jì)算總數(shù)據(jù)不同主題間的相似度,舉例來(lái)講就是分別計(jì)算出主題1 與主題2、3、4、5,主題2 與主題3、4、5,主題3 與主題4、5,主題4 與主題5 之間的相似度。

      主題重要度計(jì)算:主題重要度主要依據(jù)主題關(guān)鍵詞的TF-IDF 值,按式(3)計(jì)算,基于以上兩種條件,計(jì)算出總數(shù)據(jù)與各年段下每一個(gè)主題的主題重要度??倲?shù)據(jù)主題重要度與相似度如表2所示,由于篇幅原因,分年度數(shù)據(jù)不做贅述。

      表2 總數(shù)據(jù)主題重要度與相似度

      4.3 科學(xué)知識(shí)圖譜構(gòu)建

      主題共現(xiàn)圖譜結(jié)果如圖6所示。

      圖6 主題共現(xiàn)圖譜

      從圖中可見:

      (1)近20年來(lái),信息服務(wù)領(lǐng)域主要的研究方向?yàn)楦咝D書館個(gè)性化建設(shè)和技術(shù)創(chuàng)新、基于信息服務(wù)平臺(tái)的“三農(nóng)”發(fā)展、基于計(jì)算機(jī)應(yīng)用系統(tǒng)的技術(shù)研究、中國(guó)互聯(lián)網(wǎng)企業(yè)研究等。以上研究對(duì)象具有一個(gè)共同的特點(diǎn):均是以信息資源管理為基礎(chǔ),通過(guò)對(duì)數(shù)據(jù)的分析與處理,為主體的發(fā)展提供服務(wù)。

      (2)從主題重要度來(lái)講,近20年間信息服務(wù)在高校圖書館方向的研究是一大熱點(diǎn),與高校圖書館相關(guān)的主題重要度分別占據(jù)前兩位,主要原因是信息服務(wù)是高校圖書館最基本的職能之一,高校圖書館也為信息服務(wù)的發(fā)展提供良好的條件,憑借5G、大數(shù)據(jù)和云計(jì)算等高新技術(shù)得到進(jìn)一步發(fā)展,如5G 時(shí)代高校圖書館信息服務(wù)、大數(shù)據(jù)環(huán)境下高校圖書館研究和云計(jì)算環(huán)境下高校圖書館服務(wù)模式探索等均是一種體現(xiàn)。

      (3)從主題關(guān)聯(lián)度來(lái)講,高校圖書館個(gè)性化建設(shè)和技術(shù)創(chuàng)新兩個(gè)主題之間關(guān)聯(lián)度最大。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)資源對(duì)圖書館的沖擊最大,而技術(shù)創(chuàng)新與個(gè)性化建設(shè)均是為了提升圖書館信息服務(wù)水平,兩者互為補(bǔ)足,互相促進(jìn),是圖書館適應(yīng)社會(huì)發(fā)展趨勢(shì)的重要方法;高校圖書館個(gè)性化建設(shè)與中國(guó)互聯(lián)網(wǎng)企業(yè)研究關(guān)聯(lián)度最小,主要原因是二者研究對(duì)象具有明顯差異,高校圖書館最主要的職能是為高校師生提供學(xué)習(xí)、研究的良好環(huán)境,屬于服務(wù)為主的部門,而互聯(lián)網(wǎng)企業(yè)是盈利性機(jī)構(gòu),是以計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的發(fā)展為生存的根本,但是近年來(lái)高校圖書館與互聯(lián)網(wǎng)企業(yè)的聯(lián)系越發(fā)緊密,互聯(lián)網(wǎng)企業(yè)為圖書館信息技術(shù)的建設(shè)提供了巨大幫助,相信這會(huì)是二者不斷協(xié)調(diào)發(fā)展、互相促進(jìn)的契機(jī)。

      主題演化圖譜結(jié)果如圖7所示。

      結(jié)合表3和圖7可以看出:

      表3 2000—2019年各年段主題關(guān)鍵詞

      (1)各年段研究側(cè)重點(diǎn)不同。2000—2003和2004—2007 兩個(gè)年段,該領(lǐng)域主要側(cè)重點(diǎn)是對(duì)信息技術(shù)的發(fā)展,而2008年至今三個(gè)年段主要側(cè)重點(diǎn)是服務(wù),基于這種現(xiàn)象,我們認(rèn)為信息服務(wù)是基于信息技術(shù)才實(shí)現(xiàn)對(duì)社會(huì)的服務(wù),堅(jiān)實(shí)的信息技術(shù)是支撐服務(wù)的基礎(chǔ),但并非完全舍棄對(duì)信息技術(shù)的發(fā)展,而是在利用信息技術(shù)服務(wù)社會(huì)的同時(shí)也同樣重視信息技術(shù)的發(fā)展。

      (2)從主題關(guān)聯(lián)度來(lái)看,20年間存在三條關(guān)鍵主題演化路徑(圖7 中三種顏色不同的路徑),分別是高校圖書館、計(jì)算機(jī)技術(shù)應(yīng)用和農(nóng)業(yè)農(nóng)村方向的研究。而且各路徑在大的研究方向下不斷出現(xiàn)新的研究?jī)?nèi)容,同時(shí)也伴隨著舊研究?jī)?nèi)容的消失,以高校圖書館演化路徑為例,2000—2003年以文獻(xiàn)資源的研究為重點(diǎn),隨著時(shí)間的推移,結(jié)合社會(huì)發(fā)展,2004—2007年段出現(xiàn)讀者個(gè)性化研究、2008—2011年段出現(xiàn)圖書館創(chuàng)新、2012—2015年段出現(xiàn)數(shù)字圖書館研究、2016—2019年段則以圖書館服務(wù)模式創(chuàng)新為主要研究方向。

      圖7 主題演化圖譜

      (3)從主題重要度來(lái)看,高校圖書館演化路徑中每個(gè)主題的重要度在其所在年段均為最大,并且研究?jī)?nèi)容均與高校圖書館有關(guān),因此本文認(rèn)為有關(guān)高校圖書館的研究是信息服務(wù)領(lǐng)域近20年間最大的研究熱點(diǎn),這種趨勢(shì)也會(huì)繼續(xù)延續(xù)下去。

      5 結(jié)語(yǔ)

      科學(xué)知識(shí)圖譜作為一種直觀展示科學(xué)知識(shí)間關(guān)聯(lián)度的方法,可以大幅提升文獻(xiàn)利用效率,在趨勢(shì)研究、熱點(diǎn)發(fā)現(xiàn)、學(xué)科發(fā)展研究方面具有重要意義。針對(duì)現(xiàn)有可視化分析算法中沒(méi)有考慮詞語(yǔ)間語(yǔ)法關(guān)系、忽略詞語(yǔ)間相似性、無(wú)法解決同義詞和多義詞的問(wèn)題,本文提出一種基于LDA 與加權(quán)Word2vec 的科學(xué)知識(shí)圖譜構(gòu)建方法,實(shí)現(xiàn)文本-詞向量-知識(shí)圖譜的一系列轉(zhuǎn)化,達(dá)到從語(yǔ)義層面揭示領(lǐng)域發(fā)展變化情況的目標(biāo)。首先,研究以中國(guó)知網(wǎng)信息服務(wù)領(lǐng)域期刊數(shù)據(jù)為分析對(duì)象,經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,利用LDA 模型抽取主題及每個(gè)主題下的關(guān)鍵詞,再采用Word2vec獲取每個(gè)主題下關(guān)鍵詞的詞向量,通過(guò)加權(quán)計(jì)算詞向量得到主題向量,進(jìn)而計(jì)算主題相似度與重要度,最后以可視化方法構(gòu)建主題共現(xiàn)圖譜,分析了現(xiàn)階段信息服務(wù)領(lǐng)域各大研究方向、研究熱點(diǎn)與其關(guān)聯(lián)性,同時(shí)構(gòu)建主題演化圖譜,揭示了領(lǐng)域內(nèi)各階段研究側(cè)重點(diǎn),挖掘出關(guān)鍵主題演化路徑與其發(fā)展趨勢(shì)。

      猜你喜歡
      科學(xué)知識(shí)圖譜向量
      向量的分解
      蝸??囱泪t(yī)
      聚焦“向量與三角”創(chuàng)新題
      繪一張成長(zhǎng)圖譜
      基于科學(xué)知識(shí)圖譜的滑雪運(yùn)動(dòng)研究可視化分析
      2000-2017國(guó)外關(guān)系從句研究動(dòng)態(tài)的科學(xué)知識(shí)圖譜分析
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      社會(huì)化知識(shí)及其客觀性探析——兼議朗基諾的科學(xué)知識(shí)觀
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      向量垂直在解析幾何中的應(yīng)用
      禹州市| 威远县| 尼勒克县| 武城县| 黄陵县| 阳曲县| 锦屏县| 水城县| 山丹县| 通州区| 朔州市| 西华县| 友谊县| 德兴市| 城口县| 江西省| 乌鲁木齐县| 武汉市| 沂水县| 青田县| 利辛县| 易门县| 布尔津县| 云龙县| 岳普湖县| 德令哈市| 阳高县| 临城县| 原平市| 天柱县| 台江县| 津南区| 成都市| 贵定县| 崇礼县| 乡宁县| 五华县| 山丹县| 江陵县| 来凤县| 安吉县|