王雨婷
摘 要:目前文獻(xiàn)可視化平臺(tái)集中在文獻(xiàn)統(tǒng)計(jì)、共引關(guān)系分析上,缺乏對文獻(xiàn)研究趨勢的平臺(tái)設(shè)計(jì)。為了解決阿爾茲海默病文獻(xiàn)數(shù)量多、研究趨勢難以分析的問題,搭建了AD文獻(xiàn)計(jì)量分析可視化平臺(tái)。利用biopython提供的Entrez接口,爬取NCBI網(wǎng)站的AD相關(guān)文獻(xiàn)約12萬篇,并基于Echart實(shí)現(xiàn)了可視化。結(jié)果表明,區(qū)別于傳統(tǒng)文獻(xiàn)可視化平臺(tái),該平臺(tái)展示了阿爾茲海默癥的文獻(xiàn)研究趨勢,可查看歷年論文統(tǒng)計(jì)信息、各國家論文數(shù)量隨時(shí)間相對變化趨勢、頂級期刊論文被引用數(shù)量隨時(shí)間變化趨勢、各國家熱門關(guān)鍵詞以及關(guān)鍵詞隨時(shí)間變化趨勢等。
關(guān)鍵詞:阿爾茲海默癥;Entrez;文獻(xiàn)計(jì)量;可視化
DOI:10.11907/rjdk.173010
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)006-0111-05
Abstract:At present, the literature visualization platform is focused on the literature statistics and the analysis between the general relationship, but it lacks literature research trends platform design. The visualization platform of AD statistical analysis is constructed to solve the problems that the number of Alzheimer′s disease is large and the research trend is difficult to analyze. By using Entrez interface provided by biopython crawl about 12 million AD related literature on NCBI site, the platform achieves visualization based on echart.The results show that the platform is different from the traditional literature visualization platform, it shows the trend of literature research of Alzheimer′s disease, and the statistical information of the papers over the years, the relative trend of the number of papers in each country over time,the relative trend of the number of cited papers in top journals over time, the hot keywords of each country and the relative trend of the hot keyword over time can be reviewed.
Key Words:Alzheimer′s Disease; Entrez; bibliometrics; visualization
0 引言
阿爾茲海默癥(Alzheimer's Disease ,AD)是一種最常見的老年期癡呆疾病[1],主要癥狀為認(rèn)知和行為功能不可逆的緩慢喪失,至今仍是重大慢性疾病領(lǐng)域唯一尚無法治愈的疾病[2-3]。目前AD相關(guān)文獻(xiàn)數(shù)量高達(dá)12萬篇,文獻(xiàn)數(shù)量多,研究趨勢難以分析。因此,需要借助文獻(xiàn)計(jì)量方法對文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析[4-5],并借助可視化手段展示分析結(jié)果。
在文獻(xiàn)分析平臺(tái)、軟件領(lǐng)域,焦宏官[6]初步研究了中國中醫(yī)藥期刊文獻(xiàn)數(shù)據(jù)庫在線分析平臺(tái),該平臺(tái)主要實(shí)現(xiàn)了文獻(xiàn)統(tǒng)計(jì)、作者發(fā)文量統(tǒng)計(jì)以及作者合作關(guān)系分析,根據(jù)用戶需求展現(xiàn)結(jié)果,展示方式包括匯總圖、條形圖、拓?fù)鋱D、雷達(dá)圖、餅狀圖等。張震等[7]開發(fā)了基于Solr的大規(guī)模標(biāo)準(zhǔn)文獻(xiàn)可視化分析系統(tǒng),實(shí)現(xiàn)了可以自由定制的數(shù)據(jù)統(tǒng)計(jì)功能以及對標(biāo)準(zhǔn)文獻(xiàn)起草人、起草機(jī)構(gòu)的關(guān)聯(lián)分析功能。張少龍等[8]構(gòu)建了專利文獻(xiàn)引用關(guān)聯(lián)的可視化系統(tǒng),為企業(yè)或?qū)@墨I(xiàn)檢索單位提供了參考。胡亮[9]設(shè)計(jì)了實(shí)時(shí)文獻(xiàn)作者共引可視化系統(tǒng),為學(xué)者和科研人員提供引文的可視化查詢及分析平臺(tái)。
目前已有的文獻(xiàn)計(jì)量平臺(tái)集中在文獻(xiàn)數(shù)據(jù)統(tǒng)計(jì)以及共引關(guān)系分析上,缺乏針對研究趨勢的分析平臺(tái)。阿爾茲海默癥研究領(lǐng)域廣,不斷變化的研究熱點(diǎn)和不斷更新的研究發(fā)現(xiàn)導(dǎo)致其研究趨勢難以分析,而利用文獻(xiàn)計(jì)量可以很好地解決該問題[10-11]。該平臺(tái)主要實(shí)現(xiàn)了歷年論文統(tǒng)計(jì)信息可視化、各個(gè)國家發(fā)文量隨時(shí)間的相對變化趨勢可視化、頂級期刊論文被引用量隨時(shí)間相對變化趨勢可視化、各個(gè)國家熱門關(guān)鍵詞可視化和熱門關(guān)鍵詞隨時(shí)間相對變化趨勢可視化等。
1 可視化系統(tǒng)設(shè)計(jì)
1.1 系統(tǒng)架構(gòu)
AD文獻(xiàn)計(jì)量分析可視化平臺(tái)主要針對海量的AD文獻(xiàn)進(jìn)行相對變化趨勢分析,提取出有用信息并進(jìn)行可視化,針對用戶的需求為用戶提供一個(gè)直觀的分析結(jié)果,以便科研工作者更方便地掌握有用信息。
該平臺(tái)包含4個(gè)子系統(tǒng):爬蟲系統(tǒng)、數(shù)據(jù)存儲(chǔ)系統(tǒng)、數(shù)據(jù)分析處理系統(tǒng)、數(shù)據(jù)可視化系統(tǒng)。系統(tǒng)架構(gòu)如圖1所示。
爬蟲系統(tǒng)抓取NCBI網(wǎng)站(NCBI是美國國立生物技術(shù)信息中心,其數(shù)據(jù)庫囊括最全面的生物相關(guān)文獻(xiàn))上阿爾茲海默癥的全部相關(guān)文獻(xiàn),用于接下來的數(shù)據(jù)存儲(chǔ)以及統(tǒng)計(jì)分析。
數(shù)據(jù)存儲(chǔ)系統(tǒng)對抓取的初始AD文獻(xiàn)進(jìn)行解析存儲(chǔ),并對用于文獻(xiàn)統(tǒng)計(jì)分析的數(shù)據(jù)進(jìn)行存儲(chǔ)。爬蟲系統(tǒng)抓取的AD相關(guān)文獻(xiàn)初始為xml格式,將其全部存入非關(guān)系型數(shù)據(jù)庫mongodb中。利用beautifulsoup對初始文獻(xiàn)內(nèi)容進(jìn)行解析,以獲取本文研究需要的信息,將解析結(jié)果存入關(guān)系數(shù)據(jù)庫mysql。
數(shù)據(jù)分析處理系統(tǒng)分析了AD文獻(xiàn)的相對研究趨勢,包括文獻(xiàn)歷年統(tǒng)計(jì)信息分析、各國發(fā)文量變化趨勢分析、頂級期刊發(fā)文量變化趨勢分析、熱門關(guān)鍵詞分析以及熱門關(guān)鍵詞變化趨勢分析。根據(jù)分析需求,從mysql數(shù)據(jù)庫中提取相應(yīng)的信息,進(jìn)而利用python腳本進(jìn)行統(tǒng)計(jì)分析。
數(shù)據(jù)可視化系統(tǒng)對數(shù)據(jù)分析結(jié)果進(jìn)行可視化處理,為用戶提供可視化的選擇權(quán)利。本文采用Echars、ajax對分析結(jié)果進(jìn)行可視化。其中歷年AD論文統(tǒng)計(jì)信息利用折線圖展現(xiàn),各個(gè)國家發(fā)文量隨時(shí)間的相對變化趨勢、頂級期刊的論文被引用量隨時(shí)間的相對變化趨勢由堆疊區(qū)域圖或平鋪區(qū)域圖表示,各國熱門關(guān)鍵詞由詞云圖表示,各國研究的關(guān)鍵詞隨時(shí)間變化趨勢由直角坐標(biāo)系中的熱力圖表示。
1.2 系統(tǒng)流程
系統(tǒng)流程分為數(shù)據(jù)爬取、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析處理、數(shù)據(jù)可視化4個(gè)步驟,如圖2所示。
2 系統(tǒng)功能實(shí)現(xiàn)
2.1 爬蟲實(shí)現(xiàn)
主要利用biopython的Bio.Entrez模塊以編程方式訪問Entrez,用python腳本實(shí)現(xiàn)對相關(guān)數(shù)據(jù)庫的搜索以及數(shù)據(jù)下載,批量抓取NCBI網(wǎng)站上相關(guān)AD文獻(xiàn)12萬篇。
2.1.1 爬蟲流程
首先通過Entrez接口獲取全部文獻(xiàn)的ID列表,根據(jù)文獻(xiàn)ID批量抓取文獻(xiàn),抓取到的初始文獻(xiàn)存入mongodb數(shù)據(jù)庫,利用beautifulsoup存入mysql數(shù)據(jù)庫。該平臺(tái)爬取流程如圖3所示。
2.1.2 爬蟲優(yōu)化
針對NCBI網(wǎng)站抓取文獻(xiàn)過程中遇到的問題,進(jìn)行如下優(yōu)化處理:
(1)利用文獻(xiàn)編號(hào)快速抓取文獻(xiàn)。由于NCBI網(wǎng)站直接翻頁無法實(shí)現(xiàn),抓取NCBI的文獻(xiàn)需要作如下處理:通過biopython的Esearch獲取并存儲(chǔ)文章編號(hào);隨后讀取文獻(xiàn)編號(hào),通過biopython的EFetch抓取文獻(xiàn)。
(2)批量抓取文獻(xiàn)提升抓取效率。文獻(xiàn)抓取的過程包含以下4個(gè)步驟:①向NCBI發(fā)送請求;②NCBI在數(shù)據(jù)庫中搜索結(jié)果;③格式化成XML格式;④將請求結(jié)果全部返回。
文獻(xiàn)單個(gè)抓取準(zhǔn)確率高,但當(dāng)網(wǎng)絡(luò)不穩(wěn)定時(shí),爬蟲程序的突發(fā)性崩潰使得爬取請求被重新發(fā)送,從而降低文獻(xiàn)的抓取效率。文獻(xiàn)批量抓取,可減輕NCBI的負(fù)擔(dān),同時(shí)提升抓取效率。
(3)設(shè)置“抓取斷點(diǎn)”提供進(jìn)程保護(hù)。為了防止抓取過程中發(fā)生崩潰,創(chuàng)建文獻(xiàn)抓取記錄日志文件,抓取文獻(xiàn)時(shí),每100篇發(fā)送一次抓取請求,獲取100篇文獻(xiàn)抓取結(jié)果的臨時(shí)文件,保存該臨時(shí)文件,日志做記錄,繼續(xù)抓取接下來100篇直至全部爬取。如果發(fā)生崩潰,從發(fā)生崩潰的地方繼續(xù)爬取。
(4)“二次爬取”保證數(shù)據(jù)完整性。mysql創(chuàng)建文獻(xiàn)抓取記錄表,存入所有文獻(xiàn)ID,設(shè)置是否已抓取并保存字段。對抓取結(jié)果的所有臨時(shí)文件,依次作切片處理,將100篇文獻(xiàn)的抓取結(jié)果分割成一篇篇,并以文獻(xiàn)ID、文獻(xiàn)結(jié)果的方式存入mongodb數(shù)據(jù)庫中,存入同時(shí)在mysql數(shù)據(jù)庫中設(shè)置該文獻(xiàn)已爬取為真。對比mongodb數(shù)據(jù)庫里的文獻(xiàn)ID與mysql數(shù)據(jù)庫里的文獻(xiàn)ID,對mongodb數(shù)據(jù)庫中不存在的文獻(xiàn),再次爬取,再次做切片操作存入mongodb。
2.2 數(shù)據(jù)庫設(shè)計(jì)實(shí)現(xiàn)
采用非關(guān)系型數(shù)據(jù)庫mongodb存儲(chǔ)爬取的文獻(xiàn)結(jié)果,以及傳統(tǒng)的關(guān)系型數(shù)據(jù)庫mysql存儲(chǔ)用于文獻(xiàn)統(tǒng)計(jì)分析數(shù)據(jù)。爬取AD文獻(xiàn)過程中有大量數(shù)據(jù)信息高并發(fā)頻繁變更,文檔型數(shù)據(jù)庫mongodb以bson結(jié)構(gòu)進(jìn)行存儲(chǔ),對海量數(shù)據(jù)存儲(chǔ)的讀寫速度比mysql有明顯的優(yōu)勢。文獻(xiàn)統(tǒng)計(jì)分析過程中,關(guān)系型數(shù)據(jù)庫mysql在關(guān)聯(lián)查詢分析方面具備高性能。通過對平臺(tái)信息的分析,利用表存儲(chǔ)數(shù)據(jù),數(shù)據(jù)庫設(shè)計(jì)如下:
(1)爬取階段,mongodb文獻(xiàn)表(article)主要用來存放已經(jīng)爬取的文獻(xiàn)信息,mysql爬取記錄表(crawlrecords)主要用來做斷點(diǎn)記錄文獻(xiàn)是否已經(jīng)爬取。
(2)數(shù)據(jù)分析階段,表全部存放在mysql數(shù)據(jù)庫中,mysql文獻(xiàn)表(alzheimer)用來存儲(chǔ)解析后的各種文獻(xiàn)信息,如國家、發(fā)表時(shí)間、關(guān)鍵詞、期刊名、被引用數(shù)量等。
(3)數(shù)據(jù)分析處理后,用于可視化的表也存在mysql中,國家發(fā)文量占比表(proportion_of_country)主要存儲(chǔ)國家、發(fā)文量、年限、占比等信息,用來展示國家發(fā)文比例變化趨勢;期刊被引用量占比表(proportion_of_journal)主要存儲(chǔ)期刊、年限、發(fā)文量、被引用量、占比等信息,用來統(tǒng)計(jì)期刊被引用數(shù)相對變化趨勢;關(guān)鍵詞次數(shù)表(count_of_keyword)主要存儲(chǔ)國家、關(guān)鍵詞、出現(xiàn)次數(shù)等信息,用來繪制關(guān)鍵詞詞云圖;關(guān)鍵詞占比表(proportion_of_keyword)主要存儲(chǔ)國家、關(guān)鍵詞、年限、占比等信息,用來統(tǒng)計(jì)熱門關(guān)鍵詞變化趨勢。
2.3 數(shù)據(jù)分析實(shí)現(xiàn)
2.3.1 歷年文獻(xiàn)統(tǒng)計(jì)信息分析
該分析用于展現(xiàn)歷年AD文獻(xiàn)的變化趨勢。統(tǒng)計(jì)每一年的AD文獻(xiàn)數(shù)量,從中看出AD文獻(xiàn)數(shù)量歷年的變化趨勢。
2.3.2 各個(gè)國家發(fā)文量相對變化趨勢分析
該分析用于展現(xiàn)不同國家的AD發(fā)文量所占比重變化情況,通過每年每個(gè)國家發(fā)文量所占比例反映比重,因此統(tǒng)計(jì)了一定的年限內(nèi)發(fā)文量排名前10的國家,進(jìn)而分析這些國家發(fā)文量隨時(shí)間的相對變化趨勢。該比例的計(jì)算公式如下:
2.3.3 頂級期刊相對變化趨勢分析
該分析用于展現(xiàn)各個(gè)頂級期刊的論文被引用量所占比重變化情況,通過每年每個(gè)期刊被引用量所占比例反映比重,統(tǒng)計(jì)一定年限內(nèi)被引用排名前10的期刊,進(jìn)而分析這些頂級期刊被引用量隨時(shí)間的相對變化趨勢。該比例的計(jì)算公式如下:
2.3.4 關(guān)鍵詞相對變化趨勢分析
該分析用于展現(xiàn)各個(gè)國家的熱門關(guān)鍵詞,以及各國熱門關(guān)鍵詞所占比重的變化情況,通過每年各國每個(gè)熱門關(guān)鍵詞所占比例反映比重。該比例的計(jì)算公式如下:
2.4 可視化實(shí)現(xiàn)
主要利用Ajax技術(shù)向服務(wù)器發(fā)送請求,服務(wù)器收到請求后,讀取相應(yīng)數(shù)據(jù)庫中用于可視化的數(shù)據(jù),返回給Ajax,用Ajax的Success方法對返回的json數(shù)據(jù)作相應(yīng)處理,由Echarts渲染出可視化結(jié)果。
平臺(tái)實(shí)現(xiàn)了用戶可自由選擇統(tǒng)計(jì)年限、統(tǒng)計(jì)國家的功能。利用Echarts折線圖、柱狀圖、堆疊區(qū)域圖、平鋪圖、熱力圖對相應(yīng)的統(tǒng)計(jì)結(jié)果進(jìn)行可視化,并加入Echarts的工具欄,提供區(qū)域縮放、可視化結(jié)果保存的功能。
3 實(shí)驗(yàn)結(jié)果
3.1 抓取結(jié)果
本文選擇爬取NCBI網(wǎng)站,首先進(jìn)行數(shù)據(jù)檢索,進(jìn)入NCBI頁面,在TOPIC字段里輸入alzheimer′s disease作為關(guān)鍵詞進(jìn)行檢索,PMC數(shù)據(jù)庫共檢索到121 390篇相關(guān)論文,PubMed數(shù)據(jù)庫共檢索到121 664篇相關(guān)論文。其中,PubMed覆蓋了全世界70多個(gè)國家4 300多種主要生物醫(yī)學(xué)期刊的摘要和部分全文,PubMedCentral(PMC)是美國國家衛(wèi)生研究院國家醫(yī)學(xué)圖書館(NIH / NLM)的生物醫(yī)學(xué)和生命科學(xué)期刊文獻(xiàn)的免費(fèi)全文數(shù)據(jù)庫。
本平臺(tái)爬取PMC數(shù)據(jù)庫中AD相關(guān)論文12萬篇,提取了pmcID(每篇PMC文獻(xiàn)NCBI給定的獨(dú)一無二的標(biāo)識(shí)ID號(hào))、期刊名、文獻(xiàn)題目、摘要、第一作者信息(一般包含作者所在機(jī)構(gòu)和國家)、所有作者姓名、發(fā)表時(shí)間、關(guān)鍵詞、所有引用文章的pmcID。根據(jù)發(fā)表時(shí)間信息,分析出歷年AD文獻(xiàn)統(tǒng)計(jì)信息;根據(jù)第一作者信息和發(fā)表時(shí)間分析出發(fā)文量較多的國家,進(jìn)而分析出發(fā)文量較多國家的論文數(shù)量隨時(shí)間的相對變化趨勢;根據(jù)第一作者信息和關(guān)鍵詞分析出中、美以及其它國家的熱門關(guān)鍵詞,再綜合發(fā)表時(shí)間信息,分析出中、美及其它國家研究關(guān)鍵詞隨時(shí)間的相對變化趨勢以及研究側(cè)重點(diǎn)。針對以上分析結(jié)果進(jìn)行相應(yīng)的可視化處理。
爬取PubMed數(shù)據(jù)庫中AD相關(guān)論文12萬篇,提取了pubmedID(每篇收錄在PubMed數(shù)據(jù)庫的AD文獻(xiàn)NCBI給定的獨(dú)一無二的標(biāo)識(shí))、期刊名、發(fā)表時(shí)間、被引用數(shù)量。根據(jù)期刊名、發(fā)表時(shí)間和被引用數(shù)量信息篩選出頂級期刊,進(jìn)而分析頂級期刊論文被引用數(shù)量隨時(shí)間的相對變化趨勢。
3.2 可視化結(jié)果
平臺(tái)于2016年11月爬取數(shù)據(jù),NCBI網(wǎng)站雖收錄了2016年的文獻(xiàn),但是未完全展示摘要等信息,故可視化展現(xiàn)出來的文獻(xiàn)均在2016年之前。
(1)系統(tǒng)可視化展示歷年AD文獻(xiàn)的統(tǒng)計(jì)結(jié)果,其中x軸代表統(tǒng)計(jì)年限,y軸代表當(dāng)年的AD文獻(xiàn)總量。系統(tǒng)默認(rèn)展示文獻(xiàn)統(tǒng)計(jì)的整體趨勢折線圖,用戶可選擇所展示的統(tǒng)計(jì)年限(近10年、近20年或全部年限下的整體趨勢);平臺(tái)提供了圖形縮放按鈕,可供用戶在已選定的統(tǒng)計(jì)年限內(nèi),自由選擇欲查看的年限內(nèi)文獻(xiàn)統(tǒng)計(jì)結(jié)果;平臺(tái)提供了圖片保存按鈕可供用戶保存統(tǒng)計(jì)結(jié)果。用戶選擇展示近10年的文獻(xiàn)統(tǒng)計(jì)結(jié)果如圖4所示。
(2)系統(tǒng)可視化展示排名前列國家的發(fā)文量,其中x軸代表國家發(fā)文量,y軸代表國家。系統(tǒng)默認(rèn)展示排名前20的國家發(fā)文量,以柱狀圖形式展示。用戶可選擇展示國家的排名位數(shù)(前10位、前15位或前20位);平臺(tái)提供了圖片保存按鈕可供用戶保存發(fā)文量前列國家的統(tǒng)計(jì)結(jié)果。系統(tǒng)默認(rèn)展示的國家發(fā)文量統(tǒng)計(jì)圖見圖5。
系統(tǒng)可視化展示主要國家文獻(xiàn)的發(fā)文量相對變化趨勢,不同顏色區(qū)域代表不同國家,區(qū)域大小代表國家發(fā)文量所占比例,x軸代表統(tǒng)計(jì)年限,y軸代表發(fā)文量比例。
系統(tǒng)默認(rèn)展示近20年發(fā)文量排名前10的國家AD文獻(xiàn)發(fā)文量相對變化趨勢堆疊圖,可由用戶選擇統(tǒng)計(jì)的年限(近10年或近20年)、統(tǒng)計(jì)的國家(用戶可自由選擇排名前10國家中感興趣的國家)、變化趨勢圖展示的方式(堆疊式或平鋪式);平臺(tái)提供了圖形縮放按鈕,可供用戶在已選定統(tǒng)計(jì)年限內(nèi),自由選擇欲查看的年限;平臺(tái)提供了圖片保存按鈕可供用戶保存國家發(fā)文量趨勢圖的分析結(jié)果。用戶選擇展示近10年排名前5的國家發(fā)文量變化趨勢堆疊圖如圖6所示(彩圖見封二),可以看出美國一直處于AD研究前列,中國后來者居上,近年來AD研究超越了英、德等國家。
(3)系統(tǒng)可視化展示頂級期刊文獻(xiàn)的變化趨勢,下方x軸代表期刊的發(fā)文總量以及被引用總量,上方x軸代表期刊的平均被引用量,y軸代表期刊。系統(tǒng)默認(rèn)展示排名前15的頂級期刊被引用量、發(fā)文量柱狀展示以及平均被引用量折線圖??捎捎脩糇杂蛇x擇展示頂級文獻(xiàn)排名(前10、前15)變化趨勢圖展示的方式(數(shù)據(jù)視圖、折線圖、柱狀圖)。用戶選擇展示頂級期刊的被引用量、發(fā)文量、平均被引用量折線圖如圖7所示。
系統(tǒng)可視化展示頂級期刊文獻(xiàn)占比的相對變化趨勢,不同顏色區(qū)域代表不同頂級期刊,區(qū)域大小代表頂級期刊被引用量所占比例,x軸代表統(tǒng)計(jì)年限,y軸代表被引用量的比例。
系統(tǒng)默認(rèn)展示近20年被引用量排名前10的頂級期刊文獻(xiàn)被引用量相對變化趨勢堆疊圖,可由用戶選擇統(tǒng)計(jì)的年限(近10年、近20年)、統(tǒng)計(jì)的頂級期刊(用戶可自由選擇排名前10頂級期刊中感興趣的期刊)、變化趨勢圖展示的方式(堆疊式或平鋪式);平臺(tái)提供了圖形縮放按鈕,可供用戶在已選定統(tǒng)計(jì)年限內(nèi),自由選擇欲查看的年限;平臺(tái)提供了圖片保存按鈕可供用戶保存頂級期刊被引用量變化趨勢圖的分析結(jié)果。用戶選擇展示近10年被引用量排名前10的頂級期刊文獻(xiàn)變化趨勢圖的平鋪圖如圖8所示,可以看出關(guān)于AD研究各期刊各年間被引用比例變化較大,沒有一家獨(dú)秀的期刊。
(4)系統(tǒng)可視化展示各國的熱門關(guān)鍵詞,由單詞大小展示關(guān)鍵詞詞頻高低。系統(tǒng)默認(rèn)展示美國的熱門關(guān)鍵詞詞云,可由用戶選擇展示的國家(美國、中國、除中美之外的其它國家)。圖9為用戶選擇展示美國的關(guān)鍵詞詞云,可以看出brain、amyloid、inflammation是美國的研究熱點(diǎn)。
(5)系統(tǒng)可視化展示各國的熱門關(guān)鍵詞變化趨勢,由色度條展現(xiàn)熱度高低,其中顏色淺的地方表示熱度低,顏色深的地方表示熱度高,x軸代表統(tǒng)計(jì)年限,y軸代表熱門關(guān)鍵詞。系統(tǒng)默認(rèn)展示美國的關(guān)鍵詞變化趨勢,可由用戶選擇展示的國家(美國、中國、除中美之外的其它國家)。圖10(彩圖見封二)為用戶選擇展示美國的熱門關(guān)鍵詞變化趨勢,可以看出amyloid、brain是近年來美國的研究重點(diǎn)。
4 結(jié)語
本文開發(fā)設(shè)計(jì)了AD文獻(xiàn)計(jì)量分析可視化平臺(tái),區(qū)別于傳統(tǒng)文獻(xiàn)可視化平臺(tái)集中進(jìn)行文獻(xiàn)統(tǒng)計(jì)、共引關(guān)系分析,該平臺(tái)針對阿爾茲海默癥的相對研究趨勢進(jìn)行可視化分析。
平臺(tái)爬取NCBI網(wǎng)站關(guān)于AD的相關(guān)文獻(xiàn)12萬篇,統(tǒng)計(jì)歷年文獻(xiàn)信息,分析了各國論文發(fā)文量研究趨勢、頂級期刊論文被引用量研究趨勢、各國熱門關(guān)鍵詞及其變化趨勢,基于echart對文獻(xiàn)研究趨勢的結(jié)果進(jìn)行了可視化,并可根據(jù)研究者需求展現(xiàn)結(jié)果以供研究者查看。該平臺(tái)通過文獻(xiàn)分析,方便科研工作者深入了解AD研究領(lǐng)域中前沿?zé)狳c(diǎn)的變化趨勢,有利于推動(dòng)科學(xué)向前發(fā)展。
參考文獻(xiàn):
[1] 王麗英,郭冬梅,張琨.2002-2011年阿爾茨海默病的中醫(yī)藥研究文獻(xiàn)計(jì)量分析[J].中國現(xiàn)代中藥,2012,14(12):18-21.
[2] 劉承浩,周衛(wèi)東.2004-2014年中國阿爾茨海默病的研究現(xiàn)狀及發(fā)展趨勢文獻(xiàn)計(jì)量學(xué)分析[J].中國老年學(xué),2016,36(21):5403-5404.
[3] CHEN H, HO Y S. Highly cited articles in biomass research: a bibliometric analysis[J]. Renewable & Sustainable Energy Reviews, 2015,49(6):12-20.
[4] 李梅,陳鳴鳳.阿爾茨海默病文獻(xiàn)計(jì)量分析研究[J].中華神經(jīng)科雜志,2000,33(1):14-16.
[5] 周純,馬絲竹,姚志彬.阿爾茨海默病的文獻(xiàn)計(jì)量學(xué)分析[J].解剖學(xué)研究,2002,24(2):145-148.
[6] 焦宏官.中國中醫(yī)藥期刊文獻(xiàn)數(shù)據(jù)庫在線分析平臺(tái)初步建設(shè)研究[J].光明中醫(yī),2012,27(4):635-637.
[7] LU S, LI R M, TJHI W C, et al. A framework for cloud-based large-scale data analytics and visualization: case study on multiscale climate data[C]. IEEE Third International Conference on Cloud Computing Technology and Science. IEEE Computer Society, 2011:618-622.
[8] 張震,甘克勤.基于Solr的大規(guī)模標(biāo)準(zhǔn)文獻(xiàn)可視化分析系統(tǒng)[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2016,25(3):67-71.
[9] 張少龍,周寧,吳佳鑫.專利文獻(xiàn)引用關(guān)聯(lián)可視化系統(tǒng)的構(gòu)建——以“美國專利數(shù)據(jù)庫(USPTO)檢索系統(tǒng)”為例[J].現(xiàn)代圖書情報(bào)技術(shù),2007,2(2):64-66.
[10] 胡亮.實(shí)時(shí)文獻(xiàn)作者共引可視化系統(tǒng)研究[D].天津:天津大學(xué),2009.
[11] CHEN H, WAN Y, JIANG S, et al. Alzheimer′s disease research in the future: bibliometric analysis of cholinesterase inhibitors from 1993 to 2012[J]. Scientometrics, 2014,98(3):1865-1877.
[12] SONG M, HEO G E, LEE D. Identifying the landscape of Alzheimer′s disease research with network and content analysis[J]. Scientometrics, 2015,102(1):905-927.
(責(zé)任編輯:何 麗)