李 昱,楊 濤
(南京中醫(yī)藥大學(xué),江蘇 南京 210023)
中醫(yī)藥文化擁有幾千年的歷史,數(shù)據(jù)量巨大且復(fù)雜多樣,其中蘊含的規(guī)律及經(jīng)驗浩如煙海,僅憑人工歸納則缺乏科學(xué)性、客觀性、全面性。如何利用新時代的科技優(yōu)勢進行守正創(chuàng)新即成為迫不及待的問題。隨著信息技術(shù)的發(fā)展,數(shù)據(jù)挖掘這一研究領(lǐng)域逐漸成為熱點。數(shù)據(jù)挖掘是指從海量數(shù)據(jù)中,通過算法提取隱含在其中、潛在有用的信息[1]。數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥數(shù)據(jù)處理中展現(xiàn)了廣泛的應(yīng)用前景。越來越多的學(xué)者利用數(shù)據(jù)挖掘開展中醫(yī)藥研究。如趙舒蒙等[2]利用復(fù)雜網(wǎng)絡(luò)分析古醫(yī)籍中針灸治療惡心嘔吐腧穴配伍規(guī)律;張洪源等[3]利用數(shù)據(jù)挖掘和整合藥理學(xué)探討中藥桃仁治療冠心病的分子機制;陳曦等[4]利用醫(yī)案解構(gòu)探討名老中醫(yī)經(jīng)驗數(shù)據(jù)挖掘現(xiàn)狀;趙小萱等[5]利用數(shù)據(jù)挖掘研究中醫(yī)古籍中崩漏氣血虧虛證用藥規(guī)律等。為更好地展現(xiàn)中醫(yī)藥數(shù)據(jù)挖掘研究的發(fā)展脈絡(luò),本研究借助CiteSpace科學(xué)文獻計量軟件,對2010—2019年有關(guān)中醫(yī)藥數(shù)據(jù)挖掘研究領(lǐng)域的文獻進行可視化分析,以期為進一步推進中醫(yī)藥數(shù)據(jù)挖掘研究提供參考。
1.1 數(shù)據(jù)來源 本研究數(shù)據(jù)來源于中國知網(wǎng)(CNKI),采用專業(yè)檢索,設(shè)置檢索條件:SU=(“數(shù)據(jù)挖掘”+“數(shù)據(jù)處理”+“數(shù)據(jù)分析”+“知識發(fā)現(xiàn)”+“聚類”+“關(guān)聯(lián)規(guī)則”+“因子分析”+“復(fù)雜網(wǎng)絡(luò)”+“決策樹”+“回歸分析”+“貝葉斯”+“神經(jīng)網(wǎng)絡(luò)”+“支持向量機”+“隨機森林”+“K-Means”+“Apriori算法”+“K-鄰近”)AND(SU=“中醫(yī)”+“中藥”+“中醫(yī)藥”+“方劑”+“針灸”),設(shè)置檢索時間范圍為近10年(2010年1月1日至2019年12月31日),共檢索到6 113篇相關(guān)文獻(檢索時間為2020年2月12日),其中會議通知228篇,學(xué)位論文3 216篇,期刊論文2 669篇。
1.2 文獻篩選 為保證文獻研究結(jié)果的一致性與科學(xué)性,納入主題符合檢索式、內(nèi)容符合中醫(yī)藥數(shù)據(jù)挖掘的文獻,排除會議通知和學(xué)位論文及內(nèi)容不符合中醫(yī)藥數(shù)據(jù)挖掘的文獻。共獲得1 860篇有效文獻。
1.3 數(shù)據(jù)處理 CiteSpace是由美國德雷塞爾大學(xué)陳超美研發(fā),并在Java環(huán)境下運行的信息可視化軟件,基于共引分析理論和尋徑網(wǎng)絡(luò)算法等,對某領(lǐng)域的樣本文獻進行計算,通過分析繪制的可視化圖譜探尋該學(xué)科演化的潛在動力及其發(fā)展的前沿趨勢[6]。
本研究采用CiteSpace 5.6.R2軟件內(nèi)置功能,將從中國知網(wǎng)上導(dǎo)出的文獻經(jīng)格式轉(zhuǎn)化后,通過CiteSpace 5.6.R2對中醫(yī)藥數(shù)據(jù)挖掘相關(guān)文獻進行作者合作網(wǎng)絡(luò)分析、機構(gòu)合作網(wǎng)絡(luò)分析、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析等。借助可視化圖譜,分析中醫(yī)藥數(shù)據(jù)挖掘研究領(lǐng)域發(fā)展演化的過程。
為保證結(jié)果的準(zhǔn)確性,對納入的1 860篇文獻所屬機構(gòu)及關(guān)鍵詞進行規(guī)范化去重處理,對于具有相同含義而表述不一的情況進行統(tǒng)一。如“浙江中醫(yī)藥大學(xué)第二臨床醫(yī)學(xué)院”規(guī)范為“浙江中醫(yī)藥大學(xué)”,“廣州中醫(yī)藥大學(xué)第一附屬醫(yī)院骨傷科”規(guī)范為“廣州中醫(yī)藥大學(xué)第一附屬醫(yī)院”等,“中醫(yī)傳承輔助平臺”與“中醫(yī)傳承輔助系統(tǒng)”統(tǒng)一為“中醫(yī)傳承輔助系統(tǒng)”等。
2.1 發(fā)文量分析 對納入的1 860篇文獻按照發(fā)表年限進行統(tǒng)計,2010—2014年這一階段雖然發(fā)文量有微小波動,但整體處于平緩增長趨勢。2015—2019年這一階段發(fā)展迅速,發(fā)文量快速增長。中醫(yī)藥數(shù)據(jù)挖掘這一研究領(lǐng)域引起越來越多的學(xué)者關(guān)注,已經(jīng)成為國內(nèi)研究的一個熱點。使用OriginPro軟件對目前發(fā)文情況使用三階多項式進行曲線擬合,擬合后R平方為0.968 5,模型擬合優(yōu)度較高。圖1中虛線為擬合曲線,根據(jù)趨勢線預(yù)測2020年發(fā)文量將突破500篇。
圖1 論文發(fā)表時間分布圖(虛線為擬合曲線)
2.2 作者合作網(wǎng)絡(luò)分析 應(yīng)用CiteSpace 5.6.R2軟件對中醫(yī)藥數(shù)據(jù)挖掘研究相關(guān)文獻的作者合作網(wǎng)絡(luò)進行共現(xiàn)分析,設(shè)置時間跨度為2010—2019年,時間切片為1,選擇節(jié)點類型為“Author”,其他參數(shù)按默認值設(shè)置。圖譜中節(jié)點大小代表作者出現(xiàn)的頻數(shù),節(jié)點之間的連線代表作者合作的強度。
作者合作網(wǎng)絡(luò)中共有節(jié)點591個、連線1 109條,網(wǎng)絡(luò)密度為0.006 4。由表1及圖2可知,發(fā)文量較多的作者為劉健、忻凌、郭錦晨、任玉蘭,分別發(fā)表文獻31、28、24、24篇。根據(jù)普賴斯定律,核心作者的發(fā)文量計算公式為MP=0.749 Npmax(Npmax為同一主題中最高的發(fā)文量)[7],根據(jù)公式計算得MP為4.17,因此該領(lǐng)域的核心作者共有56位。表1詳細列舉發(fā)文量前20位的核心作者。圖譜中大多為散落的結(jié)點及較為獨立穩(wěn)定的合作小團隊,然而團隊內(nèi)部合作緊密,不同團隊之間的合作較為微弱。以高產(chǎn)作者劉健、宋倩、郭錦晨、忻凌、周巧等為核心的團隊連線密度較大,合作次數(shù)較多,已形成合作較為成熟的團隊。
表1 作者列表(發(fā)文量前20 位)
圖2 作者合作網(wǎng)絡(luò)圖
2.3 研究機構(gòu)分析 應(yīng)用CiteSpace 5.6.R2軟件對中醫(yī)藥數(shù)據(jù)挖掘研究相關(guān)文獻的研究機構(gòu)合作網(wǎng)絡(luò)進行共現(xiàn)分析,設(shè)置時間跨度為2010—2019年,時間切片為1,選擇節(jié)點類型為“Institution”,其他參數(shù)按默認值設(shè)置。圖譜中節(jié)點大小代表機構(gòu)出現(xiàn)的頻數(shù),節(jié)點之間的連線代表機構(gòu)合作的強度。
研究機構(gòu)合作網(wǎng)絡(luò)中共有節(jié)點391個、連線391條,網(wǎng)絡(luò)密度為0.005 1。表2詳細列舉發(fā)文量≥21的研究機構(gòu),選取發(fā)文量≥21的研究機構(gòu)形成共現(xiàn)圖如圖3所示。研究機構(gòu)主要是中醫(yī)藥大學(xué)及其附屬醫(yī)院。廣州中醫(yī)藥大學(xué)、北京中醫(yī)藥大學(xué)、山東中醫(yī)藥大學(xué)及中國中醫(yī)科學(xué)院為該研究領(lǐng)域的高產(chǎn)機構(gòu),發(fā)文量分別為116、97、80、77篇。其次是成都中醫(yī)藥大學(xué)、南京中醫(yī)藥大學(xué)、安徽中醫(yī)藥大學(xué)、天津中醫(yī)藥大學(xué),發(fā)文量均超過40篇。圖中擁有紫色外環(huán)的節(jié)點通常在圖譜中起到連接不同聚類的“中介”作用。以廣州中醫(yī)藥大學(xué)、北京中醫(yī)藥大學(xué)、中國中醫(yī)科學(xué)院為核心的研究機構(gòu)具有突出的輻射帶動作用,形成以這些機構(gòu)為中心的學(xué)術(shù)共同體。
表2 研究機構(gòu)列表(發(fā)文量≥21)
圖3 研究機構(gòu)共現(xiàn)圖譜(發(fā)文量≥21)
2.4 研究熱點分析
2.4.1 關(guān)鍵詞共現(xiàn)分析 關(guān)鍵詞是全文內(nèi)容的核心描述和高度凝練,基于關(guān)鍵詞進行可視化分析,是掌握該研究領(lǐng)域熱點話題的有效途徑。運行CiteSpace 5.6.R2軟件,設(shè)置時間切片為1,選擇節(jié)點類型為“keyword”。在Thresholds參數(shù)設(shè)置模塊,設(shè)置閾值分別為(2,2,20)(4,3,20)(4,3,20)。在Pruning模塊下,選擇Minimum Spanning Tree及Pruning sliced networks。得到結(jié)果如圖4,圖中的節(jié)點越大,表明該關(guān)鍵詞出現(xiàn)的頻數(shù)越高,越受關(guān)注。若圖譜中的節(jié)點呈現(xiàn)紫色外圍,則表明該節(jié)點的中介中心性較大,在圖譜中發(fā)揮重要橋梁作用。圖譜中共有節(jié)點133個、連線219條,網(wǎng)絡(luò)密度為0.024 9。其中出現(xiàn)頻數(shù)≥20的關(guān)鍵詞共有24個(見表3)。其中數(shù)據(jù)挖掘為出現(xiàn)頻數(shù)最高的關(guān)鍵詞,出現(xiàn)頻數(shù)為816。高頻關(guān)鍵詞主要與證候研究、規(guī)律探究、名醫(yī)經(jīng)驗及技術(shù)術(shù)語相關(guān),如用藥規(guī)律、配伍規(guī)律、關(guān)聯(lián)規(guī)則、聚類分析等。根據(jù)CiteSpace 5.6.R2運行顯示的各關(guān)鍵詞的中心度,列舉出中心度≥0.05的關(guān)鍵詞如表4所示。關(guān)鍵詞中心度較大的有用藥規(guī)律、文獻研究、聚類分析、關(guān)聯(lián)規(guī)則等。這些關(guān)鍵詞代表目前該研究領(lǐng)域的熱點話題,在用藥規(guī)律、名醫(yī)經(jīng)驗挖掘、配伍規(guī)律等方面通過聚類分析、關(guān)聯(lián)規(guī)則等手段輔助進行研究。
表3 關(guān)鍵詞列表(頻數(shù)≥20)
表4 關(guān)鍵詞列表(中心性≥0.05)
圖4 關(guān)鍵詞共現(xiàn)圖譜
2.4.2 關(guān)鍵詞聚類分析 關(guān)鍵詞聚類分析可以幫助迅速了解該研究領(lǐng)域的分布情況及研究前沿。在關(guān)鍵詞共現(xiàn)的基礎(chǔ)上,選擇“Timeline View”及“Keyword”,對主要關(guān)鍵詞進行自動聚類,得到中醫(yī)藥數(shù)據(jù)挖掘時間線圖譜。結(jié)果如圖5所示,共得到12個聚類。CiteSpace使用模塊值Q和平均輪廓值S作為判斷繪制效果的依據(jù),如果Q>0.3,說明圖譜結(jié)構(gòu)合理,如果S>0.5,說明網(wǎng)絡(luò)的同質(zhì)性合理,如果S>0.7,則說明是可信的[6]。由圖5可知,Q=0.592 6(>0.3),S=0.744 5(>0.7)。表明該聚類圖譜的繪制效果是較為合理可信的。
圖5 中醫(yī)藥數(shù)據(jù)挖掘關(guān)鍵詞時間線圖譜
關(guān)鍵詞聚類的情況見表5,通過對聚類標(biāo)簽內(nèi)包含的關(guān)鍵詞及相關(guān)文獻進行分析,共歸納出以下6個研究熱點。
表5 關(guān)鍵詞聚類情況列表
(1)證候分布規(guī)律研究:辨證論治是中醫(yī)治療的核心,針對不同證候采取不同的方藥治療。根據(jù)疾病發(fā)生的病位、病性證素特點,總結(jié)歸納出多種證型,從而施行分型論治。
(2)名老中醫(yī)用藥規(guī)律及學(xué)術(shù)思想傳承:名老中醫(yī)的辨證思維、臨床經(jīng)驗是中醫(yī)藥事業(yè)傳承創(chuàng)新的原動力,亦是理論知識與臨床療效結(jié)合的成功案例。繼承和推廣名老中醫(yī)的學(xué)術(shù)思想,有利于推動中醫(yī)藥事業(yè)的發(fā)展,培養(yǎng)新一代中醫(yī)藥人才[8]。
(3)針灸選穴配穴規(guī)律研究:挖掘針灸治療的研究文獻,遵循臟腑辨證、經(jīng)絡(luò)辨證、病因病機論治、隨癥取穴等規(guī)律[9],從而把握針灸臨床治療的選穴規(guī)律,為針灸治療的配伍選穴提供了參考依據(jù),并有效提高臨床療效。
(4)中藥組方規(guī)律和微觀機制研究:應(yīng)用關(guān)聯(lián)規(guī)則、復(fù)雜網(wǎng)絡(luò)等,開展中藥配伍研究,從而為臨床治療提供參考。將中藥理論與現(xiàn)代臨床醫(yī)學(xué)將結(jié)合,從分子水平探究中藥四氣五味與中藥功效的相關(guān)性及藥性理論的現(xiàn)代科學(xué)內(nèi)涵,結(jié)合臨床數(shù)據(jù),分析藥物與臨床指標(biāo)的關(guān)聯(lián)[10]。
(5)中藥注射劑安全性評價研究:分析中藥注射劑的成分,探討不同中藥注射劑的共性成分[11],探究中藥注射劑相關(guān)不良反應(yīng)的關(guān)聯(lián)因素,總結(jié)不良反應(yīng)的防治措施及合理用藥對策[12],能夠更好地為中藥注射劑的臨床用藥安全提供參考。
2.4.3 關(guān)鍵詞突現(xiàn)分析 突現(xiàn)關(guān)鍵詞是指在某一階段突發(fā)的高頻關(guān)鍵詞,在某些程度上可以反映該研究領(lǐng)域的熱點演變狀況,預(yù)測研究趨勢。關(guān)鍵詞突現(xiàn)分析表明,利用數(shù)據(jù)挖掘開展中醫(yī)證候研究投入時間較長,作為熱門話題一直持續(xù)至2015年。醫(yī)案古籍資源中蘊含多重信息,自2011年開始深度挖掘醫(yī)案資源至2016年。自2014年開始開展名老中醫(yī)經(jīng)驗挖掘及治療思路梳理,持續(xù)至2017年。2017年至今,中醫(yī)藥規(guī)律探究逐漸成為研究主流話題,眾多學(xué)者深入研究配伍規(guī)律、用藥規(guī)律、選穴規(guī)律等,預(yù)測未來幾年這一研究方向仍會繼續(xù)作為研究熱點,引發(fā)中醫(yī)藥數(shù)據(jù)挖掘研究的熱潮。(見表6)
表6 中醫(yī)藥數(shù)據(jù)挖掘關(guān)鍵詞突現(xiàn)分析表
國內(nèi)許多科研單位及高等院校對于數(shù)據(jù)挖掘的研究起步較晚,初期階段發(fā)文量增速較為平緩。而隨著信息技術(shù)的發(fā)展成熟及科研單位、醫(yī)院信息系統(tǒng)的日趨完善,2015—2019年發(fā)文量增長迅速,中醫(yī)藥數(shù)據(jù)挖掘這一研究領(lǐng)域引起越來越多學(xué)者的關(guān)注。中醫(yī)藥傳承創(chuàng)新的戰(zhàn)略地位愈加凸顯[13]。隨著中醫(yī)藥科技政策蓬勃發(fā)展,中醫(yī)藥事業(yè)深入改革創(chuàng)新。預(yù)計未來幾年將迎來發(fā)文量突增階段,數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用也會越來越廣泛。使用OriginPro軟件對目前發(fā)文情況使用三階多項式進行曲線擬合,由趨勢線預(yù)測2020年發(fā)文量將突破500篇。
通過對中醫(yī)藥數(shù)據(jù)挖掘研究相關(guān)文獻的作者及研究機構(gòu)合作網(wǎng)絡(luò)進行共現(xiàn)分析,本研究結(jié)果表明,團隊分布較為分散,作者之間仍需要進一步加強學(xué)術(shù)交流,且團隊合作僅局限于機構(gòu)合作,如劉健、忻凌、郭錦晨均來自安徽中醫(yī)藥大學(xué),缺少跨學(xué)校之間的合作。廣州中醫(yī)藥大學(xué)、北京中醫(yī)藥大學(xué)、中國中醫(yī)科學(xué)院等研究機構(gòu)開展中醫(yī)藥數(shù)據(jù)挖掘研究相對持久、穩(wěn)定,促進形成高產(chǎn)作者群體。這些機構(gòu)具有突出的輻射帶動作用,形成以這些機構(gòu)為中心的學(xué)術(shù)共同體。同時同一地域內(nèi)的研究機構(gòu)合作更為緊密,如“廣州中醫(yī)藥大學(xué)”“廣東省中醫(yī)院”等,呈現(xiàn)一定集中趨勢。因此跨地域的研究機構(gòu)之間的學(xué)術(shù)合作研究需要進一步加強。
中醫(yī)藥數(shù)據(jù)挖掘研究領(lǐng)域的熱點話題主要集中于應(yīng)用數(shù)據(jù)挖掘的各類算法探究證候分布規(guī)律、名老中醫(yī)用藥思路、方劑配伍規(guī)律等,中醫(yī)藥規(guī)律探究逐漸成為研究主流話題。對于這些規(guī)律的挖掘主要采用關(guān)聯(lián)規(guī)律、聚類算法等方法,數(shù)據(jù)挖掘的其他算法如集成學(xué)習(xí)、表示學(xué)習(xí)、深度學(xué)習(xí)等仍應(yīng)用較少。數(shù)據(jù)挖掘技術(shù)的算法較豐富,但在中醫(yī)藥領(lǐng)域的應(yīng)用仍然較為狹窄[14]。研究者應(yīng)拓展視野,全方位關(guān)注各種先進技術(shù)和研究方法,從研究的個性化需求出發(fā),探索最優(yōu)化的研究方法,從而提升中醫(yī)藥數(shù)據(jù)挖掘的創(chuàng)新水平。
數(shù)據(jù)挖掘技術(shù)較復(fù)雜,需要具備專業(yè)知識的人才來實現(xiàn)。因此,醫(yī)學(xué)院校要積極順應(yīng)信息化時代的發(fā)展,完善人才培養(yǎng)模式,開設(shè)信息技術(shù)相關(guān)專業(yè),大力推進醫(yī)學(xué)信息化及學(xué)科的交叉融合。發(fā)揮學(xué)科優(yōu)勢,不同學(xué)科領(lǐng)域的人才及研究機構(gòu)加強合作,才能使中醫(yī)藥數(shù)據(jù)挖掘得到更好的創(chuàng)新與發(fā)展。
本研究利用CiteSpace軟件對中國知網(wǎng)2010—2019年收錄的中醫(yī)藥數(shù)據(jù)挖掘相關(guān)的1 860篇文獻進行了科學(xué)計量分析,從發(fā)文量、作者及機構(gòu)合作、研究熱點等多角度進行分析和討論。近10年中醫(yī)藥數(shù)據(jù)挖掘發(fā)文量逐年遞增,形成了一大批合作較為成熟的學(xué)術(shù)共同體,研究的熱點集中于中醫(yī)證候研究、名老中醫(yī)的臨證經(jīng)驗及用藥思路等諸多方向,呈現(xiàn)交叉融通、繁榮發(fā)展的景象。然而,大多數(shù)研究局限在機構(gòu)內(nèi)部,跨組織、跨區(qū)域的研究有待進一步加強,采用的挖掘方法有待進一步提升,應(yīng)當(dāng)圍繞中醫(yī)數(shù)據(jù)特點,選用或設(shè)計相應(yīng)的特色方法。