夏淑潔 ,楊朝陽 ,林雪娟 ,李書楠 ,王洋 ,李燦東
(1.福建中醫(yī)藥大學中醫(yī)證研究基地,福州 350122;2.福建省中醫(yī)健康狀態(tài)辨識重點實驗,福州 350122;3.湖南中醫(yī)藥大學中醫(yī)學院,長沙 410208)
中醫(yī)診斷[1]立足于整體觀念,分別從望、聞、問、切4個不同方面收集疾病相關信息,通過綜合分析以判斷當前疾病的內(nèi)在機制給出相應的辨證,從而指導臨床用藥,這個過程體現(xiàn)了中醫(yī)最大的特點,即辨證論治。然而,傳統(tǒng)辨證診斷方法也存在一定的局限性。首先,繁雜性。同一證候表現(xiàn)常有不同的辨證方法,面對繁多分類,往往給學習者帶來困惑。其次,主觀性。中醫(yī)辨證主要憑借人體感官所獲取的病例信息,其主觀性較大。再者,模糊性。中醫(yī)中許多概念都是以定性或半定量為主,診斷相關的癥狀如頻率、嚴重程度、證候的輕重、轉(zhuǎn)歸等都是相對模糊的概念,因此傳統(tǒng)中醫(yī)診斷過程中的規(guī)范、客觀、量化一直成為近半個世紀以來中醫(yī)研究領域中亟待解決的關鍵問題[2]。
自20世紀70年代開始,受計算機新技術的影響,中醫(yī)學者開始尋求借助計算機技術以解決中醫(yī)復雜、靈活的辨證問題,這也為后面的數(shù)據(jù)挖掘技術與中醫(yī)辨證診斷結合奠定了基礎,并促進了中醫(yī)的現(xiàn)代化發(fā)展。數(shù)據(jù)挖掘是指從大量的、不完全的、有噪聲的、模糊的數(shù)據(jù)中通過挖掘隱藏于其中有用信息的過程,它由計算機科學、統(tǒng)計學、機器學習、專家系統(tǒng)和模式識別等諸多方法多個領域相融合而形成的一個交叉學科[3]。可見,數(shù)據(jù)挖掘技術可充分考慮到真實世界中中醫(yī)數(shù)據(jù)繁雜、模糊、非線性的特點,從復雜的臨床數(shù)據(jù)中挖掘繁雜的證、癥關系,尋找大數(shù)據(jù)下的隱藏中醫(yī)知識和規(guī)律[4],這無疑成為中醫(yī)診斷客觀化進程中有力的催化劑。
雖然有不少文獻對近年來常用數(shù)據(jù)挖掘方法在中醫(yī)診斷領域進行總結梳理,但參考文獻有限,且缺乏基于整體學科發(fā)展趨勢的科學計量研究。因此,研究運用科學計量方法,通過繪制可視化知識圖譜,概括國內(nèi)數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用文章的發(fā)表情況、主要研究主題、研究熱點及未來的發(fā)展趨勢等,以期對中國中醫(yī)診斷與數(shù)據(jù)挖掘交叉領域研究提供有益參考。
1.1 文獻來源 文獻資源以國內(nèi)科技文獻中最全的中國知網(wǎng)(CNKI)數(shù)據(jù)庫為檢索來源,為保證文獻質(zhì)量,進一步選擇中國知網(wǎng)學術期刊網(wǎng)絡出版總庫,采用高級檢索功能,依次對“中醫(yī)”“診斷”“數(shù)據(jù)挖掘”及其同義詞進行主題檢索,并選擇在結果中檢索,時間范圍設置為1915—2019年,文獻類型選擇“期刊”,排除會議摘要、雜志通知、廣告、信件等內(nèi)容后,將所選文獻以“Refworks”文件格式導出以進行可視化分析,同時保存至Endnote軟件以進行文獻整理和查重。
1.2 數(shù)據(jù)處理 利用CNKI數(shù)據(jù)庫文獻分析功能進行描述性分析,利用Endnote對收錄文章進行查重處理,并提取相關題錄信息進行頻數(shù)統(tǒng)計分析。利用信息可視化軟件CiteSpace(V5.5.R2)和VOSviewer(V1.6.14)進行本研究領域知識圖譜繪制。前者是由美國德雷塞爾大學陳超美博士所開發(fā),其特點是能夠展示一個學科或知識域在一定時期發(fā)展的趨勢與動態(tài),并形成若干研究前沿領域的演進歷程[5];后者是由荷蘭萊頓大學的Nees Jan van Eck和Ludo Waltman所共同開發(fā)[6],其主要特點是可以對學科主題之間的關系進行清晰的呈現(xiàn)。文章結合兩款科學計量軟件的優(yōu)勢,通過對發(fā)文作者與機構合作網(wǎng)絡、關鍵詞共現(xiàn)與時間演變、突現(xiàn)詞等進行分析,以進一步探討數(shù)據(jù)挖掘技術在中醫(yī)診斷學領域應用研究中的主題分布與熱點演進情況。
2.1.1 年度發(fā)文量 通過對CNKI所有文獻資料檢索初步獲得1 797篇文獻,進一步將文獻類型設為“期刊”,獲得期刊文獻共計693篇文獻,并將不符合研究內(nèi)容的文獻如會議摘要、期刊通知等刪除,并去除重復文獻,最后共得662篇符合研究標準的目標文獻,時間跨度從1979—2019年。期刊文獻為科研思路和成果的重要載體,發(fā)文量可以一定程度上反應科研產(chǎn)出情況。數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用的發(fā)文量隨時間分布見圖1,從發(fā)文量來看,數(shù)據(jù)挖掘與中醫(yī)診斷相關的期刊文獻出現(xiàn)5個較明顯的發(fā)展階段。
圖1 數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用的年度發(fā)文情況Fig.1 Annual publication of data mining applications in the field of traditional Chinese medicine diagnostics
1)1979—1987年為交叉學科的起源階段,中醫(yī)學界開始紛紛探索用科學計算機、統(tǒng)計手段解決中醫(yī)診斷存在的問題以尋求實現(xiàn)現(xiàn)代化的方法,發(fā)文量開始遞增,該階段每年平均發(fā)文量9篇。2)1988—2002年為緩慢的科學探索階段,該時期每年發(fā)文量波動不大并維持在相對較低水平,主要基于前期的研究工作進行探索與驗證,每年平均發(fā)文量6篇。3)2003—2008年期間為發(fā)展階段,該時期在數(shù)據(jù)挖掘與中醫(yī)診斷學領域中有較多的新方法和新理論產(chǎn)出,發(fā)文量開始呈較快上升速度,2005年論文增長率為92%,2008年發(fā)表論文達40篇,該階段平均每年發(fā)文量為23篇。4)在2009—2015年為發(fā)展平臺期,自2009年相關論文發(fā)表量回落后,論文發(fā)表保持在相對穩(wěn)定的水平,曾出現(xiàn)短暫的回落但又快速恢復,平均年度發(fā)文量為27篇。5)2016年至今為新的發(fā)展階段,論文發(fā)表量至2019年達到歷史最高的53篇,平均每年發(fā)文量為42篇。可見,目前數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用研究有著很好的發(fā)展前景,但如何更好實現(xiàn)中醫(yī)診斷現(xiàn)代化還需要更多的學者予以關注。
2.1.2 學科和期刊分布 在CNKI數(shù)據(jù)庫中顯示本研究領域發(fā)表的文獻所屬學科集中在醫(yī)藥衛(wèi)生科技,約占64.5%;其次,是信息科技,約占28.7%。此外還涉及工程科技、社會科學及基礎科學等領域,有些文獻內(nèi)容涉及不同學科的交叉,故也會出現(xiàn)同一篇文獻歸于幾個不同學科的現(xiàn)象,這也體現(xiàn)了學科的交叉是科學發(fā)展的原始動力之一。1979—2019年間中醫(yī)診斷與數(shù)據(jù)挖掘交叉領域研究的文獻共計在國內(nèi)243個期刊發(fā)表,發(fā)文量前20名的期刊情況如圖2所示,發(fā)表在《中華中醫(yī)藥雜志》《遼寧中醫(yī)藥雜志》《中國中醫(yī)藥信息雜志》上的數(shù)量最多,分別為 34篇(6.25%)、25篇(5.77%)、21篇(4.81%),這些期刊主要為中醫(yī)領域的核心期刊,說明國內(nèi)將數(shù)據(jù)挖掘與中醫(yī)診斷學交叉領域已有被學術界認可的學術成果。
圖2 數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用文獻主要出版來源Fig.2 The main publication sources of data mining in the field of traditional Chinese medicine diagnostics
2.2.1 主要作者分布 本次納入研究的662篇文獻共包含1 749位作者,其中核心作者是活躍在這一研究領域的代表性學者。依據(jù)普賴斯定律的計算公式:m=0.749(1)式中nmax為所統(tǒng)計年限中發(fā)表論文最多的作者的發(fā)文數(shù),而發(fā)表論文數(shù)在m篇以上的作者即被認為是高產(chǎn)作者。統(tǒng)計發(fā)現(xiàn)高產(chǎn)作者發(fā)文量最多為13篇,故m=2.7,按照取整原則,高產(chǎn)作者發(fā)文量大于或等于3篇。通過數(shù)據(jù)統(tǒng)計與分析,發(fā)文量3篇及以上的作者有35位,其中發(fā)文量為前20位作者如表1所示,高產(chǎn)論文學者主要有周小青、李建生、林求誠、胡金亮、朱文峰、晏峻峰、王憶勤、王永炎、袁肇凱、李燦東、王階等。通過VOSviewer對近20年(1999—2019年)作者主要合作網(wǎng)絡進行可視化分析,如圖3所示,不同節(jié)點顏色代表不同的年份,顏色越接近藍色,說明該作者發(fā)文時間越久,是該研究領域的早期開拓者;節(jié)點顏色越接近黃色,說明該作者發(fā)文時間越近,是該研究領域的新近活躍者。圖中清楚地展現(xiàn)了近20年全國數(shù)據(jù)挖掘在中醫(yī)診斷學科領域應用研究的主要團隊的合作與發(fā)展脈絡,并且發(fā)文量較多的作者呈現(xiàn)出明顯的網(wǎng)絡特征,說明中國該領域已形成多個產(chǎn)量較高的作者群。
2.2.2 研究機構分布 本領域的發(fā)文機構主要集中在中醫(yī)藥大學及附屬醫(yī)院,高產(chǎn)研究機構有上海中醫(yī)藥大學(43)、北京中醫(yī)藥大學(42)、湖南中醫(yī)藥大學(40)等,圖4中列出了排名前18位的機構。進一步利用CiteSpace軟件對近20年本領域的主要研究機構繪制共現(xiàn)圖譜,切片長度(Slice Length)設置為 2,篩選原則(Selection Criteria)為 T50,修剪方法選尋徑法(Pathfinder),并將節(jié)點閾值(Threshold)設為2次,如圖5所示。圖中共出現(xiàn)64個節(jié)點和40個鏈接,密度值為0.019 8,從圖中知中國該領域的合作多以省內(nèi)合作為多,跨省合作對象主要是各中醫(yī)藥大學之間,值得注意的是少部分理工類機構也加入其中,主要有廈門大學智能科學與技術系、廣東工業(yè)大學自動化學院、河南大學數(shù)據(jù)與知識工程研究等。從合作發(fā)文時間來看,早期以湖南中醫(yī)藥大學、北京中醫(yī)藥大學發(fā)文為主,而后上海中醫(yī)藥大學、廣州中醫(yī)藥大學發(fā)展起來,近幾年福建中醫(yī)藥大學、山東中醫(yī)藥大學及成都中醫(yī)藥大學也成為后起之秀。
表1 數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用研究的高產(chǎn)作者Tab.1 Highly productive authors of data mining application research in the field of traditional Chinese medicine diagnostics
圖3 數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用研究的主要作者合作網(wǎng)絡Fig.3 Main author’s cooperation network of data mining in the field of traditional Chinese medicine diagnostics
圖4 數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用研究的主要機構分布Fig.4 Distribution of the main institutions of data mining in the field of traditional Chinese medicine diagnostics
2.3.1 關鍵詞共現(xiàn)分析 研究的主題的分布及演化過程能夠體現(xiàn)不同時序內(nèi)的熱點領域、分析視角、研究方法等的變化。而關鍵詞作為學術論文研究主題的精煉表達,其在一定程度上可以揭示學科領域中知識的內(nèi)在聯(lián)系。文章對1979—2019年出現(xiàn)的關鍵詞進行同義詞合并,其中出現(xiàn)頻數(shù)排前28位的關鍵詞分布見于表2。運用VOSviewer軟件對中醫(yī)診斷與數(shù)據(jù)挖掘交叉領域的文獻中作者所給出的關鍵詞進行共現(xiàn)分析,取閾值3后繪制圖6。關鍵詞字體越大、結點越大說明該關鍵詞在網(wǎng)絡中越重要,不同顏色代表其不同的聚類,從圖中可以看出,本交叉學科研究領域圍繞“數(shù)據(jù)挖掘”核心技術主要形成4大關鍵詞類簇,形成4個主題:計算機與中醫(yī)辨證論治(紅色部分),數(shù)據(jù)挖掘與疾病用藥規(guī)律(綠色部分),中醫(yī)計量診斷(藍色部分),人工智能與中醫(yī)四診(黃色部分)。從圖中可知這4種聚類之間存在一定的混合部分,如紅色區(qū)域中的“辨證論治”與藍色部分“中醫(yī)辨證”、綠色部分的“數(shù)據(jù)挖掘”與黃色部分的“人工智能”等存在著有包含和重疊的部分,說明各研究主題之間存在相互交叉、滲透的關系,這也是學術研究中普遍存在的現(xiàn)象,有助于中醫(yī)診斷與數(shù)據(jù)挖掘交叉領域研究的深入發(fā)展。
2.3.2 主題演變路徑 分析重要關鍵詞出現(xiàn)的時間演進情況可進一步勾勒本領域研究主題及其發(fā)展動向,通過CiteSpace繪制出國內(nèi)中醫(yī)診斷與數(shù)據(jù)挖掘交叉領域文獻關鍵詞共現(xiàn)網(wǎng)絡的時區(qū)圖(Timezoneview),時間跨度設置為1979—2019年,將切片長度設置為2,一共得到162個關鍵詞節(jié)點和462條連線,見圖7。在時區(qū)圖上,不同時間段首次出現(xiàn)的關鍵詞節(jié)點放置在不同的時區(qū)中,其所放位置的高度將隨著時間的延長依次增加,這樣就得到了一個自下而上、從左到右的知識演進圖。早期的關鍵詞經(jīng)過數(shù)年的積累,其詞頻通常要顯著高于后面時區(qū)的關鍵詞,這體現(xiàn)了應用數(shù)據(jù)挖掘方法解決中醫(yī)診斷問題的最早和經(jīng)典應用場景。例如,由圖5得到“計量診斷”及“計算機輔助診斷”是將數(shù)據(jù)挖掘方法應用在中醫(yī)診斷的早期和典型場景,但隨著科學技術的發(fā)展,研究主題也在更新,并在不同時期又呈現(xiàn)出不同特點。
圖5 數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用研究的主要機構共現(xiàn)網(wǎng)絡Fig5 Co-occurrence network of major institutions for the application of data mining in the field of traditional Chinese medicine diagnostics
表2 數(shù)據(jù)挖掘在中醫(yī)診斷領域應用研究的高頻關鍵詞Tab.2 High-frequency keywords of data mining in the field of traditional Chinese medicine diagnosis
1)1979—1987年為該研究領域的起源階段,本時期在中醫(yī)的研究領域產(chǎn)生了大量影響深遠的關鍵詞,基于中醫(yī)的基礎理論,采用計量診斷、專家系統(tǒng)、計算機輔助診斷、數(shù)學模型、人工智能等方法研究中醫(yī)辨證診斷成為經(jīng)典主題。當時受計算新技術的影響,中醫(yī)界也開始尋求現(xiàn)代化發(fā)展方法,將控制論觀點與數(shù)學模型結合,以計算機為手段,研究中醫(yī)的辨證論治的規(guī)律成為熱點[7]。朱文鋒教授研制的第一臺中醫(yī)數(shù)字辨證機,建立了“加權求和浮動閾值運算”以期實現(xiàn)中醫(yī)辨證定量[8],這在中醫(yī)幾千年的歷史發(fā)展進程中具有革命性的意義,在一定程度上解決了中醫(yī)學領域中辨證論治這個最關鍵的問題,它把靈活復雜、富于經(jīng)驗的中醫(yī)學與標志現(xiàn)代科學技術發(fā)展水平的計算機科學結合起來,為后期中醫(yī)診斷客觀、量化研究奠定了基礎。
2)1988—2002年為本領域的緩慢探索期,主要在上時期的理論與研究基礎上進行驗證與方法改良,故該時期文獻量較少,也未出現(xiàn)新的高頻關鍵詞。從文獻發(fā)表內(nèi)容來看,該時期的研究主題多為探索計算機輔助辨證和中醫(yī)專家系統(tǒng)在臨床的應用情況及中醫(yī)計量診斷的理論與方法研究。如研究者借助電子計算機應用多元分析等數(shù)理統(tǒng)計方法對血瘀證宏觀的癥狀、體征組合規(guī)律進行探索,以期更好進行臨床辨證[9]。有學者對探索胃癌、哮喘、肝病等的中醫(yī)診斷建立相應的數(shù)學統(tǒng)計模型,以進行疾病辨證量化研究[10-12]。
圖6 數(shù)據(jù)挖掘在中醫(yī)診斷領域應用研究的高頻關鍵詞Fig.6 Co-occurrence of high-frequency keywords in the application research of data mining in the field of traditional Chinese medicine diagnosis
圖7 數(shù)據(jù)挖掘在中醫(yī)診斷領域應用研究的時區(qū)圖Fig.7 Time zone diagram of data mining application research in the field of traditional Chinese medicine diagnosis
3)2003—2008年為本領域的發(fā)展期,隨著數(shù)據(jù)挖掘技術的興起,有更多的新方法開始引進到中醫(yī)辨證診斷領域,如“神經(jīng)網(wǎng)絡”“貝葉斯網(wǎng)絡”“決策樹”“支持向量機”等。2003年龔德平首次在文中以“數(shù)據(jù)挖掘”作為關鍵詞,介紹了新的數(shù)據(jù)挖掘技術貝葉斯網(wǎng)絡、決策樹在中醫(yī)診斷系統(tǒng)的運用[13]。朱文峰等[14]提出了“證素”及“證素辨證”,將中醫(yī)辨證過程概括為“根據(jù)證候,辨別證素,組成證名”,并研制出“雙層頻權剪叉”算法以解決證素辨證研究中診斷權值的問題。王階等[15]將中醫(yī)診斷方法與復雜算法結合,采用信息熵的關聯(lián)度和多元對應分析對中醫(yī)證候中的血瘀證及亞型進行研究。此外,該時期的研究主題還涉及關聯(lián)規(guī)則、證候診斷標準、辨證分型、中醫(yī)診斷學及相關計算機技術等方面,疾病主要涉及到冠心病、糖尿病等。
4)2009—2015年為本領域發(fā)展的平臺期,該時期在前期大量的研究基礎上,產(chǎn)出較多文獻研究與理論探討的文章,如李燦東等[16]在總結分析了“中醫(yī)專家系統(tǒng)”和原有辨證模型利弊的基礎上,強調(diào)模型算法在求解表征參數(shù)對狀態(tài)要素貢獻度的基礎上,還必須遵循中醫(yī)理論體系和思維規(guī)律,并提出了基于中醫(yī)辨證思維的中醫(yī)健康狀態(tài)辨識模型算法研究的基本框架。該時期的研究主題仍然集中在數(shù)據(jù)挖掘技術在中醫(yī)領域的應用,具體還涉及用藥規(guī)律、模糊數(shù)學、聚類算法、分類算法等。如朱小虎等[17]運用模糊數(shù)學方法對膝骨關節(jié)炎(KOA)的中醫(yī)證候進行客觀量化,初步建立起該病證識別的模糊數(shù)學模型;基于方證對應研究,田茸等[18]采用熵聚類與apriori算法對脾虛型泄瀉方劑組方用藥規(guī)律進行探索總結等。
5)2016年至今為本領域的新的發(fā)展時期,隨著“互聯(lián)網(wǎng)+”與大數(shù)據(jù)時代到來,數(shù)據(jù)挖掘尤其是人工智能的發(fā)展得到有力支撐,“健康中國”政策更加有力推動醫(yī)療領域的數(shù)字化進程不斷向縱深方向推進。該時期研究主題主要在中醫(yī)大數(shù)據(jù)、狀態(tài)辨識、名老中醫(yī)學術經(jīng)驗傳承、轉(zhuǎn)化醫(yī)學及機器學習等方面,尤其是“狀態(tài)辨識”作為新的理論提出[19],使中醫(yī)診斷富有了新的內(nèi)涵,它將傳統(tǒng)中醫(yī)對疾病的診斷擴大到對生命過程全周期健康狀態(tài)的把握[20]。李燦東等[21]將中醫(yī)狀態(tài)運用到中醫(yī)健康管理中,利用“融合多源異構數(shù)據(jù)”和“多標記框架的深度學習”兩種人工智能算法有效構建中醫(yī)健康狀態(tài)辨識算法模型,以此推動智慧中醫(yī)的發(fā)展。此外,中醫(yī)的發(fā)展前提的有效地繼承,故對名老中醫(yī)學術經(jīng)驗的挖掘也是近年來的主題,如陸施婷等[22]通過“中醫(yī)傳承輔助平臺管理系統(tǒng)”分析“疾病-證候-治法-中藥”之間的關系,總結名醫(yī)丁學屏教授診治糖尿病合并高血壓的臨證經(jīng)驗等。
2.3.3 前沿趨勢預測 2002年Kleinberg提出了突發(fā)檢測算法,這種算法可以高效地探測學術研究中的“爆發(fā)點”,即檢測出短時間內(nèi)頻率急劇上升的突變詞,由此來確定某個領域的熱點問題和新興趨勢[23]。文章利用Citespace軟件的Kleinberg突發(fā)檢測算法(Burst Detection)對中醫(yī)診斷與數(shù)據(jù)挖掘交叉研究領域突變詞進行檢測,并且以突發(fā)詞成為熱點的開始時間作升序排列,共檢測到28個熱點突發(fā)詞,如表4所示?!皬姸取北硎娟P鍵詞的突發(fā)強度,強度越高意味著短時間內(nèi)該詞出現(xiàn)次數(shù)越多,“起始年”為該詞成為熱點的時間,“結束年”為該詞不再成為熱點的時間,時間段下方紅色的粗線為熱點所延續(xù)的時間。由表4可得,計算機、中醫(yī)學、數(shù)學模型、計算機輔助診斷及中醫(yī)證型在早期的較長時間成為研究關注熱點,其中“計算機”為突現(xiàn)強度最大的關鍵詞,說明將計算機技術應用于中醫(yī)診斷領域成為研究的主要趨勢。近10年來,本領域突現(xiàn)的關鍵詞主要有:數(shù)據(jù)挖掘、關聯(lián)規(guī)則、決策樹、中醫(yī)藥、模糊數(shù)學、用藥規(guī)律、聚類算法、大數(shù)據(jù)、名老中醫(yī)等。這也指明了現(xiàn)今中醫(yī)診斷與數(shù)據(jù)挖掘交叉領域的熱點問題:第一,數(shù)據(jù)挖掘方法技術如關聯(lián)規(guī)則、決策樹、聚類算法等在中醫(yī)診斷領域中的應用值得進一步關注。第二,注重方證對應關系,名醫(yī)經(jīng)驗傳承與用藥規(guī)律分析也成為研究熱點。第三,在如今互聯(lián)網(wǎng)+及“健康中國”時代,中醫(yī)診斷也賦予了新的內(nèi)涵,基于真實世界的健康大數(shù)據(jù)分析成為新興熱點,如何借助現(xiàn)代科學手段,充分發(fā)揮中醫(yī)藥治未病優(yōu)勢與傳承名醫(yī)經(jīng)驗,從海量的大數(shù)據(jù)中發(fā)掘中醫(yī)診治中所隱藏的規(guī)律成為關鍵問題。
本研究以CNKI中國期刊數(shù)據(jù)庫為數(shù)據(jù)源,收集自建庫以來中醫(yī)診斷與數(shù)據(jù)挖掘交叉領域研究文獻662篇,充分整合Citepace和VOSviewer 2種科學計量可視化軟件的優(yōu)勢,對1979—2019年間數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用文獻進行了可視化分析。首先,從年度文獻發(fā)表量、期刊及學科分布、作者及機構共現(xiàn)的不同維度,對本領域研究情況進行的匯總分析。其次,基于關鍵詞出現(xiàn)頻次和首次出現(xiàn)時間,分別繪制關鍵詞共現(xiàn)網(wǎng)絡和時區(qū)圖,以展現(xiàn)本領域主要研究主題發(fā)展與演變情況。再者,根據(jù)關鍵詞突現(xiàn)分析,發(fā)掘近年來的數(shù)據(jù)挖掘在中醫(yī)診斷學領域研究的熱點及未來發(fā)展趨勢,旨在為本交叉研究領域提供參考和依據(jù)。通過對數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用的文獻計量學分析,得到以下結論:
表4 數(shù)據(jù)挖掘在中醫(yī)診斷領域應用的突發(fā)詞表Tab.4 Emergent vocabulary used by data mining in the field of traditional Chinese medicine diagnosis
1)從科研產(chǎn)出來看,1979—2019年,數(shù)據(jù)挖掘在中醫(yī)診斷學領域應用研究經(jīng)歷5個較明顯階段,依次是起源階段、探索階段、發(fā)展階段、平臺階段及新的發(fā)展階段。發(fā)文量雖然出現(xiàn)短暫的回落現(xiàn)象,但總體上呈現(xiàn)出上升趨勢,2019年為該領域年度發(fā)表論文數(shù)最多年份。
本領域研究主要學科集中在醫(yī)藥衛(wèi)生科技、信息科技方面,體現(xiàn)了學科交叉的特點。發(fā)文期刊主要為中醫(yī)領域內(nèi)的核心期刊,以《中華中醫(yī)藥雜志》《遼寧中醫(yī)藥雜志》《中國中醫(yī)藥信息雜志》上的數(shù)量最多,說明國內(nèi)中醫(yī)診斷與數(shù)據(jù)挖掘交叉研究領域已有被學術界認可的學術成果。
2)從研究主體分布來看,高產(chǎn)論文學者主要有周小青、李建生、林求誠、胡金亮、朱文峰、晏峻峰、王憶勤、王永炎、袁肇凱、李燦東、王階等,并且發(fā)文量較多的作者呈現(xiàn)出較明顯的網(wǎng)絡特征發(fā),說明我國該領域已形成多個產(chǎn)量較高的作者群。本領域的發(fā)文機構主要集中在中醫(yī)藥大學及附屬醫(yī)院,高產(chǎn)研究機構以上海中醫(yī)藥大學、北京中醫(yī)藥大學、湖南中醫(yī)藥大學科研產(chǎn)出最多,近年來福建中醫(yī)藥大學、山東中醫(yī)藥大學及成都中醫(yī)藥大學也成為后起之秀。該領域的合作多以省內(nèi)合作為多,跨省合作對象主要是各中醫(yī)藥大學之間,此外也有部分理工類機構也加入其中。
3)從研究主題及演變路徑來看,數(shù)據(jù)挖掘在中醫(yī)診斷學應用文獻中各研究主題之間存在相互交叉、滲透的現(xiàn)象,總體形成4大類聚類主題:計算機與中醫(yī)辨證論治,數(shù)據(jù)挖掘與疾病用藥規(guī)律,中醫(yī)計量診斷,人工智能與中醫(yī)四診。1979—1987年間,研究主題主要為與中醫(yī)診斷相關的計量診斷、專家系統(tǒng)、計算機輔助診斷、數(shù)學模型等;1988—2002年間,主要基于對前期研究的驗證與改良,未出現(xiàn)高頻的關鍵詞和新的研究主題;2003—2008年間,主要研究主題為數(shù)據(jù)挖掘技術如神經(jīng)網(wǎng)絡、貝葉斯網(wǎng)絡、決策樹、支持向量機等在與中醫(yī)診斷的應用及證素與證素辨證的理論與實踐研究。2009—2015年間,研究主題主要涉及數(shù)據(jù)挖掘技術、模糊數(shù)學、文獻研究、聚類算法、分類算法等在中醫(yī)辨證診斷方面的應用及用藥規(guī)律探索。2016年至今,研究主題主要在中醫(yī)大數(shù)據(jù)、狀態(tài)辨識、名老中醫(yī)學術經(jīng)驗傳承、轉(zhuǎn)化醫(yī)學及機器學習等方面。
4)從熱點突發(fā)詞分析來看,計算機、中醫(yī)學、數(shù)學模型、計算機輔助診斷及中醫(yī)證型在早期的較長時間一直成為研究關注熱點,并且將計算機技術應用于中醫(yī)診斷領域成為研究的主要趨勢。近10年來,本領域突發(fā)的關鍵詞主要有:數(shù)據(jù)挖掘、關聯(lián)規(guī)則、決策樹、中醫(yī)藥、模糊數(shù)學、用藥規(guī)律、聚類算法、大數(shù)據(jù)、名老中醫(yī)等。尤其,在現(xiàn)今互聯(lián)網(wǎng)+及“健康中國”時代背景下,基于真實世界的大數(shù)據(jù)分析成為新興熱點,如何更好傳承名醫(yī)經(jīng)驗,并借助現(xiàn)代科學手段,從海量的大數(shù)據(jù)中探求中醫(yī)臨床診療中所隱藏的規(guī)律成為重要關鍵問題。