胡雪琴,楊寅,崔蒙*
1.浙江中醫(yī)藥大學(xué)浙江省骨傷研究所,浙江 杭州 310053;2.中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700
關(guān)于中醫(yī)藥數(shù)據(jù)挖掘研究理念變遷的探討
胡雪琴1,楊寅2,崔蒙2*
1.浙江中醫(yī)藥大學(xué)浙江省骨傷研究所,浙江 杭州 310053;2.中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700
中醫(yī)藥數(shù)據(jù)挖掘工作已開展近 20余年,在此過程中,中醫(yī)藥數(shù)據(jù)挖掘的理念在不斷變遷。按年代的先后順序,其變遷大致可以分為 3個階段。國家科技計劃“九五”和“十五”期間是第一階段,是起始階段,這一階段中醫(yī)藥數(shù)據(jù)挖掘研究的特征遵循“大數(shù)據(jù)”的三大理念;“十一五”和“十二五”期間是第二階段,是全盛時期,這一階段中醫(yī)藥數(shù)據(jù)挖掘研究的特征是遵循“精準(zhǔn)醫(yī)學(xué)”三大理念;第三階段主要是國家科技計劃的“十三五”和“十四五”期間,是突破創(chuàng)新階段,這一階段將受人工智能影響,試圖發(fā)現(xiàn)可以超越個體的、適用于中醫(yī)臨床的優(yōu)秀群體經(jīng)驗。
中醫(yī)藥;數(shù)據(jù)挖掘;大數(shù)據(jù)
數(shù)據(jù)挖掘(data mining)是數(shù)據(jù)中的知識發(fā)現(xiàn)(knowledge-discovery in databases, KDD)過程中的一個步驟。具體來說,KDD由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估、知識表示這 7個步驟組成和完成;根據(jù)其功能,數(shù)據(jù)挖掘可定義為從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣知識的過程[1]。數(shù)據(jù)挖掘是一門新興的交叉性學(xué)科,融合了人工智能、數(shù)據(jù)庫技術(shù)、模式識別、機器學(xué)習(xí)、統(tǒng)計學(xué)和數(shù)據(jù)可視化等多個領(lǐng)域的理論和技術(shù)[2]。數(shù)據(jù)挖掘技術(shù)已被應(yīng)用于計算機軟件及計算機應(yīng)用、自動化技術(shù)、互聯(lián)網(wǎng)技術(shù)、企業(yè)經(jīng)濟及中醫(yī)學(xué)等多個學(xué)科領(lǐng)域中。
如果世界是由物質(zhì)、能量和信息三大要素構(gòu)成的,那么中醫(yī)藥學(xué)由于其產(chǎn)生的時代背景所限,其研究的主要世界構(gòu)成要素必然是信息[3]。定性或定量化的信息亦即數(shù)據(jù),對于信息的獲取、存儲、處理和傳播都具有極其重要的意義。而數(shù)據(jù)挖掘在數(shù)據(jù)處理中占有極為重要的地位。通過數(shù)據(jù)挖掘,可以發(fā)現(xiàn)中醫(yī)藥學(xué)概念間的關(guān)聯(lián)關(guān)系、新的知識,甚或新的規(guī)律,這對于促進中醫(yī)藥理論、方法、技術(shù)的進步,大力提高中醫(yī)臨床療效,加快中藥新藥研發(fā)均具有重要意義。因而,近20余年來中醫(yī)藥領(lǐng)域在不斷地開展數(shù)據(jù)挖掘研究工作。隨著科技的不斷發(fā)展和創(chuàng)新,中醫(yī)藥數(shù)據(jù)挖掘的理念也在不停地變遷。按年代的先后順序,其變遷大致可以分為 3個階段:起始階段、全盛時期和突破創(chuàng)新階段。
第一階段大約是在1995-2005年,主要在國家科技計劃“九五”和“十五”期間。這是中醫(yī)藥數(shù)據(jù)挖掘研究的肇始階段,中醫(yī)藥數(shù)據(jù)挖掘工作尚未得到充分重視。在這一時期,中醫(yī)藥數(shù)據(jù)挖掘主要是遵循了大數(shù)據(jù)的三大理念,即全數(shù)據(jù)、混雜性和相關(guān)關(guān)系[4]。具體地說,就是盡可能地收集所能收集到的全部數(shù)據(jù),把所有能夠收集到的數(shù)據(jù)混雜在一起進行分析,分析的重點是發(fā)現(xiàn)數(shù)據(jù)間的關(guān)聯(lián)關(guān)系。該階段研究的目的是試圖發(fā)現(xiàn)中醫(yī)藥“書同文、車同軌”的“大一統(tǒng)”規(guī)律。換言之,就是發(fā)現(xiàn)如同西醫(yī)一樣,適用于所有情況的中醫(yī)藥統(tǒng)一規(guī)律。盡管那個時期大數(shù)據(jù)這個概念還沒有提出,大數(shù)據(jù)理念也沒有彰顯,但中醫(yī)藥數(shù)據(jù)挖掘的研究工作,卻提前不自覺地遵循了大數(shù)據(jù)的三大理念。
該階段內(nèi),中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所匯集了所有有出處的方劑(約10萬余首),研制了方劑數(shù)據(jù)庫,并將其結(jié)構(gòu)化,用高頻集的方法去探尋方劑組成規(guī)律,亦即方劑配伍規(guī)律。進行方劑數(shù)據(jù)挖掘的結(jié)果,成功發(fā)現(xiàn)了以方核為基礎(chǔ)的方劑衍變軌跡,探索了高頻藥對出現(xiàn)的規(guī)律,但無法發(fā)現(xiàn)方劑配伍的規(guī)律,更不可能將此研究成果直接用于中醫(yī)臨床處方用藥或中藥新藥開發(fā)。同時期,亦將所能收集到的中醫(yī)藥治療疾病的文獻匯集,研制中醫(yī)臨床數(shù)據(jù)庫,并按系統(tǒng)或病種將其結(jié)構(gòu)化,用聚類挖掘的方法探尋中醫(yī)臨床診療規(guī)律,也就是中醫(yī)臨床辨證論治規(guī)律。進行中醫(yī)臨床數(shù)據(jù)挖掘的結(jié)果,成功總結(jié)了中醫(yī)臨床某個證候或疾病能夠出現(xiàn)的癥狀、所用的治則、選用的方劑和藥物,但卻無法發(fā)現(xiàn)中醫(yī)辨證論治的規(guī)律。
這一階段還開展了很多類似的研究工作,也取得了一些成績,但始終無法真正提高中醫(yī)臨床療效、促進中藥新藥開發(fā)、豐富和發(fā)展中醫(yī)藥理論。這促使中醫(yī)藥信息學(xué)研究者認真反思此階段的研究工作在指導(dǎo)理念上是否存在問題。經(jīng)過認真研究、思考,發(fā)現(xiàn)中醫(yī)藥在實際運用中有著很強的個體化特征,企圖將其變?yōu)榕c西醫(yī)學(xué)一樣的、具有大一統(tǒng)規(guī)律的醫(yī)學(xué)是不實際的,中醫(yī)藥數(shù)據(jù)挖掘研究必須依照中醫(yī)藥學(xué)自身特色和數(shù)據(jù)規(guī)律。
第二階段大約是在2006-2015年,主要在國家科技計劃“十一五”和“十二五”期間。這是中醫(yī)藥數(shù)據(jù)挖掘研究的全盛時期,國家投入了大量科研經(jīng)費、部署了大量科研項目用于開展中醫(yī)藥數(shù)據(jù)挖掘研究工作。在此期間,幾乎所有的中醫(yī)藥科研項目均或多或少地開展了數(shù)據(jù)挖掘研究。特別是大數(shù)據(jù)理念提出后,數(shù)據(jù)作為重要的科研資源共享,得到了越來越多的重視。在這一時期,中醫(yī)藥數(shù)據(jù)挖掘研究主要是遵循精準(zhǔn)醫(yī)學(xué)三大理念,即個體化、系統(tǒng)化、整體化[5]。個體化就是將醫(yī)生視為個體,所研究的重點是個體醫(yī)生的辨證論治經(jīng)驗,甚或其學(xué)術(shù)思想;系統(tǒng)化就是不僅將醫(yī)生視為個體,同時也將患者視為個體,個體醫(yī)生與個體患者組成了一個系統(tǒng),研究重點是發(fā)現(xiàn)這個系統(tǒng)所收集到的數(shù)據(jù)隨時間變化產(chǎn)生的規(guī)律;整體化就是將作為研究對象的個體醫(yī)生所有能夠收集到的數(shù)據(jù)都收集起來,作為一個整體進行數(shù)據(jù)挖掘,以期發(fā)現(xiàn)其處方用藥規(guī)律。研究目的是試圖發(fā)現(xiàn)“小國寡民”的個性化規(guī)律;換言之,就是發(fā)現(xiàn)遵循傳統(tǒng)中醫(yī)個體化診療的規(guī)律。當(dāng)然,那個時期,精準(zhǔn)醫(yī)學(xué)的理念還沒有提出,中醫(yī)藥界也不知道精準(zhǔn)醫(yī)學(xué)的三大理念,但中醫(yī)藥數(shù)據(jù)挖掘的研究工作確實提前遵循了精準(zhǔn)醫(yī)學(xué)的這三大理念。
在此期間,中醫(yī)藥數(shù)據(jù)挖掘研究工作的重點是名老中醫(yī)經(jīng)驗挖掘,中醫(yī)藥領(lǐng)域開展了大量名老中醫(yī)經(jīng)驗挖掘的科研工作。例如,中國中醫(yī)科學(xué)院廣安門醫(yī)院以王映輝研究員為首的研究團隊認為,采集名老中醫(yī)辨證論治醫(yī)案,可分析其辨證經(jīng)驗、用藥經(jīng)驗等[6]。他們指出,辨證經(jīng)驗是指醫(yī)生綜合患者的臨床表現(xiàn)、檢驗檢查結(jié)果等信息,分析判斷后,形成的對患者綜合性的判斷,是用藥基礎(chǔ)。辨證經(jīng)驗包括的內(nèi)容主要有癥狀與證候的關(guān)系、疾病的證候特征,以及證候相兼規(guī)律等。用藥經(jīng)驗是指醫(yī)生根據(jù)所辨證候及兼證、兼癥等選方用藥的情況。一般而言,醫(yī)生針對某一類具體病證有一個核心處方,核心處方的配伍是相對固定的,同時,由于每個患者的個體化特征,臨證常有加減變化。有的醫(yī)生是針對某一病有一核心處方,有的則針對某一病的某一證才有核心處方。分析挖掘名老中醫(yī)的臨床經(jīng)驗,其核心內(nèi)容有 2個:一是“如何確定證”,即辨證經(jīng)驗;二是“如何確定治”,即用藥經(jīng)驗。為全面分析辨證經(jīng)驗及用藥經(jīng)驗,需要全面考慮其涉及的臨床要素,總結(jié)其辨證及用藥經(jīng)驗。
類似的研究在全國各地開展很多,均取得了顯著成績。但這些研究結(jié)果很難高于名老中醫(yī)個人對于具體病證的認識,因而對總結(jié)經(jīng)驗多有裨益,對提高具體病證領(lǐng)域的最高中醫(yī)診療水平則幫助有限。經(jīng)過認真分析研究,得出結(jié)論:中醫(yī)固然是經(jīng)驗醫(yī)學(xué),但其提高不能只依賴于個人感悟,只有發(fā)揮行業(yè)整體優(yōu)勢,才能實現(xiàn)中醫(yī)藥的跨越式發(fā)展。
第三階段預(yù)測在2016-2025年,主要是國家科技計劃“十三五”和“十四五”期間,這是中醫(yī)藥數(shù)據(jù)挖掘的突破創(chuàng)新階段。這一階段中醫(yī)藥數(shù)據(jù)挖掘的定位將是以市場需求為導(dǎo)向,通過患者提供的信息,將數(shù)據(jù)直接轉(zhuǎn)化為衛(wèi)生保健知識,讓患者在治療過程中發(fā)揮更積極的作用,從而讓數(shù)據(jù)挖掘的價值得到最大程度的體現(xiàn)。中國中醫(yī)科學(xué)院唱獨角戲的研究主體中也將融入更多醫(yī)療服務(wù)企業(yè)的加入,研究對象從科研型結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)向移動終端的海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變。這一戰(zhàn)略轉(zhuǎn)變將推動一系列新的軟件、服務(wù)和應(yīng)用更快地進入市場,有可能為中醫(yī)藥理論完善、臨床療效提高和新藥創(chuàng)制提供支撐。
在此階段,IBM公司的最新電腦系統(tǒng)Watson將是醫(yī)療認知計算系統(tǒng)的杰出代表。2015年 4月,Watson Health成立,標(biāo)志著IBM Watson正式涉足醫(yī)療行業(yè)。Watson在海量的大數(shù)據(jù)環(huán)境中不斷進行學(xué)習(xí),不僅是認知計算,而是認知計算和大數(shù)據(jù)、分析和決策的復(fù)雜相互作用的結(jié)果。醫(yī)療機構(gòu)在與Watson合作的同時,使得醫(yī)學(xué)研究人員在認知計算領(lǐng)域得到了知識的擴展。
在中醫(yī)藥領(lǐng)域,中醫(yī)藥數(shù)據(jù)挖掘的理念也將深受Watson認知計算的影響,針對中醫(yī)優(yōu)秀群體診療經(jīng)驗的中醫(yī)藥數(shù)據(jù)挖掘平臺也必須具備理解、推理、不斷學(xué)習(xí)及強大分析的能力。但是,由于中醫(yī)藥數(shù)據(jù)屬于知識密集型數(shù)據(jù)[7],其特點是知識密集度高,特別是醫(yī)案文獻數(shù)據(jù)是古代醫(yī)家在臨床診治中的心得體會,是醫(yī)家探索總結(jié)的一種智慧體現(xiàn),蘊含了大量的隱性知識,而這些隱性知識具有很強的知識發(fā)現(xiàn)潛質(zhì)。但中醫(yī)藥知識密集型數(shù)據(jù)的描述和表達是粗糙的,數(shù)據(jù)語義與內(nèi)涵邏輯根本就沒有邏輯性或者不能明確表達,這就為數(shù)據(jù)抽取和數(shù)據(jù)清洗帶來了巨大困難。
尤其是隨著海量移動客戶端數(shù)據(jù)的涌入,將更容易獲得用戶的各種行為信息,例如所有的臨床檢驗信息、處方信息、個體信息、疾病史信息及保險信息等。數(shù)據(jù)清洗面臨的數(shù)據(jù)源更加復(fù)雜,例如問答、搜索、下載、上傳的各種數(shù)據(jù)等等。數(shù)據(jù)抽取也將面臨更大的挑戰(zhàn),例如歧義、語義變換,及無結(jié)構(gòu)數(shù)據(jù)抽取模板的學(xué)習(xí)等。在中醫(yī)學(xué)臨床應(yīng)用的場景中,由于數(shù)據(jù)抽取的質(zhì)量與臨床診療的療效相關(guān),因此對抽取工作的準(zhǔn)確率、召回率的要求就更加高。希望通過對Watson理念的學(xué)習(xí),能夠建立起中醫(yī)藥數(shù)據(jù)挖掘第三階段的理念和方法,即由之前的“模擬”名老中醫(yī)診療成為“多種傳感器和大規(guī)模數(shù)據(jù)庫,通過多種算法和機器的學(xué)習(xí),來完成分散的任務(wù)”,能將優(yōu)秀中醫(yī)群體智慧成功地用于證候診斷和處方用藥上,那么對提高中醫(yī)臨床療效將具有不可估量的作用。
2016年 3月,阿爾法圍棋(AlphaGo)對戰(zhàn)世界圍棋冠軍、職業(yè)九段選手李世石,并以4∶1的總比分獲勝。AlphaGo的工作原理有 2個:一是“深度學(xué)習(xí)”,二是“兩個大腦”,即通過 2個不同神經(jīng)網(wǎng)絡(luò)“大腦”合作來改進下棋。在給定棋子位置情況下預(yù)測每一個棋手贏棋的可能。對于中醫(yī)藥數(shù)據(jù)挖掘來說,如果能將 AlphaGo“深度學(xué)習(xí)”的工作原理發(fā)展應(yīng)用于中醫(yī)優(yōu)秀群體的診療經(jīng)驗學(xué)習(xí),將“監(jiān)督學(xué)習(xí)的策略網(wǎng)絡(luò)”與棋局評估器雙大腦的模式發(fā)展應(yīng)用于具體疾病診療,那么針對中醫(yī)優(yōu)秀群體的醫(yī)生診療數(shù)據(jù)挖掘?qū)⒖蓪崿F(xiàn)。
無論是Watson還是AlphaGo,都是集中了人類優(yōu)秀智慧解決問題。盡管中醫(yī)面對的問題比 Watson 和 AlphaGo面對的問題要復(fù)雜很多,但如果中醫(yī)藥數(shù)據(jù)挖掘在受Watson和AlphaGo的啟發(fā)和影響下,試圖發(fā)現(xiàn)可以超越個體的、適用于中醫(yī)臨床的優(yōu)秀群體經(jīng)驗。那么在下一個10年,中醫(yī)藥數(shù)據(jù)挖掘研究有可能突破瓶頸,所取得的進展對中醫(yī)藥學(xué)的發(fā)展將是至關(guān)重要的。
[1] 韓家煒, KAMBER M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.北京:機械工業(yè)出版社,2007:3.
[2] 王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟大學(xué)學(xué)報(自然科學(xué)版),2004, 32(2):246-252.
[3] 崔蒙,李海燕,雷蕾,等.“大數(shù)據(jù)”時代與中醫(yī)藥“知識密集型”數(shù)據(jù)[J].中國中醫(yī)藥圖書情報雜志,2013,37(3):1-3.
[4] 維克托?邁爾-舍恩伯格,肯尼思?庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[5] 吳家睿.建立在系統(tǒng)生物學(xué)基礎(chǔ)上的精準(zhǔn)醫(yī)學(xué)[J].生命科學(xué),2015, 27(5):558-563.
[6] 張華東,趙冰,王映輝,等.謝海洲“治痹三要四宜”學(xué)術(shù)思想之信息化研究[J].湖北中醫(yī)雜志,2008,30(11):5-6.
[7] 崔蒙,楊寅.關(guān)于中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)的思考[J].中國中醫(yī)藥圖書情報雜志,2016,40(4):1-3.
Discussion on the Research Concept Change of Traditional Chinese Medicine Data Mining
HU Xue-qin1, YANG Yin2, CUI Meng2*
(1. Institute of Orthopaedics and Traumatology, Zhejiang Chinese Medical University, Hangzhou Zhejiang 310053, China; 2. Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
TCM data mining has been carried out for nearly twenty years. In this process, the concept of TCM data mining is constantly changing. According to the chronological order, there were three stages of changing: the national science and technology program of “The Ninth Five-Year Plan” and “The Tenth Five-Year Plan” period was the first stage, which was the initial stage of TCM data mining research, and the characteristic of this stage followed the “three concepts of big data”; the second stage was during “11th Five-Year and 12th Five-Year Plan” of the national science and technology program period, which was the heyday of TCM data mining research, and the characteristic of this stage followed the three concepts of "Precision Medicine"; the third stage was during the “13th Five-Year and 14th Five-Year Plan” of national science and technology program period, which was the breakthrough innovation stage of TCM data mining. This stage will be affected by the artificial intelligent, trying to find the experience of outstanding groups that can be suitable for TCM clinic.
traditional Chinese medicine; data mining; big data
R2-05
A
2095-5707(2017)01-0012-04
胡雪琴,楊寅,崔蒙.關(guān)于中醫(yī)藥數(shù)據(jù)挖掘研究理念變遷的探討[J].中國中醫(yī)藥圖書情報雜志,2017,41(1):12-15.
10.3969/j.issn.2095-5707.2017.01.003
2016-08-24)
(
2016-10-20;編輯:魏民)
國家科技部重大專項(2012ZX09304003-001);國家中醫(yī)藥管理局行業(yè)專項(201207001-21);科技部科技基礎(chǔ)性工作專項(2009FY120300);中國中醫(yī)科學(xué)院創(chuàng)新團隊項目(PY1306);福建省2011中醫(yī)健康管理協(xié)同創(chuàng)新中心第一作者:胡雪琴,副研究員,研究方向為中醫(yī)診斷學(xué)。E-mail: 549772853@qq.com
*通訊作者:崔蒙,研究員,研究方向為中醫(yī)藥信息學(xué)。E-mail: cm@mail.cintcm.ac.cn