崔蒙,楊寅
中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700
關(guān)于中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)的思考
崔蒙,楊寅
中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所,北京 100700
摘要:從中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫(kù)、《中醫(yī)藥學(xué)主題詞表》的研制到中醫(yī)藥信息數(shù)字化虛擬研究院、基于結(jié)構(gòu)型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘,中醫(yī)藥數(shù)據(jù)建設(shè)取得了顯著的成績(jī)。但中醫(yī)藥科學(xué)數(shù)據(jù)在建設(shè)和利用中也存在一些問(wèn)題,需要思考。中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)需要采用虛擬研究院模式,必須有穩(wěn)定的隊(duì)伍。中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)與利用必須符合中醫(yī)藥學(xué)自身規(guī)律,建立適合自身數(shù)據(jù)處理的方法。中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)的理論和方法學(xué)問(wèn)題,不可單純引進(jìn)其他學(xué)科的理論和方法,而應(yīng)該在中醫(yī)藥理論指導(dǎo)下借鑒這些理論和方法解決中醫(yī)藥數(shù)據(jù)建設(shè)的難點(diǎn)。
關(guān)鍵詞:中醫(yī)藥;科學(xué)數(shù)據(jù);虛擬研究院
【引文格式】崔蒙,楊寅.關(guān)于中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)的思考[J].中國(guó)中醫(yī)藥圖書情報(bào)雜志,2016,40(4):1-3. DOI: 10.3969/j.issn.2095-5707.2016.04.001
中醫(yī)藥科學(xué)數(shù)據(jù)是指在中醫(yī)長(zhǎng)期醫(yī)療實(shí)踐活動(dòng)及科學(xué)研究過(guò)程中所產(chǎn)生的原始性、基礎(chǔ)性數(shù)據(jù),以及按照不同需求、系統(tǒng)加工的數(shù)據(jù)。它既包括了中醫(yī)在幾千年醫(yī)療實(shí)踐活動(dòng)中長(zhǎng)期積累與整理編纂的海量數(shù)據(jù),也包括實(shí)施科技計(jì)劃項(xiàng)目與科技工作者科學(xué)實(shí)踐所產(chǎn)生的大量數(shù)據(jù),它是中醫(yī)理論繼承與創(chuàng)新發(fā)展、中醫(yī)臨床決策支持與中藥新藥研發(fā)的重要源泉與依據(jù)。
中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)起源于20世紀(jì)80年代初,中國(guó)中醫(yī)研究院圖書情報(bào)中心(即現(xiàn)在的中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所)仿照美國(guó)國(guó)立醫(yī)學(xué)圖書館 Medline數(shù)據(jù)庫(kù)開始研制中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫(kù)。盡管只是文摘數(shù)據(jù)庫(kù),但采用美國(guó)國(guó)立醫(yī)學(xué)圖書館的標(biāo)引技術(shù),研制出《中醫(yī)藥學(xué)主題詞表》,對(duì)數(shù)據(jù)庫(kù)進(jìn)行主題詞標(biāo)引,起點(diǎn)比較高。該數(shù)據(jù)庫(kù)至今仍在持續(xù)維護(hù)中,收錄范圍已經(jīng)擴(kuò)大到1949年至今,文獻(xiàn)量超過(guò) 140萬(wàn)篇,對(duì)中醫(yī)藥科學(xué)數(shù)據(jù)的利用發(fā)揮了重要作用,是中醫(yī)藥科技查新的重要工具。
20世紀(jì)90年代末至21世紀(jì)初,隨著國(guó)家對(duì)科學(xué)數(shù)據(jù)建設(shè)重視程度的不斷提高,特別是國(guó)家科學(xué)數(shù)據(jù)共享工程的啟動(dòng),中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)獲得了快速的發(fā)展。由中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所組織,建立了由全國(guó)37家中醫(yī)藥院校和研究院所的圖書館、信息中心、文獻(xiàn)中心共同參與的中醫(yī)藥信息數(shù)字化虛擬研究院(簡(jiǎn)稱“虛擬研究院”)。虛擬研究院沒(méi)有行政關(guān)系,主要是以項(xiàng)目為紐帶,以共同目標(biāo)為己任,以各個(gè)院校、研究院所的相關(guān)機(jī)構(gòu)為依托,以各個(gè)數(shù)據(jù)庫(kù)為研究小組,形成了集全國(guó)力量為一體的中醫(yī)藥科學(xué)數(shù)據(jù)研制團(tuán)隊(duì)。在浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的全力支持下,引進(jìn)最先進(jìn)的計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù),開展了空前規(guī)模的中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)工作,開發(fā)了中醫(yī)藥科學(xué)數(shù)據(jù)共建與共享平臺(tái),研制了中醫(yī)藥學(xué)語(yǔ)言系統(tǒng)、中醫(yī)臨床術(shù)語(yǔ)系統(tǒng)和20余個(gè)中醫(yī)藥專題詞表,制作了60余個(gè)中醫(yī)藥結(jié)構(gòu)型專題數(shù)據(jù)庫(kù),形成了全球最大規(guī)模的中醫(yī)藥科學(xué)數(shù)據(jù)平臺(tái),對(duì)推動(dòng)中醫(yī)藥行業(yè)的科學(xué)數(shù)據(jù)利用,以及對(duì)中醫(yī)藥行業(yè)重視科學(xué)數(shù)據(jù)起到了不可替代的作用。
與此同時(shí),中醫(yī)藥科學(xué)數(shù)據(jù)的深度利用研究也蓬蓬勃勃地開展起來(lái)。基于結(jié)構(gòu)型數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘工作取得了很大的進(jìn)展,在方劑配伍規(guī)律、證候組合規(guī)律、名老中醫(yī)用藥規(guī)律等方面開展了大量的研究工作。在浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院的支持下,搭建了高性能計(jì)算平臺(tái),支持50個(gè)節(jié)點(diǎn)的并行運(yùn)算,運(yùn)算峰值達(dá)每秒萬(wàn)億次;研制了支持虛擬研究院工作的DartGrid平臺(tái),實(shí)現(xiàn)了全國(guó)37家單位的遠(yuǎn)程協(xié)同建庫(kù)工作;研制了支持知識(shí)服務(wù)的DartCloud云平臺(tái),構(gòu)建了知識(shí)服務(wù)平臺(tái)的智慧應(yīng)用中心,極大地促進(jìn)了中醫(yī)藥科學(xué)數(shù)據(jù)的深度利用。
當(dāng)大數(shù)據(jù)理念提出后,我們提出了中醫(yī)藥數(shù)據(jù)所具有的2個(gè)鮮明特色,即中醫(yī)藥數(shù)據(jù)是全數(shù)據(jù)、是知識(shí)密集型數(shù)據(jù),并開始研制基于大數(shù)據(jù)的應(yīng)用平臺(tái),更加關(guān)注非結(jié)構(gòu)化數(shù)據(jù)的處理、混雜數(shù)據(jù)的處理,以及數(shù)據(jù)間的相關(guān)關(guān)系,對(duì)基于中醫(yī)藥科學(xué)數(shù)據(jù)的知識(shí)服務(wù)展開了更加深入的研究。
在取得成績(jī)的同時(shí),我們也發(fā)現(xiàn)了在中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)和利用中存在的問(wèn)題,這些問(wèn)題有可能延緩中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)與利用達(dá)到更高水平和更快發(fā)展的速度。因此,必須認(rèn)真思考和解決這些問(wèn)題。
2.1建立穩(wěn)定的虛擬研究院隊(duì)伍
中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)單位的規(guī)模一般不很大,依靠一個(gè)單位開展大型數(shù)據(jù)庫(kù)的建設(shè)和利用非常困難。另外,一個(gè)重大研究項(xiàng)目常常橫跨多個(gè)學(xué)科,應(yīng)綜合應(yīng)用多種研究方法探討其獨(dú)特規(guī)律[1]。因此,以項(xiàng)目為依托,緊密聯(lián)合多所大學(xué)及研究院編制內(nèi)的實(shí)體研究機(jī)構(gòu)或科研小組的、全國(guó)性的協(xié)同工作在中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)中至關(guān)重要。而已經(jīng)建立起來(lái)的虛擬研究院是成功的范例,其多學(xué)科、多中心、多項(xiàng)目的合作模式,基于工程、多項(xiàng)目支撐、多層次結(jié)合、鼓勵(lì)自我優(yōu)勢(shì)探討的發(fā)展模式,中心負(fù)責(zé)、專業(yè)化分工、共建共享、松散聯(lián)合的運(yùn)行模式,共同構(gòu)成了虛擬研究院在中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)上的獨(dú)特優(yōu)勢(shì)[2]。通過(guò)近年的建設(shè)實(shí)踐,虛擬研究院保持了穩(wěn)步的發(fā)展,實(shí)現(xiàn)了研究方向的不斷豐富,研究領(lǐng)域的不斷拓展,參與單位科研人員整體水平的不斷提高,合作單位的不斷增多,國(guó)際交流的不斷擴(kuò)展,數(shù)字化成果、數(shù)據(jù)利用成果、傳統(tǒng)知識(shí)保護(hù)成果、國(guó)際合作成果產(chǎn)出的不斷增多。然而,在實(shí)踐中我們發(fā)現(xiàn)虛擬研究院仍存在一些問(wèn)題,最主要的是人員管理體制問(wèn)題。
現(xiàn)行的人員管理體制中存在一把手負(fù)責(zé)制、干部輪換制。一把手負(fù)責(zé)制即組成虛擬研究院的機(jī)構(gòu)負(fù)責(zé)人不僅負(fù)責(zé)確定數(shù)據(jù)建設(shè)的戰(zhàn)略和方針,還干預(yù)具體的管理過(guò)程以及方案的確定和實(shí)施。干部輪換制是指組成虛擬研究院的機(jī)構(gòu)負(fù)責(zé)人經(jīng)過(guò)一定年限后,由所隸屬的科研院所進(jìn)行更換,而新負(fù)責(zé)人可能來(lái)自院所的其他部門,不具備中醫(yī)藥信息研究背景和專業(yè)基礎(chǔ)。在這種管理體制下,“一把手”并不是這個(gè)專業(yè)的行家里手,甚至對(duì)這項(xiàng)工作沒(méi)有興趣,使得虛擬研究院的運(yùn)行出現(xiàn)了很大的問(wèn)題。換言之,一批干部輪換后,若由不擅長(zhǎng)此項(xiàng)工作的人來(lái)主持,會(huì)影響工作開展。然而,科學(xué)數(shù)據(jù)的管理和完善不是單純的技術(shù)問(wèn)題,而是技術(shù)與管理相結(jié)合的持續(xù)完善的管理過(guò)程[3]。對(duì)于虛擬研究院來(lái)說(shuō),其機(jī)構(gòu)、組織、人員等的穩(wěn)定具有極其重要的作用和意義,特別是組成虛擬研究院機(jī)構(gòu)的負(fù)責(zé)人的穩(wěn)定性對(duì)中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)工作的開展具有至關(guān)重要的作用。中醫(yī)藥科學(xué)數(shù)據(jù)的建設(shè)與利用是一項(xiàng)專業(yè)性很強(qiáng)的、需要持續(xù)進(jìn)行的工作,并不是一項(xiàng)簡(jiǎn)單的行政工作;凝聚一批有興趣、有能力、有事業(yè)心的負(fù)責(zé)人,對(duì)中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)事業(yè)具有極其重要的作用,而用簡(jiǎn)單的行政管理辦法,隨意調(diào)動(dòng)、更換負(fù)責(zé)人,會(huì)導(dǎo)致工作失去連貫性,特別是當(dāng)新的負(fù)責(zé)人沒(méi)有足夠的興趣或能力時(shí),甚至?xí)?dǎo)致工作終止,由此給中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)與利用帶來(lái)巨大損失。因此,虛擬研究院需要以負(fù)責(zé)人穩(wěn)定和研究人員關(guān)系平等為基礎(chǔ)的人員隊(duì)伍。
2.2建立適合中醫(yī)藥科學(xué)數(shù)據(jù)處理的方法
通過(guò)長(zhǎng)時(shí)間的實(shí)踐,我們發(fā)現(xiàn)中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)與利用既要遵循一般科學(xué)數(shù)據(jù)建設(shè)的規(guī)律,也要遵循中醫(yī)藥學(xué)的規(guī)律,否則其數(shù)據(jù)建設(shè)和利用就會(huì)脫離中醫(yī)藥臨床與科研的實(shí)際,失去其應(yīng)有的價(jià)值和意義。首先,中醫(yī)藥的臨床實(shí)踐是基于個(gè)體化診療的,這種個(gè)體化不僅指觀察對(duì)象的個(gè)體化,還包括觀察者的個(gè)體化,亦即參與診療過(guò)程的醫(yī)生和患者都具有個(gè)體化特征,形成一個(gè)相對(duì)獨(dú)立的個(gè)體化系統(tǒng)。當(dāng)然,這是一個(gè)開放的獨(dú)立系統(tǒng),患者是處于自己個(gè)體的天地人三者合一的開放系統(tǒng)中,醫(yī)生也同樣處于其個(gè)體的天地人三者合一的系統(tǒng)中,兩者又組成了一個(gè)共同的開放系統(tǒng)。對(duì)于這樣一個(gè)系統(tǒng)所產(chǎn)生的數(shù)據(jù)必須要遵循中醫(yī)藥學(xué)的理論進(jìn)行處理,才能發(fā)現(xiàn)其內(nèi)在規(guī)律。在這個(gè)系統(tǒng)中,有能夠使用混合大數(shù)據(jù)處理的數(shù)據(jù),如發(fā)現(xiàn)組成證候的癥狀群規(guī)律;也有只能根據(jù)單一系統(tǒng)處理的數(shù)據(jù),如醫(yī)生個(gè)體、或單個(gè)醫(yī)生與患者組成的系統(tǒng)診治時(shí)處方用藥的規(guī)律;因而不能簡(jiǎn)單地使用大數(shù)據(jù)的處理方法處理中醫(yī)藥數(shù)據(jù)。其次,中醫(yī)藥數(shù)據(jù)是屬于知識(shí)密集型數(shù)據(jù),其數(shù)據(jù)量很難達(dá)到類似天文、海洋、氣候、地理等學(xué)科級(jí)別的數(shù)據(jù)量,因此,僅靠數(shù)據(jù)密集度發(fā)現(xiàn)新知識(shí)具有一定難度。更為適合的方法可能是建立基于本體的語(yǔ)義網(wǎng)絡(luò),將數(shù)據(jù)中隱含的知識(shí)關(guān)聯(lián)起來(lái),以期發(fā)現(xiàn)新的知識(shí)和規(guī)律。所以,中醫(yī)藥科學(xué)數(shù)據(jù)的處理必須符合中醫(yī)藥學(xué)本身的規(guī)律,服務(wù)于中醫(yī)藥知識(shí)和規(guī)律的發(fā)現(xiàn)與應(yīng)用。隨著人工智能技術(shù)的發(fā)展,特別是近期韓國(guó)著名圍棋手李世石與谷歌 AlphaGo所進(jìn)行的圍棋比賽,顯示了人工智能研究發(fā)展的態(tài)勢(shì),使中醫(yī)藥科學(xué)數(shù)據(jù)的深度利用受到很大啟發(fā),甚或有了新的研究思路。
2.3建立中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)的理論和方法學(xué)
建立中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)的理論和方法學(xué),不可單純引進(jìn)其他學(xué)科的理論和方法,而應(yīng)該在中醫(yī)藥理論指導(dǎo)下借鑒這些理論和方法,來(lái)解決中醫(yī)藥數(shù)據(jù)建設(shè)的難點(diǎn)。
基于中醫(yī)藥知識(shí)服務(wù)的科學(xué)數(shù)據(jù)建設(shè)有 4個(gè)難點(diǎn),即⑴如何表達(dá)復(fù)雜、定性、模糊的中醫(yī)藥概念、知識(shí)與思維模式?⑵如何無(wú)縫集成融合不同學(xué)科的異構(gòu)知識(shí),保證知識(shí)的一致性并能快速查詢搜索?⑶如何重組、擴(kuò)展、挖掘數(shù)據(jù)以發(fā)現(xiàn)隱形知識(shí),實(shí)現(xiàn)知識(shí)創(chuàng)新價(jià)值?⑷如何實(shí)現(xiàn)智能的過(guò)程信息知識(shí)管理,提升行業(yè)經(jīng)濟(jì)效益?很明顯,單純引入其他學(xué)科的理論和方法不能直接解決這 4個(gè)難點(diǎn),只有將前者融入中醫(yī)藥理論中,將之轉(zhuǎn)化成符合中醫(yī)藥發(fā)展變化規(guī)律的理論和方法,才能解決中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)的問(wèn)題。
針對(duì)上述 4個(gè)難點(diǎn),較為合適的解決方法依次是,⑴構(gòu)建基于語(yǔ)義圖的中醫(yī)藥知識(shí)圖譜與知識(shí)庫(kù),關(guān)鍵點(diǎn)為基于多圖語(yǔ)義的知識(shí)圖譜建模方法和唯象中醫(yī)藥知識(shí)建模方法;⑵研發(fā)基于語(yǔ)義互聯(lián)網(wǎng)的中醫(yī)藥知識(shí)搜索技術(shù),關(guān)鍵點(diǎn)為多模型語(yǔ)義映射方法和分布式語(yǔ)義索引方法;⑶建立基于語(yǔ)義圖挖掘的中醫(yī)藥知識(shí)發(fā)現(xiàn),關(guān)鍵點(diǎn)是復(fù)雜網(wǎng)絡(luò)化知識(shí)的搜索挖掘方法和基于語(yǔ)義圖的泛化關(guān)聯(lián)規(guī)則挖掘方法;⑷獲取面向過(guò)程服務(wù)的知識(shí)集成方法及服務(wù)技術(shù),關(guān)鍵點(diǎn)是基于語(yǔ)義發(fā)布訂閱的知識(shí)集成方法和面向移動(dòng)環(huán)境的知識(shí)服務(wù)集成方法。
中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)是整個(gè)人口與健康科學(xué)數(shù)據(jù)共享平臺(tái)建設(shè)的不可或缺的部分,我們努力將中醫(yī)藥科學(xué)數(shù)據(jù)融入整個(gè)健康科學(xué)數(shù)據(jù)的共建共享,在促進(jìn)整個(gè)健康事業(yè)發(fā)展中發(fā)揮作用。以虛擬研究院為組織模式的中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)在取得一定進(jìn)展的同時(shí),亦發(fā)現(xiàn)一些問(wèn)題,產(chǎn)生了與之對(duì)應(yīng)的思考。希望能夠經(jīng)由這些發(fā)現(xiàn)和思考進(jìn)一步完善中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)工作,使中醫(yī)藥科學(xué)數(shù)據(jù)發(fā)揮更大的作用。
參考文獻(xiàn)
[1] 周增桓,李海燕,史先東,等.對(duì)科研協(xié)作中若干問(wèn)題的探討[J].中華醫(yī)學(xué)科研管理雜志,2000,13(3):188-189.
[2] 崔蒙,謝琪,尹愛(ài)寧,等.中醫(yī)藥信息數(shù)字化虛擬研究院建設(shè)模式研究[J].上海中醫(yī)藥大學(xué)學(xué)報(bào),2008,22(3):5-8.
[3] 吳金紅,陳勇躍.面向科研第四范式的科學(xué)數(shù)據(jù)監(jiān)管體系研究[J].圖書情報(bào)工作,2015,59(16):11-17.
(修回日期:2016-04-15;編輯:魏民)
中圖分類號(hào):R2-05
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5707(2016)04-0001-03
收稿日期:(2016-03-30)
基金項(xiàng)目:國(guó)家科技部重大專項(xiàng)(2012ZX09304003-001);國(guó)家中醫(yī)藥管理局行業(yè)專項(xiàng)(201207001-21);科技部科技基礎(chǔ)性工作專項(xiàng)(2009FY120300);中國(guó)中醫(yī)科學(xué)院創(chuàng)新團(tuán)隊(duì)項(xiàng)目(PY1306) 第一作者:崔蒙,研究員,研究方向?yàn)橹嗅t(yī)藥信息學(xué)。E-mail: cm@mail.cintcm.ac.cn
Reflections on the Construction of TCM Scientific Data
CUI Meng, YANG Yin
(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
Abstract:The construction of TCM scientific data has made great achievements, including TCM literature database, the development of TCM keywords table, virtual institute of digital TCM information, and data mining based on structural database. At the same time, we found some problems in the construction and utilization of TCM scientific data, which demand our reflection. TCM virtual institute should be used to construct TCM scientific data and build a steady team. The construction and utilization of TCM scientific data should fit the law of TCM and establish a proper way of data processing. The problems in the theory and methodology of construction of TCM scientific data cannot be solved by solely introducing theories and methods of other subjects, but can be solved by referencing these theories and methods under the guidance of TCM theories.
Key words:TCM; scientific data; virtual institute