于彤 李敬華 楊碩 于琦
摘要:中醫(yī)藥數(shù)據(jù)主要來源于中醫(yī)藥工作者在長(zhǎng)期的醫(yī)療實(shí)踐和科學(xué)研究過程中所產(chǎn)生的知識(shí)和經(jīng)驗(yàn)的系統(tǒng)總結(jié),其中蘊(yùn)含著豐富的中醫(yī)藥知識(shí),因此被稱為“知識(shí)密集型”數(shù)據(jù)。本文分析中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)的內(nèi)涵和特點(diǎn),討論中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)處理方法學(xué)研究的思路。
關(guān)鍵詞:中醫(yī)藥;“知識(shí)密集型”數(shù)據(jù);大數(shù)據(jù)
中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè)是中醫(yī)藥信息化事業(yè)中的一項(xiàng)核心工作。中醫(yī)藥行業(yè)的數(shù)據(jù)庫(kù)建設(shè)起源于20世紀(jì)80年代,經(jīng)過30余年的努力,現(xiàn)已建成了覆蓋中醫(yī)疾病、中藥、方劑、中藥化學(xué)成分、古籍、醫(yī)案、針灸等主要學(xué)科門類的中醫(yī)藥科學(xué)數(shù)據(jù)庫(kù)群。這些數(shù)據(jù)資源中蘊(yùn)含著豐富的中醫(yī)藥知識(shí)遺產(chǎn)以及相關(guān)科學(xué)知識(shí),面向知識(shí)百科、知識(shí)檢索、知識(shí)地圖等知識(shí)服務(wù)系統(tǒng)提供數(shù)據(jù)支持,為中醫(yī)藥知識(shí)傳承、臨床實(shí)踐和科學(xué)研究做出了重要貢獻(xiàn)。
近年來,隨著各領(lǐng)域數(shù)據(jù)的大量積累,以及數(shù)據(jù)處理分析技術(shù)的發(fā)展和創(chuàng)新,人類已經(jīng)進(jìn)入了“大數(shù)據(jù)”時(shí)代。大數(shù)據(jù)不僅是信息技術(shù)的變革,也是生活、工作與思維的變革。“大數(shù)據(jù)”時(shí)代的來臨,為進(jìn)一步推進(jìn)中醫(yī)藥科學(xué)數(shù)據(jù)建設(shè),提升中醫(yī)藥數(shù)據(jù)的質(zhì)量和利用價(jià)值,發(fā)展基于數(shù)據(jù)的中醫(yī)藥科學(xué)研究,提供了重要的機(jī)遇。為此,有必要進(jìn)一步思考中醫(yī)藥數(shù)據(jù)的本質(zhì),利用“大數(shù)據(jù)”的最新理念和技術(shù)來革新中醫(yī)藥數(shù)據(jù)分析處理方法。
1.中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)的內(nèi)涵
中醫(yī)藥科學(xué)數(shù)據(jù)主要包括中醫(yī)經(jīng)典、醫(yī)案、科技文獻(xiàn)、臨床指南、文獻(xiàn)型數(shù)據(jù)庫(kù)以及結(jié)構(gòu)性數(shù)據(jù)庫(kù)等,它們都是中醫(yī)藥知識(shí)的載體。中醫(yī)藥科學(xué)數(shù)據(jù)明顯不同于交易記錄、網(wǎng)站訪問記錄、聊天記錄、衛(wèi)星圖像等數(shù)據(jù)。相比之下,中醫(yī)藥科學(xué)數(shù)據(jù)的數(shù)據(jù)量不是很大,但數(shù)據(jù)中蘊(yùn)含的知識(shí)量卻很大,數(shù)據(jù)的“知識(shí)密集度”很高。因此,中醫(yī)藥科學(xué)數(shù)據(jù)可被稱為“知識(shí)密集型”數(shù)據(jù)。
1.1中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)的來源分析
中醫(yī)藥數(shù)據(jù)的“知識(shí)密集型”特征由中醫(yī)藥數(shù)據(jù)的來源和獲取方式?jīng)Q定。在很多領(lǐng)域,大量的數(shù)據(jù)產(chǎn)生于人類所發(fā)明的觀測(cè)工具(如天文望遠(yuǎn)鏡、顯微鏡、傳感器等)和信息系統(tǒng)(如電子商務(wù)、社交網(wǎng)站等)。在“大數(shù)據(jù)”時(shí)代,隨著數(shù)據(jù)傳輸和數(shù)據(jù)存儲(chǔ)能力不斷增強(qiáng),以及數(shù)據(jù)分析效率不斷提高,人們有能力將各種數(shù)據(jù)實(shí)時(shí)、動(dòng)態(tài)地整合在一起以供人類進(jìn)行數(shù)據(jù)分析和知識(shí)發(fā)現(xiàn),顯著增強(qiáng)人類對(duì)世界的理解能力。
中醫(yī)藥數(shù)據(jù)主要是知識(shí)表達(dá)的產(chǎn)物,并非觀測(cè)得來的數(shù)據(jù)。中醫(yī)藥數(shù)據(jù)主要來源于中醫(yī)藥工作者在長(zhǎng)期的醫(yī)療實(shí)踐和科學(xué)研究過程中所產(chǎn)生的知識(shí)和經(jīng)驗(yàn)的系統(tǒng)總結(jié)。中醫(yī)藥數(shù)據(jù)也反映中醫(yī)及其所發(fā)明的工具對(duì)世界進(jìn)行觀測(cè)的結(jié)果,如中醫(yī)對(duì)四診的描述、舌象、脈象以及舌診儀和脈診儀觀測(cè)的數(shù)據(jù)。但這些觀測(cè)結(jié)果一般都經(jīng)過中醫(yī)的認(rèn)識(shí)、理解和解釋后,才形成了中醫(yī)領(lǐng)域常見的數(shù)據(jù)(如中醫(yī)經(jīng)典、醫(yī)案等)。這種數(shù)據(jù)體現(xiàn)的是經(jīng)過人類理性加工、處理之后的客觀信息,是客觀信息與中醫(yī)的經(jīng)驗(yàn)性知識(shí)疊加起來之后形成的。中醫(yī)藥數(shù)據(jù)因其根源于中醫(yī)觀察和實(shí)踐而仍保有其客觀性,但主要是人類認(rèn)知和思維的產(chǎn)物。
1.2中醫(yī)藥文獻(xiàn)資源屬于“知識(shí)密集型”數(shù)據(jù)
中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)的典型案例是浩如煙海的中醫(yī)藥文獻(xiàn)資源,包括數(shù)字化文獻(xiàn)、紙質(zhì)文獻(xiàn)以及其他載體上的文獻(xiàn)。中醫(yī)藥文獻(xiàn)是歷代醫(yī)家在臨床診治中的心得體會(huì),是科研學(xué)者對(duì)實(shí)驗(yàn)結(jié)果和科學(xué)探索成果的系統(tǒng)總結(jié),是中醫(yī)智慧的集中體現(xiàn)。出于文獻(xiàn)管理、文獻(xiàn)檢索和快速閱覽等目的,已出現(xiàn)了對(duì)文獻(xiàn)的元數(shù)據(jù)、摘要和主題內(nèi)容進(jìn)行系統(tǒng)管理的文獻(xiàn)性數(shù)據(jù)庫(kù),它們可被視為文獻(xiàn)資源的衍生產(chǎn)品,同樣也屬于“知識(shí)密集型”數(shù)據(jù)。
1.3中醫(yī)藥結(jié)構(gòu)型數(shù)據(jù)庫(kù)主要屬于“知識(shí)密集型”數(shù)據(jù)
中醫(yī)藥領(lǐng)域的另一類重要的數(shù)據(jù)資源是“結(jié)構(gòu)型數(shù)據(jù)庫(kù)”。中醫(yī)藥工作者將各種文獻(xiàn)中關(guān)于中藥、方劑、中藥化學(xué)成分等各方面的知識(shí)分別搜集起來,進(jìn)行系統(tǒng)整理,構(gòu)建了中藥庫(kù)、方劑庫(kù)、中藥化學(xué)庫(kù)、中醫(yī)病案庫(kù)等數(shù)據(jù)庫(kù)。針對(duì)中醫(yī)藥數(shù)據(jù)庫(kù)的調(diào)研表明,這些數(shù)據(jù)庫(kù)的主體內(nèi)容并非觀測(cè)得來的數(shù)據(jù),而是知識(shí)表達(dá)的產(chǎn)物。例如,中醫(yī)病案庫(kù)是對(duì)中醫(yī)專家的經(jīng)驗(yàn)性知識(shí)的總結(jié);中藥庫(kù)、方劑庫(kù)、中藥化學(xué)庫(kù)等也都是各領(lǐng)域知識(shí)的系統(tǒng)性記載。當(dāng)然,中醫(yī)藥數(shù)據(jù)中也包括一些“非知識(shí)型”數(shù)據(jù),如診斷儀器產(chǎn)生的數(shù)據(jù),信息系統(tǒng)的技術(shù)性元數(shù)據(jù)等,但其主體部分仍是“知識(shí)密集型”數(shù)據(jù)。
1.4中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)的特點(diǎn)
中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)具有4個(gè)特點(diǎn)。(1)數(shù)據(jù)多為定性,缺少量化表達(dá),不利于現(xiàn)有計(jì)算機(jī)程序直接處理;(2)非結(jié)構(gòu)化數(shù)據(jù)較多,結(jié)構(gòu)化難度較大,給數(shù)據(jù)分析造成困難;(3)數(shù)據(jù)內(nèi)容體現(xiàn)人文科學(xué)與自然科學(xué)的結(jié)合,不利于邏輯推理與一般數(shù)據(jù)分析工具的應(yīng)用;(4)數(shù)據(jù)具有的高維小樣本及個(gè)性化特征,需要進(jìn)行特殊處理。為處理中醫(yī)藥“知識(shí)密集型”數(shù)據(jù),不能照搬一般的“大數(shù)據(jù)”方法,需要建立適合中醫(yī)藥領(lǐng)域特點(diǎn)的方法學(xué)體系。
2.中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)的研究思路
2.1使用語(yǔ)義網(wǎng)技術(shù)處理“知識(shí)密集型”數(shù)據(jù)
在中醫(yī)藥信息學(xué)的研究中,需要提出適合“知識(shí)密集型”數(shù)據(jù)的處理方法。中醫(yī)藥數(shù)據(jù)的知識(shí)量很大,主要體現(xiàn)在概念之間存在著豐富的語(yǔ)義關(guān)系。這些語(yǔ)義關(guān)系一起構(gòu)成了一個(gè)復(fù)雜的語(yǔ)義網(wǎng)絡(luò)。若能利用語(yǔ)義網(wǎng)技術(shù)實(shí)現(xiàn)“知識(shí)密集型”數(shù)據(jù)資源的合理組織,則可在中醫(yī)藥數(shù)據(jù)資源利用中取得突破。
Tim Berners Lee等于2001年提出了語(yǔ)義網(wǎng)(Semantic Web)的理念,認(rèn)為它將是一部人類與機(jī)器都能理解的“數(shù)據(jù)百科全書”,能顯著提升機(jī)器對(duì)Web數(shù)據(jù)的處理能力。語(yǔ)義網(wǎng)技術(shù)發(fā)端于知識(shí)表示和推理領(lǐng)域的研究成果,能解決數(shù)據(jù)集成與互聯(lián)問題。它為處理中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)并從中發(fā)現(xiàn)新穎知識(shí),提供了理想的技術(shù)手段。在21世紀(jì),語(yǔ)義網(wǎng)技術(shù)已經(jīng)取得了長(zhǎng)足的發(fā)展,從一個(gè)構(gòu)想演變?yōu)橐惶紫鄬?duì)完整的技術(shù)體系,如Web本體語(yǔ)言(web ontology language,OWL)等核心技術(shù),語(yǔ)義網(wǎng)上的數(shù)據(jù)也在不斷增長(zhǎng)。越來越多的大數(shù)據(jù)應(yīng)用引入語(yǔ)義技術(shù),通過語(yǔ)義鏈接,給大數(shù)據(jù)系統(tǒng)帶來開放性和互操作性,并能提供基于“知識(shí)”的分析。
“大數(shù)據(jù)”的一個(gè)核心理念是,當(dāng)我們把一系列相關(guān)的數(shù)據(jù)集聯(lián)系起來進(jìn)行分析,可能出現(xiàn)一些我們一開始預(yù)想不到的發(fā)現(xiàn)。在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以發(fā)現(xiàn)的知識(shí),是在小規(guī)模數(shù)據(jù)基礎(chǔ)上無法發(fā)現(xiàn)的。將數(shù)據(jù)集成起來所產(chǎn)生的知識(shí)及其價(jià)值是預(yù)先無法預(yù)測(cè)的。在“大數(shù)據(jù)”時(shí)代,我們需要考慮如何將中醫(yī)藥及相關(guān)領(lǐng)域的知識(shí)密集型數(shù)據(jù)資源整合起來,以輔助中醫(yī)藥工作者開展知識(shí)發(fā)現(xiàn)活動(dòng)。
所以有必要在中醫(yī)藥領(lǐng)域本體的基礎(chǔ)上,建立一套基于語(yǔ)義網(wǎng)的中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)處理方法學(xué)。其中包括:(1)建立中醫(yī)藥本體體系,為處理“知識(shí)密集型”數(shù)據(jù)奠定基礎(chǔ);(2)基于本體建立中醫(yī)藥學(xué)語(yǔ)言系統(tǒng),為數(shù)據(jù)處理提供必要的術(shù)語(yǔ)資源;(3)建立基于人機(jī)結(jié)合的中醫(yī)藥數(shù)據(jù)采集技術(shù)及知識(shí)獲取方法體系;(4)基于語(yǔ)義網(wǎng)技術(shù),從數(shù)據(jù)中挖掘概念之間顯性或隱性的語(yǔ)義關(guān)系。通過這套方法學(xué),能匯集中醫(yī)藥及相關(guān)學(xué)科的數(shù)據(jù)資源,挖掘數(shù)據(jù)中蘊(yùn)含的潛在規(guī)律及知識(shí)點(diǎn),發(fā)揮多學(xué)科研究成果對(duì)中醫(yī)藥發(fā)展的支撐作用。
2.2面向“知識(shí)密集型”數(shù)據(jù)的知識(shí)發(fā)現(xiàn)
在中醫(yī)藥領(lǐng)域,知識(shí)發(fā)現(xiàn)是一個(gè)從“知識(shí)”到“知識(shí)”的知識(shí)精煉過程。在海量數(shù)據(jù)中蘊(yùn)含著知識(shí),而知識(shí)發(fā)現(xiàn)過程則將知識(shí)(模式和規(guī)則)從數(shù)據(jù)中提取出來。從知識(shí)發(fā)現(xiàn)的角度分析,我們以“知識(shí)量”為分子,以“數(shù)據(jù)量”為分母,就可以得到數(shù)據(jù)的“知識(shí)密集度”。數(shù)據(jù)的“知識(shí)密集度”反映了數(shù)據(jù)在知識(shí)發(fā)現(xiàn)方面的價(jià)值。
傳統(tǒng)上,知識(shí)發(fā)現(xiàn)一般針對(duì)通過數(shù)據(jù)采集工具自動(dòng)產(chǎn)生的數(shù)據(jù)。這些數(shù)據(jù)之中的“知識(shí)密集度”一般比較低。例如,我們?nèi)コ邢M(fèi)所產(chǎn)生的單據(jù),每張單據(jù)本身并不蘊(yùn)含有價(jià)值的知識(shí),但將數(shù)以億計(jì)的單據(jù)記錄結(jié)合起來進(jìn)行分析,則可得到有關(guān)人類購(gòu)買行為的模式和規(guī)律。雖然挖出的知識(shí)很有價(jià)值,但因數(shù)據(jù)總量很大,所以數(shù)據(jù)的“知識(shí)密集度”仍然較低。
對(duì)于“知識(shí)密集型”數(shù)據(jù)而言,數(shù)據(jù)集之間的集成體現(xiàn)出了各種知識(shí)甚至知識(shí)體系之間的關(guān)聯(lián)與融合。在醫(yī)學(xué)領(lǐng)域,將不同來源的知識(shí)資源關(guān)聯(lián)起來進(jìn)行分析已有很長(zhǎng)的歷史。swanson于1986年發(fā)現(xiàn)有的文獻(xiàn)記載了部分雷諾氏病患者血液中有些異常(如血液黏度偏高),又有一些文獻(xiàn)記載了食用魚油能糾正這些異常(降低血液黏度),因而提出“食用魚油會(huì)對(duì)雷諾氏病患者有益”的科學(xué)假設(shè)。這類案例表明,將不同專家以及不同領(lǐng)域的知識(shí)體系相互融合起來,可能導(dǎo)致新的知識(shí)發(fā)現(xiàn)。
2.3從知識(shí)融合到知識(shí)創(chuàng)新
在中醫(yī)藥領(lǐng)域,知識(shí)融合已成為知識(shí)創(chuàng)新的一個(gè)來源,特別是將中醫(yī)與其他科學(xué)知識(shí)關(guān)聯(lián)起來進(jìn)行分析,已經(jīng)產(chǎn)生了一些重要的知識(shí)發(fā)現(xiàn)。例如,20世紀(jì)70年代,屠呦呦從中醫(yī)經(jīng)典《肘后備急方》中獲得啟發(fā),發(fā)現(xiàn)了抗瘧的新藥青蒿素。將中醫(yī)藥“知識(shí)密集型”數(shù)據(jù)整合起來所構(gòu)成群體性知識(shí)系統(tǒng),體現(xiàn)了中醫(yī)藥工作者的群體性智慧,可能蘊(yùn)含著大量具有啟發(fā)性的知識(shí)。
語(yǔ)義網(wǎng)可將數(shù)據(jù)資源的整合推向極致,也就是實(shí)現(xiàn)各種中醫(yī)藥數(shù)據(jù)資源的集成,并與其他學(xué)科的數(shù)據(jù)關(guān)聯(lián)起來,構(gòu)建一個(gè)全球性的中醫(yī)藥數(shù)據(jù)空間。該空間含有豐富的中醫(yī)藥知識(shí),是實(shí)現(xiàn)知識(shí)整合的基礎(chǔ),能支持全球的中醫(yī)藥工作者進(jìn)行知識(shí)發(fā)現(xiàn)研究。一方面,從中醫(yī)藥數(shù)據(jù)中發(fā)現(xiàn)的知識(shí)是新穎的,知識(shí)發(fā)現(xiàn)的結(jié)果也是不可預(yù)測(cè)的;另一方面,中醫(yī)藥知識(shí)獲取和數(shù)據(jù)集成都是非常困難的工作,需要耗費(fèi)很大的人力成本。因此,開展中醫(yī)藥數(shù)據(jù)集成和挖掘工作,也需要考慮成本和收益如何平衡的問題。
3.小結(jié)
中醫(yī)藥工作者從20世紀(jì)80年代開始采用數(shù)據(jù)庫(kù)技術(shù)對(duì)中醫(yī)藥知識(shí)進(jìn)行系統(tǒng)梳理和保存,成功研制了大量的科學(xué)數(shù)據(jù)庫(kù)。但多年來該領(lǐng)域一直沿用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)技術(shù),數(shù)據(jù)處理水平并沒有明顯提高。
在“大數(shù)據(jù)”時(shí)代,人類所發(fā)明的各種工具在實(shí)時(shí)地搜集和整合各種數(shù)據(jù)以供人類分析,顯著增強(qiáng)了人類對(duì)世界的感知和理解能力?!按髷?shù)據(jù)”時(shí)代的來臨,為中醫(yī)藥數(shù)據(jù)建設(shè)事業(yè)的發(fā)展提供了重大的發(fā)展機(jī)遇。為此,有必要重新思考中醫(yī)藥數(shù)據(jù)的本質(zhì),革新中醫(yī)藥數(shù)據(jù)處理方法。中醫(yī)藥數(shù)據(jù)的核心內(nèi)容是對(duì)中醫(yī)藥知識(shí)的系統(tǒng)表達(dá)。中醫(yī)藥數(shù)據(jù)的生成模式與獲取手段,決定其無法成為傳統(tǒng)意義上的“大數(shù)據(jù)”,而必然是“知識(shí)密集型”數(shù)據(jù)?!按髷?shù)據(jù)”時(shí)代的中醫(yī)藥信息處理方法和技術(shù)體系,應(yīng)側(cè)重于解決中醫(yī)藥知識(shí)表示、融合、推理等一系列與“知識(shí)”相關(guān)的問題,語(yǔ)義網(wǎng)技術(shù)可在其中發(fā)揮重要作用。
中國(guó)中醫(yī)藥圖書情報(bào)2015年4期