余江維+余泉
摘 要: 在中醫(yī)四診信息融合智能化診斷系統(tǒng)中,四診信息來自于多個(gè)不同的異構(gòu)數(shù)據(jù)源。針對(duì)目前數(shù)據(jù)集成問題的研究現(xiàn)狀,分析異構(gòu)數(shù)據(jù)源的結(jié)構(gòu),結(jié)合中醫(yī)智能化診斷系統(tǒng),利用XML Schema設(shè)計(jì)MDD(元數(shù)據(jù)字典)的通用模型、處理XML文檔的DOM對(duì)象模型、以及數(shù)據(jù)庫(kù)連接的OLE DB技術(shù),提出一種以XML文件為中介的數(shù)據(jù)集成方法,實(shí)現(xiàn)了中醫(yī)智能化診斷系統(tǒng)中四診信息的有機(jī)集成。
關(guān)鍵詞: 中醫(yī); 智能化診斷系統(tǒng); 數(shù)據(jù)集成; 異構(gòu)數(shù)據(jù)源; XML
中圖分類號(hào): TN958?34; TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)22?0048?03
0 引 言
中醫(yī)智能化診斷是根據(jù)中醫(yī)的四診理論,利用計(jì)算機(jī)人工智能技術(shù)進(jìn)行中醫(yī)證候的自動(dòng)化診斷過程。在此過程中,計(jì)算機(jī)對(duì)中醫(yī)知識(shí)的獲取、表現(xiàn)方式及內(nèi)部的推導(dǎo)機(jī)制是核心內(nèi)容。中醫(yī)的四診包含望診、聞診、問診、切診等諸方面。本研究主要探討在四診信息的獲取中,四診信息異構(gòu)數(shù)據(jù)源的集成問題。
1 異構(gòu)數(shù)據(jù)源
當(dāng)前數(shù)據(jù)信息源在形式上差別較大,無統(tǒng)一模式。數(shù)據(jù)庫(kù)類型、運(yùn)行平臺(tái)、數(shù)據(jù)格式、數(shù)據(jù)的加載和卸載方法等千差萬別。在異構(gòu)數(shù)據(jù)源環(huán)境中,有文本、Oracle,Sybase,SQL Server,DB2,Access等多種類型。
不同數(shù)據(jù)源有不同的存儲(chǔ)結(jié)構(gòu)、組織表達(dá)形式、信息描述等差異,進(jìn)而造成數(shù)據(jù)的抽取困難。在異構(gòu)數(shù)據(jù)源環(huán)境中,必須建立一個(gè)數(shù)據(jù)源與數(shù)據(jù)源之間的中間層,作為數(shù)據(jù)通信的中間接口。集成數(shù)據(jù)庫(kù)的命令通過中間接口傳送到不同的數(shù)據(jù)源;各數(shù)據(jù)源把發(fā)送的數(shù)據(jù)轉(zhuǎn)換成中間接口的格式,通過中間接口發(fā)送到集成數(shù)據(jù)庫(kù)中[1]。
2 中醫(yī)智能化診斷系統(tǒng)框架
按中醫(yī)四診原理,智能化診斷系統(tǒng)由舌診、脈診、面色診、問診及穴位診等子系統(tǒng)組成,其構(gòu)架如圖1所示。其中,綜合診斷系統(tǒng)與SQL數(shù)據(jù)庫(kù)在服務(wù)器端,其他子系統(tǒng)位于不同PC的客戶端。各子系統(tǒng)之間、子系統(tǒng)與綜合診斷系統(tǒng)之間存在異構(gòu)性。
3 XML數(shù)據(jù)交換技術(shù)
XML又稱為可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language),是一種元標(biāo)識(shí)語(yǔ)言,提供了結(jié)構(gòu)化資料的一種自我描述,是一種開放的數(shù)據(jù)結(jié)構(gòu)。XML不但描述數(shù)據(jù)內(nèi)容,而且描述數(shù)據(jù)的結(jié)構(gòu),使數(shù)據(jù)之間的關(guān)系得到很好的體現(xiàn)。XML具有結(jié)構(gòu)化程度高、平臺(tái)獨(dú)立性強(qiáng)、保存格式簡(jiǎn)單、便于擴(kuò)充延展及網(wǎng)上傳輸?shù)忍匦?,因此XML非常適合于不同數(shù)據(jù)庫(kù)間的信息交換。以XML為中介實(shí)現(xiàn)數(shù)據(jù)交換是當(dāng)前研究的熱點(diǎn),正成為網(wǎng)絡(luò)資料交換的標(biāo)準(zhǔn)。
XML數(shù)據(jù)交換,一是從數(shù)據(jù)源中抽取交換的數(shù)據(jù),轉(zhuǎn)化為XML交換文檔;二是對(duì)交換文檔的格式進(jìn)行轉(zhuǎn)換,并映射數(shù)據(jù)源和目的庫(kù)中的相關(guān)字段,進(jìn)而把數(shù)據(jù)載入到目的庫(kù)中。在不同的應(yīng)用系統(tǒng)中,采用統(tǒng)一的XML標(biāo)簽和格式生成XML文檔,是實(shí)現(xiàn)數(shù)據(jù)動(dòng)態(tài)交換的基本要求。
目前常見的數(shù)據(jù)交換技術(shù)主要有[2]: EDI系統(tǒng)、中介層、數(shù)據(jù)倉(cāng)庫(kù)和中間數(shù)據(jù)等方式。XML采用中間方式,利用XML文件作為中間數(shù)據(jù),提供數(shù)據(jù)通用格式,達(dá)到數(shù)據(jù)交換的目的。
4 基于XML的Web異構(gòu)數(shù)據(jù)源之間的數(shù)據(jù)集成
數(shù)據(jù)集成是將多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)多維立方體或一般文件中的數(shù)據(jù),存放在一個(gè)格式統(tǒng)一的數(shù)據(jù)庫(kù)中。
在數(shù)據(jù)集成的邏輯關(guān)系中,Web服務(wù)在客戶與數(shù)據(jù)倉(cāng)庫(kù)之間??蛻魧颖仨毥?jīng)過XML接口訪問數(shù)據(jù)源數(shù)據(jù),保證了源數(shù)據(jù)的安全。標(biāo)準(zhǔn)XML編碼,能很好地支持異構(gòu)數(shù)據(jù)源之間的數(shù)據(jù)交換;同時(shí),基于HTTP和SOAP協(xié)議的Web服務(wù)技術(shù),讓數(shù)據(jù)可以無障礙地越過防火墻。邏輯結(jié)構(gòu)如圖2所示。
元數(shù)據(jù)(Metadata)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,是對(duì)數(shù)據(jù)源信息的描述[3],是標(biāo)準(zhǔn)的XML文件。元數(shù)據(jù)字典(MDD)對(duì)元數(shù)據(jù)進(jìn)行管理,依靠XML的XML Schema技術(shù)設(shè)計(jì)和建模,與公共數(shù)據(jù)模型保持一致性,方便與XML數(shù)據(jù)集成器合作。元數(shù)據(jù)字典必須注冊(cè)所有參與的數(shù)據(jù)源。
XML數(shù)據(jù)集成器并不存儲(chǔ)具體數(shù)據(jù),只存儲(chǔ)所有數(shù)據(jù)的集成模式。XML數(shù)據(jù)集成器,對(duì)客戶層屏蔽數(shù)據(jù)源的差異,向客戶層保證相同的數(shù)據(jù)視圖,充當(dāng)數(shù)據(jù)總線,把實(shí)際數(shù)據(jù)源轉(zhuǎn)變成用戶數(shù)據(jù)視圖。對(duì)不同數(shù)據(jù)源的數(shù)據(jù),用XML Schema技術(shù)設(shè)計(jì)一個(gè)公共數(shù)據(jù)模式(Common Data Model,CDM)進(jìn)行統(tǒng)一處理。不同數(shù)據(jù)源有不同的模式,對(duì)他們進(jìn)行集成時(shí),數(shù)據(jù)字典(MDD)是解決他們異構(gòu)性[4??5]的重要方法。
(1) 命名異構(gòu):一是相同的對(duì)象和屬性在不同的源數(shù)據(jù)中用不同的名字表示(異名同義),二是不同的對(duì)象用相同的名字表示(同名異義)。命名異構(gòu)成為不同模式之間語(yǔ)義沖突的重要原因。在設(shè)計(jì)集成系統(tǒng)時(shí),必須在元數(shù)據(jù)字典(MDD)中利用一個(gè)統(tǒng)一的名字表示每個(gè)數(shù)據(jù)源相應(yīng)的字段。例如商品的價(jià)格,在兩個(gè)數(shù)據(jù)源中,一個(gè)用price,一個(gè)用cost,在MDD中統(tǒng)一用Price表示。
(2) 結(jié)構(gòu)異構(gòu)性:指元數(shù)據(jù)信息的組成方式在數(shù)據(jù)源間各不相同。用定義全局模式的方法解決。關(guān)心的數(shù)據(jù)成分在全局模式中定義,并許可在集成數(shù)據(jù)時(shí)讓某些成分為空(Nul1)。
例如,在定義全局模式時(shí),允許價(jià)格(Price)為空。
·····
(3) 值的異構(gòu)性:數(shù)據(jù)單位、數(shù)據(jù)精度在不同的數(shù)據(jù)源中不同。可以在元數(shù)據(jù)中定義數(shù)據(jù)單位、數(shù)據(jù)精度,進(jìn)而與全局模式中定義的數(shù)據(jù)進(jìn)行響應(yīng)轉(zhuǎn)換。
(4) 數(shù)據(jù)模型的異構(gòu)性:不同數(shù)據(jù)源通過各自的Wrapper/Agent解決數(shù)據(jù)模型的異構(gòu)性。首先定義一個(gè)公用的統(tǒng)一的數(shù)據(jù)模型(CDM),再把從單個(gè)數(shù)據(jù)源中提取的局部數(shù)據(jù)轉(zhuǎn)換成CDM中間模型數(shù)據(jù)。事實(shí)上,單個(gè)數(shù)據(jù)源通過自身的Wrapper/Agent結(jié)構(gòu),就能把從中提取的局部數(shù)據(jù)轉(zhuǎn)變成符合CDM要求的XML文檔數(shù)據(jù)。
(5) 時(shí)間異構(gòu)性:隨著時(shí)間的推移,數(shù)據(jù)源的結(jié)構(gòu)描述、屬性表示和取值發(fā)生變化??梢酝ㄟ^MDD管理軟件對(duì)數(shù)據(jù)源的元數(shù)據(jù)描述進(jìn)行增添、刪除或修改。
6 結(jié) 語(yǔ)
在數(shù)字化網(wǎng)絡(luò)化信息環(huán)境中,以XML為代表的技術(shù)體系已經(jīng)成為信息組織、處理和交換的基本技術(shù)。XML技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的結(jié)合,得到廣泛使用。本文介紹了基于XML數(shù)據(jù)交換的實(shí)現(xiàn)原理,分析了利用MDD解決模式集成中異構(gòu)性的方法,以及在中醫(yī)智能化診斷系統(tǒng)中的主要應(yīng)用。實(shí)驗(yàn)表明,基于XML Schema技術(shù)設(shè)計(jì)的MDD模型能夠高效地管理異構(gòu)數(shù)據(jù)源數(shù)據(jù)[6]。XML數(shù)據(jù)交換技術(shù)在中醫(yī)智能化診斷系統(tǒng)中,對(duì)異構(gòu)數(shù)據(jù)源之間的數(shù)據(jù)交換與集成有非常重要的作用。
參考文獻(xiàn)
[1] 謝星峰,鄒平.基于異構(gòu)數(shù)據(jù)庫(kù)環(huán)境數(shù)據(jù)抽取的系統(tǒng)結(jié)構(gòu)研究:Java和XML的解決方案[J].計(jì)算機(jī)與數(shù)字工程,2005,33(3):28?30.
[2] 王松旺,樊秀娥,姜韜,等.XML數(shù)據(jù)交換技術(shù)在公共衛(wèi)生科學(xué)數(shù)據(jù)共享中的應(yīng)用[J].中國(guó)衛(wèi)生工程學(xué),2007(1):49?50.
[3] ELISA B, ELENA F. XML and data integration [J]. IEEE Internet Computing, 200l, 11(12): 75?76.
[4] BERTINO E, CATANIA B. Integrating XML and databases [J]. IEEE Internet Computing, 200l, 7(8): 84?88.
[5] CHANG Y S, HO M H, YUAN S M. Aunified interface for integrating information retrieval [J]. Computer Standards&Interfaces, 2001, 6(23): 325?340.
[6] 盧正鼎,張素智.集成Web數(shù)據(jù)的系統(tǒng)框架與實(shí)現(xiàn)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2003,24(10):1759?1762.