胡瀟+羅冬蘭
摘要:當(dāng)前對生命科學(xué)領(lǐng)域的研究已經(jīng)成為國內(nèi)、國際學(xué)者的熱點研究問題,在此基礎(chǔ)上對生理信息數(shù)據(jù)庫的需求日漸增加。越來越多的人開始應(yīng)用這些開放的數(shù)據(jù)作為科研和臨床教學(xué)的基礎(chǔ)。PhysioBank是一大型的、不斷擴(kuò)充的、由生物醫(yī)學(xué)研究機(jī)構(gòu)共享的記錄復(fù)雜生理信號和相關(guān)數(shù)據(jù)的數(shù)據(jù)文檔集合,已經(jīng)成為研究人員獲得臨床數(shù)據(jù)開發(fā)數(shù)據(jù)分析算法,分享研究成果的重要平臺。
本文重點介紹了運(yùn)用MATLAB的高性能數(shù)值計算和可視化的特點,將數(shù)據(jù)庫PhysioBank中的數(shù)據(jù)進(jìn)行識讀并且用圖表直觀地顯示出來。以MIT—BIH心律失常數(shù)據(jù)庫的測試波形為例介紹起特定數(shù)據(jù)格式的識讀方法,最后簡單介紹了該數(shù)據(jù)庫的相關(guān)應(yīng)用。
關(guān)鍵詞:數(shù)據(jù)庫;生理信號;心電圖;數(shù)據(jù)格式
1 PhysioNet的簡介
自1999年起,由美國國家衛(wèi)生研究院(NIH)資助,美國麻省理工學(xué)院(MIT)聯(lián)合波士頓BethIsrael Deaconess醫(yī)學(xué)中心、波士頓大學(xué)等單位建立了基于Web 的復(fù)雜生理信號和生物醫(yī)學(xué)信號研究資源網(wǎng)站PhysioNet(www.physionet.org),用于促進(jìn)研究數(shù)據(jù)和分析軟件的交流,激勵相關(guān)研究人員之間的廣泛協(xié)作,同時促進(jìn)新的分析方法和參考數(shù)據(jù)庫的發(fā)展。PhysioNet資源網(wǎng)站包括PhysioNet網(wǎng)頁,數(shù)據(jù)庫PhysioBank和PhysioToolkit軟件庫三個相互關(guān)聯(lián)部分(如圖1.1)。
PhysioNet同時提供了一個開放式的網(wǎng)絡(luò)資源平臺,可以自由地通過網(wǎng)絡(luò)訪問,免費獲取PhysioBank和PhysioToolkit的原始數(shù)據(jù)和分析工具,發(fā)布和交換生物醫(yī)學(xué)信號以及處理信號的開放源碼軟件,為協(xié)作進(jìn)行數(shù)據(jù)分析和新算法評估提供便利;同時還通過在線指南對用戶如何利用該網(wǎng)絡(luò)資源提供服務(wù)和訓(xùn)練,并設(shè)置著作論文、最新進(jìn)展、討論、挑戰(zhàn)、常見問題等專題。PhysioNet為研究人員提供了一個方便獲得臨床數(shù)據(jù)、開發(fā)數(shù)據(jù)分析算法、分享研究成果的平臺,為臨床教育提供重要的病例資料,內(nèi)容經(jīng)過嚴(yán)格的審查,其科學(xué)性和嚴(yán)謹(jǐn)性已得到廣泛的驗證,享有很高的權(quán)威性。
2 數(shù)據(jù)庫PhysioBank的介紹
目前,國際上有三個主流的心電數(shù)據(jù)庫,即歐共體定量心電圖共同標(biāo)準(zhǔn)(CSE),美國心臟學(xué)會(AHA)和美國麻省理工學(xué)院(MIT/BIH)的電生理信號數(shù)據(jù)庫。美國國家衛(wèi)生研究院(NIH)的PhysioBank數(shù)據(jù)庫包含了MIT/BIH及位于世界各國不同研究機(jī)構(gòu)的40多個子庫。PhysioBank是一個以心電(ECG)信號為主,核磁共振成像(MRI)等其他資料為輔的科研資源大型數(shù)據(jù)庫,總的數(shù)據(jù)量超過了110GB。它包含了健康人和病人身上提取的心肺活動、神經(jīng)系統(tǒng)等多參數(shù)生物信號。這些信號涉及一些較為普遍的病癥,例如心臟猝死、充血性心力衰竭、癲癇癥、睡眠呼吸暫停癥等[2]。
由于數(shù)據(jù)壓縮及標(biāo)準(zhǔn)化的考慮,數(shù)據(jù)庫中的數(shù)據(jù)不能直接使用。其數(shù)據(jù)格式和工具都是在Unix環(huán)境開發(fā)的,沒有提供通用的Windows程序接口,對習(xí)慣Windows編成的研究人員來說很不方便。通常的解決方法有兩種:一是使用專門的工具軟件PhysioToolkit及函數(shù)庫,在Unix環(huán)境中通過專用分析軟件對數(shù)據(jù)進(jìn)行操作,這對于沒有跨平臺操作經(jīng)驗的用戶來說,這種方法的可擴(kuò)展性受到限制;二是用戶根據(jù)數(shù)據(jù)存儲格式來編寫自己的識讀程序,由于PhysioBank中的數(shù)據(jù)格式并不統(tǒng)一,用戶首先需要確認(rèn)所需要的數(shù)據(jù)的存儲格式,之后根據(jù)數(shù)據(jù)格式進(jìn)行相應(yīng)的程序編寫從而達(dá)到對PhysioBank中數(shù)據(jù)識讀的目的。本文主要介紹通過第二種方法對PhysioBank中的數(shù)據(jù)進(jìn)行讀取。
PhysioBank中的數(shù)據(jù)資料按其發(fā)展的成熟完善程度分為三類:
Classl:具有完備的注釋信息,并且經(jīng)過權(quán)威機(jī)構(gòu)的測試。比如MIT一BIH中的心率不齊數(shù)據(jù)庫,已經(jīng)成為一般ECG識讀程序的驗證參照。
Class2:是特定研究的數(shù)據(jù)源副本。這些庫由其研究者提供,并經(jīng)過了相關(guān)人員有保留的測試。這類數(shù)據(jù)庫可以驗證原作者的相關(guān)研究,也可以使用不同的方法與原作者的方法進(jìn)行比較。這類數(shù)據(jù)庫經(jīng)過多方面的驗證和研究之后,將最終轉(zhuǎn)化為第一類數(shù)據(jù)庫。
Class3:來源于某些研究團(tuán)體,并且正在用于研究,因此,其數(shù)據(jù)的成熟性和完備性還不夠。但是,這類數(shù)據(jù)庫往往反映了當(dāng)今的研究方向和技術(shù)難題。該數(shù)據(jù)庫的開放可以吸引相關(guān)領(lǐng)域的研究者共同開展工作。
3 文件的識讀
數(shù)據(jù)庫PhysioBank中每一數(shù)據(jù)庫記錄通常包含三個文件(如圖3.1)分別是頭文件(擴(kuò)展名為.hea),數(shù)據(jù)文件(擴(kuò)展名為.dat),注釋文件(擴(kuò)展名為.atr)。
以美國MIT-BIH心律失常數(shù)據(jù)庫為例,該數(shù)據(jù)庫由48個經(jīng)過注解的記錄組成,其中25個記錄的全部數(shù)據(jù)都可以從互聯(lián)網(wǎng)上下載,每一個記錄時間約為30分鐘。
比如MIT—BIH心律失常數(shù)據(jù)庫中的記錄100包含三個文件,分別是頭文件100.hea,數(shù)據(jù)文件100.dat,注釋文件100.atr。
3.1 MIT—BIH心律失常數(shù)據(jù)庫中的信號識讀
MIT-BIH心律失常數(shù)據(jù)庫是由麻省理工學(xué)院和Beth Israel醫(yī)院合作共同建立的數(shù)據(jù)庫,MIT-BIH數(shù)據(jù)庫中數(shù)據(jù)來自47個個體,包括25個男性和22個女性,共有48個記錄,每個記錄含30分鐘左右的數(shù)據(jù)片段。數(shù)據(jù)庫中ECG的采樣頻率為360Hz,采樣的精度為11位(數(shù)據(jù)范圍在0-2047之間)。數(shù)據(jù)庫中每條記錄都包含兩個通道的數(shù)據(jù)(如圖3.2),每個通道采用的導(dǎo)聯(lián)方法也是不一樣的。第一通道是采用校正的肢體II導(dǎo)聯(lián),第二通道通常采用校正的V1導(dǎo)聯(lián)(偶爾有V2、V5導(dǎo)聯(lián)),正常拍的QRS復(fù)合波群形態(tài)通常在第一通道上比較明顯,在第二通道上則一般很難辨別。目前MIT-BIH數(shù)據(jù)庫中的48條記錄都可以從網(wǎng)站中免費獲取。
識讀過程中首先于數(shù)據(jù)庫中下載所需的信號文件,以MIT—BIH中的100文件為例,在網(wǎng)頁http://www.physionet.org/physiobank/database/mitdb/ 中可下載100記錄的頭文件,數(shù)據(jù)文件與注釋文件。
MIT一BIH心律失常數(shù)據(jù)庫的數(shù)據(jù)文件應(yīng)用Format212格式存儲,針對這一信號類型設(shè)計MATLAB程序可識讀其中心電信號。
-------------------- SPECIFY DATA
------------------------------------------------------
PATH='C:\MATLAB7\work\Rwave';%讀取的路徑
HEADERFILE='100.hea';%頭文件設(shè)定為100.hea
ATRFILE='100.atr'; %注釋文件設(shè)定為100.atr
DATAFILE='100.dat'; %數(shù)據(jù)文件設(shè)定為100.dat
SAMPLES2READ=4096; % 數(shù)據(jù)長度
通過MATLAB對數(shù)據(jù)文件進(jìn)行讀取,得到圖像(圖3.3)如下:
3.2 MIT—BIH數(shù)據(jù)庫對心血管疾病進(jìn)行研究
心血管疾病已經(jīng)成為當(dāng)今危害人類健康的主要疾病之一,心電圖檢查是臨床上診斷心血管疾病的重要方法。心電圖準(zhǔn)確的自動分析與診斷對于心血管診斷起著關(guān)鍵的作用,也是國內(nèi)外學(xué)者所熱衷的課題。
心電信號是伴隨心臟搏動時產(chǎn)生的微弱電信號,是心臟病人病情的一種外在表現(xiàn)。至今,對此微弱信號的提取技術(shù)己經(jīng)相當(dāng)完善。近幾十年來,人們更關(guān)心的是如何通過各種方法研究各類心電信號,并找出與之對應(yīng)的病癥關(guān)系,以期達(dá)到機(jī)器自動診斷的目的。
Physiobank數(shù)據(jù)庫是一個以心電數(shù)據(jù)為主的大型數(shù)據(jù)庫,不僅包含有各種不同類型的心電數(shù)據(jù)庫,如MIT—BIH心律失常數(shù)據(jù)庫還有經(jīng)過處理的RR間期數(shù)據(jù)庫,為心血管疾病的研究及心率變異性分析方法提供了豐富的數(shù)據(jù)。
4 總結(jié)
PhysioBank數(shù)據(jù)庫是一個公開準(zhǔn)確的生物醫(yī)學(xué)信息數(shù)據(jù)庫,其心電數(shù)據(jù)尤為全面,為各國學(xué)者的科研教學(xué)及儀器開發(fā)提供了重要數(shù)據(jù)源。該數(shù)據(jù)庫通過在Intemet上的公開數(shù)據(jù)庫的信息資源,實現(xiàn)數(shù)據(jù)收集和自動更新,達(dá)到了數(shù)據(jù)庫的不斷完善和進(jìn)步。
本課題重在基于MATLAB對PhysioBank中數(shù)據(jù)的識讀,同時對PhysioBank的結(jié)構(gòu)和內(nèi)容及其數(shù)據(jù)文件進(jìn)行了詳細(xì)的介紹。本文以MIT—BIH心律失常數(shù)據(jù)庫為例對其所存心電信號進(jìn)行識讀。
通過本課題的研究對MIT—BIH數(shù)據(jù)庫的結(jié)構(gòu)和內(nèi)容都有了一定的了解,并且熟悉了MATLAB應(yīng)用軟件的相關(guān)操作和數(shù)據(jù)驗證方法,對今后的學(xué)習(xí)工作提供了很大的幫助。
參考文獻(xiàn):
[1]龐興梅.PhysioNet信息資源解析及利用.醫(yī)學(xué)信息學(xué)雜志.21010年第31卷第7期.
[2]翁劍楓,楊贏.基于MAT LAB語言設(shè)計的電生理信號分析系統(tǒng).中國計量學(xué)院學(xué)報.2000年6月20卷第一期.
[3]http://www.phsionet.org(EB/OL).