【摘要】目前,聚類(lèi)分析作為一種新興技術(shù)手段被應(yīng)用于國(guó)內(nèi)外醫(yī)學(xué)領(lǐng)域,從不同程度輔助提升了醫(yī)療效果。了解聚類(lèi)分析在醫(yī)學(xué)領(lǐng)域的主要應(yīng)用,探索它的應(yīng)用前景及發(fā)展方向有助于各項(xiàng)醫(yī)務(wù)工作的展開(kāi)。文章通過(guò)查閱各種數(shù)據(jù)庫(kù)的相關(guān)文獻(xiàn),借助文獻(xiàn)計(jì)量學(xué)及SPSS,MATLAB等軟件全面總結(jié)出聚類(lèi)分析在醫(yī)學(xué)領(lǐng)域的主要應(yīng)用。
【關(guān)鍵詞】聚類(lèi)分析;數(shù)據(jù)挖掘;數(shù)字醫(yī)療;應(yīng)用研究
聚類(lèi)分析,它是直接比較各事物之間的性質(zhì),將性質(zhì)相近的歸為一類(lèi),性質(zhì)差別較大的歸入不同類(lèi)的一種多元統(tǒng)計(jì)分析方法?,F(xiàn)代化數(shù)字醫(yī)療的嚴(yán)峻形勢(shì)對(duì)醫(yī)務(wù)人員的要求越來(lái)越高。聚類(lèi)分析技術(shù)在發(fā)達(dá)國(guó)家的應(yīng)用已經(jīng)很廣泛,在我國(guó)醫(yī)學(xué)領(lǐng)域應(yīng)用的較晚但前景廣闊。
常用的統(tǒng)計(jì)聚類(lèi)分析方法包括譜系聚類(lèi)(hierarchical clustering)、快速聚類(lèi)(K-means)、兩階段聚類(lèi)(Two-Step)、動(dòng)態(tài)聚類(lèi)、最優(yōu)分割和模糊聚類(lèi)等。采用k-均值、k-中心點(diǎn)等算法的聚類(lèi)分析工具已被加入到許多著名的統(tǒng)計(jì)分析軟件包中,如SPSS、SAS、MATLAB等。國(guó)外比較有名的數(shù)據(jù)挖掘系統(tǒng)有SAS公司的Enterprise Miner、IBM公司的Intelligent Miner, SGI公司的 MinerSet、SPSS公司的Clementine、加拿大Simon Fraser大學(xué)開(kāi)發(fā)的DBMiner等。
通過(guò)查閱萬(wàn)方、維普、知網(wǎng)等各種數(shù)據(jù)庫(kù)的相關(guān)文獻(xiàn),借助文獻(xiàn)計(jì)量學(xué)及SPSS,MATLAB等軟件分析,發(fā)現(xiàn)聚類(lèi)分析在醫(yī)學(xué)領(lǐng)域的應(yīng)用主要有以下幾個(gè)方面。
一、聚類(lèi)分析在醫(yī)學(xué)影像上的應(yīng)用
醫(yī)學(xué)圖像數(shù)據(jù)挖掘技術(shù)聚類(lèi)分析是有效解決醫(yī)學(xué)圖像處理與分析的重要手段之一,它可以揭示正常人體各組織器官影像特征數(shù)據(jù)的分布規(guī)則和關(guān)系,為人體組織器官圖像的自動(dòng)分類(lèi)和病變組織圖像自動(dòng)識(shí)別開(kāi)辟新的途經(jīng)[1]。
目前的典型研究有:
1.在醫(yī)學(xué)圖像灰度密度研究的基礎(chǔ)上,提出基于醫(yī)學(xué)圖像帶修正系數(shù)的密度構(gòu)造聚類(lèi)算法。對(duì)現(xiàn)有圖像數(shù)據(jù)挖掘算法加以比較篩選和改進(jìn),深入研究了醫(yī)學(xué)圖像數(shù)據(jù)的核密度函數(shù)、數(shù)據(jù)分箱和基于數(shù)據(jù)分箱策略的密度構(gòu)方法,使圖像更精確。
2.用Matlab語(yǔ)言?xún)?yōu)化K-均值聚類(lèi)算法程序,提高了K-均值聚類(lèi)算法在醫(yī)學(xué)CT圖像分割上的應(yīng)用效果、穩(wěn)定性和質(zhì)量,減少了程序的運(yùn)行時(shí)間,為圖像的識(shí)別處理奠定了基礎(chǔ)。
3.將遺傳算法與聚類(lèi)分析兩種工具相結(jié)合,應(yīng)用到醫(yī)學(xué)CT 圖像分割中。利用遺傳算法搜索的隨機(jī)性和并行性,克服了K均值聚類(lèi)的局部性和對(duì)初始聚類(lèi)中心的敏感性。并且可以根據(jù)分割的要求,合理地調(diào)整聚類(lèi)時(shí)的特征向量和權(quán)重。
4.將模糊聚類(lèi)分析方法引入到醫(yī)學(xué)圖像處理領(lǐng)域,在不斷的改進(jìn)和其他方法的伴隨下,改善算法的速度和處理效果。
5.采用無(wú)監(jiān)督的聚類(lèi)分析的計(jì)算機(jī)系統(tǒng)提高對(duì)病灶的MRI X光檢查的診斷準(zhǔn)確性,作為計(jì)算機(jī)輔助診斷病灶X光檢查。
二、聚類(lèi)分析在疾病的診斷和分型上的應(yīng)用
在醫(yī)學(xué)中,值得注意的是,某些臨床實(shí)體可以有種種原因,如由非常不同的細(xì)菌造成的腦膜炎在臨床上可能無(wú)可區(qū)別;反之,一種病因可以產(chǎn)生種種體征,癥狀和病理現(xiàn)象,例如,梅毒。在當(dāng)前的數(shù)字化醫(yī)療時(shí)代,醫(yī)學(xué)聚類(lèi)分析在疾病的計(jì)算機(jī)診斷上大放異彩,解決了很多關(guān)于疾病實(shí)體和綜合征的診斷和分型的棘手問(wèn)題[2]。
較早的應(yīng)用有:Manning和Wstson(1966)使用分類(lèi)學(xué)距離和平均連鎖聚成來(lái)對(duì)心臟病分類(lèi);Jones等通過(guò)聚類(lèi)分析分開(kāi)兩種癥狀非常多變而交疊的結(jié)腸疾病;Zinsser(1964) 使用因子分析和聚類(lèi)分析區(qū)分腎盂腎炎……
我國(guó)精神分裂癥診斷標(biāo)準(zhǔn)的制定和殘肢者肌電信號(hào)的控制都應(yīng)用了模糊聚類(lèi)。
如今發(fā)達(dá)國(guó)家采用統(tǒng)計(jì)聚類(lèi)分析為早期帕金森疾病分亞型,這種亞型的鑒定對(duì)致病機(jī)制假說(shuō)的提出和治療策略的制定有重大暗示;將統(tǒng)計(jì)聚類(lèi)分析方法應(yīng)用在胃旁路減肥手術(shù)中,來(lái)辨別肥胖病人不同的亞型,借此找到阻礙減肥成功和術(shù)后恢復(fù)的模式;采用K-means聚類(lèi)分析對(duì)聽(tīng)力圖形進(jìn)行分類(lèi),改善和整合臨床設(shè)置中的圖形識(shí)別,減少由于個(gè)體經(jīng)驗(yàn)而發(fā)生的錯(cuò)誤,被用于診所開(kāi)發(fā);利用SPSS軟件對(duì)203例有隨訪結(jié)果的腫瘤作因子分析和聚類(lèi)判別分析,用于討論乳腺葉狀腫瘤的9種病理形態(tài)學(xué)特征性參數(shù)的診斷價(jià)值等等。
三、聚類(lèi)分析在監(jiān)測(cè)和評(píng)價(jià)疾病預(yù)后上的應(yīng)用
聚類(lèi)分析在國(guó)內(nèi)醫(yī)療這方面的應(yīng)用幾乎為空白,但在國(guó)外應(yīng)用已經(jīng)很有成效。
發(fā)達(dá)國(guó)家采用凝聚譜系聚類(lèi)分析將慢性病的表現(xiàn)癥狀分解,用來(lái)評(píng)估慢性病的生活質(zhì)量,如肺癌;用聚類(lèi)分析評(píng)估I型糖尿病胰島移植后自我監(jiān)測(cè)的血糖指標(biāo),觀察血糖波動(dòng)和預(yù)后[3];用聚類(lèi)分析判斷病理指標(biāo),如盡管肝功能保存良好,但低BTR水平仍能表明肝細(xì)胞癌切除患者的早期復(fù)發(fā);用幾何編碼和聚類(lèi)分析識(shí)別參數(shù)來(lái)評(píng)估和控制II型糖尿病患者的代謝控制情況,有助于改善他們的監(jiān)測(cè)和治療;用聚類(lèi)分析預(yù)測(cè)婦女生育年齡的心血管疾病和代謝風(fēng)險(xiǎn)因素等等。
四、聚類(lèi)分析在基因靶向治療上的應(yīng)用
基因數(shù)據(jù)標(biāo)準(zhǔn)化處理后可以進(jìn)行基因聚類(lèi)分析,通過(guò)基因聚類(lèi)分析可以考察未知基因的功能信息或已知基因的未知功能信息。對(duì)基因和樣本進(jìn)行雙聚類(lèi)可以更好地發(fā)現(xiàn)基因表達(dá)模式并且具有更清晰的生物學(xué)解釋[4]。
通過(guò)聚類(lèi)分析,可以獲取對(duì)種群固有結(jié)構(gòu)的認(rèn)識(shí)。有利于疾病進(jìn)行根本的靶向治療。同樣的,國(guó)外聚類(lèi)分析在這方面的研究也遠(yuǎn)遠(yuǎn)多于幾乎空白的國(guó)內(nèi)。
目前根據(jù)形態(tài)學(xué)對(duì)腫瘤進(jìn)行分類(lèi)有很大的局限性,而基因表達(dá)聚類(lèi)分析可以利用腫瘤間不同的基因表達(dá)譜進(jìn)行更精確的腫瘤亞型分類(lèi)。在腫瘤新標(biāo)志基因發(fā)現(xiàn)中使用聚類(lèi)算法和其它分析方法已經(jīng)取得很有價(jià)值的發(fā)現(xiàn),使得對(duì)腫瘤的機(jī)制有了更清晰的解釋?zhuān)瑢?duì)腫瘤的早期診斷和患者的生存預(yù)判提供了重要的參考。
除了在對(duì)腫瘤基因的研究,發(fā)達(dá)國(guó)家還利用聚類(lèi)分析研究COPD基因,辨別不同亞型的帶有不同模式的呼吸道疾病和肺氣腫的吸煙患者;用層次聚類(lèi)分析分析基因突變和某些疾病預(yù)后的關(guān)系,如AML(急性粒細(xì)胞白血?。╊A(yù)后和NPM1基因突變的關(guān)系;用離散聚類(lèi)分析,K-means算法聚類(lèi)分析和期望最大值算法來(lái)分析大規(guī)模離散型國(guó)際人類(lèi)基因組單核苷酸多態(tài)性數(shù)據(jù)變量;用標(biāo)準(zhǔn)和一致性聚類(lèi)分析工具(SC2ATmd)探索MATLAB中的微陣基因表達(dá)數(shù)據(jù);用離散的拉普拉斯的聚類(lèi)分析方法分析歐洲男士Y染色體的短串聯(lián)重復(fù)序列……,聚類(lèi)分析這把強(qiáng)大的工具使人類(lèi)在疾病治療的基因水平上邁出了一大步。
五、聚類(lèi)分析在分子流行病學(xué)中的應(yīng)用
國(guó)內(nèi)國(guó)外聚類(lèi)分析在這方面的研究都已頗為成熟。典型研究有:
1.聚類(lèi)分析在院內(nèi)感染性疾病的研究應(yīng)用(以大腸桿菌為例)
改進(jìn)并運(yùn)用基因分型方法, 研究臨床所分離到的彩超廣譜B 內(nèi)酰胺酶大腸桿菌的分子流行病學(xué)。采用脈沖場(chǎng)凝膠電泳< PFGE> 分析電泳圖譜經(jīng)數(shù)據(jù)轉(zhuǎn)化后進(jìn)行聚類(lèi)分析, 計(jì)算各菌株間的相似性系數(shù)(SSm),根據(jù)SSm 進(jìn)行單鏈鎖聚類(lèi)分析,得到相似性系數(shù)三角矩陣,對(duì)結(jié)果進(jìn)行分析,以確定菌株間的親緣關(guān)系[5]。細(xì)菌的分子流行病學(xué)研究是控制院內(nèi)感染的重要基礎(chǔ),它利用分子生物學(xué)方法來(lái)判斷實(shí)驗(yàn)菌株之間的親緣關(guān)系以發(fā)現(xiàn)爆發(fā)流行的來(lái)源及傳播途徑。
2.聚類(lèi)分析在流行病生態(tài)學(xué)研究上的應(yīng)用
例:王春曉等根據(jù)頸椎病患者的臨床表現(xiàn)設(shè)計(jì)調(diào)查表,收集575例頸椎病患者的癥狀”體征”舌脈等信息,采用聚類(lèi)分析和主成分分析法對(duì)調(diào)查表中98個(gè)常見(jiàn)癥狀進(jìn)行聚類(lèi)分析。提示聚類(lèi)分析和主成分分析用于中醫(yī)證型的分類(lèi)研究具有一定科學(xué)性。
3.聚類(lèi)分析在藥效學(xué)和藥動(dòng)學(xué)上的研究應(yīng)用
例:發(fā)達(dá)國(guó)家為快速,方便,可靠的研究藥物對(duì)白血病細(xì)胞的識(shí)別以及用于新藥的臨床試驗(yàn),利用傅里葉變換紅外顯微光譜結(jié)合無(wú)監(jiān)督譜系聚類(lèi)分析快速識(shí)別白血病細(xì)胞的耐藥性和敏感性;他們還證明順序聚類(lèi)分析是有效的heatmap展示抗生素耐藥性時(shí)空變化模式可視化的方法;使用基于地理信息系統(tǒng)的凝聚譜系聚類(lèi)分析,可以劃分出基于時(shí)空的可視化的抗生素耐藥模式等等。
六、結(jié)語(yǔ)
大量實(shí)例證明,聚類(lèi)分析是可以運(yùn)用在醫(yī)學(xué)上的一把利刃,目前對(duì)它的應(yīng)用也只是冰山一角,它在醫(yī)學(xué)上有很大的應(yīng)用空間和光明的前景。現(xiàn)代數(shù)字化醫(yī)療形勢(shì)對(duì)廣大的醫(yī)務(wù)人員提出了更高的要求,我們應(yīng)該逐步接觸并掌握好這門(mén)先進(jìn)的工具為醫(yī)學(xué)為病人更好的服務(wù)。
參考文獻(xiàn)
[1]楊生友.聚類(lèi)分析在醫(yī)學(xué)圖像中的應(yīng)用[D].蘭州大學(xué),2009.
[2]孫迎.醫(yī)院信息的數(shù)據(jù)挖掘與方法研究[A].中華醫(yī)學(xué)會(huì)第十次全國(guó)醫(yī)學(xué)信息學(xué)術(shù)會(huì)議論文匯編[C].2004.
[3]Takita,M.,et al.,Cluster analysis of self-monitoring blood glucose assessments in clinical islet cell transplantation for type 1 diabetes.Diabetes Care,2011.34(8):1799-803.
[4]Eisen MB,Spellman PT,Brown PO,et al.Cluster analysis and display ofgenome-wideexpression patterns[J].Genetics,2008,95(25):14863-14868.
[5]康梅,陳超楊,NOrman Hui, 陳文昭, 過(guò)孝靜, 鄭動(dòng)斌.產(chǎn)超廣譜β酰胺酶大腸桿菌的脈沖場(chǎng)凝膠電泳分型研究 四川大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),200435(2):214-216.
作者簡(jiǎn)介:李雙良(1993—),女,遼寧沈陽(yáng)人,現(xiàn)就讀于中國(guó)醫(yī)科大學(xué),研究方向:聚類(lèi)分析在醫(yī)學(xué)上的應(yīng)用。