前沿:
近二十余年來,隨著我國衛(wèi)計委對醫(yī)療信息化水平的要求越來越高,國內(nèi)很多醫(yī)院建立了自己的信息系統(tǒng)[1]。醫(yī)院決策層每天面對這些海量的醫(yī)療數(shù)據(jù),如何能夠?qū)㈦[藏在后面的有效信息挖掘、展現(xiàn)出來以輔助管理決策,早已成為了一個急需解決的問題。為了將信息系統(tǒng)中的有價值信息運用到實際運用中來,數(shù)據(jù)挖掘(Data Mining)技術(shù)應(yīng)運而生[2]。
隨我國國民生活水平的提高,國民飲食結(jié)構(gòu)的不合理性、工作壓力大、生活節(jié)奏快,導(dǎo)致腦卒中的病人越來越多,甚至逐漸表現(xiàn)出年輕化趨勢。影響偏癱疾病預(yù)后的因素多種多樣,通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)影響偏癱疾病的結(jié)構(gòu)化數(shù)據(jù)的主要指標(biāo)以及各指標(biāo)間的關(guān)聯(lián)關(guān)系對診治偏癱疾病具有重要的意義。
1 數(shù)據(jù)來源
本文通過一家康復(fù)醫(yī)院中時間跨度為 2017年1月—2017年12月的診斷為腦卒中的出院病人的信息系統(tǒng)中的結(jié)構(gòu)化病例數(shù)據(jù),通過刪除了不含有偏癱相關(guān)診斷、康復(fù)治療非為0的記錄,共得到2020條記錄。
2 數(shù)據(jù)預(yù)處理
通過刪除缺失數(shù)據(jù)(刪除關(guān)鍵變量如診斷、轉(zhuǎn)歸、康復(fù)治療費用為空的記錄)、 噪聲處理(一些重復(fù)性數(shù)據(jù),以及治療后退費、入院后當(dāng)天又退院等情況的數(shù)據(jù),予以忽略不計)、缺省值的處理(非關(guān)鍵變量的值缺省,予以忽略不計)、邏輯錯誤數(shù)據(jù)的處理(包含出院年齡小于入院年齡、出院日期小于入院日期等邏輯錯誤的記錄,予以清除不計)、數(shù)據(jù)變換即數(shù)據(jù)歸一化措施,得到了樣本數(shù)據(jù)。
樣本數(shù)據(jù)中含有以下30余個指標(biāo),分別為性別、年齡、婚姻狀態(tài)、入院護理級別、入院病情級別、入院白細(xì)胞、入院血沉、入院乳糜微粒、入院極低密度脂蛋白、低密度脂蛋白、入院高密度脂蛋白、入院血小板計數(shù)、入院凝血酶原、入院活化部分凝血活酶時間、入院纖維蛋白原、入院凝血酶原激活時間、入院ADL評分得分、輸液藥品(非溶質(zhì))、口服藥品、入院頭顱CT值、入院頭顱核磁值、出院白細(xì)胞值、出院血生化、出院入院血小板計數(shù)、出院凝血酶原、出院活化部分凝血活酶時間、出院纖維蛋白原、出院凝血酶原激活時間、出院乳糜微粒、出院極低密度脂蛋白、出院低密度脂蛋白、出院高密度脂蛋白、出院頭顱CT值、出院頭顱核磁值、出院護理級別、出院病情、住院時間長度、出院ADL評分得分等。
3 實驗研究
3.1 PCA降維研究
對上述經(jīng)歸一和分組后的數(shù)據(jù)進(jìn)行特征提取,以Anaconda為實驗平臺,以Python3.7、Microsoft Office 2010為工具進(jìn)行了研究。
通過PCA數(shù)據(jù)降維,從具有27個特征的本數(shù)據(jù)中提取到了4個主要指標(biāo),實現(xiàn)了11:1。關(guān)鍵指標(biāo)特征及貢獻(xiàn)率:
3.2 基于Apriori算法研究
上述4個指標(biāo)(入院CT、入院APTT、入院ADL、入院LDL)數(shù)據(jù)經(jīng)離散化處理后,進(jìn)行基于Apriori算法的關(guān)聯(lián)規(guī)則研究,實驗得到10條關(guān)聯(lián)規(guī)則。經(jīng)醫(yī)療人員無意義實際應(yīng)用意義的關(guān)聯(lián)規(guī)則后,得到了2個主要關(guān)聯(lián)規(guī)則:A關(guān)聯(lián)規(guī)則(入院CT-入院APTT-入院ADL)、B關(guān)聯(lián)規(guī)則(入院CT-入院LDL-入院ADL)。該2條關(guān)聯(lián)規(guī)則的意義是當(dāng)入院CT和入院APTT的值、入院CT和入院LDL的值分別在一定范圍內(nèi)(本文不再說明具體研究數(shù)據(jù))時,將會導(dǎo)致入院ADL某值的發(fā)生。
3.3 研究意義
入院腦CT是診斷偏癱和推測偏癱病情的主要檢查技術(shù);入院ADL值是判定衡量入院時生活自理能力和反映患者綜合性病情的主要指標(biāo);部分活化凝血活酶時間(APTT)是用于監(jiān)控腦卒中病人的出血和凝血情況;低密度脂蛋白(LDL)是導(dǎo)致相關(guān)心腦血管硬化、出血、閉塞等疾病的高危因素。
本研究表明,腦CT和部分活化凝血活酶時間(或低密度脂蛋白)是影響病人預(yù)后、反映病人腦血管病情的主要指標(biāo)。
3 總結(jié)
因信息系統(tǒng)中的諸多信息數(shù)據(jù)是非結(jié)構(gòu)化的,如吸煙史、便秘史、既往腦血管病史、自立情況、康復(fù)治療配合情況等仍是非結(jié)構(gòu)化的,本人無法直接獲取相關(guān)數(shù)據(jù),從而導(dǎo)致本研究納入的影響因子指標(biāo)體系仍不夠全面。本人希望在今后的研究中能夠有結(jié)構(gòu)化更全面的數(shù)據(jù)。
參考文獻(xiàn)
[1]張承江.醫(yī)學(xué)數(shù)據(jù)倉庫與數(shù)據(jù)挖掘.中國中醫(yī)藥出版社,2008.
[2]苗苗苗. 數(shù)據(jù)挖掘中海量數(shù)據(jù)處理算法的研究與實現(xiàn) [D]. 西安: 西安建筑科技大學(xué), 2012.
作者簡介:劉春玲,女,漢族,1984年2月出生,作者單位北方工業(yè)大學(xué);研究方向數(shù)據(jù)挖掘。