王士森,徐 慧
(南京同仁醫(yī)院醫(yī)學(xué)工程部,江蘇 南京 211102)
醫(yī)療設(shè)備管理系統(tǒng)通常包含數(shù)據(jù)采集與通信、設(shè)備基礎(chǔ)信息挖掘、設(shè)備定位、狀態(tài)監(jiān)測(cè)等模塊,醫(yī)療設(shè)備管理數(shù)據(jù)種類繁多,隱匿大量未知數(shù)據(jù),信息冗余度較高。對(duì)設(shè)備定位信息進(jìn)行高維度挖掘、對(duì)設(shè)備狀態(tài)監(jiān)測(cè)進(jìn)行分類等工作會(huì)給醫(yī)療設(shè)備的日常管理帶來沉重負(fù)擔(dān),降低管理系統(tǒng)運(yùn)行效率。
關(guān)聯(lián)規(guī)則(association rule mining)能夠反映海量數(shù)據(jù)中項(xiàng)集與項(xiàng)集之間的關(guān)聯(lián)性或相關(guān)關(guān)系,可描述問題產(chǎn)生的原因、后果等信息,因此將關(guān)聯(lián)規(guī)則算法用于醫(yī)療設(shè)備管理,能夠從大規(guī)模設(shè)備運(yùn)行數(shù)據(jù)中找到引發(fā)設(shè)備異常狀態(tài)的相關(guān)因素,獲取有效的快速檢修依據(jù)。關(guān)聯(lián)規(guī)則算法應(yīng)用形式較多,其核心問題在于精準(zhǔn)選取關(guān)聯(lián)因素之間的強(qiáng)關(guān)聯(lián)規(guī)則。為此,本文重新布局醫(yī)療設(shè)備管理系統(tǒng)架構(gòu),對(duì)FP- Growth關(guān)聯(lián)規(guī)則算法實(shí)施改進(jìn),提高醫(yī)療設(shè)備管理智慧化程度。
基于關(guān)聯(lián)規(guī)則設(shè)計(jì)高效率的醫(yī)療設(shè)備管理系統(tǒng),如圖1所示。
圖1 基于關(guān)聯(lián)規(guī)則的醫(yī)療設(shè)備管理系統(tǒng)架構(gòu)
從圖1可知,系統(tǒng)包含5個(gè)關(guān)鍵單元?;A(chǔ)感知單元中的傳感網(wǎng)絡(luò)負(fù)責(zé)實(shí)時(shí)采集醫(yī)療設(shè)備的內(nèi)部運(yùn)行數(shù)據(jù)、環(huán)境數(shù)據(jù);攝像頭用于獲取醫(yī)療設(shè)備外部狀態(tài)信息[1];無線定位基站通過和移動(dòng)終端交互設(shè)備運(yùn)行信息,將傳感器采集的醫(yī)療設(shè)備數(shù)據(jù)傳輸至網(wǎng)關(guān)基站。MYSQL數(shù)據(jù)支持單元存儲(chǔ)管理數(shù)據(jù),在功能邏輯單元對(duì)系統(tǒng)功能邏輯進(jìn)行布局。公共組件單元利用關(guān)聯(lián)規(guī)則對(duì)高維信息進(jìn)行降維。最后,通過用戶與系統(tǒng)信息交互將醫(yī)療設(shè)備管理與“關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘”連接起來,在應(yīng)用界面展示最具價(jià)值的醫(yī)療設(shè)備信息。
1.2.1基于FP-Growth算法的關(guān)聯(lián)規(guī)則分析原理
基于FP-Growth算法挖掘無線傳感網(wǎng)絡(luò)初始設(shè)備監(jiān)測(cè)數(shù)據(jù)的關(guān)聯(lián)規(guī)則,獲取特征間的強(qiáng)關(guān)聯(lián)規(guī)則,實(shí)現(xiàn)特征降維,減少無效計(jì)算。FP-Growth算法探析隱藏在事務(wù)數(shù)據(jù)項(xiàng)間的關(guān)系形成關(guān)聯(lián)規(guī)則,無需產(chǎn)生候選項(xiàng)集,其關(guān)聯(lián)規(guī)則生成過程只包含2次數(shù)據(jù)庫(kù)掃描,將代表頻繁項(xiàng)集的醫(yī)療設(shè)備數(shù)據(jù)庫(kù)壓縮[2],使用一棵頻繁模式樹來表達(dá),即FP樹,項(xiàng)集的關(guān)聯(lián)數(shù)據(jù)存儲(chǔ)在FP樹中,具體而言,基于FP-Growth算法特征降維的步驟如下:
步驟1,掃描數(shù)據(jù)集獲取項(xiàng)目集中每個(gè)項(xiàng)目出現(xiàn)的次數(shù),將項(xiàng)目出現(xiàn)最少次數(shù)定義為最小支持度,在將最小支持度以下的項(xiàng)目集予以刪除后,由大至小排列初始數(shù)據(jù)集中的項(xiàng)目。
步驟2,再次掃描數(shù)據(jù)庫(kù),構(gòu)建降序的頻繁項(xiàng)頭表和FP樹。
步驟3,基于由下至上的順序查找各項(xiàng)目的條件模式基,遞歸調(diào)用樹結(jié)構(gòu),最小支持度以下項(xiàng)予以剔除。生成單一路徑是 FP-Growth算法的終極目標(biāo),若迭代出單一路徑的樹結(jié)構(gòu)可直接列舉全部組合,算法結(jié)束;反之,應(yīng)循環(huán)調(diào)用非單一路徑樹結(jié)構(gòu),形成單一路徑時(shí)終止。
定義醫(yī)療設(shè)備原始數(shù)據(jù)全部項(xiàng)的集合用I={i1,i2,…,id}表示,全部事務(wù)的集合用T={t1,t2,…,tN}描述。各事務(wù)集中的項(xiàng)集均為I的子集。
關(guān)聯(lián)規(guī)則分析的支持度與置信度表達(dá)式如公式(1)和公式(2)所示,其中支持度計(jì)算方法見公式(3):
(1)
(2)
s=|{x|x∈D,rulei∈x}|
(3)
式中:s(X→Y)為關(guān)聯(lián)規(guī)則的支持度分析形式;c(X→Y)為關(guān)聯(lián)規(guī)則的置信度分析形式;X→Y為關(guān)聯(lián)規(guī)則形式,其中X和Y表示不相交的項(xiàng)集;σ(X∪Y)為項(xiàng)集X∪Y的支持度計(jì)數(shù);σ(X)為項(xiàng)集X的支持度計(jì)數(shù);s為支持度集合;N為事務(wù)數(shù)量;x為支持度值;D和rulei分別為訓(xùn)練數(shù)據(jù)集及其規(guī)則。關(guān)聯(lián)規(guī)則挖掘與分析中統(tǒng)一將集合稱為項(xiàng)集。
1.2.2FP-Growth算法改進(jìn)
1)樹空間節(jié)省策略。
將采集的醫(yī)療設(shè)備原始數(shù)據(jù)(包括運(yùn)行數(shù)據(jù)、基本信息數(shù)據(jù)、定位數(shù)據(jù)等)作為事務(wù)集,挖掘出第一棵子樹標(biāo)記為T1,合并T1的全部子樹與剩余分支,并剔除T1;新的逆向FP-Tree出現(xiàn)時(shí)遞歸調(diào)用挖掘過程,在僅剩一顆子樹并且該子樹挖掘完成時(shí)終止[3]。對(duì)于逆向挖掘匹配而言,剩余子樹剔除后遞歸生成條件樹的步驟不可省略,并且條件樹規(guī)模過大會(huì)導(dǎo)致整個(gè)算法產(chǎn)生的時(shí)間開銷與空間開銷直線上升。對(duì)此,使用單向生成代替原本的FP-Tree生成模式,僅沿用指向配套父節(jié)點(diǎn)的指針以縮減樹的空間,配合使用約束子樹策略,為降低樹的冗余結(jié)構(gòu)、優(yōu)化關(guān)聯(lián)規(guī)則挖掘效率提供雙重保障[4]。
通過剔除非頻繁項(xiàng)父項(xiàng)節(jié)點(diǎn)指針來節(jié)省樹空間的FP-Tree關(guān)鍵偽代碼為:
lnput:D,T,最小支持?jǐn)?shù)τ
Output: FP-Tree
1 創(chuàng)建樹根root,狀態(tài)為空;
2 for each transactiontinD;
{
3 for each itemxint
4 向t增加在T中查到的全部x父項(xiàng)集;
5 剔除t中冗余父項(xiàng)集;
6 for each itemxint
7 找出與x一致的項(xiàng)集g,查找范圍為候選頻繁1-項(xiàng)集G1;
8g的支持度計(jì)數(shù)=支持度計(jì)數(shù)+1;
9 層次樹T中非頻繁項(xiàng)的父項(xiàng)予以剔除;
10 重新排序t中頻繁項(xiàng)目;
11 Insert Treeo();
12 end for
13 end for
}
14 end for
2)約束子樹策略。
原始數(shù)據(jù)、節(jié)點(diǎn)鏈表、項(xiàng)頭表是FP-Tree的基本數(shù)據(jù)結(jié)構(gòu),假設(shè)FP-Tree中包含rn<… 基于約束子樹概念生成FP-Tree的過程中,定義CPath表示與首棵子樹挖掘并存的根至節(jié)點(diǎn)的子路徑,該子路徑將根節(jié)點(diǎn)作為端點(diǎn)的概率為0;M表示終結(jié)點(diǎn),M支持度計(jì)數(shù)即為CPath的支持度頻度計(jì)數(shù),約束子樹就是那些受約束子路徑限制的子樹的組合[5]。為了明確支持度頻度計(jì)算,在運(yùn)用約束子樹策略時(shí)添加一個(gè)數(shù)組結(jié)構(gòu)塊,節(jié)點(diǎn)頻度計(jì)數(shù)存儲(chǔ)在該結(jié)構(gòu)塊中。綜上,在引入樹空間節(jié)省策略與約束子樹策略輔助下,FP-Growth算法的時(shí)間用量大大縮小,存儲(chǔ)空間開銷同步降低。 對(duì)于隱藏異常數(shù)據(jù),FP-Growth算法很難通過關(guān)聯(lián)規(guī)則進(jìn)行狀態(tài)評(píng)判,對(duì)此基于K-means算法對(duì)隱藏?cái)?shù)據(jù)實(shí)施無監(jiān)督聚類分析——分析醫(yī)療設(shè)備數(shù)據(jù)的相似度。異常數(shù)據(jù)就是離群的數(shù)據(jù),可以通過其斷定醫(yī)療設(shè)備的狀態(tài)。 以關(guān)聯(lián)規(guī)則分析后的醫(yī)療設(shè)備異常特征作為數(shù)據(jù)樣本,K-means算法預(yù)設(shè)k個(gè)初始簇中心點(diǎn)與k個(gè)簇?cái)?shù),按照鄰近原則向簇中心點(diǎn)代表的簇分配中心點(diǎn);單簇范圍內(nèi)其新的簇中心點(diǎn)即為利用該簇內(nèi)全部點(diǎn)重新求取的簇的樣本點(diǎn)均值;分配點(diǎn)并更新簇中心點(diǎn)以迭代的方式實(shí)現(xiàn),終止條件是類簇中心點(diǎn)無顯著變化和完成預(yù)設(shè)的迭代次數(shù),二者滿足其一即可。本文對(duì)傳統(tǒng)K-means算法挖掘醫(yī)療設(shè)備狀態(tài)信息的步驟進(jìn)行了優(yōu)化與改進(jìn),以便高性能獲取醫(yī)療設(shè)備中隱藏的狀態(tài)信息: 步驟1,醫(yī)療設(shè)備運(yùn)行信息預(yù)處理。求取各個(gè)醫(yī)療設(shè)備數(shù)據(jù)樣本點(diǎn)的密度值,預(yù)設(shè)一個(gè)用以判斷樣本點(diǎn)是否為孤立點(diǎn)或噪聲點(diǎn)的閾值,從而分離出醫(yī)療設(shè)備樣本點(diǎn)中的孤立部分和噪聲部分并刪除[6],減少冗余點(diǎn)對(duì)設(shè)備運(yùn)行特征相似度判定的影響。 步驟2,初始簇中心點(diǎn)選取。以候選初始中心點(diǎn)集為基礎(chǔ),基于最大最小距離原則選取k個(gè)數(shù)據(jù)對(duì)象作為初始聚類中心。 步驟3,求取余下醫(yī)療設(shè)備樣本與簇中心的距離,基于均值更新簇中心,均值為k個(gè)新的簇中心;再次求取每個(gè)簇的樣本點(diǎn)均值,并更新簇中心。 步驟4,循環(huán)操作步驟3直到滿足終止條件,即分類出k個(gè)最終簇。 通過上述步驟輸出的結(jié)果即為醫(yī)療設(shè)備異常數(shù)據(jù)的分類結(jié)果,可用于判斷醫(yī)療設(shè)備的運(yùn)行狀態(tài),系統(tǒng)據(jù)此進(jìn)行異常預(yù)警。 基于本文優(yōu)化的FP-Growth算法、K-means算法搭建了醫(yī)療設(shè)備管理系統(tǒng),基于無線通信協(xié)議實(shí)現(xiàn)信息傳輸。將3臺(tái)呼吸機(jī)、3臺(tái)麻醉機(jī)、2臺(tái)佩戴型設(shè)備、2臺(tái)院外監(jiān)測(cè)設(shè)備作為管理對(duì)象。為了準(zhǔn)確評(píng)估本文系統(tǒng)在醫(yī)療設(shè)備狀態(tài)關(guān)聯(lián)規(guī)則挖掘方面的優(yōu)缺點(diǎn),分別基于傳統(tǒng)FP-Growth算法、約束子樹FP-Growth算法開發(fā)了醫(yī)療設(shè)備管理系統(tǒng),進(jìn)行對(duì)比測(cè)試。 圖2所示為本文系統(tǒng)的醫(yī)療設(shè)備異常監(jiān)測(cè)界面,圖像內(nèi)容為001號(hào)呼吸機(jī)的異常信息提示。 圖2 醫(yī)療設(shè)備異常監(jiān)管界面 由界面圖可知,該呼吸機(jī)存在氣道壓力過低的問題,通過關(guān)聯(lián)規(guī)則分析得知該設(shè)備可能存在呼出閥漏氣、管道泄漏、面罩(插管)漏氣的情況,給出了呼吸機(jī)出現(xiàn)異常狀態(tài)的可能原因,為醫(yī)護(hù)人員提供了檢修方向。界面同時(shí)給出了警報(bào)發(fā)出的時(shí)間、醫(yī)療設(shè)備的位置信息。 本文改進(jìn)的FP-Growth算法將醫(yī)療設(shè)備運(yùn)行數(shù)據(jù)集劃分為I1、I2、I3、I4、I5、I6、I7項(xiàng)集。最小支持閾值設(shè)置關(guān)乎醫(yī)療設(shè)備狀態(tài)關(guān)聯(lián)規(guī)則挖掘的效果,較小的閾值會(huì)導(dǎo)致冗余規(guī)則頻繁,不能反映關(guān)鍵性信息;較大的最小支持閾值則會(huì)導(dǎo)致強(qiáng)關(guān)聯(lián)規(guī)則被剔除。本次測(cè)試依據(jù)閾值預(yù)設(shè)經(jīng)驗(yàn)分別設(shè)定最小支持度(minsupport)為0.5,最小置信度(minconfidence)為0.8,系統(tǒng)對(duì)醫(yī)療設(shè)備異常信息進(jìn)行關(guān)聯(lián)規(guī)則分析過程中,支持度計(jì)數(shù)情況見表1,關(guān)聯(lián)規(guī)則挖掘結(jié)果見表2。 表1 支持度計(jì)數(shù)統(tǒng)計(jì) 表2 關(guān)聯(lián)規(guī)則挖掘結(jié)果 表2中的數(shù)據(jù)符合最小支持與最小置信度閾值情況,同時(shí)滿足支持度≥0.5且置信度≥0.8,所以其結(jié)果被視為有效的醫(yī)療設(shè)備關(guān)聯(lián)規(guī)則挖掘結(jié)果,屬于強(qiáng)關(guān)聯(lián)規(guī)則。 統(tǒng)計(jì)3種關(guān)聯(lián)規(guī)則挖掘算法支持下系統(tǒng)的信息處理效率,見表3。 表3 不同系統(tǒng)的關(guān)聯(lián)規(guī)則挖掘時(shí)間開銷 單位:s 表3數(shù)據(jù)顯示,本文系統(tǒng)挖掘醫(yī)療設(shè)備狀態(tài)關(guān)聯(lián)規(guī)則的效率最高,且無顯著波動(dòng),展現(xiàn)了較大的效率優(yōu)勢(shì)。這是因?yàn)楸疚南到y(tǒng)使用改進(jìn)后的FP-Growth算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,使用單向生成模式代替原本FP-Tree生成模式,僅保留指向配套父節(jié)點(diǎn)的指針以縮減樹的空間,配合使用約束子樹策略和雙重路徑減少了樹的冗余結(jié)構(gòu),從而提高關(guān)聯(lián)規(guī)則挖掘效率。此外,本文系統(tǒng)改進(jìn)FP-Growth算法的最小支持度生成策略,刪除低于最小支持度的項(xiàng)集,具有較高的合理性,避免挖掘過多的規(guī)則信息,減少了時(shí)間消耗。 本文基于改進(jìn)FP-Growth算法對(duì)醫(yī)療設(shè)備信息實(shí)施初步降維處理后減少了信息冗余程度,存儲(chǔ)在系統(tǒng)中的信息價(jià)值較高,一定程度上減少了系統(tǒng)的負(fù)載量、提高了信息處理效率。此外,本文系統(tǒng)基于改進(jìn)K-means算法對(duì)醫(yī)療設(shè)備的異常信息進(jìn)行分類,能夠準(zhǔn)確判斷設(shè)備存在的問題并發(fā)出警報(bào)。雖然通過關(guān)聯(lián)規(guī)則分析可以得知醫(yī)療設(shè)備狀態(tài)的關(guān)聯(lián)性,但是設(shè)備異常狀態(tài)的判斷屬于隱藏的暗知識(shí),需要進(jìn)一步實(shí)施數(shù)據(jù)挖掘聚類。本文系統(tǒng)利用K-means算法補(bǔ)充關(guān)聯(lián)規(guī)則分析的不足,使得醫(yī)療設(shè)備管理系統(tǒng)的建設(shè)更加完善與全面。1.3 基于K-means算法的深醫(yī)療設(shè)備異常信息深度挖掘
2 測(cè)試分析
2.1 系統(tǒng)界面測(cè)試
2.2 系統(tǒng)關(guān)聯(lián)規(guī)則生成測(cè)試
3 結(jié)束語