廖多楊
(成都醫(yī)學(xué)院第一附屬醫(yī)院 信息管理部,成都 610500)
現(xiàn)如今醫(yī)院的數(shù)據(jù)庫(kù)聚集了大量復(fù)雜的數(shù)據(jù)結(jié)構(gòu)與多種信息,急需分類處理技術(shù)對(duì)臨床的數(shù)據(jù)進(jìn)行處理[1-2]。但是傳統(tǒng)的分類處理技術(shù)缺乏結(jié)構(gòu)化和規(guī)整化的分類特性,其分類處理的準(zhǔn)確率也相對(duì)較低,存在速度慢、使用過(guò)程繁瑣、效率低等問(wèn)題,不能滿足醫(yī)院對(duì)數(shù)據(jù)分類處理的需求[3-4]。文獻(xiàn)[5]中提出了一種基于VSM模型的數(shù)據(jù)分類處理技術(shù),該技術(shù)能夠利用模型進(jìn)行數(shù)據(jù)的統(tǒng)計(jì),并在此基礎(chǔ)上對(duì)數(shù)據(jù)特征進(jìn)行簡(jiǎn)單明了的描述,進(jìn)而進(jìn)行分類處理。雖然該方法對(duì)數(shù)據(jù)處理的準(zhǔn)確率較高,但是指定的過(guò)程比較困難、推廣性比較差,很難實(shí)現(xiàn)大規(guī)模的推廣應(yīng)用;文獻(xiàn)[6]中提出了一種離散化的數(shù)據(jù)分類處理技術(shù),該技術(shù)能夠提高算法的精準(zhǔn)度,具有較強(qiáng)的伸縮性。雖然該方法能夠進(jìn)行大規(guī)模的數(shù)據(jù)分類,但是進(jìn)行數(shù)據(jù)存取與預(yù)處理的過(guò)程中效率較低;文獻(xiàn)[7]中提出了一種概念漂移的數(shù)據(jù)分類處理技術(shù),該技術(shù)能夠?qū)⒎诸惖恼`差作為概念漂移的重要指標(biāo),其分類的模型可根據(jù)指標(biāo)調(diào)整構(gòu)建的大小,具有較大的靈活性。雖然該方法能夠方便的對(duì)誤差進(jìn)行檢驗(yàn),但是降低了分類處理的泛化錯(cuò)誤率。
針對(duì)上述的觀點(diǎn),我提出了一種模糊分類處理技術(shù)對(duì)醫(yī)院臨床數(shù)據(jù)進(jìn)行分析。首先對(duì)醫(yī)院臨床運(yùn)營(yíng)的各種數(shù)據(jù)指標(biāo)進(jìn)行了說(shuō)明,根據(jù)指標(biāo)分析了數(shù)據(jù)的特性;然后對(duì)臨床的數(shù)據(jù)使用了模糊的分類處理技術(shù);最后進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明,該技術(shù)的使用能夠改善傳統(tǒng)的分類的方法,提高數(shù)據(jù)分類的高效性與準(zhǔn)確性,是對(duì)數(shù)據(jù)處理的重要技術(shù)手段,也是未來(lái)我國(guó)醫(yī)院大量數(shù)據(jù)分類處理必然的發(fā)展趨勢(shì)。
根據(jù)醫(yī)院業(yè)務(wù)的流程,建立臨床運(yùn)營(yíng)的指標(biāo)數(shù)據(jù),并分別從臨床的效率、臨床的負(fù)荷等方面對(duì)臨床的數(shù)據(jù)進(jìn)行分析,如表1所示。
表1 臨床運(yùn)營(yíng)的數(shù)據(jù)指標(biāo)
由表1可知:進(jìn)行數(shù)據(jù)處理的時(shí)候應(yīng)該根據(jù)最基本的原理來(lái)處理數(shù)據(jù)集Z={z1,z2,…zn},并按照相關(guān)的規(guī)則,將數(shù)據(jù)劃分到預(yù)定義的數(shù)據(jù)類別X={x1,x2,…,xm}中,具體處理流程如圖1所示。
圖1 醫(yī)院臨床數(shù)據(jù)分析智能分類處理流程
由圖1可知:對(duì)醫(yī)院臨床數(shù)據(jù)分析智能分類處理的過(guò)程中主要分為了兩個(gè)部分,分別是:訓(xùn)練的階段、學(xué)習(xí)的階段。訓(xùn)練的階段是需要大量的人工來(lái)標(biāo)記醫(yī)院臨床數(shù)據(jù),并使用聯(lián)機(jī)進(jìn)行分析;學(xué)習(xí)的階段是對(duì)整個(gè)訓(xùn)練的過(guò)程進(jìn)行監(jiān)督,需要對(duì)數(shù)據(jù)進(jìn)行向量化[8],然后用向量的特征組來(lái)表示。
總體來(lái)說(shuō),醫(yī)院臨床數(shù)據(jù)分析智能分類處理的特點(diǎn)主要有以下幾點(diǎn):
1)數(shù)據(jù)的分類需要先經(jīng)過(guò)訓(xùn)練再進(jìn)行分析,因此對(duì)數(shù)據(jù)的樣本分類的質(zhì)量具有影響,會(huì)產(chǎn)生較大的誤差。
2)分類模型的建立主要依據(jù)訓(xùn)練的數(shù)據(jù)樣本而進(jìn)行構(gòu)建的,因此這種建立的模型是具有局限性,而在實(shí)際的數(shù)據(jù)樣本中,如果系統(tǒng)中沒有與之相關(guān)的具有反饋學(xué)習(xí)的功能,那么整個(gè)分類處理的性能都會(huì)大大地下降。
3)數(shù)據(jù)本身具有容量大、儲(chǔ)存復(fù)雜、屬性特征范圍廣、稀蔬性等特點(diǎn),因此進(jìn)行數(shù)據(jù)分類處理的時(shí)候僅僅依靠單一的處理模型,很難提高分類處理的準(zhǔn)確性,必須采用不同的技術(shù)對(duì)數(shù)據(jù)的分類處理加以解決。
針對(duì)以上的特點(diǎn),結(jié)合數(shù)據(jù)分類處理的特點(diǎn),以及分析的高效性進(jìn)行一些智能的處理,并從整個(gè)處理的過(guò)程中來(lái)優(yōu)化分類的處理技術(shù),從而完善醫(yī)院臨床數(shù)據(jù)分析智能分類的處理。
對(duì)醫(yī)院臨床數(shù)據(jù)分析智能分類處理的過(guò)程中首先需要對(duì)數(shù)據(jù)進(jìn)行檢索,然后將檢索出來(lái)的數(shù)據(jù)進(jìn)行提取,根據(jù)數(shù)據(jù)的特點(diǎn),使用模糊分類的技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理。
進(jìn)行數(shù)據(jù)檢索的時(shí)候需要對(duì)數(shù)據(jù)建模,根據(jù)醫(yī)院所處的工作環(huán)境以及對(duì)數(shù)據(jù)檢索的要求來(lái)滿足數(shù)據(jù)分類中的一些邏輯關(guān)系,并將檢索的數(shù)據(jù)分成兩個(gè)集合,分別是:匹配的集合和非匹配的集合。匹配的集合是指醫(yī)院臨床數(shù)據(jù)進(jìn)行分類的時(shí)候,需要將數(shù)據(jù)進(jìn)行匹配,再根據(jù)匹配的特征進(jìn)行檢索;非匹配的集合是指醫(yī)院臨床數(shù)據(jù)進(jìn)行分類的時(shí)候,需要將單個(gè)數(shù)據(jù)進(jìn)行記錄,再根據(jù)記錄的單個(gè)數(shù)據(jù)特征進(jìn)行檢索。這種匹配和非匹配的集合只能判斷出進(jìn)行檢索的數(shù)據(jù)中是否與查詢有關(guān)。建立模型的優(yōu)勢(shì)能夠使檢索的過(guò)程變得簡(jiǎn)單,使檢索的速度加快。但是由于在匹配的過(guò)程中會(huì)出現(xiàn)二值的特性[9],因此無(wú)法對(duì)查詢的結(jié)果進(jìn)行相關(guān)程序的排序,也就無(wú)法區(qū)分?jǐn)?shù)據(jù)的特征對(duì)檢索過(guò)程是否重要進(jìn)行權(quán)衡。在模型中,假設(shè)數(shù)據(jù)表示為A=(a1,a2,…,an),而用戶的檢索可以表示為B=(b1,b2,…,bn),其中ai表示的是第n個(gè)特征點(diǎn)中對(duì)數(shù)據(jù)內(nèi)容的貢獻(xiàn)程度,取值范圍為[0,1];bi表示的是第n個(gè)特征點(diǎn)中對(duì)數(shù)據(jù)檢索內(nèi)容的貢獻(xiàn)程度,取值范圍為[0,1]。由此可得出數(shù)據(jù)檢索的模型:
(1)
式(1)中,1≤k≤∝,取值的范圍為[2,6]。對(duì)ai、bi和k選取不同的數(shù)值,由此獲取不同的結(jié)果。當(dāng)k趨向于∝,并且ai的取值只能為0或1,而bi的取值只能為1。
將醫(yī)院臨床數(shù)據(jù)分為i類,W=W′∪W″。W′表示的是訓(xùn)練的數(shù)據(jù)集,W″表示的是待分類的醫(yī)院臨床數(shù)據(jù)。使用該方法將待分類的醫(yī)院臨床數(shù)據(jù)與已經(jīng)進(jìn)行分類的數(shù)據(jù)重心進(jìn)行比較,從中選取最大程度相似的類別進(jìn)行提取。第T類的向量可以表示為T=(t1,t2,…,tn),待分類的醫(yī)院臨床數(shù)據(jù)可以表示為W″=(w1,w2,…,wn),它們之間的相似度可以表示為:
(2)
式(2)中,Sim(T,W″)表示的是最大時(shí)的醫(yī)院臨床數(shù)據(jù)類別即為所提取的數(shù)據(jù)類別。
將分類描述為:指定的判斷集合為d={1,2,…,m}作為每一個(gè)i∈d建立的推理線路。推理線路利用醫(yī)院數(shù)據(jù)的增益來(lái)度量核心的數(shù)據(jù),即當(dāng)某個(gè)數(shù)據(jù)的類別隸屬度[10]遠(yuǎn)遠(yuǎn)超過(guò)任何一個(gè)預(yù)定閾值的時(shí)候就被認(rèn)定為核心的數(shù)據(jù)。核心數(shù)據(jù)的評(píng)價(jià)函數(shù)為:
(3)
模糊性指的是將核心的數(shù)據(jù)作為醫(yī)院本質(zhì)特性的數(shù)據(jù),在分類處理的過(guò)程中,對(duì)于待分類的數(shù)據(jù)在某種程度上都屬于一個(gè)同等的類別,并非是絕對(duì)的二值的邏輯關(guān)系。根據(jù)傳統(tǒng)數(shù)據(jù)模型進(jìn)行分類處理的時(shí)候,往往得到的是待分類的數(shù)據(jù)屬于各個(gè)分類級(jí)別的數(shù)值信息,一般情況下根據(jù)最大的結(jié)果來(lái)判定數(shù)據(jù)分類的結(jié)果,但這種方法往往會(huì)丟失大量的數(shù)據(jù)信息,會(huì)產(chǎn)生較大的誤差。而模糊的分類處理技術(shù)則是根據(jù)數(shù)據(jù)本身的模糊性來(lái)使用模糊的規(guī)則進(jìn)行數(shù)據(jù)的處理,從而更加真實(shí)反應(yīng)出醫(yī)院的原始數(shù)據(jù)。因此,為了提高數(shù)據(jù)分類的智能性與準(zhǔn)確性進(jìn)行了模糊的分類處理。首先應(yīng)該對(duì)數(shù)據(jù)分類的模型進(jìn)行模糊化的處理,然后將具體的數(shù)據(jù)信息轉(zhuǎn)換成為模糊的變量,然后根據(jù)實(shí)際情況進(jìn)行相應(yīng)的模糊分類處理,具體的過(guò)程如圖2所示。
圖2 模糊分類的處理流程
由圖2可知,不同數(shù)據(jù)的類別進(jìn)行模糊化的處理,根據(jù)相應(yīng)的模糊規(guī)則進(jìn)行模糊的推理,從而得出結(jié)果。
使用模糊分類處理技術(shù),可以較好地處理數(shù)據(jù)分類過(guò)程中出現(xiàn)的兼類、拒類的情況,如果只有一個(gè)類別的處理準(zhǔn)確性較高的時(shí)候,那么該數(shù)據(jù)的類別就是對(duì)應(yīng)的分類;如果同時(shí)出現(xiàn)兩個(gè)或者更多的數(shù)據(jù)分類處理準(zhǔn)確性都較高的時(shí)候,那么該數(shù)據(jù)的類別就可以被分成多種的類別,被稱作兼類;如果出現(xiàn)的多個(gè)數(shù)據(jù)分類處理準(zhǔn)確性都較低的時(shí)候,那么該數(shù)據(jù)的類別就被稱作拒類。在分類的處理過(guò)程中能夠根據(jù)數(shù)據(jù)的特征進(jìn)行準(zhǔn)確的分類,提高了實(shí)際應(yīng)用的高效性。由以上步驟,實(shí)現(xiàn)了對(duì)醫(yī)院臨床數(shù)據(jù)的智能分類。
為了驗(yàn)證模糊分類處理技術(shù)下的數(shù)據(jù)智能分類的有效性進(jìn)行了如下的實(shí)驗(yàn),實(shí)驗(yàn)的條件如下;
實(shí)驗(yàn)中所用的數(shù)據(jù)選取自某醫(yī)院2015年1月1日至2016年1月1日的臨床數(shù)據(jù),數(shù)據(jù)的總量為300M,經(jīng)解析儲(chǔ)存在數(shù)據(jù)庫(kù)中。數(shù)據(jù)庫(kù)的服務(wù)器采用的是2.0GHz,智能的聯(lián)想微機(jī)搭建以及百兆的局限網(wǎng)絡(luò)使用環(huán)境;數(shù)據(jù)庫(kù)的服務(wù)安裝0.1.2.2的企業(yè)版管理的系統(tǒng)。
選取醫(yī)院臨床數(shù)據(jù)200個(gè),其中,傳統(tǒng)的數(shù)據(jù)處理技術(shù)下的數(shù)據(jù)為100個(gè),基于模糊分類處理技術(shù)下的數(shù)據(jù)為100個(gè),模擬實(shí)際醫(yī)院臨床的環(huán)境將2中技術(shù)下數(shù)據(jù)分類處理的準(zhǔn)確率進(jìn)行對(duì)比。根據(jù)醫(yī)院臨床實(shí)際的數(shù)據(jù)情況,對(duì)準(zhǔn)確率的要求較高,相對(duì)數(shù)據(jù)的召回率可以適當(dāng)?shù)膶⒁蠓艑?,保證準(zhǔn)確率較高的前提下確保召回率一定即可,具體的對(duì)比情況如表2所示。
表2 不同閾值下的數(shù)據(jù)分類的準(zhǔn)確率
由表2可知:閾值越高,那么數(shù)據(jù)分類處理的準(zhǔn)確率就越高,因?yàn)殚撝到档蜁?huì)造成一些數(shù)據(jù)的誤判,大大降低數(shù)據(jù)分類處理的準(zhǔn)確率。
通過(guò)對(duì)醫(yī)院臨床數(shù)據(jù)進(jìn)行智能的分析,可以對(duì)臨床門診的預(yù)約情況、入住的病人人數(shù)、臨床門診護(hù)士的排班、臨陣醫(yī)護(hù)人員的平均工作量、參加門診的次數(shù)、護(hù)士對(duì)病人的注射次數(shù)的數(shù)據(jù)進(jìn)行檢索,并使用模糊分類處理技術(shù)進(jìn)行分類,具體的處理情況如表3所示。
表3 不同臨床指標(biāo)的分類處理相似度
由表3可知:不同臨床指標(biāo)相似度強(qiáng)的數(shù)據(jù)占所有分類處理數(shù)據(jù)的百分比與相似度弱的數(shù)據(jù)占所有分類處理數(shù)據(jù)的百分比要大。因此,模糊分類處理技術(shù)的數(shù)據(jù)處理的相似度對(duì)于不同臨床指標(biāo)來(lái)說(shuō)具有較大的影響。
根據(jù)上述實(shí)驗(yàn)的過(guò)程可知不同閾值影響數(shù)據(jù)分類的準(zhǔn)確率,因此可將閾值恒定,對(duì)傳統(tǒng)分類技術(shù)與基于模糊分類處理的技術(shù)的分類處理結(jié)果進(jìn)行對(duì)比,結(jié)果如表4所示。
表4 不同技術(shù)的數(shù)據(jù)分類處理準(zhǔn)確率
由表4可知:在相同的處理時(shí)間下,傳統(tǒng)分類技術(shù)與模糊分類處理的技術(shù)的召回率相似,但是準(zhǔn)確率相差較大。具體數(shù)據(jù)分類精度對(duì)比如圖3所示。
圖3 不同方法數(shù)據(jù)分類精度對(duì)比
由圖3可知,對(duì)相同的100個(gè)數(shù)據(jù)進(jìn)行分類處理,通過(guò)傳統(tǒng)方法與所提方法進(jìn)行對(duì)比出現(xiàn)了明顯的分類精度差別,傳統(tǒng)方法隨著分類數(shù)據(jù)的數(shù)量增多,精度一直處于40%一下,且實(shí)驗(yàn)過(guò)程精度變化幅度較大,而所提方法數(shù)據(jù)分類精度一直保持在90%左右,且穩(wěn)定性高,上下波動(dòng)非常小,這進(jìn)一步說(shuō)明所提方法對(duì)醫(yī)院臨床數(shù)據(jù)的分類精度高,且該方法穩(wěn)定性好,實(shí)用性更強(qiáng)。
而分類的速度的對(duì)比情況如圖4所示。
圖4 不同技術(shù)下數(shù)據(jù)分類處理速度
由圖4可知:在數(shù)據(jù)的大小一致的情況下,傳統(tǒng)分類處理技術(shù)的速度要小于模糊分類處理的技術(shù)。
由此可得出結(jié)論:模糊分類處理的技術(shù)對(duì)醫(yī)院臨床數(shù)據(jù)分析的時(shí)候,利用固定的內(nèi)存進(jìn)行實(shí)時(shí)的數(shù)據(jù)處理,具有較高的時(shí)空效率,其分類的性能遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的分類性能,將分析優(yōu)勢(shì)與智能的分類處理技術(shù)緊密的結(jié)合起來(lái)對(duì)數(shù)據(jù)進(jìn)行分類處理,滿足了人們對(duì)數(shù)據(jù)處理的需求,隨著技術(shù)的不斷進(jìn)步,該分類的處理技能能夠?qū)崿F(xiàn)大容量的數(shù)據(jù)處理功能,發(fā)揮更大的作用。
數(shù)據(jù)的分類處理技術(shù)是在語(yǔ)言處理的過(guò)程中一個(gè)重要的組成部分,改善了傳統(tǒng)的人工分類的方法,提高了數(shù)據(jù)分類的高效性與準(zhǔn)確性,這是一種對(duì)數(shù)據(jù)處理的有效手段,也是未來(lái)必然的發(fā)展趨勢(shì),尤其是伴隨著科學(xué)技術(shù)的不斷發(fā)展,網(wǎng)絡(luò)逐漸成為了人們進(jìn)行數(shù)據(jù)傳送與接收的重要途徑?,F(xiàn)代醫(yī)學(xué)臨床數(shù)據(jù)以極高的速度進(jìn)行增長(zhǎng),在如此巨大的數(shù)據(jù)處理壓力面前,傳統(tǒng)的分類處理技術(shù)已經(jīng)無(wú)能為力,為此模糊數(shù)據(jù)分類處理技術(shù)的使用,大大提高了分類的效率。
總之,模糊數(shù)據(jù)分類處理技術(shù)已經(jīng)成為了醫(yī)院臨床數(shù)據(jù)分析智能分類處理的重要手段,也是必然的選擇。利用該技術(shù)不僅能夠?qū)崿F(xiàn)處理的方便快捷性,還能節(jié)省大量的人力與物力,大大提高數(shù)據(jù)的利用效率,為我國(guó)未來(lái)的數(shù)據(jù)分類處理提供了科學(xué)的依據(jù)。
[1] 王德文,周 青. 一種電力設(shè)備狀態(tài)監(jiān)測(cè)大數(shù)據(jù)的分布式聯(lián)機(jī)分析處理方法[J]. 中國(guó)電機(jī)工程學(xué)報(bào),2016,36(19):5111-5121.
[2] 李 菲. 基于數(shù)據(jù)挖掘的商務(wù)智能系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 現(xiàn)代電子技術(shù),2016,39(11):152-155.
[3] 竇 芳. 基于數(shù)據(jù)倉(cāng)庫(kù)的科研成果管理決策支持系統(tǒng)的研究與實(shí)現(xiàn)[J]. 現(xiàn)代電子技術(shù),2016,39(7):120-123.
[4] 陳麟鳳,李 卉,莊 遠(yuǎn),等. 臨床輸血智能管理與評(píng)估系統(tǒng)的構(gòu)建與應(yīng)用[J]. 中國(guó)輸血雜志,2015,28(9):1167-1173.
[5] 劉馨蕊,任鳳玉,雷國(guó)平. 領(lǐng)域本體驅(qū)動(dòng)下企業(yè)聯(lián)機(jī)分析處理系統(tǒng)應(yīng)用研究[J]. 計(jì)算機(jī)應(yīng)用,2016,36(1):254-259.
[6] 巫麗娟,趙 丹,劉敏雪,等. 四川大學(xué)華西醫(yī)院腦卒中伴感染患者臨床數(shù)據(jù)分析[J]. 中風(fēng)與神經(jīng)疾病,2016,33(3):262-266.
[7] 張盛婕,王 楊,李 衛(wèi). 臨界點(diǎn)分析法在處理臨床研究缺失數(shù)據(jù)中的應(yīng)用[J]. 中華流行病學(xué)雜志,2017,38(5):674-678.
[8] 張一洲. 基于VSM和偏好本體的個(gè)性化信息檢索技術(shù)的研究[J]. 情報(bào)學(xué)報(bào),2015,34(7):711-716.
[9] 查光成,賈俐俐,史曉帆,等. 基于STL模型的漸進(jìn)成形支撐體的離散化設(shè)計(jì)[J]. 鍛壓技術(shù),2015,40(12):155-159.
[10] 丁 劍,韓 萌,李 娟. 概念漂移數(shù)據(jù)流挖掘算法綜述[J]. 計(jì)算機(jī)科學(xué),2016,43(12):24-29.