應(yīng)用分類模型研究遲發(fā)性顱腦損傷的影響因素

2018-03-20 09:15:16史寶鵬孔廣黔

計(jì)算機(jī)技術(shù)與發(fā)展 2018年3期

史寶鵬，段迅，孔廣黔，吳云

(貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州貴陽(yáng) 550025)

0 引言

近年來(lái)，國(guó)內(nèi)醫(yī)療信息化事業(yè)飛速發(fā)展。據(jù)統(tǒng)計(jì)，國(guó)內(nèi)80%醫(yī)療機(jī)構(gòu)采用HIS系統(tǒng)(醫(yī)療信息系統(tǒng))辦公，每天對(duì)大量的醫(yī)療、財(cái)務(wù)、藥品及物資等信息進(jìn)行管理，但對(duì)數(shù)據(jù)處理僅限于簡(jiǎn)單的錄入及查詢，在醫(yī)療數(shù)據(jù)分析和輔助決策方面發(fā)展較為緩慢[1-3]。如何針對(duì)臨床診療信息、財(cái)務(wù)信息等海量數(shù)據(jù)進(jìn)行有效模式的挖掘，通過(guò)信息的分類及分析，發(fā)現(xiàn)醫(yī)療業(yè)務(wù)和管理中的潛在問(wèn)題，輔助醫(yī)生及行政人員做出正確決策，提高醫(yī)療機(jī)構(gòu)的醫(yī)療及管理水平，是醫(yī)療機(jī)構(gòu)急待解決的問(wèn)題[4-5]?；诖耍闹袘?yīng)用數(shù)據(jù)挖掘模型對(duì)遲發(fā)性顱腦損傷患者診療信息進(jìn)行分析，找出引發(fā)遲發(fā)性顱腦損傷的主要影響因素，輔助醫(yī)生做出診療決策，減少患者的發(fā)病率。

1 背景

1.1 數(shù)據(jù)挖掘概述

數(shù)據(jù)挖掘是從大量、不完整、有噪音、看似無(wú)關(guān)的實(shí)際應(yīng)用數(shù)據(jù)中，挖掘出令人感興趣的、有價(jià)值的、隱含的、事前未知的模式或知識(shí)。模式或知識(shí)的發(fā)現(xiàn)過(guò)程一般包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評(píng)估及知識(shí)表示[6-9]。數(shù)據(jù)挖掘技術(shù)能自動(dòng)化地分析數(shù)據(jù)源中的數(shù)據(jù)，并做出歸納、推理。通過(guò)數(shù)據(jù)挖掘，有價(jià)值的模式或規(guī)則從數(shù)據(jù)源中被抽象并展示出來(lái)。數(shù)據(jù)挖掘是信息技術(shù)發(fā)展的必然結(jié)果，主要涉及數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)及機(jī)器學(xué)習(xí)等學(xué)科。其主要有關(guān)聯(lián)分析、分類、聚類及預(yù)測(cè)四大功能。

在醫(yī)學(xué)領(lǐng)域中，數(shù)據(jù)挖掘技術(shù)有其自身的優(yōu)勢(shì)。在醫(yī)學(xué)領(lǐng)域中收集的數(shù)據(jù)大多是真實(shí)可靠的遺漏數(shù)據(jù)和噪音數(shù)據(jù)比例較少的結(jié)構(gòu)化數(shù)據(jù)，不但減輕了數(shù)據(jù)挖掘中數(shù)據(jù)清理、數(shù)據(jù)集成和數(shù)據(jù)轉(zhuǎn)換的工作量，并且使得醫(yī)療數(shù)據(jù)具有較強(qiáng)的穩(wěn)定性，這些因素有益于數(shù)據(jù)挖掘模式和知識(shí)的維護(hù)和質(zhì)量保證[10-13]。

1.2 分類模型在遲發(fā)性顱腦損傷研究中的意義

遲發(fā)性顱腦損傷是危害人類健康的常見疾病之一。由于車禍、高處墜落及暴力打擊等外界因素導(dǎo)致顱腦損傷，在初期并未發(fā)現(xiàn)顱內(nèi)血腫等顱腦疾病，但經(jīng)過(guò)一段時(shí)間后再次檢查時(shí)發(fā)現(xiàn)顱內(nèi)血腫等腦部損傷，這種腦損傷往往會(huì)在人們疏忽時(shí)發(fā)病，導(dǎo)致較高的致殘率和死亡率。遲發(fā)性顱腦損傷的發(fā)病率正在逐年上升，這種病癥也日益受到醫(yī)學(xué)工作者的重視[14-15]。

文中根據(jù)某省醫(yī)院的腦外科醫(yī)生收集的該科室在3年間急救后治療的201例腦外傷病例，使用分類模型從中分析出導(dǎo)致急救后遲發(fā)性顱腦損傷的主要影響因素，確定是否發(fā)生遲發(fā)性顱腦損傷變量受到哪些影響因素的作用，以輔助醫(yī)生做出合理決策及診療方案，有效提高治愈率，降低患者的致殘率和死亡率。

2 關(guān)鍵技術(shù)

文中使用兩種分類模型對(duì)遲發(fā)性顱腦損傷的主要影響因素進(jìn)行分析，屬于分類問(wèn)題中因變量的影響因素的發(fā)現(xiàn)與確認(rèn)。因變量(是否發(fā)生遲發(fā)性顱腦損傷)為二分類變量，候選變量不是單一變量，需要多因素建模，因此選用基于線性模型發(fā)展而來(lái)的邏輯回歸為主分析模型。邏輯回歸可以滿足對(duì)分類因變量進(jìn)行多變量建模的需求，模型中也可以同時(shí)納入連續(xù)型自變量和分類的自變量。邏輯回歸無(wú)法做變量間的劣效性檢驗(yàn)，在分類數(shù)據(jù)的多變量模型中確定變量間交互作用時(shí)工作十分繁瑣。因此以決策樹模型作為輔助模型，探索變量間的交互作用，使得實(shí)驗(yàn)完整、實(shí)驗(yàn)結(jié)果更加準(zhǔn)確可信。

2.1 邏輯回歸模型

因變量Y為一個(gè)二值變量，即Y=0或Y=1；自變量為X1,X2,…,Xm；P表示在m個(gè)自變量的作用下Y發(fā)生的概率，由式(1)所示：

P=1/(1+e-z)

(1)

其中，P的取值范圍為(0，1)。

統(tǒng)計(jì)量Z為：

Z=β0+β1X1+…+βmXm

(2)

其中，β0為常數(shù)項(xiàng)，表示所有影響因素均為0時(shí)個(gè)體發(fā)生概率與不發(fā)生概率之比的自然對(duì)數(shù)的變化值；β1,β2,…,βm為回歸系數(shù)，表示某個(gè)因素Xi改變一個(gè)單位時(shí)個(gè)體發(fā)生概率與不發(fā)生概率之比的自然對(duì)數(shù)的變化值；Z的取值范圍為(-∞，+∞)。

邏輯回歸中最重要的兩步是參數(shù)估計(jì)和變量選擇。邏輯回歸采用最大似然估計(jì)的方法估計(jì)回歸系數(shù)β1,β2,…,βm，同時(shí)得到回歸系數(shù)的標(biāo)準(zhǔn)誤差Sb。所有樣本預(yù)測(cè)值與真實(shí)值一致的概率t(β)最大時(shí)的回歸系數(shù)即為所求。其中P(yi)為單個(gè)樣本預(yù)測(cè)值與真實(shí)值一致的概率：

(3)

所有樣本預(yù)測(cè)值與真實(shí)值一致的概率為：

t(β)=∏P(yi)

(4)

首先對(duì)式(4)兩邊取對(duì)數(shù)，然后對(duì)βi求偏導(dǎo)，最后利用牛頓迭代法求得回歸系數(shù)的值。

當(dāng)影響因素過(guò)多時(shí)，需挑選出與事件發(fā)生確實(shí)有關(guān)系或是關(guān)系更密切的影響因素，建立更加穩(wěn)固的回歸模型。篩選變量的方法有前進(jìn)法、后退法、逐步法、似然比檢驗(yàn)法和Wald檢驗(yàn)法等，根據(jù)變量的統(tǒng)計(jì)量意義篩選或剔除變量。

邏輯回歸不但泛化能力強(qiáng)、精準(zhǔn)度高，而且能精確控制用戶數(shù)量。但是邏輯回歸對(duì)數(shù)據(jù)要求較高，不能處理復(fù)雜的用戶特征及共線性的問(wèn)題。醫(yī)療數(shù)據(jù)大多為完整的結(jié)構(gòu)化數(shù)據(jù)，邏輯回歸在其上的應(yīng)用有著獨(dú)特的優(yōu)勢(shì)。

2.2 決策樹模型

決策樹從根節(jié)點(diǎn)開始，每一層節(jié)點(diǎn)依照某一屬性值向下分裂子節(jié)點(diǎn)，待分類的實(shí)例在每一節(jié)點(diǎn)處比較該實(shí)例各個(gè)屬性的信息增益，根據(jù)信息增益最大的屬性向相應(yīng)的子節(jié)點(diǎn)擴(kuò)展，這一過(guò)程在到達(dá)決策樹的葉子節(jié)點(diǎn)時(shí)結(jié)束。

劃分前信息量：設(shè)數(shù)據(jù)集D為類標(biāo)記的元組訓(xùn)練集，假設(shè)類標(biāo)號(hào)屬性具有M個(gè)不同的值，定義m個(gè)不同的類Ci(i=1,2,…,m)。對(duì)D中的元組分類所需的期望信息量為：

Info(D)=-∑Pi*log2(Pi)

(5)

劃分后信息量：假設(shè)屬性A具有V個(gè)不同的離散屬性值，可使用屬性A把數(shù)據(jù)集D劃分為v個(gè)子集{D1,D2,…,Dv}，設(shè)子集Dj中全部的記錄數(shù)在A上具有相同的值aj?；诎碅劃分對(duì)D的元組分類所需要的期望信息量為：

InfoA(D)=-∑(Dj/D)*Info(Dj)

(6)

信息增益為原來(lái)的信息量(基于類比例)與新的信息量(對(duì)A劃分后)之間的差：

Gain(A)=Info(D)-InfoA(D)

(7)

決策樹模型可以生成易被理解的規(guī)則集，業(yè)務(wù)解釋性較好，具有較好的健壯性，能夠很好地處理非線性關(guān)系。但是當(dāng)類別過(guò)多時(shí)誤判率會(huì)明顯增加，且泛化能力較差。

3 遲發(fā)性顱腦損傷信息的挖掘流程

3.1 原始變量

通過(guò)對(duì)收集到的遲發(fā)性顱腦損傷的醫(yī)療數(shù)據(jù)進(jìn)行整理后，得到用于研究的變量主要有ID、性別、年齡、收縮壓、舒張壓、血小板、腦挫傷、手術(shù)、中線移位、腦腫脹、意識(shí)程度、止血藥、激素和脫水劑。

3.2 數(shù)據(jù)理解

(1)單變量描述/數(shù)據(jù)變換。

在變量描述時(shí)需要對(duì)連續(xù)型變量進(jìn)行描述，其中年齡和血小板為連續(xù)變量，因此描述結(jié)果如表1所示。

表1 連續(xù)變量的描述

從表1可見，血小板極小值為51，極大值為423，范圍過(guò)大，可能有極端值或是偏態(tài)導(dǎo)致此問(wèn)題的發(fā)生，需要對(duì)血小板進(jìn)行進(jìn)一步描述。

變量血小板為偏態(tài)分布，沒(méi)有發(fā)生遲發(fā)腦損傷的血小板水平明顯偏高，發(fā)生遲發(fā)腦損傷的血小板水平明顯偏低，可以看出血小板水平可能是遲發(fā)腦損傷的影響因素。由于血小板是偏態(tài)分布且是自變量，轉(zhuǎn)換后在臨床上解釋更為合理，因此需要將其轉(zhuǎn)換為變量：ln血小板(即血小板的自然對(duì)數(shù)值)。轉(zhuǎn)換后血小板分布較為對(duì)稱。

(2)單變量的分析及變量篩選。

這個(gè)過(guò)程主要用表一次性把分類和連續(xù)變量與因變量的聯(lián)系表示出來(lái)。對(duì)每個(gè)分類變量多做一個(gè)卡方檢驗(yàn)，檢驗(yàn)各變量與遲發(fā)性腦損傷是否有關(guān)聯(lián)，結(jié)果如表2所示。

表2 分類變量檢驗(yàn)

對(duì)每個(gè)連續(xù)變量多做一個(gè)T檢驗(yàn)，實(shí)驗(yàn)結(jié)果如表3和表4所示?？梢娀颊吆头腔颊叩氖湛s壓、舒張壓及血小板是有區(qū)別的，而患者和非患者的年齡是沒(méi)有區(qū)別的。

表3 變量分組均值

表4 列均值的比較

3.3 邏輯回歸建模

將遲發(fā)性腦損傷作為因變量，將所有經(jīng)過(guò)預(yù)篩選后需要進(jìn)一步分析的變量選為協(xié)變量。

模型中存在無(wú)效變量需要化簡(jiǎn)模型，化簡(jiǎn)模型，剔除P值最大的變量收縮壓和止血藥，同時(shí)要考慮變量間共線性的問(wèn)題。對(duì)模型進(jìn)行比較，比較似然比檢驗(yàn)值，結(jié)果如表5所示。似然值表示模型對(duì)數(shù)據(jù)的解釋程度，最理想的情況是該值應(yīng)無(wú)限接近于0，該值越大表示對(duì)數(shù)據(jù)的解釋性越差。剔除變量后該值的-2對(duì)數(shù)似然值為68.147，提出變量前該值的-2對(duì)數(shù)似然值為68.015。剔除變量后該值上升0.132，由此說(shuō)明剔除變量為無(wú)關(guān)變量。

表5 似然值比較

接下來(lái)依次剔除腦腫脹、腦挫傷等變量，最終剩下舒張壓、激素及l(fā)n血小板三個(gè)變量。該模型似然值為72.987，較之前有明顯上升，說(shuō)明該模型更優(yōu)秀。

各變量的解釋說(shuō)明：舒張壓每增加一個(gè)單位，相應(yīng)的個(gè)體發(fā)生腦損傷的概率就降低29.8%，不打激素的患者發(fā)生腦損傷的概率是打激素的患者發(fā)生腦損傷的概率的21 772.131倍，ln血小板每增加一個(gè)單位發(fā)生腦損傷的概率就降低0.004。由此可見，激素是可控的重要因素，也是最核心的搶救措施。

該模型存在問(wèn)題：實(shí)驗(yàn)中被剔除的變量在主效應(yīng)中無(wú)效但交互項(xiàng)有意義，需考慮被剔除的沒(méi)有統(tǒng)計(jì)學(xué)意義的變量間是否存在交互項(xiàng)需要保留。由于變量及其組合過(guò)多，構(gòu)成的模型會(huì)發(fā)生混亂。對(duì)于連續(xù)型變量需對(duì)其做標(biāo)準(zhǔn)正態(tài)變換然后再添加至候選變量，還需手工構(gòu)建代表相應(yīng)交互作用的新變量。高階交互項(xiàng)需要劣效性檢驗(yàn)，而邏輯回歸中并無(wú)劣效性檢驗(yàn)。

3.4 決策樹模型

將總研究人群通過(guò)某些特征(自變量取值)分成數(shù)個(gè)相對(duì)同質(zhì)的亞人群，使得每個(gè)亞人群內(nèi)部的因變量取值高度一致，而不同亞人群間的因變量取值差異較大。樹模型結(jié)構(gòu)可以解決交互項(xiàng)及影響因素的發(fā)現(xiàn)，可用于分類變量或連續(xù)變量的分類。樹模型會(huì)在所有候選變量進(jìn)行篩選，按照重要性的大小依次挑選出自變量進(jìn)入模型，在處理大量自變量的分析問(wèn)題中性能較好。樹模型均為非參數(shù)方法，沒(méi)有太多的使用條件限制，應(yīng)用范圍廣，適用于復(fù)雜的聯(lián)系分析。但不能對(duì)影響因素的作用大小進(jìn)行精確的定量描述，對(duì)于因變量和自變量間是線性關(guān)聯(lián)、無(wú)交互作用時(shí)效果可能不是很理想。樣本量需要充足才能保證逐層細(xì)分后單元格內(nèi)仍有充足的樣本數(shù)。

使用決策樹模型對(duì)樣本進(jìn)行分類，可以看出血小板與舒張壓存在交互項(xiàng)。在邏輯回歸中添加血小板與舒張壓的交互項(xiàng)，用樹模型解決交互項(xiàng)的搜索和確認(rèn)的問(wèn)題，結(jié)果如表6所示。

表6 最終模型

對(duì)預(yù)防遲發(fā)性腦損傷作用最大的指標(biāo)是激素，結(jié)果顯示使用激素會(huì)使遲發(fā)性腦損傷的發(fā)生風(fēng)險(xiǎn)降至原來(lái)的2萬(wàn)分之一(即e-9.988)；舒張壓和血小板對(duì)數(shù)值也有一定作用，但其作用明顯弱于激素；分析發(fā)現(xiàn)舒張壓和血小板對(duì)數(shù)值間存在協(xié)同的交互作用。

4 結(jié)束語(yǔ)

針對(duì)實(shí)際收集的腦外傷患者數(shù)據(jù)，應(yīng)用數(shù)據(jù)挖掘中的模型聯(lián)合應(yīng)用技術(shù)，以邏輯回歸為主模型，給出明確的回歸方程，清晰易懂的結(jié)果解釋，但是在進(jìn)行交互項(xiàng)的查找和驗(yàn)證方面效果欠缺。基于此，應(yīng)用決策樹模型做擴(kuò)展性的探索，發(fā)現(xiàn)變量間潛在的交互作用，用結(jié)果指導(dǎo)邏輯回歸的建模。最終確定舒張壓、激素、血小板及激素與血小板交互項(xiàng)為急救后遲發(fā)性顱腦損傷的主要影響因素。文中不足之處在于樣本量不充分，在輔助模型決策樹模型中葉子節(jié)點(diǎn)樣本不充足，后期會(huì)對(duì)大量樣本進(jìn)行分析，不斷提高實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。

[1] 沈佳，楊渭林，裘申忠，等.重型顱腦損傷患者行開顱手術(shù)后發(fā)生遲發(fā)性顱內(nèi)血腫的危險(xiǎn)因素分析[J].中國(guó)全科醫(yī)學(xué)，2014，17(33)：3997-3999.

[2] 張麗娟，李舟軍.分類方法的新發(fā)展：研究綜述[J].計(jì)算機(jī)科學(xué)，2006，33(10)：11-15.

[3] 羅可，林睦綱，郗東妹.數(shù)據(jù)挖掘中分類算法綜述[J].計(jì)算機(jī)工程，2005，31(1)：3-5.

[4] ROBERT N，JOHN E，GARY M．Handbook of statistical analysis and data mining applications[M]．[s.l.]:Academic Press，2009．

[5] 熊平．?dāng)?shù)據(jù)挖掘算法與Clementine實(shí)踐[M]．北京:清華大學(xué)出版社，2011:44-60．

[6] 徐鵬，林森．基于C4.5決策樹的流量分類方法[J]．軟件學(xué)報(bào)，2009，20(10):2692-2704．

[7] CHAO C M，YU Y W，CHENG B W，et al．Construction the model on the breast cancer survival analysis use support vector machine，logistic regression and decision tree[J]．Journal of Medical Systems，2014，38(10):106．

[8] KANTARDZIC M.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].北京：清華大學(xué)出版社，2003.

[9] WANG Yaonan，YUAN Xiaofang.SVM approximate-based internal model control strategy[J].Acta Automatica Sinica，2008，34(2):172-179.

[10] 韓松來(lái)，張輝，周華平.基于關(guān)聯(lián)度函數(shù)的決策樹分類算法[J].計(jì)算機(jī)應(yīng)用，2005，25(11)：2655-2657.

[11] 王光宏，蔣平．?dāng)?shù)據(jù)挖掘綜述[J]．同濟(jì)大學(xué)學(xué)報(bào):自然科學(xué)版，2004，32(2)：246-252．

[12] 馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹的探討[J].計(jì)算機(jī)工程與應(yīng)用，2004，40(1)：185.

[13] 孟曉東，袁道華,施惠豐.基于回歸模型的數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)與現(xiàn)代化，2010(1)：26-28.

[14] DELEN D，F(xiàn)ULLER C，MCCANN C，et al.Analysis of healthcare coverage:a data mining approach[J].Expert Systems with Applications，2009，36(2):995-1003.

[15] SAMANEH S J，AMTRHASSAN M J，ZAHRA Z J J．A model for adoption of mobile banking services using classification and regression trees[J]．Journal of US-China Public Administration，2010，7(11):66-73．

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看