李立奇 張 瑗 周 躍△ 何仁穎 王開(kāi)發(fā)
K最近鄰(k-nearest neighbor,KNN)分類算法是一種基于實(shí)例的分類算法〔1〕,在解決二類分類的實(shí)例問(wèn)題中表現(xiàn)出良好的分類性能,故現(xiàn)已被廣泛應(yīng)用于各個(gè)領(lǐng)域。在醫(yī)藥學(xué)領(lǐng)域中,如疾病診斷〔2〕、醫(yī)學(xué)影像〔3〕、臨床用藥〔4〕等方面也有相關(guān)報(bào)道。但是基于KNN算法的類風(fēng)濕關(guān)節(jié)炎(RA)診斷模型尚未有人提出。本文建立了KNN模型用于RA的診斷,說(shuō)明其在本病診斷中的運(yùn)用效果。
1.標(biāo)本來(lái)源 RA患者100例,非RA風(fēng)濕性疾病患者50例,病例取自2009年6月至2010年5月在本院就診的住院患者。所有RA病例均符合1987年美國(guó)風(fēng)濕病協(xié)會(huì)(ARA)診斷標(biāo)準(zhǔn)〔5〕。非RA風(fēng)濕性疾病也均符合相應(yīng)診斷標(biāo)準(zhǔn)。分別檢測(cè)150名患者血清中的anti-CCP和RF兩項(xiàng)指標(biāo)。
2.KNN 的原理
KNN的基本思想是將各類別中的全部訓(xùn)練樣本點(diǎn)都作為代表點(diǎn)〔6〕。對(duì)于一個(gè)測(cè)試樣本點(diǎn)x,需要計(jì)算它與訓(xùn)練樣本集中每個(gè)樣本點(diǎn)的相似度,依據(jù)樣本點(diǎn)相似度找出k個(gè)最相似的訓(xùn)練樣本點(diǎn);再根據(jù)這k個(gè)樣本點(diǎn)所屬類別判斷樣本點(diǎn) x的所屬類別,在x的k個(gè)最近鄰點(diǎn)中依次計(jì)算每類的權(quán)重;最后將樣本點(diǎn)x判定給權(quán)重最大的類別。
3.KNN的算法步驟
(1)將本資料中150例研究對(duì)象分為訓(xùn)練樣本集和測(cè)試樣本集。
(2)分別輸入訓(xùn)練集和測(cè)試集中每名患者的anti-CCP和RF值及其所屬類別。
(3)用KNN方法對(duì)測(cè)試集中每名患者的所屬類別進(jìn)行判別。
(4)輸出判別結(jié)果。
本文采用兩種常用的標(biāo)準(zhǔn)檢驗(yàn)方法對(duì)RA診斷的KNN模型進(jìn)行檢驗(yàn)。
(1)5維交叉驗(yàn)證法:將150例患者隨機(jī)分為5組,每組包含20例RA患者和10例其他風(fēng)濕性疾病患者。每次從5組中輪流抽取1組作為測(cè)試樣本集,其余4組作為訓(xùn)練樣本集。共作5次KNN算法仿真診斷。由于KNN算法中的參數(shù)k取值不同,利用5維交叉驗(yàn)證法檢驗(yàn)得到的平均診斷準(zhǔn)確率也不同。初步測(cè)試發(fā)現(xiàn)當(dāng)k=4時(shí),平均診斷準(zhǔn)確率最高(見(jiàn)圖1)。圖1中符號(hào)X表示利用5維交叉驗(yàn)證法檢驗(yàn)得到的平均診斷準(zhǔn)確率。圖2列出了k=4時(shí)的5組患者仿真診斷準(zhǔn)確數(shù)。
圖1 兩種檢驗(yàn)方法15次診斷結(jié)果
圖2 KNN法5維交叉驗(yàn)證結(jié)果
(2)Jackknife檢驗(yàn)法:每次從150例患者中輪流抽取1例作為測(cè)試樣本,其余149例作為訓(xùn)練樣本集。共作150次KNN算法仿真診斷。同樣地當(dāng)參數(shù)k取不同值時(shí),利用Jackknife檢驗(yàn)法檢驗(yàn)得到的診斷準(zhǔn)確率也不同。初步測(cè)試發(fā)現(xiàn)當(dāng)k=7時(shí),診斷準(zhǔn)確率最高(見(jiàn)圖1)。圖1中符號(hào)O表示利用Jackknife檢驗(yàn)法檢驗(yàn)得到的診斷準(zhǔn)確率。
本研究分別檢測(cè)了100例RA患者和50例非RA風(fēng)濕性疾病患者血清中的anti-CCP和RF兩項(xiàng)指標(biāo)。結(jié)果發(fā)現(xiàn),anti-CCP和RF對(duì)RA診斷的敏感性分別為64%和76%,特異性分別為94%和82%。其結(jié)果與Schellekens等〔7〕報(bào)道的 anti-CCP的敏感性和特異性(68%和98%)以及人民衛(wèi)生出版社出版的《內(nèi)科學(xué)》第7版教材中有關(guān)RF的敏感性(70% ~80%)的描述接近。雖然RF是RA診斷的唯一的血清標(biāo)準(zhǔn),且敏感性較高,但在少數(shù)健康老年人、某些慢性感染者和自身免疫性疾病患者中也可呈陽(yáng)性。故RF對(duì)RA診斷的特異性不高,診斷價(jià)值有限。而采用ELISA方法檢測(cè)的anti-CCP對(duì)RA診斷有較高的特異性,尤其對(duì)早期RA具有很高的診斷價(jià)值。因此聯(lián)合檢測(cè)anti-CCP和RF這兩項(xiàng)指標(biāo)有利于提高RA診斷的準(zhǔn)確率。
本文基于KNN算法的最優(yōu)二分類方法,建立了RA診斷的KNN模型。對(duì)100例RA患者和50例其他風(fēng)濕性疾病患者的anti-CCP和RF兩項(xiàng)指標(biāo)進(jìn)行訓(xùn)練和模擬診斷。結(jié)果發(fā)現(xiàn):利用5維交叉驗(yàn)證法和Jackknife檢驗(yàn)法檢測(cè)樣本的診斷準(zhǔn)確率分別為92%和91.3%,高于單獨(dú)檢測(cè)anti-CCP或RF對(duì)RA的診斷準(zhǔn)確率(74%和78%)。
綜上所述,anti-CCP和RF這兩項(xiàng)指標(biāo)的檢測(cè)在RA的早期診斷過(guò)程中都有一定的臨床意義。對(duì)于新近發(fā)生的診斷不明的關(guān)節(jié)炎,二者聯(lián)合應(yīng)用能更好地幫助臨床醫(yī)生實(shí)現(xiàn)對(duì)RA的早期檢出,提高早期診斷準(zhǔn)確率。
1.Nasibov E,Kandemir-Cavas C.Efficiency analysis of KNN and minimum distance-based classifiers in enzyme family prediction.Comput Biol Chem,2009,33(6):461-464.
2.Xiao Y,Griffin MP,Lake DE,et al.Nearest-neighbor and logistic regression analyses of clinical and heart rate characteristics in the early diagnosis of neonatal sepsis.Med Decis Making,2009,30(2):258-266.
3.Mayerhoefer ME,Szomolanyi P,Jirak D,et al.Effects of MRI acquisition parameter variations and protocol heterogeneity on the results of texture analysis and pattern discrimination:an application-oriented study.Med Phys,2009,36(4):1236-1243.
4.Ivanisevic I,Bates S,Chen P.Novel methods for the assessment of miscibility of amorphous drug-polymer dispersions.J Pharm Sci,2009,98(9):3373-3386.
5.Arnett FC,Edworthy SM,Bloch DA,et al.The American Rheumatism Association 1987 revised criteria for the classification of rheumatoid arthritis.Arthritis Rheum,1988,31(3):315-324.
6.Sohn S,Kim W,Comeau DC,et al.Optimal training sets for Bayesian prediction of MeSH assignment.J Am Med Inform Assoc,2008,15(4):546-553.
7.Schellekens GA,Visser H,de Jong BA,et al.The diagnostic properties of rheumatoid arthritis antibodies recognizing a cyclic citrullinated peptide.Arthritis Rheum,2000,43(1):155-163.
中國(guó)衛(wèi)生統(tǒng)計(jì)2011年4期