嚴衛(wèi)麗
診斷準確性研究是用來評估某試驗方法,正確地將一組研究對象區(qū)分為具有或不具有某種狀況能力的研究。在診斷準確性研究中,將同一組可能具有某種健康狀況(疾病)的研究對象,接受一項或多項檢查的結(jié)果,與金標準方法檢驗結(jié)果進行比較,從而對被評價檢驗方法的真實性、可靠性和收益進行評估。醫(yī)學領(lǐng)域的各種新檢查方法發(fā)展迅速,現(xiàn)有的各種檢驗方法的技術(shù)也在不斷改進。如果診斷準確性研究設(shè)計存在缺陷,或者是結(jié)果報告欠準確,均可導致被評價試驗的價值被夸大或者導致偏倚,從而導致臨床醫(yī)生過早地下結(jié)論或者導致錯誤的治療決定。本文特別強調(diào)診斷準確性研究在論文報告階段采用STARD (standards for reporting of diagnostic accuracy)寫作清單作為參考十分必要,不僅有助于向讀者提供客觀、準確的診斷試驗研究的信息,防止研究信息誤導臨床實踐,同時也有助于減少臨床上不必要的檢查,從而達到節(jié)約衛(wèi)生資源和醫(yī)療花費的目的。
STARD第一稿產(chǎn)生于2000年9月,目的是為了改進診斷準確性研究報告質(zhì)量,通過建立一個科學、規(guī)范和循證的報告標準,使讀者能通過完整、準確的報告評價研究結(jié)果的內(nèi)部有效性和外部有效性,為指導臨床實踐和臨床決策奠定基礎(chǔ)。
STARD推薦了一個包含25條條目的寫作清單(表1 )和一張反映研究設(shè)計的診斷準確性研究的納入和排除流程圖(圖1)。《中華流行病學雜志》于2006年第10期發(fā)表了詹思延教授對STARD的介紹及解讀[1],第一次向中國讀者介紹了診斷準確性研究的國際報告規(guī)范,對提高中國醫(yī)學領(lǐng)域診斷準確性研究的設(shè)計和報告水平起到了重要的作用。經(jīng)過10年的實踐,證明STARD寫作清單被越來越多的學術(shù)界和研究者所認可,截至2008年4月,超過 200本生物醫(yī)學雜志在稿約中鼓勵作者使用 STARD寫作清單。本文再次強調(diào)STARD寫作清單在兒科臨床診斷準確性研究中的作用,并就相關(guān)條目作出解讀,供兒科領(lǐng)域研究者參考。本文未做解讀的條目可參考詹思延教授精辟的介紹和解讀。
診斷準確性研究中被評價試驗方法(index test),可以包括所有從病史、體格檢查、實驗室檢查、影像學檢查、功能檢查和組織學檢查等所獲得的患者信息。而金標準試驗是指目前可行的、最好的判斷疾病狀態(tài)的方法,可以是一項單獨的檢查,也可以是幾項檢查的組合;可以是實驗室、影像學和病理學檢查,也可以是經(jīng)過隨訪后獲得的結(jié)果。診斷方法的準確性(accuracy)指從被評價試驗中獲得的疾病狀態(tài)信息和由金標準試驗獲得相應信息的吻合程度。常用的判斷準確性的評價指標包括靈敏度(sensitivity)、特異度(specificity)、似然比(likelihood ratios),診斷OR值(diagnostic odds ratio),以及受試者工作特征曲線下面積(area under receiver operator characteristic curve)。
條目1 在文章的結(jié)構(gòu)式摘要的目的中,應當清晰地標明研究的性質(zhì)。如一項研究的目的是“以結(jié)腸鏡檢查為金標準,確定CT成像診斷結(jié)腸息肉和結(jié)腸癌的靈敏度和特異度”[3]。一項研究顯示,檢索Medline數(shù)據(jù)庫1992至1995年發(fā)表的文章,僅用“靈敏度和特異度”這兩個主題詞,只有51%診斷準確性研究被正確檢出,還有一些非診斷準確性研究也被錯誤的檢出[4]。為了提高數(shù)據(jù)庫檢索的正確性和效率,建議作者在題目、摘要中使用“診斷準確性”一詞。
條目2 清晰、準確地界定研究目的,有助于讀者判斷作者是否采用了最為恰當?shù)难芯吭O(shè)計和統(tǒng)計分析方法。如果只是泛泛地用“診斷價值”或者“臨床用途”,讀者則無從判斷以上信息。
條目3 研究方法部分應當分別詳細交代病例的募集、被評價試驗和金標準試驗實施的場所。此外,詳細描述研究對象的納入和排除標準的非常重要。某些研究對象所具有的一些特殊狀況可能影響診斷性試驗的結(jié)果,應當考慮在排除標準中加以限定。例如,研究運動后ECG改變時,是否排除了使用β受體阻滯劑的研究對象。
表1 STARD寫作清單
條目5 研究對象可以是由目標人群中所有滿足納入標準而未被排除標準排除的個體組成的,也可以是其中一部分個體組成,需要詳細介紹研究樣本是如何抽取的,如果是隨機抽取的,需要說明隨機抽樣的方法,如隨機數(shù)字表法。這樣做有助于讀者判斷研究結(jié)果的外推性。
條目6 數(shù)據(jù)收集。前瞻性和回顧性的數(shù)據(jù)收集各有優(yōu)缺點。如果研究設(shè)計在先進行前瞻性研究,數(shù)據(jù)收集可以集中于入選的研究對象,數(shù)據(jù)的收集更有計劃性,如運用特殊的病案記錄表格和特別設(shè)計的數(shù)據(jù)錄入表格,缺失數(shù)據(jù)或者難以解釋的數(shù)據(jù)較少,數(shù)據(jù)的質(zhì)量較好,具有一定的優(yōu)越性。如果回顧性地從病案記錄中收集被評價試驗和金標準試驗的結(jié)果數(shù)據(jù),其結(jié)果更能反映臨床實踐,缺點是很難發(fā)現(xiàn)所有符合條件的患者,數(shù)據(jù)的質(zhì)量也不如前瞻性研究。
條目7 例如,ApoE基因的e4基因型與阿爾茨海默病的關(guān)聯(lián)性已被很多研究證實。要研究基因診斷(e4)對阿爾茨海默病的診斷準確性,以病理學診斷為金標準,某學者比較了3種診斷方法,即臨床診斷、ApoE基因型診斷和臨床診斷+ApoE基因型診斷的靈敏度和特異度[5]。 診斷準確性研究中,金標準是用來區(qū)分有病的患者和無病的研究對象。依據(jù)具體的研究目的,金標準方法可以是結(jié)合一組臨床信息定義的,如臨床相關(guān)性、病理診斷、臨床處理方案或者是預后。例如,采用懷孕早期(3個月內(nèi))胎兒頸項透明層的B超檢查篩查唐氏綜合征的研究,陽性結(jié)果可通過染色體核型檢查來證實,然而陰性結(jié)果只能等到分娩后才能證實。那些在胎兒頸項透明層的B超檢查提示陽性下進行染色體核型檢查的研究明顯高估了胎兒頸項透明層B超檢查的靈敏度和特異度[6]。
條目11 如果事先知曉金標準診斷結(jié)果,將會對研究者判斷被評價試驗結(jié)果產(chǎn)生很大的影響,反之亦然,這樣會使被評價試驗和金標準試驗的結(jié)果更加趨于一致,造成對診斷準確性評價指標的高估,這兩種情況分別導致了試驗評價偏倚(test review bias)、診斷評價偏倚(diagnostic review bias)。讀取結(jié)果者事先了解了更多的臨床信息則可以導致臨床評價偏倚(clinical review bias)。因此對于試驗結(jié)果判斷者采取盲法至關(guān)重要。例如,某項研究描述:“所有的影像結(jié)果分析在計算機分析平臺由2名放射科醫(yī)生獨立完成,之后進行合議最終得到診斷結(jié)論。放射科醫(yī)生對于患者的病史、包括患者是否進入篩查范圍、是否具有目標癥狀,以及金標準結(jié)腸鏡和組織學檢查的結(jié)果等相關(guān)信息完全不知曉”[3]。作者甚至提供了2名放射科醫(yī)生的名字縮寫。
條目12 評價診斷試驗準確性的指標不止一種。作者應當詳細地報告所采用的指標、計算方法和估計值,同時報告統(tǒng)計學的不確定性(如95%CI)。有的統(tǒng)計學方法可以檢驗其他假設(shè),比如一種檢驗方法是否優(yōu)于另一種,或者某一種檢驗的診斷準確性是否超過預期。
條目13 無論是被評價試驗還是金標準試驗其重復性都受到以下因素的影響,如觀察者對于同一張影像片的觀察結(jié)果存在的變異,根據(jù)檢驗結(jié)果對研究對象進行分類時,統(tǒng)一機器的不同操作者之間存在的變異,不同操作系統(tǒng)間的變異,分析方法學的變異,以及分析性噪音等。對于定量研究,應報告測量值在臨近臨床決策日的不同日的重復測量結(jié)果的變異系數(shù),如果所有研究對象在同一批進行測定,應報告測量值的批內(nèi)變異系數(shù)。例如,表述“計算kappa值及其95%CI來分析對磁共振血管造影和傳統(tǒng)血管造影結(jié)果判讀的觀察者間變異”。
條目14 技術(shù)的進步使許多試驗方法的診斷準確性發(fā)生了變化。診斷準確性研究實施與論文發(fā)表有相當長的間隔時間。因此應當清晰地報告研究實施的時間。
條目15 提供足夠的研究對象的人口學特征和相關(guān)臨床特征有助于讀者判斷一項研究的結(jié)果在其他人群中的適用性。通??捎帽砀竦男问疥惲醒芯繉ο蟮娜丝趯W和臨床特征。
條目16 STARD寫作清單強烈建議使用診斷準確性性研究流程圖(圖1),即清晰地標出研究的每一個階段研究對象的數(shù)目,幫助判斷患者樣本與目標人群的相似程度,獲得計算各種率和比的分母。 說明未能參加被評價試驗和(或)金標準試驗的人數(shù)。如果被評價試驗的結(jié)果影響該研究對象是否接受金標準試驗,被評價試驗的診斷準確性會因此受到影響。
圖1 診斷準確性研究的納入和排除流程圖
條目17 從流行病學角度講,診斷準確性評價是屬于橫斷面研究。同一組研究對象最好同時接受被評價試驗和金標準試驗的檢測,同時獲得結(jié)果。如果兩個試驗的間隔時間過長,研究對象的情況可能發(fā)生變化,可導致主要和次要觀察指標惡化或者改善。如果在被評價試驗之后、金標準試驗之前患者接受了某種治療,也會給診斷準確性的測量增加難度。
條目18 研究對象的人口學特征和臨床特征可能對診斷準確性的評估帶來影響,這種影響被稱作疾病譜偏倚(spectrum bias),包括所研究的疾病或者健康狀況的嚴重程度、人口學特征以及其他伴隨疾病。其中以不同疾病嚴重程度對被評價試驗診斷準確性的影響最為常見。如果研究樣本中病情較嚴重的研究對象所占的比例較大,則被評價試驗的靈敏度通常被高估。另一方面,如果并發(fā)疾病較多,則假陽性和假陰性結(jié)果也??赡馨l(fā)生。因此,描述研究對象的疾病嚴重程度和所并發(fā)疾病的分布十分必要。
條目20 并非所有的診斷試驗都是安全的。真實地報告診斷準確性研究中各種不良事件有助于全面地了解被評價試驗的臨床意義。
條目21 診斷準確性研究最終目的是評估被評價試驗判斷研究對象有無疾病 (與金標準試驗對比)的準確性。通過一個研究樣本獲得的是診斷準確性指標的點估計值,受各種因素的影響,如果在同一個研究人群中進行重復抽樣研究,該值會有波動,因此報告估計值的波動范圍,如95%CI更為科學。研究發(fā)現(xiàn),1996至1997年在BMJ雜志發(fā)表的診斷準確性研究中只有50%報告了診斷準確性指標的點估計值的置信區(qū)間[7]。
條目22 無法解釋的結(jié)果、不確定結(jié)果和中間結(jié)果 (介于陽性和陰性結(jié)果之間)是評估被評價試驗診斷準確性的常見問題。這類結(jié)果出現(xiàn)的頻率是該診斷試驗總體用途的一個評價指標。如果這類結(jié)果在患者和非患者中出現(xiàn)的頻率不同,則會給診斷試驗的準確性評估帶來偏倚。出現(xiàn)無法解釋、不確定和中間結(jié)果的原因有多種,技術(shù)原因、樣本量不足(如腫瘤組織的針刺活檢未能獲得腫瘤細胞)所導致的無法解釋的結(jié)果,或者是因為研究對象患病情況的沾染,或者是治療情況的沾染而獲得不確定的結(jié)果,如在研究運動試驗對心率的影響時,混入了使用β受體阻滯劑的患者。不同試驗出現(xiàn)這類難解釋結(jié)果的頻率存在差異,可導致不同的臨床決策。因此應對這類結(jié)果的原因加以重視。
條目23 由于研究設(shè)計、患者選擇和操作的不同可導致不同診斷試驗的特征也不相同,從某一特定診斷試驗得到的結(jié)論可能不適用于讀者的具體決策問題[8]。因此報告中除了討論潛在的方法學的不足以及對當前獲得結(jié)果的一般性解釋外,STARD寫作清單推薦作者要指出該研究的結(jié)論在推廣至其他機構(gòu)和患者群體時應該有所不同。
診斷準確性研究并不是唯一的評價診斷試驗的方法(如還包括隨機化臨床試驗)。診斷準確性研究的設(shè)計和實施方法學仍在不斷完善。隨著對各種變異和偏倚認識的不斷深入,STARD寫作清單將定期更新。STARD寫作清單不適合用于診斷準確性研究的質(zhì)量評估。對于診斷準確性研究的質(zhì)量評價,可參考QUADAS 清單[9]。在國際范圍內(nèi),研究者們對STARD寫作清單的認識和使用仍然有待提高。2006年發(fā)表了一篇研究報告,對2本產(chǎn)科學國際重要雜志1999至2004年發(fā)表的診斷準確性研究的文獻進行分析發(fā)現(xiàn), 在STARD寫作清單發(fā)表后的5年間,STARD寫作清單中25條條目在論文中的平均報告率僅從12.1%增至12.4%,STARD寫作清單條目的使用率和報告率仍然很低。因此,積極鼓勵中國兒科研究者在診斷準確性研究的論文寫作中使用STARD寫作清單。
[1]Wang B(王波), Zhan SY. 如何撰寫高質(zhì)量的流行病學論文 第三講.診斷試驗轉(zhuǎn)確性研究的報告規(guī)范——STARD介紹. Chin J Epidemiol(中華流行病學雜志), 2006, 27(10):909-912
[2]Bossuyt PM, Reitsma JB, Bruns DE, et al. The STARD statement for reporting studies of diagnostic accuracy: explanation and elaboration. Clin Chem, 2003, 49(1):7-18
[3]Yee J, Akerkar GA, Hung RK, et al. Colorectal neoplasia: performance characteristics of CT colonography for detection in 300 patients. Radiology, 2001, 219(3):685-692
[4]Deville WL, Bezemer PD, Bouter LM. Publications on diagnostic test evaluation in family medicine journals: an optimal search strategy. J Clin Epidemiol, 2000, 53(1):65-69
[5]Mayeux R, Saunders AM, Shea S, et al. Utility of the apolipoprotein E genotype in the diagnosis of Alzheimer′s disease. Alzheimer′s Disease Centers Consortium on Apolipoprotein E and Alzheimer′s Disease. N Engl J Med, 1998, 338(8):506-511
[6]Mol BW, Lijmer JG, van der Meulen J, et al. Effect of study design on the association between nuchal translucency measurement and Down syndrome. Obstet Gynecol, 1999, 94(5 Pt 2):864-869
[7]Harper R, Reeves B. Reporting of precision of estimates for diagnostic accuracy: a review. BMJ, 1999, 318(7194):1322-1323
[8]Irwig L, Bossuyt P, Glasziou P, et al. Designing studies to ensure that estimates of test accuracy are transferable. BMJ, 2002, 324(7338):669-671
[9]Whiting P, Rutjes AW, Reitsma JB, et al. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews. BMC Med Res Methodol, 2003, 3:25