李希
臨床研究系列講座
代表性與可比性
——決定臨床研究?jī)r(jià)值的核心原則
李希
怎樣才能稱得上是好的臨床研究?一項(xiàng)好的臨床研究應(yīng)該滿足兩大條件:(1)提出了一項(xiàng)重要的問(wèn)題。(2)給出了一個(gè)可靠的答案。而科學(xué)可行的設(shè)計(jì)是確保上述兩條得以實(shí)現(xiàn)的基本條件。在臨床研究的設(shè)計(jì)過(guò)程中,需要解決目的遴選、技術(shù)路線、對(duì)象標(biāo)準(zhǔn)、數(shù)據(jù)定義、分析計(jì)劃,以及質(zhì)控策略和倫理知情等方方面面的問(wèn)題??梢哉f(shuō),相比于大規(guī)模多中心臨床研究,小研究在運(yùn)行過(guò)程中所投入的資源和時(shí)間肯定要少得多,但從設(shè)計(jì)角度來(lái)說(shuō),二者的復(fù)雜程度并沒(méi)有明顯差別。
談到研究設(shè)計(jì),相信有一張圖是大家都比較熟悉的(圖1)——我們稱之為研究證據(jù)級(jí)別的金字塔。其中,高大上的隨機(jī)對(duì)照臨床試驗(yàn)(randomized control trial, RCT)高居塔尖,備受臨床指南等的推崇。這張圖在直觀展現(xiàn)不同類型研究的證據(jù)強(qiáng)弱的同時(shí),也被很多研究者當(dāng)做研究設(shè)計(jì)類型優(yōu)劣的金字塔,進(jìn)而導(dǎo)致了“RCT崇拜”等一些片面的觀念——RCT成為了解決所有臨床研究問(wèn)題的終極設(shè)計(jì)和最佳方案。實(shí)際上,只有適合問(wèn)題的答案才是好答案。要選擇最佳的設(shè)計(jì)方案,首先要辨別清楚通過(guò)研究想解決的臨床問(wèn)題究竟有哪些類型。
圖1 臨床研究證據(jù)級(jí)別的“金字塔”
臨床研究要解決的問(wèn)題,也就是研究的目的,可以簡(jiǎn)單地分為兩種類型。第一種稱為“情況描述”:就是要把一群對(duì)象中的某一個(gè)臨床特征的分布情況描述清楚,比如說(shuō)明全國(guó)某年急性心肌梗死住院患者的30天的平均死亡率是多少,或者這些患者入院時(shí)的血壓水平如何。另一種稱為”差異比較”或“關(guān)聯(lián)分析”,比如說(shuō)明急性心肌梗死的治療中,合并糖尿病的患者是否院內(nèi)事件率更高,或者長(zhǎng)期服用他汀類藥物的患者是否預(yù)后較好,就是要通過(guò)比較說(shuō)明不同類型的對(duì)象之間的某個(gè)臨床特征分布有沒(méi)有差異,也可以被認(rèn)為是評(píng)價(jià)糖尿病或他汀類藥物治療這樣的因素與患者預(yù)后這一臨床特征之間是否存在關(guān)聯(lián)——這是臨床研究文章中對(duì)同一種情況的兩種常見(jiàn)的解釋方法。
了解這一分類后,如果再看一下剛才提到臨床研究設(shè)計(jì)類型的金字塔,就會(huì)只有在”差異比較”或“關(guān)聯(lián)分析”研究,即針對(duì)不同組別對(duì)象進(jìn)行比較分析時(shí)(如確定疾病危險(xiǎn)因素的強(qiáng)弱,還是評(píng)價(jià)治療手段的優(yōu)劣),金字塔中“高端”設(shè)計(jì)的優(yōu)勢(shì)才能顯現(xiàn)出來(lái)。那么針對(duì)不同類型的研究目的來(lái)說(shuō),究竟什么樣的核心原則會(huì)直接影響到結(jié)果的可靠性,進(jìn)而決定研究的價(jià)值呢?
在試圖描述一類患者的分布情況時(shí),研究所描述的范圍越大,研究本身的信息量也就越大。比如,一項(xiàng)全國(guó)性的調(diào)查,其帶給讀者的價(jià)值要遠(yuǎn)大于僅覆蓋一個(gè)地區(qū)或單獨(dú)一家醫(yī)院的調(diào)查。然而,實(shí)際研究中能納入的對(duì)象樣本量是有限的。研究樣本量越大,需要投入的資源就越多,實(shí)施的難度也越大。因此,這類研究的設(shè)計(jì)中通常需要引入抽樣的方法,以有限的對(duì)象(即“樣本”)中觀察到的結(jié)果去反映更大范圍群體(即“總體”)的特征。舉例來(lái)說(shuō),同樣是納入1 000例患者的兩項(xiàng)研究,如果其中一個(gè)能代表全國(guó)急性心肌梗死患者的治療模式,另一個(gè)只能說(shuō)明某家醫(yī)院這類患者的治療模式。相比之下,前者當(dāng)然更容易得到雜志和讀者的青睞。所以說(shuō),在情況描述研究中,研究對(duì)象所能代表的群體范圍越大,研究的價(jià)值和意義也就越大。因此,確?!按硇裕╮epresentativeness)”是研究者在這類研究中所要把握的核心原則。
代表性并不是簡(jiǎn)單的指研究對(duì)象來(lái)自于多大的范圍,更重要的是向讀者說(shuō)明研究中樣本的結(jié)果能夠“無(wú)偏性”地推論到總體的特征。如果在從總體中納入樣本的過(guò)程中,研究者主觀上想選誰(shuí)選誰(shuí),甚至故意去選擇年輕、并發(fā)癥少的患者(這些患者往往順應(yīng)性好,調(diào)查難度?。?,所得的樣本就不一定能代表總體的實(shí)際分布情況——這種“選擇性(selectiveness)”可以算得上是代表性最頑固的敵人,會(huì)直接影響到讀者對(duì)研究結(jié)果的認(rèn)可程度,也是研究者要盡可能避免的。
要實(shí)現(xiàn)研究的代表性,就需要說(shuō)服讀者,研究樣本的納入中沒(méi)有摻雜主觀故意的選擇性。從設(shè)計(jì)角度來(lái)說(shuō),有三種方法可供選擇(圖2)。
圖2 普查、隨機(jī)抽樣和連續(xù)入選:三種實(shí)現(xiàn)代表性的設(shè)計(jì)方法
第一種是普查,就是把想代表的總體中的每一個(gè)對(duì)象都納入研究——這個(gè)過(guò)程中沒(méi)有任何的選擇性,結(jié)果無(wú)疑最能夠代表總體的特征。這樣的方法看起來(lái)最直接,但是實(shí)施起來(lái)卻最困難。因?yàn)槿绻鲆粋€(gè)覆蓋范圍較大(如全國(guó))的普查研究,需要投入的人力、物力、財(cái)力和時(shí)間資源對(duì)于單個(gè)研究來(lái)說(shuō)都是難以承受的。不僅在臨床研究領(lǐng)域,在其他領(lǐng)域也是如此。即使對(duì)政府而言,也只有每10年才會(huì)組織一次全國(guó)人口普查,每5年才會(huì)開(kāi)展1次全國(guó)經(jīng)濟(jì)普查。
第二種是隨機(jī)抽樣,就是對(duì)總體中的每一個(gè)對(duì)象都根據(jù)隨機(jī)的方法決定其是否納入研究?!半S機(jī)”,顧名思義是“根據(jù)概率(機(jī)會(huì))而定”,而不受研究者意愿的影響。這也就避免了主觀“選擇性”的干擾。隨機(jī)抽樣的具體設(shè)計(jì)方式有很多,包括簡(jiǎn)單抽樣、系統(tǒng)抽樣等可以在后續(xù)的研究設(shè)計(jì)專題中具體介紹。作為研究者或讀者,更重要的是要鑒別一個(gè)抽樣研究的設(shè)計(jì)究竟是不是真正的隨機(jī)抽樣或具有代表性。我們經(jīng)常會(huì)看到雜志中一些研究在方法部分自稱是基于代表性樣本,但實(shí)際上并沒(méi)有真正采用隨機(jī)抽樣的方法,所以只能稱為“隨意抽樣”,也就是“根據(jù)研究者主觀意愿而定”的樣本選擇。
第三種是連續(xù)入選,就是選擇一個(gè)有限的時(shí)間段,在其中將每一例符合條件的患者都入選到研究樣本中,以代表更長(zhǎng)時(shí)間范圍內(nèi)總體的情況。這也可以避免主觀選擇性的影響。隨著前瞻性臨床注冊(cè)登記研究的流行,這種方法的熱度也變得越來(lái)越高。但這種方法也有其特殊的局限性。比如某項(xiàng)單中心研究受經(jīng)費(fèi)和人手所限,選擇6~8個(gè)月連續(xù)入選了所有合格對(duì)象,希望代表醫(yī)院全年的急性心肌梗死患者特征和治療情況——對(duì)于再灌注治療、抗血小板藥物的使用率等指標(biāo)來(lái)說(shuō),6~8個(gè)月研究樣本中的結(jié)果有比較大的把握能夠反映全年總體的情況,但對(duì)于患者入院收縮壓水平等明顯受季節(jié)影響的指標(biāo)來(lái)說(shuō),6~8個(gè)月這個(gè)時(shí)間段的調(diào)查結(jié)果相比于全年平均水平就可能出現(xiàn)偏差,而不再具有代表性。
在關(guān)聯(lián)分析研究中,目的不僅僅是比較不同的因素(如治療)的對(duì)象之間臨床結(jié)局(如預(yù)后)差別,而是希望通過(guò)這樣的差別去推斷這種因素是否與結(jié)局之間存在獨(dú)立的關(guān)聯(lián),進(jìn)而做出更有把握的因果推論(如某種治療是否可以改善預(yù)后)。這時(shí),就需要在關(guān)聯(lián)分析的比較過(guò)程中排除其他混雜因素的影響。比如評(píng)價(jià)他汀類藥物降低心血管事件再發(fā)風(fēng)險(xiǎn)的療效,需要確保服藥的患者和不服藥的患者之間年齡、性別、合并癥,甚至收入水平基本一致,否則,如果服藥組的相對(duì)要年輕一些,或者合并癥相對(duì)要少一些,那么即使觀察到兩組患者之間的預(yù)后差異,也很難判斷這種差異是由治療本身造成的,還是年齡等其他因素的影響導(dǎo)致的。所以說(shuō),關(guān)聯(lián)分析研究中,研究組間越多的其他因素達(dá)到均衡可比,研究推論因果關(guān)系的可靠性就越高。因此,確保“可比性(comparability)”是我們?cè)谶@類研究中所要把握的核心原則。
要實(shí)現(xiàn)研究的可比性,從設(shè)計(jì)角度來(lái)說(shuō),有兩種方法可以選擇(圖3)。
圖3 隨機(jī)分組和因素匹配:兩種實(shí)現(xiàn)可比性的設(shè)計(jì)方法
第一種是隨機(jī)分組,也是在RCT中采用的方法。以藥物療效評(píng)價(jià)為例,在同一類患者當(dāng)中,通過(guò)隨機(jī)的方法決定每一例對(duì)象是進(jìn)入治療組還是對(duì)照組,那么在最終得到的兩組對(duì)象之間,年齡、性別、合并癥等因素理論上來(lái)說(shuō)都應(yīng)該是均衡可比的。這就為兩組分別分配治療方案后的預(yù)后比較奠定了基礎(chǔ)。
另一種方法是因素匹配,常見(jiàn)于隊(duì)列研究或病例對(duì)照研究這樣觀察性的臨床研究。還是以藥物療效評(píng)價(jià)為例,在觀察性研究中,患者服藥或不服藥不是由研究決定的,因此在兩類患者之間,很可能本身就存在著年齡等因素的差異——例如在臨床實(shí)踐中對(duì)高齡患者的用藥通常更加保守一些,所以服藥組的平均年齡往往比不服藥組要低一些。為了排除這種影響,在兩組患者入選時(shí),可以從不服藥的患者中盡量多入選一些年輕的對(duì)象,通過(guò)這樣的人為措施確保研究納入的兩組患者在年齡上均衡可比。這樣當(dāng)研究觀察到兩組之間預(yù)后存在的差異時(shí),就可以排除年齡這個(gè)潛在的混雜因素造成的影響,使得研究對(duì)藥物療效的評(píng)價(jià)更有把握。
當(dāng)然,相比于RCT的隨機(jī)分組,因素匹配的方法在確??杀刃苑矫娴木窒扌砸卜浅C黠@。盡管在觀察性研究中可以人為努力去匹配一些混雜因素,但能控制的因素總數(shù)是有限的——想匹配的因素越多,就給患者入選造成更大的困難。而且對(duì)于一些在研究之前根本沒(méi)有了解的患者特征,人為匹配也就自然無(wú)從談起。而RCT就不受這樣的限制,不論存在多少潛在的混雜因素,不論之前是否收集了相關(guān)信息,從原理上來(lái)說(shuō),隨機(jī)分組都可以實(shí)現(xiàn)其均衡可比。這也就是為什么RCT在關(guān)聯(lián)分析研究中能超越觀察性設(shè)計(jì),在金字塔尖傲視同儕。
盡管上面談了很多在研究設(shè)計(jì)中確保代表性或可比性的方法,但這對(duì)兩大原則的把握來(lái)說(shuō)只是一個(gè)開(kāi)始。讀者對(duì)研究?jī)r(jià)值的判斷不是針對(duì)研究的設(shè)計(jì)方案,而是基于研究運(yùn)行完成后所得的最終結(jié)果。
研究運(yùn)行過(guò)程中,很多環(huán)節(jié)都可能影響到最終結(jié)果的代表性或可比性。比如說(shuō),一項(xiàng)問(wèn)卷調(diào)查設(shè)計(jì)了科學(xué)的隨機(jī)抽樣方案,確保了所選患者樣本對(duì)總體的良好代表性,但在實(shí)際運(yùn)行的對(duì)象入選過(guò)程當(dāng)中,卻出現(xiàn)了大面積的拒絕應(yīng)答,最終獲得的研究結(jié)果就不再能代表設(shè)計(jì)中目標(biāo)總體的情況。再比如,在一項(xiàng)隨訪研究中,盡管前期設(shè)計(jì)和患者入選都貫徹了代表性原則,但在隨訪過(guò)程中的失訪率較高(失訪者往往是預(yù)后較差、結(jié)局事件高發(fā)的研究對(duì)象),研究最終獲得的的預(yù)后數(shù)據(jù)只來(lái)自于完成隨訪的患者,其代表性就大打折扣。除了代表性以外,可比性也面臨同樣的問(wèn)題。比如一項(xiàng)臨床試驗(yàn)盡管設(shè)計(jì)了嚴(yán)格的隨訪分組方案,確保了在研究開(kāi)始是干預(yù)組和對(duì)照組對(duì)象各方面特征的均衡可比,但在隨訪過(guò)程中,兩組失訪率存在差異顯著(失訪者往往是預(yù)后較差、年齡較大或知識(shí)水平較低的研究對(duì)象)。在這種情況下,如果結(jié)局的分析需要基于末次隨訪的調(diào)查數(shù)據(jù),那么兩組之間的比較就不可避免地要受到其他混雜因素的影響,研究對(duì)藥物療效的評(píng)價(jià)結(jié)論也就不再可靠了。
因此,要緊扣兩大原則提升研究?jī)r(jià)值,不能僅停留在方案設(shè)計(jì)階段,還應(yīng)該貫穿研究運(yùn)行的始終。
本文的內(nèi)容可以總結(jié)為三點(diǎn):(1)臨床研究中設(shè)計(jì)類型的選擇要適應(yīng)研究目的,RCT并不一定是解決所有問(wèn)題的最佳方案。(2)針對(duì)不同類型的研究目的,要在設(shè)計(jì)中堅(jiān)持把握代表性或可比性的原則。(3)除了研究設(shè)計(jì)中把握這些原則,還應(yīng)當(dāng)貫穿研究運(yùn)行的各個(gè)環(huán)節(jié)。這才能從根本上確保臨床研究的價(jià)值。
2017-07-19)
(編輯:寧田海)
100037 北京市,中國(guó)醫(yī)學(xué)科學(xué)院 北京協(xié)和醫(yī)學(xué)院 國(guó)家心血管病中心 阜外醫(yī)院 心血管疾病臨床醫(yī)學(xué)研究中心
了:李希 助理研究員 博士 主要研究方向?yàn)榇笠?guī)模多中心臨床試驗(yàn)和醫(yī)療結(jié)果評(píng)價(jià)研究 Email: xi.li@fwoxford.org
R54
C
1000-3614(2017)09-0931-03
10.3969/j.issn.1000-3614.2017.09.025