周 俊,程施瑞,陳逸嘉,孫睿睿,李政杰,曾 芳,梁繁榮**
(1. 成都中醫(yī)藥大學(xué)針灸推拿學(xué)院 成都 610075;2. 中國人民解放軍空軍軍醫(yī)大學(xué)基礎(chǔ)醫(yī)學(xué)院 西安 710032)
隨著循證醫(yī)學(xué)的興起,作為“證據(jù)金字塔”頂端的系統(tǒng)評價/Meta 分析(systematic reviews/meta-analyses,SRs/MAs)在醫(yī)學(xué)領(lǐng)域中受到廣泛關(guān)注[1,2]。高質(zhì)量的SRs/MAs 能夠為臨床治療提供循證參考和決策[3-5],而納入的原材料是影響SRs/MAs 質(zhì)量和結(jié)論可靠性的決定性因素之一[6]。隨機(jī)對照試驗(randomized controlled trials,RCTs)是評價干預(yù)效果的最佳設(shè)計,因此常常被研究者作為SRs材料的不二選擇[5,7]。目前評價RCTs質(zhì)量運用較廣泛的工具是“Cochrane風(fēng)險偏倚評估工具”和“Jadad 量表”[7,8]。但是,即使使用的工具一樣,經(jīng)常也會出現(xiàn)不同系統(tǒng)評價者對同一RCT 評價不一致的情況[9-11],使得SRs/MAs 的質(zhì)量及結(jié)論可信度受到嚴(yán)重影響。因此,探究評價不一致性的程度以及尋找可能導(dǎo)致不一致性的原因尤為重要。
針灸作為傳統(tǒng)中醫(yī)的一種治療技術(shù),可應(yīng)用于許多疾病的治療。借助循證醫(yī)學(xué)的理念和方法,是現(xiàn)代針灸臨床研究的重要方向[12]。目前針灸治療疾病的SRs/MAs 越來越多(圖1),其中以疼痛類疾病最多,例如臨床常見病、多發(fā)病膝骨關(guān)節(jié)炎(knee osteoarthritis,KOA)[13]。但是目前許多針灸的SRs/MAs 存在原始納入文獻(xiàn)質(zhì)量評價不一致性的問題,這是導(dǎo)致許多針灸相關(guān)SRs/MAs質(zhì)量和可信度低的主要原因之一。
本文SRs/MAs 以針灸治療KOA 為例,旨在評估國內(nèi)SRs研究者使用方法質(zhì)量學(xué)評價工具后做出判斷的不一致性,以及探究導(dǎo)致不一致性的可能原因,以期為其他針灸SRs研究的類似問題提供借鑒。
圖1 PubMed數(shù)據(jù)庫針灸相關(guān)SRs/MAs論文數(shù)
計算機(jī)檢索中國知網(wǎng)、中國生物醫(yī)學(xué)數(shù)據(jù)庫、維普、萬方等數(shù)據(jù)庫,語言無限制,檢索時間從建庫至2019 年6月3 日。以“膝骨性關(guān)節(jié)炎”、“膝關(guān)節(jié)骨性關(guān)節(jié)炎”、“膝骨關(guān)節(jié)炎”、“退行性骨關(guān)節(jié)炎”、“骨痹”、“針刺”、“電針”、“耳針”、“溫針”、“頭皮針”、“腹針”、“穴位”、“灸法”、“系統(tǒng)評價”、“系統(tǒng)綜述”、“薈萃分析”等為主題詞和自由詞。補(bǔ)充檢索相關(guān)灰色文獻(xiàn)及咨詢相關(guān)領(lǐng)域的專家。以中國知網(wǎng)作為數(shù)據(jù)庫的檢索示例,檢索策略如下:
主題=(‘膝骨關(guān)節(jié)炎’+‘膝骨性關(guān)節(jié)炎’+‘膝關(guān)節(jié)骨性關(guān)節(jié)炎’+‘退行性骨關(guān)節(jié)炎’+‘骨痹’)AND 主題 =(‘針灸’+‘針刺’+‘電針’+‘耳針’+‘溫針’+‘頭皮針’+‘腹針’+‘穴位’+‘灸法’)AND 主題=(‘系統(tǒng)評價’+‘系統(tǒng)綜述’+‘薈萃分析’+‘Meta分析’)
納入標(biāo)準(zhǔn):①研究類型:納入RCTs的SRs/MAs;②研究對象:RCTs 中被明確診斷為KOA 的患者(符合公認(rèn)的任一標(biāo)準(zhǔn)即可),年齡、性別、種族、國籍和病程均不限;③干預(yù)措施:與針灸相關(guān)的所有治療方式,包括針刺、電針、溫針、頭針、腹針、耳針、穴位埋線、穴位敷貼、穴位注射等,并可輔以其它任何療法;④質(zhì)量評價/偏倚風(fēng)險評估中至少明確包含評估中的一項內(nèi)容。
排除標(biāo)準(zhǔn):①重復(fù)發(fā)表文獻(xiàn);②與作者聯(lián)系后仍無法獲取全文;③未含有重復(fù)的RCTs 的SRs/MAs;④無法提取質(zhì)量評價記錄。
將檢索出的文獻(xiàn)導(dǎo)入Endnote去重后,由2名研究員獨立完成初篩,排除明顯不符合納入標(biāo)準(zhǔn)的研究后,對余下研究進(jìn)行全文閱讀,各自完成之后進(jìn)行交叉核對,若有爭議討論協(xié)商解決。
①2 名研究員獨立將納入的SRs/MAs 相關(guān)信息提取至預(yù)先設(shè)計的表格中,包括SRs/MAs 的作者、年份、質(zhì)量評價方法、是否至少由2人獨立完成質(zhì)量評價,以及SRs/MAs 中納入RCTs 的作者姓名、發(fā)表時間等;②提取所納入SRs/MAs 中對每個RCT 的質(zhì)量評價/偏倚風(fēng)險的判斷和依據(jù),包括隨機(jī)序列生成、分配隱藏、對研究者和受試者施盲、對結(jié)局評價使用盲法、結(jié)果數(shù)據(jù)的完整性、選擇性報告以及Jadad 量表評分結(jié)果等。③分別提取報告中由2 名以上研究人員獨立評價與1人獨自完成質(zhì)量評價/偏倚風(fēng)險評估的記錄(未報道則默認(rèn)為1人獨自完成評價)。小組成員(周俊、陳逸嘉)各自獨立完成信息提取整理后再行交叉核對,若有爭議及時討論協(xié)商解決。
1.5.1 Cochrane偏倚風(fēng)險評估工具[14]
目前循證醫(yī)學(xué)領(lǐng)域中普遍推薦用于RCTs 研究偏倚風(fēng)險評估的工具之一。于2005 年Cochrane 協(xié)作網(wǎng)組織研發(fā),2008年公布第一版,2011年進(jìn)行更新,并在2016 年項目網(wǎng)站上發(fā)布了第二版。該工具主要從選擇偏倚(包括隨機(jī)序列的產(chǎn)生和分配隱藏)、實施偏倚(包括對研究者和受試者施盲)、檢測偏倚(研究結(jié)局盲法評價)、失訪偏倚(結(jié)局?jǐn)?shù)據(jù)的完整性)、報告偏倚(選擇性報告)及其他偏倚這6 個方面7 個領(lǐng)域來對偏倚風(fēng)險進(jìn)行評估。評價者針對每個領(lǐng)域根據(jù)具體偏倚風(fēng)險評估條目做出“high、low、unclear”3 種判斷,以表示其對應(yīng)“高風(fēng)險偏倚、低風(fēng)險偏倚、不清楚”的判斷結(jié)果。
“造勢”是指企業(yè)有目的地主動創(chuàng)造事件,利用新聞媒體進(jìn)行傳播,使之成為公眾所關(guān)注的熱點話題。同樣,想實現(xiàn)好的效果就要遵循創(chuàng)新性、公共性及互惠性的原則。“造勢”的營銷操作要訣在于:
1.5.2 Jadad量表[15]
由Jadad 等1996 年發(fā)布,主要從隨機(jī)、盲法、失訪/退出3 個方面進(jìn)行評價,采用0-5 分計分方式,≤2 分者為低質(zhì)量研究,≥3 分為高質(zhì)量研究。具體評價內(nèi)容如下:①隨機(jī):采用“隨機(jī)”并描述了正確的隨機(jī)方法(2 分);提及應(yīng)用隨機(jī)方法,但未具體描述隨機(jī)方法(1 分);未隨機(jī)/假隨機(jī)/不清楚(0 分)。②盲法:采用“雙盲”并描述了正確的施盲方法(2 分);僅提及采用雙盲法(1 分);未實行雙盲/假雙盲(0 分)。③失訪/退出:對退出與失訪的例數(shù)和理由進(jìn)行了詳細(xì)描述(1分);未提及退出與失訪(0分)。
不同SRs/MAs 的研究者對相同RCTs 偏倚風(fēng)險的判斷相同或Jadad 評分一致,若提供判斷依據(jù),則需判斷依據(jù)大致相同。2 名成員獨立完成評價后交叉核對,若有分歧討論協(xié)商解決。
檢索結(jié)果:根據(jù)檢索策略,共檢索出93 篇可能與針灸治療KOA的SRs/MAs相關(guān)文獻(xiàn),去掉重復(fù)文獻(xiàn)50篇,閱讀題目及摘要后排除文獻(xiàn)9篇,閱讀全文后最終納入文獻(xiàn)34篇,詳見圖2。
數(shù)據(jù)提取結(jié)果:34 篇SRs/MAs 中共有541 個RCT的基本信息被提取,經(jīng)過多次查重,最終確定28 篇SRs/MAs 含有 205 個重復(fù)的 RCT 研究,提取重復(fù) RCTs質(zhì)量評價記錄及判斷依據(jù)等(圖2)。
含有重復(fù)RCTs 質(zhì)量評價記錄的28 篇SRs/MAs 中12 篇采用Cocharne 風(fēng)險偏倚評估工具,7 篇應(yīng)用Jadad量表,6篇應(yīng)用改良Jadad量表,3篇使用Cocharne風(fēng)險偏倚評估工具聯(lián)合Jadad量表。另外,納入的SRs/MAs中61%(17 篇)都未提及質(zhì)量評價由2 名人員獨立完成(表1)。
2.2.1 隨機(jī)、分配隱藏
圖2 檢索及數(shù)據(jù)提取流程圖
隨機(jī)序列生成:180 個重復(fù)RCT 在多個SRs/MAs中存在評價判斷。68%的評價結(jié)果一致,其中52%被評為“低風(fēng)險”,48%被評為“不清楚”。另外,32%的不一致評價結(jié)果較為復(fù)雜:對同一個RCT 有相同的判斷,但提供的判斷依據(jù)不同;相同的判斷依據(jù)卻做出不同的判斷;對同一個RCT 有多種不同的判斷或描述等,詳見表2。
2.2.2 盲法
對研究者和受試者施盲:在納入的205 個重復(fù)研究中,188 個(92%)包含研究設(shè)計是否運用盲法的判斷。該領(lǐng)域125 個(66%)意見一致,63 個(34%)意見不一致。在不一致中,有60 個(95%)被歸類為“不清楚”或“高風(fēng)險”。另外5%是在同一個RCT 的3 個判斷中存在差異,其中1 個描述為“提及單盲”,另2 個在“低風(fēng)險”和“不清楚”判斷之間存在分歧。而在68%判斷一致中均判斷為“不清楚”,詳見表2。
對結(jié)局評價是否采用盲法:僅有50個重復(fù)研究對結(jié)局評價者是否采用盲法進(jìn)行評估,其中18 個(36%)存在判斷不一致,且歧義均在“高風(fēng)險”與“不清楚”之間。其余32 個(64%)一致性判斷均為“不清楚”,詳見表2。
表1 納入SRs/MAs質(zhì)量評價基本特征
表2 SRs/MAs中重復(fù)RCTs質(zhì)量評價記錄統(tǒng)計
2.2.3 結(jié)果數(shù)據(jù)的完整性、選擇性報告、其他偏倚
結(jié)果數(shù)據(jù)的完整性:28 篇 SRs/MAs,共計 205 個(100%)重復(fù)研究均涉及該領(lǐng)域。其中118 個(58%)對失訪或退出的判斷結(jié)果不一致。在不一致中80 個(68%)判斷偏倚出現(xiàn)在“低風(fēng)險”與“不清楚”間(表2)。
選擇性報告:有80 個重復(fù)研究對此做出明確判斷,其中38 個(47.5%)研究的判斷結(jié)果不一致。而出現(xiàn)不一致的情況均在“不清楚”和“低風(fēng)險”之間。在42 個(52.5%)一致性判斷中,“低風(fēng)險”與“不清楚”各占一半,詳見表2。
其他偏倚:56 個判斷中,有44 個(79%)重復(fù)研究存在判斷不同且這44 個都是在“低風(fēng)險”和“不清楚”間出現(xiàn)判斷不一致。剩余12 個(21%)判斷結(jié)果一致中有8 個(67%)“低風(fēng)險”判斷,4 個(33%)“不清楚”判斷,詳見表2。
2.2.4 Jadad量表評分
在方法學(xué)質(zhì)量評估工具中共有59個重復(fù)RCTs選用Jadad 量表,其中有30 個(51%)存在評分不一致:12組(80%)相差1分,2組(13%)相差2分,1組(7%)相差3分,詳見表2。
在納入的205 個重復(fù)研究中,SRs/MAs 中提及“由2 名成員獨立評價”的質(zhì)量評價記錄有87 個(42%),1人獨自完成評價的記錄118個(58%)。提及“由2名成員獨立評價”的質(zhì)量評價的不一致性在各領(lǐng)域的占比為(括號內(nèi)為所有項重復(fù)研究在各領(lǐng)域判斷不一致性占比):隨機(jī)序列的產(chǎn)生42%(32%)、分配隱藏4%(8%)、盲法36%(34%)、對結(jié)局評價使用盲法100%(36%)、結(jié)果數(shù)據(jù)的完整性60%(58%)、選擇性報道66%(47.5%)、其他偏倚82%(79%)、Jadad 評分48%(51%),詳見表3。
本文聚焦SRs/MAs 中納入文獻(xiàn)質(zhì)量評價的不一致性,為如何提高一致性提供方向。通過以針灸治療KOA 為例,首次探討國內(nèi)針灸相關(guān)SRs/MAs 對納入RCTs 質(zhì)量評價的不一致性,同時關(guān)注由2 名成員獨立評價與1人獨自完成質(zhì)量評價的不一致性差異。結(jié)果顯示無論何種情況在較多領(lǐng)域中均存在較大的不一致性。
表3 2人獨立評價與1人獨自評價不一致性記錄統(tǒng)計
在結(jié)果中隨機(jī)和盲法領(lǐng)域的評價一致性較高,其中分配隱藏方案評價一致性最高,隨機(jī)方案產(chǎn)生、對研究者和受試者施盲、對結(jié)局評價使用盲法評價次之。進(jìn)一步觀察一致性的情況,大都是因為在納入材料的原文中未提及這一領(lǐng)域的內(nèi)容,缺少足夠的信息最后做出“不清楚”的判斷。隨機(jī)是RCTs 最基本的條件之一,雖然文中報告納入的研究類型均為RCTs,但對其具體的隨機(jī)方法卻很少描述,這不排除系統(tǒng)評價者納入假隨機(jī)研究的可能性,使納入的研究失去同質(zhì)性,影響SRs/MAs 的整體質(zhì)量。另外,如果不進(jìn)行分配隱藏,即使隨機(jī)完成得很好,也可能夸大治療結(jié)果[16]。據(jù)調(diào)查顯示,不實施或不充分實施分配隱藏,結(jié)果會被夸大42%以上[17,18]。可見隨機(jī)方案產(chǎn)生與分配隱藏所帶來的選擇偏倚對評價結(jié)果的內(nèi)部真實效應(yīng)尤為重要。盲法的必要性,主要體現(xiàn)在減少研究當(dāng)中出現(xiàn)的實施偏倚和測量偏倚,但并不是所有研究都能夠?qū)崿F(xiàn)雙盲或者三盲,比如針灸[16],這也可能是許多國內(nèi)文獻(xiàn)不愿報道盲法的主要原因。但這種情況下對盲法的風(fēng)險偏倚判定則需要一分為二的看待:若采用客觀評價指標(biāo),則不太會對結(jié)果產(chǎn)生影響;若采用主觀評價指標(biāo),則有可能對結(jié)果產(chǎn)生影響。但在主觀評價指標(biāo)中,如果是未參與治療全過程的第三方評價,則不太可能對結(jié)果產(chǎn)生影響[19]。因此現(xiàn)代針灸相關(guān)的研究大多遵守實施者、受試者、評價者三分離的原則,但很多研究卻未在文中報告說明,這使得評價者很難通過有限的文本信息去評判偏倚風(fēng)險或質(zhì)量。目前缺乏統(tǒng)一的定量的盲法質(zhì)量評價方法,盲法的評價主要是通過研究者報告的盲法實施過程來評價[20-22],因此報告原文細(xì)節(jié)使評價過程透明化顯得尤為關(guān)鍵。推薦使用健康公平相關(guān)隨機(jī)對照試驗的報告規(guī)范(CONSORT-Equity)擴(kuò)展聲明[23]聯(lián)合針刺臨床試驗干預(yù)措施報告標(biāo)準(zhǔn)(縮寫為STRICTA[24])對針灸相關(guān)RCTs進(jìn)行規(guī)范化報告,以減少報告不規(guī)范帶來的評價不一致以及產(chǎn)生的偏倚。
在評價結(jié)果不一致性中其他偏倚最高,其次是結(jié)果數(shù)據(jù)的完整性、Jadad 評分、選擇性報道。觀察這些領(lǐng)域出現(xiàn)較大不一致性的情況:其他偏倚的判斷主觀性較強(qiáng),對評價人員要求較高,需要評價人員全面評估可能產(chǎn)生風(fēng)險偏倚的來源后,排除前面已經(jīng)評價過的偏倚風(fēng)險,做出判斷。結(jié)果數(shù)據(jù)完整性的不一致中68%都是對“不清楚”和“低風(fēng)險”的界限不明。而Jadad評分不一致中80%僅相差1分。另外,有研究表明選擇性報道是一致性最差的領(lǐng)域,并被證明會引起混淆[25,26],這與我們的研究具有一定的重合。下面進(jìn)一步討論不一致性的可能原因。
3.2.1 未遵循2人獨立評價交叉核對
在完成質(zhì)量評價的過程中,Prisma 條目[27]以及Cochrane 風(fēng)險偏倚工具中要求至少有2 名成員分別對納入的每一項研究的偏倚風(fēng)險領(lǐng)域進(jìn)行獨立評估,如遇分歧則2 人協(xié)商討論解決或由第三方裁決,最終使判斷達(dá)成一致。這個過程是為了減少個人判斷的主觀性,降低偏倚風(fēng)險的可能,提高結(jié)果的可重復(fù)性及可靠性[3]。然而本文納入的研究一半以上都未遵循該條目,這也可能是導(dǎo)致不一致性較高的重要原因之一。另外有趣的是,我們發(fā)現(xiàn)在納入研究中提及“由2名成員獨立評價”的質(zhì)量評價在多個領(lǐng)域的不一致性反而更高,剩下領(lǐng)域也與1 名人員獨自完成評價基本持平。這個結(jié)果可能與實際設(shè)想的情況不太相符,我們猜想這可能與我們納入的研究范圍局限有關(guān),同時也不排除提及由2 名及2 名以上完成質(zhì)量評價的研究者并未真正按照報告的標(biāo)準(zhǔn)去實施的可能。這也提示我們不能僅僅從隨機(jī)試驗的報告去直接判斷整個試驗的方法學(xué)質(zhì)量,因為隨機(jī)對照試驗報告的好壞并不一定反映試驗設(shè)計、實施或分析的方法質(zhì)量好壞。因此我們應(yīng)從試驗中獲取更多的信息和數(shù)據(jù)以確保評估的準(zhǔn)確性[28,29],這個問題可能需要在更廣泛的領(lǐng)域中深入探討。
3.2.2 研究者對質(zhì)量評價工具的掌握程度參差不齊
在統(tǒng)計多個領(lǐng)域不一致性的過程中發(fā)現(xiàn),絕大多數(shù)情況都是在“不清楚”與“低風(fēng)險”、“不清楚”與“高風(fēng)險”的判斷間出現(xiàn)偏差,進(jìn)一步發(fā)現(xiàn)有較多的研究者是在找到相同的報告信息后,做出了不同的判斷。比如來自2個不同的SRs/MAs在對同一個RCT結(jié)果數(shù)據(jù)的完整性判斷中都描述了“2 名患者拒絕隨訪而脫落”,然而其中1 個做出了“低風(fēng)險”判斷,另1 個做出了“不清楚”判斷。我們猜想可能是有研究者在評價過程中從結(jié)果數(shù)據(jù)或是聯(lián)系作者或是其他方面搜集到了額外的證據(jù),但并未在文中呈現(xiàn)。此外,還有一些個例出現(xiàn)自身矛盾的情況:描述為“風(fēng)險未知”、“僅提及隨機(jī)”,卻做出“低風(fēng)險”判斷;文中風(fēng)險偏倚圖與文字描述不一致等。上述出現(xiàn)的一系列問題都與研究者對質(zhì)量評價工具的掌握程度參差不齊有關(guān),希望通過Cochrane 協(xié)作網(wǎng)專業(yè)評價小組學(xué)習(xí)或是專業(yè)機(jī)構(gòu)統(tǒng)一組織培訓(xùn),能夠提高評價者對質(zhì)量評價工具使用的準(zhǔn)確性和一致性。
本研究僅局限于國內(nèi)針灸治療KOA 這一較狹窄的領(lǐng)域里,并且未嚴(yán)格區(qū)分Cochrane 風(fēng)險偏倚工具和Jadad 量表的不同,風(fēng)險偏倚評估與方法學(xué)質(zhì)量評價的界限,這可能會在一定程度上影響結(jié)論的可靠性。但就本研究探討的一致性而言,仍有較多的問題值得我們關(guān)注。第一,加強(qiáng)報告規(guī)范:盡量呈現(xiàn)判斷結(jié)果的原文支撐材料細(xì)節(jié),使得評價過程更加透明化;第二,嚴(yán)謹(jǐn)實施:我們應(yīng)當(dāng)嚴(yán)格按照PRISMA 條目及Cochrane Handbook 的建議——至少由2 名人員獨立完成質(zhì)量評價,如遇分歧可協(xié)商討論解決或?qū)で蟮谌讲脹Q;第三,全面掌握質(zhì)量評價工具的運用:報告規(guī)范固然重要,但不應(yīng)以文獻(xiàn)報告為質(zhì)量評價的唯一依據(jù),應(yīng)當(dāng)在此基礎(chǔ)上,結(jié)合自身對該研究領(lǐng)域的經(jīng)驗和認(rèn)知,對原始文獻(xiàn)的報告以及呈現(xiàn)的數(shù)據(jù)進(jìn)行綜合判斷。相信通過對質(zhì)量評價工具應(yīng)用的改進(jìn),評價結(jié)果的不一致性問題能夠得到較好的解決,為RCTs 及SRs/MAs 的證據(jù)質(zhì)量提供有力保障,進(jìn)一步促進(jìn)高質(zhì)量證據(jù)的產(chǎn)生和轉(zhuǎn)化,更好的為臨床治療提供參考和循證決策。隨著人工智能的高度發(fā)展,或許日后我們可以依靠設(shè)計完善的人工智能程序自動搜尋并提取原始文獻(xiàn)報告,并結(jié)合數(shù)據(jù)分析作出客觀判斷,避免人為評價所帶來的偏倚和低級錯誤,使評價結(jié)果一致性達(dá)到新高度。