探究納入文獻(xiàn)質(zhì)量評價不一致性的原因—以針灸治療膝骨關(guān)節(jié)炎的系統(tǒng)評價/Meta分析為例＊

2020-04-12 03:18:40程施瑞陳逸嘉孫睿睿李政杰梁繁榮

世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化 2020年9期

周俊，程施瑞，陳逸嘉，孫睿睿，李政杰，曾芳，梁繁榮＊＊

（1. 成都中醫(yī)藥大學(xué)針灸推拿學(xué)院成都 610075；2. 中國人民解放軍空軍軍醫(yī)大學(xué)基礎(chǔ)醫(yī)學(xué)院西安 710032）

隨著循證醫(yī)學(xué)的興起，作為“證據(jù)金字塔”頂端的系統(tǒng)評價/Meta 分析（systematic reviews/meta-analyses，SRs/MAs）在醫(yī)學(xué)領(lǐng)域中受到廣泛關(guān)注[1,2]。高質(zhì)量的SRs/MAs 能夠為臨床治療提供循證參考和決策[3-5]，而納入的原材料是影響SRs/MAs 質(zhì)量和結(jié)論可靠性的決定性因素之一[6]。隨機(jī)對照試驗（randomized controlled trials，RCTs）是評價干預(yù)效果的最佳設(shè)計，因此常常被研究者作為SRs材料的不二選擇[5,7]。目前評價RCTs質(zhì)量運用較廣泛的工具是“Cochrane風(fēng)險偏倚評估工具”和“Jadad 量表”[7,8]。但是，即使使用的工具一樣，經(jīng)常也會出現(xiàn)不同系統(tǒng)評價者對同一RCT 評價不一致的情況[9-11]，使得SRs/MAs 的質(zhì)量及結(jié)論可信度受到嚴(yán)重影響。因此，探究評價不一致性的程度以及尋找可能導(dǎo)致不一致性的原因尤為重要。

針灸作為傳統(tǒng)中醫(yī)的一種治療技術(shù)，可應(yīng)用于許多疾病的治療。借助循證醫(yī)學(xué)的理念和方法，是現(xiàn)代針灸臨床研究的重要方向[12]。目前針灸治療疾病的SRs/MAs 越來越多（圖1），其中以疼痛類疾病最多，例如臨床常見病、多發(fā)病膝骨關(guān)節(jié)炎（knee osteoarthritis，KOA）[13]。但是目前許多針灸的SRs/MAs 存在原始納入文獻(xiàn)質(zhì)量評價不一致性的問題，這是導(dǎo)致許多針灸相關(guān)SRs/MAs質(zhì)量和可信度低的主要原因之一。

本文SRs/MAs 以針灸治療KOA 為例，旨在評估國內(nèi)SRs研究者使用方法質(zhì)量學(xué)評價工具后做出判斷的不一致性，以及探究導(dǎo)致不一致性的可能原因，以期為其他針灸SRs研究的類似問題提供借鑒。

圖1 PubMed數(shù)據(jù)庫針灸相關(guān)SRs/MAs論文數(shù)

1 資料和方法

1.1 文獻(xiàn)檢索

計算機(jī)檢索中國知網(wǎng)、中國生物醫(yī)學(xué)數(shù)據(jù)庫、維普、萬方等數(shù)據(jù)庫，語言無限制，檢索時間從建庫至2019 年6月3 日。以“膝骨性關(guān)節(jié)炎”、“膝關(guān)節(jié)骨性關(guān)節(jié)炎”、“膝骨關(guān)節(jié)炎”、“退行性骨關(guān)節(jié)炎”、“骨痹”、“針刺”、“電針”、“耳針”、“溫針”、“頭皮針”、“腹針”、“穴位”、“灸法”、“系統(tǒng)評價”、“系統(tǒng)綜述”、“薈萃分析”等為主題詞和自由詞。補(bǔ)充檢索相關(guān)灰色文獻(xiàn)及咨詢相關(guān)領(lǐng)域的專家。以中國知網(wǎng)作為數(shù)據(jù)庫的檢索示例，檢索策略如下：

主題=（‘膝骨關(guān)節(jié)炎’+‘膝骨性關(guān)節(jié)炎’+‘膝關(guān)節(jié)骨性關(guān)節(jié)炎’+‘退行性骨關(guān)節(jié)炎’+‘骨痹’）AND 主題 =（‘針灸’+‘針刺’+‘電針’+‘耳針’+‘溫針’+‘頭皮針’+‘腹針’+‘穴位’+‘灸法’）AND 主題=（‘系統(tǒng)評價’+‘系統(tǒng)綜述’+‘薈萃分析’+‘Meta分析’）

1.2 納入與排除標(biāo)準(zhǔn)

納入標(biāo)準(zhǔn)：①研究類型：納入RCTs的SRs/MAs；②研究對象：RCTs 中被明確診斷為KOA 的患者（符合公認(rèn)的任一標(biāo)準(zhǔn)即可），年齡、性別、種族、國籍和病程均不限；③干預(yù)措施：與針灸相關(guān)的所有治療方式，包括針刺、電針、溫針、頭針、腹針、耳針、穴位埋線、穴位敷貼、穴位注射等，并可輔以其它任何療法；④質(zhì)量評價/偏倚風(fēng)險評估中至少明確包含評估中的一項內(nèi)容。

排除標(biāo)準(zhǔn)：①重復(fù)發(fā)表文獻(xiàn)；②與作者聯(lián)系后仍無法獲取全文；③未含有重復(fù)的RCTs 的SRs/MAs；④無法提取質(zhì)量評價記錄。

1.3 文獻(xiàn)篩選

將檢索出的文獻(xiàn)導(dǎo)入Endnote去重后，由2名研究員獨立完成初篩，排除明顯不符合納入標(biāo)準(zhǔn)的研究后，對余下研究進(jìn)行全文閱讀，各自完成之后進(jìn)行交叉核對，若有爭議討論協(xié)商解決。

1.4 資料提取

①2 名研究員獨立將納入的SRs/MAs 相關(guān)信息提取至預(yù)先設(shè)計的表格中，包括SRs/MAs 的作者、年份、質(zhì)量評價方法、是否至少由2人獨立完成質(zhì)量評價，以及SRs/MAs 中納入RCTs 的作者姓名、發(fā)表時間等；②提取所納入SRs/MAs 中對每個RCT 的質(zhì)量評價/偏倚風(fēng)險的判斷和依據(jù)，包括隨機(jī)序列生成、分配隱藏、對研究者和受試者施盲、對結(jié)局評價使用盲法、結(jié)果數(shù)據(jù)的完整性、選擇性報告以及Jadad 量表評分結(jié)果等。③分別提取報告中由2 名以上研究人員獨立評價與1人獨自完成質(zhì)量評價/偏倚風(fēng)險評估的記錄（未報道則默認(rèn)為1人獨自完成評價）。小組成員（周俊、陳逸嘉）各自獨立完成信息提取整理后再行交叉核對，若有爭議及時討論協(xié)商解決。

1.5 質(zhì)量評價工具

1.5.1 Cochrane偏倚風(fēng)險評估工具[14]

目前循證醫(yī)學(xué)領(lǐng)域中普遍推薦用于RCTs 研究偏倚風(fēng)險評估的工具之一。于2005 年Cochrane 協(xié)作網(wǎng)組織研發(fā)，2008年公布第一版，2011年進(jìn)行更新，并在2016 年項目網(wǎng)站上發(fā)布了第二版。該工具主要從選擇偏倚（包括隨機(jī)序列的產(chǎn)生和分配隱藏）、實施偏倚（包括對研究者和受試者施盲）、檢測偏倚（研究結(jié)局盲法評價）、失訪偏倚（結(jié)局?jǐn)?shù)據(jù)的完整性）、報告偏倚（選擇性報告）及其他偏倚這6 個方面7 個領(lǐng)域來對偏倚風(fēng)險進(jìn)行評估。評價者針對每個領(lǐng)域根據(jù)具體偏倚風(fēng)險評估條目做出“high、low、unclear”3 種判斷，以表示其對應(yīng)“高風(fēng)險偏倚、低風(fēng)險偏倚、不清楚”的判斷結(jié)果。

“造勢”是指企業(yè)有目的地主動創(chuàng)造事件，利用新聞媒體進(jìn)行傳播，使之成為公眾所關(guān)注的熱點話題。同樣，想實現(xiàn)好的效果就要遵循創(chuàng)新性、公共性及互惠性的原則。“造勢”的營銷操作要訣在于：

1.5.2 Jadad量表[15]

由Jadad 等1996 年發(fā)布，主要從隨機(jī)、盲法、失訪/退出3 個方面進(jìn)行評價，采用0-5 分計分方式，≤2 分者為低質(zhì)量研究，≥3 分為高質(zhì)量研究。具體評價內(nèi)容如下：①隨機(jī)：采用“隨機(jī)”并描述了正確的隨機(jī)方法（2 分）；提及應(yīng)用隨機(jī)方法，但未具體描述隨機(jī)方法（1 分）；未隨機(jī)/假隨機(jī)/不清楚（0 分）。②盲法：采用“雙盲”并描述了正確的施盲方法（2 分）；僅提及采用雙盲法（1 分）；未實行雙盲/假雙盲（0 分）。③失訪/退出：對退出與失訪的例數(shù)和理由進(jìn)行了詳細(xì)描述（1分）；未提及退出與失訪（0分）。

1.6 質(zhì)量評價一致性的標(biāo)準(zhǔn)

不同SRs/MAs 的研究者對相同RCTs 偏倚風(fēng)險的判斷相同或Jadad 評分一致，若提供判斷依據(jù)，則需判斷依據(jù)大致相同。2 名成員獨立完成評價后交叉核對，若有分歧討論協(xié)商解決。

2 結(jié)果

2.1 檢索和數(shù)據(jù)提取結(jié)果

檢索結(jié)果：根據(jù)檢索策略，共檢索出93 篇可能與針灸治療KOA的SRs/MAs相關(guān)文獻(xiàn)，去掉重復(fù)文獻(xiàn)50篇，閱讀題目及摘要后排除文獻(xiàn)9篇，閱讀全文后最終納入文獻(xiàn)34篇，詳見圖2。

數(shù)據(jù)提取結(jié)果：34 篇SRs/MAs 中共有541 個RCT的基本信息被提取，經(jīng)過多次查重，最終確定28 篇SRs/MAs 含有 205 個重復(fù)的 RCT 研究，提取重復(fù) RCTs質(zhì)量評價記錄及判斷依據(jù)等（圖2）。

2.2 統(tǒng)計結(jié)果

含有重復(fù)RCTs 質(zhì)量評價記錄的28 篇SRs/MAs 中12 篇采用Cocharne 風(fēng)險偏倚評估工具，7 篇應(yīng)用Jadad量表，6篇應(yīng)用改良Jadad量表，3篇使用Cocharne風(fēng)險偏倚評估工具聯(lián)合Jadad量表。另外，納入的SRs/MAs中61%（17 篇）都未提及質(zhì)量評價由2 名人員獨立完成（表1）。

2.2.1 隨機(jī)、分配隱藏

圖2 檢索及數(shù)據(jù)提取流程圖

隨機(jī)序列生成：180 個重復(fù)RCT 在多個SRs/MAs中存在評價判斷。68%的評價結(jié)果一致，其中52%被評為“低風(fēng)險”，48%被評為“不清楚”。另外，32%的不一致評價結(jié)果較為復(fù)雜：對同一個RCT 有相同的判斷，但提供的判斷依據(jù)不同；相同的判斷依據(jù)卻做出不同的判斷；對同一個RCT 有多種不同的判斷或描述等，詳見表2。

2.2.2 盲法

對研究者和受試者施盲：在納入的205 個重復(fù)研究中，188 個（92%）包含研究設(shè)計是否運用盲法的判斷。該領(lǐng)域125 個（66%）意見一致，63 個（34%）意見不一致。在不一致中，有60 個（95%）被歸類為“不清楚”或“高風(fēng)險”。另外5%是在同一個RCT 的3 個判斷中存在差異，其中1 個描述為“提及單盲”，另2 個在“低風(fēng)險”和“不清楚”判斷之間存在分歧。而在68%判斷一致中均判斷為“不清楚”，詳見表2。

對結(jié)局評價是否采用盲法：僅有50個重復(fù)研究對結(jié)局評價者是否采用盲法進(jìn)行評估，其中18 個（36%）存在判斷不一致，且歧義均在“高風(fēng)險”與“不清楚”之間。其余32 個（64%）一致性判斷均為“不清楚”，詳見表2。

表1 納入SRs/MAs質(zhì)量評價基本特征

表2 SRs/MAs中重復(fù)RCTs質(zhì)量評價記錄統(tǒng)計

2.2.3 結(jié)果數(shù)據(jù)的完整性、選擇性報告、其他偏倚

結(jié)果數(shù)據(jù)的完整性：28 篇 SRs/MAs，共計 205 個（100%）重復(fù)研究均涉及該領(lǐng)域。其中118 個（58%）對失訪或退出的判斷結(jié)果不一致。在不一致中80 個（68%）判斷偏倚出現(xiàn)在“低風(fēng)險”與“不清楚”間（表2）。

選擇性報告：有80 個重復(fù)研究對此做出明確判斷，其中38 個（47.5%）研究的判斷結(jié)果不一致。而出現(xiàn)不一致的情況均在“不清楚”和“低風(fēng)險”之間。在42 個（52.5%）一致性判斷中，“低風(fēng)險”與“不清楚”各占一半，詳見表2。

其他偏倚：56 個判斷中，有44 個（79%）重復(fù)研究存在判斷不同且這44 個都是在“低風(fēng)險”和“不清楚”間出現(xiàn)判斷不一致。剩余12 個（21%）判斷結(jié)果一致中有8 個（67%）“低風(fēng)險”判斷，4 個（33%）“不清楚”判斷，詳見表2。

2.2.4 Jadad量表評分

在方法學(xué)質(zhì)量評估工具中共有59個重復(fù)RCTs選用Jadad 量表，其中有30 個（51%）存在評分不一致：12組（80%）相差1分，2組（13%）相差2分，1組（7%）相差3分，詳見表2。

2.3 2人獨立完成評價的不一致性

在納入的205 個重復(fù)研究中，SRs/MAs 中提及“由2 名成員獨立評價”的質(zhì)量評價記錄有87 個（42%），1人獨自完成評價的記錄118個（58%）。提及“由2名成員獨立評價”的質(zhì)量評價的不一致性在各領(lǐng)域的占比為（括號內(nèi)為所有項重復(fù)研究在各領(lǐng)域判斷不一致性占比）：隨機(jī)序列的產(chǎn)生42%（32%）、分配隱藏4%（8%）、盲法36%（34%）、對結(jié)局評價使用盲法100%（36%）、結(jié)果數(shù)據(jù)的完整性60%（58%）、選擇性報道66%（47.5%）、其他偏倚82%（79%）、Jadad 評分48%（51%），詳見表3。

3 討論

本文聚焦SRs/MAs 中納入文獻(xiàn)質(zhì)量評價的不一致性，為如何提高一致性提供方向。通過以針灸治療KOA 為例，首次探討國內(nèi)針灸相關(guān)SRs/MAs 對納入RCTs 質(zhì)量評價的不一致性，同時關(guān)注由2 名成員獨立評價與1人獨自完成質(zhì)量評價的不一致性差異。結(jié)果顯示無論何種情況在較多領(lǐng)域中均存在較大的不一致性。

表3 2人獨立評價與1人獨自評價不一致性記錄統(tǒng)計

3.1 對質(zhì)量評價結(jié)果較高一致性領(lǐng)域的原因分析

在結(jié)果中隨機(jī)和盲法領(lǐng)域的評價一致性較高，其中分配隱藏方案評價一致性最高，隨機(jī)方案產(chǎn)生、對研究者和受試者施盲、對結(jié)局評價使用盲法評價次之。進(jìn)一步觀察一致性的情況，大都是因為在納入材料的原文中未提及這一領(lǐng)域的內(nèi)容，缺少足夠的信息最后做出“不清楚”的判斷。隨機(jī)是RCTs 最基本的條件之一，雖然文中報告納入的研究類型均為RCTs，但對其具體的隨機(jī)方法卻很少描述，這不排除系統(tǒng)評價者納入假隨機(jī)研究的可能性，使納入的研究失去同質(zhì)性，影響SRs/MAs 的整體質(zhì)量。另外，如果不進(jìn)行分配隱藏，即使隨機(jī)完成得很好，也可能夸大治療結(jié)果[16]。據(jù)調(diào)查顯示，不實施或不充分實施分配隱藏，結(jié)果會被夸大42%以上[17,18]。可見隨機(jī)方案產(chǎn)生與分配隱藏所帶來的選擇偏倚對評價結(jié)果的內(nèi)部真實效應(yīng)尤為重要。盲法的必要性，主要體現(xiàn)在減少研究當(dāng)中出現(xiàn)的實施偏倚和測量偏倚，但并不是所有研究都能夠?qū)崿F(xiàn)雙盲或者三盲，比如針灸[16]，這也可能是許多國內(nèi)文獻(xiàn)不愿報道盲法的主要原因。但這種情況下對盲法的風(fēng)險偏倚判定則需要一分為二的看待：若采用客觀評價指標(biāo)，則不太會對結(jié)果產(chǎn)生影響；若采用主觀評價指標(biāo)，則有可能對結(jié)果產(chǎn)生影響。但在主觀評價指標(biāo)中，如果是未參與治療全過程的第三方評價，則不太可能對結(jié)果產(chǎn)生影響[19]。因此現(xiàn)代針灸相關(guān)的研究大多遵守實施者、受試者、評價者三分離的原則，但很多研究卻未在文中報告說明，這使得評價者很難通過有限的文本信息去評判偏倚風(fēng)險或質(zhì)量。目前缺乏統(tǒng)一的定量的盲法質(zhì)量評價方法，盲法的評價主要是通過研究者報告的盲法實施過程來評價[20-22]，因此報告原文細(xì)節(jié)使評價過程透明化顯得尤為關(guān)鍵。推薦使用健康公平相關(guān)隨機(jī)對照試驗的報告規(guī)范（CONSORT-Equity）擴(kuò)展聲明[23]聯(lián)合針刺臨床試驗干預(yù)措施報告標(biāo)準(zhǔn)（縮寫為STRICTA[24]）對針灸相關(guān)RCTs進(jìn)行規(guī)范化報告，以減少報告不規(guī)范帶來的評價不一致以及產(chǎn)生的偏倚。

3.2 質(zhì)量評價工具的應(yīng)用存在較大不一致性的原因

在評價結(jié)果不一致性中其他偏倚最高，其次是結(jié)果數(shù)據(jù)的完整性、Jadad 評分、選擇性報道。觀察這些領(lǐng)域出現(xiàn)較大不一致性的情況：其他偏倚的判斷主觀性較強(qiáng)，對評價人員要求較高，需要評價人員全面評估可能產(chǎn)生風(fēng)險偏倚的來源后，排除前面已經(jīng)評價過的偏倚風(fēng)險，做出判斷。結(jié)果數(shù)據(jù)完整性的不一致中68%都是對“不清楚”和“低風(fēng)險”的界限不明。而Jadad評分不一致中80%僅相差1分。另外，有研究表明選擇性報道是一致性最差的領(lǐng)域，并被證明會引起混淆[25,26]，這與我們的研究具有一定的重合。下面進(jìn)一步討論不一致性的可能原因。

3.2.1 未遵循2人獨立評價交叉核對

在完成質(zhì)量評價的過程中，Prisma 條目[27]以及Cochrane 風(fēng)險偏倚工具中要求至少有2 名成員分別對納入的每一項研究的偏倚風(fēng)險領(lǐng)域進(jìn)行獨立評估，如遇分歧則2 人協(xié)商討論解決或由第三方裁決，最終使判斷達(dá)成一致。這個過程是為了減少個人判斷的主觀性，降低偏倚風(fēng)險的可能，提高結(jié)果的可重復(fù)性及可靠性[3]。然而本文納入的研究一半以上都未遵循該條目，這也可能是導(dǎo)致不一致性較高的重要原因之一。另外有趣的是，我們發(fā)現(xiàn)在納入研究中提及“由2名成員獨立評價”的質(zhì)量評價在多個領(lǐng)域的不一致性反而更高，剩下領(lǐng)域也與1 名人員獨自完成評價基本持平。這個結(jié)果可能與實際設(shè)想的情況不太相符，我們猜想這可能與我們納入的研究范圍局限有關(guān)，同時也不排除提及由2 名及2 名以上完成質(zhì)量評價的研究者并未真正按照報告的標(biāo)準(zhǔn)去實施的可能。這也提示我們不能僅僅從隨機(jī)試驗的報告去直接判斷整個試驗的方法學(xué)質(zhì)量，因為隨機(jī)對照試驗報告的好壞并不一定反映試驗設(shè)計、實施或分析的方法質(zhì)量好壞。因此我們應(yīng)從試驗中獲取更多的信息和數(shù)據(jù)以確保評估的準(zhǔn)確性[28,29]，這個問題可能需要在更廣泛的領(lǐng)域中深入探討。

3.2.2 研究者對質(zhì)量評價工具的掌握程度參差不齊

在統(tǒng)計多個領(lǐng)域不一致性的過程中發(fā)現(xiàn)，絕大多數(shù)情況都是在“不清楚”與“低風(fēng)險”、“不清楚”與“高風(fēng)險”的判斷間出現(xiàn)偏差，進(jìn)一步發(fā)現(xiàn)有較多的研究者是在找到相同的報告信息后，做出了不同的判斷。比如來自2個不同的SRs/MAs在對同一個RCT結(jié)果數(shù)據(jù)的完整性判斷中都描述了“2 名患者拒絕隨訪而脫落”，然而其中1 個做出了“低風(fēng)險”判斷，另1 個做出了“不清楚”判斷。我們猜想可能是有研究者在評價過程中從結(jié)果數(shù)據(jù)或是聯(lián)系作者或是其他方面搜集到了額外的證據(jù)，但并未在文中呈現(xiàn)。此外，還有一些個例出現(xiàn)自身矛盾的情況：描述為“風(fēng)險未知”、“僅提及隨機(jī)”，卻做出“低風(fēng)險”判斷；文中風(fēng)險偏倚圖與文字描述不一致等。上述出現(xiàn)的一系列問題都與研究者對質(zhì)量評價工具的掌握程度參差不齊有關(guān)，希望通過Cochrane 協(xié)作網(wǎng)專業(yè)評價小組學(xué)習(xí)或是專業(yè)機(jī)構(gòu)統(tǒng)一組織培訓(xùn)，能夠提高評價者對質(zhì)量評價工具使用的準(zhǔn)確性和一致性。

3.3 問題和展望

本研究僅局限于國內(nèi)針灸治療KOA 這一較狹窄的領(lǐng)域里，并且未嚴(yán)格區(qū)分Cochrane 風(fēng)險偏倚工具和Jadad 量表的不同，風(fēng)險偏倚評估與方法學(xué)質(zhì)量評價的界限，這可能會在一定程度上影響結(jié)論的可靠性。但就本研究探討的一致性而言，仍有較多的問題值得我們關(guān)注。第一，加強(qiáng)報告規(guī)范：盡量呈現(xiàn)判斷結(jié)果的原文支撐材料細(xì)節(jié)，使得評價過程更加透明化；第二，嚴(yán)謹(jǐn)實施：我們應(yīng)當(dāng)嚴(yán)格按照PRISMA 條目及Cochrane Handbook 的建議——至少由2 名人員獨立完成質(zhì)量評價，如遇分歧可協(xié)商討論解決或?qū)で蟮谌讲脹Q；第三，全面掌握質(zhì)量評價工具的運用：報告規(guī)范固然重要，但不應(yīng)以文獻(xiàn)報告為質(zhì)量評價的唯一依據(jù)，應(yīng)當(dāng)在此基礎(chǔ)上，結(jié)合自身對該研究領(lǐng)域的經(jīng)驗和認(rèn)知，對原始文獻(xiàn)的報告以及呈現(xiàn)的數(shù)據(jù)進(jìn)行綜合判斷。相信通過對質(zhì)量評價工具應(yīng)用的改進(jìn)，評價結(jié)果的不一致性問題能夠得到較好的解決，為RCTs 及SRs/MAs 的證據(jù)質(zhì)量提供有力保障，進(jìn)一步促進(jìn)高質(zhì)量證據(jù)的產(chǎn)生和轉(zhuǎn)化，更好的為臨床治療提供參考和循證決策。隨著人工智能的高度發(fā)展，或許日后我們可以依靠設(shè)計完善的人工智能程序自動搜尋并提取原始文獻(xiàn)報告，并結(jié)合數(shù)據(jù)分析作出客觀判斷，避免人為評價所帶來的偏倚和低級錯誤，使評價結(jié)果一致性達(dá)到新高度。