1.復(fù)旦大學(xué)護(hù)理學(xué)院,上海200032;2.復(fù)旦大學(xué)附屬華東醫(yī)院;3.復(fù)旦大學(xué)循證護(hù)理中心
由荷蘭、美國、西班牙等研究機(jī)構(gòu)的心理測量學(xué)專家組成的COSMIN(Consensus-Based Standards For The Selection of Health Measurement Instruments)指導(dǎo)委員會提出了規(guī)范制作患者報(bào)告結(jié)局測量工具(Patient-Reported Outcome Measures,PROMs)系統(tǒng)評價(jià)的COSMIN方法,以指導(dǎo)研究者和使用者選擇最合適的PROMs[1]。其中,評價(jià)PROMs的內(nèi)容效度是COSMIN方法中非常重要的一部分,其包括3個(gè)步驟:第1步是使用COSMIN偏倚風(fēng)險(xiǎn)評價(jià)清單中的框目1評價(jià)PROMs開發(fā)過程的偏倚風(fēng)險(xiǎn);第2步是使用COSMIN偏倚風(fēng)險(xiǎn)評價(jià)清單中的框目2評價(jià)PROMs內(nèi)容效度研究的偏倚風(fēng)險(xiǎn);第3步是綜合PROMs開發(fā)過程及內(nèi)容效度研究的所有證據(jù),以及評價(jià)者對PROMs本身內(nèi)容效度的評分,使用COSMIN提出的評分系統(tǒng)評價(jià)PROMs的內(nèi)容效度。由于第3步中如何應(yīng)用評分系統(tǒng)評價(jià)PROMs的內(nèi)容效度比較復(fù)雜,因此,將對此進(jìn)行單獨(dú)介紹,以便于研究者和使用者更好地理解和應(yīng)用該工具。
PROMs內(nèi)容效度的評分系統(tǒng)主要包括3個(gè)子步驟:①根據(jù)PROMs內(nèi)容效度的10項(xiàng)質(zhì)量準(zhǔn)則對每項(xiàng)研究中PROMs的內(nèi)容效度進(jìn)行評價(jià),同時(shí)也考慮評價(jià)者對PROMs本身內(nèi)容效度的評分(3a);②對PROMs開發(fā)過程、所有內(nèi)容效度研究以及評價(jià)者的評分進(jìn)行定性總結(jié),以評價(jià)PROMs的內(nèi)容效度(3b);③使用改良的GRADE方法評價(jià)證據(jù)質(zhì)量等級,以確定對內(nèi)容效度評價(jià)結(jié)果的確信程度(3c)。對于PROMs的每個(gè)量表或子量表,評價(jià)者都應(yīng)根據(jù)內(nèi)容效度的評分系統(tǒng)填寫表1。
表1 評價(jià)PROM內(nèi)容效度的COSMIN質(zhì)量準(zhǔn)則和評分系統(tǒng)
根據(jù)COSMIN開發(fā)的PROM內(nèi)容效度的10項(xiàng)質(zhì)量準(zhǔn)則(相關(guān)性準(zhǔn)則1~5項(xiàng),全面性準(zhǔn)則6項(xiàng),可理解性準(zhǔn)則7~10項(xiàng))對每項(xiàng)研究中PROM的內(nèi)容效度進(jìn)行評價(jià),并考慮評價(jià)者的判斷。每項(xiàng)準(zhǔn)則均可以評為“+”“-”“?”,其一般評價(jià)規(guī)則如下:“+”指PROM(或子量表)中≥85%的條目符合準(zhǔn)則;“-”指PROM(或子量表)中<85%的條目符合準(zhǔn)則;“?”指沒有足夠的信息或研究的偏倚風(fēng)險(xiǎn)被評為“不良”。其具體步驟分為以下3步:第1步,需要根據(jù)質(zhì)量準(zhǔn)則(相關(guān)性準(zhǔn)則1~5項(xiàng),全面性準(zhǔn)則6項(xiàng),可理解性準(zhǔn)則7~8項(xiàng))對PROM開發(fā)過程及每項(xiàng)內(nèi)容效度研究的結(jié)果進(jìn)行評價(jià),并應(yīng)考慮每項(xiàng)研究的偏倚風(fēng)險(xiǎn)。此外,評價(jià)者還需要對PROM本身的內(nèi)容效度做出判斷,并對相關(guān)性(準(zhǔn)則1~5項(xiàng))、全面性(準(zhǔn)則6項(xiàng))、可理解性(準(zhǔn)則9~10項(xiàng))進(jìn)行評分。需要注意,評價(jià)者的判斷在PROM的內(nèi)容效度評價(jià)中所占權(quán)重較小。每項(xiàng)質(zhì)量準(zhǔn)則評為“+”的標(biāo)準(zhǔn)見表2。如果不清楚研究具體做了什么,或者研究的偏倚風(fēng)險(xiǎn)被評為“不良”,或者沒有報(bào)告結(jié)果,建議將對應(yīng)的質(zhì)量準(zhǔn)則評為“?”,其他情況則評為“-”。經(jīng)過這一步驟,可以得出PROM開發(fā)過程、每項(xiàng)內(nèi)容效度研究以及評價(jià)者的評分,評價(jià)者需要填在表1每列中每項(xiàng)準(zhǔn)則對應(yīng)的白色區(qū)域。第2步,匯總每項(xiàng)準(zhǔn)則的評分,可以獲得每項(xiàng)研究和評價(jià)者對PROM的相關(guān)性、全面性和可理解性評分,其可以評為“+”“-”“?”和“±”。評價(jià)者需要將評分填在表1每列中相關(guān)性、全面性和可理解性對應(yīng)的藍(lán)色區(qū)域。具體指導(dǎo)見表3。第3步,總結(jié)每項(xiàng)研究和評價(jià)者對PROM的相關(guān)性、全面性和可理解性評分,確定每項(xiàng)研究中PROM的內(nèi)容效度評分及評價(jià)者對PROM內(nèi)容效度的評分,并填在表1最后一行藍(lán)色區(qū)域。具體指導(dǎo)見表4。
表2 根據(jù)內(nèi)容效度的10項(xiàng)質(zhì)量準(zhǔn)則給予“+”評分的指南
表3 每項(xiàng)研究中PROM相關(guān)性、全面性和可理解性的評分指導(dǎo)
表4 評價(jià)每項(xiàng)研究中PROM內(nèi)容效度的指導(dǎo)
在這一步驟中,需要綜合考慮步驟3a中所有PROM開發(fā)過程和內(nèi)容效度研究中PROM內(nèi)容效度(包括相關(guān)性、全面性、可理解性)的評分結(jié)果,以及評價(jià)者的評分,并對其進(jìn)行定性總結(jié),以確定PROM的內(nèi)容效度,其評分應(yīng)在表1倒數(shù)第二列綠色區(qū)域中填寫。PROM的內(nèi)容效度可以被評為“+”或“-”或“±”。“?”的評分是不可能的,因?yàn)樵u價(jià)者的評分總是可用的(+/-/±)。如果每項(xiàng)研究中PROM內(nèi)容效度評分為“+”或“-”,那么PROM的內(nèi)容效度也為“+”或“-”。如果沒有內(nèi)容效度研究,或內(nèi)容效度研究的偏倚風(fēng)險(xiǎn)被評為“不良”,以及PROM開發(fā)過程的偏倚風(fēng)險(xiǎn)被評為“不良”,那么評價(jià)者的評分將決定PROM的內(nèi)容效度。此外,如果PROM開發(fā)過程或內(nèi)容效度研究中PROM內(nèi)容效度的評分為“?”,那么該評價(jià)結(jié)果也可以忽略。注意:COSMIN建議對每個(gè)(多維)PROM的子量表的內(nèi)容效度分別進(jìn)行評分。然而,對于多維PROMs,如果其需要將子量表的分?jǐn)?shù)相加作為總分,則可以通過結(jié)合各子量表的證據(jù)對多維PROMs的相關(guān)性、全面性、可理解性和內(nèi)容效度進(jìn)行評分。如果所有子量表的內(nèi)容效度評分為“+”或“-”,那么多維PROMs的內(nèi)容效度評分也是“+”或“-”。如果各子量表的內(nèi)容效度評分不一致,那么多維PROMs的內(nèi)容效度的評分將為“±”。
如果PROM開發(fā)過程的評分、內(nèi)容效度研究的評分和評價(jià)者的評分不一致,應(yīng)探討不一致的原因。如無任何原因,則PROM內(nèi)容效度的評分將為不一致。引起不一致的原因可能是人群(例如疾病嚴(yán)重程度不同的人群)、PROM的語言版本、PROM的開發(fā)年份等。如果可以找到不一致的原因,評價(jià)者可以考慮進(jìn)行分組,并對亞組內(nèi)結(jié)果一致的研究進(jìn)行評價(jià),以確定PROM的內(nèi)容效度。例如,如果PROM內(nèi)容效度的研究分別在急性病病人和慢性病病人中進(jìn)行,并且其內(nèi)容效度的評分不同,那么可以考慮分別評價(jià)兩類人群中的PROM內(nèi)容效度(如在急性病病人中內(nèi)容效度的總體評分可能為“+”,但在慢性病病人中為“-”)。在評分不一致的情況下,某些研究可能提供了更多的證據(jù),從而決定了PROM的內(nèi)容效度。例如:①內(nèi)容效度研究比PROM開發(fā)過程提供了更多的證據(jù)(因?yàn)樵趦?nèi)容效度研究中詢問了受試者PROM的相關(guān)性、全面性和可理解性,但PROM開發(fā)過程則不包括此項(xiàng)內(nèi)容);②內(nèi)容效度研究和PROM開發(fā)過程比評價(jià)者的評分提供更多的證據(jù)(因?yàn)閬碜匝芯康淖C據(jù)應(yīng)該比評價(jià)者的主觀意見更有分量,即使評價(jià)者是專家);③偏倚風(fēng)險(xiǎn)低的研究比偏倚風(fēng)險(xiǎn)高的研究提供了更多的證據(jù)。例如:可以考慮只根據(jù)偏倚風(fēng)險(xiǎn)評分為“很好”或“良好”的研究來確定PROM的相關(guān)性評分,而忽略評分為“模糊”的研究結(jié)果。此外,在某些情況下,更新的證據(jù)可以認(rèn)為比舊的證據(jù)更重要。
在這一步驟中,需要使用改良的GRADE方法對PROM內(nèi)容效度的全部證據(jù)(即證據(jù)體)進(jìn)行質(zhì)量評級,以反映對步驟3b中PROM的內(nèi)容效度(包括相關(guān)性、全面性和可理解性)評價(jià)結(jié)果的確信程度。COSMIN在原先的GRADE方法基礎(chǔ)上[2],專門針對PROMs的系統(tǒng)評價(jià),開發(fā)了一個(gè)改良的GRADE方法,將證據(jù)質(zhì)量分為高、中、低和極低。其中,對于PROM的內(nèi)容效度,其證據(jù)質(zhì)量只根據(jù)偏倚風(fēng)險(xiǎn)、不一致性和間接性這3個(gè)因素進(jìn)行分級(沒有考慮不精確性和發(fā)表偏倚)。需要注意,如果在步驟3b中忽略了某些研究的結(jié)果,那么在確定證據(jù)質(zhì)量時(shí)也應(yīng)該忽略這些研究。例如,如果在確定PROM的內(nèi)容效度時(shí)只考慮高質(zhì)量研究的結(jié)果,那么確定證據(jù)質(zhì)量時(shí)也只需要考慮高質(zhì)量的研究。所有的質(zhì)量評級結(jié)果都將在表1的最后一列綠色區(qū)域中填寫。
1.3.1 偏倚風(fēng)險(xiǎn)
COSMIN根據(jù)改良的GRADE方法將PROM內(nèi)容效度的全部研究初定為高質(zhì)量證據(jù)。當(dāng)研究的偏倚風(fēng)險(xiǎn)是“模糊”或“不良”時(shí),或存在(無法解釋的)不一致或間接結(jié)果時(shí),應(yīng)考慮將證據(jù)質(zhì)量按因素降低等級。如果內(nèi)容效度研究的偏倚風(fēng)險(xiǎn)評分為“模糊”,建議降低證據(jù)質(zhì)量等級1級。如果沒有內(nèi)容效度研究(或僅有偏倚風(fēng)險(xiǎn)“不良”的研究)以及PROM開發(fā)過程的偏倚風(fēng)險(xiǎn)評分為“模糊”,建議降低2級。如果沒有內(nèi)容效度研究(或僅有偏倚風(fēng)險(xiǎn)“不良”的研究)以及PROM開發(fā)過程的偏倚風(fēng)險(xiǎn)評分為“不良”,建議降低3級(證據(jù)質(zhì)量極低)。在最后一種情況下,內(nèi)容效度將只基于評價(jià)者的評分。
1.3.2 不一致性
不一致性是指PROM開發(fā)過程和其他內(nèi)容效度研究中PROM內(nèi)容效度評分不一致,或者這些研究的評分與評價(jià)者對PROM的評分不一致。對于解決不一致性的問題,一種方法是步驟3b中提到的將結(jié)果類似的研究進(jìn)行分組評價(jià);另一種方法則是對PROM的內(nèi)容效度進(jìn)行評價(jià),包括所有研究,如果每項(xiàng)研究的評分不一致,那么降低不一致證據(jù)的質(zhì)量。
1.3.3 間接性
如果系統(tǒng)評價(jià)中關(guān)注的人群、構(gòu)念或使用情境與PROM開發(fā)過程或內(nèi)容效度研究中關(guān)注的不一致,那么就會出現(xiàn)間接性。這樣的研究盡管可以提供PROM可理解性的證據(jù),但由于關(guān)注的構(gòu)念和人群不同,其相關(guān)性和全面性的證據(jù)可能是間接的。在這種情況下,可能要考慮降低證據(jù)質(zhì)量的等級(請注意,間接證據(jù)的權(quán)重要小于直接證據(jù))。例如,在關(guān)于手骨關(guān)節(jié)炎病人PROMs的系統(tǒng)評價(jià)中,上肢功能障礙評定量表(DASH)是針對更廣泛的目標(biāo)人群開發(fā)的(上肢肌肉骨骼疾病病人),而不僅僅限于系統(tǒng)評價(jià)中所關(guān)注的人群(手骨關(guān)節(jié)炎病人)。如果只有少數(shù)手骨關(guān)節(jié)炎病人參與了DASH量表的開發(fā),那么評價(jià)者可能無法確定DASH量表的條目對于手骨關(guān)節(jié)炎病人是否具有相關(guān)性和全面性。在這種情況下,評價(jià)者也可能會因間接性考慮降低PROM開發(fā)過程中證據(jù)的質(zhì)量。
由于目前一些PROMs的內(nèi)容效度不夠好,且缺乏標(biāo)準(zhǔn)化的方法評價(jià)內(nèi)容效度,導(dǎo)致相關(guān)研究者和使用者很難判斷使用的PROMs是否合適,因此,COSMIN制定了評價(jià)PROMs內(nèi)容效度的方法,以指導(dǎo)其選擇高質(zhì)量的PROMs[3]。該評價(jià)方法分為3個(gè)步驟,本文詳細(xì)介紹了第3個(gè)步驟中如何應(yīng)用COSMIN評分系統(tǒng)來評價(jià)PROMs的內(nèi)容效度,并對其證據(jù)質(zhì)量進(jìn)行評級。在使用評分系統(tǒng)時(shí),前兩個(gè)步驟中PROMs開發(fā)過程和內(nèi)容效度研究的偏倚風(fēng)險(xiǎn)評價(jià)結(jié)果應(yīng)考慮在內(nèi)。應(yīng)當(dāng)注意,在系統(tǒng)評價(jià)中對PROMs的內(nèi)容效度進(jìn)行評分時(shí),評價(jià)者應(yīng)考慮系統(tǒng)評價(jià)中關(guān)注的構(gòu)念、人群和使用情境,因?yàn)橛行㏄ROMs在廣泛應(yīng)用時(shí),內(nèi)容效度可能會有所變化,如在最初開發(fā)時(shí)PROMs在目標(biāo)人群中的內(nèi)容效度可能很好,但在另一個(gè)受試者人群中使用時(shí)不一定好。另外,在報(bào)告PROMs內(nèi)容效度的結(jié)論時(shí),應(yīng)同時(shí)提到PROMs的內(nèi)容效度(包括相關(guān)性、全面性和可理解性)的質(zhì)量和證據(jù)的質(zhì)量等級。若是PROMs相關(guān)性、全面性和可理解性的評分差異很大,COSMIN建議不要報(bào)告內(nèi)容效度評分,而是分別報(bào)告相關(guān)性、全面性和可理解性的評分。例如,有中等質(zhì)量的證據(jù)表明某PROM具有“+”的相關(guān)性和可理解性,但有極低質(zhì)量的證據(jù)表明該P(yáng)ROM具有“不足”的全面性。
COSMIN提出的評分系統(tǒng)非常具體清晰,能夠規(guī)范地指導(dǎo)研究者和使用者如何對PROMs的內(nèi)容效度進(jìn)行評價(jià),然而也存在一些不足。例如,在步驟3a中根據(jù)內(nèi)容效度的10項(xiàng)質(zhì)量準(zhǔn)則給予評分時(shí),“不確定”和“不足”的評分標(biāo)準(zhǔn)并不十分具體;又例如,在對由多個(gè)子量表組成的PROMs進(jìn)行內(nèi)容效度的評價(jià)時(shí),其評價(jià)方法也可能不是很清晰;此外,此評分系統(tǒng)評價(jià)PROMs的過程比較復(fù)雜,步驟較多,需要耗費(fèi)較多的時(shí)間。COSMIN建議評分系統(tǒng)需要在對PROMs的多個(gè)系統(tǒng)評價(jià)中進(jìn)一步測試,以評價(jià)其適用性。因此,未來仍然需要不斷地對此評分系統(tǒng)進(jìn)行完善,其他更多信息可以見COSMIN網(wǎng)站[4]。