張露露,陳歡,羅歡,陳婷婷,陳昕羽,高靜
最新國際癌癥研究數(shù)據(jù)顯示,全球癌癥發(fā)病率呈上升趨勢[1],預計2040年將超過2 840萬人,癌癥后5年生存者達4 380萬人[2]。由于癌癥具有易復發(fā)和轉移的特點,癌癥復發(fā)恐懼(fear of cancer recurrence,F(xiàn)CR)已成為癌癥患者最常見的心理反應。FCR指患者對未來癌癥可能復發(fā)或進展所產生的恐懼和擔憂。全球有39%~97%的癌癥患者表明自己害怕癌癥復發(fā)或惡化[3],其中49%的癌癥患者已達到中至重度的FCR[4-5]。在個人層面,高水平的FCR會使患者發(fā)生社交回避[6]、睡眠障礙[7]、治療依從性下降[8]、負性情緒[9]等;在社會層面會導致臨床醫(yī)療成本的上升。由此,科學、適用的評估工具對衡量FCR水平、提升臨床醫(yī)療及科研質量至關重要。目前可用于評估FCR的量表種類較多,且主要為自我報告量表,尚無關于此類量表測量學屬性的系統(tǒng)評價。測量學屬性是反映量表質量的指標,包括信度、效度、反應度等,良好的測量學屬性是量表應用的前提。健康測量工具的共識標準(Consensus-based Standards for the Selection of Health Measurement Instruments,COSMIN)是基于專家共識的患者報告結局測量工具(patient reported outcome measures,PROMs)的遴選指南[10],可對測量工具的方法學質量及測量學屬性進行評價,最終形成工具的推薦意見。本研究根據(jù)COSMIN,對FCR評估工具進行系統(tǒng)評價,旨在篩選高質量的評估工具,為未來我國癌癥患者FCR的評估及實證研究提供循證依據(jù)。
1.1 納入與排除標準 納入標準:(1)研究對象為癌癥患者;(2)至少評價了測量工具的1項測量學屬性;(3)可獲得全文的中英文研究。排除標準:(1)量表僅適用于特異性癌癥;(2)量表僅應用為結局指標的測量,如隨機對照試驗等;(3)綜述性文獻、重復發(fā)表文獻、無統(tǒng)計分析的敘述性研究。
1.2 檢索策略 檢索策略采取主題詞與自由詞結合的方式,并手動檢索納入研究的參考文獻。在PubMed、Embase、Web of Science、CINAHL、 中國知 網、維 普網、萬方數(shù)據(jù)知識服務平臺、中國生物醫(yī)學文獻數(shù)據(jù)庫進行文獻檢索,檢索時限均為建庫至2022-09-10。中文檢索詞包括:癌癥、癌癥復發(fā)恐懼、量表、工具、信度等。英文檢索詞包括 fear of cancer recurrence、instrumentation、psychometr*、assessment、reliab*、valid*、cross-cultural equivalence等,以 PubMed 為例,具體檢索策略見表1。
表1 文獻檢索策略Table 1 Literature search strategies
1.3 文獻篩選與信息提取 由2名研究者按照檢索策略及納排標準,各自篩選提取數(shù)據(jù)及資料并進行核對,意見不一致則請第三方判定。提取資料包括第一作者、發(fā)表時間、量表名稱、研究地區(qū)、適用人群(原目標人群及驗證人群)、維度/條目數(shù)、樣本量等。
1.4 質量評價
1.4.1 評價流程 由2名經嚴格培訓的研究者根據(jù)COSMIN[11],各自評價納入工具的方法學、測量學屬性及證據(jù)等級,意見不一致則請第3方判定,最終形成推薦意見。
1.4.2 評價工具
1.4.2.1 COSMIN方法學質量評價 采用COSMIN偏倚風險清單評價方法學質量。分別為量表的開發(fā)(35個條目)、內容效度(31個條目)、結構效度(4個條目)、內部一致性(5個條目)、假設檢驗(7個條目)、效標效度(3個條目)、穩(wěn)定性(8個條目)、跨文化效度(4個條目)、測量誤差(6個條目)、反應度(13個條目)。各模塊條目均以“非常好(V)”“良好(A)”“模糊(D)”“不良(Ⅰ)”評價,采取最低分評價原則進行評價。
1.4.2.2 COSMIN測量學屬性質量評價 COSMIN將量表的測量學屬性分為效度、信度和反應度3個方面共9種測量學屬性,效度包括內容效度、構建效度(結構效度、假設檢驗、跨文化效度)、校標效度;信度包括內部一致性、穩(wěn)定性、測量誤差。采用COSMIN測量學屬性質量標準[10]分別評價這9種測量學屬性,分為3個等級,即“充分(+)”“不充分(-)”“不確定(?)”。
1.4.2.3 證據(jù)綜合、證據(jù)等級評價及證據(jù)推薦 (1)采用改良的定量系統(tǒng)評價證據(jù)分級(GRADE)方法[12],匯總每項測量學屬性質量。若某一測量學屬性在各研究中結果一致,則直接匯總結果為“充分(+)、不充分(-)、不確定(?)”,反之,則可評為“不一致(±)”。(2)證據(jù)等級評價[12]:利用改良版GRADE,以每個測量學屬性質量為“高質量”開始,從偏倚風險、不一致性、不精確性、間接性4個方面予以降級,最終分別予以4個等級“高”“中”“低”“極低”。(3)證據(jù)推薦:根據(jù)測量學屬性及證據(jù)等級評價結果進行證據(jù)推薦[13]。A類推薦:內容效度“充分(+)”(任何等級證據(jù)),且內部一致性“充分(+)”(證據(jù)等級至少為低質量證據(jù)),該類工具推薦使用;B類推薦:不為A類或C類,該類工具有可應用的潛力,但需要進一步研究來評價其質量;C類推薦:具有高質量證據(jù)證明其任何測量學屬性“不充分(-)”,不建議使用。
2.1 文獻篩選結果 初篩文獻數(shù)為3 239篇,通過手動檢索參考文獻獲得6篇,剔除重復文獻1 677篇,按照納入排標準進行初篩、復篩后,最終共納入24篇文獻[14-37],涉及6種癌癥患者的癌癥復發(fā)恐懼量表。文獻篩選流程見圖1。
圖1 文獻篩選流程圖Figure 1 Flow chart of literature screening
2.2 納入研究基本特征 最終納入24篇文獻[14-37],包括6種癌癥復發(fā)恐懼評估工具。分別為恐懼癌癥復發(fā)量表(Fear of Cancer Recurrence Inventory,F(xiàn)CRI)、癌癥患者恐懼疾病進展量表(Fear of Progression Questionnaire,F(xiàn)OPQ)、7條目癌癥復發(fā)恐懼量表(7-item Fear of Cancer Recurrence Scale,F(xiàn)CR-7)、 癌 癥復發(fā)恐懼單項量表(1-item Fear of Cancer Recurrence,F(xiàn)CR-1)、 癌癥擔憂量表(Cancer Worry Scale,CWS)、幸存者擔憂評估問卷(Assessment of Survivor Concerns,ASC)。10 篇文獻[14-16,18-24]對 FCRI量表進行評估,其測量學屬性和方法學得到了較為全面的評價,這其中包含了由PENG等[14]研制得9條目的簡化版FCRI量表,以及由XU等[15]和宿婷等[16]漢化的中文版FCRI量表。7篇文獻[17,25-30]對FOPQ進行了測量評價,包含由YOUSSEF等[17]研制的FOPQ-RS快速篩查版,以及吳奇云等[28]漢化的FOPQ-SF簡化版。納入文獻的基本特征見表2。
表2 納入文獻的基本特征Table 2 The basic characteristics of the included scales
2.3 癌癥復發(fā)恐懼量表的測量學屬性及研究的方法學質量評價 24篇文獻[14-37]均未對量表的測量誤差、反應度、假設檢驗進行評價,其他方法學及測量學屬性質量評價見表3。
表3 納入文獻測量學特性和研究的方法學質量評價Table 3 Measurement characteristics and methodological quality evaluation of the included scales
2.3.1 工具的開發(fā) 24篇文獻[14-37]均在PROM設計方面清晰描述了量表的構念以及理論模型。16篇文獻[15-16,18,20,23,25,27-28,31-38]缺少從相關性、全面性、理解性報告量表的開發(fā)過程,因此方法學質量評價為“不確定”。3篇文獻[19,24,26]在PROM開發(fā)階段對概念的相關性和全面性進行了較為詳細的質性訪談和量性調查,其方法學質量為“良好”。
2.3.2 效度指標
2.3.2.1 內容效度 14 篇文獻[15-21,23,25-27,32,34,36]通過專家咨詢法評價量表的內容效度,13篇文獻[15-16,18-21,23,25-27,32,34,36]同時咨詢了專家和患者,患者對條目“理解性”和“相關性”的質性研究較多,但針對患者對條目“全面性”的研究不足。國內量表漢化的5篇文獻[16,26,28-29,32]中,質性研究內容較少,或僅采用調查法評價量表內容效度,且研究過程及統(tǒng)計方法報告不清晰。同時,國內外研究在進行質性訪談時,對于數(shù)據(jù)分析過程均未有詳細說明等局限,故上述14篇文獻[15-21,23,25-27,29,32-34]的方法學質量均為“模糊”,量表的內容效度均為“不確定”或“不充分”。
2.3.2.2 結構效度 除 3篇文獻[14,20,34]外,其余 21篇文獻均進行了探索性/驗證性因子分析,其中12篇文獻[15-17,19,21-24,26-28,36]采用了驗證性因子分析(confirmatory factor analysis,CFA)評估量表的結構效度;2 篇文獻[16,21]量表的相對擬合指數(shù)(CFI)>0.95,且樣本量充足,無其他方法學缺陷,故該2篇文獻方法學質量為“很好”,所評價量表的結構效度為“充分”;1篇文獻[20]由于樣本數(shù)量未達到最低標準,所評價量表的結構效度方法學質量為“不良”。2篇文獻[15,31]采用項目反應理論(item response theory,IRT)進行結構效度的評價,其余研究均采用經典測量理論(intraclass correlation coefficient,CTT)。
2.3.2.3 效標效度 目前,癌癥復發(fā)恐懼測量尚無金標準,COSMIN指南標準規(guī)定,簡版量表可用原量表作為金標準進行效標效度的檢驗[10]。本研究中8篇文獻[14-15,17,22,32-35]報告了效標效度,均未將原量表作為金標準,不符合COSMIN指南標準,故該研究方法學質量為“不良”,所評價量表的校標效度為“不充分”。
2.3.3 信度指標
2.3.3.1 內部一致性 19 篇文獻[15-16,18-19,21-33,35,37]計算了各維度內部一致性,故該19篇文獻方法學質量評價是“很好”,其中 18 篇文獻[15-16,18-19,21-33,35]各維度Cronbach's α系數(shù)均>0.7,故所評價量表的內部一致性為“充分”,另1篇文獻[37]中因“健康擔憂”維度Cronbach's α系數(shù)<0.7,故所評價量表的內部一致性為“不充分”。5 篇文獻[14,17,20,34,36]未報告各維度Cronbach's α 系數(shù)。
2.3.3.2 穩(wěn)定性 13 篇文獻報告了穩(wěn)定性[15-16,18-25,31,34-35],其中1篇文獻[24]方法學質量為很好,1篇文獻[19]方法學質量為良好,其余11篇文獻均未說明2次調查的患者組成是否穩(wěn)定,調查時的環(huán)境、方式是否相似或調查的時間間隔是否合適,故方法學質量評價為“模糊”。5篇文獻[15,19-20,23,31]報告了組內相關系數(shù)(ICC)>7,量表穩(wěn)定性為“充分”,其他 8 篇文獻[16,18,21-22,24-25,34-35]未提及ICC系數(shù),考慮到同時計算了Pearson相關系數(shù)或Spearman秩相關系數(shù),所評價量表的穩(wěn)定性為“不確定”。
2.3.3.3 跨文化效度/測量不變性 僅3篇文獻[15,21,23]在不同年齡或性別的人群中測量不變性,但2篇文獻[21,23]中樣本量低于COSMIN指南樣本量的最低要求,故研究的方法學質量為“不良”,3篇文獻評價量表的跨文化效度為“不確定”。
2.4 納入評估工具的證據(jù)等級評價及證據(jù)推薦 本研究將相同工具的測量學屬性質量進行綜合,并根據(jù)納入研究的偏倚風險、不一致性、不精確性、間接性4個方面,考慮給予相應證據(jù)質量降級,證據(jù)等級評價及證據(jù)推薦詳見表3。
偏倚風險方面,除CWS量表的內容效度是“未提及”以外,其余5個量表內容效度的均為不充分或不確定,可能存在較大偏倚,故其內容效度質量評級均給予降1級。6個量表的結構效度方法學質量均為充分,故偏倚風險程度為“無”。內部一致性方面,F(xiàn)CRI、FOPQ、FCR-7、CWS量表內部一致性方法學質量均為“很好”;其余2個量表內部一致性方法學質量均為不充分或不確定,均給予降1級。
不一致性方面,F(xiàn)OPQ量表均存在不一致性,F(xiàn)CR-7在結構效度和內部一致性上存在不一致性,故質量評級給予降1級。其余量表均只納入1篇文獻,不存在不一致性,故各測量學屬性未因不一致性降級。
不準確性方面,F(xiàn)CRI以及FCR-1量表因進行重測時樣本量< 100例,其穩(wěn)定性的質量評級給予降1級。其余量表樣本量均達到標準。
間接性方面,納入的文獻中FOPQ量表納入人群除癌癥患者,還包括糖尿病患者等其他慢性病人群,存在間接性,故其各測量學屬性的質量評級均給予降1級。
其余測量學屬性綜合以上降級因素,均給予不同程度的降級。綜合量表的測量學屬性評級和證據(jù)質量,5個量表均只有中級及以下證據(jù)證明其內容效度為不充分/不確定,故推薦等級均為B級。其中ASC量表,因內部一致性為不良/高質量證據(jù)等級,故評級為C級,見表4。
表4 納入量表測量學屬性結果及推薦意見Table 4 Synthesis of the measurement characteristics of the included scales and the formation of recommendations
3.1 癌癥復發(fā)恐懼量表的方法學質量尚需進一步提高
3.1.1 量表的內容效度報告尚不全面,缺少質性方法COSMIN要求從相關性、全面性、理解性對評估工具的方法學質量進行評價,其中內容效度是最重要的測量學屬性,然而納入研究的主要缺陷即對內容效度考慮不夠全面。本研究中 5 篇國內文獻[16,26,28-29,32]均在數(shù)據(jù)分析過程中(錄音轉錄、分析方法及研究者資質)存在局限。SIMARD 等[18]和 HERSCHBACH 等[25]在研制 FCRI及FOPQ量表時,其內容效度的研究設計方面描述較為詳細,但均缺少訪談數(shù)據(jù)的轉錄過程。JAKOBSEN等[20]在將FCRI量表本土化時,進行了較為詳細的質性研究,但沒有清晰描述轉錄人員的數(shù)量。宿婷等[17]在進行專家函詢過程中,只邀請了7名護理專家,不符合COSMIN指南中“納入來自所有相關學科的專業(yè)人員”的要求。HUMPHRIS等[31]、RUDY等[34]、LEBEL等[21]等在量表開發(fā)階段收集樣本時,未按標準達到數(shù)據(jù)飽和,以至于PROM的廣泛適用性和可理解性受到影響。其次,多篇文獻在內容效度評價中側重專家咨詢,未充分考慮或清楚描述患者意見。建議今后可結合認知性訪談了解患者對量表的看法和理解,以提高量表條目與欲測內容或行為的相符程度。同時在研究設計和數(shù)據(jù)分析中應嚴格遵循COSMIN標準程序,規(guī)范文章撰寫過程。
3.1.2 重測方法報道不清晰,量表穩(wěn)定性仍需驗證 穩(wěn)定性指采用同樣的方法對同一受試者重復測量后結果的一致性程度[38]。本研究納入的24篇文獻,11篇文獻未進行穩(wěn)定性報告,11篇文獻穩(wěn)定性方法學質量為模糊,僅2篇文獻的穩(wěn)定性方法學質量達到合格及以上。如SIMARD等[18]在選擇重測時間為1個月,尚未清晰說明重測間隔的原因,也與COSMIN中“一般重測時間為2周”的規(guī)定不符,故方法學質量均評為“模糊”。重測時間過短或過長將會造成高估或低估測驗信度[39]。一些研究雖滿足重測時間間隔,但定量數(shù)據(jù)未進行ICC計算,僅進行了Pearson相關分析/Spearman秩相關分析,故方法學質量為“模糊”。在測量間隔期,受試者的待測構念以及測量前后情景相似度也非常重要,如果測量情景發(fā)生改變,測量工具的穩(wěn)定性則可能被低估,大多數(shù)研究者沒有明確證據(jù)證明受試者的待測構念和生活情景是穩(wěn)定的,在今后的研究設計中需要多注重這方面的問題。
3.1.3 引進量表缺乏跨文化效度檢驗,未來可繼續(xù)完善跨文化效度指在不同文化群體中應用工具測量時各條目得分的一致程度,其主要通過計算量表的測量不變性或是否發(fā)生項目功能差異(differential item function,DIF)來評估。僅有3篇文獻評價了跨文化效度,但其中2篇文獻因不滿足COSMIN要求的最低樣本量,故方法學評價為“不合格”。納入研究中的5篇中文文獻均是引進國外的量表,但均未進行跨文化效度檢驗。這提示未來在構建從國外引進的量表時,尤其在探討量表的條目時,跨文化中是否存在DIF。同時,在選擇不同群體樣本進行測試時,注意樣本量最好大于PROMs條目數(shù)的7倍,另外,盡可能使除分組變量外的其他特征變量的分布情況基本相同,從而增強組間的可比性。
3.1.4 量表校標效度的金標準設置不恰當,易與假設檢驗相混淆 COSMIN認為患者報告的結局測量工具原則上沒有金標準,原量表可以作為簡版量表的金標準。但納入的文獻中研究者均將廣泛使用的量表作為金標準,這便與假設檢驗的范疇相混淆。例如本研究中納入的8篇文獻[14-15,17,22,32-35]以“構念效度的假設檢驗”對效標效度進行評價,這并不符合COSMIN的要求。
3.2 FCR量表測量學特性的報告尚不全面,未來可完善對量表其他測量學屬性的檢驗 本研究納入的24篇文獻均未進行測量誤差、反應度、假設檢驗的評價。測量誤差包括系統(tǒng)誤差和隨機誤差,是真實變異(真分數(shù))之外其他變異產生的原因。對于定量數(shù)據(jù),建議通過重測計算測量標準誤評估測量誤差;對于分類/有序數(shù)據(jù),建議通過百分比一致性評估測量誤差,包括系統(tǒng)誤差和隨機誤差。假設檢驗用于驗證構念效度,包括與其他測量工具的關系假設,即聚合/區(qū)分效度和已知組別效度2種。反應度是反映量表敏感性的重要指標,可從兩個方面進行考評:(1)量表是否能夠區(qū)分隨著時間變化同一群體待測構念的變化;(2)量表是否可以區(qū)分不同群體待測構念的差異。建議未來可參考COSMIN檢驗FCR量表的以上測量學屬性以完善工具的科學性。
3.3 FCRI可被暫時推薦,但其測量學屬性尚需進一步驗證 通過對量表測量學屬性和研究質量的系統(tǒng)評價,最終5個量表均為B級推薦,1個量表為C級推薦。內容效度是量表最重要的測量學屬性,僅FCRI有中等質量證據(jù)支持其內容效度,且FCRI納入了10篇文獻,其方法學和測量學屬性的評價更為全面。FOPQ各項測量學屬性的證據(jù)等級均為低或極低,其他B級推薦量表內容效度證據(jù)不佳,且都在某一測量學屬性方面存在嚴重的偏倚。相較之下,可暫時推薦FCRI。FCRI是以認知行為理論為模型,以多維度視角評估各型癌癥患者的FCR,包括觸發(fā)因素、嚴重程度、應對策略、心理痛苦、功能障礙、洞察力、需求安慰7個維度共42個條目。采用Likert 5級評分,每個條目分數(shù)范圍為0~4分,總分范圍為0~168分,分數(shù)越高,F(xiàn)CR越嚴重。FCRI發(fā)展成熟且應用廣泛,已被開發(fā)成兒童版FCRI-P[40]、漢化版 FCRI[16]等多種形式。
FOPQ、FCR-7、FCR-1以及CWS為B級量表。FOPQ是用于測量慢性疾病及惡性腫瘤患者的FCR,包括5個維度43個條目[25],該量表在國際范圍應用較為廣泛,2022年已由黃燕萍等[26]漢化,其簡表FOPQ-SF也由吳奇云等[28]漢化。FCR-7以及FCR-1為單維量表,評分方便,用時較短。CWS是基于乳腺癌患者研究開發(fā),已在結直腸癌、前列腺癌等患者中進行驗證[35-36]。本研究顯示以上4個量表尚存在潛力,但在方法學及測量學屬性方面仍需進一步研究,主要存在以下問題:(1)PROM開發(fā)階段,缺乏科學性和規(guī)范性。在PROM概念引出的相關性和全面性方面,上述研究均存在局限性,尤其在認知訪談過程中,缺失較多的記錄;(2)在內容效度方面均為“模糊”或“不合格”,大多數(shù)研究只將受試者對條目的理解性、全面性及相關性進行粗略描述,研究過程不清晰,缺少規(guī)范嚴謹?shù)臉藴食绦?;?)對量表跨文化效度研究不足,例如本研究納入的5篇中文文獻均未對跨文化效度進行評價。FCR作為患者的主觀情緒,進行跨文化效度檢驗十分必要。這提示未來在開發(fā)或漢化量表過程中,應按照科學的指南,嚴格規(guī)范開發(fā)驗證程序。根據(jù)COSMIN具體要求,規(guī)避量表開發(fā)構建、引進時的各種問題,以期為臨床研究開發(fā)出科學嚴謹及更高質量的評估工具。
本研究基于COSMIN,對FCR評估工具的測量學屬性進行了系統(tǒng)評價,研究表明目前相關研究的方法學質量參差不齊,測量學屬性結果報道尚不全面。除ASC量表為C級以外,其余量表均為B級推薦,本研究在綜合考慮,權衡各方面后認為FCRI量表可做臨時推薦,F(xiàn)CRI從多個維度全面綜合評估FCR,可幫助醫(yī)護人員找出患者FCR的原因,采取有針對性的干預措施,以提高患者的生活質量和心理健康。未來建議嚴格參考COMSIN進一步驗證現(xiàn)有評估工具,以支撐本研究結論;或開發(fā)質量較好的新工具為我國癌癥患者復發(fā)恐懼的評估及研究提供更科學可靠的工具支持。本研究也存在一定的局限性:僅納入中英文文獻,部分工具測量屬性研究單一,可能會對結論的可靠性產生一定影響。
作者貢獻:張露露負責文章的構思與結構設計、數(shù)據(jù)整理、論文撰寫以及論文修訂;張露露、陳歡、羅歡、陳婷婷、陳昕羽負責文獻/資料收集及整理,數(shù)據(jù)提取等;高靜負責文章的質量控制及審校;張露露、高靜對文章整體負責,監(jiān)督管理;所有作者確認了論文的最終稿。
本文無利益沖突。