陳光華 陶冠澎 翟璐煜 白學(xué)軍
·元分析(Meta-Analysis)·
自閉癥譜系障礙的早期篩查工具*
陳光華1陶冠澎1翟璐煜1白學(xué)軍2
(1沈陽(yáng)師范大學(xué)學(xué)前與初等教育學(xué)院, 沈陽(yáng) 110034) (2天津師范大學(xué)心理與行為研究院, 天津 300074)
基于35項(xiàng)實(shí)證研究, 遵循診斷準(zhǔn)確性研究的質(zhì)量評(píng)估(QUADAS-2)的循證程序?qū)ψ蚤]癥譜系早期預(yù)警特征篩查工具開(kāi)展質(zhì)量評(píng)估, 包括嬰兒階段(10個(gè)篩查工具, 159388人)、幼兒階段(14項(xiàng)篩查工具, 11712人), 旨在為自閉癥譜系風(fēng)險(xiǎn)的早期識(shí)別提供全面的理解。結(jié)果表明:幼兒階段的篩查工具的分類準(zhǔn)確性要高于嬰兒階段, 在嬰兒階段達(dá)到良好水平的篩查工具有M-CHAT-R/F、PDQ-1; 在幼兒階段達(dá)到優(yōu)秀水平的篩查工具有OERA、TIDOS。其中, “改良的幼兒自閉癥檢查表?有修訂的后續(xù)隨訪” (M-CHAT-R/F)是目前最具潛力的自閉癥譜系風(fēng)險(xiǎn)篩查工具之一。最后, 我們探討了應(yīng)用QUADAS-2評(píng)估研究質(zhì)量的局限性, 強(qiáng)調(diào)需要規(guī)范工具的質(zhì)量評(píng)估標(biāo)準(zhǔn)與進(jìn)一步驗(yàn)證研究的必要性。
自閉癥, 篩查工具, 診斷敏感性和特異性, QUADAS-2
篩查(screening)或篩查評(píng)估是“一種相對(duì)簡(jiǎn)短的評(píng)估, 旨在確定有可能患上某些疾病或殘疾的兒童、有資格參加某些項(xiàng)目的兒童、有需要補(bǔ)救的疾病或殘疾的兒童或需要更全面評(píng)估的兒童” (Sattler, 2008)。檢視以往的中文文獻(xiàn), 我們發(fā)現(xiàn), 關(guān)于自閉癥譜系早期篩查的研究有兩方面的誤區(qū), 第一個(gè)誤區(qū)表現(xiàn)在對(duì)于“篩查”的概念和操作規(guī)范的認(rèn)知不足, 常將之與“診斷”和“評(píng)估”放在一起(張福娟, 賀莉, 2001), 沒(méi)有明確區(qū)分“篩查”作為一個(gè)獨(dú)立而重要的階段來(lái)開(kāi)展廣泛深入性的研究。首先, 我們根據(jù)《特殊教育辭典》的概念界定(樸永馨, 2014)來(lái)說(shuō)明三者的區(qū)別?!昂Y查(screening)”是在大量?jī)和邪l(fā)現(xiàn)特殊兒童(主要是殘疾兒童)的一種檢測(cè)活動(dòng)?!霸\斷(diagnosis) ”是對(duì)篩查出的特殊兒童或懷疑為特殊的兒童進(jìn)一步做全面細(xì)致的專業(yè)檢查?!拌b定(assessment) ”又譯為“評(píng)估”、“評(píng)定”, 是由相應(yīng)的機(jī)構(gòu)或?qū)I(yè)人員用一定的方法對(duì)疑似特殊兒童進(jìn)行各種必要檢查并做出結(jié)論的過(guò)程。其次, 從操作流程上, 篩查發(fā)生在正規(guī)診斷之前, 篩查前的轉(zhuǎn)介可能來(lái)自產(chǎn)前檢查、新生兒篩選、兒童保健門(mén)診、社區(qū)護(hù)士、醫(yī)院門(mén)診、公立或民辦幼兒園、學(xué)前教育機(jī)構(gòu)或托兒所、兒童福利機(jī)構(gòu)及托育中心、家長(zhǎng)或監(jiān)護(hù)人、保姆等多元化的通報(bào)(何華國(guó), 2006), 篩查是為了判斷某兒童是或不是某類特殊需要兒童(王輝, 2015), 雖然自閉癥篩查的結(jié)論只能是該兒童不是自閉癥或者可能是自閉癥, 但可以有效地提高之后自閉癥診斷的準(zhǔn)確性和可靠性。正規(guī)診斷是由受過(guò)訓(xùn)練取得合格證書(shū)的專業(yè)人員進(jìn)行, 使用的測(cè)查工具更復(fù)雜, 操作程序更嚴(yán)格和標(biāo)準(zhǔn)化。診斷結(jié)果應(yīng)有書(shū)面結(jié)論, 包括特殊兒童的類型、性質(zhì)、程度、診斷時(shí)間、地點(diǎn)、測(cè)查人員簽名和測(cè)查單位蓋章。而評(píng)估是一個(gè)多層面的過(guò)程, 這個(gè)術(shù)語(yǔ)在特殊教育領(lǐng)域中應(yīng)用更為寬泛, 特殊兒童的評(píng)估一般由特殊教育學(xué)、特殊心理學(xué)、有關(guān)醫(yī)學(xué)等方面專家和教育行政部門(mén)代表、教師以及家長(zhǎng)共同參加。評(píng)估過(guò)程通常包含如下目的:篩選、診斷與安置、幫助制定個(gè)別教育計(jì)劃, 幫助確定學(xué)生的進(jìn)步情況并判斷有關(guān)教育干預(yù)措施的有效性(方俊明, 2005)。
另一個(gè)誤區(qū)是, 對(duì)篩查工具開(kāi)發(fā)和使用目的的理解不到位。例如, 有一部分研究者混淆了“篩查工具”和“診斷工具”的界限, 將金標(biāo)準(zhǔn)意義的ADI-R和ADOS這兩項(xiàng)“臨床診斷工具”簡(jiǎn)單地等同于“篩查工具” (張永盛, 呂超, 2013; 馮雅靜, 王雁, 2012)。篩查工具使用的重點(diǎn)在于其“簡(jiǎn)短”、“經(jīng)濟(jì)”、“快捷”、“準(zhǔn)確”地早期識(shí)別目的和功能, 而不能被看作是ASD的診斷工具, 因?yàn)檎?guī)的診斷必須嚴(yán)格遵循DSM或ICD的診斷標(biāo)準(zhǔn), 只有執(zhí)業(yè)醫(yī)師在必要的臨床環(huán)境中, 借助“ADI-R”和“ADOS”的臨床診斷工具的同時(shí), 還要進(jìn)行大量的身體和行為測(cè)試, 才有資格對(duì)自閉癥做出正規(guī)診斷。經(jīng)過(guò)正規(guī)診斷的孩子才有資格獲得政府和保險(xiǎn)機(jī)構(gòu)的支持和資源, 進(jìn)而安排早期干預(yù)治療和教育安置工作。在這個(gè)角度來(lái)看, ASD的診斷是非常復(fù)雜、主觀、耗時(shí)且昂貴的, 但最為關(guān)鍵的是, 篩查過(guò)程需要由后續(xù)的診斷結(jié)果來(lái)評(píng)判篩查工具的準(zhǔn)確性, 正如許多研究者所建議的(Falkmer et al., 2013; Volkmar et al., 2014), “早期篩查的過(guò)程應(yīng)該包括早期篩查預(yù)警信號(hào)和通過(guò)臨床判斷做出的后續(xù)診斷, 并結(jié)合應(yīng)用可靠和標(biāo)準(zhǔn)化的金標(biāo)準(zhǔn)測(cè)量, 例如, ADI-R; ADOS-2”。因此, 診斷工具與篩查工具不能相互替代。另外, 還有部分研究者將“篩查工具”等同于“評(píng)估工具” (王輝等, 2009)、“測(cè)評(píng)工具” (周念麗, 方俊明, 2008), 首先, 這一誤解在于忽視了篩查工具在臨床診斷和教育評(píng)估中的重要意義。它不僅可以幫助家長(zhǎng)和從業(yè)者盡早識(shí)別自閉癥風(fēng)險(xiǎn)行為, 加快臨床診斷轉(zhuǎn)診流程, 而且有助于提高不同利益相關(guān)者(父母、照顧者、教師和家庭成員等)對(duì)自閉癥的理解, 改善公眾對(duì)自閉癥的認(rèn)知。其次, 這一誤解在于沒(méi)有辨識(shí)到早發(fā)現(xiàn)與早診斷之間的漸近性, 這對(duì)于避免診斷延遲, 盡早干預(yù)至關(guān)重要。美國(guó)父母通常會(huì)在24個(gè)月前發(fā)現(xiàn)并表示孩子可能患有自閉癥的擔(dān)憂(CDC, 2012), 中國(guó)家長(zhǎng)注意到癥狀并尋求診斷的時(shí)間平均在35個(gè)月(Zhou et al., 2014),然而, 只有4歲甚至8歲以后才能確診(CDC, 2014), 在有色人種兒童和農(nóng)村及低收入家庭兒童的診斷年齡甚至更晚(Mandell et al., 2010)。為了擺脫診斷延遲的困境, 保健工作者和其他專業(yè)相關(guān)人員重點(diǎn)關(guān)注了定期使用發(fā)育篩查的效果, 而且有增加的證據(jù)表明, 篩查的確會(huì)降低診斷年齡。如Carbone等人(2020)發(fā)現(xiàn), 早期篩查陽(yáng)性的兒童被診斷ASD的時(shí)間要比篩查陰性的兒童早12個(gè)月, 比未參加篩查的兒童早10個(gè)月。因此, 開(kāi)展自閉癥譜系早期篩查目的在于盡早發(fā)現(xiàn)疑似自閉癥譜系癥狀的嬰幼兒, 通過(guò)接受基本的測(cè)試, 以確定其是否需要進(jìn)一步的診斷評(píng)估和早期干預(yù)。通過(guò)這一系列漸進(jìn)性的早識(shí)別, 早診斷, 早干預(yù)過(guò)程不僅可以增強(qiáng)自閉癥譜系障礙兒童的適應(yīng)能力(Dawson et al., 2010), 提高他們的社交能力(Leo et al., 2019), 預(yù)防繼發(fā)性發(fā)育障礙(Reichow et al, 2012), 更有助于減輕家庭的壓力(Renty & Roeyers, 2006)和降低社會(huì)成本(Lecciso et al., 2013)。
由于2013年美國(guó)精神病學(xué)會(huì)修訂了《精神障礙診斷及統(tǒng)計(jì)手冊(cè)》第五版(the Diagnostic and Statistical Manual of Mental Disorders-5th Edition, DSM-5), 并采用單一分類概念來(lái)定義自閉癥譜系障礙, 這一自閉癥臨床診斷標(biāo)準(zhǔn)上的巨大變化不僅對(duì)自閉癥的發(fā)病率、診斷、治療及預(yù)后其他相關(guān)領(lǐng)域產(chǎn)生深遠(yuǎn)影響(陳文雄, 2013), 更對(duì)確定ASD篩查行為特征提出了極大的挑戰(zhàn)。因此, 對(duì)現(xiàn)有的自閉癥風(fēng)險(xiǎn)篩查工具進(jìn)行質(zhì)量分析顯得十分重要和必要。
在過(guò)去的十幾年里, 已經(jīng)有19篇英文文獻(xiàn)綜述對(duì)早期發(fā)現(xiàn)自閉癥風(fēng)險(xiǎn)的篩查工具的評(píng)估標(biāo)準(zhǔn)進(jìn)行了深入分析, 我們將這些綜述文獻(xiàn)的優(yōu)勢(shì)和不足歸納為五大方面。在文獻(xiàn)檢索的全面性上, 部分綜述的結(jié)論僅搜索了1~3個(gè)數(shù)據(jù)庫(kù), 甚至是完全基于經(jīng)驗(yàn)性分析的(Charman & Gotham, 2013; Thabtah & Peebles, 2019); 在研究的地域分布上, 19篇綜述側(cè)重于歐洲或美國(guó)等特定地理區(qū)域(García-Primo et al., 2014; Levy et al., 2020), 來(lái)自亞非拉國(guó)家的研究相對(duì)少見(jiàn)(Soleimani et al., 2014); 在專業(yè)范疇上, 則集中于醫(yī)學(xué)和兒科學(xué)研究(Wang et al., 2020; Zwaigenbaum et al, 2015)及公共衛(wèi)生領(lǐng)域(Stewart & Lee, 2017), 基于心理學(xué)和腦神經(jīng)科學(xué)的專業(yè)指向較少涉及(Marlow et al., 2019)。在篩查工具從開(kāi)發(fā)到實(shí)施所涉及的重要指標(biāo)上, 除了如上談到的篩查工具要符合DSM-5的規(guī)范外, 還有很多評(píng)估指標(biāo), 如篩查樣本的類型或應(yīng)用水平(一級(jí)篩查或是二級(jí)篩查)、篩查信息來(lái)源(父母或看護(hù)者的報(bào)告, 或是觀察孩子的現(xiàn)場(chǎng)(錄像)互動(dòng))、抽樣兒童的年齡和發(fā)育水平、篩查的實(shí)用性(如管理時(shí)間、工具的管理和評(píng)分、篩查人員的培訓(xùn)、轉(zhuǎn)診和隨訪結(jié)果管理等)、區(qū)分其他障礙的測(cè)量學(xué)特性(如敏感性和特異性、可鑒別性指標(biāo)等)、心理測(cè)量學(xué)特性(重測(cè)信度和評(píng)分者信度、效度等)、文化適應(yīng)性、目標(biāo)受眾的可理解性和歡迎程度、網(wǎng)絡(luò)和移動(dòng)設(shè)備的可訪問(wèn)性等10余項(xiàng), 但大多數(shù)綜述只選擇了2~3個(gè)指標(biāo), 開(kāi)展全部指標(biāo)的評(píng)估較為困難。最后, 在綜述分析所采用的研究方法上, 除Hampton和Strand (2015)、Sánchez-García等(2019)、Yuen等(2018)等三個(gè)研究小組采用元分析的方法或應(yīng)用貝葉斯層次模型來(lái)評(píng)估與準(zhǔn)確性、心理測(cè)量學(xué)特性相關(guān)的結(jié)果外, 大多數(shù)綜述沒(méi)有全面分析篩查工具的心理測(cè)量學(xué)和測(cè)量學(xué)特性。
對(duì)自閉癥風(fēng)險(xiǎn)信號(hào)的早期篩查是一項(xiàng)極為艱巨的任務(wù), 來(lái)自不同學(xué)科背景(如遺傳學(xué)、神經(jīng)科學(xué)、精神病學(xué)、心理學(xué)、病毒學(xué))的自閉癥研究人員的共同目標(biāo)在于確定能夠在嬰兒期和幼兒期可靠檢測(cè)到的行為標(biāo)志物, 并將其納入篩查測(cè)量中, 但是不同的衡量標(biāo)準(zhǔn)對(duì)篩查工具的質(zhì)量評(píng)價(jià)有不同的界定, 不同篩查工具在目標(biāo)行為的操作性和獲取信息的方式上也有所不同。雖然以往的綜述為我們理解篩查工具的功能和內(nèi)容評(píng)價(jià)提供了良好的基礎(chǔ), 但也顯露出其在質(zhì)量評(píng)價(jià)完整性上的不足。本研究對(duì)發(fā)表于2013~2020年間的適合學(xué)前階段兒童自閉癥譜系篩查工具進(jìn)行了批判性評(píng)估, 以識(shí)別其優(yōu)點(diǎn)、性能問(wèn)題和缺點(diǎn)。具體的研究問(wèn)題包括:(1)從應(yīng)用水平、心理測(cè)量學(xué)特性、文化適應(yīng)性、符合診斷標(biāo)準(zhǔn)等多指標(biāo)切入, 詳細(xì)地介紹了這些自閉癥譜系篩查工具的特征表現(xiàn); (2)通過(guò)綜合比較嬰兒和幼兒年齡階段篩查工具在敏感性和特異性數(shù)據(jù), 探討是否有一個(gè)(或多個(gè))有希望用于早期篩查自閉癥風(fēng)險(xiǎn)的工具?
采用基于系統(tǒng)評(píng)價(jià)和元分析(PRISMA)指南來(lái)確定需要納入研究的論文構(gòu)成(Moher et al., 2009; Siddaway et al, 2019), 應(yīng)用的英文主題詞是: ‘ASD screen*’, ‘ASD detect*’, ‘ASD or autism or autist*’, ‘screening tool’, ‘Early identification’, ‘a(chǎn)ssessment tool’, ‘a(chǎn)ssess*’, ‘instrument*’, ‘measure*’, ‘tool*’, 以“2013年1月~2020年12月之內(nèi)”和“English英語(yǔ)”作為高級(jí)過(guò)濾詞。分別從3個(gè)綜合性文摘檢索數(shù)據(jù)庫(kù)(WOS、SCOPUS、PubMed等)檢索到相應(yīng)文獻(xiàn), 通過(guò)鏈接進(jìn)入APA/EBSCO、ScienceDirect、Sage、Springlink、Wiley Online Library電子期刊數(shù)據(jù)庫(kù), 獲取5535篇文獻(xiàn), 如圖1所示。電子搜索是由第二和第三作者進(jìn)行的, 他們提取了這些文獻(xiàn)記錄, 并將參考資料制成表格, 放在excel文件中。第一作者依據(jù)長(zhǎng)期從事自閉癥認(rèn)知研究和教學(xué)實(shí)踐經(jīng)驗(yàn), 預(yù)先制定了文獻(xiàn)納入/排除標(biāo)準(zhǔn), 所有作者共同仔細(xì)閱讀這些引文的標(biāo)題和摘要后, 刪除重復(fù)、不合格論文, 獲取初篩后文獻(xiàn)159篇。此外, 從已經(jīng)發(fā)表的“自閉癥譜系篩查”綜論文章的參考文獻(xiàn)和引文中進(jìn)行二次手工搜索, 也對(duì)同一主題的其他評(píng)論進(jìn)行了檢查, 提取符合我們研究的原創(chuàng)性研究文獻(xiàn)16篇, 共計(jì)納入質(zhì)量評(píng)估的文獻(xiàn)175篇。之后, 根據(jù)納入/排除標(biāo)準(zhǔn), 刪除文獻(xiàn)120篇, 根據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)的偏倚風(fēng)險(xiǎn)的高低, 刪除高風(fēng)險(xiǎn)文獻(xiàn)20篇, 最后納入全文定性綜合分析的文獻(xiàn)35篇。
圖1 納入ASD篩查工具綜述的PRISMA流程圖
同時(shí), 我們也應(yīng)用中文主題詞: ‘自閉癥譜系篩查’, ‘篩查and/or篩選’, ‘篩查工具and/or篩選工具’, ‘自閉癥and/or孤獨(dú)癥’等, 獲取中文文章37篇。但是, 根據(jù)文獻(xiàn)納入標(biāo)準(zhǔn), 排除23篇文章: (1)綜述性文獻(xiàn)(= 2); (2)年齡范圍(0~6歲)以外的樣本群體(= 4); (3) 不是以篩查為目的研究(= 17), 如, 干預(yù)效果的說(shuō)明, 測(cè)量工具信度效度的比較, 篩查模式和管理的評(píng)價(jià), 對(duì)比其他發(fā)育障礙的流行病學(xué)等; 根據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)的偏倚風(fēng)險(xiǎn)的高低, 排除偏倚風(fēng)險(xiǎn)較高風(fēng)險(xiǎn)14篇文章。這些中文文章的偏倚風(fēng)險(xiǎn)主要體現(xiàn)在診斷標(biāo)準(zhǔn)和文化適應(yīng)性上, 如在篩查的結(jié)果需要有明確的ASD診斷上, 雖然基本符合了“基于國(guó)際疾病分類(ICD)和/或美國(guó)精神障礙診斷和統(tǒng)計(jì)手冊(cè)(DSM)的框架”, 但在專家臨床判斷上, 沒(méi)有研究應(yīng)用了可靠和標(biāo)準(zhǔn)化的金標(biāo)準(zhǔn)測(cè)量, ADI-R或ADOS-2; 也沒(méi)有關(guān)于評(píng)估員或診斷者的資格或培訓(xùn)信息的報(bào)告, 如陳述為“以臨床醫(yī)生根據(jù) DSM-Ⅳ作出的臨床診斷作為金標(biāo)準(zhǔn)” (龔郁杏等, 2015); 同時(shí), 大部分研究因未提供足夠的分類準(zhǔn)確性數(shù)據(jù)(駱名進(jìn)等, 2020), 無(wú)法確定用于識(shí)別自閉癥兒童的篩查工具的有效性。其次, 在文化適應(yīng)和管理上, 雖然少部分研究報(bào)告了翻譯、回譯的文化適應(yīng)性調(diào)整, 但對(duì)量表項(xiàng)目數(shù)量的改變和臨界取值的改變, 造成對(duì)這些工具的使用和分析更加復(fù)雜, 使用不同的版本或評(píng)分算法也導(dǎo)致我們無(wú)法標(biāo)準(zhǔn)化地提取相應(yīng)數(shù)據(jù), 如關(guān)智勇等(2016)年采用CAST中文修訂版(37項(xiàng))發(fā)現(xiàn), 對(duì)3~<4歲兒童孤獨(dú)癥CAST臨界值以17分為宜, 而由英國(guó)劍橋大學(xué)Baron Cohen團(tuán)隊(duì)開(kāi)發(fā)研制的原版CAST (Childrenhood Autism Spectrum Test)建議將臨界值設(shè)為15分(Scott et al., 2002), 而許丹等(2013)的CAST中文修訂版項(xiàng)目數(shù)量是25項(xiàng), 少于英文原文37項(xiàng), 但結(jié)果建議將16分作為CAST中文版的臨界值。由此, 我們認(rèn)為, 可以考慮單獨(dú)設(shè)計(jì)基于中文相關(guān)研究成果的質(zhì)量分析標(biāo)準(zhǔn), 開(kāi)展專項(xiàng)研究, 不適合納入本文并與英文同類文獻(xiàn)和工具進(jìn)行橫向比較。因此, 在本綜述中, 并沒(méi)有開(kāi)展基于中文篩查工具的深度分析。
正式確定的納入標(biāo)準(zhǔn)包括: (1)在第一次電子搜索中確定的“自閉癥譜系障礙篩查工具”是重點(diǎn); (2)研究發(fā)表為“全文原創(chuàng)文章” (3)在同行評(píng)審期刊上發(fā)表的論文; (4)研究樣本重疊的年齡范圍為0~6歲; (5)研究樣本是被監(jiān)測(cè)ASD癥狀的個(gè)體, 即使他們有另一個(gè)主要診斷(例如, 如果探索篩查工具的測(cè)量特性, 監(jiān)測(cè)“脆性X人群”表現(xiàn)出ASD癥狀的論文也是合格的); (6)研究目的是開(kāi)發(fā)一種測(cè)量工具或評(píng)估其一種或多種測(cè)量特性的論文, 研究結(jié)果強(qiáng)調(diào)使用篩查工具評(píng)估ASD的準(zhǔn)確度相關(guān), 則將其納入; (7)樣本量大于等于30人。
排除標(biāo)準(zhǔn)包括: (1)只以“診斷”為目的研究的文章、對(duì)行為改變、進(jìn)展或干預(yù)反應(yīng)效果進(jìn)行測(cè)量的文章(= 24); (2)以區(qū)分發(fā)育障礙或其他類型障礙(如智力障礙或ADHD等), 而不是篩查ASD為目的的研究(= 23); (3)針對(duì)ASD的流行病學(xué)研究和專家指南, 生物標(biāo)志物、功能磁共振成像、血液檢測(cè)、基因表達(dá)譜、共病、工具的機(jī)器學(xué)習(xí)算法等非本研究能力所及的檢測(cè)程序(= 27); (4)綜述, 文摘, 報(bào)道, 會(huì)議論文等回顧性研究, 非原創(chuàng)性研究文獻(xiàn)(= 21); (5)年齡范圍(0~6歲)以外的樣本群體, 無(wú)法區(qū)分年齡階段的(= 20); (6)非英文(= 2); (7)無(wú)法獲取全文(= 3)。
QUADAS-2 (Quality Assessment of Diagnostic Accuracy Studies-2, 診斷準(zhǔn)確性研究的質(zhì)量評(píng)估-2)是廣泛用于行為、醫(yī)學(xué)領(lǐng)域(McDonald et al., 2015; Stout et al., 2015), 針對(duì)診斷和篩查測(cè)量文獻(xiàn)開(kāi)展質(zhì)量評(píng)價(jià)的工具(Whiting et al., 2011), 包括診斷準(zhǔn)確性研究中觀察到的最重要的偏差和變異來(lái)源。在本研究中, 遵循QUADAS-2的循證程序, 完成175篇英文文獻(xiàn)的質(zhì)量標(biāo)準(zhǔn)評(píng)估。首先, 對(duì)給定的關(guān)于篩查工具的調(diào)查問(wèn)題進(jìn)行了調(diào)整: (1)將被試樣本量、符合參考標(biāo)準(zhǔn)(診斷金標(biāo)準(zhǔn))、流程和時(shí)間、心理測(cè)量學(xué)指標(biāo)(信度和效度)和分類準(zhǔn)確性指標(biāo)(敏感性和特異性等)作為偏倚風(fēng)險(xiǎn)維度審查維度; (2)為每個(gè)領(lǐng)域開(kāi)發(fā)了探究性問(wèn)題, 并分配了是/否評(píng)分。第二, 對(duì)問(wèn)題的實(shí)用性進(jìn)行實(shí)地測(cè)試, 即由三位作者從175篇文章中隨機(jī)選定3篇, 背對(duì)背仔細(xì)閱讀全文, 并將探究性問(wèn)題應(yīng)用于每個(gè)研究, 在不同的excel文件中報(bào)告了他們的決定, 并對(duì)他們的發(fā)現(xiàn)進(jìn)行了逐條記錄的比較。如有異議, 由第三提交人仲裁, 最后統(tǒng)一大家的共識(shí)。
我們使用QUADAS-2質(zhì)量評(píng)估研究工具和評(píng)分者信度系數(shù)來(lái)檢驗(yàn)納入研究總體質(zhì)量分?jǐn)?shù)和評(píng)分者之間的一致性, 并通過(guò)討論解決任何項(xiàng)目差異。由第一作者另外培訓(xùn)兩名不了解研究目的的研究生作為獨(dú)立評(píng)分者, 幫助每名評(píng)分者準(zhǔn)確了解QUADAS-2所涉及審查維度的定義, 明確對(duì)應(yīng)探究性問(wèn)題的范圍, 能準(zhǔn)確掌握評(píng)分的技巧和方法, 與前三位作者共同完成175篇文章的全文質(zhì)量評(píng)估。根據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)的偏倚風(fēng)險(xiǎn)維度: 被試樣本量、診斷標(biāo)準(zhǔn)、分類準(zhǔn)確性、心理測(cè)量指標(biāo), 刪除高風(fēng)險(xiǎn)文獻(xiàn)20篇。最后, 隨機(jī)選擇175篇文獻(xiàn)中的50篇, 采用徐建平和張厚粲(2005)提出的“歸類一致性公式”計(jì)算出評(píng)分者信度在0.64~0.94之間, 總的歸類一致性為0.75; 編碼信度系數(shù)值在0.78~0.97之間, 總體編碼信度系數(shù)為0.86, 這表明了本次質(zhì)量評(píng)估的評(píng)分者信度具有公平到良好的一致性水平。
為了全面清晰地掌握學(xué)前兒童自閉癥風(fēng)險(xiǎn)篩查工具的基本特性, 我們分別報(bào)告了篩查工具的名稱、作者國(guó)別和研究年份、樣本特征、應(yīng)用水平、心理測(cè)量學(xué)特性、文化適應(yīng)性和診斷標(biāo)準(zhǔn)、篩查分類的準(zhǔn)確性等情況。
我們從質(zhì)量評(píng)估后的35篇文獻(xiàn)中提取出篩查工具18項(xiàng), 表1和表2分別報(bào)告了每項(xiàng)篩查工具的基本內(nèi)容和發(fā)表文獻(xiàn)的一般細(xì)節(jié)。在2013年~ 2020年的7年間, 文獻(xiàn)發(fā)表時(shí)間在2019年最多, 9篇, 其次是2014年6篇, 2018年5篇, 平均每年發(fā)表文獻(xiàn)數(shù)量是4篇。在地點(diǎn)上, 大多數(shù)研究(= 16)是在美洲進(jìn)行的, 12項(xiàng)在美國(guó)。來(lái)自亞洲國(guó)家的研究有12項(xiàng), 5項(xiàng)在中國(guó), 歐洲的研究有7項(xiàng), 意大利有2項(xiàng)。按照篩查兒童樣本的年齡范圍劃分為兩個(gè)年齡階段, 有21項(xiàng)研究中使用了10項(xiàng)篩查工具探討了0~3歲嬰兒的自閉癥風(fēng)險(xiǎn), 樣本平均數(shù)量4047人, 性別比例男童大于女童(3101:19371作者注:4項(xiàng)研究性別有缺失值, 因此, 男童與女童合計(jì)平均值與總樣本平均值相差13人, 詳見(jiàn)表3。); 樣本取樣的平均年齡范圍在15.62~ 26.94個(gè)月(= 20.62)2作者注:在嬰兒階段, 平均抽樣年齡的最小值是16個(gè)月, 只有2項(xiàng)研究的實(shí)際抽樣年齡在16個(gè)月前(Sacrey et al, 2018; Turner-Brown et al, 2013), 但這2個(gè)研究在篩查工具和取樣年齡均不相同, 因此, 無(wú)法詳細(xì)介紹指向16個(gè)月前篩查工具。; 在3~6歲的幼兒階段, 有18項(xiàng)研究使用了14項(xiàng)工具3作者注:有4篇文獻(xiàn)采用的是縱向追蹤設(shè)計(jì)M-CHAT (Toh et al, 2018; Koh et al, 2014)、M-CHAT-R/F (Magán-Maganto et al, 2020)、BISCUIT-Part 1 (Horovitz & Matson, 2014 )同時(shí)測(cè)量了嬰兒和幼兒兩組, 所以同時(shí)出現(xiàn)在表3和表4中。分析了自閉癥風(fēng)險(xiǎn)特征, 參與兒童的平均數(shù)量是606人, 性別比例男童大于女童(371:235); 樣本的平均年齡范圍在22.36~51.97個(gè)月(= 37.26), 見(jiàn)表3、表4。
3.2.1 篩查工具在應(yīng)用水平上的表現(xiàn)
自20世紀(jì)90年代末開(kāi)始專門(mén)針對(duì)自閉癥進(jìn)行篩查工具的研制, 主要是根據(jù)篩查樣本的類型劃分為一級(jí)和二級(jí)篩查兩種應(yīng)用水平。一級(jí)篩查(Level I)適用于未經(jīng)選擇的一般人群兒童, 無(wú)論其風(fēng)險(xiǎn)狀況如何。二級(jí)篩查(Level II)針對(duì)的是已經(jīng)被確定為發(fā)育障礙兒童的篩查(例如, 有自閉癥譜系家族史、父母或臨床醫(yī)生提出了擔(dān)憂、經(jīng)過(guò)一級(jí)篩查鑒定為陽(yáng)性者)。但我們?cè)谑崂砦墨I(xiàn)的過(guò)程中發(fā)現(xiàn), 實(shí)踐中對(duì)測(cè)量工具的應(yīng)用水平并沒(méi)有那么明晰的區(qū)分界限, 借鑒Robins和Dumont-Mathieu (2006)將M-CHAT作為同時(shí)應(yīng)用于一級(jí)和二級(jí)篩查的介紹, 我們?cè)黾恿恕盎旌?hybrid)”工具的應(yīng)用水平, 即指那些同時(shí)應(yīng)用于一般人群(一級(jí)篩查)和臨床樣本(二級(jí)篩查)的篩查工具, 詳見(jiàn)表2。
在本研究中, 我們發(fā)現(xiàn)了4個(gè)一級(jí)篩查工具, 即: 改良的幼兒自閉癥檢查表(M-CHAT); 第一年調(diào)查(FYI); 心理發(fā)展問(wèn)卷-1 (PDQ-1); 自閉癥譜系評(píng)定量表中文修訂版(RC_ASRS)。這些一級(jí)篩查的工具主要是對(duì)一般人群的廣泛篩查和其他發(fā)育障礙的檢查, 主要是基于父母報(bào)告的結(jié)果。但是, 由于一級(jí)篩查的陽(yáng)性結(jié)果有可能導(dǎo)致ASD評(píng)估的過(guò)度參考、治療的延遲、父母焦慮的增加以及稀缺資源的負(fù)擔(dān), 因此, 要對(duì)于篩查結(jié)果為陽(yáng)性的樣本推薦進(jìn)入二級(jí)篩查, 旨在排除有其他類型發(fā)育障礙, 確認(rèn)尚未做出鑒別診斷的兒童中的自閉癥風(fēng)險(xiǎn)。本研究中有8個(gè)二級(jí)篩查工具, 包括:兩歲兒童自閉癥篩查測(cè)驗(yàn)(STAT)、嬰兒自閉癥父母篩查(APSI)、嬰幼兒自閉癥篩查第1部分(BISCUIT-Part1)、兒童早期自閉癥檢測(cè)(ADEC)、自閉癥心理狀態(tài)檢查(AMSE)、自閉癥追蹤的結(jié)構(gòu)化觀察(OERA)、幼兒自閉癥快速互動(dòng)篩查測(cè)試(RITA-T)、發(fā)展性登記(DCI)。二級(jí)篩查主要依據(jù)訓(xùn)練有素的臨床醫(yī)生, 或是經(jīng)過(guò)培訓(xùn)的專業(yè)人員直接與兒童互動(dòng)并觀察結(jié)果(Norris & Lecavalier, 2010)。與一級(jí)篩查不同的是, 二級(jí)篩查的對(duì)照組兒童可區(qū)分為兩組不同的情況。第一組包括由于發(fā)育問(wèn)題已經(jīng)受到當(dāng)?shù)鼐裥l(wèi)生服務(wù)機(jī)構(gòu)關(guān)注的兒童、懷疑發(fā)育遲緩(DD)、語(yǔ)言障礙(LD)的兒童, 或符合非自閉癥譜系(non-ASD)標(biāo)準(zhǔn)的兒童, 如腦癱、癲癇、唐氏綜合征、失明、哮喘、過(guò)敏的兒童, 這一群體被確定為發(fā)展關(guān)注組(DC), 也稱為低危組(LR)。第二組包括患有自閉癥兒童的兄弟姐妹, 或被一級(jí)篩查為自閉癥陽(yáng)性的兒童作為對(duì)照組, 被定義為遺傳風(fēng)險(xiǎn)組(GR), 因?yàn)樗麄兓甲蚤]癥的概率很高(Gr?nborgetal et al., 2013), 也稱為高危組(HR)。納入二級(jí)篩查的研究旨在: (a)通過(guò)LR或HR組來(lái)評(píng)價(jià)篩查工具的分類準(zhǔn)確性; (b)比較LR和HR組之間的差異; (c)跟蹤LR/HR組直到確診, 通過(guò)減少假陽(yáng)性的數(shù)量來(lái)減少專門(mén)ASD診斷評(píng)估的長(zhǎng)等待名單; 或者, 最后, (d)將普通人群中的兒童與LR或HR組進(jìn)行比較。
表2 18項(xiàng)自閉癥風(fēng)險(xiǎn)篩查工具在應(yīng)用水平、心理測(cè)量、文化適應(yīng)性和診斷標(biāo)準(zhǔn)方面的特征
續(xù)表
續(xù)表
注:–指該項(xiàng)研究不需要進(jìn)行文化適應(yīng)性檢驗(yàn), √指滿足標(biāo)題中的1項(xiàng)指標(biāo), NR = Not Report沒(méi)有報(bào)告
根據(jù)研究所選用樣本的類型, 本研究確定了6項(xiàng)“混合”應(yīng)用的測(cè)量工具, 即:改良的幼兒自閉癥檢查表?有后續(xù)隨訪(M-CHAT/F); 改良的幼兒自閉癥檢查表?有修訂的后續(xù)隨訪(M-CHAT-R/F); 幼兒自閉癥定量檢查表(Q-CHAT); 兒童行為檢查表學(xué)前兒童版(CBCL/1?-5); 三項(xiàng)直接觀察的自閉癥篩查(TIDOS); 自閉癥圖片評(píng)估清單(PAAS)。這些混合水平的篩查旨在檢驗(yàn): (a)將一般人群篩查工具應(yīng)用于臨床樣本的適當(dāng)性, (b)比較不同來(lái)源樣本在篩查工具上的差異(ASD與ATD與ODD), 最后, (c)比較一般人群中的兒童(TD)與ASD診斷兒童的差異。
3.2.2 篩查工具在心理測(cè)量特性上的表現(xiàn)
根據(jù)Cicchetti (1994)的指南, 分析了篩查工具的內(nèi)部一致性、穩(wěn)定性、評(píng)分者間信度和重測(cè)信度。他們指出, 低于克倫巴赫α系數(shù)0.70意味著臨床意義的水平是不可接受的, 0.70到0.79表示臨床意義水平為一般, 0.80到0.89良好, 高于0.90表示臨床意義水平為極好。Cohen的kappa、加權(quán)kappa和類內(nèi)相關(guān)(ICC)被用來(lái)衡量評(píng)分者之間的一致性和重測(cè)信度。Person的積矩相關(guān)()測(cè)量了獨(dú)立評(píng)分者在測(cè)試分?jǐn)?shù)排序上的相似性, 它也被用來(lái)測(cè)量一些研究的可靠性。Kappa或ICC統(tǒng)計(jì)值低于0.40表示臨床意義較差, 介于0.40和0.59之間表示臨床意義一般, 0.60~ 0.74表示良好, 0.75及以上表示具有非常好的臨床意義(Cicchetti et al., 1995)。
本研究中篩查工具的信度檢驗(yàn)結(jié)果表明, 有12項(xiàng)研究(占35項(xiàng)研究中的34%)使用克倫巴赫α系數(shù)檢驗(yàn)信度, 但α值在0.80以上的工具只有6種: RC_ASRS、STAT、M-CHAT-R/F、Q-CHAT、ADEC、CBCL/1?-5的PDP量表。評(píng)分者信度采用ICC或相關(guān)系數(shù)衡量, 且信度值在0.75以上的工具有5種:M-CHAT-R/F、STAT、ADEC、TIDOS、M-CHAT/F; Kappa值檢驗(yàn)評(píng)分者信度的有4種工具,最高是Paula等(2018)研究所采用的OERA (0.652~0.978), 最低是M-CHAT/F (0.42) (Kerub et al., 2020)。使用重測(cè)信度檢驗(yàn)的工具有5種, PDQ-1的重測(cè)信度值最高,= 0.997 (Zahorodny et al., 2018); CBCL/1?-5量表的重測(cè)信度最低= 0.085, 時(shí)間間隔是8天(Narzisi et al., 2013)。
由于效度的高低沒(méi)有明確的標(biāo)準(zhǔn), 不同效度標(biāo)準(zhǔn)也不一樣, 我們通常的最低標(biāo)準(zhǔn):效度系數(shù)必須在統(tǒng)計(jì)上有顯著性, 即此相關(guān)系數(shù)不是來(lái)自相關(guān)系數(shù)的參數(shù)ρ為零的全域(魏華忠, 1995)。在本研究納入的35項(xiàng)研究中, 有7項(xiàng)(占20%)研究檢驗(yàn)了篩查工具的效標(biāo)效度, 相關(guān)系數(shù)達(dá)到顯著水平, 這也是最多使用的效度檢驗(yàn)方式, M-CHAT-R/F, ADEC, RITA-T與診斷工具(ADOS CARS)相關(guān)在0.58~0.849之間; PDQ-1, OERA與效標(biāo)ABC相關(guān)0.4~0.869, M-CHAT-R/F與效標(biāo)CBCL的Pearson相關(guān)在0.37~0.63之間, Q-CHAT與效標(biāo)CBCL的spearman ρ相關(guān)在0.29~0.44之間。有15項(xiàng)(占43%)沒(méi)有進(jìn)行信度和效度檢驗(yàn)。
3.2.3 篩查工具在文化適應(yīng)性的表現(xiàn)
不同的國(guó)家和文化背景會(huì)對(duì)人類行為期望有著巨大的影響, 不同文化下所界定的行為也表現(xiàn)出巨大的異質(zhì)性, ASD篩查工具開(kāi)發(fā)和行為診斷也因此受到極大的挑戰(zhàn)(Wallis & Pinto-Martin, 2008)。因此, 本研究將篩查工具的文化適應(yīng)性作為一個(gè)重要指標(biāo)進(jìn)行檢查, 遵循既定的語(yǔ)言和文化等效性準(zhǔn)則, 分別從翻譯、回譯、委員會(huì)審查和實(shí)地預(yù)測(cè)試這四方面, 對(duì)每項(xiàng)研究的文化適應(yīng)性進(jìn)行獨(dú)立評(píng)估(Guillemin et al., 1993; Soto et al., 2015)。排除13項(xiàng)由英語(yǔ)國(guó)家開(kāi)發(fā)并以英語(yǔ)作為測(cè)量語(yǔ)言的研究, 3項(xiàng)最初是使用非英語(yǔ)的語(yǔ)言開(kāi)發(fā)的也應(yīng)用于當(dāng)?shù)厝巳簶颖镜难芯?。最? 有19項(xiàng)研究需要進(jìn)行文化適應(yīng)性的檢驗(yàn), 但其中只有4項(xiàng)研究符合完整準(zhǔn)則(Stenberg et al., 2014; Magán-Maganto et al., 2020; Tsai et al., 2019; Zhou et al., 2018)。這4項(xiàng)研究不僅說(shuō)明了篩查項(xiàng)目在翻譯、回譯上進(jìn)行措辭和語(yǔ)言上的調(diào)整, 項(xiàng)目也經(jīng)過(guò)倫理委員會(huì)的審查, 還詳細(xì)地報(bào)告了預(yù)測(cè)試的內(nèi)容, 如“招募了少量(30組家庭以內(nèi))家長(zhǎng)對(duì)工具的句子和措辭的適用性進(jìn)行評(píng)估, 確保沒(méi)有任何誤解等”。另有6項(xiàng)研究沒(méi)有介紹對(duì)工具進(jìn)行怎樣的修改, 既沒(méi)有描述前向的翻譯, 也沒(méi)有出現(xiàn)或沒(méi)有描述后向的回譯, 其中2項(xiàng)研究只介紹了是經(jīng)過(guò)機(jī)構(gòu)委員會(huì)審查的, 1項(xiàng)研究只提到進(jìn)行一次預(yù)測(cè)試, 但沒(méi)有描述預(yù)測(cè)試的內(nèi)容和過(guò)程, 見(jiàn)表2。
值得強(qiáng)調(diào)的是, 更廣泛的文化適應(yīng)性研究表明, 需要以受訪者能夠理解或認(rèn)為合適的方式來(lái)構(gòu)建項(xiàng)目, 如使用基于圖片的插圖, 或使用當(dāng)?shù)貎和恼掌?。例? 斯里蘭卡的Perera (2017)設(shè)計(jì)了一種基于文化適應(yīng)的自閉癥譜系障礙圖形篩查工具, 自閉癥圖片評(píng)估清單(PAAS), 將陳述ASD主要特征的每個(gè)項(xiàng)目與一張照片配對(duì), 以提高理解能力。這項(xiàng)新工具在自閉癥兒童、非自閉癥發(fā)育障礙兒童和普通兒童樣本中進(jìn)行了測(cè)試, 表現(xiàn)出很高的敏感性和特異性(Se = 0.88, Sp = 0.933)。Janvier等(2019)針對(duì)服務(wù)不足社區(qū)(低收入、少數(shù)民族家庭或英語(yǔ)水平有限的家庭)幼兒開(kāi)發(fā)的自閉癥篩查工具, 發(fā)展性登記(DCI), 也是用圖片來(lái)說(shuō)明目標(biāo)行為的一種新的工具, 在交流、游戲、社交和行為4個(gè)領(lǐng)域中設(shè)計(jì)了28個(gè)項(xiàng)目, 每一個(gè)項(xiàng)目都被描繪成一幅線條圖和一張照片。在24~60個(gè)月之間的兒童樣本中進(jìn)行驗(yàn)證的結(jié)果表明, 它能很好地區(qū)分自閉癥譜系障礙和非自閉癥譜系障礙(Se = 0.66, Sp = 0.76)。
3.2.4 篩查工具符合診斷標(biāo)準(zhǔn)的表現(xiàn)
雖然DSM-5自2013年頒布使用之后得到廣泛地應(yīng)用, 在35篇篩查測(cè)量文章中有12篇研究是符合單獨(dú)的DSM-5標(biāo)準(zhǔn)的, 占34%; 而單獨(dú)和/或使用DSM-IV、DSM-IV-TR的篩查研究有15篇, 占43%, 仍然占比最大, 這表明大多數(shù)篩查工具都遵循的是第四版或修訂版本的精神障礙診斷和統(tǒng)計(jì)手冊(cè), 而不是現(xiàn)行DSM-5手冊(cè)的程序和指南。單獨(dú)參考ICD-9和ICD-10標(biāo)準(zhǔn)的只有3篇, 占8%; 同時(shí)參考國(guó)際疾病分類(ICD)和美國(guó)精神障礙診斷和統(tǒng)計(jì)手冊(cè)(DSM)有2項(xiàng)研究, 且都是樣本超過(guò)1萬(wàn)以上普通兒童參與的一級(jí)篩查。診斷工具同時(shí)使用自閉癥診斷觀察表(ADOS)和自閉癥診斷訪談?修訂版(ADI-R)的研究有8項(xiàng), 單獨(dú)使用ADOS有14項(xiàng), 單獨(dú)使用ADI-R有2項(xiàng)。沒(méi)有報(bào)告診斷工具的有8項(xiàng), 見(jiàn)表2。
在從篩查到診斷這段時(shí)間內(nèi), 絕大多數(shù)研究同時(shí)收集了樣本的發(fā)育特征、智商、語(yǔ)言能力與情緒狀態(tài)的數(shù)據(jù), 目的是將之與臨床判斷結(jié)合使用, 以做出更有效的ASD診斷(Le Couteur et al., 2008)。最多使用的發(fā)育測(cè)量工具是穆倫早期學(xué)習(xí)量表(MSEL), 有16項(xiàng); 采用文蘭適應(yīng)性行為量表的研究有9項(xiàng); 智力測(cè)驗(yàn)有6項(xiàng); 其他發(fā)展量表如, 貝利嬰幼兒發(fā)展量表(BSITD-3)有3項(xiàng); 美林?帕爾默修訂的發(fā)展量表(M-PRS)、巴特爾發(fā)展量表第2版(BDI-2)等共計(jì)9項(xiàng); 沒(méi)有報(bào)告發(fā)育相關(guān)測(cè)量的研究有8項(xiàng)。
根據(jù)心理學(xué)關(guān)于兒童心理發(fā)展年齡階段的劃分標(biāo)準(zhǔn), 我們將抽樣年齡在0~36個(gè)月(3歲)的研究納入嬰兒階段, 而36~72個(gè)月(6歲)的研究納入幼兒階段(楊清, 1985), 然后詳細(xì)地分析每一種篩查工具的分類準(zhǔn)確性, 用以發(fā)現(xiàn)不同年齡階段篩查工具的辨別力以及產(chǎn)生誤導(dǎo)性結(jié)論的可能性。本研究主要評(píng)估了每種篩查工具的4個(gè)重要參數(shù): (1)敏感度(Sensitivity)是指篩查結(jié)果為陽(yáng)性的患者比例, 是指ASD兒童根據(jù)篩查結(jié)果被正確識(shí)別為“高危”的比例; 自閉癥譜系障礙的兒童如果沒(méi)有在篩查中被識(shí)別出來(lái), 就會(huì)被認(rèn)為是假陰性(False-negative); (2)特異性(Specificity)是指篩查結(jié)果為陰性的患者比例, 指沒(méi)有自閉癥譜系障礙的兒童使用篩查工具被正確分類為沒(méi)有自閉癥譜系障礙風(fēng)險(xiǎn)的比例; 沒(méi)有自閉癥譜系障礙的兒童, 如果篩查呈陽(yáng)性, 則被認(rèn)為是假陽(yáng)性(False- positive); (3)陽(yáng)性預(yù)測(cè)值(Positive predictive value, PPV)是指篩查結(jié)果為陽(yáng)性的個(gè)體中患有該疾病的比例, 即ASD診斷為ASD的比例除以篩查呈陽(yáng)性的總病例數(shù)。(4)陰性預(yù)測(cè)值(Negative predictive value, NPV)指篩查陰性的兒童未被診斷為ASD的比例。PPV和NPV受正在篩查人群中ASD基線患病率以及篩查工具的敏感性和特異性的影響。雖然敏感性和特異性是檢測(cè)性能的內(nèi)在指標(biāo), 但PPV和NPV對(duì)個(gè)體家庭和系統(tǒng)水平的篩查評(píng)價(jià)可能具有更內(nèi)在的意義。
借鑒Falkmer等(2013)的做法, 為了評(píng)估兩個(gè)年齡階段最有辨別力的自閉癥風(fēng)險(xiǎn)篩查工具, 分別將每一種工具的敏感性(Se)和特異性(Sp)分別合并產(chǎn)生了一個(gè)正確分類平均值, 參考Cicchetti等(1995)提出的診斷準(zhǔn)確性指標(biāo)(敏感性、特異性、PPV和NPV)指南:差 =< 0.70; 一般 = 0.70~0.79; 良好 = 0.80~0.89; 優(yōu)秀 = 0.90~1.00。在嬰兒階段可以優(yōu)先選取以下3種篩查工具:M-CHAT-R/F、STAT、PDQ-1。根據(jù)圖2可知, 這3種篩查工具的診斷準(zhǔn)確性指標(biāo)達(dá)到了良好水平, 即Se與Sp均大于0.8, 因此, 相較于其他的幾種篩查工具能夠提供更準(zhǔn)確的篩查結(jié)果。而在幼兒階段, OERA、TIDOS篩查工具的診斷準(zhǔn)確性達(dá)到優(yōu)秀水平, 即Se與Sp均大于0.9, 在對(duì)該年齡階段的被試篩查時(shí), 可以優(yōu)先選擇這兩種篩查工具,同時(shí), 還有6種在幼兒階段的篩查工具也達(dá)到了良好水平: RITA-T、T-STAT、RC_ASRS、PAAS、BISCUIT-Part1、M-CHATR/F, 見(jiàn)圖3??v向比較兩個(gè)年齡階段的分類準(zhǔn)確性, 我們發(fā)現(xiàn), 幼兒篩查工具的準(zhǔn)確率的平均值(Se = 0.86, Sp = 0.83)要好于嬰兒篩查工具(Se = 0.72, Sp = 0.88); 篩查的陽(yáng)性率(PPV = 0.80)也要高于嬰兒階段(PPV = 0.59), 參見(jiàn)表3、表4。
圖2 嬰兒階段自閉癥風(fēng)險(xiǎn)篩查工具的敏感性和特異性
圖3 幼兒階段自閉癥風(fēng)險(xiǎn)篩查工具的敏感性和特異性
我們著重從篩查工具的基本情況、應(yīng)用水平、心理測(cè)量特性、文化適應(yīng)性、符合診斷標(biāo)準(zhǔn), 以及分類準(zhǔn)確性方面評(píng)估了上述18項(xiàng)篩查工具, 這不僅有助于全面認(rèn)識(shí)自閉癥篩查工具、性能和可能出現(xiàn)的錯(cuò)誤, 也為篩查工具的改進(jìn)和創(chuàng)新提供了機(jī)會(huì)。
本綜述期望回答的第一個(gè)問(wèn)題是明確這些經(jīng)過(guò)QUADAS-2質(zhì)量評(píng)估后, 納入篩查工具在應(yīng)用水平、心理測(cè)量學(xué)特性、文化適應(yīng)性和符合診斷標(biāo)準(zhǔn)等方面的表現(xiàn)。首先在篩查工具應(yīng)用方面, 為什么幼兒階段的篩查工具數(shù)量多, 準(zhǔn)確性高, 而嬰兒階段特別是低于12個(gè)月的篩查工具卻很少?可以從兩個(gè)方面來(lái)分析這一問(wèn)題, 一方面, 36個(gè)月(3歲)之前發(fā)生是自閉癥診斷的關(guān)鍵年齡, 隨著年齡的增長(zhǎng), 自閉癥的癥狀特征也日趨明顯, 因此, 對(duì)于3~6歲幼兒的篩查工具的開(kāi)發(fā)和使用已經(jīng)為全世界范圍所共識(shí), 這一階段篩查工具的數(shù)量和質(zhì)量也是成正比例的。另一方面, 對(duì)于24個(gè)月(2歲)之前, 特別是12個(gè)月(1歲)的自閉癥風(fēng)險(xiǎn)預(yù)警的行為指標(biāo)尚不明確。盡管有文獻(xiàn)表明, 許多兒童在12個(gè)月前可能出現(xiàn)ASD的危險(xiǎn)跡象(Zwaigenbaum et al., 2005), 但其他研究報(bào)告也稱, 35%至46%的自閉癥兒童有“遲發(fā)”癥狀, 這些發(fā)現(xiàn)指出, 很早就進(jìn)行ASD風(fēng)險(xiǎn)篩查, 但后來(lái)并沒(méi)有發(fā)展成ASD兒童(Landa et al., 2007; Werner et al., 2005), 也有一些前瞻性研究表明, 自閉癥兒童在12個(gè)月后可能會(huì)出現(xiàn)很大比例的發(fā)育退化(Ozonoff et al., 2010)。因此, 12個(gè)月大時(shí)漏診病例的可能解釋是(a)一些兒童沒(méi)有出現(xiàn)ASD行為指標(biāo), (b)研究人員尚未確定12個(gè)月大時(shí)預(yù)測(cè)ASD最終診斷的所有關(guān)鍵行為指標(biāo), (c)研究人員尚未找到基于家長(zhǎng)報(bào)告的能測(cè)量?jī)和P(guān)鍵行為的可靠指標(biāo)。但是, 需要強(qiáng)調(diào)的是, 對(duì)于低于12個(gè)月篩查為陽(yáng)性或陰性的兒童都不應(yīng)僅視為單點(diǎn)事件(single-point screening event), 需要開(kāi)展更多的基于嬰兒家庭錄像(home video)的回顧性分析和高危兒童的前瞻性研究, 重點(diǎn)探討那些當(dāng)單點(diǎn)篩查被認(rèn)為有/無(wú)風(fēng)險(xiǎn)的兒童, 至最后成為自閉癥譜系/常態(tài)兒童, 在其發(fā)展軌跡過(guò)程中出現(xiàn)了哪些問(wèn)題, 以確定自閉癥在社交、交流、行為、運(yùn)動(dòng)和氣質(zhì)等領(lǐng)域可能是危險(xiǎn)跡象的其他行為, 并幫助父母在12個(gè)月之前識(shí)別和確定自己嬰兒的這些行為。
表3 嬰兒階段自閉癥風(fēng)險(xiǎn)篩查工具的分類準(zhǔn)確性
注:* 4047是表3中嬰兒階段10項(xiàng)篩查工具所涉及樣本數(shù)量的平均值。其中23966是使用M-CHAT這一篩查工具的4項(xiàng)研究樣本量的平均值, 包括Carbone等(2020)的樣本數(shù)量是26364, Koh等(2014)的樣本數(shù)量是17302, Stenberg等(2014)的樣本數(shù)量是52026, Toh等(2018)的樣本數(shù)量是173。5272是使用M-CHAT/F這一篩查工具的6項(xiàng)研究樣本量的平均值, 包括Baduel等(2017)的樣本數(shù)量是1250, Guthrie等(2019)的樣本數(shù)量是25999, Kamio等(2014)的樣本數(shù)量是1851, Kerub等(2020)的樣本數(shù)量是1591, Srisinghasongkram等(2016)的樣本數(shù)量是841, Sturner等(2016)的樣本數(shù)量是98。6886是使用M-CHAT-R/F這一篩查工具的4項(xiàng)研究樣本量的平均值, 包括Coelho-Medeiros等(2019)的樣本數(shù)量是120, Guo等(2019)的樣本數(shù)量是7928, Magán-Maganto等(2020)的樣本數(shù)量是3426, Robins等(2014)的樣本數(shù)量是16071。
表4 幼兒階段自閉癥風(fēng)險(xiǎn)篩查工具的分類準(zhǔn)確性
注:* 606是表4中幼兒階段14項(xiàng)篩查工具所涉及樣本數(shù)量的平均值。其中1201是使用M-CHAT這一篩查工具的2項(xiàng)研究樣本量的平均值, 包括Koh等(2014)的樣本數(shù)量是407, Toh等(2018)的樣本數(shù)量是1995。1703是使用M-CHAT/F這一篩查工具的2項(xiàng)研究樣本量的平均值, 包括Magán-Maganto等(2020)的樣本數(shù)量是3089, Tsai等(2019)的樣本數(shù)量是317。162是使用CBCL1?–5這一篩查工具的3項(xiàng)研究樣本量的平均值, 包括Havdahl等(2016)的樣本數(shù)量是161, Limberg等(2017)的樣本數(shù)量是183, Narzisi等(2013)的樣本數(shù)量是141。
其次, 在篩查工具的心理測(cè)量學(xué)方面, 綜述中所涉及到35項(xiàng)研究中只有幾個(gè)心理測(cè)量特性比其他特性更常使用, 如評(píng)估內(nèi)部一致性信度、評(píng)分者信度、重測(cè)信度和效標(biāo)效度; 而分半信度、測(cè)量誤差、內(nèi)容效度、結(jié)構(gòu)效度、跨文化效度和假設(shè)檢驗(yàn)只在少數(shù)研究中出現(xiàn), 有1/3的研究根本沒(méi)有開(kāi)展任何心理測(cè)量學(xué)評(píng)估, 這也是造成心理測(cè)量特性存在高風(fēng)險(xiǎn)偏倚的主要原因之一。還有一個(gè)非常常見(jiàn)的問(wèn)題是缺失數(shù)據(jù)的處理。很少有作者明確地量化了自己研究數(shù)據(jù)集中缺失的數(shù)據(jù), 也沒(méi)人解釋如何處理缺失數(shù)據(jù), 都遵循了哪些方法?例如, 對(duì)于基于父母報(bào)告的測(cè)量, 有可能有一些項(xiàng)目是沒(méi)有答案的, 對(duì)于這種特殊情況, 一般通過(guò)統(tǒng)計(jì)程序插補(bǔ)數(shù)據(jù), 但這種處理有可能改變數(shù)據(jù)結(jié)構(gòu)和分布, 進(jìn)而導(dǎo)致對(duì)自閉癥風(fēng)險(xiǎn)的高估或低估。因此, 對(duì)于主旨在于識(shí)別自閉癥風(fēng)險(xiǎn)早期跡象的篩查研究來(lái)說(shuō), 缺失數(shù)據(jù)的處理是一個(gè)至關(guān)重要的方面, 在未來(lái)研究中, 研究人員需要解釋他們是否以及如何處理樣本中缺失的數(shù)據(jù)??偟恼f(shuō)來(lái), 從我們對(duì)篩查工具的心理測(cè)量特性的檢驗(yàn)結(jié)果可以得出兩個(gè)主要的考慮因素, 一個(gè)與心理測(cè)量評(píng)估的數(shù)量有關(guān), 另一個(gè)與研究本身方法學(xué)質(zhì)量有關(guān)。而且要著重關(guān)注的是第二個(gè)因素, 與其他研究相比, 對(duì)篩查工具的研究普遍缺乏內(nèi)容效度的評(píng)估, 少量研究采用假設(shè)檢驗(yàn)來(lái)評(píng)估工具的區(qū)分度, 但得到方差分析的結(jié)果較差或缺少跨研究進(jìn)行衡量的統(tǒng)一標(biāo)準(zhǔn)。這些發(fā)現(xiàn)將推動(dòng)研究人員設(shè)計(jì)驗(yàn)證研究, 重點(diǎn)要放在提升篩查工具的測(cè)量學(xué)質(zhì)量上。
第三, 在文化適應(yīng)性上, 盡管金標(biāo)準(zhǔn)的診斷工具ADOS和ADI-R已被翻譯成多種語(yǔ)言, 并在不同的跨國(guó)環(huán)境中進(jìn)行了驗(yàn)證, 但使用這些工具需要花費(fèi)大量時(shí)間和金錢(qián)。因此, 在低收入和中等收入國(guó)家中, 金標(biāo)準(zhǔn)診斷工具的使用明顯滯后, 而常采用具有廣泛文化適應(yīng)性驗(yàn)證的篩查工具, 如M-CHAT系列工具(包括M-CHAT, M-CHAT/F, M-CHAT-R/F), 經(jīng)過(guò)國(guó)際上廣泛應(yīng)用和多種語(yǔ)言中進(jìn)行評(píng)估, M-CHAT系列工具已經(jīng)表現(xiàn)出明顯的文化適應(yīng)性優(yōu)勢(shì)(Guo et al., 2019; Inada et al., 2011; Seif Eldin et al., 2008), 被譽(yù)為最廣泛使用和最著名的父母報(bào)告篩查工具。但值得的注意的是, 在低資源的社區(qū)或國(guó)家背景下, 開(kāi)發(fā)和使用適合其當(dāng)?shù)匚幕驼Z(yǔ)言的篩查工具, 這一趨勢(shì)也正在增加(Stewart & Lee, 2017)。本研究關(guān)于自閉癥風(fēng)險(xiǎn)篩查工具的文化適應(yīng)性結(jié)果顯示, 大部分驗(yàn)證性研究對(duì)于文化適應(yīng)性的報(bào)道較為缺乏, 嚴(yán)格控制的程度也有很大差異。因此, 我們建議未來(lái)研究需要更全面地檢查文化適應(yīng)性程序(至少要包括翻譯、回譯、委員會(huì)審查和實(shí)地預(yù)測(cè)試), 同時(shí)還需要解決的重要問(wèn)題是, 涉及文化或語(yǔ)言上不同的亞群體, 或識(shí)字率較低或沒(méi)有識(shí)字能力的人, 有必要使用經(jīng)過(guò)培訓(xùn)的雙文化/雙語(yǔ)個(gè)體來(lái)管理篩查工具, 以產(chǎn)生充分的理解。
在篩查工具的編制和診斷結(jié)果符合診斷標(biāo)準(zhǔn)方面, 國(guó)際最好的自閉癥譜系診斷方法是基于國(guó)際疾病分類(ICD)和美國(guó)精神障礙診斷和統(tǒng)計(jì)手冊(cè)(DSM)的框架, 使用專家臨床判斷作為確認(rèn)診斷的“金標(biāo)準(zhǔn)”。盡管我們檢索的是從2013年DSM-5發(fā)布到2020年之間的文獻(xiàn), 部分自閉癥風(fēng)險(xiǎn)篩查測(cè)量中使用的診斷標(biāo)準(zhǔn)已經(jīng)最大限度地遵循了DSM-5, 涵蓋了DSM-5手冊(cè)中的A類(社會(huì)互動(dòng)和社會(huì)溝通)和B類(限制性和重復(fù)性行為)中的至少兩個(gè)標(biāo)準(zhǔn)。但是, DSM-IV或DSM-IV-TR的參考和使用仍然占比最多, 包括自閉癥診斷觀察表(ADOS), 以及半結(jié)構(gòu)化的家長(zhǎng)訪談, 如自閉癥診斷訪談?修訂版(ADI-R)也是在2013年之前制定的, 也沒(méi)有考慮DSM-5中制定的指南。由于一些使用DSM-IV標(biāo)準(zhǔn)診斷為自閉癥的患者可能不屬于DSM-5的自閉癥患者, 所以在行為科學(xué)、精神病學(xué)和心理學(xué)領(lǐng)域中, 關(guān)于DSM-IV標(biāo)準(zhǔn)(包括修訂版)和DSM-5標(biāo)準(zhǔn)優(yōu)越性的爭(zhēng)論也正日趨白熱化, 如Grzadzinski等人(2013)研究顯示DSM-5對(duì)成人和幼兒的敏感性降低, 而Sappok等人(2015)則顯示在DSM-IV和DSM-5指導(dǎo)下的篩查測(cè)量病例的敏感性是相一致的, 盡管特異性有所下降。因此, 有必要重新檢查ASD診斷和篩查工具中的問(wèn)題和特征, 以全面滿足DSM-5的新標(biāo)準(zhǔn)。這就需要將新的ASD標(biāo)準(zhǔn)映射到篩查工具中使用的項(xiàng)目中, 同時(shí)還要評(píng)估診斷過(guò)程的工作方式, 這種嘗試有可能導(dǎo)致當(dāng)前篩查工具版本的更新。此外, 還需要進(jìn)行綜合實(shí)驗(yàn)研究, 使用對(duì)照組和病例作為數(shù)據(jù), 以便指導(dǎo)研究人員、臨床醫(yī)生、精神病醫(yī)生和心理學(xué)家使用正確的篩選工具, 即使在提出DSM-5新的變化之后也能保持績(jī)效。
盡管從研究和臨床的角度來(lái)看, 自閉癥早期發(fā)現(xiàn)的重要性也已經(jīng)達(dá)成共識(shí), 但是選擇一種適合特定背景的篩查程序仍然困難重重, 無(wú)論是對(duì)嬰幼兒進(jìn)行指定時(shí)間點(diǎn)的特異性篩查, 或者面向健康嬰幼兒沒(méi)有顧慮的廣普性篩查, 無(wú)論是通過(guò)發(fā)育監(jiān)測(cè)和使用正式篩查相結(jié)合的方式, 或是在特定年齡使用單一篩查并在不同年齡段重復(fù)監(jiān)測(cè), 任何選擇除了參考如上應(yīng)用水平、心理測(cè)量特性、文化適應(yīng)性、符合診斷標(biāo)準(zhǔn)等有效性指標(biāo)以外, 至關(guān)重要的一個(gè)問(wèn)題是對(duì)篩查結(jié)果應(yīng)該謹(jǐn)慎解釋, 特別是臨床醫(yī)生要了解如何解釋已經(jīng)發(fā)表的研究數(shù)據(jù), 如要考慮到由于陰性病例沒(méi)有得到隨訪可能會(huì)扭曲篩查結(jié)果, 識(shí)別漏診病例的可能性等都應(yīng)仔細(xì)告知家長(zhǎng), 以確保家庭縱向參與和后續(xù)治療。我們建議采用一種更廣泛、更平衡的方法來(lái)說(shuō)明篩查結(jié)果, 可以由具有ASD專門(mén)知識(shí)的多學(xué)科兒童專家小組(一般包括一名能夠提供醫(yī)療診斷的醫(yī)學(xué)專家或臨床心理學(xué)家, 及言語(yǔ)病理學(xué)家、職業(yè)治療師、醫(yī)務(wù)社會(huì)工作者等)完成, 更可能考慮到影響篩查結(jié)果的所有因素, 這一多學(xué)科團(tuán)隊(duì)共識(shí)診斷的診斷準(zhǔn)確性(即隨時(shí)間的穩(wěn)定)估計(jì)為80–90% (Woolfenden et al., 2012)??傊? 規(guī)范篩查工具的質(zhì)量評(píng)估標(biāo)準(zhǔn), 在政策支持的背景下, 開(kāi)展這些篩查管理和實(shí)用工具的臨床試驗(yàn), 以優(yōu)化我們識(shí)別自閉癥譜系兒童的能力, 并制定一致性的策略, 以便在以后的年齡持續(xù)地監(jiān)測(cè)自閉癥癥狀。
第二個(gè)研究問(wèn)題是我們希望根據(jù)QUADAS-2的評(píng)估結(jié)果, 確定一個(gè)(或多個(gè))用于評(píng)估自閉癥的早期風(fēng)險(xiǎn)跡象的有效篩查工具。我們重點(diǎn)檢視35篇文獻(xiàn)信息來(lái)源, 其中有27項(xiàng)研究采用由父母或主要照顧者完成的問(wèn)卷或清單來(lái)收集信息和數(shù)據(jù), 占比77%, 如M-CHAT系列檢查表。這主要是由問(wèn)卷本身所固有的優(yōu)點(diǎn)所致。首先, 問(wèn)卷調(diào)查所需時(shí)間很短, 不需要特定的知識(shí)或培訓(xùn), 侵入性要比觀察檢查表或訪談小得多。其次, 通常不需要對(duì)問(wèn)卷的編碼系統(tǒng)或分?jǐn)?shù)解釋進(jìn)行專門(mén)培訓(xùn)。對(duì)于許多問(wèn)卷來(lái)說(shuō), 最終得分的插補(bǔ)和意義的歸納也不涉及任何ASD的臨床解釋或具體知識(shí)。然而, 調(diào)查問(wèn)卷有幾個(gè)局限性。首先, 分?jǐn)?shù)取決于信息提供者的主觀性。由于調(diào)查問(wèn)卷主要是為父母設(shè)計(jì)的, 但父母的回顧性報(bào)告是缺乏準(zhǔn)確性的, 他們可能會(huì)低估或高估風(fēng)險(xiǎn)的早期跡象, 這取決于他們發(fā)現(xiàn)風(fēng)險(xiǎn)的能力, 以及區(qū)分風(fēng)險(xiǎn)跡象與正常偏離發(fā)展軌跡的能力。問(wèn)卷的另一個(gè)固有局限性是社會(huì)期望偏差, 表現(xiàn)為過(guò)度報(bào)告期望行為。
對(duì)比來(lái)看, 只有8項(xiàng)研究(占比23%)采用觀察法, 以二級(jí)篩查測(cè)量為多見(jiàn)。雖然觀察法的優(yōu)點(diǎn)特別明顯, 如能夠獲得更深入, 真實(shí)的資料; 適合對(duì)一些不能使用問(wèn)卷、訪談法的研究對(duì)象, 如嬰兒的個(gè)體行為、活動(dòng)的研究, 但是受限于對(duì)低幼兒童的行為觀察是一種勞動(dòng)密集型的任務(wù), 觀察者只能捕獲有限的行為樣本, 而且還需要考慮到兒童在觀察時(shí)的反應(yīng)性, 考慮到兒童與父母或臨床醫(yī)生之間的互動(dòng)具有動(dòng)態(tài)性, 易出現(xiàn)霍桑效應(yīng)等, 這些來(lái)自觀察員、觀察方式、觀察時(shí)間和地點(diǎn)的影響都會(huì)對(duì)觀察質(zhì)量產(chǎn)生干擾。因此, 對(duì)觀察者進(jìn)行統(tǒng)一的專業(yè)培訓(xùn)是減少研究誤差, 確保觀察信度的重要手段, 而這也正是觀察法的主要局限。
統(tǒng)觀問(wèn)卷法和觀察法的局限性, 我們發(fā)現(xiàn)“改良的幼兒自閉癥檢查表?有修訂的后續(xù)隨訪” (M-CHAT-R/F)這一篩查工具似乎可以有效解決這一困境, 當(dāng)家長(zhǎng)填寫(xiě)修訂后的20項(xiàng)M-CHAT問(wèn)卷, 篩查結(jié)果呈陽(yáng)性, 需要進(jìn)一步參與結(jié)構(gòu)化的隨訪訪談和/或面談, 在一項(xiàng)針對(duì)16至31個(gè)月大的幼兒的大樣本美國(guó)研究中, 使用M-CHAT-R/F比M-CHAT/F識(shí)別出更多的自閉癥兒童(67例/10000比45例/10000), χ2= 8.63; p = 0.003 (Chlebowski et al., 2013)。
結(jié)合分類準(zhǔn)確性分析的數(shù)據(jù)結(jié)果, 我們發(fā)現(xiàn), M-CHAT-R/F分別在嬰兒階段和幼兒階段也保持了良好的辨別水平, 這也表明其可能是目前最具潛力的自閉癥譜系篩查工具之一。值得注意的是, 雖然如上這些篩查工具都很有希望, 但目前并沒(méi)有一項(xiàng)可以被認(rèn)為是早期發(fā)現(xiàn)ASD風(fēng)險(xiǎn)的金標(biāo)準(zhǔn), 這一領(lǐng)域的研究和發(fā)展還有很大的進(jìn)取空間。
本綜述有兩個(gè)局限性。首先, 我們采用的QUADAS-2是一種評(píng)估研究方法學(xué)質(zhì)量的標(biāo)準(zhǔn)化方案, 而不是評(píng)估篩查工具本身。因此對(duì)QUADAS-2評(píng)估方案自身質(zhì)量的信心是確定其評(píng)估結(jié)果是否可靠和可信的第一步, 換言之, 評(píng)估方案中所劃定的評(píng)價(jià)標(biāo)準(zhǔn)的數(shù)量和質(zhì)量可以決定評(píng)價(jià)結(jié)果中存在偏差的水平高低。例如, 我們的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)中沒(méi)有考慮“研究類型” (根據(jù)篩查研究的研究性質(zhì), 可分為“驗(yàn)證研究、標(biāo)準(zhǔn)化測(cè)量、跨文化比較、縱向或后續(xù)研究”4個(gè)子指標(biāo))這一審查維度, 這也導(dǎo)致后期文獻(xiàn)梳理過(guò)程中無(wú)法根據(jù)“文化適應(yīng)性”的指標(biāo)來(lái)全面衡量每一項(xiàng)研究。同時(shí), 本綜述還缺乏對(duì)于“流程和時(shí)間”方面的偏倚風(fēng)險(xiǎn)評(píng)價(jià)指標(biāo)。因此, 對(duì)于應(yīng)用QUADAS-2來(lái)評(píng)估研究的測(cè)量特性, 進(jìn)而評(píng)估篩查工具的測(cè)量特性, 我們建議未來(lái)的篩查工具研究需要采取嚴(yán)格的質(zhì)量分析審查方案, 如包括一個(gè)流程圖, 介紹關(guān)于被試招募方法、樣本、測(cè)試執(zhí)行順序、隨訪以及與過(guò)程相關(guān)的其他細(xì)節(jié)的信息, 以提高可復(fù)制性, 并更好地告知讀者潛在的偏倚。
第二, QUADAS-2的方案采用的是最差計(jì)分原則, 且缺少可降低論文異質(zhì)性數(shù)據(jù)分析的統(tǒng)計(jì)學(xué)分析, 這些都可能會(huì)導(dǎo)致對(duì)某些工具使用的負(fù)面偏見(jiàn)。由于QUADAS-2本身的特點(diǎn)在于其方案中的每一項(xiàng)都是整體評(píng)估的重要組成部分, 因此任何項(xiàng)目的差評(píng)都應(yīng)被視為嚴(yán)重缺陷。例如, 我們將樣本量≥100為優(yōu), 50~99為良, 30~49為可, < 30為差(Terwee et al., 2012)。對(duì)于一般人群時(shí), 這種分類是一個(gè)很好的標(biāo)準(zhǔn), 而當(dāng)考慮到自閉癥風(fēng)險(xiǎn)和/或臨床組時(shí), 則應(yīng)根據(jù)ASD的患病率仔細(xì)考慮這一樣本量劃分指標(biāo)可能并不適當(dāng)。另外, 對(duì)分類準(zhǔn)確性的評(píng)價(jià)指標(biāo), 我們只考慮了敏感性和特異性的合并平均值進(jìn)行每一項(xiàng)工具的橫向比較, 而根據(jù)層次綜合被試工作特征曲線(Hierarchical Summary Receive Operating Charateristic, HSROC)模型,敏感性和特異性之間可能是非線性的關(guān)系(Sánchez-García et al., 2019), 可以采用貝葉斯層次模型來(lái)調(diào)整自閉癥篩查工具的不完善性(Rutter & Gatsonis, 2001), 可以更嚴(yán)格地檢查抽樣的變異性和納入論文之間的異質(zhì)性, 以確保分析結(jié)果的準(zhǔn)確性, 這些問(wèn)題應(yīng)被視為當(dāng)前研究的局限性。
在過(guò)去的七年里, 與自閉癥癥狀描述及篩查相關(guān)的研究呈上升趨勢(shì)。本綜述以上列出的是常見(jiàn)的ASD篩查工具, 未來(lái)研究仍然需要許多利益相關(guān)者的參與和有效合作, 增強(qiáng)對(duì)篩查過(guò)程進(jìn)行深度的比較, 如繼續(xù)搜索有辨別力的篩查項(xiàng)目?jī)?nèi)容或行為、參與篩查預(yù)測(cè)試、計(jì)算分?jǐn)?shù)、解釋和解釋測(cè)試結(jié)果的標(biāo)準(zhǔn)化, 如何處理進(jìn)一步的轉(zhuǎn)介, 時(shí)間消耗和NPV性能等, 以進(jìn)一步確定性能最好的工具。其次, 在篩查工具的引進(jìn)和管理上, 面對(duì)國(guó)內(nèi)ASD早期篩查與診斷技術(shù)仍比較滯后的現(xiàn)狀, 在鼓勵(lì)引進(jìn)國(guó)際通用的自閉癥診斷工具ADOS和ADI-R的同時(shí), 支持自主研發(fā)符合國(guó)際標(biāo)準(zhǔn)(ICD-11、DSM-5)的本土化自閉癥診斷工具, 更要加大對(duì)公共衛(wèi)生學(xué)、醫(yī)學(xué)心理學(xué)、兒科保健等多學(xué)科專業(yè)人員的培訓(xùn)力度, 完善嬰幼兒的轉(zhuǎn)介系統(tǒng)職能, 擴(kuò)大專門(mén)小組進(jìn)行早期診斷和康復(fù)干預(yù)的能力。第三個(gè)建議是一個(gè)受到Covid- 19的傳播而變得突出的現(xiàn)實(shí)問(wèn)題, 病毒的傳播及其毀滅性的后果導(dǎo)致了公共衛(wèi)生社區(qū)服務(wù)處于隔離狀態(tài)、父母懷疑孩子有發(fā)育問(wèn)題時(shí)尋求專業(yè)意見(jiàn)的可能性下降、面對(duì)面康復(fù)服務(wù)可及性降低, 因此, 開(kāi)發(fā)和使用基于機(jī)器學(xué)習(xí)智能算法的新型ASD的自我管理工具, 如自閉癥指紋(Autism Fingerprint) (Klein et al., 2015)、自閉癥譜系障礙篩查APP (ASD Tests) (Thabtah, 2019), 通過(guò)使用機(jī)器學(xué)習(xí)算法生成的分類器計(jì)算篩查的敏感性和特異性來(lái)保障篩查的準(zhǔn)確性, 由專業(yè)醫(yī)療中心發(fā)布的醫(yī)療報(bào)告來(lái)確診正規(guī)診斷狀態(tài)來(lái)實(shí)現(xiàn)遠(yuǎn)程保健服務(wù), 這些基于移動(dòng)應(yīng)用程序的篩查方式不僅為家庭提供一個(gè)可靠和易于使用的工具來(lái)篩查他們的孩子是否患有自閉癥, 更有助于用戶和健康社區(qū)克服隔離狀態(tài)的困境。
附錄
附錄一:進(jìn)行全文審查的質(zhì)量評(píng)估標(biāo)準(zhǔn)及評(píng)分要求
評(píng)分的具體問(wèn)題(注意事項(xiàng))圈出你的評(píng)估意見(jiàn) Yes1No0 1是否明確描述(或引用)關(guān)于“篩查”為主題的測(cè)試?10 2是否以譜系患者為代表作為接受檢測(cè)患者篩查的目的? (對(duì)于殘疾兒童的研究, 考慮是否可能代表較大的殘疾人群, 或者樣本是否在某些方面存在顯著差異)10 3是否明確描述了篩查被試的標(biāo)準(zhǔn)?樣本大小在大于30以上保留, 如低于30以下可以備注刪除10 4篩查的結(jié)果需要有明確的ASD診斷, 診斷的參考標(biāo)準(zhǔn)是否符合正確分類目標(biāo)條件?(診斷應(yīng)包括以下內(nèi)容之一:A. 基于DSM-IV/DSM-5/ICD-10的臨床診斷+ADI-R+ADOS B. 基于DSM-IV/DSM-5/ICD-10的臨床診斷+ADOS和/或ADI-R C. [基于DSM-IV/DSM-5/ICD-10的臨床診斷+其他]或[ADOS/ADI-R+其他, 如SRS、CARS、SCQ、CAST、ASSQ或STAT、M-CHAT等] D. 僅基于DSM-IV/DSM-5/ICD-10的臨床診斷或僅ADOS, 或僅ADI-R)ABCD 5是否篩查的參考標(biāo)準(zhǔn)獨(dú)立于測(cè)試? (篩查工具的名稱, 發(fā)明者與年代, 工具的構(gòu)成和評(píng)分標(biāo)準(zhǔn), 評(píng)分的要求和截止值, 篩查程序, 如質(zhì)量標(biāo)記、時(shí)間、成本等)10 6是否對(duì)執(zhí)行篩查測(cè)試的過(guò)程描述得足夠詳細(xì), 以允許復(fù)制篩查測(cè)試? (明確地介紹了篩查的管理及過(guò)程性的內(nèi)容, 如: 地點(diǎn), 篩查者, 篩查時(shí)間, 篩查人員的身份, 專業(yè)背景、經(jīng)過(guò)額外培訓(xùn)和學(xué)術(shù)水平等。)10 7當(dāng)測(cè)試結(jié)果被解釋為在實(shí)踐中使用測(cè)試時(shí), 是否有相同的臨床數(shù)據(jù)可用(篩查和診斷之間的時(shí)間間隔是否足夠)?10 8是否解釋了退出研究的原因(入組后)?10 9是否明確報(bào)告了篩查工具的心理學(xué)測(cè)量屬性計(jì)算方法/數(shù)據(jù)? (如: 評(píng)分者信度, 內(nèi)部一致性信度, 分半信度, 重測(cè)信度; 效標(biāo)效度, 內(nèi)容效度, 結(jié)構(gòu)效度等。)10 10是否明確報(bào)告了篩查工具的分類準(zhǔn)確性計(jì)算方法/數(shù)據(jù)? (如: 敏感性, 特異性, 陽(yáng)性(PPV), 陰性(NPV), 至少要包括敏感性, 特異性)10
附錄二:文中涉及的英文縮寫(xiě)之原文和中文翻譯
ASD = 自閉癥譜系障礙(Autism Spectrum Disorder)
GS = 普通樣本(General Sample )
CS = 臨床樣本(Clinical Sample )
ATD =非典型性發(fā)展(atypically developing)
TD = 典型性發(fā)展(typically developing )
NCR=未提出任何問(wèn)題(no concerns raised )
OPD = 其他精神障礙(Other Psychiatric Disorders)
LR = 低危 (low risk)
HR = 高危(high risk)
K = Kappa
Α = 克倫巴赫α系數(shù)Cronbach's α
ρ = Spearman 秩相關(guān)系數(shù)
NR = 未報(bào)告(Not Report)
ICD-9 = 《國(guó)際疾病分類》the International Classification of Disease-9 [世衛(wèi)組織, 1992年]
ICD-10 = 《國(guó)際疾病分類》the International Classification of Disease-10[世衛(wèi)組織, 1992年]
DSM-IV = 《精神障礙診斷和統(tǒng)計(jì)手冊(cè)》第四版(the Diagnostic and Statistical Manual of Mental Disorders—fourth edition) [美國(guó)精神病學(xué)協(xié)會(huì), 1994年]
DSM-IV-TR = 《精神障礙診斷和統(tǒng)計(jì)手冊(cè)》第四版修訂版(the Diagnostic and Statistical Manual of Mental Disorders—fourth edition-text revision)[美國(guó)精神病學(xué)協(xié)會(huì), 2000年]
DSM-5 = 《精神障礙診斷和統(tǒng)計(jì)手冊(cè)》第五版 (the Diagnostic and Statistical Manual of Mental Disorders, 5th Edition)[美國(guó)精神病學(xué)協(xié)會(huì), 2013年]
ADI-R = 自閉癥診斷訪談修訂版(Autism Diagnostic Interview-Revised)
ADOS = 自閉癥診斷觀察表(Autism Diagnostic Observation Schedule)
DSM-PDP = 普遍性發(fā)展問(wèn)題(Diagnostic and Statistical Manual of Mental Disorders-Pervasive Developmental Problems)
DISCO-11 = 社交和溝通障礙診斷訪談(the Diagnostic Interview for Social and Communication Disorders-11)
ABC = 自閉癥行為檢查表(Autism Behavior Checklist)
ASQ-3 = 年齡和階段問(wèn)卷第三版(Ages and Stages Questionnaires, Third Edition)
ASQ-SE = 年齡和階段問(wèn)卷:社會(huì)情緒(Ages and Stages Questionnaires: Social-Emotional)
ASRS = 自閉癥譜系評(píng)定量表(the autism spectrum rating scale)
BASC-2 = 兒童行為評(píng)估系統(tǒng)-2(Behavioral Assessment System for Children-2)
Bayley III = BSITD-3 = 貝利嬰幼兒發(fā)展量表第三版(Bayley Scales of Infant and Toddler Development, Third Edition)
BDI-2 = 巴特爾發(fā)展量表第2版(developmental profiles from the Battelle Developmental Inventory—2nd Edition)
CBCL/1?-5 = 1.5-5歲兒童行為篩查表(Child behavior checklist)
CDI = 麥克阿瑟-貝茨交際發(fā)展量表(The MacArthur-Bates Communicative Development Inventory)
CARS-2 = 兒童孤獨(dú)癥評(píng)定量表第二版(Social Responsiveness Scale–Preschool)
CARS 2-ST = 兒童孤獨(dú)癥評(píng)定量表第二版, 標(biāo)準(zhǔn)版(Social Responsiveness Scale–2 Standard)
CAT/CLAMS = 認(rèn)知適應(yīng)性測(cè)試/臨床語(yǔ)言和聽(tīng)覺(jué)里程碑量表(the Cognitive Adaptive Test/Clinical Linguistic and Auditory Milestone Scale)
CPRS-R = 康納斯父母評(píng)定量表修訂版(the Conners’ Parent Rating Scale-Revised)
Denver II = DDST-II = 丹佛發(fā)育篩查測(cè)試第二版The Denver Developmental Screening Test II
DAS-II = 差異能力量表第二版(the Differential Ability Scales-Second Edition)
DCQ = 發(fā)展問(wèn)題問(wèn)卷(Developmental Concerns Questionnaire)
EADT = Enjoji分析發(fā)展測(cè)驗(yàn)(Enjoji’s Analytical Developmental Test)
GDS = 普遍性發(fā)育篩查 (Global Developmental Screening)
GMDS = 格里菲斯智力發(fā)展量表(the Griffiths Mental Development Scales)
MASC = 兒童多維焦慮量表(the Multidimensional Anxiety Scale for Children)
M-PRS = 美林-帕爾默修訂的發(fā)展量表(Merrill?Palmer—Revised Scales of Development )
MSEL = 穆倫早期學(xué)習(xí)量表(Mullen Scales of Early Learning)
PEP-R = 心理教育概況修訂版(Psychoeducational Profile-Revised)
SCAS = 斯彭斯兒童焦慮量表(the Spence Children’s Anxiety Scale)
SON-R 2 ?-7 = SON-R非語(yǔ)言智力測(cè)試(Snijders-Oomen Nonverbal Intelligence test )
SRS-P = 社會(huì)反應(yīng)量表-學(xué)齡前兒童版本(the Social Responsiveness Scale–Preschool Version)
TASI = 幼兒自閉癥癥狀訪談(Toddler Autism Symptom Interview)
TBIS = Tanaka比奈智力量表(Tanaka Binet Intelligence Scale)
VABS = 文蘭適應(yīng)性行為量表(Vineland Adaptive Behavior Scale)
Vineland-II = Vineland適應(yīng)性行為量表第二版(the Vineland Adaptive Behaviour Scales—Second Edition)
WISC-III = 韋氏兒童智力量表第三版(Wechsler Intelligence Scale for Children, third edition)
WPPSI—III = 韋克斯勒學(xué)前和小學(xué)智力量表第三版(the Wechsler Preschool and Primary Scale of Intelligence—Third Edition)
*表示元分析用到的文獻(xiàn)
陳文雄. (2013). 孤獨(dú)癥70年: 從kanner到dsm-v.(11), 1001–1004.
方俊明. (2005).. 北京:人民教育出版社
馮雅靜, 王雁. (2012). 孤獨(dú)癥兒童的診斷工具:現(xiàn)狀及展望.(9), 45–52+70.
龔郁杏, 劉靖, 郭延慶, 宋文紅, 賈美香, 李長(zhǎng)璟. (2015). 改良嬰幼兒孤獨(dú)癥量表中文簡(jiǎn)化版的效度和信度.(2), 121–124.
關(guān)智勇, 龔建華, 陳艷琳, 周首俊, 李麗. (2016). 兒童孤獨(dú)癥譜系測(cè)驗(yàn)量表的信度、效度及臨界值.(11), 855–858.
何華國(guó). (2006).. 臺(tái)中:五南圖書(shū)出版股份有限公司.
駱名進(jìn), 宋海東, 劉健. (2020). 基于社區(qū)開(kāi)展家長(zhǎng)自評(píng)式孤獨(dú)癥早期篩查研究.,(17), 2219– 2222.
樸永馨. (2014).(pp. 3–4). 華夏出版社.
徐建平, 張厚粲. (2005). 質(zhì)性研究中編碼者信度的多種方法考察.(6), 1430–1432.
王輝. (2015).. 南京:南京師范大學(xué)出版社.
王輝, 李曉慶, 李曉娟. (2009). 國(guó)內(nèi)孤獨(dú)癥兒童評(píng)估工具的研究現(xiàn)狀.(7), 54–59+43.
魏華忠. (1995).. 大連:遼寧師范大學(xué)出版社.
許丹, 劉黎虹, 林妙蓮, 宋海東. (2013). 兒童孤獨(dú)癥測(cè)驗(yàn)的應(yīng)用研究.(12), 1259–1261.
楊清. (1985).(p. 94, 316). 吉林人民出版社.
張福娟, 賀莉. (2001). 自閉癥兒童的診斷與評(píng)估.(11), 100–101.
張永盛, 呂超. (2013). 自閉癥譜系障礙兒童診斷評(píng)估概況——自閉癥兒童認(rèn)知加工及干預(yù)研究.(4), 116–121.
周念麗, 方俊明. (2008). 自閉癥譜系障礙兒童心理測(cè)評(píng)的回溯與探索.(6), 1330–1333+1312.
*Baduel, S., Guillon, Q., Afzali, M. H., Foudon, N., Kruck, J., & Rogé, B. (2017). The French version of the modified-checklist for autism in toddlers (M-CHAT): A validation study on a French sample of 24 month-old children.,(2), 297–304.
*Carbone, P. S., Campbell, K., Wilkes, J., Stoddard, G. J., Huynh, K., Young, P. C., & Gabrielsen, T. P. (2020). Primary care autism screening and later autism diagnosis.,(2), Article e20192314. https://doi.org/ 10.1542/peds.2019-2314
CDC. (2012). Prevalence of autism spectrum disorders— autism and developmental disabilities monitoring network, 14 sites, United States, 2008.(3), 1–19.
CDC. (2014). Prevalence of autism spectrum disorder among children aged 8 years-autism and developmental disabilities monitoring network, 11 sites, United States, 2010.(2), 1–21.
*Cederlund, M. (2019). Autism Mental Status Examination (AMSE): A valid instrument in the evaluation of pre-school children with suspected autism spectrum disorders?,(7), 2965–2979.
Charman, T., & Gotham, K. (2013). Measurement issues: Screening and diagnostic instruments for autism spectrum disorders–lessons from research and practise.,(1), 52–63.
*Chiang, C. H., Wu, C. C., Hou, Y. M., Chu, C. L., Liu, J. H., & Soong, W. T. (2013). Development of T-STAT for early autism screening.,(5), 1028–1037.
Chlebowski, C., Robins, D. L., Barton, M. L., & Fein, D. (2013). Large-scale use of the modified checklist for autism in low-risk toddlers.,(4), e1121– e1127.
*Choueiri, R., & Wagner, S. (2015). A new interactive screening test for autism spectrum disorders in toddlers.,(2), 460–466.
Cicchetti, D. V. (1994). Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology.(4), 284–290.
Cicchetti, D. V., Volkmar, F., Klin, A., & Showalter, D. (1995). Diagnosing autism using ICD-10 criteria: A comparison of neural networks and standard multivariate procedures.,(1), 26–37.
*Coelho-Medeiros, M. E., Bronstein, J., Aedo, K., Pereira, J. A., Arra?o, V., Perez, C. A., ... Bedregal, P. (2019). M-CHAT-R/F validation as a screening tool for early detection in children with autism spectrum disorder.,(5), 492–499.
Dawson, G., Rogers, S., Munson, J., Smith, M., Winter, J., Greenson, J., ... Varley, J. (2010). Randomized, controlled trial of an intervention for toddlers with autism: The Early Start Denver Model.,(1), 17–23.
Falkmer, T., Anderson, K., Falkmer, M., & Horlin, C. (2013). Diagnostic procedures in autism spectrum disorders: A systematic literature review.,(6), 329–340.
García-Primo, P., Hellendoorn, A., Charman, T., Roeyers, H., Dereu, M., Roge, B., ... Canal-Bedia, R. (2014). Screening for autism spectrum disorders: State of the art in Europe.(11), 1005– 1021.
Gr?nborg, T. K., Schendel, D. E., & Parner, E. T. (2013). Recurrence of autism spectrum disorders in full- and half-siblings and trends over time: A population-based cohort study.(10), 947–953.
Grzadzinski, R., Huerta, M., & Lord, C. (2013). DSM-5 and autism spectrum disorders (ASDs): An opportunity for identifying ASD subtypes.,(1), 1–6.
Guillemin, F., Bombardier, C., & Beaton, D. (1993). Cross-cultural adaptation of health-related quality of life measures: Literature review and proposed guidelines.,(12), 1417–1432.
*Guo, C., Luo, M., Wang, X., Huang, S., Meng, Z., Shao, J., ... Jing, J. (2019). Reliability and validity of the Chinese version of modified checklist for autism in toddlers, revised, with follow-up (M-CHAT-R/F).,(1), 185–196.
*Guthrie, W., Wallis, K., Bennett, A., Brooks, E., Dudley, J., Gerdes, M., ... Miller, J. S. (2019). Accuracy of autism screening in a large pediatric network.,(4), Article e20183963. https://doi.org/10.1542/peds.2018- 3963
Hampton, J., & Strand, P. S. (2015). A review of level 2 parent-report instruments used to screen children aged 1.5–5 for autism: A meta-analytic update.,(8), 2519–2530.
*Havdahl, K. A., von Tetzchner, S., Huerta, M., Lord, C., & Bishop, S. L. (2016). Utility of the child behavior checklist as a screener for autism spectrum disorder.,(1), 33–42.
*Hedley, D., Nevill, R. E., Monroy-Moreno, Y., Fields, N., Wilkins, J., Butter, E., & Mulick, J. A. (2015). Efficacy of the ADEC in identifying autism spectrum disorder in clinically referred toddlers in the US.,(8), 2337–2348.
*Horovitz, M., & Matson, J. L. (2014). The baby and infant screen for children with autism traits-part 1: Age-based scoring procedures.,(1), 1–22.
Inada, N., Koyama, T., Inokuchi, E., Kuroda, M., & Kamio, Y. (2011). Reliability and validity of the Japanese version of the modified checklist for autism in toddlers (M-CHAT).,(1), 330–336.
*Janvier, Y. M., Coffield, C. N., Harris, J. F., Mandell, D. S., & Cidav, Z. (2019). The Developmental Check-In: Development and initial testing of an autism screening tool targeting young children from underserved communities.,(3), 689–698.
*Kamio, Y., Inada, N., Koyama, T., Inokuchi, E., Tsuchiya, K., & Kuroda, M. (2014). Effectiveness of using the modified checklist for autism in toddlers in two-stage screening of autism spectrum disorder at the 18-month health check-up in Japan.,(1), 194–203.
*Kerub, O., Haas, E. J., Meiri, G., Davidovitch, N., & Menashe, I. (2020). A comparison between two screening approaches for ASD among toddlers in Israel.,(5), 1553–1560.
Klein, T. J., Al-Ghasani, T., Al-Ghasani, M, Akbar, A., Tang, E., & Al-Farsi, Y. (2015). A mobile application to screen for autism in Arabic-speaking communities in Oman.S15.
*Koh, H. C., Lim, S. H., Chan, G. J., Lin, M. B., Lim, H. H., Choo, S. H. T., & Magiati, I. (2014). The clinical utility of the modified checklist for autism in toddlers with high risk 18–48 month old children in Singapore.,(2), 405–416.
Landa, R. J., Holman, K. C., & Garrett-Mayer, E. (2007). Social and communication development in toddlers with early and later diagnosis of autism spectrum disorders.,(7), 853–864.
Lecciso, F., Petrocchi, S., Savazzi, F., Marchetti, A., Nobile, M., & Molteni, M. (2013). The association between maternal resolution of the diagnosis of autism, maternal mental representations of the relationship with the child, and children’s attachment.(1), 21– 38.
Le Couteur, A., Haden, G., Hammal, D., & McConachie, H. (2008). Diagnosing autism spectrum disorders in pre-school children using two standardised assessment instruments: The ADI-R and the ADOS.,(2), 362–372.
Leo, M., Carcagnì, P., Distante, C., Mazzeo, P. L., Spagnolo, P., Levante, A., ... Lecciso, F. (2019). Computational analysis of deep visual data for quantifying facial expression production.(21), 4542.
Levy, S. E., Wolfe, A., Coury, D., Duby, J., Farmer, J., Schor, E., ... Warren, Z. (2020). Screening tools for autism spectrum disorder in primary care: A systematic evidence review.,(Suppl. 1), S47–S59.
*Limberg, K., Gruber, K., & Noterdaeme, M. (2017). The German version of the child behavior checklist 1.5–5 to identify children with a risk of autism spectrum disorder.,(3), 368–374.
*Magán-Maganto, M., Canal-Bedia, R., Hernández-Fabián, A., Bejarano-Martín, á., Fernández-álvarez, C. J., Martínez-Velarte, M., ... de la Paz, M. P. (2020). Spanish cultural validation of the modified checklist for autism in toddlers, revised.,(7), 2412–2423.
Mandell, D. S., Morales, K. H., Xie, M., Lawer, L. J., Stahmer, A. C., & Marcus, S. C. (2010). Age of diagnosis among Medicaid-enrolled children with autism, 2001– 2004.(8), 822–829.
Marlow, M., Servili, C., & Tomlinson, M. (2019). A review of screening tools for the identification of autism spectrum disorders and developmental delay in infants and young children: Recommendations for use in low‐and middle-income countries.,(2), 176– 199.
McDonald, S. D., Brown, W. L., Benesek, J. P., & Calhoun, P. S. (2015). A systematic review of the PTSD checklist’s diagnostic accuracy studies using QUADAS.,(5), 413–421.
Moher, D., Liberati, A., Tetzlaff, J., Altman, D. G., & Group, P. (2009). Preferred reporting items for systematic reviews and meta-analyses: The PRISMA statement.(7), e1000097.
*Narzisi, A., Calderoni, S., Maestro, S., Calugi, S., Mottes, E., & Muratori, F. (2013). Child behavior check list 1?–5 as a tool to identify toddlers with autism spectrum disorders: A case-control study.,(4), 1179–1189.
Norris, M., & Lecavalier, L. (2010). Screening accuracy of level 2 autism spectrum disorder rating scales: A review of selected instruments.(4), 263–284.
*Oner, P., Oner, O., & Munir, K. (2014). Three-item direct observation screen (TIDOS) for autism spectrum disorder.,(6), 733–742.
Ozonoff, S., Iosif, A. M., Baguio, F., Cook, I. C., Hill, M. M., Hutman, T., ... Young, G. S. (2010). A prospective study of the emergence of early behavioral signs of autism.,(3), 256–266.
*Paula, C. S., Cunha, G. R., Bordini, D., Brunoni, D., Moya, A. C., Bosa, C. A., ... Cogo-Moreira, H. (2018). Identifying autism with a brief and low-cost screening instrument—OERA: Construct validity, invariance testing, and agreement between judges.,(5), 1780–1791.
*Perera, H., Jeewandara, K. C., Seneviratne, S., & Guruge, C. (2017). Culturally adapted pictorial screening tool for autism spectrum disorder: A new approach.,(1), 45–51.
*Raza, S., Zwaigenbaum, L., Sacrey, L. A. R., Bryson, S., Brian, J., Smith, I. M., ... Garon, N. (2019). Brief report: Evaluation of the short quantitative checklist for autism in toddlers (Q-CHAT-10) as a brief screen for autism spectrum disorder in a high-risk sibling cohort.,(5), 2210–2218.
Reichow, B., Barton, E. E., Boyd, B. A., & Hume, K. (2012). Early intensive behavioral intervention (EIBI) for young children with autism spectrum disorders (ASD).(5),CD009260. https://doi.org/10.1002/14651858.CD009260.pub2
Renty, J., & Roeyers, H. (2006). Satisfaction with formal support and education for children with autism spectrum disorder: The voices of the parents.(3), 371–385.
*Rescorla, L. A., Winder-Patel, B. M., Paterson, S. J., Pandey, J., Wolff, J. J., Schultz, R. T., & Piven, J. (2019). Autism spectrum disorder screening with the CBCL/1?–5: Findings for young children at high risk for autism spectrum disorder.,(1), 29–38.
*Robins, D. L., Casagrande, K., Barton, M., Chen, C. M. A., Dumont-Mathieu, T., & Fein, D. (2014). Validation of the modified checklist for autism in toddlers, revised with follow-up (M-CHAT-R/F).,(1), 37–45.
Robins, D. L., & Dumont-Mathieu, T. M. (2006). Early screening for autism spectrum disorders: Update on the modified checklist for autism in toddlers and other measures.,(2), S111–S119.
*Ruta, L., Chiarotti, F., Arduino, G. M., Apicella, F., Leonardi, E., Maggio, R., ... Muratori, F. (2019). Validation of the quantitative checklist for autism in toddlers in an Italian clinical sample of young children with autism and other developmental disorders.,, 488.
Rutter, C. M., & Gatsonis, C. A. (2001). A hierarchical regression approach to meta‐analysis of diagnostic test accuracy evaluations.,(19), 2865–2884.
*Sacrey, L. A. R., Bryson, S., Zwaigenbaum, L., Brian, J., Smith, I. M., Roberts, W., ... Garon, N. (2018). The autism parent screen for infants: Predicting risk of autism spectrum disorder based on parent-reported behavior observed at 6–24 months of age.,(3), 322–334.
Sánchez-García, A. B., Galindo-Villardón, P., Nieto-Librero, A. B., Martín-Rodero, H., & Robins, D. L. (2019). Toddler screening for autism spectrum disorder: A meta-analysis of diagnostic accuracy.,(5), 1837–1852.
Sappok, T., Heinrich, M., & Underwood, L. (2015). Screening tools for autism spectrum disorders.(1), 12–29.
Sattler, J. M. (2008).(5th ed.). San Diego: Author.
Scott, F. J., Baron-Cohen, S., Bolton, P., & Brayne, C. (2002). The CAST (Childhood Asperger Syndrome Test): Preliminary Development of a UK Screen for Mainstream Primary-School-Age Children.(1), 9–31.
Seif Eldin, A., Habib, D., Noufal, A., Farrag, S., Bazaid, K., Al-Sharbati, M., ... Gaddour, N. (2008). Use of M-CHAT for a multinational screening of young children with autism in the Arab countries.,(3), 281–289.
Siddaway, A. P., Wood, A. M., & Hedges, L. V. (2019). How to do a systematic review: A best practice guide for conducting and reporting narrative reviews, meta-analyses, and meta-syntheses.(1), 747–770.
Soleimani, F., Khakshour, A., Abassi, Z., Khayat, S., Ghaemi, S. Z., Azam, N., & Hajikhani Golchin, N. A. (2014). Review of autism screening tests.,(4.1), 319–329.
Soto, S., Linas, K., Jacobstein, D., Biel, M., Migdal, T., & Anthony, B. J. (2015). A review of cultural adaptations of screening tools for autism spectrum disorders.,(6), 646–661.
*Srisinghasongkram, P., Pruksananonda, C., & Chonchaiya, W. (2016). Two-step screening of the modified checklist for autism in toddlers in Thai children with language delay and typically developing children.,(10), 3317–3329.
*Stenberg, N., Bresnahan, M., Gunnes, N., Hirtz, D., Hornig, M., Lie, K. K., ... Stoltenberg, C. (2014). Identifying children with autism spectrum disorder at 18 months in a general population sample.(3), 255–262.
Stewart, L. A., & Lee, L. C. (2017). Screening for autism spectrum disorder in low-and middle-income countries: A systematic review.,(5), 527–539.
Stout, M. J., Conner, S. N., Colditz, G. A., Macones, G. A., & Tuuli, M. G. (2015). The utility of 12-hour urine collection for the diagnosis of preeclampsia: A systematic review and meta-analysis.,(4), 731–736.
*Sturner, R., Howard, B., Bergmann, P., Morrel, T., Andon, L., Marks, D., ... Landa, R. (2016). Autism screening with online decision support by primary care pediatricians aided by M-CHAT/F.,(3), Article e20153036. https://doi.org/10.1542/peds.2015-3036
Terwee, C. B., Mokkink, L. B., Knol, D. L., Ostelo, R. W., Bouter, L. M., & de Vet, H. C. (2012). Rating the methodological quality in systematic reviews of studies on measurement properties: A scoring system for the COSMIN checklist.,(4), 651–657.
Thabtah, F. (2019). An accessible and efficient autism screening method for behavioural data and predictive analyses.(4), 1739–1755
Thabtah, F., & Peebles, D. (2019). Early autism screening: A comprehensive review.,(18), 3502.
*Toh, T. H., Tan, V. W. Y., Lau, P. S. T., & Kiyu, A. (2018). Accuracy of modified checklist for autism in toddlers (M-CHAT) in detecting autism and other developmental disorders in community clinics.,(1), 28–35.
*Tsai, J. M., Lu, L., Jeng, S. F., Cheong, P. L., Gau, S. S. F., Huang, Y. H., & Wu, Y. T. (2019). Validation of the modified checklist for autism in toddlers, revised with follow-up in Taiwanese toddlers.,, 205–216.
*Turner-Brown, L. M., Baranek, G. T., Reznick, J. S., Watson, L. R., & Crais, E. R. (2013). The first year inventory: A longitudinal follow-up of 12-month-old to 3-year-old children.,(5), 527–540.
Volkmar, F., Siegel, M., Woodbury-Smith, M., King, B., McCracken, J., & State, M. (2014). Practice parameter for the assessment and treatment of children and adolescents with autism spectrum disorder.,(2), 237– 257.
Wallis, K., & Pinto-Martin, J. (2008). The challenge of screening for autism spectrum disorder in a culturally diverse society.,(5), 539–540.
Wang, J., Hedley, D., Bury, S. M., & Barbaro, J. (2020). A systematic review of screening tools for the detection of autism spectrum disorder in mainland China and surrounding regions.,(2), 285–296.
Werner, E., Dawson, G., Munson, J., & Osterling, J. (2005). Variation in early developmental course in autism and its relation with behavioral outcome at 3–4 years of age.,(3), 337–350.
Whiting, P. F., Rutjes, A. W., Westwood, M. E., Mallett, S., Deeks, J. J., Reitsma, J. B., ... Bossuyt, P. M. (2011). QUADAS-2: A revised tool for the quality assessment of diagnostic accuracy studies.,(8), 529–536.
Woolfenden, S., Sarkozy, V., Ridley, G., & Williams, K. (2012). A systematic review of the diagnostic stability of Autism Spectrum Disorder.(1), 345–354.
*Wu, C. C., Chu, C. L., Stewart, L., Chiang, C. H., Hou, Y. M., & Liu, J. H. (2020). The utility of the screening tool for autism in 2-year-olds in detecting autism in Taiwanese toddlers who are less than 24 months of age: A longitudinal study.,, 1172–1181.
Yuen, T., Penner, M., Carter, M. T., Szatmari, P., & Ungar, W. J. (2018). Assessing the accuracy of the modified checklist for autism in toddlers: A systematic review and meta- analysis.,(11), 1093–1100.
*Zahorodny, W., Shenouda, J., Mehta, U., Yee, E., Garcia, P., Rajan, M., & Goldfarb, M. (2018). Preliminary evaluation of a brief autism screener for young children.,(3), 183–191.
*Zhou, H., Li, C., Luo, X., Wu, L., Huang, Y., Zhang, L., ... Wang, Y. (2018). Cross-cultural revision and psychometric properties of the Chinese version of the autism spectrum rating scale (2–5 years).,, 460.
Zhou, W. Z., Ye, A. Y., Sun, Z. K., Tian, H. H., Pu, T. Z., Wu, Y. Y., ... Wei, L. (2014). Statistical analysis of twenty years (1993 to 2012) of data from mainland China’s first intervention center for children with autism spectrum disorder.(1), 1–14.
Zwaigenbaum, L., Bryson, S., Rogers, T., Roberts, W., Brian, J., & Szatmari, P. (2005). Behavioral manifestations of autism in the first year of life.,(2-3), 143–152.
Zwaigenbaum, L., Bauman, M. L., Fein, D., Pierce, K., Buie, T., Davis, P. A., ... Wagner, S. (2015). Early screening of autism spectrum disorder: recommendations for practice and research.(Suppl. 1), S41?S59.
Early screening tools for Autism Spectrum Disorder in infancy and toddlers
CHEN Guanghua1, TAO Guanpeng1, ZHAI Luyu1, BAI Xuejun2
(1College of Preschool & Primary Education, Shenyang Normal University, Shenyang 110034, China)(2Academy of Psychology and Behaviour, Tianjin Normal University, Tianjin 300074, China)
The current study provides a systematic review of screening tools for the early detection of autism in infants and preschool children. A total of thirty-five empirical studies including infants (nine screening tools for a total of 159, 388 children in the sample), and toddlers (14 screening tools for 11, 712 children) met criteria for inclusion. The Quality Assessment of Diagnostic Accuracy Studies-2 (QUADAS-2) checklist was applied to provide a comprehensive understanding for the early identification of autism spectrum risk. The M-CHAT-R/F and PDQ-1 among all other screening tools were rated as good for infants; OERA and TIDOS were evaluated as excellent tools for young children. The classification accuracy of screening tools in early childhood was higher than that in infancy. The M-CHAT-R/F showed as one of the most promising measures. Lastly, we discussed the methodological limitations of QUADAS-2, and emphasized the importance of standardization of the evaluation of screening tools and the necessity of further validation studies for all the measures.
autism spectrum disorder, screening tools, the diagnostic sensitivity and specificity, QUADAS-2
R395
2021-07-15
*2020年遼寧省社會(huì)科學(xué)基金一般項(xiàng)目:自閉癥兒童的家庭照顧和社會(huì)支持體系研究(L20BSH010)。
陳光華, E-mail: ghse@163.com;
白學(xué)軍, E-mail: bxuejun@126.com