潘岳松
首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院 國家神經(jīng)系統(tǒng)疾病臨床醫(yī)學(xué)研究中心, 北京 100050
近年來,隨著科研人員對臨床研究重視程度的增加,國內(nèi)臨床研究項目迅速增多,而臨床研究過程中會產(chǎn)生大量醫(yī)學(xué)數(shù)據(jù),同時也伴隨出現(xiàn)了研究數(shù)據(jù)質(zhì)量低下與孤島化、研究低效重復(fù)等問題[1]??蒲腥藛T逐漸認識到,規(guī)范、完整、準確地收集數(shù)據(jù)是高質(zhì)量臨床研究項目高效開展必不可少的條件,而此項工作離不開規(guī)范的數(shù)據(jù)管理及質(zhì)量控制。
臨床研究的數(shù)據(jù)管理,是指在臨床研究過程中按照臨床研究方案規(guī)定的流程規(guī)范,完整、準確地采集并錄入數(shù)據(jù),按標準化數(shù)據(jù)庫管理數(shù)據(jù),并對數(shù)據(jù)進行邏輯核查、疑問質(zhì)詢、盲態(tài)審核、數(shù)據(jù)庫鎖定、數(shù)據(jù)傳輸與歸檔的過程[2- 3]。其目的是為臨床研究項目提供可靠的臨床研究數(shù)據(jù),方便后期數(shù)據(jù)統(tǒng)計分析、共享與利用。臨床研究的數(shù)據(jù)管理整體上分為3個階
段,包括研究設(shè)計階段、研究實施階段以及研究數(shù)據(jù)整理階段。在此過程中分別采用標準化的數(shù)據(jù)管理技術(shù)并進行嚴格的質(zhì)量控制,是臨床研究數(shù)據(jù)管理的關(guān)鍵(圖1)。臨床試驗項目,作為一種特殊類型的臨床研究,對數(shù)據(jù)管理與質(zhì)量控制的要求比普通臨床研究項目更為嚴格。針對臨床試驗項目,2016年國家食品藥品監(jiān)督管理總局頒布了《臨床試驗數(shù)據(jù)管理工作技術(shù)指南 (2016年第112號)》[3]和《藥物臨床試驗數(shù)據(jù)管理與統(tǒng)計分析的計劃和報告指導(dǎo)原則(2016年第113號)》[4],加強了對臨床試驗數(shù)據(jù)的管理與質(zhì)量控制。
一項規(guī)范的臨床研究,應(yīng)在設(shè)計研究方案的同時,設(shè)計并制定好數(shù)據(jù)管理制度、流程與實施計劃[5]。數(shù)據(jù)管理計劃是臨床研究數(shù)據(jù)管理工作的綱領(lǐng)性文件,是具體數(shù)據(jù)管理工作的依據(jù),對數(shù)據(jù)管理流程各階段和各環(huán)節(jié)的工作內(nèi)容、操作方法及時間計劃進行總體設(shè)計與規(guī)劃[6- 7]。然后針對各重要環(huán)節(jié),進一步制定相應(yīng)詳細的標準操作規(guī)程(standard operating procedures, SOP),作為具體實施的依據(jù)[8]。
1.2.1 基本設(shè)計原則
臨床病例報告表(case report form, CRF)是臨床研究數(shù)據(jù)采集最主要的工具,CRF設(shè)計的好壞直接影響研究數(shù)據(jù)采集質(zhì)量的高低。好的臨床研究數(shù)據(jù)管理始于研究設(shè)計階段,即在設(shè)計研究方案和CRF時即體現(xiàn)數(shù)據(jù)的采集與管理過程。如果CRF的條目與選項設(shè)置不合理,則無論后面的數(shù)據(jù)管理過程多么嚴格,均得不到正確的數(shù)據(jù)。CRF的合理設(shè)計,與數(shù)據(jù)采集、錄入、核查以及后期的統(tǒng)計分析均息息相關(guān)[9]。從數(shù)據(jù)管理角度審核CRF的設(shè)計,使其更趨于合理,將大大降低后期數(shù)據(jù)管理與統(tǒng)計分析的難度,提高研究效率。
CRF的條目與版面設(shè)計需符合臨床工作習(xí)慣,以使數(shù)據(jù)的采集更加清晰和順暢,不容易出現(xiàn)紕漏和混亂。臨床研究最好的數(shù)據(jù)采集流程應(yīng)是根據(jù)現(xiàn)有的臨床工作或患者就診時間順序及習(xí)慣來確定,在患者就診不同時段分別收集相應(yīng)的信息。比如,在門急診時收集患者基本信息、既往史、急救與轉(zhuǎn)運相關(guān)信息;在收入院后收集入院當天的住院基本信息;在住院期間或出院前收集輔助檢查、用藥情況、并發(fā)癥信息、最終診斷、出院時狀態(tài)及出院帶藥等信息;在隨訪時收集臨床結(jié)局、預(yù)后及隨訪期間用藥等信息。
1.2.2 注意事項
(1)CRF問題的設(shè)置應(yīng)易于理解、不存在歧義,使臨床研究的不同參與者(研究者、研究協(xié)調(diào)員、監(jiān)查員、數(shù)據(jù)管理員及統(tǒng)計人員)對同一個問題的理解一致,才能保證數(shù)據(jù)收集準確可靠。為方便填寫過程中正確理解,應(yīng)編寫完整的填寫說明,必要時可配以影像等圖片說明,放在問題之后,或印于CRF的背面。
圖 1 臨床研究數(shù)據(jù)管理流程
(2)問題條目的設(shè)置做到全面且簡潔,即應(yīng)包括后期統(tǒng)計分析時可能用到的全部變量,但多余的變量應(yīng)全部刪除。
(3)一次只問一個問題,不使用容易引起思維混亂的復(fù)合問句,如“患者是否吸煙飲酒?”,而拆分為 “患者是否吸煙?”和“患者是否飲酒?” 兩個問題。
(4)數(shù)據(jù)的格式主要有數(shù)值型、日期/時間型、文本型與自定義型。在設(shè)計CRF時盡可能采用數(shù)值型,將問題轉(zhuǎn)化成選擇題或直接填入數(shù)據(jù)(如化驗指標值)的形式,而盡量少用文本型格式。這樣將方便后期進行數(shù)據(jù)管理與統(tǒng)計分析。
(5)選擇題的答案選項應(yīng)具詳盡性(exhaustive)和互斥性(exclusive),即包含所有可能的答案,如果還有其他可能的答案,應(yīng)設(shè)置 “其他”、“不詳”及“不適用”等選項,以適合所有患者勾選;同時,選項應(yīng)相互之間不重疊,對于每個患者,僅有一個選項適合其勾選。
變量及其屬性作為數(shù)據(jù)管理的最基本單位,其集合即為數(shù)據(jù)字典。在臨床研究開始前,應(yīng)參考國際標準,編寫標準化的通用數(shù)據(jù)單元,建立數(shù)據(jù)字典。多個研究項目應(yīng)按照數(shù)據(jù)字典建立編碼說明書,統(tǒng)一CRF的變量規(guī)則,對每一變量的命名規(guī)則、數(shù)據(jù)類型、變量標簽和編碼規(guī)則進行統(tǒng)一、明確的規(guī)定(表1)。基于統(tǒng)一的標準化通用數(shù)據(jù)單元建立數(shù)據(jù)字典,可極大方便數(shù)據(jù)庫的統(tǒng)一管理并實現(xiàn)多個項目間的數(shù)據(jù)對接,使多個臨床研究項目的數(shù)據(jù)得以分享,就像來自不同文化、不同地區(qū)的人們可以使用普通話進行交流一樣,這是多中心數(shù)據(jù)共享、打破“信息孤島”的基礎(chǔ)。
結(jié)合使用習(xí)慣,變量名可采用“模塊名+變量英文縮寫”的方式進行命名。變量的命名盡量做到自明性,即通過變量名可方便地理解此變量所代表的意義。如,變量“H_DM”代表患者既往是否患有糖尿病。在完成編碼說明書后,應(yīng)根據(jù)編碼說明書進行CRF的注釋,即在空白CRF中標注各數(shù)據(jù)項的位置及其在對應(yīng)數(shù)據(jù)庫中的變量名和編碼。注釋CRF作為數(shù)據(jù)庫與CRF之間的聯(lián)系紐帶,可幫助數(shù)據(jù)管理員、統(tǒng)計人員及其他數(shù)據(jù)使用方了解數(shù)據(jù)庫。清晰地注釋CRF,可極大方便后期數(shù)據(jù)管理與統(tǒng)計分析。
數(shù)據(jù)庫的合理構(gòu)建是數(shù)據(jù)管理最重要的環(huán)節(jié)之一。結(jié)構(gòu)式數(shù)據(jù)庫的基本形式是一行代表一例患者,一列代表一個變量。對于同一例患者多次測量的指標,可在變量名后加上一些后綴進行區(qū)分,如“SBP1”、“SBP2”和“SBP3”分別表示3次收縮壓值。
目前,大部分臨床研究通常采用電子數(shù)據(jù)采集與管理系統(tǒng)建立研究數(shù)據(jù)庫,通過數(shù)據(jù)庫實現(xiàn)對數(shù)據(jù)進行規(guī)范管理與質(zhì)量控制[10- 11]。通過電子數(shù)據(jù)庫,可實現(xiàn)和優(yōu)化數(shù)據(jù)錄入時的邏輯控制,達到數(shù)據(jù)管理與質(zhì)量控制的要求。比如為了避免缺失值,可將一些重要的變量設(shè)置為必填項,如果不填寫就無法提交數(shù)據(jù);對于年齡、血壓及生化指標等,可設(shè)置取值范圍限制,如將年齡變量設(shè)置成“18~120歲之間”,不在此范圍內(nèi)者無法錄入,并對年齡介于100~120歲者進行軟錯誤提示,但經(jīng)研究者判斷后仍可錄入;對于有關(guān)聯(lián)的變量,如是否有高血壓與是否使用降壓藥兩個變量,其間設(shè)置邏輯關(guān)系驗證。
數(shù)據(jù)庫管理系統(tǒng)應(yīng)具備可溯源性,對數(shù)據(jù)進行的任何更改或更正均應(yīng)簽字、注明日期并解釋原因,并記錄數(shù)據(jù)修改留痕。此外,電子數(shù)據(jù)庫還應(yīng)能實現(xiàn)雙份錄入、實時糾錯、在線數(shù)據(jù)傳送、設(shè)置多角色功能(實現(xiàn)不同角色具有不同的工作內(nèi)容與任務(wù))等。對于藥物臨床試驗,國家食品藥品監(jiān)督管理總局頒布了《臨床試驗的電子數(shù)據(jù)采集技術(shù)指導(dǎo)原則 (2016年第114號)》[12],對電子數(shù)據(jù)采集技術(shù)的基本要求,如電子CRF構(gòu)建、系統(tǒng)設(shè)置、數(shù)據(jù)的安全性與權(quán)限控制、用戶測試、數(shù)據(jù)錄入、數(shù)據(jù)核查、數(shù)據(jù)質(zhì)疑管理、數(shù)據(jù)鎖庫、數(shù)據(jù)導(dǎo)出等作了詳細的要求與規(guī)定。
表 1 編碼說明書舉例
數(shù)據(jù)采集過程,在有知情同意的情況下,通常由經(jīng)統(tǒng)一培訓(xùn)的研究護士或研究助理按照事先制定的研究者手冊及SOP進行采集。在此期間,獨立第三方監(jiān)查員對數(shù)據(jù)的實時監(jiān)查,為保證數(shù)據(jù)采集的準確性和完整性起到了關(guān)鍵作用。
第三方監(jiān)查員的任務(wù)是保證研究遵循研究方案進行,研究記錄及報告數(shù)據(jù)及時填寫、并準確完整。其主要審核的內(nèi)容包括但不限于[13- 14]:(1)納入排除標準:實際入組的研究病例與方案規(guī)定的納入排除標準符合情況;(2)重要時間窗:研究對象入組、用藥、隨訪是否在方案規(guī)定的時間窗內(nèi)完成;(3)CRF填寫:確認所有的數(shù)據(jù)記錄正確完整、字跡清晰整潔、無項目遺漏,并與原始資料一致,所有數(shù)據(jù)填寫的錯誤或遺漏(如數(shù)據(jù)缺失、異常值、邏輯關(guān)系錯誤)均已改正或注明,經(jīng)研究者簽名,并注明日期;(4)用藥:劑量改變、治療變更、合并用藥、間發(fā)疾病等均應(yīng)確認并記錄;(5)不良事件:確認研究期間發(fā)生的所有不良事件均已記錄在案,嚴重不良事件在規(guī)定時間內(nèi)作出報告,并記錄在案;(6)退出/失訪:核實入選受試者的退出與失訪,確認并記錄;(7)疑問質(zhì)詢:確認研究期間所有數(shù)據(jù)疑問質(zhì)詢的填寫與回復(fù)是否及時。
為便于后期數(shù)據(jù)查對,所有數(shù)據(jù)修改應(yīng)留痕。如為紙版CRF,更正記錄或填寫錯誤時不應(yīng)改變原始數(shù)據(jù),而應(yīng)采用附加敘述,在原始錯誤之處劃一條線并在旁邊寫上正確數(shù)據(jù),同時寫上修改理由,記錄修改人員及修改時間。如采用電子數(shù)據(jù)庫,則數(shù)據(jù)庫系統(tǒng)應(yīng)具有留痕功能,記錄修改前的數(shù)據(jù)、修改理由、修改人員及日期等信息。
為避免數(shù)據(jù)錄入過程中發(fā)生數(shù)據(jù)錯誤,一般要求由雙人背靠背錄入雙份,如果兩人錄入不一致,應(yīng)核對原始數(shù)據(jù)后再錄入正確的數(shù)據(jù)。參與錄入的人員,需進行必要錄入培訓(xùn),包括熟悉項目背景、CRF的結(jié)構(gòu)與編碼、數(shù)據(jù)庫錄入操作及錄入的SOP。
在研究過程中,研究者也可安排相關(guān)數(shù)據(jù)管理的質(zhì)量控制。比如,審核數(shù)據(jù)填寫是否有遺漏或存在主要錯誤、指定訪視的所有表格是否均已填寫、關(guān)鍵變量的值在否在允許范圍內(nèi)且無邏輯錯誤等[15]。必要時,可由數(shù)據(jù)管理員定期描述關(guān)鍵變量的分布情況以發(fā)現(xiàn)是否存在異常值,或生成相應(yīng)的數(shù)據(jù)匯總表格以發(fā)現(xiàn)可能潛在的數(shù)據(jù)錯誤[16]。當然,如果是隨機對照盲法的臨床試驗研究,數(shù)據(jù)的匯總與初步分析需要在盲態(tài)下進行。
在數(shù)據(jù)錄入完成后,導(dǎo)出的數(shù)據(jù)庫并不可以直接用于數(shù)據(jù)統(tǒng)計分析。在此期間需要進行數(shù)據(jù)核查與清理,這是保證數(shù)據(jù)質(zhì)量的最后一道關(guān)卡。數(shù)據(jù)核查與清理是指由項目數(shù)據(jù)管理員對CRF中的各指標的數(shù)值和相互關(guān)系根據(jù)研究方案要求進行核查,對于存在缺失、邏輯矛盾、錯誤或不能確定的數(shù)據(jù),以疑問表的形式由研究監(jiān)查員傳遞給研究者,讓研究者對疑問作出回答,經(jīng)核實后再對數(shù)據(jù)庫數(shù)據(jù)進行修訂的過程。數(shù)據(jù)核查與清理的過程一般由數(shù)據(jù)管理員按數(shù)據(jù)核查計劃內(nèi)容編寫數(shù)據(jù)核查程序,導(dǎo)出可能潛在的數(shù)據(jù)錯誤或疑問。數(shù)據(jù)核查與清理發(fā)現(xiàn)的任何問題,均應(yīng)及時通知監(jiān)查員,要求研究者作出回答。各種疑問及解答應(yīng)應(yīng)用疑問表,包括要求對數(shù)據(jù)的補充和復(fù)核等。所有疑問表和錯誤數(shù)據(jù)內(nèi)容及修改結(jié)果應(yīng)有詳細記錄并妥善保存。
數(shù)據(jù)核查與清理的內(nèi)容包括但不限于以下方面[17]:(1)數(shù)據(jù)取值范圍:如性別變量“1=男,2=女”,如果數(shù)據(jù)庫出現(xiàn)取值為3,則存在數(shù)據(jù)錯誤;一項普通人群的研究,空腹血糖值可設(shè)為3~12 mmol/L,超出此范圍的數(shù)據(jù)需進一步進行數(shù)據(jù)疑問質(zhì)詢與核實。(2)異常值核實:可通過對關(guān)鍵變量進行簡單的描述性統(tǒng)計,分析變量的頻數(shù)分布表、最大值、最小值、百分位數(shù)、莖葉圖等以發(fā)現(xiàn)異常值;或以指標值超出均數(shù)±2個標準差作為上、下警戒值;亦可由臨床醫(yī)生根據(jù)臨床經(jīng)驗確定警戒值,如血壓超出40~230 mm Hg設(shè)置設(shè)為警戒值,需進一步進行數(shù)據(jù)疑問質(zhì)詢與核實。(3)變量間的邏輯關(guān)系矛盾核實:如某患者年齡為17歲, 同時婚姻狀況為已婚,一般情況下需進一步核實。(4)缺失數(shù)據(jù):年齡、性別及其他關(guān)鍵變量缺失需通過疑問質(zhì)詢進行補充。(5)關(guān)鍵日期與時間的核實:是否在方案規(guī)定的日期內(nèi)完成,隨訪日期是否在入組和出院時間之后等。
在數(shù)據(jù)核查后,還有幾項重要工作需要完成,即生成關(guān)鍵新變量、醫(yī)學(xué)編碼與去隱私化處理。
3.2.1 生成關(guān)鍵新變量
對于數(shù)據(jù)庫后期統(tǒng)計分析經(jīng)常會用到的關(guān)鍵變量,需進行整理或生成關(guān)鍵新變量。如由出生日期計算出年齡;由身高、體重計算出體質(zhì)量指數(shù),并按正常、超重、肥胖將變量進行分組;多次隨訪結(jié)局數(shù)據(jù),需將多次隨訪信息進行匯總生成這段時間內(nèi)總體是否發(fā)生結(jié)局事件以及事件發(fā)生時間的變量,以滿足后期生存分析的需要。
3.2.2 醫(yī)學(xué)編碼
臨床試驗中收集的病史、不良事件、伴隨藥物治療應(yīng)在鎖庫前完成醫(yī)學(xué)編碼。通常建議使用標準的字典進行編碼,如使用國際醫(yī)學(xué)用語詞典、世界衛(wèi)生組織(World Health Organization,WHO)不良反應(yīng)術(shù)語集、WHO藥物詞典等常用術(shù)語集。
3.2.3 去隱私化處理
根據(jù)健康保險隱私及責任法案的要求,臨床研究對象的個人隱私應(yīng)得到充分保護,任何包含個人身份信息的數(shù)據(jù)字段應(yīng)在數(shù)據(jù)共享前從數(shù)據(jù)庫中刪除。個人識別信息可以保存在單獨的文件中,由專人保管。共享的數(shù)據(jù)庫中僅有唯一的研究對象識別代碼,其他人不能從中識別出具體患者的身份信息。
在數(shù)據(jù)清理完成后,由主要研究者、生物統(tǒng)計學(xué)家、數(shù)據(jù)管理員和申辦者共同對數(shù)據(jù)庫內(nèi)數(shù)據(jù)進行核對和評價,對脫落病例、主要療效、安全性等數(shù)據(jù)進行確認和盲態(tài)審核。在盲態(tài)審核認為所建立的數(shù)據(jù)庫正確,所有數(shù)據(jù)疑問質(zhì)詢均已進行澄清和解答后,對數(shù)據(jù)庫進行鎖定。鎖定后的數(shù)據(jù)文件不允許再作變動,以防止產(chǎn)生誤操作及未經(jīng)授權(quán)的修改。將鎖定后的數(shù)據(jù)庫進行數(shù)據(jù)傳遞或交統(tǒng)計分析人員進行統(tǒng)計分析。
臨床研究的數(shù)據(jù)管理與質(zhì)量控制應(yīng)從研究設(shè)計開始,并貫穿于研究的整個過程??傮w上,臨床研究的數(shù)據(jù)管理包括三級質(zhì)量控制,應(yīng)緊抓CRF設(shè)計、數(shù)據(jù)庫的構(gòu)建與邏輯審核、實施過程中的數(shù)據(jù)監(jiān)查、錄入完成后的數(shù)據(jù)核查與清理等關(guān)鍵環(huán)節(jié),提高臨床研究數(shù)據(jù)的完整性和準確性,從而提高整體臨床研究質(zhì)量。