呂天薇
【摘要】針對在臨床科研工作中,探討如何正確地抉擇統(tǒng)計分析方法。充分考慮科研工作者的分析目的、臨床科研設(shè)計方法、搜集到的數(shù)據(jù)資料類型、數(shù)據(jù)資料的分布特征與所涉及的數(shù)理統(tǒng)計等條件。并就常見的醫(yī)學(xué)資料統(tǒng)計指標(biāo)的恰當(dāng)描述、統(tǒng)計分析方法的正確選擇和統(tǒng)計結(jié)果的正確表達(dá)等進(jìn)行總結(jié)和討論,以期增強讀者的統(tǒng)計思維。另外特別注意,統(tǒng)計分析方法的選擇應(yīng)在科研的設(shè)計階段來確定下來,而不應(yīng)該在臨床試驗結(jié)束或在數(shù)據(jù)的收集工作已完成之后。
【關(guān)鍵詞】臨床科研 ?統(tǒng)計方法 ?選擇
一、誤用統(tǒng)計方法
誤用統(tǒng)計方法可能使得得到的結(jié)論存在很大誤差或者結(jié)論完全顛倒。統(tǒng)計方法抉擇的條件對臨床科研數(shù)據(jù)進(jìn)行統(tǒng)計分析和進(jìn)行統(tǒng)計方法抉擇時,應(yīng)考慮下列因素:
(一)分析目的
對每位臨床醫(yī)生及臨床流行病醫(yī)生來說,在進(jìn)行統(tǒng)計分析前,一定要明確利用統(tǒng)計方法表達(dá)研究者的什么目的。一般來說,統(tǒng)計方法可分為描述與推斷兩類方法。一是統(tǒng)計描述(descriptive statistics),二是統(tǒng)計推斷(inferential statistics)。
統(tǒng)計描述,即利用統(tǒng)計指標(biāo)、統(tǒng)計或統(tǒng)計表,對數(shù)據(jù)資料所進(jìn)行的最基本的統(tǒng)計分析,使其能反映數(shù)據(jù)資料的基本特征,有利于研究者能準(zhǔn)確、全面地了解數(shù)據(jù)資料所包涵的信息,以便做出科學(xué)的推斷。統(tǒng)計表,如頻數(shù)表、四格表、列聯(lián)表等;統(tǒng)計,如直方、餅,散點等;統(tǒng)計指標(biāo),如均數(shù)、標(biāo)準(zhǔn)差、率及構(gòu)成比等。
統(tǒng)計推斷,即利用樣本所提供的信息對總體進(jìn)行推斷(估計或比較),其中包括參數(shù)估計和假設(shè)檢驗,如可信區(qū)間、t檢驗、方差分析、c2檢驗等,如要分析甲藥治療與乙藥治療兩組的療效是否不相同、不同地區(qū)某病的患病率有無差異等。還有些統(tǒng)計方法,既包含了統(tǒng)計描述也包含了統(tǒng)計推斷的內(nèi)容,如不同變量間的關(guān)系分析。最常見的是相關(guān)分析和回歸分析。相關(guān)分析,可用于研究某些因素間的相互聯(lián)系,以相關(guān)系數(shù)來衡量各因素間相關(guān)的密切程度和方向,如高血脂與冠心病、慢性宮頸炎與宮頸癌等的相關(guān)分析;回歸分析,可用于研究某個因素與另一因素(變量)的依存關(guān)系,即以一個變量去推測另一變量,如利用回歸分析建立起來的回歸方程,可由兒童的年齡推算其體重。
(二)資料類型
醫(yī)學(xué)統(tǒng)計中資料類型的劃分現(xiàn)多采用國際通用的分類方法,將其分為兩類:數(shù)值變量(numerical variable)資料和分類變量(categorical variable)資料。數(shù)值變量是指其值是可以定量或準(zhǔn)確測量的變量,其表現(xiàn)為數(shù)值大小的不同;而分類變量是指其值是無法定量或不能測量的變量,其表現(xiàn)沒有數(shù)值的大小而只有互不相容的類別或?qū)傩?。分類變量又可分為無序分類變量和有序分類變量兩小類,無序分類變量表現(xiàn)為沒有大小之分的屬性或類別,如:性別是兩類無序分類變量,血型是四類無序分類變量;有序分類變量表現(xiàn)為各屬性或類別間有程度之分,如:臨床上某種疾病的“輕、中、重”,治療結(jié)果的“無效、顯效、好轉(zhuǎn)、治愈”。
由此可見,數(shù)值變量資料、無序分類變量資料和有序分類變量資料又可叫做計量資料、計數(shù)資料和等級資料。資料類型的劃分與統(tǒng)計方法的抉擇有關(guān),在多數(shù)情況下不同的資料類型,選擇的統(tǒng)計方法不一樣。如數(shù)值變量資料的比較可選用t檢驗、u檢驗等統(tǒng)計方法;而率的比較多用c2檢驗。值得注意的是,有些臨床科研工作者,常常人為地將數(shù)值變量的結(jié)果轉(zhuǎn)化為分類變量的臨床指標(biāo),然后參與統(tǒng)計分析,如患者的血紅蛋白含量,研究者常用正常、輕度貧血、中度貧血和重度貧血來表示,這樣雖然照顧了臨床工作的習(xí)慣,卻損失了資料所提供的信息量。換言之,在多數(shù)情況下,數(shù)值變量資料提供的信息量最為充分,可進(jìn)行統(tǒng)計分析的手段也較為豐富、經(jīng)典和可靠,與之相比,分變量在這些方面都不如數(shù)值變量資料。因此,在臨床實驗中要盡可能選擇量化的指標(biāo)反映實驗效應(yīng),若確實無法定量時,才選用分類數(shù)據(jù),通常不宜將定量數(shù)據(jù)轉(zhuǎn)變成分類數(shù)據(jù)。
二、分布特征及數(shù)理統(tǒng)計條件
數(shù)理統(tǒng)計和概率論是統(tǒng)計的理論基礎(chǔ)。每種統(tǒng)計方法都要涉及數(shù)理統(tǒng)計公式,而這些數(shù)理統(tǒng)計公式都是在一定條件下推導(dǎo)和建立的。也就是說,只有當(dāng)某個或某些條件滿足時,某個數(shù)理統(tǒng)計公式才成立,反之若不滿足條件時,就不能使用某個數(shù)理統(tǒng)計公式。
在數(shù)理統(tǒng)計公式推導(dǎo)和建立的條件中,涉及最多的是數(shù)據(jù)的分布特征。數(shù)據(jù)的分布特征是指數(shù)據(jù)的數(shù)理統(tǒng)計規(guī)律,許多數(shù)理統(tǒng)計公式都是在特定的分布下推導(dǎo)和建立的。若實際資料服從(符合)某種分布,即可使用該分布所具有的數(shù)理統(tǒng)計規(guī)律來分析和處理該實際資料,反之則不能。在臨床資料的統(tǒng)計分析過程中,涉及得最多的分布有正態(tài)分布、偏態(tài)分布、二項分布等。許多統(tǒng)計方法對資料的分布有要求,如:均數(shù)和標(biāo)準(zhǔn)差、t和u檢驗;方差分析都要求資料服從正態(tài)分布,而中位數(shù)和四分位數(shù)間距、秩和檢驗等,可用于不服從正態(tài)分布的資料。所以,臨床資料的統(tǒng)計分析過程中,應(yīng)考慮資料的分布特征,最起碼的要求是熟悉正態(tài)分布與偏態(tài)分布。
例如:在臨床科研中,許多資料的描述不考慮資料的分布特征,而多選擇均數(shù)與標(biāo)準(zhǔn)差。
如某婦科腫瘤化療前的血象值,資料如下表:
從上結(jié)果可見,若只看三項指標(biāo)的均數(shù)和標(biāo)準(zhǔn)差,臨床醫(yī)生也許不會懷疑有什么問題。但是經(jīng)正態(tài)性檢驗,病人的血紅蛋白服從正態(tài)分布,而血小板和白細(xì)胞兩項指標(biāo)的偏度和峰度系數(shù)均不服從正態(tài)分布(P<0.05)。
因此,描述病人的血小板和白細(xì)胞平均水平正確的指標(biāo)是中位數(shù),而其變異程度應(yīng)使用四分位數(shù)間距。除了數(shù)據(jù)的分布特征外,有些數(shù)理統(tǒng)計公式還有其它一些的條件,如t檢驗和方差分析的方差齊性、卡方檢驗的理論數(shù)(T)大小等。
總之,對于臨床科研工作者來說,為正確地進(jìn)行統(tǒng)計方法的抉擇,首先要掌握或熟悉上述影響統(tǒng)計方法抉擇因素;其次,還應(yīng)熟悉和了解常用統(tǒng)計方法的應(yīng)用條件。
參考文獻(xiàn):
[1]趙清波,徐勇勇.醫(yī)學(xué)論文中的統(tǒng)計表達(dá)[J].中國衛(wèi)生統(tǒng)計,2002,19(3):180-182.