醫(yī)學科技論文中常見統(tǒng)計學問題分析及建議

2021-01-06 03:33:37王雅潔李亞琴

護理研究 2021年10期

王雅潔，李亞琴

1.山西醫(yī)學期刊社,山西030001；2.山西醫(yī)科大學第一醫(yī)院

醫(yī)學統(tǒng)計學是現(xiàn)代醫(yī)學研究的重要方法和技術手段，是醫(yī)學科研論文中不可或缺的部分，其應用水平直接影響科研成果的質量[1]。醫(yī)學科研人員在撰寫論文時若未能仔細鉆研流行病學和衛(wèi)生統(tǒng)計學等專業(yè)知識，或未咨詢專業(yè)統(tǒng)計學研究人員，盲目套用統(tǒng)計學方法，往往會造成應用統(tǒng)計學方法及處理數(shù)據(jù)時出現(xiàn)錯誤，如變量選擇和納入、模型選擇、結果描述等錯用情況發(fā)生。在醫(yī)學研究設計、數(shù)據(jù)收集、數(shù)據(jù)整理、結果解釋和表達等環(huán)節(jié)均有可能存在統(tǒng)計學應用不當?shù)膯栴}[2‐5]。就已發(fā)表的醫(yī)學科技論文來看，研究設計環(huán)節(jié)中存在的問題在審稿時比較容易被識別，且大部分存在科研設計缺陷的論文在審稿階段已濾除，而運用統(tǒng)計學方法分析資料，應用統(tǒng)計學軟件實現(xiàn)數(shù)據(jù)管理和分析，正確解釋和表達統(tǒng)計分析結果等問題則往往比較隱蔽，這部分問題在進入編輯修稿階段才顯現(xiàn)。編輯修稿階段是論文出版前的最后質量控制環(huán)節(jié)，編輯對論文統(tǒng)計學問題的審核把關起著至關重要的作用，因此，需要期刊編輯具有過硬的專業(yè)知識、嚴謹?shù)闹螌W態(tài)度及高度的責任心處理遺留錯誤，特別是有些疑難問題往往需要專業(yè)統(tǒng)計學人員介入進行判斷。已有調查顯示，1990 年—2003 年發(fā) 表在N Engl J Med、JAMA和Lancet三大頂尖醫(yī)學雜志上且引用次數(shù)超過1 000 次的文獻中，有近1/3 的文獻存在統(tǒng)計學問題[6‐7]。可見統(tǒng)計學誤用、錯用問題在醫(yī)學期刊中相對較多。因此，對于醫(yī)學期刊社而言，強調在論文審稿階段邀請統(tǒng)計專業(yè)審稿專家進行統(tǒng)計方面把關十分重要?，F(xiàn)就醫(yī)學論文中常見的統(tǒng)計學問題及可能的避免方法分析如下，以饗同道共勉。

1 描述性分析時存在的統(tǒng)計學問題

定量資料中的連續(xù)性資料一般采用集中趨勢加離散趨勢形式描述，例如均數(shù)±標準差（±s）及中位數(shù)（四分位數(shù)間距）。目前，絕大部分文獻統(tǒng)計描述都以均數(shù)±標準差形式進行，研究者往往未檢驗所研究指標數(shù)據(jù)的正態(tài)性，而理所應當?shù)貙?shù)據(jù)以正態(tài)方式進行呈現(xiàn)，忽略了非正態(tài)分布數(shù)據(jù)應當采用中位數(shù)（四分位數(shù)間距）的形式來描述比較妥當，這樣的錯誤使用可能會讓讀者對數(shù)據(jù)總體分布造成錯誤判斷。

此外，某些研究中研究者會采用均數(shù)±標準誤進行統(tǒng)計描述。一方面，可能是因為研究者對標準誤和標準差的具體含義辨識不準確，樣本標準差是用來描述正態(tài)分布數(shù)據(jù)離散程度的統(tǒng)計量，是將方差開平方即得到的標準差；而樣本標準誤是指樣本均數(shù)的標準差，是一個統(tǒng)計推斷的指標，用于將統(tǒng)計量推斷到總體參數(shù)。另一方面，由于樣本標準誤一般比標準差小，出于使研究結果看上去更具優(yōu)勢考慮，研究者會使用標準誤代替標準差。

2 統(tǒng)計分析方法不滿足假設條件

2.1 不滿足參數(shù)檢驗的數(shù)據(jù)采用了參數(shù)檢驗方法

2.1.1 不滿足正態(tài)性在進行兩組或多組定量資料參數(shù)檢驗時，相比于獨立性和方差齊性，數(shù)據(jù)正態(tài)性往往容易被忽視。首先需注意，獨立樣本t檢驗或方差分析對正態(tài)分布的要求有一定耐性。如果原數(shù)據(jù)或經(jīng)變換后數(shù)據(jù)不是嚴重地偏離正態(tài)分布，且樣本量比較大，仍可以采用參數(shù)檢驗方法。但如果原數(shù)據(jù)或經(jīng)變換后數(shù)據(jù)偏態(tài)嚴重，且樣本量不大，不建議使用參數(shù)檢驗方法，推薦采用非參數(shù)檢驗對數(shù)據(jù)進行統(tǒng)計分析。但當樣本量很大時（如＞200），即使呈兩點分布或指數(shù)分布，其樣本t統(tǒng)計量也近似服從正態(tài)分布[8]。在這種情況下，選用參數(shù)檢驗或非參數(shù)檢驗均可。

2.1.2 重復測量數(shù)據(jù) 對于重復測量數(shù)據(jù)的分析方法，大部分科研工作者首先想到的是重復測量方差分析[9],其具有結果呈現(xiàn)形式簡單、易于解釋的優(yōu)點，但其前提條件相對較多且通常不易滿足。比如需要平衡數(shù)據(jù)，這就要求所有觀測不能有缺失值，否則相應的觀測對象需要被刪除。此外，重復測量方差分析還要求相應變量之間的等相關性以及資料的球形對稱性（可以理解為復雜情況下的方差齊性），若這些條件不滿足，參數(shù)檢驗的方法將不再適用，只能采用邊際多層模型或線性混合模型等進行分析。

2.2 不滿足卡方檢驗條件的數(shù)據(jù)采用了卡方檢驗兩獨立樣本四格表資料的卡方檢驗要求總例數(shù)n≥40 且理論頻數(shù)T≥5[10]。若n≥40，且T為1～＜5，采用連續(xù)校正的卡方或Fisher 精確概率法進行檢驗；若n＜40 或T＜1，則采用Fisher 精確概率法進行檢驗。配對四格表資料卡方檢驗要求不一致對子b+c≥40，否則采用校正卡方檢驗。R×C 表資料卡方檢驗中要求不宜有1/5 以上的格子T＜5，不宜有格子T＜1，否則需采用Fisher 精確概率法進行統(tǒng)計分析。

2.3 不滿足線性回歸條件的數(shù)據(jù)采用了線性回歸分析線性回歸模型的前提條件包括線性、獨立性、正態(tài)性和方差齊性。其中，線性是指因變量的總體平均值與自變量呈線性關系?？梢酝ㄟ^繪制散點圖判斷回歸關系是否成立[11]。獨立性是指任意2 條記錄互相獨立。正態(tài)性是指模型的誤差項需服從正態(tài)分布（等價于當自變量X為定值時因變量Y也呈正態(tài)分布），而在樣本量較大時可以忽略正態(tài)性要求。方差齊性是指在自變量X的取值范圍內，不論X取什么值，Y都具有相同的方差，等價于殘差的方差齊性。需要注意的是，線性、正態(tài)性和方差齊性通常通過繪制散點圖或正態(tài)概率圖等即可快速判斷，但獨立性往往容易被研究人員忽視，即納入分析的研究對象不應有多條記錄，如果有部分研究對象有多條記錄，則應只保留一條記錄，否則不能采用線性回歸模型進行分析，只能改用混合效應模型進行分析。同時，還需注意，如果是多因素回歸分析，則上述線性、正態(tài)性和方差齊性的條件應在各變量和因變量之間均得以滿足。

3 結果闡釋時存在的問題

3.1 受制于P值，未按常用界值對數(shù)據(jù)進行劃分在進行多元回歸分析之前，比較可取的是先進行單因素回歸分析。如某單因素為連續(xù)型變量，且已知其為結局變量的危險因素可能性較大，若將其直接納入模型進行單因素回歸分析，則可能發(fā)現(xiàn)其回歸系數(shù)β 無統(tǒng)計學意義（P＞0.05），這時某些研究者可能會采用將連續(xù)型變量分類的方式以獲得較好結果，可能為得到較小的P值而未采用常用的有意義界值進行劃分，如在研究血壓對某種慢性病的影響時，未按照臨床定義的高血壓界定值對血壓值進行分類，而是以在數(shù)據(jù)分析時獲得最小P值為目標取最佳截斷值進行分析，這種方法會使結果產(chǎn)生較大偏倚。因此，在實際運用時應盡量按照臨床上常用分類標準對連續(xù)型變量進行分類。

3.2 對沒有統(tǒng)計學意義的結果進行過分闡釋醫(yī)學研究中常常會獲得P＞0.05 的結果，此時若以α=0.05為檢驗水準則表示結果不能拒絕H0假設，但也不能下結論說H0成立[12]。如研究某因素與阿爾茲海默病間的關系時，通過多因素回歸分析發(fā)現(xiàn)回歸系數(shù)的P＞0.05，此時可以認為這個回歸結果不具有統(tǒng)計學意義，但在結果討論中不能以此下結論認為該因素與阿爾茲海默病無關，甚至以此來推翻之前的研究結論。因為在假設檢驗中，利用反證法思想是以假設H0成立來進行推導，若能推導出原假設不成立的結果，則可以推翻原假設而證明H1成立，但如果推導出H0成立，則并不能做出任何判斷，只能說明以目前結果尚不能拒絕H0，而后應該思考是否是因為實驗樣本量不夠或是統(tǒng)計效能不夠，以在將來進行進一步探究。

3.3 有統(tǒng)計學意義的結果不一定有實際臨床意義

臨床實踐中，兩組或多組差異有統(tǒng)計學意義不一定說明差異具有臨床意義，判斷是否具有實際臨床意義需要結合研究背景和相關臨床專業(yè)知識[13]。最經(jīng)典的例子是研究某種降壓藥的降壓效果。臨床上一般認為要使血壓降低10 mmHg（1 mmHg=0.133 kPa）以上才能認為具有臨床意義，而如果研究樣本量較大，即使試驗組和對照組間血壓相差不到10 mmHg，也非常有可能得到P＜0.05 的結果，從而得出該藥具有好的臨床應用價值這一不正確結論。再如，臨床研究較重視病人生活質量評價，尤其對心理狀況進行評價時一般采用相關量表進行測評，對量表測評結果進行統(tǒng)計學分析時得出有統(tǒng)計學意義（P＜0.05），在分析時直接推斷出某干預方法比另一種方法更有效，而未考慮研究對象干預前水平，可能造成研究結論科學性不足。因此，在進行相關療效評價時，不能僅依據(jù)結果是否有統(tǒng)計學意義，生物學意義才是最重要的。

3.4 在不直接進行比較的情況下判斷兩組治療效果優(yōu)劣干預在試驗條件或試驗組中產(chǎn)生了顯著效果，而相應的效果在對照條件或對照組中不顯著，研究人員有時會提出試驗組效果比對照組效果要好[14]。這種錯誤推斷很常見。如觀察A 藥和B 藥的治療效果，采用自身前后配對設計，得到的結果是A 藥治療前后配對t檢驗差異有統(tǒng)計學意義（P＜0.05），而B 藥治療前后差異沒有統(tǒng)計學意義（P＞0.05）。此時，只能下“A藥在其受試者中觀察到顯著藥效，而B 藥在其受試者中未觀察到顯著藥效”的結論,但不能就此認為A 藥治療效果優(yōu)于B 藥。要了解兩組治療效果的差異，需要按非配對t檢驗對兩組進行直接比較。

另外，還有一種情況，即在進行多組均值或率的比較時，如果已知A 組效應優(yōu)于B 組（P＜0.05），而B 組效應和C 組效應差異無統(tǒng)計學意義（P＞0.05），此時不能按照數(shù)學邏輯進行推導，得出“A 組效應同樣優(yōu)于C組”的錯誤結論。正確做法應當是將A 組和C 組直接進行比較。

4 可能避免統(tǒng)計學錯誤的方法及建議

4.1 根據(jù)研究目的選擇適宜的統(tǒng)計分析方法統(tǒng)計學方法的運用需要考慮其前提條件[15‐16]。若在實際應用過程中忽視了這些條件，所得出的結果往往可能也是錯誤的。所以在應用模型及檢驗方法時需要特別注意其應用條件。參數(shù)檢驗及大部分模型多要求正態(tài)性及獨立性[17]。在應用前需對數(shù)據(jù)進行正態(tài)性檢驗，若不滿足正態(tài)性，可以考慮通過對數(shù)轉換、平方根轉換及平方根反正弦變換等方法使數(shù)據(jù)轉換成正態(tài)以滿足應用條件。若無法轉換為正態(tài)性數(shù)據(jù)則可采用秩轉換的非參數(shù)檢驗方法。而在卡方檢驗中，若不滿足適用條件可考慮采用合適的合并方法[18]。

4.2 切勿過分受制于P值P值是最常用的統(tǒng)計指標[19‐20]，科研設計通常會利用P值得出結論，但若過分關注P值，依據(jù)P值處理數(shù)據(jù)或進行相關結果解釋，有時會得出不恰當或錯誤結論。P值小于既定檢驗水準不等同于該項結果就具有臨床或者實際意義。同理，P值大于檢驗水準也并不能說明該項結果無效。在實際數(shù)據(jù)分析及結果解釋時應客觀分析而不是受制于P值，目前，越來越多地提倡用效應值加95%置信區(qū)間來表達結果[20]，這樣既能進行結果比較，也可以觀察到是否具有臨床實際指導意義。

4.3 科學地解釋統(tǒng)計結果不同研究設計類型要求的統(tǒng)計方法不同，結果解釋存在一定差異，這是一個在實際工作中常被忽略但卻至關重要的問題。首先，需正確理解假設檢驗結果。“差異有統(tǒng)計學意義”并不意味著在醫(yī)學專業(yè)上就是“重要”的。相關系數(shù)的假設檢驗只能說明相關關系是否有統(tǒng)計學意義，既不能說明相關關系是否密切，也不能說明相關關系是否具有醫(yī)學專業(yè)上的某種意義。其次，需正確解釋不同研究類型數(shù)據(jù)分析結果。觀察性研究本身已經(jīng)決定了研究結論的局限性；實驗性研究能夠較好地控制各種混雜因素，對于嚴謹設計的實驗性研究，結論通常較為可靠，但要注意臨床試驗對象是人時，存在諸多心理（如安慰劑效應和霍桑效應）以及倫理問題的局限，下結論時需特別謹慎。最后，需正確解釋不同單位數(shù)據(jù)分析結果。對于研究對象基于學校、單位或地區(qū)等水平的匯總數(shù)據(jù)所進行的分析，如果在個人水平上下結論，就需特別嚴謹，注意因果推論時的邏輯性和正確性。

5 小結

隨著醫(yī)學科研的快速發(fā)展，不論是科研設計本身的合理精確性，還是學術論文表達的嚴謹性，都需要建立在高度嚴謹?shù)闹螌W態(tài)度及淵博學識的理論基礎上。醫(yī)學期刊編輯在論文統(tǒng)計學問題把關中起著舉足輕重的作用，編輯在退修稿件時應對統(tǒng)計學描述和統(tǒng)計學分析中可能存在的問題進行全面審核，必要時協(xié)助作者查找錯誤，提出中肯修改建議，如統(tǒng)計學描述是否完整、描述是否和實際一致、統(tǒng)計方法是否恰當、統(tǒng)計結果的解釋和表達是否準確規(guī)范等[21]。統(tǒng)計學作為一門應用科學，在實踐應用中不能脫離醫(yī)學背景，必須緊密結合醫(yī)學專業(yè)的實際問題分析判斷，學習醫(yī)學統(tǒng)計學的最終目的是應用統(tǒng)計思維和統(tǒng)計方法分析和解釋醫(yī)學中的實際問題，是以方法學的角色介入醫(yī)學研究領域，也是為醫(yī)學科研發(fā)展保駕護航的工具。醫(yī)學統(tǒng)計學中的每個數(shù)據(jù)都有其特定的專業(yè)含義，而不是抽象的機械數(shù)據(jù)，計算機軟件并不能識別數(shù)據(jù)的真正含義，無法確定數(shù)據(jù)是否準確可靠，即使數(shù)據(jù)符合統(tǒng)計運算規(guī)則，也要辨識是否有臨床實際意義，這就需要研究者根據(jù)研究目的，結合臨床研究受眾實際情況，正確地分析、表達研究結果，科學合理地推導結論，通過統(tǒng)計思維的培養(yǎng)，提高醫(yī)學研究水平，以保證研究結果的真實性與科學性。