◆王吉善 陳曉紅 馬謝民 李紹剛 馬 雯 宋景晨
責(zé)任編輯:劉蘭輝
“大數(shù)據(jù)”的概念來源于互聯(lián)網(wǎng),其要求的數(shù)據(jù)分析已經(jīng)遠(yuǎn)非目前的統(tǒng)計(jì)技術(shù)能夠?qū)崿F(xiàn)。有研究認(rèn)為[1],在大數(shù)據(jù)時(shí)代到來之時(shí),傳統(tǒng)的社會(huì)學(xué)、統(tǒng)計(jì)學(xué)從業(yè)者面對(duì)半道殺出來的計(jì)算機(jī)背景的互聯(lián)網(wǎng)數(shù)據(jù)挖掘者,就好比波蘭騎兵面對(duì)德國坦克一樣脆弱。
大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)特點(diǎn)對(duì)傳統(tǒng)的抽樣分析提出挑戰(zhàn),對(duì)抽樣分析結(jié)果的代表性及可靠性提出質(zhì)疑。讓我們簡單剖析近期發(fā)表在《健康報(bào)》的案例,以便引起大家對(duì)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)分析新特點(diǎn)的思考。
《健康報(bào)》2014年8月13日頭版刊登了一篇題為《急性心梗治療效果10年無改善》的文章[2]。我國權(quán)威的專家指出:2001年~2011年,我國急性心梗住院患者人數(shù)增長了4倍,但住院病死率及主要并發(fā)癥發(fā)生率等并無明顯下降。這個(gè)結(jié)論值得商榷。
首先,是抽樣數(shù)據(jù)的量可能還不夠大。因?yàn)槲恼轮袥]有介紹樣本的總體規(guī)模。根據(jù)調(diào)查研究的需要,確定樣本量的總體規(guī)模,是整個(gè)抽樣的前提??傮w規(guī)模涵蓋不全面,可導(dǎo)致抽樣誤差和結(jié)果的無效。本組案例隨機(jī)抽取的18 631病例來自162家醫(yī)院,分別抽取2001年、2006年、2011年 3年的數(shù)據(jù),平均每家醫(yī)院3年僅抽取了115個(gè)案例。這里僅包括63家城市大醫(yī)院。一般情況下,大醫(yī)院每年收治的急性心梗病人均在數(shù)百例乃至幾千例。因此,我們認(rèn)為抽取的樣本量太少,不符合統(tǒng)計(jì)學(xué)要求。因此,由于樣本量不足,可能存在抽樣誤差。
其次,把63家城市大醫(yī)院和99家縣級(jí)醫(yī)院的數(shù)據(jù)放在一起統(tǒng)計(jì)也顯得不夠合理。我們做過調(diào)查,我國二級(jí)醫(yī)院在技術(shù)與規(guī)模方面差距非常大。較大的二級(jí)醫(yī)院床位可達(dá)1 000余張,較小的二級(jí)醫(yī)院床位僅在一兩百張,且不具備開展救治急性心梗的條件。許多省市的醫(yī)政部門明確規(guī)定二級(jí)縣醫(yī)院不準(zhǔn)開展急性心梗的再灌注治療與冠脈支架成型手術(shù)治療。因此,把這樣兩組樣本放在一起籠統(tǒng)的下結(jié)論,方法不當(dāng)且顯得不夠合理。
2013年,受原衛(wèi)生部醫(yī)管司的委托,衛(wèi)生部醫(yī)院管理研究所與北京大學(xué)醫(yī)學(xué)部合作,調(diào)查了43家大型綜合醫(yī)院的相關(guān)數(shù)據(jù)。43家醫(yī)院3年急性心梗的全部病例為54 271例。急性心梗全樣本分析的結(jié)果是住院死亡率呈逐年下降趨勢,2010年 6.46%,2011年5.96%,2012 年 5.33%。2011 年與2012年的結(jié)果略低于美國2013年公布的急性心梗平均死亡率6.03%的水平。且我國 PCI的住院死亡率也是呈逐年下降的趨勢,許多大型綜合醫(yī)院的死亡率都低于美國1.75%的平均水平。
從上述結(jié)果可以看出,急性心梗死亡率是逐年下降的,救治的質(zhì)量是緩慢提升的。這與救治質(zhì)量的持續(xù)改進(jìn)密切相關(guān)。近年來,在急性心梗救治方面出臺(tái)了一系列的制度和規(guī)范。比如建立CCU、急診的綠色通道,實(shí)施 PCI技術(shù),制定急性心梗新的救治規(guī)范,開展急性心梗的單病種質(zhì)量評(píng)價(jià)等,這些都對(duì)成功救治起到了積極作用。
急性心梗是威脅老百姓生命健康的常見、多發(fā)重大疾病,是縣級(jí)醫(yī)院每天都要面對(duì)的救治任務(wù),縣醫(yī)院又是基層醫(yī)療網(wǎng)的龍頭。我國大型綜合醫(yī)院如北京協(xié)和醫(yī)院、中國醫(yī)學(xué)科學(xué)院阜外心血管醫(yī)院等都為基層醫(yī)院開展急性心梗的救治做了大量的幫扶工作。由于該病的突發(fā)性與急、危、重等特點(diǎn),對(duì)于偏遠(yuǎn)的、交通不便的縣醫(yī)院應(yīng)從政策上、設(shè)備設(shè)施、人才培養(yǎng)與技術(shù)幫扶上給予更大的支持,使急性心梗的救治技術(shù)能更普遍的開展,使更多的病人得到有效治療。
大數(shù)據(jù)時(shí)代統(tǒng)計(jì)分析應(yīng)轉(zhuǎn)變思路,統(tǒng)計(jì)方法應(yīng)與時(shí)俱進(jìn)。在計(jì)算機(jī)技術(shù)飛速發(fā)展的今天,我們?nèi)绾问褂靡呀?jīng)儲(chǔ)備的大量資料進(jìn)行全樣本分析,應(yīng)該是大數(shù)據(jù)時(shí)代統(tǒng)計(jì)分析的新特征。
目前,我國醫(yī)院HIS系統(tǒng)建設(shè)在逐漸完善,各醫(yī)院的HIS系統(tǒng)儲(chǔ)存了大量的數(shù)據(jù),就像一個(gè)大的數(shù)據(jù)倉庫。做好數(shù)據(jù)的挖掘與利用,是當(dāng)前研究工作的重要任務(wù)。2012年3月29日,美國奧巴馬政府推出“大數(shù)據(jù)研究與開發(fā)計(jì)劃”,提出“通過收集、處理龐大而復(fù)雜的數(shù)據(jù)信息,從中獲得知識(shí)和洞見,提升能力,加快科學(xué)、工程領(lǐng)域的創(chuàng)新步伐,強(qiáng)化美國國土安全,轉(zhuǎn)變教育和學(xué)習(xí)模式”。
美國??怂剐侣劸W(wǎng)1月8日《中國墮胎率上升,年輕女性成為目標(biāo)人群》一文報(bào)道:政府統(tǒng)計(jì),2008年有920萬例墮胎手術(shù),而2007年是760萬例。目前高達(dá)1 300萬。這一數(shù)字是整體數(shù)據(jù),而不是抽樣數(shù)據(jù)。
隨著大數(shù)據(jù)在醫(yī)療與生命科學(xué)研究過程中的廣泛應(yīng)用,其數(shù)量和種類也在增大。比如,一個(gè) CT圖像含有大約150MB的數(shù)據(jù),而一個(gè)基因組序列文件大小約為750MB,一個(gè)標(biāo)準(zhǔn)的病理圖則大得多,接近5 GB。
但是,這一切隨著醫(yī)院信息化的發(fā)展,今后都不會(huì)成為問題。在醫(yī)院信息化1.0時(shí)代,IT系統(tǒng)都是圍繞應(yīng)用構(gòu)建的,一個(gè)業(yè)務(wù)系統(tǒng)通常要配置一套獨(dú)立的硬件和軟件,因此形成了大量信息孤島。醫(yī)院信息化 1.0時(shí)代,為 PACS、RIS和HIS等業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)支撐是醫(yī)院信息化工作的核心。
進(jìn)入醫(yī)院信息化2.0時(shí)代,醫(yī)院信息化的建設(shè)重點(diǎn)逐漸轉(zhuǎn)移到電子病例的建立和普及上,而構(gòu)建電子病例系統(tǒng)的前提是實(shí)現(xiàn)RIS、PACS及HIS等系統(tǒng)的無縫鏈接和信息共享,同時(shí)實(shí)現(xiàn)一體化的訪問和控制。
醫(yī)院信息化3.0的目標(biāo)是構(gòu)建完善的區(qū)域醫(yī)療體系,這在很大程度上還要依賴云計(jì)算技術(shù)。醫(yī)院信息化的發(fā)展與計(jì)算方法的進(jìn)步,為科學(xué)改進(jìn)信息統(tǒng)計(jì)提供良好的平臺(tái)。
2010年,國家公布的“十二五”規(guī)劃中指出要重點(diǎn)建設(shè)國家級(jí)、省級(jí)和地市級(jí)三級(jí)衛(wèi)生信息平臺(tái),建設(shè)電子檔案和電子病歷兩個(gè)基礎(chǔ)數(shù)據(jù)庫等,也就是推進(jìn)醫(yī)療信息化的“3521”工程。
在大數(shù)據(jù)時(shí)代,海量數(shù)據(jù)和良好的機(jī)器計(jì)算能力,為人們提供了新的視野,利用數(shù)據(jù)間的相互聯(lián)系能夠解決日常很多需要。傳統(tǒng)的數(shù)據(jù)分析技術(shù)已很難滿足人們對(duì)數(shù)據(jù)蘊(yùn)涵知識(shí)的需求。還應(yīng)該看到,在一個(gè)數(shù)據(jù)和信息量“爆炸”的知識(shí)經(jīng)濟(jì)時(shí)代即大數(shù)據(jù)時(shí)代,超大型數(shù)據(jù)庫已遍及社會(huì)與生命科學(xué)、醫(yī)學(xué)等諸多領(lǐng)域。因此有人提出,今后社會(huì)的競爭不是勞動(dòng)生產(chǎn)率的競爭,而是知識(shí)生產(chǎn)率的競爭。數(shù)據(jù)是信息的基礎(chǔ),是知識(shí)的源泉,能夠創(chuàng)造極大的價(jià)值。因此,未來基于知識(shí)的競爭將集中表現(xiàn)于數(shù)據(jù)競爭,而未來的數(shù)據(jù)競爭又將是大數(shù)據(jù)的競爭,大數(shù)據(jù)的收集、整理、分析和發(fā)布能力將成為關(guān)鍵之所在。
大數(shù)據(jù)分析的經(jīng)濟(jì)價(jià)值,已經(jīng)開始撼動(dòng)社會(huì)的方方面面。同時(shí),大數(shù)據(jù)時(shí)代也向包括統(tǒng)計(jì)在內(nèi)的傳統(tǒng)領(lǐng)域提出了挑戰(zhàn),醫(yī)院管理者、臨床專家需要做好充足的準(zhǔn)備,以迎接大數(shù)據(jù)時(shí)代所帶來的變化與挑戰(zhàn)。
[1]耿 直.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014,31(1):5-9.
[2]譚 嘉,王 丹.急性心梗治療效果10年無改善[N].健康報(bào),2014-08-13(1).
[3]姜奇平.大教據(jù)時(shí)代到來[J].互聯(lián)網(wǎng)周刊,20l2(11):18-20.
[4]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].南寧:廣西師范大學(xué)出版社,2012.
[5]維克托·邁爾·舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013.
[6]鄭京平,王全眾.官方統(tǒng)計(jì)應(yīng)如何面對(duì) Big Data的挑戰(zhàn)[J].統(tǒng)計(jì)研究,2012(12):3-7.