目前可供個(gè)人使用的大數(shù)據(jù)工具主要有兩類,一類是來自醫(yī)學(xué)監(jiān)測機(jī)構(gòu)的大數(shù)據(jù),類似中國的疾控中心,美國的Carolinas Health Care,日本京都大學(xué)荒牧研究所等,以來自就診患者統(tǒng)計(jì)為主,輔以大數(shù)據(jù)分析手段,以顯示某地區(qū)目前流行病的發(fā)病情況為主,預(yù)測疾病流行走向?yàn)檩o;另一類則來自搜索引擎和數(shù)據(jù)分析機(jī)構(gòu),包括Google Trends的疾病預(yù)測,百度預(yù)測的疾病預(yù)測,以及基于社交搜索的sickwether、patientslikeme和融合性的Healthmap等,以預(yù)測疾病流行走向?yàn)橹?,展示區(qū)域發(fā)病情況為輔。
兩種數(shù)據(jù)工具的手段大同小異,區(qū)別只在于前者提供的數(shù)據(jù)多是針對大區(qū)域的、服務(wù)機(jī)構(gòu)的數(shù)據(jù)需要,后者則多針對小區(qū)域甚至某個(gè)城市商圈,為個(gè)人消費(fèi)者服務(wù)。
Google 預(yù)測曾經(jīng)很準(zhǔn)
谷歌流感預(yù)測(www.google.org/flutrends)早在2008年即已推出,原理是采用流感趨勢系統(tǒng)監(jiān)測全美的網(wǎng)絡(luò)搜索,尋找與流感相關(guān)的詞語,比如“咳嗽”和“發(fā)燒”等,并利用這些搜索結(jié)果來提前9個(gè)星期預(yù)測可能與流感相關(guān)的就醫(yī)量。
2009年在H1N1爆發(fā)幾周前,谷歌公司的工程師們在《Nature》上發(fā)表了一篇論文,介紹了GFT,成功預(yù)測了H1N1在全美范圍的傳播,甚至具體到特定的地區(qū)和州,而且判斷非常及時(shí),令公共衛(wèi)生官員們和計(jì)算機(jī)科學(xué)家們倍感震驚。
這個(gè)工具最初運(yùn)行表現(xiàn)很好,許多國家的研究人員已經(jīng)證實(shí),其流感樣疾病(influenza-like illness, ILI)的估計(jì)是準(zhǔn)確的,并且可以提前數(shù)周乃至數(shù)月,不像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。
但此后的2013年,《新科學(xué)家》發(fā)現(xiàn),在過去3年,該系統(tǒng)一直高估與流感相關(guān)的就醫(yī)量,在這類數(shù)據(jù)最有用的流感季節(jié)高峰期尤其預(yù)測不準(zhǔn)確。在2012/2013流感季節(jié),它預(yù)測的就醫(yī)量是美國疾控中心(CDC)最終記錄結(jié)果的兩倍;在2011/2012流感季節(jié),它高估了逾50%。
《scientists》雜志認(rèn)為,錯(cuò)誤源自一種被稱作大數(shù)據(jù)浮夸(Big Data Hubris)的算法變化,例如對模型的人工優(yōu)化,或是模型對某些不當(dāng)關(guān)鍵詞的自動(dòng)調(diào)整(例如某些搜索其實(shí)源于季節(jié)而非真實(shí)發(fā)病)。
芝加哥大學(xué)衛(wèi)生促進(jìn)研究中心博士后、衛(wèi)生經(jīng)濟(jì)學(xué)者陳茁也曾撰文分析了其中的原因。他認(rèn)為,谷歌搜索的結(jié)果和使用者人群“自我估計(jì)”的流感發(fā)病率相關(guān)。但在現(xiàn)實(shí)中,普通感冒在不同個(gè)體身上的嚴(yán)重程度上會(huì)有差別,有些患者因?yàn)閾?dān)心,便搜索了相關(guān)信息。這些搜索構(gòu)成了類流感“自我估計(jì)”中的“噪聲”。如果只用“谷歌流感趨勢”預(yù)測流感發(fā)病率就會(huì)存在問題。
陳茁認(rèn)為“谷歌流感趨勢”項(xiàng)目失誤的另外一個(gè)原因是在數(shù)據(jù)分析方面存在欠缺。哈佛大學(xué)Gary King和搭檔的研究就指出了谷歌項(xiàng)目在分析上的不足。首先,這個(gè)項(xiàng)目沒有盡可能利用傳統(tǒng)的統(tǒng)計(jì)分析手段來剔除系統(tǒng)誤差,比如殘差的自相關(guān)性和季節(jié)性;其次,“谷歌流感趨勢”忽略了其他數(shù)據(jù)的作用。如果結(jié)合美國疾控中心的數(shù)據(jù),谷歌的預(yù)測其實(shí)有可能被大大改善。
百度預(yù)測野心很大
百度的疾病預(yù)測(http://trends.baidu.com/disease/)于2014年6月上線,目前可以對全國34個(gè)省區(qū)、331個(gè)地市、2870個(gè)區(qū)縣、19個(gè)城市的2558個(gè)商圈的11種疾病進(jìn)行未來趨勢的預(yù)測,包括提供流感、肝炎、肺結(jié)核和性病等疾病的活躍度、流行指數(shù),以及各種疾病相關(guān)的城市和醫(yī)院排行榜,用戶可以查看過去 30 天以內(nèi)的數(shù)據(jù)和未來 7 天的預(yù)測趨勢。而且百度還在疾病預(yù)測的頁面上,整合了百度旗下其他優(yōu)勢產(chǎn)品資源,比如在頁面右下角提供了百度百科和百度健康的鏈接,用戶點(diǎn)擊過去就可以了解到有關(guān)當(dāng)前頁面疾病的各種相關(guān)知識(shí)。
百度疾病預(yù)測還加入了一些最新的技術(shù)成果和數(shù)據(jù)采集結(jié)果。例如,從公開資料來看,該產(chǎn)品模型的搭建一是通過歷史數(shù)據(jù)構(gòu)建統(tǒng)計(jì)規(guī)律性,比如流感或者手足口等疾病具有季節(jié)性周期的規(guī)律,二是通過研究疾病人數(shù)與其他相關(guān)數(shù)據(jù)的相關(guān)性來計(jì)算預(yù)測結(jié)果,同時(shí)從統(tǒng)計(jì)的角度來驗(yàn)證數(shù)據(jù)的正確性,以機(jī)器提供的數(shù)據(jù)為基礎(chǔ),加入對異常數(shù)據(jù)的監(jiān)控和分析。
而為了讓預(yù)測的準(zhǔn)確率更高,百度還做了另外兩方面的努力。其一是在數(shù)據(jù)合作上,不僅引入權(quán)威機(jī)構(gòu)的相關(guān)數(shù)據(jù)而且保持同步更新,這其中不僅包含數(shù)據(jù)互通,同時(shí)也會(huì)與合作方的專家進(jìn)行產(chǎn)品交流。
另一點(diǎn)不同在于,百度預(yù)測引入社交、天氣、人群遷徙等搜索之外的數(shù)據(jù),在搜索數(shù)據(jù)上,Google的query數(shù)據(jù)依賴于Google Correlation產(chǎn)品,而百度則是直接從原始日志中進(jìn)行清洗、消岐、擴(kuò)展和分析,相對來說,理論上更容易避免“春天感冒怎么辦”這樣的查詢影響結(jié)果。此外,百度的地理劃分可以細(xì)化到城市商圈,可以查詢的疾病也比Google多。
事實(shí)上,百度的“野心”遠(yuǎn)不止簡單的疾病預(yù)測,讓“大數(shù)據(jù)落地”是如今互聯(lián)網(wǎng)公司不得不做出的改進(jìn),而百度也將在醫(yī)療領(lǐng)域深化定制化的健康信息服務(wù)。
為了讓疾病預(yù)測不只是一堆數(shù)據(jù)的堆積,而成為“中國人的健康圖譜,老百姓實(shí)用的生活助手”,百度正在對此產(chǎn)品進(jìn)行優(yōu)化,希望繼續(xù)增加病種,以覆蓋常見傳染病和慢性病。
此外,“除了時(shí)空數(shù)據(jù),我們還會(huì)增加天氣、環(huán)境污染、用戶屬性數(shù)據(jù),希望能夠針對不同用戶,提供個(gè)性化的防病、健康信息推送。”百度相關(guān)負(fù)責(zé)人透露,百度疾病預(yù)測還將提供每日疾病指數(shù)等細(xì)化數(shù)據(jù),日后有望增加個(gè)人健康顧問、預(yù)防治療措施、求醫(yī)用藥指導(dǎo)等功能。
來源:ITBear、健康LIFE
《中國科學(xué)報(bào)》