云賀
大數(shù)據(jù)在疾病監(jiān)測領(lǐng)域依然大有可為,但僅靠在線數(shù)據(jù)進行疾病識別和預(yù)測存在一定風(fēng)險。
2008年,谷歌推出了一款名為“谷歌流感趨勢”(Google Flu Trends)的產(chǎn)品。工程師們假定:一旦人們患上流感,就可能會在搜索引擎上輸入特定的檢索詞條以獲得與流感相關(guān)的信息。通過匯總和分析這些檢索詞條,谷歌就能預(yù)測流感將在何時何地爆發(fā)。2009年,這款產(chǎn)品在甲型H1N1流感爆發(fā)幾周前成功預(yù)測了其在全美范圍的傳播。一時間,有關(guān)大數(shù)據(jù)開啟公共衛(wèi)生變革的觀點接踵而來。然而,2013年英國《自然》雜志刊文稱,在最近一次預(yù)測流感爆發(fā)趨勢時,谷歌所預(yù)測的流感病例數(shù)目幾乎是美國疾病控制與預(yù)防中心統(tǒng)計數(shù)據(jù)的兩倍。這是否意味著大數(shù)據(jù)在疾病監(jiān)測領(lǐng)域失去了價值?
近日,查塔姆學(xué)會全球衛(wèi)生安全中心兩位研究員邁克爾·埃德爾斯坦(Michael Edelstein)和大衛(wèi)·哈珀(David Harper),發(fā)表題為《在線數(shù)據(jù)助力高效應(yīng)對國際公共衛(wèi)生突發(fā)事件》的文章,通過探討數(shù)字疾病監(jiān)測在追蹤和預(yù)測疾病方面的應(yīng)用,提出了大數(shù)據(jù)在疾病監(jiān)測領(lǐng)域的發(fā)展機遇和目前面臨的問題。他們認為:大數(shù)據(jù)在疾病監(jiān)測領(lǐng)域依然大有可為,但僅靠在線數(shù)據(jù)進行疾病識別和預(yù)測是存在風(fēng)險的。
“數(shù)字疾病監(jiān)測”
數(shù)字疾病監(jiān)測(digital disease detection,簡稱“DDD”)是指通過收集和分析網(wǎng)絡(luò)在線數(shù)據(jù),在早期確認和追蹤疾病或公共衛(wèi)生事件的爆發(fā)。具體來說,DDD采用的方法包括:由個人自愿上報疾病癥狀,掃描媒體對于疾病的報道,分析人們發(fā)布在社交媒體上的信息,通過手機數(shù)據(jù)繪制出人口流動路線圖,總結(jié)一段時間以來人們在搜索引擎中鍵入關(guān)鍵詞的模式等。
盡管DDD早在1990年代中期就開始投入應(yīng)用,但直到谷歌流感趨勢推出,這一技術(shù)的影響力才有了切實的提升。目前,DDD已被廣泛應(yīng)用于傳染病暴發(fā)(如禽流感、埃博拉和寨卡病毒)以及一些慢性疾病(如失眠和肥胖問題)的識別和調(diào)查過程中。同時,DDD還被應(yīng)用于為出現(xiàn)疫情的熱點地區(qū)建立模型,以及收集其他公共衛(wèi)生事件的相關(guān)信息,如槍支暴力和衛(wèi)生保健質(zhì)量等。
查塔姆學(xué)會的文章認為,隨著DDD這一新興技術(shù)開始走向成熟,無論是其識別和預(yù)測疾病的準(zhǔn)確性,還是對于數(shù)據(jù)價值的挖掘都有了一些改善。目前,這一技術(shù)正在為越來越多的公共衛(wèi)生機構(gòu)所用。例如,當(dāng)埃博拉病毒在西非地區(qū)爆發(fā)時,手機數(shù)據(jù)被用于追蹤人口流動路線,以便能預(yù)測出哪些地區(qū)可能會產(chǎn)生新病例;再比如,通過人們發(fā)布在推特上的內(nèi)容,來識別和聯(lián)系那些可能會被食源性疾病爆發(fā)所影響的人員。
谷歌流感趨勢遇挫
雖然DDD的出現(xiàn)引發(fā)了公共衛(wèi)生領(lǐng)域的極大熱情,但在2012-2013年,它對疾病的實際預(yù)測能力卻遭到強烈質(zhì)疑。因為就在這一時期,谷歌流感趨勢被指出其預(yù)測的禽流感病例數(shù)目是實際數(shù)目的兩倍。2015年,谷歌流感趨勢不再對公眾開放。
然而,邁克爾·埃德爾斯坦和大衛(wèi)·哈珀卻認為,谷歌所遭遇的挫折并不能完全否定大數(shù)據(jù)對疾病監(jiān)測領(lǐng)域的價值。畢竟,谷歌流感趨勢曾不止一次準(zhǔn)確地提供了有關(guān)流感爆發(fā)的消息。這只能說明:僅僅依靠大數(shù)據(jù)技術(shù)來監(jiān)測公共衛(wèi)生事件是存在風(fēng)險的。
這種風(fēng)險在一定程度上來源于大數(shù)據(jù)應(yīng)用的核心,即通過捕捉事物間的相關(guān)關(guān)系——而非因果關(guān)系來預(yù)測未來?!督鹑跁r報》專欄作家、英國經(jīng)濟學(xué)家提姆·哈福德(Tim Harford)認為,如果不知道相關(guān)關(guān)系形成背后的原因,也就不知道造成相關(guān)關(guān)系破裂的原因。
實際上,對于谷歌預(yù)測失靈的一種解釋就是:2012年12月,網(wǎng)絡(luò)上充斥著有關(guān)流感爆發(fā)的恐怖消息,這使得那些健康的網(wǎng)民也會上網(wǎng)搜索有關(guān)流感的信息。而谷歌只是簡單地將“鍵入流感關(guān)鍵詞”與“患上流感”視為關(guān)聯(lián)關(guān)系,卻沒有深究人們搜索流感信息的真正動機是什么。
在《大數(shù)據(jù)時代》一書中,維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)和肯尼思·庫克耶(Kenneth Cukier)也曾提出:大數(shù)據(jù)不可能也不必要實現(xiàn)精確性。因此,要想實現(xiàn)在疾病監(jiān)測領(lǐng)域的真正價值,大數(shù)據(jù)應(yīng)該與那些以常規(guī)監(jiān)測為基礎(chǔ)的、傳統(tǒng)的疾病監(jiān)測系統(tǒng)形成互補關(guān)系,同時與其他那些可以提供疾病追蹤記錄的統(tǒng)計工具相結(jié)合。
難題待解
查塔姆學(xué)會的文章認為,大數(shù)據(jù)在疾病監(jiān)測領(lǐng)域依然大有可為,隨著相關(guān)技術(shù)的發(fā)展,DDD的應(yīng)用機會將不斷增加。不過,目前DDD在公共衛(wèi)生監(jiān)測領(lǐng)域的應(yīng)用中,還亟須解決兩個方面的難題。
一是,DDD怎樣才可以與官方的疾病監(jiān)測體系及應(yīng)急反應(yīng)機制相結(jié)合?目前,很少有政府衛(wèi)生部門對DDD數(shù)據(jù)進行常規(guī)應(yīng)用,而大多數(shù)能夠產(chǎn)生這些數(shù)據(jù)的組織都處于政府的疾病監(jiān)測和反應(yīng)機制之外,如學(xué)術(shù)、私營和非營利機構(gòu)等。這可能會導(dǎo)致這樣一種情況發(fā)生:某一公共衛(wèi)生事件的爆發(fā)雖然被監(jiān)測到了,但是對這一信息做出應(yīng)急反應(yīng)的責(zé)任機制卻沒有到位。
例如,在2015年11月,一個致力于通過分析網(wǎng)絡(luò)內(nèi)容以監(jiān)測傳染病爆發(fā)的小組注意到:巴西有關(guān)皮疹的報道數(shù)量呈現(xiàn)出顯著的上升趨勢。然而,由于沒有官方溝通渠道,這個小組沒能將此情況反饋給巴西衛(wèi)生部門或者世界衛(wèi)生組織。幾個星期之后,巴西寨卡病毒爆發(fā)的消息傳遍了全世界。而皮疹正是感染寨卡病毒最常見的癥狀之一。
二是,有關(guān)使用網(wǎng)絡(luò)數(shù)據(jù)的道德和法律問題。例如,如何去看待和處理那些屬于私人信息的數(shù)據(jù)?如何去平衡個人隱私權(quán)與公共利益之間的關(guān)系?目前上述問題還沒有得到充分解答。而公眾如何看待他們的在線數(shù)據(jù)被應(yīng)用于疾病監(jiān)測領(lǐng)域,現(xiàn)在業(yè)內(nèi)對此的了解和認識也十分匱乏。
兩位研究員在文章中表示:無論是DDD在公共衛(wèi)生領(lǐng)域中的定位,還是與此相關(guān)的道德與法律問題,現(xiàn)在都務(wù)必要得到解決,只有這樣才能確保DDD的潛力得到充分發(fā)揮。其中,各國政府和公共衛(wèi)生機構(gòu)的參與,將為可持續(xù)的數(shù)字疾病監(jiān)測系統(tǒng)提供重要推動力。如果不這樣做,大數(shù)據(jù)的應(yīng)用弱點將會重現(xiàn),最終將削弱整個疾病監(jiān)測系統(tǒng)對下一次類似埃博拉或寨卡疫情的預(yù)測和反應(yīng)能力。