張 揚 陳 軼
(南京工業(yè)大學建筑學院,南京 211816)
城市是人類經濟活動的高度聚集體,洪澇災害頻發(fā)會造成重大人員傷亡和高昂經濟損失,有效降低災害損失至關重要。社交媒體數據作為一種時空大數據,具有實時性和位置服務的特點,近年來,在美國、德國、日本等國家的洪水風險管理中得到運用。例如,美國通過社交媒體數據中的降雨強度文本評估災害全過程[1];德國使用社交媒體中帶有地理定位的照片快速繪制洪水淹沒地圖[2];日本將社交媒體數據與災害監(jiān)測數據有效整合,為應急管理人員提供早期預警等[3]。
有別于傳統(tǒng)遙感、氣象觀測數據在監(jiān)測災害進程、解析致災程度、模擬結果準確度等方面的不足,社交媒體數據可通過實時地理時空分析和災情信息傳遞實現快速救災部署,但也存在不容忽視的問題,如地理定位準確性和信息可信度不足[4]。如何進一步優(yōu)化社交媒體數據處理和分析的算法模型與技術,有效融合多源信息并運用于洪水風險管理全過程是目前研究的趨勢。針對現有洪水監(jiān)測技術的不足及社交媒體的優(yōu)勢,國內外學者積極探討社交媒體數據在洪水風險管理中的應用技術方法。本文選取最新的基于社交媒體數據的洪澇災害研究成果,歸納社交媒體洪水信息的提取與分析的技術手段,探討社交媒體數據在洪水風險管理中的應用方向。
社交媒體數據具有巨大的信息量,但其中存在許多無用或虛假的信息??紤]到大多數推文可能包含與洪澇事件無關的信息,因此,精準提取與洪水風險相關的有效信息是首要工作。按照常見的數據類型和處理方式可將現有社交媒體數據分為“文本”“圖像”“視頻”。
1.1.1 文本提取
早期社交媒體數據處理一般選用文本形式,現階段通常采用人工智能方法實現數據的分類和歸納,此外,基于深度學習的自然語言處理技術可以有效提升洪水信息的完整性和可靠性。如De Albuquerque 等[5]以2013 年德國洪水為例,通過將社交媒體與傳統(tǒng)地理數據相結合,發(fā)現洪澇嚴重地區(qū)與推文數量成正比。Wang 等[6]通過文獻回顧,探討了從空間、時間、內容和網絡4個方面挖掘的社交媒體數據在災害管理方面的研究進展,提出社交媒體數據應與統(tǒng)計數據、調查數據等相結合。Liu 等[7]通過分析中國新聞機構在社交媒體平臺推送的信息,進一步補充和校核中國自然災害數據庫。Mondal 等[8]通過構建檢測謠言信息的概率模型,提高了社交媒體數據災情分析的準確性。Gründer-Fahrer 等[9]以2013 年中歐洪水為例,使用主題模型(Topic Model Analysis)分析方法,通過分析社交媒體內容主題隨時間的發(fā)展,識別災害不同階段的特征。Yang等[10]以颶風“哈維”為例,通過構建可信度框架進一步提升Twitter 數據分析結果在災害管理的真實性和完整性。de Bruijn 等[11]通過構建全球歷史洪澇推文數據庫,實現全球范圍實時的洪澇動態(tài)監(jiān)測。Bai 等[12]運用機器學習模型對社交媒體數據的災害信息進行高效分類,為救災部署提供了及時的反饋信息。
1.1.2 圖像提取
隨著人工智能和機器學習技術的不斷發(fā)展,圖像的自動分類得以實現。支持向量機、決策樹、貝葉斯方法等傳統(tǒng)的分類計數方法已經廣泛應用于圖像分類領域,并取得了一定的成果。卷積神經網絡是近年來計算機視覺領域的一個研究熱點,其具有優(yōu)秀的特征提取和分類能力,在海量的社交媒體圖像信息的提取和解譯方面取得了突出成果,已成為圖像分類領域的主流方法之一。典型研究如:Chaudhary 等[13]基于計算機視覺系統(tǒng),提取社交媒體洪澇圖像水位數據,從而構建實時洪水地圖。Feng 等[14]以颶風“哈維”為例,采用深度卷積神經網絡技術,從社交媒體洪水圖像中提取水位數據,繪制洪水淹沒圖。Lopez-Fuentes等[15]運用神經網絡模型,通過分析社交媒體圖像中受洪水影響地區(qū)的道路的可通行性,提高了救援效率。
近年來,計算機硬件的進步推動了深度學習的應用,提升了將文本和圖像相結合的可能性,兩者同時提取和分析可以實現相互校核并提升準確性。典型研究如:Huang等[16]運用深度學習方法,實現文本與圖像相結合的災害數據自動提取。Wang 等[17]綜合運用基于深度學習的模型提取社交媒體數據中的圖像和文本,進一步識別災害不同階段造成的社會影響和受災位置信息。Fan 等[18]以颶風“哈維”為例,通過提取社交媒體數據中的文本和圖像信息,分析洪澇事件中的基礎設施中斷情況。
1.1.3 視頻提取
移動網絡和智能手機的快速發(fā)展使得社交媒體用戶可以實時、快速地分析視頻數據。視頻數據量大且具有動態(tài)特征,盡管已有研究表明從視頻中提取洪水風險信息的可行性,但相關研究仍舊較少。典型研究如:Michelsen 等[19]從YouTube 視頻中提取水位數據,彌補了缺乏監(jiān)測地區(qū)的洪水信息獲取的可能性。Jiang等[20]運用機器學習模型從視頻圖像中提取出城市內澇深度信息。Re等[21]將Twitter文本與YouTube視頻結合,補充了城市洪澇模擬的數據。
社交媒體數據作為一種地理空間大數據,為致災強度、災害損失和求助信息評估提供了新的途徑。但受制于個人隱私設置及受眾群,只有小于1%的社交媒體數據帶有準確的位置信息[22]。因此,社交媒體數據分析常與多源數據(如遙感數據、水文數據、其他媒體數據等)相結合,以補充和修正現有數據的不足。
1.2.1 單一社交媒體數據源
單一社交媒體數據源通常用于進行時間序列的災情分析和地理時空分析,典型研究如:Arthur等[22]通過Twitter推文中涉及地名的信息進一步推斷定位信息,并繪制高分辨率洪水風險地圖。Kankanamge等[23]以昆士蘭東南部洪水為例,通過提取社交媒體數據中的洪水信息識別嚴重受災區(qū)。Sattaru 等[24]以2015 年印度洪水為例,通過提取和處理含洪水信息的社交媒體推文,快速識別洪澇高風險區(qū)域。
1.2.2 社交媒體數據與遙感數據結合
遙感影像是早期洪澇災害研究中提取洪水范圍的主要數據源。然而,受城市化影響,城市中的建筑物和植物陰影的遮擋可能導致洪水監(jiān)測范圍出現誤差。此外,洪水監(jiān)測采用的遙感影像會受到天氣影響而導致延遲。因此,具有時效性的社交媒體數據可作為遙感數據源的有益補充,典型研究如:Fohringer 等[25]通過將社交媒體數據和遙感數據相結合,提取圖像信息中有關洪水深度和范圍的數據,實現洪水淹沒范圍和深度的實時監(jiān)測。Jongman 等[26]以菲律賓和巴基斯坦洪水為例,通過整合衛(wèi)星監(jiān)測的實時洪水信息和Twitter 的分析數據可實現洪水的位置、時間、成因和影響的快速確定。Li 等[27]通過文獻綜述,探討社交媒體與遙感數據整合的研究進展,表明社交媒體可以改進遙感數據在災害應急響應方面的不足。Huang 等[28]將社交媒體數據與遙感影像結合,突破了傳統(tǒng)洪水淹沒概率計算方法的局限性。Wang 等[29]提出一種融合異構數據的算法框架,利用遙感和社交媒體數據生成有效的洪水地圖,突破了單一數據的局限性。Xu等[30]將社交媒體數據和遙感圖像相結合,通過計算洪水淹沒概率生成更精確的洪水淹沒范圍圖。Bruneau 等[31]以颶風“哈維”為例,將Twitter 和遙感數據相結合估算洪水淹沒面積。Yang等[32]將社交媒體數據和遙感影像相結合評估長江三角洲地區(qū)洪澇災情信息。
1.2.3 社交媒體數據與水文數據結合
社交媒體數據與水文數據相結合可以有效實現水力模型的模擬洪澇與現實洪澇的相互校核,提升洪澇模擬結果的準確度。典型研究如:Lee提出通過融合多源數據的概率性框架(probabilistic framework)評估洪澇發(fā)生概率,增加洪水風險預測的準確性[33]。Annis 等[34]通過整合社交媒體數據與水文數據改進水力模型,實現實時的洪水風險圖。Scotti 等[35]以颶風“哈維”為例,將衛(wèi)星圖像、水力模型和社交媒體數據相結合,繪制出更精確的洪水風險地圖。Giler-Ormaza 等[36]以厄瓜多爾洪災為例,將YouTube 視頻、二維水力模型和DEM 模型相結合,準確估測了洪災后河流的流量峰值。
1.2.4 社交媒體數據與其他媒體數據結合
將多平臺社交媒體數據融合與網絡問卷、在線電子表格、報紙等其他媒體數據相結合,可作為單一社交媒體數據的補充,改進單一來源數據的質量,為洪水研究提供更全面的數據集合。典型研究如:Stephenson 等[37]搜集并對比Facebook 和Twitter 在洪水期間的社交媒體數據,發(fā)現不同的用戶結構和活動偏好導致了數據內容的差異。Wang等[38]從Twitter 和MyCoast 收集并驗證了洪水災害數據,表明社交媒體數據可以監(jiān)控大范圍地區(qū)的洪澇事件,但存在較多噪音;眾包數據更適合特定地點的洪水監(jiān)控且數據更可靠,兩者結合可以實現互補。Baranowski 等[39]利用Twitter數據和報紙?zhí)峁┑谋姲鼣祿治鎏K門答臘島洪水的氣象成因,提高了當地洪水風險的可預測性。
社交媒體數據與無人機攝像、遙感影像、水力數據等多源數據結合,可實現實時、動態(tài)的洪水監(jiān)測,從而提升洪澇預警的準確性和及時性,典型研究如:Restrepo-Estrada等[40]將社交媒體數據與遙感影像、水文數據等相結合,提高了洪澇模擬的精度,表明社交媒體數據可以改進洪水預警系統(tǒng)。Chen 等[41]以臺灣洪水為例,將從社交媒體文本中提取的災害信息與應急管理信息云數據結合,建立了更精準的預警機制。Shoyama 等[3]以2019 年日本東部臺風為例,對比分析洪澇相關推文數量與洪水監(jiān)測數據的時間變化,得出推文數量的暴發(fā)與災害事件的發(fā)生密切相關,并且根據推文與降雨量和水位數據的相關性特征,改進了洪澇災害預警機制。
時間序列的災情分析和地理時空分析是社交媒體數據應用于洪水風險管理的基本方法。早期,社交媒體數據的定位點直接表示在地圖上,后期的研究通過空間算法將帖文中具有位置信息(如地名)轉化為坐標。現階段的研究進一步將時間和空間相結合,進行時間序列災情變化的對比分析,典型研究如:Fang等[42]以2016年武漢暴雨為例,提取微博文本信息分析洪澇災害災前、災中、災后不同階段的特征及影響,并繪制洪澇災害熱點地圖。Zhao 等[43]通過提取微博文本中與臺風路徑相關的信息,繪制臺風路徑時空變化及受影響地區(qū)的災情圖。Arapostathis 等[44]通過計算機腳本自動處理社交媒體數據,生成洪澇時空演變圖。
基于社交媒體文本數據的情緒和行為分析也是學界熱點。早期的研究采用人工解譯和判斷的方法加上后期引入機器學習技術,通過訓練情緒分析模型實現自動化文本處理。現階段的研究將情緒和行為分析與時空數據相結合,分析災害動態(tài)變化特征及其對人群和社會造成的影響。典型研究如:Tyshchuk 等[45]利用社交媒體數據分析用戶對災害警報的行為反應,為應急管理人員采取措施提供參考。Cheng等[46]以武漢為例,分析了微博用戶在災害期間使用微博的行為特征,結果表明中國社交媒體用戶對災害事件的參與度低于西方國家,缺少政府與公眾的雙向溝通,社交媒體尚未被有效用于災害管理。Karmegam 等[47]以2015 年印度洪水為例,通過對災害期間Twitter數據中的負面情緒進行時空分析,識別出受災嚴重的地區(qū)和人群。Karami等[48]提出利用Twitter文本信息挖掘公眾擔憂情緒的分析框架,用以替代傳統(tǒng)民意調查分析。Zhang 等[49]以颶風“哈維”為例,通過對社交媒體文本信息的主題和情感分析,得到洪澇事件中基礎設施的中斷情況及社會影響。Geng等[50]以山東壽光市洪水為例,探討了微博用戶災害感知和響應行為的時空差異,表明社交媒體數據能夠有效拓寬社會感知的研究領域。
由于洪水造成的損壞是快速的,通過對社交媒體文本、圖像和視頻的解譯的可以提取災害損失信息,幫助災害管理者快速獲取災害損失狀況并及時地做出災害響應。同時,通過將社交媒體的災損信息與現有調查數據相結合,可以實現更精準的災損評估。典型研究如:Cervone等[51]以2013年科羅拉多洪水為例,通過提取社交媒體的位置信息與遙感影像相結合實現對交通基礎設施的快速災損評估。Hao 等[52]通過提取社交媒體有關災害的文本和圖像數據,補充了傳統(tǒng)的災損評估方法。Liu等[53]以2016年武漢洪水為例,整合社交媒體數據、POI數據等多源數據和洪水淹沒地圖,準確定位洪水淹沒道路并快速估計受影響人口。Tan等[54]以重慶洪澇為例,將社交媒體數據中的災損信息分為物理損失和情感損失兩類,評估并分析了兩個方面的損失程度和恢復狀況。Eckhardt 等[55]綜述了基于社交媒體數據的洪澇災害損失經濟評估方法,并以2019年里約洪澇災害為案例證明了該方法的可行性。
根據社交媒體用戶發(fā)布的災害求助信息,災害管理者通過提取相關推文識別不同群體的救災需求,從而優(yōu)化各項救災部署措施,典型研究如:Schempp等[56]提出以多源數據整合的分析框架模擬洪澇災害情境下的救災需求,優(yōu)化救援部署與物資分配。Lin 等[57]以武漢為例,通過從社交媒體、眾包等大數據中提取人口動態(tài)時空分布信息,準確估算救災物資的需求。Wu等[58]以2016年合肥暴雨為例,通過分析災前、災中、災后微博話題的轉變,提出相應的災害應對策略。Belcastro 等[59]通過分析社交媒體推文預先發(fā)現洪澇次生災害,為災害管理者制定應對措施提供參考。
社交媒體數據可作為傳統(tǒng)洪澇風險評估的補充數據源。相關的研究包括,Chong 等[60]以2015 年印度洪水為例,從Twitter 提取文本信息評估城市基礎設施韌性。Barker等[61]以英國洪水為例,通過挖掘全國范圍內的Twitter 災害地理數據,分析洪澇對社區(qū)的潛在影響。Wu 等[62]以鄭州為例,利用社交媒體數據建立洪澇脆弱性曲線模型,實現城市洪澇脆弱性的定量評估。Karimiziarani 等[63]以颶風“哈維”為例,基于社交媒體數據構建災害風險意識指數,用于評估縣級尺度居民的災害風險意識。
(1)實時的洪水信息。傳統(tǒng)的洪澇風險監(jiān)測信息來自氣象站、水文站、衛(wèi)星遙感等,觀測數據往往具有滯后性[35]。社交媒體數據可以更快提供最新的洪水風險信息,幫助應急管理部門快速掌握洪澇災害的實時變化趨勢,從而采取更精準的響應措施。社交媒體用戶通過分享洪澇災害相關的文本、圖片和視頻,有效傳遞雨情、水位、道路交通狀況、積水點等洪澇災情信息。
(2)多類型的洪水信息。社交媒體的洪水信息形式類型多樣,包括文本、圖片、視頻等。文本包含求助信息、災情、救災進展、災后恢復情況等,圖片和視頻涵蓋洪澇災害影響范圍、積水點具體位置、洪澇嚴重程度等,帶有地理定位的社交媒體數據為應急管理者提供了準確的需求信息。此外,社交媒體數據來源廣泛,包括公眾、新聞媒體、政府機構等多渠道[46],可以幫助管理者及時制定救災策略和恢復計劃。
(3)洪水信息可視化。將帶有洪水信息的社交媒體數據以地圖、圖表等形式可視化呈現,可以直觀地傳達洪澇災害的分布和變化趨勢信息。數據的可視化可以幫助應急管理者更快速地了解洪澇災情并制定相應的救災策略。
(1)數據質量與精度不足。社交媒體數據量大但相關帖文數量少[64],且存在位置信息誤差[65],致使其數據質量和精度不足。深度學習算法提高了從社交媒體數據提取信息的準確度,但依然難以控制原始數據質量[25]。例如由洪澇引發(fā)的通信設施中斷會影響用戶發(fā)送災情相關微博,或者受災者往往在撤離洪澇淹沒區(qū)后發(fā)微博,造成數據時間和定位標簽的偏差[29]。
(2)虛假信息大量存在。社交媒體平臺發(fā)布的信息未經證實,存在大量的虛假信息。虛假信息往往會影響社交媒體數據分析結果,甚至造成災害管理策略的錯誤部署。因此,識別和過濾虛假信息至關重要,針對謠言開發(fā)檢測模型成了目前研究者的重要關注點[8]。此外,還需要在數據分析階段對分析結果進行可信度評估,降低虛假信息的潛在影響[10]。
(3)用戶群體受限。社交媒體活躍用戶往往是年輕人,不能代表所有群體。城市往往比鄉(xiāng)村擁有更多的社交媒體使用者,在收入較高的社區(qū)其社交媒體的信息更容易受到關注,而收入較低的社區(qū)其信息往往受到忽視。此外,年輕人是社交媒體的主要用戶,而年長者較少使用社交媒體。為了更好地理解社交媒體在洪水風險管理中的作用和影響,需要考慮社交媒體的用戶差異,并將其納入決策過程中,以確保決策的公平性和全面性。
(4)文化差異影響。文化差異會影響社交媒體用戶對災害事件信息的描述,從而導致研究者對社交媒體文本解讀的偏差。此外,文化差異可能導致中英文社交媒體的用戶使用特點不同,需要采用不同的研究方法和策略。目前,社交媒體數據研究主要集中在以Twitter 為代表的英文平臺,而對中文社交媒體的研究相對較少。然而,在中國的城市洪澇災害事件中,社交媒體發(fā)揮了重要作用,尤其是在災害響應階段的信息共享和態(tài)勢感知方面。盡管如此,仍然存在一些問題,包括中文社交媒體數據的未充分利用及社交媒體活動中民眾和政府之間的雙向溝通不足等[46]。因此,對中文社交媒體的洪水風險管理研究值得進一步深入。
社交媒體作為應急管理部門的新興數據源,近年來受到越來越多的關注。由于觀測數據和遙感數據存在一定的滯后性,具有較強實時性和公眾參與性的社交媒體數據可以為應急管理部門提供更準確的洪澇災害時空分布信息,從而進行高效的救災部署。本文選取最新的研究成果,綜述了社交媒體洪水信息提取和應用的研究進展。
社交媒體數據具有豐富的社會感知信息和傳統(tǒng)調查數據無法比擬的大數據特征,一定程度上彌補了傳統(tǒng)觀測數據全面性、系統(tǒng)性的不足。研究方法上,從單一社交媒體的洪水信息的提取和分析,發(fā)展為多源數據與多學科的融合分析和應用,運用以機器學習為代表的算法模型優(yōu)化是近期研究的熱點。研究內容上,目前多采用帶有定位信息的社交媒體數據,初步反映洪澇災害的強度和空間分布,或用以輔助修正洪水風險分布圖。
社交媒體數據的應用可以涵蓋洪水風險管理的全過程,具體包括災前的洪澇監(jiān)測預警,災中的災情時空分析、受災群眾的情緒與行為分析,以及通過提取文本、圖像和視頻中的災損信息,實現精準的災后救災部署和交通基礎設施、住房、公共服務設施等多方面的災害損失評估。通過社交媒體數據反映的實時災情信息,可以提高災情統(tǒng)計結果的準確度;社交媒體中反映的受災群眾情緒與輿情走向,可以用于提高應急管理部門的管理效率。
目前,由于多方面原因,我國應急管理部門較少采用社交媒體數據部署救災工作,盡管社交媒體存在地理位置模糊、虛假信息等問題,但仍不可否認社交媒體數據能提供大量的社會感知信息,未來研究需要在社交媒體數據處理、多源數據融合及應急管理體系構建方面取得突破。