高祥蘭 周楠 蔡翔 穆尚海
摘? 要: 對(duì)我國發(fā)生非洲豬瘟期間(2018年5月—2019年9月)的百度指數(shù)與該種疾病爆發(fā)的關(guān)聯(lián)性進(jìn)行研究,采用以省份為區(qū)域分組的二元Logistic回歸模型,通過對(duì)17個(gè)地區(qū)數(shù)據(jù)的擬合,分別提前3周、提前2周、提前1周及當(dāng)周預(yù)測(cè)了非洲豬瘟早期爆發(fā)的區(qū)域.研究結(jié)果表明:預(yù)測(cè)的準(zhǔn)確率均高于91.2%,可作為對(duì)傳統(tǒng)監(jiān)測(cè)系統(tǒng)的有力補(bǔ)充.
關(guān)鍵詞: 大數(shù)據(jù); 百度指數(shù); 預(yù)測(cè); 非洲豬瘟
中圖分類號(hào): TP 274??? 文獻(xiàn)標(biāo)志碼: A??? 文章編號(hào): 1000-5137(2022)02-0232-05
GAO XianglanZHOU NanCAI XiangMU Shanghai
(1.School of Information, Shanghai Lida University, Shanghai 201609, China;2.School of Management, Shinawatra University, Pathum Thani 12160, Thailand;3.School of Business, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)
The relevance between Baidu Index during African Swine Fever occurred from May 2018 to September 2019 in China and the breakout of the disease was studied in this paper. By means of fitting the data of 17 districts, the area where African Swine Fever would outbreak was successfully predicted by the binary Logistic regression model 3, 2, 1 weeks in advance and in that week respectively. The results showed that the accuracy of the prediction was over 91.2% without exception, which could be a valuable supplement to the traditional monitoring system.
big data; Baidu index; prediction; African Swine Fever
0? 引 言
2018年以來,世界多地陸續(xù)出現(xiàn)非洲豬瘟爆發(fā)的情況,非洲、歐洲和亞洲已有23個(gè)國家和地區(qū)受到非洲豬瘟的影響,截至2019年4月19日,我國31個(gè)省、直轄市及自治區(qū)都被波及.根據(jù)《2018年中國統(tǒng)計(jì)年鑒》數(shù)據(jù),我國年人均豬肉消費(fèi)達(dá)20.1 kg,非洲豬瘟的傳播大量減少了市場(chǎng)上生豬的供給,直接推高了豬肉價(jià)格.
基于網(wǎng)絡(luò)大數(shù)據(jù)的傳染病監(jiān)測(cè)預(yù)警研究最早出現(xiàn)在2009年,GINSBERG等利用谷歌搜索引擎搜索關(guān)鍵詞成功預(yù)測(cè)了流感爆發(fā),開啟了網(wǎng)絡(luò)搜索大數(shù)據(jù)在傳染病預(yù)測(cè)中的研究熱潮.同一時(shí)期及隨后,HULTH等采用網(wǎng)絡(luò)搜索關(guān)鍵詞對(duì)流感的預(yù)測(cè)和監(jiān)測(cè)進(jìn)行研究,提出搜索關(guān)鍵詞對(duì)流感預(yù)測(cè)具有明顯的指向性.SANTILLANA等對(duì)組合網(wǎng)絡(luò)搜索關(guān)鍵詞和傳統(tǒng)監(jiān)測(cè)數(shù)據(jù)進(jìn)行研究,提出網(wǎng)絡(luò)大數(shù)據(jù)結(jié)合傳統(tǒng)監(jiān)測(cè)數(shù)據(jù)的預(yù)測(cè)方法,顯著改善了傳統(tǒng)監(jiān)測(cè)數(shù)據(jù)的預(yù)測(cè)水平.其他與流感相關(guān)的大數(shù)據(jù)也被用于對(duì)流感預(yù)測(cè)的研究,例如非處方藥銷售數(shù)據(jù)、學(xué)生出勤數(shù)據(jù)及微博等社交平臺(tái)數(shù)據(jù)等,且都具有一定的有效性.然而,以上研究大多誤差率較高,且絕大多數(shù)只是針對(duì)流感、登革熱、禽流感及埃博拉病毒,幾乎沒有動(dòng)物傳染病,例如非洲豬瘟的監(jiān)測(cè)預(yù)警研究記錄,存在明顯的研究缺口.
本研究以27個(gè)搜索關(guān)鍵詞組成的百度搜索指數(shù)為自變量,以非洲豬瘟發(fā)生可能性為二元因變量,采用二元Logistic回歸模型進(jìn)行預(yù)測(cè)擬合,以期能盡早預(yù)測(cè)非洲豬瘟的爆發(fā).
1? 數(shù)據(jù)來源和研究方法
通過中國農(nóng)業(yè)部官網(wǎng)非洲豬瘟專題(http://www.moa.gov.cn/ztzl/fzzwfk/yqxx/index.htm),獲取我國非洲豬瘟報(bào)告發(fā)生統(tǒng)計(jì)數(shù)據(jù),包括省份、縣市、發(fā)生日期、存欄數(shù)量、發(fā)病數(shù)量、死亡數(shù)量,以周為單位判斷非洲豬瘟是否發(fā)生,作為模型的因變量.獲取2018年5月7日—2019年9月15日(71周)期間27個(gè)搜索詞的每日百度指數(shù)、全國每日資訊指數(shù)及全國每日媒體指數(shù)作為生成自變量的原始數(shù)據(jù),數(shù)據(jù)來源網(wǎng)址為http://index.baidu.com/v2/main/index.html#/trend/.自變量定義如表1所示.
采用二元Logistic模型,計(jì)算跨越整個(gè)研究周期內(nèi)按周統(tǒng)計(jì)的非洲豬瘟發(fā)生率與百度關(guān)鍵詞搜索指數(shù).非洲豬瘟發(fā)生率使用超前1階、超前2階、超前3階得到了3個(gè)變化量.“超前”定義為將非洲豬瘟發(fā)生率移動(dòng)到百度關(guān)鍵詞搜索指數(shù)之前,“滯后”的意義相反.假設(shè)超前周預(yù)測(cè)第周發(fā)生非洲豬瘟的可能性為:
2? 基于百度關(guān)鍵詞搜索指數(shù)的預(yù)測(cè)方法
當(dāng)周預(yù)測(cè)結(jié)果的回歸分析
將z?score標(biāo)準(zhǔn)化值作為影響因子,當(dāng)周非洲豬瘟發(fā)生率作為因變量,輸入71周數(shù)據(jù),建立回歸模型,部分結(jié)果如表2~4所示.
表3為回歸模型的似然比檢驗(yàn)結(jié)果,<0.05表示檢驗(yàn)結(jié)果不顯著,將擬合的結(jié)果納入模型變量中.由表3可見,回歸模型在江西(=0.150)、上海(=0.239)不具有顯著性,在其余地區(qū)具有顯著性(<0.05).
表4表明自變量zqindex4對(duì)于安徽(=0.004)、吉林(=0.039)、江蘇(=0.027)、內(nèi)蒙古(=0.007)的預(yù)測(cè)具有顯著性,對(duì)于河南(=0.298)、貴州(=0.213)的預(yù)測(cè)不具有顯著性.表4中的其余變量的預(yù)測(cè)結(jié)果顯著性存在差異,但有助于模型構(gòu)建和提高預(yù)測(cè)結(jié)果,故將其保留.
提前周預(yù)測(cè)回歸分析
將超前1周的因變量導(dǎo)入模型,結(jié)果表明:對(duì)于安徽、河南、湖南、吉林、江蘇、遼寧、山西、陜西、天津、浙江的預(yù)測(cè)結(jié)果具有顯著性,預(yù)測(cè)準(zhǔn)確率分別為95.7%,98.6%,92.9%,94.3%,97.1%,91.4%,95.7%,97.1%,98.6%,98.6%;對(duì)于內(nèi)蒙古(=0.087)和四川(=0.059)的預(yù)測(cè)不具備顯著性,預(yù)測(cè)準(zhǔn)確率均為92.9%.預(yù)測(cè)準(zhǔn)確率最高的河南、天津和浙江(均為98.6%),70個(gè)樣本中,共69個(gè)結(jié)果預(yù)測(cè)準(zhǔn)確(68個(gè)成功預(yù)測(cè)未發(fā)生,1個(gè)成功預(yù)測(cè)發(fā)生),有1個(gè)結(jié)果預(yù)測(cè)錯(cuò)誤(實(shí)際數(shù)據(jù)為發(fā)生,預(yù)測(cè)值為沒有發(fā)生).預(yù)測(cè)準(zhǔn)確率最低的是遼寧,70個(gè)樣本中,共獲得64個(gè)準(zhǔn)確預(yù)測(cè)(62個(gè)成功預(yù)測(cè)沒有發(fā)生,2個(gè)成功預(yù)測(cè)發(fā)生),預(yù)測(cè)中漏報(bào)發(fā)生4個(gè),誤報(bào)沒有發(fā)生為發(fā)生2個(gè).
提前1周預(yù)測(cè)回歸分析中,自變量zqindex4,zqindex14,zqindex21,zqindex19,zqindex22保留在回歸方程變量表中.
提前周預(yù)測(cè)回歸分析
將超前2周的因變量導(dǎo)入模型,預(yù)測(cè)結(jié)果表明安徽、河南、湖南、吉林、江蘇、遼寧、山西、四川、浙江具有顯著性,預(yù)測(cè)準(zhǔn)確率分別為98.6%,98.6%,94.2%,97.1%,98.6%,92.8%,95.7%,92.8%,100%.福建(=0.081)與青海(=0.53)的預(yù)測(cè)結(jié)果不具備顯著性,預(yù)測(cè)準(zhǔn)確率均為97.1%.預(yù)測(cè)準(zhǔn)確率最高的是浙江省(100%),69個(gè)樣本均被準(zhǔn)確預(yù)測(cè)(67個(gè)成功預(yù)測(cè)沒有發(fā)生,2個(gè)成功預(yù)測(cè)發(fā)生).預(yù)測(cè)準(zhǔn)確率最低的是遼寧和四川,其中四川的69個(gè)樣本中,共獲得64個(gè)準(zhǔn)確預(yù)測(cè)(63個(gè)成功預(yù)測(cè)沒有發(fā)生,1個(gè)成功預(yù)測(cè)發(fā)生),預(yù)測(cè)結(jié)果中漏報(bào)5個(gè)發(fā)生.
提前2周預(yù)測(cè)回歸分析中,自變量zqindex4,zqindex25,zqindex22,zqindex23,zqindex21,zqindex17,zqindex11保留在回歸方程變量表中.
提前周預(yù)測(cè)回歸分析
將超前3周的因變量導(dǎo)入模型,預(yù)測(cè)結(jié)果表明安徽、廣東、貴州、河南、湖南、江蘇、江西、遼寧、上海、四川、浙江具有顯著性,預(yù)測(cè)準(zhǔn)確率分別為95.6%,97.1%,92.6%,98.5%,92.6%,97.1%,100%,91.2%,98.5%,95.6%,98.5%.青海(=0.129)和重慶(=0.067)的預(yù)測(cè)結(jié)果不具有顯著性.其中預(yù)測(cè)準(zhǔn)確率最高的是江西,69個(gè)樣本均被準(zhǔn)確預(yù)測(cè)(68個(gè)成功預(yù)測(cè)沒有發(fā)生,1個(gè)成功預(yù)測(cè)發(fā)生).預(yù)測(cè)準(zhǔn)確率最低的是遼寧(91.2%),69個(gè)樣本中,共獲得62個(gè)準(zhǔn)確預(yù)測(cè)(61個(gè)成功預(yù)測(cè)沒有發(fā)生,1個(gè)成功預(yù)測(cè)發(fā)生),預(yù)測(cè)中漏報(bào)5個(gè)發(fā)生,誤報(bào)1個(gè).
提前3周預(yù)測(cè)回歸分析中,自變量zqindex4,zqindex25,zqindex22,zqindex23,zqindex21,zqindex17,zqindex11保留在回歸方程變量表中.
3? 結(jié)論
本研究基于關(guān)鍵詞的百度搜索指數(shù)網(wǎng)絡(luò)大數(shù)據(jù)對(duì)非洲豬瘟的發(fā)生進(jìn)行預(yù)測(cè),對(duì)搜索指數(shù)進(jìn)行預(yù)處理后,輸入二元回歸模型,實(shí)現(xiàn)了17個(gè)地區(qū)的有效預(yù)測(cè),最低預(yù)測(cè)成功率為91.2%,其中對(duì)于非洲豬瘟沒有發(fā)生的情況預(yù)測(cè)準(zhǔn)確率達(dá)到98.0%以上,對(duì)于非洲豬瘟首次爆發(fā)的預(yù)測(cè)較為準(zhǔn)確,對(duì)繼發(fā)的預(yù)測(cè)存在不足.27個(gè)初選關(guān)鍵詞中,9個(gè)關(guān)鍵詞被保留在最終模型中,其中7個(gè)關(guān)鍵詞在超前1~3周預(yù)測(cè)中具有普遍的指向性;另有2個(gè)關(guān)鍵詞在當(dāng)周預(yù)測(cè)中作用明顯.研究結(jié)果證實(shí)了基于百度關(guān)鍵詞的搜索指數(shù)可用作非洲豬瘟發(fā)生可能性的預(yù)測(cè).
參考文獻(xiàn):
[1]? GINSBERG J, MOHEBBI M H, PATEL R S, et al. Detecting influenza epidemics using search engine query data [J]. Nature,2009,457:1012-1014.
[2]? HULTH A, RYDEVIK G, LINDE A. Web queries as a source for syndromic surveillance[J]. PLOS One,2009,4(2):e4378.
[3]? SANTILLANA M, NGUYENA T, DREDZE M, et al.Combining search, social media, and traditional data sources to improve influenza surveillance [J]. PLOS Computation Biology,2015,11(10):e1004513.
[4]? 謝立, 楊旭輝, 王婧, 等. 基于非處方藥銷售的流感樣病例殘差預(yù)警研究 [J]. 中國預(yù)防醫(yī)學(xué)雜志,2014,15(8): 724-728.
[5]? 李印東, 王全意, 李玉堂, 等. 學(xué)校因病缺課監(jiān)測(cè)預(yù)警閾值的研究 [J]. 首都公共衛(wèi)生,2008,2(3):112-115.
[6]? JOHNSON H A, WAGNER M M, HOGAN W R, et al. Analysis of Web access logs for surveillance of influenza [J]. Study Health Technology Information,2004,107:1202-1206.
[7]? ZOU Y Q, PENG Y S, LI Z, et al. Monitoring infectious diseases in the big data era [J]. Science Bulletin,2015,60(1): 144-145.
(責(zé)任編輯:包震宇,郁慧)
上海師范大學(xué)學(xué)報(bào)·自然科學(xué)版2022年2期