張義祥
(安徽財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與應(yīng)用數(shù)學(xué)學(xué)院, 安徽 蚌埠 233000)
隨著中國(guó)經(jīng)濟(jì)的高質(zhì)量發(fā)展,生態(tài)環(huán)境問(wèn)題日益成為了不可忽視的關(guān)鍵問(wèn)題。根據(jù)《江蘇省環(huán)境質(zhì)量報(bào)告(2019年上半年)》,江蘇省的環(huán)境空氣質(zhì)量整體優(yōu)于2018年同期。2019年上半年,江蘇省酸雨平均發(fā)生率為21.3%,遠(yuǎn)遠(yuǎn)高于2018年同期全省酸雨發(fā)生率,降水酸度和酸雨酸度也明顯增強(qiáng)。而SO2作為酸雨的主要成分,其排放應(yīng)受到嚴(yán)格的管控。據(jù)不完全統(tǒng)計(jì),全球每年人為排放SO2約1.5億t,其中,煤、石油等礦物質(zhì)燃燒釋放了70%以上;由自然活動(dòng)產(chǎn)生的SO2主要來(lái)源于生物腐爛,但數(shù)量很少。
工業(yè)企業(yè)是SO2的主要排放源,政府部門對(duì)工業(yè)企業(yè)的有效監(jiān)管是保證環(huán)境治理工作順利開(kāi)展的重要環(huán)節(jié)。雖然我國(guó)2015年開(kāi)始實(shí)施的《中華人民共和國(guó)環(huán)境保護(hù)法》中有多條對(duì)違規(guī)排放污染物者進(jìn)行懲處的規(guī)定,但是污染物的處理成本很高,仍然存在企業(yè)為了自身利益,對(duì)環(huán)境空氣監(jiān)測(cè)數(shù)據(jù)進(jìn)行造假的現(xiàn)象。而現(xiàn)行的政府監(jiān)管機(jī)制并不能有效地杜絕企業(yè)對(duì)環(huán)境空氣數(shù)據(jù)造假,主要是因?yàn)槠髽I(yè)對(duì)環(huán)境空氣監(jiān)測(cè)數(shù)據(jù)造假十分方便;此外,政府部門實(shí)地調(diào)查所消耗的人力資本過(guò)高。為了保證環(huán)境治理有序進(jìn)行,亟需一種新的手段來(lái)對(duì)企業(yè)排放污染物進(jìn)行監(jiān)督。
1881年,Simon Newcomb[1]發(fā)現(xiàn)對(duì)數(shù)表中靠前的頁(yè)數(shù)比靠后的頁(yè)數(shù)損壞得更加嚴(yán)重。通過(guò)大量的研究,Newcomb提出自然數(shù)首位有效數(shù)字出現(xiàn)的頻率可能并不相同,并給出了自然數(shù)前兩位有效數(shù)字的頻率分布,但是,Newcomb的發(fā)現(xiàn)并沒(méi)有引起關(guān)注。直到1938年,美國(guó)物理學(xué)家Frank Benford[2]也發(fā)現(xiàn)這一分布規(guī)律,Benford通過(guò)對(duì)20 000多個(gè)樣本數(shù)據(jù)進(jìn)行分析,給出了自然數(shù)首位有效數(shù)字分布的規(guī)律,如(1)式所示:
Benford的研究引起了廣泛的關(guān)注,這個(gè)規(guī)律也被稱為本福特定律。1995年,Hill[3]給出了本
福特定律的數(shù)學(xué)證明,并給出了第二位有效數(shù)字d2的頻率分布規(guī)律,如(2)式所示:
根據(jù)(1)和(2)式,表1中給出了前兩位有效數(shù)字的頻率分布。
表1 本福特定律前兩位有效數(shù)字頻率分布
本福特定律在國(guó)外的應(yīng)用較早,許多學(xué)者將該定律應(yīng)用到大數(shù)據(jù)準(zhǔn)確性檢驗(yàn)中,涉及面十分廣泛。Sowby[4]認(rèn)為美國(guó)大多用水?dāng)?shù)據(jù)都是采用自我報(bào)告形式,因此其準(zhǔn)確性很難評(píng)估,通過(guò)研究發(fā)現(xiàn),本福特定律可以用于美國(guó)供水?dāng)?shù)據(jù)的觀察。Vries等[5]通過(guò)研究發(fā)現(xiàn),本福特定律在生態(tài)毒理學(xué)數(shù)據(jù)的可靠性分析具有良好的應(yīng)用前景。Orita等[6]通過(guò)研究發(fā)現(xiàn)藥物領(lǐng)域的多個(gè)數(shù)據(jù)集都遵循本福特定律,并根據(jù)本福特定律提出了一個(gè)用于評(píng)估數(shù)據(jù)質(zhì)量的指標(biāo)。Hales等[7]運(yùn)用本福特定律為供應(yīng)鏈管理者提供一種將可疑數(shù)據(jù)隔離的方法。
近年來(lái),本福特定律逐漸被國(guó)內(nèi)學(xué)者廣泛應(yīng)用于大數(shù)據(jù)分析。龐新生等[8]運(yùn)用本福特定律對(duì)我國(guó)市縣層面住戶調(diào)查收支匯總數(shù)據(jù)進(jìn)行準(zhǔn)確性評(píng)估,來(lái)判斷是否存在造假嫌疑。白東杰等[9]通過(guò)研究發(fā)現(xiàn),社會(huì)消費(fèi)品零售總額數(shù)據(jù)分布與本福特定律的期望頻率偏差有縮小趨勢(shì),由此認(rèn)為調(diào)查數(shù)據(jù)質(zhì)量是可靠的。馮華英[10]通過(guò)研究發(fā)現(xiàn)本福特定律對(duì)煤礦安全數(shù)據(jù)真實(shí)性判定具有科學(xué)性和有效性。米子川等[11]運(yùn)用本福特定律驗(yàn)證了我國(guó)宏觀經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的真實(shí)性和客觀性,提高了我國(guó)統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。
目前,國(guó)內(nèi)外學(xué)者已經(jīng)對(duì)本福特定律進(jìn)行了大量的研究,但是本福特定律在環(huán)境數(shù)據(jù)方面的應(yīng)用卻很少,能夠搜索到的只有余云峰等[12]將本福特定律應(yīng)用到水文數(shù)據(jù)質(zhì)量研究以及胡友兵等[13]運(yùn)用本福特定律對(duì)水文徑流序列數(shù)據(jù)的分析。因此,本研究運(yùn)用本福特定律探索江蘇省SO2監(jiān)測(cè)數(shù)據(jù)的分布規(guī)律具有重要的意義。
本研究所使用的2015—2019年上半年SO2監(jiān)測(cè)數(shù)據(jù)均來(lái)自江蘇省生態(tài)環(huán)境廳,收集了江蘇省13個(gè)地級(jí)市的SO2監(jiān)測(cè)數(shù)據(jù)(部分站點(diǎn)存在缺失值,但是不影響數(shù)據(jù)分布的整體趨勢(shì))。數(shù)據(jù)不僅符合巨量特征,也具有良好的時(shí)效性。
本研究驗(yàn)證SO2的數(shù)據(jù)分布特征是否與本福特定律一致,可以使用的方法有卡方擬合度檢驗(yàn)、Kolmogorov-Smirnov擬合優(yōu)度檢驗(yàn)以及優(yōu)化Kuiper檢驗(yàn),但是,SO2數(shù)據(jù)量太大,上述這些方法的檢驗(yàn)統(tǒng)計(jì)量隨著樣本量的增大增加過(guò)快,臨界值過(guò)于保守,因此不能應(yīng)用于本研究的擬合情況檢驗(yàn)[14]。本研究擬采用Pearson相關(guān)系數(shù)檢測(cè)法來(lái)驗(yàn)證SO2數(shù)據(jù)的分布規(guī)律與本福特定律的擬合程度,通過(guò)計(jì)算二者之間的Pearson相關(guān)系數(shù)r,作為判斷樣本數(shù)據(jù)擬合程度的標(biāo)準(zhǔn)。
本研究為了驗(yàn)證江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字的頻率分布與本福特定律是否存在顯著性差異,分別計(jì)算了江蘇省13個(gè)地級(jí)市SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字的頻率分布,并給出了它們與本福特定律理論分布之間的相關(guān)系數(shù)r,相關(guān)結(jié)果如表2所示:
表2 各地級(jí)市SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布及其擬合程度
由表2可知,江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字的頻率分布與本福特定律理論分布十分接近,二者的Pearson相關(guān)系數(shù)達(dá)到了0.968,說(shuō)明二者的擬合程度很高。二者都呈現(xiàn)出了首位有效數(shù)字“1”出現(xiàn)的頻率最高,首位有效數(shù)字越大其出現(xiàn)的頻率相對(duì)較低的規(guī)律。但是,江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字的頻率分布與本福特定律依然存在一定的差異。整體來(lái)看,江蘇省首位有效數(shù)字“1”出現(xiàn)的頻率接近40%,顯著高于理論值,有效數(shù)字“2”~“7”出現(xiàn)的頻率低于理論值,有效數(shù)字“8”和“9”出現(xiàn)的頻率高于理論值;從各個(gè)地級(jí)市來(lái)看,雖然各個(gè)地級(jí)市與本福特定律的Pearson相關(guān)系數(shù)較高,但是各個(gè)有效數(shù)字出現(xiàn)的頻率與理論值相差較大。
為了進(jìn)一步探究江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字的分布規(guī)律,表3給出了13個(gè)地級(jí)市首位有效數(shù)字頻率分布之間的Pearson相關(guān)系數(shù)。
表3 各個(gè)地級(jí)市SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布之間的相關(guān)系數(shù)
由表3可知,江蘇省13個(gè)地級(jí)市SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字分布的Pearson相關(guān)系數(shù)基本都大于0.98,各個(gè)地級(jí)市SO2監(jiān)測(cè)數(shù)據(jù)的首位有效數(shù)字分布十分相似,這表明,江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布在不同地區(qū)之間非常穩(wěn)定。在江蘇省內(nèi),SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布受到地區(qū)的影響較小,但是,其分布又不完全服從于本福特定律。本研究認(rèn)為,SO2數(shù)據(jù)自身的特殊性,導(dǎo)致其分布規(guī)律與本福特定律不完全吻合,但是,綜合上面的分析可以得到,江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字的分布可能服從于一種類似于本福特定律的分布規(guī)律。
基于上述分析,本研究將江蘇省13個(gè)地級(jí)市SO2監(jiān)測(cè)數(shù)據(jù)匯總,得到江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布,用于監(jiān)管SO2監(jiān)測(cè)數(shù)據(jù)非自然異常波動(dòng),結(jié)果如表4所示:
表4 江蘇省SO2監(jiān)測(cè)數(shù)據(jù)的首位有效數(shù)字頻率分布
從表4可以看出,江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布與本福特定律十分相似,首位有效數(shù)字“1”出現(xiàn)的頻率最大,并且整體呈現(xiàn)出一種隨著有效數(shù)字增大,頻率下降的趨勢(shì),經(jīng)過(guò)計(jì)算,二者的Pearson相關(guān)系數(shù)為0.968,盡管Pearson相關(guān)系數(shù)較高,但是二者之間的差異不可忽視,這也說(shuō)明了SO2監(jiān)測(cè)數(shù)據(jù)自身的特殊性。為了進(jìn)一步說(shuō)明江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布規(guī)律與本福特定律的差異,圖1給出了二者的折線圖,可以看出江蘇省SO2監(jiān)測(cè)收據(jù)首位有效數(shù)字“1”出現(xiàn)的頻率較高,當(dāng)有效數(shù)字處在較低水平時(shí),江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字出現(xiàn)的頻率下降較快,整體來(lái)看,二者都呈現(xiàn)著下降的趨勢(shì)。
圖1 江蘇省SO2監(jiān)測(cè)數(shù)據(jù)分布與本福特定律的比較
目前,環(huán)境污染問(wèn)題成為我國(guó)發(fā)展道路上的嚴(yán)重阻礙,尤其是環(huán)境空氣污染,與人民的生活質(zhì)量息息相關(guān)。一方面要求政府積極采取環(huán)境污染防治措施,切實(shí)改善人民的生存環(huán)境和生活質(zhì)量;另一方面,需要一種基于非監(jiān)督式的算法,來(lái)探索數(shù)據(jù)的內(nèi)在特征和波動(dòng)規(guī)律,從數(shù)據(jù)的自身?xiàng)l件來(lái)甄別可疑數(shù)據(jù)。本研究通過(guò)對(duì)江蘇省13個(gè)地級(jí)市70多萬(wàn)條SO2監(jiān)測(cè)數(shù)據(jù)進(jìn)行分析,得到了江蘇省SO2監(jiān)測(cè)數(shù)據(jù)的分布規(guī)律,這種規(guī)律受到地區(qū)因素的影響較小,在各個(gè)地區(qū)間的分布十分穩(wěn)定,這說(shuō)明江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布確實(shí)呈現(xiàn)出某種規(guī)律性特征。
本研究具有一定的政策含義,文章利用大數(shù)據(jù)分析技術(shù)得到了江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率的分布規(guī)律,可以為政府部門提供一種甄別可疑SO2監(jiān)測(cè)數(shù)據(jù)的方法。將本研究得到的江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布規(guī)律作為理論分布,通過(guò)計(jì)算Pearson相關(guān)系數(shù),來(lái)判斷地方數(shù)據(jù)、企業(yè)數(shù)據(jù)是否存在顯著性差異。如果存在顯著性差異,則需要重點(diǎn)審查。
但是,將本福特定律應(yīng)用到SO2監(jiān)測(cè)數(shù)據(jù)的可疑甄別中,還存在一定局限性。筆者僅僅研究了江蘇省SO2監(jiān)測(cè)數(shù)據(jù)首位有效數(shù)字頻率分布規(guī)律,在江蘇省范圍內(nèi)的受到地域因素影響較小,對(duì)其他省或者其他環(huán)境空氣質(zhì)量數(shù)據(jù)尚未討論,未來(lái)需要更多的數(shù)據(jù)來(lái)對(duì)本研究的結(jié)果進(jìn)行穩(wěn)健性檢驗(yàn);對(duì)SO2監(jiān)測(cè)數(shù)據(jù)的造假檢驗(yàn),缺乏政府官方的造假案例數(shù)據(jù)支持,在理論上具有可行性,但是,實(shí)際操作依然存在較大的困難。這些不足,仍然需要進(jìn)一步討論。